KR20210104068A

KR20210104068A - 게놈 편집을 위한 신규한 crispr-cas 시스템

Info

Publication number: KR20210104068A
Application number: KR1020217020914A
Authority: KR
Inventors: 젱린 호우; 타우트비다스 카르벨리스; 비르기니유스 식스니스; 조슈아 케이. 용
Original assignee: 파이어니어 하이 부렛드 인터내쇼날 인코포레이팃드
Priority date: 2018-12-14
Filing date: 2019-12-13
Publication date: 2021-08-24
Also published as: EP3894550A4; CN113166744A; CA3117228A1; US20220073890A1; US20230119655A1; WO2020123887A2; US20210139874A1; JP2022514493A; AU2019398351A1; US20200190494A1; EP3894550A2; WO2020123887A3; US10934536B2; US20210163908A1; US11807878B2; BR112021011372A2; IL283853A

Abstract

신규한 Cas 엔도뉴클레아제를 이용하는, 세포의 게놈에서 표적 서열의 게놈 변형을 위한 조성물 및 방법이 제공된다. 상기 방법 및 조성물은 세포 또는 유기체의 게놈 내에서 표적 서열을 변형 또는 변경하기 위한 효과적인 시스템을 제공하기 위한 가이드 폴리뉴클레오티드/엔도뉴클레아제 시스템을 사용한다. 또한 이러한 시스템, 예컨대 엔도뉴클레아제를 포함하는 가이드 폴리뉴클레오티드/엔도뉴클레아제 시스템을 포함하는 신규한 효과기 및 엔도뉴클레아제 시스템 및 요소가 제공된다. 또한 선택적으로 적어도 하나의 추가적인 단백질 서브유닛에 공유적으로 또는 비공유적으로 연결되거나, 또는 조립된 적어도 하나의 엔도뉴클레아제를 포함하는 가이드 폴리뉴클레오티드/엔도뉴클레아제 시스템, 및 리보뉴클레오티드 단백질로서 엔도뉴클레아제의 직접 전달을 위한 조성물 및 방법을 제공한다.

Description

게놈 편집을 위한 신규한 CRISPR-CAS 시스템

관련 출원에 대한 상호 참조

본 출원은 2018년 12월 14일자로 출원된 미국 가출원 특허 제62/779989호, 2019년 1월 18일자로 출원된 미국 가출원 특허 제62/794427호, 2019년 3월 15일자로 출원된 미국 가출원 특허 제62/819409호, 2019년 5월 24일자로 출원된 미국 가출원 특허 제62/852788호 및 2019년 10월 10일자로 출원된 제62/913492호의 유익을 주장하며, 이들 모두는 본 명세서에 이들의 전문이 참조에 의해 포함된다.

전자적으로 제출된 서열목록에 대한 참조

서열목록의 공식 사본은 2019년 12월 9일에 작성되고 용량이 714,386 바이트이며 본 명세서와 동시에 제출된 파일명 RTS21920B_SequenceListing_ST25.txt의 ASCII 형식의 서열목록으로서 EFS-웹을 통해 전자적으로 제출되었다. 이 ASCII 형식의 문서에 포함된 서열목록은 본 명세서의 일부이며, 그 전체가 본 명세서에 참조에 의해 포함된다.

기술분야

본 발명은 분자 생물학 분야, 특히 신규한 RNA-가이드 Cas 엔도뉴클레아제 시스템의 조성물, 및 세포 게놈을 편집 또는 변형하기 위한 조성물 및 방법에 관한 것이다.

재조합 DNA 기술은 표적화된 게놈 위치에서 DNA 서열을 삽입하고/하거나 특정한 내인성 염색체 서열을 변형할 수 있도록 하였다. 부위 특이적 재조합 시스템을 사용한 부위 특이적 통합 기법뿐만 아니라 다른 유형의 재조합 기술이 다양한 유기체에서 관심 대상 유전자의 표적화된 삽입을 생성하는 데 이용되어 왔다. 게놈 편집 기법, 예컨대, 설계자 아연 핑거 뉴클레아제(zinc finger nuclease: ZFN), 전사 활성인자(activator) 유사 효과기 뉴클레아제(TALEN), 또는 귀소(homing) 메가뉴클레아제가 표적화된 게놈 교란을 생성하는 데 이용 가능하지만, 이들 시스템은 특이성이 낮고 각각의 표적 부위에 대해 재설계될 필요가 있는 설계된 뉴클레아제를 사용하는 경향이 있어, 제조에 많은 비용과 시간이 소요된다.

다양한 활성(DNA 인식, 결합, 및 선택적으로 절단)을 포괄하는 효과기 단백질의 상이한 도메인을 포함하는 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부(Clustered Regularly Interspaced Short Palindromic Repeat))라고 지칭되는 고세균 또는 세균의 적응 면역 시스템을 활용하는 새로운 기술이 확인되었다.

이러한 시스템 중 일부의 확인 및 특성규명에도 불구하고, 내인성 폴리뉴클레오티드 및 이전에 도입된 이종성 폴리뉴클레오티드의 편집을 달성하기 위해, 진핵생물, 특히 동물 및 식물에서의 활성을 입증하고 새로운 효과기 및 시스템을 확인할 필요성은 남아 있다.

본 명세서에 신규한 Cas 엔도뉴클레아제, "Cas-알파", 예시적인 단백질, 및 이의 사용을 위한 방법 및 조성물이 기재된다.

본 명세서에 신규한 Cas 엔도뉴클레아제 조성물 및 이의 사용 방법이 개시된다. 신규한 부류의 Cas-알파의 이들 엔도뉴클레아제는, 원핵생물(이콜라이(E. coli)) 및 3가지 상이한 계의 진핵생물(식물, 동물 및 진균)에서 입증되는 바와 같이, PAM-의존적 방식으로 이중-가닥 DNA를 표적화 및 절단하기 위해 가이드 폴리뉴클레오티드에 의해 가이드될 수 있다.

일 양상에서, 적어도 하나의 아연-핑거-유사 도메인, 적어도 하나의 브리지-나선-유사 도메인, 삼중-분할 RuvC 도메인(비인접 RuvC-I 도메인, RuvC-II 도메인 및 RuvC-III 도메인을 포함함)을 포함하고, 선택적으로 이종성 폴리뉴클레오티드를 포함하는, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공된다.

임의의 양상에서, 임의의 조성물 또는 방법에서, 진핵 세포, 특히 식물 세포, 진균 세포 또는 동물 세포에서의 발현을 위해 최적화된 적어도 하나의 성분이 제공된다.

일 양상에서, 하기로 이루어진 군으로부터 선택된 유기체로부터 유래된 CRISPR-Cas 효과기 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 합성 조성물이 제공된다: 아시디바실러스 설푸록시단스(Acidibacillus sulfuroxidans), 알리사이클로바실러스 아시도테레스트리스(Alicyclobacillus acidoterrestris), 아네우리니바실러스 다니쿠스(Aneurinibacillus danicus), 고세균, 바실러스(Bacillus), 바실러스 세레우스(Bacillus cereus), 바실러스 메가테리움(Bacillus megaterium), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 종(Bacillus sp.), 바실러스 튜링겐시스(Bacillus thuringiensis), 바실러스 토요엔시스(Bacillus toyonensis), 바실러스 위에드만니(Bacillus wiedmannii), 박테로이데스 플레베이우스(Bacteroides plebeius), 보스 타우루스(Bos taurus), 브레비바실러스 센트로스포루스(Brevibacillus centrosporus), 칸디다투스 아우레아박테리아 박테리움(Candidatus Aureabacteria bacterium), 칸디다투스 레비박테리아 박테리움(Candidatus Levybacteria bacterium), 칸디다투스 미크라르카에오타 고세균(Candidatus Micrarchaeota archaeon), 셀룰로실리티쿰 루미니콜라(Cellulosilyticum ruminicola), 클로스트리디오이데스 디피실(Clostridioides difficile), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 팔락스(Clostridium fallax), 클루스트리듐 히라노니스(Clostridium hiranonis), 클루스트리듐 이후미(Clostridium ihumii), 클루스트리듐 노비(Clostridium novyi), 클루스트리듐 파라푸트리피쿰(Clostridium paraputrificum), 클루스트리듐 파스테우리아눔(Clostridium pasteurianum), 클루스트리듐 페르프링겐스(Clostridium perfringens), 클루스트리듐 종(Clostridium sp.), 클루스트리듐 테타니(Clostridium tetani), 클루스트리듐 벤트리쿨리(Clostridium ventriculi), 데설포비브리오 프럭토시보란스(Desulfovibrio fructosivorans), 도레아 롱기카테나(Dorea longicatena), 유박테리움 시라에움(Eubacterium siraeum), 플라보박테리움 써모필룸(Flavobacterium thermophilum), 갈러스 갈러스(Gallus gallus), D형 간염 바이러스(Hepatitis delta virus), 호모 사피엔스(Homo sapiens), 인간 베타헤르페스바이러스 5, 하이드로게니버가 종(Hydrogenivirga sp.), 무스 무스쿨러스(Mus musculus), 파라게오바실러스 써모글루코시다시우스(Parageobacillus thermoglucosidasius), 펩토클로스트리듐 종(Peptoclostridium sp.), 파스콜락토박테리움 종(Phascolarctobacterium sp.), 프레보텔라 코프리(Prevotella copri), 루미니클로스트리듐 훈가테이(Ruminiclostridium hungatei), 루미노코커스 알버스(Ruminococcus albus), 루미노코커스 종(Ruminococcus sp.), 사카로마이세스 세레비시애(Saccharomyces cerevisiae), 유인원 바이러스 40(Simian virus 40), 솔라눔 투베로섬(Solanum tuberosum), 설푸리하이드로게니비움 아조렌스(Sulfurihydrogenibium azorense), 신트로포모나스 팔미타티카(Syntrophomonas palmitatica), 담배 식각 바이러스(Tobacco etch virus) 및 제아 메이스(Zea mays); 및 이종성 폴리뉴클레오티드.

일 양상에서, 진핵 세포, 이종성 CRISPR-Cas 효과기를 포함하는 합성 조성물이 제공되되; 상기 이종성 CRISPR-Cas 효과기 단백질은 800개 미만, 790 내지 800개, 790개 미만, 780 내지 790개, 780개, 780 내지 770개, 770개 미만, 770 내지 760, 760개 미만, 760 내지 750개, 750개 미만, 750 내지 740개, 740개 미만, 740 내지 730개, 730개 미만, 730 내지 720개, 720개 미만, 720 내지 710개, 710개 미만, 710 내지 700개, 또는 심지어 700개 미만의 아미노산, 예컨대 700개 미만, 790개 미만, 780개 미만, 750개 미만, 700개 미만, 650개 미만, 600개 미만, 550개 미만, 500개 미만, 450개 미만, 400개 미만, 350개 미만, 또는 심지어 350개 미만의 아미노산을 포함한다.

일 양상에서, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공되되, 상기 CRISPR-Cas 엔도뉴클레아제는 서열번호 17에 대해 정렬될 때, 서열번호 17의 아미노산 위치 번호에 대해, 337번 위치에서 글리신(G), 341번 위치에서 글리신(G), 430번 위치에서 글루탐산(E), 432번 위치에서 류신(L), 487번 위치에서 시스테인(C), 490번 위치에서 시스테인(C), 507번 위치에서 시스테인(C) 및/또는 512번 위치에서 시스테인(C) 또는 히스티딘(H) 중 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개 또는 7개를 포함한다.

일 양상에서, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공되되, 상기 CRISPR-Cas 엔도뉴클레아제는 다음의 모티프 중 하나, 둘 또는 셋을 포함한다: GxxxG, ExL 및/또는 하나 이상의 Cx_n(C,H)(여기서, n = 하나 이상의 아미노산).

일 양상에서, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공되되, 상기 CRISPR-Cas 엔도뉴클레아제는 하나 이상의 아연 핑거 모티프를 포함한다.

일 양상에서, 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371로 이루어진 군으로부터 선택되는 서열의 적어도 250개, 250 내지 300개, 적어도 300개, 300 내지 350개, 적어도 350개, 350 내지 400개, 적어도 400개, 또는 400개 초과의 인접한 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100% 또는 100%의 서열 동일성을 공유하는 CRISPR-Cas 효과기 단백질을 포함하는 합성 조성물이 제공된다.

일 양상에서, 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371로 이루어진 군으로부터 선택되는 폴리펩티드의 적어도 250개, 250 내지 500개, 적어도 500개, 500 내지 600개, 적어도 600개, 600 내지 700개, 적어도 700개, 700 내지 750개, 적어도 750개, 750 내지 800개, 적어도 800개, 800 내지 850개, 적어도 850개, 850 내지 900개, 적어도 900개, 900 내지 950개, 적어도 950개, 950 내지 1000개, 적어도 1000개, 또는 1000개 초과의 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100%의 서열 동일성을 공유하는 CRISPR-Cas 효과기 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 합성 조성물이 제공된다.

일 양상에서, 서열번호 57, 58, 59, 64, 65, 66, 67, 68, 73, 74, 75, 76, 77, 102, 103, 104, 105, 177, 178, 179, 180, 181, 182, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 230, 231, 232, 233, 234, 238, 240, 241, 245, 246, 247, 248, 252 및 253으로 이루어진 군으로부터 선택되는 RNA 서열의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 또는 30개 초과의 인접한 뉴클레오티드와 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100% 또는 100%의 서열 동일성을 공유하는 폴리뉴클레오티드와 혼성화할 수 있는 CRISPR-Cas 효과기 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 합성 조성물이 제공된다.

본 명세서의 임의의 방법 또는 조성물은 이종성 폴리뉴클레오티드를 추가로 포함할 수 있다. 이종성 폴리뉴클레오티드는 비암호화 조절 발현 요소, 예컨대, 프로모터, 인트론, 인핸서 또는 종결자; 공여자 폴리뉴클레오티드; 세포에서 폴리뉴클레오티드의 서열에 비해 적어도 하나의 뉴클레오티드 변형을 선택적으로 포함하는 폴리뉴클레오티드 변형 주형; 이식유전자; 가이드 RNA; 가이드 DNA; 가이드 RNA-DNA 혼성체; 엔도뉴클레아제; 핵 국재화 신호; 및 세포 수송 펩티드로 이루어진 군으로부터 선택될 수 있다.

일 양상에서, 본 명세서에 개시된 임의의 조성물을 이용하는 방법이 제공된다. 일부 실시형태에서, 예를 들어, 세포 게놈에서 또는 시험관내에서, Cas-알파 엔도뉴클레아제가 폴리뉴클레오티드의 표적 서열에 결합하는 방법이 제공된다. 일부 실시형태에서, Cas-알파 엔도뉴클레아제는 가이드 폴리뉴클레오티드, 예를 들어, 가이드 RNA와 복합체를 형성한다. 일부 실시형태에서, 상기 복합체는 표적 서열에서 또는 표적 서열 근처에서 폴리뉴클레오티드에 틈(하나의 가닥) 또는 파손(두 가닥)을 인식하고, 이에 결합하고, 선택적으로 이들을 생성한다. 일부 실시형태에서, 틈 또는 파손은 비상동성 말단연결(Non-Ho㏖ogous End Joining: NHEJ)을 통해 수선된다. 일부 실시형태에서, 틈 또는 파손은 폴리뉴클레오티드 변형 주형 또는 공여자 DNA 분자를 이용하여 상동 직접 수선(Homology-Directed Repair: HDR)을 통해 또는 상동성 재조합(Homologous Recombination: HR)을 통해 수선된다.

본 명세서에 기재된 신규한 Cas 엔도뉴클레아제는 임의의 원핵 또는 진핵 세포에서, 적절한 PAM을 포함하는 표적 폴리뉴클레오티드에 또는 이에 인접하여, 그리고 가이드 폴리뉴클레오티드에 의해 지시되는 이중-가닥 파손을 생성할 수 있다. 일부 경우에, 세포는 식물 세포 또는 동물 세포 또는 진균 세포이다. 일부 경우에, 식물 세포는 메이즈(maize), 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 담배, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된다.

도면 및 서열목록의 간단한 설명
본 발명은 본 출원의 일부를 구성하는 다음의 상세한 설명 및 첨부 도면 및 서열목록으로부터 더욱 완전하게 이해될 수 있다.
도 1a 내지 도 1d는 획득 및 간섭에 필요한 성분을 모두 포함하는 온전한 CRISPR-Cas 시스템을 도시한다. 이들은 CRISPR 어레이에 인접한 오페론-유사 구조에 획득 및 통합 스페이서(Cas1 및 Cas2)에 필요한 모든 단백질 및 DNA 절단 도메인인 Cas-알파(α)를 포함하는 신규한 단백질을 함께 암호화하는 유전자를 포함하였다. 추가적으로, Cas4에 대해 상동성을 갖는 단백질을 암호화하는 유전자는 또한 좌위에서 암호화되었다. 도 1a는 Cas-알파 1, Cas-알파 3 및 Cas-알파 4 시스템에 대한 좌위 구조를 도시한다. 도 1b는 Cas-알파2 시스템에 대한 좌위 구조를 도시한다. 도 1c는 Cas-알파 6 시스템에 대한 좌위 구조를 도시한다. 도 1d는 Cas-알파 5, 7, 8, 9, 10 및 11 시스템에 대한 좌위 구조를 도시한다.
도 2는 앞서 기재된 클래스 2 엔도뉴클레아제와 뚜렷한 차이를 도시하는 Cas-알파 단백질의 상세한 구조적 예시를 나타낸다. 보존된 잔기를 나타낸다. DNA 절단에 관련된 중요한 잔기는 별표로 나타낸다. 숫자는 Cas-알파 1 단백질에 대응한다.
도 3은 Cas-알파 엔도뉴클레아제를 발현시키는 세포 용해물을 이용하는, 이중 가닥 DNA 표적 인식 및 절단의 검출 방법을 도시한다.
도 4a 내지 도 4e는 뉴클레오티드 위치 21에서 Cas-알파 1 엔도뉴클레아제에 의한 표적 폴리뉴클레오티드의 절단을 나타낸다. 도 4a는 Cas-알파 1 음성 대조군에 대한 데이터를 나타내고, 도 4b는 CRISPR 어레이가 표적 폴리뉴클레오티드에서 절단을 지시하도록 변형된 전체(완전한) CRISPR 좌위를 이용하여 Cas-알파 1에 대한 데이터를 나타내며, 도 4c는 T7 프로모터를 이용하여 발현이 향상될 때 더한 Cas-알파 1 완전 좌위에 대한 데이터를 나타내고, 도 4d는 T7 프로모터를 이용하여 발현이 향상될 때 Cas-알파 1 최소 좌위에 대한 데이터를 나타내며, 도 4e는 발현이 T7 프로모터에 의해 향상될 때, Cas-알파 1은 없지만 CRISPR 좌위의 나머지가 있는 반응에 대한 데이터를 나타낸다.
도 5a 내지 도 5b는 스페이서 인식에 대한 PAM 인식 배향을 결정하기 위한 도식을 도시하며, 가이드 RNA(들)는 T2 표적의 센스 또는 안티센스 가닥 중 하나를 갖는 염기쌍에 대해 설계하였다. 센스 가닥을 갖는 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도의 회복을 초래하고 절단 신호를 수득한다면, 프로토스페이서는 안티-센스 가닥 상에 있고, PAM 인식은 이에 대해 3'에서 일어난다(도 5a). 대조적으로, 안티-센스 가닥과의 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도 및 절단 신호를 생성한다면, 프로토스페이서는 센스 가닥 상에 있고, PAM 인식은 이에 대해 배향 5'에서 일어난다(도 5b).
도 6a 내지 도 6e는 뉴클레오티드 24번 위치에서 Cas-알파 4 엔도뉴클레아제에 의한 표적 폴리뉴클레오티드의 절단을 나타낸다. 도 6a는 Cas-알파 4 음성 대조군에 대한 데이터를 나타낸다. 도 6b는 Cas-알파 4 플러스 T2-1 sgRNA에 대한 데이터를 나타낸다. 도 6c는 Cas-알파 4 플러스 T2-2 sgRNA에 대한 데이터를 나타낸다. 도 6d는 Cas-알파 4 플러스 T2-1 crRNA/tracrRNA에 대한 데이터를 나타낸다. 도 6e는 Cas-알파 4 플러스 T2-2 crRNA/tracrRNA에 대한 데이터를 나타낸다.
도 7a 내지 도 7k는 대표적인 Cas-알파 좌위, 엔도뉴클레아제, 단백질, 가이드 RNA 성분, 및 하기를 포함하는 다양한 박테리아 및 고박테리아(archaebacterial) 유기체로부터 확인된 기타 서열을 나타낸다: 칸디다투스 미크라르카에오타 고세균(도 7a, 도 7b, 도 7e), 칸디다투스 아우레아박테리아 박테리움(도 7c), 다양한 비배양 박테리아(도 7d, 도 7f), 파라게오바실러스 써모글루코시다시우스(도 7g), 아시디바실러스 설푸록시단스(도 7h), 루미노코커스 종(도 7i), 신트로포모나스 팔미타티카(도 7j), 및 클루스트리듐 노비(도 7k).
도 8a 내지 도 8k는 대표적인 Cas-알파 단백질에서 뚜렷한 구조적 특징을 나타내며, 단백질 서열은 볼드체이다. 각 아미노산 잔기 아래의 비-볼드체 특징은 가능한 2차 구조 특징을 나타내며, C는 비구조적 요소 또는 나선을 나타내고, E는 베타 가닥을 나타내며, H는 알파 나선을 나타낸다. 아연 핑거 도메인은 파선 박스로 도시되고, 별표는 아연 이온 결합에 관련된 중요한 아미노산 잔기를 나타낸다. 분할 RuvC 도메인의 RuvC 서브도메인은 실선 박스로 도시된다. 브리지 나선은 점선 박스로 도시된다. 또꼬인나선은 실선 원통으로 도시된다. 실선에 부호를 더한 것은 RuvC 도메인 모티프의 특징인 중요한 촉매적 잔기를 나타낸다. 도 8a는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1을 도시하고(서열번호 17), 도 8b는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2를 도시하고(서열번호 18), 도 8c는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3을 도시하고(서열번호 19), 도 8d는 비배양 박테리아로부터의 Cas-알파 4(서열번호 20)를 도시하며, 도 8e는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5를 도시하고(서열번호 32), 도 8f는 비배양 박테리아로부터의 Cas-알파 6(서열번호 33)을 도시하며, 도 8g는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7(서열번호 34)을 도시하고, 도 8h는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8(서열번호 35)을 도시하고, 도 8i는 루미노코커스 종(Ruminococus sp.)으로부터의 Cas-알파 9(서열번호 36)를 도시하고, 도 8j는 3개의 아연 핑거 도메인의 독특한 모티프를 특징으로 하는 신트로포모나스 팔미타티카로부터의 Cas-알파10(서열번호 37)을 도시하며, 도 8k는 클루스트리듐 노비로부터의 Cas-알파 11(서열번호 38)을 도시한다. Cas-알파 11을 포함하는 유기체의 전체 게놈 서열분석은 Cas-알파 좌위가 해당 유기체에서의 유일한 CRISPR 시스템이라는 것을 나타내었다.
도 9a는 Cas-알파 단백질 서브유닛이 표적 DNA와 가이드 RNA의 혼성 이중가닥과 상호작용하는 방법을 도시한다. 도 9b는 Cas 단백질, RuvC 도메인, 및 아연 핑거 모티프에 공통인 나선 헤어핀/브리지 나선 영역으로서 표시된 영역을 나타내는, Cas-알파 4의 C-말단 절반의 3차원 모델이다.
도 10a 내지 도 10d는 진핵 세포에서의 Cas-알파 엔도뉴클레아제의 사용을 위한 예시적 발현 작제물을 도시한다. 도 10a는 인간 세포 Cas-알파 DNA 발현 작제물의 예이다. 도 10b는 식물 세포 Cas-알파 DNA 발현 작제물의 예이다. 도 10c는 효모(사카로마이세스 세레비시애) Cas-알파 DNA 발현 작제물의 예이다. 도 10d는 유도성 효모(사카로마이세스 세레비시애) Cas-알파 DNA 발현 작제물의 예이다.
도 11a 내지 도 11d는 진핵생물 최적화된 Cas-알파 가이드 RNA 발현 작제물의 예를 도시한다. 도 11a는 인간 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11b는 식물 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11c는 효모(사카로마이세스 세레비시애) 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11d는 식물 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 다른 예이다.
도 12는 이콜라이에서 Cas-알파 엔도뉴클레아제의 재조합 발현 및 정제를 위한 조작된 유전자의 예를 도시한다.
도 13은 Cas-알파 엔도뉴클레아제 활성으로부터의 식물 세포에서의 이중 가닥 파손 수선 돌연변이를 나타낸다. 제아 메이스에서의 Cas-알파 4로부터 초래되는 돌연변이가 도시된다. WT 참조는 서열번호 120이고, 돌연변이 1은 서열번호 121이며, 돌연변이 2는 서열번호 122이고, 돌연변이 3은 서열번호 123이고, 돌연변이 4는 서열번호 124이다.
도 14a 내지 도 14b는 Cas-알파 엔도뉴클레아제 활성으로부터의 동물 세포에서의 이중 가닥 파손 수선 돌연변이를 나타낸다. 도 14a는 Cas-알파4 RNP 전기천공법으로부터 초래된 삽입결실 돌연변이(WT 참조 서열번호 126에 비교하여 서열번호 127 내지 131로서 주어진 VEGFA 표적 2 돌연변이 1 내지 5; VEGFA 표적 3(WT 참조 서열번호 132에 비교하여 서열번호 133로서 주어진 돌연변이)를 도시한다. 도 14b는 Cas-알파4 및 sgRNA DNA 발현 카세트 리포펙션으로부터 초래된 삽입결실 돌연변이 VEGFA 표적 3(WT 참조 서열번호 132에 비교하여 서열번호 134-135로서 주어지는 돌연변이 1 및 2)을 도시한다.
도 15a 내지 도 15d는 Cas-알파4 이중-가닥 DNA 표적 절단을 나타낸다. 도 15a는 PAM(5'-TTTR-3', 여기서 R은 A 또는 G bp를 나타냄)의 바로 3'에 가이드 RNA 표적(대략 20 bp)을 포함하는 수퍼코일(SC) 플라스미드 DNA가 선형 형태(FLL)로 완전히 전환되고, 따라서, dsDNA 파손의 형성을 도시한다는 것을 나타낸다. 추가적으로, 선형 DNA의 절단은 Cas-알파 4 매개 dsDNA 파손 형성을 추가로 입증하는 예상된 크기의 DNA 단편을 초래하였다. 도 15b는 dsDNA 표적을 절단하기 위해 Cas-알파 4가 PAM 및 가이드 RNA를 필요로 한다는 것을 나타낸다. 도 15c는 Cas-알파 4가 5' 엇갈린 돌출부(staggered overhanging) DNA 절단 부위를 생성하며, 절단은 PAM 서열에 대해 주로 20 내지 24 bp 위치 주변에 집중되어 일어난다는 것을 나타낸다. 도 15d는 가이드 RNA의 존재 하에서만 dsDNA에 의해 활성화된 Cas-알파 4의 트랜스-작용성 ssDNase 활성을 나타낸다.
도 16a 내지 도 16t는 Cas-알파 5를 제외하고 모든 Cas-알파 엔도뉴클레아제에 대한 이중 가닥 DNA 표적 절단 활성을 나타낸다. 도 16a는 음성 대조군(-IPTG)이다. 도 16b는 음성 대조군(+ IPTG)이다. 도 16c는 프로토스페이서 21번 위치에서 Cas-알파 2(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16d는 프로토스페이서 21번 위치에서 Cas-알파2(+IPTG)에 의한 이중-가닥 DNA 표적의 절단을 나타낸다. 도 16e는 Cas-알파 3(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16f는 프로토스페이서 21번 위치에서 Cas-알파 3(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16g는 Cas-알파 5(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16h는 Cas-알파 5(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16i는 Cas-알파 6(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16j는 프로토스페이서 24번 위치에서 Cas-알파 6(+IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16K는 프로토스페이서 24번 위치에서 Cas-알파 7(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16l은 프로토스페이서 24번 위치에서 Cas-알파 7(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16m은 Cas-알파8(-IPTG)에 의한 이중-가닥 DNA 표적의 절단 없음을 나타낸다. 도 16n은 프로토스페이서 24번 위치에서 Cas-알파 8(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16o는 프로토스페이서 24번 위치에서 Cas-알파 9(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16p는 프로토스페이서 24번 위치에서 Cas-알파9(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16q는 프로토스페이서 24번 위치에서 Cas-알파 10(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16r은 프로토스페이서 24번 위치에서 Cas-알파 10(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16s는 프로토스페이서 24번 위치에서 Cas-알파 11(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16t는 프로토스페이서 24번 위치에서 Cas-알파 11(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다.
도 17a는 이콜라이 세포에서 Cas-알파 이중가닥 DNA 표적 절단을 평가하는 한 가지 방법을 도시한다. 도 17b 내지 도 17e는 이콜라이에서 이중가닥 DNA 표적 절단을 나타낸다. "표적 없음" 실험은 이중가닥 DNA 표적 절단의 부재 하에 형질전환 효율에 대한 기준을 제공한다. "표적" 실험인 PAM + T2를 상이한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 조건 하에 표적 절단을 시험하기 위해 IPTG(0.5 mM)를 이용하여 그리고 IPTG 없이 수행하였다. 도 17b는 Cas-알파 2 및 Cas-알파 3에 대한 결과를 나타낸다. 도 17c는 Cas-알파 6 및 Cas-알파 7에 대한 결과를 나타낸다. 도 17d는 Cas-알파 8 및 Cas-알파 9에 대한 결과를 나타낸다. 도 17e는 Cas-알파 10 및 Cas-알파 11에 대한 결과를 나타낸다.
도 18a 내지 도 18b는 제아 메이스 미숙 배아에 Cas-알파 10 DNA 발현 작제를 전달하는 유전자총 실험을 위한 Cas-알파 엔도뉴클레아제 활성으로부터의 식물 세포에서의 이중가닥 파손 수선 돌연변이를 도시한다. 도 18a는 nptII 표적 부위에 대해 뉴클레아제 절단 부위에서 또는 근처에서 생성된 표적화된 결실의 회복을 나타낸다. 도 18b는 ms26 표적 부위에 대해 뉴클레아제 절단 부위에서 또는 근처에서 생성된 표적화된 결실의 회복을 나타낸다.
도 19a는 진핵 세포, 사카로마이세스 세레비시애(Saccaromyces cerevisiae)에서의 상동 직접 수선을 위한 실험 설계를 도시한다. Cas-알파 10 표적 부위에 측접하는 상동성을 갖는 외인성으로 공급된 DNA 수선 주형(이중가닥)을 사용하여 Cas-알파 10 유도 이중 가닥 파손(double strand break: DSB) 후 ade2 유전자에 (DNA 수선 결과에 따라서) 1 또는 2개의 조기 중단 코돈을 도입하였다. 수선 주형의 표적화를 피하기 위해, 또한 Cas-알파 10에 대한 PAM 영역에서 T의 A로의 변화를 포함하였다. 도 19b는 수선 주형과 Cas-알파 10 및 sgRNA 발현 작제물이 모두 형질전환될 때 ade2 유전자 붕괴를 나타내는 적색 세포 표현형이 형질전환되고, Cas-알파 엔도뉴클레아제에 의해 이중 가닥 파손이 생성되고 주형(HDR)으로 수선된다는 것을 나타낸다. 도 19c는 3개의 독립적 적색 콜로니("1", "2" 및 "3"으로 표지)에서 적어도 하나의 정지 코돈의 도입을 확인하는 Cas-알파10 ade2 유전자 표적 부위의 서열분석 결과를 나타낸다. 안티센스 프레임에 정지 코돈이 도입되었다. 서열번호 170 사카로마이세스 세레비시애로부터의 참조 DNA 서열은 서열번호 170으로서 주어지고, 수선 주형 DNA는 서열번호 171이며, 적색 콜로니 1 수선 결과 1은 서열번호 172이고, 적색 콜로니 1 수선 결과 2는 서열번호 173이며, 적색 콜로니 2 수선 결과 1은 서열번호 174이고, 적색 콜로니 3 수선 결과 1은 서열번호 175이며, 적색 콜로니 3 수선 결과 2는 서열번호 176이다.
도 20은 일부 Cas-알파 오솔로그 중의 계통발생 관계를 나타낸다. 3가지 하위 그룹이 확인되었다(I, II 및 III). 그룹 I은 계통군 1(칸디데이트 아르케아(Candidate Archaea) 및 아우레아박테리아(Aureabacteria)(Cas1, Cas2, Cas4가 전형적으로 좌위에서 암호화됨))을 포함하였다. 그룹 II는 계통군 2(산수균문(Aquificae)(설퍼리하이드로제니비움(Sulfurihydrogenibium) 및 하이드로게니비르가(Hydrogenivirga) 속) 및 델타프로테오박테리아(Deltaproteobacteria)(데설포비브리오(Desulfovibrio) 속)), 계통군 3(칸디데이트 아르케아(전형적으로 좌위에서 암호화된 Cas1, Cas2 및 Cas4)), 계통군 4(박테로이데테스(Bacteroidetes)(프레보텔라(Prevotella) 및 박테로이데스(Bacteroides) 속)), 계통군 5(칸디데이트 레비박테리움(Candidate Levybacterium)) 및 계통군 6(클로스트리디아(Clostridia)(도레아(Dorea), 루미노코커스(Ruminococcus), 클로스트리듐(Clostridium), 클로스트리디오이데스(Clostridioides), 펩토콜스트리디움(Peptocolstridium), 셀룰로실리티쿰(Cellulosilyticym), 유박테리움(Eubacterium), 신트로포모나스(Syntrophomonas) 속))을 포함하였다. 그룹 III은 계통군 7(바실리(Bacilli)(바실러스(Bacillus), 아시디바실러스(Acidibacillus), 아뉴리니바실러스(Aneurinibacillus), 브레비바실러스(Brevibacillus), 파라게오바실러스(Parageobacillus), 알리사이클로바실러스(Alicyclobacillus) 속)), 계통군 8(네가티비쿠테스(Negativicutes)(파스콜락토박테리움(Phascolarctobacterium) 속)) 및 계통군 9(플라보박테리아(Flavobacteriia)(플라보박테리움(Flavobacterium) 속))을 포함하였다. 다이아몬드 기호는 본 명세서에 기재된 Cas-알파 1 내지 11 엔도뉴클레아제를 나타낸다.
도 21a는 트랜스포사제(Tnp) 관련 Cas-알파 CRISPR 시스템을 도시한다. 예 둘 다에서, Tnp-유사 단백질은 Cas-알파 엔도뉴클레아제 및 CRISPR 어레이 상류에서 암호화된다. 도 21b는 Cas-알파 이중가닥 DNA 표적 부위 내의 또는 근처의 DNA 페이로드(파선의 원)를 통합하도록 제기된 Tnp-유사 단백질 및 표적 부위와 복합체화된 Cas-알파 엔도뉴클레아제 및 가이드 RNA를 나타낸다.
본 명세서에 첨부된 서열 설명 및 서열목록은 37 C.F.R. §§1.821 및 1.825에 명시된 바와 같이 특허 출원에서 뉴클레오티드 및 아미노산 서열 공개를 규율하는 규칙을 따른다. 서열 설명은 본 명세서에 참조로 포함되는 37 C.F.R. §§ 1.821 및 1.825에 정의된 바와 같은 아미노산에 대한 3글자 암호를 포함한다.
서열번호 1은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 2는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 3은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 4는 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 5는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 6은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 7은 칸디다투스 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 8은 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 9는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 10은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 11은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 12는 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 13은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 14는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 15는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 16은 비배양 고세균으로부터의 Cas-알파 4 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 17은 칸디다투스 미크라르카에오타 고세균 Cas-알파 1 엔도뉴클레아제(Cas14b4) PRT 서열이다.
서열번호 18은 칸디다투스 미크라르카에오타 고세균로부터의 Cas-알파 2 엔도뉴클레아제 PRT 서열이다.
서열번호 19는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 엔도뉴클레아제 PRT 서열이다.
서열번호 20은 비배양 고세균으로부터의 Cas-알파 4 엔도뉴클레아제(Cas14a1) PRT 서열이다.
서열번호 21은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 DNA 서열이다.
서열번호 22는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 DNA 서열이다.
서열번호 23은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 DNA 서열이다.
서열번호 24는 비배양 고세균으로부터의 Cas-알파 4 좌위 DNA 서열이다.
서열번호 25는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 26은 비배양 고세균으로부터의 Cas-알파 6 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 27은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 28은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 29는 루미노코커스 종으로부터의 Cas-알파 9 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 30은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 31은 클루스트리듐 노비로부터의 Cas-알파 11 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 32는 칸디다투스 미크라르카에오타 고세균로부터의 Cas-알파 5 엔도뉴클레아제 PRT 서열이다.
서열번호 33은 비배양 고세균으로부터의 Cas-알파 6 엔도뉴클레아제 PRT 서열이다.
서열번호 34는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 엔도뉴클레아제 PRT 서열이다.
서열번호 35는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 엔도뉴클레아제 PRT 서열이다.
서열번호 36은 루미노코커스 종으로부터의 Cas-알파 9 엔도뉴클레아제 PRT 서열이다.
서열번호 37은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 엔도뉴클레아제 PRT 서열이다.
서열번호 38은 클루스트리듐 노비로부터의 Cas-알파 11 엔도뉴클레아제 PRT 서열이다.
서열번호 39는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 좌위 DNA 서열이다.
서열번호 40은 비배양 고세균으로부터의 Cas-알파 6 좌위 DNA 서열이다.
서열번호 41은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 좌위 DNA 서열이다.
서열번호 42는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 좌위 DNA 서열이다.
서열번호 43은 루미노코커스 종으로부터의 Cas-알파 9 좌위 DNA 서열이다.
서열번호 44는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 좌위 DNA 서열이다.
서열번호 45는 클루스트리듐 노비로부터의 Cas-알파 11 좌위 DNA 서열이다.
서열번호 46은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 반복부 공통 DNA 서열이다.
서열번호 47은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 반복부 공통 DNA 서열이다.
서열번호 48은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 반복부 공통 DNA 서열이다.
서열번호 49는 비배양 고세균으로부터의 Cas-알파 4 반복부 공통 DNA 서열이다.
서열번호 50은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 반복부 공통 DNA 서열이다.
서열번호 51은 비배양 고세균으로부터의 Cas-알파 6 반복부 공통 DNA 서열이다.
서열번호 52는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 반복부 공통 DNA 서열이다.
서열번호 53은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 반복부 공통 DNA 서열이다.
서열번호 54는 루미노코커스 종으로부터의 Cas-알파 9 반복부 공통 DNA 서열이다.
서열번호 55는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 반복부 공통 DNA 서열이다.
서열번호 56는 클루스트리듐 노비로부터의 Cas-알파 11 반복부 공통 DNA 서열이다.
서열번호 57은 인공(Artificial)으로부터의 Cas-알파 1 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 58은 인공으로부터의 Cas-알파 2 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 59는 인공으로부터의 Cas-알파 4 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 60은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 1 RNA 서열이다.
서열번호 61은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 2 RNA 서열이다.
서열번호 62는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 3 RNA 서열이다.
서열번호 63은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 4 RNA 서열이다.
서열번호 64는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 1 RNA 서열이다.
서열번호 65는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 2 RNA 서열이다.
서열번호 66은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 3 RNA 서열이다.
서열번호 67은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 4 RNA 서열이다.
서열번호 68은 비배양 고세균으로부터의 Cas-알파 4 tracrRNA 형태 1 RNA 서열이다.
서열번호 69는 인공으로부터의 Cas-알파 1 sgRNA 형태 1 RNA 서열이다.
서열번호 70은 인공으로부터의 Cas-알파 1 sgRNA 형태 2 RNA 서열이다.
서열번호 71은 인공으로부터의 Cas-알파 1 sgRNA 형태 3 RNA 서열이다.
서열번호 72는 인공으로부터의 Cas-알파 1 sgRNA 형태 4 RNA 서열이다.
서열번호 73은 인공으로부터의 Cas-알파 2 sgRNA 형태 1 RNA 서열이다.
서열번호 74는 인공으로부터의 Cas-알파 2 sgRNA 형태 2 RNA 서열이다.
서열번호 75는 인공으로부터의 Cas-알파 2 sgRNA 형태 3 RNA 서열이다.
서열번호 76은 인공으로부터의 Cas-알파 2 sgRNA 형태 4 RNA 서열이다.
서열번호 77은 인공으로부터의 Cas-알파 4 sgRNA 형태 1 RNA 서열이다.
서열번호 78은 인공으로부터의 T2 스페이서 DNA 서열이다.
서열번호 79는 인공으로부터의 T2 DNA 서열을 표적화하도록 조작된 완전한 Cas-알파 1 좌위이다.
서열번호 80은 인공으로부터의 T2 DNA 서열을 표적화하도록 조작된 최소 Cas-알파 1 좌위이다.
서열번호 81은 인공으로부터의 10× 히스티딘 태그 PRT 서열이다.
서열번호 82는 인공으로부터의 6× 히스티딘 태그 PRT 서열이다.
서열번호 83은 말토스 결합 단백질 태그 PRT 서열이다.
서열번호 84는 담배 식각 바이러스로부터의 담배 식각 바이러스 절단 부위 PRT 서열이다.
서열번호 85는 인공으로부터의 A1 올리고뉴클레오티드 DNA 서열이다.
서열번호 86은 인공으로부터의 A2 올리고뉴클레오티드 DNA 서열이다.
서열번호 87은 인공으로부터의 R0 올리고뉴클레오티드 DNA 서열이다.
서열번호 88은 인공으로부터의 C0 올리고뉴클레오티드 DNA 서열이다.
서열번호 89는 인공으로부터의 F1 올리고뉴클레오티드 DNA 서열이다.
서열번호 90은 인공으로부터의 R1 올리고뉴클레오티드 DNA 서열이다.
서열번호 91은 인공으로부터의 F1 올리고뉴클레오티드 DNA 서열의 브리지 증폭 부분이다.
서열번호 92는 인공으로부터의 R1 올리고뉴클레오티드 DNA 서열의 브리지 증폭 부분이다.
서열번호 93은 인공으로부터의 F2 올리고뉴클레오티드 DNA 서열이다.
서열번호 94는 인공으로부터의 R2 올리고뉴클레오티드 DNA 서열이다.
서열번호 95는 인공으로부터의 C1 올리고뉴클레오티드 DNA 서열이다.
서열번호 96은 인공으로부터의 표적 DNA 서열의 21번 위치에서의 절단 및 어댑터 결찰로부터 초래된 서열이다.
서열번호 97은 인공으로부터의 서열번호 96 DNA 서열의 어댑터 부분이다.
서열번호 98은 인공으로부터의 서열번호 96 DNA 서열의 표적 부분이다.
서열번호 99는 인공으로부터의 PAM DNA 서열의 서열 5'이다.
서열번호 100은 인공으로부터의 고정된 이중가닥 DNA 표적 DNA 서열이다.
서열번호 101은 인공으로부터의 T2 표적 서열 DNA 서열이다.
서열번호 102는 인공으로부터의 Cas-알파 4 T2-1 sgRNA RNA 서열이다.
서열번호 103은 인공으로부터의 Cas-알파 4 T2-2 sgRNA RNA 서열이다.
서열번호 104는 인공으로부터의 Cas-알파 4 T2-1 crRNA RNA 서열이다.
서열번호 105는 인공으로부터의 Cas-알파 4 T2-2 crRNA RNA 서열이다.
서열번호 106은 솔라눔 투베로섬으로부터의 ST-LS1 인트론 2 DNA 서열이다.
서열번호 107은 유인원 바이러스 40으로부터의 SV40 NLS PRT 서열이다.
서열번호 108은 무스 무스쿨러스로부터의 Nuc NLS PRT 서열이다.
서열번호 109는 제아 메이스로부터의 메이즈 UBI 프로모터 DNA 서열이다.
서열번호 110은 적색야계로부터의 닭 베타-액틴 프로모터 DNA 서열이다.
서열번호 111은 인간 베타-헤르페스바이러스 5로부터의 CMV 인핸서 DNA 서열이다.
서열번호 112는 제아 메이스로부터의 메이즈 UBI 5 프라임 비번역 영역 DNA 서열이다.
서열번호 113은 제아 메이스로부터의 메이즈 UBI 인트론 1 DNA 서열이다.
서열번호 114는 인공으로부터의 혼성 인트론 DNA 서열이다.
서열번호 115는 제아 메이스로부터의 메이즈 U6 중합효소 III 프로모터 DNA 서열이다.
서열번호 116은 호모 사피엔스로부터의 인간 U6 중합효소 III 프로모터 DNA 서열이다.
서열번호 117은 인공으로부터의 Strep II 태그 PRT 서열이다.
서열번호 118은 보스 타우루스로부터의 bGH 폴리(A) 종결자 DNA 서열이다.
서열번호 119는 솔라눔 투베로섬으로부터의 감자 프로테이나제 저해제 II(Pin II) 종결자 DNA 서열이다.
서열번호 120은 제아 메이스로부터의 제아 메이스 Wt 참조(Liguleless 표적 2 및 3) DNA 서열이다.
서열번호 121은 제아 메이스로부터의 돌연변이 1(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 122는 제아 메이스로부터의 돌연변이 2(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 123은 제아 메이스로부터의 돌연변이 3(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 124는 제아 메이스로부터의 돌연변이 4(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 125는 제아 메이스로부터의 돌연변이 5(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 126은 호모 사피엔스로부터의 HEK293 Wt 참조(VEGFA 표적 2) DNA 서열이다.
서열번호 127은 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 128은 호모 사피엔스로부터의 돌연변이 2(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 129는 호모 사피엔스로부터의 돌연변이 3(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 130은 호모 사피엔스로부터의 돌연변이 4(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 131은 호모 사피엔스로부터의 돌연변이 5(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 132는 호모 사피엔스로부터의 HEK293 Wt 참조(VEGFA 표적 3) DNA 서열이다.
서열번호 133은 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 3-RNP) DNA 서열이다.
서열번호 134는 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 3-DNA Exp) DNA 서열이다.
서열번호 135는 호모 사피엔스로부터의 돌연변이 2(VEGFA 표적 3-DNA Exp) DNA 서열이다.
서열번호 136은 사카로마이세스 세레비시애로부터의 ROX3 프로모터 DNA 서열이다.
서열번호 137은 사카로마이세스 세레비시애로부터의 GAL 프로모터 DNA 서열이다.
서열번호 138은 인공으로부터의 HH 리보자임(여기서, N은 리보자임의 6개의 뉴클레오티드 3'에 대해 상보성인 뉴클레오티드를 나타냄) DNA 서열이다.
서열번호 139는 D형 간염 바이러스로부터의 HDV 리보자임 DNA 서열이다.
서열번호 140은 사카로마이세스 세레비시애로부터의 SNR52 프로모터 DNA 서열이다.
서열번호 141은 사카로마이세스 세레비시애로부터의 SUP4 종결자 DNA 서열이다.
서열번호 142는 인공으로부터의 도 15c 상부 서열 DNA 서열이다.
서열번호 143은 인공으로부터의 도 15c 하부 서열 DNA 서열이다.
서열번호 144는 제아 메이스로부터의 도 18a 참조 DNA 서열이다.
서열번호 145는 제아 메이스로부터의 돌연변이 1 DNA 서열이다.
서열번호 146은 제아 메이스로부터의 돌연변이 2 DNA 서열이다.
서열번호 147는 제아 메이스로부터의 돌연변이 3 DNA 서열이다.
서열번호 148은 제아 메이스로부터의 돌연변이 4 DNA 서열이다.
서열번호 149는 제아 메이스로부터의 돌연변이 5 DNA 서열이다.
서열번호 150은 제아 메이스로부터의 돌연변이 6 DNA 서열이다.
서열번호 151은 제아 메이스로부터의 돌연변이 7 DNA 서열이다.
서열번호 152는 제아 메이스로부터의 돌연변이 8 DNA 서열이다.
서열번호 153은 제아 메이스로부터의 돌연변이 9 DNA 서열이다.
서열번호 154는 제아 메이스로부터의 돌연변이 10 DNA 서열이다.
서열번호 155는 제아 메이스로부터의 돌연변이 11 DNA 서열이다.
서열번호 156은 제아 메이스로부터의 돌연변이 12 DNA 서열이다.
서열번호 157은 제아 메이스로부터의 돌연변이 13 DNA 서열이다.
서열번호 158은 제아 메이스로부터의 돌연변이 14 DNA 서열이다.
서열번호 159는 제아 메이스로부터의 돌연변이 15 DNA 서열이다.
서열번호 160은 제아 메이스로부터의 돌연변이 16 DNA 서열이다.
서열번호 161은 제아 메이스로부터의 돌연변이 17 DNA 서열이다.
서열번호 162는 제아 메이스로부터의 돌연변이 18 DNA 서열이다.
서열번호 163은 제아 메이스로부터의 돌연변이 19 DNA 서열이다.
서열번호 164는 제아 메이스로부터의 도 18b 참조 DNA 서열이다.
서열번호 165는 제아 메이스로부터의 돌연변이 1 DNA 서열이다.
서열번호 166은 제아 메이스로부터의 돌연변이 2 DNA 서열이다.
서열번호 167은 제아 메이스로부터의 돌연변이 3 DNA 서열이다.
서열번호 168은 제아 메이스로부터의 돌연변이 4 DNA 서열이다.
서열번호 169는 제아 메이스로부터의 돌연변이 5 DNA 서열이다.
서열번호 170은 사카로마이세스 세리비시애로부터의 도 19c 참조 DNA 서열이다.
서열번호 171은 인공으로부터의 수선 주형 DNA 서열이다.
서열번호 172는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 173은 사카로마이세스 세레비시애로부터의 수선 결과 2 DNA 서열이다.
서열번호 174는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 175는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 176는 사카로마이세스 세레비시애로부터의 수선 결과 2 DNA 서열이다.
서열번호 177은 인공으로부터의 Cas-알파 3 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 178은 인공으로부터의 Cas-알파 5 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 179는 인공으로부터의 Cas-알파 6 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 180은 인공으로부터의 Cas-알파 7 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 181은 인공으로부터의 Cas-알파 8 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 182는 인공으로부터의 Cas-알파 9 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 183은 인공으로부터의 Cas-알파 10 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 184는 인공으로부터의 Cas-알파 11 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 185는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 5 RNA 서열이다.
서열번호 186은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 6 RNA 서열이다.
서열번호 187은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 7 RNA 서열이다.
서열번호 188은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 1 RNA 서열이다.
서열번호 189는 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 2 RNA 서열이다.
서열번호 190은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 3 RNA 서열이다.
서열번호 191은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 4 RNA 서열이다.
서열번호 192는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 tracrRNA 형태 1 RNA 서열이다.
서열번호 193은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 tracrRNA 형태 2 RNA 서열이다.
서열번호 194는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 1 RNA 서열이다.
서열번호 195는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 2 RNA 서열이다.
서열번호 196은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 3 RNA 서열이다.
서열번호 197은 루미노코커스 종으로부터의 Cas-알파 9 tracrRNA 형태 1 RNA 서열이다.
서열번호 198은 루미노코커스 종으로부터의 Cas-알파 9 tracrRNA 형태 2 RNA 서열이다.
서열번호 199는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 1 RNA 서열이다.
서열번호 200은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 2 RNA 서열이다.
서열번호 201은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 3 RNA 서열이다.
서열번호 202는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 4 RNA 서열이다.
서열번호 203은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 5 RNA 서열이다.
서열번호 204는 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 1 RNA 서열이다.
서열번호 205는 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 2 RNA 서열이다.
서열번호 206은 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 3 RNA 서열이다.
서열번호 207은 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 4 RNA 서열이다.
서열번호 208은 인공으로부터의 Cas-알파 2 sgRNA 형태 5 RNA 서열이다.
서열번호 209는 인공으로부터의 Cas-알파 2 sgRNA 형태 6 RNA 서열이다.
서열번호 210은 인공으로부터의 Cas-알파 2 sgRNA 형태 7 RNA 서열이다.
서열번호 211은 인공으로부터의 Cas-알파 6 sgRNA 형태 1 RNA 서열이다.
서열번호 212는 인공으로부터의 Cas-알파 6 sgRNA 형태 2 RNA 서열이다.
서열번호 213은 인공으로부터의 Cas-알파 6 sgRNA 형태 3 RNA 서열이다.
서열번호 214는 인공으로부터의 Cas-알파 6 sgRNA 형태 4 RNA 서열이다.
서열번호 215는 인공으로부터의 Cas-알파 7 sgRNA 형태 1 RNA 서열이다.
서열번호 216은 인공으로부터의 Cas-알파 7 sgRNA 형태 2 RNA 서열이다.
서열번호 217은 인공으로부터의 Cas-알파 7 sgRNA 형태 3 RNA 서열이다.
서열번호 218은 인공으로부터의 Cas-알파 8 sgRNA 형태 1 RNA 서열이다.
서열번호 219는 인공으로부터의 Cas-알파 8 sgRNA 형태 2 RNA 서열이다.
서열번호 220은 인공으로부터의 Cas-알파 8 sgRNA 형태 3 RNA 서열이다.
서열번호 221은 인공으로부터의 Cas-알파 8 sgRNA 형태 4 RNA 서열이다.
서열번호 222는 인공으로부터의 Cas-알파 9 sgRNA 형태 1 RNA 서열이다.
서열번호 223은 인공으로부터의 Cas-알파 9 sgRNA 형태 2 RNA 서열이다.
서열번호 224는 인공으로부터의 Cas-알파 9 sgRNA 형태 3 RNA 서열이다.
서열번호 225는 인공으로부터의 Cas-알파 10 sgRNA 형태 1 RNA 서열이다.
서열번호 226은 인공으로부터의 Cas-알파 10 sgRNA 형태 2 RNA 서열이다.
서열번호 227은 인공으로부터의 Cas-알파 10 sgRNA 형태 3 RNA 서열이다.
서열번호 228은 인공으로부터의 Cas-알파 10 sgRNA 형태 4 RNA 서열이다.
서열번호 229는 인공으로부터의 Cas-알파 10 sgRNA 형태 5 RNA 서열이다.
서열번호 230은 인공으로부터의 Cas-알파 11 sgRNA 형태 1 RNA 서열이다.
서열번호 231은 인공으로부터의 Cas-알파 11 sgRNA 형태 2 RNA 서열이다.
서열번호 232는 인공으로부터의 Cas-알파 11 sgRNA 형태 3 RNA 서열이다.
서열번호 233은 인공으로부터의 Cas-알파 11 sgRNA 형태 4 RNA 서열이다.
서열번호 234는 인공으로부터의 Cas-알파 11 sgRNA 형태 5 RNA 서열이다.
서열번호 235는 인공으로부터의 Cas-알파 4 제아 메이스 코돈 최적화된 유전자 DNA 서열이다.
서열번호 236은 인공으로부터의 Cas-알파 10 제아 메이스 코돈 최적화된 유전자 DNA 서열이다.
서열번호 237은 인공으로부터의 Cas-알파 10 사카로마이세스 세레비시애 코돈 최적화된 유전자 DNA 서열이다.
서열번호 238은 인공으로부터의 Cas-알파 4 sgRNA 골격 RNA 서열이다.
서열번호 239는 인공으로부터의 Cas-알파 10 sgRNA 골격 RNA 서열이다.
서열번호 240은 인공으로부터의 Cas-알파 4 Liguleless 2 sgRNA 표적 서열 RNA 서열이다.
서열번호 241은 인공으로부터의 Cas-알파 4 Liguleless 3 sgRNA 표적 서열 RNA 서열이다.
서열번호 242는 인공으로부터의 Cas-알파 10 nptII sgRNA 표적 서열 RNA 서열이다.
서열번호 243은 인공으로부터의 Cas-알파 10 ms26 sgRNA 표적 서열 RNA 서열이다.
서열번호 244는 인공으로부터의 Cas-알파 10 ade2 sgRNA 표적 서열 RNA 서열이다.
서열번호 245는 인공으로부터의 Cas-알파 4 VEGFA 2 sgRNA 표적 서열 RNA 서열이다.
서열번호 246은 인공으로부터의 Cas-알파 4 VEGFA 3 sgRNA 표적 서열 RNA 서열이다.
서열번호 247은 인공으로부터의 Cas-알파 4 sgRNA 표적화 Liguleless 2 RNA 서열이다.
서열번호 248은 인공으로부터의 Cas-알파 4 sgRNA 표적화 Liguleless 3 RNA 서열이다.
서열번호 249는 인공으로부터의 Cas-알파 10 sgRNA 표적화 nptII RNA 서열이다.
서열번호 250은 인공으로부터의 Cas-알파 10 sgRNA 표적화 ms26 RNA 서열이다.
서열번호 251은 인공으로부터의 Cas-알파 10 sgRNA 표적화 ade2 RNA 서열이다.
서열번호 252는 인공으로부터의 Cas-알파 4 sgRNA 표적화 VEGFA 2 RNA 서열이다.
서열번호 253은 인공으로부터의 Cas-알파 4 sgRNA 표적화 VEGFA 3 RNA 서열이다.
서열번호 254는 클로스트리디오이데스 디피실로부터의 Cas-알파 12 엔도뉴클레아제 PRT 서열이다.
서열번호 255는 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 13 엔도뉴클레아제 PRT 서열이다.
서열번호 256은 클루스트리듐 노비로부터의 Cas-알파 14 엔도뉴클레아제 PRT 서열이다.
서열번호 257은 루미노코커스 알버스로부터의 Cas-알파 15 엔도뉴클레아제 PRT 서열이다.
서열번호 258은 클루스트리듐 히라노니스로부터의 Cas-알파 16 엔도뉴클레아제 PRT 서열이다.
서열번호 259는 클루스트리듐 이후미로부터의 Cas-알파 17 엔도뉴클레아제 PRT 서열이다.
서열번호 260은 셀룰로실리티쿰 루미니콜라로부터의 Cas-알파 18 엔도뉴클레아제 PRT 서열이다.
서열번호 261은 유박테리움 시라에움으로부터의 Cas-알파 19 엔도뉴클레아제 PRT 서열이다.
서열번호 262는 클로스트리듐 보툴리눔으로부터의 Cas-알파 20 엔도뉴클레아제 PRT 서열이다.
서열번호 263은 클로스트리듐 보툴리눔으로부터의 Cas-알파 21 엔도뉴클레아제 PRT 서열이다.
서열번호 264는 루미니클로스트리듐 훈가테이로부터의 Cas-알파 22 엔도뉴클레아제 PRT 서열이다.
서열번호 265는 데설포비브리오 프럭토시보란스로부터의 Cas-알파 23 엔도뉴클레아제 PRT 서열이다.
서열번호 266은 바실러스 토요엔시스로부터의 Cas-알파 24 엔도뉴클레아제 PRT 서열이다.
서열번호 267은 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 25 엔도뉴클레아제 PRT 서열이다.
서열번호 268은 루스트리듐 벤트리쿨리로부터의 Cas-알파 26 엔도뉴클레아제 PRT 서열이다.
서열번호 269는 루미노코커스 종으로부터의 Cas-알파 27 엔도뉴클레아제 PRT 서열이다.
서열번호 270은 루미노코커스 종으로부터의 Cas-알파 28 엔도뉴클레아제 PRT 서열이다.
서열번호 271은 펩토클로스트리듐 종으로부터의 Cas-알파 29 엔도뉴클레아제 PRT 서열이다.
서열번호 272는 바실러스 종으로부터의 Cas-알파 30 엔도뉴클레아제 PRT 서열이다.
서열번호 273은 클로스트리디오이데스 디피실로부터의 Cas-알파 31 엔도뉴클레아제 PRT 서열이다.
서열번호 274는 클로스트리디오이데스 디피실로부터의 Cas-알파 32 엔도뉴클레아제 PRT 서열이다.
서열번호 275는 비배양 고세균으로부터의 Cas-알파 33 엔도뉴클레아제 PRT 서열이다.
서열번호 276은 비배양 고세균으로부터의 Cas-알파 34 엔도뉴클레아제 PRT 서열이다.
서열번호 277은 비배양 고세균으로부터의 Cas-알파 35 엔도뉴클레아제 PRT 서열이다.
서열번호 278은 비배양 고세균으로부터의 Cas-알파 36 엔도뉴클레아제 PRT 서열이다.
서열번호 279는 비배양 고세균으로부터의 Cas-알파 37 엔도뉴클레아제 PRT 서열이다.
서열번호 280은 비배양 고세균으로부터의 Cas-알파 38 엔도뉴클레아제 PRT 서열이다.
서열번호 281은 비배양 고세균으로부터의 Cas-알파 39 엔도뉴클레아제 PRT 서열이다.
서열번호 282는 비배양 고세균으로부터의 Cas-알파 40 엔도뉴클레아제 PRT 서열이다.
서열번호 283은 비배양 고세균으로부터의 Cas-알파 41 엔도뉴클레아제 PRT 서열이다.
서열번호 284는 클로스트리디오이데스 디피실로부터의 Cas-알파 42 엔도뉴클레아제 PRT 서열이다.
서열번호 285는 데설포비브리오 프럭토시보란스로부터의 Cas-알파 43 엔도뉴클레아제 PRT 서열이다.
서열번호 286은 클로스트리듐 보툴리눔으로부터의 Cas-알파 44 엔도뉴클레아제 PRT 서열이다.
서열번호 287은 클로스트리디오이데스 디피실로부터의 Cas-알파 45 엔도뉴클레아제 PRT 서열이다.
서열번호 288은 클로스트리디오이데스 디피실로부터의 Cas-알파 46 엔도뉴클레아제 PRT 서열이다.
서열번호 289는 클로스트리디오이데스 디피실로부터의 Cas-알파 47 엔도뉴클레아제 PRT 서열이다.
서열번호 290은 클로스트리디오이데스 디피실로부터의 Cas-알파 48 엔도뉴클레아제 PRT 서열이다.
서열번호 291은 클로스트리디오이데스 디피실로부터의 Cas-알파 49 엔도뉴클레아제 PRT 서열이다.
서열번호 292는 클로스트리디오이데스 디피실로부터의 Cas-알파 50 엔도뉴클레아제 PRT 서열이다.
서열번호 293은 클로스트리디오이데스 디피실로부터의 Cas-알파 51 엔도뉴클레아제 PRT 서열이다.
서열번호 294는 클로스트리디오이데스 디피실로부터의 Cas-알파 52 엔도뉴클레아제 PRT 서열이다.
서열번호 295는 클로스트리디오이데스 디피실로부터의 Cas-알파 53 엔도뉴클레아제 PRT 서열이다.
서열번호 296은 클로스트리디오이데스 디피실로부터의 Cas-알파 54 엔도뉴클레아제 PRT 서열이다.
서열번호 297은 클루스트리듐 히라노니스로부터의 Cas-알파 55 엔도뉴클레아제 PRT 서열이다.
서열번호 298은 클로스트리디오이데스 디피실로부터의 Cas-알파 56 엔도뉴클레아제 PRT 서열이다.
서열번호 299는 아네우리니바실러스 다니쿠스로부터의 Cas-알파 57 엔도뉴클레아제 PRT 서열이다.
서열번호 300은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 58 엔도뉴클레아제 PRT 서열이다.
서열번호 301은 브레비바실러스 센트로스포루스로부터의 Cas-알파 59 엔도뉴클레아제 PRT 서열이다.
서열번호 302는 클루스트리듐 파스테우리아눔으부터의 Cas-알파 60 엔도뉴클레아제 PRT 서열이다.
서열번호 303은 유박테리움 시라에움으로부터의 Cas-알파 61 엔도뉴클레아제 PRT 서열이다.
서열번호 304는 바실러스 토요엔시스로부터의 Cas-알파 62 엔도뉴클레아제 PRT 서열이다.
서열번호 305는 루미노코커스 종으로부터의 Cas-알파 63 엔도뉴클레아제 PRT 서열이다.
서열번호 306은 루미노코커스 종으로부터의 Cas-알파 64 엔도뉴클레아제 PRT 서열이다.
서열번호 307은 클루스트리듐 페르프링겐스부터의 Cas-알파 65 엔도뉴클레아제 PRT 서열이다.
서열번호 308은 바실러스 튜링겐시스로부터의 Cas-알파 66 엔도뉴클레아제 PRT 서열이다.
서열번호 309는 클루스트리듐 페르프링겐스부터의 Cas-알파 67 엔도뉴클레아제 PRT 서열이다.
서열번호 310은 바실러스 세레우스로부터의 Cas-알파 68 엔도뉴클레아제 PRT 서열이다.
서열번호 311은 바실러스 토요엔시스로부터의 Cas-알파 69 엔도뉴클레아제 PRT 서열이다.
서열번호 312는 바실러스 토요엔시스로부터의 Cas-알파 70 엔도뉴클레아제 PRT 서열이다.
서열번호 313은 바실러스 토요엔시스로부터의 Cas-알파 71 엔도뉴클레아제 PRT 서열이다.
서열번호 314는 리사이클로바실러스 아시도테레스트리스로부터의 Cas-알파 72 엔도뉴클레아제 PRT 서열이다.
서열번호 315는 클루스트리듐 테타니부터의 Cas-알파 73 엔도뉴클레아제 PRT 서열이다.
서열번호 316은 칸디다투스 레비박테리아 박테리움으로부터의 Cas-알파 74 엔도뉴클레아제 PRT 서열이다.
서열번호 317은 바실러스 세레우스로부터의 Cas-알파 75 엔도뉴클레아제 PRT 서열이다.
서열번호 318은 바실러스 세레우스로부터의 Cas-알파 76 엔도뉴클레아제 PRT 서열이다.
서열번호 319는 바실러스 세레우스로부터의 Cas-알파 77 엔도뉴클레아제 PRT 서열이다.
서열번호 320은 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 78 엔도뉴클레아제 PRT 서열이다.
서열번호 321은 바실러스 세레우스로부터의 Cas-알파 79 엔도뉴클레아제 PRT 서열이다.
서열번호 322는 바실러스 튜링겐시스로부터의 Cas-알파 80 엔도뉴클레아제 PRT 서열이다.
서열번호 323은 바실러스 세레우스로부터의 Cas-알파 81 엔도뉴클레아제 PRT 서열이다.
서열번호 324는 바실러스 토요엔시스로부터의 Cas-알파 82 엔도뉴클레아제 PRT 서열이다.
서열번호 325는 바실러스 세레우스로부터의 Cas-알파 83 엔도뉴클레아제 PRT 서열이다.
서열번호 326은 바실러스 토요엔시스로부터의 Cas-알파 84 엔도뉴클레아제 PRT 서열이다.
서열번호 327은 바실러스 위에드만니로부터의 Cas-알파 85 엔도뉴클레아제 PRT 서열이다.
서열번호 328는 바실러스 세레우스로부터의 Cas-알파 86 엔도뉴클레아제 PRT 서열이다.
서열번호 329는 바실러스 세레우스로부터의 Cas-알파 87 엔도뉴클레아제 PRT 서열이다.
서열번호 330은 바실러스 토요엔시스로부터의 Cas-알파 88 엔도뉴클레아제 PRT 서열이다.
서열번호 331은 바실러스 세레우스로부터의 Cas-알파 89 엔도뉴클레아제 PRT 서열이다.
서열번호 332는 바실러스 토요엔시스로부터의 Cas-알파 90 엔도뉴클레아제 PRT 서열이다.
서열번호 333은 바실러스 튜링겐시스로부터의 Cas-알파 91 엔도뉴클레아제 PRT 서열이다.
서열번호 334는 바실러스 세레우스로부터의 Cas-알파 92 엔도뉴클레아제 PRT 서열이다.
서열번호 335는 바실러스 세레우스로부터의 Cas-알파 93 엔도뉴클레아제 PRT 서열이다.
서열번호 336은 바실러스 세레우스로부터의 Cas-알파 94 엔도뉴클레아제 PRT 서열이다.
서열번호 337은 바실러스 튜링겐시스로부터의 Cas-알파 95 엔도뉴클레아제 PRT 서열이다.
서열번호 338은 바실러스 종으로부터의 Cas-알파 96 엔도뉴클레아제 PRT 서열이다.
서열번호 339는 바실러스 세레우스로부터의 Cas-알파 97 엔도뉴클레아제 PRT 서열이다.
서열번호 340은 바실러스 세레우스로부터의 Cas-알파 98 엔도뉴클레아제 PRT 서열이다.
서열번호 341은 바실러스 튜링겐시스로부터의 Cas-알파 99 엔도뉴클레아제 PRT 서열이다.
서열번호 342는 바실러스 종으로부터의 Cas-알파 100 엔도뉴클레아제 PRT 서열이다.
서열번호 343은 프레보텔라 코프리로부터의 Cas-알파 101 엔도뉴클레아제 PRT 서열이다.
서열번호 344는 프레보텔라 코프리로부터의 Cas-알파 102 엔도뉴클레아제 PRT 서열이다.
서열번호 345는 클로스트리디오이데스 디피실로부터의 Cas-알파 103 엔도뉴클레아제 PRT 서열이다.
서열번호 346은 클로스트리디오이데스 디피실로부터의 Cas-알파 104 엔도뉴클레아제 PRT 서열이다.
서열번호 347은 클로스트리디오이데스 디피실로부터의 Cas-알파 105 엔도뉴클레아제 PRT 서열이다.
서열번호 348은 클로스트리디오이데스 디피실로부터의 Cas-알파 106 엔도뉴클레아제 PRT 서열이다.
서열번호 349는 클로스트리디오이데스 디피실로부터의 Cas-알파 107 엔도뉴클레아제 PRT 서열이다.
서열번호 350은 클로스트리디오이데스 디피실로부터의 Cas-알파 108 엔도뉴클레아제 PRT 서열이다.
서열번호 351은 클로스트리디오이데스 디피실로부터의 Cas-알파 109 엔도뉴클레아제 PRT 서열이다.
서열번호 352는 플라보박테리움 써모필룸으로부터의 Cas-알파 110 엔도뉴클레아제 PRT 서열이다.
서열번호 353은 파스콜락토박테리움 종으로부터의 Cas-알파 111 엔도뉴클레아제 PRT 서열이다.
서열번호 354는 바실러스 슈도마이코이데스로부터의 Cas-알파 112 엔도뉴클레아제 PRT 서열이다.
서열번호 355는 박테로이데스 플레베이우스로부터의 Cas-알파 113 엔도뉴클레아제 PRT 서열이다.
서열번호 356은 클로스트리듐 보툴리눔으로부터의 Cas-알파 114 엔도뉴클레아제 PRT 서열이다.
서열번호 357은 바실러스 슈도마이코이데스로부터의 Cas-알파 115 엔도뉴클레아제 PRT 서열이다.
서열번호 358은 바실러스 슈도마이코이데스로부터의 Cas-알파 116 엔도뉴클레아제 PRT 서열이다.
서열번호 359는 클로스트리듐 보툴리눔으로부터의 Cas-알파 117 엔도뉴클레아제 PRT 서열이다.
서열번호 360은 클로스트리듐 보툴리눔으로부터의 Cas-알파 118 엔도뉴클레아제 PRT 서열이다.
서열번호 361은 클로스트리듐 보툴리눔으로부터의 Cas-알파 119 엔도뉴클레아제 PRT 서열이다.
서열번호 362는 하이드로게니버가 종으로부터의 Cas-알파 120 엔도뉴클레아제 PRT 서열이다.
서열번호 363은 바실러스 메가테리움으로부터의 Cas-알파 121 엔도뉴클레아제 PRT 서열이다.
서열번호 364는 클로스트리듐 팔락스로부터의 Cas-알파 122 엔도뉴클레아제 PRT 서열이다.
서열번호 365는 박테로이데스 플레베이우스로부터의 Cas-알파 123 엔도뉴클레아제 PRT 서열이다.
서열번호 366은 바실러스 튜링겐시스로부터의 Cas-알파 124 엔도뉴클레아제 PRT 서열이다.
서열번호 367은 바실러스 세레우스로부터의 Cas-알파 125 엔도뉴클레아제 PRT 서열이다.
서열번호 368은 클루스트리듐 종으로부터의 Cas-알파 126 엔도뉴클레아제 PRT 서열이다.
서열번호 369는 박테로이데스 플레베이우스로부터의 Cas-알파 127 엔도뉴클레아제 PRT 서열이다.
서열번호 370은 도레아 롱기카테나로부터의 Cas-알파 128 엔도뉴클레아제 PRT 서열이다.
서열번호 371은 설푸리하이드로게니비움 아조렌스로부터의 Cas-알파 129 엔도뉴클레아제 PRT 서열이다.

조성물 및 방법은 신규한 가이드 폴리뉴클레오티드/엔도뉴클레아제 복합체, 가이드 폴리뉴클레오티드, 가이드 RNA 요소, Cas 단백질 및 엔도뉴클레아제뿐만 아니라 엔도뉴클레아제 기능성(도메인)을 포함하는 단백질을 포함하지만, 이들로 제한되지 않는, 신규한 CRISPR 효과기 시스템 및 이러한 시스템을 포함하는 요소를 제공한다. 엔도뉴클레아제, 절단 준비 복합체, 가이드 RNA 및 가이드 RNA/Cas 엔도뉴클레아제 복합체의 직접적인 전달을 위한 조성물 및 방법이 또한 제공된다. 본 발명은 세포 게놈에서의 표적 서열의 게놈 변형, 유전자 편집 및 세포 게놈에 관심 대상의 폴리뉴클레오티드의 삽입을 위한 조성물 및 방법을 추가로 포함한다.

청구범위 및 명세서에 사용된 용어는 달리 명시되지 않는 한 이하에 기재된 바와 같이 정의된다. 명세서 및 첨부된 청구범위에서 사용되는 단수 형태는 문맥상 명확히 달리 지시되지 않는 한, 복수의 지시 대상을 포함함을 유의해야 한다.

정의

본 명세서에서 사용된 "핵산"은 폴리뉴클레오티드를 의미하고 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 염기들의 단일 가닥 중합체 또는 이중 가닥 중합체를 포함한다. 또한 핵산은 단편 및 변형된 뉴클레오티드를 포함할 수 있다. 따라서, 용어 "폴리뉴클레오티드", "핵산 서열", "뉴클레오티드 서열" 및 "핵산 단편"은 선택적으로 합성, 비천연, 또는 변경된 뉴클레오티드 염기를 포함하는 단일 또는 이중 가닥인 RNA 및/또는 DNA 및/또는 RNA-DNA의 중합체를 나타내기 위해 상호 호환적으로 사용된다. 뉴클레오티드(보통 이들의 5'-모노포스페이트 형태로 발견됨)는 다음과 같은 이들의 한 글자 표기에 의해 언급된다: "A"는 아데노신 또는 데옥시아데노신(각각 RNA 또는 DNA에 대하여), "C"는 시아노 또는 데옥시시토신, "G"는 구아노신 또는 데옥시구아노신, "U"는 우리딘, "T"는 데옥시티미딘, "R"은 퓨린(A 또는 G), "Y"는 피리미딘(C 또는 T), "K"는 G 또는 T, "H"는 A 또는 C 또는 T, "I"는 이노신, 및 "N"은 임의의 뉴클레오티드.

용어 "게놈"은 원핵생물 및 진핵생물 세포 또는 유기체 세포에 적용될 때 핵 내에서 발견되는 염색체 DNA뿐만 아니라 세포의 세포내 성분(예를 들어, 미토콘드리아, 또는 색소체) 내에서 발견되는 세포소기관 DNA를 포함한다.

"오픈 리딩 프레임"은 ORF로 약칭된다.

용어 "선택적으로 혼성화한다"는 엄격한 혼성화 조건 하에 비표적 핵산 서열에의 혼성화보다 검출 가능하게 더 큰 정도(예를 들어, 배경에 비해 적어도 2배)의 핵산 서열의 특정 핵산 표적 서열에의 혼성화 및 비표적 핵산의 실질적 배제에 대한 언급을 포함한다. 선택적으로 혼성화하는 서열은 전형적으로 서로 적어도 약 80%의 서열 동일성, 또는 90%의 서열 동일성을 가지며, 100%의 서열 동일성(즉, 완전히 상보성)까지를 포함한다.

용어 "엄격한 조건" 또는 "엄격한 혼성화 조건"은 시험관내 혼성화 분석법에서 프로브가 그 표적 서열에 선택적으로 혼성화하는 조건에 대한 언급을 포함한다. 엄격한 조건은 서열 의존적이며 상황에 따라 다를 것이다. 혼성화 및/또는 세척 조건의 엄격성을 제어함으로써, 프로브와 100% 상보성인 표적 서열을 확인할 수 있다(상동 프로빙). 대안적으로, 엄격 조건은 서열에서 일부 불일치를 허용하여 더 낮은 정도의 유사성이 검출되도록 조정될 수 있다(이종성 프로빙). 일반적으로 프로브는 약 1000개 미만의 뉴클레오티드 길이, 선택적으로 500개 미만의 뉴클레오티드 길이이다. 전형적으로, 엄격한 조건은 pH 7.0 내지 8.3에서 그리고 짧은 프로브(예를 들어, 10개 내지 50개의 뉴클레오티드)의 경우 적어도 약 30℃에서, 긴 프로브(예를 들어, 50개 초과의 뉴클레오티드)의 경우 적어도 약 60℃에서 염 농도가 약 1.5 M Na 이온 미만, 통상적으로 약 0.01 내지 1.0 M Na 이온 농도(또는 다른 염(들))인 조건일 것이다. 엄격한 조건은 포름아미드와 같은 불안정화제의 첨가로 달성될 수도 있다. 예시적인 저 엄격 조건은 37℃에서 30 내지 35% 포름아미드, 1 M NaCl, 1% SDS(나트륨 도데실 설페이트) 완충 용액으로의 혼성화, 및 50 내지 55℃에서 1× 내지 2× SSC(20× SSC = 3.0 M NaCl/0.3 M 삼나트륨 시트레이트) 중 세척을 포함한다. 예시적인 적당한 엄격 조건은 37℃에서 40 내지 45% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 55 내지 60℃에서 0.5× 내지 1× SSC 중 세척을 포함한다. 예시적인 고 엄격 조건은 37℃에서 50% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 60 내지 65℃에서 0.1× SSC 중 세척을 포함한다.

"상동성"이란 유사한 DNA 서열을 의미한다. 예를 들어, 공여자 DNA에서 발견되는 "게놈 영역에 대한 상동성 영역"은 세포 또는 유기체 게놈의 주어진 "게놈 영역"과 유사한 서열을 갖는 DNA 영역이다. 상동성 영역은 절단된 표적 부위에서 상동 재조합을 촉진하기에 충분한 임의의 길이일 수 있다. 예를 들어, 상동성 영역이 대응 게놈 영역과 상동 재조합을 겪는 데 충분한 상동성을 갖도록 상동성 영역은 적어도 5개 내지 10개, 5개 내지 15개, 5개 내지 20개, 5개 내지 25개, 5개 내지 30개, 5개 내지 35개, 5개 내지 40개, 5개 내지 45개, 5개 내지 50개, 5개 내지 55개, 5개 내지 60개, 5개 내지 65개, 5개 내지 70개, 5개 내지 75개, 5개 내지 80개, 5개 내지 85개, 5개 내지 90개, 5개 내지 95개, 5개 내지 100개, 5개 내지 200개, 5개 내지 300개, 5개 내지 400개, 5개 내지 500개, 5개 내지 600개, 5개 내지 700개, 5개 내지 800개, 5개 내지 900개, 5개 내지 1000개, 5개 내지 1100개, 5개 내지 1200개, 5개 내지 1300개, 5개 내지 1400개, 5개 내지 1500개, 5개 내지 1600개, 5개 내지 1700개, 5개 내지 1800개, 5개 내지 1900개, 5개 내지 2000개, 5개 내지 2100개, 5개 내지 2200개, 5개 내지 2300개, 5개 내지 2400개, 5개 내지 2500개, 5개 내지 2600개, 5개 내지 2700개, 5개 내지 2800개, 5개 내지 2900개, 5개 내지 3000개, 5개 내지 3100개 이상의 염기 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동성 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 나타낸다. 구조적 유사성은 각각의 폴리뉴클레오티드 단편의 전체 길이뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은 전체 서열 길이에 걸친 백분율 서열 동일성 및/또는 100% 서열 동일성을 갖는 연속된 뉴클레오티드와 같은 국재화된 유사성 및 서열 길이의 일부에 걸친 백분율 서열 동일성을 포함하는 보존된 영역에 의해 기재될 수 있다.

본 명세서에 사용된 바와 같이, "게놈 영역"은 표적 부위의 어느 한 측에 존재하거나 대안적으로 표적 부위의 일부를 또한 포함하는 세포 게놈에서의 염색체의 세그먼트이다. 게놈 영역이 상동성의 대응하는 영역과의 상동성 재조합을 겪기에 충분한 상동성을 갖도록 게놈 영역은 적어도 5개 내지 10개, 5개 내지 15, 5개 내지 20개, 5개 내지 25개, 5개 내지 30개, 5개 내지 35개, 5개 내지 40개, 5개 내지 45개, 5개 내지 50개, 5개 내지 55개, 5개 내지 60개, 5개 내지 65개, 5개 내지 70개, 5개 내지 75개, 5개 내지 80개, 5개 내지 85개, 5개 내지 90개, 5개 내지 95개, 5개 내지 100개, 5개 내지 200개, 5개 내지 300개, 5개 내지 400개, 5개 내지 500개, 5개 내지 600개, 5개 내지 700개, 5개 내지 800개, 5개 내지 900개, 5개 내지 1000개, 5개 내지 1100개, 5개 내지 1200개, 5개 내지 1300개, 5개 내지 1400개, 5개 내지 1500개, 5개 내지 1600개, 5개 내지 1700개, 5개 내지 1800개, 5개 내지 1900개, 5개 내지 2000개, 5개 내지 2100개, 5개 내지 2200개, 5개 내지 2300개, 5개 내지 2400개, 5개 내지 2500개, 5개 내지 2600개, 5개 내지 2700개, 5개 내지 2800개, 5개 내지 2900개, 5개 내지 3000개, 5개 내지 3100개 이상의 염기를 포함한다.

본 명세서에서 사용된 "상동 재조합"(HR)은 상동성 부위에서 2개의 DNA 분자 간의 DNA 단편의 교환을 포함한다. 상동 재조합의 빈도는 여러 인자에 영향을 받는다. 상이한 유기체는 상동 재조합의 양 및 상동 재조합과 비상동 재조합의 상대 비율이 다르다. 일반적으로, 상동성 영역의 길이는 상동성 재조합 사건의 빈도(보다 긴 상동성 영역, 보다 큰 빈도)에 영향을 미친다. 상동 재조합을 관찰하는 데 필요한 상동성 영역의 길이는 또한 종에 따라 다르다. 많은 경우에, 적어도 5 kb의 상동성이 이용되었지만, 상동 재조합은 25 내지 50 bp만큼의 적은 상동성으로 관찰되었다. 예를 들어, 문헌[Singer et al., (1982) Cell 31:25-33; Shen and Huang, (1986) Genetics 112:441-57]; 문헌[Watt et al., (1985) Proc. Natl. Acad. Sci. USA 82:4768-72, Sugawara and Haber, (1992) Mol Cell Biol 12:563-75, Rubnitz and Subramani, (1984) Mol Cell Biol 4:2253-8]; 문헌[Ayares et al., (1986) Proc. Natl. Acad. Sci. USA 83:5199-203]; 문헌[Liskay et al., (1987) Genetics 115:161-7] 참조.

핵산 또는 폴리펩티드 서열의 문맥에서 "서열 동일성" 또는 "동일성"은, 특정 비교 창에 대한 최대 일치를 위해 정렬될 때, 동일한 두 서열 내의 핵산 염기 또는 아미노산 잔기를 나타낸다.

용어 "서열 동일성 백분율"은 비교 창에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하되, 비교 창 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 부분은 2개의 서열의 최적 정렬을 위한 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교 창 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. 서열 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 백분율을 포함하지만, 이들로 제한되는 것은 아니다. 이들 동일성은 본 명세서에 기재된 프로그램 중 임의의 것을 사용하여 결정될 수 있다.

서열 정렬 및 동일성 또는 유사성 백분율 계산은 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., 미국 위스콘신 주 매디슨 소재)의 MegAlign™ 프로그램을 포함하지만, 이것으로 제한되지 않는 상동 서열을 검출하도록 설계된 다양한 비교 방법을 사용하여 결정될 수 있다. 본 출원의 문맥 내에서, 서열 분석 소프트웨어가 분석에 사용되는 경우, 달리 명시되지 않는 한, 분석 결과는 언급된 프로그램의 "디폴트 값"에 기초할 것이라는 것을 이해할 것이다. 본 명세서에서 사용된 바와 같이, "디폴트 값"은 최초로 초기화될 때, 원래 소프트웨어로 로딩되는 임의의 값 또는 파라미터 세트를 의미할 것이다.

"Clustal V 정렬 방법"은 Clustal V(문헌[Higgins and Sharp, (1989) CABIOS 5:151-153]; 문헌[Higgins et al., (1992) Comput Appl Biosci 8:189-191]에 기술됨)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., 미국 위스콘신주 매디슨 소재)의 MegAlign™ 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬의 경우, 디폴트 값은 GAP PENALTY = 10 및 GAP LENGTH PENALTY = 10에 해당한다. Clustal 방법을 사용하는 단백질 서열의 동일성 백분율의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 KTUPLE = 1, GAP PENALTY = 3, WINDOW = 5 및 DIAGONALS SAVED = 5이다. 핵산의 경우, 이들 파라미터는 KTUPLE = 2, GAP PENALTY = 5, WINDOW = 4 및 DIAGONALS SAVED = 4이다. Clustal V 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "동일성 백분율"을 얻을 수 있다. "Clustal W 정렬 방법"은 Clustal W(Higgins and Sharp, (1989) CABIOS 5:151-153, Higgins et al., (1992) Comput Appl Biosci 8:189-191에 기술됨)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., 미국 위스콘신 주 매디슨 소재)의 MegAlign™ v6.1 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬을 위한 디폴트 파라미터(GAP PENALTY=10, GAP LENGTH PENALTY=0.2, 지연 발산 서열(%)=30, DNA 전이 가중치=0.5, 단백질 가중치 매트릭스=Gonnet 시리즈, DNA 가중치 매트릭스=IUB). 클러스탈 W 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "백분율 동일성"을 얻을 수 있다. 달리 언급되지 않는 한, 본 명세서에 제공된 서열 동일성/유사성 값은 다음의 파라미터를 이용하여 GAP 버전 10(GCG, 캘리포니아주 샌디에이고에 소재한 액설리스(Accelrys))를 이용하여 얻은 값을 지칭한다: 뉴클레오티드 서열에 대한 동일성% 및 유사성%는 갭 생성 페널티 가중치 50 및 갭 길이 연장 페널티 가중치 3, 및 nwsgapdna.cmp 점수 매트릭스를 사용하며; 아미노산 서열에 대한 동일성% 및 유사성%는 GAP 생성 페널티 가중치 8 및 갭 길이 연장 페널티 2, 및 BLOSUM62 점수 매트릭스를 사용함(Henikoff and Henikoff, (1989) Proc. Natl. Acad. Sci. USA 89:10915). GAP는 Needleman and Wunsch, (1970) J Mol Biol 48:443-53의 알고리즘을 사용하여 일치의 수를 최대화하고 갭의 수를 최소화하는 2개의 전체 서열의 정렬을 찾는다. GAP는 가능한 모든 정렬 및 갭 위치를 고려하고, 일치된 염기의 단위로 갭 생성 페널티 및 갭 연장 페널티를 사용하여 가장 많은 수의 일치된 염기와 가장 적은 갭을 갖는 정렬을 생성한다. "BLAST"는 미국 국립생물공학정보센터(NCBI)에서 제공하는, 생물학적 서열 간의 유사성 영역을 찾는 데 사용되는 검색 알고리즘이다. 이 프로그램은 뉴클레오티드 또는 단백질 서열을 서열 데이터베이스와 비교하고 일치의 통계적 유의성을 계산하여 유사성이 무작위로 발생한 것으로 예측되지 않도록 쿼리 서열과 충분한 유사성을 갖는 서열을 확인한다. BLAST는 확인된 서열 및 이들의 질의 서열에 대한 로컬 정렬을 보고한다. 당업자는 여러 수준의 서열 동일성이 다른 종 또는 자연적으로 또는 합성적으로 변형된 종으로부터 폴리펩티드를 확인하는 데 유용하고, 이러한 폴리펩티드가 동일하거나 유사한 기능 또는 활성을 갖는다는 것을 잘 이해한다. 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 백분율을 포함하지만, 이들로 제한되는 것은 아니다. 실제로, 50% 내지 100%, 예컨대, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 임의의 아미노산 동일성은 본 개시를 설명하는 데 유용할 수 있다.

폴리뉴클레오티드 및 폴리펩티드 서열, 이의 변이체, 및 이들 서열의 구조적 관계는 본 명세서에서 상호 호환적으로 사용되는 용어 "상동성", "상동", "실질적으로 동일한", "실질적으로 유사한" 및 "실질적으로 대응하는"에 의해 기재될 수 있다. 이들은 하나 이상의 아미노산 또는 뉴클레오티드 염기에서의 변화가 분자의 기능, 예컨대, 유전자 발현을 매개하거나 특정 표현형을 생성하는 능력에 영향을 미치지 않는 폴리펩티드 또는 핵산 서열을 지칭한다. 이들 용어는 또한 초기의 비변형된 핵산에 비해 생성된 핵산의 기능성 특성을 실질적으로 변경하지 않는 핵산 서열의 변형(들)을 지칭한다. 이들 변형은 핵산 단편에서의 하나 이상의 뉴클레오티드의 결실, 치환, 및/또는 삽입을 포함한다. 포함되는 실질적으로 유사한 핵산 서열은 (적당히 엄격한 조건, 예컨대, 0.5X의 SSC, 0.1%의 SDS, 60℃하에) 본 명세서에 예시된 서열, 또는 본 명세서에 개시된 뉴클레오티드 서열의 임의의 일부와 혼성화하는 이의 능력에 의해 정의될 수 있고, 본 명세서에 개시된 임의의 핵산 서열과 기능적으로 동등하다. 엄격성 조건은 원연(distantly-related) 유기체로부터의 상동 서열과 같은 적당히 유사한 단편을 매우 유사한 단편, 예컨대, 근연(closely-related) 유기체로부터 기능성 효소를 복제하는 유전자에 대해 선별하도록 조정될 수 있다. 혼성화 후 세척은 엄격성 조건을 결정한다.

"센티모건"(cM) 또는 "지도 단위"는 두 개의 폴리뉴클레오티드 서열, 연결된 유전자, 마커, 표적 부위, 좌위, 또는 이들의 임의의 쌍 간의 거리이고, 감수분열 생성물의 1%는 재조합체이다. 따라서, 센티모건은 두 개의 연결된 유전자, 마커, 표적 부위, 좌위, 또는 이들의 임의의 쌍 간의 1% 평균 재조합 빈도와 동일한 거리에 해당한다.

"단리된" 또는 "정제된" 핵산 분자, 폴리뉴클레오티드, 폴리펩티드, 또는 단백질, 또는 이의 생물 활성 부분에는 이의 천연 유래 환경에서 발견되는 폴리뉴클레오티드 또는 단백질을 정상적으로 수반하거나 이와 상호 작용하는 성분이 실질적으로 또는 본질적으로 없다. 따라서, 단리된 또는 정제된 폴리뉴클레오티드 또는 폴리펩티드 또는 단백질에는 재조합 기법에 의해 생성될 때 다른 세포 물질 또는 배양 배지가 실질적으로 없거나, 화학적으로 합성될 때 화학적 전구체 또는 다른 화학물질이 실질적으로 없다. 최적으로는, "단리된" 폴리뉴클레오티드에는 폴리뉴클레오티드가 유래되는 유기체의 게놈 DNA에서 자연적으로 폴리뉴클레오티드를 측접하는 서열(즉, 폴리뉴클레오티드의 5' 말단 및 3' 말단에 위치한 서열)(최적으로는 단백질 암호화 서열)이 없다. 예를 들어, 다양한 실시형태에서, 단리된 폴리뉴클레오티드는 폴리뉴클레오티드가 유래되는 세포의 게놈 DNA에서 자연적으로 폴리뉴클레오티드를 측접하는 뉴클레오티드 서열을 약 5 kb, 4 kb, 3 kb, 2 kb, 1 kb, 0.5 kb, 또는 0.1 kb 미만으로 함유할 수 있다. 단리된 폴리뉴클레오티드는 그들이 자연적으로 존재하는 세포로부터 정제될 수 있다. 당업자에게 공지된 통상적인 핵산 정제 방법이 단리된 폴리뉴클레오티드를 수득하는 데 사용될 수 있다. 이 용어는 또한 재조합 폴리뉴클레오티드 및 화학적으로 합성된 폴리뉴클레오티드를 포함한다.

용어 "단편"은 뉴틀레오티드 또는 아미노산의 인접한 세트를 지칭한다. 일 실시형태에서, 단편은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 인접한 뉴클레오티드이다. 일 실시형태에서, 단편은 2, 3, 4, 5, 6, 7 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 인접한 아미노산이다. 단편은 상기 단편의 길이에 대해 약간의 동일성 백분율을 공유하는 서열의 기능을 나타낼 수 있거나 나타내지 않을 수 있다.

용어 "기능적으로 동등한 단편" 및 "기능성 동등 단편"은 본 명세서에서 상호 호환적으로 사용된다. 이들 용어는 이것이 유래되는 더 긴 서열과 동일한 활성 또는 기능을 나타내는 단리된 핵산 단편 또는 폴리펩티드의 일부 또는 하위 서열을 지칭한다. 일례에서, 단편은 이 단편이 활성 단백질을 암호화하든 그렇지 않든 유전자 발현을 변경하거나 특정 표현형을 생성하는 능력을 보유한다. 예를 들어, 단편은 변형된 식물에서 원하는 표현형을 생성하기 위한 유전자 설계에서 사용될 수 있다. 유전자는 이것이 활성 효소를 암호화하는지 여부에 관계 없이 핵산 단편을 식물 프로모터 서열에 대해 센스 방향 또는 안티센스 방향으로 연결함으로써 억제에서 사용하도록 설계될 수 있다.

"유전자"는 암호화 서열 앞의 조절 서열(5' 비암호화 서열) 및 뒤의 조절 서열(3' 비암호화 서열)을 포함하는 특정 단백질과 같지만, 이것으로 제한되지 않는 기능성 분자를 발현하는 핵산 단편을 포함한다. "천연 유전자"는 자신의 조절 서열과 함께 자연적인 내인성 위치에서 발견되는 유전자를 지칭한다.

용어 "내인성"은 세포 또는 유기체에서 자연적으로 존재하는 서열 또는 기타 분자를 의미한다. 일 양상에서, 내인성 폴리뉴클레오티드는 정상적으로 세포 게놈에서 발견되며; 즉, 이종성이 아니다.

"대립 유전자"는 염색체 상의 주어진 좌위를 점유하는 유전자의 몇 가지 대안적 형태 중 하나이다. 염색체 상의 주어진 좌위에 존재하는 모든 대립 유전자가 동일한 경우, 그 식물은 그 좌위에서 동형접합성이다. 염색체 상의 주어진 좌위에 존재하는 대립 유전자가 상이한 경우, 그 식물은 그 좌위에서 이형접합성이다.

"암호화 서열"은 특정 아미노산 서열을 암호화하는 폴리뉴클레오티드 서열을 지칭한다. "조절 서열"은 암호화 서열의 상류(5 '비암호화 서열), 암호화 서열 내 또는 하류(3' 비암호화 서열)에 위치하며, 관련 암호화 서열의 전사, RNA 가공 또는 안정성, 또는 번역에 영향을 주는 뉴클레오티드 서열을 지칭한다. 조절 서열은 프로모터, 번역 리더 서열, 5' 미번역 서열, 3' 미번역 서열, 인트론, 폴리아데닐화 표적 서열, RNA 가공 부위, 효과기 결합 부위, 및 줄기-루프 구조를 포함하지만, 이들로 제한되는 것은 아니다.

"돌연변이된 유전자"는 인간 개입을 통해 변경된 유전자이다. 이러한 "돌연변이된 유전자"는 적어도 하나의 뉴클레오티드 삽입, 결실, 또는 치환에 의해 대응하는 비돌연변이된 유전자의 서열과 상이한 서열을 갖는다. 본 발명의 특정 실시형태에서, 돌연변이된 유전자는 본 명세서에 개시된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템을 이용하여 만들어진 변경을 포함한다. 돌연변이된 식물은 돌연변이된 유전자를 포함하는 식물이다.

본 명세서에서 사용된 "표적화된 돌연변이"는 본 명세서에 개시되는 유도 Cas 엔도뉴클레아제 시스템이 관련된 방법을 포함하는, 당업자에게 공지된 임의의 방법을 사용하여 표적 유전자 내의 표적 서열을 변경함으로써 제조된 고유 유전자를 포함하는 유전자(표적 유전자로 지칭됨)에서의 돌연변이이다.

용어 "넉아웃", "유전자 넉아웃" 및 "유전적 넉아웃"은 본 명세서에서 상호 호환적으로 사용된다. 넉아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 세포의 DNA 서열을 나타내며, 예를 들어, 넉아웃 전의 DNA 서열은 아미노산 서열을 암호화할 수 있었거나 조절 기능(예를 들어, 프로모터)을 가졌을 수 있다.

용어 "넉인(knock-in)", "유전자 넉인", "유전자 삽입" 및 "유전적 넉인"은 본 명세서에서 상호 호환적으로 사용된다. 넉인은 (예를 들어, 적합한 공여자 DNA 폴리뉴클레오티드가 또한 사용되는 상동성 재조합(HR)에 의해) Cas 단백질로 표적화함으로써 세포 내 특이적 DNA 서열에서 DNA 서열의 대체 또는 삽입을 나타낸다. 넉인의 예는 유전자의 암호화 영역 내 이종성 아미노산 암호화 서열의 특이적 삽입, 또는 유전자 좌위 내 전사 조절 요소의 특이적 삽입이다.

"도메인"은 (RNA, DNA, 및/또는 RNA-DNA 조합 서열일 수 있는) 뉴클레오티드들 또는 아미노산들이 연속되어 있는 것을 의미한다.

용어 "보존된 도메인" 또는 "모티프"는 진화적으로 관련된 단백질의 정렬된 서열을 따라 특정 위치에 보존된 폴리뉴클레오티드 또는 아미노산 세트를 의미한다. 다른 위치에서의 아미노산은 상동 단백질 간에 변할 수 있는 반면, 특정 위치에서 고도로 보존된 아미노산은 단백질의 구조, 안정성 또는 활성에 필수적인 아미노산을 나타낸다. 이들은 단백질 상동체 패밀리의 정렬된 서열에서 높은 보존 정도에 의해 확인되기 때문에, 새로 결정된 서열을 가진 단백질이 이전에 확인된 단백질 패밀리에 속하는지를 결정하기 위한 식별자 또는 "서명"으로 사용될 수 있다.

"코돈 변형 유전자" 또는 "코돈 선호 유전자" 또는 "코돈 최적화 유전자"는 숙주 세포의 선호되는 코돈 사용 빈도를 모방하도록 설계된 코돈 사용 빈도를 갖는 유전자이다.

"최적화된" 폴리뉴클레오티드는 특정 이종성 숙주 세포에서의 개선된 발현을 위하여 최적화된 서열이다.

"식물-최적화된 뉴클레오티드 서열"은 식물에서의 발현, 특히 식물에서의 증가된 발현을 위해 최적화된 뉴클레오티드 서열이다. 식물 최적화된 뉴클레오티드 서열은 코돈 최적화 유전자를 포함한다. 식물 최적화된 뉴클레오티드 서열은 개선된 발현을 위한 하나 이상의 식물 선호 코돈을 사용하여, 단백질, 예를 들어, 본 명세서에 개시된 바와 같은 Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열을 변형하여 합성될 수 있다. 예를 들어, 숙주 선호 코돈 사용에 대한 논의에 대해서는 문헌[Campbell and Gowri (1990) Plant Physiol. 92:1-11] 참조.

"프로모터"는 RNA 중합효소 및 기타 전사 개시 단백질의 인식 및 결합에 관련되는 DNA의 영역이다. 프로모터 서열은 근위 상류 요소 및 더 원위의 상류 요소로 이루어지고, 후자의 요소는 종종 인핸서로 지칭된다. "인핸서"는 프로모터 활성을 자극할 수 있는 DNA 서열이고, 프로모터의 선천적인 요소 또는 프로모터의 수준 또는 조직 특이성을 향상시키기 위해 삽입된 이종성 요소일 수 있다. 프로모터는 고유 유전자로부터 그 전체가 유래될 수 있거나, 천연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있고/있거나, 합성 DNA 세그먼트를 포함할 수 있다. 당업자는 상이한 프로모터가 상이한 조직 또는 세포 유형으로, 또는 상이한 발달 단계에서, 또는 상이한 환경 조건에 반응하여, 유전자의 발현을 유도할 수 있음을 이해한다. 또한, 대부분의 경우, 조절 서열의 정확한 경계가 완전히 정의되지 않았기 때문에, 일부 변형을 갖는 DNA 단편이 동일한 프로모터 활성을 가질 수 있음이 인정된다.

대부분의 시점에 대부분의 세포 유형에서 유전자가 발현되게 하는 프로모터는 일반적으로 "구성적 프로모터"로 지칭된다. 용어 "유도성 프로모터"는, 예를 들어, 화학적 화합물(화학적 유도물질)에 의해 내인성 또는 외인성 자극의 존재에 반응하여, 또는 환경, 호르몬, 화학물질, 및/또는 발달 신호에 반응하여 암호화 서열 또는 기능성 RNA를 선택적으로 발현하는 프로모터를 지칭한다. 유도성 또는 조절 프로모터는, 예를 들어, 빛, 열, 스트레스, 홍수 또는 가뭄, 염 스트레스, 삼투압 스트레스, 식물 호르몬, 상처, 또는 화학물질, 예컨대, 에탄올, 아브시스산(ABA), 자스모네이트, 살리실산, 또는 약해경감제에 의해 유도되거나 조절되는 프로모터를 포함한다.

"번역 리더 서열"은 유전자의 프로모터 서열과 암호화 서열 사이에 위치한 폴리뉴클레오티드 서열을 지칭한다. 번역 리더 서열은 번역 시작 서열의 상류의 mRNA에 존재한다. 번역 리더 서열은 mRNA에 대한 1차 전사체의 가공, mRNA 안정성 또는 번역 효율에 영향을 미칠 수 있다. 번역 리더 서열의 예가 기재되어 있다(예를 들어, 문헌[Turner and Foster, (1995) Mol Biotechnol 3:225-236]).

"3' 비암호화 서열", "전사 종결자" 또는 "종결 서열"은 암호화 서열의 하류에 위치한 DNA 서열을 지칭하며, 폴리아데닐화 인식 서열, 및 mRNA 가공 또는 유전자 발현에 영향을 미칠 수 있는 조절 신호를 암호화하는 다른 서열을 포함한다. 폴리아데닐화 신호는 일반적으로, mRNA 전구체의 3' 말단에의 폴리아데닐산 영역 추가에 영향을 주는 것을 특징으로 한다. 다른 3' 비암호화 서열의 사용은 문헌[Ingelbrecht et al., (1989) Plant Cell 1:671-680]에 예시되어 있다.

"RNA 전사체"는 DNA 서열의 RNA 중합효소 촉매화 전사로부터 만들어지는 생성물을 지칭한다. RNA 전사체가 DNA 서열의 완벽한 상보성인 복제물인 경우, 이를 1차 전사체 또는 프리-mRNA라고 지칭된다. RNA 전사체가 1차 전사체 프리-mRNA의 전사 후 가공으로부터 유래된 RNA 서열인 경우, 성숙 RNA 또는 mRNA라고 지칭한다. "전령 RNA" 또는 "mRNA"는 인트론이 없고 세포에 의해 단백질로 번역될 수 있는 RNA를 지칭한다. "cDNA"는 효소 역전사효소를 사용하는 mRNA 주형에 상보성이고 그로부터 합성되는 DNA를 지칭한다. cDNA는 단일 가닥이거나 DNA 중합효소 I의 Klenow 단편을 사용하여 이중 가닥 형태로 변환될 수 있다. "센스" RNA는 mRNA를 포함하는 RNA 전사체를 지칭하며 세포 내 또는 시험관 내 단백질로 번역될 수 있다. "안티센스 RNA"는, 표적 1차 전사체 또는 mRNA의 전부 또는 일부에 상보성이고 표적 유전자의 발현을 차단하는 RNA 전사체를 지칭한다(예를 들어, 미국 특허 제5,107,065호 참조). 안티센스 RNA의 상보성은 특정 유전자 전사체의 임의의 부분, 즉 5' 비암호화 서열, 3' 비암호화 서열, 인트론 또는 암호화 서열과 함께 있을 수 있다. "기능성 RNA"는 번역되지 않을 수 있지만 세포 과정에 영향을 미치는 안티센스 RNA, 리보자임 RNA 또는 기타 RNA를 지칭한다. 용어 "보체" 및 "역보체(reverse complement)"는 mRNA 전사체에 대하여 본 명세서에서 상호 호환적으로 사용되며, 메시지의 안티센스 RNA를 정의하기 위한 의미이다.

용어 "게놈"은 유기체 또는 바이러스의 각각의 세포 또는 세포 소기관에 존재하는 유전 물질(유전자 및 비암호화 서열)의 전체 보체; 및/또는 한쪽 부모로부터 (일배체) 단위로서 유전된 완전한 염색체 세트를 지칭한다.

용어 "작동 가능하게 연결된"은 하나의 기능이 다른 하나에 의해 조절되도록 된 단일 핵산 단편 상에서의 핵산 서열들의 결합을 나타낸다. 예를 들어, 프로모터는, 암호화 서열의 발현을 조절할 수 있는 경우(즉, 암호화 서열이 프로모터의 전사 조절 하에 있을 때), 암호화 서열과 작동 가능하게 연결된다. 암호화 서열은 센스 또는 안티센스 방향으로 조절 서열에 작동 가능하게 연결될 수 있다. 다른 예에서, 상보성 RNA 영역은 표적 mRNA의 5', 또는 표적 mRNA의 3', 또는 표적 mRNA 내에, 직접 또는 간접적으로, 작동 가능하게 연결될 수 있거나, 제1 상보성 영역은 5'이고 그 보체는 표적 mRNA의 3'이다.

일반적으로, "숙주"는 이종성 성분(폴리뉴클레오티드, 폴리펩티드, 다른 분자, 세포)이 도입된 유기체 또는 세포를 지칭한다. 본 명세서에서 사용된 "숙주 세포"는 생체 내 또는 시험관 내 진핵생물 세포, 원핵생물 세포(예를 들어, 세균 또는 고세균 세포), 또는 이종성 폴리뉴클레오티드 또는 폴리펩티드가 도입된, 단세포의 독립체로서 배양된 다세포 유기체(예를 들어, 세포주)로부터의 세포를 지칭한다. 일부 실시형태에서, 세포는 다음으로 구성된 군으로부터 선택된다: 고세균 세포, 세균 세포, 진핵생물 세포, 진핵생물 단세포 유기체, 체세포, 생식 세포, 줄기 세포, 식물 세포, 조류 세포, 동물 세포, 무척추동물 세포, 척추동물 세포, 어류 세포, 개구리 세포, 조류 세포, 곤충 세포, 포유류 세포, 돼지 세포, 소 세포, 염소 세포, 양 세포, 설치류 세포, 래트 세포, 마우스 세포, 비인간 영장류 세포 및 인간 세포. 일부 경우에, 세포는 시험관내이다. 일부 경우에, 세포는 생체내이다.

용어 "재조합"은, 예를 들어, 유전자 조작 기법에 의해 단리된 핵산 세그먼트의 조작, 또는 화학적 합성에 의한, 그렇지 않았다면 분리된 2개의 서열 세그먼트의 인공 조합을 지칭한다.

용어 "플라스미드", "벡터" 및 "카세트"는 종종 세포의 중심 대사의 일부가 아니며, 보통 이중 가닥 DNA 형태인 유전자를 수반하는 선형 또는 원형 염색체외 요소를 지칭한다. 이러한 요소는 임의의 공급원으로부터 유래된 단일 또는 이중 가닥 DNA 또는 RNA의, 선형 또는 원형 형태의, 자율적 복제 서열, 게놈 통합 서열, 파지 또는 뉴클레오티드 서열일 수 있고, 다수의 뉴클레오티드 서열은 세포에 관심 대상의 폴리뉴클레오티드를 도입할 수 있는 고유의 구조로 연결되거나 재조합되어 있다. "형질전환 카세트"는 유전자를 포함하며 유전자 이외에 특정한 숙주 세포의 형질전환을 촉진하는 요소를 갖는 특정 벡터를 지칭한다. "발현 카세트"는 유전자를 포함하며 유전자 이외에 숙주에서 그 유전자의 발현을 허용하는 요소를 갖는 특정 벡터를 지칭한다.

용어 "재조합 DNA 분자", "재조합 DNA 작제물", "발현 작제물", "작제물" 및 "재조합 작제물"은 본 명세서에서 상호 호환적으로 사용된다. 재조합 DNA 작제물은 핵산 서열, 예컨대 천연에서 모두 함께 확인되지 않는 조절 및 암호화 서열의 인공 조합을 포함한다. 예를 들어, 재조합 DNA 작제물은 상이한 공급원으로부터 유래되는 조절 서열 및 암호화 서열, 또는 동일한 공급원으로부터 유래되지만, 천연에서 확인되는 것과 상이한 방식으로 배열된 조절 서열 및 암호화 서열을 포함할 수 있다. 이러한 작제물은 단독으로 사용되거나 벡터와 함께 사용될 수 있다. 벡터가 사용되는 경우, 벡터의 선택은 당업자에게 널리 공지된 바와 같이 숙주 세포로 벡터를 도입하기 위해 사용되는 방법에 따라 달라진다. 예를 들어, 플라스미드 벡터가 사용될 수 있다. 당업자는 숙주 세포를 성공적으로 형질전환시키고 선택하고 증식시키기 위해 벡터에 존재해야 하는 유전 요소를 잘 알고 있다. 당업자는 또한 상이한 독립적인 형질전환 사건이 상이한 발현 수준 및 발현 패턴으로 일어날 수 있고(문헌[Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86]), 이에 따라 원하는 발현 수준 및 패턴을 나타내는 세포주를 얻기 위해 여러 사건이 전형적으로 선별됨을 인식할 것이다. 이러한 선별은 표준 분자 생물학적 분석법, 생화학적 분석법, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량적 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석법, 및/또는 표현형 분석을 비롯한 기타 분석법에 의해 달성될 수 있다.

용어 "이종성"은 특정 폴리뉴클레오티드 또는 폴리펩티드 서열의 본래의 환경, 위치, 또는 조성과 이의 현재의 환경, 위치, 또는 조성 사이의 차이를 지칭한다. 비제한적인 예에는 분류학적 파생(예를 들어, 제아 메이스로부터 얻은 폴리뉴클레오티드 서열은 오리자 사티바(Oryza sativa) 식물 또는 제아 메이스의 상이한 종류 또는 품종의 게놈에 삽입된 경우 이종성일 것임; 또는 세균으로부터 얻은 폴리뉴클레오티드가 식물의 세포로 도입된 경우), 또는 서열(예를 들어, 단리되고, 변형되어, 메이즈 식물에 재도입된 제아 메이스로부터 얻은 폴리뉴클레오티드 서열)의 차이가 포함된다. 본 명세서에서 사용된 바와 같이, 서열과 관련하여 "이종성"은 상이한 종, 품종, 외래 종에서 유래된 서열이거나, 또는 동일한 종에서 유래된 경우 의도적인 인간의 개입에 의해 조성물 및/또는 게놈 좌위의 고유 형태로부터 실질적으로 변형된 서열을 지칭할 수 있다. 예를 들어, 이종성 폴리뉴클레오티드에 작동 가능하게 연결된 프로모터는 폴리뉴클레오티드가 유래된 종과 상이한 종으로부터 유래되거나, 동일한/유사한 종 유래이면 하나 또는 둘 다는 이의 원래의 형태 및/또는 게놈 유전좌위로부터 실질적으로 변형되거나, 프로모터는 작동 가능하게 연결된 폴리뉴클레오티드에 대해 자연적인 프로모터가 아니다. 대안적으로, 본 명세서에 제공된 하나 이상의 조절 영역(들) 및/또는 폴리뉴클레오티드는 전적으로 합성형일 수 있다. 다른 예에서, Cas 엔도뉴클레아제에 의한 절단을 위한 표적 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 상이한 유기체의 폴리뉴클레오티드일 수 있다. 다른 예에서, Cas 엔도뉴클레아제 및 가이드 RNA는 표적 폴리뉴클레오티드에 삽입을 위한 주형 또는 공여자로서 작용하는 추가적인 폴리뉴클레오티드를 이용하여 표적 폴리뉴클레오티드에 도입될 수 있되, 추가적인 폴리뉴클레오티드는 표적 폴리뉴클레오티드 및/또는 Cas 엔도뉴클레아제에 대해 이종성이다.

본 명세서에서 사용된 용어 "발현"은 전구체 또는 성숙 형태의 기능성 최종 생성물(예컨대, mRNA, 가이드 RNA 또는 단백질)의 생성을 지칭한다.

"성숙한" 단백질은 번역후 가공된 폴리펩티드(즉, 1차 번역 생성물에 존재하는 임의의 프리폴리펩티드 또는 프로폴리펩티드가 제거된 것)를 지칭한다.

"전구체" 단백질은 mRNA의 번역의 1차 생성물(즉, 프리펩티드 및 프로펩티드가 여전히 존재하는 것)을 지칭한다. 프리펩티드 및 프로펩티드는 세포내 국재화 신호일 수 있지만, 이로 제한되지 않는다.

"CRISPR"(규칙적 간격으로 분포하는 회문구조의 짧은 반복부) 좌위는, 예를 들어, 박테리아 및 고세균 세포에 의해 외래 DNA를 파괴하는데 사용되는 DNA 절단 시스템의 성분을 암호화하는 특정 좌위를 지칭한다(문헌[Horvath and Barrangou, 2010, Science 327:167-170]; 2007년 3월 1일자로 공개된 WO2007025097). CRISPR 좌위는 다양한 Cas(CRISPR-연합(associated)) 유전자에 의해 측접될 수 있는, 짧은 가변 DNA 서열(스페이서로 지칭됨)에 의해 분리된 짧은 직접 반복부(CRISPR 반복부)를 포함하는 CRISPR 어레이로 이루어질 수 있다.

본 명세서에서 사용된 "효과기" 또는 "효과기 단백질"은 폴리뉴클레오티드 표적을 인식, 결합, 및/또는 절단 또는 틈내기하는 것을 포함하는 활성을 포괄하는 단백질이다. 효과기, 또는 효과기 단백질은 또한 엔도뉴클레아제일 수 있다. CRISPR 시스템의 "효과기 복합체"는 crRNA 및 표적 인식 및 결합에 관여하는 Cas 단백질을 포함한다. 성분 Cas 단백질의 일부는 표적 폴리뉴클레오티드 절단에 관여하는 도메인을 추가로 포함할 수 있다.

용어 "Cas 단백질"은 Cas(CRISPR-associated) 유전자에 의해 암호화되는 폴리펩티드를 지칭한다. Cas 단백질은 cas 좌위에서 유전자에 의해 암호화된 단백질을 포함하고, 적응 분자뿐만 아니라 간섭 분자를 포함한다. 박테리아 적응 면역 복합체의 간섭 분자는 엔도뉴클레아제를 포함한다. 본 명세서에 기재된 Cas 엔도뉴클레아제는 하나 이상의 뉴클레아제 도메인을 포함한다. Cas 엔도뉴클레아제는 본 명세서에 개시된 신규한 Cas-알파 단백질, Cas9 단백질, Cpf1(Cas12) 단백질, C2c1 단백질, C2c2 단백질, C2c3 단백질, Cas3, Cas3-HD, Cas 5, Cas7, Cas8, Cas10, 또는 이들의 조합 또는 복합체를 포함하지만, 이들로 제한되지 않는다. Cas 단백질은 적합한 폴리뉴클레오티드 성분과의 복합체인 경우, 특정 폴리뉴클레오티드 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 틈내기 또는 절단할 수 있는 "Cas 엔도뉴클레아제" 또는 "Cas 효과기 단백질"일 수 있다. 본 발명의 Cas-알파 엔도뉴클레아제는 하나 이상의 RuvC 뉴클레아제 도메인을 갖는 것을 포함한다. Cas 단백질은 추가로 천연 Cas 단백질 또는 천연 Cas 단백질의 적어도 50, 50 내지 100, 적어도 100, 100 내지 150, 적어도 150, 150 내지 200, 적어도 200, 200 내지 250, 적어도 250, 250 내지 300, 적어도 300, 300 내지 350, 적어도 350, 350 내지 400, 적어도 400, 400 내지 450, 적어도 500, 또는 500개 초과의 인접한 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100%의 서열 동일성을 공유하며, 천연 서열의 적어도 부분적인 활성을 보유하는 단백질의 기능성 단편 또는 기능성 변이체로서 정의된다.

Cas 엔도뉴클레아제의 "기능성 단편", "기능성 동등물인 단편" 및 "기능적으로 동등한 단편"은 본 명세서에서 상호 호환적으로 사용되며, 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 풀거나 틈내기하거나 절단(표적 부위에서 단일 또는 이중 가닥 절단을 도입)하는 능력이 유지되는 본 발명의 Cas 엔도뉴클레아제의 일부 또는 하위 서열을 지칭한다. Cas 엔도뉴클레아제의 부분 또는 하위서열은 이의 도메인 중 어느 하나의 완전한 또는 부분적(기능성) 펩티드, 예를 들어, 이하로 제한되는 것은 아니지만, Cas3 HD 도메인의 완전한 기능성 부분, Cas3 헬리카제 도메인의 완전한 기능성 부분, 단백질의 완전한 기능성 부분(예컨대, 이하로 제한되는 것은 아니지만, Cas5, Cas5d, Cas7 및 Cas8b1)을 포함할 수 있다.

본 명세서에 기재된 Cas9-알파를 포함하는, Cas 엔도뉴클레아제 또는 Cas 효과기 단백질의 "기능성 변이체", "기능적으로 동등한 변이체" 및 "기능성 동등 단편"이라는 용어는 본 명세서에서 상호 호환적으로 사용되며, 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 풀거나, 틈내기하거나 절단하는 능력이 유지되는 본 명세서에 개시된 Cas 효과기 단백질의 변이체를 지칭한다.

Cas 엔도뉴클레아제는 또한 다기능성 Cas 엔도뉴클레아제를 포함할 수 있다. 용어 "다기능성 Cas 엔도뉴클레아제" 및 "다기능성 Cas 엔도뉴클레아제 폴리펩티드"는 본 명세서에서 상호 호환적으로 사용되며, Cas 엔도뉴클레아제 기능성(Cas 엔도뉴클레아제로서 작용할 수 있는 적어도 하나의 단백질 도메인을 포함) 및 예컨대, 복합체를 형성하는 기능성을 포함하지만, 이것으로 제한되지 않는 적어도 하나의 다른 기능성(다른 단백질과 복합체를 형성할 수 있는 적어도 제2 단백질 도메인을 포함)을 갖는 단일 폴리펩티드에 대한 언급을 포함한다. 일 양상에서, 다기능성 Cas 엔도뉴클레아제는 Cas 엔도뉴클레아제를 대표하는 이들 도메인에 대해 (내부에, 상류에(5'), 하류에(3'), 또는 내부적으로 5'과 3'둘 모두에, 또는 이의 임의의 조합에) 적어도 하나의 추가 단백질 도메인을 포함한다.

용어 "캐스케이드" 및 "캐스케이드 복합체"는 본 명세서에서 상호 호환적으로 사용되며, 폴리뉴클레오티드와 조립되어 폴리뉴클레오티드-단백질 복합체(polynucleotide-protein complex: PNP)를 형성할 수 있는 다중 서브유닛의 단백질 복합체에 대한 언급을 포함한다. 캐스케이드는 복합체 조립 및 안정성, 그리고 표적 핵산 서열의 확인을 위해 폴리뉴클레오티드에 의존하는 PNP이다. 캐스케이드는 가이드 폴리뉴클레오티드의 가변 표적화 도메인에 상보성인 표적 핵산을 찾아 선택적으로 이에 결합하는 감시 복합체로서 기능한다.

용어 "절단 준비가 된(cleavage-ready) 캐스케이드", "cr캐스케이드", "절단 준비가 된 캐스케이드 복합체", "cr캐스케이드 복합체", "절단 준비가 된 캐스케이드 시스템", "CRC" 및 "cr캐스케이드 시스템"은 본 명세서에서 상호 호환적으로 사용되며, 폴리뉴클레오티드와 조립되어 폴리뉴클레오티드-단백질 복합체(PNP)를 형성할 수 있는 다중 서브유닛의 단백질 복합체로서, 캐스케이드 단백질 중 하나는 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 풀거나, 틈내기하거나, 절단할 수 있는 Cas 엔도뉴클레아제인 것인 다중 서브유닛의 단백질 복합체에 대한 언급을 포함한다.

용어 "5'-캡"과 "7-메틸구아닐레이트(m7G) 캡"은 본 명세서에서 상호 호환적으로 사용된다. 7-메틸구아닐레이트 잔기는 진핵생물에서 전령 RNA(mRNA)의 5' 말단에 위치한다. RNA 중합효소 II(Pol II)는 진핵생물에서 mRNA를 전사한다. 전령 RNA 캡핑은 일반적으로 다음과 같이 일어난다: mRNA 전사체의 가장 말단 5' 포스페이트기가 RNA 말단 포스파타아제에 의해 제거되어, 2개의 말단 포스페이트를 남긴다. 구아노신 모노포스페이트(GMP)가 구아닐릴 트랜스퍼라아제에 의해 전사체의 말단 포스페이트에 첨가되어, 전사체 말단에 5'-5' 트리포스페이트-연결 구아닌을 남긴다. 마지막으로, 이 말단 구아닌의 7-질소가 메틸 트랜스퍼라아제에 의해 메틸화된다.

본 명세서의 용어 "5'-캡을 갖지 않는"은 예를 들어, 5'-캡 대신 5'-하이드록실기를 갖는 RNA를 지칭하는 데 사용된다. 이러한 RNA는, 예를 들어, "캡핑되지 않은 RNA"로 지칭될 수 있다. 5'-캡핑된 RNA는 핵 외수송의 대상이기 때문에 캡핑되지 않은 RNA는 전사 후 핵에 더 잘 축적될 수 있다. 본 명세서에서 하나 이상의 RNA 성분은 캡핑되지 않는다.

본 명세서에서 사용된 용어 "가이드 폴리뉴클레오티드"는 본 명세서에 기재된 Cas 엔도뉴클레아제를 비롯한 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 선택적으로 이에 결합하고, 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이들의 조합(RNA-DNA 조합 서열)일 수 있다.

용어 가이드 RNA, crRNA 또는 tracrRNA의 "기능성 단편", "기능적으로 동등물인 단편" 및 "기능적으로 동등한 단편"은 본 명세서에서 상호 호환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA의 일부 또는 하위 서열을 각각 지칭한다.

용어 가이드 RNA, crRNA 또는 tracrRNA의 "기능성 변이체", "기능적으로 동등한 변이체" 및 "기능성 동등 변이체"는 (각각) 본 명세서에서 상호 호환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA의 변이체를 각각 지칭한다.

용어 "단일 가이드 RNA" 및 "sgRNA"는 본 명세서에서 상호 호환적으로 사용되며, tracrRNA(전사-촉진 CRISPR RNA)에 융합된 (tracrRNA에 혼성화하는 tracr 메이트 서열에 연결된) 가변 표적화 도메인을 포함하는 crRNA(CRISPR RNA)인, 2개의 RNA 분자의 합성 융합과 관련된다. 단일 가이드 RNA는 II형 Cas 엔도뉴클레아제와 복합체를 형성할 수 있는 II형 CRISPR/Cas 시스템의 crRNA 또는 crRNA 단편 및 tracrRNA 또는 tracrRNA 단편을 포함할 수 있고, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 선택적으로 이에 결합하고, 선택적으로 이를 틈내기 또는 절단(단일 또는 이중 가닥 절단을 도입)하게 할 수 있다.

용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본 명세서에서 상호 호환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 혼성화될 수 있는(상보성인) 뉴클레오티드 서열을 포함한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 간의 상보성 백분율은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71 %, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91 %, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 100%일 수 있다. 가변 표적화 도메인은 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드의 길이일 수 있다. 일부 실시형태에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열, 또는 임의의 이들의 조합으로 구성될 수 있다.

용어 (가이드 폴리뉴클레오티드의) "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본 명세서에서 상호 호환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 뉴클레오티드 서열을 포함한다. CER 도메인은 (트랜스-작용성) tracr뉴클레오티드 메이트(mate) 서열 다음에 tracr뉴클레오티드 서열을 포함한다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예를 들어, 2015년 2월 26일 공개된 US20150059010A1 참조), 또는 이들의 임의의 조합으로 구성될 수 있다.

본 명세서에 사용된 바와 같이, 용어 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체", "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템", "가이드 폴리뉴클레오티드/Cas 복합체", "가이드 폴리뉴클레오티드/Cas 시스템", "유도된 Cas 시스템", "폴리뉴클레오티드-유도된 엔도뉴클레아제", "PGEN"은 본 명세서에서 상호 호환적으로 사용되며, 복합체를 형성할 수 있는 적어도 하나의 가이드 폴리뉴클레오티드 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 지시하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 절단(단일 또는 이중 가닥 파괴를 도입)하게 할 수 있다. 본 명세서의 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 임의의 공지된 CRISPR 시스템의 적합한 폴리뉴클레오티드 성분(들) 및 Cas 단백질(들)을 포함할 수 있다(문헌[Horvath and Barrangou, 2010, Science 327:167-170]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]; 문헌[Zetsche et al., 2015, Cell 163, 1-13]; 문헌[Shmakov et al., 2015, Molecular Cell 60, 1-13]).

용어 "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템", "가이드 RNA/Cas 복합체", "가이드 RNA/Cas 시스템", "gRNA/Cas 복합체", "gRNA/Cas 시스템", "RNA-유도된 엔도뉴클레아제", "RGEN"은 본 명세서에서 상호 호환적으로 사용되며, 복합체를 형성할 수 있는 적어도 하나의 RNA 성분 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하고, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 지시하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 절단(단일 또는 이중 가닥 파괴를 도입)하게 할 수 있다.

용어 "표적 부위", "표적 서열", "표적 부위 서열", "표적 DNA", "표적 좌위", "게놈 표적 부위", "게놈 표적 서열", "게놈 표적 좌위" 및 "프로토스페이서"는 본 명세서에서 상호 호환적으로 사용되며, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체가 인식하고 이에 결합하고 선택적으로 틈내기 또는 절단할 수 있는 세포의 게놈 내 폴리뉴클레오티드 서열, 예컨대, 이하로 제한되는 것은 아니지만, 염색체, 에피솜, 좌위, 또는 임의의 다른 DNA 분자(염색체 DNA, 엽록체 DNA, 미토콘드리아 DNA, 플라스미드 DNA를 포함) 상의 뉴클레오티드 서열을 지칭한다. 표적 부위가 세포 게놈에서의 내인성 부위일 수 있거나, 대안적으로, 표적 부위가 세포에 이종성이어서 세포의 게놈에서 천연 유래되지 않을 수 있거나, 표적 부위가 천연에서 생긴 경우와 비교하여 이종성 게놈 위치에서 확인될 수 있다. 본 명세서에서 사용된 용어 "내인성 표적 서열" 및 "천연 표적 서열"은 세포의 게놈에 내인성이거나 천연 표적 서열로서, 세포 게놈 내 표적 서열의 내인성 또는 천연 위치에 있는 표적 서열을 지칭하기 위해 본 명세서에서 상호 호환적으로 사용된다. "인공 표적 부위" 또는 "인공 표적 서열"은 본 명세서에서 상호 호환적으로 사용되며, 세포의 게놈 내로 도입된 표적 서열을 지칭한다. 이러한 인공 표적 서열은 세포의 게놈 내의 내인성 또는 천연 표적 서열과 동일한 서열일 수 있지만, 세포의 게놈에서 상이한 위치(즉, 비내인성 또는 비천연 위치)에 위치할 수 있다.

본 명세서의 "프로토스페이서 인접 모티프"(PAM)는 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)되는 표적 서열(프로토스페이서)에 인접한 짧은 뉴클레오티드 서열을 지칭한다. 표적 DNA 서열 다음에 PAM 서열이 없는 경우 Cas 엔도뉴클레아제는 표적 DNA 서열을 성공적으로 인식하지 않을 수 있다. 본 명세서의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있다. PAM 서열은 임의의 길이일 수 있지만, 통상적으로 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드의 길이이다.

"변경된 표적 부위", "변경된 표적 서열", "변형된 표적 부위", "변형된 표적 서열"은 본 명세서에서 상호 호환적으로 사용되며, 변경되지 않은 표적 서열에 비해 적어도 하나의 변경을 포함하는 본 명세서에 개시된 표적 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 대체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, (iv) 적어도 하나의 뉴클레오티드의 화학적 변경, 또는 (v) (i) 내지 (iv)의 임의의 조합을 포함한다.

"변형된 뉴클레오티드" 또는 "편집된 뉴클레오티드"는 변형되지 않은 뉴클레오티드 서열에 비해 적어도 하나의 변경을 포함하는 관심 대상의 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 대체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, (iv) 적어도 하나의 뉴클레오티드의 화학적 변경, 또는 (v) (i) 내지 (iv)의 임의의 조합을 포함한다.

"표적 부위를 변형하기 위한" 및 "표적 부위를 변경하기 위한" 방법은 본 명세서에서 상호 호환적으로 사용되며, 변경된 표적 부위를 생성하는 방법을 지칭한다.

본 명세서에서 사용된 바와 같이, "공여자 DNA"는 Cas 엔도뉴클레아제의 표적 부위로 삽입될 관심 대상의 폴리뉴클레오티드를 포함하는 DNA 작제물이다.

용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열과 비교할 때 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 포함한다. 뉴클레오티드 변형은 적어도 하나의 뉴클레오티드 치환, 첨가 또는 결실일 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 측접한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 측접한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열에 충분한 상동성을 제공한다.

본 명세서의 용어 "식물 최적화된 Cas 엔도뉴클레아제"는 식물 세포 또는 식물에서의 발현에 대해 최적화된 뉴클레오티드 서열에 의해 암호화된 다기능성 Cas 단백질을 비롯한, Cas 단백질을 지칭한다.

"Cas 엔도뉴클레아제를 암호화하는 식물 최적화된 뉴클레오티드 서열", "Cas 엔도뉴클레아제를 암호화하는 식물 최적화된 작제물" 및 "Cas 엔도뉴클레아제를 암호화하는 식물 최적화된 폴리뉴클레오티드"는 본 명세서에서 상호 호환적으로 사용되며, 식물 세포 또는 식물에서의 발현을 위해 최적화된 Cas 단백질, 또는 이의 변이체 또는 기능성 단편을 암호화하는 뉴클레오티드 서열을 지칭한다. 식물-최적화된 Cas 엔도뉴클레아제를 포함하는 식물은 Cas 서열을 암호화하는 뉴클레오티드 서열을 포함하는 식물 및/또는 Cas 엔도뉴클레아제 단백질을 포함하는 식물을 포함한다. 일 양상에서, 식물-최적화된 Cas 엔도뉴클레아제 뉴클레오티드 서열은 메이즈-최적화, 벼-최적화, 밀-최적화, 대두-최적화, 목화-최적화 또는 카놀라-최적화된 Cas 엔도뉴클레아제이다.

용어 "식물"은 일반적으로 전체 식물, 식물 기관, 식물 조직, 종자, 식물 세포, 종자 및 이의 자손을 포함한다. 식물은 외떡잎식물 또는 쌍떡잎식물이다. 식물 세포는 종자로부터의 세포, 현탁액 배양물, 배아, 분열부, 캘러스 조직, 잎, 뿌리, 순, 배우체, 포자체, 꽃가루 및 미포자를 제한 없이 포함한다. "식물 요소"는 분화 및/또는 미분화 조직, 예를 들어, 식물 조직, 부분 및 세포 유형(그러나 이것으로 제한되지 않음)을 포함할 수 있는 전체 식물 또는 식물 성분을 지칭하고자 한 것이다. 일 실시형태에서, 식물 요소는 다음 중 하나이다: 전체 식물, 묘목, 분열 조직, 지상 조직, 맥관 조직, 피부 조직, 종자, 잎, 뿌리, 순, 줄기, 꽃, 열매, 기는 줄기, 구근, 괴경, 구경, 케이키, 순, 눈, 종양 조직, 및 다양한 형태의 세포 및 배양물(예를 들어, 단일 세포, 원형질체, 배아, 캘러스 조직). 원형질체가 세포벽이 없기 때문에, 원형질체는 (모든 성분에 의해 자연적으로 발견되는 바와 같이) 기술적으로 "온전한" 식물 세포가 아님을 주목하여야 한다. 용어 "식물 기관"은 형태학적으로 및 기능적으로 구별되는 식물 부분을 구성하는 식물 조직 또는 조직들의 군을 지칭한다. 본 명세서에서 사용된 바와 같이, "식물 요소"는 식물의 "부분"의 동의어이며, 식물의 임의의 부분을 지칭하고, 구별되는 조직 및/또는 기관을 포함할 수 있으며, 모든 부분에서 용어 "조직"과 상호 호환적으로 사용될 수 있다. 유사하게, "식물 생식 요소"는 그 식물의 유성 또는 무성 생식을 통해 다른 식물을 시작하게 하는 식물의 임의의 부분, 예를 들어, 이하로 제한되는 것은 아니지만, 종자, 묘목, 뿌리, 싹, 삽수, 접순, 접눈, 포복경, 알뿌리, 덩이줄기, 구경, 고아(keiki) 또는 봉오리를 일반적으로 언급하고자 한 것이다. 식물 요소는 식물에, 또는 식물 기관, 조직 배양물, 또는 세포 배양물에 있을 수 있다.

"자손"은 식물의 임의의 후속 세대를 포함한다.

본 명세서에서 사용된 용어 "식물 부분"은 식물 세포, 식물 원형질체, 식물이 재생될 수 있는 식물 세포 조직 배양물, 식물 캘러스, 식물 덩어리, 및 식물 또는 식물의 부분, 예컨대 배아, 꽃가루, 난세포, 종자, 잎, 꽃, 가지, 열매, 속씨, 이삭, 속대, 껍질, 줄기, 뿌리, 뿌리 끝, 꽃밥 등뿐만 아니라 이의 부분에서 온전한 식물 세포를 지칭한다. 낟알은 종의 성장 또는 생식 이외의 목적을 위해 상업적 재배업자에 의해 생산된 성숙 종자를 의미하는 것이다. 재생된 식물의 자손, 변이체 및 돌연변이체는 또한 이 부분들이 도입된 폴리뉴클레오티드를 포함하는 한 본 발명의 범위 내로 포함된다.

용어 "단자엽 식물" 또는 "외떡잎식물"은 종자가 전형적으로 단 하나의 배아 잎 또는 자엽을 포함하는 "단자엽 식물류"로도 알려진 속씨식물의 아강을 지칭한다. 이 용어는 전체 식물, 식물 요소, 식물 기관(예를 들어, 잎, 줄기, 뿌리 등), 종자, 식물 세포 및 그 자손에 대한 언급을 포함한다.

용어 "쌍자엽 식물" 또는 "쌍떡잎식물"은 종자가 전형적으로 2개의 배아 잎 또는 자엽을 포함하는 "쌍자엽 식물류"로도 알려진 속씨식물의 아강을 지칭한다. 이 용어는 전체 식물, 식물 요소, 식물 기관(예를 들어, 잎, 줄기, 뿌리 등), 종자, 식물 세포 및 그 자손에 대한 언급을 포함한다.

본 명세서에서 사용된 "웅성 불임성 식물"은 생존 가능하거나 달리 수정할 수 있는 웅성 생식체를 생산하지 않는 식물이다. 본 명세서에서 사용된 "자성 불임성 식물"은 생존 가능하거나 달리 수정할 수 있는 자성 생식체를 생산하지 않는 식물이다. 웅성 불임성 및 자성 불임성 식물은 각각 자성 가임성 및 웅성 가임성일 수 있는 것으로 인식된다. 또한, 웅성 번식성(이지만, 자성 불임성) 식물은 자성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있고, 자성 번식성(이지만, 웅성 불임성) 식물은 웅성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있는 것으로 인식된다.

본 명세서에서 용어 "비통상적인 효모"는 사카로마이세스(Saccharomyces)(예컨대, 사카로마이세스 세레비시애(S. cerevisiae)) 또는 스키조사카로마이세스 효모 종이 아닌 임의의 효모를 지칭한다. (문헌["Non-Conventional Yeasts in Genetics, Biochemistry and Biotechnology:Practical Protocols", K. Wolf, K.D. Breunig, G. Barth, Eds., Springer-Verlag, Berlin, Germany, 2003] 참조).

본 발명의 문맥에서 용어 "교배된" 또는 "교배" 또는 "교배하는"은 자손(즉, 세포, 종자, 또는 식물)을 생산하기 위한 수분을 통한 생식체의 융합을 의미한다. 이 용어는 유성 교배(다른 식물에 의한 식물의 수분) 및 자가생식(자가 수분, 즉, 꽃가루 및 밑씨(또는 소포자 및 대포자)가 동일 식물 또는 유전적으로 동일한 식물로부터 유래된 경우)을 모두 포함한다.

용어 "이입"(introgression)은 좌위의 원하는 대립 유전자가 하나의 유전적 배경으로부터 다른 유전적 배경으로 전달되는 것을 지칭한다. 예를 들어, 특정 좌위에서의 목적하는 대립 유전자의 이입은, 적어도 하나의 모체 식물이 그 게놈 내에 원하는 대립 유전자를 갖는 두 모체 식물 간의 유성 교배를 통해 적어도 하나의 자손 식물에 전달될 수 있다. 대안적으로, 예를 들어, 대립 유전자의 전달은, 예를 들어, 적어도 하나의 공여자 원형질체가 그 게놈 내에 원하는 대립 유전자를 갖는 융합된 원형질체에서, 두 공여자 게놈 간의 재조합에 의해 일어날 수 있다. 원하는 대립 유전자는, 예를 들어, 이식유전자, 변형된(돌연변이되거나 편집된) 고유한 대립 유전자, 또는 마커 또는 QTL의 선택된 대립 유전자일 수 있다.

용어 "등계(isoline)"는 비교 용어이며, 유전적으로 동일하지만 처리가 상이한 유기체를 지칭한다. 일례에서, 두 개의 유전적으로 동일한 메이즈 식물 배아는 처리(예컨대, CRISPR-Cas 효과기 엔도뉴클레아제의 도입)를 받는 하나의 군과 이러한 처리를 받지 않는 하나의 대조군의 두 개의 상이한 군으로 분리될 수 있다. 따라서, 두 군 사이의 임의의 표현형 차이는 임의의 내재된 식물의 내인성 유전 구성이 아닌 처리에만 기인할 수 있다.

"도입하는"은 성분(들)이 유기체 세포의 내부로의 또는 세포 자체로의 접근을 획득하는 방식으로의 표적, 예컨대 세포 또는 유기체, 폴리뉴클레오티드 또는 폴리펩티드 또는 폴리뉴클레오티드-단백질 복합체로의 제시를 의미하려는 것이다.

관심 대상의 폴리뉴클레오티드"는 작물의 바람직함, 즉, 작물학적 관심대상의 형질을 개선하는 단백질 또는 폴리펩티드를 암호화하는 임의의 뉴클레오티드 서열을 포함한다. 관심 대상의 폴리뉴클레오티드는 농경학에 중요한 형질, 제초제 저항성, 살충제 저항성, 질병 저항성, 선충 저항성, 제초제 저항성, 미생물 저항성, 진균 저항성, 바이러스 저항성, 가임성 또는 불임성, 낟알 특성, 상용 제품, 표현형 마커, 또는 임의의 기타 농경학상 또는 상업상 중요 형질을 암호화하는 폴리뉴클레오티드를 포함하지만, 이들로 제한되지 않는다. 관심 대상의 폴리뉴클레오티드는 추가로 센스 또는 안티-센스 방향으로 이용될 수 있다. 또한, 한 개 초과의 관심 대상의 폴리뉴클레오티드가 추가의 이익을 제공하기 위하여 함께 이용되거나 "쌓일(stack)" 수 있다.

"복잡한 형질 좌위"는 유전자적으로 서로 연결된 여러 이식유전자를 갖는 게놈 좌위를 포함한다.

본 명세서의 조성물 및 방법은 식물에게 개선된 "농경학적 형질" 또는 "농경학상 중요 형질" 또는 "농경학적 관심 형질"을 제공할 수 있으며, 이는 다음을 포함할 수 있지만, 이들로 제한되지 않는다: 본 명세서의 방법 또는 조성물로부터 유래된 변형을 포함하지 않는 등계 식물과 비교하여, 질병 저항성, 가뭄 내성, 내열성, 내한성, 염분 내성, 금속 내성, 제초제 내성, 물 사용 효율 개선, 질소 활용 개선, 질소 고정 개선, 해충 저항성, 초식동물 저항성, 병원균 저항성, 수확량 개선, 건강 증진, 활력 개선, 성장 개선, 광합성 능력 개선, 영양 증진, 단백질 함량 변경, 오일 함량 변경, 바이오매스 증가, 순의 길이 증가, 뿌리 길이 증가, 뿌리 구조 개선, 대사산물 조절, 프로테옴 조절, 종자 중량 증가, 종자 탄수화물 조성의 변경, 종자 오일 조성의 변경, 종자 단백질 조성의 변경, 종자 영양 조성의 변경.

"농경학적 형질 잠재력"은 생애 주기 동안 일정 시점에서 표현형, 바람직하게는 개선된 농경학적 형질을 나타내거나 상기 표현형을 동일한 식물에서 관련이 있는 또 다른 식물 요소에 전달하는 식물 요소의 능력을 의미하고자 한 것이다.

본 명세서에서 사용된 용어 "감소된", "더 적은", "더 느린" 및 "증가된", "더 빠른", "증진된", "더 큰"은 비변형된 식물 요소 또는 생성된 식물과 비교하여 변형된 식물 요소 또는 생성된 식물의 특징의 감소 또는 증가를 지칭한다. 예를 들어, 특징의 감소는 비처리된 대조군보다 적어도 1%, 적어도 2%, 적어도 3%, 적어도 4%, 적어도 5%, 5% 내지 10%, 적어도 10%, 10% 내지 20%, 적어도 15%, 적어도 20%, 20% 내지 30%, 적어도 25%, 적어도 30%, 30% 내지 40%, 적어도 35%, 적어도 40%, 40% 내지 50%, 적어도 45%, 적어도 50%, 50% 내지 60%, 적어도 약 60%, 60% 내지 70%, 70% 내지 80%, 적어도 75%, 적어도 약 80%, 80% 내지 90%, 적어도 약 90%, 90% 내지 100%, 적어도 100%, 100% 내지 200%, 적어도 200%, 적어도 약 300%, 적어도 약 400%) 또는 더 낮을 수 있고, 증가는 비처리된 대조군보다 적어도 1%, 적어도 2%, 적어도 3%, 적어도 4%, 적어도 5%, 5% 내지 10%, 적어도 10%, 10% 내지 20%, 적어도 15%, 적어도 20%, 20% 내지 30%, 적어도 25%, 적어도 30%, 30% 내지 40%, 적어도 35%, 적어도 40%, 40% 내지 50%, 적어도 45%, 적어도 50%, 50% 내지 60%, 적어도 약 60%, 60% 내지 70%, 70% 내지 80%, 적어도 75%, 적어도 약 80%, 80% 내지 90%, 적어도 약 90%, 90% 내지 100%, 적어도 100%, 100% 내지 200%, 적어도 200%, 적어도 약 300%, 적어도 약 400% 또는 더 높을 수 있다.

본 명세서에 사용된 바와 같이, 서열 위치와 관련하여 용어 "전에"는 또 다른 서열에 대해 상류, 또는 5'에서의 하나의 서열의 존재를 지칭한다.

약어의 의미는 다음과 같다: "sec"는 초, "min"은 분, "h"는 시간, "d"는 일, "㎕"는 마이크로리터, "㎖"는 밀리리터, "L"은 리터, "μM"은 마이크로몰, "mM"은 밀리몰, "M"은 몰, "m㏖"은 밀리몰, "μ㏖" 또는 "u㏖"은 마이크로몰, "g"는 그램, "㎍" 또는 "ug"는 마이크로그램, "ng"는 나노그램, "U"는 단위, "bp"는 염기쌍, "kb"는 킬로염기를 의미한다.

CRISPR-Cas 시스템의 분류

CRISPR-Cas 시스템은 성분의 서열 및 구조 분석에 따라 분류되었다. 다중서브유닛 효과기 복합체(I형, III형 및 IV형 포함)를 갖는 클래스 1 시스템, 및 단일 단백질 효과기(II형, V형, 및 VI형 포함)를 갖는 클래스 2 시스템을 포함하는 여러 CRISPR/Cas 시스템이 기재되었다(문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]; 문헌[Zetsche et al., 2015, Cell 163, 1-13]; 문헌[Shmakov et al., 2015, Molecular Cell 60, 1-13]; 문헌[Haft et al., 2005, Computational Biology, PLoS Comput Biol 1(6):e60]; 및 문헌[Koonin et al. 2017, Curr Opinion Microbiology 37:67-78)]).

CRISPR-Cas 시스템은 최소한으로, CRISPR RNA(crRNA) 분자 및 적어도 하나의 CRISPR-연합(Cas) 단백질을 포함하여, crRNA 리보핵산단백질(crRNP) 효과기 복합체를 형성한다. CRISPR-Cas 좌위는 crRNA 성분을 암호화하는 DNA 표적화 스페이서가 개재된 동일한 반복부의 배열 및 Cas 단백질 성분을 암호화하는 cas 유전자의 오페론 유사 단위를 포함한다. 얻어진 리보핵산단백질 복합체는 서열 특이적 방식으로 폴리뉴클레오티드를 인식한다(문헌[Jore et al., Nature Structural & Molecular Biology 18, 529-536 (2011)]). crRNA는 비상보성 가닥을 옮겨 소위 R 루프를 형성하면서 상보성 DNA와 염기 쌍을 형성함으로써 이중 가닥 DNA 서열에 대한 효과기(단백질 또는 복합체)의 서열 특이적인 결합을 위한 가이드 RNA로서 작용한다. (문헌[Jore et al., 2011. Nature Structural & Molecular Biology 18, 529-536]).

CRISPR 좌위의 RNA 전사체(프리-crRNA)는 I형 및 III형 시스템에서의 CRISPR 관련(Cas) 엔도리보뉴클레아제에 의해 또는 II형 시스템에서의 RNase III에 의해 반복부 서열에서 특이적으로 절단된다. 주어진 CRISPR 좌위에서 CRISPR-연합된 유전자의 수는 종들 간에 달라질 수 있다.

상이한 도메인을 갖는 단백질을 암호화하는 상이한 cas 유전자는 상이한 CRISPR 시스템에 존재한다. cas 오페론은 하나 이상의 효과기 엔도뉴클레아제뿐만 아니라 다른 Cas 단백질을 암호화하는 유전자를 포함한다. 단백질 서브유닛은 문헌[Makarova et al. 2011, Nat Rev Microbiol. 2011 9(6):467-477]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]; 및 문헌[Koonin et al. 2017, Current Opinion Microbiology 37:67-78]에 기재되어 있는 것을 포함한다. 도메인 유형은 발현(프리-crRNA 가공, 예를 들어, Cas 6 또는 RNaseIII), 간섭(crRNA 및 표적 결합을 위한 효과기 모듈뿐만 아니라 표적 절단을 위한 도메인(들)을 포함), 적응(스페이서 삽입, 예를 들어, Cas1 또는 Cas2), 및 보조(Ancillary)(조절 또는 헬퍼 또는 알려지지 않은 기능)에 관련된 것을 포함한다. 일부 도메인은 한 가지 초과의 목적에 도움을 줄 수 있으며, 예를 들어, Cas9는 특히 엔도뉴클레아제 기능성뿐만 아니라 표적 절단을 위한 도메인을 포함한다.

Cas 엔도뉴클레아제는 직접적인 RNA-DNA 염기 짝짓기를 통해 단일 CRISPR RNA(crRNA)에 의해 유도되어 프로토스페이서 인접 모티프(PAM)에 근접해 있는 DNA 표적 부위를 인식한다(문헌[Jore, M.M. et al., 2011, Nat. Struct. Mol. Biol. 18:529-536, Westra, E.R. et al., 2012, Molecular Cell 46:595-605], 및 문헌[Sinkunas, T. et al., 2013, EMBO J. 32:385-394]).

클래스 I CRISPR-Cas 시스템

클래스 I CRISPR-Cas 시스템은 I형, III형, 및 IV형을 포함한다. 클래스 I 시스템의 특징은 단일 단백질 대신 효과기 엔도뉴클레아제 복합체가 존재한다는 점이다. 캐스케이드 복합체는 다양한 RAMP(반복부-관련 미스테리 단백질(Repeat-Associated Mysterious Protein)) 단백질 슈퍼패밀리의 핵심 폴드인 RNA 인식 모티프(RRM) 및 핵산-결합 도메인을 포함한다(문헌[Makarova et al. 2013, Biochem Soc Trans 41, 1392-1400]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]). RAMP 단백질 서브유닛은 Cas5 및 Cas7을 포함하되(crRNA-효과기 복합체의 골격을 포함함), Cas5 서브유닛은 crRNA의 5' 핸들에 결합하고, 거대 서브유닛과 상호작용하며, 효과기 복합체와 헐겁게 결합되고 전형적으로 프리-crRNA 가공에서 반복부-특이적 RNase로서 작용하는 Cas6을 종종 포함한다(문헌[Charpentier et al., FEMS Microbiol Rev 2015, 39:428-441]; 문헌[Niewoehner et al., RNA 2016, 22:318-329]).

I형 CRISPR-Cas 시스템은 최소 Cas5 및 Cas7을 포함하는 캐스케이드(항바이러스 방어를 위한 CRISPR-연합 복합체)로 지칭되는 효과기 단백질의 복합체를 포함한다. 효과기 복합체는 단일 CRISPR RNA(crRNA) 및 Cas3과 함께 작용하여 침입 바이러스 DNA에 대해 방어한다(문헌[Brouns, S.J.J. et al. Science 321:960-964]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]). I형 CRISPR-Cas 좌위는 이중가닥 DNA(dsDNA) 및 RNA-DNA 이중나선을 푸는 입증된 능력을 갖는 단일-가닥 DNA(ssDNA)-자극 슈퍼패밀리 2 헬리카제를 갖는 금속-의존적 뉴클레아제를 암호화하는 서명 유전자 cas3(또는 변이체 cas3' 또는 cas3")을 포함한다(문헌[Makarova et al. 2015, Nature Reviews]; 문헌[Microbiology Vol. 13:1-15]). 표적 인식 후에, Cas3 엔도뉴클레아제는 DNA 표적을 절단 및 분해하기 위해 캐스케이드-crRNA-표적 DNA 복합체에 보충된다(문헌[Westra, E.R. et al. (2012) Molecular Cell 46:595-605], 문헌[Sinkunas, T. et al. (2011) EMBO J. 30:1335-1342] 및 문헌[Sinkunas, T. et al. (2013) EMBO J. 32:385-394]). 일부 I형 시스템에서, Cas6은 crRNA 가공을 담당하는 활성 엔도뉴클레아제일 수 있으며, Cas5 및 Cas7은 비촉매적 RNA-결합 단백질로서 작용하지만; I-C형 시스템에서, crRNA 가공은 Cas5에 의해 촉매될 수 있다(Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15). I형 시스템은 7가지 아형으로 나누어진다(Makarova et al. 2011, Nat Rev Microbiol. 2011 9(6):467-477; Koonin et al. 2017, Curr Opinion Microbiology 37:67-78). 적어도 단백질 서브유닛 Cas7, Cas5 및 Cas6을 포함하는 적응 항바이러스 방어(캐스케이드)에 대한 변형된 I형 CRISPR-연합 복합체가 기재되되(2013년 7월 4일자로 공개된 WO2013098244), 이들 서브유닛 중 하나는 Cas3 엔도뉴클레아제 또는 변형된 제한 엔도뉴클레아제인 FokI에 합성에 의해 융합된다.

복수의 cas7 유전자를 포함하는 III형 CRISPR-Cas 시스템은 ssRNA 또는 ssDNA 중 하나를 표적화하고, RNase뿐만 아니라 표적 RNA-활성화된 DNA 뉴클레아제 중 하나로서 작용한다(Tamulaitis et al., Trends in Microbiology 25(10)49-61, 2017). Csm(III-A형) 및 Cmr(III-B형) 복합체는 표적 RNA 결합/절단을 ssDNA 분해와 결부시키는 RNA-활성화된 단일-가닥(ss) DNase로서 작용한다. 외래 DNA 감염 시, 출현한 전사체에 대한 Csm 또는 Cmr 복합체의 CRISPR RNA(crRNA)-가이드된 결합은 활발하게 전사되는 파지 DNA에 Cas10 DNase를 보충하여, 전사체와 파지 DNA의 분해를 초래하지만, 숙주 DNA의 분해는 초래하지 않는다. Cas10 HD-도메인은 ssDNase 활성화를 담당하며, Csm3/Cmr4 서브유닛은 Csm/Cmr 복합체의 엔도리보뉴클레아제 활성을 담당한다. 표적 RNA의 3'-측접 서열은 Csm/Cmr의 ssDNase 활성에 중요하며: crRNA의 5'-핸들과의 염기 짝짓기는 숙주 DNA를 분해로부터 보호한다.

IV형 시스템은, cas8-유사 도메인에 추가로 전형적인 I형 cas5 및 cas7 도메인을 포함한다고 해도, 대부분의 다른 CRISPR-Cas 시스템의 특징인 CRISPR 어레이를 결여할 수 있다.

클래스 II CRISPR-Cas 시스템

클래스 II CRISPR-Cas 시스템은 II형, V형, 및 VI형을 포함한다. 클래스 2 시스템의 특징은 효과기 복합체 대신 단일 Cas 효과기 단백질이 존재한다는 점이다. II형 및 V형 Cas 단백질은 RNase H 폴드를 채택하는 RuvC 엔도뉴클레아제 도메인을 포함한다.

II형 CRISPR/Cas 시스템은 crRNA 및 tracrRNA(트랜스-활성화 CRISPR RNA)를 사용하여 Cas 엔도뉴클레아제를 이의 DNA 표적으로 유도한다. crRNA는 이중 가닥 DNA 표적의 한 가닥에 상보성인 스페이서 영역 및 tracrRNA(트랜스-활성화 CRISPR RNA)와 염기 쌍을 이루어 Cas 엔도뉴클레아제가 DNA 표적을 절단하도록 유도하는 RNA 이중나선을 형성하는 영역을 포함하여, 평활 말단을 남긴다. 스페이서는 Cas1 및 Cas2 단백질을 수반하는 완전히 이해되지 않은 과정을 통해 획득된다. II형 CRISPR/Cas 좌위는 전형적으로 cas9 유전자 외에 cas1 및 cas2 유전자를 포함한다(문헌[Chylinski et al., 2013, RNA Biology 10:726-737]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]). II형 CRISPR-Cas 좌위는 각각의 CRISPR 배열 내 반복 서열에 부분적으로 상보성인 tracrRNA를 암호화할 수 있고, Csn1 및 Csn2와 같은 다른 단백질을 포함할 수 있다. cas1 및 cas2 유전자 부근에 cas9이 존재하는 것은 II형 좌위의 특징이다(Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15).

V형 CRISPR/Cas 시스템은 Cas9와 달리 표적 절단을 위한 추가적인 트랜스-활성화 CRISPR(tracr) RNA를 반드시 필요로 하지는 않는 활성 RNA-가이드 엔도뉴클레아제인, Cpf1(Cas12)를 포함하는 단일 Cas 엔도뉴클레아제를 포함한다(Koonin et al., Curr Opinion Microbiology 37:67-78, 2017).

VI형 CRISPR-Cas 시스템은 2개의 HEPN(보다 고등의 진핵생물 및 원핵생물 뉴클레오티드-결합(Higher Eukaryotes and Prokaryotes Nucleotide-binding)) 도메인을 갖지만 HNH 또는 RuvC 도메인이 없는 뉴클레아제를 암호화하는 cas13 유전자를 포함하고, tracrRNA 활성에 의존하지 않는다. 대다수의 HEPN 도메인은 금속-독립적 endoRNase 활성 부위를 구성하는 보존된 모티프를 포함한다(Anantharam et al., Biol Direct 8:15, 2013). 이 특징 때문에, VI형 시스템은 다른 CRISPR-Cas 시스템과 공통인 DNA 표적 대신에 RNA 표적 상에서 작용하는 것으로 생각된다.

신규한 CRISPR-Cas 시스템

본 명세서에서 신규한 CRISPR-Cas 시스템, 이의 성분 및 상기 성분을 이용하는 방법이 개시된다. 상기 시스템은 신규한 Cas 효과기 단백질, Cas-알파를 포함한다.

본 명세서에 기재된 신규한 CRISPR-Cas 시스템 성분은 상이한 Cas 시스템으로부터의 하나 하나 초과의 서브유닛, 상이한 박테리아 또는 고세균 원핵생물 및/또는 합성 또는 조작된 성분으로부터 유래되거나 변형된 서브유닛을 포함할 수 있다.

본 명세서에서 cas 유전자의 신규한 배열을 포함하는 새로 확인된 CRISPR-Cas 시스템이 기재된다. 추가로 신규한 cas 유전자 및 단백질이 기재된다.

신규한 Cas-알파 시스템 중 일부의 한 가지 특징은 도 1a 내지 도 1d에 도시된 바와 같은 좌위 구조이다. 일부 양상에서, Cas-알파 게놈 좌위는 효과기 단백질 Cas-알파를 암호화하는 cas1 유전자, cas2 유전자, cas4 유전자 및 cas-알파 유전자를 포함한다. 뉴클레오티드 서열의 반복부를 포함하는 CRISPR 어레이는 Cas-알파 엔도뉴클레아제를 암호화하는 유전자 앞에, 또는 뒤에서 발견될 수 있다. 일부 양상에서, cas-알파 좌위는 효과기 단백질을 암호화하는 cas-알파 유전자, 및 반복부를 포함하는 CRISPR 어레이를 포함할 수 있지만, cas1 유전자, cas2 유전자 및/또는 cas4 유전자 중 임의의 하나 이상을 포함하지 않는다.

CRISPR-Cas 시스템 성분

Cas 단백질

다수의 단백질은 적응(스페이서 삽입), 간섭(효과기 모듈 표적 결합, 표적 틈내기 또는 절단 - 예를 들어, 엔도뉴클레아제 활성), 발현(프리-crRNA 가공), 조절 또는 기타에 관련된 것을 포함하는, CRISPR cas 오페론에서 암호화될 수 있다.

다수의 CRISPR 시스템에서 2종의 단백질, 즉, Cas1 및 Cas2가 보존된다(예를 들어, 문헌[Koonin et al., Curr Opinion Microbiology 37:67-78, 2017]에 기재된 바와 같음). Cas1은 이중-가닥 DNA 단편을 생성하는 금속-의존적 DNA-특이적 엔도뉴클레아제이다. 일부 시스템에서, Cas1은 CRISPR 시스템에 대한 스페이서 획득 및 삽입에 필수적인 Cas2와의 안정한 복합체를 형성한다(

et al., Nature Str Mol Biol 21:528-534, 2014).

다수의 다른 단백질은 Cas4(RecB 뉴클레아제에 대해 유사성을 가질 수 있음)를 포함하는 상이한 시스템에 걸쳐 확인되었고, CRISPR 어레이 내로의 혼입을 위한 새로운 바이러스 DNA 서열의 포착에 어떤 역할을 하는 것으로 생각된다(Zhang et al., PLOS One 7(10):e47232, 2012).

일부 단백질은 복수의 기능을 포괄할 수 있다. 예를 들어, 클래스 2 II형 시스템의 서명 단백질인 Cas9는 프리-crRNA 가공, 표적 결합뿐만 아니라 표적 절단에 관여하는 것으로 입증되었다.

본 명세서에 개시된 신규한 Cas-알파 단백질은 효과기 단백질(엔도뉴클레아제)뿐만 아니라 적용 단백질을 포함한다. Cas 엔도뉴클레아제는 몇몇 박테리아 및 고박테리아(archaebacterial) 공급원으로부터 확인되었고, 도 7a 내지 도 7k에 제시된 것을 포함한다.

Cas 엔도뉴클레아제 및 효과기

엔도뉴클레아제는 폴리뉴클레오티드 쇄 내의 포스포디에스테르 결합을 절단하는 효소이고, 염기를 손상시키지 않고 특정 부위에서 DNA를 절단하는 제한 엔도뉴클레아제를 포함한다. 엔도뉴클레아제의 예는 제한 엔도뉴클레아제, 메가뉴클레아제, TAL 효과기 뉴클레아제(TALEN), 아연 핑거 뉴클레아제, 및 Cas(CRISPR-연합) 효과기 엔도뉴클레아제를 포함한다.

단일 효과기 단백질로서 또는 다른 성분과의 효과기 복합체로서 Cas 엔도뉴클레아제는 표적 서열에서 DNA 이중나선을 풀고, Cas 효과기 단백질과의 복합체인 폴리뉴클레오티드(예컨대, crRNA 또는 가이드 RNA, 그러나 이것으로 제한되지 않음)에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 선택적으로 절단한다. 전형적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(protospacer-adjacent motif: PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본 명세서에서 Cas 엔도뉴클레아제는 DNA 절단 또는 틈내기 활성이 없을 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다. (또한, 2015년 3월 19일 공개된 미국 특허 출원 US20150082478호 및 2015년 2월 26일 공개된 US20150059010호 참조).

Cas 엔도뉴클레아제는 개개 효과기(클래스 2 CRISPR 시스템)로서 또는 보다 큰 효과기 복합체(클래스 I CRISPR 시스템)로서 생길 수 있다.

기재된 Cas 엔도뉴클레아제는, 예를 들어: Cas3(클래스 1 I형 시스템의 특징), Cas9(클래스 2 II형 시스템의 특징) 및 Cas12(Cpf1)(클래스 2 V형 시스템의 특징)를 포함하지만, 이들로 제한되지 않는다.

Cas3(및 이의 변이체 Cas3' 및 Cas3'')은 단일-가닥 DNA 뉴클레아제(HD 도메인) 및 ATP-의존적 헬리카제로서 작용한다. Cas3 엔도뉴클레아제의 변이체는 Cas3 엔도뉴클레아제 폴리펩티드의 도메인 중 하나 또는 둘 다의 기능성 활성을 불능화(disabling)함으로써 얻어질 수 있다. (Cas3-헬리카제 도메인의 결실, 넉아웃에 의해, 또는 중요한 잔기의 돌연변이를 통해 또는 앞서 기재한 바와 같이 ATP의 부재 하에 반응을 조립함으로써 (문헌[Sinkunas, T. et al., 2013, EMBO J. 32:385-394]) ATPase 의존적 헬리카제 활성의 불능화는 변형된 Cas3 엔도뉴클레아제를 포함하는 절단 준비 캐스케이드를 틈내기효소로 전환할 수 있다(HD 도메인이 여전히 기능성이기 때문). HD 엔도뉴클레아제 활성의 불능화는 당업계에 공지된 임의의 방법에 의해 달성될 수 있으며, 예컨대 이하로 제한되는 것은 아니지만, HD 도메인의 중요 잔기의 돌연변이유발은 변형된 Cas3 엔도뉴클레아제를 포함하는 절단 준비 캐스케이드를 헬리카제로 전환할 수 있다. Cas 헬리카제와 Cas3 HD 엔도뉴클레아제 활성 둘 다의 불능화는 당업계에 공지된 임의의 방법에 의해 달성될 수 있으며, 예컨대 이하로 제한되는 것은 아니지만, HD 도메인의 중요 잔기의 돌연변이유발은 변형된 Cas3 엔도뉴클레아제를 포함하는 절단 준비 캐스케이드를 표적 서열에 결합하는 결합제 단백질로 전환할 수 있다.

Cas9(앞서 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, cr뉴클레오티드 및 tracr뉴클레오티드와, 또는 단일 가이드 폴리뉴클레오티드와 복합체를 형성하는 Cas 엔도뉴클레아제이다. Cas9는 표적 dsDNA 상의 3' GC-풍부 PAM 서열을 인식한다. Cas9 단백질은 RuvC-II 도메인에 인접한 HNH(H-N-H) 뉴클레아제와 함께 RuvC 뉴클레아제를 포함한다. RuvC 뉴클레아제 및 HNH 뉴클레아제 각각은 표적 서열에서 단일 DNA 가닥을 절단할 수 있다(두 도메인의 공동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 틈을 유도함). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 측접하는, 단백질의 중간에 위치한다(Hsu et al., 2013, Cell 157:1262-1278). Cas9 엔도뉴클레아제는 전형적으로 II형 CRISPR 시스템으로부터 유래되는데, 이 시스템은 적어도 하나의 폴리뉴클레오티드 성분과의 복합체인 Cas9 엔도뉴클레아제를 사용하는 DNA 절단 시스템을 포함한다. 예를 들어, Cas9는 CRISPR RNA(crRNA) 및 전사-촉진 CRISPR RNA(tracrRNA)와의 복합체일 수 있다. 다른 예에서, Cas9는 단일 가이드 RNA와의 복합체일 수 있다(Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15).

Cas12(앞서 Cpf1, 및 변이체 c2c1, c2c3, CasX 및 CasY로 지칭됨)는 RuvC 뉴클레아제 도메인 및 dsDNA 표적 상에서 생성된 엇갈린 5' 돌출부를 포함한다. 일부 변이체는 Cas9의 기능성과 달리 tracrRNA를 필요로 하지 않는다. Cas12 및 이의 변이체는 표적 dsDNA 상의 5' AT-풍부 PAM 서열을 인식한다. Cas12a 단백질의, Nuc로 불리는 삽입 도메인은 표적 가닥 절단을 초래하는 것으로 입증되었다(Yamano et al., Cell 2016, 165:949-962). 다른 Cas12 단백질에서의 추가적인 돌연변이 연구는 Nuc 도메인이 가이드 및 표적 결합에 기여하며, RuvC 도메인이 절단을 초래한다는 것을 입증하였다(Swarts et al., Mol Cell 2017, 66:221-233 e224).

Cas 엔도뉴클레아제 및 효과기 단백질은 (단일 및 복합 이중 가닥 절단 및 틈내기를 통한) 표적화된 게놈 편집 및 (Cas 단백질 또는 sgRNA로의 후성적 효과기 도메인의 테더링을 통한) 표적화된 게놈 조절에 이용될 수 있다. Cas 엔도뉴클레아제는 RNA-유도 재조합효소로서 기능하도록 조작될 수도 있으며, RNA 테더를 통해 다중 단백질과 핵산 복합체의 조립을 위한 스캐폴드로서 작용할 수 있다(Mali et al., 2013, Nature Methods Vol. 10:957-963).

Cas-알파 엔도뉴클레아제

Cas-알파 엔도뉴클레아제는 3개의 서브도메인으로 분할되고 브리지-나선 및 하나 이상의 아연 핑거 모티프(들)를 더 포함하는 C-말단 RuvC 촉매적 도메인; 및 나선 다발을 갖는 N-말단 Rec 서브유닛, WED 쐐기-유사(또는 "올리고뉴클레오티드 결합 도메인(Oligonucleotide Binding Domain)", OBD) 도메인, 및 선택적으로, 아연 핑거 모티프를 포함하는, 800개 미만의 아미노산의 기능성 RNA-가이드, PAM-의존적 dsDNA 절단 단백질로서 정의된다.

Cas-알파 엔도뉴클레아제는, 서열번호 17에 대해 정렬될 때, 서열번호 17의 아미노산 위치에 대해, 다음 중 적어도 1, 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6 또는 7가지를 포함한다: 337번 위치에서 글리신(G), 341번 위치에서 글리신(G), 430번 위치에서 글루탐산(E), 432번 위치에서 류신(L), 487번 위치에서 시스테인(C), 490번 위치에서 시스테인(C), 507번 위치에서 시스테인(C) 및/또는 512번 위치에서 시스테인(C) 또는 히스티딘(H). Cas-알파 엔도뉴클레아제는 다음의 모티프를 포함한다: GxxxG, ExL, Cx_nC, Cx_n(C 또는 H)(여기서, n = 하나 이상의 아미노산).

RuvC 도메인은 엔도뉴클레아제 기능성을 포괄하는 것으로 문헌에서 입증되었다. Cas-알파 엔도뉴클레아제는 효과기 단백질을 암호화하는 cas-알파 유전자, 및 복수의 반복부를 포함하는 어레이를 포함하는 좌위로부터 단리되거나 확인될 수 있다. 일부 양상에서, cas-알파 좌위는 부분적 또는 전체 cas1 유전자, cas2 유전자 및/또는 cas4 유전자를 추가로 포함할 수 있다.

아연 핑거 모티프는 하나 이상의 아연 이온이, 보통 시스테인 및 히스티딘 측쇄를 통해, 이들의 폴딩을 안정화시키도록 배위하는 도메인이다. 아연 핑거는 아연 이온을 배위하는 시스테인 및 히스티딘 잔기 패턴에 대해 명명된다(예를 들어, C4는 아연 이온이 4개의 시스테인 잔기에 의해 배위된다는 것을 의미하고; C3H는 아연 이온이 3개의 시스테인 잔기 및 1개의 히스티딘 잔기에 의해 배위됨을 의미한다).

Cas-알파 단백질은 아연 결합 도메인을 형성할 수 있는 하나 이상의 아연 핑거(ZFN) 배위 모티프(들)를 포함한다. 아연 핑거-유사 모티프는 가이드 RNA의 표적 및 비-표적 가닥의 DNA 표적으로의 분리 및 로딩을 보조할 수 있다. 하나 이상의 아연 핑거 모티프를 포함하는 Cas-알파 단백질은 표적 폴리뉴클레오티드 상의 리보핵단백질에 대한 추가적인 안정성을 제공할 수 있다. Cas-알파 단백질은 C4 또는 C3H 아연 결합 도메인을 포함한다.

일부 Cas-알파 단백질 및 폴리뉴클레오티드는 도 7a 내지 도 7k에 제공되며, 엔도뉴클레아제 단백질의 중요한 구조적 모티프는 도 8a 내지 도 8k에 각각 도시된다.

Cas-알파 엔도뉴클레아제는 하기를 포함하는 이중가닥 DNA 표적에 결합하고 이를 절단할 수 있는 RNA-가이드 엔도뉴클레아제이다: (1) 가이드 RNA의 뉴클레오티드 서열과 상동성을 공유하는 서열, 및 (2) PAM 서열. 일부 양상에서, PAM은 T-풍부이다. 일부 양상에서, PAM은 C-풍부이다.

Cas-알파 엔도뉴클레아제는 이중-가닥은 이중-가닥 유도제로서 작용하고, 또한 틈내기효소 또는 단일-가닥-파손 유도제일 수 있다. 일부 양상에서, 촉매적 비활성 Cas-알파 엔도뉴클레아제는 표적화하거나 표적 DNA 서열에 보충을 위해 사용될 수 있지만, 절단을 유도하지는 않는다. 일부 양상에서, 촉매적 비활성 Cas-알파 단백질은 표적 서열을 절단하기 위해 기능성 엔도뉴클레아제와 함께 사용될 수 있다. 일부 양상에서, 촉매적 비활성 Cas-알파 단백질은 편집 분자, 예컨대, 데아미나제와 조합될 수 있다. 일부 양상에서, 데아미나제는 사이티딘 데아미나제일 수 있다. 일부 양상에서, 데아미나제는 아데닌 데아미나제일 수 있다. 일부 양상에서, 데아미나제는 ADAR-2일 수 있다.

Cas-알파 엔도뉴클레아제는 추가로 임의의 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371의 적어도 50개, 50개 내지 100개, 적어도 100개, 100개 내지 150개, 적어도 150개, 150개 내지 200개, 적어도 200개, 200개 내지 250개, 적어도 250개, 250개 내지 300개, 적어도 300개, 300개 내지 350개, 적어도 350개, 350개 내지 400개, 적어도 400개, 400개 내지 450개, 적어도 500개, 또는 500개 초과의 인접한 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100% 서열 동일성을 공유하는 RNA-가이드 이중 가닥 DNA 절단 단백질, 또는 이의 기능성 단편, 또는 적어도 부분적 활성을 보유하는 이의 기능성 변이체로서 정의된다. Cas-알파 엔도뉴클레아제의 "기능성 단편"은 이중-가닥 폴리뉴클레오티드의 단일 가닥을 인식하거나, 이에 결합하거나 틈내기하거나, 또는 이중-가닥 폴리뉴클레오티드의 가닥을 둘 다 절단하는 능력, 또는 앞서 언급한 것의 임의의 조합을 보유한다.

Cas-알파 엔도뉴클레아제는 임의의 서열번호 13, 14, 15, 16, 25, 26, 27, 28, 29, 30 또는 31의 적어도 50개, 50개 내지 100개, 적어도 100개, 100개 내지 150개, 적어도 150개, 150개 내지 200개, 적어도 200개, 200개 내지 250개, 적어도 250개, 250개 내지 300개, 적어도 300개, 300개 내지 350개, 적어도 350개, 350개 내지 400개, 적어도 400개, 400개 내지 450개, 적어도 500개, 500개 내지 550개, 적어도 600개, 600개 내지 650개, 적어도 650개, 650개 내지 700개, 적어도 700개, 700개 내지 750개, 적어도 750개, 750개 내지 800개, 적어도 800개, 800개 내지 850개, 적어도 850개, 850개 내지 900개, 적어도 900개, 900개 내지 950개, 적어도 950개, 950개 내지 1000개, 적어도 1000개, 또는 심지어 1000개 초과의 인접한 뉴클레오티드와 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, between 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100% 서열 동일성을 공유하는 폴리뉴클레오티드에 의해 암호화되거나, 또는 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371 중 임의의 하나를 암호화한다.

개시된 방법에 사용하기 위한, Cas9 엔도뉴클레아제, 효과기 단백질, 또는 이의 기능성 단편은 천연 공급원으로부터, 또는 유전적으로 변형된 숙주 세포가 단백질을 암호화하는 핵산 서열을 발현하도록 변형된 재조합 공급원으로부터 단리될 수 있다. 대안적으로, Cas 단백질은 무세포 단백질 발현 시스템을 사용하여 생산되거나 합성적으로 생산될 수 있다. 효과기 Cas 뉴클레아제는 단리되어 이종성 세포에 도입될 수 있거나, 또는 이의 천연 형태로부터 변형되어 이의 천연 공급원에서 나타나는 것과는 상이한 유형 또는 규모의 활성을 나타낼 수 있다. 이러한 변형은 단편, 변이체, 치환, 결실, 및 삽입을 포함하지만, 이들로 제한되지 않는다.

Cas 엔도뉴클레아제 및 Cas 효과기 단백질의 단편 및 변이체는 부위-지정 돌연변이유발 및 합성 작제와 같은 방법을 통해 얻을 수 있다. 2013년 11월 7일 공개된 WO2013166113, 2016년 11월 24일 공개된 WO2016186953, 및 2016년 11월 24일 공개된 WO2016186946과 같은, 그러나 이들로 제한되지 않는 엔도뉴클레아제 활성의 측정 방법은 당업계에 잘 공지되어 있다.

Cas 엔도뉴클레아제는 Cas 폴리펩티드의 변형된 형태를 포함할 수 있다. Cas 폴리펩티드의 변형된 형태는 Cas 단백질의 자연 발생 뉴클레아제 활성을 감소시키는 아미노산 변화(예를 들어, 결실, 삽입 또는 치환)를 포함할 수 있다. 예를 들어, 일부 경우, Cas 단백질의 변형된 형태는 대응하는 야생형 Cas 폴리펩티드의 뉴클레아제 활성의 50% 미만, 40% 미만, 30% 미만, 20% 미만, 10% 미만, 5% 미만, 또는 1% 미만을 갖는다(2014년 3월 6일 공개된 US20140068797). 일부 경우에, Cas 폴리펩티드의 변형된 형태는 실질적인 뉴클레아제 활성을 갖지 않으며, 촉매적으로 "불활성화된 Cas" 또는 "탈활성화된 Cas(dCas)"로 지칭된다. 불활성화된 Cas/탈활성화된 Cas는 탈활성화된 Cas 엔도뉴클레아제(dCas)를 포함한다. 촉매 불활성 Cas 효과기 단백질은 이종성 서열에 융합되어 활성을 유도하거나 변경할 수 있다.

Cas 엔도뉴클레아제는 하나 이상의 이종성 단백질 도메인(예를 들어, Cas 단백질 외에도 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 이러한 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종성 도메인 사이의 링커 서열을 포함할 수 있다. 본 명세서의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예는 에피토프 태그(예를 들어, 히스티딘[His], V5, FLAG, 인플루엔자 혈구응집소[HA], myc, VSV-G, 티오레독신[Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라아제[GST], 홀스래디쉬 퍼옥시다제[HRP], 클로람페니콜 아세틸트랜스퍼라아제[CAT], 베타-갈락토시다제, 베타-글루쿠로니다제[GUS], 루시퍼라아제, 녹색 형광 단백질[GFP], HcRed, DsRed, 청록색 형광 단백질[CFP], 황색 형광 단백질[YFP], 청색 형광 단백질[BFP]) 및 메틸라아제 활성, 탈메틸라아제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인을 제한 없이 포함한다. Cas 단백질은 DNA 분자 또는 다른 분자에 결합하는 단백질, 예컨대, 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16과 융합될 수도 있다.

촉매적으로 활성인 및/또는 불활성인 Cas 엔도뉴클레아제는 이종성 서열에 융합될 수 있다(2014년 3월 6일 공개된 US20140068797). 적합한 융합 상대는 표적 DNA 상에 또는 표적 DNA와 결합된 폴리펩티드(예를 들어, 히스톤 또는 다른 DNA 결합 단백질) 상에 직접 작용하여 전사를 간접적으로 증가시키는 활성을 제공하는 폴리펩티드를 포함하지만, 이것으로 제한되지 않는다. 추가적인 적합한 융합 상대는 메틸트랜스퍼라아제 활성, 탈메틸라아제 활성, 아세틸트랜스퍼라아제 활성, 탈아세틸라아제 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, 수모일화(SUMOylating) 활성, 탈수모일화(deSUMOylating) 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성 또는 탈미리스토일화 활성을 제공하는 폴리펩티드를 포함하지만, 이들로 제한되지 않는다. 추가의 적합한 융합 상대는 표적 핵산의 증가된 전사를 직접적으로 제공하는 폴리펩티드(예를 들어, 전사 활성인자 또는 이의 단편, 전사 활성인자를 모집하는 단백질 또는 이의 단편, 소분자/약물 반응성 전사 조절인자 등)를 포함하지만, 이들로 제한되지 않는다. 부분적 활성 또는 촉매적 비활성 Cas-알파 엔도뉴클레아제는 또한 이중-가닥 파손을 생성하기 위해 다른 단백질 또는 도메인, 예를 들어, Clo51 또는 FokI 뉴클레아제와 융합될 수 있다(Guilinger et al. Nature Biotechnology, volume 32, number 6, June 2014).

촉매적 활성 또는 비활성 Cas 단백질, 예컨대, 본 명세서에 기재된 Cas-알파 단백질은 또한 폴리뉴클레오티드 서열에 단일 또는 다중 염기의 편집을 지시하는 분자, 예를 들어, C

G 대 T

A 또는 A

T 대 G

C의 뉴클레오티드의 동일성을 변화시킬 수 있는, 예를 들어, 부위-특이적 데아미나제와 융합될 수 있다(문헌[Gaudelli et al., Programmable base editing of A

T to G

C in genomic DNA without DNA cleavage." Nature (2017)]; 문헌[Nishida et al. "Targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptive immune systems." Science 353 (6305) (2016)]; 문헌[Komor et al. "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage." Nature 533 (7603) (2016):420-4]). 염기 편집 융합 단백질은, 예를 들어, 활성(이중 가닥 파손 생성), 부분적 활성(틈내기효소) 또는 탈활성화된(촉매적 비활성) Cas-알파 엔도뉴클레아제 및 데아미나제(예컨대, 이하로 제한되는 것은 아니지만, 사이티딘 데아미나제, 아데닌 데아미나제, APOBEC1, APOBEC3A, BE2, BE3, BE4, ABE 등)을 포함할 수 있다. 염기 편집 수선 저해제 및 글리코실라제 저해제(예를 들어, 우라실 글리코실라제 저해제(우라실 제거를 방지함))는 일부 실시형태에서, 염기 편집 시스템의 성분으로서 상정된다.

본 명세서에 기재된 Cas 엔도뉴클레아제는, 예를 들어, 2016년 11월 24일 공개된 WO/2016/186953에 기재되어 있는 바와 같이, 당업계에 공지된 방법에 의해 발현 및 정제될 수 있다.

지금까지 특정 PAM 서열을 인식할 수 있고(2016년 11월 24일 공개된 WO2016186953, 2016년 11월 24일 공개된 WO2016186946, 및 문헌[Zetsche B et al. 2015. Cell 163, 1013]) 특정 위치에서 표적 DNA를 절단할 수 있는 많은 Cas 엔도뉴클레아제가 기재되었다. 신규한 유도 Cas 시스템을 활용하는 본 명세서에 기재된 방법 및 실시형태를 기초로, 이제는 당업자가 임의의 유도 엔도뉴클레아제 시스템을 활용할 수 있도록 이들 방법을 조정할 수 있다는 것이 이해된다.

Cas 효과기 단백질은 이종성 핵 국재화 서열(NLS)을 포함할 수 있다. 본 명세서의 이종성 NLS 아미노산 서열은, 예를 들어, 본 명세서의 효모 세포의 핵에서 검출 가능한 양으로 Cas 단백질의 축적을 유도하기에 충분한 강도일 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 리신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본 명세서의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 2개 이상의 NLS 서열이 Cas 단백질에 연결될 수 있는데, 예를 들어, Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. Cas 엔도뉴클레아제 유전자는 Cas 코돈 영역 상류의 SV40 핵 표적화 신호 및 Cas 코돈 영역 하류의 2부분 VirD2 핵 국재화 신호에 작동 가능하게 연결될 수 있다(Tinland et al. (1992) Proc. Natl. Acad. Sci. USA 89:7442-6). 본 명세서의 적합한 NLS 서열의 비제한적 예는 미국 특허 제6,660,830호 및 제7,309,576호에 개시된 것들을 포함한다.

가이드 폴리뉴클레오티드

가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제에 의해 표적 인식, 결합, 및 선택적으로 절단을 가능하게 하며, 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이들의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대 비제한적인 예로서 잠김 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 쇄) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있다. 리보핵산만을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA" 또는 "gRNA"로도 지칭된다(2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 US20150059010). 가이드 폴리뉴클레오티드는 조작될 수 있거나 합성형일 수 있다.

가이드 폴리뉴클레오티드는 천연에서 모두 함께 발견되지 않는(즉, 이들은 서로 이종성임) 영역을 포함하는 키메라성 비천연 유래 가이드 RNA를 포함한다. 예를 들어, 제1 뉴클레오티드 서열 및 제2 뉴클레오티드 서열이 천연에서 함께 연결되는 것으로 발견되지 않도록, Cas 엔도뉴클레아제를 인식할 수 있는 제2 뉴클레오티드 서열에 연결된, 표적 DNA에서 뉴클레오티드 서열에 혼성화할 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 칭함)을 포함하는 키메라성 비천연 유래 가이드 RNA.

가이드 폴리뉴클레오티드는 cr뉴클레오티드(예컨대 crRNA) 서열 및 tracr뉴클레오티드(예컨대 tracrRNA) 서열을 포함하는 이중 분자(이중나선 가이드 폴리뉴클레오티드라고도 함)일 수 있다. 일부 경우에, crRNA 및 tracrRNA와 연결되어 단일 가이드, 예를 들어, sgRNA를 형성하는 링커 폴리뉴클레오티드가 있다.

cr뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 인식(CER) 도메인의 일부인 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 함)을 포함한다. tracr 메이트 서열은 상보성 영역을 따라 tracr뉴클레오티드에 혼성화될 수 있고, 함께 Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인을 형성할 수 있다. CER 도메인은 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용할 수 있다. 이중나선 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드는 RNA, DNA, 및/또는 RNA-DNA-조합 서열일 수 있다. 일부 실시형태에서, 이중나선 가이드 폴리뉴클레오티드의 cr뉴클레오티드 분자는 "crDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "crRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "crDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭된다. cr뉴클레오티드는 박테리아 및 고세균에서 천연 유래 crRNA의 단편을 포함할 수 있다. 박테리아 및 고세균에서 천연 유래이고 본 명세서에 개시된 cr뉴클레오티드에 존재할 수 있는 crRNA의 단편의 크기는 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개 이상의 뉴클레오티드 범위일 수 있으나, 이들로 제한되지 않는다. 일부 실시형태에서, crRNA 분자는 서열번호 57, 58 및 59로 이루어진 군으로부터 선택된다.

일부 실시형태에서, tracr뉴클레오티드는 "tracrRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭된다. 하나의 실시형태에서, RNA/Cas9 엔도뉴클레아제 복합체를 유도하는 RNA는 이중나선 crRNA-tracrRNA를 포함하는 이중나선 RNA이다. tracrRNA(트랜스-활성화 CRISPR RNA)는 5'에서 3' 방향으로 (i) CRISPR II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 줄기 루프를 포함하는 부분을 포함한다(Deltcheva et al., Nature 471:602-607). 이중나선 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기 또는 절단(단일 또는 이중 가닥 절단을 도입)하게 할 수 있다. (2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 US20150059010).

일부 실시형태에서, tracrRNA 분자는 서열번호 60 내지 68로 이루어진 군으로부터 선택된다.

일 양상에서, 가이드 폴리뉴클레오티드는 본 명세서에 기재된 PGEN을 형성할 수 있는 가이드 폴리뉴클레오티드이되, 상기 가이드 폴리뉴클레오티드는 표적 DNA에서 뉴클레오티드 서열에 상보성인 제1 뉴클레오티드 서열 도메인, 및 상기 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 제2 뉴클레오티드 서열 도메인을 포함한다.

일 양상에서, 가이드 폴리뉴클레오티드는 본 명세서에 기재된 가이드 폴리뉴클레오티드이고, 여기서 제1 뉴클레오티드 서열 도메인 및 제2 뉴클레오티드 서열 도메인은 DNA 서열, RNA 서열, 및 이들의 조합으로 구성된 군으로부터 선택된다.

일 양상에서, 가이드 폴리뉴클레오티드는 본 명세서에 기재된 가이드 폴리뉴클레오티드이고, 여기서 제1 뉴클레오티드 서열 및 제2 뉴클레오티드 서열 도메인은 안정성을 향상시키는 RNA 골격 변형, 안정성을 향상시키는 DNA 골격 변형 및 이들의 조합으로 구성된 군으로부터 선택된다(문헌[Kanasty et al., 2013, Common RNA-backbone modifications, Nature Materials 12:976-977]; 2015년 3월 19일자로 공개된 US20150082478 및 2015년 2월 26일자로 공개된 US20150059010 참조).

가이드 RNA는 적어도 하나의 tracrRNA에 연결된 키메라성 비천연 유래 crRNA를 포함하는 이중 분자를 포함한다. 키메라성 비천연 유래 crRNA는 천연에서 함께 발견되지 않는(즉, 이들은 서로 이종성임) 영역을 포함하는 crRNA를 포함한다. 예를 들어, 제1 서열과 제2 서열이 천연에서 함께 연결되는 것으로 발견되지 않도록, 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 칭함)에 연결된, 표적 DNA에서 뉴클레오티드 서열에 혼성화할 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 칭함)을 포함하는 crRNA.

가이드 폴리뉴클레오티드는 또한 tracr뉴클레오티드 서열에 연결된 cr뉴클레오티드 서열을 포함하는 단일 분자(단일 가이드 폴리뉴클레오티드라고도 함)일 수 있다. 단일 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 Cas 엔도뉴클레아제 인식 도메인(CER 도메인)을 포함한다. 일부 실시형태에서, sgRNA 분자는 서열번호 69 내지 77로 이루어진 군으로부터 선택된다.

단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 "단일 가이드 RNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 DNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 RNA-DNA"(RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭될 수 있다. 단일 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 칭함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 절단(단일 또는 이중 가닥 절단을 도입)하게 할 수 있다. (2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 US20150059010).

키메라성 비천연 유래 단일 가이드 RNA(sgRNA)는 천연에서 함께 발견되지 않는(즉, 이들은 서로 이종성임) 영역을 포함하는 sgRNA를 포함한다. 예를 들어, 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 칭함)에 연결된 표적 DNA에서 뉴클레오티드 서열에 혼성화할 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 칭함)을 포함하여, 천연에서 함께 연결되는 것으로 발견되지 않는 sgRNA.

단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드와 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함할 수 있다. 일 실시형태에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열("루프"라고도 칭함)은 적어도 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 51개, 52개, 53개, 54개, 55개, 56개, 57개, 58개, 59개, 60개, 61개, 62개, 63개, 64개, 65개, 66개, 67개, 68개, 69개, 70개, 71개, 72개, 73개, 74개, 75개, 76개, 77개, 78개, 78개, 79개, 80개, 81개, 82개, 83개, 84개, 85개, 86개, 87개, 88개, 89개, 90개, 91개, 92개, 93개, 94개, 95개, 96개, 97개, 98개, 99개 또는 100개의 뉴클레오티드의 길이일 수 있다. 다른 실시형태에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 테트라루프 서열, 예컨대, GAAA 테트라루프 서열을 포함할 수 있지만, 이들로 제한되는 것은 아니다.

가이드 폴리뉴클레오티드는 화학적으로 합성하는 가이드 폴리뉴클레오티드(예컨대, 이하로 제한되는 것은 아니지만, 문헌[Hendel et al. 2015, Nature Biotechnology 33, 985-989]), 시험관내 생성된 가이드 폴리뉴클레오티드, 및/또는 자기-스플라이싱 가이드 RNA(예컨대, 이하로 제한되는 것은 아니지만, 문헌[Xie et al. 2015, PNAS 112:3570-3575])를 포함하는 당업계에 공지된 임의의 방법에 의해 생성될 수 있다.

프로토스페이서 인접 모티프(PAM)

본 명세서의 "프로토스페이서 인접 모티프"(PAM)는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)될 수 있는 표적 서열(프로토스페이서)에 인접한 짧은 뉴클레오티드 서열을 지칭한다. 표적 DNA 서열 다음에 PAM 서열이 없는 경우 Cas 엔도뉴클레아제는 표적 DNA 서열을 성공적으로 인식하지 않을 수 있다. 본 명세서의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있다. PAM 서열은 임의의 길이일 수 있지만, 통상적으로 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드의 길이이다.

"무작위 PAM" 및 "무작위 프로토스페이서 인접 모티프"는 본 명세서에서 상호 호환적으로 사용되며, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)되는 표적 서열(프로토스페이서)에 인접한 무작위 DNA 서열을 지칭한다. 무작위 PAM 서열은 임의의 길이일 수 있지만, 일반적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개 뉴클레오티드의 길이이다. 무작위 뉴클레오티드는 뉴클레오티드 A, C, G 또는 T 중 어느 하나를 포함한다.

가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체

본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 풀거나 절단할 수 있다.

DNA 표적 서열의 가닥 둘 다를 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 전형적으로 이의 엔도뉴클레아제 도메인 모두를 기능성 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본 명세서에 개시된 Cas 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체는 DNA 표적 서열의 가닥 둘 다를 절단할 수 있는 Cas 엔도뉴클레아제의 적절한 예이다.

DNA 표적 서열의 한 가닥을 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 본 명세서에서 틈내기효소 활성(예를 들어, 부분 절단 능력)을 갖는 것을 특징으로 할 수 있다. Cas 틈내기효소는 통상적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 틈을 형성하도록 하는) 하나의 기능성 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 틈내기효소는 (i) 돌연변이체, 기능장애 RuvC 도메인 및 (ii) 기능성 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 다른 예로서, Cas9 틈내기효소는 (i) 기능성 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이체, 기능장애 HNH 도메인을 포함할 수 있다. 본 명세서에서 사용하기에 적합한 Cas9 틈내기효소의 비제한적인 예는 2014년 7월 3일 공개된 US20140189896에 개시되어 있다. DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas 틈내기효소가 사용될 수 있다. 일반적으로, 이는, RNA 성분이 상이한 가이드 서열과 연합되어 있기 때문에, 목적하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 틈내기하는 2개의 Cas 틈내기효소를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 이중 가닥 절단(즉, 단일 가닥 돌출부를 갖는 DSB)을 생성하고, 이는 이어서 비상동 말단 연결, NHEJ(돌연변이로 이어지는 불완전한 수선 경향이 있음) 또는 상동 재조합, HR을 위한 기질로서 인식된다. 이들 실시형태에서 각각의 틈은, 예를 들어, 서로 적어도 약 5개, 5개 내지 10개, 적어도 10개, 10개 내지 15개, 적어도 15개, 15개 내지 20개, 적어도 20개, 20개 내지 30개, 적어도 30개, 30개 내지 40개, 적어도 40개, 40개 내지 50개, 적어도 50개, 50개 내지 60개, 적어도 60개, 60개 내지 70개, 적어도 70개, 70개 내지 80개, 적어도 80개, 80개 내지 90개, 적어도 90개, 90개 내지 100개, 또는 100개 이상(또는 5개 내지 100개의 임의의 정수)의 염기만큼 이격될 수 있다. 본 명세서의 1개 또는 2개의 Cas 틈내기효소 단백질이 Cas 틈내기효소 쌍에서 사용될 수 있다. 예를 들어, 돌연변이체 RuvC 도메인을 갖지만 기능성 HNH 도메인을 갖는 Cas9 틈내기효소(즉, Cas9 HNH+/RuvC-)(예를 들어, 스트렙토코커스 피오제네스 Cas9 HNH+/RuvC-)가 사용될 수 있다. 각각의 Cas9 틈내기효소(예를 들어, Cas9 HNH+/RuvC-)는 각각의 틈내기효소를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본 명세서의 적합한 RNA 성분들을 사용하여 서로 가까운(100개 이하의 염기 쌍만큼 이격된) 특정 DNA 부위로 지시될 수 있다.

소정의 실시형태에서 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 복합체는 모든 뉴클레아제 도메인이 돌연변이체 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 Cas9 단백질은 돌연변이체 기능장애 RuvC 도메인 및 돌연변이체 기능장애 HNH 도메인 둘 다를 포함할 수 있다. 표적 DNA 서열에 결합하지만 절단하지 않는 본 명세서의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제인자(repressor) 또는 활성인자, 예컨대, 본 명세서에 개시된 것들 중 임의의 것)와 융합될 수 있다.

일 양상에서, 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(PGEN)는 PGEN이되, 상기 Cas 엔도뉴클레아제는 적어도 하나의 Cas 단백질 서브유닛, 또는 이의 기능성 단편에 선택적으로 공유 또는 비공유적으로 연결되거나, 또는 조립된다.

본 발명의 일 실시형태에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 적어도 하나의 가이드 폴리뉴클레오티드 및 적어도 하나의 Cas 엔도뉴클레아제 폴리펩티드를 포함하는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(PGEN)이되, 상기 Cas 엔도뉴클레아제 폴리펩티드는 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편을 포함하고, 상기 가이드 폴리뉴클레오티드는 키메라 비천연 유래 가이드 폴리뉴클레오티드이고, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 표적 서열의 모두 또는 전부를 인식하고, 이에 결합하고, 선택적으로 틈내기하거나, 풀거나 절단할 수 있다.

Cas 효과기 단백질은 본 명세서에 개시된 바와 같은 Cas-알파 효과기 단백질일 수 있다.

본 발명의 일 실시형태에서, 가이드 폴리뉴클레오티드/Cas 효과기 복합체는 적어도 하나의 가이드 폴리뉴클레오티드 및 Cas-알파 효과기 단백질을 포함하는 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체(PGEN)이되, 상기 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체는 표적 서열의 모두 또는 일부를 인식하고, 이에 결합하고, 선택적으로 틈내기하거나, 풀거나, 절단할 수 있다.

PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편의 하나의 복제물 또는 다중 복제물을 추가로 포함한다. 일부 실시형태에서, 상기 단백질 서브유닛은 Cas1 단백질 서브유닛, Cas2 단백질 서브유닛, Cas4 단백질 서브유닛, 및 이의 임의의 조합으로 이루어진 군으로부터 선택된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2 및 Cas4로 이루어진 군으로부터 선택된 적어도 2개의 상이한 단백질 서브유닛을 추가로 포함한다.

PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2, 및 선택적으로 Cas4를 포함하는 하나의 추가적인 Cas 단백질로 이루어진 군으로부터 선택된 적어도 3개의 상이한 단백질 서브유닛 또는 이의 기능성 단편을 추가로 포함한다.

일 양상에서, 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체(PGEN)는 PGEN이되, 상기 Cas 효과기 단백질은 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편에 공유 또는 비공유적으로 연결된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질 폴리펩티드는 Cas1 단백질 서브유닛, Cas2 단백질 서브유닛, 선택적으로 Cas4 단백질 서브유닛을 포함하는 하나의 추가적인 Cas 단백질, 및 이들의 임의의 조합으로 이루어진 군으로부터 선택된 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편의 하나의 복제물 또는 다중 복제물에 공유 또는 비공유적으로 연결되거나, 조립된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2, 및 선택적으로 Cas4를 포함하는 하나의 추가적인 Cas 단백질로 이루어진 군으로부터 선택된 적어도 2개의 상이한 단백질 서브유닛에 공유 또는 비공유적으로 연결되거나 조립된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2, 및 선택적으로 Cas4를 포함하는 하나의 추가적인 Cas 단백질, 및 이들의 임의의 조합으로 이루어진 군으로부터 선택되는, 적어도 3개의 상이한 단백질 서브유닛, 또는 이의 기능성 단편에 공유 또는 비공유적으로 연결된다.

가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체의 임의의 성분, 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체 자체뿐만 아니라 폴리뉴클레오티드 변형 주형(들) 및/또는 공여자 DNA(들)가 당업계에 공지된 임의의 방법에 의해 이종성 세포 또는 유기체 내로 도입될 수 있다.

세포의 형질전환을 위한 재조합 작제물

선택적으로 하나 이상의 관심 대상의 폴리뉴클레오티드(들)를 더 포함하는, 개시된 가이드 폴리뉴클레오티드, Cas 엔도뉴클레아제, 폴리뉴클레오티드 변형 주형, 공여자 DNA, 본 명세서에 개시된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템, 및 이들의 임의의 하나의 조합이 세포 내로 도입될 수 있다. 세포는 인간, 비인간, 동물, 박테리아, 균류, 곤충, 효모, 비통상적인 효모 및 식물의 세포뿐만 아니라 본 명세서에 기재된 방법에 의해 제조된 식물 및 종자를 포함하지만, 이들로 제한되는 것은 아니다.

본 명세서에서 사용되는 표준 재조합 DNA 및 분자 클로닝 기법은 당업계에 널리 공지되어 있고, 문헌[Sambrook et al., Molecular Cloning:A Laboratory Manual; Cold Spring Harbor Laboratory:Cold Spring Harbor, NY (1989)]에 보다 자세히 기재되어 있다. 형질전환 방법은 당업자에게 잘 공지되어 있고 이하에 기재된다.

벡터 및 작제물은 원형 플라스미드, 및 관심 대상의 폴리뉴클레오티드와 선택적으로 링커, 어댑터, 조절 또는 분석을 비롯한 다른 성분을 포함하는 선형 폴리뉴클레오티드를 포함한다. 일부 예에서, 인식 부위 및/또는 표적 부위는 인트론, 암호화 서열, 5' UTR, 3' UTR, 및/또는 조절 영역 내에 포함될 수 있다.

원핵생물 및 진핵생물 세포에서 신규한 CRISPR-Cas 시스템의 발현 및 이용을 위한 성분

본 발명은 원핵생물 또는 진핵생물 세포/유기체에서 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 풀거나 절단할 수 있는 가이드 RNA/Cas 시스템을 발현하기 위한 발현 작제물을 추가로 제공한다.

일 실시형태에서, 본 발명의 발현 작제물은 Cas 유전자(또는 본 명세서에 기재된 Cas 엔도뉴클레아제 유전자 포함하는, 최적화된 식물)를 암호화하는 뉴클레오티드 서열에 작동 가능하게 연결된 프로모터 및 본 발명의 가이드 RNA에 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 원핵생물 또는 진핵생물 세포/유기체에서 작동 가능하게 연결된 뉴클레오티드 서열의 발현을 유도할 수 있다.

가이드 폴리뉴클레오티드, VT 도메인 및/또는 CER 도메인의 뉴클레오티드 서열 변형은 5' 캡, 3' 폴리아데닐화 테일, 리보스위치 서열, 안정성 조절 서열, dsRNA 이중나선을 형성하는 서열, 가이드 폴리뉴클레오티드를 세포내 위치에 표적화하는 변형 또는 서열, 추적을 제공하는 변형 또는 서열, 단백질을 위한 결합 부위를 제공하는 변형 또는 서열, 잠김 핵산(LNA), 5-메틸 dC 뉴클레오티드, 2,6-디아미노퓨린 뉴클레오티드, 2'-플루오로 A 뉴클레오티드, 2'-플루오로 U 뉴클레오티드; 2'-O-메틸 RNA 뉴클레오티드, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18 분자에 대한 연결, 5'에서 3'으로의 공유 연결, 또는 임의의 이들의 조합으로 이루어진 군으로부터 선택될 수 있지만, 이들로 제한되지는 않는다. 이러한 변형은 적어도 하나의 추가적인 유리한 특징을 가져올 수 있고, 추가적인 유리한 특징은 변형 또는 조절된 안정성, 세포내 표적화, 추적, 형광 표지, 단백질 또는 단백질 복합체에 대한 결합 부위, 상보성 표적 서열에 대한 변형된 결합 친화도, 세포 분해에 대한 변형된 저항성 및 증가된 세포 투과성의 군으로부터 선택된다.

RNA 성분, 예컨대, Cas9-매개 DNA 표적화를 수행하기 위한 진핵생물 세포에서의 gRNA를 발현하는 방법에서는 정확히 정의되고 변형되지 않은 5'- 및 3'-말단을 갖는 RNA의 전사를 허용하는 RNA 중합효소 III(Pol III) 프로모터를 사용하였다(DiCarlo et al., Nucleic Acids Res. 41:4336-4343; Ma et al., Mol. Ther. Nucleic Acids 3:e161). 상기 전략은 메이즈 및 대두를 포함하는 몇몇 상이한 종의 세포에서 성공적으로 적용되었다(2015년 3월 19일 공개된 US20150082478). 5' 캡을 갖지 않는 RNA 성분을 발현하는 방법이 기재되었다(2016년 2월 18일 공개된 WO2016/025131).

Cas 엔도뉴클레아제에 대한 표적 부위에 삽입되는 관심 대상의 폴리뉴클레오티드를 갖는 세포 또는 유기체를 얻기 위해 다양한 방법 및 조성물을 이용할 수 있다. 이러한 방법은 상동 재조합(HR)을 이용하여 표적 부위에서 관심 대상의 폴리뉴클레오티드의 통합을 제공할 수 있다. 본 명세서에 기재된 하나의 방법에서, 관심 대상의 폴리뉴클레오티드는 공여자 DNA 작제물을 통해 유기체 세포로 도입된다.

공여자 DNA 작제물은 관심 대상의 폴리뉴클레오티드에 측접한 제1 및 제2 상동성 영역을 더 포함한다. 공여자 DNA의 제1 상동 영역 및 제2 상동 영역은 세포 또는 유기체 게놈의 표적 부위에 존재하거나 이에 측접한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.

공여자 DNA는 가이드 폴리뉴클레오티드로 테더링될 수 있다. 테더링된 공여자 DNA는, 게놈 편집, 유전자 삽입 및 표적화된 게놈 조절에 유용한, 표적과 공여자 DNA의 공동 국재화를 허용할 수 있고, 내인성 HR 기구의 기능이 매우 약해질 것으로 예상되는 유사분열 후 세포를 표적화하는 데에도 유용할 수 있다(Mali et al., 2013, Nature Methods Vol. 10:957-963).

표적 및 공여자 폴리뉴클레오티드가 공유하는 상동성 또는 서열 동일성의 양은 변할 수 있으며, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5~3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 전체 길이까지를 포함하는 범위의 단위 적분 값을 갖는 총 길이 및/또는 영역을 포함한다. 이 범위에는 범위 내의 모든 정수가 포함되고, 예를 들어, 1~20 bp 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 서열 동일성 백분율에 의해 기재될 수도 있는데, 이는 적어도 약 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 98% 내지 99%, 99%, 99% 내지 100%, 또는 100%의 서열 동일성 백분율을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 서열 동일성 백분율, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 서열 동일성 백분율의 임의의 조합을 포함하며, 예를 들어, 충분한 상동성은 표적 좌위의 영역과 적어도 80%의 서열 동일성을 갖는 75 내지 150 bp의 영역으로서 기재될 수 있다. 충분한 상동성은 또한 높은 엄격성 조건 하에 특이적으로 혼성화하는 2개의 폴리뉴클레오티드의 예측된 능력에 의해 기재될 수 있고, 예를 들어, 문헌[Sambrook et al., (1989) Molecular Cloning:A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY)]; 문헌[Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.)]; 및 문헌[Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York)]을 참조한다.

주어진 게놈 영역과 공여자 DNA에서 발견되는 대응 상동성 영역 사이의 구조적 유사성은 상동 재조합이 일어날 수 있게 하는 임의의 서열 동일성 정도일 수 있다. 예를 들어, 공여자 DNA의 "상동 영역"과 유기체 게놈의 "게놈 영역"이 공유하는 상동성 또는 서열 동일성의 양은 서열이 상동 재조합을 겪도록 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성일 수 있다.

공여자 DNA 상의 상동성 영역은 표적 부위에 측접한 임의의 서열과 상동성을 가질 수 있다. 일부 경우에 상동성 영역은 표적 부위에 바로 측접한 게놈 서열과 상당한 서열 상동성을 공유하지만, 상동성 영역은 표적 부위에 추가로 5' 또는 3'일 수 있는 영역과 충분한 상동성을 갖도록 설계될 수 있음이 인정된다. 상동성 영역은 또한 하류 게놈 영역을 따라 표적 부위의 단편과 상동성을 가질 수 있다.

일 실시형태에서, 제1 상동성 영역은 표적 부위의 제1 단편을 추가로 포함하고, 제2 상동성 영역은 표적 부위의 제2 단편을 포함하며, 제1 단편 및 제2 단편은 상이하다.

관심 대상의 폴리뉴클레오티드

관심 대상의 폴리뉴클레오티드는 본 명세서에 더 기재되어 있으며, 상업 시장 및 작물 개발에 관여하는 자들의 이익을 반영하는 폴리뉴클레오티드를 포함한다. 관심 작물 및 시장은 변화하며, 개발도상국이 세계 시장을 개방함에 따라 새로운 작물과 기법이 또한 등장할 것이다. 또한, 수확량과 잡종 강세와 같은 작물학적 형질 및 특징에 대한 이해가 높아짐에 따라 유전자 조작을 위한 유전자의 선택도 변할 것이다.

관심 대상의 폴리뉴클레오티드의 일반적인 범주는, 예를 들어, 아연 핑거와 같은 정보 관련 관심 대상 유전자, 키나아제와 같은 커뮤니케이션 관련 유전자, 및 열 충격 단백질과 같은 하우스키핑 관련 유전자를 포함한다. 보다 구체적인 관심 대상의 폴리뉴클레오티드는 작물 수확량, 낟알 품질, 작물 영양소 함량, 전분 및 탄수화물 품질 및 양에 관련된 유전자뿐만 아니라 속씨 크기, 수크로스 부하, 단백질 품질 및 양, 질소 고정 및/또는 이용, 지방산 및 오일 조성에 영향을 미치는 유전자, 비생물 스트레스에 저항성을 부여하는 단백질을 암호화하는 유전자(예컨대 가뭄, 질소, 온도, 염도, 독성 금속 또는 미량 원소, 또는 독소, 예컨대 살해충제 및 제초제에 대한 저항성을 부여하는 유전자), 생물 스트레스(예컨대 진균, 바이러스, 박테리아, 곤충 및 선충에 의한 공격, 및 이러한 유기체와 연관되는 질병의 발생)에 저항성을 부여하는 단백질을 암호화하는 유전자와 같지만, 이들로 제한되지 않는 작물학적 관심 대상의 형질에 관련된 유전자를 포함하지만, 이들로 제한되는 것은 아니다.

오일, 전분, 및 단백질 함량과 같은 작물학적으로 중요한 형질은 전통적인 육종 방법을 사용하는 것 외에도 유전적으로 변경될 수 있다. 변형은 올레산, 포화 및 불포화 오일의 함량의 증가, 리신 및 황 수준의 증가, 필수 아미노산의 제공, 및 또한 전분의 변형을 포함한다. 호르도티오닌 단백질 변형은 미국 특허 제5,703,049호, 제5,885,801호, 제5,885,802호, 및 제5,990,389호에 기재되어 있다.

관심 대상의 폴리뉴클레오티드 서열은 질병 저항성 또는 해충 저항성의 제공에 관련된 단백질을 암호화할 수 있다. "질병 저항성" 또는 "해충 저항성"은 식물이 식물 병원균 상호 작용의 결과인 유해 증상을 방지한다는 의미이다. 해충 저항성 유전자는 근충, 거세미, 유럽옥수수좀 등과 같이 수확량에 큰 방해가 되는 해충에 대한 저항성을 암호화할 수 있다. 질병 저항성 및 곤충 저항성 유전자, 예컨대, 항균 보호를 위한 라이소자임 또는 세크로핀, 또는 항진균 보호를 위한 디펜신, 글루카나아제 또는 키티나아제와 같은 단백질, 또는 선충류 또는 곤충 방제를 위한 바실루스 튜링기엔시스 내독소, 프로테아제 저해제, 콜라게나아제, 렉틴, 또는 글리코시다제가 모두 유용한 유전자 산물의 예이다. 질환 저항성 형질을 암호화하는 유전자는, 예컨대 푸모니신에 대한 해독작용 유전자(미국 특허 제5,792,931호); 약독성(avr) 및 질환 저항성(R) 유전자(문헌[Jones et al. (1994) Science 266:789]; 문헌[Martin et al. (1993) Science 262:1432]; 및 문헌[Mindrinos et al. (1994) Gene 78:1089]); 등을 포함한다. 곤충 저항성 유전자는 근충, 거세미, 유럽옥수수좀 등과 같이 수확량에 큰 방해가 되는 해충에 대한 저항성을 암호화할 수 있다. 이러한 유전자는, 예를 들어, 바실러스 투링기엔시스 독성 단백질 유전자(미국 특허 제5,366,892호; 제5,747,450호; 제5,736,514호; 제5,723,756호; 제5,593,881호; 및 문헌[Geiser et al. (1986) Gene 48:109]) 등을 포함한다.

"제초제 저항성 단백질" 또는 "제초제 저항성 암호화 핵산 분자"의 발현으로 생성되는 단백질은 이러한 단백질을 발현하지 않는 세포보다 더 높은 농도의 제초제를 견디는 능력, 또는 이러한 단백질을 발현하지 않는 세포보다 더 오랜 기간 동안 특정 농도의 제초제를 견디는 능력을 세포에 부여하는 단백질을 포함한다. 제초제 저항성 형질은 아세토락테이트 합성효소(ALS, 또한 아세토하이드록시산 합성효소, AHAS로도 지칭함)의 작용을 저해하는 작용을 하는 제초제, 특히 설포닐우레아(sulfonylurea)(영국: sulphonylurea) 유형 제초제에 대한 저항성을 암호화하는 유전자, 글루타민 합성효소의 작용을 저해하는 작용을 하는 제초제에 대한 저항성을 암호화하는 유전자, 예컨대, 포스피노트리신 또는 바스타(예컨대, bar 유전자), 글리포세이트(예컨대, EPSP 합성효소 유전자 및 GAT 유전자), HPPD 저해제(예컨대, HPPD 유전자) 또는 당업계에 알려진 다른 이러한 유전자에 의해 식물 내로 도입될 수 있다. 예를 들어, 미국 특허 제7,626,077호, 제5,310,667호, 제5,866,775호, 제6,225,114호, 제6,248,876호, 제7,169,970호, 제6,867,293호, 및 제9,187,762호 참조. bar 유전자는 제초제 바스타에 대한 저항성을 암호화하고, nptII 유전자는 항생제 카나마이신 및 제네티신에 대한 저항성을 암호화하고, ALS-유전자 돌연변이체는 제초제 클로르설푸론에 대한 저항성을 암호화한다.

또한, 관심 대상의 폴리뉴클레오티드는 표적화된 관심 대상 유전자 서열에 대한 전령 RNA(mRNA)의 적어도 일부에 상보성인 안티센스 서열을 포함할 수 있음이 인정된다. 안티센스 뉴클레오티드는 대응 mRNA와 혼성화하도록 작제된다. 서열이 해당 mRNA에 혼성화하고 그 발현을 방해하는 한 안티센스 서열의 변형이 이루어질 수 있다. 이러한 방식으로, 대응 안티센스 서열과 70%, 80%, 또는 85%의 서열 동일성을 갖는 안티센스 작제물이 사용될 수 있다. 게다가, 안티센스 뉴클레오티드의 일부는 표적 유전자의 발현을 방해하기 위해 사용될 수 있다. 일반적으로, 적어도 50개 뉴클레오티드, 100개 뉴클레오티드, 200개 뉴클레오티드 이상의 서열이 사용될 수 있다.

또한, 관심 대상의 폴리뉴클레오티드는 식물에서 내인성 유전자 발현을 억제하기 위해 센스 방향으로 사용될 수도 있다. 폴리뉴클레오티드를 센스 방향으로 사용하여 식물의 유전자 발현을 억제하는 방법은 당업계에 공지되어 있다. 이 방법은 일반적으로 내인성 유전자의 전사체에 해당하는 뉴클레오티드 서열의 적어도 일부에 작동 가능하게 연결되어 식물에서 발현을 유도하는 프로모터를 포함하는 DNA 작제물로 식물을 형질전환시키는 단계를 포함한다. 일반적으로, 이러한 뉴클레오티드 서열은 내인성 유전자의 전사체의 서열에 대해 일반적으로 약 65%의 서열 동일성, 약 85%의 서열 동일성보다 크거나, 약 95%의 서열 동일성보다 큰 실질적인 서열 동일성을 갖는다. 미국 특허 제5,283,184호 및 제5,034,323호 참조.

관심 대상의 폴리뉴클레오티드는 표현형 마커일 수도 있다. 표현형 마커는, 시각적 마커 및 그것이 양성의 선택 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 선별 가능한 또는 선택 가능한 마커이다. 임의의 표현형 마커가 사용될 수 있다. 구체적으로, 선택 가능하거나 선별 가능한 마커는 종종 특정한 조건 하에서, 이를 포함하는 분자 또는 세포를 확인하거나, 이러한 분자 또는 세포를 또는 이러한 분자 또는 세포에 대해 선택할 수 있게 하는 DNA 세그먼트를 포함한다. 이들 마커는 활성, 예컨대 비제한적인 예로서 RNA, 펩티드 또는 단백질의 생성을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등에 대한 결합 부위를 제공할 수 있다.

선택 가능한 마커의 예는 제한 효소 부위를 포함하는 DNA 세그먼트; 항생제, 예컨대, 스펙티노마이신, 암피실린, 카나마이신, 테트라사이클린, 바스타(Basta), 네오마이신 포스포트랜스퍼라아제 II(NEO) 및 히그로마이신 포스포트랜스퍼라아제(HPT)를 포함하는, 다른 경우에는 독성일 수 있는 화합물에 대해 저항성을 제공하는 산물을 암호화하는 DNA 세그먼트; 수용 세포에 없을 수 있는 산물을 암호화하는 DNA 세그먼트(예컨대, tRNA 유전자, 영양요구성 마커); 용이하게 확인될 수 있는 산물을 암호화하는 DNA 세그먼트(예를 들어, 표현형 마커, 예컨대, β-갈락토시다제, GUS; 형광 단백질, 예컨대, 녹색 형광 단백질(GFP), 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP), 적색 형광 단백질(RFP) 및 세포 표면 단백질); PCR을 위한 새로운 프라이머 부위(예를 들어, 이전에는 병치되지 않은 2개의 DNA 서열의 병치)의 생성, 제한 엔도뉴클레아제 또는 기타 DNA 변형 효소, 화학물질 등에 의해 영향받지 않거나 영향받는 DNA 서열의 포함; 및 확인을 가능하게 하는 특이적인 변형(예를 들어, 메틸화)을 위해 필요한 DNA 서열의 포함을 포함하지만, 이들로 제한되는 것은 아니다.

추가적인 선택 가능한 마커는 제초제 화합물, 예컨대, 설포닐우레아, 글루포시네이트 암모늄, 브로목시닐, 이미다졸리논 및 2,4-디클로로페녹시아세테이트(2,4-D)에 내성을 부여하는 유전자를 포함한다. 예를 들어, 설포닐우레아, 이미다졸리논, 트리아졸로피리미딘 설폰아미드, 피리미디닐살리실레이트 및 설포닐아미노카보닐-트리아졸리논에 대한 저항성에 대해 아세토락타제 신타제(ALS)(Shaner and Singh, 1997, Herbicide Activity:Toxicol Biochem Mol Biol 69-110); 글리포세이트 저항성 5-엔올피루빌시키메이트-3-포스페이트(EPSPS)(Saroha et al. 1998, J. Plant Biochemistry & Biotechnology Vol 7:65-72)를 참조한다;

관심 대상의 폴리뉴클레오티드는 다른 형질, 예컨대 제초제 저항성 또는 본 명세서에 기재되는 임의의 다른 형질(그러나 이것으로 제한되지 않음)과 조합하여 쌓이거나 사용될 수 있는 유전자를 포함한다. 관심 대상의 폴리뉴클레오티드 및/또는 형질은 2013년 10월 3일 공개된 US20130263324 및 2013년 8월 1일 공개된 WO/2013/112686에 기재된 바와 같이, 복합 형질 좌위에 함께 쌓일 수 있다.

관심 대상의 폴리펩티드는 본 명세서에 기재된 관심 대상의 폴리뉴클레오티드에 의해 암호화되는 임의의 단백질 또는 폴리펩티드를 포함한다.

또한, 표적 부위에 통합된 관심 대상의 폴리뉴클레오티드를 그 게놈에 포함하는 하나 이상의 식물 세포를 확인하기 위한 방법이 제공된다. 표적 부위 또는 그 근처에서 게놈 내 삽입을 갖는 이러한 식물 세포를 확인하기 위해 다양한 방법을 이용할 수 있다. 비제한적인 예로서 PCR 방법, 서열분석 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하여, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것과 같은 방법을 들 수 있다. 예를 들어, 2009년 5월 21일 공개된 US20090133152 참조. 이러한 방법은 또한 게놈으로 통합된 관심 대상의 폴리뉴클레오티드를 포함하는 식물 세포로부터 식물을 회수하는 단계를 포함한다. 식물은 불임성 또는 가임성일 수 있다. 표적 부위에서 식물 게놈 내로 통합되고 식물에서 발현되는 임의의 관심 대상의 폴리뉴클레오티드가 제공될 수 있음이 인식된다.

식물에서의 발현을 위한 서열의 최적화

식물 선호 유전자를 합성하기 위한 방법은 당업계에서 이용 가능하다. 예를 들어, 미국 특허 제5,380,831호 및 제5,436,391호, 및 문헌[Murray et al. (1989) Nucleic Acids Res. 17:477-498] 참조. 추가적인 서열 변형은 식물 숙주에서 유전자 발현을 향상시키는 것으로 공지되어 있다. 이들은, 예를 들어, 가짜 폴리아데닐화 신호를 암호화하는 하나 이상의 서열, 하나 이상의 엑손-인트론 스플라이스 부위 신호, 하나 이상의 트랜스포존 유사 반복서열, 및 유전자 발현에 유해할 수 있는 기타 이러한 잘 특성 규명된 서열의 제거를 포함한다. 서열의 G-C 함량은 숙주 식물 세포에서 발현되는 공지된 유전자를 참조하여 계산되는 주어진 식물 숙주에 대한 평균 수준으로 조정될 수 있다. 가능한 경우, 서열은 하나 이상의 예측된 헤어핀 2차 mRNA 구조를 피하도록 변형된다. 따라서, 본 발명의 "식물 최적화된 뉴클레오티드 서열"은 하나 이상의 이러한 서열 변형을 포함한다.

발현 요소

본 명세서에 개시된 Cas 단백질 또는 기타 CRISPR 시스템 성분을 암호화하는 임의의 폴리뉴클레오티드는 숙주 세포에서 전사 또는 조절을 촉진하기 위하여, 이종성 발현 요소에 기능적으로 연결될 수 있다. 이러한 발현 요소는 프로모터, 리더, 인트론 및 종결자를 포함하지만, 이들로 제한되지 않는다. 발현 요소는 "최소"일 수 있는데, 이는 발현 조절인자 또는 변형인자로서 여전히 기능하는, 고유한 근원으로부터 유래된 더 짧은 서열을 의미한다. 대안적으로, 발현 요소는 "최적화"될 수 있는데, 이는 특정 숙주 세포에서 더욱 바람직한 특징을 갖고 기능하도록 이의 폴리뉴클레오티드 서열이 고유한 상태로부터 변형되었음을 의미한다(예를 들어, 이하로 제한되는 것은 아니지만, 박테리아 프로모터는 옥수수 식물에서 이의 발현을 개선시키도록 "메이즈-최적화"될 수 있다). 대안적으로, 발현 요소는 "합성형"일 수 있는데, 숙주 세포에서 사용하기 위하여 이것이 인실리코로 설계되고 합성됨을 의미한다. 합성 발현 요소는 전적으로 합성형일 수 있거나 부분적으로 합성형(자연 발생 폴리뉴클레오티드 서열의 단편을 포함)일 수 있다.

특정 프로모터는 다른 것들보다 더 빠른 속도로 RNA 합성을 유도할 수 있는 것으로 밝혀졌다. 이들은 "강력한 프로모터"라고 한다. 일부 다른 프로모터는 특정 유형의 세포 또는 조직에서만 높은 수준으로 RNA 합성을 유도하는 것으로 밝혀졌고, 프로모터가 바람직하게는 특정 조직에서 RNA 합성을 유도할 뿐만 아니라 다른 조직에서 감소된 수준으로 RNA 합성을 유도할 경우 종종 "조직 특이적 프로모터" 또는 "조직 선호 프로모터"라고 한다.

식물 프로모터는 식물 세포에서 전사를 개시할 수 있는 프로모터를 포함한다. 식물 프로모터의 검토를 위해, 문헌[Potenza et al., 2004, In vitro Cell Dev Biol 40:1-22]; 문헌[Porto et al., 2014, Molecular Biotechnology (2014), 56(1), 38-49] 참조.

구성적 프로모터는, 예를 들어, 코어 CaMV 35S 프로모터(Odell et al., (1985) Nature 313:810-2); 벼 액틴(McElroy et al., (1990) Plant Cell 2:163-71); 유비퀴틴(Christensen et al., (1989) Plant Mol Biol 12:619-32); ALS 프로모터(미국 특허 제5,659,026호) 등을 포함한다.

조직 선호 프로모터는 특정 식물 조직 내의 발현 향상을 목표로 하는 데 활용될 수 있다. 조직 선호 프로모터는 예를 들어, 2013년 7월 11일에 공개된 WO2013103367, 문헌[Kawamata et al., (1997) Plant Cell Physiol 38:792-803]; 문헌[Hansen et al., (1997) Mol Gen Genet 254:337-43]; 문헌[Russell et al., (1997) Transgenic Res 6:157-68]; 문헌[Rinehart et al., (1996) Plant Physiol 112:1331-41]; 문헌[Van Camp et al., (1996) Plant Physiol 112:525-35]; 문헌[Canevascini et al., (1996) Plant Physiol 112:513-524]; 문헌[Lam, (1994) Results Probl Cell Differ 20:181-96]; 및 문헌[Guevara-Garcia et al., (1993) Plant J 4:495-505]를 포함한다. 잎-선호 프로모터는, 예를 들어, 문헌[Yamamoto et al., (1997) Plant J 12:255-65]; 문헌[Kwon et al., (1994) Plant Physiol 105:357-67]; 문헌[Yamamoto et al., (1994) Plant Cell Physiol 35:773-8; Gotor et al., (1993) Plant J 3:509-18]; 문헌[Orozco et al., (1993) Plant Mol Biol 23:1129-38]; 문헌[Matsuoka et al., (1993) Proc. Natl. Acad. Sci. USA 90:9586-90]; 문헌[Simpson et al., (1958) EMBO J 4:2723-9]; 문헌[Timko et al., (1988) Nature 318:57-8]을 포함한다. 뿌리 선호 프로모터는 예를 들어, 문헌[Hire et al., (1992) Plant Mol Biol 20:207-18](대두 뿌리 특이적 글루타민 합성효소 유전자); 문헌[Miao et al., (1991) Plant Cell 3:11-22](세포질 글루타민 합성효소(GS)); 문헌[Keller and Baumgartner, (1991) Plant Cell 3:1051-61](강낭콩의 GRP 1.8 유전자의 뿌리 특이적 제어 요소); 문헌[Sanger et al., (1990) Plant Mol Biol 14:433-43](아그로박테리움 투메파시엔스(A. tumefaciens) 만노파인(mannopine) 합성효소(MAS)의 뿌리 특이적 프로모터); 문헌[Bogusz et al., (1990) Plant Cell 2:633-41](파라스포니아 안데르소니이(Parasponia andersonii) 및 트레마 토멘토사(Trema tomentosa)로부터 단리된 뿌리 특이적 프로모터); 문헌[Leach and Aoyagi, (1991) Plant Sci 79:69-76](아그로박테리움 리조게네스(A. rhizogenes) rolC 및 rolD 뿌리 유도 유전자); 문헌[Teeri et al., (1989) EMBO J 8:343-50](아그로박테리움(Agrobacterium) 상처 유도 TR1' 및 TR2' 유전자); VfENOD-GRP3 유전자 프로모터(Kuster et al., (1995) Plant Mol Biol 29:759-72); 및 rolB 프로모터(문헌[Capana et al., (1994) Plant Mol Biol 25:681-91]; 문헌[phaseolin gene (Murai et al., (1983) Science 23:476-82]; 문헌[Sengopta-Gopalen et al., (1988) Proc. Natl. Acad. Sci. USA 82:3320-4])를 포함한다. 또한, 미국 특허 제5,837,876호; 제5,750,386호; 제5,633,363호; 제5,459,252호; 제5,401,836호; 제5,110,732호 및 제5,023,179호 참조.

종자 선호 프로모터는 종자 발달 중에 활성을 나타내는 종자 특이적 프로모터뿐만 아니라, 종자 발아 중에 활성을 나타내는 종자 발아 프로모터를 포함한다. 문헌[Thompson et al., (1989) BioEssays 10:108] 참조. 종자 선호 프로모터는 Cim1(사이토키닌 유도 메세지); cZ19B1(메이즈 19 kDa 제인); 및 milps(미오-이노시톨-1-포스페이트 합성효소); 및 예를 들어, 2000년 3월 2일 공개된 WO2000011177 및 미국 특허 제6,225,529호에 개시된 것들을 포함하지만, 이들로 제한되지 않는다. 쌍떡잎식물의 경우, 종자 선호 프로모터는 콩류 β-파세올린, 나핀, β-콘글리시닌, 대두 렉틴, 크루시페린 등을 포함하지만, 이들로 제한되지 않는다. 외떡잎식물의 경우, 종자 선호 프로모터로는 메이즈 15 kDa 제인, 22 kDa 제인, 27 kDa 감마 제인, 왁시, 슈렁큰(shrunken) 1, 슈렁큰 2, 글로불린 1, 올레오신, 및 nuc1을 포함하지만, 이들로 제한되지 않는다. 또한, END1 및 END2 유전자로부터의 종자 선호 프로모터가 개시된 2000년 3월 9일 공개된 WO2000012733 참조.

화학물질 유도성(조절) 프로모터는 외인성 화학 조절인자의 적용을 통해 원핵생물 및 진핵생물 세포 또는 유기체에서 유전자의 발현을 조절하는 데 사용될 수 있다. 이러한 프로모터는 화학물질의 적용이 유전자 발현을 유도하는 화학물질 유도성 프로모터, 또는 화학물질의 적용이 유전자 발현을 억제하는 화학물질 억제성 프로모터일 수 있다. 화학물질 유도성 프로모터는 벤젠 설폰아미드 제초제 약해경감제에 의해 활성화되는 메이즈 In2-2 프로모터(De Veylder et al., (1997) Plant Cell Physiol 38:568-77), 잡초 발아 전에 제초제로서 사용되는 소수성 친전자성 화합물에 의해 활성화되는 메이즈 GST 프로모터(GST-II-27, 1993년 1월 21일 공개된 WO1993001294) 및 살리실산에 의해 활성화되는 담배 PR-1a 프로모터(Ono et al., (2004) Biosci Biotechnol Biochem 68:803-7)를 포함하지만, 이들로 제한되지 않는다. 다른 화학물질-조절된 프로모터는 스테로이드-반응성 프로모터를 포함한다(예를 들어, 글루코코르티코이드-유도성 프로모터(문헌[Schena et al., (1991) Proc. Natl. Acad. Sci. USA 88:10421-5]; 문헌[McNellis et al., (1998) Plant J 14:247-257]); 테트라사이클린-유도성 및 테트라사이클린-억제성 프로모터(문헌[Gatz et al., (1991) Mol Gen Genet 227:229-37]; 미국 특허 제5,814,618호 및 제5,789,156호).

병원체에 의한 감염 후에 유도되는 병원체 유도성 프로모터는 PR 단백질, SAR 단백질, 베타-1,3-글루카나아제, 키티나아제 등의 발현을 조절하는 것들을 포함하지만, 이들로 제한되지 않는다.

스트레스-유도성 프로모터는 RD29A 프로모터를 포함한다(Kasuga et al. (1999) Nature Biotechnol. 17:287-91). 당업자는 가뭄, 삼투압 스트레스, 염 스트레스 및 온도 스트레스와 같은 스트레스 조건을 시뮬레이션하고 시뮬레이션된 또는 자연 발생 스트레스 조건에 노출되었던 식물의 스트레스 내성을 평가하기 위한 프로토콜을 잘 알고 있다.

식물 세포에서 유용한 유도성 프로모터의 또 다른 예는 2013년 11월 21일 공개된 US20130312137에 기재된 ZmCAS1 프로모터이다.

식물 세포에 유용한 여러 유형의 새로운 프로모터가 지속적으로 발견되고 있고; 많은 예들을 문헌[The Biochemistry of Plants, Vol. 115, Stumpf and Conn, eds (New York, NY:Academic Press), pp. 1-82]에 있는 Okamuro and Goldberg(1989)에 의한 편집에서 찾을 수 있다.

신규한 CRISPR-Cas 시스템 성분을 이용한 게놈의 변형

본 명세서에 기재된 바와 같이, 유도된 Cas 엔도뉴클레아제는 DNA 표적 서열을 인식하고, 이에 결합하고, 단일 가닥 절단(틈) 또는 이중 가닥 절단을 도입할 수 있다. 단일 또는 이중 가닥 절단이 DNA에서 유도되면, 세포의 DNA 수선 메커니즘이 활성화되어 절단을 수선한다. 오류가 발생하기 쉬운 DNA 수선 메커니즘은 이중 가닥 파괴 부위에서 돌연변이를 생성할 수 있다. 파괴된 말단을 하나로 합치는 가장 일반적인 수선 메커니즘은 비상동 말단 연결(NHEJ) 경로이다(Bleuyard et al., (2006) DNA Repair 5:1-12). 염색체의 구조적 완전성은 전형적으로 수선에 의해 보존되지만, 결실, 삽입 또는 다른 재배열(예컨대, 염색체 전위)이 가능하다(Siebert and Puchta, 2002, Plant Cell 14:1121-31; Pacher et al., 2007, Genetics 175:21-9).

DNA 이중 가닥 파괴는 상동 재조합 경로를 자극하는 효과적인 인자로 보인다(Puchta et al., (1995) Plant Mol Biol 28:281-92; Tzfira and White, (2005) Trends Biotechnol 23:567-9; Puchta, (2005) J Exp Bot 56:1-14). DNA 파괴제를 사용하여, 식물에서의 인공적으로 작제된 상동 DNA 반복부 사이에 상동 재조합의 2배 내지 9배 증가가 관찰되었다(Puchta et al., (1995) Plant Mol Biol 28:281-92). 메이즈 원형질체에서, 선형 DNA 분자를 이용한 실험은 플라스미드 간의 향상된 상동 재조합을 입증하였다(Lyznik et al., (1991) Mol Gen Genet 230:209-18).

상동 직접 수선(HDR)은 이중 가닥 및 단일 가닥 DNA 절단을 수선하는 세포의 메커니즘이다. 상동 직접 수선은 상동 재조합(HR) 및 단일 가닥 어닐링(single-strand annealing: SSA)을 포함한다(Lieber. 2010 Annu. Rev. Biochem. 79:181-211). 가장 일반적인 형태의 HDR은 상동 재조합(HR)이라고 하며, 공여자 DNA와 수용자 DNA 간의 가장 긴 서열 상동성 요건을 갖는다. 다른 형태의 HDR은 단일 가닥 어닐링(SSA) 및 절단 유도 복제를 포함하며, 이들은 HR에 비해 더 짧은 서열 상동성을 필요로 한다. 틈(단일 가닥 파손)에서의 상동성-유도 수선은 이중 가닥 절단에서의 HDR과 다른 메커니즘을 통해 일어날 수 있다(Davis and Maizels. PNAS (0027-8424), 111 (10), p. E924-E932).

예를 들어, 상동 재조합(HR)을 통한 원핵생물 및 진핵생물 세포 또는 유기체의 게놈의 변경은 유전자 조작을 위한 강력한 도구이다. 상동 재조합은 식물 (Halfter et al., (1992) Mol Gen Genet 231:186-93) 및 곤충(Dray and Gloor, 1997, Genetics 147:689-99)에서 입증되었다. 상동 재조합은 다른 유기체에서도 이루어졌다. 예를 들어, 기생 원생동물 리슈마니아(Leishmania)에서의 상동 재조합에 적어도 150 내지 200 bp의 상동성이 필요했다(Papadopoulou and Dumas, (1997) Nucleic Acids Res 25:4278-86). 사상균 아스퍼질러스 니둘란스에서, 50 bp만큼의 적은 측접 상동성으로 유전자 치환이 이루어졌다(Chaveroche et al., (2000) Nucleic Acids Res 28:e97). 표적 유전자 치환은 섬모 테트라하이메나 써모필라(Tetrahymena thermophila)에서도 입증되었다(Gaertig et al., (1994) Nucleic Acids Res 22:5391-8). 포유류에서, 상동 재조합은 배양물에서 성장하고, 형질전환되고, 선택되고 마우스 배아 내로 도입될 수 있는 다능성 배아 줄기 세포주(ES)를 사용하여 마우스에서 가장 성공적이었다(WH Freeman & Co.에서 배포한 문헌[Watson et al., 1992, Recombinant DNA, 2nd Ed., Scientific American Books]).

유전자 표적화

본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 시스템은 유전자 표적화를 위해 사용될 수 있다.

일반적으로, DNA 표적화는 적합한 폴리뉴클레오티드 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 폴리뉴클레오티드 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 단일 또는 이중 가닥 절단이 DNA에서 유도되면, 세포의 DNA 수선 메커니즘이 활성화되어 표적 부위에서 변형을 야기할 수 있는 비상동 말단 연결(NHEJ) 또는 상동성 유도 수선(HDR) 과정을 통해 절단을 수선한다.

표적 부위의 DNA 서열의 길이는 변할 수 있으며, 예를 들어, 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 또는 30개 초과의 뉴클레오티드 길이를 갖는 표적 부위를 포함한다. 표적 부위는 회문구조일 수 있는데, 즉 한 가닥 상에 있는 서열이 상보성 가닥 상에서 반대 방향으로 동일하게 해독되는 것이 추가로 가능하다. 틈/절단 부위는 표적 서열 내에 존재할 수 있거나, 틈/절단 부위는 표적 서열 외부에 존재할 수 있다. 또 다른 변형에서, 절단은 평활 말단 절단을 생성하기 위해 서로 바로 마주 보는 뉴클레오티드 위치에서 발생할 수 있거나, 또는 다른 경우에는 "접착성 말단(sticky end)"으로도 칭해지는, 5' 돌출부 또는 3' 돌출부일 수 있는 단일 가닥 돌출부를 생성하도록 절개가 엇갈릴 수 있다. 게놈 표적 부위의 활성 변이체가 또한 사용될 수 있다. 이러한 활성 변이체는 주어진 표적 부위와 적어도 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있고, 활성 변이체는 생물학적 활성을 보유함으로써 Cas 엔도뉴클레아제에 의해 인식되고 절단될 수 있다.

엔도뉴클레아제에 의한 표적 부위의 단일 또는 이중 가닥 절단을 측정하기 위한 분석법은 당업계에 공지되어 있으며, 일반적으로 인식 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.

본 명세서의 표적화 방법은 예를 들어, 2개 이상의 DNA 표적 부위가 표적화되는 방식으로 수행될 수 있다. 이러한 방법은 선택적으로 다중 방법으로 특성규명될 수 있다. 특정 실시형태에서 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 표적 부위가 동시에 표적화될 수 있다. 다중복합 방법은 전형적으로 다수의 상이한 RNA 성분이 제공되는 본 명세서의 표적화 방법에 의해 수행되며, 각각은 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체를 고유의 DNA 표적 부위로 유도하도록 설계된 본 명세서의 표적화 방법에 의해 수행된다.

유전자 편집

DSB와 변형 주형을 조합하는 게놈 서열 편집 방법은 일반적으로, 염색체 서열 내 표적 서열을 인식하고 게놈 서열에서 DSB를 유도할 수 있는 DSB 유도제, 또는 DSB 유도제를 암호화하는 핵산, 및 편집될 뉴클레오티드 서열에 비해 적어도 하나의 뉴클레오티드 변경을 포함하는 적어도 하나의 폴리뉴클레오티드 변형 주형을 숙주 세포에 도입하는 단계를 포함한다. 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변경에 측접한 뉴클레오티드 서열을 더 포함할 수 있고, 이때 측접한 서열은 DSB에 측접한 염색체 영역과 실질적으로 상동성이다. Cas-gRNA 복합체와 같은 DSB 유도제를 이용한 게놈 편집은, 예를 들어, 2015년 3월 19일 공개된 US20150082478, 2015년 2월 26일 공개된 WO2015026886, 2016년 1월 14일 공개된 WO2016007347, 및 2016년 2월 18일 공개된 WO/2016/025131에 기재되었다.

가이드 RNA/Cas 엔도뉴클레아제 시스템의 일부 용도가 기재되었으며(예를 들어, 2015년 3월 19일 공개된 US20150082478 A1, 2015년 2월 26일 공개된 WO2015026886, 및 2015년 2월 26일 공개된 US20150059010 참조), 관심 대상의 뉴클레오티드 서열(예컨대, 조절 요소)의 변형 또는 교체, 관심 대상의 폴리뉴클레오티드의 삽입, 유전자 넉아웃, 유전자 넉인, 스플라이싱 부위의 변형 및/또는 교번식 스플라이싱 부위의 도입, 관심 대상의 단백질을 암호화하는 뉴클레오티드 서열, 아미노산 및/또는 단백질 융합체의 변형, 및 관심 대상 유전자 내에 역위 반복서열을 발현시키는 것에 의한 유전자 침묵을 포함하지만, 이들로 제한되지 않는다.

단백질은 아미노산 치환, 결실, 절두 및 삽입을 비롯한 다양한 방식으로 변경될 수 있다. 이러한 조작 방법은 일반적으로 공지되어 있다. 예를 들어, 단백질(들)의 아미노산 서열 변이체는 DNA에서의 돌연변이에 의해 제조될 수 있다. 돌연변이유발 및 뉴클레오티드 서열 변경을 위한 방법은, 예를 들어, 문헌[Kunkel, (1985) Proc. Natl. Acad. Sci. USA 82:488-92]; 문헌[Kunkel et al., (1987) Meth Enzy㏖ 154:367-82]; 미국 특허 제4,873,192호; 문헌[Walker and Gaastra, eds. (1983) Techniques in Molecular Biology (MacMillan Publishing Company, New York)] 및 이에 인용된 참고문헌을 포함한다. 단백질의 생물학적 활성에 영향을 미치지 않을 것 같은 아미노산 치환에 관한 지침은, 예를 들어, 문헌[Dayhoff et al., (1978) Atlas of Protein Sequence and Structure (Natl Biomed Res Found, Washington, D.C.)]의 모델에서 발견된다. 하나의 아미노산을 유사한 성질을 갖는 다른 아미노산과 교환하는 것과 같은 보존적 치환이 바람직할 수 있다. 보존적 결실, 삽입 및 아미노산 치환은 단백질의 특징에 근본적인 변화를 일으킬 것으로 예상되지 않으며, 임의의 치환, 결실, 삽입, 또는 이들의 조합의 효과는 일상적인 선별 분석법에 의해 평가될 수 있다. 이중 가닥 파괴 유도 활성에 대한 분석법은 공지되어 있고, 일반적으로 표적 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.

본 명세서에 Cas 엔도뉴클레아제 및 Cas 엔도뉴클레아제와 가이드 폴리뉴클레오티드의 복합체를 이용하는 게놈 편집을 위한 방법이 기재된다. 가이드 RNA 및 PAM 서열의 특성규명 후에, 엔도뉴클레아제 및 연합된 CRISPR RNA(crRNA)의 성분은 식물을 포함하는 다른 유기체에서 염색체 DNA를 변형시키는 데 이용될 수 있다. (진핵 세포에 대해) 최적 발현 및 핵 국재화를 용이하게 하기 위해, 복합체를 포함하는 유전자는 2016년 11월 24일자로 공개된 WO2016186953에 기재된 바와 같이 최적화되고, 이어서, 당업계에 공지된 방법에 의해 DNA 발현 카세트로서 세포에 전달될 수 있다. 활성 복합체를 포함하는 데 필수적인 성분들 또한 RNA가 분해되는 것으로부터 보호하는 변형과 함께 또는 이러한 변형 없이 RNA로서, 또는 캡핑된 또는 캡핑되지 않은 mRNA(Zhang, Y. et al., 2016, Nat. Commun. 7:12617) 또는 Cas 단백질 가이드 폴리뉴클레오티드 복합체(2017년 4월 27일 공개된 WO2017070032), 또는 이들의 임의의 조합으로서 전달될 수 있다. 추가로, 복합체 및 crRNA의 부분 또는 부분(들)이 DNA 작제물로부터 발현될 수 있는 한편, 다른 성분들이 RNA가 분해되는 것으로부터 보호하는 변형과 함께 또는 이러한 변형 없이 RNA로서, 또는 캡핑된 또는 캡핑되지 않은 mRNA(Zhang et al. 2016, Nat. Commun. 7:12617) 또는 Cas 단백질 가이드 폴리뉴클레오티드 복합체(2017년 4월 27일 공개된 WO2017070032), 또는 이들의 임의의 조합으로서 전달된다. 예를 들어, 2017년 6월 22일 공개된 WO2017105991에 기재된 바와 같이, crRNA를 생체 내에서 생성하기 위하여, tRNA 유래 요소들이 또한 내인성 RNAse를 동원하여 crRNA 전사체를 DNA 표적 부위로 복합체를 유도할 수 있는 성숙한 형태로 절단하는 데 사용될 수 있다. 틈내기효소 복합체는 DNA 가닥 중 하나 또는 둘 다에 단일 또는 다중 DNA 틈을 생성하기 위해 별개로 또는 공동으로 이용될 수 있다. 나아가, Cas 엔도뉴클레아제의 절단 활성은, 이의 절단 도메인의 핵심 촉매 잔기를 변경시켜(Sinkunas, T. et al., 2013, EMBO J. 32:385-394) 상동성 유도 수선을 증진시키거나, 전사 활성화를 유도하거나, 국소 DNA 구조를 개조하는 데 사용될 수 있는 RNA 유도 헬리카제를 생성함으로써 탈활성화될 수 있다. 나아가, Cas 절단 및 헬리카제 도메인의 활성은 모두 넉아웃될 수 있고, 다른 DNA 절단, DNA 틈내기, DNA 결합, 전사 활성화, 전사 억제, DNA 개조, DNA 탈아미노화, DNA 풀기, DNA 재조합 증진, DNA 통합, DNA 역전, 및 DNA 수선 작용제와 함께 사용될 수 있다.

CRISPR-Cas 시스템(존재할 경우) 및 CRISPR-Cas 시스템의 기타 성분들(예컨대, 가변 표적화 도메인, crRNA 반복서열, 루프, 안티-반복서열)에 대한 tracrRNA의 전사 방향은 2016년 11월 24일 공개된 WO2016186946 및 2016년 11월 24일 공개된 WO2016186953에 기재된 바와 같이 도출될 수 있다.

본 명세서에 기재된 바와 같이, 적절한 가이드 RNA 요건이 확립되면, 본 명세서에 개시된 각각의 새로운 시스템에 대한 PAM 선호도가 조사될 수 있다. 절단 복합체가 무작위 PAM 라이브러리의 분해를 초래하는 경우, 중요한 잔기의 돌연변이 유발을 통해 또는 이전에 기재된 바와 같이 ATP의 부재 하에 반응을 조립하여 ATPase 의존적 헬리카제 활성을 불능화함으로써 복합체를 틈내기효소로 전환시킬 수 있다(Sinkunas, T. et al., 2013, EMBO J. 32:385-394). 각 복합체에 의한 절단을 지지하는 PAM 서열을 조사하기 위하여 포획되고 서열분석될 수 있는 이중 가닥 DNA 절단을 생성하도록 2개의 프로토스페이서 표적에 의해 분리된 PAM 무작위화의 두 영역을 이용할 수 있다.

일 실시형태에서, 본 발명은 세포의 게놈에서 표적 부위를 변형하는 방법을 기재하며, 상기 방법은 세포 내로 적어도 하나의, 본 명세서에 기재된 PGEN을 도입하는 단계 및 상기 표적에서 변형을 갖는 적어도 하나의 세포를 확인하는 단계를 포함하되, 상기 표적 부위에서의 변형은 (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 적어도 하나의 뉴클레오티드의 변경, 및 (v) (i) 내지 (iv)의 임의의 조합으로 구성된 군으로부터 선택된다.

편집될 뉴클레오티드는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위 내에 또는 외부에 위치할 수 있다. 일 실시형태에서, 적어도 하나의 뉴클레오티드 변형은 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위에서의 변형이 아니다. 다른 실시형태에서, 편집될 적어도 하나의 뉴클레오티드와 게놈 표적 부위 사이에는 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 30개, 40개, 50개, 100개, 200개, 300개, 400개, 500개, 600개, 700개, 900개 또는 1000개의 뉴클레오티드가 존재한다.

넉아웃은 삽입-결실(표적 DNA 서열에서의 NHEJ를 통한 뉴클레오티드 염기의 삽입 또는 결실)에 의해, 또는 표적화 부위에서의 또는 그 근처에서의 서열의 기능을 감소시키거나 완전히 파괴하는 서열의 특이적 제거에 의해 생성될 수 있다.

가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 유도 표적 돌연변이는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 게놈 표적 부위 내에 또는 외부에 위치하는 뉴클레오티드 서열에서 발생할 수 있다.

세포의 게놈에서 뉴클레오티드 서열을 편집하는 방법은 비기능성 유전자 생성물에 대한 기능을 수선함으로써 외인성의 선택 가능한 마커의 사용이 없는 방법일 수 있다.

일 실시형태에서, 본 발명은 세포의 게놈에서 표적 부위를 변형하는 방법을 기재하며, 방법은 세포 내로 적어도 하나의, 본 명세서에 기재된 PGEN 및 적어도 하나의 공여자 DNA를 도입하는 단계를 포함하되, 상기 공여자 DNA는 관심 대상의 폴리뉴클레오티드를 포함하고, 방법은 상기 관심 대상의 폴리뉴클레오티드가 상기 표적 부위에서 또는 그 근처에서 통합된 적어도 하나의 세포를 확인하는 단계를 더 포함한다.

일 양상에서, 본 명세서에 개시된 방법은 상동 재조합(HR)을 이용하여 표적 부위에서 관심 대상의 폴리뉴클레오티드의 통합을 제공할 수 있다.

본 명세서에 기재된 CRISPR-Cas 시스템 성분의 활성을 통해 표적 부위에 삽입되는 관심 대상의 폴리뉴클레오티드를 갖는 세포 또는 유기체를 생성하기 위해 다양한 방법 및 조성물을 이용할 수 있다. 본 명세서에 기재된 하나의 방법에서, 관심 대상의 폴리뉴클레오티드는 공여자 DNA 작제물을 통해 유기체 세포로 도입된다. 본 명세서에서 사용된 바와 같이, "공여자 DNA"는 Cas 엔도뉴클레아제의 표적 부위로 삽입될 관심 대상의 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여자 DNA 작제물은 관심 대상의 폴리뉴클레오티드에 측접한 제1 및 제2 상동성 영역을 더 포함한다. 공여자 DNA의 제1 상동 영역 및 제2 상동 영역은 세포 또는 유기체 게놈의 표적 부위에 존재하거나 이에 측접한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.

표적 및 공여자 폴리뉴클레오티드가 공유하는 상동성 또는 서열 동일성의 양은 변할 수 있으며, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5~3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 전체 길이까지를 포함하는 범위의 단위 적분 값을 갖는 총 길이 및/또는 영역을 포함한다. 이 범위에는 범위 내의 모든 정수가 포함되고, 예를 들어, 1~20 bp 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬된 길이에 걸친 서열 동일성 백분율에 의해 기재될 수도 있는데, 이는 적어도 약 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성 백분율을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 서열 동일성 백분율, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 서열 동일성 백분율의 임의의 조합을 포함하며, 예를 들어, 충분한 상동성은 표적 좌위의 영역과 적어도 80%의 서열 동일성을 갖는 75 내지 150 bp의 영역으로서 기재될 수 있다. 충분한 상동성은 또한 높은 엄격성 조건 하에 특이적으로 혼성화하는 2개의 폴리뉴클레오티드의 예측된 능력에 의해 기재될 수 있고, 예를 들어, 문헌[Sambrook et al., (1989) Molecular Cloning:A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY)]; 문헌[Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.)]; 및 문헌[Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York)]을 참조한다.

에피솜 DNA 분자가 이중 가닥 절단에 연결될 수도 있다(예컨대, 염색체 이중 가닥 절단에의 T-DNA의 통합)(Chilton and Que, (2003) Plant Physiol 133:956-65; Salomon and Puchta, (1998) EMBO J. 17:6086-95). 예를 들어, 이중 가닥 절단의 성숙에 관련된 엑소뉴클레아제 활성에 의해 이중 가닥 절단 주위의 서열이 일단 변경되면, 상동 서열, 예컨대 비분열 체세포에서의 상동 염색체, 또는 DNA 복제 후 자매 염색분체가 이용 가능한 경우 유전자 전환 경로가 원래의 구조를 복원할 수 있다(Molinier et al., (2004) Plant Cell 16:342-52). 이소성 및/또는 후성적 DNA 서열이 상동 재조합을 위한 DNA 수선 주형으로서 작용할 수도 있다(Puchta, (1999) Genetics 152:1173-81).

일 실시형태에서, 본 발명은 세포의 게놈에서 뉴클레오티드 서열을 편집하는 방법을 포함하고, 상기 방법은 세포 내로 적어도 하나의, 본 명세서에 기재된 PGEN 및 폴리뉴클레오티드 변형 주형을 도입하는 단계를 포함하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하고, 선택적으로 편집된 뉴클레오티드 서열을 포함하는 적어도 하나의 세포를 선택하는 단계를 더 포함한다.

가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템은 적어도 하나의 폴리뉴클레오티드 변형 주형과 조합되어 사용되어 관심 대상 게놈 뉴클레오티드 서열의 편집(변형)을 가능하게 한다. (또한, 2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 WO2015026886 참조).

관심 대상의 폴리뉴클레오티드 및/또는 형질은 2012년 9월 27일 공개된 WO2012129373 및 2013년 8월 1일 공개된 WO2013112686에 기재된 바와 같이, 복합 형질 좌위에 함께 쌓일 수 있다. 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas9 엔도뉴클레아제 시스템은 이중 가닥 절단을 생성하는 데 효율적인 시스템을 제공하고, 복합 형질 좌위에 형질이 쌓이도록 할 수 있다.

유전자 표적화를 매개하는 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 시스템은, 관심 대상 유전자를 도입하기 위해 이중 가닥 절단 유도제를 사용하는 대신, 본 명세서에 개시된 것과 같은 가이드 폴리뉴클레오티드/Cas 시스템이 이용되는, 2012년 9월 27일 공개된 WO2012129373에 개시된 것과 유사한 방식으로 이종성 유전자 삽입을 유도하는 방법 및/또는 다수의 이종성 유전자를 포함하는 복합 형질 좌위를 생성하는 방법에 사용될 수 있다. 서로로부터 0.1, 0.2, 0.3, 0.4, 0.5, 1.0, 2, 또는 심지어 5센티모건(cM) 내에 독립적 이식유전자를 삽입함으로써, 이식유전자는 단일 좌위로서 증식될 수 있다(예를 들어, 2013년 10월 3일 공개된 US20130263324 또는 2013년 3월 14일 공개된 WO2012129373 참조). 이식유전자를 포함하는 식물을 선택한 후, (적어도) 하나의 이식유전자를 포함하는 식물들을 교배하여 양쪽 이식유전자를 모두 포함하는 F1을 형성할 수 있다. 이러한 F1으로부터의 자손(F2 또는 BC1)에서, 1/500의 자손이 동일한 염색체에 재조합된 두 개의 상이한 이식유전자를 가질 것이다. 이후, 복합 좌위는 양쪽 이식유전자 형질을 갖는 단일 좌위로서 증식될 수 있다. 이 과정을 반복하여 원하는 만큼 많은 형질을 쌓을 수 있다.

가이드 RNA/Cas 엔도뉴클레아제 시스템의 추가 용도가 기재되었으며(예를 들어, 2015년 3월 19일 공개된 US20150082478, 2015년 2월 26일 공개된 WO2015026886, 2015년 2월 26일 공개된 US20150059010, 2016년 1월 14일 공개된 WO2016007347, 및 2016년 2월 18일 공개된 PCT WO2016025131 참조), 관심 대상의 뉴클레오티드 서열(예컨대, 조절 요소)의 변형 또는 교체, 관심 대상의 폴리뉴클레오티드의 삽입, 유전자 녹아웃, 유전자 녹인, 스플라이싱 부위의 변형 및/또는 교번식 스플라이싱 부위의 도입, 관심 대상의 단백질을 암호화하는 뉴클레오티드 서열, 아미노산 및/또는 단백질 융합체의 변형, 및 관심 대상 유전자 내에 역위 반복서열을 발현시키는 것에 의한 유전자 침묵화를 포함하지만, 이들로 제한되지 않는다.

본 명세서에 기재된 유전자 편집 조성물 및 방법으로부터 생성된 특징은 평가될 수 있다. 관심 표현형 또는 형질과 상관관계가 있는 염색체 간격이 확인될 수 있다. 염색체 간격을 확인하기 위해 당업계에 잘 공지된 다양한 방법을 이용할 수 있다. 이러한 염색체 간격의 경계는 관심 형질을 제어하는 유전자에 연결될 마커를 포함하도록 정해진다. 다시 말해, 염색체 간격은 그 간격 내에 있는 임의의 마커(간격의 경계를 정의하는 말단 마커를 포함)가 특정 형질을 위한 마커로서 사용될 수 있도록 정해진다. 일 실시형태에서, 염색체 간격은 적어도 하나의 QTL을 포함하고, 또한 실제로 하나보다 많은 QTL을 포함할 수 있다. 하나의 마커는 하나보다 많은 QTL에 연결될 수 있으므로, 동일한 간격에서 여러 QTL의 근접성은 특정 마커와 특정 QTL과의 상관 관계를 모호하게 할 수 있다. 반대로, 예를 들어, 근접한 두 개의 마커가 원하는 표현형 형질과 공동 분리를 보이는 경우, 이들 각각의 마커가 동일한 QTL을 확인하는지 두 개의 다른 QTL을 확인하는지 때로는 불분명하다. 용어 "정량적 형질 좌위" 또는 "QTL"은 적어도 하나의 유전적 배경, 예를 들어, 적어도 하나의 육종 개체군에서 정량적 표현형 형질의 차별적 발현과 관련된 DNA의 영역을 지칭한다. QTL의 영역은 문제의 형질에 영향을 미치는 유전자 또는 유전자들을 포함하거나 이들에 밀접하게 연결되어 있다. "QTL의 대립 유전자"는 일배체형과 같은 인접한 게놈 영역 또는 연관군 내에 여러 유전자 또는 기타 유전 인자를 포함할 수 있다. QTL의 대립 유전자는 특정 창 내의 일배체형을 나타낼 수 있으며, 상기 창은 하나 이상의 다형성 마커의 세트로 정의되고 추적될 수 있는 인접한 게놈 영역이다. 일배체형은 특정 창 내 각각의 마커에서 대립 유전자의 고유의 지문에 의해 정의될 수 있다.

세포 내로 CRISPR-Cas 시스템 성분의 도입

본 명세서에 기재된 방법 및 조성물은 폴리뉴클레오티드 또는 폴리펩티드가 유기체의 적어도 하나의 세포의 내부로의 접근을 획득하는 한 유기체 또는 세포 내로 서열을 도입하기 위한 특정 방법에 의존하지 않는다. 도입은 핵산이 세포의 게놈으로 혼입될 수 있는 진핵생물 또는 원핵생물 세포로의 핵산의 혼입에 대한 언급을 포함하며, 핵산, 단백질 또는 폴리뉴클레오티드-단백질 복합체(PGEN, RGEN)의 세포로의 일시적인(직접적인) 제공에 대한 언급을 포함한다.

마이크로주입, 전기천공, 안정적인 형질전환 방법, 일시적 형질전환 방법, 발리스틱 입자 가속화(입자 충돌), 위스커 매개 형질전환, 아그로박테리움 매개 형질전환, 직접적 유전자 전달, 바이러스 매개 도입, 형질감염, 형질도입, 세포 투과성 펩티드, 메조포러스 실리카 나노입자(MSN) 매개 직접적 단백질 전달, 국소 적용, 유성 교배, 유성 육종 및 이의 임의의 조합을 포함하지만, 이들로 제한되지 않는, 세포 또는 유기체 내로 폴리뉴클레오티드 또는 폴리펩티드 또는 폴리뉴클레오티드-단백질 복합체를 도입하는 방법이 당업계에 공지되어 있다.

예를 들어, 가이드 폴리뉴클레오티드(가이드 RNA, cr뉴클레오티드 + tracr뉴클레오티드, 가이드 DNA 및/또는 가이드 RNA-DNA 분자)는 단일 가닥 또는 이중 가닥 폴리뉴클레오티드 분자로서 세포로 직접적으로(일시적으로) 도입될 수 있다. 가이드 RNA(또는 crRNA + tracrRNA)는 또한 상기 세포에서 가이드 RNA(crRNA+tracrRNA 분자)를 전사할 수 있는 특정 프로모터에 작동 가능하게 연결된, 가이드 RNA(또는 crRNA + tracrRNA)를 암호화하는 이종성 핵산 단편을 포함하는 재조합 DNA 분자를 도입하여, 간접적으로 세포로 도입될 수 있다. 특정 프로모터는 정확히 정의된, 비변형 5'- 및 3'-말단을 갖는 RNA의 전사를 허용하는 RNA 중합효소 III 프로모터일 수 있지만, 이것으로 제한되는 것은 아니다(문헌[Ma et al., 2014, Mol. Ther. Nucleic Acids 3:e161]; 문헌[DiCarlo et al., 2013, Nucleic Acids Res. 41:4336-4343]; 2015년 2월 26일자로 공개된 WO2015026887). 세포에서 가이드 RNA를 전사할 수 있는 임의의 프로모터가 사용될 수 있고, 가이드 RNA를 암호화하는 뉴클레오티드 서열에 작동 가능하게 연결된 열 충격/열 유도성 프로모터를 포함한다.

식물 세포는 동물 세포(예컨대, 인간 세포), 진균 세포(예컨대, 효모 세포) 및 원형질체와 다르며, 예를 들어, 식물 세포는 성분 전달에 대한 장벽으로서 작용할 수 있는 식물 세포벽을 포함한다.

Cas 엔도뉴클레아제, 및/또는 가이드 RNA, 및/또는 리보핵단백질 복합체, 및/또는 앞서 언급한 것 중 임의의 하나 이상을 암호화하는 폴리뉴클레오티드의 식물 세포에 대한 전달은 당업계에 공지된 방법, 예를 들어, 이하로 제한되는 것은 아니지만, 라이조비알스(Rhizobiales)-매개 형질전환(예를 들어, 아그로박테리움(Agrobacterium), 오크로박트럼(Ochrobactrum)), 입자 매개 전달(유전자총법), 폴리에틸렌 글리콜(PEG)-매개 형질감염(예를 들어, 원형질체에 대해), 전기천공법, 세포-침투성 펩티드, 또는 메조포러스 실리카 나노입자(mesoporous silica nanoparticle: MSN)-매개 직접 단백질 전달을 통해 달성될 수 있다.

본 명세서에 기재된 Cas 엔도뉴클레아제와 같은 Cas 엔도뉴클레아제는, 당업계에 공지된 임의의 방법을 사용하여 Cas 폴리펩티드 자체(Cas 엔도뉴클레아제의 직접적인 전달이라고 칭함), Cas 단백질을 암호화하는 mRNA, 및/또는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체 자체를 직접적으로 도입함으로써, 세포에 도입될 수 있다. Cas 엔도뉴클레아제는 또한 Cas 엔도뉴클레아제를 암호화하는 재조합 DNA 분자를 도입함으로써 간접적으로 세포로 도입될 수 있다. 엔도뉴클레아제는 당업계에 공지된 임의의 방법을 사용하여 세포로 일시적으로 도입되거나 숙주 세포의 게놈으로 혼입될 수 있다. 엔도뉴클레아제 및/또는 유도된 폴리뉴클레오티드의 세포로의 흡수는 2016년 5월 12일 공개된 WO2016073433에 기재된 바와 같이 세포 투과성 펩티드(CPP)로 촉진될 수 있다. 세포에서 Cas 엔도뉴클레아제를 발현할 수 있는 임의의 프로모터가 사용될 수 있고, Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열에 작동 가능하게 연결된 열 충격/열 유도성 프로모터를 포함한다.

식물 세포로 폴리뉴클레오티드 변형 주형을 직접적으로 전달하는 것은 입자 매개 전달을 통해 달성될 수 있고, 임의의 다른 직접적인 전달 방법, 예컨대, 원형질체로의 폴리에틸렌 글리콜(PEG) 매개 형질주입, 위스커 매개 형질전환, 전기천공, 입자 충돌, 세포 투과성 펩티드, 또는 메조포러스 실리카 나노입자(MSN) 매개 직접 단백질 전달(이것으로 제한되지 않음)은 식물 세포와 같은, 진핵생물 세포에서 폴리뉴클레오티드 변형 주형을 전달하기 위해 성공적으로 사용될 수 있다.

공여자 DNA는 당업계에 공지된 임의의 수단에 의해 도입될 수 있다. 공여자 DNA는, 예를 들어, 아그로박테리움-매개 형질전환 또는 바이올리스틱 입자 충돌을 포함하는, 당업계에 공지된 임의의 형질전환 방법에 의해 제공될 수 있다. 공여자 DNA는 세포에 일시적으로 존재할 수 있거나, 바이러스성 레플리콘을 통해 도입될 수 있다. Cas 엔도뉴클레아제 및 표적 부위의 존재 하에, 형질전환된 식물의 게놈에 공여자 DNA가 삽입된다.

임의의 하나의 유도 Cas 시스템 성분의 직접적 전달에는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체 성분을 수용하는 세포의 농축 및/또는 가시화를 촉진할 수 있는 다른 mRNA의 직접적 전달(공동 전달)이 수반될 수 있다. 예를 들어, mRNA 암호화 표현형 마커(예컨대, 이하로 제한되는 것은 아니지만, 전사 활성인자, 예컨대 CRC)와 함께 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 성분(및/또는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체 그 자체)의 직접 공동 전달(Bruce et al. 2000 The Plant Cell 12:65-79)은 2017년 4월 27일자로 공개된 WO2017070032에 기재된 바와 같은 비기능성 유전자 산물에 대한 기능을 회복함으로써 외인성 선택 가능 마커의 사용없이 세포의 선택 및 풍부화를 가능하게 할 수 있다.

본 명세서에 기재된 가이드 RNA/Cas 엔도뉴클레아제 복합체를 세포에 도입하는 것(본 명세서에 기재된 절단 준비 복합체를 나타내는 것)은 상기 복합체의 개별 성분을 개별적으로 또는 결합하여, 직접(가이드를 위한 RNA 및 Cas 엔도뉴클레아제를 위한 단백질 및 단백질 서브유닛, 또는 이의 기능성 단편으로서 직접 전달) 또는 그 성분(가이드 RNA, Cas 엔도뉴클레아제, 단백질 서브유닛, 또는 이의 기능성 단편)을 발현하는 재조합 작제물을 통해 세포에 도입하는 것을 포함한다. 가이드 RNA/Cas 엔도뉴클레아제 복합체(RGEN)를 세포에 도입하는 것은 가이드 RNA/Cas 엔도뉴클레아제 복합체를 리보뉴클레오티드-단백질로서 세포에 도입하는 것을 포함한다. 리보뉴클레오티드-단백질은 본 명세서에 기재된 바와 같이 세포로 도입되기 전에 조립될 수 있다. 가이드 RNA/Cas 엔도뉴클레아제 리보뉴클레오티드 단백질(적어도 하나의 Cas 엔도뉴클레아제, 적어도 하나의 가이드 RNA, 적어도 하나의 단백질 서브유닛)을 포함하는 성분은 시험관 내 조립되거나 (본 명세서에 기재된 바와 같이 게놈 변형에 표적화된) 세포로 도입되기 전에 당업계에 공지된 임의의 수단에 의해 조립될 수 있다.

RGEN 리보핵단백질의 직접 전달은 세포의 게놈에서의 표적 부위에서의 게놈 편집 후 복합체가 빠르게 분해되고, 복합체가 세포에 일시적으로만 존재할 수 있게 한다. 이러한 RGEN 복합체의 일시적인 존재는 표적 이탈 효과의 감소로 이어질 수 있다. 이와 반대로, 플라스미드 DNA 서열을 통한 RGEN 성분(가이드 RNA, Cas9 엔도뉴클레아제)의 전달은 표적 이탈 효과를 가중시킬 수 있는 이러한 플라스미드로부터의 RGEN의 일정한 발현을 초래할 수 있다(Cradick, T. J. et al. (2013) Nucleic Acids Res 41:9584-9592; Fu, Y et al. (2014) Nat. Biotechnol. 31:822-826).

직접 전달은 본 명세서에 기재된 절단 준비 복합체를 나타내는 가이드 RNA/Cas 엔도뉴클레아제 복합체(RGEN)(예컨대, 적어도 하나의 가이드 RNA, 적어도 하나의 Cas 단백질, 및 선택적으로 하나의 추가적인 단백질) 중 임의의 하나의 성분을 (금 입자, 텅스텐 입자 및 탄화규소 위스커 입자와 같은, 그러나 이들로 제한되지 않는) 마이크로입자를 포함하는 전달 매트릭스와 조합함으로써 달성될 수 있다(또한 2017년 4월 27일 공개된 WO2017070032 참조). 전달 매트릭스는 성분 중 임의의 하나, 예컨대, 고체 매트릭스(예를 들어, 충격을 위한 입자)에 부착된 Cas 엔도뉴클레아제를 포함할 수 있다.

일 양상에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 가이드 RNA 및 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성하는 Cas 엔도뉴클레아제 단백질이 각각 RNA 및 단백질로서 세포로 도입되는 복합체이다.

일 양상에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 가이드 RNA 및 Cas 엔도뉴클레아제 단백질 및 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성하는 복합체의 적어도 하나의 단백질 서브유닛이 각각 RNA 및 단백질로서 세포로 도입되는 복합체이다.

일 양상에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 가이드 RNA 및 Cas 엔도뉴클레아제 단백질 및 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성하는 복합체(절단 준비 복합체)의 적어도 하나의 단백질 서브유닛이 시험관 내 예비조립되고, 리보뉴클레오티드-단백질 복합체로서 세포로 도입되는 복합체이다.

폴리뉴클레오티드, 폴리펩티드 또는 폴리뉴클레오티드-단백질 복합체(PGEN, RGEN)를 진핵생물 세포, 예컨대, 식물 또는 식물 세포로 도입하기 위한 프로토콜은 공지되어 있으며, 마이크로주입(문헌[Crossway et al., (1986) Biotechniques 4:320-34] 및 미국 특허 제6,300,543호), 분열조직 형질전환(미국 특허 제5,736,369호), 전기천공(Riggs et al., (1986) Proc. Natl. Acad. Sci. USA 83:5602-6, 아그로박테리움-매개 형질전환(미국 특허 제5,563,055호 및 제5,981,840호), 위스커 매개 형질전환(문헌[Ainley et al. 2013, Plant Biotechnology Journal 11:1126-1134]; 문헌[Shaheen A. and M. Arshad 2011 Properties and Applications of Silicon Carbide (2011), 345-358 Editor(s):Gerhardt, Rosario. Publisher:InTech, Rijeka, Croatia. CODEN:69PQBP]; ISBN:978-953-307-201-2), 직접 유전자 전달(Paszkowski et al., (1984) EMBO J 3:2717-22), 및 탄도 입자 가속화(미국 특허 제4,945,050호; 제5,879,918호; 제5,886,244호; 제5,932,782호; 문헌[Tomes et al., (1995) "Direct DNA Transfer into Intact Plant Cells via Microprojectile Bombardment" in Plant Cell, Tissue, and Organ Culture:Fundamental Methods, ed. Gamborg & Phillips (Springer-Verlag, Berlin)]; 문헌[McCabe et al., (1988) Biotechnology 6:923-6; Weissinger et al., (1988) Ann Rev Genet 22:421-77]; 문헌[Sanford et al., (1987) Particulate Science and Technology 5:27-37 (양파)]; 문헌[Christou et al., (1988) Plant Physiol 87:671-4 (대두)]; 문헌[Finer and McMullen, (1991) In vitro Cell Dev Biol 27P:175-82 (대두)]; 문헌[Singh et al., (1998) Theor Appl Genet 96:319-24 (대두)]; 문헌[Datta et al., (1990) Biotechnology 8:736-40 (벼)]; 문헌[Klein et al., (1988) Proc. Natl. Acad. Sci. USA 85:4305-9(메이즈)]; 문헌[Klein et al., (1988) Biotechnology 6:559-63(메이즈); 미국 특허 제5,240,855호; 제5,322,783호 및 제5,324,646호; Klein et al., (1988) Plant Physiol 91:440-4(메이즈)]; 문헌[Fromm et al., (1990) Biotechnology 8:833-9(메이즈)]; 문헌[Hooykaas-Van Slogteren et al., (1984) Nature 311:763-4; 미국 특허 제5,736,369호(곡류)]; 문헌[Bytebier et al., (1987) Proc. Natl. Acad. Sci. USA 84:5345-9(백합과)]; 문헌[De Wet et al., (1985) in The Experimental Manipulation of Ovule Tissues, ed. Chapman et al., (Longman, New York), pp. 197-209(꽃가루)]; 문헌[Kaeppler et al., (1990) Plant Cell Rep 9:415-8)] 및 문헌[Kaeppler et al., (1992) Theor Appl Genet 84:560-6(위스커 매개 형질전환)]; 문헌[D'Halluin et al., (1992) Plant Cell 4:1495-505(전기천공)]; 문헌[Li et al., (1993) Plant Cell Rep 12:250-5]; 문헌[Christou and Ford (1995) Annals Botany 75:407-13(벼)] 및 문헌[Osjoda et al., (1996) Nat Biotechnol 14:745-50](아그로박테리움 투메파시엔스를 통한 메이즈)를 포함한다.

대안적으로, 폴리뉴클레오티드는 세포 또는 유기체를 바이러스 또는 바이러스성 핵산과 접촉시켜 식물 또는 식물 세포 내로 도입될 수 있다. 일반적으로, 이러한 방법은 바이러스성 DNA 또는 RNA 분자 내 폴리뉴클레오티드의 혼입을 수반한다. 일부 예에서, 관심 대상의 폴리펩티드는 처음에 바이러스성 폴리단백질의 일부로서 합성될 수 있고, 후에 생체 내 또는 시험관 내에서 단백분해에 의해 처리되어 원하는 재조합 단백질을 생성한다. 바이러스성 DNA 또는 RNA 분자가 관련되는 폴리뉴클레오티드를 식물로 도입하고 거기에서 암호화된 단백질을 발현시키는 방법은 공지되어 있다(예를 들어, 미국 특허 제5,889,191호, 제5,889,190호, 제5,866,785호, 제5,589,367호 및 제5,316,931호 참조).

폴리뉴클레오티드 또는 재조합 DNA 작제물은 다양한 일시적 형질전환 방법을 사용하여 원핵생물 및 진핵생물 세포 또는 유기체에 제공되거나 도입될 수 있다. 이러한 일시적 형질전환 방법은 식물로 직접 폴리뉴클레오티드 작제물을 도입하는 것을 포함하지만 이것으로 제한되는 것은 아니다.

핵산 및 단백질은 유도 Cas 시스템의 어느 한 성분 또는 모든 성분(단백질 및/또는 핵산)의 흡수를 촉진하기 위해 분자, 예컨대 세포 침투성 펩티드 및 나노캐리어를 이용하는 방법을 비롯한 임의의 방법에 의해 세포에 제공될 수 있다. 또한, 2011년 2월 10일 공개된 US20110035836 및 2015년 1월 7일 공개된 EP2821486A1 참조.

색소체 형질전환 방법, 및 묘목 또는 성숙한 종자로부터의 조직 내로 폴리뉴클레오티드를 도입하는 방법을 포함하는, 원핵생물 및 진핵생물 세포 또는 유기체 또는 식물 부분 내로 폴리뉴클레오티드를 도입하는 다른 방법이 사용될 수 있다.

안정적인 형질전환은 유기체로 도입된 뉴클레오티드 작제물이 유기체의 게놈으로 통합되며 이의 자손에 의해 유전될 수 있음을 의미하려는 것이다. 일시적 형질전환은 폴리뉴클레오티드가 유기체 내로 도입되고 유기체의 게놈 내로 통합되지 않거나 폴리펩티드가 유기체 내로 도입됨을 의미하려는 것이다. 일시적 형질전환은 도입된 조성물이 유기체에서 일시적으로만 발현되거나 존재함을 나타낸다.

선별 가능한 마커 표현형을 사용하지 않고 표적 부위 또는 그 근처에서 변경된 게놈을 갖는 세포를 확인하기 위해 다양한 방법을 이용할 수 있다. 비제한적인 예로서 PCR 방법, 서열분석 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하여, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것과 같은 방법을 들 수 있다.

세포 및 식물

본 명세서에 개시된 폴리뉴클레오티드 및 폴리펩티드는 세포로 도입될 수 있다. 세포는 인간, 비인간, 동물, 포유류, 박테리아, 균류, 곤충, 효모, 비통상적인 효모 및 식물의 세포뿐만 아니라 본 명세서에 기재된 방법에 의해 제조된 식물 및 종자를 포함하지만, 이들로 제한되는 것은 아니다. 외떡잎식물 및 쌍떡잎식물, 및 식물 요소를 포함한 임의의 식물이 본 명세서에 기재된 조성물 및 방법과 함께 사용될 수 있다.

사용될 수 있는 외떡잎식물의 예는 옥수수(제아 메이스(Zea mays)), 벼(오리자 사티바(Oryza sativa)), 호밀(세칼레 세레알레(Secale cereale)), 수수(소르검 비칼라(Sorghum bicolor), 소르검 불가레(Sorghum vulgare)), 기장(예컨대, 펄 밀렛(페니세툼 글라쿰(Pennisetum glaucum)), 프로소 밀렛(파니쿰 밀리아세움(Panicum miliaceum)), 조(세타리아 이탈리카(Setaria italica)), 손가락조(엘류신 코라카나(Eleusine coracana))), 밀(트리티쿰 종, 예를 들어, 트리티쿰 아에스티붐(Triticum aestivum), 트리티쿰 모노코컴(Triticum monococcum)), 사탕수수(사카룸(Saccharum) 종), 귀리(아베나(Avena)), 보리(호르데움(Hordeum)), 스위치그래스(파니쿰 비르가툼(Panicum virgatum)), 파인애플(아나나스 코모수스(Ananas comosus)), 바나나(무사(Musa) 종), 야자, 관상용 식물, 잔디, 및 기타 풀을 포함하지만, 이들로 제한되는 것은 아니다.

사용될 수 있는 쌍떡잎식물의 예는 대두(글리신 맥스(Glycine max)), 브라시카(Brassica) 종(예를 들어, 오일종자 유채 또는 카놀라, 그러나 이것으로 제한되지 않음)(브라시카 나푸스(Brassica napus), B. 캄페스트리스(campestris), 브라시카 라파(Brassica rapa), 브라시카 준세아(Brassica juncea)), 알팔파(메디카고 사티바(Medicago sativa)), 담배(니코티아나 타바쿰(Nicotiana tabacum)), 애기장대(아라비돕시스 탈리아나(Arabidopsis thaliana)), 해바라기(헬리안투스 안누우스(Helianthus annuus)), 목화(고시피움 아르보레움(Gossypium arboreum), 고시피움 바르바덴스(Gossypium barbadense)), 및 땅콩(아라키스 하이포가에아(Arachis hypogaea)), 토마토(솔라눔 라이코페르시쿰(Solanum lycopersicum)), 감자(솔라눔 투베로섬(Solanum tuberosum))를 포함하지만, 이들로 제한되는 것은 아니다.

사용될 수 있는 추가 식물은 잇꽃(카르타무스 팅토리우스(Carthamus tinctorius)), 고구마(이포모에아 바타투스(Ipomoea batatus)), 카싸바(마니호트 에스쿨렌타(Manihot esculenta)), 커피(커피(Coffea) 종), 코코넛(코코스 누시페라(Cocos nucifera)), 시트러스 나무(시트러스(Citrus) 종), 코코아(테오브로마 카카오(Theobroma cacao)), 차(카멜리아 시넨시스(Camellia sinensis)), 바나나(무사(Musa) spp.), 아보카도(페르시아 아메리카나(Persea americana)), 무화과(피쿠스 카시카(Ficus casica)), 구아바(프시디움 구아자바(Psidium guajava)), 망고(망기페라 인디카(Mangifera indica)), 올리브(올레아 유로파에아(Olea europaea)), 파파야(카리카 파파야(Carica papaya)), 캐슈(아나카르디움 옥시덴탈레(Anacardium occidentale)), 마카다미아(마카다미아 인테그리폴리아(Macadamia integrifolia)), 아몬드(프루누스 아미그달루스(Prunus amygdalus)), 사탕무(베타 불가리스(Beta vulgaris)), 채소, 관상용 식물, 및 침엽수를 포함한다.

사용될 수 있는 채소는 토마토(라이코페르시콘 에스쿨렌툼(Lycopersicon esculentum)), 상추(예컨대 락투카 사티바(Lactuca sativa)), 그린 빈(파세올러스 불가리스(Phaseolus vulgaris)), 리마 콩(파세올러스 리멘시스(Phaseolus limensis)), 완두콩(라티루스(Lathyrus) 종), 및 쿠쿠미스(Cucumis)속 구성원, 예컨대 오이(쿠쿠미스 사티부스(C. sativus)), 캔탈로프(쿠쿠미스 칸탈루펜시스(C. cantalupensis)), 및 머스크 멜론(쿠쿠미스 멜로(C. melo))을 포함한다. 관상용 식물은 진달래(로도덴드론(Rhododendron) 종), 수국(마크로필라 하이드랑게아(Macrophylla hydrangea)), 히비스커스(히비스커스 로사사넨시스(Hibiscus rosasanensis)), 장미(로자(Rosa) 종), 튤립(튤리파(Tulipa) 종), 수선화(나르시서스(Narcissus) 종), 페튜니아(페튜니아 하이브리다(Petunia hybrida)), 카네이션(디안투스 카리오필러스(Dianthus caryophyllus)), 포인세티아(유포르비아 풀케리마(Euphorbia pulcherrima)) 및 국화를 포함한다.

사용될 수 있는 침엽수는 소나무, 예컨대 테다 소나무(피너스 태다(Pinus taeda)), 슬래시 소나무(피너스 엘리오티이(Pinus elliotii)), 폰데로사 소나무(피너스 폰데로사(Pinus ponderosa)), 로지폴 소나무(피너스 콘토르타(Pinus contorta)), 및 몬테레이 소나무(피너스 라디아타(Pinus radiata)); 미송(슈도추가 멘지에시이(Pseudotsuga menziesii)); 미국 솔송나무(추가 카나덴시스(Tsuga canadensis)); 시트카 가문비나무(피세아 글라우카(Picea glauca)); 미국삼나무(세쿠오이아 셈페르비렌스(Sequoia sempervirens)); 전나무, 예컨대 유럽 전나무(애비스 아마빌리스(Abies amabilis)) 및 발삼 전나무(애비스 발사메아(Abies balsamea)); 및 개잎갈나무, 예컨대 미국 삼나무(투자 플리카타(Thuja plicata)) 및 알래스카 측백나무(카매사이파리스 누트카텐시스(Chamaecyparis nootkatensis))를 포함한다.

본 발명의 특정 실시형태에서, 가임성 식물은 생존 가능한 웅성 및 자성 생식세포를 생산하는 식물이며, 자가 수정한다. 이러한 자가 수정 식물은 임의의 다른 식물의 배우체 및 그 안에 포함된 유전 물질의 기여 없이 자손 식물을 생산할 수 있다. 본 발명의 다른 실시형태는 식물이 생존 가능하거나 달리 수정할 수 있는 웅성 생식체, 또는 자성 생식체, 또는 둘 다를 생성하지 않기 때문에 자가 수정하지 않는 식물의 사용이 관여될 수 있다.

본 발명은 하나 이상의 도입된 형질 또는 편집된 게놈을 포함하는 식물의 육종에 유용하다.

예를 들어, 서로 5 cM의 유전적 거리에서 두 형질이 게놈에 쌓일 수 있는 방법에 대한 비제한적인 예는 다음과 같다: 게놈 창 내의 제1 DSB 표적 부위로 통합된 제1 형질전환 표적 부위를 포함하며 제1 관심 대상 게놈 좌위를 갖지 않는 제1 식물이 게놈 창 내의 상이한 게놈 삽입 부위에 관심 대상 게놈 좌위를 포함하는 제2 형질전환 식물과 교배되고, 제2 식물은 제1 형질전환 표적 부위를 포함하지 않는다. 이 교배로부터의 식물 자손의 약 5%는 제1 DSB 표적 부위로 통합된 제1 형질전환 표적 부위 및 게놈 창 내의 상이한 게놈 삽입 부위에서 통합된 제1 관심 대상 게놈 좌위를 모두 가질 것이다. 정의된 게놈 창에서 두 부위를 모두 갖는 자손 식물은, 제2 DSB 표적 부위로 통합된 제2 형질전환 표적 부위 및/또는 정의된 게놈 창 내에 제2 관심 대상 게놈 좌위를 포함하고 제1 형질전환 표적 부위 및 제1 관심 대상 게놈 좌위가 결여된 제3 형질전환 식물과 추가로 교배될 수 있다. 그 후, 게놈 창 내의 상이한 게놈 삽입 부위에 통합된 제1 형질전환 표적 부위, 제1 관심 대상 게놈 좌위 및 제2 관심 대상 게놈 좌위를 갖는 자손이 선택된다. 이러한 방법은 DSB 표적 부위에 통합된 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 19개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개 이상의 형질전환 표적 부위 및/또는 게놈 창 내의 상이한 부위에 통합된 관심 대상 게놈 좌위를 갖는 복합 형질 좌위를 포함하는 형질전환 식물을 생산하는 데 사용될 수 있다. 이러한 방식으로, 다양한 복합 형질 좌위가 생성될 수 있다.

세포 및 동물

본 명세서에 개시된 폴리뉴클레오티드 및 폴리펩티드는 동물 세포로 도입될 수 있다. 동물 세포는 척색동물, 절지동물, 연체동물, 환형동물, 자포동물, 또는 극피동물을 비롯한 문의 유기체; 또는 포유류, 곤충류, 조류, 양서류, 파충류, 또는 어류를 비롯한 강의 유기체를 포함할 수 있지만, 이들로 제한되지 않는다. 일부 양상에서, 동물은 인간, 마우스, 예쁜꼬마선충(C. elegans), 랫트, 초파리(드로소필라(Drosophila) 종), 제브라피시, 닭, 개, 고양이, 기니피그, 햄스터, 닭, 일본 송사리, 바다칠성장어, 복어, 청개구리(예를 들어, 제노푸스(Xenopus) 종), 원숭이, 또는 침팬지이다. 고려되는 특정 세포 유형은 일배체 세포, 이배체 세포, 생식 세포, 뉴런, 근육 세포, 내분비 또는 외분비 세포, 상피 세포, 근육 세포, 종양 세포, 배아 세포, 조혈 세포, 뼈 세포, 종자 세포, 체세포, 줄기 세포, 만능 줄기 세포, 유도된 만능 줄기 세포, 전구 세포, 감수분열 세포, 및 유사분열 세포를 포함한다. 일부 양상에서, 유기체로부터의 복수의 세포가 사용될 수 있다.

개시된 신규한 Cas9 오솔로그는 다양한 방식으로 동물 세포의 게놈을 편집하는 데 사용될 수 있다. 일 양상에서, 하나 이상의 뉴클레오티드를 결실시키는 것이 바람직할 수 있다. 또 다른 양상에서, 하나 이상의 뉴클레오티드를 삽입하는 것이 바람직할 수 있다. 일 양상에서, 하나 이상의 뉴클레오티드를 교체하는 것이 바람직할 수 있다. 또 다른 양상에서, 또 다른 원자 또는 분자와의 공유 또는 비공유 상호 작용을 통해 하나 이상의 뉴클레오티드를 변형하는 것이 바람직할 수 있다.

Cas9 오솔로그를 통한 게놈 변형은 표적 유기체에서 유전자형 및/또는 표현형 변화를 가져오는 데 사용될 수 있다. 이러한 변화는 바람직하게는 개선된 관심 형질 또는 생리적으로 중요한 특징, 내인성 결함의 교정, 또는 일부 유형의 발현 마커의 발현과 관련된다. 일부 양상에서, 관심 표현형 또는 생리적으로 중요한 특징은 동물의 전반적인 건강, 적응도, 또는 가임성, 동물의 생태적 적응도, 또는 동물과 이의 환경 내의 기타 유기체의 관계 또는 상호 작용과 관련된다. 일부 양상에서, 관심 표현형 또는 생리적으로 중요한 특징은 일반 건강 개선, 질병 역전, 질병 수정, 질병 안정화, 질병 예방, 기생충 감염의 치료, 바이러스 감염의 치료, 레트로바이러스 감염의 치료, 세균 감염의 치료, 신경 장애의 치료(예를 들어, 다발 경화증, 그러나 이것으로 제한되지 않음), 내인성 유전적 결합의 교정(예를 들어:대사 장애, 연골 무형성증, 알파-1 항트립신 결핍증, 항인지질 증후군, 자폐증, 상염색체 우성 다낭성 신장 질환, 바쓰 증후군, 유방암, 샤르코-마리-투스병, 결장암, 고양이울음 증후군, 크론병, 낭성 섬유증, 델컴병, 다운증후군, 듀안증후군, 뒤시엔느 근위축증, 인자 V 레이든 혈전성향증, 가족성 고콜레스테롤혈증, 가족성 지중해 열, 여린 X 증후군, 고셔병, 혈색소증, 혈우병, 전전뇌증, 헌팅턴병, 클라인펠터 증후군, 마르팡 증후군, 근긴장 디스트로피, 신경섬유종증, 누난증후군, 불완전뼈형성, 파킨슨병, 페닐케톤뇨증, 폴란드 이상, 포르피린증, 조로증, 전립선암, 색소성 망막염, 중증 복합 면역결핍증(SCID), 겸상적혈구질환, 피부암, 척수근위축증, 테이 삭스, 지중해 빈혈, 트리메틸아민뇨증, 터너증후군, 구개심장안면증후군, WAGR 증후군, 및 윌슨병, 그러나 이것으로 제한되지 않음), 선천 면역 장애(예를 들어, 면역글로불린 하위클래스 결핍증, 그러나 이것으로 제한되지 않음)의 치료, 후천 면역 장애(예를 들어, AIDS 및 기타 HIV 관련 장애, 그러나 이것으로 제한되지 않음)의 치료, 암 치료 및 기타 방법을 이용한 효과적인 치료 옵션을 피한, 희귀하거나 "지원이 없는(orphan)" 병태를 포함하는 질병의 치료로 구성된 군으로부터 선택된다.

본 명세서에 개시된 조성물 또는 방법을 이용하여 유전적으로 변형된 세포는, 유전자 치료법과 같은 목적을 위하여, 예를 들어, 질병을 치료하기 위하여, 또는 항바이러스성, 항병원성, 또는 항암 치료제로서, 농업에서 유전자 변형 유기체의 생산을 위하여, 또는 생물학적 연구를 위하여, 대상체에게 이식될 수 있다.

시험관 내 폴리뉴클레오티드 검출, 결합, 및 변형

본 명세서에 개시된 조성물은 시험관 내 방법에서 사용하기 위하여, 일부 양상에서 단리된 폴리뉴클레오티드 서열(들)과 함께, 조성물로서 추가로 이용될 수 있다. 상기 단리된 폴리뉴클레오티드 서열(들)은 변형을 위하여 하나 이상의 표적 서열(들)을 포함할 수 있다. 일부 양상에서, 상기 단리된 폴리뉴클레오티드 서열(들)은 게놈 DNA, PCR 생성물, 또는 합성된 올리고뉴클레오티드일 수 있다.

조성물

표적 서열의 변형은 뉴클레오티드 삽입, 뉴클레오티드 결실, 뉴클레오티드 치환, 기존 뉴클레오티드에 대한 원자 분자의 첨가, 뉴클레오티드 변형, 또는 상기 표적 서열에 대한 이종성 폴리뉴클레오티드 또는 폴리펩티드의 결합의 형태일 수 있다. 하나 이상의 뉴클레오티드의 삽입은 반응 혼합물에 공여자 폴리뉴클레오티드를 포함시켜 달성될 수 있다: 상기 공여자 폴리뉴클레오티드는 상기 Cas-알파 오솔로그 폴리펩티드에 의해 생성된 이중 가닥 절단 내로 삽입된다. 삽입은 비상동성 말단 결합 또는 상동 재조합을 통해 이루어질 수 있다.

일 양상에서, 표적 폴리뉴클레오티드의 서열은 변형 전에 알려져 있으며, Cas-알파 오솔로그를 처리하여 생성되는 폴리뉴클레오티드(들)의 서열(들)과 비교된다. 일 양상에서, 표적 폴리뉴클레오티드의 서열은 변형 전에 알려지지 않았고, Cas-알파 오솔로그 처리는 상기 표적 폴리뉴클레오티드의 서열을 결정하는 방법의 일부로서 사용된다.

Cas-알파 오솔로그를 이용한 폴리뉴클레오티드 변형은 Cas 좌위, 또는 Cas 좌위로부터 확인된 폴리펩티드의 단편, 변형, 또는 변이체로부터 확인된 전장 폴리펩티드의 사용에 의해 달성될 수 있다. 일부 양상에서, 상기 Cas-알파 오솔로그는 표 1에 열거된 유기체로부터 수득되거나 유래된다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135 중 임의의 것과 적어도 80%의 동일성을 공유하는 폴리펩티드이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135 중 임의의 것의 기능성 변이체이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135 중 임의의 것의 기능성 단편이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135로 구성된 군으로부터 선택된 폴리뉴클레오티드에 의해 암호화된 Cas-알파 폴리펩티드이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 표 4 내지 83 중 임의의 표에 열거된 PAM 서열을 인식하는 Cas-알파 폴리펩티드이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열목록에 열거된 유기체로부터 확인된 Cas-알파 폴리펩티드이다.

일부 양상에서, Cas-알파 오솔로그는 Cas-알파 폴리뉴클레오티드로서 제공된다. 일부 양상에서, 상기 Cas-알파 폴리뉴클레오티드는 다음으로 구성된 군으로부터 선택된다: 서열번호 1 내지 85, 또는 서열번호 1 내지 85 중 임의의 하나와 적어도 80%, 85%, 90%, 95%, 97%, 99%, 또는 100%를 공유하는 서열.

일부 양상에서, Cas-알파 오솔로그는 비변형된 야생형 Cas-알파 오솔로그, 기능성 Cas-알파 오솔로그 변이체, 기능성 Cas-알파 오솔로그 단편, 활성 또는 탈활성화된 Cas-알파 오솔로그를 포함하는 융합 단백질, C 말단 또는 N 말단 또는 N 말단과 C 말단 모두에 하나 이상의 핵 국재화 서열(NLS)을 더 포함하는 Cas-알파 오솔로그, 비오틴 부착된 Cas-알파 오솔로그, Cas-알파 오솔로그 틈내기효소, Cas-알파 오솔로그 엔도뉴클레아제, 히스티딘 태그를 더 포함하는 Cas-알파 오솔로그, 및 전술한 것들의 임의의 두 가지 이상의 혼합물로 이루어진 군으로부터 선택될 수 있다.

일부 양상에서, Cas-알파 오솔로그는 뉴클레아제 도메인, 전사 활성인자 도메인, 전사 억제인자 도메인, 후성 변형 도메인, 절단 도메인, 핵 국재화 신호, 세포 투과성 도메인, 전위 도메인, 마커, 또는 표적 뉴클레오티드 서열 또는 상기 표적 폴리뉴클레오티드 서열이 수득되거나 유래되는 세포에 대해 이종성인 이식유전자를 더 포함하는 융합 단백질이다.

일부 양상에서, 복수의 Cas-알파 오솔로그가 바람직할 수 있다. 일부 양상에서, 상기 복수는 상이한 근원 유기체로부터, 또는 동일한 유기체 내의 상이한 좌위로부터 유래된 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 표적 폴리뉴클레오티드에 대해 상이한 결합 특이성을 갖는 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 상이한 절단 효율성을 갖는 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 상이한 PAM 특이성을 갖는 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 상이한 분자 조성의 오솔로그, 즉, 폴리뉴클레오티드 Cas-알파 오솔로그 및 폴리펩티드 Cas-알파 오솔로그를 포함할 수 있다.

가이드 폴리뉴클레오티드는 단일 가이드 RNA(sgRNA), tracrRNA를 포함하는 키메라 분자, crRNA를 포함하는 키메라 분자, 키메라 RNA-DNA 분자, DNA 분자, 또는 하나 이상의 화학적으로 변형된 뉴클레오티드를 포함하는 폴리뉴클레오티드로서 제공될 수 있다.

Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드의 저장 조건은 온도, 물질 상태, 및 시간에 대한 파라미터를 포함한다. 일부 양상에서, Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드는 약 -80℃, 약 -20℃, 약 4℃, 약 20 내지 25℃, 또는 약 37℃에서 저장된다. 일부 양상에서, Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드는 액체, 냉동 액체, 또는 동결건조 분말로서 저장된다. 일부 양상에서, Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드는 적어도 1일, 적어도 1주일, 적어도 1개월, 적어도 1년, 또는 심지어 1년 넘게 안정적이다.

반응의 일체의 가능성 있는 폴리뉴클레오티드 성분(예를 들어, 가이드 폴리뉴클레오티드, 공여자 폴리뉴클레오티드, 선택적으로 Cas-알파 폴리뉴클레오티드)은 벡터, 작제물, 선형 또는 원형 플라스미드의 일부로서, 또는 키메라 분자의 일부로서 제공될 수 있다. 각각의 성분은 개별적으로 또는 함께 반응 혼합물에 제공될 수 있다. 일부 양상에서, 폴리뉴클레오티드 성분들 중 하나 이상이, 발현을 조절하는 이종성 비암호화 조절 요소에 대해 작동 가능하게 연결된다.

표적 폴리뉴클레오티드의 변형 방법은 Cas-알파 오솔로그(또는 변이체, 단편, 또는 기타 위에 기재된 바와 같은 관련 분자), 표적 폴리뉴클레오티드의 표적 폴리뉴클레오티드 서열에 대해 실질적으로 상보성이거나 이에 선택적으로 혼성화하는 서열을 포함하는 가이드 폴리뉴클레오티드, 및 변형을 위한 표적 폴리뉴클레오티드를 포함하는 반응 혼합물에 최소 요소를 조합하는 단계를 포함한다. 일부 양상에서, Cas-알파 오솔로그는 폴리펩티드로서 제공된다. 일부 양상에서, Cas-알파 오솔로그는 Cas-알파 오솔로그 폴리뉴클레오티드로서 제공된다. 일부 양상에서, 가이드 폴리뉴클레오티드는 RNA 분자, DNA 분자, RNA:DNA 혼성체, 또는 화학적으로 변형된 뉴클레오티드를 포함하는 폴리뉴클레오티드 분자로서 제공된다.

성분 중 임의의 하나의 저장 완충제, 또는 반응 혼합물은 안정성, 효능, 또는 기타 파라미터에 대해 최적화될 수 있다. 저장 완충제 또는 반응 혼합물의 추가 성분은 완충제 조성물, 트리스, EDTA, 디티오트레이톨(DTT), 인산염 완충 식염수(PBS), 염화나트륨, 염화마그네슘, HEPES, 글리세롤, BSA, 염, 유화제, 세제, 킬레이트제, 산화환원 시약, 항체, 뉴클레아제 불포함 물, 프로테이나제, 및/또는 점성제를 포함할 수 있다. 일부 양상에서, 저장 완충제 또는 반응 혼합물은 다음 성분 중 적어도 하나를 갖는 완충 용액을 추가로 포함한다: HEPES, MgCl2, NaCl, EDTA, 프로테이나제, 프로테이나제 K, 글리세롤, 뉴클레아제 불포함 물.

인큐베이션 조건은 원하는 결과에 따라 달라질 것이다. 온도는 바람직하게는 적어도 10℃, 10 내지 15℃, 적어도 15℃, 15 내지 17℃, 적어도 17℃, 17 내지 20℃, 적어도 20℃, 20 내지 22℃, 적어도 22℃, 22 내지 25℃, 적어도 25℃, 25 내지 27℃, 적어도 27℃, 27 내지 30℃, 적어도 30℃, 30 내지 32℃, 적어도 32℃, 32 내지 35℃, 적어도 35℃, 적어도 36℃, 적어도 37℃, 적어도 38℃, 적어도 39℃, 적어도 40℃, 또는 심지어 40℃ 초과이다. 인큐베이션 시간은 적어도 1분, 적어도 2분, 적어도 3분, 적어도 4분, 적어도 5분, 적어도 6분, 적어도 7분, 적어도 8분, 적어도 9분, 적어도 10분, 또는 심지어 10분 초과이다.

인큐베이션 전에, 인큐베이션 동안에, 또는 인큐베이션 후의 반응 혼합물의 폴리뉴클레오티드(들)의 서열(들)은 당업계에 공지된 임의의 방법에 의해 결정될 수 있다. 일 양상에서, 표적 폴리뉴클레오티드의 변형은, Cas-알파 오솔로그와 조합하기 전에 반응 혼합물로부터 정제된 폴리뉴클레오티드(들)의 서열(들)을 표적 폴리뉴클레오티드의 서열과 비교함으로써 확인될 수 있다.

시험관 내 또는 생체 내 폴리뉴클레오티드 검출, 결합 및/또는 변형에 유용한, 본 명세서에 개시된 임의의 하나 이상의 조성물이 키트 내에 포함될 수 있다. 키트는 Cas-알파 오솔로그 또는 이를 암호화하는 폴리뉴클레오티드 Cas-알파 오솔로그를 포함하며, 선택적으로 효율적인 저장을 가능하게 하는 완충 성분, 및 상기 Cas-알파 오솔로그 또는 Cas-알파 오솔로그를 이종성 폴리뉴클레오티드에 도입할 수 있게 하는 하나 이상의 추가 조성물을 더 포함하며, 상기 Cas-알파 오솔로그 또는 Cas-알파 오솔로그는 상기 이종성 폴리뉴클레오티드의 적어도 하나의 뉴클레오티드의 변형, 첨가, 결실, 또는 치환을 초래할 수 있다. 추가 양상에서, 본 명세서에 개시된 Cas-알파 오솔로그는 혼합 풀로부터 하나 이상의 폴리뉴클레오티드 표적 서열의 농축을 위해 사용될 수 있다. 추가 양태에서, 본 명세서에 개시된 Cas-알파 오솔로그는 시험관 내 표적 폴리뉴클레오티드 검출, 결합 및/또는 변형에 사용하기 위하여 매트릭스 상에 고정될 수 있다.

Cas-알파 엔도뉴클레아제는 저장, 정제 및/또는 특성규명 목적을 위해 고체 매트릭스에 부착되거나, 연합되거나, 고정될 수 있다. 고체 매트릭스의 예는 필터, 크로마토그래피 수지, 분석 플레이트, 시험관, 극저온 바이알 등을 포함하지만, 이들로 제한되지 않는다. Cas-알파 엔도뉴클레아제는 실질적으로 정제되고, 적절한 완충제 용액에 저장되거나, 동결건조될 수 있다.

검출 방법

표적 폴리뉴클레오티드에 결합된 Cas-알파:가이드 폴리뉴클레오티드 복합체를 검출하는 방법은 현미경, 크로마토그래피 분리, 전기영동, 면역침전, 여과, 나노포어 분리, 마이크로어레이 및 이하에 기재되는 것들을 포함하지만, 이들로 제한되지 않는 당업계에 공지된 임의의 것을 포함할 수 있다.

DNA 전기영동 이동성 이동 분석(EMSA): 공지된 DNA 올리고뉴클레오티드 프로브에 결합하는 단백질을 연구하고 상호 작용의 특이성을 평가한다. 상기 기법은 단백질-DNA 복합체가 폴리아크릴아미드 또는 아가로스 겔 전기영동을 수행할 때 유리 DNA 분자보다 더 느리게 이동한다는 원리를 기반으로 한다. 단백질 결합 시 DNA 이동 속도가 지연되기 때문에, 이 분석을 겔 지연 분석이라고도 한다. 결합 성분에 단백질 특이적 항체를 추가하면 훨씬 더 큰 복합체(항체-단백질-DNA)가 생성되며, 이는 전기영동 중에 훨씬 더 느리게 이동하는데, 이는 초이동으로 알려져 있고, 단백질 정체를 확인하는 데 사용될 수 있다.

DNA 풀 다운(DNA Pull-down) 분석은 비오틴과 같은 고친화도 태그가 표지된 DNA 프로브를 사용하는데, 이는 프로브가 회수되거나 고정될 수 있게 한다. DNA 프로브는 EMSA에서 사용되는 것과 유사한 반응으로 세포 용해물의 단백질과 복합체를 형성한 다음, 아가로스 또는 자성 비드를 사용하여 복합체를 정제하는 데 사용될 수 있다. 그런 다음 단백질을 DNA로부터 용리시키고, 웨스턴 블롯으로 검출하거나 질량 분석법으로 확인한다. 대안적으로, 단백질을 친화성 태그로 표지하거나 DNA-단백질 복합체를 (초이동 분석법과 유사한) 관심 대상의 단백질에 대한 항체를 사용하여 단리할 수 있다. 이 경우, 단백질이 결합된 미지의 DNA 염기 서열이 서던 블롯팅 또는 PCR 분석을 통해 검출된다.

리포터 분석은 관심 프로모터에 대한 번역 활성의 실시간 생체 내 판독치를 제공한다. 리포터 유전자는 표적 프로모터 DNA 서열 및 연구자가 맞춤 제작한 리포터 유전자 DNA 서열의 융합체이며, DNA 서열은 반딧불이/레닐라 루시퍼라제 또는 알칼리성 포스파타제와 같은 검출 가능한 특성을 갖는 단백질을 암호화한다. 이러한 유전자는 관심 프로모터가 활성화될 때에만 효소를 생성한다. 효소는 결과적으로 기질을 촉매하여 분광 기기로 감지될 수 있는 빛 또는 색 변화를 생성한다. 리포터 유전자로부터의 신호는 동일한 프로모터에서 유도된 내인성 단백질의 번역을 위한 간접 결정인자로서 사용된다.

마이크로플레이트 포획 및 검출 분석은 고정된 DNA 프로브를 사용하여 특이적인 단백질-DNA 상호 작용을 포획하고, 단백질 정체성 및 표적 특이적 항체와의 상대적인 양을 확인한다. 전형적으로, DNA 프로브는 스트렙타비딘으로 코팅된 96 또는 384 웰 마이크로플레이트의 표면에 고정된다. 세포 추출물을 제조하고, 결합 단백질이 올리고뉴클레오티드에 결합할 수 있도록 첨가한다. 그런 다음, 추출물을 제거하고, 각 웰을 여러 차례 세척하여 비특이적으로 결합된 단백질을 제거한다. 마지막으로, 검출용으로 표지된 특이적인 항체를 이용하여 단백질을 검출한다. 이 방법은 매우 민감하여, 웰당 0.2 pg 미만의 표적 단백질을 검출할 수 있다. 이 방법은 또한 아민 반응성 표면 화학으로 코팅된 마이크로플레이트에 고정될 수 있는 1차 아민과 같은 다른 태그로 표지된 올리고뉴클레오티드에 사용될 수 있다.

DNA 족문분석은 살아 있는 세포 내부에서도 단백질-DNA 복합체의 개별 뉴클레오티드에 대한 자세한 정보를 얻기 위해 가장 널리 사용되는 방법 중 하나이다. 이러한 실험에서, 화학물질이나 효소는 DNA 분자를 변형하거나 소화시키는 데 사용된다. 서열 특이적 단백질이 DNA에 결합할 때, 이들은 변형이나 소화로부터 결합 부위를 보호할 수 있다. 이어서, 이는 보호되지 않은 DNA가 무작위로 다소간 절단되는 겔 전기영동을 변성시킴으로써 시각화될 수 있다. 따라서, 이는 밴드의 '사다리'로 나타나고, 단백질에 의해 보호되는 부위에는 대응하는 밴드가 없으며, 밴드 패턴의 족문처럼 보인다. 그렇게 하여 족문은 단백질-DNA 결합 부위에서 특이적인 뉴클레오시드를 확인한다.

현미경 기법은 광학, 형광, 전자 및 원자력 현미경(AFM)을 포함한다.

염색질 면역침전 분석(ChIP)은 단백질이 그들의 DNA 표적에 공유적으로 결합하게 하는데, 그 후, 단백질은 연결 해제되고 별도로 특성화된다.

지수적 농축에 의한 리간드의 체계적 진화(SELEX)는 표적 단백질을 올리고뉴클레오티드의 무작위 라이브러리에 노출시킨다. 결합하는 유전자는 PCR에 의해 분리되고 증폭된다.

본 명세서에 제공된 방법 및 조성물은 다음의 양상을 포함하지만, 이들로 제한되지 않는다.

양상 1: 합성 조성물로서, (a) 가이드 폴리뉴클레오티드; (b) 브리지 나선 및 적어도 하나의 아연-핑거 도메인을 더 포함하는 C-말단의 삼중-분할 RuvC 도메인, 알파 나선 다발 및 쐐기-유사 도메인을 형성하는 복수의 베타 시트를 포함하는 Cas 엔도뉴클레아제로서, 길이가 650개 미만의 아미노산인, Cas 엔도뉴클레아제; 및 (c) 가이드 폴리뉴클레오티드와 상보성을 공유하는 뉴클레오티드 서열을 포함하는 표적 서열을 포함하되, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 서열을 포함하는 이중가닥 DNA 폴리뉴클레오티드를 절단하는 복합체를 형성하는, 합성 조성물.

양상 2: 합성 조성물로서, (a) 가이드 폴리뉴클레오티드; (b) 고세균, 미크라르카에오타, 아시디바실러스 설푸록시단스, 칸디다투스 아우레아박테리아 박테리움, 칸디다투스 미크라르카에오타 고세균, 클루스트리듐 노비, 파라게오바실러스 써모글루코시다시우스, 루미노코커스 종 및 신트로포모나스 팔미타티카로 이루어진 군으로부터 선택된 분류의 유기체로부터 유래된 Cas 엔도뉴클레아제로서, 상기 가이드 폴리뉴클레오티드와의 복합체를 형성하는, Cas 엔도뉴클레아제; 및 (c) 상기 가이드 폴리뉴클레오티드에 결합하는 표적 서열을 포함하는 이중-가닥 DNA 폴리뉴클레오티드를 포함하되, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 서열을 포함하는 상기 이중가닥 DNA 폴리뉴클레오티드를 절단하는 복합체를 형성하는, 합성 조성물.

양상 3: 양상 1 또는 양상 2에 있어서, 상기 Cas 엔도뉴클레아제는 N-말단 근처에 아연-핑거 도메인을 더 포함하는, 합성 조성물.

양상 4: 양상 1 또는 양상 2에 있어서, 상기 이중-가닥 DNA 폴리뉴클레오티드는 PAM을 더 포함하는, 합성 조성물.

양상 5: 양상 4에 있어서, 상기 PAM은 복수의 티민 뉴클레오티드를 포함하는, 합성 조성물.

양상 6: 양상 1 또는 양상 2에 있어서, 이종성 폴리뉴클레오티드를 더 포함하는, 합성 조성물.

양상 7: 양상 1 또는 양상 2에 있어서, 상기 가이드 폴리뉴클레오티드는 상기 표적 서열과 상보성의 20개의 뉴클레오티드 영역을 포함하는, 합성 조성물.

양상 8: 양상 1 또는 양상 2에 있어서, 상기 가이드 폴리뉴클레오티드는 tracrRNA 및 crRNA를 포함하는 이중나선 분자인, 합성 조성물.

양상 9: 양상 1 또는 양상 2에 있어서, 상기 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제 인식 도메인 및 가변 표적화 도메인을 포함하는 단일 가이드 폴리뉴클레오티드인, 합성 조성물.

양상 10: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 발현 요소인, 합성 조성물.

양상 11: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 이식유전자인, 합성 조성물.

양상 12: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 합성 조성물.

양상 13: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 폴리뉴클레오티드 변형 주형인, 합성 조성물.

양상 14: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 핵 국재화 신호를 더 포함하는, 합성 조성물.

양상 15: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 Cas-알파, 또는 이의 기능성 단편인, 합성 조성물.

양상 16: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 촉매적으로 비활성인 Cas-알파인, 합성 조성물.

양상 17: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 Cas-알파의 기능성 단편을 포함하는 융합 단백질인, 합성 조성물.

양상 18: 양상 17에 있어서, 상기 융합 단백질은 다른 뉴클레아제 도메인을 더 포함하는, 합성 조성물.

양상 19: 양상 1 또는 양상 2에 있어서, 적어도 하나의 추가적인 폴리펩티드를 더 포함하는, 합성 조성물.

양상 20: 양상 19에 있어서, 상기 추가적인 폴리펩티드는 Cas1, Cas2 및 Cas4로 이루어진 군으로부터 선택되는, 합성 조성물.

양상 21: 양상 1 또는 양상 2에 있어서, 세포를 더 포함하는, 합성 조성물.

양상 22: 양상 21에 있어서, 상기 세포는 진핵 세포인, 합성 조성물.

양상 23: 양상 21에 있어서, 상기 세포는 식물 세포인, 합성 조성물.

양상 24: 양상 23에 있어서, 상기 식물 세포는 외떡잎식물 세포 또는 쌍떡잎식물 세포인, 합성 조성물.

양상 25: 양상 23에 있어서, 상기 식물 세포는 메이즈, 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된 유기체로부터 유래된, 합성 조성물.

양상 26: 양상 21에 있어서, 세포 게놈에서 표적 서열에 대해 실질적으로 상보성인 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드를 더 포함하는, 합성 조성물.

양상 27: 양상 1 또는 양상 2의 합성 조성물을 암호화하는 폴리뉴클레오티드.

양상 28: 양상 27에 있어서, 적어도 하나의 추가적인 폴리뉴클레오티드를 더 포함하는, 폴리뉴클레오티드.

양상 29: 양상 28에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 발현 요소인, 폴리뉴클레오티드.

양상 30: 양상 28에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 유전자인, 폴리뉴클레오티드.

양상 31: 양상 30에 있어서, 상기 유전자는 cas1, cas2 및 cas4로 이루어진 군으로부터 선택된, 합성 조성물.

양상 32: 양상 28에 있어서, 적어도 하나의 폴리뉴클레오티드는 재조합 작제물 내에 포함된, 폴리뉴클레오티드.

양상 33: 양상 1 또는 양상 2에 있어서, 적어도 하나의 성분은 고체 매트릭스에 부착되는, 합성 조성물.

양상 34: 합성 조성물로서, 표적 이중-가닥 DNA 폴리뉴클레오티드, 이중-가닥 DNA 폴리뉴클레오티드 내 서열에 상보성인 가이드 폴리뉴클레오티드, 및 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37 및 38로 이루어진 군으로부터 선택된 서열에 대해 적어도 80% 동일한 Cas 엔도뉴클레아제, 또는 이의 기능성 단편 또는 변이체를 포함하는, 합성 조성물.

양상 35: 합성 조성물로서, 표적 이중-가닥 DNA 폴리뉴클레오티드, 이중-가닥 DNA 폴리뉴클레오티드 내 서열에 상보성인 가이드 폴리뉴클레오티드를 암호화하는 폴리뉴클레오티드, 및 서열번호 13, 14, 15, 16, 25, 26, 27, 28, 29, 30 및 31로 이루어진 군으로부터 선택된 서열에 대해 적어도 80% 동일한 cas 엔도뉴클레아제 유전자, 또는 이의 기능성 단편 또는 변이체를 포함하는, 합성 조성물.

양상 36: 세포 게놈 내 표적 서열에 부위-특이적 변형을 도입하는 방법으로서, 양상 1 내지 35 중 어느 것으로부터의 합성 조성물에 세포를 도입하는 단계를 포함하는, 방법.

양상 37: 변형된 게놈을 갖는 유기체의 생산 방법으로서, (a) i. Cas-알파 엔도뉴클레아제 또는 Cas-알파 엔도뉴클레아제를 암호화하는 cas-알파 폴리뉴클레오티드, ii. 세포 게놈 내 표적 서열에 실질적으로 상보성인 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드, iii. 및 Cas-알파 복합체에 의해 인식되는 DNA 표적 서열에 인접한 PAM 서열에 상보성인 적어도 하나의 영역을 포함하는 폴리뉴클레오티드 변형 주형을 포함하는 이종성 조성물을 상기 유기체의 적어도 하나의 세포에 도입하는 단계로서, 상기 가이드 폴리뉴클레오티드 및 Cas-알파 엔도뉴클레아제는 상기 표적 서열을 인식하고, 이에 결합하고, 선택적으로 틈내기하거나 절단하는 복합체를 형성할 수 있고, PAM 서열에 대응하는 상기 적어도 하나의 영역은 적어도 하나의 뉴클레오티드 미스매치를 포함하는, 단계; (b) 상기 세포를 배양시키는 단계, (c) 상기 세포로부터 전체 유기체를 생성하는 단계, 및 (d) (a)의 상기 이종성 조성물의 도입 전의 상기 세포 게놈의 표적 서열에 비해 상기 유기체의 적어도 하나의 세포 게놈에서의 적어도 하나의 뉴클레오티드 변형을 입증하는 단계를 포함하는, 방법.

양상 38: 양상 36 또는 37에 있어서, 상기 세포는 진핵 세포인, 방법.

양상 39: 양상 38에 있어서, 상기 진핵 세포는 동물 또는 식물로부터 유래되거나 얻어지는, 방법.

양상 40: 양상 39에 있어서, 상기 식물은 외떡잎식물 또는 쌍떡잎식물인, 방법.

양상 41: 양상 39에 있어서, 상기 식물은 메이즈, 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된, 방법.

양상 42: 양상 36 또는 37에 있어서, 이종성 폴리뉴클레오티드를 도입하는 단계를 더 포함하는, 방법.

양상 43: 양상 42에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 방법.

양상 44: 양상 42에 있어서, 상기 이종성 폴리뉴클레오티드는 상기 세포 내 서열에 대해 적어도 50% 동일한 서열을 포함하는 폴리뉴클레오티드 변형 주형인, 방법.

양상 45: 양상 37의 방법에 의해 얻은 유기체의 자손으로서, 적어도 하나의 세포에 적어도 하나의 뉴클레오티드 변형을 보유하는, 자손.

양상 46: 표적 세포의 게놈 서열을 변형하는 방법으로서, 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37 및 38 중 하나에 대해 적어도 95% 내지 100% 동일한 아미노산 서열을 포함하는 Cas 엔도뉴클레아제 및 상기 표적 세포의 게놈 서열을 표적화하는 가이드 폴리뉴클레오티드를 제공하는 단계; 및 상기 표적 세포의 게놈 서열에 이중-가닥 파손을 도입하여, 상기 표적 세포의 상기 게놈 서열을 변형시키는 단계를 포함하는, 방법.

본 발명은 특히 바람직한 실시형태 및 다양한 대안적인 실시형태를 참조하여 제시되고 기재되었지만, 관련 분야의 숙련가는 본 발명의 사상 및 범위를 벗어나지 않고 형태 및 세부 사항의 다양한 변경이 이루어질 수 있음을 이해할 것이다. 예를 들어, 이하의 특정 실시예는 특이적 표적 부위 또는 표적 유기체를 이용하여 본 명세서에 기재된 방법 및 실시형태를 예시할 수 있지만, 이들 실시예의 원칙은 임의의 표적 부위 또는 표적 유기체에 적용될 수 있다. 따라서, 본 발명의 범위는 아래에 예시된 특정 실시예가 아니라 본 명세서에 인용된 발명의 실시형태 및 본 명세서에 포함된다는 것을 이해할 것이다. 본 출원에서 언급된 모든 인용된 특허, 출원 및 간행물은 각각이 개별적으로 그리고 구체적으로 참조로 포함된 것과 동일한 정도로 모든 목적을 위해 그 전체가 참조로 본 명세서에 포함된다.

실시예

다음은 본 발명의 일부 양상의 특정 실시형태의 예시이다. 실시예는 예시의 목적으로만 제공되며, 어떠한 방식으로든 본 발명의 범위를 제한하려는 것이 아니다. 사용된 숫자(예를 들어, 양, 온도 등)와 관련하여 정확성을 보장하기 위해 노력했지만, 일부 실험 오차와 편차는 물론 허용될 것이다.

실시예 1: 신규한 클래스 Cas-알파 CRISPR-Cas 시스템의 확인 및 특성규명

본 실시예에서, 오페론-유사 유전자 구조 및 단백질 구조 분석의 확인을 이용하여 신규한 클래스 2 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 좌위를 확인하는 방법을 기재한다.

우선, PILER-CR(Edgar, R. (2007) BMC Bioinformatics, 8:18) 및 MinCED(Bland, C. et al. (2007) BMC Bioinformatics, 8:209) 소프트웨어 프로그램을 이용하여 미생물 서열 내에서 CRISPR 어레이를 검출하였다. 다음에, 문헌[Makarova, K. et al. (2015) Nature Reviews Microbiology, 13:722-736]에 기재된 바와 같은 모든 공지된 Cas 단백질 패밀리를 포괄하는 위치 특이적 점수화 매트릭스(PSSM)의 세트를 이용하여 공지된 CRISPR 연합(Cas) 단백질과의 상동성에 대해 CRISPR 어레이 근처(20 kb 5' 및 20 kb 3'(가능한 경우))에서 암호화된 단백질을 검색함으로써 데이터세트로부터 공지된 CRISPR-Cas 시스템을 제거하였다. 공지된 클래스 2 CRISPR-Cas 시스템의 완전한 제거를 돕기 위해, MUSCLE를 이용하여 클래스 2 CRISPR-Cas 엔도뉴클레아제(예를 들어, Cas9, Cpf1(Cas12a), C2c1(Cas12b), C2c2(Cas13), C2c3(Cas12c))의 각 패밀리로부터의 오솔로그 수집으로부터 단백질 서열의 다중-서열 정렬을 수행하였다(Edgar R. (2004) Nucleic Acids Res. 32:1792-1797). HMMER를 이용하여 프로파일 은닉 마르코프 모델(hidden Markov model: HMM)을 구성하기 위해 정렬을 시험, 보조 및 사용하였다(Eddy, S.R. (1998) Bioinformatics. 14:755-763; Eddy, S.R. (2011) PLoS Comp. Biol.,7:e1002195). 이어서, 얻어진 HMM 모델을 이용하여 데이터세트로부터 공지된 클래스 2 CRISPR-Cas 시스템을 추가로 확인하고 제거하였다. 다음에, 상기 기재한 PSSM 특이적 검색을 이용하여, 스페이서 삽입 및 적응에 중요하게 관련된 단백질인 Cas1 및 Cas2를 암호화하는 유전자의 존재에 대해 남아있는 CRISPR 좌위를 평가하였다(Makarova, K. et al. (2015) Nature Reviews Microbiology, 13:722-736). 이어서, cas1 및 cas2 유전자를 포함하는 CRISPR 좌위를 선택하고, cas1 및 cas2 유전자 및 CRISPR 어레이에 대한 좌위에서 암호화된 정의되지 않은 유전자의 근접함, 순서 및 방향성을 결정하기 위해 추가로 시험하였다. cas1 및 cas2 유전자에 가깝고 동일한 거대한(1500 bp 이상의 오픈-리딩 프레임) 정의되지 않은 유전자가 존재하는 오페론-유사 구조를 형성하는 해당 CRISPR 좌위만을 추가 분석을 위해 선택하였다. 다음에, DNA를 절단할 수 있는 클래스 2 엔도뉴클레아제를 나타내는 서열 및 구조적 특징에 대해 정의되지 않은 유전자에서 암호화된 단백질을 분석하였다. 처음에, 후보 서열과 공지된 단백질 사이에 유사성이 얼마나 존재하는지에 따라서, 쌍별 비교로부터 패밀리 프로파일 검색, 구조적 스레딩(threading) 그리고 수동에 의한 구조 검사까지의 다양한 생물정보학 도구를 사용하여 이의 보존된 기능성 특징을 나타내었다. 일반적으로, 컷 오프 e-값이 0.01인 미국 국립생물정보센터(NCBI) 비-여분(non-redundant: NR) 단백질 수집에 대한 PSI-BLAST(Altschul, S. F. et al. (1997) Nucleic Acids Res. 25:3389-3402) 검색에 의해 새로운 후보 단백질에 대한 상동성 서열을 처음 수집하였다. 대략 90%의 동일한 수준에서 여분 감소 후에, 다중-서열 정렬 도구인 MSAPRob(Liu, Y. et. al. (2010) Bioinformatics. 26:1958-1964) 및 Clustalw에 의해 보존된 모티프를 나타내기 위해 다양한 구성원 포함 역치(예컨대, 60 초과, 40 또는 20%의 동일성)를 갖는 상동성 서열 그룹을 정렬하였다. Pfam, Superfamily, 및 SCOP(Murzin, A. G. et al. (1995) J. Mol. Biol. 247:536-540) 및 홈-빌트(home-built) 구조-기반 프로파일을 포함하는 수많은 도메인 데이터베이스에 대해 가장 보존된 상동성 서열은 HMMER에 의한 패밀리-프로파일 검색에 대한 서열을 받았다(Eddy, S. R. (1998) Bioinformatics. 14:755-763). 별도로, 얻어진 후보 상동성 서열 정렬을 또한 사용하여 예측된 2차 구조를 첨가한 후보 단백질 프로파일을 생성하였다. pdb70_hhm 및 Pfam_hhm 프로파일 데이터베이스에 대해 HHSEARCH에 의한 프로파일-프로파일 검색을 하기 위해 후보 프로파일을 추가로 사용하였다(Soding, J. et al. (2006) Nucleic Acids Res. 34:W374-378). 다음 단계에서, MODELLER을 이용하여 모든 검출된 서열-구조 관계 및 보존된 모티프를 3D 구조 주형에 스레딩하거나, DiscoveryStudio(BIOVIA) 및 Pymol(Schrodinger)에 대해 공지된 구조적 기준에 수동으로 맵핑하였다. 최종적으로, 클래스 2 엔도뉴클레아제로서 잠재적인 생물학적 적절성을 입증 및 확인하기 위해, 촉매적 또는 가장 보존된 잔기 및 중요한 구조적 완전성을 수동으로 검사하고, 단백질의 생화학적 기능에 비추어 평가하였다. 클래스 2 엔도뉴클레아제(예를 들어, DNA 절단 도메인(들))를 나타내는 중요한 특징의 구조적 확인 후에, 좌위 내에서 암호화된 다른 단백질(새로 정의된 CRISPR-Cas 시스템의 말단으로부터 5 kb 5' 및 5 kb 3'(가능한 경우))을 다음에 InterProScan 소프트웨어(EMBL-EBI, 영국에 소재)를 이용하여 공지된 단백질 패밀리에 대한 상동성에 대해 그리고 BLAST 프로그램을 이용하여 NCBI NR 단백질 수집과의 비교를 통해 시험하였다(Altschul, S.F. et al. (1990) J. Mol. Biol. 215:403-410). 공지된 단백질에 대해 유사성(적어도 30% 동일성)을 갖는 단백질을 암호화하는 유전자는 CRISPR-Cas 좌위에 그 자체로 주석을 달았다.

초기에, 4가지의 신규한 클래스 2 CRISPR-Cas 시스템을 미공지 미생물로부터 확인하였다(표 1). 도 1a 및 도 1b에 나타낸 바와 같이, 각 좌위에서 획득 및 간섭에 필요한 모든 성분을 포함하는 온전한 CRISPR-Cas 시스템을 암호화하였다. 이들은 CRISPR 어레이에 인접한 오페론-유사 구조에서 스페이서(Cas1, Cas2, 및 선택적으로 Cas4) 및 DNA 절단 도메인을 포함하는 신규한 단백질인 Cas-알파(α)를 획득 및 통합하는 데 필요한 단백질을 함께 암호화한 유전자를 포함하였다(표 1).

다음에, BLAST를 이용하는 Cas-알파 엔도뉴클레아제와 NCBI NR 단백질 수집의 비교, 다음에 CRISPR 어레이 근처(5 kb 이하)의 단백질을 찾기 위해 MinCED를 이용하는 분석으로 7가지의 추가적인 CRISPR 시스템을 생성하였다(표 2). 이들 새로운 단백질을 뒤덮지 않는 좌위 유전자 구조를 도 1c 및 도 1d에 나타낸다. Cas-알파6을 암호화하는 좌위는 부분적 cas1 유전자에 추가로 온전한 cas2 및 cas4 유전자를 포함하였지만(도 1c), Cas-알파5, 7, 8, 9, 10 및 11은 CRISPR 어레이에 인접한 엔도뉴클레아제 유전자만을 포함하였다(도 1d). Cas-알파 18 및 19에 대한 좌위를 도 21a에 도시하고, 작용 메커니즘을 도 21b에 도시한다.

[표 2a]

이들 단백질의 구조적 시험은 이들이 이중가닥 DNA 표적 인식 및 절단을 할 수 있는 앞서 기재된 클래스 2 CRISPR-Cas 엔도뉴클레아제와 별개라는 것을 나타낸다. 첫째로, 엔도뉴클레아제의 크기(422 내지 613개의 아미노산)는 다른 공지된 클래스 2 CRISPR-Cas 시스템에 비해 현저하게 조밀하였다. 둘째로, 단백질의 제1 아미노(N)-말단 절반은 (개시 메티오닌을 제외하고) 심지어 단일 아미노산의 보존 결여에 의해 분명한 바와 같이 서열 조성물에서 고도로 가변적이었다. 이럼에도 불구하고, 2차 구조 예측(PSIPRED(Jones, J. T. (1999) J. Mol. Biol. 292:195-202))은 혼합된 베타-가닥 및 알파 나선의 존재를 나타내었는데, 이는 모든 Cas-알파 단백질의 N-말단 영역에서의 쐐기-유사(WED) 또는 올리고뉴클레오티드 결합 도메인(OBD) 구조 및 나선 다발의 존재를 시사한다. 단백질의 카복실(C)-말단 절반에서, 삼중-분할 RuvC 도메인을 포함하는 중요한 촉매적 잔기 및 구조가 보존되었다(도 2). 추가적으로, 모든 단백질은 각각 RuvC 서브도메인 I-II와 II-III 사이에 삽입된 브리지-나선 도메인 및 아연-핑거 도메인을 포함하였다(도 2). 추가적인 아연-핑거-유사 모티프를 Cas-알파-1, 2, 3, 4 및 10개의 단백질에서 검출하였다는 것을 주목하여야 한다. Cas-알파-1, 2, 3 및 4에 대해, 제2 아연-핑거 모티프는 N-말단 근처에 위치되는 반면(예를 들어, Cas-알파-1 및 2에서 각각 아미노산 위치 70 내지 96 및 63 내지 111)(도 8a 내지 도 8d), Cas-알파-10에 대해, 단백질의 C-말단 절반에서 2개의 추가적인 아연-핑거 모티프를 확인하였다(도 8j). 본 명세서에서, 여분 아연-핑거 도메인 중 하나는 RuvC II와 III 서브-도메인 사이에 첫 번째(Cas-알파-10 아미노산 위치 376 내지 422)와 나란히 위치되며, 세 번째는 RuvC 서브-도메인 III(Cas-알파-10 아미노산 위치 466 내지 482) 다음에 발견된다(도 8j). 회복된 Cas-알파 서열 및 모티프의 예를 Cas-알파 1 내지 11에 대해 각각 도 8a 내지 도 8k에 나타낸다. 도 9는 Cas12b(C2c1) 단백질 골격(PDB:5wti)을 참조로서 이용하여, Cas-알파 도메인 중 일부가 혼성 이중나선 표적 DNA/가이드 RNA와 상호작용하는 방법을 도시한다.

MUSCLE 다중 서열 정렬을 이용하여 정렬한 Cas-알파 1 내지 129의 서열 분석은 서열번호 17의 아미노산 위치 번호에 대해 Cas-알파 엔도뉴클레아제에 대한 특징인 독특한 모티프를 나타내었다(표: 337번 위치에서 글리신(G), 341번 위치에서 글리신(G), 430번 위치에서 글루탐산(E), 432번 위치에서 류신(L), 487번 위치에서 시스테인(C), 490번 위치에서 시스테인(C) 및/또는 507번 위치에서 시스테인(C). Cas-알파 엔도뉴클레아제는 다음의 모티프를 포함한다: GxxxG, ExL, Cx_nC 및 Cx_n(C,H)(여기서, x_n=2 내지 4개의 잔기임). Cas-알파 엔도뉴클레아제는 하나 이상의 아연 핑거 도메인을 포함한다. 표 2b는 Cas-알파 엔도뉴클레아제에서 발견된 보존된 모티프의 일부를 포함한다.

[표 2b]

실시예 2: Cas-알파 가이드 RNA 용액

본 실시예에서, 클래스 2 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 엔도뉴클레아제, Cas-알파의 신규한 그룹에 대한 이중가닥 DNA 표적 인식 및 절단을 지원하는 가이드 RNA(들)를 결정하는 방법을 기재한다.

한 가지 방법은 Cas-알파 엔도뉴클레아제와의 기능성 복합체를 형성하는 데 필요한 sRNA(들)를 결정하기 위한 컴퓨터 예측에 의존한다. 간략하게, CRISPR 어레이의 가능한 전사 방향 및 엔도뉴클레아제에 의해 선호될 수 있는 반복부 및 스페이서의 다양한 입체배치(예를 들어, 반복부:스페이서, 스페이서:반복부 또는 반복부:스페이서:반복부) 둘 다를 설명하는 CRISPR RNA(들)(crRNA(들))를 생성하기 위해 CRISPR 어레이를 이용할 수 있다. 추가적으로, 트랜스-암호화 CRISPR 연합 RNA(들)(tracrRNA(들))는 문헌[Karvelis, T. et al. (2015) Genome Biology. 16:253]에 기재한 바와 같이 좌위에서 컴퓨터로 확인할 수 있다. 간략하게, BLAST를 이용하여 또는 수동으로 CRISPR 반복부 공통 서열과 좌위 서열 간의 정렬을 수행할 수 있다. 이어서, 안티-반복부를 둘러싸는 센스와 안티-센스 게놈 DNA 서열의 RNA 형태에 존재하는 2차 구조 및 가능한 종결 신호에 대해 추정 tracrRNA(들)의 가능한 전사 방향을 분석함으로써 상동성 영역(CRISPR 어레이로부터 분리)을 시험할 수 있다. 이어서, tracrRNA(들)는 다양한 crRNA 예측으로 이중나선화하거나, 키메라 비-천연 단일 가이드 RNA(들) (sgRNA(들))를 형성하도록 조작할 수 있다. crRNA(들), tracrRNA(들) 및 sgRNA(들)를 합성하거나(IDT 동등물) 또는 추가 실험을 위해 TranscriptAid T7 고수율 전사 키트(Thermo Fisher Scientific) 또는 동등물로 T7 전사시켰다.

다른 방법은 신규한 클래스 2 CRISPR-Cas 좌위로부터 생성된 소형 RNA(sRNA-seq)의 서열분석에 따른다. 이는 문헌[Zetsche, B. et al. (2015) Cell. 163:1-13]에 기재된 방법과 유사하게 수행할 수 있다. 간략하게, CRISPR-Cas 좌위는 이콜라이 플라스미드 DNA에 위치되고, 플라스미드 보유 CRISPR-Cas 좌위를 포함하는 후속 배양물을 원심분리에 의해 채취하고, 총 RNA를 TRIzol Max 박테리아 단리 키트(Thermo Fisher Scientific)를 이용하여 추출하고, mirVana miRNA 단리 키트(Thermo Fisher Scientific)를 이용하여 소형 RNA를 단리시키고, TruSeq 소형 RNA 라이브러리 분취 키트(Illumina)를 이용하는 서열분석을 위해 라이브러리를 제조하였다. 공지된 이콜라이 프로모터를 이용하여 좌위의 발현을 부스팅할 수 있다. MiSeq 기기(Illumina) 또는 동등물에 대한 서열분석 후에, 얻어진 서열 데이터를 좌위에서 암호화된 sRNA(들)의 전사 및 성숙 패턴을 결정하기 위해 좌위에 대해 다시 맵핑한다(Bowtie 2 소프트웨어(Langmead, B. et al. (2012) Nat. Methods. 9:357-359) 또는 동등물).

다른 방법은 신규한 클래스 2 CRISPR-Cas 좌위로부터의 Cas-알파 단백질과 공동 정제된 소형 RNA(sRNA-seq)의 서열분석에 따른다. 이는 직접 이중가닥 DNA 표적 인식 및 절단에 필요한 소형 RNA(들)의 서열을 결정하기 위해 Illumina 심층 서열분석을 사용할 수 있다는 것을 제외하고, 문헌[Sinkunas, T. et al. (2013) EMBO J. 32:385-394]에 기재한 방법과 유사하게 수행할 수 있다. 간략하게, CRISPR-Cas 좌위는 이콜라이 플라스미드 DNA 상에 위치된다. 좌위 내 Cas-알파 유전자는 또한 단백질 정제 태그를 암호화하도록 변형될 수 있다. 예를 들어, 이하로 제한되는 것은 아니지만, 히스티딘(His), 스트렙타비딘(Strep), 및/또는 말토스 결합 단백질(MBP). 대안적으로, Cas-알파 단백질의 His, Strep, 및/또는 MBP 태그된 형태를 암호화하는 "단독" Cas-알파 발현 카세트를 플라스미드 보유 좌위로 공동형질전환시킬 수 있다. 다음에, 플라스미드(들)를 이콜라이에 형질전환시키고(예를 들어, 이하로 제한되는 것은 아니지만 Artic Express (DE3)(ThermoFisher Scientific)), 이어서, 배양물을 원심분리에 의해 채취한다. 이어서, 세포를 용해시키고, 태그된 Cas-알파 단백질을 크로마토그래피에 의해 정제하였다. 최종적으로, TRIzol Max 박테리아 단리 키트(Thermo Fisher Scientific) 또는 다른 적합한 방법을 이용하여 Cas-알파 단백질에 결합된 소형 RNA를 추출하고, 상기 기재한 바와 같이 가공한다.

crRNA, tracrRNA 및 sgRNA 용액을 본 명세서에 기재된 선택 Cas-알파 시스템에 대해 표 3에 열거한다.

실시예 3: 박테리아 Cas-알파 발현 플라스미드

본 실시예에서, 이종성 숙주 이콜라이에서 Cas-알파 이중가닥 DNA 표적 인식 및 절단을 시험하기 위해 플라스미드 DNA 발현 작제물을 생성한다.

처음에, 제1 Cas-알파 엔도뉴클레아제를 암호화하는 천연 Cas-알파 CRISPR-Cas 좌위(도 1)(서열번호 21)의 CRISPR 어레이를 본 명세서에서 시험하고, Cas-알파1(서열번호 17)을 변형하였다. CRISPR 단위의 수(반복부(서열번호 46):스페이서:반복부(서열번호 46))를 3까지 감소시킴으로써 이를 달성하였다. 다음에, 반복부 사이의 스페이서 서열을 문헌[Karvelis et al., 2015]에 기재된 플라스미드 DNA PAM 라이브러리로부터 무작위화의 7 bp 영역에 인접한 이중가닥 표적 서열인 T2의 안티-센스 가닥과 염기 짝짓기를 할 수 있는 서열(서열번호 78)로 대체하였다. 이어서, T2(서열번호 79)를 표적화하도록 조작된 얻어진 "완전한" CRISPR-Cas 좌위(도 3)를 낮은 복제물 이콜라이 플라스미드 DNA(pACYC184, NEB)에 직접 합성하여(GenScript) 플라스미드 DNA R-225를 생성하였다. 합성 과정 동안에 단일 뉴클레오티드 다형성(SNP)을 casα1 유전자에 도입하였지만, SNP(유전자의 1284번 위치에서 C 대 A)는 침묵이었고, Casα1의 아미노산 조성을 변경시키지 않았다는 것을 주목하여야 한다. 변형된 Cas-알파 CRISPR-Cas 좌위의 발현을 향상시키기 위해, 또한 단일 이소프로필 β-D-1-티오갈락토피라노사이드(IPTG) 유도성 T7 프로모터를 함유하도록 변형된 pETduet-1(MilliporeSigma)에 클로닝되어, 플라스미드 DNA R-652를 생성하였다. 다음에, 이중가닥 DNA 표적 절단 활성이 Casα1을 필요로 한다는 것을 확인하기 위해, 이의 유전자(서열번호 13)를 플라스미드 R-652로부터 제거하여 플라스미드 DNA R-658을 수득하였다. 이중 가닥 DNA 표적 인식 및 절단에 필요한 최소 성분을 확인하기 위해, 적응 유전자(cas1, 2, 및 4) 및 변형된 CRISPR 어레이의 영역 3'을 R-652로부터 제거하여, "최소" 좌위(서열번호 80)(도 3에 예시하는 바와 같음) 발현 플라스미드를 생성하여, 플라스미드 R-657을 초래하였다.

다른 Cas-알파 엔도뉴클레아제에 대해, T2를 표적화하도록 변형된 "최소" 좌위를 암호화하는 플라스미드 DNA 발현 카세트(도 3)(Cas-알파1에 대해 R-657의 동등물)를 pETduet-1로 합성하여(GenScript) dsDNA 표적 인식 및 절단에 대해 분석하였다. 추가적으로, 히스티딘(HIS) 태그(10X-HIS 서열번호 81 또는 6X-HIS 서열번호 82), 말토스 결합 단백질(MBP) 태그(서열번호 83), 및 담배 식각 바이러스 절단 부위(TEV)(서열번호 84)를 암호화하는 서열의 3' 말단에 융합된 "단독" cas-알파 유전자를 당업계에 공지된 방법에 의해 작제하였다(도 3). 천연 cas-알파 유전자 서열 또는 이콜라이 코돈 최적화된 형태를 이용하였다. 최적화된 유전자에 대해, 이콜라이 코돈을 이용하여 코돈 조건화를 수행하고, 이상적인 GC 함량을 위해 유전자를 조절하고, 반복 서열 및 유전자 탈안정화 특징을 가능한 경우에 제거하였다. 최종적으로, 태그된 "단독" cas-알파 유전자를 당업계에 공지된 방법에 의해 테트라사이클린(TET), IPTG, 또는 아라비노스 유도성 플라스미드 DNA 발현 카세트에 클로닝하였다.

실시예 4: Cas-알파 단백질 발현 및 정제

본 실시예에서, Cas-알파 엔도뉴클레아제를 재조합적으로 발현 및 정제하는 방법을 기재한다.

Cas-알파 단백질을 실시예 3에 기재된 바와 같은 태그된 "단독" 단백질 발현 플라스미드를 이용하여 발현시키고 정제하였다. 처음에, 발현 작제물을 이콜라이 BL21(DE3) 또는 ArcticExpress(DE3) 균주에 형질전환시키고, 선택제(예를 들어, 암피실린(100 ㎍/㎖))로 보충한 LB 브로스에서 배양물을 성장시켰다. 0.5의 OD₆₀₀까지 배양시킨 후에, 온도를 16℃까지 감소시키고, IPTG(0.5 mM) 또는 아라비노스(0.2%(w/v))를 이용하여 발현을 유도하였다. 16시간 후에, 세포를 펠릿화하고, 로딩 완충제(20 트리스-HCl, 25℃에서 pH 8.0, 1.5 M NaCl, 5 mM 2-머캅토에탄올, 10 mM 이미다졸, 2mM PMSF, 5%(v/v) 글리세롤)에서 재현탁시키고, 음파처리에 의해 붕괴시켰다. 원심 분리에 의해 세포 파편을 제거하였다. Ni²⁺-하전된 HiTrap 킬레이팅 HP 칼럼(GE Healthcare) 상에 상청액을 로딩하고, 20 트리스-HCl, 25℃에서 pH 8.0, 0.5 M NaCl, 5 mM 2-머캅토에탄올 완충제 중 이미다졸 농도(10 내지 500 mM)를 증가시키는 선형 구배로 용리하였다. Cas-알파를 함유하는 분획을 모으고, 이어서 NaCl 농도 증가의 선형 구배(0.1 내지 1.5 M)를 이용한 용리를 위해 HiTrap 헤파린 HP 컬럼(GE Healthcare)에 로딩하였다. Cas-알파 단백질을 함유하는 다음 분획을 풀링하고, 4℃에서 TEV 프로테아제와 함께 밤새 배양시킴으로써 태그를 절단하였다. 절단된 His-MBP-태그 및 TEV 프로테아제를 제거하기 위해, 증가되는 NaCl 농도(0.1 내지 1.5 M)의 선형 구배를 이용하는 용리를 위해 HiTrap 헤파린 HP 5 칼럼(GE Healthcare) 상에 반응 혼합물을 로딩하였다. 다음에, HiTrap 칼럼으로부터의 용리를 MBPTrap 칼럼(GE Healthcare) 상에 로딩하고, Cas-알파 단백질을 유동을 통해 수집하였다. 이어서, 수집된 분획을 20 mM 트리스-HCl, 25℃에서 pH 8.0, 500 mM NaCl, 2 mM DTT 및 50%(v/v) 글리세롤에 대해 투석시키고, -20℃에서 저장하였다.

실시예 5: Cas-알파 이중가닥 DNA 표적 인식 및 절단을 검출하는 방법

본 실시예에서, Cas-알파 엔도뉴클레아제에 의한 이중 가닥 DNA 표적 인식 및 절단을 검출하는 방법을 기재한다.

용해물 분석

도 3에 나타내는 바와 같이 Cas-알파 엔도뉴클레아제를 발현시키는 세포 용해물을 이용하여 이중가닥 DNA 표적 인식 및 절단의 검출을 수행하였다. 처음에, Cas-알파 엔도뉴클레아제를 단독으로 또는 T2 서열을 표적화하도록 변형된 Cas-알파 CRISPR-Cas 좌위의 부분으로서 암호화하는 플라스미드 DNA(실시예 3 참조)를 당업계에 공지된 방법에 의해 이콜라이 세포(예를 들어, DH5α(Thermo Fisher Scientific), ArcticExpress(DE3)(Agilent Technologies), 또는 NEB 안정(NEB))에 형질전환시켰다. 다음에, Cas-알파 엔도뉴클레아제를 암호화하는 유전자를 운반하는 세포 배양물을 적합한 항생제(예를 들어, 암피실린)를 함유하는 루리아 브로스(LB) 배지에서 0.5의 광학 밀도(OD)(600 ㎚의 파장을 이용)까지 배양시켰다(도 3 단계 I). 발현을 자극하기 위해 유도제가 필요한 플라스미드(예를 들어, R-652)에 대해, 온도를 16℃까지 감소시키고, 16시간 동안 유도제(예를 들어, 1 mM 이소프로필 β-D-1-티오갈락토피라노사이드(IPTG))를 이용하여 발현을 개시하였다. 유도가 필요하지 않다면, 0.5의 OD₆₀₀에 도달된 후에 세포를 즉시 채취하였다. 다음에, (4℃에서 5분 동안 3,000 g에서) 원심분리에 의해 세포를 펠릿화하고, 배지를 따라내고 나서, 10 ㎕ PMSF로 보충한 1 ㎖의 용리 완충제(20 mM 포스페이트, pH 7.0, 0.5 M NaCl, 5% (v/v) 글리세롤)에서 재현탁시키고, 얼음에 옮겼다. 이어서, 세포를 2분 동안 음파처리(6 s 펄스 다음에 3 s 펄스)에 의해 붕괴시키고, 원심분리에 의해 14,000 g에서 30분 동안 4℃에서 세포 파편을 제거하였다. 다음에, 단독 성분으로서 발현시킨 Cas-알파 단백질에 대해, 가용성 Cas-알파 단백질을 함유하는 20 ㎕의 상청액을 1 ㎕(40 U)의 RiboLock RNase 저해제(Thermo Fisher Scientific)의 존재 하에 2 ㎍의 T7 전사된 가이드 RNA(들)와 즉시 합하고, 실온에서 15분 동안 인큐베이션시켰다(도 3 단계 II). Cas-알파 엔도뉴클레아제 및 가이드 RNA가 플라스미드 보유 CRISPR-Cas 좌위로부터 함께 발현되었다면, Cas-알파 가이드 RNA 리보핵단백질 복합체를 함유하는 정제된 용해물을 더 이상 가공하지 않았지만, 다음 단계에서 직접 사용하였다(도 3 단계 II). Cas-알파 가이드 RNA 용해물 혼합물 10 ㎕를 90 ㎕의 반응 완충제(10 mM의 트리스-HCl, 37℃에서 pH 7.5, 100 mM의 NaCl 및 1 mM의 DTT, 10 mM MgCl2) 및 T2 표적 서열을 포함하는, 문헌[Karvelis et al. 2015]으로부터의 7 bp의 무작위 PAM 라이브러리 1 ㎍과 부드럽게 합하여 무작위 PAM 라이브러리의 분해를 수행하였다(도 3 단계 III). 대안적으로, PAM 서열이 알려져 있다면, 10 ㎕의 Cas-알파 가이드 RNA 용해물 혼합물을 고정된 표적 서열을 포함하는 1 ㎍의 플라스미드 DNA와 합하였다. 37℃에서 1시간 후, 반응물을 1 ㎕(5 U)의 T4 DNA 중합효소 및 1 ㎕의 10 mM dNTP 믹스(Thermo Fisher Scientific)와 함께 11℃에서 20분 동안 인큐베이션시켜 DNA 말단 복구를 수행하였다. 이어서, 반응물을 10분 동안 75℃까지 가열하여 비활성화시켰다. 어댑터 결찰에 의한 유리 DNA 말단을 효율적으로 포획하기 위하여, 72℃에서 30분 동안 반응 혼합물을 1 ㎕(5 U)의 DreamTaq 중합효소(Thermo Fisher Scientific, EP0701)와 함께 인큐베이션시켜 3'-dA 돌출부를 첨가하였다. 그 후, 37℃에서 30분 동안 1 ㎕의 RNase A/T1(Thermo Fisher Scientific)를 인큐베이션시켜 과량의 RNA를 반응물로부터 제거하였다. 이어서, 얻어진 DNA를 GeneJet PCR 정제 키트(Thermo Fisher Scientific)를 이용하여 정제하였다.

다음에, A1(5'-CGGCATTCCTGCTGAACCGCTCTTCCGATCT-3'(서열번호 85)) 및 인산화된 A2(5'-GATCGGAAGAGCGGTTCAGCAGGAATGCCG-3'(서열번호 86) 올리고뉴클레오티드를, 이들 둘의 등몰 혼합물을 95℃에서 5분 동안 가열하고 어닐링(A) 완충제(10 mM의 트리스-HCl, 37℃에서 pH 7.5, 50 mM의 NaCl) 중에서 실온까지 서서히 냉각시켜(약 0.1℃/s) 어닐링하여 3'-dT 돌출부가 있는 어댑터를 제조하였다. 그 후, 100 ng의 말단 복구된 3'-dA 돌출부 절단 산물 및 어댑터를 25 ㎕의 결찰 완충제(40 mM의 트리스-HCl, 25℃에서 pH 7.8, 10 mM의 MgCl2, 10 mM의 DTT, 0.5 mM의 ATP, 5%(w/v)의 PEG 4000) 중 5 U의 T4 결찰효소(Thermo Fisher Scientific)와 합하고 반응이 실온에서 1시간 동안 진행되게 하여 어댑터를 말단 복구된 3'-dA 돌출부 절단 산물에 결찰시켰다(도 3 단계 IV).

다음으로, PAM 서열을 포함하는 절단된 생성물을 각각 7 bp의 PAM 라이브러리 및 어댑터에 특이적인 R0(5'-GCCAGGGTTTTCCCAGTCACGA-3'(서열번호 87)) 및 A1 올리고뉴클레오티드를 사용하여 농축하였다(도 3 단계 V). 10 ㎕의 결찰 반응물을 주형으로 사용하여 고충실도(HF) 완충제(Thermo Fisher Scientific)와 함께 Phusion High-Fidelity PCR Master Mix를 이용하여 PCR을 수행하였다. 2단계 증폭 프로토콜(98℃ - 30초 초기 변성, 98℃ - 15초, 72℃ - 30초 변성, 어닐링 및 합성의 15 사이클 및 최종 연장을 위한 72℃ - 5분)을 사용하였다. Cas-알파의 부재 하에서 조립된 샘플의 경우, R0 및 C0 프라이머(5'-GAAATTCTAAACGCTAAAGAGGAAGAGG-3' (서열번호 88)) 쌍을 사용하여 PCR을 수행했으며, C0은 프로토스페이서 서열에 상보성이었다. 다음으로, 증폭 생성물(각각 A1/R0 및 C0/R0 프라이머 쌍에 대해 148 bp 및 145 bp)을 GeneJet PCR 정제 키트(Thermo Fisher Scientific)를 사용하여 정제하였다.

다음으로, Illumina 심층 서열분석에 필요한 서열과 인덱스를 Cas-알파 절단된 DNA 단편의 말단으로 혼입시키고, 생성물을 심층 서열분석하였다(도 3 단계 VI). 이는 제조사의 지침에 따라 HF 완충제(New England Biolabs) 중에서 Phusion High-Fidelity PCR Master Mix를 사용하여 2회의 PCR을 통해 달성되었다. 20 ng의 Cas-알파 절단된 어댑터 결찰 PAM 측 주형을 사용하여 1차 PCR를 조립하였고, 10 사이클 동안 진행되게 하였다. 이 반응은 어댑터에 혼성화할 수 있는 정방향 프라이머인 F1(5'-CTACACTCTTTCCCTACACGACGCTCTTCCGATCTAAGGCGGC-ATTCCTGCTGAAC-3'(서열번호 89)) 및 PAM 무작위화 영역의 부위 3'에 결합하는 역방향 프라이머인 R1(5'-CAAGCAGAAGACGGCATACGAGCTCTTCCGATCTCGGCGACGTTGGGTC-3'(서열번호 90))을 사용한다. 어댑터 결찰된 PAM 단편에 혼성화하는 것 외에도, 프라이머는 또한 이들의 5' 말단에서 연장되는 Illumina 서열을 포함한다. 정방향 프라이머의 경우, 추가 서열은 브리지 증폭에 필요한 서열의 일부(5'-CTACACTCTTTCCCTACACGACGC-TCTTCCGATCT-3'(서열번호 91))에 이어, 동시에 서열분석되는 경우 여러 앰플리콘이 디컨볼루션되게 하는 상호 호환 가능한 고유한 인덱스 서열(5'-AAGG-3')을 포함한다. 역방향 프라이머의 경우, 추가 서열은 앰플리콘의 3' 말단에서 브리지 증폭에 필요한 서열(5'-CAAGCAGAAGACGGCATACGAGCTC-TTCCGATCT-3'(서열번호 92))만으로 구성된다. 다음의 PCR 주기 조건을 사용하였다: 95℃ - 30초 초기 변성, 95℃ - 10초, 60℃ - 15초, 72℃ - 5초 변성, 어닐링 및 합성의 10회 사이클 및 최종 확장을 위한 72℃ - 5분. 1차 PCR 후, 2 ㎕(총 부피 50 ㎕)의 1회차 PCR을 주형으로 사용하여 2회차의 PCR 증폭을 수행하였다. 2차 PCR에서 사용한 정방향 프라이머 F2(5'-AATGATACGGCGACCACCGAGATCTACACTCTTT-CCCTACACG-3'(서열번호 93))는 F1의 5' 영역에 혼성화하여 Illumina 심층 서열분석에 필요한 서열을 더 연장한다. 2차 PCR에 사용한 역방향 프라이머인 R2(5'-CAAGCAGAAGACGGCATA-3'(서열번호 94))는 1차 PCR 앰플리콘의 3' 말단에 간단히 결합한다. 다음의 PCR 주기 조건을 사용하였다: 95℃ - 30초 초기 변성, 95℃ - 10초, 58℃ - 15초, 72℃ - 5초 변성, 어닐링 및 합성의 10회 사이클 및 최종 확장을 위한 72℃ - 5분. 라이브러리 생성 후, 증폭물을 제조사의 지침에 따라 QIAquick PCR 정제 키트(Qiagen)로 정제하고 등몰 농도로 단일 샘플에 합하였다. 다음으로, 라이브러리를 PhiX control v3(Illumina)의 25%(v/v) 스파이크와 함께 MiSeq Personal Sequencer(Illumina) 상에서 단일 판독 심층 서열분석하고, 제조사의 지침에 따라 서열들을 후처리하고 디콘볼루션시켰다. 본래의 PAM 라이브러리 또한 하류 PAM 분석에 영향을 미치는 고유한 편향을 설명하기 위한 대조군으로서 서열분석하였음을 유의한다. 이는 1차 PCR의 정방향 프라이머인 C1(5'-CTACACTCTTTCCCTACACGACGCTCTTCCGATCTGGAATAAACGCTAAAGAGGAAGAGG-3'(서열번호 95))이 절단되지 않은 PAM 라이브러리의 프로토스페이서 영역에 직접 혼성화하므로, 이것이 F1 대신 사용된다는 점을 제외하고는 위에 기재된 바와 같이 수행된다.

다음에, Cas-알파 절단 단편에서 PAM의 존재에 대해 검색함으로써 이중가닥 DNA 표적 인식의 증거를 평가하였다. 이것은 표적 영역 내에서 이중 가닥 DNA 절단 및 어댑터 결찰의 모든 가능한 결과를 나타내는 서열 모음을 먼저 생성함으로써 달성되었다. 예를 들어, 표적의 21번째 위치 직후에서의 절단 및 어댑터 결찰은 다음 서열(5'-CCGCTCTTCCGATCTGCCGGCGACGTTGGGTCAACT-3' (서열번호 96))을 생성하며, 여기서 어댑터 및 표적 서열은 각각 5'-CCGCTCTTCCGATCT-3'(서열번호 97) 및 5'-GCCGGCGACGTTGGGTCAACT-3'(서열번호 98)을 포함한다. 다음으로, 이들 서열은 7 bp의 PAM 영역(5'-TGTCCTCTTC-3'(서열번호 99))의 10 bp의 서열 5'와 함께 서열 데이터세트에서 검색되었다. 일단 확인되면, 5' 및 3' 측접 서열을 트리밍함으로써 개재 PAM 서열을 단리시켰다. 다음으로, 추출된 PAM 서열의 빈도를 초기 라이브러리에 고유한 편향을 설명하기 위해 본래의 PAM 라이브러리에 대해 정규화하였다. 먼저, 동일한 PAM 서열을 열거하고, 데이터세트의 총 판독치에 대해 빈도를 계산하였다. 그런 다음, 다음 식을 사용하여 각 PAM에 대해 정규화를 수행하여, 초기 라이브러리에서 과소 또는 과도하게 표현된 PAM 서열을 설명하였다:

정규화된 빈도 = (처리 빈도)/(((제어 빈도)/(평균 제어 빈도)))

정규화 후, 위치 빈도 매트릭스(PFM)를 계산하였다. 이는 각 PAM과 관련(정규화)된 빈도를 기반으로 각 위치에서 각 뉴클레오티드에 가중치를 부여하여 수행되었다. 예를 들어, 5'-CGGTAGC-3'의 PAM이 0.15%의 정규화된 빈도를 갖는 경우, 제1 PAM 위치에 대한 뉴클레오티드 빈도를 결정할 때 제1 위치의 C에 0.15%의 빈도가 주어진다. 다음에, 데이터세트의 각 위치에서 각 뉴클레오티드의 전반적 기여를 합산하고, Cas-알파 PAM 선호도를 나타내는 가장 흔한 뉴클레오티드를 갖는 표로 조직화하였다.

Cas-알파 표적 절단 및 어댑터 결찰에 의해 생성되는 독특한 접합을 시험함으로써 Cas-알파 이중가닥 DNA 표적 절단에 대한 증거를 평가하였다. 처음에, T2 표적 영역 내의 이중가닥 DNA 절단 및 어댑터 결찰의 모든 가능한 결과를 나타내는 서열 수집을 생성하였다(상기에 상세히 설명한 바와 같음). 다음에, 음성 대조군(Cas-알파가 없는 실험 설정)에 대한 각 Illumina 서열 데이터세트에서 얻어진 서열의 빈도를 시험하였다. Illumina 서열이 과량으로 회복되어 음성 대조군 이상으로 판독치 범위의 피크 또는 스파이크를 초래한 프로토스페이서-어댑터 결찰 위치를 표적화된 DNA 절단 증거로서 간주하였다.

실시예 6: Cas-알파 이중가닥 DNA 표적 인식 및 절단

본 실시예에서, Cas-알파 이중가닥 DNA 표적 인식 및 절단을 부여하는 분자 특징을 확인한다.

Cas-알파는 PAM-의존적 dsDNA 엔도뉴클레아제이다

Cas-알파 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 엔도뉴클레아제는 프로토스페이서 인접 모티프(PAM)의 필요 없이 단일 가닥 DNA 표적만을 절단하는 것으로 보고되었다(Harrington, L. B. et al. (2018) Science. 10.1126/science.aav4294). 본 실시예에서, 본 발명자들은 CRISPR-Cas 엔도뉴클레아제의 이런 신규한 그룹이, 1) PAM와 2) 가이드 RNA의 조합을 요구하여 3) 이중가닥 DNA 표적 부위를 인식 및 절단한다는 증거를 제공한다.

표 4에 나타낸 바와 같이, 플라스미드 R-225(T2 서열을 표적화하도록 변형된 완전히 온전한 Cas-알파 CRISPR-Cas 좌위를 포함)를 이용할 때 Cas-알파1에 대한 PAM 선호도를 회복하여 Cas-알파 이중가닥 DNA 표적 인식의 제1 증거를 제공한다. PAM 영역의 21번 위치 bp 3'에서 표적 DNA 절단 및 어댑터 결찰을 추정할 때 PAM 선호도만이 발생되었다. 이중가닥 DNA 절단 활성을 확인하기 위해, T2 표적 서열(서열번호 101)의 바로 5'의 비무작위화된 PAM(5'-TTAT-3')으로 이루어진 고정된 이중가닥 DNA 표적 서열(서열번호 100)을 포함하는 플라스미드 DNA를 작제하였다. 이어서, 플라스미드 R-225 및 R-654(실시예 3 참조) 및 고정된 표적 서열을 이용하여, 실험을 반복하였다. 도 4a 내지 도 4e에 나타내는 바와 같이, 이들 실험은 음성 대조군에 비해 앞서 언급한 위치에서 회복된 서열 판독의 스파이크를 초래하였다. R-654에 대해, T7 IPTG 유도성 프로모터는 PAM의 21번 위치 하류 바로 다음에 회복된 판독 분획을 향상시켰다(모든 판독의 거의 40%에 접근함).

관찰된 이중가닥 DNA 표적 인식 및 관찰된 절단 활성이 Cas-알파1, tracrRNA 암호화 영역 및 변형된 CRISPR 어레이만의 결과라는 것을 확인하기 위해, 최소 Cas-알파 CRISPR-Cas 좌위(Cas-알파 유전자, tracrRNA를 암호화하는 영역, 및 변형된 CRISPR 어레이 중 하나만을 포함함) 및 고정된 이중가닥 DNA 표적 서열을 포함하는 플라스미드(R-657)를 이용하여 실험을 수행하였다. 도 4d에 도시한 바와 같이, PAM의 21번째 위치 3'에서 유사한 절단 서명을 회복하였다. 최종적으로, Cas-알파가 관찰된 절단 활성을 필요로 한다는 것을 입증하기 위해, Cas-알파 유전자를 CRISPR-Cas 좌위(R-658)로부터 제거하였을 때 실험을 또한 수행하였다. 도 4e에 나타낸 바와 같이, DNA 절단 활성은 검출되지 않았다. 종합하면, 이는 Cas-알파 이중가닥 DNA 표적 절단에 대한 첫 번째 증거를 제공한다.

제2 Cas-알파 단백질, Cas-알파4에 대한 이중 가닥 DNA 표적 인식 및 절단을 시험하였다(서열번호 20). 단독 Cas-알파4 발현 카세트를 이용하여(실시예 2 및 도 3 참조), 문헌[Karvelis et al., 2015]에 기재된 7 bp 무작위화된 PAM 라이브러리에 인접한 서열인 T7 전사된 가이드 RNA(들) 표적화 T2를 Cas-알파4 발현 단백질을 함유하는 이콜라이 용해물과 합하였다. 스페이서 인식에 대한 PAM 인식 배향을 결정하기 위해, T2 표적의 센스 또는 안티센스 가닥 중 하나를 갖는 염기쌍에 대해 가이드 RNA(들)를 설계하였다(표 5)(도 5). 센스 가닥을 갖는 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도의 회복을 초래하고 절단 신호를 수득한다면, 프로토스페이서는 안티-센스 가닥 상에 있고, PAM 인식은 이에 대해 3'에서 일어난다(도 5a). 대조적으로, 안티-센스 가닥과의 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도 및 절단 신호를 생성한다면, 프로토스페이서는 센스 가닥 상에 있고, PAM 인식은 이에 대해 배향 5'에서 일어난다(도 5b). T2 프로토스페이서 표적 내 각 위치에서 어댑터 결찰 빈도의 평가 시, 모든 판독의 거의 30%를 포함하는 피크는 PAM의 24번째 bp 3' 바로 뒤에서 회복되었다(도 6c 및 도 6e). 가이드 RNA 생성 절단 신호는 둘 다 프로토스페이서의 안티-센스 가닥을 표적화하도록 설계하였고, 따라서, PAM 인식이 프로토스페이서의 5'에서 일어난다는 것을 나타낸다. 다음에, Cas-알파4에 대해 PAM 인식을 평가하였다. 표 6 및 표 7에 나타낸 바와 같이, 가이드 RNA, T2-2 sgRNA 또는 T2-2 crRNA/tracrRNA를 사용하였을 때 Cas-알파2에 대해 Cas-알파1과 유사한 T-풍부 PAM 선호도를 또한 회복하였다.

전체적으로 생화학적인 환경에서 본 발명자들의 발견을 확인하기 위해, 이중-가닥 DNA 표적 절단을 시험관내에서 재구성하였다. 이중가닥 DNA 표적을 분해하기 위해 정제된 Cas-알파4 단백질(실시예 4) 및 시험관내 T7 전사된 단일 가이드 RNA(sgRNA)(서열번호 77)(실시예 2)를 이용함으로써 이를 달성하였다. 처음에, 리보핵단백질(RNP) 복합체를 형성하기 위해, 1:1 몰비의 Cas-알파4 및 sgRNA를 37℃에서 30분 동안 복합체 조립 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl, 1 mM EDTA, 1 mM DTT)에서 인큐베이션시켰다. 이어서, 100 nM의 얻어진 RNP를 반응 완충제(2.5 mM 트리스-HCl, 37℃에서 pH 7.5, 25 mM NaCl, 0.25 mM DTT 및 10 mM MgCl₂)에서 Cas-알파4 PAM(5'-TTTA-3')에 측접된 sgRNA 표적 서열을 포함하는 3 nM의 수퍼코일(SC) 또는 선형화된 플라스미드 DNA와 합하고, 37℃에서 30분 동안 인큐베이션시켰다. 이어서, 반응을 중단시키고, 비변성 아가로스겔 전기영동 및 브롬화에티듐 염색에 의해 분석하였다. 도 15a에 나타낸 바와 같이, SC 플라스미드 DNA는 선형 형태(FLL)로 완전히 전환되었고, 따라서, dsDNA 파손 형태를 도시한다. 추가적으로, 선형 DNA의 절단은 Cas-알파 4 매개 dsDNA 파손 형성을 추가로 입증하는 예상된 크기의 DNA 단편을 초래하였다(도 15a). 다음에, PAM 또는 sgRNA 표적 중 하나를 제외함으로써, 본 발명자들은 Cas-알파4가 dsDNA 표적을 절단하기 위해 PAM 및 가이드 RNA를 절대적으로 필요로 한다는 것을 확인하였다(도 15b).

Cas-알파4에 의해 생성된 dsDNA 파손 유형을 다음에 시험하였다. 런-오프(run-off) 서열분석을 이용하여, 본 발명자들은 Cas-알파4가 5' 엇갈린 돌출부 DNA 절단 부위를 생성한다는 것을 관찰하였다. 절단은 PAM-서열에 대해 20 내지 24 bp 위치 주변에 집중되어 우세하게 나타났다(도 15c).

다음에, 본 발명자들은 dsDNA 표적 인식 후에 Cas-알파4가 비특이적 ssDNA 분해 활성을 유도하는지의 여부를 조사하였다. 본 명세서에서, 5' PAM 및 인접한 sgRNA 표적을 포함하는 100 nM의 dsDNA를 활성인자로서 사용하고, 100 nM의 M13 단일-가닥 DNA가 Cas-알파4 유도 ssDNase 활성을 검출하는데 포함된다는 것을 제외하고 상기 기재한 바와 같이 반응을 조립하였다. dsDNA 표적화가 무분별한 ssDNA 절단의 전제 조건이라는 것을 예시하기 위해 sgRNA 없이 반응을 또한 설정하였다. 도 15d에 나타낸 바와 같이, Cas-알파4의 트랜스-작용성 ssDNase 활성을 가이드 RNA의 존재 하에서만 dsDNA에 의해 활성화시켰다.

본 발명자들의 발견의 넓은 적용 가능성을 조사하기 위해, Cas-알파s 2 (서열번호 18), 3(서열번호 19), 5(서열번호 32), 6(서열번호 33), 7(서열번호 34), 8(서열번호 35), 9(서열번호 36), 10 (서열번호 37) 및 11(서열번호 38)을 또한 이중가닥 DNA 표적 인식 및 절단에 대해 평가하였다. 박테리아 T7 발현 카세트(pETduet-1 (MilliporeSigma)) 내로 합성된 최소 CRISPR-Cas 좌위(cas-알파 엔도뉴클레아제 유전자, tracrRNA를 암호화하는 영역 및 T2 변형된 CRISPR 어레이를 포함(도 3))를 이용하여, 실시예 4에 기재한 바와 같이 그리고 IPTG 유도 없이 이콜라이 용해물 실험을 수행하였다. 도 16a 내지 도 16t에 나타낸 바와 같이, Cas-알파 5를 제외하고 모두에 대해 이중가닥 DNA 표적 절단을 검출하였다. 일반적으로 그리고 Cas-알파 1 및 4에 의한 결과와 유사하게, PAM 무작위화 영역의 프로토스페이서 21번 및 24번 위치 3'은 가장 높은 빈도의 어댑터-결찰 판독을 나타내었다. Cas-알파 1 및 4와 유사하게, 5' PAM 인식을 또한 회복하였다(표 8 내지 표 15).

종합하면, 본 명세서에 기재된 데이터는 가이드 RNA(들)가 5' PAM의 존재 하에 이중가닥 DNA 표적 부위를 인식 및 절단하도록 Cas-알파 단백질에 지시한다는 증거를 제공한다.

Cas-알파 절단을 위한 최적 조건의 결정

당업계에 공지된 방법을 이용하여 dsDNA의 최적의 RNA-가이드 Cas-알파 엔도뉴클레아제 절단에 대한 파라미터 및 조건을 결정하기 위한 생화학적 실험을 수행하였다. 간략하게, 정제된 Cas-알파 단백질 및 T7 전사된 가이드 RNA를 복합체 어셈블리(CA) 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl 및 1 mM DTT)에서 인큐베이션시켰다. 이어서, 얻어진 RNP 복합체를 가이드 RNA에 대해 상보성을 갖는 영역에 바로 인접한 5' PAM을 포함하는 이중가닥 플라스미드 DNA와 조합하였다(예를 들어, 도 5b에 도시한 바와 같음). 이어서, 절단 반응을 다양한 조건 하에 반응(R) 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl 및 1 mM DTT, 10 mM MgCl₂)에서 수행하였다. 금속 보조인자를 분석하는 실험을 위해, 완충제 R 중 마그네슘을 코발트(Co²⁺), 망간(Mn²⁺) 또는 니켈(Ni²⁺)로 대체하였다. 수퍼코일(SC), 틈내기한 개방 원(open circle: OC), 및 전장 선형화된(FLL) 산물의 비를 시험함으로써 수퍼코일 이중-가닥 플라스미드 DNA 절단을 평가하였다. 선형 이중-가닥 플라스미드 DNA 기질에 대해, 보다 소형의 절단 산물에 대한 비절단 산물의 분획을 사용하여 절단 효율을 계산하였다.

실시예 7: 진핵생물 게놈 편집 및 조작을 위한 Cas-알파 성분의 최적화

본 실시예에서, 진핵 세포 내로 전달을 위한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 카세트 또는 정제된 성분을 최적화하는 방법을 기재한다.

일 방법에서, 진핵 세포에서 효율적인 발현을 부여하기 위해, 신규한 Cas 엔도뉴클레아제 유전자인 cas-알파를 당업계에 공지된 표준 기법에 따라 코돈 최적화하였고, 선택적으로 (식물 형질전환을 위해 사용한) 이콜라이 또는 아그로박테리움(Agrobacterium)에서 이의 발현을 제거하기 위해 인트론을 도입하였다. 제아 메이스에서 사용하기 위해, 감자 ST-LS1 인트론 2(서열번호 106)를 사용하였지만, 다른 인트론이 작동되었다. 진핵 세포에서 최적화된 Cas-알파 엔도뉴클레아제 단백질의 핵 국재화를 용이하게 하기 위해, 유인원 바이러스 40(SV40) 단립형 핵 국재화 신호(NLS)를 암호화하는 뉴클레오티드 서열(서열번호 107)을 5', 3', 또는 5'과 3' 말단 둘 다에 첨가하였다. 다른 NLS를 또한 사용할 수 있다. 예를 들어, 인간 세포 배양 실험에서, 뉴클레오플라스민(Nuc)으로부터의 2부분 NLS를 암호화하는 서열(서열번호 108)을 인간 코돈 최적화된 유전자의 3' 말단에 선택적으로 현수하였다. 이어서, 상이한 메이즈 최적화된 Cas-알파 엔도뉴클레아제 유전자 및 핵 국재화 신호 변이체의 뉴클레오티드 서열을 표준 분자 생물학 기법에 의해 프로모터(인간 세포 배양물 발현 작제물에 대해 메이즈 발현 작제물 및 닭 β-액틴 프로모터(서열번호 110)에 대한 유비퀴틴(UBI) 프로모터(서열번호 109)) 및 선택적으로 인핸서(예를 들어, 인간 세포 게놈 편집을 위한 거대세포바이러스(CMV) 인핸서(서열번호 111)) 및 적합한 종결자에 작동 가능하게 연결하였다. 발현을 추가로 향상시키기 위해, 5' 비번역 영역(UTR)(예를 들어, 제아 메이스 게놈 편집에 대해, 이하로 제한되는 것은 아니지만, 메이즈 UBI 5' UTR(서열번호 112)) 및 추가적인 인트론(예를 들어, 메이즈 게놈 편집에 대해 UBI 제아 메이스 인트론 1(서열번호 113) 및 인간 세포 게놈 편집에 대해 합성 "혼성" 인트론(서열번호 114))을 포함할 수 있다. 추가적으로, 감소된(예를 들어, 이하로 제한되는 것은 아니지만, 사카로마이세스 세레비시애 게놈 편집에 대해 ROX3 프로모터(서열번호 136)) 또는 제어된(예를 들어, 이하로 제한되는 것은 아니지만, 사카로마이세스 세레비시애 게놈 편집에 대해 GAL 프로모터(서열번호 137)) 발현이 바람직할 수 있다. 진핵 세포 최적화된 DNA 발현 작제물의 예를 도 10a 내지 도 10d에 도시한다.

Cas-알파 엔도뉴클레아제는 이중 가닥 DNA를 절단하기 위해 소형 RNA(본 명세서에서 가이드 RNA로 지칭됨)에 의해 유도된다. 이들 가이드 RNA는 Cas-알파에 의한 인식을 보조하는 서열(Cas-알파 인식 도메인으로 지칭됨) 및 DNA 표적 부위의 한 가닥과 염기쌍을 형성하여 Cas-알파 절단을 유도하는 작용을 하는 서열(Cas-알파 가변 표적화 도메인)을 포함한다. 메이즈 세포에서 Cas-알파 엔도뉴클레아제 절단 활성을 유도하기 위해 필요한 소형 RNA를 전사하기 위해, U6 중합체라아제 III 프로모터(서열번호 115) 및 종결자(TTTTTTTT)를 메이즈로부터 단리시키고, 전사 시 Cas-알파에 대한 적합한 가이드 RNA를 생성할 DNA 서열의 말단에 작동 가능하게 융합한다. 대안적으로, HEK293 세포에 대해, 인간 게놈으로부터의 U6 프로모터(서열번호 116)를 단리시키고, 가이드 RNA 발현을 유도하기 위해 사용하고, U6 종결자가 없는 선형 단편을 이용한다. U6 중합효소 III 프로모터로부터 가이드 RNA의 최적 전사를 촉진하기 위해, G 뉴클레오티드를 전사될 서열의 5' 말단에 첨가한다. 리보자임 모티프(Gao, Y. et al. (2014) J Integr Plant Biol. 56:343-349)), RNase P 및 Z 절단 부위(Xie, K. et al. (2015) Proc. Natl. Acad. Sci. USA. 112:3570-3575), 및/또는 Csy4(Cas6 또는 CasE) 리보뉴클레아제 인식 부위(Tsai, S.Q. et al. (2014) Nat Biotechnol. 32:569-576.)와 조합한 중합효소 II 프로모터(예를 들어, 이하로 제한되지 않는, Cas-알파 엔도뉴클레아제 발현에 대해 열거한 것)를 또한 사용하여 가이드 RNA를 발현시킬 수 있다. 게다가, 이들 전략에 의해 제공된 RNA 가공은 또한 단일 중합효소 II 또는 III 프로모터 중 하나로부터의 다중 가이드 RNA를 발현시키기 위해 이용될 수 있다(문헌[Gao, Y. et al. (2014)], 문헌[Xie, K. et al. (2015)] 및 문헌[Tsai, S.Q. et al. (2014)]). 진핵생물 최적화된 Cas-알파 가이드 RNA 발현 작제물의 예를 도 11a 내지 도 11d에 도시한다.

다른 방법에서, Cas-알파 엔도뉴클레아제 및 가이드 RNA 리보핵단백질(RNP) 복합체를 제조하고, 진핵 세포에 직접 전달하였다. 이를 달성하기 위해, Cas-알파 유전자, 즉, 천연 또는 코돈 최적화된 이콜라이 중 하나를 6X 히스티딘(His)을 암호화하는 서열(서열번호 82) 또는 스트렙타비딘(strep II)(서열번호 117) 태그, 말토스 결합 단백질(MBP) 태그(서열번호 83)로 현수하고, 담배 식각 바이러스 절단 부위(TEV)(서열번호 84), 및 NLS(서열번호 107 및 108 중 하나)는 cas-알파 유전자의 N- 또는 C-말단 중 하나에서 또는 N-말단과 C-말단 단부 둘 다에 포함하였다(도 12). 다음에, 얻어진 서열을 아라비노스 유도성 이콜라이 발현 카세트(pBAD24) 내로 합성하였다(GenScript). 얻어진 조작된 유전자의 예를 도 12에 나타낸다. 이어서, Cas-알파 단백질을 이콜라이에서 재조합적으로 발현시키고(예를 들어, 이하로 제한되는 것은 아니지만, ArcticExpress(DE3)(ThermoFisher Scientific), 당업계에 공지된 방법을 이용하여 크로마토그래피에 의해 정제하였다. TEV 프로테아제(ThermoFisher Scientific)를 이용하여 태그(His, strep II 및 MBP)를 선택적으로 제거하였다.

다음에, T7 중합효소를 이용하여 시험관내에서 Cas-알파 가이드 RNA를 합성하였다. sgRNA를 암호화하는 선형 DNA(중복 올리고(IDT)로서 합성하고, 이어서, PCR에 의해 이중가닥 DNA로 전환하거나 합성하고(GenScript), 이어서, PCR에 의해 증폭시킴)를 주형으로서 사용하였다.

최종적으로, 복합체 조립체(CA) 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl 및 1 mM DTT)에서 정제된 Cas-알파 단백질을 가이드 RNA와 함께 인큐베이션시킴으로써 RNP 복합체를 제조하고, 진핵 세포에 전달하였다.

실시예 8: 진핵생물 게놈 편집 및 조작을 위한 최적화된 Cas-알파 시스템 성분의 형질전환

본 실시예에서, 게놈 편집 및 조작을 위해 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합된 가이드 폴리뉴클레오티드(들)를 진핵 세포에 도입하는 방법을 기재한다.

제아 메이스 형질전환

DNA 발현 카세트의 입자 매개 전달

BBM 및 WUS2 유전자의 존재 하에 Hi-타입 II 8 내지 10일령의 미숙 메이즈 배아(IME)의 유전자총 형질전환을 문헌[Svitashev et al. (2015) Plant Physiology. 169:931-945]에 기재한 바와 같이 수행하였다. 간략하게, TransIT-2020를 이용하여 DNA 발현 카세트를 0.6 μM(평균 크기) 금 입자에 공동 침전시켰다. 다음에, DNA 코팅된 금 입자를 원심분리에 의해 펠릿화하고, 무수 에탄올로 세척하고, 음파처리에 의해 재분산시켰다. 음파 처리 후, DNA 코팅된 금 입자 10 ㎕를 매크로캐리어(macrocarrier) 상에 로딩하고, 공기 건조시켰다. 파열판의 평방인치당 425 파운드로 PDS-1000/He 총(Gun)(Bio-Rad)을 이용하여 바이오리스틱(biolistic) 형질전환을 수행하였다. 입자 총 형질전환은 매우 가변적일 수 있으므로, 균일하게 형질전환된 IME의 선택을 보조하기 위해 황색 형광 단백질(YFP)을 암호화하는 시각 마커 DNA 발현 카세트를 또한 공동 전달하였고 각각의 처리를 3개씩 수행하였다. Cas-알파 결합 또는 돌연변이 활성에 최적인 식물 형질전환 배양 조건을 결정하기 위해, 형질전환된 IME를 28℃에서 48시간 동안, 또는 28℃보다 낮거나 또는 보다 높은 온도 범위에서 인큐베이션시켜 Cas-알파 게놈 편집에 대해 최적인 온도를 확립한다.

입자-매개 리보핵단백질 전달

Cas-알파 및 연합된 가이드 폴리뉴클레오티드(들) 리보핵단백질(RNP) 복합체(들)를 문헌[Svitashev, S. et al. (2016) Nat. Commun. 7:13274]에 기재된 바와 같이 유전자총 형질전환에 의해 전달할 수 있다. 간략하게는, RNP(및 선택적으로 DNA 발현)를 다음과 같이 수용성 양이온성 지질 TransIT-2020(Mirus)을 사용하여 0.6 ㎜(평균 지름)의 금 입자(Bio-Rad) 상에 침전시킨다: 50 ㎖의 금 입자(10 ㎎/㎖의 물 현탁액) 및 2 ㎖의 TransIT-2020 수용액을 미리 혼합된 RNP(및 선택적으로 DNA 발현 벡터)에 첨가하고, 부드럽게 혼합하고, 얼음 위에서 10분 동안 인큐베이션한다. 이어서, RNP/DNA-코팅 금 입자를 8,000 g에서 30 s 동안 마이크로퓨지(microfuge)에서 펠릿화하고, 상청액을 제거한다. 그런 다음, 펠렛을 짧게 초음파 처리하여 50 ㎖의 멸균수에 재현탁시킨다. 초음파 처리 직후, 코팅된 금 입자를 마이크로캐리어(각각 10 ㎖)에 로딩하고 공기 건조시킨다. 수분(pollination)의 8 내지 10일 후에 미숙 메이즈 배아를 평방 인치당 425 파운드의 파열 압력으로 PDS-1000/He 총(Bio-Rad)을 이용하여 입자 충돌시킨다. 당업계에 공지된 방법을 이용하여 입자 충돌 후 배양, 선택, 및 식물 재생을 수행한다.

아그로박테리움 매개 형질전환

문헌[Djukanovic et al. (2006) Plant Biotech J 4:345-57]에 기재한 바와 같이 아그로박테리움-매개 형질전환을 본질적으로 수행한다. 간략하게, 10~12일령의 미숙 배아(0.8~2.5 ㎜의 크기)를 멸균 속씨로부터 절개하고 액체 배지(4.0 g/ℓ의 N6 기저염(Sigma C-1416), 1.0 ㎖/ℓ의 Eriksson의 Vitamin Mix(Sigma E-1511), 1.0 ㎎/ℓ의 티아민 HCl, 1.5 ㎎/ℓ의 2,4-D, 0.690 g/ℓ의 L-프롤린, 68.5 g/ℓ의 수크로스, 36.0 g/ℓ의 글루코스, pH 5.2)에 넣었다. 배아를 수집한 후에, 배지를 0.35 내지 0.45 OD550의 농도에서 1 ㎖의 아그로박테리움으로 대체한다. 메이즈 배아를 아그로박테리움으로 실온에서 5분 동안 인큐베이션한 다음, 혼합물을 배지 플레이트(4.0 g/ℓ의 N6 기저염(Sigma C-1416), 1.0 ㎖/ℓ의 Eriksson의 Vitamin Mix(Sigma E-1511), 1.0 ㎎/ℓ의 티아민 HCl, 1.5 ㎎/ℓ의 2,4-D, 0.690 g/ℓ의 L-프롤린, 30.0 g/ℓ의 수크로스, 0.85 ㎎/ℓ의 질산은, 0.1 nM 아세토시린곤, 및 3.0 g/ℓ의 겔라이트를 함유, pH 5.8)에 붓는다. 배아를 20℃에서 3일 동안 암실에서 축을 아래로 인큐베이션시키고, 이어서, 암실 내에서 DNA 추출을 위해 이들을 채취할 수 있는 시간에 28℃에서 4일 동안 인큐베이션시켰다.

안정한 형질전환을 위한 다른 변형에서, 이어서, 배아를 4.0 g/ℓ의 N6 기저염(Sigma C-1416), 1.0 ㎖/ℓ의 Eriksson의 Vitamin Mix(Sigma E-1511), 1.0 ㎎/ℓ의 티아민 HCl, 1.5 ㎎/ℓ의 2,4-D, 0.69 g/ℓ의 L-프롤린, 30.0 g/ℓ의 수크로오스, 0.5 g/ℓ의 MES 완충제, 0.85 ㎎/ℓ의 질산은, 3.0 ㎎/ℓ의 비알라포스, 100 ㎎/ℓ의 카베니실린, 및 6.0 g/ℓ의 한천을 함유한 pH 5.8의 새로운 배지 플레이트에 옮긴다. 유전자이식 사건이 확인될 때까지 배아를 3주마다 계대배양한다. 소량의 조직을 재생 배지(4.3 g/ℓ의 MS 염(Gibco 11117), 5.0 ㎖/ℓ의 MS 비타민 원액, 100 ㎎/ℓ의 미오-이노시톨, 0.1 μM의 ABA, 1 ㎎/ℓ의 IAA, 0.5 ㎎/ℓ의 제아틴, 60.0 g/ℓ의 수크로스, 1.5 ㎎/ℓ의 비알라포스, 100 ㎎/ℓ의 카르베니실린, 3.0 g/ℓ의 겔라이트, pH 5.6) 상에 옮기고 28℃에서 2주 동안 암소에서 인큐베이션시켜 체세포 배아발생을 유도한다. 가시적인 순 및 뿌리를 갖는 모든 물질을 4.3 g/ℓ의 MS 염(Gibco 11117), 5.0 ㎖/ℓ의 MS 비타민 원액, 100 ㎎/ℓ의 미오-이노시톨, 40.0 g/ℓ의 수크로오스, 1.5 g/ℓ의 겔라이트를 포함하는 pH 5.6의 배지 상에 옮기고, 28

에서 인공광 하에 인큐베이션한다. 1주 후, 작은 식물을 동일한 배지를 포함하는 유리 튜브 내로 옮기고 이들을 샘플링하고/하거나 토양 내로 이식할 때까지 키운다.

HEK293 형질전환

세포 배양 리포펙션

37℃에서 5% CO₂로 10% FBS(Gibco) 및 페니실린/스트렙토마이신(Gibco)과 함께 DMEM(Gibco)에서 HEK293(ATCC) 세포를 배양하였다. 형질감염 전날에 세포를 96-웰 플레이트에서 3.6×10⁴개의 밀도로 파종하였다. 20 p㏖의 정제된 단백질을 25 ㎕ Opti-MEM(Gibco) 중 20 p㏖의 sgRNA와 혼합함으로써 NLS-태그된 Cas-알파 RNP 복합체를 조립하고 실온에서 30분 동안 인큐베이션시켰다. 복합체 조립 후에, 1.2 ㎕의 리포펙타민 3000(Thermo Fisher Scientific)을 함유하는 25 ㎕의 Opti-MEM을 첨가하고, 혼합물을 추가 15분 동안 실온에서 인큐베이션시킨 후에 세포를 형질감염시켰다. QuickExtract DNA 추출 용액(Lucigen)을 이용하여 형질감염 후 72시간에 게놈 DNA를 추출하고, DNA 이중 가닥 파손 및 수선을 나타내는 돌연변이의 존재에 대해 표적 부위를 둘러싸는 영역을 평가하였다.

세포 배양 전기천공법

Cas9 RNP를 Lonza 4D-Nucleofector 시스템 및 SF 세포주 4D-Nucleofector® X 키트(Lonza)를 사용하여 HEK293(ATCC 카탈로그 번호 CRL-1573) 세포로 전기천공시켰다. 각각의 전기천공에 대해, 실온에서 20분 동안 17 ㎕의 부피의 뉴클레오펙터 용액 중 50 p㏖의 Cas9 단백질과 100 p㏖의 sgRNA를 인큐베이션시켜 RNP를 형성하였다. Ca++ 또는 Mg++이 없는 1×PBS(ThermoFisher)로 세척한 TrypLE™ Express Enzyme 1×(ThermoFisher)를 사용하여 배양 용기에서 HEK293 세포를 방출시키고, LUNA™ 자동 세포 계수기(Logos Biosystems)를 사용하여 계수하였다. 각각의 전기천공에 대해, 1x 10^5의 살아 있는 세포를 9 ㎕의 전기천공 용액에 재현탁시켰다. 세포와 RNP를 혼합하고 16 웰 스트립의 한 웰로 옮기고 CM-130 프로그램을 사용하여 전기천공하였다. 75 ㎕의 예열된 배양액을 각 웰에 첨가하고, 생성된 재현탁 세포 10 ㎕를 예열된 배양 배지 125 ㎕를 함유하는 96 웰 배양 용기의 웰에 분배하였다. 전기천공된 세포를 48 내지 96시간 동안 가습 인큐베이터에서 37℃, 5%의 CO2에서 인큐베이션한 후, 게놈 편집을 분석하였다.

사카로마이세스 세레비시애 형질전환

몇 가지 방법(아세트산리튬, 폴리에틸렌 글리콜(PEG), 열 충격, 전기천공법, 바이오리스틱 및 기타)을 사용하여 사카로마이세스 세레비시애를 형질전환시킬 수 있다(Kawai, S. et al. (2010) Bioengineered Bugs. 1:395-403). 본 명세서에서 본 발명자들은 냉동-EZ 효모 형질전환 키트(Zymo Research, T2001)를 이용하여 리튬 양이온-기반 방법과 유사한 접근을 사용하였다. 제조업자의 지침에 따라, 사카로마이세스 세레비시애 적격 세포를 생성하였다. 효모 추출물-펩톤-덱스트로스(YPD)(Gibco)에서 사카로마이세스 세레비시애(BY4742 (Baker, C. et al. (1998) Yeast. 14:115-132)(ATCC))를 0.8 내지 1.0의 OD 600 ㎚에 대응하는 대수증식기 중간까지 성장시킴으로써 이를 달성하였다. 다음에, 세포를 원심분리(4분 동안 500xg)에 의해 펠릿화하고, 배지를 디캔팅하고, 펠릿을 10 ㎖의 EZ 1 용액으로 약하게 세척하여, 세척 용액을 제거하기 전에 다시 세포를 스핀다운하였다. 다음에, 세포를 1 ㎖의 EZ 2 용액 중에서 재현탁시켰다. 이어서, 얻어진 적격 세포를 분취하고, -70℃에서 저장하거나 다음 단계에서 사용하였다. 다음에 0.5 내지 1 ㎍(5 ㎕ 미만)의 Cas-알파 및 가이드 RNA DNA 발현 카세트를 50 ㎕의 적격 세포에 첨가함으로써 형질전환을 수행하였다. 선택적으로, 예상된 Cas-알파 이중 가닥 파손 부위에 측접하는 상동성을 갖는 이중가닥 DNA 수선 주형을 또한 포함하였다(50 μM에서 0.5 ㎕). DNA에서 약하게 혼합한 후에, 500 ㎕의 EZ 3 용액을 첨가하였다. 다음에, 세포를 30℃에서 60 내지 90분 동안 인큐베이션하고, 인큐베이션의 지속에 걸쳐 세포를 3 내지 4회 플리킹(flicking) 또는 교반하였다. 형질전환 후에, 세포를 대략 3시간 동안 YPD에서 성장시키고, 펠릿화하고, 1 ㎖의 멸균수로 1회 세척하고, 1 ㎖의 멸균수에서 재현탁시키고, 이어서, 대략 200 ㎕를 선택 배지(예를 들어, 이하로 제한되는 것은 아니지만, 합성 배지 마이너스 히스티딘(SC-HIS))에 플레이팅하였다.

실시예 9: 진핵 세포에서 최적화된 Cas-알파/가이드 폴리뉴클레오티드 복합체의 기능성 형성

본 실시예에서, 진핵 세포에서 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합 가이드된 RNA(들)(폴리뉴클레오티드(들)) 복합체의 기능성 형성을 시험하기 위한 방법을 기재한다.

DNA 표적 부위 이중가닥 절단 및 세포 수선을 나타내는 삽입 및 결실(삽입결실) 돌연변이의 존재에 대해 하나 이상의 상이한 염색체 DNA 표적 서열을 시험함으로써 진핵 세포에서 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 가이드 RNA(s) 복합체의 기능성 형성을 모니터링하였다. 이를 문헌[Karvelis, T. et al. (2015) Genome Biology. 16:253 (Methods Section: in planta mutation detection)] 또는 DNA에서 변경을 검출하도록 고안된 다른 동등한 방법에 기재된 바와 같은 표적화된 심층 서열분석에 의해 수행하였다. 간략하게, 제아 메이스에 대해, 각 실험을 위해 형질전환의 2일 후에 이들의 형광에 기반하여 20 내지 30개의 가장 균일하게 형질전환된 미숙 배아(IE)를 채취하였다. 다음에, 전체 게놈 DNA를 추출하고, 의도되는 표적 부위 주변 영역을 앰플리콘 특이적 바코드 및 2회의 PCR 및 심층 서열분석을 통해 "테일링된(tailed)" 프라이머를 사용한 Illumina 서열분석을 위해 필요한 서열에 첨가하여 Phusion® 고충실도 PCR 마스터 믹스(New England Biolabs, M0531L)로 PCR 증폭하였다. 이어서 생성된 판독치를 소형 RNA 전사 카세트가 형질전환으로부터 생략된 대조 실험과의 비교에 의해 예상되는 절단 부위에서 돌연변이의 존재에 대해 조사하였다. 서열 판독은 대조군 데이터세트에서 이들의 부재를 확인함으로써 실제 돌연변이로서 추가로 입증된 추정 삽입결실을 포함한다.

사카로마이세스 세레비시애에 대해, DNA 추출, PCR 증폭 및 Illumina 심층 서열분석 전에 ade2 유전자의 붕괴로부터 초래된 적색 세포 표현형을 나타내는 콜로니(Ugolini et al. (1996) Curr. Genet. 30:485-492)을 선택한 것을 제외하고 유사한 접근을 적용하였다.

HEK293에 대해, 형질전환 후 72시간에 세포 배양물을 채취한 것을 제외하고 유사한 과정을 수행하였다.

도 13에 도시하고 표 16에 나타낸 바와 같이, Cas-알파 DNA 발현 작제물을 제아 메이스 IE에 전달하는 유전자총 실험은 Cas-알파4 및 가이드 RNA 복합체에 대한 염색체 DNA 표적 부위에서 그리고 이를 포괄하는 결실 돌연변이를 대부분 수득하였다. 이들 실험에서, 도 10b에 나타낸 바와 같은 발현(SV40 NLS를 암호화하는 서열을 유전자의 3' 말단에서 프레임에 첨가하는 것을 제외)에 대해 구성한 메이즈 코돈 최적화된 cas-알파4 유전자(서열번호 235)를 사용하였다. Cas-알파4(5'-TTTR-3', 여기서 R은 A 또는 G 잔기 중 하나를 나타냄; 표 7 참조)에 대해 적합한 PAM에 바로 인접한 염색체 DNA 표적과 염기 짝짓기를 할 수 있는 20 nt 영역을 갖는 sgRNA(표 19)을 도 11b에 도시한 바와 같이 제아 메이스 U6 프로모터로부터 발현시켰다. 이 예에서, 2개의 가이드 RNA를 사용하여 제아 메이스 Liguleless 좌위 내 2개의 표적 부위에서 Cas-알파4 절단을 지시하였다.

더 나아가, 도 18a 및 도 18b에 도시하고 표 17에 나타낸 바와 같이, Cas-알파10 DNA 발현 작제물을 제아 메이스 IE에 전달하는 유전자총 실험은 표적화된 결실의 회복을 초래하였다. 이들 실험에서, 도 10b에 나타낸 바와 같은 발현(SV40 NLS를 암호화하는 서열을 유전자의 3' 말단에서 프레임에 첨가하는 것을 제외)에 대해 구성한 메이즈 코돈 최적화된 cas-알파10 유전자(서열번호 236)를 사용하였다. Cas-알파10에 대해 적합한 PAM에 바로 인접한 염색체 DNA 표적과 염기 짝짓기를 할 수 있는 20 nt 영역을 갖는 sgRNA(표 19)을 도 11b에 도시한 바와 같이 제아 메이스 U6 프로모터로부터 발현시켰다. 메이즈 게놈에 안정하게 삽입한 식물 선택 가능 마커인 네오마이신 포스포트랜스퍼라제(nptII)의 발현을 유도하는 유전자이식 작제물을 Cas-알파10을 이용하는 절단을 위해 표적화하였다(5'-TTC-3'; 표 16). 도 18a 및 표 17에 나타낸 바와 같이, 예상된 절단 부위 내에서 유래되거나 확장된 대조군에서 발견되지 않는 결실(sgRNA 발현 카세트를 생략한 실험 설정)을 회복하였다. 본 발명자들의 발견을 확인하기 위해, 절단을 위해 (표 19의 sgRNA 10.25.ms26을 이용하여) ms26 유전자(Chr1:14,702,638-14,702,654(메이즈 B73 RefGen_4 (Jiao, Y. et al. (2017) Nature. 546:524-527))의 다섯번째 엑손 내의 단일 비유전자이식 염색체 DNA 표적을 또한 표적화하였다. nptII 표적과 같이, 뉴클레아제 절단 부위에서 또는 근처에서 이 부위는 또한 표적화된 결실을 생성하였다(도 18a, 도 18b 및 표 17).

사카로마이세스 세레비시애에서 표적 DNA 절단 및 수선을 또한 관찰하였다(도 19a 내지 도 19c). 본 명세서에서, Cas-알파 10 표적 부위에 측접하는 상동성을 갖는 외인성으로 공급된 DNA 수선 주형(이중가닥)을 사용하여 Cas-알파 10 유도 이중 가닥 파손(DSB) 후 ade2 유전자에 (DNA 수선 결과에 따라서) 1 또는 2개의 조기 중단 코돈을 도입하였다(도 19a). 추가적으로, 수선 주형의 표적화를 피하기 위해, 또한 Cas-알파 10에 대한 PAM 영역에서 T의 A로의 변화를 포함하였다. 나타낸 바와 같이, 도 19b에서, ade2 유전자 붕괴를 표시하는 적색 세포 표현형은 수선 주형과 Cas-알파10 및 sgRNA 발현 작제물이 모두 형질전환될 때 회복되었다. 효모 코돈 최적화된 유전자를 이용하여 도 10c에 나타낸 바와 같이 Cas-알파10 발현 작제물을 구성하였다(서열번호 137). 측접하는 HH 및 HDV 리보자임을 이용하여 SNR52 프로모터로부터 ade2 표적화 sgRNA를 발현시켰다(도 11c). Cas-알파10 ade2 유전자 표적 부위의 서열분석은 3개의 독립적 적색 콜로니에서 적어도 하나의 정지 코돈의 도입을 확인하였다(도 19c). 추가적으로, 절단의 Cas-알파10 부위에 가까운 수선 주형의 변화만을 포함하여, Cas-알파10 유도 DSB의 수선을 위한 추가 증거를 제공하였다(도 19c). 또한, 이 수선 결과는 가이드 RNA 표적의 원위 말단으로 향하는 1 또는 2개의 미스매치만이 절단 활성을 없애기에 충분하다는 것을 시사하며(다른 돌연변이가 회복되지 않았기 때문), 종합하면, Cas-알파 뉴클레아제가 우수한 가이드 RNA-DNA 표적 인식 특이성을 제공한다는 것을 나타낸다. Cas-알파10이 결과에 절대적으로 필요하다는 것을 확인하기 위해, DNA 수선 주형 단독을 전달하는 대조군 실험을 조립하였다. 이들은 백색 콜로니만을 생성하였고, 이는 추가로 Cas-알파10(및 가이드 RNA)이 상동 직접 수선에 의해 본 명세서에 측정된 바와 같은 염색체 DNA 표적 부위를 인식하고 절단하는 능력을 추가로 입증하였다.

HEK293 염색체 표적의 DNA 절단 및 수선은 또한 결실 돌연변이를 초래하였다(도 14a 및 도 14b 및 표 18). DNA 발현 카세트(도 10a 및 도 11a 참조)를 이용하여 그리고 진핵생물 조작된 Cas-알파4 sgRNA 리보핵단백질(RNP) 복합체를 이용하여 직접적으로 수행한 형질전환 실험으로 돌연변이를 얻었다. 모두에서, 2개의 HEK293 게놈 표적, 즉, VEGFA2 및 3으로부터 돌연변이를 회복하였다(도 14a 및 도 14b).

재조합 DNA 작제물뿐만 아니라 리보핵단백질 전달을 이용하는 실시예에 의해 식물, 효모 및 동물 세포에서 게놈 DNA 표적 부위에서의 Cas-알파 이중 가닥 파손 절단 및 수선으로 인한 돌연변이가 회복되었다. 이들 데이터는 진핵 세포, 식물(제아 메이스), 효모(사카로마이세스 세레비시애), 및 동물(호모 사피엔스) 세포에서 Cas-알파 가이드 폴리뉴클레오티드 복합체 형성 및 절단 활성의 첫 번째 증거를 제시한다.

실시예 10: 원핵세포 분석에서의 이중 가닥 DNA 절단

본 실시예에서, 이종성 원핵 세포에서 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합 가이드된 RNA(들)(폴리뉴클레오티드(들)) 복합체의 기능성 형성을 시험하기 위한 방법을 기재한다.

도 17a에 나타낸 바와 같이, Cas-알파 이중가닥 DNA 표적 절단을 평가하기 위한 한 가지 방법은 이콜라이 세포에서 플라스미드 DNA 형질전환을 방해하는 능력을 시험하는 것이다(Burstein, D. et al. (2017) Nature. 542:237-241). 본 명세서에서, 선택 가능 마커(예를 들어, 이하로 제한되는 것은 아니지만, 암피실린) 및 Cas-알파 표적 부위(프로토스페이서 인접 모티프(PAM) 근처에 있는 CRISPR RNA와 염기가 짝지어질 수 있는 영역)를 포함하는 이중가닥 플라스미드 DNA를 당업계에 공지된 방법(예를 들어, 이하로 제한되는 것은 아니지만, 전기천공법) Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 카세트를 포함하는 이콜라이(ArcticExpress DE3 또는 동등물)에 형질전환시킨다. 이중가닥 DNA 표적 절단의 부재 하에, 선택 배지 상의 성장에 의해 플라스미드 및 항생제 저항성 마커를 포함하는 다수의 세포를 회복한다. 대조적으로, 유입 플라스미드 DNA의 이중가닥 DNA 표적 절단은 저항성 세포의 회복에서 감소 또는 간섭을 초래한다.

Cas-알파2, 3, 6, 7, 8, 9, 10 및 11의 dsDNA 절단 활성을 평가하기 위해, 이콜라이 세포에서 플라스미드 DNA 간섭 실험을 조립하였다. Cas-알파 표적 부위를 포함하지 않는 플라스미드("표적 없음")를 이용하는 실험 설명은 형질전환 효율에 대한 기준을 제공하였다. 또한, 간섭 실험은 상이한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 조건 하에 표적 절단을 시험하기 위해 IPTG(0.5 mM)를 이용하여 그리고 IPTG 없이 수행하였다. 100 ng의 "표적" 또는 "표적 없음"의 플라스미드 DNA를 IPTG 유도성 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 카세트(예를 들어, R-657)를 포함하는 Arctic Express(DE3) 세포주에 형질전환시켰다. 형질전환을 10배 증분으로 희석시키고, 선택 배지 상에 스팟팅하고, 37℃에서 밤새 성장시키고, 박테리아 콜로니 성장에 대해 검사하였다.

도 17b 내지 도 17e는 Cas-알파 2, 3, 6, 7, 8, 9, 10 및 11에 대한 결과를 나타낸다. Cas-알파3 및 11(도 17b 및 도 17e)은 플라스미드 형질전환에 대해 임의의 영향을 나타내지 않은 "표적 없음" 및 "표적" 실험 및 Cas-알파2 및 6에서 형질전환체의 감소된 회복에 의해 분명한 바와 같이 발현 유도 시 세포독성이었다(도 17b 및 도 17c). 이는 약한 간섭 활성을 제공한 Cas-알파7 및 9(도 17c 및 도 17d) 및 "표적" 형질전환 콜로니의 수를 강하게 감소시킨 Cas-알파8 및 10(도 17d 및 도 17e)과 대조적일 수 있다.

종합하면, 이는 일부이지만, 모두는 아닌 Cas-알파 엔도뉴클레아제 및 가이드 RNA가 이종성 원핵 세포 환경에서 dsDNA 표적을 인식 및 절단하는 작용을 한다는 것을 설명한다.

실시예 11: Cas-알파 계통 발생학적 분석

본실시예에서, 클래스 2 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 엔도뉴클레아제인 Cas-알파의 신규한 그룹의 계통발생학적 관계를 평가하기 위한 방법을 기재한다.

먼 친적관계를 확인하기 위해, PSI-BLAST 라운드 사이의 위치-특이적 스코어링 매트릭스(PSSM)의 작제를 위한 적어도 70%의 전장 적용범위를 포함하는 해당 정렬만을 선택하여 Cas-알파 1 내지 11을 이용하여 PSI-BLAST의 2회 반복을 수행하였다. 다음에, CRISPR 어레이에 인접하여 암호화된 해당 단백질(MinCED에 의해 검출된 바와 같음)만을 선택하여, 크기가 327 내지 777개의 아미노산 범위에 있는 118개의 추가적인 Cas-알파 엔도뉴클레아제(서열번호 254 내지 371)의 확인을 초래하였다. 이어서, MEGA 소프트웨어(version 10.0.5)(Kumar, S. et al. (2018) Molecular Biology and Evolution. 35:1547-1549))를 이용하여 계통 발생학적 분석(최대 가능성 방법 및 JTT 매트릭스-기반 모델(Jones, D.T. et al., (1992) Computer Applications in the Biosciences 8: 275-282)을 수행하였다. 이는 대부분 3가지 계통의 미생물, 즉, 칸디다투스 아카에아, 클로스트리디아 및 바실리로부터 유래된 Cas-알파 뉴클레아제의 3가지 별개의 그룹(I, II 및 III)의 형성을 나타내었다(도 20). 또한 CRISPR-Cas 적응 유전자(Cas1, Cas2, 및 선택적으로 Cas4)를 암호화한 해당 좌위는 고세균으로부터의 Cas-알파 단백질과만 연합되었다. Cas-알파 뉴클레아제를 확인한 다른 박테리아는 산수균문, 델타프로테오박테리아, 박테로이데테스, 칸디데이트 레비박테리움, 네가티비쿠테스 및 플라보박테리아에 속하는 유기체를 포함하였다(도 20). 추가적으로, 분기도의 위상은 Cas-알파 엔도뉴클레아제가 확인된 미생물과 부분적으로만 매칭되었다. 바실리와 클로스트리디아(Clostrida) 둘 다에 존재하는 그룹 III으로부터 유래된 대부분의 차이는 미생물의 이런 2가지 부류 간의 수평적 유전자 이동(horizontal transfer)을 시사한다(도 20).

실시예 12: Cas-알파 RNA-가이드 DNA 인테그라제

본 실시예에서, 트랜스포사제(예를 들어, 이하로 제한되는 것은 아니지만, TnpA)와의 복합체에서 Cas-알파 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 DNA 페이로드를 부위-특이적으로 삽입하는 데 이용할 수 있다.

Tn7-유사 유전자 이동 요소는 CRISPR-연합(Cas) 단백질을 포획하였고(Peters, J. et al. (2017) Proc. Natl. Acad. Sci. USA. 114:E7358-E7366), 새로운 위치에 자신을 복제하는 RNA-가이드 기반 메커니즘을 진화시키며, 특정 부위에서 DNA(예를 들어, 이하로 제한되는 것은 아니지만, 시스- 또는 트랜스 유전자)의 삽입에 따르는 게놈 편집 접근을 진행하는 것을 제공한다(문헌[Strecker, J. et al. (2019) Science. 365:48-53] 및 문헌[Klompe, S. et al. (2019) Nature. 571:219-225]). 본 명세서에서, 본 발명자들은 IS200/IS605 및 IS4 이동 요소에 속하는 트랜스포사제(Tnp) 단백질이 일부 Cas-알파 엔도뉴클레아제에 인접하여 암호화된다는 것을 발견한다(도 21a). 종합하면, 이는 Cas-알파 엔도뉴클레아제가 프로그램 가능한 DNA 통합을 할 수 있는 트랜스포사제 복합체의 부분으로서 작용하는 데 이용될 수 있다는 것을 시사한다(도 21b).

SEQUENCE LISTING <110> Pioneer Hi-Bred International, Inc. <120> NOVEL CRISPR-CAS SYSTEMS FOR GENOME EDITING <130> RTS21920B <150> 62/779989 <151> 2018-12-14 <150> 62/794427 <151> 2019-01-18 <150> 62/819409 <151> 2019-03-15 <150> 62/852788 <151> 2019-05-24 <150> 62/913492 <151> 2019-10-10 <160> 371 <170> PatentIn version 3.5 <210> 1 <211> 327 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 1 Met Gln Leu Ile Ile Asp Asp Tyr Gly Ala Tyr Leu Gly Gln Lys Asp 1 5 10 15 Asn Leu Phe Gln Ile Arg Lys Lys Asp Gly Thr Cys Glu Glu Tyr Ser 20 25 30 Ala Asp Lys Val Glu Gln Ile Leu Leu Val Lys Asn Ser Cys Ile Ser 35 40 45 Ser Arg Ala Ala Leu Leu Ala Ala Arg Asn Asn Ile Asp Val Val Phe 50 55 60 Val Gly Lys Phe Gly Met Pro Glu Gly Arg Ile Phe Pro Ala Cys Leu 65 70 75 80 Gly Gly Thr Asn Leu Ile Arg Arg Lys Gln Leu Glu Ala Gly Gln Asn 85 90 95 Glu Lys Gly Gly Lys Ile Ala Ile Lys Leu Ile Trp Ala Lys Ile Lys 100 105 110 Asn Glu Glu Phe Phe Leu Lys Thr Leu Asn Lys Ser Arg Thr Ala Pro 115 120 125 Leu Leu Leu Glu Lys Ala Glu Lys Ile Ser Ala Ile Ala Glu Gln Val 130 135 140 Arg Gln Met Leu Gly Glu Lys Phe Asp Ala Asp Arg Val Phe Gly Phe 145 150 155 160 Glu Gly Leu Ala Ala Ala His Tyr Phe Glu Gly Leu Ser Gln Val Met 165 170 175 Pro Ile Glu Lys Arg Asp Gln Glu Gly Lys Asp Ala Pro Asn Ala Leu 180 185 190 Leu Asn Tyr Gly Tyr Gly Met Leu Tyr Gly Glu Ile Glu Lys Ala Cys 195 200 205 Leu Phe Ala Gly Leu Asp Pro Tyr Leu Gly Phe Leu His Ala Asp Arg 210 215 220 Tyr Gly Lys Pro Ser Leu Val Leu Asp Leu Ile Glu Glu Phe Arg Pro 225 230 235 240 Val Ile Val Asp Arg Ala Ile Ile Thr Leu Tyr Ala Gln Lys Gln Ile 245 250 255 Asn Glu Ser Asp Phe Glu Gln Gly Gly Asp Lys Ile Phe Leu Ser Lys 260 265 270 Glu Gly Arg Lys Lys Met Ile Lys Ala Ile Met Glu Arg Leu His Ala 275 280 285 Lys Ile Thr Ser Asp Gly Arg Lys Leu Glu Leu Ser Val Ile Ile Gln 290 295 300 Glu Gln Ala Arg Arg Ile Ala Ser Phe Val Lys Gly Glu Ser Glu Phe 305 310 315 320 Glu Pro Phe Leu Tyr Arg Trp 325 <210> 2 <211> 329 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 2 Met Ile Leu Val Ile Asn Asp Phe Ser Thr Phe Leu Gly Lys Lys Gly 1 5 10 15 Asp Arg Phe Val Ile Lys Lys Glu Asn Lys Arg Glu Glu Phe Ser Thr 20 25 30 Asn Asn Val Glu Gln Ile Ile Ile Ala Ala Val Ser Ser Ile Ser Tyr 35 40 45 Gly Ala Ile Arg Leu Ala Ile Lys His Ser Ile Asp Val Val Phe Leu 50 55 60 Ser Arg Gly Gly Thr Pro Leu Gly Arg Ile Tyr Pro Cys Lys Leu Gly 65 70 75 80 Gly Thr Thr Leu Thr Arg Lys Lys Gln Leu Glu Ala Tyr Tyr Ser Thr 85 90 95 Val Gly Thr Asn Ile Val Lys Asn Leu Val Lys Ala Lys Ile Met Asn 100 105 110 Gln Ala Tyr Phe Leu Lys Ser Leu Glu Lys Thr Arg Lys Asp Ile Asn 115 120 125 Phe Thr Ser Glu Ile Asn Ser Ile Val Asn Ile Ala Lys Lys Ile Pro 130 135 140 Gly Leu Thr Gly Leu Ile Asp Asp Ile Arg Gly Thr Leu Leu Gly Tyr 145 150 155 160 Glu Gly Ile Ala Ala Asn Lys Tyr Phe Ser Ser Leu Ser Asn Ile Leu 165 170 175 Pro Phe Lys Gly Arg Asp Arg Thr Ser Asn Asp Tyr Val Asn Ile Val 180 185 190 Leu Asn Tyr Gly Tyr Gly Val Leu Tyr Thr Glu Ala Glu Lys Ala Cys 195 200 205 Ile Leu Ala Gly Leu Asp Pro Tyr Phe Gly Phe Leu His Lys Asp Arg 210 215 220 Tyr Asn Lys Pro Ser Met Val Leu Asp Leu Val Glu Ile Phe Arg Pro 225 230 235 240 Ile Ile Val Asp Arg Ala Val Val Thr Leu Phe Ser Gln Lys Gln Ile 245 250 255 Asn Ser Lys Cys Phe Glu Lys Glu Thr Tyr Gly Asp Val Phe Leu Ser 260 265 270 Lys Glu Gly Arg Glu Lys Ile Leu Ser Ala Leu Leu Ser Arg Leu Asn 275 280 285 Gln Gln Ile Arg Phe Lys Gly Lys Lys Thr Ser Phe Lys Asn Ile Ile 290 295 300 Leu Gly Glu Ser Arg Ser Ile Ala Gln Tyr Val Leu Gly Asn Ile Pro 305 310 315 320 Glu Tyr Glu Pro Phe Val Tyr Arg Trp 325 <210> 3 <211> 326 <212> PRT <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 3 Met Gln Leu Val Ile Asp Asp Phe Gly Thr Phe Val Lys Lys Lys Gln 1 5 10 15 Asn Arg Phe Glu Val Ala Arg Lys Glu Lys Thr Glu Glu Phe Ser Ala 20 25 30 Asp Lys Val Ser Gln Ile Val Leu Leu Lys Lys Gly Thr Ile Ser Gly 35 40 45 Ser Ala Val Ala Leu Ala Met Glu Lys Asn Ile Asp Val Val Tyr Leu 50 55 60 Asp Ser Phe Gly Lys Pro Ile Ala Arg Ile Phe Pro Cys Thr Leu Gly 65 70 75 80 Gly Thr Thr Leu Ile Arg Arg Arg Gln Ala Glu Ala Thr Ala Ser Leu 85 90 95 Tyr Ala Val Pro Tyr Val Arg Ala Phe Val Lys Ser Lys Met Leu Asn 100 105 110 Gln Ala Ala Leu Leu Lys Ser Leu Asn Lys Thr Arg Asn Gly Leu Phe 115 120 125 Leu Glu Arg Ile Arg Glu Ile Glu Arg Ile Ile Glu Lys Ser Glu Asp 130 135 140 Ala Val Gly Asp Tyr Val Asp Asp Leu Arg Ser Ala Leu Ile Gly Tyr 145 150 155 160 Glu Gly Asn Val Ala Ala Ile Tyr Phe Asp Cys Ile Arg Ala Leu Ile 165 170 175 Pro Phe Gly Arg Arg Lys Arg Gly Ala Lys Asp Arg Phe Asn Ser Ala 180 185 190 Leu Asn Tyr Ala Tyr Gly Ile Leu Tyr Ser Gln Ile Glu Lys Ala Cys 195 200 205 Leu Leu Ala Gly Leu Asp Pro Tyr Leu Gly Phe Val His Ser Asp Arg 210 215 220 Tyr Gly Lys Pro Ser Leu Val Leu Asp Phe Ile Glu Gln Phe Arg Gln 225 230 235 240 Pro Ile Ala Asp Arg Ala Val Ile Thr Ile Phe Val Lys Lys Glu Leu 245 250 255 Ala Asp Asp Ser Phe Ile Glu Glu Glu Ile Val Gln Leu Ser Ser Lys 260 265 270 Gly Lys Lys Lys Ile Val Glu Ala Ile Tyr Gly Arg Leu Ser Ser Glu 275 280 285 Phe Thr His Asn Gly Lys Lys Met Thr Phe Glu Lys Val Ile Ile Asp 290 295 300 Lys Ala Arg Glu Phe Ala Gly Cys Ile Leu Glu Met Lys Glu Tyr Glu 305 310 315 320 Pro Phe Val His Arg Trp 325 <210> 4 <211> 248 <212> PRT <213> Unknown <220> <223> Uncultured archaeon <400> 4 Met Glu Ser Asn Val Asp Ile Val His Leu Gly Arg Arg Gly His Pro 1 5 10 15 His Ala Arg Val Tyr Pro Cys Thr Leu Gly Gly Thr Thr Leu Thr Arg 20 25 30 Arg Arg Gln Leu Glu Ala Tyr Tyr Ala Glu Glu Gly Thr Tyr Leu Ala 35 40 45 Lys Gln Phe Ile Met Ala Lys Ile Arg Asn Gln Ala Ala Leu Leu Arg 50 55 60 Ser Leu Gly Lys Ser Arg Gly Asn His Ser Leu Leu Phe Ser Ala Lys 65 70 75 80 Ala Ile Gly Lys Gly Thr Asn Asp Val Asp Ala Leu Lys Gly Thr Ile 85 90 95 Asp Glu Ile Arg Pro Lys Leu Leu Gly Met Glu Gly Asn Ala Ser Ser 100 105 110 Val Tyr Phe Gly Ala Leu Ala Gly Ile Leu Pro Phe Ser Gly Arg Asp 115 120 125 Arg Asn Ser Lys Asp Pro Val Asn Ile Leu Leu Asn Tyr Gly Tyr Gly 130 135 140 Met Leu Tyr Gly Glu Ile Glu Arg Ala Cys Val Ile Ala Gly Leu Asp 145 150 155 160 Pro Tyr Leu Gly Phe Met His Thr Asp Arg Tyr Gly Lys Pro Ser Met 165 170 175 Thr Leu Asp Leu Ile Glu Glu Phe Arg Gln Pro Ile Val Asp Arg Thr 180 185 190 Leu Val Thr Leu Phe Ala Gln Lys Gln Ile Glu Asp Ala Asp Phe Glu 195 200 205 Ala His Gly Asp Ser Arg Leu Leu Ser Arg Gln Gly Arg Glu Lys Ile 210 215 220 Ile Lys Ala Val Leu Glu Arg Leu Ser Gln Lys Val Arg Arg Ala Gly 225 230 235 240 Ala Gln Arg His Pro Val Ser Pro 245 <210> 5 <211> 98 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 5 Met Phe Tyr Trp Val Ile Tyr Asp Ile Ser Glu Asn Lys Lys Arg Gly 1 5 10 15 Arg Val Ala Arg Ile Cys Lys Asn Tyr Gly Phe Arg Arg Val Gln Lys 20 25 30 Ser Ala Phe Ala Gly Glu Thr Ser Lys Asn Lys Val Glu Met Leu Leu 35 40 45 Leu Glu Cys Asn Glu Ile Ile Glu Gly Gly Asp Asp Tyr Leu Phe Val 50 55 60 Ile Pro Asn Cys Thr Ser Cys Phe Asn Gly Lys Met Ile Thr Gly Cys 65 70 75 80 Leu Asp Glu Lys Arg Val Arg Asn Gln Pro Tyr Met Phe Val Gly Asp 85 90 95 Gly Ala <210> 6 <211> 94 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 6 Met Ile Tyr Trp Val Ile Tyr Asp Ile Thr Asp Asn Lys Val Arg Ser 1 5 10 15 Lys Val Ala Glu Glu Cys Lys Asn Leu Gly Leu His Arg Val Gln Lys 20 25 30 Ser Ser Phe Ile Gly Ile Leu Ser Arg Asn Thr Ala Glu Met Leu Tyr 35 40 45 Ile Lys Ile Gly Asp Leu Ile Asp Lys Arg Asp Cys Val Phe Phe Ile 50 55 60 Pro Gln Cys Asn Lys Cys Phe Ala Asp Lys Leu Ile Leu Gly Asp Phe 65 70 75 80 Asp Glu Arg Thr Val Glu Ala Lys Asp Phe Ile Val Val Gln 85 90 <210> 7 <211> 100 <212> PRT <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 7 Met Leu Tyr Trp Leu Ile Tyr Asp Ile Ser Ser Asn Ser Lys Arg Leu 1 5 10 15 Lys Val Ser Glu Lys Cys Lys Asp Tyr Gly Leu Tyr Arg Val Gln Lys 20 25 30 Ser Ala Phe Leu Gly Asp Leu Ser Lys Asn Lys Ala Glu Met Leu Leu 35 40 45 Glu Glu Val Gln Asp Ile Met Ala Glu Ser Glu Gly Asp Cys Val Phe 50 55 60 Met Phe Pro Ala Cys Lys Gly Cys Phe Ser Ser Arg Ala Ile Ile Gly 65 70 75 80 Glu Phe Asn Glu Ser Leu Ile Glu Glu Lys Glu Phe Val Phe Leu Ala 85 90 95 Cys Ser Ser Gln 100 <210> 8 <211> 106 <212> PRT <213> Unknown <220> <223> Uncultured archaeon <400> 8 Met Ile Tyr Trp Val Ile Tyr Asp Ile Ser Ala Asn Gly Thr Arg Ser 1 5 10 15 Arg Val Ala Ser Ala Cys Lys Asn Tyr Gly Phe Lys Arg Ile Gln Lys 20 25 30 Ser Ala Phe Leu Gly Asn Ile Thr Lys Asn Lys Ala Asp Met Leu Ala 35 40 45 Ile Gln Cys Arg Asp Met Val Lys Glu Glu Gly Asp Cys Val Phe Ile 50 55 60 Ile Pro Ala Cys Glu Gln Cys Phe Arg Gly Lys Glu Ile Ile Gly Glu 65 70 75 80 Leu Asp Glu Met Ala Gly Arg Lys Leu Asp Tyr Leu Ile Val Gly Glu 85 90 95 Asp Gly Arg Gln Thr Ala Ser Tyr Gly Gly 100 105 <210> 9 <211> 203 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 9 Met Asn Arg Met Gly Ile Leu Ser Ile Arg Asp Ile Leu Asn Tyr Asn 1 5 10 15 Tyr Cys Pro Arg Ile Val Tyr Phe Glu Tyr Val Leu Arg Arg Pro Gln 20 25 30 Gly Arg Thr Lys Lys Glu Asp Glu Gly Leu Lys Gln His Asn Glu Phe 35 40 45 Val Pro Arg Gly Lys Arg Asn Lys Met Val Lys Arg Ile Cys Tyr Asp 50 55 60 Lys Lys Leu Phe Asn Leu Pro Leu Tyr Ser Pro Arg Met Asn Leu Gln 65 70 75 80 Thr Val Ala Asp Cys Val Leu Ile Asp Thr Lys Glu Lys Leu Ala Val 85 90 95 Pro Met Gln Phe Lys His Gly Lys Thr Pro Ser Cys Leu Tyr Arg Thr 100 105 110 Met Lys Tyr Gln Leu Val Ala Glu Ala Leu Leu Ile Glu Glu Cys Leu 115 120 125 Gly Leu Ser Cys Pro Tyr Gly Leu Val Lys Phe Leu Pro Glu Glu Thr 130 135 140 Thr Leu Arg Thr Glu Ile Asp Glu Ile Gln Lys Gln Lys Leu Lys Glu 145 150 155 160 Gln Leu Glu Ser Ile Asn Asn Val Val Arg Phe Glu Arg Tyr Pro Asp 165 170 175 Gly Pro Arg Thr Arg Asn Tyr Cys Gly Asp Cys Trp Tyr His Gly Lys 180 185 190 Val Cys Thr Gly Phe Asp Gly Lys Ile Val Gly 195 200 <210> 10 <211> 197 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 10 Met Thr Thr Met Asp Gly Tyr Leu Thr Ala Lys Asp Leu Met Asn Phe 1 5 10 15 His Tyr Cys Lys Arg Leu Ile Tyr Phe Glu Asn Val Leu Lys Ile Lys 20 25 30 Gln Ala Thr Thr Thr Lys Glu Leu Lys Gly Arg Ala Leu His Asn Ser 35 40 45 Phe Ser Val Ser Ser Lys Arg Thr Lys Ile Ile Lys Glu Phe Pro Tyr 50 55 60 Trp Pro Lys Ile Tyr Asn Leu Arg Leu Lys Ser Asp Phe Leu His Leu 65 70 75 80 Ile Thr Thr Leu Asp Cys Leu Ile Ile Asn Gln Thr Asp Asn Glu Ala 85 90 95 Phe Pro Leu Glu Tyr Lys Tyr Ser Lys Lys Pro Arg Lys Ile Tyr Lys 100 105 110 Thr Met Lys Leu Gln Leu Ser Leu Gln Ala Leu Leu Val Asn Glu Leu 115 120 125 Leu His Tyr Ser Val Lys Phe Gly Phe Ile Lys Phe Ser Lys Asp Asn 130 135 140 Ser Leu Ala Lys Val Ser Ile Thr Asp Arg Asp Leu Glu Glu Val Arg 145 150 155 160 Thr Thr Ile Ser Glu Val Asn Thr Ile Val Glu Lys Glu Ile Leu Pro 165 170 175 Pro Pro Thr Glu Tyr Lys Lys Arg Cys Ile Asp Cys Cys Tyr Phe Asn 180 185 190 Ile Cys Lys Gly Ile 195 <210> 11 <211> 189 <212> PRT <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 11 Met Leu Lys Ser Val Thr Ala Thr Asp Val Met Asn Phe Ser Tyr Cys 1 5 10 15 Lys Arg Ile Pro Tyr Tyr Val His Val Leu Lys Ile Pro Gln Phe Thr 20 25 30 Thr Val Lys Glu Tyr Lys Gly Arg Glu Lys Tyr Asp Asp Phe Lys Tyr 35 40 45 Arg Ser Lys Arg Ser Lys Ile Ile Gln Glu Phe Pro His Leu Glu Arg 50 55 60 Lys Tyr Asp Leu Tyr Leu Glu Cys Asp Gly Phe Ser Thr Lys Leu Asp 65 70 75 80 Cys Val Phe Phe Asn Asp Asp Asp Ala Phe Pro Leu Gln Leu Lys Tyr 85 90 95 Ala Val Lys Pro Lys Lys Met Tyr Ala Thr Thr Arg Arg Gln Leu Leu 100 105 110 Leu Glu Ala Phe Leu Ile Glu Gln Cys Leu Gly Lys Lys Val Gln Arg 115 120 125 Gly Phe Val Lys Tyr Glu Leu Ser Gly Asp Leu Val Glu Val Asp Leu 130 135 140 Thr Asp Lys Ser Glu Leu Phe Glu Met Phe Lys Glu Tyr Phe Gly Ile 145 150 155 160 Ile Met Gly Glu Lys Leu Pro Glu Pro Thr Glu Tyr Leu Lys Arg Cys 165 170 175 Arg Asp Cys Cys Tyr Arg Arg Phe Cys Trp Gly Asp Lys 180 185 <210> 12 <211> 138 <212> PRT <213> Unknown <220> <223> Uncultured archaeon <400> 12 Met Thr Ser Ser Gly Asn Pro Gly Gly Thr Arg Leu Tyr Asp Val Thr 1 5 10 15 Leu Glu Ser Lys Lys His Gly Leu Ile Thr Lys Ala Asp Cys Ile Leu 20 25 30 Phe Asp Arg Glu Lys Gly Glu Ala Tyr Pro Val Gln His Lys Tyr Ser 35 40 45 Phe Arg Pro Lys Ile Leu Tyr His Thr Tyr Ile Ser Gln Leu Met Met 50 55 60 Glu Ala Ile Ile Ile Glu Glu Gln Phe Asn Leu Ser Val Pro His Gly 65 70 75 80 Phe Ile Val Phe Glu Arg Ser Lys Glu Thr Val Thr Val Asp Leu Gly 85 90 95 Asp Lys Gln Lys Val Leu Tyr Val Val Gly Gln Ile Arg Gly Ile Ile 100 105 110 Gly Gly Glu Lys Phe Pro Pro Pro Thr Glu Trp Lys Lys Arg Cys Val 115 120 125 Asp Cys Cys Tyr Asn Lys Leu Cys Trp Gly 130 135 <210> 13 <211> 1635 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 13 atgaacatga gtaaaactac gatttcagta aaattaaaga ttattgactt aagctctgag 60 aaaaaagagt ttcttgataa ctattttaac gaatacgcaa aagccacgac gttctgccag 120 ttaagaatac ggcgactttt gagaaataca cactggcttg ggaaaaagga gaagagttca 180 aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg gtgaaaacaa agaacttgtg 240 aatgaagata gaaattcagg cgaacctgca aaaatttgca aaagatgtta taatggaaga 300 tatggcaatc agatgatacg taaacttttc gtttcaacga agaaaagaga agttcaggaa 360 aacatggaca tacgaagagt cgctaaacta aataatacgc attatcaccg cataccggaa 420 gaagcatttg acatgattaa agccgccgat acagcagaaa aaagaagaaa gaagaatgtc 480 gagtatgata aaaaaagaca gatggaattt attgagatgt ttaatgacga aaaaaaacgt 540 gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt acgttcatat ttctaaattg 600 gaaagtccgt caaagggata tactctgaac ggaataaaaa gaaaaataga cggcatgggt 660 aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga agatttttgg ttatcagggc 720 aatagaatca aacttgattc gaattgggtc cggtttgacc ttgccgaatc ggagattact 780 atcccctcac tgtttaagga aatgaaacta aggataactg gaccgaccaa cgttcattca 840 aaaagcgggc agatatattt tgcagaatgg tttgagcgga taaacaaaca accgaataat 900 tactgttatc tgataagaaa aacaagttcg aacggcaaat atgaatatta tcttcaatat 960 acttatgaag ccgaagttga ggcgaataag gagtacgctg ggtgtttggg ggttgatata 1020 ggatgttcta aacttgctgc cgcagtttat tatgattcaa aaaacaaaaa agcacaaaaa 1080 ccaattgaga tattcacgaa tccgattaaa aaaatcaaga tgcggcgcga gaaactgatt 1140 aaacttcttt ccagagttaa ggtgcggcac agacgcagaa aactcatgca actcagtaaa 1200 actgaaccca ttatagacta tacgtgccac aaaaccgcaa gaaaaattgt tgaaatggca 1260 aatactgcca aagcttttat ctccatggag aatcttgaaa ctgggataaa gcaaaagcaa 1320 caggcaagag aaacaaaaaa gcagaagttt tatcggaata tgtttctttt cagaaaatta 1380 agcaaactaa tagagtacaa ggctctgctg aaagggataa agatagtata tgtgaaaccc 1440 gattatacaa gccaaacttg ttcttcatgt ggcgcagaca aagaaaaaac cgagcgccca 1500 tcacaagcaa tatttcgctg tcttaatcca acatgccgat attatcaaag agacataaat 1560 gccgacttca acgccgcagt gaatatagct aagaaagctt taaataatac tgaagtagta 1620 actacgttat tatga 1635 <210> 14 <211> 1761 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 14 atgccatccg aaacatacat tacgaaaacc ttgtcattaa aactcattcc atcagatgaa 60 gaaaagcagg cgttagaaaa ctattttata acattccaga gggccgtgaa ttttgctata 120 gatagaatag tagatataag aagctccttt agatatctaa acaaaaatga acaatttcca 180 gccgtgtgtg attgctgtgg taagaaagaa aagataatgt atgtgaatat atccaataaa 240 acctttaagt ttaaaccatc aagaaatcag aaggatagat acacgaagga catttataca 300 atcaagccca atgcccacat atgtaagaca tgctacagtg gcgttgcagg aaatatgttt 360 atacgcaaac aaatgtatcc gaacgataaa gaagggtgga aagtttcgcg ttcatacaat 420 atcaaagtta atgcccctgg actgactgga accgaatatg ctatggccat acggaaggca 480 ataagtatat taagatcttt tgaaaagcga cgaagaaatg ctgaaagaag aatcatagag 540 tatgaaaagt ccaaaaaaga gtatttagaa ttgattgatg atgttgaaaa aggaaagaca 600 aataaaatag tggttcttga gaaagaaggc catcagcgag tgaaaagata taaacacaag 660 aattggcctg agaaatggca aggtatttct ttaaataaag caaaaagtaa ggttaaagat 720 attgagaaaa gaataaaaaa gctcaaggag tggaaacacc ctacactaaa tcgaccatat 780 gtcgagttac acaaaaataa tgttaggata gtgggttatg aaacagtgga acttaaatta 840 ggaaacaaaa tgtacaccat acattttgct agcatatcta atttacgaaa accatttaga 900 aaacaaaaga aaaagtccat agaatatctg aaacatctcc taaccctagc gttaaaaaga 960 aatcttgaaa cataccccag cataataaaa agaggtaaga atttcttttt gcagtatcct 1020 gtgcgagtga cagttaaagt gcctaagctg acaaaaaatt ttaaagcttt tggcatcgat 1080 agaggcgtaa ataggcttgc agtaggttgt ataatctcaa aagatggaaa acttaccaat 1140 aaaaatattt ttttcttcca tggaaaggaa gcgtgggcca aggaaaacag atacaagaag 1200 attagggaca gattatacgc tatggccaag aagttgagag gagataaaac caagaaaata 1260 aggctttatc atgagattag gaagaaattt agacataaag tcaaatattt caggagaaac 1320 tatctgcata atatctctaa gcaaattgtt gagattgcaa aggaaaatac accgactgtc 1380 atcgtattag aagatttacg gtacttgaga gaaaggacat atagaggaaa aggaagaagc 1440 aaaaaggcga aaaaaacaaa ttataaatta aatactttta cttacagaat gcttatagat 1500 atgataaaat acaaggcaga agaagcggga gttcctgtaa tgattattga cccaagaaac 1560 acatcacgaa aatgttctaa gtgtggttat gttgacgaaa ataatagaaa acaagcctcg 1620 tttaagtgcc ttaagtgtgg ttatagtctt aatgcagact taaatgcagc tgtcaatata 1680 gcaaaagctt tttatgaatg ccccacgttt agatgggaag aaaaattgca tgcatatgtt 1740 tgttcagagc ccgataaata g 1761 <210> 15 <211> 1812 <212> DNA <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 15 atgaagtcat ttaagctaaa gttgttgcca acagatgagc aaaacgttct tttaaatgaa 60 gtgttttgta aatgggcatc attatgtacc agaatggcgt ctaaaggaca cgataaagaa 120 cgactggcgc ctcctgattc aagcgggaat tattttaaca aaacacaact caatcaggtg 180 aatactgatg taactgacca tatgggtgcg cttgaagagt cagcaagtca aaaagaaaga 240 gcagttgaga aagtcaaaag aaggttgaag ctgatttcag atatgctctc tgagccaaat 300 ttaagggatg tttctcaaca aaaaccaacc acgttccgtc cattagagtg ggttaaggag 360 ggtctgttaa aaacaaaata ccatactgtg cattattggc aaaaggaatg tgataagtta 420 acaaaacaaa aagaacgaat ggagaaaaca attgagaaga taaagaaagg gaagataacg 480 ttcaaaccaa caaagatgtc cctgcaccaa aattgttttt cgttatcatt cggaaaggga 540 acgttttcaa tgcggccttt tagcgacact aaacgaggca taaatcttga tatgctaact 600 gctcccattc aacctgcaat aggaaaaaac gatggcaaat catctttgag gagcaaagag 660 tttatcgcaa ggaatattga aaactacatt attttttcca tccactcaca actatttggg 720 ctgagcaggt cagaagaact gttgttaaac gcaaaaaaag aggaactcgt tgctaagcga 780 gatgcaatgc tcaaaaagaa atctgattcg ctaagtaaaa aaataaagga attagaaaaa 840 atagtaggaa gaaaaattac tgattcagaa cgttcagaga taatgtctca gggcggcaaa 900 ttgtcttctg aaaagttcag tgaagataat tcatatttga aaacgttaaa ggtgctggca 960 aaagacatta ttgggcgaga ggaattgttc agacttaaga agtacccgat tgtgattaga 1020 aaacctctca acgaacgaaa aaagctcaaa aatcttaaac ctgacgaatg ggaatattat 1080 ttacagttga gttatgatga gttggaaaag aaagagttta caccaaagac aattatggga 1140 atcgatagag gactaaaaca cattcttgct attgcgattt acgaccctgt gcaaaataaa 1200 tttgtaaaaa atatgctcat tccaaatccg atattaggtt ggaagtggaa gttgcgaaag 1260 ataaaaagaa gtattcaaca tatggaaagg agaatacggg ctcagcaaaa tgctcacgtt 1320 cctgagaatc agttgaaaaa acggttgaaa agtattgaga acaaaattga ttattactat 1380 cacaatgtgt cgcggcaaat attgaatctc gctcacgatt tcaaatcagc aatagtggta 1440 gaagacttac agaatatgaa acaacacgga agaaagaaat caaaaggact aagaggacta 1500 aactacgcat taagtaactt tgactatgga aaaattatgg gtcttgttaa gtataaagca 1560 gaatcagaga atgtgcctct tcttaccgtg ttgcctgcag gaacgagtca aaattgcgcg 1620 tattgtctct tgtacggaaa agaacaagga aattatgtgc ggaataatgt caacagtaaa 1680 ataggcaagt gtaagcttca tggagaaata gatgcggaca tcaatgcggc aaggacgatt 1740 gcgatttgtt atcataagaa tattaatgaa ccaaaaccat atggtgaacg aaagactttt 1800 aaaagaaagt aa 1812 <210> 16 <211> 1590 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 16 atggctaaga atactattac aaaaactctg aaactgagaa tagttcgacc atataattct 60 gctgaagtag agaagatagt agctgatgag aaaaacaata gggagaaaat cgccttagaa 120 aaaaataagg ataaggttaa agaggcctgt agcaagcatc tcaaagttgc cgcctattgc 180 acgacgcaag tagaaagaaa tgcatgcctt ttctgcaaag caagaaaatt agacgataag 240 ttctaccaaa agctgagggg acaatttcct gatgctgtat tttggcaaga gatttctgag 300 atattcaggc aattgcagaa gcaagctgct gaaatatata atcaaagtct catcgaacta 360 tattacgaga tttttataaa gggaaaagga attgcaaatg cttcatcagt tgagcattat 420 ctcagtgatg tttgttatac aagagctgcc gaattattca aaaatgctgc gatagcaagc 480 ggtttaagat caaagataaa gagcaatttc aggctcaagg aattaaaaaa tatgaaatca 540 gggcttccga ctacaaaatc agacaacttc cccattcctc ttgtcaagca gaaaggaggg 600 caatataccg gctttgagat ttcaaatcat aattctgatt tcatcataaa aattccgttt 660 ggcagatggc aagtgaaaaa agagattgat aaatacaggc cttgggaaaa gtttgatttt 720 gaacaagtgc agaagtctcc taaacccatc tctctcttgc tgtccacgca gagaagaaaa 780 agaaacaaag ggtggtccaa agatgagggt actgaggcag aaataaagaa agtgatgaat 840 ggagattacc aaacaagcta tattgaggta aaaagaggat cgaaaattgg ggagaagagt 900 gcttggatgc ttaatctttc tatcgatgtc cccaagatcg acaagggagt tgatccgtcc 960 attataggcg gaatcgatgt cggcgtgaaa agcccgcttg tgtgcgctat caacaatgct 1020 ttcagtcgtt actctatctc ggacaatgac ctctttcatt tcaacaaaaa aatgttcgcc 1080 agaaggagga tattgcttaa gaagaatagg cataaaagag caggacatgg tgctaaaaat 1140 aaacttaagc ctatcaccat attaactgaa aaaagcgaga gatttaggaa gaaactaatc 1200 gagaggtggg cgtgcgagat tgcagatttt ttcatcaaaa ataaggttgg aactgtccaa 1260 atggaaaatt tggagtccat gaagagaaaa gaagacagct acttcaacat cagattgaga 1320 ggtttttggc cttatgcaga aatgcaaaat aaaatagaat ttaagctcaa acagtatggt 1380 atagaaataa gaaaagtagc gcctaacaat acctctaaaa cgtgctccaa atgtggtcac 1440 cttaataact attttaattt tgaatacaga aaaaagaaca aatttcctca tttcaagtgt 1500 gaaaagtgca atttcaagga aaatgcggat tataacgccg ctttaaatat ttccaatcca 1560 aaactaaaat caacaaagga agaaccatag 1590 <210> 17 <211> 544 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 17 Met Asn Met Ser Lys Thr Thr Ile Ser Val Lys Leu Lys Ile Ile Asp 1 5 10 15 Leu Ser Ser Glu Lys Lys Glu Phe Leu Asp Asn Tyr Phe Asn Glu Tyr 20 25 30 Ala Lys Ala Thr Thr Phe Cys Gln Leu Arg Ile Arg Arg Leu Leu Arg 35 40 45 Asn Thr His Trp Leu Gly Lys Lys Glu Lys Ser Ser Lys Lys Trp Ile 50 55 60 Phe Glu Ser Gly Ile Cys Asp Leu Cys Gly Glu Asn Lys Glu Leu Val 65 70 75 80 Asn Glu Asp Arg Asn Ser Gly Glu Pro Ala Lys Ile Cys Lys Arg Cys 85 90 95 Tyr Asn Gly Arg Tyr Gly Asn Gln Met Ile Arg Lys Leu Phe Val Ser 100 105 110 Thr Lys Lys Arg Glu Val Gln Glu Asn Met Asp Ile Arg Arg Val Ala 115 120 125 Lys Leu Asn Asn Thr His Tyr His Arg Ile Pro Glu Glu Ala Phe Asp 130 135 140 Met Ile Lys Ala Ala Asp Thr Ala Glu Lys Arg Arg Lys Lys Asn Val 145 150 155 160 Glu Tyr Asp Lys Lys Arg Gln Met Glu Phe Ile Glu Met Phe Asn Asp 165 170 175 Glu Lys Lys Arg Ala Ala Arg Pro Lys Lys Pro Asn Glu Arg Glu Thr 180 185 190 Arg Tyr Val His Ile Ser Lys Leu Glu Ser Pro Ser Lys Gly Tyr Thr 195 200 205 Leu Asn Gly Ile Lys Arg Lys Ile Asp Gly Met Gly Lys Lys Ile Glu 210 215 220 Arg Ala Glu Lys Gly Leu Ser Arg Lys Lys Ile Phe Gly Tyr Gln Gly 225 230 235 240 Asn Arg Ile Lys Leu Asp Ser Asn Trp Val Arg Phe Asp Leu Ala Glu 245 250 255 Ser Glu Ile Thr Ile Pro Ser Leu Phe Lys Glu Met Lys Leu Arg Ile 260 265 270 Thr Gly Pro Thr Asn Val His Ser Lys Ser Gly Gln Ile Tyr Phe Ala 275 280 285 Glu Trp Phe Glu Arg Ile Asn Lys Gln Pro Asn Asn Tyr Cys Tyr Leu 290 295 300 Ile Arg Lys Thr Ser Ser Asn Gly Lys Tyr Glu Tyr Tyr Leu Gln Tyr 305 310 315 320 Thr Tyr Glu Ala Glu Val Glu Ala Asn Lys Glu Tyr Ala Gly Cys Leu 325 330 335 Gly Val Asp Ile Gly Cys Ser Lys Leu Ala Ala Ala Val Tyr Tyr Asp 340 345 350 Ser Lys Asn Lys Lys Ala Gln Lys Pro Ile Glu Ile Phe Thr Asn Pro 355 360 365 Ile Lys Lys Ile Lys Met Arg Arg Glu Lys Leu Ile Lys Leu Leu Ser 370 375 380 Arg Val Lys Val Arg His Arg Arg Arg Lys Leu Met Gln Leu Ser Lys 385 390 395 400 Thr Glu Pro Ile Ile Asp Tyr Thr Cys His Lys Thr Ala Arg Lys Ile 405 410 415 Val Glu Met Ala Asn Thr Ala Lys Ala Phe Ile Ser Met Glu Asn Leu 420 425 430 Glu Thr Gly Ile Lys Gln Lys Gln Gln Ala Arg Glu Thr Lys Lys Gln 435 440 445 Lys Phe Tyr Arg Asn Met Phe Leu Phe Arg Lys Leu Ser Lys Leu Ile 450 455 460 Glu Tyr Lys Ala Leu Leu Lys Gly Ile Lys Ile Val Tyr Val Lys Pro 465 470 475 480 Asp Tyr Thr Ser Gln Thr Cys Ser Ser Cys Gly Ala Asp Lys Glu Lys 485 490 495 Thr Glu Arg Pro Ser Gln Ala Ile Phe Arg Cys Leu Asn Pro Thr Cys 500 505 510 Arg Tyr Tyr Gln Arg Asp Ile Asn Ala Asp Phe Asn Ala Ala Val Asn 515 520 525 Ile Ala Lys Lys Ala Leu Asn Asn Thr Glu Val Val Thr Thr Leu Leu 530 535 540 <210> 18 <211> 586 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 18 Met Pro Ser Glu Thr Tyr Ile Thr Lys Thr Leu Ser Leu Lys Leu Ile 1 5 10 15 Pro Ser Asp Glu Glu Lys Gln Ala Leu Glu Asn Tyr Phe Ile Thr Phe 20 25 30 Gln Arg Ala Val Asn Phe Ala Ile Asp Arg Ile Val Asp Ile Arg Ser 35 40 45 Ser Phe Arg Tyr Leu Asn Lys Asn Glu Gln Phe Pro Ala Val Cys Asp 50 55 60 Cys Cys Gly Lys Lys Glu Lys Ile Met Tyr Val Asn Ile Ser Asn Lys 65 70 75 80 Thr Phe Lys Phe Lys Pro Ser Arg Asn Gln Lys Asp Arg Tyr Thr Lys 85 90 95 Asp Ile Tyr Thr Ile Lys Pro Asn Ala His Ile Cys Lys Thr Cys Tyr 100 105 110 Ser Gly Val Ala Gly Asn Met Phe Ile Arg Lys Gln Met Tyr Pro Asn 115 120 125 Asp Lys Glu Gly Trp Lys Val Ser Arg Ser Tyr Asn Ile Lys Val Asn 130 135 140 Ala Pro Gly Leu Thr Gly Thr Glu Tyr Ala Met Ala Ile Arg Lys Ala 145 150 155 160 Ile Ser Ile Leu Arg Ser Phe Glu Lys Arg Arg Arg Asn Ala Glu Arg 165 170 175 Arg Ile Ile Glu Tyr Glu Lys Ser Lys Lys Glu Tyr Leu Glu Leu Ile 180 185 190 Asp Asp Val Glu Lys Gly Lys Thr Asn Lys Ile Val Val Leu Glu Lys 195 200 205 Glu Gly His Gln Arg Val Lys Arg Tyr Lys His Lys Asn Trp Pro Glu 210 215 220 Lys Trp Gln Gly Ile Ser Leu Asn Lys Ala Lys Ser Lys Val Lys Asp 225 230 235 240 Ile Glu Lys Arg Ile Lys Lys Leu Lys Glu Trp Lys His Pro Thr Leu 245 250 255 Asn Arg Pro Tyr Val Glu Leu His Lys Asn Asn Val Arg Ile Val Gly 260 265 270 Tyr Glu Thr Val Glu Leu Lys Leu Gly Asn Lys Met Tyr Thr Ile His 275 280 285 Phe Ala Ser Ile Ser Asn Leu Arg Lys Pro Phe Arg Lys Gln Lys Lys 290 295 300 Lys Ser Ile Glu Tyr Leu Lys His Leu Leu Thr Leu Ala Leu Lys Arg 305 310 315 320 Asn Leu Glu Thr Tyr Pro Ser Ile Ile Lys Arg Gly Lys Asn Phe Phe 325 330 335 Leu Gln Tyr Pro Val Arg Val Thr Val Lys Val Pro Lys Leu Thr Lys 340 345 350 Asn Phe Lys Ala Phe Gly Ile Asp Arg Gly Val Asn Arg Leu Ala Val 355 360 365 Gly Cys Ile Ile Ser Lys Asp Gly Lys Leu Thr Asn Lys Asn Ile Phe 370 375 380 Phe Phe His Gly Lys Glu Ala Trp Ala Lys Glu Asn Arg Tyr Lys Lys 385 390 395 400 Ile Arg Asp Arg Leu Tyr Ala Met Ala Lys Lys Leu Arg Gly Asp Lys 405 410 415 Thr Lys Lys Ile Arg Leu Tyr His Glu Ile Arg Lys Lys Phe Arg His 420 425 430 Lys Val Lys Tyr Phe Arg Arg Asn Tyr Leu His Asn Ile Ser Lys Gln 435 440 445 Ile Val Glu Ile Ala Lys Glu Asn Thr Pro Thr Val Ile Val Leu Glu 450 455 460 Asp Leu Arg Tyr Leu Arg Glu Arg Thr Tyr Arg Gly Lys Gly Arg Ser 465 470 475 480 Lys Lys Ala Lys Lys Thr Asn Tyr Lys Leu Asn Thr Phe Thr Tyr Arg 485 490 495 Met Leu Ile Asp Met Ile Lys Tyr Lys Ala Glu Glu Ala Gly Val Pro 500 505 510 Val Met Ile Ile Asp Pro Arg Asn Thr Ser Arg Lys Cys Ser Lys Cys 515 520 525 Gly Tyr Val Asp Glu Asn Asn Arg Lys Gln Ala Ser Phe Lys Cys Leu 530 535 540 Lys Cys Gly Tyr Ser Leu Asn Ala Asp Leu Asn Ala Ala Val Asn Ile 545 550 555 560 Ala Lys Ala Phe Tyr Glu Cys Pro Thr Phe Arg Trp Glu Glu Lys Leu 565 570 575 His Ala Tyr Val Cys Ser Glu Pro Asp Lys 580 585 <210> 19 <211> 603 <212> PRT <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 19 Met Lys Ser Phe Lys Leu Lys Leu Leu Pro Thr Asp Glu Gln Asn Val 1 5 10 15 Leu Leu Asn Glu Val Phe Cys Lys Trp Ala Ser Leu Cys Thr Arg Met 20 25 30 Ala Ser Lys Gly His Asp Lys Glu Arg Leu Ala Pro Pro Asp Ser Ser 35 40 45 Gly Asn Tyr Phe Asn Lys Thr Gln Leu Asn Gln Val Asn Thr Asp Val 50 55 60 Thr Asp His Met Gly Ala Leu Glu Glu Ser Ala Ser Gln Lys Glu Arg 65 70 75 80 Ala Val Glu Lys Val Lys Arg Arg Leu Lys Leu Ile Ser Asp Met Leu 85 90 95 Ser Glu Pro Asn Leu Arg Asp Val Ser Gln Gln Lys Pro Thr Thr Phe 100 105 110 Arg Pro Leu Glu Trp Val Lys Glu Gly Leu Leu Lys Thr Lys Tyr His 115 120 125 Thr Val His Tyr Trp Gln Lys Glu Cys Asp Lys Leu Thr Lys Gln Lys 130 135 140 Glu Arg Met Glu Lys Thr Ile Glu Lys Ile Lys Lys Gly Lys Ile Thr 145 150 155 160 Phe Lys Pro Thr Lys Met Ser Leu His Gln Asn Cys Phe Ser Leu Ser 165 170 175 Phe Gly Lys Gly Thr Phe Ser Met Arg Pro Phe Ser Asp Thr Lys Arg 180 185 190 Gly Ile Asn Leu Asp Met Leu Thr Ala Pro Ile Gln Pro Ala Ile Gly 195 200 205 Lys Asn Asp Gly Lys Ser Ser Leu Arg Ser Lys Glu Phe Ile Ala Arg 210 215 220 Asn Ile Glu Asn Tyr Ile Ile Phe Ser Ile His Ser Gln Leu Phe Gly 225 230 235 240 Leu Ser Arg Ser Glu Glu Leu Leu Leu Asn Ala Lys Lys Glu Glu Leu 245 250 255 Val Ala Lys Arg Asp Ala Met Leu Lys Lys Lys Ser Asp Ser Leu Ser 260 265 270 Lys Lys Ile Lys Glu Leu Glu Lys Ile Val Gly Arg Lys Ile Thr Asp 275 280 285 Ser Glu Arg Ser Glu Ile Met Ser Gln Gly Gly Lys Leu Ser Ser Glu 290 295 300 Lys Phe Ser Glu Asp Asn Ser Tyr Leu Lys Thr Leu Lys Val Leu Ala 305 310 315 320 Lys Asp Ile Ile Gly Arg Glu Glu Leu Phe Arg Leu Lys Lys Tyr Pro 325 330 335 Ile Val Ile Arg Lys Pro Leu Asn Glu Arg Lys Lys Leu Lys Asn Leu 340 345 350 Lys Pro Asp Glu Trp Glu Tyr Tyr Leu Gln Leu Ser Tyr Asp Glu Leu 355 360 365 Glu Lys Lys Glu Phe Thr Pro Lys Thr Ile Met Gly Ile Asp Arg Gly 370 375 380 Leu Lys His Ile Leu Ala Ile Ala Ile Tyr Asp Pro Val Gln Asn Lys 385 390 395 400 Phe Val Lys Asn Met Leu Ile Pro Asn Pro Ile Leu Gly Trp Lys Trp 405 410 415 Lys Leu Arg Lys Ile Lys Arg Ser Ile Gln His Met Glu Arg Arg Ile 420 425 430 Arg Ala Gln Gln Asn Ala His Val Pro Glu Asn Gln Leu Lys Lys Arg 435 440 445 Leu Lys Ser Ile Glu Asn Lys Ile Asp Tyr Tyr Tyr His Asn Val Ser 450 455 460 Arg Gln Ile Leu Asn Leu Ala His Asp Phe Lys Ser Ala Ile Val Val 465 470 475 480 Glu Asp Leu Gln Asn Met Lys Gln His Gly Arg Lys Lys Ser Lys Gly 485 490 495 Leu Arg Gly Leu Asn Tyr Ala Leu Ser Asn Phe Asp Tyr Gly Lys Ile 500 505 510 Met Gly Leu Val Lys Tyr Lys Ala Glu Ser Glu Asn Val Pro Leu Leu 515 520 525 Thr Val Leu Pro Ala Gly Thr Ser Gln Asn Cys Ala Tyr Cys Leu Leu 530 535 540 Tyr Gly Lys Glu Gln Gly Asn Tyr Val Arg Asn Asn Val Asn Ser Lys 545 550 555 560 Ile Gly Lys Cys Lys Leu His Gly Glu Ile Asp Ala Asp Ile Asn Ala 565 570 575 Ala Arg Thr Ile Ala Ile Cys Tyr His Lys Asn Ile Asn Glu Pro Lys 580 585 590 Pro Tyr Gly Glu Arg Lys Thr Phe Lys Arg Lys 595 600 <210> 20 <211> 529 <212> PRT <213> Unknown <220> <223> Uncultured archaeon <400> 20 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 21 <211> 5539 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 21 tcgcgtctat ggcgtgattt tgcagcttcc ctaaattcag ccccttctcc tcaaagccca 60 gaagctcctt taatgcctgc tcgtttgcgc cctccacctt tgagcccggg gcggcgggga 120 agatgctgcg caccaatctt ccttccttgt agactccaag cgccctaacc cttgcgatta 180 catactccca gtccgcagtc gggaaattct gcggcatcgg ggagcctttc tcgtactctg 240 aaacgctttc cgcatgctca aaatagcggt ttgcgcgcat tatctcggaa attgtgccaa 300 aaagcattcc atcctcgcag cgtgtctgga cgaactgccc cttccttaca ttcggggagg 360 agattacgaa ggagaagaag gaggtggtgg ggctgtctat tgtggagatg accgtgccaa 420 gggaggtgga atccatgaag aggttttgag gagaaaatta atatatggaa ttgagggggg 480 tcggacttct accctgtaag tgtttataag gagaactcca tatatacttc ggatatgcaa 540 ctaataattg acgattatgg cgcatatctt gggcagaagg acaacctctt ccaaataagg 600 aagaaagacg ggacgtgtga agaatattct gccgacaagg ttgagcagat acttcttgtg 660 aaaaatagct gtatttcttc aagagccgca ctcttggcag cacgaaacaa catagatgta 720 gtgtttgtag gaaaattcgg aatgccggaa ggaaggattt ttcctgcatg tcttggagga 780 acaaatctca taagaagaaa acaacttgaa gcagggcaga atgagaaagg agggaaaatt 840 gcaataaaac ttatctgggc aaagatcaag aatgaggaat ttttccttaa aactctcaac 900 aaaagcagaa ctgcgcctct tcttttggag aaagcggaaa aaataagcgc tattgcggag 960 caagtccggc agatgttagg cgagaaattt gatgcagata gggtttttgg ttttgaagga 1020 ttggctgcgg cgcactattt tgagggattg tcacaggtaa tgccgattga aaagcgcgac 1080 caagagggaa aagatgcccc aaatgcactc ttgaattatg gttatggaat gttgtacgga 1140 gagatagaga aagcctgcct ttttgccggt ttggacccgt atcttggctt tcttcatgca 1200 gataggtacg gcaagccctc tcttgtactt gatttgatag aagagttcag accggttatt 1260 gttgataggg cgattattac gctttacgca cagaaacaga taaacgagag tgattttgag 1320 cagggaggag ataagatttt tctttcaaaa gaagggagaa agaagatgat aaaggcaatt 1380 atggaaagac tgcatgcaaa aataacttca gatgggcgca agcttgagct ttcggtgata 1440 atacaggagc aggcgcgaag aatcgcctcc tttgtgaagg gagagagcga gtttgagcct 1500 tttctttaca ggtggtagga tgttttattg ggtaatttat gatataagcg aaaacaagaa 1560 acgcggcagg gtggcaagaa tatgcaaaaa ctacgggttt agaagagtgc agaagagcgc 1620 ctttgcaggc gaaacttcaa agaataaggt ggagatgctg ttattggaat gcaatgagat 1680 tatagaggga ggggatgatt atttgtttgt cattccgaac tgcacaagct gtttcaatgg 1740 gaaaatgata accggctgtc ttgacgagaa aagagtgaga aatcagccgt atatgtttgt 1800 aggtgatggc gcatgaacag aatgggaatt ttgagcattc gagacatatt gaattacaac 1860 tactgcccgc gcatagtata ttttgagtat gttctgcgca gaccacaggg caggacgaaa 1920 aaggaggatg agggattgaa acagcataat gaatttgtgc caagagggaa gaggaataag 1980 atggttaaac ggatttgtta tgacaagaag ctgtttaatc tgccgcttta ttctccgcgc 2040 atgaaccttc aaactgtggc ggattgcgtg cttattgaca caaaagagaa gcttgctgtt 2100 ccgatgcagt ttaagcatgg aaaaacacct tcttgcttgt atcggactat gaaataccag 2160 cttgtagcgg aggcgttgct gattgaggag tgccttgggc tttcatgtcc ttatggactt 2220 gtgaaattct tacctgaaga aacaactctt agaacagaaa tagacgaaat tcaaaagcaa 2280 aaacttaaag aacagcttga gagtattaac aacgtggtga ggtttgaaag gtatcccgat 2340 ggtccgagaa cgaggaatta ctgcggggac tgctggtatc atggaaaagt ttgcacggga 2400 tttgacggca aaatagtggg atgaacatga gtaaaactac gatttcagta aaattaaaga 2460 ttattgactt aagctctgag aaaaaagagt ttcttgataa ctattttaac gaatacgcaa 2520 aagccacgac gttctgccag ttaagaatac ggcgactttt gagaaataca cactggcttg 2580 ggaaaaagga gaagagttca aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg 2640 gtgaaaacaa agaacttgtg aatgaagata gaaattcagg cgaacctgca aaaatttgca 2700 aaagatgtta taatggaaga tatggcaatc agatgatacg taaacttttc gtttcaacga 2760 agaaaagaga agttcaggaa aacatggaca tacgaagagt cgctaaacta aataatacgc 2820 attatcaccg cataccggaa gaagcatttg acatgattaa agccgccgat acagcagaaa 2880 aaagaagaaa gaagaatgtc gagtatgata aaaaaagaca gatggaattt attgagatgt 2940 ttaatgacga aaaaaaacgt gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt 3000 acgttcatat ttctaaattg gaaagtccgt caaagggata tactctgaac ggaataaaaa 3060 gaaaaataga cggcatgggt aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga 3120 agatttttgg ttatcagggc aatagaatca aacttgattc gaattgggtc cggtttgacc 3180 ttgccgaatc ggagattact atcccctcac tgtttaagga aatgaaacta aggataactg 3240 gaccgaccaa cgttcattca aaaagcgggc agatatattt tgcagaatgg tttgagcgga 3300 taaacaaaca accgaataat tactgttatc tgataagaaa aacaagttcg aacggcaaat 3360 atgaatatta tcttcaatat acttatgaag ccgaagttga ggcgaataag gagtacgctg 3420 ggtgtttggg ggttgatata ggatgttcta aacttgctgc cgcagtttat tatgattcaa 3480 aaaacaaaaa agcacaaaaa ccaattgaga tattcacgaa tccgattaaa aaaatcaaga 3540 tgcggcgcga gaaactgatt aaacttcttt ccagagttaa ggtgcggcac agacgcagaa 3600 aactcatgca actcagtaaa actgaaccca ttatagacta tacgtgccac aaaaccgcaa 3660 gaaaaattgt tgaaatggca aatactgcca aagcttttat ctccatggag aatcttgaaa 3720 ctgggataaa gcaaaagcaa caggcaagag aaacaaaaaa gcagaagttt tatcggaata 3780 tgtttctttt cagaaaatta agcaaactaa tagagtacaa ggctctgctg aaagggataa 3840 agatagtata tgtgaaaccc gattatacaa gccaaacttg ttcttcatgt ggcgcagaca 3900 aagaaaaaac cgagcgccca tcacaagcaa tatttcgctg tcttaatcca acatgccgat 3960 attatcaaag agacataaat gccgacttca acgccgcagt gaatatagct aagaaagctt 4020 taaataatac tgaagtagta actacgttat tatgatttac tccgagtaat cggatgtgga 4080 ttatagcaca gcaacctata tggaagctgg gaaccggttt atccggaaat gcgcaccgtt 4140 gcatggaatt atgtgcgctt aagaccttat gatatcgcgc ggcttgactt cgcgatagac 4200 aggtcaacta ttgtctcggt tcaacgtgcc aattagcagg tctttataaa tagcctgcag 4260 attttcaagt tgcttttctt agtgcagaaa agaaggcagg agaagcctcc gtttggcaaa 4320 aaaaggcggt tgtatctact gtttcagcgc acgaattaac gagatgagag atgcaacttc 4380 actgtcagat aaagaataag ccactctggt gtccgtttca gcgcacgaat taacgagatg 4440 agagatgcaa ctctgatatt tccgagcgtt gaggatgtgg caactggggt ttcagcgcac 4500 gaattaacga gatgagagat gcaactagac aagctcacga atgtagtagc tcatgttgcc 4560 tttgtttcag cgcacgaatt aacgagatga gagatgcaac tctctccgcg caaatcgtat 4620 ctccatgttc cgctccgttt cagcgcacga attaacgaga tgagagatgc aaccagccat 4680 ttatcttctt atttactatg attgggcggg tttcagcgca cgaattaacg agatgagaga 4740 tgcaactttc tgtcaatcct tccgccaata ctttgttttc aagtttcagc gcacgaatta 4800 acgagatgag agatgcaact ggatataggg tatttgagat accccacacg ggcttgtttc 4860 agcgcacgaa ttaacgagat gagagatgca actatgattt actgcgctcg tagttgcgac 4920 aaagtggcgt ttcagcgcac gaattaacga gatgagagat gcaacaattc agctaccgag 4980 tcattcccct tcatttttga tgtttcagcg cacgaattaa cgagatgaga gatgcaacac 5040 agtagaagat aaaacagaat tagaataaga tggcttccag cctgatggtc gtgctcataa 5100 ccgaattgct gaagtatacg tgcaagctcc cttccagaaa tgacgggcag tttaggcatg 5160 tacctcaaca atttcttccc gtattgacgg cggaaccggc tccccgtgct ttttcaggct 5220 cgcaagatag cccttgatgg cgtctttaac gtttgcaagc gcatcttccc tagttgttcc 5280 ctgcgaaaca cagcccggaa gcgaggtgca aaccgcgacg tatgcaccgt cttcgtcttc 5340 ttctacaatc accctgaatt tcataagtat ctttgggctt tttggagttt ataagaatga 5400 tggatttggg aagttgcacc gcgcggatta gtgggagccc cgtcatttcg gcgcatccaa 5460 aaggagtata agctccctcg tttttgcttc aaattccttt tttcttcaat tccgcaaatc 5520 tgcctttgcg ggagcttcg 5539 <210> 22 <211> 6111 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 22 agtttcaatc cctccccctg cattgcaacg cagctcgttg catccgcagg cgatcttcga 60 tcgcctttgc ttaagccttt gacacagaaa ggataggaaa ggcttaaatc cctgtgctgt 120 taaaatacca gtgaagaggt caaggcatga ggattgagaa gaaaatatgg ccggagtatt 180 ttcagaaaat aattgatgga gtcaaaacct ttgagttaag gctggcagat tttgagtgca 240 ggcctggtga catactggtt ttgagggaat gggacccaag aacaaaagag tacacgggca 300 gagttattga aaagaaggtc acttacgtgg ccaaaagcaa agacatgagg tcctggcctg 360 acgaggacat aaggaaatat gggtttctgg ttattgggtt taaatgagcg gcggttgata 420 tgttttcaat ggtggccata tgattagata atcgacaaac atgcgaatcc tttttatatg 480 tgaaaacaag aaataaaacg atgccatccg aaacatacat tacgaaaacc ttgtcattaa 540 aactcattcc atcagatgaa gaaaagcagg cgttagaaaa ctattttata acattccaga 600 gggccgtgaa ttttgctata gatagaatag tagatataag aagctccttt agatatctaa 660 acaaaaatga acaatttcca gccgtgtgtg attgctgtgg taagaaagaa aagataatgt 720 atgtgaatat atccaataaa acctttaagt ttaaaccatc aagaaatcag aaggatagat 780 acacgaagga catttataca atcaagccca atgcccacat atgtaagaca tgctacagtg 840 gcgttgcagg aaatatgttt atacgcaaac aaatgtatcc gaacgataaa gaagggtgga 900 aagtttcgcg ttcatacaat atcaaagtta atgcccctgg actgactgga accgaatatg 960 ctatggccat acggaaggca ataagtatat taagatcttt tgaaaagcga cgaagaaatg 1020 ctgaaagaag aatcatagag tatgaaaagt ccaaaaaaga gtatttagaa ttgattgatg 1080 atgttgaaaa aggaaagaca aataaaatag tggttcttga gaaagaaggc catcagcgag 1140 tgaaaagata taaacacaag aattggcctg agaaatggca aggtatttct ttaaataaag 1200 caaaaagtaa ggttaaagat attgagaaaa gaataaaaaa gctcaaggag tggaaacacc 1260 ctacactaaa tcgaccatat gtcgagttac acaaaaataa tgttaggata gtgggttatg 1320 aaacagtgga acttaaatta ggaaacaaaa tgtacaccat acattttgct agcatatcta 1380 atttacgaaa accatttaga aaacaaaaga aaaagtccat agaatatctg aaacatctcc 1440 taaccctagc gttaaaaaga aatcttgaaa cataccccag cataataaaa agaggtaaga 1500 atttcttttt gcagtatcct gtgcgagtga cagttaaagt gcctaagctg acaaaaaatt 1560 ttaaagcttt tggcatcgat agaggcgtaa ataggcttgc agtaggttgt ataatctcaa 1620 aagatggaaa acttaccaat aaaaatattt ttttcttcca tggaaaggaa gcgtgggcca 1680 aggaaaacag atacaagaag attagggaca gattatacgc tatggccaag aagttgagag 1740 gagataaaac caagaaaata aggctttatc atgagattag gaagaaattt agacataaag 1800 tcaaatattt caggagaaac tatctgcata atatctctaa gcaaattgtt gagattgcaa 1860 aggaaaatac accgactgtc atcgtattag aagatttacg gtacttgaga gaaaggacat 1920 atagaggaaa aggaagaagc aaaaaggcga aaaaaacaaa ttataaatta aatactttta 1980 cttacagaat gcttatagat atgataaaat acaaggcaga agaagcggga gttcctgtaa 2040 tgattattga cccaagaaac acatcacgaa aatgttctaa gtgtggttat gttgacgaaa 2100 ataatagaaa acaagcctcg tttaagtgcc ttaagtgtgg ttatagtctt aatgcagact 2160 taaatgcagc tgtcaatata gcaaaagctt tttatgaatg ccccacgttt agatgggaag 2220 aaaaattgca tgcatatgtt tgttcagagc ccgataaata gcaaatttac ttattcggag 2280 cctgtttaag ccattagaaa aagataaata ttaagaagca cataatttat tttggttaca 2340 tatcactgga taatgagaac agctgtagat taagctgttt gatgtattgt attatgctcc 2400 actttaataa gtggtgcctt ccaaagctat atgctgaggg aggatgggcg ctgttgcagc 2460 gtctgcccac ctcagagtgg gtatccttac ctattttgaa aggttctgta agtgtttata 2520 aatccgattg caattttgca acttacctat ttttaagttt cagatatctc gatagacgca 2580 gcaatactca aaaattgtct gccattgcag aacccaaagt aataggtcaa ggaatgcaac 2640 tgactaaaca aagtttcgct aaactagaag aacaggccaa ttgcagaacc caaagtaata 2700 ggtcaaggaa tgcaactcaa tatcagacgc tttattcact ctaggagcta cccttattgc 2760 agaacccaaa gtaataggtc aaggaatgca acattatatt tattgttatg ttatcatatc 2820 tcccaaacaa aagtattgca gaacccaaag taataggtca aggaatgcaa ctaggtgttg 2880 ttaagcgaca cggttagaag gtaatcttga ttattgcaga acccaaagta ataggtcaag 2940 gaatgcaact cggccttttt ccagccaagg gcttttacta ttgccctatt gcagaaccca 3000 aagtaatagg tcaaggaatg caaccaagcg aaaagtattt atataacata ggtttgtttc 3060 attgcagaac ccaaagtaat aggtcaagga atgcaactat tcttccaaat tcaacacctc 3120 caaaatattt ataattgcag aacccaaagt aataggtcaa ggaatgcaac ttgacagcca 3180 agctagaaag ttgttaaaca gctttaattg cagaacccaa agtaataggt caaggaatgc 3240 aactatgtta aaatcgctat cgggcgtgga agggggtagc gaattgcaga acccaaagta 3300 ataggtcaag gaatgcaacc atagtatccc tgcgtttgct ctgcaaccgc aggttgtcta 3360 ttgcagaacc caaagtaata ggtcaaggaa tgcaactctg gatatctggt ccctccacga 3420 aaccatcacc atcattgcag aacccaaagt aataggtcaa ggaatgcaac caccttttgg 3480 tatagcccag aagcatcaaa aacatgtgaa aaattgcaga acccaaagta ataggtcaag 3540 gaatgcaact ctttttagct tttctcggca gtttatacca catatcctta ttgcagaacc 3600 caaagtaata ggtcaaggaa tgcaacggta atgtcagccc atctgacgca acggcatttg 3660 agacaattgc agaacccaaa gtaataggtc aaggaatgca tgagaaccac ataattttta 3720 aattgcaggt acttatcatt ttttatgatt ttagtgataa acgatttttc aacattcctg 3780 gggaagaaag gggaccgttt tgtaattaaa aaggaaaata agcgtgaaga attttctaca 3840 aataacgttg aacaaatcat aattgctgca gtctcatcta tctcctatgg agctattcga 3900 ttggcaatta aacactctat tgatgtggtt tttttaagca gaggaggtac tcctttaggc 3960 aggatatacc cctgtaaact cggtggaaca accttaacga gaaaaaaaca attagaggct 4020 tattattcaa cagttggtac aaacatcgta aaaaatctcg ttaaagcaaa gattatgaac 4080 caagcctatt ttttgaagtc tttagaaaaa acaagaaaag atattaattt cacttctgaa 4140 attaacagca ttgttaatat tgctaaaaag attccaggtc tcacaggtct aatagatgat 4200 atacggggaa ctttattggg atatgaaggc attgcagcca acaaatattt tagttccttg 4260 tctaacatac taccatttaa aggaagggac agaacaagta atgattacgt aaatattgta 4320 ttgaattatg gatatggtgt tctgtacacg gaagcagaga aagcgtgtat tctagcaggt 4380 cttgatccat atttcggttt tttgcacaaa gataggtaca acaaaccttc aatggtattg 4440 gaccttgtgg aaatatttag accaatcata gtggacaggg cagttgttac tttgttttcc 4500 caaaaacaga taaattcgaa gtgttttgag aaagaaacat atggggatgt ttttttaagt 4560 aaagagggta gggaaaaaat cttatctgct cttctatctc gcctcaatca gcagatacgc 4620 tttaaaggta agaaaacaag ctttaaaaac atcatattag gagaaagccg ttctatagct 4680 caatatgttc ttggtaatat accagaatat gagccgtttg tttataggtg gtaattatga 4740 tatattgggt gatttatgac atcacagaca ataaagttag aagcaaggtt gccgaggagt 4800 gcaagaactt ggggttacat cgagtccaaa aaagttcttt tattggcatt ctctctagaa 4860 atacagccga gatgttatat attaaaatag gggatttaat tgataaaaga gattgtgtgt 4920 tctttattcc acaatgtaac aaatgttttg cagacaaact tattcttggc gattttgatg 4980 aaaggactgt agaagcaaaa gatttcatcg tggtgcaatg acaacgatgg atggttattt 5040 aactgctaag gatttaatga actttcatta ttgtaaaaga ttaatatatt ttgagaatgt 5100 attgaaaatt aaacaagcta caaccaccaa agaactaaaa ggtcgcgcat tacacaacag 5160 tttttctgta tcatcaaaga gaaccaagat aataaaggag tttccatatt ggcctaagat 5220 atataatctt agattaaaat cagatttttt gcaccttata actacattag actgcttgat 5280 tataaaccaa acagataatg aggcatttcc gctggaatac aaatattcca aaaaaccacg 5340 caagatttat aaaaccatga aattgcaact gtctcttcaa gcccttctcg taaatgaact 5400 tttacattat agtgtgaagt ttggtttcat aaagttttcc aaagacaatt ctttggccaa 5460 agtaagcata acagatagag atttagaaga agtgagaacg actatatctg aggttaatac 5520 aatagtagag aaggagattt tacctccacc caccgaatat aaaaaaagat gtattgactg 5580 ttgctatttc aatatatgca aaggaatcta aacaccctct cacttcacag tcacactctt 5640 ggccaggttt ctgggcctgt cggggtctag gcctttgagg acggccagtt ggtaggccag 5700 tatctggatt gggatgattt ggaggattgg gccgagctcc tcgctttcag gcgtttttat 5760 ccagtagtca aaaatatcgt aatttttgtg agagactccg atgacatagg cccctcttgt 5820 ttttacctca tttgcgtttg ctatgatgtc tttgtcatcc ttggaaacaa agacaataac 5880 agggcttcct ttttttatca gagccagggg gccatgcttt agctctcctc ctgcaaaggc 5940 ctctgcgtgt atgtatgaca cctccttgat ctttagggca gcctccagtg ctgttggata 6000 ctgcagggac cttcctagca cgtatatgtg ttcctcattt aagaggcgtt tggctaatgc 6060 cctgagcctg tctctcatgt tcctagacgt caggttgtat atatccatgt a 6111 <210> 23 <211> 8356 <212> DNA <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 23 tgcgggtgaa tcttttattt cttggatgtg tcattaaatt aatatattag aaaatatatt 60 tttagttatg gattttcaac aagttatttt tgtggttggt attgttttcg gcttattggt 120 ggcaggaggc atagtggggt ggtacgtcac gcgaatgcgc tttatgagga agtgggatgt 180 gttggttccg gaattgcgca aggatgcgat tatgcgttca cgcgcaaact tgggaggaaa 240 gtttactgaa gcattgtcta tgtattttcc tgattttcca ttctctccaa cggaaatgag 300 atgggttgga ggaagtccaa tagattacat cgttttcaaa ggtatggata atgataagat 360 agagcaggtt gtctttctgg aaattaagag cggaaaatcg cagttgtctc ctcgggaaaa 420 gcagataaaa gaggtgattg agaaaaaagg cgttgcgtgg aggatgtatc gggctcctga 480 gcagttgacg cggggggaaa atgcagctgg tcattgatga ttttggcaca tttgtgaaaa 540 agaagcagaa ccgttttgag gttgcaagaa aggagaaaac cgaggagttc tctgcggata 600 aagtaagtca gattgtgctt ctaaaaaaag ggactatttc aggttcagca gttgcacttg 660 cgatggagaa aaatattgat gttgtctatt tagatagttt tggaaagccg attgcccgaa 720 tttttccgtg cactctgggt ggaacaactc ttatcaggag aaggcaggca gaggcaactg 780 catcactgta tgcggttccg tatgtgcgtg cgtttgtcaa gtcaaagatg ctgaatcagg 840 cggccttgct taaatcactc aataagacga gaaacggcct atttctggaa agaattcgtg 900 agattgagcg gattattgag aaatcagagg atgcagtcgg agattatgtg gatgacttgc 960 ggagtgcgtt gatagggtat gagggaaatg ttgcggcgat ttattttgac tgcatacggg 1020 cactcattcc gtttggaaga cgaaagagag gcgcaaaaga cagatttaac tctgcgttaa 1080 actacgcgta tggaattttg tattctcaaa tagagaaggc ctgtcttctt gcaggtcttg 1140 acccgtattt gggatttgtt cattctgaca ggtacggaaa accctccttg gttcttgact 1200 ttatcgagca gttcaggcaa ccgattgcag accgtgcagt tataaccatt tttgtcaaaa 1260 aagagttagc agatgattcg ttcattgaag aagaaatcgt tcagttatca tcgaaaggaa 1320 agaaaaaaat tgttgaggca atatatgggc gtctttcatc tgaattcacg cataatggga 1380 agaagatgac ttttgagaaa gtcatcatcg ataaggcaag ggaatttgca gggtgtattc 1440 ttgaaatgaa ggaatacgaa ccattcgttc acaggtggtg aaatgttata ttggctcatt 1500 tacgatattt caagcaattc caaacggttg aaagtctctg agaagtgcaa agattacggt 1560 ttataccgtg tacagaaaag tgcatttctt ggtgacctat caaagaataa ggcagaaatg 1620 cttcttgaag aagttcagga cattatggcg gaatctgaag gggactgcgt gtttatgttc 1680 cctgcgtgca aagggtgttt ttcatcaaga gcaattattg gggaatttaa tgagtcatta 1740 atcgaggaga aggagttcgt gtttttggca tgctcaagtc agtgacggca acagatgtga 1800 tgaatttttc ttactgtaag agaattcctt actatgtcca cgttttgaaa attcctcagt 1860 ttacaacggt gaaagagtat aagggacggg agaagtatga tgattttaag tataggtcca 1920 agcgttcaaa aattattcag gagtttcctc atttggaaag aaagtatgat ttgtatcttg 1980 aatgtgatgg tttttcaaca aaattggact gtgttttttt caatgatgat gacgccttcc 2040 ccttgcagct caagtatgca gtaaaaccga agaaaatgta cgcgactacg cgaaggcaat 2100 tgcttcttga ggcgttttta atcgagcaat gtcttggcaa gaaagttcaa aggggttttg 2160 tgaagtacga gttatcaggc gacttggtgg aagttgacct aactgacaag tctgaactgt 2220 tcgaaatgtt caaagaatat tttggcataa taatggggga aaaactgcct gaaccgacgg 2280 aatatttaaa aagatgccgc gattgttgtt atcgtaggtt ttgttgggga gataaatgaa 2340 gtcatttaag ctaaagttgt tgccaacaga tgagcaaaac gttcttttaa atgaagtgtt 2400 ttgtaaatgg gcatcattat gtaccagaat ggcgtctaaa ggacacgata aagaacgact 2460 ggcgcctcct gattcaagcg ggaattattt taacaaaaca caactcaatc aggtgaatac 2520 tgatgtaact gaccatatgg gtgcgcttga agagtcagca agtcaaaaag aaagagcagt 2580 tgagaaagtc aaaagaaggt tgaagctgat ttcagatatg ctctctgagc caaatttaag 2640 ggatgtttct caacaaaaac caaccacgtt ccgtccatta gagtgggtta aggagggtct 2700 gttaaaaaca aaataccata ctgtgcatta ttggcaaaag gaatgtgata agttaacaaa 2760 acaaaaagaa cgaatggaga aaacaattga gaagataaag aaagggaaga taacgttcaa 2820 accaacaaag atgtccctgc accaaaattg tttttcgtta tcattcggaa agggaacgtt 2880 ttcaatgcgg ccttttagcg acactaaacg aggcataaat cttgatatgc taactgctcc 2940 cattcaacct gcaataggaa aaaacgatgg caaatcatct ttgaggagca aagagtttat 3000 cgcaaggaat attgaaaact acattatttt ttccatccac tcacaactat ttgggctgag 3060 caggtcagaa gaactgttgt taaacgcaaa aaaagaggaa ctcgttgcta agcgagatgc 3120 aatgctcaaa aagaaatctg attcgctaag taaaaaaata aaggaattag aaaaaatagt 3180 aggaagaaaa attactgatt cagaacgttc agagataatg tctcagggcg gcaaattgtc 3240 ttctgaaaag ttcagtgaag ataattcata tttgaaaacg ttaaaggtgc tggcaaaaga 3300 cattattggg cgagaggaat tgttcagact taagaagtac ccgattgtga ttagaaaacc 3360 tctcaacgaa cgaaaaaagc tcaaaaatct taaacctgac gaatgggaat attatttaca 3420 gttgagttat gatgagttgg aaaagaaaga gtttacacca aagacaatta tgggaatcga 3480 tagaggacta aaacacattc ttgctattgc gatttacgac cctgtgcaaa ataaatttgt 3540 aaaaaatatg ctcattccaa atccgatatt aggttggaag tggaagttgc gaaagataaa 3600 aagaagtatt caacatatgg aaaggagaat acgggctcag caaaatgctc acgttcctga 3660 gaatcagttg aaaaaacggt tgaaaagtat tgagaacaaa attgattatt actatcacaa 3720 tgtgtcgcgg caaatattga atctcgctca cgatttcaaa tcagcaatag tggtagaaga 3780 cttacagaat atgaaacaac acggaagaaa gaaatcaaaa ggactaagag gactaaacta 3840 cgcattaagt aactttgact atggaaaaat tatgggtctt gttaagtata aagcagaatc 3900 agagaatgtg cctcttctta ccgtgttgcc tgcaggaacg agtcaaaatt gcgcgtattg 3960 tctcttgtac ggaaaagaac aaggaaatta tgtgcggaat aatgtcaaca gtaaaatagg 4020 caagtgtaag cttcatggag aaatagatgc ggacatcaat gcggcaagga cgattgcgat 4080 ttgttatcat aagaatatta atgaaccaaa accatatggt gaacgaaaga cttttaaaag 4140 aaagtaaatt ggaatatcct tgatgcgagg aatatgcaat catagtcctt aaggcaccgt 4200 gtatacaaac ggatatgtct tcgagcaatc gaaacatccc aaggatagca caaattctat 4260 atgggtttgt gccaaagatg gcccgttgca ggccattagg gttcataaaa cactgtcatg 4320 gtgtataacg acctgaccta ttctctactc taagaacatc tcaaccaaat aaaacagcag 4380 gtctttaaaa agggagctac aaagtcccga cctgctgttt tcatttttaa ataaaaagag 4440 aaaacgcaag tgctgttgca gatgtggaga aatagagata acgaatgcaa catcgtgatt 4500 tcttggccca tacttcctcc atgtagagcg ttgcagatgt ggagaaatag agataacgaa 4560 tgcaacgcat atatcacctt gtcatcatat tgacgacaga aaggttgcag atgtggagaa 4620 atagagataa cgaatgcaac aagtcaggac tgttaagaat gatgggtctt cttttgtcgg 4680 ttgcagatgt ggagaaatag agataacgaa tgcaactcga gataccagtg gagggtttag 4740 atgaagatac tgcacgttgc agatgtggag aaatagagat aacgaatgca acagaatttg 4800 tgcaaggcga tgggttggcg cagttttgag gttgcagatg tggagaaata gagataacga 4860 atgcaactaa ggatagaggg tgtctctgcg attgtcacga gaacagttgc agatgtggag 4920 aaatagagat aacgaatgca acatagagac tgacccgcgc tgcaagacgc gtaaggcggt 4980 tgcagatgtg gagaaataga gataacgaat gcaaccgact ggattgcttc tttctggagc 5040 tgcggcaagg ggttgcagat gtggagaaat agagataacg aatgcaacag gtactccttc 5100 caaagcccac ttcgctctcc cgtaataccg ttgcagatgt ggagaaatag agataacgaa 5160 tgcaactgcg ggagagactg attgttctgc ggcggggagt tttgttgcag atgtggagaa 5220 atagagataa cgaatgcaac tgatcccgtg aggatgaaag aaggaacgtc cacgtgttgc 5280 agatgtggag aaatagagat aacgaatgca acaggtggtt agcacgatgg agatggacag 5340 cccgcaagcg ttgcagatgt ggagaaatag agataacgaa tgcaacttct tgcagctttt 5400 ggggtgacat tgattgcgtt tggtgttgca gatgtggaga aatagagata acgaatgcaa 5460 ccggatgtaa cagctaaccc tgctacagcg acgaaaggcg ttgcagatgt ggagaaatag 5520 agataacgaa tgcaacacct tggccattgt tcagtcccag atgccatcaa gcgttgcaga 5580 tgtggagaaa tagagataac gaatgcaaca acttcttcgc ttgcgcctta cgcgccgtaa 5640 actcatgttg cagatgtgga gaaatagaga taacgaatgc aacctgtcag gcgcggacgt 5700 cctcacattg ttggccgaag ttgcagatgt ggagaaatag agataacgaa tgcaacagaa 5760 cttcgcaggc atcattaaga gcggcagcta ccagttgcag atgtggagaa atagagataa 5820 cgaatgcaac cccgaaaatg taggcaagaa tcgccgcccc aatattcgtt gcagatgtgg 5880 agaaatagag ataacgaatg caacttgttt tattttgaag cagaggataa cacgatgaag 5940 aagttgcaga tgtggagaaa tagagataac gaatgcaact aagaagggtt ttgcgagtat 6000 caaactcgtc ttttacggtt gcagatgtgg agaaatagag ataacgaatg caacttcgct 6060 tagaaatgac cgtcatcaac agatcataat gcagttgcag atgtggagaa atagagataa 6120 cgaatgcaac caaggtatat gatgcgacgg gtagtttggt gctcaatgtt gcagatgtgg 6180 agaaatagag ataacgaatg caactctcat accaaatcca cctctgcact ttttgaaaat 6240 gggttgcaga tgtggagaaa tagagataac gaatgcaaca aaaaccctct gatgaatatc 6300 gtgaccaaga gcaaaggttg cagatgtgga gaaatagaga taacgaatgc aacggaacac 6360 ctcctacgcg aaaaccctcg acgatatttg ttgcagatgt ggagaaatag agataacgaa 6420 tgcaacttca ggatgtggag cttttcgatt ttaaaccgaa gaaggttgca gatgtggaga 6480 aatagagata acgaatgcaa ctctccttga tgttgtgatt ggttccgccc tgtttgtttg 6540 ttgcagatgt ggagaaatag agataacgaa tgcaacttta tttgggcgtt gtcgattcgg 6600 agggagaggg aatggttgca gatgtggaga aatagagata acgaatgcaa cctatcgcca 6660 taactagcca cattactctt ttcaataatg ttgcagatgt ggagaaatag agataacgaa 6720 tgcaactgat gggattaatt tggtgtggca gatgctcaat gagttcagtt gcagatgtgg 6780 agaaatagag ataacgaatg caaccaaatc aatggggtcg caacgggcac tttggtgacg 6840 ttgcagatgt ggagaaatag agataacgaa tgcaacccta acgtgcgaaa cttcacccaa 6900 acattaactg tatgttgcag atgtggagaa atagagataa cgaatgcaac aacttgtgga 6960 tgggttttcc ccagatcacg gtttcgatgt tgcagatgtg gagaaataga gataacgaat 7020 gcaacaaaat atcgtacacc attatccggc gaagtgcctt acagttgcag atgtggagaa 7080 atagagataa cgaatgcaac aaactccctc cgaaaagtgg gaagtggcgg ggtgcaggtt 7140 gcagatgtgg agaaatagag ataacgaatg caacggctgg atgaaaaagc acttggtgcc 7200 tgcgtcctgc cgttgcagat gtggagaaat agagataacg aatgcaactc attgcggggc 7260 ctccttttcc agcgctttga gcgcggttgc agatgtggag aaatagagat aacgaatgca 7320 acttcttgat tgacttgact tctccggccg cctcaagaat gttgcagatg tggagaaata 7380 gagataacga atgcaacgtg agggcgggat gctttgtcga aaaatgacgg taagttgcag 7440 atgtggagaa atagagataa cgaatgcaac agtgatgctt ccccagaaga caaccaagca 7500 caccaacgcg ttgcagatgt ggagaaatag agataacgaa tgcaacctcg tcaaggttct 7560 tgtagttgaa gatgaatagc accgcgttgc agatgtggag aaatagagat aacgaatgca 7620 acaggtgccg cctcaacagc gcatcctctg gggccaagga gttgcagatg tggagaaata 7680 gagataacga atgcaacggt agaagtcgat gtcttgaacg ctgttgttgg tcacggttgc 7740 agatgtggag aaatagagat aacgaatgca acgcaaattc gggaaacctt cagccatcag 7800 cacacccccc gttgcagatg tggagaaata gagataacga atgcaactac ggccgtactg 7860 ctctcgtcaa ttccacgcct gtattggttg cagatgtgga gaaatagaga taacgaatgc 7920 aacggtgatt ggatggagtt gtatggtctt gattgtgatt tgttgcagat gtggagaaat 7980 agagataacg aatgcaacag agtcatcaga cgacggatag taaggtgtat gctgggttgc 8040 agatgtggag aaatagagat aacgaatgca actgataaaa gtcccatctt gagtacctca 8100 tccaagcagg ttgcagatgt ggagaaatag agataacgaa tgcaacgtga taagaagata 8160 ttagtgctta ctggcaggat agagttgcag atgtggagaa atagagataa cgaatgcaac 8220 taatggcgcg ccgtttttta atcgtgccgc tctcataagt tgcagatgtg gagaaataga 8280 gataacgaat gcaactcggt ttcttcaatc ttgcgtgatg cgggaattcc tcagttgcag 8340 atgtggagaa atagag 8356 <210> 24 <211> 5479 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 24 gctgtagtgg aattcctccg cggagaccag ccccgcatcc accagctgcc tcaggttgta 60 gtgcaccgtc gagagaggga tcccgagctt ctgcgcaacc cccgattccg tggcgtcctt 120 atcggacagc acgtcgagga tcttcctgca cgactcgttg gacacggcgt tcgccacctt 180 cttcgtggcc ttgtcctcca gcgagagcat gaggaacttc ttgtctgcca tatcgggcat 240 tccggtgatt ggtttataaa tacttttgga taggtttgaa tagggttgaa gtgatgaaca 300 aaaaccactg gacagtggac aaccacgtgg atacactata taaaccgatt ttatttccct 360 atgcagatga tgttggtggt ggacaattac aagaccttca tagggaaaga aggcaaccgt 420 tttgtacttt taacggaaga gcagaagcag gagcattctg ctgatcaggt caggcagatt 480 gtcgtcgtca atggctggca atggagagca acgtggatat cgtacacctt ggcaggcggg 540 gccatcccca cgcccgcgtc tatccctgca ctcttggcgg cacgacgctc actaggagaa 600 ggcagctgga agcgtattat gcggaggaag gcacatatct ggccaagcag tttatcatgg 660 ccaagatacg caaccaggca gctctcttaa gatcgcttgg aaaatcccgg ggcaatcatt 720 ctcttctctt ctcggctaag gcaataggaa agggcaccaa tgacgttgat gcactgaaag 780 gcactattga tgaaattcgc ccgaagcttc tcggaatgga gggcaatgca agcagcgtct 840 attttggggc ccttgcagga attcttccat ttagcggcag ggacaggaat tcaaaagatc 900 cggtcaatat ccttctcaac tatggctacg gaatgctcta tggggaaatc gagcgtgcgt 960 gcgtcatcgc gggccttgac ccctatctcg ggtttatgca cacggacagg tatggcaagc 1020 cttccatgac gctggacttg atagaggaat tccggcagcc cattgtggat cgcaccctgg 1080 ttactctttt tgcgcagaag cagattgaag atgccgattt tgaggcacat ggggactccc 1140 gcctcttgag caggcagggg agggaaaaaa tcatcaaggc agtccttgag cgcctgagcc 1200 agaaagtccg tcgagcaggc gcgcaacgtc acccggtttc tccttgacag aaagcaggaa 1260 taccggggat tcacgagcag gtggtgagca tgatctactg ggtgatttac gacatcagcg 1320 caaacgggac gcgcagcaga gtggcttccg cgtgcaagaa ctacggattc aagcgcatcc 1380 agaagagcgc gtttctgggc aacatcacca aaaacaaggc ggacatgctc gccatccagt 1440 gcagggacat ggtgaaggag gaaggcgact gcgtcttcat catcccggcg tgcgagcagt 1500 gcttcagggg aaaggagata atcggggaac tcgatgagat ggcggggcgg aagctcgact 1560 acctgatagt gggggaagat ggacgacaga cagcgtctta cggcggctga cctgctcaat 1620 tactgctact gcccgcgcat tgtctattac gtgcacgtgc tgaagctggc gcaggcgacg 1680 accacaaagg aactgaaggg aagggagaag tacgatgact tcaagcggaa atccaggcgg 1740 aacaagattg tacgacgtga ctcttgagtc aaagaagcac ggcctcatca ccaaggcgga 1800 ctgcatcctc tttgacaggg agaagggcga ggcatacccc gttcagcata agtacagctt 1860 caggccgaag attctctatc acacttacat ctcccaactg atgatggagg cgatcattat 1920 cgaggagcaa ttcaatcttt ctgttcccca tggatttatc gtatttgaaa ggtcaaagga 1980 gacagtgact gttgatttgg gggacaagca gaaagtttta tatgtcgtgg ggcagataag 2040 gggaattatt gggggagaaa agttcccgcc gccgacggaa tggaaaaagc ggtgcgtgga 2100 ctgctgctat aacaagctgt gttgggggta agatggctaa gaatactatt acaaaaactc 2160 tgaaactgag aatagttcga ccatataatt ctgctgaagt agagaagata gtagctgatg 2220 agaaaaacaa tagggagaaa atcgccttag aaaaaaataa ggataaggtt aaagaggcct 2280 gtagcaagca tctcaaagtt gccgcctatt gcacgacgca agtagaaaga aatgcatgcc 2340 ttttctgcaa agcaagaaaa ttagacgata agttctacca aaagctgagg ggacaatttc 2400 ctgatgctgt attttggcaa gagatttctg agatattcag gcaattgcag aagcaagctg 2460 ctgaaatata taatcaaagt ctcatcgaac tatattacga gatttttata aagggaaaag 2520 gaattgcaaa tgcttcatca gttgagcatt atctcagtga tgtttgttat acaagagctg 2580 ccgaattatt caaaaatgct gcgatagcaa gcggtttaag atcaaagata aagagcaatt 2640 tcaggctcaa ggaattaaaa aatatgaaat cagggcttcc gactacaaaa tcagacaact 2700 tccccattcc tcttgtcaag cagaaaggag ggcaatatac cggctttgag atttcaaatc 2760 ataattctga tttcatcata aaaattccgt ttggcagatg gcaagtgaaa aaagagattg 2820 ataaatacag gccttgggaa aagtttgatt ttgaacaagt gcagaagtct cctaaaccca 2880 tctctctctt gctgtccacg cagagaagaa aaagaaacaa agggtggtcc aaagatgagg 2940 gtactgaggc agaaataaag aaagtgatga atggagatta ccaaacaagc tatattgagg 3000 taaaaagagg atcgaaaatt ggggagaaga gtgcttggat gcttaatctt tctatcgatg 3060 tccccaagat cgacaaggga gttgatccgt ccattatagg cggaatcgat gtcggcgtga 3120 aaagcccgct tgtgtgcgct atcaacaatg ctttcagtcg ttactctatc tcggacaatg 3180 acctctttca tttcaacaaa aaaatgttcg ccagaaggag gatattgctt aagaagaata 3240 ggcataaaag agcaggacat ggtgctaaaa ataaacttaa gcctatcacc atattaactg 3300 aaaaaagcga gagatttagg aagaaactaa tcgagaggtg ggcgtgcgag attgcagatt 3360 ttttcatcaa aaataaggtt ggaactgtcc aaatggaaaa tttggagtcc atgaagagaa 3420 aagaagacag ctacttcaac atcagattga gaggtttttg gccttatgca gaaatgcaaa 3480 ataaaataga atttaagctc aaacagtatg gtatagaaat aagaaaagta gcgcctaaca 3540 atacctctaa aacgtgctcc aaatgtggtc accttaataa ctattttaat tttgaataca 3600 gaaaaaagaa caaatttcct catttcaagt gtgaaaagtg caatttcaag gaaaatgcgg 3660 attataacgc cgctttaaat atttccaatc caaaactaaa atcaacaaag gaagaaccat 3720 agatatttat actttattat ccttcattga caaaaatgag aatgttatcc cagataacat 3780 ttgatgtaca cagattcaca cttcactgat aaagtggaga accgcttcac caaaagctgt 3840 cccttagggg attagaactt gagtgaaggt gggctgcttg catcagccta atgtcgagaa 3900 gtgctttctt cggaaagtaa ccctcgaaac aaattcattt ttcctctcca attctgcaca 3960 aaaaaaggtg agtccttata aaccggcgtg cagaacgccg gctcaccttt tttcttcatt 4020 cgattttatg cttaaaagcc gtaaaaacgc ggaattcggc gccgttgcag aacccgaata 4080 gacgaatgaa ggaatgcaac catactctgc cttagtgttg gtgcaataat gtatagttgc 4140 agaacccgaa tagacgaatg aaggaatgca actacacctc aagcaagcat ccttccagta 4200 atacaaagtt gcagaacccg aatagacgaa tgaaggaatg caacaatcaa acaaacatct 4260 aacggcaatc caattcttgt tgcagaaccc gaatagacga atgaaggaat gcaactggaa 4320 tggaacaagc ccagatacaa acaaaacatt gttgcagaac ccgaatagac gaatgaagga 4380 atgcaacttg aatcccacca atccttccct aatttttggt tgtagagttg cagaacccga 4440 atagacgaat gaaggaatgc aactcgactt cctgcgtgga aagcagggag acagaatgtt 4500 gcagaacccg aatagacgaa tgaaggaatg caacctccca tttaggaatg aaaacgcggg 4560 catagttcgt tgcagaaccc gaatagacga atgaaggaat gcaacacaat atacccccac 4620 tagatgggtt tgcatagctt agttgcagaa cccgaataga cgaatgaagg aatgcaaccg 4680 taagttattg cttcatggct tcccaagagg gagttgcaga acccgaatag acgaatgaag 4740 gaatgcaact caacaccaac agcatctccg tgaaagatag tgtcgttgca gaacccgaat 4800 agacgaatga aggaatgcaa ccaacaacag cgaccgaggg cggccactgt cgatgtgttg 4860 cagaacccga atagacgaat gaaggaatgc aacctgcgcc agccgttgag ttaaatccgg 4920 caaggagttg cagaacccga atagacgaat gaaggaatgc aacatgatct cctggccgac 4980 gtaaagcgtc aatcgttgct tgttgcagaa cccgaataga cgaatgaagg aatgcaactt 5040 tttgccttta cttctgcgtc gtatgacatc ttgttgcaga acccgaatag acgaatgaag 5100 gaatgcaaca acagagtccc gaataatcca gactttgagg caagttgcag aacccgaata 5160 gacgaatgaa ggaatgcaac tgggaagccg cttcctgaca tctcaaagca agtctgttgc 5220 agaacccgaa tagacgaatg aaggaatgca acgagatgga aaaggttaat cttcgtcagg 5280 aatatattgt tgcagaaccc gaatagacga atgaaggaat gcaatcttga cagagcccga 5340 ttgcgttatc tccaggagaa acatataaaa gcatcaaccg ctgatcggaa tgatatccaa 5400 aaacatggcc accatcaccc gatggattga ggagcgggca cgatattcca cccccatcat 5460 ccgcatctcc cttgccctc 5479 <210> 25 <211> 1842 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 25 atgatttcac tcaaacttaa actgcttcca gacgaagaac aaaagaaatt gcttgacgaa 60 atgttttgga agtgggcctc gatttgtacc cgcgttggtt ttgggcgggc tgataaagaa 120 gatttaaaac cgccaaaaga cgcggaaggg gtttggttta gtttaacaca attaaatcaa 180 gccaacacag acattaacga cttaagggag gcgatgaagc accaaaaaca ccgcctagaa 240 tacgaaaaaa accgtttgga agcgcaaaga gatgatactc aggatgcctt gaaaaatccg 300 gacagacgag aaataagcac taaaagaaag gatttattcc gtcccaaagc gtccgtcgaa 360 aaaggctttc tgaaactgaa gtatcatcaa gagcgttatt gggttcgaag gctgaaagaa 420 ataaacaaac taattgaaag gaaaacgaag acacttataa aaatagaaaa ggggcgaatc 480 aaattcaagg caacgcgaat aaccctgcac caaggctctt ttaaaattag attcggcgat 540 aaacccgctt ttctgataaa ggcgttgtct ggaaaaaacc aaatagacgc tccttttgtt 600 gtagtgccag aacaaccaat ctgcgggagc gttgtaaata gcaagaaata cttagatgaa 660 attactacta atttcttggc ttacagcgta aatgcaatgc ttttcggttt gagccgcagc 720 gaggaaatgt tgttgaaagc caaaaggcca gaaaaaatca agaaaaaaga agaaaaactt 780 gctaaaaaac aatcagcctt tgaaaacaaa aagaaggaat tgcaaaaatt acttggtaga 840 gaactaaccc agcaggaaga agcgattatt gaagaaaccc gcaaccaatt ctttcaagat 900 tttgaggtga aaataaccaa acaatactcg gaattactca gcaaaattgc taacgaactc 960 aagcaaaaaa atgattttct gaaagtaaac aaatatccta tacttttaag gaaacctctc 1020 aagaaagcca aatcgaaaaa aattaataat ctttcgccaa gcgaatggaa atattacctc 1080 caattcggag ttaaaccttt actaaaacaa aaatcaagac gaaaatcaag gaatgttttg 1140 ggaatagacc gcggccttaa acacttgcta gccgtaaccg ttcttgaacc cgacaaaaaa 1200 acgtttgtat ggaacaaact ttacccaaac ccaattacgg gctggaagtg gaggcgacgc 1260 aagcttttgc gctccttaaa gcgattgaag aggcgcatta aatcgcaaaa acacgaaaca 1320 attcatgaaa accaaacgag gaaaaagctc aagagtttac aaggcaggat agatgacctg 1380 cttcataata tttccagaaa aatagtggag accgcaaaag aatatgatgc ggtaatagta 1440 gtggaagacc tccaaagcat gcggcaacac ggtcgttcaa aaggcaatcg tttgaaaaca 1500 ctgaattacg cgctaagcct tttcgattac gcaaacgtga tgcaacttat aaagtacaag 1560 gcgggtatag aaggaatcca aatatatgac gttaaaccag ctggcacaag ccaaaattgc 1620 gcgtattgcc ttttagcgca aagggattca cacgaataca aaagaagcca agaaaactcc 1680 aaaataggtg tttgcttaaa tcctaactgc caaaaccaca agaaacaaat tgacgctgac 1740 ctaaacgcgg caagagtaat agctagttgt tacgccttaa aaattaatga ttcccaacca 1800 tttggaacaa ggaaaagatt taaaaaaaga acaacgaatt aa 1842 <210> 26 <211> 1503 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 26 atggaagtac aaaaaactgt gatgaagaca ctttctttga gaatattaag acctctgtac 60 tcacaagaaa tagaaaaaga gattaaagaa gaaaaagaaa gaagaaaaca agccggagga 120 actggagagc ttgacggggg attttataaa aagcttgaga agaagcattc agagatgttc 180 agctttgata ggttaaactt attgttgaat caattacaaa gagaaattgc taaggtctac 240 aatcatgcca tcagtgaatt gtatatagcg actatcgctc aaggtaacaa gagcaacaaa 300 cattatatta gtagtattgt ctataatcga gcatatggat acttttataa cgcttacata 360 gccttaggga tatgttcaaa agttgaagca aattttagat ccaatgaact cctaacacaa 420 caaagcgcat tgcctacagc aaagtcagat aattttccaa tagttttaca taaacaaaaa 480 ggtgctgagg gagaggatgg aggatttagg atatctactg aggggagcga tctgatattt 540 gagataccca ttccgttcta tgaatataat ggggagaacc gaaaagaacc ctataaatgg 600 gttaaaaaag gaggacaaaa acctgtgtta aaacttatac tttctacttt taggagacaa 660 agaaataagg ggtgggcaaa agacgagggc acggatgcgg aaataagaaa ggttacagaa 720 gggaagtatc aagtcagcca aatagaaata aataggggta aaaaactagg agaacatcaa 780 aaatggtttg ccaatttcag catagagcaa ccaatttatg aaagaaaacc taatcggagt 840 attgtcggcg gattagacgt gggaataaga tcccccctag tatgtgcaat taacaactca 900 ttttcgagat attctgttga ttccaatgat gtatttaagt tttctaaaca agtattcgca 960 tttagaagac ggctattatc gaaaaactct ttgaaaagga aaggtcatgg ggcggctcat 1020 aagttagaac ctatcacgga aatgacagaa aaaaatgaca agtttagaaa gaaaataatt 1080 gagagatggg ccaaggaagt tacaaatttc tttgttaaaa accaagtagg aattgttcag 1140 atagaagatt tatcaacgat gaaagacaga gaggatcatt tttttaatca atatcttaga 1200 ggattttggc cttattacca aatgcagaca ttaattgaga acaagctcaa agagtatggg 1260 attgaggtaa aaagggtaca ggcaaaatat acgtctcagt tgtgctcaaa ccctaattgc 1320 aggtattgga ataactattt taactttgaa taccgaaaag taaataaatt cccaaaattt 1380 aaatgtgaaa agtgtaactt agaaataagt gctgactata acgctgctcg caatctatca 1440 actcccgata tagagaaatt tgtggcaaaa gctacaaaag gcattaattt gccagaaaaa 1500 tga 1503 <210> 27 <211> 1275 <212> DNA <213> Parageobacillus thermoglucosidasius <400> 27 atgaagtata cgaaagtaat gaggtatcaa attatcaaac ccttaaacgc agaatgggat 60 gaattgggaa tggttctccg tgacatccag aaagaaactc gcgcggcatt aaacaagacg 120 attcaattgt gttgggaata tcaaggattt agtgcggatt ataagcagat acacggtcag 180 tatcctaaac caaaagatgt tttaggatac acaagtatgc acggatatgc ttatgatcgt 240 ctcaaaaatg aattcagcaa aattgcaagt tcaaaccttt cgcaaactat caaacgagcg 300 gtagataaat ggaatagtga cttaaaagaa attctgcgtg gtgaccgctc catccctaac 360 ttcagaaaag attgtccaat tgatatcgtt aagcaatcga cgaaaataca aaaatgtaat 420 gatggatacg tattaagcct cggtttaatt aatagagagt ataaaaatga attgggacgg 480 aaaaacggag tatttgatgt acttataaaa gcaaacgata aaacccagca aaccatatta 540 gaacgaatta taaatggcga ttatacatat acggcatctc aaataatcaa tcataaaaat 600 aagtggttta ttaaccttac ctatcaattt gaaactaaag aaacagcctt agatcccaat 660 aatgtcatgg gagttgatct aggaattgtt tatcctgttt atatagcatt taataacagt 720 cttcaccgtt atcatattaa aggaggagaa atagaacgat tcagacggca agtagaaaaa 780 aggaagaggg aattgttaaa tcaaggcaaa tattgtggag acgggcgtaa agggcatggt 840 tatgctacaa gaacaaagtc cattgaatca attagcgata aaattgcgag atttcgtgac 900 acttgcaatc ataaatattc caggtttatt gtagatatgg cgcttaaaca taattgtggg 960 ataattcaaa tggaagattt gactggaatt agcaaggaaa gtacattttt gaaaaattgg 1020 acatattacg atcttcagca gaaaatcgaa tataaggcac gagaagcagg aatacaagtt 1080 ataaaaattg aaccccaata tacatctcaa cgttgtagta aatgtggcta tattgataaa 1140 gagaatcggc aagaacaagc tacatttaag tgcatcgaat gtggttttaa gacaaatgct 1200 gactataatg cagcaaggaa tatcgcaata ccgaacattg acaagataat aaggaaaacg 1260 ttaaaaatgc aataa 1275 <210> 28 <211> 1269 <212> DNA <213> Acidibacillus sulfuroxidans <400> 28 atgatcaaag tatatcggta tgagatcgta aaaccgcttg atttagattg gaaagagttt 60 ggaactattt tacgacagtt acaacaggaa actcgttttg ccttaaacaa agcgactcaa 120 ctggcttggg aatggatggg ctttagtagt gattataagg ataatcatgg ggaatatcca 180 aaaagtaaag acattctcgg atacacgaat gttcacggat acgcttacca tacgatcaaa 240 accaaagcat atcgcttaaa cagtggtaat ttatctcaaa ccatcaaacg tgcgacggat 300 cgttttaaag catatcaaaa ggaaatctta cgtggcgata tgtccattcc gtcctataaa 360 cgagatattc cactcgatct gattaaagag aatatcagcg taaatcgtat gaatcacggg 420 gattatatcg cttcgttatc tctgttaagc aatccagcca agcaagaaat gaatgtaaag 480 aggaaaattt cggtcataat cattgtccgt ggcgcaggga aaacaatcat ggacagaatc 540 ctaagtggtg aataccaagt ctctgcttca caaataattc acgatgatcg aaaaaacaaa 600 tggtatttaa acataagtta tgattttgaa ccccaaaccc gagtgttgga tctaaataaa 660 ataatgggga ttgatttagg cgttgctgtt gccgtttaca tggcatttca acatacccct 720 gctcgataca aattggaggg aggtgagatt gaaaattttc gtagacaggt agaatctcga 780 cggattagta tgttacgtca aggtaaatat gccggtggtg cccgtggagg gcatgggcga 840 gataaaagaa taaaaccgat tgaacagctt cgagataaaa ttgctaattt tagagatacc 900 acaaaccatc gttatagtag atatatagtg gatatggcaa ttaaagaagg ttgtggaacg 960 attcagatgg aggatttaac gaatatacgc gatattggat ctcgattttt acaaaattgg 1020 acctattatg atttgcagca aaaaattatt tataaagccg aagaggcagg aattaaagtc 1080 ataaagatcg atccccaata taccagtcaa cgttgtagtg aatgtggtaa tatagattcc 1140 gggaatcgaa ttggacaagc tatctttaaa tgcagagctt gcggatacga agccaatgca 1200 gactacaatg ctgcacgaaa catagcaata ccgaacattg acaaaattat agctgagagt 1260 atcaaataa 1269 <210> 29 <211> 1323 <212> DNA <213> Ruminococcus sp. <400> 29 ctggtcaaag tcgtaaaaat ccatctaatt agtgagcaat ttgacaaagc aggcaaccgg 60 atagattatg aagaagtcaa taaaatactg tgggaattgc aaaagcagac acgagaagca 120 aagaataaaa ctgttcagct tctttgggaa tggaacaatt tttcaagcga ttatgttaag 180 gcgagtggca tatatcctaa agcaaaagac atatttggct actcaagtgt gcatggacaa 240 gcaaacaaag aattaagaac aaaactcgct ttaaattcaa gtaatctttc cactaccaca 300 atggacgtat gtaaaaattt taatacatat aaaaaagagg tatggaaagg caaacgatca 360 gttccttcgt acaaatcaga ccaacctctt gatctgcaca aagactctat aaagctgata 420 tatgaaaaca acgaatttta tgttaggctc gctttattaa aaaaagctga atttgcaaag 480 tatggtttta aagacggttt tcgttttaaa atgcaggtga aagataattc taccaaaact 540 attcttgaac gctgttttga cgaagtatac aaaataaatg ccagcaaact tttatatgac 600 caaaagaaaa agaagtggaa gcttaatctg tcttatagtt tcgacaataa aaacatttct 660 gaacttgaca aagaaaagat ccttggtgtt gatgtaggcg ttaactgtcc tttagtcgct 720 tcggttttcg gcgatcgtga ccgattcata atcaagggcg gcgaaattga aaaattcaga 780 aaaagcgtgg aagctcgcag acgttcaatg ctcgagcaaa caaaatactg cggtgacgga 840 agaattggtc acggcagaaa aaaacgcact gagcctgccc taaatatagg cgacaagata 900 gcaagatttc gtgatacaac aaaccacaaa tacagcagag ctttgataga atatgctgta 960 aaaaagggct gcggaactat ccaaatggaa aagctgacgg gtattacatc taaatctgat 1020 cgttttctaa aagactggac ttattatgac ctccagacaa agatagaaaa caaggcgaaa 1080 gaagtaggga taaatgtcgt ctatatcgcc cctaaatata caagtcagag atgtagcaaa 1140 tgcggatata tccacaagga taacagacca aatcaggcga aatttagatg tcttgaatgc 1200 gattttgaaa gtaatgcaga ttataatgca agtcagaata tcggaattaa aaacattgat 1260 aagataatag aaaaagattt gcaaaagcaa gaaagcgaag tccaagtgaa cgaaaacaag 1320 tag 1323 <210> 30 <211> 1494 <212> DNA <213> Syntrophomonas palmitatica <400> 30 atgggcgaat cggtaaaagc aataaaatta aagatactgg atatgttttt agaccccgaa 60 tgcacaaagc aggatgataa ctggcgcaaa gatttgtcta ctatgtccag attctgcgct 120 gaagcgggga atatgtgtct gcgcgacctg tataattact tttcaatgcc caaggaagac 180 cgtatttcct caaaagactt atataacgct atgtatcata aaactaaact tctccatcct 240 gaattaccag gtaaggtagc gaaccaaata gtaaaccacg ctaaagatgt ttggaaacgc 300 aacgctaaac tcatttatcg gaaccaaatc tcaatgccta catataagat aacaacagca 360 ccaatccggc tgcaaaataa catttataaa ttaataaaaa ataagaacaa atacataata 420 gacgtacagt tatactccaa ggaatactcc aaggatagtg gtaaaggcac tcataggtat 480 tttctggtag cagttagaga ctcatcaacc cgtatgatat tcgaccgtat tatgagtaag 540 gaccatattg acagtagtaa atcatacacg caaggacaac tccaaatcaa gaaagaccac 600 caggggaaat ggtattgcat cataccctat acattcccta cacatgagac agtcctcgac 660 cctgataaag tcatgggagt agaccttggc gttgcaaaag ctgtttactg ggcgtttaat 720 agttcttata aaagaggctg tatcgacggt ggggaaatag aacatttccg caaaatgata 780 cgagctcgca gggtgtccat ccaaaatcaa atcaaacatt caggggacgc ccgtaaagga 840 catgggcgca aaagggcgtt aaaacccata gaaacattga gcgagaagga aaagaatttt 900 agggatacaa taaaccaccg ctatgcaaat cgaattgtag aagctgctat taagcaaggc 960 tgtgggacaa tccaaatcga aaaccttgaa ggtatagctg acacaacagg cagtaaattt 1020 ctcaagaact ggccttatta cgacctgcag acaaaaattg ttaataaagc caaggaacat 1080 ggcattaccg ttgttgcaat aaacccccaa tatacatccc aaaggtgttc gatgtgcggg 1140 tatattgaaa aaaccaaccg ttcatcacag gcagtatttg aatgtaaaca atgcggttac 1200 ggcagtagga ctatatgtat taactgcagg cacgtccaag tatccgggga tgtttgtgag 1260 gaatgtggcg gcatagtaaa aaaagaaaac gtaaacgcag actacaatgc ggcaaaaaac 1320 atatccacac cgtacatcga ccagataata atggagaagt gtttagaact aggtattcct 1380 taccgcagta taacctgtaa agaatgtggt cacatacagg cttcaggaaa tacctgcgag 1440 gtttgcggaa gtactaatat tttgaaacca aagaaaatta gaaaagcaaa ataa 1494 <210> 31 <211> 1494 <212> DNA <213> Clostridium novyi <400> 31 atgattacag ttagaaaaat aaagttaaca ataatgggag ataaagatac aagaaatagt 60 caatacaaat ggattagaga tgaacaatac aatcagtaca gagctttaaa tatgggtatg 120 acttatttag ctgtaaatga tattttatat atgaatgaaa gcggattaga aattcgaact 180 attaaagatt taaaagattg tgaaaaagat attgataaaa ataaaaaaga aattgaaaag 240 ttaactgcaa gactagagaa ggaacaaaat aagaaaaatt cctcatcaga aaaattagat 300 gagattaaat ataaaataag tttagtagaa aataaaattg aagattataa attaaaaata 360 gttgagttaa ataaaattct tgaagaaaca caaaaagaaa gaatggatat acagaaagaa 420 tttaaagaaa aatatgtaga tgatctttat caagttttag ataaaatacc ctttaagcat 480 ttagacaata aaagtctagt tactcaaaga ataaaagctg atataaagtc agataaaagt 540 aatggactat taaaaggtga aagaagtatt agaaactaca agagaaactt tcctttaatg 600 actagaggac gagatttaaa atttaaatat gatgataatg atgatattga aataaagtgg 660 atggaaggaa ttaaatttaa agttattttg ggaaatagaa taaaaaattc cttagagctt 720 agacacactt tacataaagt tatagaggga aaatataaaa tatgtgatag tagtttgcaa 780 tttgataaaa ataataatct tatacttaat ttaactctag acattcctat tgatattgta 840 aataaaaaag tttcaggaag agttgtagga gtagatttag gattaaagat accagcatat 900 tgtgcattaa atgatgttga atatattaaa aaatctatag gacgtataga tgatttcttg 960 aaagttagaa ctcaaatgca gagtagaaga agaagacttc aaattgcaat acaaagtgct 1020 aaaggtggaa aaggtagggt gaataaactt caagccttgg agagatttgc tgaaaaggag 1080 aagaattttg caaagacata taatcatttt ttaagttcta atatagttaa atttgcagtt 1140 agcaatcagg ccgaacaaat taatatggag ttattaagtt taaaagaaac tcaaaataag 1200 tcaatactaa gaaattggag ttattatcaa cttcaaacaa tgattgagta taaagcccaa 1260 cgtgaaggga ttaaagttaa gtacatagat ccttatcata catcacaaac atgtagtaaa 1320 tgtggtaatt atgaagaagg acaaagagaa tctcaagctg attttatatg caaaaaatgt 1380 ggttataaag ttaatgctga ttataatgca gctagaaata tcgctatgag taataaatat 1440 ataacaaaaa aagaagaaag taagtattac aaaattaaag aaagtatggt ataa 1494 <210> 32 <211> 613 <212> PRT <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 32 Met Ile Ser Leu Lys Leu Lys Leu Leu Pro Asp Glu Glu Gln Lys Lys 1 5 10 15 Leu Leu Asp Glu Met Phe Trp Lys Trp Ala Ser Ile Cys Thr Arg Val 20 25 30 Gly Phe Gly Arg Ala Asp Lys Glu Asp Leu Lys Pro Pro Lys Asp Ala 35 40 45 Glu Gly Val Trp Phe Ser Leu Thr Gln Leu Asn Gln Ala Asn Thr Asp 50 55 60 Ile Asn Asp Leu Arg Glu Ala Met Lys His Gln Lys His Arg Leu Glu 65 70 75 80 Tyr Glu Lys Asn Arg Leu Glu Ala Gln Arg Asp Asp Thr Gln Asp Ala 85 90 95 Leu Lys Asn Pro Asp Arg Arg Glu Ile Ser Thr Lys Arg Lys Asp Leu 100 105 110 Phe Arg Pro Lys Ala Ser Val Glu Lys Gly Phe Leu Lys Leu Lys Tyr 115 120 125 His Gln Glu Arg Tyr Trp Val Arg Arg Leu Lys Glu Ile Asn Lys Leu 130 135 140 Ile Glu Arg Lys Thr Lys Thr Leu Ile Lys Ile Glu Lys Gly Arg Ile 145 150 155 160 Lys Phe Lys Ala Thr Arg Ile Thr Leu His Gln Gly Ser Phe Lys Ile 165 170 175 Arg Phe Gly Asp Lys Pro Ala Phe Leu Ile Lys Ala Leu Ser Gly Lys 180 185 190 Asn Gln Ile Asp Ala Pro Phe Val Val Val Pro Glu Gln Pro Ile Cys 195 200 205 Gly Ser Val Val Asn Ser Lys Lys Tyr Leu Asp Glu Ile Thr Thr Asn 210 215 220 Phe Leu Ala Tyr Ser Val Asn Ala Met Leu Phe Gly Leu Ser Arg Ser 225 230 235 240 Glu Glu Met Leu Leu Lys Ala Lys Arg Pro Glu Lys Ile Lys Lys Lys 245 250 255 Glu Glu Lys Leu Ala Lys Lys Gln Ser Ala Phe Glu Asn Lys Lys Lys 260 265 270 Glu Leu Gln Lys Leu Leu Gly Arg Glu Leu Thr Gln Gln Glu Glu Ala 275 280 285 Ile Ile Glu Glu Thr Arg Asn Gln Phe Phe Gln Asp Phe Glu Val Lys 290 295 300 Ile Thr Lys Gln Tyr Ser Glu Leu Leu Ser Lys Ile Ala Asn Glu Leu 305 310 315 320 Lys Gln Lys Asn Asp Phe Leu Lys Val Asn Lys Tyr Pro Ile Leu Leu 325 330 335 Arg Lys Pro Leu Lys Lys Ala Lys Ser Lys Lys Ile Asn Asn Leu Ser 340 345 350 Pro Ser Glu Trp Lys Tyr Tyr Leu Gln Phe Gly Val Lys Pro Leu Leu 355 360 365 Lys Gln Lys Ser Arg Arg Lys Ser Arg Asn Val Leu Gly Ile Asp Arg 370 375 380 Gly Leu Lys His Leu Leu Ala Val Thr Val Leu Glu Pro Asp Lys Lys 385 390 395 400 Thr Phe Val Trp Asn Lys Leu Tyr Pro Asn Pro Ile Thr Gly Trp Lys 405 410 415 Trp Arg Arg Arg Lys Leu Leu Arg Ser Leu Lys Arg Leu Lys Arg Arg 420 425 430 Ile Lys Ser Gln Lys His Glu Thr Ile His Glu Asn Gln Thr Arg Lys 435 440 445 Lys Leu Lys Ser Leu Gln Gly Arg Ile Asp Asp Leu Leu His Asn Ile 450 455 460 Ser Arg Lys Ile Val Glu Thr Ala Lys Glu Tyr Asp Ala Val Ile Val 465 470 475 480 Val Glu Asp Leu Gln Ser Met Arg Gln His Gly Arg Ser Lys Gly Asn 485 490 495 Arg Leu Lys Thr Leu Asn Tyr Ala Leu Ser Leu Phe Asp Tyr Ala Asn 500 505 510 Val Met Gln Leu Ile Lys Tyr Lys Ala Gly Ile Glu Gly Ile Gln Ile 515 520 525 Tyr Asp Val Lys Pro Ala Gly Thr Ser Gln Asn Cys Ala Tyr Cys Leu 530 535 540 Leu Ala Gln Arg Asp Ser His Glu Tyr Lys Arg Ser Gln Glu Asn Ser 545 550 555 560 Lys Ile Gly Val Cys Leu Asn Pro Asn Cys Gln Asn His Lys Lys Gln 565 570 575 Ile Asp Ala Asp Leu Asn Ala Ala Arg Val Ile Ala Ser Cys Tyr Ala 580 585 590 Leu Lys Ile Asn Asp Ser Gln Pro Phe Gly Thr Arg Lys Arg Phe Lys 595 600 605 Lys Arg Thr Thr Asn 610 <210> 33 <211> 500 <212> PRT <213> Unknown <220> <223> Uncultured archaeon <400> 33 Met Glu Val Gln Lys Thr Val Met Lys Thr Leu Ser Leu Arg Ile Leu 1 5 10 15 Arg Pro Leu Tyr Ser Gln Glu Ile Glu Lys Glu Ile Lys Glu Glu Lys 20 25 30 Glu Arg Arg Lys Gln Ala Gly Gly Thr Gly Glu Leu Asp Gly Gly Phe 35 40 45 Tyr Lys Lys Leu Glu Lys Lys His Ser Glu Met Phe Ser Phe Asp Arg 50 55 60 Leu Asn Leu Leu Leu Asn Gln Leu Gln Arg Glu Ile Ala Lys Val Tyr 65 70 75 80 Asn His Ala Ile Ser Glu Leu Tyr Ile Ala Thr Ile Ala Gln Gly Asn 85 90 95 Lys Ser Asn Lys His Tyr Ile Ser Ser Ile Val Tyr Asn Arg Ala Tyr 100 105 110 Gly Tyr Phe Tyr Asn Ala Tyr Ile Ala Leu Gly Ile Cys Ser Lys Val 115 120 125 Glu Ala Asn Phe Arg Ser Asn Glu Leu Leu Thr Gln Gln Ser Ala Leu 130 135 140 Pro Thr Ala Lys Ser Asp Asn Phe Pro Ile Val Leu His Lys Gln Lys 145 150 155 160 Gly Ala Glu Gly Glu Asp Gly Gly Phe Arg Ile Ser Thr Glu Gly Ser 165 170 175 Asp Leu Ile Phe Glu Ile Pro Ile Pro Phe Tyr Glu Tyr Asn Gly Glu 180 185 190 Asn Arg Lys Glu Pro Tyr Lys Trp Val Lys Lys Gly Gly Gln Lys Pro 195 200 205 Val Leu Lys Leu Ile Leu Ser Thr Phe Arg Arg Gln Arg Asn Lys Gly 210 215 220 Trp Ala Lys Asp Glu Gly Thr Asp Ala Glu Ile Arg Lys Val Thr Glu 225 230 235 240 Gly Lys Tyr Gln Val Ser Gln Ile Glu Ile Asn Arg Gly Lys Lys Leu 245 250 255 Gly Glu His Gln Lys Trp Phe Ala Asn Phe Ser Ile Glu Gln Pro Ile 260 265 270 Tyr Glu Arg Lys Pro Asn Arg Ser Ile Val Gly Gly Leu Asp Val Gly 275 280 285 Ile Arg Ser Pro Leu Val Cys Ala Ile Asn Asn Ser Phe Ser Arg Tyr 290 295 300 Ser Val Asp Ser Asn Asp Val Phe Lys Phe Ser Lys Gln Val Phe Ala 305 310 315 320 Phe Arg Arg Arg Leu Leu Ser Lys Asn Ser Leu Lys Arg Lys Gly His 325 330 335 Gly Ala Ala His Lys Leu Glu Pro Ile Thr Glu Met Thr Glu Lys Asn 340 345 350 Asp Lys Phe Arg Lys Lys Ile Ile Glu Arg Trp Ala Lys Glu Val Thr 355 360 365 Asn Phe Phe Val Lys Asn Gln Val Gly Ile Val Gln Ile Glu Asp Leu 370 375 380 Ser Thr Met Lys Asp Arg Glu Asp His Phe Phe Asn Gln Tyr Leu Arg 385 390 395 400 Gly Phe Trp Pro Tyr Tyr Gln Met Gln Thr Leu Ile Glu Asn Lys Leu 405 410 415 Lys Glu Tyr Gly Ile Glu Val Lys Arg Val Gln Ala Lys Tyr Thr Ser 420 425 430 Gln Leu Cys Ser Asn Pro Asn Cys Arg Tyr Trp Asn Asn Tyr Phe Asn 435 440 445 Phe Glu Tyr Arg Lys Val Asn Lys Phe Pro Lys Phe Lys Cys Glu Lys 450 455 460 Cys Asn Leu Glu Ile Ser Ala Asp Tyr Asn Ala Ala Arg Asn Leu Ser 465 470 475 480 Thr Pro Asp Ile Glu Lys Phe Val Ala Lys Ala Thr Lys Gly Ile Asn 485 490 495 Leu Pro Glu Lys 500 <210> 34 <211> 424 <212> PRT <213> Parageobacillus thermoglucosidasius <400> 34 Met Lys Tyr Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Leu Asn 1 5 10 15 Ala Glu Trp Asp Glu Leu Gly Met Val Leu Arg Asp Ile Gln Lys Glu 20 25 30 Thr Arg Ala Ala Leu Asn Lys Thr Ile Gln Leu Cys Trp Glu Tyr Gln 35 40 45 Gly Phe Ser Ala Asp Tyr Lys Gln Ile His Gly Gln Tyr Pro Lys Pro 50 55 60 Lys Asp Val Leu Gly Tyr Thr Ser Met His Gly Tyr Ala Tyr Asp Arg 65 70 75 80 Leu Lys Asn Glu Phe Ser Lys Ile Ala Ser Ser Asn Leu Ser Gln Thr 85 90 95 Ile Lys Arg Ala Val Asp Lys Trp Asn Ser Asp Leu Lys Glu Ile Leu 100 105 110 Arg Gly Asp Arg Ser Ile Pro Asn Phe Arg Lys Asp Cys Pro Ile Asp 115 120 125 Ile Val Lys Gln Ser Thr Lys Ile Gln Lys Cys Asn Asp Gly Tyr Val 130 135 140 Leu Ser Leu Gly Leu Ile Asn Arg Glu Tyr Lys Asn Glu Leu Gly Arg 145 150 155 160 Lys Asn Gly Val Phe Asp Val Leu Ile Lys Ala Asn Asp Lys Thr Gln 165 170 175 Gln Thr Ile Leu Glu Arg Ile Ile Asn Gly Asp Tyr Thr Tyr Thr Ala 180 185 190 Ser Gln Ile Ile Asn His Lys Asn Lys Trp Phe Ile Asn Leu Thr Tyr 195 200 205 Gln Phe Glu Thr Lys Glu Thr Ala Leu Asp Pro Asn Asn Val Met Gly 210 215 220 Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Ile Ala Phe Asn Asn Ser 225 230 235 240 Leu His Arg Tyr His Ile Lys Gly Gly Glu Ile Glu Arg Phe Arg Arg 245 250 255 Gln Val Glu Lys Arg Lys Arg Glu Leu Leu Asn Gln Gly Lys Tyr Cys 260 265 270 Gly Asp Gly Arg Lys Gly His Gly Tyr Ala Thr Arg Thr Lys Ser Ile 275 280 285 Glu Ser Ile Ser Asp Lys Ile Ala Arg Phe Arg Asp Thr Cys Asn His 290 295 300 Lys Tyr Ser Arg Phe Ile Val Asp Met Ala Leu Lys His Asn Cys Gly 305 310 315 320 Ile Ile Gln Met Glu Asp Leu Thr Gly Ile Ser Lys Glu Ser Thr Phe 325 330 335 Leu Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys 340 345 350 Ala Arg Glu Ala Gly Ile Gln Val Ile Lys Ile Glu Pro Gln Tyr Thr 355 360 365 Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile Asp Lys Glu Asn Arg Gln 370 375 380 Glu Gln Ala Thr Phe Lys Cys Ile Glu Cys Gly Phe Lys Thr Asn Ala 385 390 395 400 Asp Tyr Asn Ala Ala Arg Asn Ile Ala Ile Pro Asn Ile Asp Lys Ile 405 410 415 Ile Arg Lys Thr Leu Lys Met Gln 420 <210> 35 <211> 422 <212> PRT <213> Acidibacillus sulfuroxidans <400> 35 Met Ile Lys Val Tyr Arg Tyr Glu Ile Val Lys Pro Leu Asp Leu Asp 1 5 10 15 Trp Lys Glu Phe Gly Thr Ile Leu Arg Gln Leu Gln Gln Glu Thr Arg 20 25 30 Phe Ala Leu Asn Lys Ala Thr Gln Leu Ala Trp Glu Trp Met Gly Phe 35 40 45 Ser Ser Asp Tyr Lys Asp Asn His Gly Glu Tyr Pro Lys Ser Lys Asp 50 55 60 Ile Leu Gly Tyr Thr Asn Val His Gly Tyr Ala Tyr His Thr Ile Lys 65 70 75 80 Thr Lys Ala Tyr Arg Leu Asn Ser Gly Asn Leu Ser Gln Thr Ile Lys 85 90 95 Arg Ala Thr Asp Arg Phe Lys Ala Tyr Gln Lys Glu Ile Leu Arg Gly 100 105 110 Asp Met Ser Ile Pro Ser Tyr Lys Arg Asp Ile Pro Leu Asp Leu Ile 115 120 125 Lys Glu Asn Ile Ser Val Asn Arg Met Asn His Gly Asp Tyr Ile Ala 130 135 140 Ser Leu Ser Leu Leu Ser Asn Pro Ala Lys Gln Glu Met Asn Val Lys 145 150 155 160 Arg Lys Ile Ser Val Ile Ile Ile Val Arg Gly Ala Gly Lys Thr Ile 165 170 175 Met Asp Arg Ile Leu Ser Gly Glu Tyr Gln Val Ser Ala Ser Gln Ile 180 185 190 Ile His Asp Asp Arg Lys Asn Lys Trp Tyr Leu Asn Ile Ser Tyr Asp 195 200 205 Phe Glu Pro Gln Thr Arg Val Leu Asp Leu Asn Lys Ile Met Gly Ile 210 215 220 Asp Leu Gly Val Ala Val Ala Val Tyr Met Ala Phe Gln His Thr Pro 225 230 235 240 Ala Arg Tyr Lys Leu Glu Gly Gly Glu Ile Glu Asn Phe Arg Arg Gln 245 250 255 Val Glu Ser Arg Arg Ile Ser Met Leu Arg Gln Gly Lys Tyr Ala Gly 260 265 270 Gly Ala Arg Gly Gly His Gly Arg Asp Lys Arg Ile Lys Pro Ile Glu 275 280 285 Gln Leu Arg Asp Lys Ile Ala Asn Phe Arg Asp Thr Thr Asn His Arg 290 295 300 Tyr Ser Arg Tyr Ile Val Asp Met Ala Ile Lys Glu Gly Cys Gly Thr 305 310 315 320 Ile Gln Met Glu Asp Leu Thr Asn Ile Arg Asp Ile Gly Ser Arg Phe 325 330 335 Leu Gln Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Ile Tyr Lys 340 345 350 Ala Glu Glu Ala Gly Ile Lys Val Ile Lys Ile Asp Pro Gln Tyr Thr 355 360 365 Ser Gln Arg Cys Ser Glu Cys Gly Asn Ile Asp Ser Gly Asn Arg Ile 370 375 380 Gly Gln Ala Ile Phe Lys Cys Arg Ala Cys Gly Tyr Glu Ala Asn Ala 385 390 395 400 Asp Tyr Asn Ala Ala Arg Asn Ile Ala Ile Pro Asn Ile Asp Lys Ile 405 410 415 Ile Ala Glu Ser Ile Lys 420 <210> 36 <211> 440 <212> PRT <213> Ruminococcus sp. <400> 36 Met Val Lys Val Val Lys Ile His Leu Ile Ser Glu Gln Phe Asp Lys 1 5 10 15 Ala Gly Asn Arg Ile Asp Tyr Glu Glu Val Asn Lys Ile Leu Trp Glu 20 25 30 Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu 35 40 45 Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile 50 55 60 Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln 65 70 75 80 Ala Asn Lys Glu Leu Arg Thr Lys Leu Ala Leu Asn Ser Ser Asn Leu 85 90 95 Ser Thr Thr Thr Met Asp Val Cys Lys Asn Phe Asn Thr Tyr Lys Lys 100 105 110 Glu Val Trp Lys Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln 115 120 125 Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn 130 135 140 Glu Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Glu Phe Ala Lys 145 150 155 160 Tyr Gly Phe Lys Asp Gly Phe Arg Phe Lys Met Gln Val Lys Asp Asn 165 170 175 Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr Lys Ile 180 185 190 Asn Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Lys Lys Trp Lys Leu 195 200 205 Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys 210 215 220 Glu Lys Ile Leu Gly Val Asp Val Gly Val Asn Cys Pro Leu Val Ala 225 230 235 240 Ser Val Phe Gly Asp Arg Asp Arg Phe Ile Ile Lys Gly Gly Glu Ile 245 250 255 Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu 260 265 270 Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys 275 280 285 Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg 290 295 300 Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val 305 310 315 320 Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr 325 330 335 Ser Lys Ser Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln 340 345 350 Thr Lys Ile Glu Asn Lys Ala Lys Glu Val Gly Ile Asn Val Val Tyr 355 360 365 Ile Ala Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile 370 375 380 His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Glu Cys 385 390 395 400 Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile 405 410 415 Lys Asn Ile Asp Lys Ile Ile Glu Lys Asp Leu Gln Lys Gln Glu Ser 420 425 430 Glu Val Gln Val Asn Glu Asn Lys 435 440 <210> 37 <211> 497 <212> PRT <213> Syntrophomonas palmitatica <400> 37 Met Gly Glu Ser Val Lys Ala Ile Lys Leu Lys Ile Leu Asp Met Phe 1 5 10 15 Leu Asp Pro Glu Cys Thr Lys Gln Asp Asp Asn Trp Arg Lys Asp Leu 20 25 30 Ser Thr Met Ser Arg Phe Cys Ala Glu Ala Gly Asn Met Cys Leu Arg 35 40 45 Asp Leu Tyr Asn Tyr Phe Ser Met Pro Lys Glu Asp Arg Ile Ser Ser 50 55 60 Lys Asp Leu Tyr Asn Ala Met Tyr His Lys Thr Lys Leu Leu His Pro 65 70 75 80 Glu Leu Pro Gly Lys Val Ala Asn Gln Ile Val Asn His Ala Lys Asp 85 90 95 Val Trp Lys Arg Asn Ala Lys Leu Ile Tyr Arg Asn Gln Ile Ser Met 100 105 110 Pro Thr Tyr Lys Ile Thr Thr Ala Pro Ile Arg Leu Gln Asn Asn Ile 115 120 125 Tyr Lys Leu Ile Lys Asn Lys Asn Lys Tyr Ile Ile Asp Val Gln Leu 130 135 140 Tyr Ser Lys Glu Tyr Ser Lys Asp Ser Gly Lys Gly Thr His Arg Tyr 145 150 155 160 Phe Leu Val Ala Val Arg Asp Ser Ser Thr Arg Met Ile Phe Asp Arg 165 170 175 Ile Met Ser Lys Asp His Ile Asp Ser Ser Lys Ser Tyr Thr Gln Gly 180 185 190 Gln Leu Gln Ile Lys Lys Asp His Gln Gly Lys Trp Tyr Cys Ile Ile 195 200 205 Pro Tyr Thr Phe Pro Thr His Glu Thr Val Leu Asp Pro Asp Lys Val 210 215 220 Met Gly Val Asp Leu Gly Val Ala Lys Ala Val Tyr Trp Ala Phe Asn 225 230 235 240 Ser Ser Tyr Lys Arg Gly Cys Ile Asp Gly Gly Glu Ile Glu His Phe 245 250 255 Arg Lys Met Ile Arg Ala Arg Arg Val Ser Ile Gln Asn Gln Ile Lys 260 265 270 His Ser Gly Asp Ala Arg Lys Gly His Gly Arg Lys Arg Ala Leu Lys 275 280 285 Pro Ile Glu Thr Leu Ser Glu Lys Glu Lys Asn Phe Arg Asp Thr Ile 290 295 300 Asn His Arg Tyr Ala Asn Arg Ile Val Glu Ala Ala Ile Lys Gln Gly 305 310 315 320 Cys Gly Thr Ile Gln Ile Glu Asn Leu Glu Gly Ile Ala Asp Thr Thr 325 330 335 Gly Ser Lys Phe Leu Lys Asn Trp Pro Tyr Tyr Asp Leu Gln Thr Lys 340 345 350 Ile Val Asn Lys Ala Lys Glu His Gly Ile Thr Val Val Ala Ile Asn 355 360 365 Pro Gln Tyr Thr Ser Gln Arg Cys Ser Met Cys Gly Tyr Ile Glu Lys 370 375 380 Thr Asn Arg Ser Ser Gln Ala Val Phe Glu Cys Lys Gln Cys Gly Tyr 385 390 395 400 Gly Ser Arg Thr Ile Cys Ile Asn Cys Arg His Val Gln Val Ser Gly 405 410 415 Asp Val Cys Glu Glu Cys Gly Gly Ile Val Lys Lys Glu Asn Val Asn 420 425 430 Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Pro Tyr Ile Asp Gln 435 440 445 Ile Ile Met Glu Lys Cys Leu Glu Leu Gly Ile Pro Tyr Arg Ser Ile 450 455 460 Thr Cys Lys Glu Cys Gly His Ile Gln Ala Ser Gly Asn Thr Cys Glu 465 470 475 480 Val Cys Gly Ser Thr Asn Ile Leu Lys Pro Lys Lys Ile Arg Lys Ala 485 490 495 Lys <210> 38 <211> 497 <212> PRT <213> Clostridium novyi <400> 38 Met Ile Thr Val Arg Lys Ile Lys Leu Thr Ile Met Gly Asp Lys Asp 1 5 10 15 Thr Arg Asn Ser Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Met Gly Met Thr Tyr Leu Ala Val Asn Asp Ile 35 40 45 Leu Tyr Met Asn Glu Ser Gly Leu Glu Ile Arg Thr Ile Lys Asp Leu 50 55 60 Lys Asp Cys Glu Lys Asp Ile Asp Lys Asn Lys Lys Glu Ile Glu Lys 65 70 75 80 Leu Thr Ala Arg Leu Glu Lys Glu Gln Asn Lys Lys Asn Ser Ser Ser 85 90 95 Glu Lys Leu Asp Glu Ile Lys Tyr Lys Ile Ser Leu Val Glu Asn Lys 100 105 110 Ile Glu Asp Tyr Lys Leu Lys Ile Val Glu Leu Asn Lys Ile Leu Glu 115 120 125 Glu Thr Gln Lys Glu Arg Met Asp Ile Gln Lys Glu Phe Lys Glu Lys 130 135 140 Tyr Val Asp Asp Leu Tyr Gln Val Leu Asp Lys Ile Pro Phe Lys His 145 150 155 160 Leu Asp Asn Lys Ser Leu Val Thr Gln Arg Ile Lys Ala Asp Ile Lys 165 170 175 Ser Asp Lys Ser Asn Gly Leu Leu Lys Gly Glu Arg Ser Ile Arg Asn 180 185 190 Tyr Lys Arg Asn Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys Phe 195 200 205 Lys Tyr Asp Asp Asn Asp Asp Ile Glu Ile Lys Trp Met Glu Gly Ile 210 215 220 Lys Phe Lys Val Ile Leu Gly Asn Arg Ile Lys Asn Ser Leu Glu Leu 225 230 235 240 Arg His Thr Leu His Lys Val Ile Glu Gly Lys Tyr Lys Ile Cys Asp 245 250 255 Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu Thr 260 265 270 Leu Asp Ile Pro Ile Asp Ile Val Asn Lys Lys Val Ser Gly Arg Val 275 280 285 Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Cys Ala Leu Asn 290 295 300 Asp Val Glu Tyr Ile Lys Lys Ser Ile Gly Arg Ile Asp Asp Phe Leu 305 310 315 320 Lys Val Arg Thr Gln Met Gln Ser Arg Arg Arg Arg Leu Gln Ile Ala 325 330 335 Ile Gln Ser Ala Lys Gly Gly Lys Gly Arg Val Asn Lys Leu Gln Ala 340 345 350 Leu Glu Arg Phe Ala Glu Lys Glu Lys Asn Phe Ala Lys Thr Tyr Asn 355 360 365 His Phe Leu Ser Ser Asn Ile Val Lys Phe Ala Val Ser Asn Gln Ala 370 375 380 Glu Gln Ile Asn Met Glu Leu Leu Ser Leu Lys Glu Thr Gln Asn Lys 385 390 395 400 Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Thr Met Ile Glu 405 410 415 Tyr Lys Ala Gln Arg Glu Gly Ile Lys Val Lys Tyr Ile Asp Pro Tyr 420 425 430 His Thr Ser Gln Thr Cys Ser Lys Cys Gly Asn Tyr Glu Glu Gly Gln 435 440 445 Arg Glu Ser Gln Ala Asp Phe Ile Cys Lys Lys Cys Gly Tyr Lys Val 450 455 460 Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asn Lys Tyr 465 470 475 480 Ile Thr Lys Lys Glu Glu Ser Lys Tyr Tyr Lys Ile Lys Glu Ser Met 485 490 495 Val <210> 39 <211> 2815 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 39 tgccaacatc tggtctgcgc acgatttttt ctatttgttt tttcactttt tccttcaaca 60 gcttgtccct tattttcttg actttcttct tgaaaaaaag gtcgtatttg attgttacca 120 ttttttgagt tcttccagga attcctcgcc gctgattccg ttgacgccgc ctttttcaca 180 tcttttaagc gcttcctcgg cgcgctcggc aaaacgcagg tctttctcca ggttctcgtc 240 gaaagcggtc gcgctcttca acacgaattt gtttccgctt cggattacca cgagcttgtc 300 tccctccttg aagccggcgc gcatttcgct gggaatcacg atttgccctt ttgaactcat 360 tcggctgaca ccaatgtcta tcataaggta agatgtgtct tacttactat atatttcttg 420 tgttttgggg tggcggcacg ctaattaatt taaaaggcgt attgctttgc aggagttgct 480 aaggagggtt gcctgtggaa atgatttcac tcaaacttaa actgcttcca gacgaagaac 540 aaaagaaatt gcttgacgaa atgttttgga agtgggcctc gatttgtacc cgcgttggtt 600 ttgggcgggc tgataaagaa gatttaaaac cgccaaaaga cgcggaaggg gtttggttta 660 gtttaacaca attaaatcaa gccaacacag acattaacga cttaagggag gcgatgaagc 720 accaaaaaca ccgcctagaa tacgaaaaaa accgtttgga agcgcaaaga gatgatactc 780 aggatgcctt gaaaaatccg gacagacgag aaataagcac taaaagaaag gatttattcc 840 gtcccaaagc gtccgtcgaa aaaggctttc tgaaactgaa gtatcatcaa gagcgttatt 900 gggttcgaag gctgaaagaa ataaacaaac taattgaaag gaaaacgaag acacttataa 960 aaatagaaaa ggggcgaatc aaattcaagg caacgcgaat aaccctgcac caaggctctt 1020 ttaaaattag attcggcgat aaacccgctt ttctgataaa ggcgttgtct ggaaaaaacc 1080 aaatagacgc tccttttgtt gtagtgccag aacaaccaat ctgcgggagc gttgtaaata 1140 gcaagaaata cttagatgaa attactacta atttcttggc ttacagcgta aatgcaatgc 1200 ttttcggttt gagccgcagc gaggaaatgt tgttgaaagc caaaaggcca gaaaaaatca 1260 agaaaaaaga agaaaaactt gctaaaaaac aatcagcctt tgaaaacaaa aagaaggaat 1320 tgcaaaaatt acttggtaga gaactaaccc agcaggaaga agcgattatt gaagaaaccc 1380 gcaaccaatt ctttcaagat tttgaggtga aaataaccaa acaatactcg gaattactca 1440 gcaaaattgc taacgaactc aagcaaaaaa atgattttct gaaagtaaac aaatatccta 1500 tacttttaag gaaacctctc aagaaagcca aatcgaaaaa aattaataat ctttcgccaa 1560 gcgaatggaa atattacctc caattcggag ttaaaccttt actaaaacaa aaatcaagac 1620 gaaaatcaag gaatgttttg ggaatagacc gcggccttaa acacttgcta gccgtaaccg 1680 ttcttgaacc cgacaaaaaa acgtttgtat ggaacaaact ttacccaaac ccaattacgg 1740 gctggaagtg gaggcgacgc aagcttttgc gctccttaaa gcgattgaag aggcgcatta 1800 aatcgcaaaa acacgaaaca attcatgaaa accaaacgag gaaaaagctc aagagtttac 1860 aaggcaggat agatgacctg cttcataata tttccagaaa aatagtggag accgcaaaag 1920 aatatgatgc ggtaatagta gtggaagacc tccaaagcat gcggcaacac ggtcgttcaa 1980 aaggcaatcg tttgaaaaca ctgaattacg cgctaagcct tttcgattac gcaaacgtga 2040 tgcaacttat aaagtacaag gcgggtatag aaggaatcca aatatatgac gttaaaccag 2100 ctggcacaag ccaaaattgc gcgtattgcc ttttagcgca aagggattca cacgaataca 2160 aaagaagcca agaaaactcc aaaataggtg tttgcttaaa tcctaactgc caaaaccaca 2220 agaaacaaat tgacgctgac ctaaacgcgg caagagtaat agctagttgt tacgccttaa 2280 aaattaatga ttcccaacca tttggaacaa ggaaaagatt taaaaaaaga acaacgaatt 2340 aatttaacgg taacctgtgg aattcagttt actttggcag tcctaaaaga accgtgtata 2400 ccaacggata tggaatcggt gtaaatcgaa ccatcctttg ggacgggtgc tcttctatat 2460 ggcgagcacc ttaagaagac tcgttgcaag tcttttgggc tcataaacca ttgtcgcgat 2520 ggataacggc ctgacttagt ttcggttcaa aattggttgg tctttttaaa taaggctaca 2580 aaaaggccct tatccgatta cgctttttat ccgggcattt tcctgccttt ttaggcgaat 2640 tccaacgatt ttttcggctg ttgcacagtg ctaattagag aaactaggaa tgcaacaaca 2700 atgattatcc gtataattcg ttgactttgc gggttgcaca gtgctaatta gagaaactag 2760 gaatgcaacc tgcccattcc gtcgcactct taaccattat ttcagggttg cacag 2815 <210> 40 <211> 3687 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 40 gtcgagcagg cgcgcaacgt cacccggttt ctccttgaca gaaagcagga ataccgggga 60 ttcacgagca ggtggtgagc atgatctact gggtgattta cgacatcagc gcaaacgggg 120 cgcgcagcag ggtggcttcc gcgtgcaaga actacggatt caagcgcatc cagaagagcg 180 cgtttctggg caacatcacc aaaaacaagg cggacatgct cgccatccag tgcagggaca 240 tggtgaagga ggaaggcgac tgcgtcttca tcatcccggc gtgcgaacag tgcttcaggg 300 gaaaggaggt actcggcacg cttgacgaga cggctgcgcg gaagctcgac tacctgatag 360 tgggggaaga tggacgacag acagcatctc acggcggctg acctgctgaa ctactgctac 420 tgcccgcgca ttgtctatta cgtgcacgtg ctgaagctgg cgcaggccac gaccgcgaag 480 gagctgaaag ggagggagaa gtacgatgat ttcaagcgaa aatcaagaag gaacaagatt 540 gtacgacgtg accattgaat caaagaggca cggcctcatc accaaggcgg actgcatcat 600 gtttgacagg gagaagggcg aggcataccc cattcagcat aagtacagct tcaggccgaa 660 ggcgatatat cgcacctaca tcattcaatt gcttatggag gccctccttg tcgaggagca 720 gttcaatgtt ttggtccctc atggcttcat catcttcgag cgctccaagg agacagtaaa 780 ggttgatttg tcaaataagc agaaagtttt atatgccgtg gggcagataa gaggaattat 840 tgggggagaa aagttcccgc cgccgacgga atggaaaaag cggtgcgtgg actgttacta 900 taacaagctg tgttgggggt aagatggaag tacaaaaaac tgtgatgaag acactttctt 960 tgagaatatt aagacctctg tactcacaag aaatagaaaa agagattaaa gaagaaaaag 1020 aaagaagaaa acaagccgga ggaactggag agcttgacgg gggattttat aaaaagcttg 1080 agaagaagca ttcagagatg ttcagctttg ataggttaaa cttattgttg aatcaattac 1140 aaagagaaat tgctaaggtc tacaatcatg ccatcagtga attgtatata gcgactatcg 1200 ctcaaggtaa caagagcaac aaacattata ttagtagtat tgtctataat cgagcatatg 1260 gatactttta taacgcttac atagccttag ggatatgttc aaaagttgaa gcaaatttta 1320 gatccaatga actcctaaca caacaaagcg cattgcctac agcaaagtca gataattttc 1380 caatagtttt acataaacaa aaaggtgctg agggagagga tggaggattt aggatatcta 1440 ctgaggggag cgatctgata tttgagatac ccattccgtt ctatgaatat aatggggaga 1500 accgaaaaga accctataaa tgggttaaaa aaggaggaca aaaacctgtg ttaaaactta 1560 tactttctac ttttaggaga caaagaaata aggggtgggc aaaagacgag ggcacggatg 1620 cggaaataag aaaggttaca gaagggaagt atcaagtcag ccaaatagaa ataaataggg 1680 gtaaaaaact aggagaacat caaaaatggt ttgccaattt cagcatagag caaccaattt 1740 atgaaagaaa acctaatcgg agtattgtcg gcggattaga cgtgggaata agatcccccc 1800 tagtatgtgc aattaacaac tcattttcga gatattctgt tgattccaat gatgtattta 1860 agttttctaa acaagtattc gcatttagaa gacggctatt atcgaaaaac tctttgaaaa 1920 ggaaaggtca tggggcggct cataagttag aacctatcac ggaaatgaca gaaaaaaatg 1980 acaagtttag aaagaaaata attgagagat gggccaagga agttacaaat ttctttgtta 2040 aaaaccaagt aggaattgtt cagatagaag atttatcaac gatgaaagac agagaggatc 2100 atttttttaa tcaatatctt agaggatttt ggccttatta ccaaatgcag acattaattg 2160 agaacaagct caaagagtat gggattgagg taaaaagggt acaggcaaaa tatacgtctc 2220 agttgtgctc aaaccctaat tgcaggtatt ggaataacta ttttaacttt gaataccgaa 2280 aagtaaataa attcccaaaa tttaaatgtg aaaagtgtaa cttagaaata agtgctgact 2340 ataacgctgc tcgcaatcta tcaactcccg atatagagaa atttgtggca aaagctacaa 2400 aaggcattaa tttgccagaa aaatgagaat gttattccat aataacattt gatgcacacg 2460 attcctccct acagtagtta ggtatagccg aaaggtagag actaaatctg tagttggagt 2520 gggccgcttg catcggccta aagttgagaa gtgtcagact ctgataaccc tcaacgacga 2580 tattctttat ttcggttcaa agttctgcac aaaacaggtg agtccttata aaccggtgtg 2640 cagaacgccg gctcaccttt ttccttcatc cgattttacg cttaaaagcc gtaaaaacgc 2700 ggaattcggc gccgttgcag aacccgaata gacgaatgaa ggaatgcaac aaaataatac 2760 aagcgtgtct ttgttaaaac aatccacagt tgcagaaccc gaatagacga atgaaggaat 2820 gcaacctcga tttacacgac atctcgtctg agtatgacgg ttgcagaacc cgaatagacg 2880 aatgaaggaa tgcaacctgt gtaagtgcgt tagacatcga taacgtctgt aatgttgcag 2940 aacccgaata gacgaatgaa ggaatgcaac tttatctttt acatgaatcg cgtaatctta 3000 acctggttgc agaacccgaa tagacgaatg aaggaatgca actgaagtcc ccctctgcac 3060 tcacgtaaaa attattgttg cagaacccga atagacgaat gaaggaatgc aactgtagca 3120 gtactgctcg ggtcgctcag ctaatgcgat gttgcagaac ccgaatagac gaatgaagga 3180 atgcaacagc ctcgaaaggt atataaacct agccgactat cgggcatcca tgaagcaaga 3240 catgatttcc atatcgcgga aagagtacga gggcatgaag gaaaccatag agatgctgca 3300 aagcccggag atgatgaggc agattctgga gagcgagaag aacatctcag aaggcaaaat 3360 aaaaaaattt gatgtctaat atacgttatg ggttccgacg gcctctacaa caattcttcg 3420 gtttgaatcg tcaatgctgt acaccattct tatgcttgag ccgagccagc agctccattt 3480 gcccgccaat ctcccatgca gaggatgagc gccaatttca gtcctcggcg actgctttag 3540 tttatgaagc ttgccgacaa tgtcctgcct gccttttaca taacgtgcaa gcaatttttc 3600 cgccttgctg tttgccgtat agatttcata cataggtgga ttgaatgatg aaactcatat 3660 ataaacaatg ccctccaacg agaatag 3687 <210> 41 <211> 2929 <212> DNA <213> Parageobacillus thermoglucosidasius <400> 41 tcaagcaatt atcgtatagt ctctgtcgtt tggcagggct ttttttattt tcgtggaatg 60 aaatattagg aggtgatatc gtgtttgaga tcgtaggccg actgcgctgt cccatttgtt 120 cagaggtggt tcgaccagac gagaaggtct tccttgacat tatcaacacc atcatccatc 180 agaagtgcta ctatcaatcc ccacgtagac tcccgatcaa agacaaaggc ccattccaga 240 aaatgttcat gaaatatcca ttcttcaacg aggatgagga agatgattcc atatgaaaag 300 cccttctcat cgagaggggc ttgtttattt tattgcatag ttttttgcaa aatgaataaa 360 aaatcatgtg acaacttacg taaaccaaag acaaaaatgt tccacgttag taaaaagtat 420 taaatggaaa tttaatgtca aaaatggagg tggtattgtt tcaaaagtaa cacttgttgt 480 aaaaaagggg ttgttaattg atgaagtata cgaaagtaat gaggtatcaa attatcaaac 540 ccttaaacgc agaatgggat gaattgggaa tggttctccg tgacatccag aaagaaactc 600 gcgcggcatt aaacaagacg attcaattgt gttgggaata tcaaggattt agtgcggatt 660 ataagcagat acacggtcag tatcctaaac caaaagatgt tttaggatac acaagtatgc 720 acggatatgc ttatgatcgt ctcaaaaatg aattcagcaa aattgcaagt tcaaaccttt 780 cgcaaactat caaacgagcg gtagataaat ggaatagtga cttaaaagaa attctgcgtg 840 gtgaccgctc catccctaac ttcagaaaag attgtccaat tgatatcgtt aagcaatcga 900 cgaaaataca aaaatgtaat gatggatacg tattaagcct cggtttaatt aatagagagt 960 ataaaaatga attgggacgg aaaaacggag tatttgatgt acttataaaa gcaaacgata 1020 aaacccagca aaccatatta gaacgaatta taaatggcga ttatacatat acggcatctc 1080 aaataatcaa tcataaaaat aagtggttta ttaaccttac ctatcaattt gaaactaaag 1140 aaacagcctt agatcccaat aatgtcatgg gagttgatct aggaattgtt tatcctgttt 1200 atatagcatt taataacagt cttcaccgtt atcatattaa aggaggagaa atagaacgat 1260 tcagacggca agtagaaaaa aggaagaggg aattgttaaa tcaaggcaaa tattgtggag 1320 acgggcgtaa agggcatggt tatgctacaa gaacaaagtc cattgaatca attagcgata 1380 aaattgcgag atttcgtgac acttgcaatc ataaatattc caggtttatt gtagatatgg 1440 cgcttaaaca taattgtggg ataattcaaa tggaagattt gactggaatt agcaaggaaa 1500 gtacattttt gaaaaattgg acatattacg atcttcagca gaaaatcgaa tataaggcac 1560 gagaagcagg aatacaagtt ataaaaattg aaccccaata tacatctcaa cgttgtagta 1620 aatgtggcta tattgataaa gagaatcggc aagaacaagc tacatttaag tgcatcgaat 1680 gtggttttaa gacaaatgct gactataatg cagcaaggaa tatcgcaata ccgaacattg 1740 acaagataat aaggaaaacg ttaaaaatgc aataaaaaat cccttggggc gattcagcgt 1800 ccttaagtcg agaagtgccg taataagcat ctaaaaatgc ctaacggtaa cactcgataa 1860 ggtagtcctg ctaggcaggc tgaaacccta gccacaaaat ccggctaggc atcatacaga 1920 aaattgttgt cgaactataa tcgtgcaaaa atcccaaggg atcgacgaca tttaaaatgt 1980 tgatagctaa gggatttacg gttatttcta aaaaagaaaa tctcttgaga gagataagtg 2040 aaatgttgct ttatcaatat cttttggggt ttctgaagaa actatgtatg atgtgaagta 2100 ttcgcgatca accaacgcga tcgtgtcggc aatttgagtt tctgaagaaa ctatgtatga 2160 tgtgaaggta aaaattggcg aggacgaatt agatgacaca gagtttctga agaaactatg 2220 tatgatgtga agcatttgaa agagctatgc aaatacttcg atcaaaaggt ttctgaagaa 2280 actatgtatg atgtgaagtc gctcattcct ctccctctct ttcttcatga agtaggtttc 2340 gaagaaacta tgtatgatgt gaagttatcg tattgacaca gtttgttccc cacttggccg 2400 tttctgaaga aactatgtat gatgtgaagt ttgttcgatg gaaagtacga agatgggaaa 2460 gtagtttcaa aaagcccttc tcgtatgaga aggggggatt gaaggatatt gtatgccgac 2520 aatcttgccg acattctgcc gaccaaattt tttgttcatg taatttttta tggttcataa 2580 tgactttaga atgttgtaaa atcgaccatt ttgaaatgaa ctaattcccg atttcaccta 2640 ctcccccacc ttgacagggt ggaggtcgct ggttcgagcc cagtcggaat cactaaaatg 2700 tgaggcttga aatccttgcg tatcaagggt ttcaagcttt ttgtttttta tagcaggcac 2760 tcaaaatagc gtccaaatta cggttggtgc cattttggtg ccgaagcatt tttagtttga 2820 ttttgataac aggacatcga tttgattagc cgcttcctct tgcatattag gtaatacatg 2880 agaataaatg tctagtgttg ttttaatatt actgtggcct agacgttcg 2929 <210> 42 <211> 3530 <212> DNA <213> Acidibacillus sulfuroxidans <400> 42 acctgcataa ggttgagaac ctttcttatg cgaaaatcgc agaacttttg ggcgtaaaaa 60 aagggagcat tgagcgatat atagagatgg cccgtaagaa actggagcgg ccatcagcgc 120 aactcgaaat ggaaaacctt tcttacgaaa agattgtgca agatttgggc gaaaagagaa 180 atgtaccgcg agcaatagat actacgagtg agaaggaata ctcttcggtg caacttgagt 240 ttgattttga atgattactg gttcatattt atattttctc ggctccttta tctttgggag 300 ccgtatgtta tttttgagtg ttaatattta gattgaatac tttttgttgt aaaaagaact 360 ggtgtctgat acgataaaag aaacttgtga aataaactag tgcatatcat ggctcgaaaa 420 cttgaaattg tgttaattct atggtgtaaa ttctaattag catcacaatg tagtgttttg 480 tttagacgga ggcgagtgga atgatcaaag tatatcggta tgagatcgta aaaccgcttg 540 atttagattg gaaagagttt ggaactattt tacgacagtt acaacaggaa actcgttttg 600 ccttaaacaa agcgactcaa ctggcttggg aatggatggg ctttagtagt gattataagg 660 ataatcatgg ggaatatcca aaaagtaaag acattctcgg atacacgaat gttcacggat 720 acgcttacca tacgatcaaa accaaagcat atcgcttaaa cagtggtaat ttatctcaaa 780 ccatcaaacg tgcgacggat cgttttaaag catatcaaaa ggaaatctta cgtggcgata 840 tgtccattcc gtcctataaa cgagatattc cactcgatct gattaaagag aatatcagcg 900 taaatcgtat gaatcacggg gattatatcg cttcgttatc tctgttaagc aatccagcca 960 agcaagaaat gaatgtaaag aggaaaattt cggtcataat cattgtccgt ggcgcaggga 1020 aaacaatcat ggacagaatc ctaagtggtg aataccaagt ctctgcttca caaataattc 1080 acgatgatcg aaaaaacaaa tggtatttaa acataagtta tgattttgaa ccccaaaccc 1140 gagtgttgga tctaaataaa ataatgggga ttgatttagg cgttgctgtt gccgtttaca 1200 tggcatttca acatacccct gctcgataca aattggaggg aggtgagatt gaaaattttc 1260 gtagacaggt agaatctcga cggattagta tgttacgtca aggtaaatat gccggtggtg 1320 cccgtggagg gcatgggcga gataaaagaa taaaaccgat tgaacagctt cgagataaaa 1380 ttgctaattt tagagatacc acaaaccatc gttatagtag atatatagtg gatatggcaa 1440 ttaaagaagg ttgtggaacg attcagatgg aggatttaac gaatatacgc gatattggat 1500 ctcgattttt acaaaattgg acctattatg atttgcagca aaaaattatt tataaagccg 1560 aagaggcagg aattaaagtc ataaagatcg atccccaata taccagtcaa cgttgtagtg 1620 aatgtggtaa tatagattcc gggaatcgaa ttggacaagc tatctttaaa tgcagagctt 1680 gcggatacga agccaatgca gactacaatg ctgcacgaaa catagcaata ccgaacattg 1740 acaaaattat agctgagagt atcaaataaa aatctttccc aaatacttct attcgtcggt 1800 tcagcgacga taagccgaga agtgccaata aaactgttaa gtggtttggt aacgctcggt 1860 aaggtagcca aaaggctgaa actccgtgca caaagaccgc acggacgctt cacatatagc 1920 tcataaacaa atgtcgtcga cctctaatag cgtaaaaacc tccggggatc gacgacagca 1980 aaatgcaata tagtcgggct tttcaaaaaa acgccggtat aaaccgacga agcgcgaacg 2040 ctgatttttt gcggaagaaa cgggtttgcg agctagcttg tggagtgtga accgagatgc 2100 tgtagttgat gattatcttc aagatgctag gcgtttgcga gctagcttgt ggagtgtgaa 2160 ccagggtcgg aacgaatcgg gtacggtagc gggctatccg tttgcgagct agcttgtgga 2220 gtgtgaactc cgcctgcctg tcttactacc tccacagggt tgccgtgttt gcgagctagc 2280 ttgtggagtg tgaactatac ttatactagg ataccctaaa atcgagcaga agtttgcgag 2340 ctagcttgtg gagtgtgaac cttcgataaa ccgtatattg gacttttttg gagtttcgtt 2400 tgcgagctag cttgtggagt gtgaactgat gattgtgaag gagattttga agatcgaacc 2460 agtttgcgag ctagcttgtg gagtgtgaac accaatcgct caatctcgtc atcacaatta 2520 gcaaaaagtt tgcgagctag cttgtggagt gtgaactaca gtagaagcaa cacaattcca 2580 acccaattcc atagtttgcg agctagcttg tggagtgtga accaggtacg aatatgtaga 2640 acgaaaaggt ggaatggatg tttgcgagct agcttgtgga gtgtgaacaa ttcgttaatc 2700 gtctatctca aaaactagta aataagtttg cgagctagct tgtggagtgt gaactgtcaa 2760 cgtccccaat atacatttct ggcctttttc tagtttgcga gctagcttgt ggagtgtgaa 2820 cataagctaa ggtataaatc gcaaacggaa tggacagggt ttgcgagcta gcttgtggag 2880 tgtgaactct tccactggct attcttctat ttcttctgct gaggtttgcg agctagcttg 2940 tggagtgtga actgtatcaa tatctttccc aaaaagctac ggtcgatcgt ttgcgagcta 3000 gcttgtggag tgtgaaccct cttcctctct ctgctgccgc actttagcct gcggtttgcg 3060 agctagcttg tggagtgtga actcttccac tggctattca tctatctctt ctgttgaggt 3120 ttgcgagcta gcttgtggag tgtgaactgt atcaatatct ttcccaaaaa gctacggtcg 3180 atcgtttgcg agctagcttg tggagtgtga actggaaatg gtagtgatgg ggcgttcgcg 3240 cctgcgccga gtttgcgagc tagcttgtgg agtgtgaact taccctatgc acatctggta 3300 ttaagtcaat agatcaccat gccgcctgag cggcaccagt agaaggatga aaatgggctt 3360 gtgtcgaaat gacaccttag cggctggcga aggtaggtcg ttccaaactg gtgccatgag 3420 cccgctcaat agactgacta cgacgaccca gtgcaccata gtatgttgct ccctttaggg 3480 aagcacgcag gatagaatga tctttatggt cgttgcacca gcccttcaat 3530 <210> 43 <211> 2702 <212> DNA <213> Ruminococcus sp. <400> 43 ttgtcacaaa gatcacgaag caattaccat tctgacctag ctgccgtgcg acttcaaaac 60 cggtcatttc aggcatatca aggtcaagaa atatagccga aaaaggcttt ttaccatggc 120 agtaaaaaaa gctctcagct ttggtaaacg tttctatttc agccttgacc gaccttgatt 180 caagttcatt tgccagcata gatttaaaaa actgaagaaa aacagcatta tcatcacaaa 240 ctgcgatccg cattttttca cgtcctttta taacatagtc tgtgtacgat tttatattac 300 cataattata ccgtaaggtc aagccataaa accagcaata agcacctagc gtcaagaatt 360 gtcatgttgt gccaaaatcg aggaactttg ttccaaaaac cacacctcat atttgtccct 420 tttgccaatt tacaaaaata tacttatgtg ttacaataat agagtaaagt atattgatcg 480 tgtgaaatgg ggtgacatta ctggtcaaag tcgtaaaaat ccatctaatt agtgagcaat 540 ttgacaaagc aggcaaccgg atagattatg aagaagtcaa taaaatactg tgggaattgc 600 aaaagcagac acgagaagca aagaataaaa ctgttcagct tctttgggaa tggaacaatt 660 tttcaagcga ttatgttaag gcgagtggca tatatcctaa agcaaaagac atatttggct 720 actcaagtgt gcatggacaa gcaaacaaag aattaagaac aaaactcgct ttaaattcaa 780 gtaatctttc cactaccaca atggacgtat gtaaaaattt taatacatat aaaaaagagg 840 tatggaaagg caaacgatca gttccttcgt acaaatcaga ccaacctctt gatctgcaca 900 aagactctat aaagctgata tatgaaaaca acgaatttta tgttaggctc gctttattaa 960 aaaaagctga atttgcaaag tatggtttta aagacggttt tcgttttaaa atgcaggtga 1020 aagataattc taccaaaact attcttgaac gctgttttga cgaagtatac aaaataaatg 1080 ccagcaaact tttatatgac caaaagaaaa agaagtggaa gcttaatctg tcttatagtt 1140 tcgacaataa aaacatttct gaacttgaca aagaaaagat ccttggtgtt gatgtaggcg 1200 ttaactgtcc tttagtcgct tcggttttcg gcgatcgtga ccgattcata atcaagggcg 1260 gcgaaattga aaaattcaga aaaagcgtgg aagctcgcag acgttcaatg ctcgagcaaa 1320 caaaatactg cggtgacgga agaattggtc acggcagaaa aaaacgcact gagcctgccc 1380 taaatatagg cgacaagata gcaagatttc gtgatacaac aaaccacaaa tacagcagag 1440 ctttgataga atatgctgta aaaaagggct gcggaactat ccaaatggaa aagctgacgg 1500 gtattacatc taaatctgat cgttttctaa aagactggac ttattatgac ctccagacaa 1560 agatagaaaa caaggcgaaa gaagtaggga taaatgtcgt ctatatcgcc cctaaatata 1620 caagtcagag atgtagcaaa tgcggatata tccacaagga taacagacca aatcaggcga 1680 aatttagatg tcttgaatgc gattttgaaa gtaatgcaga ttataatgca agtcagaata 1740 tcggaattaa aaacattgat aagataatag aaaaagattt gcaaaagcaa gaaagcgaag 1800 tccaagtgaa cgaaaacaag tagaaggttc acacaatttc agggcgactc ggcgtcctaa 1860 aatcgagaaa gtgtacataa gtttttaaca aaatacggta aatactctcg gtaaggtttt 1920 aacgtgcaca taataatccg tgcaacaggg ttacactttt gtgcaatttt gcagttgcaa 1980 cttacgcata ggtgtaaaat acgaggtgaa tgttactgtt gttgtgtttt cctcaaaagt 2040 tgcaacttac gcataggtgt aaaatacgag atcagaagtc aggataatgt tatccttgtc 2100 cgtgttgcaa cttacgcata ggtgtaaaat acgaggtcca gaaaatcgtc tgacattatc 2160 gtttgttcgt tgcaacttac gcataggtgt aaaatacgaa gcactcaatt tgcattgtga 2220 tacgatattg aattacaatc acatatttgt aaaacaacaa aagggctgtc cacacagccc 2280 ttttgttctt atctaaccta tgccaagccc cctacccctt aggctttttc atagtaagcg 2340 aaatacgctt tttcttcagg tcaacgttaa gtacccaaac cttaactacc tccccgacct 2400 ttacgacctc aagagggtgc tttatatatc tgtcgcacat ctgagaaata tgtacaagtc 2460 cgtcctcgtg aacaccgata tcaacgaacg ctccgaagtc tataacgttt ctcactgtgc 2520 ccataagctc catgcccggc ttcaagtctt taagctccat aatgtcgccg cttctcataa 2580 gcggtggagg cagctcgtca cgagggtcac gaccaggctt ttcaagctcc cctactatgt 2640 cctttaacgt cggtgcacca atgccaatat ctgtggcaag cttcttcatg cccattgcat 2700 tg 2702 <210> 44 <211> 5157 <212> DNA <213> Syntrophomonas palmitatica <400> 44 gcaattgcta taccaaaaaa tactgcaacc ggaaaataaa atttatccag gatgcagccc 60 tggataaaaa ggaatatagt tttatttctc tgtttttatc cttcttttgt agaaggattt 120 ttctgtcttt aatattatcg tttagttcat ctgttgttat cagcataagt tcccaaagaa 180 cgtgcgcata atcatcagta gtggtactaa ctgacctgcc ccacaaattc ttgaataatt 240 ttttgattta cgtccaattc cagtagccgc ataacaaaag tgtgcctcaa gccatgtaaa 300 ttaaattctt tgatacctgc cttatcctta acccgataaa aaactcggtt aaaattacgt 360 ggctcgtaca gctaagatgc aactaataaa tccctatacc taaccggagt ctggtggcag 420 atcagttata agtcaaaccc cttttttgac acaatatgtt tgttagtata taatttgaca 480 ttgagagggg tattctgttg atgggcgaat cggtaaaagc aataaaatta aagatactgg 540 atatgttttt agaccccgaa tgcacaaagc aggatgataa ctggcgcaaa gatttgtcta 600 ctatgtccag attctgcgct gaagcgggga atatgtgtct gcgcgacctg tataattact 660 tttcaatgcc caaggaagac cgtatttcct caaaagactt atataacgct atgtatcata 720 aaactaaact tctccatcct gaattaccag gtaaggtagc gaaccaaata gtaaaccacg 780 ctaaagatgt ttggaaacgc aacgctaaac tcatttatcg gaaccaaatc tcaatgccta 840 catataagat aacaacagca ccaatccggc tgcaaaataa catttataaa ttaataaaaa 900 ataagaacaa atacataata gacgtacagt tatactccaa ggaatactcc aaggatagtg 960 gtaaaggcac tcataggtat tttctggtag cagttagaga ctcatcaacc cgtatgatat 1020 tcgaccgtat tatgagtaag gaccatattg acagtagtaa atcatacacg caaggacaac 1080 tccaaatcaa gaaagaccac caggggaaat ggtattgcat cataccctat acattcccta 1140 cacatgagac agtcctcgac cctgataaag tcatgggagt agaccttggc gttgcaaaag 1200 ctgtttactg ggcgtttaat agttcttata aaagaggctg tatcgacggt ggggaaatag 1260 aacatttccg caaaatgata cgagctcgca gggtgtccat ccaaaatcaa atcaaacatt 1320 caggggacgc ccgtaaagga catgggcgca aaagggcgtt aaaacccata gaaacattga 1380 gcgagaagga aaagaatttt agggatacaa taaaccaccg ctatgcaaat cgaattgtag 1440 aagctgctat taagcaaggc tgtgggacaa tccaaatcga aaaccttgaa ggtatagctg 1500 acacaacagg cagtaaattt ctcaagaact ggccttatta cgacctgcag acaaaaattg 1560 ttaataaagc caaggaacat ggcattaccg ttgttgcaat aaacccccaa tatacatccc 1620 aaaggtgttc gatgtgcggg tatattgaaa aaaccaaccg ttcatcacag gcagtatttg 1680 aatgtaaaca atgcggttac ggcagtagga ctatatgtat taactgcagg cacgtccaag 1740 tatccgggga tgtttgtgag gaatgtggcg gcatagtaaa aaaagaaaac gtaaacgcag 1800 actacaatgc ggcaaaaaac atatccacac cgtacatcga ccagataata atggagaagt 1860 gtttagaact aggtattcct taccgcagta taacctgtaa agaatgtggt cacatacagg 1920 cttcaggaaa tacctgcgag gtttgcggaa gtactaatat tttgaaacca aagaaaatta 1980 gaaaagcaaa ataatcgcga accccaagtt ataaaaaagg tctttgacaa caaaacaagt 2040 catatcgctt taaagcctga cataatttac tctgtttcgc gcgccagggc agttaggtgc 2100 cctaaaagag cgaagtggcc gaaaggaaag gctaacgctt ctctaacgct acggcgacct 2160 tggcgaaatg ccatcaatac cacgcggccc gaaagggttc gcgcgaaact gagtaataaa 2220 acattgcgga tgcggcaata cagaaccgct gtcgcatctt gcgtaagcgc gtggattgaa 2280 actgtagtat ttgcgggttg agattggcgg gaattagtcg catcttgcgt aagcgcgtgg 2340 attgaaaccg gttcgcacag gcagttttag cattggtgtg gtgtcgcatc ttgcgtaagc 2400 gcgtggattg aaacaacaac ccgttcccac ggtgcaccac aatgagggtc gcatcttgcg 2460 taagcgcgtg gattgaaact taaatctatg tcaactgttg ccagtattgt caccgtcgca 2520 tcttgcgtaa gcgcgtggat tgaaaccaaa ctgaagatcg aatgttgcat cagctccagc 2580 gtgtcgcatc ttgcgtaagc gcgtggattg aaacacaaat ttcatttact tccatcccaa 2640 tttttacagt cgcatcttgc gtaagcgcgt ggattgaaac tttgtcgttt taacctgtat 2700 gtcgtatgca ttttgtcgca tcttgcgtaa gcgcgtggat tgaaactagt ctgttttcta 2760 ggtcattgat tttgtcaagc gtcgcatctt gcgtaagcgc gtggattgaa accgaaggag 2820 ggttaatcgt ttgattctta aagaacgtcg catcttgcgt aagcgcgtgg attgaaacat 2880 gtttgaaggt attgttcaac accctacaca aaagtcgcat cttgcgtaag cgcgtggatt 2940 gaaactgtcc agcaaggcaa gtgcagtaaa gaccgttagt cgcatcttgc gtaagcgcgt 3000 ggattgaaac aaaacgatat tcagacccaa cagcaaaccc tagcgtcgca tcttgcgtaa 3060 gcgcgtggat tgaaacttga tcggtaattg cgccatgcct tattttatcg gtcgcatctt 3120 gcgtaagcgc gtggattgaa acctcaaact taaaacccct acatgtcata tctttgtcgc 3180 atcttgcgta agcgcgtgga ttgaaacaac aaagtggaag gatttcccgg agcagatatt 3240 agtcgcatct tgcgtaagcg cgtggattga aacatgcttg ttgaacggtg caaacacacc 3300 ttcaatggtc gcatcttgcg taagcgcgtg gattgaaacc gcttatttgc ttgctgatga 3360 acaagttgca gacgtcgcat cttgcgtaag cgcgtggatt gaaacttgac cacatccaac 3420 aatggtcatt gcatcagggt cgcatcttgc gtaagcgcgt ggattgaaac atttatgccg 3480 gcaattatgg aatttatgat gtagtcgcat cttgcgtaag cgcgtggatt gaaactggta 3540 gtttattgat gtcaagttct gtccatctcg tcgcatcttg cgtaagcgcg tggattgaaa 3600 catacaccct accctaaaaa acaacacaca ataagcgtcg catcttgcgt aagcgcgtgg 3660 attgaaactt ctctgtcgaa atttttgttt atttactggt ttgtcgcatc ttgcgtaagc 3720 gcgtggattg aaacatattg ccttgctgac atataagcgt cataagccgt cgcatcttgc 3780 gtaagcgcgt ggattgaaac tgaagcctgg ggttatgggt tttcgtccgt catgtcgcat 3840 cttgcgtaag cgcgtggatt gaaaccaaga gcaacctcaa ccaaacaccg ccgatatttc 3900 gtcgcatctt gcgtaagcgc gtggattgaa acttttttat tgcccttttt aggttggcat 3960 tgtctacgtc gcatcttgcg taagcgcgtg gattgaaaca ttttaaatgg tttacttgtt 4020 aaggcaattc gttgtcgcat cttgcgtaag cgcgtggatt gaaactgatg cccccaatcc 4080 atattggggt ggaatattca gtcgcatctt gcgtaagcgc gtggattgaa acggtttgca 4140 agtatatgcc gtactgttgt tctaatgtcg catcttgcgt aagcgcgtgg attgaaactc 4200 aaaatttgaa gcgtggcttg atttactttt gcgtcgcatc ttgcgtaagc gcgtggattg 4260 aaactgtaat aatgggaata aaaagccgcc cacattgtcg catcttgcgt aagcgcgtgg 4320 attgaaacaa ccgggcagac gaagaaatca ccgaagaaga aagtcgcatc ttgcgtaagc 4380 gcgtggattg aaacttccat cagtccatga cgaacggcta gggagcctgt cgcatcttgc 4440 gtaagcgcgt ggattgaaac atggcatcgt tttcgttatc aaccaatatc ttcgtcgcat 4500 ctcgcgtagg cgcgtggatt gaaactaatg atgtgcgatt gacgtattgt ctggcaacgt 4560 gtcgcatctt gcgtaagcgc gtggattgaa acccatttaa ccttatacag agcattatta 4620 cacaagtcgc atcttgcgta agcgcgtgga ttgaaacagt aatcgaaaaa gtgagctttg 4680 agtcggataa cacatattgg accatatagt ctcgaaggat ctcatgaaat taataacggc 4740 ttgtatgcaa ggaacaataa taaaaaaaca ataaaactta gcaccgccag gatttcgttt 4800 ttagcaattt taaatttata atggtaatcg ttttcgctgg acacttcgag tcgcgtttgt 4860 atttcatcgg tatgctgcaa agaattggcg ataaatgcag ccagaatgtt ggacaattct 4920 tttagtttgg atttaaaacc aagatcgtta ttcttaaaaa cctgccgtac ctgctccaaa 4980 atatcctgtt tgaattgact tacagaccgg gtcaattcgt tcactataac ccttgccata 5040 tgcaaatgtt ttgccaccgg aatacccagt gaatttaagg gagaaaggac cttgctcagc 5100 atttctgtga tgggctgaat aggagtagtg aaaaaataca agctgccgat ataccag 5157 <210> 45 <211> 3588 <212> DNA <213> Clostridium novyi <400> 45 tacaagtcca ctttatgaaa aataagtaaa aaaatcaaca taatatttat tgaatagatt 60 atgaatttaa ttaaagaata atctattctt tgttcaataa aatcatcagg gattattctt 120 agatacgtga aatttataat tttaacaagt tgcatgtata atctgaacaa taatattaag 180 ggaagtggtt aatttggcaa atataaaata tgaaattaca aaatatccat aatggaaaaa 240 ccaccataag ggatattttg tagtctttaa tgggctaaag gcctaaagtt gaagtacaag 300 aaaatcatat tctacttcaa ctagaatatt aacaaggata aaatggactt gcttaacatc 360 tgaaagaaaa acatttcaga tataaagcag gtccattttt tataaaattt aattataata 420 caatatattt gacgttaaat atgttaaaat agtaaataat tataagagaa tttaaggttg 480 aatataaagg ggagaaactt atgattacag ttagaaaaat aaagttaaca ataatgggag 540 ataaagatac aagaaatagt caatacaaat ggattagaga tgaacaatac aatcagtaca 600 gagctttaaa tatgggtatg acttatttag ctgtaaatga tattttatat atgaatgaaa 660 gcggattaga aattcgaact attaaagatt taaaagattg tgaaaaagat attgataaaa 720 ataaaaaaga aattgaaaag ttaactgcaa gactagagaa ggaacaaaat aagaaaaatt 780 cctcatcaga aaaattagat gagattaaat ataaaataag tttagtagaa aataaaattg 840 aagattataa attaaaaata gttgagttaa ataaaattct tgaagaaaca caaaaagaaa 900 gaatggatat acagaaagaa tttaaagaaa aatatgtaga tgatctttat caagttttag 960 ataaaatacc ctttaagcat ttagacaata aaagtctagt tactcaaaga ataaaagctg 1020 atataaagtc agataaaagt aatggactat taaaaggtga aagaagtatt agaaactaca 1080 agagaaactt tcctttaatg actagaggac gagatttaaa atttaaatat gatgataatg 1140 atgatattga aataaagtgg atggaaggaa ttaaatttaa agttattttg ggaaatagaa 1200 taaaaaattc cttagagctt agacacactt tacataaagt tatagaggga aaatataaaa 1260 tatgtgatag tagtttgcaa tttgataaaa ataataatct tatacttaat ttaactctag 1320 acattcctat tgatattgta aataaaaaag tttcaggaag agttgtagga gtagatttag 1380 gattaaagat accagcatat tgtgcattaa atgatgttga atatattaaa aaatctatag 1440 gacgtataga tgatttcttg aaagttagaa ctcaaatgca gagtagaaga agaagacttc 1500 aaattgcaat acaaagtgct aaaggtggaa aaggtagggt gaataaactt caagccttgg 1560 agagatttgc tgaaaaggag aagaattttg caaagacata taatcatttt ttaagttcta 1620 atatagttaa atttgcagtt agcaatcagg ccgaacaaat taatatggag ttattaagtt 1680 taaaagaaac tcaaaataag tcaatactaa gaaattggag ttattatcaa cttcaaacaa 1740 tgattgagta taaagcccaa cgtgaaggga ttaaagttaa gtacatagat ccttatcata 1800 catcacaaac atgtagtaaa tgtggtaatt atgaagaagg acaaagagaa tctcaagctg 1860 attttatatg caaaaaatgt ggttataaag ttaatgctga ttataatgca gctagaaata 1920 tcgctatgag taataaatat ataacaaaaa aagaagaaag taagtattac aaaattaaag 1980 aaagtatggt ataataaaac atagttaaac taataaaaac agggcgattt aacgtcctaa 2040 ggctgagaga agttttttct actcggcaag ggttaatctc gattgttgtg ttaccgatcg 2100 agcgtttcac aaaatgcgag agaaatctcg catttttaat tttgcagtaa ggctagtttt 2160 tatataaata tgctataacc attgatattg ctaggctaca ataggtttta ttaaaaaagc 2220 aaaaaacatt actgaaggtt cactgcaaaa tagtgtattt aagtgaaagt gagattgctt 2280 gtaaagctag gagtatcaat atatttataa atttcaaaat ttagggtttt agtttaacta 2340 tgtgaaatgt aaatatgtaa taaatataaa taataaatat aaataactat gttttagttt 2400 aactatgtga aatgtaaata attagatggt gttttaatct ccatttattc ggttctgttt 2460 tagtttaact atgtgaaatg taaatgaatg aaatatataa taaaatagta aaataaaata 2520 taagttttag tttaactatg tgaaatgtaa atatgtccat tacttctata actgttgagg 2580 ttggctatct gttttagttt aactatgtga aatgtaaatt ttagtacttg ctgtccagct 2640 acaaatccag tagcatgttt tagtttaact atgtgaaatg taaataatgt ttcagcttgt 2700 acttttttag cgtttaaaat taagttttag tttaactatg tgaaatgtaa atatcccaat 2760 ctaatttaga atcttgggac tggtctacgt gttttagttt aactatgtga aatgtaaatt 2820 gggaacacgt ttcatttaca tttagtatag aaggaggttt tagtttaact atgtgaaatg 2880 taaattagtt agcccattca cctcttgctt tctttgcagc aataccgttt tagtttaact 2940 atgtgaaatg taaatctttc ggttcttgta ttttaattat gttatctttt ttctgtttta 3000 gtttaactat gtgaaatgta aatcagatac agacttagaa aaagctccaa cagaagaagg 3060 ttttagttta actatgtgaa atgtgaatga gcatagcaat aaatttcgtt tcattttgtt 3120 tgagtaagtt ttagtaaaat actatgaagt gaagggatac gtattatgaa atttatcgaa 3180 tcaatagatc cttttttgat gcagttggtt attgttccgc taatagtaat tggattaggt 3240 gttttagtag cttataatat taaaaatata ttaattggac ctttaataac attgttttta 3300 aatagtttat atgaaatttg gtatataaaa cactattgtc ctggatcaga aattagtttg 3360 agttcttgga atattattct tccaatgatt tcatttacaa tttctttgat tgtagtatta 3420 attagagaat agggtaatat ttaataaaga ttatttctta ggctaggtga aatgtaaata 3480 acctggattt tctttagttg caataatatc aatactaggt tttagtttaa ctatgtgaaa 3540 tagagaagca gaatataaaa gctgaaacta caaactctcc atcatgga 3588 <210> 46 <211> 38 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 46 gtttcagcgc acgaattaac gagatgagag atgcaact 38 <210> 47 <211> 37 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 47 attgcagaac ccaaagtaat aggtcaagga atgcaac 37 <210> 48 <211> 37 <212> DNA <213> Unknown <220> <223> Candidatus Aureabacteria bacterium <400> 48 gttgcagatg tggagaaata gagataacga atgcaac 37 <210> 49 <211> 37 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 49 gttgcagaac ccgaatagac gaatgaagga atgcaac 37 <210> 50 <211> 37 <212> DNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 50 gttgcacagt gctaattaga gaaactagga atgcaac 37 <210> 51 <211> 37 <212> DNA <213> Unknown <220> <223> Uncultured archaeon <400> 51 gttgcagaac ccgaatagac gaatgaagga atgcaac 37 <210> 52 <211> 30 <212> DNA <213> Parageobacillus thermoglucosidasius <400> 52 gtttctgaag aaactatgta tgatgtgaag 30 <210> 53 <211> 29 <212> DNA <213> Acidibacillus sulfuroxidans <400> 53 gtttgcgagc tagcttgtgg agtgtgaac 29 <210> 54 <211> 32 <212> DNA <213> Ruminococcus sp. <400> 54 gttgcaactt acgcataggt gtaaaatacg ag 32 <210> 55 <211> 32 <212> DNA <213> Syntrophomonas palmitatica <400> 55 gtcgcatctt gcgtaagcgc gtggattgaa ac 32 <210> 56 <211> 29 <212> DNA <213> Clostridium novyi <400> 56 gttttagttt aactatgtga aatgtaaat 29 <210> 57 <211> 58 <212> RNA <213> Artificial <220> <223> Cas-alpha 1 crRNA <220> <221> misc_feature <222> (39)..(58) <223> n is a, c, g, or u <400> 57 guuucagcgc acgaauuaac gagaugagag augcaacunn nnnnnnnnnn nnnnnnnn 58 <210> 58 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 crRNA <220> <221> misc_feature <222> (38)..(57) <223> n is a, c, g, or u <400> 58 auugcagaac ccaaaguaau aggucaagga augcaacnnn nnnnnnnnnn nnnnnnn 57 <210> 59 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 crRNA <220> <221> misc_feature <222> (38)..(57) <223> n is a, c, g, or u <400> 59 auugcagaac ccaaaguaau aggucaagga augcaacnnn nnnnnnnnnn nnnnnnn 57 <210> 60 <211> 110 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 60 uuuacuccga guaaucggau guggauuaua gcacagcaac cuauauggaa gcugggaacc 60 gguuuauccg gaaaugcgca ccguugcaug gaauuaugug cgcuuaagac 110 <210> 61 <211> 85 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 61 uuauagcaca gcaaccuaua uggaagcugg gaaccgguuu auccggaaau gcgcaccguu 60 gcauggaauu augugcgcuu aagac 85 <210> 62 <211> 77 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 62 cagcaaccua uauggaagcu gggaaccggu uuauccggaa augcgcaccg uugcauggaa 60 uuaugugcgc uuaagac 77 <210> 63 <211> 69 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 63 uauauggaag cugggaaccg guuuauccgg aaaugcgcac cguugcaugg aauuaugugc 60 gcuuaagac 69 <210> 64 <211> 214 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 64 aaaagauaaa uauuaagaag cacauaauuu auuuugguua cauaucacug gauaaugaga 60 acagcuguag auuaagcugu uugauguauu guauuaugcu ccacuuuaau aaguggugcc 120 uuccaaagcu auaugcugag ggaggauggg cgcuguugca gcgucugccc accucagagu 180 ggguauccuu accuauuuug aaagguucug uaag 214 <210> 65 <211> 163 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 65 auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60 aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120 ccucagagug gguauccuua ccuauuuuga aagguucugu aag 163 <210> 66 <211> 148 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 66 auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60 aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120 ccucagagug gguauccuua ccuauuuu 148 <210> 67 <211> 127 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 67 auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60 gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uugaaagguu 120 cuguaag 127 <210> 68 <211> 161 <212> RNA <213> Unknown <220> <223> Uncultured archaeon <400> 68 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca a 161 <210> 69 <211> 172 <212> RNA <213> Artificial <220> <223> Cas-alpha 1 sgRNA version 1 <220> <221> misc_feature <222> (153)..(172) <223> n is a, c, g, or u <400> 69 uuuacuccga guaaucggau guggauuaua gcacagcaac cuauauggaa gcugggaacc 60 gguuuauccg gaaaugcgca ccguugcaug gaauuaugug cgcuuaagac gaaaguuuca 120 gcgcacgaau uaacgagaug agagaugcaa cunnnnnnnn nnnnnnnnnn nn 172 <210> 70 <211> 147 <212> RNA <213> Artificial <220> <223> Cas-alpha 1 sgRNA version 2 <220> <221> misc_feature <222> (128)..(147) <223> n is a, c, g, or u <400> 70 uuauagcaca gcaaccuaua uggaagcugg gaaccgguuu auccggaaau gcgcaccguu 60 gcauggaauu augugcgcuu aagacgaaag uuucagcgca cgaauuaacg agaugagaga 120 ugcaacunnn nnnnnnnnnn nnnnnnn 147 <210> 71 <211> 139 <212> RNA <213> Artificial <220> <223> Cas-alpha 1 sgRNA version 3 <220> <221> misc_feature <222> (120)..(139) <223> n is a, c, g, or u <400> 71 cagcaaccua uauggaagcu gggaaccggu uuauccggaa augcgcaccg uugcauggaa 60 uuaugugcgc uuaagacgaa aguuucagcg cacgaauuaa cgagaugaga gaugcaacun 120 nnnnnnnnnn nnnnnnnnn 139 <210> 72 <211> 131 <212> RNA <213> Artificial <220> <223> Cas-alpha 1 sgRNA version 4 <220> <221> misc_feature <222> (112)..(131) <223> n is a, c, g, or u <400> 72 uauauggaag cugggaaccg guuuauccgg aaaugcgcac cguugcaugg aauuaugugc 60 gcuuaagacg aaaguuucag cgcacgaauu aacgagauga gagaugcaac unnnnnnnnn 120 nnnnnnnnnn n 131 <210> 73 <211> 275 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 1 <220> <221> misc_feature <222> (256)..(275) <223> n is a, c, g, or u <400> 73 aaaagauaaa uauuaagaag cacauaauuu auuuugguua cauaucacug gauaaugaga 60 acagcuguag auuaagcugu uugauguauu guauuaugcu ccacuuuaau aaguggugcc 120 uuccaaagcu auaugcugag ggaggauggg cgcuguugca gcgucugccc accucagagu 180 ggguauccuu accuauuuug aaagguucug uaaggaaaau ugcagaaccc aaaguaauag 240 gucaaggaau gcaacnnnnn nnnnnnnnnn nnnnn 275 <210> 74 <211> 224 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 2 <220> <221> misc_feature <222> (205)..(224) <223> n is a, c, g, or u <400> 74 auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60 aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120 ccucagagug gguauccuua ccuauuuuga aagguucugu aaggaaaauu gcagaaccca 180 aaguaauagg ucaaggaaug caacnnnnnn nnnnnnnnnn nnnn 224 <210> 75 <211> 196 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 3 <220> <221> misc_feature <222> (177)..(196) <223> n is a, c, g, or u <400> 75 auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60 aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120 ccucagagug gguauccuua ccuauuuuga aaaaguaaua ggucaaggaa ugcaacnnnn 180 nnnnnnnnnn nnnnnn 196 <210> 76 <211> 188 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 4 <220> <221> misc_feature <222> (169)..(188) <223> n is a, c, g, or u <400> 76 auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60 gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uugaaagguu 120 cuguaaggaa aauugcagaa cccaaaguaa uaggucaagg aaugcaacnn nnnnnnnnnn 180 nnnnnnnn 188 <210> 77 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 sgRNA version 1 <220> <221> misc_feature <222> (203)..(222) <223> n is a, c, g, or u <400> 77 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nn 222 <210> 78 <211> 36 <212> DNA <213> Artificial <220> <223> T2 spacer <400> 78 agttgaccca acgtcgccgg cgtgcacaat ctagat 36 <210> 79 <211> 5100 <212> DNA <213> Artificial <220> <223> Complete Cas-alpha 1 locus engineered to target T2 <400> 79 tcgcgtctat ggcgtgattt tgcagcttcc ctaaattcag ccccttctcc tcaaagccca 60 gaagctcctt taatgcctgc tcgtttgcgc cctccacctt tgagcccggg gcggcgggga 120 agatgctgcg caccaatctt ccttccttgt agactccaag cgccctaacc cttgcgatta 180 catactccca gtccgcagtc gggaaattct gcggcatcgg ggagcctttc tcgtactctg 240 aaacgctttc cgcatgctca aaatagcggt ttgcgcgcat tatctcggaa attgtgccaa 300 aaagcattcc atcctcgcag cgtgtctgga cgaactgccc cttccttaca ttcggggagg 360 agattacgaa ggagaagaag gaggtggtgg ggctgtctat tgtggagatg accgtgccaa 420 gggaggtgga atccatgaag aggttttgag gagaaaatta atatatggaa ttgagggggg 480 tcggacttct accctgtaag tgtttataag gagaactcca tatatacttc ggatatgcaa 540 ctaataattg acgattatgg cgcatatctt gggcagaagg acaacctctt ccaaataagg 600 aagaaagacg ggacgtgtga agaatattct gccgacaagg ttgagcagat acttcttgtg 660 aaaaatagct gtatttcttc aagagccgca ctcttggcag cacgaaacaa catagatgta 720 gtgtttgtag gaaaattcgg aatgccggaa ggaaggattt ttcctgcatg tcttggagga 780 acaaatctca taagaagaaa acaacttgaa gcagggcaga atgagaaagg agggaaaatt 840 gcaataaaac ttatctgggc aaagatcaag aatgaggaat ttttccttaa aactctcaac 900 aaaagcagaa ctgcgcctct tcttttggag aaagcggaaa aaataagcgc tattgcggag 960 caagtccggc agatgttagg cgagaaattt gatgcagata gggtttttgg ttttgaagga 1020 ttggctgcgg cgcactattt tgagggattg tcacaggtaa tgccgattga aaagcgcgac 1080 caagagggaa aagatgcccc aaatgcactc ttgaattatg gttatggaat gttgtacgga 1140 gagatagaga aagcctgcct ttttgccggt ttggacccgt atcttggctt tcttcatgca 1200 gataggtacg gcaagccctc tcttgtactt gatttgatag aagagttcag accggttatt 1260 gttgataggg cgattattac gctttacgca cagaaacaga taaacgagag tgattttgag 1320 cagggaggag ataagatttt tctttcaaaa gaagggagaa agaagatgat aaaggcaatt 1380 atggaaagac tgcatgcaaa aataacttca gatgggcgca agcttgagct ttcggtgata 1440 atacaggagc aggcgcgaag aatcgcctcc tttgtgaagg gagagagcga gtttgagcct 1500 tttctttaca ggtggtagga tgttttattg ggtaatttat gatataagcg aaaacaagaa 1560 acgcggcagg gtggcaagaa tatgcaaaaa ctacgggttt agaagagtgc agaagagcgc 1620 ctttgcaggc gaaacttcaa agaataaggt ggagatgctg ttattggaat gcaatgagat 1680 tatagaggga ggggatgatt atttgtttgt cattccgaac tgcacaagct gtttcaatgg 1740 gaaaatgata accggctgtc ttgacgagaa aagagtgaga aatcagccgt atatgtttgt 1800 aggtgatggc gcatgaacag aatgggaatt ttgagcattc gagacatatt gaattacaac 1860 tactgcccgc gcatagtata ttttgagtat gttctgcgca gaccacaggg caggacgaaa 1920 aaggaggatg agggattgaa acagcataat gaatttgtgc caagagggaa gaggaataag 1980 atggttaaac ggatttgtta tgacaagaag ctgtttaatc tgccgcttta ttctccgcgc 2040 atgaaccttc aaactgtggc ggattgcgtg cttattgaca caaaagagaa gcttgctgtt 2100 ccgatgcagt ttaagcatgg aaaaacacct tcttgcttgt atcggactat gaaataccag 2160 cttgtagcgg aggcgttgct gattgaggag tgccttgggc tttcatgtcc ttatggactt 2220 gtgaaattct tacctgaaga aacaactctt agaacagaaa tagacgaaat tcaaaagcaa 2280 aaacttaaag aacagcttga gagtattaac aacgtggtga ggtttgaaag gtatcccgat 2340 ggtccgagaa cgaggaatta ctgcggggac tgctggtatc atggaaaagt ttgcacggga 2400 tttgacggca aaatagtggg atgaacatga gtaaaactac gatttcagta aaattaaaga 2460 ttattgactt aagctctgag aaaaaagagt ttcttgataa ctattttaac gaatacgcaa 2520 aagccacgac gttctgccag ttaagaatac ggcgactttt gagaaataca cactggcttg 2580 ggaaaaagga gaagagttca aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg 2640 gtgaaaacaa agaacttgtg aatgaagata gaaattcagg cgaacctgca aaaatttgca 2700 aaagatgtta taatggaaga tatggcaatc agatgatacg taaacttttc gtttcaacga 2760 agaaaagaga agttcaggaa aacatggaca tacgaagagt cgctaaacta aataatacgc 2820 attatcaccg cataccggaa gaagcatttg acatgattaa agccgccgat acagcagaaa 2880 aaagaagaaa gaagaatgtc gagtatgata aaaaaagaca gatggaattt attgagatgt 2940 ttaatgacga aaaaaaacgt gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt 3000 acgttcatat ttctaaattg gaaagtccgt caaagggata tactctgaac ggaataaaaa 3060 gaaaaataga cggcatgggt aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga 3120 agatttttgg ttatcagggc aatagaatca aacttgattc gaattgggtc cggtttgacc 3180 ttgccgaatc ggagattact atcccctcac tgtttaagga aatgaaacta aggataactg 3240 gaccgaccaa cgttcattca aaaagcgggc agatatattt tgcagaatgg tttgagcgga 3300 taaacaaaca accgaataat tactgttatc tgataagaaa aacaagttcg aacggcaaat 3360 atgaatatta tcttcaatat acttatgaag ccgaagttga ggcgaataag gagtacgctg 3420 ggtgtttggg ggttgatata ggatgttcta aacttgctgc cgcagtttat tatgattcaa 3480 aaaacaaaaa agcacaaaaa ccaattgaga tattcacgaa tccgattaaa aaaatcaaga 3540 tgcggcgcga gaaactgatt aaacttcttt ccagagttaa ggtgcggcac agacgcagaa 3600 aactcatgca actcagtaaa actgaaccca ttatagacta tacgtgccac aaaaccgcaa 3660 gaaaaattgt tgaaatggca aatactgcca aagcttttat ctcaatggag aatcttgaaa 3720 ctgggataaa gcaaaagcaa caggcaagag aaacaaaaaa gcagaagttt tatcggaata 3780 tgtttctttt cagaaaatta agcaaactaa tagagtacaa ggctctgctg aaagggataa 3840 agatagtata tgtgaaaccc gattatacaa gccaaacttg ttcttcatgt ggcgcagaca 3900 aagaaaaaac cgagcgccca tcacaagcaa tatttcgctg tcttaatcca acatgccgat 3960 attatcaaag agacataaat gccgacttca acgccgcagt gaatatagct aagaaagctt 4020 taaataatac tgaagtagta actacgttat tatgatttac tccgagtaat cggatgtgga 4080 ttatagcaca gcaacctata tggaagctgg gaaccggttt atccggaaat gcgcaccgtt 4140 gcatggaatt atgtgcgctt aagaccttat gatatcgcgc ggcttgactt cgcgatagac 4200 aggtcaacta ttgtctcggt tcaacgtgcc aattagcagg tctttataaa tagcctgcag 4260 attttcaagt tgcttttctt agtgcagaaa agaaggcagg agaagcctcc gtttggcaaa 4320 aaaaggcggt tgtatctact gtttcagcgc acgaattaac gagatgagag atgcaactag 4380 ttgacccaac gtcgccggcg tgcacaatct agatgtttca gcgcacgaat taacgagatg 4440 agagatgcaa ctagttgacc caacgtcgcc ggcgtgcaca atctagatgt ttcagcgcac 4500 gaattaacga gatgagagat gcaactagtt gacccaacgt cgccggcgtg cacaatctag 4560 atgtttcagc gcacgaatta acgagatgag agatgcaact cagtagaaga taaaacagaa 4620 ttagaataag atggcttcca gcctgatggt cgtgctcata accgaattgc tgaagtatac 4680 gtgcaagctc ccttccagaa atgacgggca gtttaggcat gtacctcaac aatttcttcc 4740 cgtattgacg gcggaaccgg ctccccgtgc tttttcaggc tcgcaagata gcccttgatg 4800 gcgtctttaa cgtttgcaag cgcatcttcc ctagttgttc cctgcgaaac acagcccgga 4860 agcgaggtgc aaaccgcgac gtatgcaccg tcttcgtctt cttctacaat caccctgaat 4920 ttcataagta tctttgggct ttttggagtt tataagaatg atggatttgg gaagttgcac 4980 cgcgcggatt agtgggagcc ccgtcatttc ggcgcatcca aaaggagtat aagctccctc 5040 gtttttgctt caaattcctt ttttcttcaa ttccgcaaat ctgcctttgc gggagcttcg 5100 <210> 80 <211> 2237 <212> DNA <213> Artificial <220> <223> Minimal Cas-alpha 1 locus engineered to target T2 <400> 80 atgaacatga gtaaaactac gatttcagta aaattaaaga ttattgactt aagctctgag 60 aaaaaagagt ttcttgataa ctattttaac gaatacgcaa aagccacgac gttctgccag 120 ttaagaatac ggcgactttt gagaaataca cactggcttg ggaaaaagga gaagagttca 180 aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg gtgaaaacaa agaacttgtg 240 aatgaagata gaaattcagg cgaacctgca aaaatttgca aaagatgtta taatggaaga 300 tatggcaatc agatgatacg taaacttttc gtttcaacga agaaaagaga agttcaggaa 360 aacatggaca tacgaagagt cgctaaacta aataatacgc attatcaccg cataccggaa 420 gaagcatttg acatgattaa agccgccgat acagcagaaa aaagaagaaa gaagaatgtc 480 gagtatgata aaaaaagaca gatggaattt attgagatgt ttaatgacga aaaaaaacgt 540 gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt acgttcatat ttctaaattg 600 gaaagtccgt caaagggata tactctgaac ggaataaaaa gaaaaataga cggcatgggt 660 aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga agatttttgg ttatcagggc 720 aatagaatca aacttgattc gaattgggtc cggtttgacc ttgccgaatc ggagattact 780 atcccctcac tgtttaagga aatgaaacta aggataactg gaccgaccaa cgttcattca 840 aaaagcgggc agatatattt tgcagaatgg tttgagcgga taaacaaaca accgaataat 900 tactgttatc tgataagaaa aacaagttcg aacggcaaat atgaatatta tcttcaatat 960 acttatgaag ccgaagttga ggcgaataag gagtacgctg ggtgtttggg ggttgatata 1020 ggatgttcta aacttgctgc cgcagtttat tatgattcaa aaaacaaaaa agcacaaaaa 1080 ccaattgaga tattcacgaa tccgattaaa aaaatcaaga tgcggcgcga gaaactgatt 1140 aaacttcttt ccagagttaa ggtgcggcac agacgcagaa aactcatgca actcagtaaa 1200 actgaaccca ttatagacta tacgtgccac aaaaccgcaa gaaaaattgt tgaaatggca 1260 aatactgcca aagcttttat ctcaatggag aatcttgaaa ctgggataaa gcaaaagcaa 1320 caggcaagag aaacaaaaaa gcagaagttt tatcggaata tgtttctttt cagaaaatta 1380 agcaaactaa tagagtacaa ggctctgctg aaagggataa agatagtata tgtgaaaccc 1440 gattatacaa gccaaacttg ttcttcatgt ggcgcagaca aagaaaaaac cgagcgccca 1500 tcacaagcaa tatttcgctg tcttaatcca acatgccgat attatcaaag agacataaat 1560 gccgacttca acgccgcagt gaatatagct aagaaagctt taaataatac tgaagtagta 1620 actacgttat tatgatttac tccgagtaat cggatgtgga ttatagcaca gcaacctata 1680 tggaagctgg gaaccggttt atccggaaat gcgcaccgtt gcatggaatt atgtgcgctt 1740 aagaccttat gatatcgcgc ggcttgactt cgcgatagac aggtcaacta ttgtctcggt 1800 tcaacgtgcc aattagcagg tctttataaa tagcctgcag attttcaagt tgcttttctt 1860 agtgcagaaa agaaggcagg agaagcctcc gtttggcaaa aaaaggcggt tgtatctact 1920 gtttcagcgc acgaattaac gagatgagag atgcaactag ttgacccaac gtcgccggcg 1980 tgcacaatct agatgtttca gcgcacgaat taacgagatg agagatgcaa ctagttgacc 2040 caacgtcgcc ggcgtgcaca atctagatgt ttcagcgcac gaattaacga gatgagagat 2100 gcaactagtt gacccaacgt cgccggcgtg cacaatctag atgtttcagc gcacgaatta 2160 acgagatgag agatgcaact cagtagaaga taaaacagaa ttagaataag atggcttcca 2220 gcctgatggt cgtgctc 2237 <210> 81 <211> 10 <212> PRT <213> Artificial <220> <223> 10X His tag <400> 81 His His His His His His His His His His 1 5 10 <210> 82 <211> 6 <212> PRT <213> Artificial <220> <223> 6X His tag <400> 82 His His His His His His 1 5 <210> 83 <211> 367 <212> PRT <213> Artificial <220> <223> maltose binding protein tag <400> 83 Met Lys Ile Glu Glu Gly Lys Leu Val Ile Trp Ile Asn Gly Asp Lys 1 5 10 15 Gly Tyr Asn Gly Leu Ala Glu Val Gly Lys Lys Phe Glu Lys Asp Thr 20 25 30 Gly Ile Lys Val Thr Val Glu His Pro Asp Lys Leu Glu Glu Lys Phe 35 40 45 Pro Gln Val Ala Ala Thr Gly Asp Gly Pro Asp Ile Ile Phe Trp Ala 50 55 60 His Asp Arg Phe Gly Gly Tyr Ala Gln Ser Gly Leu Leu Ala Glu Ile 65 70 75 80 Thr Pro Asp Lys Ala Phe Gln Asp Lys Leu Tyr Pro Phe Thr Trp Asp 85 90 95 Ala Val Arg Tyr Asn Gly Lys Leu Ile Ala Tyr Pro Ile Ala Val Glu 100 105 110 Ala Leu Ser Leu Ile Tyr Asn Lys Asp Leu Leu Pro Asn Pro Pro Lys 115 120 125 Thr Trp Glu Glu Ile Pro Ala Leu Asp Lys Glu Leu Lys Ala Lys Gly 130 135 140 Lys Ser Ala Leu Met Phe Asn Leu Gln Glu Pro Tyr Phe Thr Trp Pro 145 150 155 160 Leu Ile Ala Ala Asp Gly Gly Tyr Ala Phe Lys Tyr Glu Asn Gly Lys 165 170 175 Tyr Asp Ile Lys Asp Val Gly Val Asp Asn Ala Gly Ala Lys Ala Gly 180 185 190 Leu Thr Phe Leu Val Asp Leu Ile Lys Asn Lys His Met Asn Ala Asp 195 200 205 Thr Asp Tyr Ser Ile Ala Glu Ala Ala Phe Asn Lys Gly Glu Thr Ala 210 215 220 Met Thr Ile Asn Gly Pro Trp Ala Trp Ser Asn Ile Asp Thr Ser Lys 225 230 235 240 Val Asn Tyr Gly Val Thr Val Leu Pro Thr Phe Lys Gly Gln Pro Ser 245 250 255 Lys Pro Phe Val Gly Val Leu Ser Ala Gly Ile Asn Ala Ala Ser Pro 260 265 270 Asn Lys Glu Leu Ala Lys Glu Phe Leu Glu Asn Tyr Leu Leu Thr Asp 275 280 285 Glu Gly Leu Glu Ala Val Asn Lys Asp Lys Pro Leu Gly Ala Val Ala 290 295 300 Leu Lys Ser Tyr Glu Glu Glu Leu Ala Lys Asp Pro Arg Ile Ala Ala 305 310 315 320 Thr Met Glu Asn Ala Gln Lys Gly Glu Ile Met Pro Asn Ile Pro Gln 325 330 335 Met Ser Ala Phe Trp Tyr Ala Val Arg Thr Ala Val Ile Asn Ala Ala 340 345 350 Ser Gly Arg Gln Thr Val Asp Glu Ala Leu Lys Asp Ala Gln Thr 355 360 365 <210> 84 <211> 7 <212> PRT <213> Tobacco etch virus <400> 84 Glu Asn Leu Tyr Phe Gln Ser 1 5 <210> 85 <211> 31 <212> DNA <213> Artificial <220> <223> A1 oligonucleotide <400> 85 cggcattcct gctgaaccgc tcttccgatc t 31 <210> 86 <211> 30 <212> DNA <213> Artificial <220> <223> A2 oligonucleotide <400> 86 gatcggaaga gcggttcagc aggaatgccg 30 <210> 87 <211> 22 <212> DNA <213> Artificial <220> <223> R0 oligonucleotide <400> 87 gccagggttt tcccagtcac ga 22 <210> 88 <211> 28 <212> DNA <213> Artificial <220> <223> C0 oligonucleotide <400> 88 gaaattctaa acgctaaaga ggaagagg 28 <210> 89 <211> 56 <212> DNA <213> Artificial <220> <223> F1 oligonucleotide <400> 89 ctacactctt tccctacacg acgctcttcc gatctaaggc ggcattcctg ctgaac 56 <210> 90 <211> 49 <212> DNA <213> Artificial <220> <223> R1 oligonucleotide <400> 90 caagcagaag acggcatacg agctcttccg atctcggcga cgttgggtc 49 <210> 91 <211> 35 <212> DNA <213> Artificial <220> <223> Bridge amplification portion of F1 oligonucleotide <400> 91 ctacactctt tccctacacg acgctcttcc gatct 35 <210> 92 <211> 34 <212> DNA <213> Artificial <220> <223> Bridge amplification portion of R1 oligonucleotide <400> 92 caagcagaag acggcatacg agctcttccg atct 34 <210> 93 <211> 43 <212> DNA <213> Artificial <220> <223> F2 oligonucleotide <400> 93 aatgatacgg cgaccaccga gatctacact ctttccctac acg 43 <210> 94 <211> 18 <212> DNA <213> Artificial <220> <223> R2 olignonucleotide <400> 94 caagcagaag acggcata 18 <210> 95 <211> 60 <212> DNA <213> Artificial <220> <223> C1 oligonucleotide <400> 95 ctacactctt tccctacacg acgctcttcc gatctggaat aaacgctaaa gaggaagagg 60 <210> 96 <211> 36 <212> DNA <213> Artificial <220> <223> Sequence resulting from cleavage and adapter ligation at position 21 of the target <400> 96 ccgctcttcc gatctgccgg cgacgttggg tcaact 36 <210> 97 <211> 15 <212> DNA <213> Artificial <220> <223> Adapter portion of SEQ ID NO. 96 <400> 97 ccgctcttcc gatct 15 <210> 98 <211> 21 <212> DNA <213> Artificial <220> <223> Target portion of SEQ ID NO. 96 <400> 98 gccggcgacg ttgggtcaac t 21 <210> 99 <211> 10 <212> DNA <213> Artificial <220> <223> Sequence 5' of PAM <400> 99 tgtcctcttc 10 <210> 100 <211> 40 <212> DNA <213> Artificial <220> <223> Fixed double stranded DNA target <400> 100 ttatagttga cccaacgtcg ccggcgtgca caatctagat 40 <210> 101 <211> 36 <212> DNA <213> Artificial <220> <223> T2 target sequence <400> 101 agttgaccca acgtcgccgg cgtgcacaat ctagat 36 <210> 102 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 T2-1 sgRNA <400> 102 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acccggcgac guugggucaa cu 222 <210> 103 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 T2-2 sgRNA <400> 103 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acaguugacc caacgucgcc gg 222 <210> 104 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 T2-1 crRNA <400> 104 guugcagaac ccgaauagac gaaugaagga augcaacccg gcgacguugg gucaacu 57 <210> 105 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 T2-1 crRNA <400> 105 guugcagaac ccgaauagac gaaugaagga augcaacagu ugacccaacg ucgccgg 57 <210> 106 <211> 189 <212> DNA <213> Solanum tuberosum <400> 106 gtaagtttct gcttctacct ttgatatata tataataatt atcattaatt agtagtaata 60 taatatttca aatatttttt tcaaaataaa agaatgtagt atatagcaat tgcttttctg 120 tagtttataa gtgtgtatat tttaatttat aacttttcta atatatgacc aaaacatggt 180 gatgtgcag 189 <210> 107 <211> 7 <212> PRT <213> Simian virus 40 <400> 107 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 108 <211> 16 <212> PRT <213> Mus musculus <400> 108 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 109 <211> 896 <212> DNA <213> Zea mays <400> 109 gtgcagcgtg acccggtcgt gcccctctct agagataatg agcattgcat gtctaagtta 60 taaaaaatta ccacatattt tttttgtcac acttgtttga agtgcagttt atctatcttt 120 atacatatat ttaaacttta ctctacgaat aatataatct atagtactac aataatatca 180 gtgttttaga gaatcatata aatgaacagt tagacatggt ctaaaggaca attgagtatt 240 ttgacaacag gactctacag ttttatcttt ttagtgtgca tgtgttctcc tttttttttg 300 caaatagctt cacctatata atacttcatc cattttatta gtacatccat ttagggttta 360 gggttaatgg tttttataga ctaatttttt tagtacatct attttattct attttagcct 420 ctaaattaag aaaactaaaa ctctatttta gtttttttat ttaataattt agatataaaa 480 tagaataaaa taaagtgact aaaaattaaa caaataccct ttaagaaatt aaaaaaacta 540 aggaaacatt tttcttgttt cgagtagata atgccagcct gttaaacgcc gtcgacgagt 600 ctaacggaca ccaaccagcg aaccagcagc gtcgcgtcgg gccaagcgaa gcagacggca 660 cggcatctct gtcgctgcct ctggacccct ctcgagagtt ccgctccacc gttggacttg 720 ctccgctgtc ggcatccaga aattgcgtgg cggagcggca gacgtgagcc ggcacggcag 780 gcggcctcct cctcctctca cggcaccggc agctacgggg gattcctttc ccaccgctcc 840 ttcgctttcc cttcctcgcc cgccgtaata aatagacacc ccctccacac cctctt 896 <210> 110 <211> 278 <212> DNA <213> Gallus gallus <400> 110 tcgaggtgag ccccacgttc tgcttcactc tccccatctc ccccccctcc ccacccccaa 60 ttttgtattt atttattttt taattatttt gtgcagcgat gggggcgggg gggggggggg 120 ggcgcgcgcc aggcggggcg gggcggggcg aggggcgggg cggggcgagg cggagaggtg 180 cggcggcagc caatcagagc ggcgcgctcc gaaagtttcc ttttatggcg aggcggcggc 240 ggcggcggcc ctataaaaag cgaagcgcgc ggcgggcg 278 <210> 111 <211> 286 <212> DNA <213> Human beta herpesvirus 5 <400> 111 cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60 gacgtcaata gtaacgccaa tagggacttt ccattgacgt caatgggtgg agtatttacg 120 gtaaactgcc cacttggcag tacatcaagt gtatcatatg ccaagtacgc cccctattga 180 cgtcaatgac ggtaaatggc ccgcctggca ttgtgcccag tacatgacct tatgggactt 240 tcctacttgg cagtacatct acgtattagt catcgctatt accatg 286 <210> 112 <211> 82 <212> DNA <213> Zea mays <400> 112 tccccaacct cgtgttgttc ggagcgcaca cacacacaac cagatctccc ccaaatccac 60 ccgtcggcac ctccgcttca ag 82 <210> 113 <211> 1013 <212> DNA <213> Zea mays <400> 113 gtacgccgct cgtcctcccc cccccccctc tctaccttct ctagatcggc gttccggtcc 60 atgcatggtt agggcccggt agttctactt ctgttcatgt ttgtgttaga tccgtgtttg 120 tgttagatcc gtgctgctag cgttcgtaca cggatgcgac ctgtacgtca gacacgttct 180 gattgctaac ttgccagtgt ttctctttgg ggaatcctgg gatggctcta gccgttccgc 240 agacgggatc gatttcatga ttttttttgt ttcgttgcat agggtttggt ttgccctttt 300 cctttatttc aatatatgcc gtgcacttgt ttgtcgggtc atcttttcat gctttttttt 360 gtcttggttg tgatgatgtg gtctggttgg gcggtcgttc tagatcggag tagaattctg 420 tttcaaacta cctggtggat ttattaattt tggatctgta tgtgtgtgcc atacatattc 480 atagttacga attgaagatg atggatggaa atatcgatct aggataggta tacatgttga 540 tgcgggtttt actgatgcat atacagagat gctttttgtt cgcttggttg tgatgatgtg 600 gtgtggttgg gcggtcgttc attcgttcta gatcggagta gaatactgtt tcaaactacc 660 tggtgtattt attaattttg gaactgtatg tgtgtgtcat acatcttcat agttacgagt 720 ttaagatgga tggaaatatc gatctaggat aggtatacat gttgatgtgg gttttactga 780 tgcatataca tgatggcata tgcagcatct attcatatgc tctaaccttg agtacctatc 840 tattataata aacaagtatg ttttataatt attttgatct tgatatactt ggatgatggc 900 atatgcagca gctatatgtg gattttttta gccctgcctt catacgctat ttatttgctt 960 ggtactgttt cttttgtcga tgctcaccct gttgtttggt gttacttctg cag 1013 <210> 114 <211> 228 <212> DNA <213> Artificial <220> <223> hybrid intron <400> 114 ggagtcgctg cgcgctgcct tcgccccgtg ccccgctccg ccgccgcctc gcgccgcccg 60 ccccggctct gactgaccgc gttactccca caggtgagcg ggcgggacgg cccttctcct 120 ccgggctgta attagctgag caagaggtaa gggtttaagg gatggttggt tggtggggta 180 ttaatgttta attacctgga gcacctgcct gaaatcactt tttttcag 228 <210> 115 <211> 1000 <212> DNA <213> Zea mays <400> 115 tgagagtaca atgatgaacc tagattaatc aatgccaaag tctgaaaaat gcaccctcag 60 tctatgatcc agaaaatcaa gattgcttga ggccctgttc ggttgttccg gattagagcc 120 ccggattaat tcctagccgg attacttctc taatttatat agattttgat gagctggaat 180 gaatcctggc ttattccggt acaaccgaac aggccctgaa ggataccagt aatcgctgag 240 ctaaattggc atgctgtcag agtgtcagta ttgcagcaag gtagtgagat aaccggcatc 300 atggtgccag tttgatggca ccattagggt tagagatggt ggccatgggc gcatgtcctg 360 gccaactttg tatgatatat ggcagggtga ataggaaagt aaaattgtat tgtaaaaagg 420 gatttcttct gtttgttagc gcatgtacaa ggaatgcaag ttttgagcga gggggcatca 480 aagatctggc tgtgtttcca gctgtttttg ttagccccat cgaatccttg acataatgat 540 cccgcttaaa taagcaacct cgcttgtata gttccttgtg ctctaacaca cgatgatgat 600 aagtcgtaaa atagtggtgt ccaaagaatt tccaggccca gttgtaaaag ctaaaatgct 660 attcgaattt ctactagcag taagtcgtgt ttagaaatta tttttttata tacctttttt 720 ccttctatgt acagtaggac acagtgtcag cgccgcgttg acggagaata tttgcaaaaa 780 agtaaaagag aaagtcatag cggcgtatgt gccaaaaact tcgtcacaga gagggccata 840 agaaacatgg cccacggccc aatacgaagc accgcgacga agcccaaaca gcagtccgta 900 ggtggagcaa agcgctgggt aatacgcaaa cgttttgtcc caccttgact aatcacaaga 960 gtggagcgta ccttataaac cgagccgcaa gcaccgaatt 1000 <210> 116 <211> 249 <212> DNA <213> Homo sapiens <400> 116 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacacc 249 <210> 117 <211> 8 <212> PRT <213> Artificial <220> <223> Strep II tag <400> 117 Trp Ser His Pro Gln Phe Glu Lys 1 5 <210> 118 <211> 208 <212> DNA <213> Bos taurus <400> 118 ctgtgccttc tagttgccag ccatctgttg tttgcccctc ccccgtgcct tccttgaccc 60 tggaaggtgc cactcccact gtcctttcct aataaaatga ggaaattgca tcgcattgtc 120 tgagtaggtg tcattctatt ctggggggtg gggtggggca ggacagcaag ggggaggatt 180 gggaagagaa tagcaggcat gctgggga 208 <210> 119 <211> 317 <212> DNA <213> Solanum tuberosum <400> 119 agacttgtcc atcttctgga ttggccaact taattaatgt atgaaataaa aggatgcaca 60 catagtgaca tgctaatcac tataatgtgg gcatcaaagt tgtgtgttat gtgtaattac 120 tagttatctg aataaaagag aaagagatca tccatatttc ttatcctaaa tgaatgtcac 180 gtgtctttat aattctttga tgaaccagat gcatttcatt aaccaaatcc atatacatat 240 aaatattaat catatataat taatatcaat tgggttagca aaacaaatct agtctaggtg 300 tgttttgcga atgcggc 317 <210> 120 <211> 113 <212> DNA <213> Zea mays <400> 120 cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttctttat 60 agtttatcat ccataaatcg caaaatacct aagcataatt ttatttgaat aga 113 <210> 121 <211> 83 <212> DNA <213> Zea mays <400> 121 cctatagtac actagtaagg tgcatgtgct aacaatacat ccataaatcg caaaatacct 60 aagcataatt ttatttgaat aga 83 <210> 122 <211> 104 <212> DNA <213> Zea mays <400> 122 cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctggt atttctttat 60 agtttaaatc gcaaaatacc taagcataat tttatttgaa taga 104 <210> 123 <211> 110 <212> DNA <213> Zea mays <400> 123 cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttctttat 60 agtttatcca taaatcgcaa aatacctaag cataatttta tttgaataga 110 <210> 124 <211> 110 <212> DNA <213> Zea mays <400> 124 cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttcatagt 60 ttatcatcca taaatcgcaa aatacctaag cataatttta tttgaataga 110 <210> 125 <211> 110 <212> DNA <213> Zea mays <400> 125 cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttctttat 60 agtttatcca taaatcgcaa aatacctaag cataatttta tttgaataga 110 <210> 126 <211> 113 <212> DNA <213> Homo sapiens <400> 126 gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgtg agccctcccc 60 cttgggatcc cgcagctgac cagtcgcgct gacggacaga cagacagaca ccg 113 <210> 127 <211> 111 <212> DNA <213> Homo sapiens <400> 127 gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgtg ccctccccct 60 tgggatcccg cagctgacca gtcgcgctga cggacagaca gacagacacc g 111 <210> 128 <211> 107 <212> DNA <213> Homo sapiens <400> 128 gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggccct cccccttggg 60 atcccgcagc tgaccagtcg cgctgacgga cagacagaca gacaccg 107 <210> 129 <211> 111 <212> DNA <213> Homo sapiens <400> 129 gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgtg ccctccccct 60 tgggatcccg cagctgacca gtcgcgctga cggacagaca gacagacacc g 111 <210> 130 <211> 111 <212> DNA <213> Homo sapiens <400> 130 gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgag ccctccccct 60 tgggatcccg cagctgacca gtcgcgctga cggacagaca gacagacacc g 111 <210> 131 <211> 112 <212> DNA <213> Homo sapiens <400> 131 gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgta gccctccccc 60 ttgggatccc gcagctgacc agtcgcgctg acggacagac agacagacac cg 112 <210> 132 <211> 113 <212> DNA <213> Homo sapiens <400> 132 cccccacccc ctttccaaag cccattccct ctttagccag agccggggtg tgcagacggc 60 agtcactagg gggcgctcgg ccaccacagg gaagctgggt gaatggagcg agc 113 <210> 133 <211> 111 <212> DNA <213> Homo sapiens <400> 133 cccccacccc ctttccaaag cccattccct ctttagccag agccggggtg tgcagacggg 60 tcactagggg gcgctcggcc accacaggga agctgggtga atggagcgag c 111 <210> 134 <211> 101 <212> DNA <213> Homo sapiens <400> 134 cccccacccc ctttccaaag cccattccct ctttagccag agccgggcag tcactagggg 60 gcgctcggcc accacaggga agctgggtga atggagcgag c 101 <210> 135 <211> 110 <212> DNA <213> Homo sapiens <400> 135 cccccacccc ctttccaaag cccattccct ctttagccag agccggggtg tgcagacagt 60 cactaggggg cgctcggcca ccacagggaa gctgggtgaa tggagcgagc 110 <210> 136 <211> 600 <212> DNA <213> Saccharomyces cerevisiae <400> 136 gcgtattacc ttctgctgga ttcaaacact cttctccagt aaaaagattc ccttctcact 60 ctgcttagag aaggagtgcc aggccggcta agcccactct ccagacggaa accatacaat 120 gcctccgctg gctgcattgt cgcgccccgc ccaacgacgg tttaccgaca gctgctagct 180 gggctcaaca ggtggttagc ccaccaattc ccctgtcgct cttcgctctg aatgtgacgg 240 caaatttcga cccgttgttc ctgttccttt tttttttcaa ttggactgaa aaaaaaaaag 300 aaccgaatct ggaaagatac acccaaacat acatagaatg tacggatgca tgattgtctc 360 agcctcgttt ggctcatcgt tcttcatttc tttttcctaa ttttgataga gacaatagat 420 agacgtggaa ggaaaaaaaa aaggaaagcc caacaatatt gagaaacgaa gaggtgtatt 480 tggtttaaat agagcctctt cattcctttc ctgatctgac aacagggtgg aacataaaat 540 atagatctgt agtgagtgcg aatagcaata gtaagtgaac gaaaaaggaa tacgataata 600 <210> 137 <211> 466 <212> DNA <213> Saccharomyces cerevisiae <400> 137 tgaagtacgg attagaagcc gccgagcggg tgacagccct ccgaaggaag actctcctcc 60 gtgcgtcctc gtcttcaccg gtcgcgttcc tgaaacgcag atgtgcctcg cgccgcactg 120 ctccgaacaa taaagattct acaatactag cttttatggt tatgaagagg aaaaattggc 180 agtaacctgg ccccacaaac cttcaaatga acgaatcaaa ttaacaacca taggatgata 240 atgcgattag ttttttagcc ttatttctgg ggtaattaat cagcgaagcg atgatttttg 300 atctattaac agatatataa atgcaaaaac tgcataacca ctttaactaa tactttcaac 360 attttcggtt tgtattactt cttattcaaa tgtaataaaa gtatcaacaa aaaattgtta 420 atatacctct atactttaac gtcaaggaga aaaaaccccg gattct 466 <210> 138 <211> 43 <212> DNA <213> Artificial <220> <223> HH Ribozyme (where N represents nucleotides that are complementary to the 6 nucleotides 3' of ribozyme) <220> <221> misc_feature <222> (1)..(6) <223> n is a, c, g, or t <400> 138 nnnnnnctga tgagtccgtg aggacgaaac gagtaagctc gtc 43 <210> 139 <211> 68 <212> DNA <213> Hepatitis delta virus <400> 139 ggccggcatg gtcccagcct cctcgctggc gccggctggg caacatgctt cggcatggcg 60 aatgggac 68 <210> 140 <211> 269 <212> DNA <213> Saccharomyces cerevisiae <400> 140 tctttgaaaa gataatgtat gattatgctt tcactcatat ttatacagaa acttgatgtt 60 ttctttcgag tatatacaag gtgattacat gtacgtttga agtacaactc tagattttgt 120 agtgccctct tgggctagcg gtaaaggtgc gcattttttc acaccctaca atgttctgtt 180 caaaagattt tggtcaaacg ctgtagaagt gaaagttggt gcgcatgttt cggcgttcga 240 aacttctccg cagtgaaaga taaatgatc 269 <210> 141 <211> 20 <212> DNA <213> Saccharomyces cerevisiae <400> 141 tttttttgtt ttttatgtct 20 <210> 142 <211> 25 <212> DNA <213> Artificial <220> <223> 5' to 3' top strand of target sequence Cas-alpha4 cleavage <400> 142 ccaacgtcgc cggcgtgcac aatct 25 <210> 143 <211> 25 <212> DNA <213> Artificial <220> <223> 3' to 5' bottom strand of target sequence Cas-alpha4 cleavage <400> 143 agattgtgca cgccggcgac gttgg 25 <210> 144 <211> 57 <212> DNA <213> Zea mays <400> 144 ccacgacggg cgttccttgc gcagctgtgc tcgacgttgt cactgaagcg ggaaggg 57 <210> 145 <211> 46 <212> DNA <213> Zea mays <400> 145 ccacgacggg cgttccttgc gcagctgtgc actgaagcgg gaaggg 46 <210> 146 <211> 47 <212> DNA <213> Zea mays <400> 146 ccacgacggg cgttccttgc gcagctgtgt cactgaagcg ggaaggg 47 <210> 147 <211> 45 <212> DNA <213> Zea mays <400> 147 ccacgacggg cgttccttgc gcagctgtgg ctgaagcggg aaggg 45 <210> 148 <211> 48 <212> DNA <213> Zea mays <400> 148 ccacgacggg cgttccttgc gcagctgtgc tcactgaagc gggaaggg 48 <210> 149 <211> 45 <212> DNA <213> Zea mays <400> 149 ccacgacggg cgttccttgc gcagctgtga ctgaagcggg aaggg 45 <210> 150 <211> 54 <212> DNA <213> Zea mays <400> 150 ccacgacggg cgttccttgc gcagctgtgc tcgatgtcac tgaagcggga aggg 54 <210> 151 <211> 45 <212> DNA <213> Zea mays <400> 151 ccacgacggg cgttccttgc gcagctgtca ctgaagcggg aaggg 45 <210> 152 <211> 43 <212> DNA <213> Zea mays <400> 152 ccacgacggg cgttccttgc gcagctcact gaagcgggaa ggg 43 <210> 153 <211> 41 <212> DNA <213> Zea mays <400> 153 ccacgacggg cgttccttgc gcagcactga agcgggaagg g 41 <210> 154 <211> 50 <212> DNA <213> Zea mays <400> 154 ccacgacggg cgttccttgc gcagctgtgc tgtcactgaa gcgggaaggg 50 <210> 155 <211> 48 <212> DNA <213> Zea mays <400> 155 ccacgacggg cgttccttgc gcagctgtgg tcactgaagc gggaaggg 48 <210> 156 <211> 44 <212> DNA <213> Zea mays <400> 156 ccacgacggg cgttccttgc gcagctgcac tgaagcggga aggg 44 <210> 157 <211> 49 <212> DNA <213> Zea mays <400> 157 ccacgacggg cgttccttgc gcagctgtgc tcgactgaag cgggaaggg 49 <210> 158 <211> 38 <212> DNA <213> Zea mays <400> 158 ccacgacggg cgttccttgc gcagctgtgc gggaaggg 38 <210> 159 <211> 49 <212> DNA <213> Zea mays <400> 159 ccacgacggg cgttccttgc gcagctgtgc ttcactgaag cgggaaggg 49 <210> 160 <211> 47 <212> DNA <213> Zea mays <400> 160 ccacgacggg cgttccttgc gcagctgtga cactgaagcg ggaaggg 47 <210> 161 <211> 47 <212> DNA <213> Zea mays <400> 161 ccacgacggg cgttccttgc gcagctgtgc cactgaagcg ggaaggg 47 <210> 162 <211> 45 <212> DNA <213> Zea mays <400> 162 ccacgacggg cgttccttgc gcagctgtgc ctgaagcggg aaggg 45 <210> 163 <211> 38 <212> DNA <213> Zea mays <400> 163 ccacgacggg cgttccttgc gcagctgagc gggaaggg 38 <210> 164 <211> 84 <212> DNA <213> Zea mays <400> 164 tccgcaacgc gtcgccgttc aagttcacgg cgttccaggc ggggccgagg atctgcctgg 60 gcaaggactc ggcgtacctg caga 84 <210> 165 <211> 75 <212> DNA <213> Zea mays <400> 165 tccgcaacgc gtcgccgttc aagttcacgg cgttcccgag gatctgcctg ggcaaggact 60 cggcgtacct gcaga 75 <210> 166 <211> 77 <212> DNA <213> Zea mays <400> 166 tccgcaacgc gtcgccgttc aagttcacgg cgttcggccg aggatctgcc tgggcaagga 60 ctcggcgtac ctgcaga 77 <210> 167 <211> 78 <212> DNA <213> Zea mays <400> 167 tccgcaacgc gtcgccgttc aagttcacgg cgttccagcc gaggatctgc ctgggcaagg 60 actcggcgta cctgcaga 78 <210> 168 <211> 76 <212> DNA <213> Zea mays <400> 168 tccgcaacgc gtcgccgttc aagttcacgg cgttcgccga ggatctgcct gggcaaggac 60 tcggcgtacc tgcaga 76 <210> 169 <211> 77 <212> DNA <213> Zea mays <400> 169 tccgcaacgc gtcgccgttc aagttcacgg cgttcagccg aggatctgcc tgggcaagga 60 ctcggcgtac ctgcaga 77 <210> 170 <211> 89 <212> DNA <213> Saccharomyces cerevisiae <400> 170 agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gaacatcaac 60 atgctcaatc tcaatcgtta gcacatcac 89 <210> 171 <211> 90 <212> DNA <213> Artificial <220> <223> Repair template <400> 171 agggtaaatt tttaatttgg gatgttttac ttcaagaatc tttagtgtag gatcatcaaa 60 catgctcaat ctcaatcgtt agcacatcac 90 <210> 172 <211> 90 <212> DNA <213> Saccharomyces cerevisiae <400> 172 agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gatcatcaaa 60 catgctcaat ctcaatcgtt agcacatcac 90 <210> 173 <211> 90 <212> DNA <213> Saccharomyces cerevisiae <400> 173 agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gaacatcaaa 60 catgctcaat ctcaatcgtt agcacatcac 90 <210> 174 <211> 90 <212> DNA <213> Saccharomyces cerevisiae <400> 174 agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gatcatcaaa 60 catgctcaat ctcaatcgtt agcacatcac 90 <210> 175 <211> 90 <212> DNA <213> Saccharomyces cerevisiae <400> 175 agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gatcatcaaa 60 catgctcaat ctcaatcgtt agcacatcac 90 <210> 176 <211> 90 <212> DNA <213> Saccharomyces cerevisiae <400> 176 agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gaacatcaaa 60 catgctcaat ctcaatcgtt agcacatcac 90 <210> 177 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 3 crRNA <220> <221> misc_feature <222> (38)..(57) <223> n is a, c, g, or u <400> 177 guugcagaug uggagaaaua gagauaacga augcaacnnn nnnnnnnnnn nnnnnnn 57 <210> 178 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 5 crRNA <220> <221> misc_feature <222> (38)..(57) <223> n is a, c, g, or u <400> 178 guugcacagu gcuaauuaga gaaacuagga augcaacnnn nnnnnnnnnn nnnnnnn 57 <210> 179 <211> 57 <212> RNA <213> Artificial <220> <223> Cas-alpha 6 crRNA <220> <221> misc_feature <222> (38)..(57) <223> n is a, c, g, or u <400> 179 guugcagaac ccgaauagac gaaugaagga augcaacnnn nnnnnnnnnn nnnnnnn 57 <210> 180 <211> 50 <212> RNA <213> Artificial <220> <223> Cas-alpha 7 crRNA <220> <221> misc_feature <222> (31)..(50) <223> n is a, c, g, or u <400> 180 guuucugaag aaacuaugua ugaugugaag nnnnnnnnnn nnnnnnnnnn 50 <210> 181 <211> 49 <212> RNA <213> Artificial <220> <223> Cas-alpha 8 crRNA <220> <221> misc_feature <222> (30)..(49) <223> n is a, c, g, or u <400> 181 guuugcgagc uagcuugugg agugugaacn nnnnnnnnnn nnnnnnnnn 49 <210> 182 <211> 52 <212> RNA <213> Artificial <220> <223> Cas-alpha 9 crRNA <220> <221> misc_feature <222> (33)..(52) <223> n is a, c, g, or u <400> 182 guugcaacuu acgcauaggu guaaaauacg agnnnnnnnn nnnnnnnnnn nn 52 <210> 183 <211> 52 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 crRNA <220> <221> misc_feature <222> (33)..(52) <223> n is a, c, g, or u <400> 183 gucgcaucuu gcguaagcgc guggauugaa acnnnnnnnn nnnnnnnnnn nn 52 <210> 184 <211> 49 <212> RNA <213> Artificial <220> <223> Cas-alpha 11 crRNA <220> <221> misc_feature <222> (30)..(49) <223> n is a, c, g, or u <400> 184 guuuuaguuu aacuauguga aauguaaaun nnnnnnnnnn nnnnnnnnn 49 <210> 185 <211> 112 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 185 auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60 gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uu 112 <210> 186 <211> 122 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 186 auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60 cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuugaa agguucugua 120 ag 122 <210> 187 <211> 107 <212> RNA <213> Unknown <220> <223> Candidatus Micrarchaeota archaeon <400> 187 auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60 cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuu 107 <210> 188 <211> 185 <212> RNA <213> Unknown <220> <223> Uncultured archaeon <400> 188 gaauguuauu ccauaauaac auuugaugca cacgauuccu cccuacagua guuagguaua 60 gccgaaaggu agagacuaaa ucuguaguug gagugggccg cuugcaucgg ccuaaaguug 120 agaaguguca gacucugaua acccucaacg acgauauucu uuauuucggu ucaaaguucu 180 gcaca 185 <210> 189 <211> 156 <212> RNA <213> Unknown <220> <223> Uncultured archaeon <400> 189 acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60 ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120 gacgauauuc uuuauuucgg uucaaaguuc ugcaca 156 <210> 190 <211> 131 <212> RNA <213> Unknown <220> <223> Uncultured archaeon <400> 190 acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60 ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120 gacgauauuc u 131 <210> 191 <211> 139 <212> RNA <213> Unknown <220> <223> Uncultured archaeon <400> 191 acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60 ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120 gacgauauuc uuuauuucg 139 <210> 192 <211> 160 <212> RNA <213> Parageobacillus thermoglucosidasius <400> 192 aaaaucccuu ggggcgauuc agcguccuua agucgagaag ugccguaaua agcaucuaaa 60 aaugccuaac gguaacacuc gauaagguag uccugcuagg caggcugaaa cccuagccac 120 aaaauccggc uaggcaucau acagaaaauu guugucgaac 160 <210> 193 <211> 140 <212> RNA <213> Parageobacillus thermoglucosidasius <400> 193 aucccuuggg gcgauucagc guccuuaagu cgagaagugc cguaauaagc aucuaaaaau 60 gccuaacggu aacacucgau aagguagucc ugcuaggcag gcugaaaccc uagccacaaa 120 auccggcuag gcaucauaca 140 <210> 194 <211> 126 <212> RNA <213> Acidibacillus sulfuroxidans <400> 194 aaaucuuucc caaauacuuc uauucgucgg uucagcgacg auaagccgag aagugccaau 60 aaaacuguua agugguuugg uaacgcucgg uaagguagcc aaaaggcuga aacuccgugc 120 acaaag 126 <210> 195 <211> 113 <212> RNA <213> Acidibacillus sulfuroxidans <400> 195 auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60 gguuugguaa cgcucgguaa gguagccaaa aggcugaaac uccgugcaca aag 113 <210> 196 <211> 86 <212> RNA <213> Acidibacillus sulfuroxidans <400> 196 auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60 gguuugguaa cgcucgguaa gguagc 86 <210> 197 <211> 150 <212> RNA <213> Ruminococcus sp. <400> 197 aagguucaca caauuucagg gcgacucggc guccuaaaau cgagaaagug uacauaaguu 60 uuuaacaaaa uacgguaaau acucucggua agguuuuaac gugcacauaa uaauccgugc 120 aacaggguua cacuuuugug caauuuugca 150 <210> 198 <211> 129 <212> RNA <213> Ruminococcus sp. <400> 198 uuucagggcg acucggcguc cuaaaaucga gaaaguguac auaaguuuuu aacaaaauac 60 gguaaauacu cucgguaagg uuuuaacgug cacauaauaa uccgugcaac aggguuacac 120 uuuugugca 129 <210> 199 <211> 129 <212> RNA <213> Syntrophomonas palmitatica <400> 199 uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60 cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120 gguucgcgc 129 <210> 200 <211> 140 <212> RNA <213> Syntrophomonas palmitatica <400> 200 auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60 ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120 cggcccgaaa ggguucgcgc 140 <210> 201 <211> 153 <212> RNA <213> Syntrophomonas palmitatica <400> 201 auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60 ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120 cggcccgaaa ggguucgcgc gaaacugagu aau 153 <210> 202 <211> 158 <212> RNA <213> Syntrophomonas palmitatica <400> 202 gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60 agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120 aaugccauca auaccacgcg gcccgaaagg guucgcgc 158 <210> 203 <211> 171 <212> RNA <213> Syntrophomonas palmitatica <400> 203 gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60 agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120 aaugccauca auaccacgcg gcccgaaagg guucgcgcga aacugaguaa u 171 <210> 204 <211> 132 <212> RNA <213> Clostridium novyi <400> 204 uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60 uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucacaaaa 120 ugcgagagaa au 132 <210> 205 <211> 116 <212> RNA <213> Clostridium novyi <400> 205 uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60 uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucac 116 <210> 206 <211> 108 <212> RNA <213> Clostridium novyi <400> 206 aguuaaacua auaaaaacag ggcgauuuaa cguccuaagg cugagagaag uuuuuucuac 60 ucggcaaggg uuaaucucga uuguuguguu accgaucgag cguuucac 108 <210> 207 <211> 90 <212> RNA <213> Clostridium novyi <400> 207 agggcgauuu aacguccuaa ggcugagaga aguuuuuucu acucggcaag gguuaaucuc 60 gauuguugug uuaccgaucg agcguuucac 90 <210> 208 <211> 160 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 5 <220> <221> misc_feature <222> (141)..(160) <223> n is a, c, g, or u <400> 208 auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60 gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uugaaaaagu 120 aauaggucaa ggaaugcaac nnnnnnnnnn nnnnnnnnnn 160 <210> 209 <211> 183 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 6 <220> <221> misc_feature <222> (164)..(183) <223> n is a, c, g, or u <400> 209 auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60 cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuugaa agguucugua 120 aggaaaauug cagaacccaa aguaauaggu caaggaaugc aacnnnnnnn nnnnnnnnnn 180 nnn 183 <210> 210 <211> 155 <212> RNA <213> Artificial <220> <223> Cas-alpha 2 sgRNA version 7 <220> <221> misc_feature <222> (136)..(155) <223> n is a, c, g, or u <400> 210 auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60 cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuugaa aaaguaauag 120 gucaaggaau gcaacnnnnn nnnnnnnnnn nnnnn 155 <210> 211 <211> 246 <212> RNA <213> Artificial <220> <223> Cas-alpha 6 sgRNA version 1 <220> <221> misc_feature <222> (227)..(246) <223> n is a, c, g, or u <400> 211 gaauguuauu ccauaauaac auuugaugca cacgauuccu cccuacagua guuagguaua 60 gccgaaaggu agagacuaaa ucuguaguug gagugggccg cuugcaucgg ccuaaaguug 120 agaaguguca gacucugaua acccucaacg acgauauucu uuauuucggu ucaaaguucu 180 gcacagaaag uugcagaacc cgaauagacg aaugaaggaa ugcaacnnnn nnnnnnnnnn 240 nnnnnn 246 <210> 212 <211> 217 <212> RNA <213> Artificial <220> <223> Cas-alpha 6 sgRNA version 2 <220> <221> misc_feature <222> (198)..(217) <223> n is a, c, g, or u <400> 212 acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60 ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120 gacgauauuc uuuauuucgg uucaaaguuc ugcacagaaa guugcagaac ccgaauagac 180 gaaugaagga augcaacnnn nnnnnnnnnn nnnnnnn 217 <210> 213 <211> 181 <212> RNA <213> Artificial <220> <223> Cas-alpha 6 sgRNA version 3 <220> <221> misc_feature <222> (162)..(181) <223> n is a, c, g, or u <400> 213 acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60 ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120 gacgauauuc ugaaacgaau agacgaauga aggaaugcaa cnnnnnnnnn nnnnnnnnnn 180 n 181 <210> 214 <211> 181 <212> RNA <213> Artificial <220> <223> Cas-alpha 6 sgRNA version 4 <220> <221> misc_feature <222> (162)..(181) <223> n is a, c, g, or u <400> 214 acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60 ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120 gacgauauuc uuuauuucgg aaacgaauga aggaaugcaa cnnnnnnnnn nnnnnnnnnn 180 n 181 <210> 215 <211> 214 <212> RNA <213> Artificial <220> <223> Cas-alpha 7 sgRNA version 1 <220> <221> misc_feature <222> (195)..(214) <223> n is a, c, g, or u <400> 215 aaaaucccuu ggggcgauuc agcguccuua agucgagaag ugccguaaua agcaucuaaa 60 aaugccuaac gguaacacuc gauaagguag uccugcuagg caggcugaaa cccuagccac 120 aaaauccggc uaggcaucau acagaaaauu guugucgaac gaaaguuucu gaagaaacua 180 uguaugaugu gaagnnnnnn nnnnnnnnnn nnnn 214 <210> 216 <211> 194 <212> RNA <213> Artificial <220> <223> Cas-alpha 7 sgRNA version 2 <220> <221> misc_feature <222> (175)..(194) <223> n is a, c, g, or u <400> 216 aucccuuggg gcgauucagc guccuuaagu cgagaagugc cguaauaagc aucuaaaaau 60 gccuaacggu aacacucgau aagguagucc ugcuaggcag gcugaaaccc uagccacaaa 120 auccggcuag gcaucauaca gaaaguuucu gaagaaacua uguaugaugu gaagnnnnnn 180 nnnnnnnnnn nnnn 194 <210> 217 <211> 178 <212> RNA <213> Artificial <220> <223> Cas-alpha 7 sgRNA version 3 <220> <221> misc_feature <222> (159)..(178) <223> n is a, c, g, or u <400> 217 aucccuuggg gcgauucagc guccuuaagu cgagaagugc cguaauaagc aucuaaaaau 60 gccuaacggu aacacucgau aagguagucc ugcuaggcag gcugaaaccc uagccacaaa 120 auccggcuag gcaucauaca gaaauguaug augugaagnn nnnnnnnnnn nnnnnnnn 178 <210> 218 <211> 179 <212> RNA <213> Artificial <220> <223> Cas-alpha 8 sgRNA version 1 <220> <221> misc_feature <222> (160)..(179) <223> n is a, c, g, or u <400> 218 aaaucuuucc caaauacuuc uauucgucgg uucagcgacg auaagccgag aagugccaau 60 aaaacuguua agugguuugg uaacgcucgg uaagguagcc aaaaggcuga aacuccgugc 120 acaaaggaaa guuugcgagc uagcuugugg agugugaacn nnnnnnnnnn nnnnnnnnn 179 <210> 219 <211> 166 <212> RNA <213> Artificial <220> <223> Cas-alpha 8 sgRNA version 2 <220> <221> misc_feature <222> (147)..(166) <223> n is a, c, g, or u <400> 219 auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60 gguuugguaa cgcucgguaa gguagccaaa aggcugaaac uccgugcaca aaggaaaguu 120 ugcgagcuag cuuguggagu gugaacnnnn nnnnnnnnnn nnnnnn 166 <210> 220 <211> 139 <212> RNA <213> Artificial <220> <223> Cas-alpha 8 sgRNA version 3 <220> <221> misc_feature <222> (120)..(139) <223> n is a, c, g, or u <400> 220 auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60 gguuugguaa cgcucgguaa gguagcgaaa guuugcgagc uagcuugugg agugugaacn 120 nnnnnnnnnn nnnnnnnnn 139 <210> 221 <211> 131 <212> RNA <213> Artificial <220> <223> Cas-alpha 8 sgRNA version 4 <220> <221> misc_feature <222> (112)..(131) <223> n is a, c, g, or u <400> 221 auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60 gguuugguaa cgcucgguaa gguagcgaaa gcuagcuugu ggagugugaa cnnnnnnnnn 120 nnnnnnnnnn n 131 <210> 222 <211> 206 <212> RNA <213> Artificial <220> <223> Cas-alpha 9 sgRNA version 1 <220> <221> misc_feature <222> (187)..(206) <223> n is a, c, g, or u <400> 222 aagguucaca caauuucagg gcgacucggc guccuaaaau cgagaaagug uacauaaguu 60 uuuaacaaaa uacgguaaau acucucggua agguuuuaac gugcacauaa uaauccgugc 120 aacaggguua cacuuuugug caauuuugca gaaaguugca acuuacgcau agguguaaaa 180 uacgagnnnn nnnnnnnnnn nnnnnn 206 <210> 223 <211> 185 <212> RNA <213> Artificial <220> <223> Cas-alpha 9 sgRNA version 2 <220> <221> misc_feature <222> (166)..(185) <223> n is a, c, g, or u <400> 223 uuucagggcg acucggcguc cuaaaaucga gaaaguguac auaaguuuuu aacaaaauac 60 gguaaauacu cucgguaagg uuuuaacgug cacauaauaa uccgugcaac aggguuacac 120 uuuugugcag aaaguugcaa cuuacgcaua gguguaaaau acgagnnnnn nnnnnnnnnn 180 nnnnn 185 <210> 224 <211> 176 <212> RNA <213> Artificial <220> <223> Cas-alpha 9 sgRNA version 3 <220> <221> misc_feature <222> (157)..(176) <223> n is a, c, g, or u <400> 224 uuucagggcg acucggcguc cuaaaaucga gaaaguguac auaaguuuuu aacaaaauac 60 gguaaauacu cucgguaagg uuuuaacgug cacauaauaa uccgugcaac aggguuacac 120 uuuugugcag aaauacgcau agguguaaaa uacgagnnnn nnnnnnnnnn nnnnnn 176 <210> 225 <211> 185 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA version 1 <220> <221> misc_feature <222> (166)..(185) <223> n is a, c, g, or u <400> 225 uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60 cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120 gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaacnnnnn nnnnnnnnnn 180 nnnnn 185 <210> 226 <211> 196 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA version 2 <220> <221> misc_feature <222> (177)..(196) <223> n is a, c, g, or u <400> 226 auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60 ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120 cggcccgaaa ggguucgcgc gaaagucgca ucuugcguaa gcgcguggau ugaaacnnnn 180 nnnnnnnnnn nnnnnn 196 <210> 227 <211> 209 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA version 3 <220> <221> misc_feature <222> (190)..(209) <223> n is a, c, g, or u <400> 227 auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60 ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120 cggcccgaaa ggguucgcgc gaaacugagu aaugaaaguc gcaucuugcg uaagcgcgug 180 gauugaaacn nnnnnnnnnn nnnnnnnnn 209 <210> 228 <211> 214 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA version 4 <220> <221> misc_feature <222> (195)..(214) <223> n is a, c, g, or u <400> 228 gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60 agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120 aaugccauca auaccacgcg gcccgaaagg guucgcgcga aagucgcauc uugcguaagc 180 gcguggauug aaacnnnnnn nnnnnnnnnn nnnn 214 <210> 229 <211> 227 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA version 5 <220> <221> misc_feature <222> (208)..(227) <223> n is a, c, g, or u <400> 229 gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60 agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120 aaugccauca auaccacgcg gcccgaaagg guucgcgcga aacugaguaa ugaaagucgc 180 aucuugcgua agcgcgugga uugaaacnnn nnnnnnnnnn nnnnnnn 227 <210> 230 <211> 185 <212> RNA <213> Artificial <220> <223> Cas-alpha 11 sgRNA version 1 <220> <221> misc_feature <222> (166)..(185) <223> n is a, c, g, or u <400> 230 uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60 uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucacaaaa 120 ugcgagagaa augaaaguuu uaguuuaacu augugaaaug uaaaunnnnn nnnnnnnnnn 180 nnnnn 185 <210> 231 <211> 169 <212> RNA <213> Artificial <220> <223> Cas-alpha 11 sgRNA version 2 <220> <221> misc_feature <222> (150)..(169) <223> n is a, c, g, or u <400> 231 uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60 uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucacgaaa 120 guuuuaguuu aacuauguga aauguaaaun nnnnnnnnnn nnnnnnnnn 169 <210> 232 <211> 161 <212> RNA <213> Artificial <220> <223> Cas-alpha 11 sgRNA version 3 <220> <221> misc_feature <222> (142)..(161) <223> n is a, c, g, or u <400> 232 aguuaaacua auaaaaacag ggcgauuuaa cguccuaagg cugagagaag uuuuuucuac 60 ucggcaaggg uuaaucucga uuguuguguu accgaucgag cguuucacga aaguuuuagu 120 uuaacuaugu gaaauguaaa unnnnnnnnn nnnnnnnnnn n 161 <210> 233 <211> 145 <212> RNA <213> Artificial <220> <223> Cas-alpha 11 sgRNA version 4 <220> <221> misc_feature <222> (126)..(145) <223> n is a, c, g, or u <400> 233 aguuaaacua auaaaaacag ggcgauuuaa cguccuaagg cugagagaag uuuuuucuac 60 ucggcaaggg uuaaucucga uuguuguguu accgaucgag cguuucacga aagugaaaug 120 uaaaunnnnn nnnnnnnnnn nnnnn 145 <210> 234 <211> 127 <212> RNA <213> Artificial <220> <223> Cas-alpha 11 sgRNA version 5 <220> <221> misc_feature <222> (108)..(127) <223> n is a, c, g, or u <400> 234 agggcgauuu aacguccuaa ggcugagaga aguuuuuucu acucggcaag gguuaaucuc 60 gauuguugug uuaccgaucg agcguuucac gaaagugaaa uguaaaunnn nnnnnnnnnn 120 nnnnnnn 127 <210> 235 <211> 1590 <212> DNA <213> Artificial <220> <223> Cas-alpha 4 Zea mays codon optimized gene <400> 235 atggccaaga acaccatcac caagaccctc aagctccgca tcgtccgccc ctacaacagc 60 gccgaggtcg agaagatcgt cgccgacgag aagaacaacc gcgagaagat cgccctggag 120 aagaacaagg acaaggtcaa ggaggcctgc agcaagcacc tcaaggtcgc cgcctactgc 180 accacccagg tcgagcgcaa cgcctgcctc ttctgcaagg cccgcaagct cgacgacaag 240 ttctaccaga agctccgcgg ccagttcccc gacgccgtgt tctggcagga gatcagcgag 300 atcttcaggc agctccagaa gcaggccgcc gagatctaca accagagcct catcgagctc 360 tactacgaga tcttcatcaa gggcaagggc atcgccaacg ccagcagcgt cgagcactac 420 ctcagcgacg tctgctacac cagggccgcc gagctcttca agaacgccgc catcgccagc 480 ggcctccgca gcaaaatcaa aagcaacttc cgcctcaagg agctcaagaa catgaaaagc 540 ggcctcccca cgaccaagag cgacaacttc cccatccccc tcgtcaagca gaagggcggc 600 cagtacaccg gcttcgagat cagcaaccac aacagcgact tcatcatcaa gatccccttc 660 ggccgctggc aggtcaagaa ggagatcgac aagtaccgcc cctgggagaa gttcgacttc 720 gagcaggtcc agaagagccc caagcctatc agcctcctcc tgtcgaccca gaggaggaag 780 cgcaataaag gctggagcaa ggacgagggc accgaggccg aaatcaaaaa ggtgatgaac 840 ggcgactacc agaccagcta catcgaggtc aagcgcggca gcaagatcgg cgagaagagc 900 gcctggatgc taaacctcag catcgacgtc cccaagatcg acaagggcgt cgaccccagc 960 atcatcggcg gcatcgacgt cggcgtcaag agccccctcg tctgcgcaat taacaacgcc 1020 ttcagccgct acagcatcag cgacaacgac ctcttccact tcaacaagaa gatgttcgcc 1080 cgccgccgca tcctcctcaa gaagaaccgc cataaacgcg ccggccacgg cgccaagaac 1140 aagctcaagc ccatcaccat cctcaccgag aagagcgaga ggttccgcaa gaagctcatc 1200 gagaggtggg cctgcgagat cgccgacttc ttcattaaaa acaaggtcgg caccgtccag 1260 atggagaacc tcgaaagcat gaaacgcaag gaggacagct acttcaacat caggctccgc 1320 ggcttctggc cctacgccga gatgcagaac aagatcgagt tcaagctcaa gcagtacggc 1380 atcgagatca ggaaggtcgc ccccaataat accagcaaga cctgcagcaa gtgcggccac 1440 ctcaacaact acttcaactt cgagtaccgc aagaagaaca agttccccca cttcaagtgc 1500 gagaagtgca acttcaagga gaacgccgac tacaacgccg ccctcaacat cagcaacccc 1560 aagctcaaga gcaccaagga ggagccctag 1590 <210> 236 <211> 1494 <212> DNA <213> Artificial <220> <223> Cas-alpha 10 Zea mays codon optimized gene <400> 236 atgggcgaga gcgtcaaggc aataaaatta aagatcctcg acatgttcct cgaccccgag 60 tgcaccaagc aggacgacaa ctggcgcaag gacctcagca ccatgagccg cttctgcgcc 120 gaggccggca acatgtgcct cagggacctc tacaactact tcagcatgcc caaggaggac 180 cgcatcagct ccaaggactt atataacgcc atgtaccata aaactaagct cctccacccc 240 gagctccccg ggaaggtggc taaccaaatc gtcaaccacg ccaaggacgt ctggaagcgc 300 aacgccaagc tcatctaccg caaccaaatc agcatgccca catataagat caccaccgcc 360 cccatccgcc tccaaaataa catctacaaa ttaataaaaa ataagaacaa atacataatc 420 gacgtccagc tctacagcaa ggagtacagc aaggacagcg gcaagggcac ccacaggtac 480 ttcctcgtcg ccgtcaggga cagcagcacc aggatgatct tcgacaggat catgagcaag 540 gaccacatcg acagcagcaa gagctacacc cagggccagc tccaaatcaa gaaggaccac 600 cagggcaagt ggtactgcat catcccctat acattcccca cccacgaaac cgtcctcgac 660 cccgacaagg tcatgggcgt cgacctcggg gtggctaagg ccgtctactg ggctttcaac 720 agcagctata aaagaggctg catcgacggc ggcgagatcg agcacttcag gaagatgatc 780 agggcccggc gcgtcagcat ccagaatcaa atcaaacaca gcggcgacgc ccgcaagggc 840 cacggcagga agagggccct caagcccatc gaaaccctca gcgagaagga gaagaacttc 900 cgcgacacaa taaaccacag gtacgccaac aggatcgtcg aggccgctat caagcagggc 960 tgcggcacca tccagatcga gaacctcgag ggcatcgctg acaccaccgg cagcaagttc 1020 ctcaagaact ggccctacta cgacctccag accaagatcg tcaataaagc caaggagcac 1080 ggcatcaccg tcgtcgcaat aaacccccag tatacatccc agcgctgcag catgtgcggc 1140 tacatcgaga aaaccaacag gagcagccag gccgtgttcg agtgcaagca gtgcggctac 1200 ggcagccgca ccatctgcat caactgcagg cacgtccaag tctccggcga cgtctgcgag 1260 gagtgcggcg gcatcgtcaa gaaggagaac gtcaacgccg actacaacgc cgccaagaac 1320 atcagcaccc cctacatcga ccagataata atggagaagt gcctcgagct cggcatcccc 1380 taccgctcca tcacctgcaa ggagtgcggc cacatccagg ctagcggcaa cacctgcgag 1440 gtctgcggca gcaccaacat cctcaaacca aagaagatcc gcaaggcaaa atag 1494 <210> 237 <211> 1494 <212> DNA <213> Artificial <220> <223> Cas-alpha 10 Saccharomyces cerevisiae codon optimized gene <400> 237 atgggagaat ccgtgaaggc catcaaactg aagatcctgg acatgttcct ggacccagag 60 tgtaccaaac aggacgacaa ctggagaaag gacctgagta ccatgtccag gttctgcgct 120 gaagccggca acatgtgttt gagggaccta tacaactact tctccatgcc aaaggaggac 180 cgtatctctt ccaaagacct atacaacgcc atgtaccaca aaaccaagct gctgcaccca 240 gaactgcccg gcaaagttgc aaaccaaatc gtcaaccacg ccaaggacgt ctggaaaagg 300 aacgccaagc tgatatacag gaaccagatc tccatgccaa catacaagat caccaccgcc 360 cccatcaggc tgcagaacaa catctacaag ctgatcaaga acaagaacaa gtacataatc 420 gacgtccagc tgtacagtaa ggagtactca aaggacagtg gcaaaggcac ccataggtac 480 ttcctggtcg cagtcagaga ctcatccacc aggatgatct tcgacaggat aatgtccaag 540 gatcacatcg acagttccaa gtcctacacc cagggacagc tgcagatcaa gaaggaccac 600 cagggcaagt ggtactgcat catcccctac accttcccaa ctcatgagac agtgttagac 660 cccgacaagg tgatgggagt ggacctgggc gtcgctaaag ccgtctactg ggccttcaac 720 agttcctaca agaggggctg catcgacgga ggcgaaatcg agcatttccg caagatgatc 780 agggccagga gggtcagtat ccagaaccag atcaaacaca gtggagacgc ccgtaagggc 840 cacggaagga agcgtgcttt gaagccaatc gagaccctgt ctgagaagga aaaaaacttc 900 agggacacca tcaaccacag gtacgccaac aggatcgtcg aagccgccat caagcagggc 960 tgcggaacca tccagatcga gaacctggaa ggaatcgctg ataccaccgg ctccaagttc 1020 ctgaagaact ggccatacta cgacctgcag accaagatcg tcaacaaggc caaggagcac 1080 ggaatcaccg tggttgccat caacccacaa tatacctccc agaggtgctc catgtgcggc 1140 tacatcgaga agacaaacag atcctcccag gctgtcttcg aatgcaagca gtgcggctac 1200 ggttccagga ccatctgcat caactgcaga cacgtccaag tttccggtga cgtctgcgaa 1260 gagtgcggcg gtatcgtcaa aaaggagaac gtgaacgcag actacaacgc cgccaagaat 1320 atcagtaccc cctacatcga ccagataatc atggagaaat gcctggagct aggcatcccc 1380 tacaggtcca tcacatgcaa ggagtgtggc cacatccaag ccagtggcaa tacctgcgaa 1440 gtctgcggca gtaccaatat cctgaaaccc aagaagatca ggaaggccaa gtaa 1494 <210> 238 <211> 202 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 sgRNA backbone <400> 238 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca ac 202 <210> 239 <211> 165 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA backbone <400> 239 uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60 cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120 gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaac 165 <210> 240 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 Liguleless 2 sgRNA Target Sequence <400> 240 cgauuuaugg augauaaacu 20 <210> 241 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 Liguleless 3 sgRNA Target Sequence <400> 241 uaguuuauca uccauaaauc 20 <210> 242 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 nptII sgRNA Target Sequence <400> 242 cuugcgcagc ugugcucgac 20 <210> 243 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 ms26 sgRNA Target Sequence <400> 243 aaguucacgg cguuccaggc 20 <210> 244 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 ade2 sgRNA Target Sequence <400> 244 uuuaguguag gaacaucaac 20 <210> 245 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 VEGFA 2 sgRNA Target Sequence <400> 245 ggggugaccg ccggagcgcg 20 <210> 246 <211> 20 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 VEGFA 3 sgRNA Target Sequence <400> 246 gccagagccg gggugugcag 20 <210> 247 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 sgRNA Targeting Liguleless 2 <400> 247 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca accgauuuau ggaugauaaa cu 222 <210> 248 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 sgRNA Targeting Liguleless 3 <400> 248 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acuaguuuau cauccauaaa uc 222 <210> 249 <211> 185 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA Targeting nptII <400> 249 uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60 cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120 gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaaccuugc gcagcugugc 180 ucgac 185 <210> 250 <211> 185 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA Targeting ms26 <400> 250 uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60 cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120 gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaacaaguu cacggcguuc 180 caggc 185 <210> 251 <211> 185 <212> RNA <213> Artificial <220> <223> Cas-alpha 10 sgRNA Targeting ade2 <400> 251 uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60 cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120 gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaacuuuag uguaggaaca 180 ucaac 185 <210> 252 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 sgRNA Targeting VEGFA 2 <400> 252 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acggggugac cgccggagcg cg 222 <210> 253 <211> 222 <212> RNA <213> Artificial <220> <223> Cas-alpha 4 sgRNA Targeting VEGFA 3 <400> 253 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acgccagagc cggggugugc ag 222 <210> 254 <211> 461 <212> PRT <213> Clostridioides difficile <400> 254 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Val Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Ile Leu Gly Val 260 265 270 Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Thr Val Arg Tyr Ala Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 255 <211> 448 <212> PRT <213> Clostridium paraputrificum <400> 255 Met Asn Phe Asn Lys Cys Ile Lys Val Thr Leu Ile Lys Cys Leu Asn 1 5 10 15 Tyr Asp Tyr Arg Lys Val Lys Gln Ile Ile Lys Asp Phe Gln Tyr Lys 20 25 30 Tyr Ser Lys Ala Tyr Asn Met Ala Thr Asn Tyr Leu Tyr Leu Trp Asp 35 40 45 Thr Asn Ser Met Asn Leu Lys Asn Leu Tyr Asp Thr Lys Ile Val Asp 50 55 60 Lys Glu Leu Leu Gly Lys Ser Lys Gly Ala Trp Ile Glu Asn Arg Met 65 70 75 80 Asn Glu Ile Ile Glu Gly Ala Leu Ser Asn Asn Val Ala Gln Ala Arg 85 90 95 Gln Asp Ile Ile Asn Lys Tyr Asn Lys Cys Lys Lys Asp Gly Leu Phe 100 105 110 Lys Gly Lys Val Ser Leu Pro Thr Tyr Lys Leu Asp Ser Lys Val Ile 115 120 125 Val His Asn Val Ala Tyr Lys Leu Arg Asn His Asn Gly Tyr Phe Ile 130 135 140 Asp Ile Gly Leu Leu Asn Lys Gly Lys Gln Lys Glu Leu Asn Val Gly 145 150 155 160 Arg Phe Glu Phe Gln Ile Asp Lys Leu Asp Gly Asn Lys Lys Ala Thr 165 170 175 Ile Asn Lys Ile Ile Asn Gly Glu Tyr Lys Gln Gly Ser Ala Gln Ile 180 185 190 Ser Ile Ser Lys Lys Gly Lys Ile Glu Leu Ile Ile Ser Tyr Ser Phe 195 200 205 Asp Lys Glu Glu Ile Pro Val Leu Asp Asn Asn Arg Ile Leu Gly Ile 210 215 220 Asp Leu Gly Ile Thr Asn Val Ala Thr Met Ser Val Tyr Asp Ser Ile 225 230 235 240 Lys Asp Glu Tyr Asp Tyr Phe Ser Trp Lys Thr Asn Val Ile Arg Gly 245 250 255 Lys Glu Leu Ile Ala Phe Arg Gln Lys Tyr Tyr Asn Leu Arg Arg Asp 260 265 270 Ile Ser Ile Ala Ser Lys Thr Ala Gly Lys Gly Arg Cys Gly His Gly 275 280 285 Tyr Lys Thr Lys Met Lys Pro Val Asp Lys Val Arg Asn Arg Ile Ala 290 295 300 Asn Phe Ala Asp Thr Tyr Asn His Lys Ile Ser Lys Tyr Ile Val Glu 305 310 315 320 Phe Ala Val Lys Asn Arg Cys Gly Ile Ile Gln Met Glu Asp Leu Ser 325 330 335 Gly Ala Thr Ser Glu Val His Asn Lys Met Leu Lys Asp Trp Ser Tyr 340 345 350 Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys Ala Lys Glu Gln Gly Ile 355 360 365 Glu Ile Lys Lys Val Asn Pro Lys Tyr Thr Ser Lys Arg Cys Asn Asn 370 375 380 Cys Gly Cys Ile His Glu Asp Asn Arg Asp Cys Lys Asn His Gln Ala 385 390 395 400 Arg Phe Glu Cys Lys Val Cys Gly His Gly Lys Asp Thr Asp Val Asn 405 410 415 Ala Asp Val Asn Ala Ser Arg Asn Ile Ala Ile Pro Asp Ile Asp Lys 420 425 430 Ile Ile Glu Glu Thr Glu Ile Leu His Ser Glu Asn Lys Pro Ala Ser 435 440 445 <210> 256 <211> 430 <212> PRT <213> Clostridium novyi <400> 256 Met Asn Lys Cys Ile Lys Val Ala Ile Lys Asn Cys Lys Glu Leu Asp 1 5 10 15 Tyr Lys Val Met Ser Glu Lys Leu Arg Asn Ile Gln Tyr Leu Thr Cys 20 25 30 Lys Ala Ser Asn Lys Val Met Gln Met Tyr Tyr Met Trp Glu Asn Gln 35 40 45 Lys Ile Asp Ile Lys Asn Lys Thr Gly Glu Tyr Pro Asp Asp Lys Glu 50 55 60 Leu Phe Gly Lys Thr Tyr Arg Asn Val Val Glu Gly Glu Met Lys Thr 65 70 75 80 Ile Met Asn Thr Ile Asn Thr Ser Asn Val Gly Gln Thr Asn Ala Ile 85 90 95 Ile Met Lys Lys Trp Asn Thr Asp Lys Lys Glu Val Leu Ser Tyr Gln 100 105 110 Lys Ser Leu Pro Asn Phe Lys Leu Asn Met Pro Ile Tyr Ile Lys Asn 115 120 125 Lys Ser Phe Ser Ile Val Lys Gly Thr Ser Gly Tyr Glu Ile Ile Cys 130 135 140 Ser Ile Phe Asn Lys Ser Gln Asp Leu Lys Arg Leu Thr Phe Ile Ile 145 150 155 160 Asp Lys Leu Asp Gly Asn Lys Lys Ala Thr Leu Asn Lys Ile Ile Asp 165 170 175 Leu Thr Tyr Lys Gln Gly Ala Gly Gln Ile Ile Lys Asp Arg Lys Gly 180 185 190 Lys Trp Tyr Phe Ile Ile Ser Phe Gly Phe Glu Asn Lys Lys Arg Glu 195 200 205 Leu Asp Ile Asn Arg Ile Leu Gly Ile Asp Val Gly Ile Thr Asn Leu 210 215 220 Leu Thr Met Gln Ile Trp Asp Cys Asn Leu Lys Glu Trp Asp Arg Leu 225 230 235 240 Ala Trp Asn Ser Cys Met Val Asp Gly Arg Glu Leu Met His Tyr Arg 245 250 255 Gln Lys Ile Glu Ala Arg Arg Lys Ser Leu Leu Lys Asn Ser Lys Ile 260 265 270 Ser Glu Lys Asn Thr Gly Lys Ala Gly His Gly Ile Ser Lys Arg Ile 275 280 285 Gln Ala Ile Asp Val Val Arg Asn Lys Glu Lys Asn Phe Arg Asp Thr 290 295 300 Phe Asn His Lys Tyr Ser Arg Tyr Ala Val Asp Phe Ala Ile Arg Asn 305 310 315 320 Asn Cys Gly Ile Ile Gln Met Glu Asn Leu Ala Lys Phe Thr Glu Glu 325 330 335 Val Lys Glu Lys Met Leu Lys Asn Trp Ser Tyr Tyr Asp Leu Gln Ser 340 345 350 Lys Ile Lys Tyr Lys Ala Glu Glu Gln Gly Ile Lys Val Asn Phe Ile 355 360 365 Lys Pro Ser Tyr Thr Ser Lys Arg Cys Ser Leu Cys Gly Ala Ile Asp 370 375 380 Asp Arg Asn Arg Asp Cys Lys Asn Asn Gln Ser Lys Phe Gln Cys Val 385 390 395 400 Val Cys Asp His Lys Glu His Ala Asp Ile Asn Ala Ala Lys Asn Ile 405 410 415 Ala Leu Pro Asp Ile Glu Glu Leu Ile Glu Ser Lys Ile Gly 420 425 430 <210> 257 <211> 436 <212> PRT <213> Ruminococcus albus <400> 257 Met Asn Lys Val Val Arg Leu Ala Leu Ile Cys Glu His Phe Asp Lys 1 5 10 15 Asp Gly Asn Pro Val Asp Tyr Ser Asp Val Tyr Lys Leu Leu Trp Gln 20 25 30 Leu Gln Ala Gln Thr Arg Glu Ile Lys Asn Lys Thr Ile Gln Tyr Cys 35 40 45 Trp Glu Tyr Ser Asn Phe Ser Ser Asp Tyr Tyr Lys Glu Asn His Glu 50 55 60 Tyr Pro Lys Glu Lys Asp Val Leu Asn Tyr Thr Leu Gly Gly Phe Val 65 70 75 80 Asn Asp Lys Phe Lys Val Gly Asn Asp Leu Tyr Ser Ala Asn Cys Ser 85 90 95 Thr Thr Thr Gln Thr Val Cys Ala Glu Phe Lys Asn Ser Lys Ser Glu 100 105 110 Phe Leu Lys Gly Thr Lys Ser Ile Ile Asn Tyr Lys Ser Asn Gln Pro 115 120 125 Leu Asp Leu His Asn Lys Ser Ile Arg Val Glu Tyr Lys Asp Asn Asp 130 135 140 Phe Phe Val Phe Leu Lys Leu Leu Asn Arg His Ala Phe Lys Arg Leu 145 150 155 160 Gly Tyr Lys Asn Thr Glu Ile Cys Phe Lys Val Ile Val Arg Asp Lys 165 170 175 Ser Thr Arg Thr Ile Leu Glu Arg Cys Val Asp Gln Ile Tyr Gly Ile 180 185 190 Ser Ala Ser Lys Leu Ile Tyr Asn Lys Lys Lys Lys Gln Trp Phe Leu 195 200 205 Asn Leu Val Tyr Ala Phe Glu Pro Asp Asn Ala Asn Asn Leu Asp Pro 210 215 220 Asn Arg Ile Leu Gly Val Asp Leu Gly Ile His Tyr Pro Ile Cys Ala 225 230 235 240 Ser Val Tyr Gly Asp Leu Gln Arg Phe Thr Ile His Gly Gly Glu Ile 245 250 255 Glu Glu Phe Arg Arg Arg Val Glu Ser Arg Lys Leu Ser Leu Leu Lys 260 265 270 Gln Gly Lys Asn Cys Gly Asp Gly Arg Ile Gly His Gly Val Lys Thr 275 280 285 Arg Asn Lys Pro Val Tyr Ser Ile Glu Asp Arg Ile Ala Arg Phe Arg 290 295 300 Asp Thr Val Asn His Lys Tyr Ser Arg Ala Leu Ile Asp Tyr Ala Val 305 310 315 320 Lys Lys Glu Cys Gly Thr Ile Gln Met Glu Asp Leu Ser Gly Ile Thr 325 330 335 Ala Glu Ser Asp Arg Phe Leu Lys Asn Trp Ser Tyr Tyr Asp Leu Gln 340 345 350 Thr Lys Ile Glu Tyr Lys Ala Lys Glu Lys Gly Ile Lys Ile Val Tyr 355 360 365 Ile Asp Pro Lys Tyr Ser Ser Gln Arg Cys Ser Lys Cys Gly His Ile 370 375 380 Asp Lys Glu Asn Arg Lys Thr Gln Ser Ser Phe Val Cys Leu Lys Cys 385 390 395 400 Gly Phe Glu Glu Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile 405 410 415 Lys Asp Ile Asp Lys Ile Ile Glu Ser Asp Leu Ser Ser Lys Cys Glu 420 425 430 Thr Asp Val Asn 435 <210> 258 <211> 402 <212> PRT <213> Clostridium hiranonis <400> 258 Met Ile Thr Val Arg Lys Leu Lys Leu Thr Ile Ile Asn Asp Asp Glu 1 5 10 15 Thr Lys Arg Asn Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala 20 25 30 Gln Tyr Gln Gly Leu Asn Leu Ala Met Ser Val Leu Thr Asn Ala Tyr 35 40 45 Leu Ser Ser Asn Arg Asp Ile Lys Ser Asp Leu Phe Lys Glu Thr Gln 50 55 60 Lys Asn Leu Lys Asn Ser Ser His Ile Phe Asp Asp Ile Thr Phe Gly 65 70 75 80 Lys Gly Thr Asp Asn Lys Ser Leu Ile Asn Gln Lys Val Lys Lys Asp 85 90 95 Phe Asn Ser Ala Ile Lys Asn Gly Leu Ala Arg Gly Glu Arg Asn Ile 100 105 110 Thr Asn Tyr Lys Arg Thr Phe Pro Leu Met Thr Arg Gly Thr Ala Leu 115 120 125 Lys Phe Ser Tyr Lys Asp Asp Cys Ser Asp Glu Ile Ile Ile Lys Trp 130 135 140 Val Asn Lys Ile Val Phe Lys Val Val Ile Gly Arg Lys Asp Lys Asn 145 150 155 160 Tyr Leu Glu Leu Met His Thr Leu Asn Lys Val Ile Asn Gly Glu Tyr 165 170 175 Lys Val Gly Gln Ser Ser Ile Tyr Phe Asp Lys Ser Asn Lys Leu Ile 180 185 190 Leu Asn Leu Thr Leu Tyr Ile Pro Glu Lys Lys Asp Asp Asp Ala Ile 195 200 205 Asn Gly Arg Thr Leu Gly Val Asp Leu Gly Ile Lys Tyr Pro Ala Tyr 210 215 220 Val Cys Leu Asn Asp Asp Thr Phe Ile Arg Gln His Ile Gly Glu Ser 225 230 235 240 Leu Glu Leu Ser Lys Gln Arg Glu Gln Phe Arg Asn Arg Arg Lys Arg 245 250 255 Leu Gln Gln Gln Leu Lys Asn Val Lys Gly Gly Lys Gly Arg Glu Lys 260 265 270 Lys Leu Ala Ala Leu Asp Lys Val Ala Val Cys Glu Arg Asn Phe Val 275 280 285 Lys Thr Tyr Asn His Thr Ile Ser Lys Arg Ile Ile Asp Phe Ala Lys 290 295 300 Lys Asn Lys Cys Glu Phe Ile Asn Leu Glu Gln Leu Thr Lys Asp Gly 305 310 315 320 Phe Asp Asn Ile Ile Leu Ser Asn Trp Ser Tyr Tyr Glu Leu Gln Asn 325 330 335 Met Ile Lys Tyr Lys Ala Asp Arg Glu Gly Ile Lys Val Arg Tyr Val 340 345 350 Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Lys Cys Gly Tyr Ile Asp 355 360 365 Lys Glu Asn Arg Pro Thr Gln Glu Lys Phe Lys Cys Ile Lys Cys Gly 370 375 380 Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile Asn Ile Ser Arg Leu 385 390 395 400 Glu Glu <210> 259 <211> 493 <212> PRT <213> Clostridium ihumii <400> 259 Met Lys Thr Thr Glu Lys Asn Val Leu Met Thr Lys Cys Ile Lys Val 1 5 10 15 Thr Leu Asn Arg Cys Val Asn Tyr Asn Met Lys Glu Ile Met Asn Ile 20 25 30 Ile Arg Glu Met Gln Tyr Leu Ser Ser Lys Ala Tyr Asn Leu Ala Thr 35 40 45 Asn Tyr Leu Tyr Ile Trp Asp Thr Asn Ser Met Asn Phe Lys Asn Leu 50 55 60 Tyr Glu Glu Lys Ile Val Asp Lys Asp Leu Leu Gly Lys Ser Lys Ser 65 70 75 80 Ala Trp Ile Glu Asn Arg Met Asn Glu Ile Met Lys Gly Phe Leu Thr 85 90 95 Asn Asn Val Ala Gln Ala Arg Gln Asp Val Ile Asn Lys Tyr Asn Lys 100 105 110 Ser Lys Lys Asp Gly Leu Phe Ile Gly Lys Val Thr Leu Pro Ser Tyr 115 120 125 Lys Met Asn Gly Lys Val Val Ile His Asn Lys Ala Tyr Arg Phe Ser 130 135 140 Lys Asn Glu Gly Tyr Phe Val Glu Ile Gly Leu Phe Asn Lys Glu Lys 145 150 155 160 Lys Glu Glu Leu Asn Cys Asp Trp Ile Lys Phe Lys Leu Asp Lys Ile 165 170 175 Asp Ser Asn Lys Lys Ala Thr Ile Tyr Lys Ile Leu Asn Gly Asp Tyr 180 185 190 Lys Gln Gly Ser Ala Gln Leu His Ile Asn Lys Lys Gly Lys Ile Glu 195 200 205 Phe Ile Ile Ser Tyr Ser Phe Glu Arg Glu Asn Ser Ile Lys Leu Asp 210 215 220 Lys Asn Arg Thr Leu Gly Ile Asp Ile Gly Ile Val Asn Ile Ala Ala 225 230 235 240 Met Ala Ile Trp Asp Asn Asn Lys Gln Glu Trp Glu Leu Thr Arg Tyr 245 250 255 Ser His Asn Leu Ile Ser Gly Asn Glu Ala Ile Ala Leu Arg Gln Lys 260 265 270 Tyr Tyr Lys Leu Gly Leu Arg Asn Lys Glu Leu Glu Lys Asn Ile Asn 275 280 285 Arg Glu Leu His Glu Leu Glu Glu Lys Glu Tyr Arg Gly Leu Ser Thr 290 295 300 Asn Ile Ile Ser Gly His Asn Leu Thr Tyr Lys Arg Ile Met Leu Asn 305 310 315 320 Ser Lys Arg Ile Arg Leu Ser Gln Ser Cys Lys Trp Cys Gly Asn Ser 325 330 335 Lys Val Gly His Gly Arg Arg Val Arg Cys Lys Gln Val Asp Lys Ile 340 345 350 Gly Asn Lys Ile Glu Arg Phe Lys Asp Thr Phe Asn His Lys Tyr Ser 355 360 365 Arg Tyr Ile Val Asp Phe Ala Val Lys Asn Asn Cys Gly Ile Ile Gln 370 375 380 Met Glu Asn Leu Lys Asn Phe Asn Pro Ser Glu Lys Phe Leu Lys Asp 385 390 395 400 Trp Pro Tyr Phe Asp Leu Gln Thr Lys Ile Glu Tyr Lys Ala Lys Glu 405 410 415 Tyr Gly Ile Glu Val Ile Lys Val Asn Pro Lys Tyr Thr Ser Lys Arg 420 425 430 Cys Ser Arg Cys Gly Cys Ile Asn Glu Leu Asn Arg Asp Cys Lys Lys 435 440 445 Asn Gln Ser Lys Phe Lys Cys Val Asn Asp Glu Cys Asn Asn Tyr Glu 450 455 460 Asn Ala Asp Ile Asn Ala Ala Lys Asn Ile Ala Leu Pro Tyr Ile Asp 465 470 475 480 Lys Ile Ile Glu Gln Cys Leu Glu Thr Asn Lys Val Val 485 490 <210> 260 <211> 398 <212> PRT <213> Cellulosilyticum ruminicola <400> 260 Met Ile Ala Val Arg Lys Leu Lys Ile Met Val Leu Cys Asp Asp Glu 1 5 10 15 Ser Lys Lys Asn Glu Gln Tyr Lys Phe Leu Arg Asp Ser Gln Tyr Ala 20 25 30 Gln Tyr Leu Gly Leu Asn Arg Ala Met Ser Phe Leu Ala Lys Glu Tyr 35 40 45 Leu Ser Gly Asp Lys Glu Arg Phe Lys Glu Ala Lys Lys Lys Leu Thr 50 55 60 Asn Thr Cys Glu Cys Tyr Gln Asn Ile Asn Phe Gly Thr Gly Ile Asp 65 70 75 80 Ser Lys Ser Gln Ile Thr Gln Lys Val Lys Lys Asp Leu Gln Ala Asp 85 90 95 Ile Lys Asn Gly Leu Ala Arg Gly Glu Arg Ser Ile Arg Asn Tyr Arg 100 105 110 Arg Thr Phe Pro Leu Ile Thr Arg Gly Arg Asp Leu Lys Phe Ser Tyr 115 120 125 Asn Gly Asp Glu Ile Ile Ile Lys Trp Val Asn Lys Ile Tyr Phe Lys 130 135 140 Val Leu Ile Gly Arg Lys Asp Lys Asn Tyr Leu Glu Leu Met His Thr 145 150 155 160 Leu Glu Lys Ile Ile Asn Gly Glu Tyr Lys Val Cys Thr Ser Ser Ile 165 170 175 Gln Ile Asp Lys Lys Leu Ile Leu Asn Leu Thr Leu Glu Ile Pro Asp 180 185 190 Lys Val Lys Lys Glu Phe Gln Glu Asn Arg Val Leu Gly Val Asp Leu 195 200 205 Gly Ile Lys Phe Pro Ala Tyr Ala Cys Val Ser Asp Asn Thr Tyr Val 210 215 220 Arg Arg Ser Phe Gly Ser Ile Asp Glu Phe Leu Lys Val Arg Ile Gln 225 230 235 240 Phe Asp Lys Arg Arg Lys Arg Ile Gln Gln Gln Leu Gln Asn Val Lys 245 250 255 Gly Gly Lys Gly Arg Lys Asp Lys Leu Gln Ala Leu Asp Arg Met Arg 260 265 270 Asp Cys Glu Arg Lys Trp Val Arg Asn Tyr Asn His Ala Leu Ser Lys 275 280 285 Arg Ile Ile Asp Phe Ala Phe Arg Asn Lys Cys Gly Ile Ile His Leu 290 295 300 Glu Lys Leu Glu Lys Asp Gly Phe Lys Asn Lys Leu Leu Arg Asn Trp 305 310 315 320 Ser Tyr Tyr Glu Leu Gln Asp Met Ile Gly Tyr Lys Ala Glu Arg Glu 325 330 335 Gly Ile Val Val Lys Tyr Val Glu Pro Ala Tyr Thr Ser Gln Thr Cys 340 345 350 Ser Lys Cys Gly Tyr Val Asp Arg Glu Asn Arg Pro Ser Gln Glu His 355 360 365 Phe Leu Cys Lys Glu Cys Gly Phe Glu Ile Asn Ala Asp His Asn Ala 370 375 380 Ala Ile Asn Ile Ala Arg Ser Asn Lys Val Ile Val Asp Lys 385 390 395 <210> 261 <211> 433 <212> PRT <213> Eubacterium siraeum <400> 261 Met Val Cys Asn Lys Val Ile Lys Ile Ala Leu Ile Cys Asp Gln Ile 1 5 10 15 Asp Lys Asp Gly Lys Asp Val Asn Tyr Asn Asp Ile Tyr Lys Leu Leu 20 25 30 Trp Asp Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Val Ile Arg 35 40 45 Leu Cys Trp Glu Trp Ser Gly Tyr Ser Ser Glu Tyr Phe Lys Thr His 50 55 60 Glu Glu Tyr Pro Lys Asp Lys Glu Ile Phe Gly Ile Ser Leu Arg Gly 65 70 75 80 Tyr Leu Tyr Asp Arg Ile Lys Gly Asp Tyr Asn Leu Tyr Ser Gly Asn 85 90 95 Leu Ser Gln Ser Ala Glu Ile Ala Tyr Lys Glu Tyr Lys Asn Ser Leu 100 105 110 Lys Asp Val Leu Arg Gly Asp Lys Ser Ile Ile Asn Tyr Arg Glu Asn 115 120 125 Gln Pro Leu Asp Ile Lys Asn Lys Ala Ile Gln Leu Leu Tyr Glu Asn 130 135 140 Asp Asn Phe Phe Val Arg Val Ala Leu Ile Asn Lys Asp Lys Gln Lys 145 150 155 160 Glu Leu Asn Phe Lys Asp Cys Ser Val Arg Phe Lys Leu Leu Val Lys 165 170 175 Asp Asp Ser Thr Arg Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr 180 185 190 Thr Ile Thr Ala Ser Lys Ile Met Tyr Asn Lys Lys Lys Lys Gln Trp 195 200 205 Tyr Ile Asn Leu Gly Tyr Lys Phe Thr Lys Glu Ile Asp Lys Thr Leu 210 215 220 Asp Lys Asp Arg Ile Leu Gly Val Asp Leu Gly Val Ile Asn Pro Leu 225 230 235 240 Val Ala Ser Val Tyr Gly Ser Tyr Asp Arg Leu Ile Ile Gly Gly Gly 245 250 255 Glu Ile Asp Lys Phe Arg Lys Arg Val Glu Ala Asn Lys Val Gln Met 260 265 270 Leu Lys Gln Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Val 275 280 285 Asn Thr Arg Asn Lys Pro Ala Tyr Asn Ile Glu Asp Lys Ile Ser Arg 290 295 300 Phe Arg Asp Thr Val Asn His Lys Tyr Ser Lys Ala Val Val Asp Tyr 305 310 315 320 Ala Val Lys Asn Asn Cys Gly Thr Ile Gln Met Glu Asp Leu Lys Gly 325 330 335 Ile Thr Gln Asn Lys Asn Glu Arg Tyr Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Thr Lys Ile Glu Tyr Lys Ala Lys Ala Leu Gly Ile Glu 355 360 365 Val Lys Tyr Lys Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys 370 375 380 Gly His Ile Ala Glu Glu Asn Arg Pro Glu Gln Lys Thr Phe Lys Cys 385 390 395 400 Val Lys Cys Gly Phe Lys Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn 405 410 415 Leu Ala Ile Lys Asp Ile Asp Lys Ile Ile Glu Gln Tyr Tyr Asn Lys 420 425 430 Gly <210> 262 <211> 482 <212> PRT <213> Clostridium botulinum <400> 262 Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu 1 5 10 15 Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met 35 40 45 Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile 50 55 60 Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Gly Ser Leu Lys Lys 65 70 75 80 Glu Leu Ala Lys Lys Arg Ile Asn Glu Glu Lys Ile Glu Asn Ile Lys 85 90 95 Ser Asn Ile Glu Glu Leu Lys Ser Gln Lys Glu Lys Leu Glu Asn Glu 100 105 110 Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys 115 120 125 Lys Met Tyr Val Asn Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe 130 135 140 Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp 145 150 155 160 Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg 165 170 175 Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys 180 185 190 Phe Gln Tyr Phe Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu 195 200 205 Gly Ile Lys Phe Lys Cys Ile Leu Gly Arg Pro Ser Lys Ser Leu Glu 210 215 220 Leu Lys His Thr Leu His Lys Val Ile Asn Glu Glu Tyr Lys Ile Cys 225 230 235 240 Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu 245 250 255 Thr Leu Asp Ile Pro Glu Asn Asn Lys Tyr Glu Lys Ile Glu Asn Arg 260 265 270 Ile Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu 275 280 285 Asn Asp Thr Arg Tyr Ile Arg Lys Ala Ile Gly Ser Ile Asn Asp Phe 290 295 300 Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Ala Arg Lys Leu Gln Lys 305 310 315 320 Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys 325 330 335 Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr 340 345 350 Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys 355 360 365 Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn 370 375 380 Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Ser Phe Ile 385 390 395 400 Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro 405 410 415 Tyr His Thr Ser Gln Ile Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly 420 425 430 Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Gly His Lys 435 440 445 Ile Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asp Asn 450 455 460 Tyr Ile Ser Lys Lys Glu Glu Ser Gln Tyr Tyr Lys Asn Asn Lys Asn 465 470 475 480 Met Val <210> 263 <211> 482 <212> PRT <213> Clostridium botulinum <400> 263 Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu 1 5 10 15 Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met 35 40 45 Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile 50 55 60 Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Glu Asn Leu Lys Lys 65 70 75 80 Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Asn Glu Asn Ile Lys 85 90 95 Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu 100 105 110 Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys 115 120 125 Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe 130 135 140 Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp 145 150 155 160 Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg 165 170 175 Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys 180 185 190 Phe Gln Tyr Ile Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu 195 200 205 Gly Ile Lys Phe Lys Cys Ile Leu Gly Lys Pro Ser Lys Ser Leu Glu 210 215 220 Leu Lys His Ala Leu His Lys Val Ile Asn Lys Glu Tyr Lys Val Cys 225 230 235 240 Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu 245 250 255 Thr Leu Asp Ile Pro Gln Asp Asn Lys Tyr Glu Lys Ile Thr Asn Arg 260 265 270 Val Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu 275 280 285 Asn Asp Thr Lys Tyr Ile Arg Lys Ala Ile Gly Ser Ile Asp Asp Phe 290 295 300 Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Val Arg Lys Leu Gln Lys 305 310 315 320 Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys 325 330 335 Ala Leu Glu Lys Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr 340 345 350 Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys 355 360 365 Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn 370 375 380 Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Asn Phe Ile 385 390 395 400 Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro 405 410 415 Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly 420 425 430 Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Trp His Lys 435 440 445 Met Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Tyr Asn 450 455 460 Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn 465 470 475 480 Met Val <210> 264 <211> 424 <212> PRT <213> Ruminiclostridium hungatei <400> 264 Met Ala Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Ile Asp Cys 1 5 10 15 Asn Trp Asp Leu Phe Gly Lys Val Leu Arg Asp Ile Gln Tyr Asp Thr 20 25 30 Arg Gln Ile Met Asn Arg Thr Ile Gln Tyr Cys Trp Glu Trp Gln Gly 35 40 45 Tyr Ser Ser Asp Tyr Lys Ile Ala Lys Gly Glu Tyr Pro Lys Thr Arg 50 55 60 Glu Thr Phe Gly Tyr Ser Asp Met Arg Gly Tyr Ala Tyr Asp Lys Leu 65 70 75 80 Lys Ser Ile Tyr Gln Arg Leu Asn Thr Ala Asn Leu Thr Thr Ser Ile 85 90 95 Thr Arg Ala Val Gln Arg Trp Lys Thr Asp Thr Lys Asp Val Ile Arg 100 105 110 Gly Asp Lys Ser Ile Ala Cys Phe Arg Ala Asp Val Pro Ile Asp Leu 115 120 125 His Asn Lys Ser Met Asn Ile Glu Lys Ser Asp Asp Gly Tyr Ile Val 130 135 140 Ala Leu Ser Leu Ala Ser Asn Ile Tyr Lys Lys Glu Leu Asp Arg Asn 145 150 155 160 Ser Gly Gln Phe Ser Val Leu Ile Asn Glu Gly Asn Lys Ser Asn Arg 165 170 175 Asp Val Leu Asp Arg Cys Ile Ala Gly Gln Tyr Lys Ile Ser Ala Ser 180 185 190 Gln Ile Leu Arg Glu Lys Asn Lys Trp Phe Leu Asn Leu Ser Tyr Ser 195 200 205 Phe Glu Ile Ser Lys Pro Asp Lys Ser Arg Asp Asn Ile Leu Gly Ile 210 215 220 Asp Val Gly Ile Val His Pro Val Tyr Met Ala Val Tyr Asn Ser Pro 225 230 235 240 Ala Arg Arg Ser Ile Ser Gly Gly Glu Ile Asp Asn Phe Arg Lys Gln 245 250 255 Val Gln Lys Arg Ile Lys Glu Leu Gln Leu Gln Gly Lys Gln Cys Gly 260 265 270 Glu Gly Arg Ile Gly His Gly Ile Lys Thr Arg Val Lys Pro Ile Glu 275 280 285 Phe Ala Lys Asp Lys Val Ala Asn Phe Arg Asn Thr Ile Asn His Lys 290 295 300 Tyr Ser Lys Ala Ile Val Glu Phe Ala Ile Lys Asn Gly Cys Gly Ile 305 310 315 320 Ile Gln Met Glu Asp Leu Lys Gly Ile Asn Thr Asp Asn Val Phe Leu 325 330 335 Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Val Lys Tyr Lys Ala 340 345 350 Glu Leu Glu Gly Ile Glu Val Lys Leu Ile Asp Pro Gln Tyr Thr Ser 355 360 365 Gln Arg Cys Cys Lys Cys Gly Tyr Ile His Arg Asp Asn Arg Pro Glu 370 375 380 Gln Ala Lys Phe Lys Cys Ile Asp Cys Gly Phe Glu Val Asn Ala Asp 385 390 395 400 Tyr Asn Ala Ser Leu Asn Ile Ala Thr Pro Asp Ile Asp Lys Ile Ile 405 410 415 Leu Glu Phe Leu Lys Cys Glu Thr 420 <210> 265 <211> 451 <212> PRT <213> Desulfovibrio fructosivorans <400> 265 Met Ala Ile Thr Lys Val Val Lys Ile Pro Leu Val Ile Asp Glu Ser 1 5 10 15 Asp Glu Ile Leu Arg Lys Ile Lys Tyr Arg Ala Phe Asp Lys Val Met 20 25 30 Asn Glu Ala Arg Tyr Leu Gly Asn Leu Ala Ile Arg Tyr Ala Ile Ala 35 40 45 Tyr Gly Leu Glu Asn Ile Pro Asn Gln Ile Asp Ala Glu Thr Gly Lys 50 55 60 Gln Ile Ala Leu Asp Thr Thr Ile Tyr Arg His Leu Ala Glu Lys Arg 65 70 75 80 Lys Tyr Leu Pro Ala Gly Asn Met Ala Thr Leu Glu Arg Asn Phe Ala 85 90 95 Val Lys Thr Tyr Arg Asn Thr Asn Lys Asp Ala Trp Ala Gly Arg Lys 100 105 110 Ser Leu Pro Thr Tyr Arg Ser Leu Phe Val Pro Phe Arg His Thr Gly 115 120 125 Thr Lys Ile Ala Val Val Glu Arg Asn Gly Thr Lys Gln Phe Cys Ile 130 135 140 Asp Pro Gln Gly Phe Gly Ala Ser Trp Leu Ser Asp Glu Leu Ile Ala 145 150 155 160 Glu Val His Asp Gly Pro Ile Ala Ile Glu Lys Gln Arg Arg Lys Leu 165 170 175 Thr Leu Val Ser Cys Phe Ser Trp Arg Asp Gln Gly Ala Val Glu Ile 180 185 190 Val Gln Arg Ile Val Asn Gly Glu Tyr Lys Leu Ser Asp Gly Gln Ile 195 200 205 Gln Met Gly Lys Lys Gly Leu Val Ala Leu Leu Pro Tyr Ser Phe Asp 210 215 220 Ala Ile Gln Pro Glu Leu Asp Pro Ala Arg Val Cys Gly Ile Asp Leu 225 230 235 240 Gly Ala Val Ile Pro Ala Val Cys Ala Val Asn Phe Gly Pro Gln Arg 245 250 255 Ala Tyr Leu Gly Glu Gly Lys Asp Val Trp Ala Ala Arg Ser Arg Phe 260 265 270 Arg Ala Glu Arg Arg Arg Leu Gln Ser Arg Ala Gly Leu Tyr Ser Lys 275 280 285 Thr Lys Asn Trp Arg Arg Ser Glu Lys Glu Asp Asn Trp Ile Gln Thr 290 295 300 Tyr Tyr His Ala Leu Thr Arg Lys Val Ile Lys Phe Cys Val Gln His 305 310 315 320 Gly Cys Gly Thr Ile His Met Glu Asp Leu Ser Ser Leu Arg Gln Arg 325 330 335 Asp Val Glu Ser Glu Phe Arg Arg Leu Leu Trp Val Pro Ser Lys Phe 340 345 350 Phe Glu Leu Leu Ser Tyr Lys Ala Lys Glu Met Gly Ile Gly Ile Val 355 360 365 Lys Ile Asn Pro Arg Asn Thr Ser Lys Arg Cys Ser Glu Cys Gly His 370 375 380 Ile Ser Lys Gly Asn Arg Lys Ser Gln Glu Lys Phe Val Cys Glu Lys 385 390 395 400 Cys Gly Glu Gly Lys Arg Pro Val Asn Ala Asp Tyr Asn Ala Ala Arg 405 410 415 Asn Ile Ala Leu Ala Thr Gly Asp Val Leu Leu His Gly Tyr Ile Glu 420 425 430 Ser Glu Pro Asp Ala Leu Gly Glu Met Asp Gln Leu Trp Glu Gly Ala 435 440 445 Gln Glu Ala 450 <210> 266 <211> 451 <212> PRT <213> Bacillus toyonensis <400> 266 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys Gln Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Gly Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile Tyr Gly Ile Glu Val Ile 355 360 365 Lys Val Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 267 <211> 451 <212> PRT <213> Clostridium paraputrificum <400> 267 Met Arg Ile Met Asn Phe Asn Lys Cys Ile Lys Val Thr Leu Ile Lys 1 5 10 15 Cys Leu Asn Tyr Asp Tyr Arg Lys Val Lys Gln Ile Ile Lys Asp Phe 20 25 30 Gln Tyr Lys Tyr Ser Lys Ala Tyr Asn Met Ala Thr Asn Tyr Leu Tyr 35 40 45 Leu Trp Asp Thr Asn Ser Met Asn Leu Lys Asn Leu Tyr Asp Thr Lys 50 55 60 Ile Val Asp Lys Glu Leu Leu Gly Lys Ser Lys Gly Ala Trp Ile Glu 65 70 75 80 Asn Arg Met Asn Glu Ile Ile Glu Gly Ala Leu Ser Asn Asn Val Ala 85 90 95 Gln Ala Arg Gln Asp Ile Ile Asn Lys Tyr Asn Lys Cys Lys Lys Asp 100 105 110 Gly Leu Phe Lys Gly Lys Val Ser Leu Pro Thr Tyr Lys Leu Asp Ser 115 120 125 Lys Val Ile Val His Asn Val Ala Tyr Lys Leu Arg Asn His Asn Gly 130 135 140 Tyr Phe Ile Asp Ile Gly Leu Leu Asn Lys Gly Lys Gln Lys Glu Leu 145 150 155 160 Asn Val Gly Arg Phe Glu Phe Gln Ile Asp Lys Leu Asp Gly Asn Lys 165 170 175 Lys Ala Thr Ile Asn Lys Ile Ile Asn Gly Glu Tyr Lys Gln Gly Ser 180 185 190 Ala Gln Ile Ser Ile Ser Lys Lys Gly Lys Ile Glu Leu Ile Ile Ser 195 200 205 Tyr Ser Phe Asp Lys Glu Glu Ile Pro Val Leu Asp Asn Asn Arg Ile 210 215 220 Leu Gly Ile Asp Leu Gly Ile Thr Asn Val Ala Thr Met Ser Val Tyr 225 230 235 240 Asp Ser Ile Lys Asp Glu Tyr Asp Tyr Phe Ser Trp Lys Thr Asn Val 245 250 255 Ile Arg Gly Lys Glu Leu Ile Ala Phe Arg Gln Lys Tyr Tyr Asn Leu 260 265 270 Arg Arg Asp Ile Ser Ile Ala Ser Lys Thr Ala Gly Lys Gly Arg Cys 275 280 285 Gly His Gly Tyr Lys Thr Lys Met Lys Pro Val Asp Lys Val Arg Asn 290 295 300 Arg Ile Ala Asn Phe Ala Asp Thr Tyr Asn His Lys Ile Ser Lys Tyr 305 310 315 320 Ile Val Glu Phe Ala Val Lys Asn Arg Cys Gly Ile Ile Gln Met Glu 325 330 335 Asp Leu Ser Gly Ala Thr Ser Glu Val His Asn Lys Met Leu Lys Asp 340 345 350 Trp Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys Ala Lys Glu 355 360 365 Gln Gly Ile Glu Ile Lys Lys Val Asn Pro Lys Tyr Thr Ser Lys Arg 370 375 380 Cys Asn Asn Cys Gly Cys Ile His Glu Asp Asn Arg Asp Cys Lys Asn 385 390 395 400 His Gln Ala Arg Phe Glu Cys Lys Val Cys Gly His Gly Lys Asp Thr 405 410 415 Asp Val Asn Ala Asp Val Asn Ala Ser Arg Asn Ile Ala Ile Pro Asp 420 425 430 Ile Asp Lys Ile Ile Glu Glu Thr Glu Ile Leu His Ser Glu Asn Lys 435 440 445 Pro Ala Ser 450 <210> 268 <211> 437 <212> PRT <213> Clostridium ventriculi <400> 268 Met Thr Thr Lys Cys Val Gln Val Ala Ile Glu Tyr Ser Ser Asn Asn 1 5 10 15 Ile Leu Lys Glu Val Asp Phe Tyr Lys Glu Leu Arg Asp Leu Gln Tyr 20 25 30 Asn Ser Tyr Leu Ala Cys Asn Arg Ala Ile Ser Tyr Met Tyr Glu Asn 35 40 45 Asp Met Gln Asn Phe Ile Ile Lys Glu Thr Asp Leu Pro Arg Ser Asp 50 55 60 Asp Lys Lys Leu Tyr Gly Lys Ser Phe Ala Ala Trp Ile Glu Asn Arg 65 70 75 80 Met Asn Glu Tyr Met Pro Gly Ala Leu Ser Asn Asn Val Ala Gln Thr 85 90 95 Arg Gln Phe Val Val Asn Arg Tyr Lys Asn Asp Lys Lys Ala Gly Leu 100 105 110 Leu Lys Gly Asn Val Ser Leu Thr Thr Phe Lys Arg Thr Asn Pro Ile 115 120 125 Ile Ile His Asn Asn Ala Tyr Asn Ile Ile Glu Thr Pro Lys Gly Leu 130 135 140 Gly Ala Glu Ile Gly Phe Phe Asn Leu Pro Lys Gln Lys Glu Leu Gly 145 150 155 160 Ile Lys Arg Val Asn Phe Leu Phe Pro Lys Leu Gly Ser Ser Glu Lys 165 170 175 Ser Ile Ile Arg Arg Leu Leu Asp Lys Ser Tyr Lys Gln Gly Ala Met 180 185 190 Gln Ile Ser Tyr Asn Gln Lys Lys Lys Lys Trp Met Ala Thr Ile Ser 195 200 205 Phe Ser Phe Asn Leu Glu Glu Ile Lys Thr Asn Glu Asn Leu Val Met 210 215 220 Gly Ile Asp Leu Gly Val Ser Lys Val Ala Thr Leu Ser Ile Tyr Asp 225 230 235 240 Ala Ser Lys Tyr Glu Tyr Ile Lys Met Ser Phe Lys Asp Thr Cys Ile 245 250 255 Asp Gly Thr Glu Leu Met His Tyr Arg Gln Lys Leu Glu Ser Arg Arg 260 265 270 Lys Ala Leu Ser Ile Ala Ser Lys Trp Ala Ser Asp Asn Asn Arg Gly 275 280 285 His Gly Tyr Lys Thr Lys Met Glu Lys Ala Asn Tyr Met Gly Arg Lys 290 295 300 Tyr Asn Asn Phe Arg Asp Thr Tyr Asn His Lys Val Ser Arg Tyr Ile 305 310 315 320 Val Asp Val Ala Ile Lys Tyr Arg Val Gly Leu Ile Gln Met Glu Asp 325 330 335 Leu Ser Gly Phe Ser Glu Gln Gln Gln Glu Ser Leu Leu Lys Asn Trp 340 345 350 Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Lys Tyr Lys Ala Glu Glu Asn 355 360 365 Gly Ile Arg Val Tyr Phe Ile Asn Pro Lys Tyr Thr Ser Gln Arg Cys 370 375 380 Ser Lys Cys Gly Asn Ile Asp Lys Glu Asn Arg Lys Thr Gln Glu Ser 385 390 395 400 Phe Ser Cys Thr Val Cys Asn Tyr Lys Asp Asn Ala Asp Val Asn Ala 405 410 415 Ser Lys Asn Ile Ala Ile Pro Asp Ile Glu Lys Ile Ile Glu Glu Gln 420 425 430 Val Lys Lys Gln Tyr 435 <210> 269 <211> 440 <212> PRT <213> Ruminococcus sp. <400> 269 Met Val Lys Val Val Lys Ile His Leu Ile Ser Glu Gln Phe Asp Lys 1 5 10 15 Ala Gly Asn Arg Ile Asp Tyr Glu Glu Val Asn Lys Ile Leu Trp Glu 20 25 30 Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu 35 40 45 Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile 50 55 60 Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln 65 70 75 80 Ala Asn Lys Glu Leu Arg Thr Lys Leu Ala Leu Asn Ser Ser Asn Leu 85 90 95 Ser Thr Thr Thr Met Asp Val Cys Lys Asn Phe Asn Thr Tyr Lys Lys 100 105 110 Glu Val Trp Lys Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln 115 120 125 Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn 130 135 140 Gln Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Glu Phe Ala Lys 145 150 155 160 Tyr Gly Phe Lys Asp Gly Phe His Phe Lys Met Gln Val Lys Asp Asn 165 170 175 Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr Lys Ile 180 185 190 Asn Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Lys Lys Trp Lys Leu 195 200 205 Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys 210 215 220 Glu Lys Ile Leu Gly Val Asp Val Gly Val Ser Tyr Pro Leu Val Ala 225 230 235 240 Ser Val Phe Gly Asp Arg Asp Arg Phe Lys Ile Lys Gly Gly Glu Ile 245 250 255 Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu 260 265 270 Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys 275 280 285 Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg 290 295 300 Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val 305 310 315 320 Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr 325 330 335 Ser Lys Ala Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln 340 345 350 Thr Lys Ile Glu Asn Lys Ala Lys Glu Val Gly Ile Asn Val Val Tyr 355 360 365 Ile Ala Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile 370 375 380 His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Glu Cys 385 390 395 400 Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile 405 410 415 Lys Asn Ile Asp Lys Ile Ile Glu Lys Asp Leu Gln Lys Gln Glu Ser 420 425 430 Glu Val Gln Val Asn Glu Asn Lys 435 440 <210> 270 <211> 439 <212> PRT <213> Ruminococcus sp. <400> 270 Met Val Lys Val Val Lys Ile His Leu Ile Ser Glu Gln Phe Asp Lys 1 5 10 15 Ala Gly Asn Arg Ile Asp Tyr Lys Glu Val Asn Lys Ile Leu Trp Glu 20 25 30 Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu 35 40 45 Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile 50 55 60 Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln 65 70 75 80 Ala Asn Lys Glu Leu Arg Thr Lys Leu Ala Leu Asn Ser Ser Asn Leu 85 90 95 Ser Thr Thr Thr Met Asp Val Cys Lys Asn Phe Asn Thr Tyr Lys Lys 100 105 110 Glu Val Trp Lys Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln 115 120 125 Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn 130 135 140 Gln Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Gly Phe Ala Lys 145 150 155 160 Tyr Gly Phe Lys Asp Gly Phe Arg Phe Lys Met Gln Val Lys Asp Asn 165 170 175 Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Gly Ile Tyr Thr Ile 180 185 190 Val Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Asn Arg Trp Lys Leu 195 200 205 Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys 210 215 220 Glu Lys Ile Leu Gly Val Asp Val Gly Val Ser Tyr Pro Leu Val Ala 225 230 235 240 Ser Val Phe Gly Asp Arg Asp Arg Phe Lys Ile Lys Gly Gly Glu Ile 245 250 255 Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu 260 265 270 Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys 275 280 285 Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg 290 295 300 Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val 305 310 315 320 Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr 325 330 335 Ser Lys Ser Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln 340 345 350 Thr Lys Ile Glu Ser Lys Ala Asn Glu Ala Gly Ile Lys Val Val Tyr 355 360 365 Ile Ala Pro Glu Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile 370 375 380 His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Lys Cys 385 390 395 400 Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile 405 410 415 Lys Asn Ile Asp Lys Thr Ile Lys Lys Glu Arg Lys Lys Gln Lys Ser 420 425 430 Glu Ala Gln Val Asn Glu Lys 435 <210> 271 <211> 402 <212> PRT <213> Peptoclostridium sp. <400> 271 Met Ile Thr Val Arg Lys Leu Lys Leu Thr Ile Ile Asn Asp Asp Glu 1 5 10 15 Thr Lys Arg Asn Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala 20 25 30 Gln Tyr Gln Gly Leu Asn Leu Ala Met Ser Val Leu Thr Asn Ala Tyr 35 40 45 Leu Ser Ala Asn Arg Asp Ile Lys Ser Asp Leu Phe Lys Glu Thr Gln 50 55 60 Lys Asn Leu Lys Asn Ser Ser Ser Ile Phe Asn Asp Ile Pro Phe Gly 65 70 75 80 Lys Gly Ile Asp Ser Lys Ser Ser Ile Thr Gln Lys Val Lys Gln Asp 85 90 95 Phe Ser Ile Ala Ile Lys Asn Gly Leu Ala Gly Gly Glu Arg Asn Ile 100 105 110 Thr Asn Tyr Lys Arg Thr Phe Pro Leu Met Thr Arg Gly Arg Asp Leu 115 120 125 Lys Phe Ser Tyr Lys Asp Asp Cys Ser Asp Glu Ile Ile Ile Lys Trp 130 135 140 Val Asn Lys Ile Val Phe Lys Val Val Ile Gly Arg Lys Asp Lys Asn 145 150 155 160 Tyr Leu Glu Leu Met His Thr Leu Asn Lys Val Ile Asn Gly Glu Tyr 165 170 175 Lys Val Gly Gln Ser Ser Ile Tyr Phe Asp Lys Ser Asn Lys Leu Ile 180 185 190 Leu Asn Leu Thr Leu Tyr Ile Pro Glu Lys Lys Asp Asp Asp Ala Ile 195 200 205 Asn Gly Arg Thr Leu Gly Val Asp Leu Gly Ile Lys Tyr Pro Ala Tyr 210 215 220 Val Cys Leu Asn Asp Asp Thr Phe Ile Arg Gln His Ile Gly Glu Ser 225 230 235 240 Leu Glu Leu Ser Lys Gln Arg Glu Gln Phe Arg Asn Arg Arg Lys Arg 245 250 255 Leu Gln Gln Gln Leu Lys Asn Val Lys Gly Gly Lys Gly Arg Glu Lys 260 265 270 Lys Leu Ser Ala Leu Asp Lys Val Ala Val Cys Glu Arg Asn Phe Val 275 280 285 Lys Thr Tyr Asn His Thr Ile Ser Lys Arg Ile Val Asp Phe Ala Lys 290 295 300 Lys Asn Lys Cys Glu Phe Ile Asn Leu Glu Gln Leu Thr Lys Asp Gly 305 310 315 320 Phe Asp Asn Ile Ile Leu Ser Asn Trp Ser Tyr Tyr Glu Leu Gln Asn 325 330 335 Met Ile Lys Tyr Lys Ala Asp Arg Glu Gly Ile Lys Val Arg Tyr Val 340 345 350 Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Lys Cys Gly Tyr Ile Asp 355 360 365 Lys Glu Asn Arg Pro Thr Gln Glu Lys Phe Lys Cys Ile Lys Cys Gly 370 375 380 Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile Asn Ile Ser Arg Leu 385 390 395 400 Glu Glu <210> 272 <211> 493 <212> PRT <213> Bacillus sp. <400> 272 Met Ile Thr Val Arg Lys Leu Lys Leu Ala Ile Val Ser Gly Asn Glu 1 5 10 15 Asn Glu Thr Tyr Gln Phe Leu Arg Asn Glu Met Arg Asn Gln Tyr Lys 20 25 30 Ala Leu Asn Ile Ser Tyr Ser His Leu Tyr Phe Glu Tyr Ile Ala Gln 35 40 45 Glu Lys Ile Lys His Ser Asn Glu Glu Tyr Gln Gln His Leu Thr Lys 50 55 60 Tyr Thr Glu Lys Ala Gln Glu Lys Tyr Gln Asn Tyr Leu Lys Cys Lys 65 70 75 80 Gly Lys Ala Glu Val Phe Lys Asp Asp Gln Gln Leu Gln Lys Arg Val 85 90 95 Glu Lys Ala Arg Asp Asp Tyr Asn Lys Ala Gln Glu Lys Val Tyr Lys 100 105 110 Ile Glu Lys Gln Tyr Ser Lys Lys Ala Ser Glu Ile Tyr Gln Lys Ala 115 120 125 Val Gly Leu Val Lys Gln Thr Arg Ile Gly Lys Leu Ile Asn Ser Lys 130 135 140 Phe Asp Leu His Tyr Asp Thr Val Asp Arg Ile Thr Ser Thr Val Ile 145 150 155 160 Ser His Phe Thr Cys Asp Met Lys Ala Gly Leu Leu Asn Gly Lys Arg 165 170 175 Asn Leu Arg Asn Tyr Lys Glu Thr Asn Pro Leu Met Ile Arg Ala Arg 180 185 190 Ser Met Val Leu Tyr Glu Glu Ser Gly Asp Tyr Phe Ile Lys Trp Ile 195 200 205 Lys Gly Ile Thr Phe Lys Val Ile Leu Leu Glu Ser Ser Lys Gln Arg 210 215 220 Ala Asn Ile Asn Glu Leu Lys Ser Leu Leu Val Asn Ile Ile Glu Gly 225 230 235 240 Asn Tyr Lys Ile Cys Asp Ser Ser Ile Ala Ile Asn Lys Lys Leu Ile 245 250 255 Leu Asn Leu Ser Leu Asn Ile Pro Val Ser Arg Lys Asn Ser Phe Met 260 265 270 Lys Gly Arg Val Val Gly Leu Asp Leu Gly Leu Arg Ile Pro Ala Tyr 275 280 285 Val Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ser Ile Gly Ser Ile 290 295 300 Glu Asp Phe Leu Lys Val Arg Thr Gln Ile Gln Ser Gln Arg Lys Arg 305 310 315 320 Leu Gln Lys Ala Leu Gln Ser Thr Arg Gly Gly Lys Gly Lys Asn Lys 325 330 335 Lys Leu Gln Gly Leu Asn Arg Ile Lys Glu Lys Glu Lys Asn Phe Val 340 345 350 Asn Thr Tyr Asn His Phe Ile Ser Ser Lys Ile Val Gln Phe Ala Leu 355 360 365 Lys Asn Gln Ala Gly Ile Ile His Met Glu Tyr Leu Glu Phe Asp Arg 370 375 380 Met Lys Asn Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln 385 390 395 400 Gln Met Ile Glu Tyr Lys Ala Lys Arg Glu Gly Ile Glu Val Lys Tyr 405 410 415 Ile Asp Ala His Tyr Thr Ser Gln Thr Cys Ser Lys Cys Asn His Tyr 420 425 430 Glu Leu Gly Gln Arg Glu Ile Gln Glu Lys Phe Ser Cys Lys Ser Cys 435 440 445 Gly Phe Asn Ala Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Ala Asn 450 455 460 Ser Ile Lys Phe Ile Thr Thr Asn Lys Lys Ile Ile Glu Glu Leu Glu 465 470 475 480 Val Glu Glu Lys Gln Leu Ser Leu Asp Phe Asn Gly Ser 485 490 <210> 273 <211> 421 <212> PRT <213> Clostridioides difficile <400> 273 Met Leu Tyr Leu Pro Lys Tyr Ala Ile Ile Leu Leu Thr Cys Arg Ile 1 5 10 15 Arg Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val 20 25 30 Glu Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser 35 40 45 Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr 50 55 60 Ser Ala Tyr Leu Val Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys 65 70 75 80 Asp Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile 85 90 95 Asn Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val 100 105 110 Lys Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu 115 120 125 Arg Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly 130 135 140 Arg Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp 145 150 155 160 Val Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn 165 170 175 Lys Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr 180 185 190 Lys Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile 195 200 205 Leu Asn Leu Thr Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val 210 215 220 Lys Asp Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr 225 230 235 240 Val Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile 245 250 255 Asp Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg 260 265 270 Leu Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp 275 280 285 Lys Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val 290 295 300 Lys Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys 305 310 315 320 Lys Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly 325 330 335 Phe Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu 340 345 350 Met Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val 355 360 365 Asn Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Ala Asp 370 375 380 Lys Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly 385 390 395 400 Phe Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser 405 410 415 Asp Lys Phe Val Lys 420 <210> 274 <211> 421 <212> PRT <213> Clostridioides difficile <400> 274 Met Leu Tyr Leu Pro Lys Tyr Ala Ile Ile Leu Leu Thr Cys Arg Ile 1 5 10 15 Arg Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val 20 25 30 Glu Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser 35 40 45 Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr 50 55 60 Ser Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys 65 70 75 80 Asp Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile 85 90 95 Asn Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val 100 105 110 Lys Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu 115 120 125 Arg Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly 130 135 140 Arg Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp 145 150 155 160 Val Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn 165 170 175 Lys Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr 180 185 190 Lys Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile 195 200 205 Leu Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val 210 215 220 Lys Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr 225 230 235 240 Val Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile 245 250 255 Asp Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg 260 265 270 Leu Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp 275 280 285 Lys Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val 290 295 300 Lys Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys 305 310 315 320 Lys Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly 325 330 335 Phe Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu 340 345 350 Met Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val 355 360 365 Asn Pro Ser Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp 370 375 380 Lys Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly 385 390 395 400 Phe Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser 405 410 415 Asp Lys Phe Val Lys 420 <210> 275 <211> 507 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 275 Met Glu Glu Ala Lys Thr Val Ser Lys Thr Leu Ser Leu Arg Ile Leu 1 5 10 15 Arg Pro Leu Tyr Ser Ala Glu Ile Glu Lys Glu Ile Lys Glu Glu Lys 20 25 30 Glu Arg Arg Lys Gln Gly Gly Lys Ser Gly Glu Leu Asp Ser Gly Phe 35 40 45 Tyr Lys Lys Leu Glu Lys Lys His Thr Gln Met Phe Gly Trp Asp Lys 50 55 60 Leu Asn Leu Met Leu Ser Gln Leu Gln Arg Gln Ile Ala Arg Val Phe 65 70 75 80 Asn Gln Ser Ile Ser Glu Leu Tyr Ile Glu Thr Val Ile Gln Gly Lys 85 90 95 Lys Ser Asn Lys His Tyr Thr Ser Lys Ile Val Tyr Asn Arg Ala Tyr 100 105 110 Ser Val Phe Tyr Asn Ala Tyr Leu Ala Leu Gly Ile Thr Ser Lys Val 115 120 125 Glu Ala Asn Phe Arg Ser Thr Glu Leu Leu Met Gln Lys Ser Ser Leu 130 135 140 Pro Thr Ala Lys Ser Asp Asn Phe Pro Ile Leu Leu His Lys Gln Lys 145 150 155 160 Gly Val Glu Gly Glu Glu Gly Gly Phe Lys Ile Ser Ala Asp Gly Asn 165 170 175 Asp Leu Ile Phe Glu Ile Pro Ile Pro Phe Tyr Glu Tyr Asp Ser Ala 180 185 190 Asn Lys Lys Glu Pro Phe Lys Trp Ile Lys Lys Gly Gly Gln Lys Pro 195 200 205 Thr Ile Lys Leu Ile Leu Ser Thr Phe Arg Arg Gln Arg Asn Lys Gly 210 215 220 Trp Ala Lys Asp Glu Gly Thr Asp Ala Glu Ile Arg Lys Val Ile Glu 225 230 235 240 Gly Lys Tyr Gln Val Ser His Ile Glu Ile Asn Arg Gly Lys Lys Leu 245 250 255 Gly Asp His Gln Lys Trp Phe Val Asn Phe Thr Ile Glu Gln Pro Ile 260 265 270 Tyr Glu Arg Lys Leu Asp Lys Asn Ile Ile Gly Gly Ile Asp Val Gly 275 280 285 Ile Lys Ser Pro Leu Val Cys Ala Val Asn Asn Ser Phe Ala Arg Tyr 290 295 300 Ser Val Asp Ser Asn Asp Val Leu Lys Phe Ser Lys Gln Ala Phe Ala 305 310 315 320 Phe Arg Arg Arg Leu Leu Ser Lys Asn Ser Leu Lys Arg Ser Gly His 325 330 335 Gly Ser Lys Asn Lys Leu Asp Pro Ile Thr Arg Met Thr Glu Lys Asn 340 345 350 Asp Arg Phe Arg Lys Lys Ile Ile Glu Arg Trp Ala Lys Glu Val Thr 355 360 365 Asn Phe Phe Ile Lys Asn Gln Val Gly Thr Val Gln Ile Glu Asp Leu 370 375 380 Ser Thr Met Lys Asp Arg Gln Asp Asn Phe Phe Asn Gln Tyr Leu Arg 385 390 395 400 Gly Phe Trp Pro Tyr Tyr Gln Met Gln Asn Leu Ile Glu Asn Lys Leu 405 410 415 Lys Glu Tyr Gly Ile Glu Thr Lys Arg Ile Lys Ala Arg Tyr Thr Ser 420 425 430 Gln Leu Cys Ser Asn Pro Ser Cys Arg His Trp Asn Ser Tyr Phe Ser 435 440 445 Phe Asp His Arg Lys Thr Asn Asn Phe Pro Lys Phe Lys Cys Glu Lys 450 455 460 Cys Ala Leu Glu Ile Ser Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ser 465 470 475 480 Thr Pro Asp Ile Glu Lys Phe Val Ala Lys Ala Thr Lys Gly Ile Asn 485 490 495 Leu Pro Asp Lys Asn Glu Asn Val Ile Leu Glu 500 505 <210> 276 <211> 541 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 276 Met Trp Thr Ile Val Ile Gly Asp Phe Ile Glu Met Pro Lys Gln Asp 1 5 10 15 Leu Val Thr Thr Gly Ile Lys Phe Lys Leu Asp Val Asp Lys Glu Thr 20 25 30 Arg Lys Lys Leu Asp Asp Tyr Phe Asp Glu Tyr Gly Lys Ala Ile Asn 35 40 45 Phe Ala Val Lys Ile Ile Gln Lys Asn Leu Lys Glu Asp Arg Phe Ala 50 55 60 Gly Lys Ile Ala Leu Gly Glu Asp Lys Lys Pro Leu Leu Asp Lys Asp 65 70 75 80 Gly Lys Lys Ile Tyr Asn Tyr Pro Asn Glu Ser Cys Ser Cys Gly Asn 85 90 95 Gln Val Arg Arg Tyr Val Asn Ala Lys Pro Phe Cys Val Asp Cys Tyr 100 105 110 Lys Leu Lys Phe Thr Glu Asn Gly Ile Arg Lys Arg Met Tyr Ser Ala 115 120 125 Arg Gly Arg Lys Ala Asp Ser Asp Ile Asn Ile Lys Asn Ser Thr Asn 130 135 140 Lys Ile Ser Lys Thr His Phe Asn Tyr Ala Ile Arg Glu Gly Phe Ile 145 150 155 160 Leu Asp Lys Ser Leu Lys Lys Gln Arg Ser Lys Arg Ile Lys Lys Leu 165 170 175 Leu Glu Leu Lys Arg Lys Leu Gln Glu Phe Ile Asp Ile Arg Gln Gly 180 185 190 Gln Met Val Leu Cys Pro Lys Ile Lys Asn Gln Arg Val Asp Lys Phe 195 200 205 Ile His Pro Ser Trp Leu Lys Arg Asp Lys Lys Leu Glu Glu Phe Arg 210 215 220 Gly Tyr Ser Leu Ser Val Val Glu Gly Lys Ile Lys Ile Phe Asn Arg 225 230 235 240 Asn Ile Leu Arg Glu Glu Asp Ser Leu Arg Gln Arg Gly His Val Asn 245 250 255 Phe Lys Ala Asn Arg Ile Met Leu Asp Lys Ser Val Arg Phe Leu Asp 260 265 270 Gly Gly Lys Val Asn Phe Asn Leu Asn Lys Gly Leu Pro Lys Glu Tyr 275 280 285 Leu Leu Asp Leu Pro Lys Lys Glu Asn Lys Leu Ser Trp Leu Asn Glu 290 295 300 Lys Ile Ser Leu Ile Lys Leu Gln Lys Pro Lys Tyr Ala Tyr Leu Leu 305 310 315 320 Arg Arg Glu Gly Ser Phe Phe Ile Gln Tyr Thr Ile Glu Asn Val Pro 325 330 335 Lys Thr Phe Ser Asp Tyr Leu Gly Ala Ile Gly Ile Asp Arg Gly Ile 340 345 350 Ser His Ile Ala Val Cys Thr Phe Val Ser Lys Asn Gly Val Asn Lys 355 360 365 Ala Pro Val Phe Phe Ser Ser Gly Glu Ile Leu Lys Leu Lys Ser Leu 370 375 380 Gln Lys Gln Arg Asp Leu Phe Leu Arg Gly Lys His Asn Lys Ile Arg 385 390 395 400 Lys Lys Ser Asn Met Arg Asn Ile Asp Asn Lys Ile Asn Leu Ile Leu 405 410 415 His Lys Tyr Ser Arg Asn Ile Val Asn Leu Ala Lys Ser Glu Lys Ala 420 425 430 Phe Ile Val Phe Glu Lys Leu Glu Lys Ile Lys Lys Ser Arg Phe Lys 435 440 445 Met Ser Lys Ser Leu Gln Tyr Lys Leu Ser Gln Phe Thr Phe Lys Lys 450 455 460 Leu Ser Asp Leu Val Glu Tyr Lys Ala Lys Ile Glu Gly Ile Lys Val 465 470 475 480 Asp Tyr Val Pro Pro Glu Tyr Thr Ser Lys Glu Cys Ser His Cys Gly 485 490 495 Glu Lys Val Asp Thr Gln Arg Pro Phe Asn Gly Asn Ser Ser Leu Phe 500 505 510 Lys Cys Asn Lys Cys Arg Val Gln Leu Asn Ala Asp Tyr Asn Ala Ser 515 520 525 Ile Asn Ile Ala Lys Lys Ser Leu Asn Ile Ser Asn Asn 530 535 540 <210> 277 <211> 537 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 277 Met Glu Glu Ser Ile Ile Thr Gly Val Lys Phe Lys Leu Arg Ile Asp 1 5 10 15 Lys Glu Thr Thr Lys Lys Leu Asn Glu Tyr Phe Asp Glu Tyr Gly Lys 20 25 30 Ala Ile Asn Phe Ala Val Lys Ile Ile Gln Lys Glu Leu Ala Asp Asp 35 40 45 Arg Phe Ala Gly Lys Ala Lys Leu Asp Gln Asn Lys Asn Pro Ile Leu 50 55 60 Asp Glu Asn Gly Lys Lys Ile Tyr Glu Phe Pro Asp Glu Phe Cys Ser 65 70 75 80 Cys Gly Lys Gln Val Asn Lys Tyr Val Asn Asn Lys Pro Phe Cys Gln 85 90 95 Glu Cys Tyr Lys Ile Arg Phe Thr Glu Asn Gly Ile Arg Lys Arg Met 100 105 110 Tyr Ser Ala Lys Gly Arg Lys Ala Glu His Lys Ile Asn Ile Leu Asn 115 120 125 Ser Thr Asn Lys Ile Ser Lys Thr His Phe Asn Tyr Ala Ile Arg Glu 130 135 140 Ala Phe Ile Leu Asp Lys Ser Ile Lys Lys Gln Arg Lys Lys Arg Asn 145 150 155 160 Glu Arg Leu Arg Glu Ser Lys Lys Arg Leu Gln Gln Phe Ile Asp Met 165 170 175 Arg Asp Gly Lys Arg Glu Ile Cys Pro Thr Ile Lys Gly Gln Lys Val 180 185 190 Asp Arg Phe Ile His Pro Ser Trp Ile Thr Lys Asp Lys Lys Leu Glu 195 200 205 Asp Phe Arg Gly Tyr Thr Leu Ser Ile Ile Asn Ser Lys Ile Lys Ile 210 215 220 Leu Asp Arg Asn Ile Lys Arg Glu Glu Lys Ser Leu Lys Glu Lys Gly 225 230 235 240 Gln Ile Ile Phe Lys Ala Lys Arg Leu Met Leu Asp Lys Ser Ile Arg 245 250 255 Phe Val Gly Asp Arg Lys Val Leu Phe Thr Ile Ser Lys Thr Leu Pro 260 265 270 Lys Glu Tyr Glu Leu Asp Leu Pro Ser Lys Glu Lys Arg Leu Asn Trp 275 280 285 Leu Lys Glu Lys Ile Glu Ile Ile Lys Asn Gln Lys Pro Lys Tyr Ala 290 295 300 Tyr Leu Leu Arg Lys Asn Ile Glu Ser Glu Lys Lys Pro Asn Tyr Glu 305 310 315 320 Tyr Tyr Leu Gln Tyr Thr Leu Glu Ile Lys Pro Glu Leu Lys Asp Phe 325 330 335 Tyr Asp Gly Ala Ile Gly Ile Asp Arg Gly Ile Asn His Ile Ala Val 340 345 350 Cys Thr Phe Ile Ser Asn Asp Gly Lys Val Thr Pro Pro Lys Phe Phe 355 360 365 Ser Ser Gly Glu Ile Leu Arg Leu Lys Asn Leu Gln Lys Glu Arg Asp 370 375 380 Arg Phe Leu Leu Arg Lys His Asn Lys Asn Arg Lys Lys Gly Asn Met 385 390 395 400 Arg Val Ile Glu Asn Lys Ile Asn Leu Ile Leu His Arg Tyr Ser Lys 405 410 415 Gln Ile Val Asp Met Ala Lys Lys Leu Asn Ala Ser Ile Val Phe Glu 420 425 430 Glu Leu Gly Arg Ile Gly Lys Ser Arg Thr Lys Met Lys Lys Ser Gln 435 440 445 Arg Tyr Lys Leu Ser Leu Phe Ile Phe Lys Lys Leu Ser Asp Leu Val 450 455 460 Asp Tyr Lys Ser Arg Arg Glu Gly Ile Arg Val Thr Tyr Val Pro Pro 465 470 475 480 Glu Tyr Thr Ser Lys Glu Cys Ser His Cys Gly Glu Lys Val Asn Thr 485 490 495 Gln Arg Pro Phe Asn Gly Asn Tyr Ser Leu Phe Lys Cys Asn Lys Cys 500 505 510 Gly Ile Gln Leu Asn Ser Asp Tyr Asn Ala Ser Ile Asn Ile Ala Lys 515 520 525 Lys Gly Leu Lys Ile Pro Asn Ser Thr 530 535 <210> 278 <211> 534 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 278 Met Lys Leu Ser Glu Gln Glu Asn Ile Thr Thr Gly Val Lys Phe Lys 1 5 10 15 Leu Lys Leu Asp Lys Glu Thr Ser Glu Gly Leu Asn Asp Tyr Phe Asp 20 25 30 Glu Tyr Gly Lys Ala Ile Asn Phe Ala Ile Lys Val Ile Gln Lys Glu 35 40 45 Leu Ala Glu Asp Arg Phe Ala Gly Lys Val Arg Leu Asp Glu Asn Lys 50 55 60 Lys Pro Leu Leu Asn Glu Asp Gly Lys Lys Ile Trp Asp Phe Pro Asn 65 70 75 80 Glu Phe Cys Ser Cys Gly Lys Gln Val Asn Arg Tyr Val Asn Gly Lys 85 90 95 Ser Leu Cys Gln Glu Cys Tyr Lys Asn Lys Phe Thr Glu Tyr Gly Ile 100 105 110 Arg Lys Arg Met Tyr Ser Ala Lys Gly Arg Lys Ala Glu Gln Asp Ile 115 120 125 Asn Ile Lys Asn Ser Thr Asn Lys Ile Ser Lys Thr His Phe Asn Tyr 130 135 140 Ala Ile Arg Glu Ala Phe Ile Leu Asp Lys Ser Ile Lys Lys Gln Arg 145 150 155 160 Lys Glu Arg Phe Arg Arg Leu Arg Glu Met Lys Lys Lys Leu Gln Glu 165 170 175 Phe Ile Glu Ile Arg Asp Gly Asn Lys Ile Leu Cys Pro Lys Ile Glu 180 185 190 Lys Gln Arg Val Glu Arg Tyr Ile His Pro Ser Trp Ile Asn Lys Glu 195 200 205 Lys Lys Leu Glu Asp Phe Arg Gly Tyr Ser Met Ser Asn Val Leu Gly 210 215 220 Lys Ile Lys Ile Leu Asp Arg Asn Ile Lys Arg Glu Glu Lys Ser Leu 225 230 235 240 Lys Glu Lys Gly Gln Ile Asn Phe Lys Ala Arg Arg Leu Met Leu Asp 245 250 255 Lys Ser Val Lys Phe Leu Asn Asp Asn Lys Ile Ser Phe Thr Ile Ser 260 265 270 Lys Asn Leu Pro Lys Glu Tyr Glu Leu Asp Leu Pro Glu Lys Glu Lys 275 280 285 Arg Leu Asn Trp Leu Lys Glu Lys Ile Lys Ile Ile Lys Asn Gln Lys 290 295 300 Pro Lys Tyr Ala Tyr Leu Leu Arg Lys Asp Asp Asn Phe Tyr Leu Gln 305 310 315 320 Tyr Thr Leu Glu Thr Glu Phe Asn Leu Lys Glu Asp Tyr Ser Gly Ile 325 330 335 Val Gly Ile Asp Arg Gly Val Ser His Ile Ala Val Tyr Thr Phe Val 340 345 350 His Asn Asn Gly Lys Asn Glu Arg Pro Leu Phe Leu Asn Ser Ser Glu 355 360 365 Ile Leu Arg Leu Lys Asn Leu Gln Lys Glu Arg Asp Arg Phe Leu Arg 370 375 380 Arg Lys His Asn Lys Lys Arg Lys Lys Ser Asn Met Arg Asn Ile Glu 385 390 395 400 Lys Lys Ile Gln Leu Ile Leu His Asn Tyr Ser Lys Gln Ile Val Asp 405 410 415 Phe Ala Lys Asn Lys Asn Ala Phe Ile Val Phe Glu Lys Leu Glu Lys 420 425 430 Pro Lys Lys Asn Arg Ser Lys Met Ser Lys Lys Ser Gln Tyr Lys Leu 435 440 445 Ser Gln Phe Thr Phe Lys Lys Leu Ser Asp Leu Val Asp Tyr Lys Ala 450 455 460 Lys Arg Glu Gly Ile Lys Val Leu Tyr Ile Ser Pro Glu Tyr Thr Ser 465 470 475 480 Lys Glu Cys Ser His Cys Gly Glu Lys Val Asn Thr Gln Arg Pro Phe 485 490 495 Asn Gly Asn Ser Ser Leu Phe Lys Cys Asn Lys Cys Gly Val Glu Leu 500 505 510 Asn Ala Asp Tyr Asn Ala Ser Ile Asn Ile Ala Lys Lys Gly Leu Asn 515 520 525 Ile Leu Asn Ser Thr Asn 530 <210> 279 <211> 726 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 279 Met Glu Arg Gln Lys Val Pro Gln Ile Arg Lys Ile Val Arg Val Val 1 5 10 15 Pro Leu Arg Ile Leu Arg Pro Lys Tyr Ser Asp Val Ile Glu Asn Ala 20 25 30 Leu Lys Lys Phe Lys Glu Lys Gly Asp Asp Thr Asn Thr Asn Asp Phe 35 40 45 Trp Arg Ala Ile Arg Asp Arg Asp Thr Glu Phe Phe Arg Lys Glu Leu 50 55 60 Asn Phe Ser Glu Asp Glu Ile Asn Gln Leu Glu Arg Asp Thr Leu Phe 65 70 75 80 Arg Val Gly Leu Asp Asn Arg Val Leu Phe Ser Tyr Phe Asp Phe Leu 85 90 95 Gln Glu Lys Leu Met Lys Asp Tyr Asn Lys Ile Ile Ser Lys Leu Phe 100 105 110 Ile Asn Arg Gln Ser Lys Ser Ser Phe Glu Asn Asp Leu Thr Asp Glu 115 120 125 Glu Val Glu Glu Leu Ile Glu Lys Asp Val Thr Pro Phe Tyr Gly Ala 130 135 140 Tyr Ile Gly Lys Gly Ile Lys Ser Val Ile Lys Ser Asn Leu Gly Gly 145 150 155 160 Lys Phe Ile Lys Ser Val Lys Ile Asp Arg Glu Thr Lys Lys Val Thr 165 170 175 Lys Leu Thr Ala Ile Asn Ile Gly Leu Met Gly Leu Pro Val Ala Lys 180 185 190 Ser Asp Thr Phe Pro Ile Lys Ile Ile Lys Thr Asn Pro Asp Tyr Ile 195 200 205 Thr Phe Gln Lys Ser Thr Lys Glu Asn Leu Gln Lys Ile Glu Asp Tyr 210 215 220 Glu Thr Gly Ile Glu Tyr Gly Asp Leu Leu Val Gln Ile Thr Ile Pro 225 230 235 240 Trp Phe Lys Asn Glu Asn Lys Asp Phe Ser Leu Ile Lys Thr Lys Glu 245 250 255 Ala Ile Glu Tyr Tyr Lys Leu Asn Gly Val Gly Lys Lys Asp Leu Leu 260 265 270 Asn Ile Asn Leu Val Leu Thr Thr Tyr His Ile Arg Lys Lys Lys Ser 275 280 285 Trp Gln Ile Asp Gly Ser Ser Gln Ser Leu Val Arg Glu Met Ala Asn 290 295 300 Gly Glu Leu Glu Glu Lys Trp Lys Ser Phe Phe Asp Thr Phe Ile Lys 305 310 315 320 Lys Tyr Gly Asp Glu Gly Lys Ser Ala Leu Val Lys Arg Arg Val Asn 325 330 335 Lys Lys Ser Arg Ala Lys Gly Glu Lys Gly Arg Glu Leu Asn Leu Asp 340 345 350 Glu Arg Ile Lys Arg Leu Tyr Asp Ser Ile Lys Ala Lys Ser Phe Pro 355 360 365 Ser Glu Ile Asn Leu Ile Pro Glu Asn Tyr Lys Trp Lys Leu His Phe 370 375 380 Ser Ile Glu Ile Pro Pro Met Val Asn Asp Ile Asp Ser Asn Leu Tyr 385 390 395 400 Gly Gly Ile Asp Phe Gly Glu Gln Asn Ile Ala Thr Leu Cys Val Lys 405 410 415 Asn Ile Glu Lys Asp Asp Tyr Asp Phe Leu Thr Ile Tyr Gly Asn Asp 420 425 430 Leu Leu Lys His Ala Gln Ala Ser Tyr Ala Arg Arg Arg Ile Met Arg 435 440 445 Val Gln Asp Glu Tyr Lys Ala Arg Gly His Gly Lys Ser Arg Lys Thr 450 455 460 Lys Ala Gln Glu Asp Tyr Ser Glu Arg Met Gln Lys Leu Arg Gln Lys 465 470 475 480 Ile Thr Glu Arg Leu Val Lys Gln Ile Ser Asp Phe Phe Leu Trp Arg 485 490 495 Asn Lys Phe His Met Ala Val Cys Ser Leu Arg Tyr Glu Asp Leu Asn 500 505 510 Thr Leu Tyr Lys Gly Glu Ser Val Lys Ala Lys Arg Met Arg Gln Phe 515 520 525 Ile Asn Lys Gln Gln Leu Phe Asn Gly Ile Glu Arg Lys Leu Lys Asp 530 535 540 Tyr Asn Ser Glu Ile Tyr Val Asn Ser Arg Tyr Pro His Tyr Thr Ser 545 550 555 560 Arg Leu Cys Ser Lys Cys Gly Lys Leu Asn Leu Tyr Phe Asp Phe Leu 565 570 575 Lys Phe Arg Thr Lys Asn Ile Ile Ile Arg Lys Asn Pro Asp Gly Ser 580 585 590 Glu Ile Lys Tyr Met Pro Phe Phe Ile Cys Glu Phe Cys Gly Trp Lys 595 600 605 Gln Ala Gly Asp Lys Asn Ala Ser Ala Asn Ile Ala Asp Lys Asp Tyr 610 615 620 Gln Asp Lys Leu Asn Lys Glu Lys Glu Phe Cys Asn Ile Arg Lys Pro 625 630 635 640 Lys Ser Lys Lys Glu Asp Ile Gly Glu Glu Asn Glu Glu Glu Arg Asp 645 650 655 Tyr Ser Arg Arg Phe Asn Arg Asn Ser Phe Ile Tyr Asn Ser Leu Lys 660 665 670 Lys Asp Asn Lys Leu Asn Gln Glu Lys Leu Phe Asp Glu Trp Lys Asn 675 680 685 Gln Leu Lys Arg Lys Ile Asp Gly Arg Asn Lys Phe Glu Pro Lys Glu 690 695 700 Tyr Lys Asp Arg Phe Ser Tyr Leu Phe Ala Tyr Tyr Gln Glu Ile Ile 705 710 715 720 Lys Asn Glu Ser Glu Ser 725 <210> 280 <211> 777 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 280 Met Val Thr Arg Ala Ile Lys Leu Lys Leu Asp Pro Thr Lys Asn Gln 1 5 10 15 Tyr Lys Leu Leu Asn Glu Met Phe Trp Lys Trp Ala Ser Leu Ala Asn 20 25 30 Arg Phe Ser Gln Lys Gly Ala Ser Lys Glu Thr Leu Ala Pro Lys Asp 35 40 45 Gly Thr Gln Lys Ile Gln Phe Asn Ala Thr Gln Leu Asn Gln Ile Lys 50 55 60 Lys Asp Val Asp Asp Leu Arg Gly Ala Met Glu Lys Gln Gly Lys Gln 65 70 75 80 Lys Glu Arg Leu Leu Ile Gln Ile Gln Glu Arg Leu Leu Thr Ile Ser 85 90 95 Glu Ile Leu Arg Asp Asp Ser Lys Lys Glu Lys Asp Pro His Arg Pro 100 105 110 Gln Asn Phe Arg Pro Phe Gly Trp Arg Arg Phe His Thr Ser Ala Tyr 115 120 125 Trp Ser Ser Glu Ala Ser Lys Leu Thr Arg Gln Val Asp Arg Val Arg 130 135 140 Arg Thr Ile Glu Arg Ile Lys Ala Gly Lys Ile Asn Phe Lys Pro Lys 145 150 155 160 Arg Ile Gly Leu Trp Ser Ser Thr Tyr Lys Ile Asn Phe Leu Lys Lys 165 170 175 Lys Ile Asn Ile Ser Pro Leu Lys Ser Lys Ser Phe Glu Leu Asp Leu 180 185 190 Ile Thr Glu Pro Gln Gln Lys Ile Ile Gly Lys Glu Gly Gly Lys Ser 195 200 205 Val Ala Asn Ser Lys Lys Tyr Leu Asp Asp Ser Ile Lys Ser Leu Leu 210 215 220 Ile Phe Ala Ile Lys Ser Arg Leu Phe Gly Leu Asn Asn Lys Asp Lys 225 230 235 240 Pro Leu Phe Glu Asn Ile Ile Thr Pro Asn Leu Val Arg Tyr His Lys 245 250 255 Lys Gly Gln Glu Gln Glu Asn Phe Lys Lys Glu Val Ile Lys Lys Phe 260 265 270 Glu Asn Lys Leu Lys Lys Glu Ile Ser Gln Lys Gln Lys Glu Ile Ile 275 280 285 Phe Ser Gln Ile Glu Arg Gln Tyr Glu Asn Arg Asp Ala Thr Phe Ser 290 295 300 Glu Asp Tyr Leu Arg Ala Ile Ser Glu Phe Ser Glu Ile Phe Asn Gln 305 310 315 320 Arg Lys Lys Glu Arg Ala Lys Glu Leu Leu Asn Ser Phe Asn Glu Lys 325 330 335 Ile Arg Gln Leu Lys Lys Glu Val Asn Gly Asn Ile Ser Glu Glu Asp 340 345 350 Leu Lys Ile Leu Glu Val Glu Ala Glu Lys Ala Tyr Asn Tyr Glu Asn 355 360 365 Gly Phe Ile Glu Trp Glu Tyr Ser Glu Gln Phe Leu Gly Val Leu Glu 370 375 380 Lys Ile Ala Arg Ala Val Leu Ile Ser Asp Asn Tyr Phe Asp Leu Lys 385 390 395 400 Lys Tyr Pro Ile Leu Ile Arg Lys Pro Thr Asn Lys Ser Lys Lys Ile 405 410 415 Thr Asn Leu Lys Pro Glu Glu Trp Asp Tyr Tyr Ile Gln Phe Gly Tyr 420 425 430 Gly Leu Ile Asn Ser Pro Met Lys Ile Glu Thr Lys Asn Phe Met Gly 435 440 445 Ile Asp Arg Gly Leu Thr His Leu Leu Ala Tyr Ser Ile Phe Asp Arg 450 455 460 Asp Ser Glu Lys Phe Thr Ile Asn Gln Leu Glu Leu Asn Pro Ile Lys 465 470 475 480 Gly Trp Lys Trp Lys Leu Arg Lys Val Lys Arg Ser Leu Gln His Leu 485 490 495 Glu Arg Arg Met Arg Ala Gln Lys Gly Val Lys Leu Pro Glu Asn Gln 500 505 510 Met Lys Lys Arg Leu Lys Ser Ile Glu Pro Lys Ile Glu Ser Tyr Tyr 515 520 525 His Asn Leu Ser Arg Lys Ile Val Asn Leu Ala Lys Ala Asn Asn Ala 530 535 540 Ser Ile Val Val Glu Ser Leu Glu Gly Gly Gly Leu Lys Gln His Gly 545 550 555 560 Arg Lys Lys Asn Ser Arg His Arg Ala Leu Asn Tyr Ala Leu Ser Leu 565 570 575 Phe Asp Tyr Gly Lys Ile Ala Ser Leu Ile Lys Tyr Lys Ser Asp Leu 580 585 590 Glu Gly Val Pro Met Tyr Glu Val Leu Pro Ala Tyr Thr Ser Gln Gln 595 600 605 Cys Ala Lys Cys Val Leu Lys Lys Gly Ser Phe Val Glu Pro Glu Ile 610 615 620 Ile Gly Tyr Ile Glu Glu Ile Gly Phe Lys Glu Asn Leu Leu Thr Leu 625 630 635 640 Leu Phe Glu Asp Thr Gly Leu Ser Ser Val Gln Val Leu Lys Lys Ser 645 650 655 Lys Asn Lys Met Thr Leu Ser Ala Arg Asp Lys Glu Gly Lys Met Val 660 665 670 Asp Leu Val Leu Lys Tyr Asn Phe Lys Gly Leu Val Ile Ser Gln Glu 675 680 685 Lys Lys Lys Glu Glu Ile Val Glu Phe Pro Ile Lys Glu Ile Asp Gly 690 695 700 Lys Phe Ala Val Leu Asp Ser Ala Tyr Lys Arg Gly Lys Glu Arg Ile 705 710 715 720 Ser Lys Lys Gly Asn Gln Lys Leu Val Tyr Thr Gly Asn Lys Lys Val 725 730 735 Gly Tyr Cys Ser Val His Gly Gln Val Asp Ala Asp Leu Asn Ala Ser 740 745 750 Arg Val Ile Ala Leu Cys Lys Tyr Leu Gly Ile Asn Glu Pro Ile Val 755 760 765 Phe Gly Glu Gln Arg Lys Ser Phe Lys 770 775 <210> 281 <211> 610 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 281 Met Asp Leu Ile Thr Glu Pro Ile Gln Pro His Lys Ser Ser Ser Leu 1 5 10 15 Arg Ser Lys Glu Phe Leu Glu Tyr Gln Ile Ser Asp Phe Leu Asn Phe 20 25 30 Ser Leu His Ser Leu Phe Phe Gly Leu Ala Ser Asn Glu Gly Pro Leu 35 40 45 Val Asp Phe Lys Ile Tyr Asp Lys Ile Val Ile Pro Lys Pro Glu Glu 50 55 60 Arg Phe Pro Lys Lys Glu Ser Glu Glu Gly Lys Lys Leu Asp Ser Phe 65 70 75 80 Asp Lys Arg Val Glu Glu Tyr Tyr Ser Asp Lys Leu Glu Lys Lys Ile 85 90 95 Glu Arg Lys Leu Asn Thr Glu Glu Lys Asn Val Ile Asp Arg Glu Lys 100 105 110 Thr Arg Ile Trp Gly Glu Val Asn Lys Leu Glu Glu Ile Arg Ser Ile 115 120 125 Ile Asp Glu Ile Asn Glu Ile Lys Lys Gln Lys His Ile Ser Glu Lys 130 135 140 Ser Lys Leu Leu Gly Glu Lys Trp Lys Lys Val Asn Asn Ile Gln Glu 145 150 155 160 Thr Leu Leu Ser Gln Glu Tyr Val Ser Leu Ile Ser Asn Leu Ser Asp 165 170 175 Glu Leu Thr Asn Lys Lys Lys Glu Leu Leu Ala Lys Lys Tyr Ser Lys 180 185 190 Phe Asp Asp Lys Ile Lys Lys Ile Lys Glu Asp Tyr Gly Leu Glu Phe 195 200 205 Asp Glu Asn Thr Ile Lys Lys Glu Gly Glu Lys Ala Phe Leu Asn Pro 210 215 220 Asp Lys Phe Ser Lys Tyr Gln Phe Ser Ser Ser Tyr Leu Lys Leu Ile 225 230 235 240 Gly Glu Ile Ala Arg Ser Leu Ile Thr Tyr Lys Gly Phe Leu Asp Leu 245 250 255 Asn Lys Tyr Pro Ile Ile Phe Arg Lys Pro Ile Asn Lys Val Lys Lys 260 265 270 Ile His Asn Leu Glu Pro Asp Glu Trp Lys Tyr Tyr Ile Gln Phe Gly 275 280 285 Tyr Glu Gln Ile Asn Asn Pro Lys Leu Glu Thr Glu Asn Ile Leu Gly 290 295 300 Ile Asp Arg Gly Leu Thr His Ile Leu Ala Tyr Ser Val Phe Glu Pro 305 310 315 320 Arg Ser Ser Lys Phe Ile Leu Asn Lys Leu Glu Pro Asn Pro Ile Glu 325 330 335 Gly Trp Lys Trp Lys Leu Arg Lys Leu Arg Arg Ser Ile Gln Asn Leu 340 345 350 Glu Arg Arg Trp Arg Ala Gln Asp Asn Val Lys Leu Pro Glu Asn Gln 355 360 365 Met Lys Lys Asn Leu Arg Ser Ile Glu Asp Lys Val Glu Asn Leu Tyr 370 375 380 His Asn Leu Ser Arg Lys Ile Val Asp Leu Ala Lys Glu Lys Asn Ala 385 390 395 400 Cys Ile Val Phe Glu Lys Leu Glu Gly Gln Gly Met Lys Gln His Gly 405 410 415 Arg Lys Lys Ser Asp Arg Leu Arg Gly Leu Asn Tyr Lys Leu Ser Leu 420 425 430 Phe Asp Tyr Gly Lys Ile Ala Lys Leu Ile Lys Tyr Lys Ala Glu Ile 435 440 445 Glu Gly Ile Pro Ile Tyr Arg Ile Asp Ser Ala Tyr Thr Ser Gln Asn 450 455 460 Cys Ala Lys Cys Val Leu Glu Ser Arg Arg Phe Ala Gln Pro Glu Glu 465 470 475 480 Ile Ser Cys Leu Asp Asp Phe Lys Glu Gly Asp Asn Leu Asp Lys Arg 485 490 495 Ile Leu Glu Gly Thr Gly Leu Val Glu Ala Lys Ile Tyr Lys Lys Leu 500 505 510 Leu Lys Glu Lys Lys Glu Asp Phe Glu Ile Glu Glu Asp Ile Ala Met 515 520 525 Phe Asp Thr Lys Lys Val Ile Lys Glu Asn Lys Glu Lys Thr Val Ile 530 535 540 Leu Asp Tyr Val Tyr Thr Arg Arg Lys Glu Ile Ile Gly Thr Asn His 545 550 555 560 Lys Lys Asn Ile Lys Gly Ile Ala Lys Tyr Thr Gly Asn Thr Lys Ile 565 570 575 Gly Tyr Cys Met Lys His Gly Gln Val Asp Ala Asp Leu Asn Ala Ser 580 585 590 Arg Thr Ile Ala Leu Cys Lys Asn Phe Asp Ile Asn Asn Pro Glu Ile 595 600 605 Trp Lys 610 <210> 282 <211> 564 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 282 Met Ala Arg Ala Lys Asn Gln Pro Tyr Gln Lys Leu Thr Thr Thr Thr 1 5 10 15 Gly Ile Lys Phe Lys Leu Asp Leu Ser Glu Glu Glu Gly Lys Arg Phe 20 25 30 Asp Glu Tyr Phe Ser Glu Tyr Ala Lys Ala Val Asn Phe Cys Ala Lys 35 40 45 Val Ile Tyr Gln Leu Arg Lys Asn Leu Lys Phe Ala Gly Lys Lys Glu 50 55 60 Leu Ala Ala Lys Glu Trp Lys Phe Glu Ile Ser Asn Cys Asp Phe Cys 65 70 75 80 Asn Lys Gln Lys Glu Ile Tyr Tyr Lys Asn Ile Ala Asn Gly Gln Lys 85 90 95 Val Cys Lys Gly Cys His Arg Thr Asn Phe Ser Asp Asn Ala Ile Arg 100 105 110 Lys Lys Met Ile Pro Val Lys Gly Arg Lys Val Glu Ser Lys Phe Asn 115 120 125 Ile His Asn Thr Thr Lys Lys Ile Ser Gly Thr His Arg His Trp Ala 130 135 140 Phe Glu Asp Ala Ala Asp Ile Ile Glu Ser Met Asp Lys Gln Arg Lys 145 150 155 160 Glu Lys Gln Lys Arg Leu Arg Arg Glu Lys Arg Lys Leu Ser Tyr Phe 165 170 175 Phe Glu Leu Phe Gly Asp Pro Ala Lys Arg Tyr Glu Leu Pro Lys Val 180 185 190 Gly Lys Gln Arg Val Pro Arg Tyr Leu His Lys Ile Ile Asp Lys Asp 195 200 205 Ser Leu Thr Lys Lys Arg Gly Tyr Ser Leu Ser Tyr Ile Lys Asn Lys 210 215 220 Ile Lys Ile Ser Glu Arg Asn Ile Glu Arg Asp Glu Lys Ser Leu Arg 225 230 235 240 Lys Ala Ser Pro Ile Ala Phe Gly Ala Arg Lys Ile Lys Met Ser Lys 245 250 255 Leu Asp Pro Lys Arg Ala Phe Asp Leu Glu Asn Asn Val Phe Lys Ile 260 265 270 Pro Gly Lys Val Ile Lys Gly Gln Tyr Lys Phe Phe Gly Thr Asn Val 275 280 285 Ala Asn Glu His Gly Lys Lys Phe Tyr Lys Asp Arg Ile Ser Lys Ile 290 295 300 Leu Ala Gly Lys Pro Lys Tyr Phe Tyr Leu Leu Arg Lys Lys Val Ala 305 310 315 320 Glu Ser Asp Gly Asn Pro Ile Phe Glu Tyr Tyr Val Gln Trp Ser Ile 325 330 335 Asp Thr Glu Thr Pro Ala Ile Thr Ser Tyr Asp Asn Ile Leu Gly Ile 340 345 350 Asp Ala Gly Ile Thr Asn Leu Ala Thr Thr Val Leu Ile Pro Lys Asn 355 360 365 Leu Ser Ala Glu His Cys Ser His Cys Gly Asn Asn His Val Lys Pro 370 375 380 Ile Phe Thr Lys Phe Phe Ser Gly Lys Glu Leu Lys Ala Ile Lys Ile 385 390 395 400 Lys Ser Arg Lys Gln Lys Tyr Phe Leu Arg Gly Lys His Asn Lys Leu 405 410 415 Val Lys Ile Lys Arg Ile Arg Pro Ile Glu Gln Lys Val Asp Gly Tyr 420 425 430 Cys His Val Val Ser Lys Gln Ile Val Glu Met Ala Lys Glu Arg Asn 435 440 445 Ser Cys Ile Ala Leu Glu Lys Leu Glu Lys Pro Lys Lys Ser Lys Phe 450 455 460 Arg Gln Arg Arg Arg Glu Lys Tyr Ala Val Ser Met Phe Val Phe Lys 465 470 475 480 Lys Leu Ala Thr Phe Ile Lys Tyr Lys Ala Ala Arg Glu Gly Ile Glu 485 490 495 Ile Ile Pro Val Glu Pro Glu Gly Thr Ser Tyr Thr Cys Ser His Cys 500 505 510 Lys Asn Ala Gln Asn Asn Gln Arg Pro Tyr Phe Lys Pro Asn Ser Lys 515 520 525 Lys Ser Trp Thr Ser Met Phe Lys Cys Gly Lys Cys Gly Ile Glu Leu 530 535 540 Asn Ser Asp Tyr Asn Ala Ala Phe Asn Ile Ala Gln Lys Ala Leu Asn 545 550 555 560 Met Thr Ser Ala <210> 283 <211> 610 <212> PRT <213> Unknown <220> <223> uncultured archaeon <400> 283 Met Asp Glu Lys His Phe Phe Cys Ser Tyr Cys Asn Lys Glu Leu Lys 1 5 10 15 Ile Ser Lys Asn Leu Ile Asn Lys Ile Ser Lys Gly Ser Ile Arg Glu 20 25 30 Asp Glu Ala Val Ser Lys Ala Ile Ser Ile His Asn Lys Lys Glu His 35 40 45 Ser Leu Ile Leu Gly Ile Lys Phe Lys Leu Phe Ile Glu Asn Lys Leu 50 55 60 Asp Lys Lys Lys Leu Asn Glu Tyr Phe Asp Asn Tyr Ser Lys Ala Val 65 70 75 80 Thr Phe Ala Ala Arg Ile Phe Asp Lys Ile Arg Ser Pro Tyr Lys Phe 85 90 95 Ile Gly Leu Lys Asp Lys Asn Thr Lys Lys Trp Thr Phe Pro Lys Ala 100 105 110 Lys Cys Val Phe Cys Leu Glu Glu Lys Glu Val Ala Tyr Ala Asn Glu 115 120 125 Lys Asp Asn Ser Lys Ile Cys Thr Glu Cys Tyr Leu Lys Glu Phe Gly 130 135 140 Glu Asn Gly Ile Arg Lys Lys Ile Tyr Ser Thr Arg Gly Arg Lys Val 145 150 155 160 Glu Pro Lys Tyr Asn Ile Phe Asn Ser Thr Lys Glu Leu Ser Ser Thr 165 170 175 His Tyr Asn Tyr Ala Ile Arg Asp Ala Phe Gln Leu Leu Asp Ala Leu 180 185 190 Lys Lys Gln Arg Gln Lys Lys Leu Lys Ser Ile Phe Asn Gln Lys Leu 195 200 205 Arg Leu Lys Glu Phe Glu Asp Ile Phe Ser Asp Pro Gln Lys Arg Ile 210 215 220 Glu Leu Ser Leu Lys Pro His Gln Arg Glu Lys Arg Tyr Ile His Leu 225 230 235 240 Ser Lys Ser Gly Gln Glu Ser Ile Asn Arg Gly Tyr Thr Leu Arg Phe 245 250 255 Val Arg Gly Lys Ile Lys Ser Leu Thr Arg Asn Ile Glu Arg Glu Glu 260 265 270 Lys Ser Leu Arg Lys Lys Thr Pro Ile His Phe Lys Gly Asn Arg Leu 275 280 285 Met Ile Phe Pro Ala Gly Ile Lys Phe Asp Phe Ala Ser Asn Lys Val 290 295 300 Lys Ile Ser Ile Ser Lys Asn Leu Pro Asn Glu Phe Asn Phe Ser Gly 305 310 315 320 Thr Asn Val Lys Asn Glu His Gly Lys Ser Phe Phe Lys Ser Arg Ile 325 330 335 Glu Leu Ile Lys Thr Gln Lys Pro Lys Tyr Ala Tyr Val Leu Arg Lys 340 345 350 Ile Lys Arg Glu Tyr Ser Lys Leu Arg Asn Tyr Glu Ile Glu Lys Ile 355 360 365 Arg Leu Glu Asn Pro Asn Ala Asp Leu Cys Asp Phe Tyr Leu Gln Tyr 370 375 380 Thr Ile Glu Thr Glu Ser Arg Asn Asn Glu Glu Ile Asn Gly Ile Ile 385 390 395 400 Gly Ile Asp Arg Gly Ile Thr Asn Leu Ala Cys Leu Val Leu Leu Lys 405 410 415 Lys Gly Asp Lys Lys Pro Ser Gly Val Lys Phe Tyr Lys Gly Asn Lys 420 425 430 Ile Leu Gly Met Lys Ile Ala Tyr Arg Lys His Leu Tyr Leu Leu Lys 435 440 445 Gly Lys Arg Asn Lys Leu Arg Lys Gln Arg Gln Ile Arg Ala Ile Glu 450 455 460 Pro Lys Ile Asn Leu Ile Leu His Gln Ile Ser Lys Asp Ile Val Lys 465 470 475 480 Ile Ala Lys Glu Lys Asn Phe Ala Ile Ala Leu Glu Gln Leu Glu Lys 485 490 495 Pro Lys Lys Ala Arg Phe Ala Gln Arg Lys Lys Glu Lys Tyr Lys Leu 500 505 510 Ala Leu Phe Thr Phe Lys Asn Leu Ser Thr Leu Ile Glu Tyr Lys Ser 515 520 525 Lys Arg Glu Gly Ile Pro Val Ile Tyr Val Pro Pro Glu Lys Thr Ser 530 535 540 Gln Met Cys Ser His Cys Ala Ile Asn Gly Asp Glu His Val Asp Thr 545 550 555 560 Gln Arg Pro Tyr Lys Lys Pro Asn Ala Gln Lys Pro Ser Tyr Ser Leu 565 570 575 Phe Lys Cys Asn Lys Cys Gly Ile Glu Leu Asn Ala Asp Tyr Asn Ala 580 585 590 Ala Phe Asn Ile Ala Gln Lys Gly Leu Lys Thr Leu Met Leu Asn His 595 600 605 Ser His 610 <210> 284 <211> 327 <212> PRT <213> Clostridioides difficile <400> 284 Met Val Asn Ile Gln Tyr Lys Arg Thr Leu Ser Leu Val Thr Gln Arg 1 5 10 15 Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val Gly Ile Ile Thr Gly Gln 20 25 30 Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn Pro Leu Met Ile Ser Asn 35 40 45 Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp Thr Phe Tyr Leu Asp Ile 50 55 60 Met Cys Gly Tyr Arg Leu Glu Val Val Leu Gly Lys Arg Asp Asn Glu 65 70 75 80 Asn Val Asn Glu Leu Lys Ser Thr Leu Glu Lys Val Ile Ser Lys Glu 85 90 95 Tyr Lys Val Cys Asp Ser Ser Met Gln Phe Ser Lys Asn Asn Asn Asp 100 105 110 Val Ile Leu Asn Leu Val Ile Asp Ile Pro Gln Asn Ser Asn Val Tyr 115 120 125 Lys Pro Val Glu Gly Arg Thr Leu Gly Val Asp Leu Gly Val Ala Val 130 135 140 Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr Tyr Lys Arg Lys Gly Leu 145 150 155 160 Gly Asp Ile Asn Asn Phe Leu Arg Val Arg Gln Gln Met Gln Thr Arg 165 170 175 Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu Thr Asn Gly Gly Lys Gly 180 185 190 Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys Leu Gln Glu Asn Glu Arg 195 200 205 Asn Phe Val Lys Thr Tyr Ser His Ala Leu Ser Lys Arg Val Val Glu 210 215 220 Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile Asn Ile Glu Lys Leu Thr 225 230 235 240 Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg Asn Trp Ser Tyr Phe Glu 245 250 255 Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu Arg Glu Gly Ile Thr Val 260 265 270 Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Arg Cys Gly 275 280 285 Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln Ala Lys Phe Lys Cys Thr 290 295 300 Lys Cys Gly Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile Asn Ile 305 310 315 320 Ala Arg Ser Ile Glu Phe Val 325 <210> 285 <211> 364 <212> PRT <213> Desulfovibrio fructosivorans <400> 285 Met Ala Thr Leu Glu Arg Asn Phe Ala Val Lys Thr Tyr Arg Asn Thr 1 5 10 15 Asn Lys Asp Ala Trp Ala Gly Arg Lys Ser Leu Pro Thr Tyr Arg Ser 20 25 30 Leu Phe Val Pro Phe Arg His Thr Gly Thr Lys Ile Ala Val Val Glu 35 40 45 Arg Asn Gly Thr Lys Gln Phe Cys Ile Asp Pro Gln Gly Phe Gly Ala 50 55 60 Ser Trp Leu Ser Asp Glu Leu Ile Ala Glu Val His Asp Gly Pro Ile 65 70 75 80 Ala Ile Glu Lys Gln Arg Arg Lys Leu Thr Leu Val Ser Cys Phe Ser 85 90 95 Trp Arg Asp Gln Gly Ala Val Glu Ile Val Gln Arg Ile Val Asn Gly 100 105 110 Glu Tyr Lys Leu Ser Asp Gly Gln Ile Gln Met Gly Lys Lys Gly Leu 115 120 125 Val Ala Leu Leu Pro Tyr Ser Phe Asp Ala Ile Gln Pro Glu Leu Asp 130 135 140 Pro Ala Arg Val Cys Gly Ile Asp Leu Gly Ala Val Ile Pro Ala Val 145 150 155 160 Cys Ala Val Asn Phe Gly Pro Gln Arg Ala Tyr Leu Gly Glu Gly Lys 165 170 175 Asp Val Trp Ala Ala Arg Ser Arg Phe Arg Ala Glu Arg Arg Arg Leu 180 185 190 Gln Ser Arg Ala Gly Leu Tyr Ser Lys Thr Lys Asn Trp Arg Arg Ser 195 200 205 Glu Lys Glu Asp Asn Trp Ile Gln Thr Tyr Tyr His Ala Leu Thr Arg 210 215 220 Lys Val Ile Lys Phe Cys Val Gln His Gly Cys Gly Thr Ile His Met 225 230 235 240 Glu Asp Leu Ser Ser Leu Arg Gln Arg Asp Val Glu Ser Glu Phe Arg 245 250 255 Arg Leu Leu Trp Val Pro Ser Lys Phe Phe Glu Leu Leu Ser Tyr Lys 260 265 270 Ala Lys Glu Met Gly Ile Gly Ile Val Lys Ile Asn Pro Arg Asn Thr 275 280 285 Ser Lys Arg Cys Ser Glu Cys Gly His Ile Ser Lys Gly Asn Arg Lys 290 295 300 Ser Gln Glu Lys Phe Val Cys Glu Lys Cys Gly Glu Gly Lys Arg Pro 305 310 315 320 Val Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Leu Ala Thr Gly 325 330 335 Asp Val Leu Leu His Gly Tyr Ile Glu Ser Glu Pro Asp Ala Leu Gly 340 345 350 Glu Met Asp Gln Leu Trp Glu Gly Ala Gln Glu Ala 355 360 <210> 286 <211> 366 <212> PRT <213> Clostridium botulinum <400> 286 Met Asp Ile Gln Lys Glu Phe Lys Glu Lys Tyr Val Asp Asp Leu Tyr 1 5 10 15 Gln Val Leu Asp Lys Ile Pro Phe Lys His Leu Asp Asn Lys Ser Leu 20 25 30 Val Thr Gln Arg Ile Lys Ala Asp Ile Lys Ser Asp Lys Ser Asn Gly 35 40 45 Leu Leu Lys Gly Glu Arg Ser Ile Arg Asn Tyr Lys Arg Asn Phe Pro 50 55 60 Leu Met Thr Arg Gly Arg Asp Leu Lys Phe Lys Tyr Asp Asp Asn Asp 65 70 75 80 Asp Ile Glu Ile Lys Trp Met Glu Gly Ile Lys Phe Lys Val Ile Leu 85 90 95 Gly Asn Arg Ile Lys Asn Ser Leu Glu Leu Arg His Thr Leu His Lys 100 105 110 Val Ile Glu Gly Lys Tyr Lys Ile Cys Asp Ser Ser Leu Gln Phe Asp 115 120 125 Lys Asn Asn Asn Leu Ile Leu Asn Leu Thr Leu Asp Ile Pro Ile Asp 130 135 140 Ile Val Asn Lys Lys Val Ser Gly Arg Val Val Gly Val Asp Leu Gly 145 150 155 160 Leu Lys Ile Pro Ala Tyr Cys Ala Leu Asn Asp Val Glu Tyr Ile Lys 165 170 175 Lys Ser Ile Gly Arg Ile Asp Asp Phe Leu Lys Val Arg Thr Gln Met 180 185 190 Gln Ser Arg Arg Arg Arg Leu Gln Ile Ala Ile Gln Ser Ala Lys Gly 195 200 205 Gly Lys Gly Arg Val Asn Lys Leu Gln Ala Leu Glu Arg Phe Ala Glu 210 215 220 Lys Glu Lys Asn Phe Ala Lys Thr Tyr Asn His Phe Leu Ser Ser Asn 225 230 235 240 Ile Val Lys Phe Ala Val Ser Asn Gln Ala Glu Gln Ile Asn Met Glu 245 250 255 Leu Leu Ser Leu Lys Glu Thr Gln Asn Lys Ser Ile Leu Arg Asn Trp 260 265 270 Ser Tyr Tyr Gln Leu Gln Thr Met Ile Glu Tyr Lys Ala Gln Arg Glu 275 280 285 Gly Ile Lys Val Lys Tyr Ile Asp Pro Tyr His Thr Ser Gln Thr Cys 290 295 300 Ser Lys Cys Gly Asn Tyr Glu Glu Gly Gln Arg Glu Ser Gln Ala Asp 305 310 315 320 Phe Ile Cys Lys Lys Cys Gly Tyr Lys Val Asn Ala Asp Tyr Asn Ala 325 330 335 Ala Arg Asn Ile Ala Met Ser Asn Lys Tyr Ile Thr Lys Lys Lys Lys 340 345 350 Val Ser Ile Thr Lys Leu Lys Lys Val Trp Tyr Asn Lys Thr 355 360 365 <210> 287 <211> 401 <212> PRT <213> Clostridioides difficile <400> 287 Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu 1 5 10 15 Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln 20 25 30 Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu 35 40 45 Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys 50 55 60 Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys 65 70 75 80 Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe 85 90 95 Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr 100 105 110 Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys 115 120 125 Phe Tyr Glu Glu Asp Asn Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile 130 135 140 Val Phe Lys Val Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu 145 150 155 160 Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln 165 170 175 Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr 180 185 190 Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys Asp Arg Thr 195 200 205 Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val Ala Leu Asn 210 215 220 Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met 225 230 235 240 Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln 245 250 255 Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly 260 265 270 Leu Glu Leu Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn 275 280 285 His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys 290 295 300 Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg 305 310 315 320 Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr 325 330 335 Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn Pro Ala Tyr 340 345 350 Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys Glu Asn Arg 355 360 365 Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn 370 375 380 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val 385 390 395 400 Lys <210> 288 <211> 401 <212> PRT <213> Clostridioides difficile <400> 288 Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu 1 5 10 15 Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln 20 25 30 Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu 35 40 45 Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys 50 55 60 Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys 65 70 75 80 Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe 85 90 95 Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr 100 105 110 Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys 115 120 125 Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile 130 135 140 Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu 145 150 155 160 Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln 165 170 175 Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr 180 185 190 Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys Gly Arg Val 195 200 205 Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val Ala Leu Asn 210 215 220 Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met 225 230 235 240 Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln 245 250 255 Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly 260 265 270 Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn 275 280 285 His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys 290 295 300 Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg 305 310 315 320 Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr 325 330 335 Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn Pro Ala Tyr 340 345 350 Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys Glu Asn Arg 355 360 365 Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn 370 375 380 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val 385 390 395 400 Lys <210> 289 <211> 401 <212> PRT <213> Clostridioides difficile <400> 289 Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu 1 5 10 15 Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln 20 25 30 Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu 35 40 45 Val Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys 50 55 60 Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys 65 70 75 80 Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe 85 90 95 Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr 100 105 110 Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys 115 120 125 Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile 130 135 140 Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu 145 150 155 160 Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln 165 170 175 Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr 180 185 190 Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val Lys Asp Arg Val 195 200 205 Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val Ala Leu Asn 210 215 220 Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met 225 230 235 240 Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln 245 250 255 Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly 260 265 270 Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn 275 280 285 His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys 290 295 300 Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg 305 310 315 320 Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr 325 330 335 Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn Pro Ala Tyr 340 345 350 Thr Ser Gln Thr Cys Ser Glu Cys Gly His Ala Asp Lys Glu Asn Arg 355 360 365 Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn 370 375 380 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val 385 390 395 400 Lys <210> 290 <211> 401 <212> PRT <213> Clostridioides difficile <400> 290 Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu 1 5 10 15 Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln 20 25 30 Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu 35 40 45 Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys 50 55 60 Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys 65 70 75 80 Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe 85 90 95 Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr 100 105 110 Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys 115 120 125 Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile 130 135 140 Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu 145 150 155 160 Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln 165 170 175 Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr 180 185 190 Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys Gly Arg Val 195 200 205 Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val Ala Leu Asn 210 215 220 Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met 225 230 235 240 Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln 245 250 255 Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly 260 265 270 Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn 275 280 285 His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys 290 295 300 Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg 305 310 315 320 Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr 325 330 335 Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn Pro Ser Tyr 340 345 350 Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys Glu Asn Arg 355 360 365 Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn 370 375 380 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val 385 390 395 400 Lys <210> 291 <211> 401 <212> PRT <213> Clostridioides difficile <400> 291 Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu 1 5 10 15 Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln 20 25 30 Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu 35 40 45 Ala Ser Gly Arg Asp Ile Lys Ser Asn Leu Phe Lys Asp Ser Gln Lys 50 55 60 Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys 65 70 75 80 Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe 85 90 95 Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr 100 105 110 Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys 115 120 125 Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile 130 135 140 Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu 145 150 155 160 Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln 165 170 175 Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr 180 185 190 Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val Lys Asp Arg Val 195 200 205 Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val Ala Leu Asn 210 215 220 Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met 225 230 235 240 Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln 245 250 255 Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly 260 265 270 Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn 275 280 285 His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys 290 295 300 Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg 305 310 315 320 Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr 325 330 335 Lys Ser Asp Arg Val Gly Ile Lys Val Lys Tyr Val Asn Pro Ala Tyr 340 345 350 Thr Ser Gln Thr Cys Ser Glu Cys Ser His Val Asp Lys Glu Asn Arg 355 360 365 Glu Thr Gln Ser Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn 370 375 380 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val 385 390 395 400 Lys <210> 292 <211> 404 <212> PRT <213> Clostridioides difficile <400> 292 Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu 1 5 10 15 Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln 20 25 30 Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser 35 40 45 Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp 50 55 60 Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn 65 70 75 80 Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys 85 90 95 Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg 100 105 110 Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg 115 120 125 Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val 130 135 140 Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys 145 150 155 160 Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys 165 170 175 Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu 180 185 190 Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys 195 200 205 Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val 210 215 220 Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp 225 230 235 240 Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu 245 250 255 Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys 260 265 270 Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys 275 280 285 Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys 290 295 300 Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe 305 310 315 320 Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met 325 330 335 Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn 340 345 350 Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys 355 360 365 Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe 370 375 380 Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp 385 390 395 400 Lys Phe Val Lys <210> 293 <211> 404 <212> PRT <213> Clostridioides difficile <400> 293 Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu 1 5 10 15 Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln 20 25 30 Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser 35 40 45 Ala Tyr Leu Val Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp 50 55 60 Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn 65 70 75 80 Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys 85 90 95 Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg 100 105 110 Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg 115 120 125 Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val 130 135 140 Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys 145 150 155 160 Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys 165 170 175 Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu 180 185 190 Asn Leu Thr Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val Lys 195 200 205 Asp Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val 210 215 220 Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp 225 230 235 240 Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu 245 250 255 Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys 260 265 270 Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys 275 280 285 Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys 290 295 300 Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe 305 310 315 320 Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met 325 330 335 Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn 340 345 350 Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Ala Asp Lys 355 360 365 Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe 370 375 380 Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp 385 390 395 400 Lys Phe Val Lys <210> 294 <211> 404 <212> PRT <213> Clostridioides difficile <400> 294 Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu 1 5 10 15 Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln 20 25 30 Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser 35 40 45 Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp 50 55 60 Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn 65 70 75 80 Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys 85 90 95 Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg 100 105 110 Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg 115 120 125 Asp Leu Lys Phe Tyr Glu Glu Asp Asn Glu Phe Tyr Ile Lys Trp Val 130 135 140 Asn Lys Ile Val Phe Lys Val Leu Ile Gly Arg Lys Asp Lys Asn Lys 145 150 155 160 Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys 165 170 175 Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu 180 185 190 Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys 195 200 205 Asp Arg Thr Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val 210 215 220 Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp 225 230 235 240 Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu 245 250 255 Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys 260 265 270 Leu Lys Gly Leu Glu Leu Leu Arg Glu Lys Glu Lys Ser Trp Val Lys 275 280 285 Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys 290 295 300 Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe 305 310 315 320 Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met 325 330 335 Ile Lys Tyr Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn 340 345 350 Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys 355 360 365 Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe 370 375 380 Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp 385 390 395 400 Lys Phe Val Lys <210> 295 <211> 404 <212> PRT <213> Clostridioides difficile <400> 295 Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu 1 5 10 15 Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln 20 25 30 Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser 35 40 45 Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Tyr 50 55 60 Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn 65 70 75 80 Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys 85 90 95 Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg 100 105 110 Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg 115 120 125 Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val 130 135 140 Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys 145 150 155 160 Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys 165 170 175 Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu 180 185 190 Asn Leu Thr Ile Asp Ile Pro Cys Lys Lys Val Asp Glu Ile Val Lys 195 200 205 Asp Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val 210 215 220 Ala Leu Asn Asp Ile Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp 225 230 235 240 Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu 245 250 255 Gln Gln Gln Leu Lys Asn Val Thr Gly Gly Lys Gly Arg Lys Asp Lys 260 265 270 Leu Lys Gly Leu Glu Leu Leu Arg Glu Lys Glu Lys Ser Trp Val Lys 275 280 285 Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys 290 295 300 Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe 305 310 315 320 Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met 325 330 335 Ile Lys Tyr Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn 340 345 350 Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys 355 360 365 Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Arg Phe 370 375 380 Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Gly Lys Ser Asp 385 390 395 400 Lys Phe Val Lys <210> 296 <211> 404 <212> PRT <213> Clostridioides difficile <400> 296 Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Gly 1 5 10 15 Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln 20 25 30 Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser 35 40 45 Ala Tyr Leu Ala Ser Gly Arg Asp Ile Asn Ser Asp Leu Phe Lys Asp 50 55 60 Ser Lys Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn 65 70 75 80 Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Pro Lys Val Arg 85 90 95 Asn Asp Phe Phe Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg 100 105 110 Ser Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg 115 120 125 Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val 130 135 140 Asn Lys Val Val Phe Lys Val Pro Ile Gly Arg Lys Asp Lys Asn Lys 145 150 155 160 Val Glu Leu Val His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys 165 170 175 Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu 180 185 190 Asn Leu Thr Ile Asp Ile Pro Tyr Lys Lys Ile Asp Glu Ile Val Lys 195 200 205 Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val 210 215 220 Ala Leu Asn Asn Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp 225 230 235 240 Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu 245 250 255 Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys 260 265 270 Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys 275 280 285 Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys 290 295 300 Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe 305 310 315 320 Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met 325 330 335 Ile Lys Tyr Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn 340 345 350 Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys 355 360 365 Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe 370 375 380 Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp 385 390 395 400 Lys Phe Val Lys <210> 297 <211> 407 <212> PRT <213> Clostridium hiranonis <400> 297 Met Gly Ser Lys Phe Met Ile Thr Val Arg Lys Leu Lys Leu Thr Ile 1 5 10 15 Ile Asn Asp Asp Glu Thr Lys Arg Asn Glu Gln Tyr Lys Phe Ile Arg 20 25 30 Asp Ser Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Ser Val 35 40 45 Leu Thr Asn Ala Tyr Leu Ser Ser Asn Arg Asp Ile Lys Ser Asp Leu 50 55 60 Phe Lys Glu Thr Gln Lys Asn Leu Lys Asn Ser Ser His Ile Phe Asp 65 70 75 80 Asp Ile Thr Phe Gly Lys Gly Thr Asp Asn Lys Ser Leu Ile Asn Gln 85 90 95 Lys Val Lys Lys Asp Phe Asn Ser Ala Ile Lys Asn Gly Leu Ala Arg 100 105 110 Gly Glu Arg Asn Ile Thr Asn Tyr Lys Arg Thr Phe Pro Leu Met Thr 115 120 125 Arg Gly Thr Ala Leu Lys Phe Ser Tyr Lys Asp Asp Cys Ser Asp Glu 130 135 140 Ile Ile Ile Lys Trp Val Asn Lys Ile Val Phe Lys Val Val Ile Gly 145 150 155 160 Arg Lys Asp Lys Asn Tyr Leu Glu Leu Met His Thr Leu Asn Lys Val 165 170 175 Ile Asn Gly Glu Tyr Lys Val Gly Gln Ser Ser Ile Tyr Phe Asp Lys 180 185 190 Ser Asn Lys Leu Ile Leu Asn Leu Thr Leu Tyr Ile Pro Glu Lys Lys 195 200 205 Asp Asp Asp Ala Ile Asn Gly Arg Thr Leu Gly Val Asp Leu Gly Ile 210 215 220 Lys Tyr Pro Ala Tyr Val Cys Leu Asn Asp Asp Thr Phe Ile Arg Gln 225 230 235 240 His Ile Gly Glu Ser Leu Glu Leu Ser Lys Gln Arg Glu Gln Phe Arg 245 250 255 Asn Arg Arg Lys Arg Leu Gln Gln Gln Leu Lys Asn Val Lys Gly Gly 260 265 270 Lys Gly Arg Glu Lys Lys Leu Ala Ala Leu Asp Lys Val Ala Val Cys 275 280 285 Glu Arg Asn Phe Val Lys Thr Tyr Asn His Thr Ile Ser Lys Arg Ile 290 295 300 Ile Asp Phe Ala Lys Lys Asn Lys Cys Glu Phe Ile Asn Leu Glu Gln 305 310 315 320 Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Ser Asn Trp Ser Tyr 325 330 335 Tyr Glu Leu Gln Asn Met Ile Lys Tyr Lys Ala Asp Arg Glu Gly Ile 340 345 350 Lys Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Lys 355 360 365 Cys Gly Tyr Ile Asp Lys Glu Asn Arg Pro Thr Gln Glu Lys Phe Lys 370 375 380 Cys Ile Lys Cys Gly Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile 385 390 395 400 Asn Ile Ser Arg Leu Glu Glu 405 <210> 298 <211> 421 <212> PRT <213> Clostridioides difficile <400> 298 Met Leu Tyr Leu Pro Lys Tyr Ala Ile Ile Leu Leu Thr Cys Arg Ile 1 5 10 15 Arg Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val 20 25 30 Glu Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser 35 40 45 Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr 50 55 60 Ser Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys 65 70 75 80 Asp Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile 85 90 95 Asn Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val 100 105 110 Lys Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu 115 120 125 Arg Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly 130 135 140 Arg Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp 145 150 155 160 Val Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn 165 170 175 Lys Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr 180 185 190 Lys Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile 195 200 205 Leu Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val 210 215 220 Lys Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr 225 230 235 240 Val Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile 245 250 255 Asp Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg 260 265 270 Leu Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp 275 280 285 Lys Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val 290 295 300 Lys Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys 305 310 315 320 Lys Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly 325 330 335 Phe Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu 340 345 350 Met Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val 355 360 365 Asn Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp 370 375 380 Lys Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly 385 390 395 400 Phe Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser 405 410 415 Asp Lys Phe Val Lys 420 <210> 299 <211> 422 <212> PRT <213> Aneurinibacillus danicus <400> 299 Met Lys His Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Ile Asn 1 5 10 15 Asp Thr Trp Glu Thr Leu Gly His Val Leu Arg Glu Ile Gln Arg Glu 20 25 30 Thr Arg Ala Ala Leu Asn Lys Thr Ile Gln Leu Ala Trp Glu Trp Gln 35 40 45 Gly Phe Ser Ala Glu Tyr Lys Gln Arg Tyr Glu Glu Tyr Pro Lys Thr 50 55 60 Lys Asp His Leu Gly Tyr Ser Ala Leu His Gly Tyr Ala Tyr Asn Arg 65 70 75 80 Leu Lys Asp Glu Phe Tyr Arg Met Asn Thr Ala Asn Leu Ser Gln Thr 85 90 95 Val Lys Arg Ala Ala Asp Lys Trp Lys Ser Asp Leu Lys Asp Val Leu 100 105 110 Arg Gly Asp Lys Ser Ile Ala Ser Phe Lys Lys Asp Cys Pro Ile Asp 115 120 125 Ile Val Ser Gln Ala Leu Arg Ile Arg Lys Asp Gly Ser Asp Tyr Ile 130 135 140 Met Thr Leu Ser Leu Val Ser Ile Lys Tyr Arg Lys Glu Leu Glu Arg 145 150 155 160 Lys Gln Ser Phe Phe Asp Val Leu Ile Ser Ala Asn Asp Lys Thr Gln 165 170 175 Arg Asp Ile Leu Asp Arg Leu Ile Ala Gly Glu Tyr Lys Leu Gly Ala 180 185 190 Ser Gln Leu Leu Tyr His Lys Lys Lys Trp Phe Val Asn Val Asn Tyr 195 200 205 Gln Phe Glu Lys Glu Glu Thr Ala Phe Asp Gln Asp Asn Ile Met Gly 210 215 220 Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Met Ala Phe Asn Asn Ser 225 230 235 240 Leu Asn Arg Tyr Lys Ile Glu Gly Gly Glu Ile Glu Arg Phe Arg Ala 245 250 255 Gln Val Glu Arg Arg Lys Lys Gln Leu Leu Gln Gln Ala Lys Tyr Cys 260 265 270 Gly Asp Gly Arg Arg Gly His Gly Thr Lys Thr Arg Ile Gln Pro Ile 275 280 285 Glu Val Val Ser Asp Lys Val Ala Asn Phe Arg Asp Thr Val Asn His 290 295 300 Arg Tyr Ser Arg Tyr Val Val Asp Met Ala Ile Lys His Arg Cys Gly 305 310 315 320 Thr Ile Gln Met Glu Asp Leu Ser Gly Ile Ala Ala Glu Asp Thr Phe 325 330 335 Leu Lys Arg Trp Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys 340 345 350 Ala Lys Glu Ala Gly Ile Gln Val Val Tyr Ile Lys Pro Asp Tyr Thr 355 360 365 Ser Gln Arg Cys Ser Lys Cys Gly His Ile Glu Arg Asp Asn Arg Thr 370 375 380 Glu Gln Ala Thr Phe Glu Cys Lys Ser Cys Gly Phe Lys Thr Asn Ala 385 390 395 400 Asp Phe Asn Ala Ala Arg Asn Ile Ala Thr Lys Asp Ile Glu Lys Ile 405 410 415 Ile Ala Glu Thr Leu Lys 420 <210> 300 <211> 424 <212> PRT <213> Parageobacillus thermoglucosidasius <400> 300 Met Lys Tyr Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Leu Asn 1 5 10 15 Ala Glu Trp Asp Glu Leu Gly Met Val Leu Arg Asp Ile Gln Lys Glu 20 25 30 Thr Arg Ala Ala Leu Asn Lys Thr Ile Gln Leu Cys Trp Glu Tyr Gln 35 40 45 Gly Phe Ser Ala Asp Tyr Lys Gln Ile His Gly Gln Tyr Pro Lys Leu 50 55 60 Lys Asp Val Leu Gly Tyr Thr Ser Met His Gly Tyr Ala Tyr Asp Arg 65 70 75 80 Leu Lys Asn Glu Phe Ser Lys Ile Ala Ser Ser Asn Leu Ser Gln Thr 85 90 95 Ile Lys Arg Ala Val Asp Lys Trp Asn Ser Asp Leu Lys Glu Ile Leu 100 105 110 Arg Gly Asp Arg Ser Ile Pro Asn Phe Arg Lys Asp Cys Pro Ile Asp 115 120 125 Ile Val Lys Gln Ser Thr Lys Ile Gln Lys Cys Asn Asp Gly Tyr Val 130 135 140 Leu Ser Leu Gly Leu Ile Asn Arg Glu Tyr Lys Asn Glu Leu Gly Arg 145 150 155 160 Lys Asn Gly Val Phe Asp Val Leu Ile Lys Ala Asn Asp Lys Thr Gln 165 170 175 Gln Thr Ile Leu Glu Arg Ile Ile Asn Gly Asp Tyr Thr Tyr Thr Ala 180 185 190 Ser Gln Ile Ile Asn His Lys Asn Lys Trp Phe Ile Asn Leu Thr Tyr 195 200 205 Gln Phe Glu Thr Lys Glu Thr Ala Leu Asp Pro Asn Asn Val Met Gly 210 215 220 Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Ile Ala Phe Asn Asn Ser 225 230 235 240 Leu His Arg Tyr His Ile Lys Gly Gly Glu Ile Glu Arg Phe Arg Arg 245 250 255 Gln Val Glu Lys Arg Lys Arg Glu Leu Leu Asn Gln Gly Lys Tyr Cys 260 265 270 Gly Asp Gly Arg Lys Gly His Gly Tyr Ala Thr Arg Thr Lys Ser Ile 275 280 285 Glu Ser Ile Ser Asp Lys Ile Ala Arg Phe Arg Asp Thr Cys Asn His 290 295 300 Lys Tyr Ser Arg Phe Ile Val Asp Met Ala Leu Lys His Lys Cys Gly 305 310 315 320 Ile Ile Gln Met Glu Asp Leu Thr Gly Ile Ser Lys Glu Ser Thr Phe 325 330 335 Leu Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys 340 345 350 Ala Arg Glu Ala Gly Ile Gln Val Ile Lys Ile Glu Pro Gln Tyr Thr 355 360 365 Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile Asp Lys Glu Asn Arg Gln 370 375 380 Glu Gln Ala Thr Phe Lys Cys Ile Glu Cys Gly Phe Glu Thr Asn Ala 385 390 395 400 Asp Tyr Asn Ala Ala Arg Asn Ile Ala Ile Pro Asn Ile Asp Lys Ile 405 410 415 Ile Arg Lys Thr Leu Lys Met Gln 420 <210> 301 <211> 427 <212> PRT <213> Brevibacillus centrosporus <400> 301 Met Leu Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Leu Asp Asp 1 5 10 15 Asp Trp Asp Val Leu Gly Gln Val Leu Arg Thr Val Gln Arg Glu Thr 20 25 30 His Ala Leu Leu Asn Lys Thr Ile Gln Leu Ala Trp Glu Trp Gln Gly 35 40 45 Phe Ser Ser Glu Tyr Lys Glu Lys Tyr Gly Leu Tyr Pro Ile Gln Gln 50 55 60 Glu Ile Leu Pro Lys Lys Lys Gly Gly Asn Val Gly Ser Ile Met His 65 70 75 80 Tyr Ala Tyr Asp Gln Leu Lys Asp Ile Tyr Thr Val Ser Asp Arg Arg 85 90 95 Asn Leu Asn Gln Ser Ile Lys Arg Ala Thr Asp Lys Trp Lys Ser Asp 100 105 110 Val Pro Asp Ile Arg Lys Gly Glu Lys Ser Ile Pro Ser Phe Lys Lys 115 120 125 Asp Cys Pro Ile Asp Val Val Ser Gln Ala Tyr Ser Leu His Arg Gly 130 135 140 Ser Glu Gly Phe Val Met Arg Ala Gly Leu Met Ser Thr Glu Tyr Lys 145 150 155 160 Lys Glu Leu Gly Arg Arg Phe Gly Ser Phe Asp Leu Leu Leu Asn Val 165 170 175 Lys Asp Asn Thr Gln Arg Thr Ile Ile Glu Arg Leu Ile Ser Gly Glu 180 185 190 Tyr Lys Ala Gly Val Ala Gln Ile Leu Arg His Lys Lys Asp Trp Phe 195 200 205 Val Asn Leu Thr Tyr Ser Phe Glu His Val Asp Ser Leu Leu Asn Pro 210 215 220 Asp Arg Ile Met Gly Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Leu 225 230 235 240 Ala Phe Asn Asp Leu Phe Glu Arg Tyr Lys Ile Asp Gly Gly Glu Ile 245 250 255 Glu Ser Phe Arg Lys Gln Val Glu Arg Arg Arg Lys Gln Gln Asn Trp 260 265 270 Gln Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Thr His Thr 275 280 285 Arg Ile Lys Pro Thr Glu Val Thr Glu Glu Arg Ile Ala Asn Phe Arg 290 295 300 Asp Ser Cys Asn His Lys Tyr Ser Arg Phe Val Val Glu Ile Ala Leu 305 310 315 320 Lys His Arg Cys Gly Thr Ile Gln Met Glu Asp Leu Ser Gly Tyr Ser 325 330 335 Lys Ala Thr Asp Asp Ala Phe Leu Lys Asn Trp Ala Tyr His Asp Leu 340 345 350 Gln Gln Lys Ile Glu Tyr Lys Ala Lys Glu Val Gly Ile Lys Val Val 355 360 365 Lys Val Lys Pro Glu Cys Thr Ser Gln Arg Cys Ser Lys Cys Gly His 370 375 380 Ile Ala Lys Glu Asn Arg Gln Asp Arg Glu Phe Leu Cys Lys Gly Cys 385 390 395 400 Gly Phe Gln Val His Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Thr 405 410 415 Lys Asp Ile Glu Glu Ile Ile Lys Gln Ala Leu 420 425 <210> 302 <211> 428 <212> PRT <213> Clostridium pasteurianum <400> 302 Met Asn Lys Cys Ile Lys Ile Thr Ile Lys Asn Cys Asn Gln Leu Asn 1 5 10 15 Phe Thr Asn Ile Asn Lys Thr Leu Ser Asn Ile Arg Tyr Met Thr Cys 20 25 30 Lys Ala Ser Asn Lys Ala Met Gln Met Tyr Tyr Met Trp Glu Tyr Glu 35 40 45 Arg Met Asn Tyr Lys Lys Leu Asn Gly Gln Tyr Pro Ile Asp Lys Asp 50 55 60 Leu Phe Gly Lys Thr Tyr Arg Asn Val Val Glu Gly Tyr Met Lys Glu 65 70 75 80 Ile Met Asn Ile Val Asn Thr Ser Asn Val Ser Gln Thr Asn Ala Phe 85 90 95 Val Leu Lys Lys Trp Asn Ser Asp Lys Gln Asp Ile Leu Asn Tyr Arg 100 105 110 Lys Ser Val Ala Ser Phe Lys Leu Asn Met Pro Ile Tyr Ile Tyr Asn 115 120 125 Lys Asn Tyr Lys Ile Ile Gln Gly Asn Asn Gly Tyr Glu Ile Asp Ala 130 135 140 Ala Ile Phe Asn Lys Lys Gln Asp Leu Arg His Val Thr Phe Asn Ile 145 150 155 160 Asp Lys Leu Asp Asn Asn Lys Lys Val Thr Leu Asn Lys Ile Ile Ser 165 170 175 Gly Ile Tyr Lys Gln Gly Ala Ala Gln Ile Ile Gln Asp Lys Lys Gly 180 185 190 Lys Trp Tyr Phe Ile Ile Ser Phe Ser Phe Val Pro Asp Ile Lys Glu 195 200 205 Leu Asp Lys Asn Arg Ile Leu Gly Val Asp Leu Gly Ile Thr Asn Thr 210 215 220 Ala Thr Leu Gln Ile Trp Asp Asn Asn Glu Lys Lys Trp Asp Lys Leu 225 230 235 240 Leu Tyr Arg Glu Cys Ile Leu Asp Gly Lys Glu Ser Ile His Phe Arg 245 250 255 Gln Lys Val Glu Ala Arg Arg Arg Ser Met Leu Ile Ser Cys Lys Val 260 265 270 Ala Gly Asp Gly Arg Ser Gly His Gly Thr Lys Thr Lys Ile Arg Ser 275 280 285 Ala Ser Asn Ile Gly Asp Lys Ile Asn Asn Phe Arg Asp Thr Leu Asn 290 295 300 His Lys Tyr Ser Lys Tyr Ile Val Asp Phe Ala Val Lys His Asn Cys 305 310 315 320 Gly Thr Val Gln Leu Glu Asp Leu Thr Gly Phe Asn Pro Glu Asn Asn 325 330 335 Phe Leu Lys Ser Trp Pro Tyr Phe Asp Met Gln Ser Lys Ile Lys Tyr 340 345 350 Lys Ser Lys Glu Lys Gly Ile Asp Ile Lys Ile Ile Asn Pro Tyr Lys 355 360 365 Thr Ser Gln Arg Cys Ser Ile Cys Gly Cys Ile Asp Lys Leu Asn Arg 370 375 380 Asp Ser Lys Asn Asn Gln Ser Ile Phe Lys Cys Ile Asn Cys Gly Tyr 385 390 395 400 Glu Glu His Ala Asp Ile Asn Ala Ala Lys Asn Ile Ala Leu Pro Asn 405 410 415 Ile Glu Lys Leu Ile Lys Asn Phe Ala Lys Ile Pro 420 425 <210> 303 <211> 433 <212> PRT <213> Eubacterium siraeum <400> 303 Met Val Cys Asn Lys Val Val Lys Ile Ala Leu Ile Cys Asp Gln Ile 1 5 10 15 Asp Lys Asp Gly Lys Asp Val Asn Tyr Asn Asp Ile Tyr Lys Leu Leu 20 25 30 Trp Asp Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Val Ile Arg 35 40 45 Leu Cys Trp Glu Trp Ser Gly Tyr Ser Ser Glu Tyr Phe Lys Thr His 50 55 60 Glu Glu Tyr Pro Lys Asp Lys Glu Ile Phe Gly Ile Ser Leu Arg Gly 65 70 75 80 Tyr Leu Tyr Asp Arg Ile Lys Gly Asp Tyr Asn Leu Tyr Ser Gly Asn 85 90 95 Leu Ser Gln Ser Ala Glu Ile Ala Tyr Lys Glu Tyr Lys Asn Ser Leu 100 105 110 Lys Asp Val Leu Arg Gly Asp Lys Ser Ile Ile Asn Tyr Arg Glu Asn 115 120 125 Gln Pro Leu Asp Ile Lys Asn Lys Ala Ile Gln Leu Leu Tyr Glu Asn 130 135 140 Asp Asn Phe Phe Val Arg Val Ala Leu Ile Asn Lys Asp Lys Gln Lys 145 150 155 160 Glu Leu Asn Phe Lys Asp Cys Ser Val Arg Phe Lys Leu Leu Val Lys 165 170 175 Asp Asp Ser Thr Arg Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr 180 185 190 Thr Ile Thr Ala Ser Lys Ile Met Tyr Asn Lys Lys Lys Lys Gln Trp 195 200 205 Tyr Ile Asn Leu Gly Tyr Lys Phe Thr Lys Glu Ile Asp Lys Thr Leu 210 215 220 Asp Lys Asp Arg Ile Leu Gly Val Asp Leu Gly Val Ile Asn Pro Leu 225 230 235 240 Val Ala Ser Val Tyr Gly Ser Tyr Asp Arg Leu Ile Ile Gly Gly Gly 245 250 255 Glu Ile Asp Lys Phe Arg Lys Arg Val Glu Ala Asn Lys Val Gln Met 260 265 270 Leu Lys Gln Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Val 275 280 285 Asn Thr Arg Asn Lys Pro Ala Tyr Asn Ile Glu Asp Lys Ile Ser Arg 290 295 300 Phe Arg Asp Thr Val Asn His Lys Tyr Ser Lys Ala Val Val Asp Tyr 305 310 315 320 Ala Val Lys Asn Asn Cys Gly Thr Ile Gln Met Glu Asp Leu Lys Gly 325 330 335 Ile Thr Gln Asn Lys Asn Glu Arg Tyr Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Thr Lys Ile Glu Tyr Lys Ala Lys Ala Leu Gly Ile Glu 355 360 365 Val Lys Tyr Lys Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys 370 375 380 Gly His Ile Ala Glu Glu Asn Arg Pro Glu Gln Lys Thr Phe Lys Cys 385 390 395 400 Val Lys Cys Gly Phe Lys Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn 405 410 415 Leu Ala Ile Lys Asp Ile Asp Lys Ile Ile Glu Gln Tyr Tyr Asn Lys 420 425 430 Gly <210> 304 <211> 438 <212> PRT <213> Bacillus toyonensis <400> 304 Met Lys Tyr Gln Ile Leu Cys Pro Leu Asn Val Asp Trp Thr Ile Phe 1 5 10 15 Glu Lys His Leu Arg Asn Leu Thr Tyr Gln Val Arg Thr Ile Ser Asn 20 25 30 Arg Thr Ile Gln Gln Leu Trp Glu Phe Asp Ala Leu Ser Phe Asp Tyr 35 40 45 Phe Lys Glu Arg Gly Thr Tyr Pro Thr Val Gln Asp Leu Tyr Gly Cys 50 55 60 Thr Gln Lys Lys Ile Asp Gly Tyr Ile Tyr His Thr Leu Gln Ser Lys 65 70 75 80 Tyr Pro Asp Ile His Lys Gly Asn Met Ser Thr Thr Leu Gln Lys Ile 85 90 95 Ile Lys Thr Trp Lys Ser Arg Arg Asn Glu Ile Arg Lys Gly Glu Met 100 105 110 Ser Ile Pro Ser Phe Arg Asn Arg Ile Pro Ile Asp Leu His Asn Asn 115 120 125 Ser Val Asp Ile Thr Lys Glu Lys Asn Gly Asp Tyr Ile Ala Gly Ile 130 135 140 Ser Leu Phe Ser Arg Asp Phe His Lys Glu Asn Asp Asp Val Pro Lys 145 150 155 160 Gly Lys Ile Phe Val Lys Leu Ala Thr Gln Lys Gln Lys Ser Met Lys 165 170 175 Val Ile Leu Asp Arg Leu Ile Asn Gln Thr Tyr Ser Lys Gly Ala Cys 180 185 190 Met Ile His Lys Tyr Lys Asn Lys Trp Tyr Leu Ser Ile Thr Tyr Lys 195 200 205 Phe Asn Ala Ile Lys Glu Asn Lys Phe Asp Lys Glu Leu Ile Met Gly 210 215 220 Ile Asp Leu Gly Gly Ile Asn Thr Val Tyr Ser Ala Phe Asn Glu Gly 225 230 235 240 Phe Ile Arg Ser Asn Ile Lys Ser Asp Glu Ile Ile Arg Gln Arg Arg 245 250 255 Ile Asn Leu Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly 260 265 270 Lys Gly Arg Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys 275 280 285 Ile Ala Lys Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile 290 295 300 Val Lys Gln Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu 305 310 315 320 Leu Lys Gly Ile Ser Lys Asn Asp Arg Ile Leu Lys Asp Trp Thr Tyr 325 330 335 Phe Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile 340 345 350 Glu Val Ile Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln 355 360 365 Cys Gly Tyr Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Thr Phe Glu 370 375 380 Cys Lys Gln Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys 385 390 395 400 Asn Ile Ser Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala 405 410 415 Val Gln Ser Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu 420 425 430 Glu Leu Gly Tyr Leu Asp 435 <210> 305 <211> 439 <212> PRT <213> Ruminococcus sp. <400> 305 Met Ser Lys Asp Lys Tyr Val Ile Thr Arg Lys Ile Lys Leu Leu Pro 1 5 10 15 Val Gly Asp Lys Asp Glu Val Asp Arg Val Tyr Asp Phe Ile Arg Asp 20 25 30 Gly Gln Tyr Ser Gln Tyr Asn Ala Leu Asn Ile Leu Met Gly Gln Leu 35 40 45 Ala Ser Lys Tyr Tyr Glu Cys Lys Arg Asp Leu Ser Ser Ala Glu Phe 50 55 60 Lys Glu Ala Gln Lys Ser Ile Leu Ser Asn Ser Asn Pro Asn Leu Cys 65 70 75 80 Asp Ile Glu Phe Ala Lys Gly Cys Asp Thr Lys Ser Ala Val Val Gln 85 90 95 Lys Val Lys Gln Asp Phe Ser Ile Ala Ile Lys Asn Gly Leu Pro Arg 100 105 110 Gly Glu Arg Asn Ile Thr Asn Tyr Lys Arg Thr Val Pro Leu Ile Thr 115 120 125 Arg Gly Arg Asp Leu Val Phe Ile His Gly Tyr Glu Asn Tyr Thr Glu 130 135 140 Phe Leu Asp Asn Leu Tyr Thr Asp Arg Asn Leu Lys Val Phe Ile Lys 145 150 155 160 Trp Ile Asn Lys Ile Gln Phe Lys Ile Val Phe Gly Asn Pro Tyr Lys 165 170 175 Ser Ala Glu Leu Arg Asn Val Val Gln Asn Ile Phe Glu Glu Arg Tyr 180 185 190 Lys Val Asn Gly Ser Ser Ile Lys Ile Asp Asp Gly Asp Ile Ile Leu 195 200 205 Asn Leu Ser Leu Thr Met Pro Lys Glu Ile Lys Glu Leu Asp Glu Asn 210 215 220 Lys Val Val Gly Val Asp Leu Gly Leu Ala Ile Pro Ala Val Cys Ala 225 230 235 240 Leu Asn Thr Asn Gly Tyr Ser Arg Lys Ser Ile Gly Asn Ala Asn Asp 245 250 255 Phe Ser Arg Val Arg Thr Lys Ile Lys Ala Gln Arg Arg Arg Leu Gln 260 265 270 Lys Ser Leu Ser Gln Thr Ser Gly Gly His Gly Arg Gly Lys Lys Leu 275 280 285 Arg Ala Leu Asn Arg Phe Ser Glu Tyr Glu Lys His Trp Val Gln Asn 290 295 300 Tyr Ser His Tyr Val Ser Lys Gln Val Val Asp Phe Ala Ile Lys Asn 305 310 315 320 Asn Ala Lys Tyr Ile Asn Leu Glu Asp Leu Glu Gly Tyr Gly Asp Asp 325 330 335 Glu Lys Asn Lys Phe Ile Leu Ser Asn Trp Ser Tyr Tyr Gln Val Gln 340 345 350 Gln Tyr Ile Thr Tyr Lys Ala Glu Lys Tyr Gly Ile Glu Val Arg Lys 355 360 365 Ile Asn Pro Tyr Arg Thr Ser Gln Val Cys Ser Cys Cys Gly His Trp 370 375 380 Glu Asn Gly Gln Arg Ile Asp Gln Ala Thr Phe Ile Cys Lys Asn Pro 385 390 395 400 Glu Cys Lys Asn Phe Gly Glu Lys Val Asn Ala Asp Phe Asn Ala Ala 405 410 415 Arg Asn Ile Ala Leu Ser Thr Asp Trp Ser Asp Ile Asp Glu Lys Lys 420 425 430 Asn Lys Lys Asn Lys Lys Lys 435 <210> 306 <211> 440 <212> PRT <213> Ruminococcus sp. <400> 306 Met Val Lys Val Val Lys Ile Tyr Leu Ile Ser Glu Gln Phe Asp Lys 1 5 10 15 Ala Gly Asn Arg Ile Asp Tyr Lys Glu Val Asn Lys Ile Leu Trp Glu 20 25 30 Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu 35 40 45 Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile 50 55 60 Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln 65 70 75 80 Ala Asn Lys Glu Leu Arg Thr Lys Leu Ile Leu Asn Ser Ser Asn Leu 85 90 95 Ser Thr Thr Thr Met Asp Val Cys Lys Ile Phe Asn Thr Tyr Lys Lys 100 105 110 Glu Val Trp Glu Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln 115 120 125 Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn 130 135 140 Gln Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Glu Phe Ala Lys 145 150 155 160 Tyr Gly Phe Lys Asp Gly Phe Arg Phe Lys Met Gln Val Lys Asp Asn 165 170 175 Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr Lys Ile 180 185 190 Asn Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Lys Met Trp Lys Leu 195 200 205 Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys 210 215 220 Glu Lys Ile Leu Gly Val Asp Val Gly Val Asn Cys Pro Leu Val Ala 225 230 235 240 Ser Val Phe Gly Asp Arg Asp Arg Phe Ile Ile Lys Gly Gly Glu Ile 245 250 255 Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu 260 265 270 Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys 275 280 285 Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg 290 295 300 Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val 305 310 315 320 Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr 325 330 335 Ser Lys Ser Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln 340 345 350 Thr Lys Ile Glu Asn Lys Ala Lys Glu Val Gly Ile Asn Val Val Tyr 355 360 365 Ile Ala Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile 370 375 380 His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Lys Cys 385 390 395 400 Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile 405 410 415 Lys Asn Ile Ala Lys Ile Ile Glu Lys Asp Leu Lys Lys Gln Lys Ser 420 425 430 Glu Val Gln Val Asn Glu Asn Lys 435 440 <210> 307 <211> 441 <212> PRT <213> Clostridium perfringens <400> 307 Met Ser Thr Lys Cys Val Lys Ile Ala Leu Glu Tyr Ser Lys Asp Asn 1 5 10 15 Val Leu Lys Lys Glu Glu Phe Leu Lys Glu Leu Lys Asp Ile Gln Tyr 20 25 30 Lys Thr Trp Leu Ala Ser Asn Arg Ala Ile Thr Tyr Phe Tyr Ser Asn 35 40 45 Asp Met Gln Asn Leu Ile Gln Lys Asp Ile Gly Ile Pro Lys Glu Asp 50 55 60 Asp Lys Lys Leu Phe Gly Lys Gly Phe Gly Ser Trp Val Glu Asn Arg 65 70 75 80 Met Asn Glu Ile Met Tyr Gly Ala Leu Ser Asn Asn Val Ala Gln Thr 85 90 95 Arg Gln Phe Val Asn Asn Arg Tyr Ser Gln Asp Lys Lys Asn Gly Leu 100 105 110 Leu Lys Gly Asn Ile Ser Leu Ser Gln Phe Lys Arg Asp Met Pro Ile 115 120 125 Ile Ile His Asn Lys Ala Tyr Asn Ile Ile Asn Thr Pro Lys Gly Leu 130 135 140 Gly Ile Glu Ile Gly Phe Phe Asn Lys Glu Lys Gln Gln Lys Leu Gly 145 150 155 160 Val Lys Arg Ile Lys Phe Leu Phe Pro Lys Leu Asp Asn Ser Ser Lys 165 170 175 Gln Ile Leu Ile Arg Leu Met Asp Lys Thr Tyr Lys Gln Gly Ser Ile 180 185 190 Gln Ile Val Asn Asn Lys Arg Lys Lys Lys Trp Leu Val Ala Ile Ser 195 200 205 Tyr Thr Phe Glu Asn Lys Leu Gln Lys Pro Leu Ser Asp Asn Leu Val 210 215 220 Met Gly Ile Asp Leu Gly Ile Thr Asn Val Ala Thr Met Ser Ile Phe 225 230 235 240 Asn Thr Lys Lys Glu Glu Tyr Lys Ala Met Tyr Trp Lys Glu Arg Ile 245 250 255 Ile Asp Gly Thr Glu Leu Ile His Tyr Arg Gln Lys Ile Glu Ala Arg 260 265 270 Arg Lys Ser Leu Ser Ile Ala Ser Lys Trp Ser Ser Asp Ser Ala Ile 275 280 285 Gly His Gly Tyr Lys Arg Arg Met Lys Lys Ala Asn Ser Val Gly Asp 290 295 300 Lys Tyr Asn Arg Phe Lys Asp Thr Tyr Asn His Lys Val Ser Arg Tyr 305 310 315 320 Ile Val Asp Leu Ala Tyr Lys Tyr Gly Val Lys Thr Ile Gln Met Glu 325 330 335 Asp Leu Ser Gly Phe Ser Glu Tyr Gln Ser Glu Ser Leu Leu Lys Asn 340 345 350 Trp Ser Tyr Tyr Asp Leu Gln Asn Lys Ile Lys Tyr Lys Ala Glu Glu 355 360 365 Lys Gly Ile Asn Thr Ile Phe Ile Asn Pro Gln Tyr Thr Ser Lys Arg 370 375 380 Cys Ser Lys Cys Gly Asn Ile His Glu Asp Asn Arg Asp Cys Lys Asn 385 390 395 400 Asn Gln Ala Glu Phe Lys Cys Val Ile Cys Lys Tyr Ser Glu Asn Ala 405 410 415 Asp Ile Asn Ala Ser Lys Asn Ile Ala Ile Pro Tyr Ile Asp Lys Ile 420 425 430 Ile Ser Glu Tyr Ile Lys Asp Ile Lys 435 440 <210> 308 <211> 443 <212> PRT <213> Bacillus thuringiensis <400> 308 Met Lys Tyr Gln Ile Val Cys Pro Val Asn Ile Glu Trp Lys Thr Phe 1 5 10 15 Glu Ile Tyr Leu Arg Thr Leu Ser Tyr His Phe Arg Thr Ile Gly Asn 20 25 30 Arg Thr Ile Gln Lys Leu Trp Glu Tyr Asp Asn Gln Ser Leu Lys His 35 40 45 Phe Lys Asp Thr Gly Gln Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys 50 55 60 Thr Gln Lys Thr Ile Ser Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu 65 70 75 80 Tyr Gln Asp Ile Asn Lys Ala Asn Met Ser Thr Thr Leu Gln Lys Thr 85 90 95 Ile Arg Thr Trp Asn Ser Arg Lys Lys Glu Ile Trp Ser Gly Glu Met 100 105 110 Ser Ile Pro Ser Phe Arg Asn Asn Leu Pro Ile Asp Ile His Gly Asn 115 120 125 Ser Ile Gln Ile Ile Lys Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val 130 135 140 Ser Leu Phe Ser Ser Lys Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly 145 150 155 160 Lys Ile Leu Val Lys Leu Ser Thr Arg Lys Gln Asn Ser Met Lys Val 165 170 175 Ile Leu Asp Arg Ile Ile Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met 180 185 190 Leu His Lys His Lys Lys Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser 195 200 205 Asn Ile Lys Glu Glu Leu Lys Phe Asp Glu Asp Leu Ile Met Gly Ile 210 215 220 Asp Met Gly Lys Ile Asn Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu 225 230 235 240 Val Arg Gly Ala Ile Ser Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys 245 250 255 Ile Glu His Arg Arg Ile Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser 260 265 270 Gly Asn Arg Ile Gly Lys Gly Arg Glu Lys Arg Ile Lys Pro Ile Asp 275 280 285 Val Leu Asn Asp Lys Val Ala Lys Phe Arg Asn Ala Thr Asn His Lys 290 295 300 Tyr Ala Asn Tyr Ile Val Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr 305 310 315 320 Ile Gln Leu Glu Asp Leu Lys Gly Ile Ser Lys Glu Gln Thr Phe Leu 325 330 335 Lys Asn Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala 340 345 350 Asn Gln Tyr Gly Met Lys Val Val Lys Ile Asp Pro Ser Tyr Thr Ser 355 360 365 Gln Arg Cys Ser Glu Cys Gly Tyr Ile His Lys Asn Asn Arg Gln Asp 370 375 380 Gln Ser Thr Phe Glu Cys Gln Gln Cys Ser Phe Lys Val His Ala Asp 385 390 395 400 Tyr Asn Ala Ala Lys Asn Ile Ser Val Tyr Asn Ile Glu Lys Val Ile 405 410 415 Gln Lys Gln Leu Glu Leu Gln Glu Lys Leu Asn Gln Thr Lys Tyr Lys 420 425 430 Glu Gln Tyr Ile Glu Gln Met Lys Asn Ile Asn 435 440 <210> 309 <211> 444 <212> PRT <213> Clostridium perfringens <400> 309 Met Thr Thr Lys Ser Ile Lys Leu Ala Ile Glu Phe Ser Lys Glu Asn 1 5 10 15 Cys Val Asp Lys Lys Lys Phe Phe Asp Asn Ile Lys Asp Ile Gln Tyr 20 25 30 Lys Thr Trp Lys Ala Ser Asn Arg Ala Ile Thr Tyr Leu Tyr Ser Asn 35 40 45 Asp Met Gln Asn Leu Ile Gln Lys Asp Val Gly Leu Pro Lys Gln Glu 50 55 60 Asp Lys Asp Ile Phe Gly Lys Ser Phe Gly Ala Trp Ile Glu Asn Lys 65 70 75 80 Met Asn Glu Ile Ile Asp Gly Ala Asn Ser Gly Asn Val Ala Gln Gln 85 90 95 Arg Ala Phe Val Ile Asn Arg Tyr Asn Gln Asp Lys Lys Asn Gly Leu 100 105 110 Leu Glu Gly Lys Val Thr Leu Thr Gln Phe Lys Arg Asn Ile Pro Ile 115 120 125 Ile Ile His Asn Lys Ser Tyr Lys Ile Ile Glu Thr Asn Lys Gly Leu 130 135 140 Gly Val Glu Val Gly Leu Phe Asn Lys Lys Leu Gln Lys Glu Leu Asp 145 150 155 160 Val Lys Arg Ile Lys Phe Leu Phe Pro Lys Ile Asn Asn Ser Ser Lys 165 170 175 Ser Ile Leu Arg Arg Leu Met Asp Gly Thr Tyr Lys Gln Gly Thr Ile 180 185 190 Gln Met Lys His Asp Ala Arg Lys Asn Lys Trp Phe Met Ser Ile Thr 195 200 205 Phe Thr Phe Asp Asn Lys Ile Asp Lys Thr Leu Asp Glu Asn Leu Val 210 215 220 Met Gly Ile Asp Leu Gly Ile Ser Lys Val Ala Thr Met Ser Ile Tyr 225 230 235 240 Asn Ile Glu Lys His Glu Tyr Lys Glu Met Tyr Trp Lys Glu Arg Thr 245 250 255 Ile Asp Gly Ala Glu Leu Ile His Tyr Arg Gln Lys Leu Glu Ala Arg 260 265 270 Arg Lys Ala Leu Met Ile Ser Ser Lys Trp Ser Ser Asn Asn Ala Ile 275 280 285 Gly His Gly Tyr Lys Arg Arg Thr Val Lys Ala Asn Glu Leu Gly Glu 290 295 300 Lys Tyr Thr Arg Phe Arg Asp Thr Tyr Asn His Lys Ile Ser Arg Tyr 305 310 315 320 Ile Val Asp Leu Ala Phe Lys Tyr Gly Val Lys Thr Ile Gln Met Glu 325 330 335 Asn Leu Ser Gly Phe Ser Thr Glu Gln Ser Glu Ser Leu Leu Lys Asn 340 345 350 Trp Ser Tyr Tyr Asp Leu Gln Ser Lys Ile Glu Tyr Lys Ser Lys Asp 355 360 365 Lys Gly Ile Asn Val Val Phe Ile Asn Pro Lys Phe Thr Ser Lys Arg 370 375 380 Cys Asn Arg Cys Gly Asn Ile Arg Ser Glu Asn Arg Ser Cys Lys Asn 385 390 395 400 Asp Gln Ala Lys Phe Lys Cys Val Val Cys Gly His Glu Asp Asn Ala 405 410 415 Asp Ile Asn Ala Ser Lys Asn Ile Ala Ile Pro Tyr Ile Asp Lys Ile 420 425 430 Ile Asp Glu Tyr Leu Lys Glu Lys Glu Glu Val Ile 435 440 <210> 310 <211> 445 <212> PRT <213> Bacillus cereus <400> 310 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Ser Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr 260 265 270 Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro 275 280 285 Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn 290 295 300 His Lys Tyr Ala Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys 305 310 315 320 Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg 325 330 335 Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn 340 345 350 Gln Ala Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr 355 360 365 Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg 370 375 380 Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His 385 390 395 400 Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn 405 410 415 Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys 420 425 430 Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp 435 440 445 <210> 311 <211> 445 <212> PRT <213> Bacillus toyonensis <400> 311 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr 260 265 270 Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro 275 280 285 Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn 290 295 300 His Lys Tyr Ala Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys 305 310 315 320 Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg 325 330 335 Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn 340 345 350 Gln Ala Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr 355 360 365 Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg 370 375 380 Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His 385 390 395 400 Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn 405 410 415 Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys 420 425 430 Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp 435 440 445 <210> 312 <211> 445 <212> PRT <213> Bacillus toyonensis <400> 312 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Ser Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr 260 265 270 Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro 275 280 285 Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn 290 295 300 His Lys Tyr Ala Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys 305 310 315 320 Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg 325 330 335 Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn 340 345 350 Gln Val Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr 355 360 365 Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg 370 375 380 Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His 385 390 395 400 Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn 405 410 415 Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys 420 425 430 Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp 435 440 445 <210> 313 <211> 445 <212> PRT <213> Bacillus toyonensis <400> 313 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Ser Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr 260 265 270 Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro 275 280 285 Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn 290 295 300 His Lys Tyr Thr Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys 305 310 315 320 Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg 325 330 335 Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn 340 345 350 Gln Ala Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr 355 360 365 Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg 370 375 380 Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His 385 390 395 400 Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn 405 410 415 Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys 420 425 430 Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp 435 440 445 <210> 314 <211> 447 <212> PRT <213> Alicyclobacillus acidoterrestris <400> 314 Met Ile Val Lys Thr Met Pro Tyr Glu Ile Ile Lys Pro Leu Ser Cys 1 5 10 15 Asp Trp Ala Val Phe Gly Glu Met Leu Arg Arg Leu Arg Asp Glu Ser 20 25 30 Phe Arg Ile Lys Asn Ser Ala Ile Gln Tyr Phe Tyr Glu Asp Asp Ile 35 40 45 Lys Arg Arg Glu Phe Lys Lys Asn Asn Gly Arg Phe Pro Lys Lys Gly 50 55 60 Glu Phe Tyr Gly Ser Ser Val Ser Val Tyr Asn Tyr Val Arg Pro Asp 65 70 75 80 Val Lys Tyr Ser Ala Met Gly Asn Val Thr Leu Ile Asn Gln Leu Val 85 90 95 Lys Ser Val Trp Ile Lys Tyr Lys Asp Asp Val Val Lys Arg Asn Met 100 105 110 Ser Ile Pro Ser Tyr Arg Pro Asn Asn Pro Ile Glu Ile Asn Val Gln 115 120 125 Ser Phe Asn Ser Phe Asp Phe Gly Gln Ala Cys Val Asn Leu Leu Ser 130 135 140 Arg Lys Gly Val Glu Glu Leu Lys Lys Lys Leu Ser Glu Val Lys Lys 145 150 155 160 Lys Lys Asn Lys Thr Gly Gly Asp Asp Asn Leu Lys Phe Thr Gln Glu 165 170 175 Gln Leu Asn Gly Ile Ser Thr Ser Val Thr Phe Ala Phe Asn Pro Gly 180 185 190 Lys Asn Asn Ala Lys Gln Val Leu Asn Arg Ile Ile Ser Gly Glu Tyr 195 200 205 Lys Leu Ser Ser Ser Lys Ile Ile Tyr Asn Glu Arg Lys Asn Lys Trp 210 215 220 Met Leu Ala Val Ala Tyr Lys Phe Glu Pro Lys Thr Ile Glu Leu Asp 225 230 235 240 Lys Asn Arg Val Leu Gly Ile Asp Met Gly Val Val Tyr Pro Ala Tyr 245 250 255 Met Ala Val Asn Tyr Asp Lys Tyr Trp Arg Asp Ser Ile Asp Gly Gly 260 265 270 Gln Ile Glu Gln Tyr Arg Lys Thr Val Glu Ala Arg Arg Arg Arg Leu 275 280 285 Gln Arg Gln Ala Ala Val Cys Gly Asn Gly Arg Ile Gly His Gly Arg 290 295 300 Lys Lys Arg Met Gln Pro Leu Glu Lys Ile Ser Asp Lys Val Ala Asn 305 310 315 320 Phe Arg Asn Thr Val Asn His Thr Tyr Ala Lys Lys Ile Val Gln Asn 325 330 335 Ala Val Lys Leu Gly Cys Gly Thr Ile Gln Met Glu Glu Leu Ser Gly 340 345 350 Ile Asn Glu Lys Glu Thr Phe Leu Lys Arg Trp Thr Tyr Phe Asp Leu 355 360 365 Gln Lys Lys Ile Glu Tyr Arg Ala Lys Glu Tyr Gly Ile Asp Val Ile 370 375 380 Lys Ile Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Tyr 385 390 395 400 Ile Asp Glu Arg Asn Arg Pro Lys Val Pro Asp Gln Ser Lys Phe Lys 405 410 415 Cys Leu Ser Cys Gly Tyr Glu Thr Asn Ala Asp Phe Asn Ala Ala Arg 420 425 430 Asn Ile Ala Thr Pro Tyr Ile Asp Lys Ile Ile Ser Leu Asn Ser 435 440 445 <210> 315 <211> 447 <212> PRT <213> Clostridium tetani <400> 315 Met Asn Lys Cys Ile Lys Val Glu Leu Lys Ser Cys Leu Glu Lys Asn 1 5 10 15 Leu Ser Asn Lys Gln Ser Gln Lys Phe Leu Lys Asp Ile Gln Tyr Leu 20 25 30 Ser Trp Lys Gly Cys Asn Arg Ala Ile Thr Tyr Leu Tyr Asn His Asp 35 40 45 Met Lys Asn Ser Glu Leu Lys Tyr Lys Asn Leu Pro Lys Ile Asp Pro 50 55 60 Asn Lys Glu Tyr Gly Lys Ser Leu Gly Ser Trp Ile Glu Asp Lys Leu 65 70 75 80 Lys Glu Ile Met Val Gly Cys Leu Thr Thr Asn Val Ala Gln Thr Arg 85 90 95 Ala Phe Val Met Asn Arg Tyr Lys Gln Asp Lys Lys Gln Gly Leu Leu 100 105 110 Lys Gly Asn Val Ser Leu Ser Asn Phe Lys Arg Asn Met Pro Ile Ile 115 120 125 Ile His Asn Lys Ala Tyr Lys Ile Ile Lys Asp Asp Lys Gly Tyr Ile 130 135 140 Ala Glu Ile Gly Leu Phe Asn Leu Ile Lys Gln Lys Glu Leu Gly Ile 145 150 155 160 Lys Arg Leu Thr Phe Arg Ile Asn Lys Leu Asp Gly Asn Lys Lys Ser 165 170 175 Thr Leu Asn Lys Ile Ile Asn Glu Asp Tyr Lys Leu Gly Ser Gly Gln 180 185 190 Ile Lys Gln Asp Ser Lys Gly Lys Trp Tyr Leu Leu Ile Ser Tyr Ser 195 200 205 Phe Lys Asn Glu Ile Val Glu Gly Leu Asp Lys Asp Lys Ile Leu Gly 210 215 220 Ile Asp Leu Gly Ile Val Asn Thr Val Ala Met Ser Ile Tyr Asn Ile 225 230 235 240 Lys Lys Asp Thr Trp Glu Gln Thr Arg Tyr Lys Asp Thr Val Ile Asp 245 250 255 Gly Glu Glu Leu Ile His Phe Arg Lys Lys Ile Glu Ala Arg Lys Lys 260 265 270 Ser Leu Ser Ile Gly Ser Lys Tyr Cys Gly Asp Gly Arg Ile Gly His 275 280 285 Gly Tyr Lys Thr Arg Met Lys Pro Phe Leu Asn Ile Lys Asp Lys Ile 290 295 300 Ser Lys Phe Arg Asp Thr Tyr Asn His Lys Ile Ser Arg Tyr Ile Ile 305 310 315 320 Asp Phe Ala Ile Lys Asn Lys Cys Gly Ala Ile Gln Met Glu Asp Leu 325 330 335 Ser Gly Phe Pro Glu Tyr Gln Thr Glu Lys Phe Leu Lys Asp Trp Thr 340 345 350 Tyr Tyr Asp Leu Gln Asn Lys Leu Lys Tyr Lys Ala Glu Glu Ile Gly 355 360 365 Ile Asp Ile Ile Phe Ile Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser 370 375 380 Lys Cys Gly Asn Ile Asn Asn Lys Asn Arg Asp Cys Lys Lys Asp Gln 385 390 395 400 Ala Lys Phe Gln Cys Ile Ile Cys Gly Tyr Lys Glu Asn Ala Asp Ile 405 410 415 Asn Ala Ser Lys Asn Ile Ser Ile Pro Tyr Ile Asp Asp Ile Ile Lys 420 425 430 Glu Tyr Leu Lys Glu Asn Asn Ser Ile Lys Val Asp Phe Pro Thr 435 440 445 <210> 316 <211> 449 <212> PRT <213> Candidatus Levybacteria bacterium <400> 316 Met Val Arg Glu Ile Arg Lys Leu Asn Val Ile Asp Lys Val Glu Lys 1 5 10 15 Lys Lys Val Val Gln Arg Thr Leu Arg Leu Lys Leu Glu Leu Val Asp 20 25 30 Lys Gly Ser Lys Asp Arg Ile Asp Lys Ile Val Arg Asp Cys Pro Tyr 35 40 45 Ala Ala Asn Gly Ile Ile Asn Gly Gln Trp Phe Asn Asp Tyr Glu Ala 50 55 60 Asp Ala Leu Arg Tyr Arg Val Ile Gly Asn Val Asn Phe Lys Glu Leu 65 70 75 80 Thr Asp Cys Glu Lys Glu Glu Tyr Lys Asn Lys Leu Ser Ser Cys Glu 85 90 95 Asp Ile Leu Ile Gln Lys Tyr Gly Thr Lys Arg Gln Ala Thr Thr Glu 100 105 110 Arg Asp Ile Lys Asn Leu Phe Pro Glu Ile Pro Pro Cys Val Thr Asn 115 120 125 Pro Leu Asn Asn Lys Ile Val Ser Thr Tyr Asn Lys Val Lys Gly Asp 130 135 140 Ile Lys Lys Gly Asn Arg Val Leu Ser Thr Phe Lys Lys Asp Met Pro 145 150 155 160 Ile Pro Thr Thr Leu Ser Ser Val Val Phe Gly Glu Asp Lys Gly Lys 165 170 175 Phe Phe Ile Val Trp Ser Leu Ser Arg Ser Glu Lys Ile Lys Phe Lys 180 185 190 Ile Lys Leu Gly Lys Asp Lys Ser Gly Tyr Lys Gln Asp Leu Val Ala 195 200 205 Ile Ile Asn Lys Thr Lys Asn Ile Cys Ala Pro Glu Phe Gln Tyr Lys 210 215 220 Lys Arg Asn Phe Tyr Leu Leu Leu Pro Val Lys Asp Glu Val Asn Pro 225 230 235 240 His Ser His Leu Phe Asn Asp Arg Val Val Gly Ile Asp Leu Gly Leu 245 250 255 Asn Ile Pro Ala Tyr Ala Ser Cys Ile Ser Asn Gly Ser Glu Phe Val 260 265 270 Asp Ser Glu His Phe Gly Ser Lys Glu Ser Phe Leu Lys Val Arg Leu 275 280 285 Gln Phe Arg Asn Arg Lys Arg Gln Leu Gln Lys Asp Leu Gln Tyr Val 290 295 300 Asn Gly Gly Lys Gly Arg Arg Lys Lys Thr Lys Ala Leu Asp Glu Tyr 305 310 315 320 Glu Phe Lys Glu Arg Asn Tyr Cys Arg Thr Tyr Asn His Asn Leu Thr 325 330 335 Ser Lys Ile Ile Asp Phe Ala Ile Lys Cys Gly Ala Lys His Ile Asn 340 345 350 Leu Glu Ser Leu Lys Gly Phe Arg Glu Lys Lys Ile Leu Gly Phe Trp 355 360 365 Ser Tyr Phe Glu Met Gln Thr Leu Leu Glu Tyr Lys Ala Lys Arg Asn 370 375 380 Asn Ile Glu Val His Phe Val Ser Ala Asn Tyr Thr Ser Gln Thr Cys 385 390 395 400 Ser Gln Cys Gly Asn Cys Asp Lys Thr Gln Arg Lys Gly Val Asn Phe 405 410 415 Thr Cys Asn Lys Cys Gly Tyr Val Glu Asp Ala Asp Phe Asn Ala Ser 420 425 430 Ile Asn Ile Ala Lys Ser Ile Gln Phe Val Ala Asn Lys Lys Ala Ser 435 440 445 Lys <210> 317 <211> 450 <212> PRT <213> Bacillus cereus <400> 317 Met Ser Thr Val Val Lys Val Met Lys Tyr Gln Ile Val Cys Pro Val 1 5 10 15 Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr Leu Ser Tyr 20 25 30 His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu Trp Glu Tyr 35 40 45 Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln Tyr Pro Ser 50 55 60 Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser Gly Tyr Ile 65 70 75 80 Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys Ala Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser Arg Lys Lys 100 105 110 Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Asn Leu 115 120 125 Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys Glu Lys Ser 130 135 140 Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys Phe Ile Lys 145 150 155 160 Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu Ser Thr Arg 165 170 175 Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile Asp Ser Thr 180 185 190 Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys Lys Trp Tyr 195 200 205 Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu Lys Phe Asp 210 215 220 Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn Val Leu Tyr 225 230 235 240 Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Gly Ile Ser Gly Glu Glu 245 250 255 Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile Ser Leu Leu 260 265 270 Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys Gly Arg Lys 275 280 285 Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile Ala Lys Phe 290 295 300 Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Gln Gln Cys 305 310 315 320 Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu Gln Gly Ile 325 330 335 Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe Asp Leu Gln 340 345 350 Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys Val Val Lys 355 360 365 Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Tyr Ile 370 375 380 His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys Gln Gln Cys 385 390 395 400 Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Val 405 410 415 Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu Gln Glu Lys 420 425 430 Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln Met Glu Asn 435 440 445 Ile Asn 450 <210> 318 <211> 450 <212> PRT <213> Bacillus cereus <400> 318 Met Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val Cys Pro Val 1 5 10 15 Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr Leu Ser Tyr 20 25 30 His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu Trp Glu Tyr 35 40 45 Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln Tyr Pro Ser 50 55 60 Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser Gly Tyr Ile 65 70 75 80 Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys Ala Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser Arg Lys Lys 100 105 110 Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Asn Leu 115 120 125 Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys Glu Lys Ser 130 135 140 Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys Phe Ile Lys 145 150 155 160 Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu Ser Thr Arg 165 170 175 Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile Asp Ser Thr 180 185 190 Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys Lys Trp Tyr 195 200 205 Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu Lys Phe Asp 210 215 220 Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn Val Leu Tyr 225 230 235 240 Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser Gly Glu Glu 245 250 255 Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile Ser Leu Leu 260 265 270 Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys Gly Arg Lys 275 280 285 Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile Ala Lys Phe 290 295 300 Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Gln Gln Cys 305 310 315 320 Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu Gln Gly Ile 325 330 335 Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe Asp Leu Gln 340 345 350 Glu Lys Ile Lys Asn Leu Ala Asn Gln Tyr Gly Ile Lys Val Val Lys 355 360 365 Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Tyr Ile 370 375 380 His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys Gln Gln Cys 385 390 395 400 Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Val 405 410 415 Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu Gln Glu Lys 420 425 430 Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln Met Glu Asn 435 440 445 Ile Asn 450 <210> 319 <211> 450 <212> PRT <213> Bacillus cereus <400> 319 Met Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val Cys Pro Val 1 5 10 15 Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr Leu Ser Tyr 20 25 30 His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu Trp Glu Tyr 35 40 45 Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln Tyr Pro Ser 50 55 60 Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser Gly Tyr Ile 65 70 75 80 Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys Ala Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser Arg Lys Lys 100 105 110 Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Asn Leu 115 120 125 Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys Glu Lys Ser 130 135 140 Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys Phe Ile Lys 145 150 155 160 Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu Ser Thr Arg 165 170 175 Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile Asp Ser Thr 180 185 190 Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys Lys Trp Tyr 195 200 205 Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu Lys Phe Asp 210 215 220 Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn Val Leu Tyr 225 230 235 240 Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser Gly Glu Glu 245 250 255 Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile Ser Leu Leu 260 265 270 Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys Gly Arg Lys 275 280 285 Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile Ala Lys Phe 290 295 300 Arg Thr Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Gln Gln Cys 305 310 315 320 Leu Lys Phe Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu Gln Gly Ile 325 330 335 Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe Asp Leu Gln 340 345 350 Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys Val Val Lys 355 360 365 Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Cys Ile 370 375 380 His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys Gln Gln Cys 385 390 395 400 Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Val 405 410 415 Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu Gln Glu Lys 420 425 430 Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln Met Glu Asn 435 440 445 Ile Asn 450 <210> 320 <211> 450 <212> PRT <213> Clostridium paraputrificum <400> 320 Met Lys Leu Asn Lys Cys Ile Lys Val Thr Leu Val Lys Cys Leu Asn 1 5 10 15 Tyr Asp Tyr Lys Glu Ile Lys Gln Ile Ile Arg Asp Phe Asn Tyr Thr 20 25 30 Ala Cys Lys Ala Ser Asn Lys Ala Met Arg Met Trp Phe Phe His Thr 35 40 45 Gln Asp Met Ile Asp Lys Lys Asn Lys Tyr Lys Glu Phe Asn Gln Ile 50 55 60 Gln Tyr Glu Lys Asp Thr Tyr Gly Lys Ser Tyr Arg Asn Val Ile Glu 65 70 75 80 Gly Glu Met Lys Lys Ile Met Pro Leu Ala Asn Thr Ser Asn Val Gly 85 90 95 Thr Leu His Gln Gln Leu Val Gln Asn Asp Trp Ser Arg Leu Lys Lys 100 105 110 Asp Ile Leu Ser Cys Lys Ala Asn Leu Pro Thr Tyr Lys Leu Ser Thr 115 120 125 Pro Tyr Phe Ile Lys Asn Asp Asn Phe Lys Leu Arg Asn His Asn Gly 130 135 140 Tyr Phe Val Asp Ile Ala Phe Phe Asn Lys Glu Gly Leu Lys Gln Tyr 145 150 155 160 Gly Tyr Lys Ala Gly His Lys Phe Glu Phe Gln Ile Asp Lys Leu Asp 165 170 175 Gly Asn Lys Lys Ser Thr Ile Asn Lys Ile Ile Asn Gly Glu Tyr Lys 180 185 190 Gln Gly Ser Ala Gln Leu Ser Ile Ser Asn Lys Gly Lys Ile Glu Leu 195 200 205 Ile Ile Ser Tyr Ser Phe Glu Lys Glu Glu Val Pro Val Leu Asp Lys 210 215 220 Asn Lys Ile Leu Gly Ile Asp Leu Gly Ile Thr Asn Val Ala Thr Met 225 230 235 240 Ser Val Tyr Asp Ser Met Arg Glu Gln Tyr Asp Tyr Phe Ser Trp Lys 245 250 255 Thr Asn Val Ile Ser Gly Lys Glu Leu Ile Ala Phe Arg Gln Lys Tyr 260 265 270 Tyr Asn Leu Arg Arg Asp Met Ser Ile Ala Ser Lys Thr Ala Gly Gln 275 280 285 Gly Arg Cys Gly His Gly Tyr Lys Thr Lys Met Lys Ser Val Asn Lys 290 295 300 Val Arg Asn Lys Ile Ala Asn Phe Ala Asp Thr Tyr Asn His Lys Ile 305 310 315 320 Ser Lys Tyr Ile Ile Glu Phe Ala Ile Lys Asn Asn Cys Gly Val Ile 325 330 335 Gln Val Glu Asp Leu Ser Gly Ala Thr Ala Asp Thr His Asn Lys Met 340 345 350 Leu Lys Asp Trp Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys 355 360 365 Ala Lys Glu Gln Gly Ile Glu Val Ile Lys Val Asn Pro Lys Tyr Thr 370 375 380 Ser Lys Arg Cys Ser Lys Cys Gly Cys Ile His Glu Asp Asn Arg Asp 385 390 395 400 Cys Arg Asn Asn Gln Ala Lys Phe Glu Cys Lys Val Cys Gly Tyr Asn 405 410 415 Glu Asn Ala Asp Ile Asn Ala Ser Lys Asn Ile Ala Ile Pro Asp Ile 420 425 430 Asp Asn Ile Ile Lys Gly Thr Glu Ile Leu His Ser Lys Glu Asn Lys 435 440 445 Ala Ser 450 <210> 321 <211> 451 <212> PRT <213> Bacillus cereus <400> 321 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Gly Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile Tyr Gly Ile Glu Val Ile 355 360 365 Lys Val Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 322 <211> 451 <212> PRT <213> Bacillus thuringiensis <400> 322 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ser Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ile Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Ile Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 323 <211> 451 <212> PRT <213> Bacillus cereus <400> 323 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Ile Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Ala Glu Tyr Met Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 324 <211> 451 <212> PRT <213> Bacillus toyonensis <400> 324 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Arg Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 325 <211> 451 <212> PRT <213> Bacillus cereus <400> 325 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Ile Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Lys Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Ser Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Lys Lys Gln Lys Ser Met Lys Ile Ile Leu Asp Arg Leu Met Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Asn Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Val His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Ser Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 326 <211> 451 <212> PRT <213> Bacillus toyonensis <400> 326 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Ile Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Ile Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Lys Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Glu Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Asn Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys Tyr Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Ala Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 327 <211> 451 <212> PRT <213> Bacillus wiedmannii <400> 327 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Ile Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Met Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Ala Glu Tyr Met Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 328 <211> 451 <212> PRT <213> Bacillus cereus <400> 328 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Ser 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Ile Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Ser Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Cys Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Asp Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Gly Asn Arg Cys Thr Gln Ala Ile Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr Asn Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Ala Gln Ser 420 425 430 Lys Leu Asn Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 329 <211> 451 <212> PRT <213> Bacillus cereus <400> 329 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Glu Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Leu Lys Leu Gly Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 330 <211> 451 <212> PRT <213> Bacillus toyonensis <400> 330 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Leu Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ser Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Ile Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Gly Ile His Gly Ile Glu Val Ile 355 360 365 Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Ile Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 331 <211> 451 <212> PRT <213> Bacillus cereus <400> 331 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Lys Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Ser Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Lys Lys Gln Lys Ser Met Lys Ile Ile Leu Asp Arg Leu Met Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Asp Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ala Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Glu Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Gln Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 332 <211> 451 <212> PRT <213> Bacillus toyonensis <400> 332 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Gly Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Ile Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile Tyr Gly Ile Glu Val Ile 355 360 365 Lys Val Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 333 <211> 451 <212> PRT <213> Bacillus thuringiensis <400> 333 Met Arg Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Lys Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Leu Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Arg Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ala Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Glu Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Gln Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 334 <211> 451 <212> PRT <213> Bacillus cereus <400> 334 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Leu Lys Glu Asn Lys Phe 210 215 220 Asp Thr Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Lys Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Asn Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Asp Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Gly Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Lys Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 335 <211> 451 <212> PRT <213> Bacillus cereus <400> 335 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Leu Lys Leu Gly Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 336 <211> 451 <212> PRT <213> Bacillus cereus <400> 336 Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met 1 5 10 15 Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr 20 25 30 Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe 35 40 45 Asp Ala Leu Ser Phe Asn Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr 50 55 60 Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile 65 70 75 80 Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met 85 90 95 Ser Ser Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Lys Asn 100 105 110 Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile 115 120 125 Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn 130 135 140 Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys 145 150 155 160 Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr 165 170 175 Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asn Arg Leu Ile Asn Gln 180 185 190 Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp 195 200 205 Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Val Ile Lys Glu Asn Lys Phe 210 215 220 Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val 225 230 235 240 Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp 245 250 255 Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu 260 265 270 Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg 275 280 285 Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys 290 295 300 Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln 305 310 315 320 Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly 325 330 335 Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu 340 345 350 Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile 355 360 365 Lys Ile Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr 370 375 380 Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln 385 390 395 400 Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser 405 410 415 Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser 420 425 430 Lys Leu His Ser Lys Lys Cys Met Ala Glu Tyr Met Glu Glu Leu Gly 435 440 445 Tyr Leu Asp 450 <210> 337 <211> 453 <212> PRT <213> Bacillus thuringiensis <400> 337 Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val 1 5 10 15 Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr 20 25 30 Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu 35 40 45 Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln 50 55 60 Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser 65 70 75 80 Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys 85 90 95 Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Arg Thr Trp Asn Ser 100 105 110 Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg 115 120 125 Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys 130 135 140 Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys 145 150 155 160 Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu 165 170 175 Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile 180 185 190 Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys 195 200 205 Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu 210 215 220 Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn 225 230 235 240 Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser 245 250 255 Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile 260 265 270 Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys 275 280 285 Gly Arg Glu Lys Arg Ile Lys Pro Ile Asp Val Leu Asn Asp Lys Val 290 295 300 Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val 305 310 315 320 Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu 325 330 335 Lys Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Met Lys 355 360 365 Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys 370 375 380 Gly Tyr Ile His Lys Asn Asn Arg Gln Asp Gln Ser Thr Phe Glu Cys 385 390 395 400 Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn 405 410 415 Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Glu Leu 420 425 430 Gln Glu Lys Leu Asn Gln Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln 435 440 445 Met Lys Asn Ile Asn 450 <210> 338 <211> 453 <212> PRT <213> Bacillus sp. <400> 338 Met Thr Tyr Leu Ser Thr Val Val Lys Val Met Lys Tyr Gln Ile Val 1 5 10 15 Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr 20 25 30 Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu 35 40 45 Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln 50 55 60 Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser 65 70 75 80 Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys 85 90 95 Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser 100 105 110 Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg 115 120 125 Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys 130 135 140 Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys 145 150 155 160 Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu 165 170 175 Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile 180 185 190 Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys 195 200 205 Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu 210 215 220 Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn 225 230 235 240 Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Gly Ile Ser 245 250 255 Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile 260 265 270 Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys 275 280 285 Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile 290 295 300 Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val 305 310 315 320 Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu 325 330 335 Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys 355 360 365 Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys 370 375 380 Gly Tyr Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys 385 390 395 400 Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn 405 410 415 Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu 420 425 430 Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln 435 440 445 Met Glu Asn Ile Asn 450 <210> 339 <211> 453 <212> PRT <213> Bacillus cereus <400> 339 Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val 1 5 10 15 Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr 20 25 30 Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu 35 40 45 Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln 50 55 60 Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser 65 70 75 80 Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys 85 90 95 Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser 100 105 110 Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg 115 120 125 Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys 130 135 140 Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys 145 150 155 160 Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu 165 170 175 Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile 180 185 190 Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys 195 200 205 Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu 210 215 220 Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn 225 230 235 240 Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser 245 250 255 Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile 260 265 270 Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys 275 280 285 Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile 290 295 300 Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val 305 310 315 320 Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu 325 330 335 Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Glu Lys Ile Lys Asn Leu Ala Asn Gln Tyr Gly Ile Lys 355 360 365 Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys 370 375 380 Gly Tyr Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys 385 390 395 400 Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn 405 410 415 Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu 420 425 430 Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln 435 440 445 Met Glu Asn Ile Asn 450 <210> 340 <211> 453 <212> PRT <213> Bacillus cereus <400> 340 Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val 1 5 10 15 Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr 20 25 30 Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu 35 40 45 Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln 50 55 60 Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser 65 70 75 80 Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys 85 90 95 Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser 100 105 110 Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg 115 120 125 Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys 130 135 140 Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys 145 150 155 160 Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu 165 170 175 Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile 180 185 190 Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys 195 200 205 Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu 210 215 220 Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn 225 230 235 240 Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser 245 250 255 Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile 260 265 270 Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys 275 280 285 Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile 290 295 300 Ala Lys Phe Arg Thr Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val 305 310 315 320 Gln Gln Cys Leu Lys Phe Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu 325 330 335 Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys 355 360 365 Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys 370 375 380 Gly Cys Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys 385 390 395 400 Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn 405 410 415 Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu 420 425 430 Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln 435 440 445 Met Glu Asn Ile Asn 450 <210> 341 <211> 453 <212> PRT <213> Bacillus thuringiensis <400> 341 Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val 1 5 10 15 Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr 20 25 30 Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu 35 40 45 Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln 50 55 60 Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser 65 70 75 80 Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys 85 90 95 Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser 100 105 110 Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg 115 120 125 Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys 130 135 140 Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys 145 150 155 160 Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu 165 170 175 Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile 180 185 190 Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys 195 200 205 Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu 210 215 220 Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn 225 230 235 240 Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser 245 250 255 Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile 260 265 270 Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys 275 280 285 Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile 290 295 300 Ala Lys Phe Arg Thr Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val 305 310 315 320 Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu 325 330 335 Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys 355 360 365 Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys 370 375 380 Gly Tyr Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys 385 390 395 400 Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn 405 410 415 Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Arg Gln Leu Lys Leu 420 425 430 Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln 435 440 445 Met Glu Asn Ile Asn 450 <210> 342 <211> 453 <212> PRT <213> Bacillus sp. <400> 342 Met Lys Tyr Leu Ser Thr Val Val Lys Val Met Lys Tyr Gln Ile Ile 1 5 10 15 Cys Pro Val Asn Ile Glu Trp Lys Ala Phe Glu Thr Tyr Leu Arg Thr 20 25 30 Leu Ser Tyr Gln Val Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu 35 40 45 Trp Asp Phe Asp Asn Gln Ser Leu Asn His Phe Arg Glu Asn Gly Val 50 55 60 Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser 65 70 75 80 Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Met Asn Lys 85 90 95 Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser 100 105 110 Arg Lys Lys Glu Ile Arg Ser Gly Glu Met Ser Ile Pro Ser Phe Arg 115 120 125 Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Thr Lys 130 135 140 Glu Lys Ser Gly Asp Tyr Ile Ala Ser Leu Ser Leu Phe Ser Ser Asn 145 150 155 160 Phe Ile Ile Glu Asn Asn Leu Pro Asn Gly Lys Ile Gln Val Lys Leu 165 170 175 Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile 180 185 190 Glu Asn Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Asn 195 200 205 Lys Trp Tyr Leu Ser Ile Ile Tyr Lys Pro Thr Val Lys Glu Glu His 210 215 220 Lys Phe Glu Glu Asp Leu Val Met Gly Ile Asp Met Gly Lys Ile Asn 225 230 235 240 Val Leu Tyr Phe Ala Phe Asn Lys Gly Trp Ile Arg Gly Ala Ile Ser 245 250 255 Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile 260 265 270 Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Val Gly Lys 275 280 285 Gly Arg Glu Lys Arg Ile Lys Pro Ile Asp Val Leu Asn Asn Lys Ile 290 295 300 Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val 305 310 315 320 Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asn Leu 325 330 335 Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe 340 345 350 Asp Leu Gln Glu Lys Ile Lys Gln Gln Ala His Gln Tyr Gly Met Lys 355 360 365 Val Val Thr Ile Asp Pro Ser Tyr Thr Ser Lys Arg Cys Ser Glu Cys 370 375 380 Gly Tyr Ile His Lys Asn Asn Arg Lys Ser Gln Ser Thr Phe Glu Cys 385 390 395 400 Gln Gln Cys Asn Leu Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn 405 410 415 Ile Ser Ile Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu 420 425 430 Gln Glu Lys Leu Asn Ser Lys Lys Phe Thr Glu Gln Tyr Ile Glu Gln 435 440 445 Val Glu Asn Ile Asn 450 <210> 343 <211> 453 <212> PRT <213> Prevotella copri <400> 343 Met Ser Lys Ile Thr Arg Lys Ile Glu Ile Ile Pro Asp Val Glu Gly 1 5 10 15 Leu Thr His Glu Glu Ser Asn Glu Lys Cys Tyr Lys Ala Phe Tyr Asn 20 25 30 Tyr Asp Arg Lys Leu Tyr Lys Val Ala Asn Leu Leu Val Ser Gln Leu 35 40 45 Tyr Gly Leu Asp Asn Leu Leu Ser Leu Met Arg Leu Gln Asn Glu Glu 50 55 60 Tyr Val Asp Ser Gln Arg Lys Leu Ser Phe Lys Ser Thr Thr Asp Thr 65 70 75 80 Ala Lys Glu Glu Ile Lys Lys Arg Met Glu Glu Ile Asp Ala Glu Leu 85 90 95 Met Ala Ile Lys Lys Lys Ile Ala Pro Met His Pro Gln Ser Tyr Ser 100 105 110 Tyr Arg Ala Val Asn Ser Ser Glu Tyr Ala Lys Asp Met Pro Ser Asp 115 120 125 Ile Val Asp Ser Leu Lys Gln Asp Val Tyr Lys His Phe Asn Asp Ser 130 135 140 Lys Lys Glu Gln Ile Arg Gly Glu Arg Ser Leu Thr Thr Tyr Lys Arg 145 150 155 160 Gly Met Pro Ile Pro Phe Asn Leu Lys Lys Lys His Ser Ile Val Cys 165 170 175 Asp Gly Asp Asn Tyr Tyr Leu Pro Trp Phe Glu Asp Thr Arg Phe Arg 180 185 190 Leu Asn Phe Gly Arg Asp Arg Ser Asn Asn Arg Ala Ile Ile Asp Asn 195 200 205 Cys Ile Lys Thr Lys Lys Tyr Lys Leu Cys Ala Ala Ala Lys Ile Gln 210 215 220 Leu Lys Glu Arg Lys Leu Phe Leu Leu Ile Thr Val Asp Ile Pro Lys 225 230 235 240 Ala Glu Ser Val Pro Val Lys Gly Lys Val Met Gly Val Asp Leu Gly 245 250 255 Val Ile Asn Pro Ala Tyr Val Ala Val Asn Asp Gly Pro Glu Arg Ser 260 265 270 Arg Ile Gly Asn Gly Glu Thr Phe Gln Lys Gln Arg Asp Val Phe Arg 275 280 285 Arg Arg Phe Arg Glu Leu Gln Arg Ser Gln Leu Thr Gln Gly Gly His 290 295 300 Gly Arg Lys His Lys Thr Lys Ala Thr Glu Ile Leu Arg Gly Lys Glu 305 310 315 320 Arg Asn Trp Val Gln Thr Glu Asn His Arg Ile Ser Arg Glu Ile Val 325 330 335 Asn Leu Ala Ser Arg Trp Lys Val Glu Thr Ile Gln Met Glu Ser Leu 340 345 350 Lys Gly Phe Gly Lys Asn Gln Glu Gly Glu Val Glu Tyr Asn His Lys 355 360 365 Arg Leu Leu Gly Arg Trp Ser Tyr Phe Glu Leu Gln Lys Asp Ile Glu 370 375 380 Tyr Lys Ala Ala Met Ala Gly Ile Ala Val Gln Tyr Val Asn Pro Ala 385 390 395 400 Tyr Thr Ser Gln Thr Cys His Val Cys Gly Gln Arg Gly Asn Arg Ile 405 410 415 Glu Arg Asp Thr Phe Ile Cys Thr Asn Pro Glu Cys Thr Cys Tyr Asn 420 425 430 Gln Ala Gln Asp Ala Asp Met Asn Ala Ala Ile Asn Ile Ala Lys Ser 435 440 445 Lys Asp Val Ile Lys 450 <210> 344 <211> 453 <212> PRT <213> Prevotella copri <400> 344 Met Ser Lys Ile Thr Arg Lys Ile Glu Ile Ile Pro Asp Val Glu Gly 1 5 10 15 Leu Thr His Glu Glu Ser Asn Glu Lys Cys Tyr Lys Ala Phe Tyr Asn 20 25 30 Tyr Asp Arg Lys Leu Tyr Lys Val Ala Asn Leu Leu Val Ser Gln Leu 35 40 45 Tyr Gly Leu Asp Asn Leu Leu Ser Leu Met Arg Leu Gln Asn Glu Glu 50 55 60 Tyr Val Asp Ser Gln Arg Lys Leu Ser Phe Lys Ser Thr Thr Asp Ala 65 70 75 80 Ala Lys Glu Glu Ile Lys Lys Arg Met Glu Glu Ile Asp Ala Glu Leu 85 90 95 Met Ala Ile Lys Lys Lys Ile Ala Pro Met His Pro Gln Ser Tyr Ser 100 105 110 Tyr Arg Ala Val Asn Ser Ser Glu Tyr Ala Lys Asp Met Pro Ser Asp 115 120 125 Ile Val Asp Ser Leu Lys Gln Asp Val Tyr Lys His Phe Asn Asp Ser 130 135 140 Lys Lys Glu Gln Ile Arg Gly Glu Arg Ser Leu Thr Thr Tyr Lys Arg 145 150 155 160 Gly Met Pro Ile Pro Phe Asn Leu Lys Lys Lys His Ser Ile Val Cys 165 170 175 Asp Gly Gly Asn Tyr Tyr Leu Pro Trp Phe Glu Asp Thr Arg Phe Arg 180 185 190 Leu Asn Phe Gly Arg Asp Arg Ser Asn Asn Arg Ala Ile Ile Asp Asn 195 200 205 Cys Ile Lys Thr Lys Lys Tyr Lys Leu Cys Ala Ala Ala Lys Ile Gln 210 215 220 Leu Lys Glu Arg Lys Leu Phe Leu Leu Ile Thr Val Asp Ile Pro Lys 225 230 235 240 Ala Glu Ser Val Pro Val Lys Gly Lys Val Met Gly Val Asp Leu Gly 245 250 255 Val Val Asn Pro Ala Tyr Val Ala Val Asn Asp Gly Pro Glu Arg Ser 260 265 270 Arg Ile Gly Asn Gly Glu Ala Phe Gln Lys Gln Arg Asp Val Phe Arg 275 280 285 Arg Arg Phe Arg Glu Leu Gln Arg Ser Gln Leu Thr Gln Ser Gly His 290 295 300 Gly Arg Lys His Lys Thr Lys Ala Thr Glu Ile Leu Arg Gly Lys Glu 305 310 315 320 Arg Asn Trp Val Gln Thr Glu Asn His Arg Ile Ser Arg Glu Ile Val 325 330 335 Asn Leu Ala Ser Arg Trp Lys Val Glu Thr Ile Gln Met Glu Ser Leu 340 345 350 Lys Gly Phe Gly Lys Asn Gln Glu Gly Glu Val Glu Tyr Asn His Lys 355 360 365 Arg Leu Leu Gly Arg Trp Ser Tyr Phe Glu Leu Gln Lys Asp Ile Glu 370 375 380 Tyr Lys Ala Ala Met Ala Gly Ile Ala Val Gln Tyr Val Asn Pro Ala 385 390 395 400 Tyr Thr Ser Gln Thr Cys His Val Cys Gly Gln Arg Gly Asn Arg Ile 405 410 415 Glu Arg Asp Thr Phe Ile Cys Thr Asn Pro Glu Cys Thr Cys Tyr Asn 420 425 430 Gln Ala Gln Asp Ala Asp Met Asn Ala Ala Ile Asn Ile Ala Lys Ser 435 440 445 Lys Asp Val Ile Lys 450 <210> 345 <211> 461 <212> PRT <213> Clostridioides difficile <400> 345 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ser Lys Asn Asn Asn Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val 260 265 270 Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Lys Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 346 <211> 461 <212> PRT <213> Clostridioides difficile <400> 346 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Val Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Ile Leu Gly Val 260 265 270 Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 347 <211> 461 <212> PRT <213> Clostridioides difficile <400> 347 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ala Lys Asn Asn Lys Asp Ile Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val 260 265 270 Asp Leu Gly Ile Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Ala Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 348 <211> 461 <212> PRT <213> Clostridioides difficile <400> 348 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ala Lys Asn Asn Lys Asp Ile Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val 260 265 270 Asp Leu Gly Ile Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Ser Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Ala Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 349 <211> 461 <212> PRT <213> Clostridioides difficile <400> 349 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Asp Arg Thr Leu Gly Val 260 265 270 Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 350 <211> 461 <212> PRT <213> Clostridioides difficile <400> 350 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Val Glu Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val 260 265 270 Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 351 <211> 461 <212> PRT <213> Clostridioides difficile <400> 351 Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe 1 5 10 15 Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn 20 25 30 Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp 35 40 45 Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly 50 55 60 Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp 65 70 75 80 Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile 85 90 95 Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys 100 105 110 Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu 115 120 125 Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu 130 135 140 Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val 145 150 155 160 Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn 165 170 175 Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp 180 185 190 Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu 195 200 205 Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu 210 215 220 Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe 225 230 235 240 Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro 245 250 255 Gln Asn Ser Ser Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val 260 265 270 Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr 275 280 285 Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg 290 295 300 Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu 305 310 315 320 Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys 325 330 335 Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu 340 345 350 Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile 355 360 365 Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg 370 375 380 Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu 385 390 395 400 Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln 405 410 415 Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln 420 425 430 Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His 435 440 445 Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val 450 455 460 <210> 352 <211> 463 <212> PRT <213> Flavobacterium thermophilum <400> 352 Met Thr Cys Thr Lys Thr Met Arg Tyr Gln Ile Val Arg Pro Leu Asp 1 5 10 15 Asp Asp Trp Glu Val Phe Arg Tyr Ile Leu Asn Gln Ile Ser Tyr Glu 20 25 30 Thr Trp Asn Cys Leu Asn Arg Cys Ala Gln Tyr Leu Trp Glu Ala Asp 35 40 45 Asn Phe Lys Lys Ile Tyr Tyr Ser Lys Phe Gly Ile Lys Phe Asn Val 50 55 60 Lys Asp Val Glu Gly Val Ala Asp Asp Ala Tyr Ile Asn Arg Asn Leu 65 70 75 80 Lys Lys Glu Phe Gln Lys Met Asn Gly Asp Ser Val Glu Thr Ile Thr 85 90 95 Arg Glu Val Lys Val Lys Met Lys Lys Asn Lys Glu Asp Phe Met Leu 100 105 110 Gly Lys Ala Ser Phe Leu Ser Phe Lys Lys Gly His Pro Ile Leu Phe 115 120 125 Arg Gly Ser Gln Val Lys Ile Asn Lys Ser Asn Asp Asn Asn Tyr Ile 130 135 140 Val Thr Val Arg Leu Leu Arg Lys Glu Tyr Ala Glu Glu Leu Tyr Asn 145 150 155 160 Gly Ile Thr Val Lys Thr Lys Asn Lys Lys Glu Glu Lys Val His Lys 165 170 175 Arg Asn Ile Asn Asp Met Asn Ile Arg Phe Tyr Ile Lys Ala Asn Asp 180 185 190 Lys Tyr Asn Lys Val Ile Leu Glu Arg Val Leu Asn Lys Glu Tyr Lys 195 200 205 Ile Gly Gly Ser Arg Ile Phe Met Lys Gly Asn Lys Ile Phe Phe Asp 210 215 220 Leu Val Tyr Ser Phe Glu Gln Lys Lys Asp Glu Lys Leu Asp Lys Asn 225 230 235 240 Arg Ile Met Gly Ile Asp Ile Gly Tyr Asn Ile Pro Ala Ala Val Ala 245 250 255 Ile Asn Asp Met Pro Tyr Lys Lys Trp Phe Ile Gly Asp Arg Lys Glu 260 265 270 Ile Glu Asp Phe Arg Thr Lys Ile Glu Val Arg Lys Lys Gln Leu Gln 275 280 285 Lys Trp Ser Val Trp Ala Gly Asp Gly Arg Val Gly His Gly Ile Lys 290 295 300 Thr Arg Ile Lys Pro Val Leu Asn Ile Gly Glu Lys Ile Asn Asn Phe 305 310 315 320 Lys Asn Leu Lys Asn His Val Trp Ser Arg Glu Ile Ile Asn Ile Ala 325 330 335 Leu Lys Asn Lys Cys Gly Thr Ile Gln Met Glu Lys Leu Glu Gly Ile 340 345 350 Ile Pro Glu Glu Tyr Ser Phe Leu Lys Asn Trp Ser Phe Tyr Asp Leu 355 360 365 Gln Gln Lys Ile Glu Tyr Lys Ala Arg Glu His Gly Ile Asp Val Val 370 375 380 Tyr Ile Asp Pro Ala Tyr Thr Ser Ala Arg Cys Ser Lys Cys Gly His 385 390 395 400 Ile His Lys Ser Tyr Glu Lys Lys Asp Trp Arg Pro Glu Gln Gly Gln 405 410 415 Phe Ile Cys Gln Val Cys Gly Tyr Lys Glu Asn Ala Asp Ile Asn Ala 420 425 430 Ala Arg Asn Ile Ala Thr Pro Asn Ile Glu Lys Ile Ile Lys Glu Gln 435 440 445 Leu Glu Lys Gln Glu Arg Glu Gln Arg Asn Gln Lys Tyr Ile Ser 450 455 460 <210> 353 <211> 464 <212> PRT <213> Phascolarctobacterium sp. <400> 353 Met Ser Ile Lys Ala Ile Arg Leu Glu Ile Leu Lys Pro Tyr Asn Glu 1 5 10 15 Pro Asp Thr Ala Thr Pro Val Thr Trp Asn Glu Leu Gly Gln Val Leu 20 25 30 Arg Asp Val Arg Tyr Ala Cys Ser Lys Thr Glu Asn Tyr Ala Ile Thr 35 40 45 Lys Cys Tyr Leu Trp Glu Gln Phe Lys Ile Glu Tyr Lys Asn Asn Asn 50 55 60 Gly Ile Phe Pro Asn Ala Lys Asp Phe Lys Glu Met Thr Asp Leu Tyr 65 70 75 80 Ser Gln Leu Thr Ala Met Phe Pro Asp Val Ala Ala Ala Ile Val Asn 85 90 95 Gln Ala Asp Gln Val Ala Thr Arg Lys Trp Asn Asn Glu Lys Lys Asp 100 105 110 Val Leu Ser Leu Arg Arg Ser Leu Thr Ser Phe Lys Leu Asp Val Pro 115 120 125 Ile Pro Ile His Asn Lys Ser Tyr Lys Leu Arg Lys Ile Ser Glu Asp 130 135 140 Asn Lys Ile Ile Tyr Val Ile Asn Val Asn Leu Leu Ser Lys Lys Ser 145 150 155 160 Glu Arg Gln Thr Thr Tyr Ser Met Val Leu Lys Val Lys Asp Asn Ser 165 170 175 Ser Lys Thr Ile Leu Asp Arg Leu Ile Asn Lys Glu Leu Ser Pro Lys 180 185 190 Gly Ile Gln Ile Ile Gly Ser Asn Lys Asn Arg Gln Lys Trp Phe Cys 195 200 205 Leu Ile Pro Tyr Asp Phe Thr Glu Lys Asp Thr Glu Leu Asn Pro Asp 210 215 220 Arg Ile Met Gly Ile Asp Leu Gly Ile Ala Lys Ala Val Tyr Tyr Ala 225 230 235 240 Phe Ser Asp Ser Tyr Lys Arg Gly Tyr Ile Glu Gly Gly Glu Ile Glu 245 250 255 His Phe Arg Lys Ser Val Arg Ala Arg Arg Ile Ala Ile Gln Asn Gln 260 265 270 Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Val Lys Arg Arg 275 280 285 Leu Gln Pro Val Glu Ala Leu Arg Glu Lys Glu Lys Asn Phe Arg Asn 290 295 300 Leu Thr Asn His Arg Tyr Ala Arg Arg Leu Val Glu Val Ala Val Lys 305 310 315 320 Asn His Cys Gly Val Ile Gln Met Glu Asp Leu Thr Ser Ile Thr Lys 325 330 335 Asp Asn Thr Phe Leu Lys Asp Trp Pro Tyr Tyr Asp Leu Gln Thr Lys 340 345 350 Ile Ala Glu Lys Ala Ser Glu Tyr Gly Ile Val Phe Lys Lys Ile Asn 355 360 365 Pro Tyr Lys Thr Ser Gln Arg Cys Ser Arg Cys Gly Tyr Ile Asp Ser 370 375 380 Glu Asn Arg Pro Glu Gln Ser Val Phe Val Cys Arg Glu Cys Gly Tyr 385 390 395 400 Gly Asn Met Tyr Leu Cys Glu Asp Cys Asn Lys Glu Gln Asn His Ala 405 410 415 Gly Lys Cys Asp Ser Cys Gly Gly Val Thr Asn Leu Ile Thr Val Asn 420 425 430 Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala Thr Lys Asp Ile Glu Gln 435 440 445 Ile Ile Lys Lys Thr Met Gly Lys Asp Tyr Asn Pro Pro Lys Lys Lys 450 455 460 <210> 354 <211> 471 <212> PRT <213> Bacillus pseudomycoides <400> 354 Met Ile Ile Ala Arg Lys Ile Lys Leu Ile Ile Ile Gly Glu Asp Arg 1 5 10 15 Asp Thr Gln Tyr Lys Phe Ile Arg Glu Glu Arg Tyr Lys Gln Asn Lys 20 25 30 Ala Leu Asn Val Ala Met Asn His Leu Tyr Phe Leu His Val Ala Lys 35 40 45 Glu Lys Ile Arg Leu Leu Asp Asn Lys Phe Leu Gln Asp Glu Lys Lys 50 55 60 Leu Gln Glu Gly Ile Lys Lys Leu Tyr Ala Glu Lys Lys Val Ile Lys 65 70 75 80 Asp Gly Lys Lys Arg Asn Glu Leu Glu Lys Lys Ile Glu Lys Gln Thr 85 90 95 Asn Glu Leu Lys Lys Leu Arg Ser Lys Gly Asn Lys Glu Ala Asp Lys 100 105 110 Ile Leu Gln Glu Ala Ile Lys Ile Asn Leu Ser Ser Thr Thr Arg Glu 115 120 125 Val Ile Ser Lys Gln Phe Asp Leu Ile Ser Asp Thr Lys Asp Arg Ile 130 135 140 Thr Gln Lys Val Tyr Gln Asp Phe Lys Ser Asp Leu Lys Asn Gly Leu 145 150 155 160 Leu Ser Gly Glu Arg Val Leu Arg Thr Tyr Lys Lys Asn Asn Pro Leu 165 170 175 Leu Ile Arg Gly Arg Ala Leu Asn Phe Tyr Arg Glu Gly Lys Asp Val 180 185 190 Met Ile Lys Trp Phe Gly Gly Ile Ile Phe Lys Cys Met Leu Gly Gln 195 200 205 His Lys Asn Asn Ala Gln Glu Leu Lys Ala Thr Leu Asn Lys Val Leu 210 215 220 Glu Gly Ser Tyr Lys Val Cys Asp Ser Ser Ile Ser Val Gly Lys Glu 225 230 235 240 Leu Ile Leu Asn Ile Ser Leu Asp Ile Gly Glu Val Asn Ser Asn Val 245 250 255 Ser Cys Lys Lys Gly Arg Val Leu Gly Val Asp Leu Gly Met Lys Val 260 265 270 Pro Ala Tyr Met Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ser Leu 275 280 285 Gly Ser Leu Asp Asp Phe Leu Arg Ile Arg Val Gln Met Gln Lys Arg 290 295 300 Arg Arg Asn Leu His Lys Thr Leu Val Ser Val Lys Gly Gly Lys Gly 305 310 315 320 Arg Glu Lys Lys Leu Gln Ala Leu Asp Arg Leu Lys Glu Lys Asn Phe 325 330 335 Ala Thr Thr Tyr Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala 340 345 350 Lys Asp Asn Leu Ala Glu Gln Ile Asn Met Glu Phe Leu Ala Leu Ala 355 360 365 Gly Glu Asp Lys Asn Ile Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu 370 375 380 Gln Gln Phe Val Glu Asp Lys Ala Lys Arg Glu Gly Ile Asp Val Lys 385 390 395 400 Tyr Val Asp Pro Tyr Arg Thr Ser Gln Met Cys Ser Lys Cys Arg Asn 405 410 415 Tyr Glu Pro Gly Gln Arg Glu Ser Gln Glu Lys Phe Ile Cys Lys Ser 420 425 430 Cys His Leu Glu Ile Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Ala 435 440 445 His Ser Thr Lys Tyr Ile Thr Asn Lys Asn Gln Ser Glu Tyr Phe Lys 450 455 460 Lys Leu Gln His Thr Thr Glu 465 470 <210> 355 <211> 471 <212> PRT <213> Bacteroides plebeius <400> 355 Met Pro Ile Ile Thr Arg Lys Ile Glu Leu Lys Ile Val Lys Asp Gly 1 5 10 15 Leu Thr Asp Glu Glu Tyr Asp Gln Gln Trp Lys Tyr Leu Tyr Gln Ile 20 25 30 Asn Asn Thr Ile Tyr Leu Ala Ala Asn Arg Ile Ser Thr His Cys Leu 35 40 45 Phe Asn Asp Glu Tyr Glu Met Arg Leu Lys Leu His Met Pro Arg Tyr 50 55 60 Lys Glu Ile Glu Lys Glu Leu Lys Lys Leu Asp Ser Asp Lys Lys Thr 65 70 75 80 Ser Asp Lys Glu Ile Arg Asp Arg Leu Leu Asn Glu Arg Lys Glu Leu 85 90 95 Asp Glu Asp Val Lys Asn Lys Lys Lys Asp Phe Leu Gln Cys Ser Lys 100 105 110 Gln Asn Ser Thr Tyr Gln Leu Val Ser Lys Glu Phe Lys Gln Tyr Ile 115 120 125 Pro Ser Asp Ile Leu Ala Asn Leu Asn Gln Lys Ile Gln Glu Asn Tyr 130 135 140 Asn Asn Asn Gln Lys Lys Ile Glu Ser Gly Glu Arg Ala Leu Ser Thr 145 150 155 160 Tyr Lys Lys Gly Met Glu Ile Pro Phe Ser Ile Arg Glu Asn Lys Arg 165 170 175 Leu Lys Leu Phe Ile Lys Glu Glu Gly Ile Tyr Leu Lys Trp Phe Lys 180 185 190 Glu Ile Leu Phe Arg Leu Glu Phe Gly Lys Asp Ala Ser Asn Asn Arg 195 200 205 Cys Ile Val Glu Arg Leu Ile Glu Ser Asp Arg Gln Gln Lys Asn Lys 210 215 220 Gly Glu Asp Tyr Val Ala Asn Asn Ser Ser Ile Lys Leu Val Lys Tyr 225 230 235 240 Gly Lys Ser Thr Arg Ile Phe Leu Leu Leu Ser Ile Asp Ile Pro Ala 245 250 255 Lys Lys Gln Val Leu Asp Lys Asp Val Val Leu Gly Val Asp Leu Gly 260 265 270 Ile Lys Cys Pro Leu Tyr Leu Ala Ile Asn Lys Asn Asp Asn Phe Lys 275 280 285 Met Gln Ile Gly Asp Ile Glu His Phe His Asn Gln Arg Thr Met Phe 290 295 300 Gln Lys Arg Phe Lys Ser Leu Gln Lys Leu Met Cys Thr Gln Gly Gly 305 310 315 320 His Gly Arg Lys Lys Lys Leu Glu Pro Leu Glu Lys Leu Lys Glu Lys 325 330 335 Glu Arg Asn Trp Val His Thr Gln Asn His Val Tyr Ser Arg Glu Val 340 345 350 Ile Lys Gln Ala Leu Lys Gln Asn Ala Gly Thr Ile His Met Glu Ser 355 360 365 Leu Lys Asp Phe Gly Lys Gly Lys Asp Gly Tyr Val Lys Asp Glu Tyr 370 375 380 Lys Tyr Leu Leu Arg Tyr Trp Ser Tyr Tyr Glu Leu Gln Ser Met Ile 385 390 395 400 Glu Tyr Lys Ala Lys Leu Glu Gly Ile Glu Val Lys Tyr Ile Asp Pro 405 410 415 Ala Tyr Thr Ser Gln Thr Cys Ser Tyr Cys Gly Glu Arg Gly Glu Arg 420 425 430 Lys Lys Gln Glu Glu Phe Val Cys Thr Asn Pro Gln Cys Lys Arg Arg 435 440 445 Gly Glu Lys Ile Asn Ala Asp Phe Asn Ala Ala Arg Asn Ile Ala Met 450 455 460 Ser Lys Lys Ile Val Glu Arg 465 470 <210> 356 <211> 477 <212> PRT <213> Clostridium botulinum <400> 356 Met Pro Phe Ile Leu Lys Gln Arg Gly Val Arg Met Ile Thr Val Arg 1 5 10 15 Lys Leu Lys Ile Val Cys Lys Asp Lys Glu Phe Tyr Asp Phe Phe Lys 20 25 30 Trp Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn Ile Ala Ile Gly Leu 35 40 45 Ile His Ser Ser Thr Val Leu Arg Ser Ile Asp Ser Gly Ala Glu Ala 50 55 60 Gln Leu Lys Lys Ser Ile Gly Lys Leu Thr Gln Asn Ile Glu Lys Leu 65 70 75 80 Gly Lys Glu Leu Glu Lys Glu Lys Ile Thr Asp Lys Lys Lys Glu Gln 85 90 95 Leu Leu Lys Ala Ile Asn Thr Asn Lys Glu Leu Ile Ala Ser Lys Glu 100 105 110 Lys Glu Leu Lys Ala Gly Glu Glu Phe Arg Cys Gly Ile Asp Lys Lys 115 120 125 Phe Asn Glu Leu Tyr Met Asn Lys Thr Thr Leu Tyr His Val Leu Asp 130 135 140 Ser Ile Cys Asp Phe Lys Tyr Lys Arg Thr Ile Glu Leu Val Arg Gln 145 150 155 160 Lys Val Lys Gln Asp Tyr Ser Asn Ser Phe Thr Asp Ile Val Thr Gly 165 170 175 Lys Val Ser Leu Gln Asn Tyr Lys Ser Thr Phe Pro Leu Met Ile Asp 180 185 190 Gly Ser Cys Ile Ser Ile Leu Lys Glu Val Asp Glu Leu Asp Ile Val 195 200 205 Asn Gly Tyr Lys Ile Lys Ile Met Leu Gly Tyr Glu Leu Asp Ile Ile 210 215 220 Leu Gly Lys Arg Glu Asn Glu Asn Ser Leu Glu Leu Gln Lys Thr Leu 225 230 235 240 Glu Lys Cys Ile Thr Gly Asp Tyr Lys Ile Cys Ala Ser Ser Ile Gln 245 250 255 Arg Asp Lys Asn Asn Asn Val Ile Phe Asn Leu Thr Leu Asp Ile Pro 260 265 270 Ile Glu Lys Asp Tyr Lys Pro Val Lys Gly Arg Val Cys Gly Val Asp 275 280 285 Leu Gly Ile Lys Tyr Pro Ala Tyr Met Cys Leu Asn Glu Asp Thr Tyr 290 295 300 Lys Lys Glu Ala Val Gly Ser Ile Asn Asn Phe Leu Arg Ile Arg Lys 305 310 315 320 Gln Met Gln Glu Arg Arg Lys Lys Leu Gln Lys Glu Leu Leu Leu Thr 325 330 335 Asn Gly Gly Lys Gly Arg Thr Lys Lys Thr Gln Ala Leu Glu Lys Leu 340 345 350 Arg Glu Asn Glu Lys Asn Phe Ala Lys Thr Tyr Asn His Ala Ile Ser 355 360 365 Lys Arg Ile Val Gly Phe Ala Arg Lys Asn Lys Cys Glu Tyr Ile Asn 370 375 380 Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Ser Ile Leu Arg Asn 385 390 395 400 Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Lys Ser 405 410 415 Lys Gly Ile Glu Val Arg Tyr Ile Asp Pro Cys Phe Thr Ser Gln Lys 420 425 430 Cys Ser Lys Cys Gly Tyr Ile Asp Lys Glu Asn Arg Glu Thr Gln Glu 435 440 445 Asp Phe Ile Cys Lys Lys Cys Gly Phe Lys Leu Asn Ala Asp His Asn 450 455 460 Ala Ser Ile Asn Ile Ala Arg Ser Lys Glu Phe Ile Lys 465 470 475 <210> 357 <211> 478 <212> PRT <213> Bacillus pseudomycoides <400> 357 Met Ile Ile Ala Arg Lys Ile Lys Leu Ile Ile Ile Gly Glu Asn Arg 1 5 10 15 Asp Ala Gln Tyr Lys Phe Ile Arg Glu Glu Arg Tyr Lys Gln Asn Lys 20 25 30 Ala Leu Asn Val Ala Met Asn His Leu Tyr Phe Leu His Val Ala Lys 35 40 45 Glu Lys Ile Arg Leu Leu Asp Asn Lys Phe Leu Gln Asp Glu Lys Lys 50 55 60 Leu Gln Glu Ser Ile Asn Lys Leu Tyr Ala Glu Lys Lys Val Ile Lys 65 70 75 80 Asp Glu Lys Lys Arg Asn Glu Leu Glu Lys Lys Ile Glu Lys Gln Thr 85 90 95 Asn Glu Leu Lys Lys Leu Arg Ser Lys Ser Asn Lys Glu Ala Asp Lys 100 105 110 Val Leu Gln Glu Ala Ile Lys Ile Asn Leu Ser Ser Thr Thr Arg Glu 115 120 125 Val Ile Ser Lys Gln Phe Glu Leu Ile Ser Asp Thr Lys Asp Arg Ile 130 135 140 Thr Gln Lys Val Ser Gln Asp Phe Lys Ser Asp Leu Lys His Gly Leu 145 150 155 160 Leu Ser Gly Glu Arg Val Leu Arg Thr Tyr Lys Lys Asn Asn Pro Leu 165 170 175 Leu Ile Arg Gly Arg Ala Leu Asn Phe Tyr Arg Glu Gly Lys Asp Val 180 185 190 Met Ile Lys Trp Tyr Gly Gly Ile Ile Phe Lys Cys Met Leu Gly Gln 195 200 205 His Lys Asn Asn Ala Pro Glu Leu Lys Ala Thr Leu Ser Lys Val Leu 210 215 220 Glu Gly Ser Tyr Lys Val Cys Asp Ser Ser Ile Ser Val Gly Lys Glu 225 230 235 240 Leu Ile Leu Asn Leu Ser Leu Asp Ile Gly Glu Val Asp Thr Asn Val 245 250 255 Ser Cys Lys Lys Gly Arg Val Leu Gly Val Asp Leu Gly Met Lys Val 260 265 270 Pro Ala Tyr Met Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ala Leu 275 280 285 Gly Ser Leu Asp Asp Phe Leu Lys Ile Arg Val Gln Met Gln Lys Arg 290 295 300 Arg Arg Asn Leu His Lys Thr Leu Val Asn Val Lys Gly Gly Lys Gly 305 310 315 320 Arg Glu Lys Lys Leu Gln Ala Leu Asp Arg Leu Lys Asp Lys Glu Lys 325 330 335 Asn Phe Ala Thr Thr Tyr Asn His Phe Leu Ser Tyr Asn Ile Val Lys 340 345 350 Phe Ala Lys Asp Asn Leu Ala Glu Gln Ile Asn Met Glu Phe Leu Ala 355 360 365 Leu Ala Gly Glu Asp Lys Asn Ile Ile Leu Arg Asn Trp Ser Tyr Tyr 370 375 380 Gln Leu Gln Gln Phe Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Asp 385 390 395 400 Val Lys Tyr Val Asp Pro Tyr Arg Thr Ser Gln Met Cys Ser Lys Cys 405 410 415 Gly Asn Tyr Glu Pro Gly Gln Arg Glu Ser Gln Glu Lys Phe Ile Cys 420 425 430 Lys Ser Cys His Leu Glu Ile Asn Ala Asp Tyr Asn Ala Ser Gln Asn 435 440 445 Ile Ala His Ser Thr Lys Tyr Ile Thr Asn Lys Asn Gln Ser Glu Tyr 450 455 460 Leu Lys Lys Leu Gln Gln Thr Thr Lys Leu Glu Lys Tyr Ser 465 470 475 <210> 358 <211> 478 <212> PRT <213> Bacillus pseudomycoides <400> 358 Met Ile Ile Ala Arg Lys Ile Lys Leu Ile Ile Ile Gly Glu Asn Arg 1 5 10 15 Asp Thr Gln Tyr Lys Phe Ile Arg Glu Glu Arg Tyr Lys Gln Asn Lys 20 25 30 Ala Leu Asn Val Ala Met Asn His Leu Tyr Phe Leu His Val Ala Lys 35 40 45 Glu Lys Ile Arg Leu Leu Asp Asn Lys Phe Leu Gln Asp Glu Lys Lys 50 55 60 Leu Gln Glu Ser Ile Asn Lys Leu Tyr Ala Glu Lys Lys Val Ile Lys 65 70 75 80 Asp Glu Lys Lys Arg Asn Glu Leu Glu Lys Lys Ile Glu Lys Gln Thr 85 90 95 Asn Glu Leu Lys Lys Leu Arg Ser Lys Gly Asn Lys Glu Ala Asp Lys 100 105 110 Val Leu Gln Glu Ala Ile Lys Ile Asn Leu Ser Ser Thr Thr Arg Glu 115 120 125 Val Ile Ser Lys Gln Phe Glu Leu Ile Ser Asp Thr Lys Asp Arg Ile 130 135 140 Thr Gln Lys Val Ser Gln Asp Phe Lys Ser Asp Leu Lys His Gly Leu 145 150 155 160 Leu Ser Gly Glu Arg Val Leu Arg Thr Tyr Lys Lys Asn Asn Pro Leu 165 170 175 Leu Ile Arg Gly Arg Ala Leu Asn Phe Tyr Arg Glu Gly Lys Asp Val 180 185 190 Met Ile Lys Trp Tyr Gly Gly Ile Ile Phe Lys Cys Met Leu Gly Gln 195 200 205 His Lys Asn Asn Ala Pro Glu Leu Lys Ala Thr Leu Ser Lys Val Leu 210 215 220 Glu Gly Ser Tyr Lys Val Cys Asp Ser Ser Ile Ser Val Gly Lys Glu 225 230 235 240 Leu Ile Leu Asn Leu Ser Leu Asp Ile Gly Glu Val Asp Thr Asn Val 245 250 255 Ser Cys Lys Lys Gly Arg Val Leu Gly Val Asp Leu Gly Met Lys Val 260 265 270 Pro Ala Tyr Met Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ala Leu 275 280 285 Gly Ser Leu Asp Asp Phe Leu Lys Ile Arg Val Gln Met Gln Lys Arg 290 295 300 Arg Arg Asn Leu His Lys Thr Leu Val Asn Val Lys Gly Gly Lys Gly 305 310 315 320 Arg Glu Lys Lys Leu Gln Ala Leu Asp Arg Leu Lys Asp Lys Glu Lys 325 330 335 Asn Phe Ala Thr Thr Tyr Asn His Phe Leu Ser Tyr Asn Ile Val Lys 340 345 350 Phe Ala Lys Asp Asn Leu Ala Glu Gln Ile Asn Met Glu Phe Leu Ala 355 360 365 Leu Ala Gly Glu Asp Lys Asn Ile Ile Leu Arg Asn Trp Ser Tyr Tyr 370 375 380 Gln Leu Gln Gln Phe Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Asp 385 390 395 400 Val Lys Tyr Val Asp Pro Tyr Arg Thr Ser Gln Met Cys Ser Lys Cys 405 410 415 Gly Asn Tyr Glu Pro Gly Gln Arg Glu Ser Gln Glu Lys Phe Ile Cys 420 425 430 Lys Ser Cys His Leu Glu Ile Asn Ala Asp Tyr Asn Ala Ser Gln Asn 435 440 445 Ile Ala His Ser Thr Lys Tyr Ile Thr Asn Lys Asn Gln Ser Glu Tyr 450 455 460 Leu Lys Lys Leu Gln Gln Thr Thr Lys Leu Glu Lys Tyr Ser 465 470 475 <210> 359 <211> 482 <212> PRT <213> Clostridium botulinum <400> 359 Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu 1 5 10 15 Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met 35 40 45 Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Val 50 55 60 Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Glu Asn Leu Lys Lys 65 70 75 80 Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Ile Glu Asn Ile Asn 85 90 95 Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu 100 105 110 Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys 115 120 125 Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Ser Lys Ile Ser Phe 130 135 140 Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp 145 150 155 160 Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg 165 170 175 Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys 180 185 190 Phe Gln Tyr Phe Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu 195 200 205 Gly Ile Lys Phe Lys Cys Ile Leu Gly Lys Pro Ser Lys Ser Leu Glu 210 215 220 Leu Lys His Thr Leu His Lys Val Ile Asn Glu Glu Tyr Lys Ile Cys 225 230 235 240 Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu 245 250 255 Thr Leu Asp Ile Pro Glu Asn Asn Lys Tyr Glu Lys Ile Glu Asn Arg 260 265 270 Ile Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu 275 280 285 Asn Asp Thr Ile Tyr Ile Arg Lys Ser Ile Gly Ser Ile Asn Asp Phe 290 295 300 Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Ala Arg Lys Leu Gln Lys 305 310 315 320 Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys 325 330 335 Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr 340 345 350 Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys 355 360 365 Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn 370 375 380 Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Ser Phe Ile 385 390 395 400 Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro 405 410 415 Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly 420 425 430 Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Gly His Lys 435 440 445 Ile Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asp Lys 450 455 460 Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn 465 470 475 480 Met Val <210> 360 <211> 482 <212> PRT <213> Clostridium botulinum <400> 360 Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu 1 5 10 15 Thr Arg Asn Lys Gln Tyr Lys Trp Ile Lys Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met 35 40 45 Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile 50 55 60 Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Gly Ser Leu Lys Lys 65 70 75 80 Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Ile Glu Asn Ile Lys 85 90 95 Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu 100 105 110 Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys 115 120 125 Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe 130 135 140 Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp 145 150 155 160 Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg 165 170 175 Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys 180 185 190 Phe Gln Tyr Ile Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu 195 200 205 Gly Ile Lys Phe Lys Cys Ile Leu Gly Lys Pro Ser Lys Ser Leu Glu 210 215 220 Leu Lys His Ala Leu His Lys Val Ile Asn Lys Glu Tyr Lys Val Cys 225 230 235 240 Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu 245 250 255 Thr Leu Asp Ile Pro Gln Asp Asn Lys Tyr Glu Lys Ile Thr Asn Arg 260 265 270 Val Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu 275 280 285 Asn Asp Thr Lys Tyr Ile Arg Lys Ala Ile Gly Ser Ile Asp Asp Phe 290 295 300 Leu Lys Val Arg Thr Gln Met Gln Ser Arg Val Arg Lys Leu Gln Lys 305 310 315 320 Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys 325 330 335 Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr 340 345 350 Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys 355 360 365 Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn 370 375 380 Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Asn Phe Ile 385 390 395 400 Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro 405 410 415 Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly 420 425 430 Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Trp His Lys 435 440 445 Met Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Tyr Asn 450 455 460 Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn 465 470 475 480 Met Val <210> 361 <211> 482 <212> PRT <213> Clostridium botulinum <400> 361 Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu 1 5 10 15 Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met 35 40 45 Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile 50 55 60 Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Glu Asn Leu Lys Lys 65 70 75 80 Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Ile Glu Asn Ile Lys 85 90 95 Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu 100 105 110 Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys 115 120 125 Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe 130 135 140 Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp 145 150 155 160 Phe Asn Asn Asp Ile Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg 165 170 175 Asn Tyr Lys Arg Asn Phe Pro Val Leu Thr Arg Gly Arg Asp Leu Lys 180 185 190 Phe Lys Tyr Phe Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu 195 200 205 Gly Ile Lys Phe Lys Cys Ile Leu Gly Arg Pro Ser Lys Ser Leu Glu 210 215 220 Leu Lys His Thr Leu His Lys Val Ile Asn Glu Glu Tyr Lys Ile Cys 225 230 235 240 Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu 245 250 255 Thr Leu Asp Ile Pro Glu Asn Asn Lys Tyr Glu Lys Ile Glu Asn Arg 260 265 270 Ile Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu 275 280 285 Asn Asp Thr Arg Tyr Ile Arg Lys Ser Ile Gly Ser Ile Asn Asp Phe 290 295 300 Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Ala Arg Lys Leu Gln Lys 305 310 315 320 Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys 325 330 335 Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr 340 345 350 Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys 355 360 365 Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn 370 375 380 Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Thr Phe Ile 385 390 395 400 Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro 405 410 415 Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly 420 425 430 Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Gly His Lys 435 440 445 Ile Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asp Asn 450 455 460 Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn 465 470 475 480 Met Val <210> 362 <211> 486 <212> PRT <213> Hydrogenivirga sp. <400> 362 Met Asn Lys Val Leu Lys Leu Thr Ala Lys Arg Glu Lys Val Lys Phe 1 5 10 15 Lys Leu Leu Leu Leu Glu Thr Gly Arg Glu Glu Glu Val Lys Phe Tyr 20 25 30 Glu Leu Arg Glu Ala Leu Glu Arg Phe Val Arg Gly Val Arg Val Ala 35 40 45 Tyr Leu Lys Thr Leu Pro Asp Ser Leu Glu Gly Leu Glu Glu Lys Gly 50 55 60 Arg Pro Asn Thr Arg Ala Val Asn Ser Asn Glu Leu Ser Lys Arg Phe 65 70 75 80 Pro Pro Glu Cys Ala Lys Val Lys Leu Gly Ser Leu Glu Leu Glu Leu 85 90 95 Gly Lys Asp Asn Ile Ala Ser Ser Ile Arg Tyr Thr Ile Glu Lys Asp 100 105 110 Ile Arg Glu Asn Leu Lys Arg Glu Phe Lys Thr Ile Ala Ile Lys Ser 115 120 125 Val Pro Ile Ile Ala Arg Val His Thr Thr Lys Ser His Pro Tyr Glu 130 135 140 Lys Ala Phe Gly Glu Val Phe Arg Ile Phe Glu Ile Ser Glu Pro Asp 145 150 155 160 Glu Lys Asn Arg Val Ser Val Arg Val Gly Val Lys Phe Phe Lys Gln 165 170 175 Val Glu Val Glu Gly Lys Lys Ala Thr Pro Val Leu Val Val Glu Ala 180 185 190 Val Met Arg Leu Lys Gly Arg Asp Tyr Ala Thr Ala Asn Ser Tyr Tyr 195 200 205 Asn Ile Leu Lys Arg Ile Lys Glu Gly Glu Tyr Lys Val Ala Tyr Ala 210 215 220 Gly Leu Ser Tyr Arg Glu Gly Ser Gly Ile Ser Leu Leu Leu Ser Tyr 225 230 235 240 Asn Leu Pro Asp Ile Ser Glu Asp Asp Lys Arg Glu Asn Ile Leu Gly 245 250 255 Ile Asp Leu Gly Gln Ala Cys Pro Val Tyr Trp Ser Leu Ile Thr Pro 260 265 270 Glu Leu Glu Lys Lys Lys Leu Thr Asn Gly Arg His Pro Arg Gly Gln 275 280 285 Ile Glu Tyr Pro Val Asn Leu Glu Gly Ala Ile Arg Lys Leu Trp Arg 290 295 300 Ala Lys Arg Asn Leu Leu Ser Ser Leu Arg Arg Ile Glu Glu Gln Thr 305 310 315 320 Ser Leu Leu Ser Glu Gly Asn Arg Asp Leu Lys Gly Arg Leu Leu Arg 325 330 335 Arg Lys Arg Glu Val Glu Arg Ser Leu Lys Gly Met Arg Arg Lys Glu 340 345 350 Lys Asn Leu Met Lys Lys Met Asp Glu Phe Leu Ala Asn Glu Val Ile 355 360 365 Arg Val Ala Leu Arg Glu Arg Cys Arg Lys Ile Arg Met Glu Arg Leu 370 375 380 Asp Gly Val Asp Lys Thr Glu Leu Tyr Phe Pro Lys Trp Asn Tyr Gly 385 390 395 400 Gln Leu Gln Asn Leu Ile Glu Gln Arg Ala Ser Leu Tyr Gly Ile Glu 405 410 415 Val Glu Arg Val Asn Pro Arg Lys Thr Ser Gln Arg Cys Pro Ser Cys 420 425 430 Gly Tyr Val Gly Gln Arg Arg Glu Glu Val Arg Pro Thr Arg Asp Leu 435 440 445 Phe Arg Cys Pro Glu Cys Gly Glu Glu Ser Phe Ala Asp Phe Val Gly 450 455 460 Ala Phe Asn Val Gly Ile Gly Gly Trp Glu Ala Phe Lys Pro Lys Glu 465 470 475 480 Ala Leu Ser Ser Ser Ser 485 <210> 363 <211> 489 <212> PRT <213> Bacillus megaterium <400> 363 Met Ile Thr Thr Arg Lys Phe Lys Leu Ala Ile Val Ser Asp Asn Arg 1 5 10 15 Asn Glu Ala Tyr Ser Phe Ile Arg Asn Glu Ile Arg Asn Gln Asn Lys 20 25 30 Ala Leu Asn Ala Ala Tyr Asn His Leu Tyr Phe Glu His Ile Ala Thr 35 40 45 Glu Lys Leu Lys His Ser Asp Ala Glu Tyr Gln Lys His Leu Thr Lys 50 55 60 Tyr Arg Glu Val Ala Thr Asn Lys Tyr Gln Asp Tyr Leu Lys Ala Lys 65 70 75 80 Glu Lys Val Asn Ala Ser Lys Asp Asp Glu Lys Leu Gln Lys Arg Val 85 90 95 Asp Lys Ala Arg Glu Ala Tyr Asn Lys Ala Gln Glu Lys Val Tyr Lys 100 105 110 Ile Glu Lys Glu Phe Asn Lys Lys Ser Met Glu Thr Tyr Gln Lys Val 115 120 125 Val Gly Leu Ser Lys Gln Thr Arg Ile Gly Lys Leu Leu Lys Ser Gln 130 135 140 Phe Thr Leu His Tyr Asp Thr Glu Asp Arg Ile Thr Ser Thr Val Leu 145 150 155 160 Ser His Phe Asn Asn Asp Met Lys Thr Gly Val Leu Arg Gly Asp Arg 165 170 175 Ser Leu Arg Thr Tyr Lys Asn Ser His Pro Leu Leu Val Arg Ala Arg 180 185 190 Ser Met Lys Val Tyr Glu Glu Asn Gly Asp Tyr Phe Ile Lys Trp Val 195 200 205 Lys Gly Ile Val Phe Lys Ile Val Ile Ser Ala Gly Ser Lys Gln Lys 210 215 220 Ala Asn Ile Gly Glu Leu Lys Ser Val Leu Ile Asn Ile Leu Asn Gly 225 230 235 240 His Tyr Lys Val Cys Asp Ser Ser Ile Ser Leu Asn Lys Asp Leu Ile 245 250 255 Leu Asn Leu Ser Leu Asn Ile Pro Val Ser Lys Glu Asn Val Phe Val 260 265 270 Pro Gly Arg Val Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr 275 280 285 Val Ser Leu Asn Asp Thr Pro Tyr Ile Lys Lys Gly Ile Gly Asn Ile 290 295 300 Asp Asp Phe Leu Arg Val Arg Thr Gln Leu Gln Ser Gln Arg Lys Arg 305 310 315 320 Leu Gln Lys Thr Leu Glu Cys Thr Ser Gly Gly Lys Gly Arg Ser Lys 325 330 335 Lys Leu Lys Gly Leu Asp Arg Leu Lys Ala Lys Glu Lys Asn Phe Val 340 345 350 Asn Thr Tyr Asn His Phe Leu Ser Lys Lys Ile Ile Gln Phe Ala Val 355 360 365 Lys Asn Asn Ala Gly Val Ile His Leu Glu Glu Leu Gln Phe Asp Lys 370 375 380 Leu Lys His Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln 385 390 395 400 Thr Met Ile Glu Tyr Lys Ala Glu Arg Glu Gly Ile Glu Val Lys Tyr 405 410 415 Val Asp Ala Ser Tyr Thr Ser Gln Thr Cys Ser Lys Cys Gly His Tyr 420 425 430 Glu Glu Gly Gln Arg Val Leu Gln Asp Thr Phe Thr Cys Lys Asn Lys 435 440 445 Glu Cys Lys Gly Tyr Val His Lys Val Asn Ala Asp Phe Asn Ala Ser 450 455 460 Gln Asn Ile Ala Lys Ser Thr Asp Ile Ile Arg Cys Thr Glu Met Ala 465 470 475 480 Lys Asn Asn Asp Ile Glu Lys Asn Ala 485 <210> 364 <211> 491 <212> PRT <213> Clostridium fallax <400> 364 Met Ile Thr Val Arg Lys Leu Lys Leu Ser Ile Met Ala Asp Glu Glu 1 5 10 15 Leu Arg Ile Gln Gln Leu Lys Trp Ile Lys Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Asn Gly Met Ala Phe Leu Ile Ala Asp His Met 35 40 45 Leu Asn Thr Ala Glu Ser Thr Lys Ile Ile Tyr Lys Asn Asn Glu Ile 50 55 60 Asn Lys Lys Lys Lys Lys Ile Tyr Tyr Met Glu Asp Lys Ile Lys Lys 65 70 75 80 Glu Asn Asn Lys Leu Glu Glu Glu Lys Ile Leu Lys Phe Glu Ser Asp 85 90 95 Ile Asn Lys Leu Lys His Glu Ile Lys Ile Leu Glu Asn Glu Lys Val 100 105 110 Glu Leu Glu Leu Glu Thr Lys Asn Leu Ser Glu Gln Phe Lys Asn His 115 120 125 Tyr Val Glu Asp Met Tyr Thr Arg Leu Asp Glu Ile Pro Phe Gln Tyr 130 135 140 Lys Asp Asn Lys Ser Leu Val Gln Asn Arg Leu Lys Lys Asp Phe Asp 145 150 155 160 Phe Tyr Leu Asn Asn Gly Gly Lys Arg Gly Glu Arg Lys Pro Thr Ala 165 170 175 Tyr Lys Arg Asp Tyr Pro Leu Leu Ile Arg Gly Arg Leu Leu Asn Phe 180 185 190 Tyr Tyr Asn Lys Asp Asn Val Phe Ile Lys Trp Ile Ala Gly Ile Thr 195 200 205 Phe Lys Val Glu Leu Gly Asn Lys Ile Lys Asn Asn Ile Glu Leu Arg 210 215 220 His Thr Leu His Gln Cys Met Asn Asn Glu Lys Tyr Lys Val Cys Asp 225 230 235 240 Ser Ser Leu Gln Phe Asp Asn Lys Asn Asn Ile Ile Leu Asn Leu Thr 245 250 255 Ile Asp Ile Pro Ile Asn Thr Ser Glu Asn Asn Phe Ile Glu Gly Arg 260 265 270 Val Met Gly Val Asp Leu Gly Met Lys Ile Pro Ala Tyr Ala Ser Phe 275 280 285 Asn Asp Val Glu Tyr Cys Arg Ala Phe Gly Asp Ile Glu Asp Phe Leu 290 295 300 Arg Val Arg Thr Gln Leu Gln Ser Arg Met Arg Lys Leu Gln Met Ala 305 310 315 320 Leu Thr Leu Ile Lys Gly Gly His Gly Arg Gly Lys Lys Leu Gln Ala 325 330 335 Leu Asn Arg Leu Lys Asp Lys Glu Lys Asp Phe Val Asn Thr Tyr Asn 340 345 350 His Met Ile Ser Lys Arg Ile Ile Glu Tyr Ser Ile Lys Asn Cys Cys 355 360 365 Gly Val Ile Asn Leu Glu Tyr Leu Ser Leu Ala Ala Arg Glu Lys Asp 370 375 380 Leu Phe Leu Thr Leu Gln Pro Gln Lys Ser Asn Arg Ile Lys Arg Asn 385 390 395 400 Trp Ser Tyr Tyr Asp Leu Gln Thr Lys Ile Glu Asn Lys Ala Lys Lys 405 410 415 Tyr Gly Ile Ile Val Lys Lys Ile Asp Pro Tyr Leu Thr Ser Gln Thr 420 425 430 Cys His Ile Cys Gly Asn Tyr Asp Glu Gly Gln Arg Ile Ser Gln Glu 435 440 445 Gln Phe Glu Cys Lys Ala Cys Asn Arg Lys Phe Asn Ala Asp Tyr Asn 450 455 460 Ala Ser Lys Asn Ile Ala Leu Ser Thr Lys Tyr Ile Asn Asn Ile Asn 465 470 475 480 Glu Ser Glu Phe Phe Lys Arg Tyr Lys Asn Asn 485 490 <210> 365 <211> 492 <212> PRT <213> Bacteroides plebeius <400> 365 Met Pro Thr Ile Thr Arg Lys Ile Glu Leu Lys Ile Val Lys Asp Arg 1 5 10 15 Leu Thr Asp Glu Lys Glu Arg Leu Thr Asp Glu Lys Tyr Asp Gln Gln 20 25 30 Trp Lys Tyr Leu Tyr Gln Ile Asn Asn Thr Ile Tyr Gln Ala Ala Asn 35 40 45 Arg Ile Ser Thr His Cys Leu Phe Asn Asp Glu Tyr Glu Met Arg Leu 50 55 60 Lys Leu His Met Pro Arg Tyr Lys Asp Ile Glu Lys Lys Leu Glu Glu 65 70 75 80 Ile Glu Lys Lys Gln Lys Gly Leu Asn Thr Lys Lys Lys Ala Ser Asp 85 90 95 Lys Glu Glu Arg Asp Arg Leu Leu Asn Glu Lys Gln Gln Leu Val Asn 100 105 110 Glu Arg Lys Glu Ile Asp Glu Asp Val Lys Asn Lys Lys Lys Asp Phe 115 120 125 Leu Gln Cys Ser Lys Gln Asn Ser Thr Tyr Gln Leu Val Ser Lys Glu 130 135 140 Phe Lys Gln Tyr Ile Pro Ser Asp Ile Leu Ala Asn Leu Asn Gln Lys 145 150 155 160 Ile Gln Glu Asn Tyr Asn Asn Asn Gln Lys Lys Ile Glu Ser Gly Glu 165 170 175 Arg Ala Leu Ser Thr Tyr Lys Lys Gly Met Glu Ile Pro Phe Ser Ile 180 185 190 Arg Glu Asn Lys Arg Leu Lys Leu Phe Ile Lys Glu Glu Gly Ile Tyr 195 200 205 Leu Lys Trp Phe Lys Glu Ile Leu Phe Arg Leu Glu Phe Gly Lys Asp 210 215 220 Ala Ser Asn Asn Arg Cys Ile Val Glu Arg Leu Ile Glu Ser Asp Lys 225 230 235 240 Gln Gln Lys Gly Lys Gly Glu Asp Tyr Val Ala Asn Asn Ser Ser Ile 245 250 255 Lys Leu Val Lys Asn Gly Lys Asn Thr Arg Ile Phe Leu Leu Leu Ser 260 265 270 Ile Asp Ile Pro Ala Lys Lys Gln Val Leu Asp Lys Glu Val Val Leu 275 280 285 Gly Val Asp Leu Gly Ile Lys Cys Pro Leu Tyr Leu Ala Ile Asn Lys 290 295 300 Asn Asp Asn Phe Lys Met Gln Ile Gly Asp Ile Glu His Phe His Asn 305 310 315 320 Gln Arg Thr Met Phe Gln Lys Arg Phe Lys Ser Leu Gln Lys Leu Ile 325 330 335 Cys Thr Gln Gly Ala His Gly Arg Lys Lys Lys Leu Glu Pro Leu Glu 340 345 350 Lys Leu Lys Glu Lys Glu Arg Asn Trp Val His Thr Gln Asn His Val 355 360 365 Tyr Ser Arg Glu Val Ile Lys Gln Ala Leu Lys Gln Asn Ala Gly Thr 370 375 380 Ile His Met Glu Ser Leu Lys Asp Phe Gly Lys Gly Lys Asp Gly Tyr 385 390 395 400 Val Lys Asp Glu Tyr Lys Tyr Leu Leu Arg Tyr Trp Ser Tyr Tyr Glu 405 410 415 Leu Gln Ser Met Ile Glu Tyr Lys Ala Lys Leu Glu Gly Ile Glu Val 420 425 430 Lys Tyr Ile Asp Pro Ala Tyr Thr Ser Gln Thr Cys Ser Tyr Cys Gly 435 440 445 Glu Arg Gly Glu Arg Lys Lys Gln Glu Glu Phe Ile Cys Thr Asn Pro 450 455 460 Gln Cys Lys Arg Arg Gly Glu Lys Ile Asn Ala Asp Phe Asn Ala Ala 465 470 475 480 Arg Asn Ile Ala Met Ser Lys Lys Ile Val Glu Arg 485 490 <210> 366 <211> 496 <212> PRT <213> Bacillus thuringiensis <400> 366 Met Ile Leu Thr Arg Lys Val Lys Leu Val Ile Val Ser Asp Asn Arg 1 5 10 15 Asp Glu Gly Tyr Lys Leu Ile Arg Asn Glu Ile Arg Glu Gln His Lys 20 25 30 Ala Leu Asn Leu Ala Tyr Asn His Leu Tyr Phe Glu His Asn Ala Ile 35 40 45 Gln Ile Leu Lys Gln Asn Asp Glu Asp Tyr Lys Gln Lys Arg Asn Lys 50 55 60 Leu Gln Glu Leu Ile Asn Lys Lys Tyr Glu Glu His Gln Lys Ala Lys 65 70 75 80 Asn Leu Glu Arg Lys Glu Ala Leu Arg Glu Ala Tyr Asn Asn Lys Lys 85 90 95 Gln Glu Leu Tyr Lys Phe Glu Arg Glu Cys Asn Glu Glu Ala Arg Lys 100 105 110 Ala Tyr Gln Gln Val Val Gly Phe Thr Gln Gln Thr Arg Val Arg Asn 115 120 125 Leu Ile Asn Arg Glu Tyr Asn Leu Met Ser Asp Thr Lys Asp Gly Ile 130 135 140 Thr Ser Lys Val Thr Gln Asp Tyr Lys Asn Asp Cys Lys Ala Gly Leu 145 150 155 160 Leu Ile Gly Lys Arg Ser Leu Arg Asn Tyr Lys Lys Asp Asn Pro Leu 165 170 175 Leu Val Arg Gly Arg Ser Leu Lys Phe Tyr Lys Glu Asp Gly Asp Tyr 180 185 190 Phe Ile Lys Trp Asn Lys Gly Thr Val Phe Lys Cys Ile Leu His Ile 195 200 205 Arg Lys Lys Asn Val Ala Glu Leu Gln Ser Val Leu Glu Asn Val Leu 210 215 220 Leu Gly Ala Tyr Lys Ile Cys Asp Ser Ser Ile Gly Phe Asn Asn Lys 225 230 235 240 Asp Met Ile Leu Asn Leu Ser Leu Asn Ile Pro Asp Lys Glu Thr Tyr 245 250 255 Asp Tyr Ile Pro Gly Arg Val Val Gly Val Asp Leu Gly Leu Lys Ile 260 265 270 Pro Ala Tyr Val Ser Leu Ser Asp Lys Val Tyr Val Arg Lys Gly Ile 275 280 285 Gly Gly Ile Asp Asp Phe Leu Arg Val Arg Thr Gln Met Gln Lys Arg 290 295 300 Arg Arg Gln Leu Gln Glu Ser Leu Ala Ala Val Lys Gly Gly Lys Gly 305 310 315 320 Arg Glu Lys Lys Leu Lys Ala Leu Asp His Leu Lys Gly Lys Glu Ala 325 330 335 Asn Phe Ala Lys Thr Tyr Asn His Phe Leu Ser Thr Gln Ile Val Thr 340 345 350 Phe Ala Val Lys Asn Gln Ala Gly Gln Ile Asn Met Glu Phe Leu Glu 355 360 365 Phe Asp Lys Met Lys Asn Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr 370 375 380 Gln Leu Gln Met Met Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Ile 385 390 395 400 Ile Lys Tyr Val Asp Ala Tyr Leu Thr Ser Gln Thr Cys Ser Lys Cys 405 410 415 Asp Tyr Tyr Glu Glu Gly Gln Arg Glu Lys Gln Glu Lys Phe Ile Cys 420 425 430 Lys Ser Cys Ala Phe Glu Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn 435 440 445 Ile Ala Lys Ser Ala Arg Tyr Ile Ser Asp Ser Thr Glu Arg Glu Tyr 450 455 460 His Lys Lys Lys Gln Glu Asp Leu Lys Glu Ile Leu Gly Glu Asn Asp 465 470 475 480 Ile Ile Asn Glu Gln Leu Ser Leu Phe Asp Asn His Asp Asp Ile Ala 485 490 495 <210> 367 <211> 496 <212> PRT <213> Bacillus cereus <400> 367 Met Ile Leu Thr Arg Lys Val Lys Leu Val Ile Val Ser Asp Asn Arg 1 5 10 15 Asp Glu Gly Tyr Lys Leu Ile Arg Asn Glu Ile Arg Glu Gln His Lys 20 25 30 Ala Leu Asn Leu Ala Tyr Asn His Leu Tyr Phe Glu His Asn Ala Ile 35 40 45 Gln Ile Leu Lys Gln Asn Asp Glu Asp Tyr Lys Gln Lys Arg Asn Lys 50 55 60 Leu Gln Glu Leu Ile Asn Lys Lys Tyr Glu Glu His Gln Lys Ala Lys 65 70 75 80 Asn Leu Glu Arg Lys Glu Ala Leu Arg Glu Ala Tyr Asn Asn Lys Lys 85 90 95 Gln Glu Leu Tyr Lys Phe Glu Arg Glu Cys Asn Glu Glu Ala Arg Lys 100 105 110 Ala Tyr Gln Gln Val Val Gly Phe Thr Gln Gln Thr Arg Val Arg Asn 115 120 125 Leu Ile Asn Arg Glu Cys Asn Leu Met Ser Asp Thr Lys Asp Gly Ile 130 135 140 Thr Ser Lys Val Thr Gln Asp Tyr Lys Asn Asp Cys Lys Ala Gly Leu 145 150 155 160 Leu Ile Gly Lys Arg Ser Leu Arg Asn Tyr Lys Lys Asp Asn Pro Leu 165 170 175 Leu Val Arg Gly Arg Ser Leu Lys Phe Tyr Lys Glu Asp Gly Asp Tyr 180 185 190 Phe Ile Lys Trp Asn Lys Gly Thr Val Phe Lys Cys Ile Leu His Ile 195 200 205 Arg Lys Lys Asn Val Ala Glu Leu Gln Ser Val Leu Glu Asn Val Leu 210 215 220 Leu Gly Ala Tyr Lys Ile Cys Asp Ser Ser Ile Gly Phe Asn Asn Lys 225 230 235 240 Asp Met Ile Leu Asn Leu Ser Leu Asn Ile Pro Asp Lys Glu Thr Tyr 245 250 255 Asp Tyr Ile Pro Gly Arg Val Val Gly Val Asp Leu Gly Leu Lys Ile 260 265 270 Pro Ala Tyr Val Ser Leu Ser Asp Lys Val Tyr Val Arg Lys Gly Ile 275 280 285 Gly Gly Ile Asp Asp Phe Leu Arg Val Arg Thr Gln Met Gln Lys Arg 290 295 300 Arg Arg Gln Leu Gln Glu Ser Leu Ala Ala Val Lys Gly Gly Lys Gly 305 310 315 320 Arg Glu Lys Lys Leu Lys Ala Leu Asp His Leu Lys Gly Lys Glu Ala 325 330 335 Asn Phe Ala Lys Thr Tyr Asn His Phe Leu Ser Thr Gln Ile Val Thr 340 345 350 Phe Ala Val Lys Asn Gln Ala Gly Gln Ile Asn Met Glu Phe Leu Glu 355 360 365 Phe Asp Lys Met Lys Asn Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr 370 375 380 Gln Leu Gln Met Met Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Ile 385 390 395 400 Ile Lys Tyr Val Asp Ala Tyr Leu Thr Ser Gln Thr Cys Ser Lys Cys 405 410 415 Asp Tyr Tyr Glu Glu Gly Gln Arg Glu Lys Gln Glu Lys Phe Ile Cys 420 425 430 Lys Ser Cys Ala Phe Glu Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn 435 440 445 Ile Ala Lys Ser Ala Arg Tyr Ile Ser Asp Ser Thr Glu Arg Glu Tyr 450 455 460 His Lys Lys Lys Gln Glu Asp Leu Lys Glu Ile Leu Gly Glu Asn Asp 465 470 475 480 Ile Ile Asn Glu Gln Leu Ser Leu Phe Asp Asn His Asp Asp Ile Ala 485 490 495 <210> 368 <211> 497 <212> PRT <213> Clostridium sp. <400> 368 Met Ile Thr Val Arg Lys Ile Lys Leu Thr Ile Met Gly Asp Lys Asp 1 5 10 15 Thr Arg Asn Ser Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln 20 25 30 Tyr Arg Ala Leu Asn Met Gly Met Thr Tyr Leu Ala Val Asn Asp Ile 35 40 45 Leu Tyr Met Asn Glu Ser Gly Leu Glu Ile Arg Thr Ile Lys Asp Leu 50 55 60 Lys Asp Cys Glu Lys Asp Ile Asp Lys Asn Lys Lys Glu Ile Glu Lys 65 70 75 80 Leu Thr Ala Arg Leu Glu Lys Glu Gln Asn Lys Lys Asn Ser Ser Ser 85 90 95 Glu Lys Leu Asp Glu Ile Lys Tyr Lys Ile Ser Leu Val Glu Asn Lys 100 105 110 Ile Glu Asp Tyr Lys Leu Lys Ile Val Glu Leu Asn Lys Ile Ile Glu 115 120 125 Glu Thr Gln Lys Glu Arg Met Asp Ile Gln Lys Glu Phe Lys Glu Lys 130 135 140 Tyr Val Asp Asp Leu Tyr Gln Val Leu Asp Lys Ile Pro Phe Lys His 145 150 155 160 Leu Asp Asn Lys Ser Leu Val Thr Gln Arg Ile Lys Ala Asp Ile Lys 165 170 175 Ser Asp Lys Ser Asn Gly Leu Leu Lys Gly Glu Arg Ser Ile Arg Asn 180 185 190 Tyr Lys Arg Asn Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys Phe 195 200 205 Lys Tyr Asp Asp Asn Asp Asp Ile Glu Ile Lys Trp Met Glu Gly Ile 210 215 220 Lys Phe Lys Val Ile Leu Gly Asn Arg Ile Lys Asn Ser Leu Glu Leu 225 230 235 240 Arg His Thr Leu His Lys Val Ile Glu Gly Lys Tyr Lys Ile Cys Asp 245 250 255 Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu Thr 260 265 270 Leu Asp Ile Pro Ile Asp Ile Val Asn Lys Lys Val Ser Gly Arg Val 275 280 285 Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Cys Ala Leu Asn 290 295 300 Asp Val Glu Tyr Ile Lys Lys Ser Ile Gly Arg Ile Asp Asp Phe Leu 305 310 315 320 Lys Val Arg Thr Gln Met Gln Ser Arg Arg Arg Arg Leu Gln Ile Ala 325 330 335 Ile Gln Ser Ala Lys Gly Gly Lys Gly Arg Val Asn Lys Leu Gln Ala 340 345 350 Leu Glu Arg Phe Ala Glu Lys Glu Lys Asn Phe Ala Lys Thr Tyr Asn 355 360 365 His Phe Leu Ser Ser Asn Ile Val Lys Phe Ala Val Ser Asn Gln Ala 370 375 380 Glu Gln Ile Asn Met Glu Leu Leu Ser Leu Lys Glu Thr Gln Asn Lys 385 390 395 400 Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Thr Met Ile Glu 405 410 415 Tyr Lys Ala Gln Arg Glu Gly Ile Lys Val Lys Tyr Ile Asp Pro Tyr 420 425 430 His Thr Ser Gln Thr Cys Ser Lys Cys Gly Asn Tyr Glu Glu Gly Gln 435 440 445 Arg Glu Ser Gln Ala Asp Phe Ile Cys Lys Lys Cys Gly Tyr Lys Val 450 455 460 Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asn Lys Tyr 465 470 475 480 Ile Thr Lys Lys Glu Glu Ser Lys Tyr Tyr Lys Ile Lys Glu Ser Met 485 490 495 Val <210> 369 <211> 497 <212> PRT <213> Bacteroides plebeius <400> 369 Met Pro Thr Ile Thr Arg Lys Ile Glu Leu Lys Ile Val Lys Asp Arg 1 5 10 15 Leu Thr Asp Glu Lys Glu Arg Leu Thr Asp Glu Glu Tyr Asp Gln Gln 20 25 30 Trp Lys Tyr Leu Tyr Gln Ile Asn Asn Thr Ile Tyr Gln Ala Ala Asn 35 40 45 Arg Ile Ser Thr His Cys Leu Phe Asn Asp Glu Tyr Glu Met Arg Leu 50 55 60 Arg Leu Ser Tyr Lys Ser Arg Tyr Asp Lys Ile Asn Lys Gly Leu Glu 65 70 75 80 Asn Ile Lys Thr Glu Leu Glu Lys Leu Asn Thr Lys Lys Lys Thr Ser 85 90 95 Asp Lys Glu Lys Arg Asp Arg Leu Ile Asn Glu Gln Arg Gln Leu Val 100 105 110 Asp Glu Arg Asn Glu Leu Asp Glu Asp Val Lys Asn Lys Lys Lys Asp 115 120 125 Phe Phe Gln Cys Ser Lys Gln Asn Ser Thr Tyr Gln Leu Ala Ser Lys 130 135 140 Glu Phe Leu Lys Tyr Ile Pro Ala Glu Ile Leu Thr Asp Leu Asn Arg 145 150 155 160 Tyr Val Gln Asn Asn His Asn Asn Asn Lys Lys Lys Val Lys Ser Gly 165 170 175 Glu Arg Ala Leu Ser Thr Tyr Lys Lys Gly Met Gly Ile Pro Phe Ser 180 185 190 Ile Lys Pro Gln Ser Gly Leu Arg Leu Phe Val Lys Glu Glu Gly Ile 195 200 205 Tyr Leu Lys Trp Phe Lys Gly Ile Leu Phe Arg Leu Glu Phe Gly Lys 210 215 220 Asp Thr Ser Asn Asn Arg Cys Ile Val Glu Arg Leu Ile Glu Ser Asp 225 230 235 240 Lys Gln Gln Lys Lys Asn Lys Gly Glu Asp Tyr Val Ala Asn Asn Ser 245 250 255 Ser Ile Lys Leu Ile Lys Lys Gly Asn Asp Lys Ser Thr Arg Ile Phe 260 265 270 Leu Leu Leu Ser Ile Asp Ile Pro Ala Lys Lys Gln Val Leu Asp Lys 275 280 285 Glu Val Val Leu Gly Val Asp Leu Gly Ile Lys Cys Pro Leu Tyr Leu 290 295 300 Ala Ile Asn Lys Asn Asp Asn Phe Lys Met Gln Ile Gly Asp Ile Glu 305 310 315 320 His Phe His Asn Gln Arg Thr Met Phe Gln Lys Arg Phe Lys Ser Leu 325 330 335 Gln Lys Leu Met Cys Thr Gln Gly Gly His Gly Arg Lys Lys Lys Leu 340 345 350 Glu Pro Leu Glu Lys Leu Lys Glu Lys Glu Arg Asn Trp Val His Thr 355 360 365 Gln Asn His Val Tyr Ser Arg Glu Val Ile Lys Gln Ala Leu Lys His 370 375 380 Asn Ala Gly Thr Ile His Met Glu Ser Leu Lys Asp Phe Gly Lys Gly 385 390 395 400 Lys Glu Gly Tyr Val Lys Asp Glu Tyr Lys Tyr Leu Leu Arg Tyr Trp 405 410 415 Ser Tyr Tyr Glu Leu Gln Ser Met Ile Glu Tyr Lys Ala Lys Leu Glu 420 425 430 Gly Ile Glu Val Lys Tyr Ile Asp Pro Ala Tyr Thr Ser Gln Thr Cys 435 440 445 Ser Tyr Cys Gly Glu Arg Gly Glu Arg Lys Lys Gln Glu Glu Phe Val 450 455 460 Cys Thr Asn Pro Gln Cys Lys Arg Arg Gly Glu Lys Ile Asn Ala Asp 465 470 475 480 Phe Asn Ala Ala Arg Asn Ile Ala Met Ser Lys Lys Ile Val Lys Asp 485 490 495 Asn <210> 370 <211> 536 <212> PRT <213> Dorea longicatena <400> 370 Met Ser Asp Glu Ile Thr Ile Thr Arg Lys Tyr Val Ile Tyr Pro Ile 1 5 10 15 Ala Ser Asp Met Lys Glu Trp Glu Arg Lys Val Ile Lys Tyr Val Ser 20 25 30 Glu Asn Tyr Glu Lys Arg Ile Gln Leu Leu Glu Gln Lys Ile Lys His 35 40 45 Ser Lys Ile Pro Lys Glu Glu Lys Glu Asn Leu Arg Lys Glu Leu Asp 50 55 60 Asn Leu Lys Ile Lys Tyr Asp Ala Phe Gln Ala Asp Pro Ala Ile Thr 65 70 75 80 Gln Ser Glu Ile Asn Thr Tyr Thr Tyr Gly Thr Val Arg Thr Ala Met 85 90 95 Glu Glu Glu Ala Arg Lys Lys Asn Tyr Ile Leu Ser Trp Ile Tyr Ser 100 105 110 Glu Met Ile Gly Ala Gly Val Gln His Met Glu Thr Leu Lys Glu Lys 115 120 125 Tyr Gln Phe Ile Ser Asn Arg Met Asn Tyr Ala Tyr Arg Leu Pro Gly 130 135 140 Asn Lys Asn Gly Ser Leu Phe Asp Glu Ala Glu Ile His Asn Ile Leu 145 150 155 160 Lys Gly Tyr Gly Phe Ala Phe Ser Gln Met Leu Thr Ser Lys Ile Lys 165 170 175 Asp Cys Val Lys Lys Gly Leu Leu Glu Gly Lys Val Ser Leu Pro Asn 180 185 190 Tyr Lys Ile Asp Ser Pro Phe Thr Val Ala Lys Ala Cys Met Gly Phe 195 200 205 Ser His Asp Tyr Asp Asn Phe Glu Glu Leu Cys Glu His Ile His Asp 210 215 220 Ser Asp Leu Lys Leu Tyr Phe Asp Tyr Gly Gly Asn Lys Arg Pro Ser 225 230 235 240 Ile Ala Lys Phe Lys Ile Asp Leu Gly Lys Gly Lys Asn Arg Glu Glu 245 250 255 Leu Ala Ala Thr Leu Leu Lys Val Tyr Ser Gly Glu Tyr Glu Tyr Cys 260 265 270 Gly Ser Ser Ile Gln Ile Ser Lys Lys Lys Ile Ile Leu Asn Leu Ser 275 280 285 Met Lys Ile Pro Lys Ile Pro Thr Glu Leu Asp Glu Asn Thr Val Val 290 295 300 Gly Val Asn Leu Gly Val Ala Ile Pro Ala Thr Cys Ala Leu Asn Asn 305 310 315 320 Asp Leu His Lys Lys Leu Tyr Ile Gly Thr Tyr Glu Glu Phe Ala His 325 330 335 Gln Lys Val Lys Leu Gln Glu Gln Arg Lys Arg Leu Gln Ile Ser Leu 340 345 350 Arg Asn Thr Ser Gly Gly His Gly Arg Lys Lys Lys Leu Gln Ala Leu 355 360 365 Glu Arg Leu Lys Ala Arg Glu Lys Gln Tyr Thr Glu Thr Val Cys His 370 375 380 Lys Ile Ser Lys Arg Ile Val Asp Phe Ala Leu Lys Asn His Ala Lys 385 390 395 400 Tyr Ile Asn Leu Glu Asn Leu Gln Gly Tyr Asp Thr Asn Glu Phe Ile 405 410 415 Leu Arg Asn Trp Cys Tyr Tyr Arg Leu Gln Gln Tyr Thr Glu Tyr Lys 420 425 430 Ala Ala Arg Tyr Gly Ile Ile Val Arg Lys Val Asn Pro Cys Tyr Asn 435 440 445 Ala Gln Ile Cys Ser Ile Cys Gly Gly Trp Asp Lys Asp Gln Arg Leu 450 455 460 Ser Arg Ala Asp Phe Ile Cys Lys Asp Pro Asn Cys Ile Ser His Lys 465 470 475 480 Lys Tyr Lys His Pro Gln Cys Ala Glu Phe Asn Asn Ala Arg Asn Val 485 490 495 Ala Met Ser Glu Leu Phe Met Glu Ser Gly Lys Val Thr Gly Lys Asp 500 505 510 Phe Glu Arg Ala Arg Ala Tyr Tyr Ser Lys Lys Asn Pro Gly Ile Ile 515 520 525 Trp Glu Phe Val Glu Ser Lys Glu 530 535 <210> 371 <211> 543 <212> PRT <213> Sulfurihydrogenibium azorense <400> 371 Met Val Asn Lys Asn Leu Lys Ile Thr Ser Gly Arg Asp Asn Val Glu 1 5 10 15 Phe Tyr Leu Ile Val Asp Gly Glu Glu Ile Pro Leu Lys Lys Gln Asp 20 25 30 Ile Arg Asn Leu Ile Thr Glu Phe Leu Lys Asp Val Arg Leu Ala Tyr 35 40 45 Ile Lys Phe Leu Pro Asn Ile Glu Leu Ile Gln Thr Gly Lys Tyr Phe 50 55 60 Thr Val Asn Ile Asn Ser Lys Arg Leu Thr Asn Glu Asn Leu Ser Asn 65 70 75 80 Ser Leu Thr Lys Leu Ile Pro Lys Asn Tyr Ile Glu Leu Glu Ile Asn 85 90 95 Gly Ser Lys Val Lys Leu Asp Tyr Lys Lys Asp Tyr Val Ala Thr Ser 100 105 110 Ile Leu Tyr Ser Val Ala Lys Asp Ile Thr Gly Asn Leu Lys Glu Gly 115 120 125 Lys Thr Val Val Ile Lys Asn Leu Gln Tyr Leu Ala Arg Ile Lys Pro 130 135 140 Asp Lys Asn Thr Pro Tyr Asp Lys Ala Phe Ser Gln Val Ile Lys Glu 145 150 155 160 Phe Glu Ile Val Glu Asn Gly Lys Thr Val Glu Cys Val Ile Thr Phe 165 170 175 Ser Ala Phe Lys Asn Ala Ser Ile Lys Val Lys Phe Lys Met Asn Leu 180 185 190 Arg Lys Lys Asn Phe Ala Val Asn Asn Ser Tyr Tyr Gln Ile Leu Asn 195 200 205 Arg Ile Lys Asn Gln Glu Tyr Lys Val Ala Tyr Ile Gly Ile Gly Tyr 210 215 220 Arg Glu Lys Lys Gly Ala Phe Leu Leu Ile Ser Tyr Lys Phe Glu Lys 225 230 235 240 Gln Pro Glu Thr Ser Gln Glu Gln Glu Lys Val Met Gly Val Asp Leu 245 250 255 Gly Gln Val Tyr Leu Ile Tyr Tyr Ser Ile Thr Asn Ser His Ser Arg 260 265 270 Gly Asp Ile Ser Leu Ser Tyr Ser Trp Lys Asp Lys Ile Ile Gly Ile 275 280 285 Trp Asn Arg Lys Lys His Leu Gln Lys Ser Leu Met Glu Ile Arg Asn 290 295 300 Leu Lys Lys Gln Gly Ile Asn Asp Glu Ser Ile Glu Lys Arg Tyr Glu 305 310 315 320 Lys Ile Val Lys Glu Leu Asn Ser Val Arg Glu Tyr Glu Lys Asn Phe 325 330 335 Met Glu Thr Leu Asn Lys Gln Ile Ala Thr Lys Leu Ile Asp Ile Ala 340 345 350 Val Lys Glu Lys Val Lys Thr Ile Val Leu Glu Asp Leu Ser Leu Ser 355 360 365 Asn Glu Glu Lys Asn Ser Leu Ala Phe Pro Lys Trp Asn Tyr Tyr Gln 370 375 380 Leu Gln Ser Phe Ile Glu Asn Lys Ala Gln Glu Asn Gly Ile Gln Val 385 390 395 400 Lys Lys Ile Asn Pro Ala Tyr Thr Ser Gln Arg Cys Pro Ser Cys Gly 405 410 415 Phe Ile Ala Phe Tyr Lys Glu Met Val Arg Pro Lys Arg Glu Lys Phe 420 425 430 Thr Cys Pro Val Cys Gly Phe Ser Ser Asn Ala Asp Tyr Val Ala Ser 435 440 445 Leu Asn Ile Ala Glu Glu Asn Ile Glu Glu Lys Ile Lys Ala Arg Leu 450 455 460 Ile Ser Asp Ile Glu Lys Ile Glu Lys Val Asp Lys Asn Asn Lys Val 465 470 475 480 Phe Thr Leu Phe Ala Ile Arg Asn Arg Ile Val Lys Asp Leu Leu Lys 485 490 495 Glu Phe Phe Asn Thr Asn Asn Gly Ser Ser Lys Lys Leu Leu Lys Arg 500 505 510 Leu Glu Ile Ser Asn Lys Glu Ala Tyr Asn Thr Leu Ile Arg Asp Leu 515 520 525 Lys Gln Phe Lys Val Glu Tyr Leu Asp Lys Arg Ile Ser Asn Val 530 535 540

Claims

합성 조성물로서,
(a) (i) C-말단 삼중-분할 RuvC 도메인,
(ii) 다음의 아미노산 모티프: GxxxG, ExL, Cx_nC 및 Cx_n(C 또는 H)(여기서, G = 글리신, E = 글루타메이트, C = 시스테인, H = 히스티딘, x = 임의의 아미노산이고, n = 0 내지 11의 정수임),
(iii) 알파 나선, 및
(iv) 쐐기-유사 도메인을 형성하는 복수의 베타 시트
를 포함하는 Cas 엔도뉴클레아제;
(b) 상기 Cas 엔도뉴클레아제의 공급원에 대해 이종성인, 표적 이중-가닥 DNA 폴리뉴클레오티드, 및
(c) 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 대한 상보성 영역을 포함하는 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드
를 포함하되, 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드 상의 PAM 서열을 인식하고, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 결합하는 복합체를 형성하는, 합성 조성물.
제1항에 있어서, 상기 Cas 엔도뉴클레아제는 800개 미만의 아미노산을 포함하는, 합성 조성물.
제1항에 있어서, 상기 Cas 엔도뉴클레아제는 상기 Cas 엔도뉴클레아제를 암호화하는 폴리뉴클레오티드로서 제공되는, 합성 조성물.
제1항에 있어서, 상기 Cas 엔도뉴클레아제는 상기 이중-가닥 DNA 폴리뉴클레오티드를 절단하는, 합성 조성물.
제1항에 있어서, 이종성 폴리뉴클레오티드를 더 포함하는, 합성 조성물.
제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 발현 요소인, 합성 조성물.
제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 이식유전자인, 합성 조성물.
제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 합성 조성물.
제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 폴리뉴클레오티드 변형 주형인, 합성 조성물.
제1항에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 촉매적 비활성인, 합성 조성물.
제1항에 있어서, 상기 Cas 엔도뉴클레아제는 복수의 T 또는 C 뉴클레오티드를 포함하는 PAM 서열을 인식하는, 합성 조성물.
제10항에 있어서, 상기 PAM 서열은 TTAT, TTTR, N(T>V)TTR, N(W>S)TTTR, N(Y>R)N(Y>S>R)TTN(A>G>Y), N(W>S)N(Y>R)TTTR, CTT, N(T>W>C)TTC 및 CCD로 이루어진 군으로부터 선택되는, 합성 조성물.
제1항에 있어서, 상기 Cas 엔도뉴클레아제는 융합 단백질의 일부인, 합성 조성물.
제11항에 있어서, 데아미나제를 더 포함하는, 합성 조성물.
제11항에 있어서, 상기 융합 단백질은 이종성 뉴클레아제 도메인을 더 포함하는, 합성 조성물.
제1항에 있어서, 진핵 세포를 더 포함하는 합성 조성물.
제16항에 있어서, 상기 진핵 세포는 식물 세포, 동물 세포 또는 진균 세포인, 합성 조성물.
제17항에 있어서, 상기 식물 세포는 외떡잎식물 세포 또는 쌍떡잎식물 세포인, 합성 조성물.
제17항에 있어서, 상기 식물 세포는 메이즈(maize), 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된 유기체로부터 유래된, 합성 조성물.
제1항의 합성 조성물의 Cas 엔도뉴클레아제를 암호화하는 폴리뉴클레오티드.
제20항에 있어서, 적어도 하나의 추가적인 폴리뉴클레오티드를 더 포함하는, 폴리뉴클레오티드.
제21항에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 발현 요소인, 폴리뉴클레오티드.
제21항에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 유전자인, 폴리뉴클레오티드.
제1항에 있어서, 적어도 하나의 성분은 고체 매트릭스에 부착되는, 합성 조성물.
합성 조성물로서,
(a) 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371로 이루어진 군으로부터 선택된 서열에 대해 적어도 80% 동일한 Cas 엔도뉴클레아제, 또는 이들의 기능성 단편 또는 변이체;
(b) 상기 Cas 엔도뉴클레아제의 공급원에 대해 이종성인, 표적 이중-가닥 DNA 폴리뉴클레오티드, 및
(c) 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 대한 상보성 영역을 포함하는 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드
를 포함하되, 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드 상의 PAM 서열을 인식하고, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 결합하는 복합체를 형성하는, 합성 조성물.
표적 폴리뉴클레오티드에서 표적화된 편집을 도입하는 방법으로서,
이종성 조성물을 제공하는 단계를 포함하되, 상기 이종성 조성물은,
(a) (i) C-말단 삼중-분할 RuvC 도메인,
(ii) 다음의 아미노산 모티프: GxxxG, ExL, Cx_nC 및 Cx_n(C 또는 H)(여기서, G = 글리신, E = 글루타메이트, C = 시스테인, H = 히스티딘, x = 임의의 아미노산이고, n = 0 내지 11의 정수임),
(iii) 알파 나선, 및
(iv) 쐐기-유사 도메인을 형성하는 복수의 베타 시트
를 포함하는 Cas 엔도뉴클레아제로서, 상기 표적 폴리뉴클레오티드 상의 PAM 서열을 인식하는, 상기 Cas 엔도뉴클레아제; 및
(b) 상기 표적 폴리뉴클레오티드의 일부에 대해 실질적으로 상보성인 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드
를 포함하며, 상기 가이드 폴리뉴클레오티드와 상기 Cas-알파 엔도뉴클레아제는 상기 표적 폴리뉴클레오티드를 인식하고 이에 결합할 수 있는 복합체를 형성하는, 방법.
제26항에 있어서, 세포를 더 포함하되, 상기 방법은 상기 이종성 조성물의 도입 전의 세포의 게놈의 표적 서열에 비해 유기체의 적어도 하나의 세포 게놈에서 적어도 하나의 뉴클레오티드 변형을 도입하는 단계를 더 포함하고, 상기 세포를 인큐베이션시키는 단계 및 상기 세포로부터 전체 유기체를 생성하는 단계, 및 상기 이종성 조성물의 도입 전의 상기 세포의 상기 게놈의 상기 표적 서열에 비해 상기 유기체의 적어도 하나의 세포 게놈에서 적어도 하나의 뉴클레오티드 변형의 존재를 확인하는 단계를 더 포함하는, 방법.
제26항에 있어서, 상기 Cas 엔도뉴클레아제는 복수의 T 또는 C 뉴클레오티드를 포함하는 PAM 서열을 인식하는, 방법.
제26항에 있어서, 상기 PAM 서열은 TTAT, TTTR, N(T>V)TTR, N(W>S)TTTR, N(Y>R)N(Y>S>R)TTN(A>G>Y), N(W>S)N(Y>R)TTTR, CTT, N(T>W>C)TTC 및 CCD로 이루어진 군으로부터 선택되는, 방법.
제27항에 있어서, 상기 세포는 진핵 세포인, 방법.
제30항에 있어서, 상기 진핵 세포는 동물, 진균 또는 식물로부터 유래되거나 얻어지는, 방법.
제31항에 있어서, 상기 식물은 외떡잎식물 또는 쌍떡잎식물인, 방법.
제31항에 있어서, 상기 식물은 메이즈, 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된, 방법.
제27항에 있어서, 이종성 폴리뉴클레오티드를 도입하는 단계를 더 포함하는, 방법.
제34항에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 방법.
제34항에 있어서, 상기 이종성 폴리뉴클레오티드는 상기 세포 내 서열에 대해 적어도 50% 동일한 서열을 포함하는 폴리뉴클레오티드 변형 주형인, 방법.
제27항의 방법에 의해 얻은 유기체의 자손으로서, 적어도 하나의 세포에 적어도 하나의 뉴클레오티드 변형을 보유하는, 자손.