KR20210060541A

KR20210060541A - 개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체

Info

Publication number: KR20210060541A
Application number: KR1020217011033A
Authority: KR
Inventors: 앨런 쓰 룬 웡; 기기 칭 거어 초이
Original assignee: 더 유니버시티 오브 홍콩
Priority date: 2018-09-19
Filing date: 2019-09-17
Publication date: 2021-05-26
Also published as: JP2022501025A; JP2023156337A; EP3853363A4; US20230193251A1; EP3853363A1; WO2020057481A1; CN112955549A; EP4253549A3; EP4253549A2

Abstract

본 발명은 조합 변형에 의해 유전적 변이체를 생성하고 스크리닝하기 위한 개선된 고처리량 시스템 및 방법을 제공한다. 또한 이러한 시스템에 의해 생산된 최적화된 SpCas9 효소 변이체가 제공된다.

Description

개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체

관련 출원

본 출원은 2018년 9월 19일에 출원된 미국 가출원 번호 62/733,410을 우선권 주장하며, 이러한 가출원의 내용은 모든 목적을 위해 그 전체 내용이 본원에 참조로 포함된다.

재조합 단백질은 산업 및 의료 분야에서의 사용을 포함하여 광범위한 적용에서 점점 더 중요해지고 있다. 재조합 단백질, 특히 효소 및 항체의 기능성이 유전적 돌연변이에 의해 개선될 수 있으므로, 보다 바람직한 특색을 갖는 것을 확인하기 위해 재조합 단백질의 가능한 유전적 변이체의 광범위한 스펙트럼을 생성하고 선택하기 위한 지속적인 노력이 이루어져서, 그들의 적용에 있어서 개선된 효율이 달성될 수 있다.

Cas9 (CRISPR 관련 단백질 9)는 박테리아, 예컨대 스트렙토코쿠스(Streptococcus) 속의 그람 양성 박테리움 종인 스트렙토코쿠스 피오게네스(Streptococcus pyogenes)에서의 CRISPR (클러스터링된 규칙적 간격의 짧은 팔린드롬성 반복부) 적응 면역 체계과 연관된 RNA-가이드된 DNA 엔도뉴클레아제이다. 최근 몇 년 동안 유전적 편집을 위해 CRISPR의 사용이 증가하였기 때문에, Cas9는 많은 사람들이 유전적 변형을 통해 성능을 개선시키려는 강력한 관심 효소이다. 그러나, 임의의 특별한 단백질의 많은 유전적 변이체를 체계적으로 생성하고 스크리닝하기 위해 현재 이용가능한 시스템은 종종 번거롭고 노동 집약적이며 따라서 비효율적이다.

따라서, 새로운 고처리량 조합 유전적 변형 시스템/방법 뿐만 아니라 개선된 특성을 가진 조작된 단백질 (예컨대 Cas9 효소)에 대한 뚜렷한 필요성이 존재한다. 본 발명은 이러한 필요성 및 다른 관련 필요성을 충족시킨다.

이전에, 본 발명자들이 이끄는 연구 그룹은 일괄 조합 유전학 또는 콤비GEM(CombiGEM)이라고 하는, 고차 바코딩된 조합 유전적 라이브러리의 고처리량 기능적 분석을 위한 시스템을 고안하였다. 이러한 시스템은, 예를 들어, 바코딩된 이중 가이드-RNA (gRNA) 조합의 라이브러리 및 원하는 기능성에 대해 추가로 스크리닝될 2-와이즈 또는 3-와이즈 바코딩된 인간 마이크로RNA (miRNA) 전구체의 라이브러리를 생성하는데 사용되었으며, 예를 들어, 문헌 [Wong et al. (Nat. Biotechnol. 2015 September; 33(9):952-961), Wong et al. (Proc. Nat. Acad. Sci., March 1, 2016, 113(9):2544-2549)], WO2016/070037, 및 WO2016/115033을 참조한다. 또한, 미국 특허 번호 9,315,806를 참조한다. 본 발명자들은 본 발명에 의해 콤비GEM 시스템을 추가로 변형시켰고 개선된 콤비실 플랫폼을 개발하였으며, 이러한 플랫폼은 고차 조합 돌연변이체 라이브러리의 각각의 구성원의 임의의 2개의 인접한 유전적 성분 간의 이음새 없는 연결을 제공한다. 다시 말해서, 이러한 플랫폼은 각각의 연접 부위에 임의의 인공 또는 외부 아미노산 서열을 도입하지 않으므로, 조합 돌연변이를 함유하는 단백질 변이체의 대규모 콜렉션의 생성을 허용하는 동시에 야생형 단백질의 천연 아미노산 서열을 유지한다.

따라서, 본 발명은 먼저, 조합 돌연변이체를 체계적으로 생성하고 스크리닝하기 위한 개선된 고처리량 유전적 변형 시스템을 제공한다. 한 측면에서, 본 발명은 DNA 가닥의 5'에서 3' 방향으로: 제1 유형 IIS 제한 효소에 대한 제1 인식 부위; DNA 요소; 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, DNA 요소에 고유하게 할당된 바코드; 및 제1 유형 IIS 제한 효소에 대한 제2 인식 부위를 포함하는 DNA 구축물을 제공한다. 일부 실시양태에서, DNA 구축물은 선형 구축물이고; 다른 실시양태에서, DNA 구축물은 원형 구축물 또는 박테리아-기반 DNA 플라스미드 또는 DNA 바이러스 벡터를 포함한 DNA 벡터이다. DNA 구축물은 바람직하게 단리되는데, 즉 임의의 상당한 양의 다른 DNA 서열이 존재하지 않는다. 일부 실시양태에서, 본 발명은 상기 및 본원에 기재된 DNA 구축물 중 적어도 2개, 가능하게는 그 초과를 포함한 라이브러리를 제공하며, 각각의 라이브러리 구성원은 고유하게 할당된 바코드와 함께 별개의 폴리뉴클레오티드 서열을 갖는 별개의 DNA 요소를 갖는다.

본 발명의 또 다른 측면에서, 또 다른 DNA 구축물이 제공되며, 이러한 DNA 구축물은 DNA 가닥의 5'에서 3' 방향으로: 제1 유형 IIS 제한 효소에 대한 인식 부위; 복수개의 DNA 요소; 프라이머 결합 부위; 및 복수개의 DNA 요소 중 하나에 각각 고유하게 할당된 복수개의 바코드 및 제2 유형 IIS 제한 효소에 대한 인식 부위를 포함하며, 여기서 복수개의 DNA 요소는 서로 연결되어 복수개의 DNA 요소 중 임의의 2개 사이의 임의의 연결 지점에서 임의의 외부 서열 없이 단백질에 대한 코딩 서열 (예컨대 천연 또는 야생형 단백질에 대한 코딩 서열)을 형성하고, 여기서 복수개의 바코드는 그의 할당된 DNA 요소의 역순으로 배치된다. 일부 실시양태에서, DNA 구축물은 선형 구축물이고; 다른 실시양태에서, DNA 구축물은 원형 구축물, 예컨대 박테리아-기반 DNA 플라스미드 또는 DNA 바이러스 벡터를 포함한 DNA 벡터이다. 이러한 구축물의 라이브러리는 또한 적어도 2개, 가능하게는 그 초과의 구축물을 포함하도록 제공되며, 각각의 구성원은 별개의 폴리뉴클레오티드 서열의 별개의 DNA 요소 세트 및 고유하게 할당된 바코드 세트를 갖는다.

상기 및 본원에 기재된 DNA 구축물의 일부 실시양태에서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소는 DNA 분자를 절단할 때 양립성 단부를 생성한다. 일부 실시양태에서, 제1 유형 IIS 제한 효소는 BsaI이다. 일부 실시양태에서, 제2 유형 IIS 제한 효소는 BbsI이다.

한 추가 측면에서, 본 발명은 조합 유전적 구축물을 생성하는 방법에 관한 것이다. 이러한 방법은 하기 단계: (a) 청구항 2의 제1 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제1 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제1 바코드를 포함하는 제1 DNA 단편을 방출하는 단계; (b) 프로모터를 포함하는 초기 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 프로모터의 3' 단부 근처에서 초기 발현 벡터를 선형화하고 (a)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계; (c) (a)의 제1 DNA 단편을 어닐링하고 이를 (b)의 선형화된 발현 벡터에 라이게이션하여, 제1 DNA 단편 및 제1 바코드가 3' 단부에서 프로모터에 작동가능하게 연결되는 1-원 복합 발현 벡터를 형성하는 단계; (d) 청구항 2의 제2 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제2 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제2 바코드를 포함하는 제2 DNA 단편을 방출하는 단계; (e) (c)의 복합 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 제1 DNA 요소와 제1 바코드 사이에서 복합 발현 벡터를 선형화하고 (d)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계; 및 (f) (d)의 제2 DNA 단편을 어닐링하고 이를 제1 DNA 요소와 제1 바코드 사이에 있는 (e)의 선형화된 복합 발현 벡터에 라이게이션하여, 제1 DNA 단편, 제2 DNA 단편, 제2 바코드, 및 제1 바코드가 3' 단부에서 프로모터에 이러한 순서로 작동가능하게 연결되는 2-원 복합 발현 벡터를 형성하는 단계를 포함하며, 여기서 제1 및 제2 DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1 및 제2 세그먼트를 코딩하고, 여기서 제1 및 제2 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 2-원 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 제1 및 제2 DNA 요소 각각은 하나 이상의 돌연변이를 포함한다.

이러한 방법의 일부 실시양태에서, 단계 (d) 내지 (f)는 제n DNA 요소, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제n 바코드를 포함하는 제n DNA 단편을 n-원 복합 발현 벡터에 혼입시키기 위해 n회까지 반복되며, 제n DNA 요소는 그의 C-말단으로부터 사전-선택된 단백질의 제n 또는 제2 내지 마지막 세그먼트를 코딩한다. 상기 방법은 (x) 제1 유형 IIS 제한 효소에 대한 제1 인식 부위와 제2 인식 부위 사이에, 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제(n+1) 바코드를 포함하는 최종 DNA 벡터를 제공하는 단계; (y) 최종 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 5'에서 3'으로: 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제(n+1) 바코드를 포함하는 최종 DNA 단편을 방출하는 단계; (z) 최종 DNA 단편을 어닐링하고 이를, 단계 (d) 내지 (f)를 n회 동안 반복하고 제2 유형 IIS 제한 효소에 의해 선형화시킨 후에 생산되는 n-원 복합 발현 벡터에 라이게이션하여, 최종 복합 발현 벡터를 형성하는 단계를 추가로 포함하며, 여기서 제1, 제2 등 내지 제n 및 제(n+1) DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1, 제2 등 내지 제n 및 마지막 세그먼트를 코딩하고, 여기서 제1, 제2 등 내지 제n 및 마지막 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 최종 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 각각의 DNA 요소는 하나 이상의 돌연변이를 포함한다.

상기 또는 본원에 기재된 방법의 일부 실시양태에서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소는 DNA 분자를 절단할 때 양립성 단부를 생성한다. 일부 실시양태에서, 제1 유형 IIS 제한 효소는 BsaI이다. 일부 실시양태에서, 제2 유형 IIS 제한 효소는 BbsI이다.

부가의 측면에서, 본 발명은 상기 및 본원에 기재된 방법에 의해 생성된 최종 복합 발현 벡터 중 적어도 2개, 가능하게는 그 초과를 포함하는 라이브러리를 제공한다.

두 번째로, 본 발명은 상기 및 본원에 기재된 개선된 고처리량 유전적 변형 시스템을 사용함으로써 생성 및 확인되는, 개선된 온-타겟 절단 및 감소된 오프-타겟 절단 능력을 보유하는 SpCas9 돌연변이체를 제공한다. 한 측면에서, 본 발명은 염기 서열로서 작용하는, 서열식별번호(SEQ ID NO): 1 및 4-13 중 어느 하나에 제시된 아미노산 서열을 포함하는 폴리펩티드 (바람직하게는 단리된 폴리펩티드)를 제공하며, 여기서 서열식별번호: 1의 잔기(들) 661, 695, 848, 923, 924, 926, 1003, 또는 1060에 상응하는 적어도 1개, 가능하게는 그 초과의 잔기가, 예를 들어, 치환에 의해 변형된다. 본 발명의 일부 예시적인 폴리펩티드는 본 개시내용의 표 2에 제공된다. 일부 실시양태에서, 서열식별번호: 1의 잔기 1003에 상응하는 잔기가 치환되고, 서열식별번호: 1의 잔기 661에 상응하는 잔기가 치환된다. 일부 실시양태에서, 상기 폴리펩티드는 서열식별번호: 1의 잔기 926에 상응하는 잔기에서의 치환을 추가로 갖는다. 예를 들어, 상기 폴리펩티드는 히스티딘으로 치환된 서열식별번호: 1의 잔기 1003에 상응하는 잔기 및 알라닌으로 치환된 서열식별번호: 1의 잔기 661에 상응하는 잔기를 갖는다. 또 다른 예에서, 상기 폴리펩티드는 서열식별번호: 1에 제시된 염기 아미노산 서열을 가지며, 여기서 잔기 1003은 히스티딘으로 치환되고, 잔기 661은 알라닌으로 치환되며, 이는 임의로 잔기 926에서 알라닌으로의 치환을 추가로 포함한다. 추가 예에서, 상기 폴리펩티드는 서열식별번호: 1에 제시된 염기 아미노산 서열을 가지며, 여기서 잔기 695, 848 및 926은 알라닌으로 치환되고, 잔기 923은 메티오닌으로 치환되고, 잔기 924는 발린으로 치환된다. 또한, (1) 상기 및 본원에 기재된 폴리펩티드; 및 (2) 생리학상 허용되는 부형제를 포함하는 조성물이 제공된다.

또 다른 측면에서, 본 발명은 상기 및 본원에 기재된 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열을 포함하는 핵산 (바람직하게는 단리된 핵산) 뿐만 아니라 이러한 핵산을 함유하는 조성물을 제공한다. 본 발명은 또한 본 발명의 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열에 작동가능하게 연결된 프로모터를 포함하는 발현 카세트, 이러한 발현 카세트를 포함하는 벡터 (예컨대 박테리아-기반 플라스미드 또는 바이러스-기반 벡터), 및 본 발명의 발현 카세트 또는 폴리펩티드를 포함하는 숙주 세포를 제공한다.

추가 측면에서, 본 발명은 DNA 분자를 표적 부위에서 절단하는 방법을 제공한다. 상기 방법은 표적 DNA 부위를 포함하는 DNA 분자를 상기 및 본원에 기재된 폴리펩티드 및 표적 DNA 부위에 특이적으로 결합하는 짧은 가이드-RNA (sgRNA)와 접촉시키며, 그에 의해 DNA 분자가 표적 DNA 부위에서 절단되게 하는 것을 포함한다. 상기 방법의 일부 실시양태에서, DNA 분자는 살아있는 세포 내의 게놈 DNA이고, 세포는 sgRNA 및 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열로 형질감염시켰다. 일부 경우에, 세포는 sgRNA를 코딩하는 제1 벡터 및 폴리펩티드를 코딩하는 제2 벡터로 형질감염시켰다. 다른 경우에, 세포는 sgRNA 및 폴리펩티드 둘 다를 코딩하는 벡터로 형질감염시켰다. 상기 방법의 일부 실시양태에서, 제1 및 제2 벡터 각각은 바이러스 벡터, 예컨대 레트로바이러스 벡터, 특히 렌티바이러스 벡터이다.

상기 및 본원에 기재된 고처리량 조합 유전적 변형 시스템, 방법 및 관련 조성물은 적절한 경우 변형을 수반하여, 원핵 세포 및 진핵 세포에 사용하기 적합하다. 일부 등가물은 또한 상기 및 본원의 설명으로부터 유래될 수 있다. 예를 들어, 각각의 DNA 구축물에서 DNA 요소 및 그의 상응하는 바코드의 배치를 전환시킬 수 있는데, 즉 DNA 구축물은 5'에서 3'으로: 제1 유형 IIS 제한 효소에 대한 제1 인식 부위, DNA 요소에 고유하게 할당된 바코드, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, DNA 요소, 및 제1 유형 IIS 제한 효소에 대한 제2 인식 부위를 포함한다. DNA 구축물 및 이러한 DNA 구축물의 라이브러리는 하기 벡터에서의 DNA 요소와 바코드의 상대적 위치가 그에 따라 전환된다는 점을 제외하고는, 본원에 기재된 것과 유사한 중간 및 최종 벡터를 생성하기 위해 본원에 기재된 바와 동일한 방식으로 사용될 수 있다.

도 1. SpCas9의 높은 커버리지 조합 돌연변이체 라이브러리를 생성하고, 이러한 라이브러리를 인간 세포로 효율적으로 전달하는 것. a, SpCas9의 조합 돌연변이체 라이브러리를 어셈블리하기 위한 전략. SpCas9의 코딩 서열은 4개의 구성가능한 부분 (즉, P1 내지 P4)으로 모듈화되었으며, 각각은 다이어그램에 묘사된 바와 같이 규정된 위치에서 사전-결정된 아미노산 잔기 돌연변이를 코딩하는 바코딩된 단편의 레퍼토리를 포함한다. 952개 SpCas9 변이체의 라이브러리는 상기 부분의 원-포트 이음새 없는 라이게이션의 연속 라운드에 의해 어셈블리되었고, 각각의 변이체에 고유하게 태그부착시킨 연결된 바코드가 생성되었다 (세부사항에 관해서는 도 7 참조). b, 이. 콜라이(E. coli)로부터 추출된 플라스미드 풀 및 감염된 OVCAR8-ADR 세포 풀에서 바코딩된 조합 돌연변이체 라이브러리에 대한 시퀀싱 리드의 누적 분포. 상기 플라스미드 및 감염된 세포 풀 내에 있는 라이브러리의 높은 커버리지 (각각 ~99.9% 및 ~99.6%)는 샘플당 ~80만개의 리드로부터 검출되었고, 대부분의 조합은 적어도 300개의 절대 바코드 리드 (음영 구역으로서 강조 표시됨)으로 검출되었다.
도 2. 인간 세포에서 SpCas9 변이체의 온-타겟 및 오프-타겟 활성을 프로파일링하기 위한 전략. a, SpCas9 라이브러리는 UBC 및 CMV 프로모터에 의해 각각 구동된 RFP 및 GFP 유전자를 발현하는 OVCAR8-ADR 리포터 세포주 및 RFP 부위를 표적화하는 gRNA (RFPsg5 또는 RFPsg8)의 탠덤 U6 프로모터-구동된 발현 카세트에 ~0.3의 감염 다중도로 렌티바이러스를 통해 전달되었다. RFP 및 GFP 발현은 유동 세포계수법 하에 분석되었다. SpCas9의 온-타겟 활성은 gRNA 스페이서 서열이 RFP 표적 부위와 완전하게 매칭될 때 측정된 반면, 그의 오프-타겟 활성은 RFP 표적 부위에 동의 돌연변이가 정착될 때 측정되었다. 활성 SpCas9 변이체를 정착시킨 세포는 RFP 형광을 상실할 것으로 예상되었다. 세포는 RFP 형광을 기반으로 집단의 ~5%를 포괄하는 빈(bin)으로 분류되었으며, 일루미나(Illumina) HiSeq에 의해 바코딩된 SpCas9 변이체의 정량화를 위해 게놈 DNA가 추출되었다. b, 상기와 같이 분류된 빈 (즉, A, B 및 C)과 비분류된 집단 간의 각각의 SpCas9 변이체의 바코드 카운트를 비교하는 산점도. 각각의 점은 SpCas9 변이체를 나타내며, WT SpCas9 및 eSpCas9(1.1)가 플롯에 표지된다. 실선 참조 선은 바코드 카운트에 있어서의 1.5배 강화 및 0.5배 고갈을 나타내며, 점선 참조 선은 비분류된 집단과 비교하여 분류된 빈에서 바코드 카운트 상의 변화가 없다는 것을 나타낸다.
도 3. 고처리량 프로파일링은 SpCas9 조합 돌연변이체의 광범위한 스펙트럼 특이성과 효율을 밝혀낸다. a, SpCas9의 조합 돌연변이체는 2개의 생물학적 복제물로부터의 프로파일링 데이터를 기반으로 각각의 온-타겟 (x-축) 및 오프-타겟 (y-축) 리포터 세포주에 대해 상기 분류된 RFP-고갈된 세포 집단에서의 상대적 존재도를 나타내는 로그-변환된 강화 비율 (즉, log₂(E))에 의해 순위가 매겨졌다 (세부사항에 관해서는 표 2 및 방법 항목 참조). 산점도의 각각의 점은 SpCas9 변이체를 나타내며, WT SpCas9, eSpCas9(1.1), Opti-SpCas9, 및 OptiHF-SpCas9가 표지된다. >99%의 조합 돌연변이체는 2개의 오프-타겟 리포터 라인 RFPsg5-OFF5-2 및 RFPsg8-OFF5에서 WT보다 더 낮은 log₂(E)를 갖는 반면, 돌연변이체의 16.2% 및 2.5%는 2개의 온-타겟 리포터 라인 RFPsg5-ON 및 RFPsg8-ON 각각에서 WT보다 더 높은 log₂(E)를 가졌다. b, 온-타겟 (상단 패널) 및 오프-타겟 (하단 패널) 부위를 정착시킨 OVCAR8-ADR 리포터 세포를 개별 SpCas9 조합 돌연변이체로 감염시켰다. SpCas9 변이체의 편집 효율은 고갈된 RFP 수준을 갖는 세포 백분율로서 측정되었고, 이를 WT와 비교하였다.
도 4. 온-타겟 및 오프-타겟 부위에 대한 편집 효율과 상위성을 나타내는 히트맵. 편집 효율 (상부 패널; log₂(E)로서 측정됨) 및 상위성 (하부 패널; ε) 점수는 방법 항목에 기재된 바와 같이 각각의 SpCas9 조합 돌연변이체에 대해 결정되었다. 시각화를 돕기 위해, 표적 DNA 가닥과 접촉할 것으로 예측되거나 또는 SpCas9의 HNH 도메인과 RuvC 도메인을 연결하는 링커 영역에 위치하는 아미노산 잔기는 y-축에 군을 형성하는 반면, 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 아미노산 잔기는 x-축에 제시된다. 각각의 조합의 log₂(E)에 대한 P-값은 log₂(E)를 2-샘플, 양측 스튜던트 t-검정 (MATLAB 함수 'ttest2')을 사용하여 2개의 독립적인 생물학적 복제물로부터 수득된 전체 집단 내에 함유된 것과 비교함으로써 계산된다. 조정된 P-값 (즉, Q-값)은 다중 가설 검정을 교정하기 위해 P-값의 분포도 (MATLAB 함수 'mafdr')를 기반으로 하여 계산된다. log₂(E)는 <0.1에서 Q-값 컷오프를 기반으로 전체 집단에 비해 통계적으로 유의미한 것으로 간주되었으며, 박스로 표시된다. 전체 히트맵은 도 10에 전체적으로 제시되어 있다. 강화 비율 또는 상위성 점수가 측정되지 않은 조합은 회색으로 표시된다.
도 5. Opti-SpCas9는 강력한 온-타겟 활성과 감소된 오프-타겟 활성을 나타낸다. a-b, 내인성 로커스를 표적화하는 gRNA를 사용한 효율적인 온-타겟 편집을 위한 SpCas9 변이체의 평가. indel의 백분율은 T7 엔도뉴클레아제 I (T7E1) 검정을 사용하여 측정되었다. WT [(a)에서] 및 Opti-SpCas9 [(b)에서]에 대한 SpCas9 변이체의 온-타겟 활성의 비율을 결정하였고, indel 형성의 정규화된 백분율에 대한 중앙값 및 사분위수 범위가 시험된 10개 내지 16개 로커스에 대해 표시된다. 각각의 로커스를 1회 또는 2회 측정하고, 전체 데이터세트가 도 12에 제시되어 있다. c, 표시된 gRNA와 각각 쌍을 형성하는 SpCas9 변이체 패널에 대한 GUIDE-Seq 게놈 전반에서의 특이성 프로파일. 오프-타겟 부위에서 미스매칭된 위치는 색상으로 강조 표시되고, GUIDE-Seq 리드 카운트는 주어진 부위에서의 절단 효율의 측정 기준으로서 사용되었다. 사용된 gRNA 서열의 목록이 표 5에 제시된다.
도 6. 단백질 서열 상의 조합 돌연변이를 특징규명하기 위한 전략의 예.
도 7. 바코딩된 조합 돌연변이체 라이브러리 풀의 이음새 없는 어셈블리를 위한 전략. a, 저장 벡터에 바코딩된 DNA 부분을 창출하기 위해, 유전적 삽입물을 PCR 또는 합성에 의해 생성하고, 깁슨(Gibson) 어셈블리 반응을 사용하여 무작위 바코드를 정착시킨 저장 벡터 (pAWp61 및 pAWp62; EcoRI 및 BamHI로 소화됨)에 클로닝하였다. BsaI 소화를 수행하여 바코딩된 DNA 부분 (즉, P1, P2,…, P(n))을 생성하였다. 바코드 시퀀싱을 위한 BbsI 부위와 프라이머-결합 부위는 pAWp61 및 pAWp62 각각에 대한 삽입물과 바코드 사이에 도입되었다. b, 바코딩된 조합 돌연변이체 라이브러리를 창출하기 위해, 풀링된 DNA 부분 및 대상 어셈블리 벡터를 BsaI 및 BbsI로 각각 소화시켰다. 원-포트 라이게이션은 풀링된 벡터 라이브러리를 창출하였으며, 이를 추가로 반복적으로 소화시키고 후속 DNA 부분 풀과 라이게이션하여 고차 조합 돌연변이체를 생성하였다. 바코딩된 삽입물은 유형 IIS 제한 효소 (즉, BsaI 및 BbsI)로 소화시킨 후 단백질-코딩 서열로부터 유래된 양립성 오버행과 연결되며, 그에 의해 라이게이션 반응에서는 융합 흉터가 형성되지 않았다. 모든 바코드는 DNA의 연속 연장물에 국한되었다. 최종 조합 돌연변이체 라이브러리는 렌티바이러스에서 코딩되었고, 표적화된 인간 세포로 전달되었다. 각각의 조합을 나타내는 통합된 바코드는 편향되지 않은 방식으로 풀링된 세포 집단 내의 게놈 DNA로부터 증폭되었고, 고처리량 시퀀싱을 사용하여 정량화되어 상이한 실험 조건 하에서 표현의 변화를 확인하였다. c, 플라스미드와 감염된 세포 풀 간의 고도로 재현가능한 표현 뿐만 아니라 감염된 세포 풀의 생물학적 복제물 간의 고도로 재현가능한 표현을 보여주기 위한 것이다.
도 8. 온-타겟 및 오프-타겟 리포터를 정착시킨 SpCas9 라이브러리-감염된 인간 세포의 형광-활성화된 세포 분류. UBC 및 CMV 프로모터에 의해 각각 구동된 RFP 및 GFP 유전자를 발현하는 OVCAR8-ADR 리포터 세포주, 및 RFP 부위를 표적화하는 gRNA (RFPsg5 또는 RFPsg8)의 탠덤 U6 프로모터-구동된 발현 카세트는 비감염되거나 또는 SpCas9 라이브러리로 감염시켰다. RFPsg5-ON 및 RFPsg8-ON 라인은 gRNA 서열과 완전히 매칭되는 부위를 정착시킨 반면, RFPsg5-OFF5-2 및 RFPsg8-OFF5 라인은 RFP 상에 동의 돌연변이를 함유하고 gRNA와 미스매칭된다. 세포를 유동 세포계수법 하에, 각각 낮은 RFP 형광을 갖는 집단의 ~5%를 포괄하는 빈으로 분류하였다. 이들 실험은 유사한 결과를 나타내면서 독립적으로 2회 반복되었다.
도 9. 풀링된 스크린으로부터 결정된 강화 점수와 개별 검증 데이터 간의 양의 상관 관계. 각각의 SpCas9 조합 돌연변이체에 대한 정규화된 log₂(E)는 2개의 생물학적 복제물에서 풀링된 스크린으로부터 결정된 평균 점수이며, 정규화된 RFP 붕괴 값은 3개의 생물학적 복제물로부터 결정된 WT와 비교할 때 고갈된 RFP 수준을 갖는 평균 세포 백분율이다. R은 피어슨(Pearson)의 r이다.
도 10. 온-타겟 및 오프-타겟 부위에 대한 편집 효율을 나타내는 히트맵. 편집 효율은 각각의 SpCas9 조합 돌연변이체에 대해 결정된 로그-변환된 강화 비율 (log₂(E))에 의해 측정되었다. 강화 및 고갈된 돌연변이체는 각각 >0 및 <0을 갖는다. 시각화를 돕기 위해, 표적 DNA 가닥과 접촉할 것으로 예측되거나 또는 SpCas9의 HNH 도메인과 RuvC 도메인을 연결하는 링커 영역에 위치하는 아미노산 잔기는 y-축에 군을 형성하는 반면, 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 아미노산 잔기는 x-축에 제시된다. 강화되지 않은 것에 대한 조합은 회색으로 표시된다.
도 11. 참조 인간 게놈에서 N20-NGG 및 G-N19-NGG 부위의 빈도. 커스텀 파이썬(Python) 코드를 사용하여, Opti-SpCas9 및 eSpCas9(1.1), SpCas9-HF1, HypaCas9, 및 evoCas9 각각을 포함한 다른 조작된 SpCas9 변이체의 표적화 범위의 추정치로서 참조 인간 게놈 hg19의 두 가닥 모두에서 N₂₀-NGG 및 G-N₁₉-NGG 부위의 발생을 찾았다. N₂₀-NGG 부위는 인간 게놈에서 G-N₁₉-NGG 부위보다 약 4.3배 더 자주 발생한다.
도 12. OVCAR8-ADR 세포에서 DNA 미스매치 절단에 대한 T7 엔도뉴클레아제 I (T7E1) 검정 결과의 요약. 세포를 SpCas9 변이체 및 표시된 gRNA로 감염시키고, 감염 후 11일 내지 16일 후에 T7E1 검정을 위해 게놈 DNA를 수집하였다. 감염된 샘플에 대한 Indel 정량화는 막대 그래프로서 표시된다.
도 13. OVCAR8-ADR 세포에서의 SpCas9 변이체의 발현. 세포는 WT SpCas9, Opti-SpCas9, eSpCas9(1.1), HypaCas9, SpCas9-HF1, Sniper-Cas9, evoCas9, xCas9, 또는 OptiHF-SpCas9를 코딩하는 렌티바이러스로 감염시켰다. 단백질 용해물은 웨스턴 블롯 분석을 위해 추출되었고, 항-SpCas9 항체로 이뮤노블롯팅되었다. 베타-액틴이 부하 대조군으로서 사용되었다. SpCas9-HF1 및 xCas9의 발현은 OVCAR8-ADR 세포에서 검출되지 않았으며, 이는 포유 동물 세포에서의 발현을 위해 비-최적화된 서열때문일 수 있으므로^24,49, SpCas9-HF1 및 xCas9는 다른 활성 검정에 포함되지 않았다. 이들 실험은 유사한 결과를 나타내면서 독립적으로 3회 반복되었다.
도 14. GFP 붕괴 검정을 사용하여 부가의 미스매칭된 5' 구아닌 (5'G)을 보유하거나 또는 이것이 결여된 gRNA를 갖는 SpCas9 변이체의 편집 효율의 평가. WT SpCas9, Opti-SpCas9, eSpCas9(1.1), 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 부가의 미스매칭된 5'G를 수반하거나 또는 이것이 결여된 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법을 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 값 및 오차 막대는 4개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 15. Opti-SpCas9는 야생형 SpCas9와 비교할 때 감소된 오프-타겟 활성을 나타낸다. 8개의 내인성 로커스에서 VEGFA 부위 3 또는 DNMT1 부위 4 gRNA에 의해 야기된 오프-타겟 편집에 대한 SpCas9 변이체의 평가. indel의 백분율은 3가지 독립적인 실험으로부터 평균을 낸 T7E1 검정을 사용하여 측정되었다. 대시는 검출된 것이 없다는 것을 표시한다. WT SpCas9 및 OFF1 로커스에서 VEGFA 부위 3 gRNA를 갖는 그의 변이체의 특이성은 온-타겟 활성 대 오프-타겟 활성 (온-타겟 활성 데이터는 도 12로부터 수득되었음)의 비율로서 플롯팅되었다.
도 16. GFP 붕괴 검정을 사용하여 gRNA의 스페이서와 완벽하게 매칭되거나 또는 미스매치(들)를 함유하는 서열을 정착시킨 표적 부위를 편집하기 위한 SpCas9 변이체의 특징규명. WT SpCas9, Opti-SpCas9, eSpCas9(1.1) 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 표적에 대항하여 미스매치가 없거나 또는 1- 내지 4-염기 미스매치(들)를 수반하는 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법을 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 값 및 오차 막대는 3개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 17. 말단절단된 gRNA를 갖는 SpCas9 변이체의 온-타겟 편집 활성. a, b, WT SpCas9, Opti-SpCas9, eSpCas9(1.1), 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 GFP 서열 (a) 및 내인성 로커스 (b)를 표적화하는 다양한 길이 (17개 내지 19개의 뉴클레오티드)의 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법 (a) 및 T7E1 검정 (b)를 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 사용된 gRNA 서열의 목록이 표 5에 제시된다. (a)의 경우, 값 및 오차 막대는 4개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 18. 다중 서열 정렬 - 스트렙토코쿠스 피오게네스의 Cas9 동족체의 비교. Cas9 동족체 중 보존된 아미노산 잔기, 특히 SpCas9 잔기 661 및 1003에 상응하는 아미노산 잔기가 표시된다.

정의

본원에 사용된 바와 같은 "CRISPR-Cas9" 또는 "Cas9"는 스트렙토코쿠스 피오게네스를 포함한 일부 박테리아 종에서 발견된 CRISPR (클러스터링된 규칙적 간격의 짧은 팔린드롬성 반복부) 적응 면역 체계과 연관된 RNA-가이드된 DNA 엔도뉴클레아제 효소인 CRISPR 관련 단백질 9를 지칭한다. 스트렙토코쿠스 피오게네스 기원의 Cas9 단백질인 SpCas9는 서열식별번호: 2에 제시된 폴리뉴클레오티드 서열에 의해 코딩되는, 서열식별번호: 1에 제시된 아미노산 서열을 가지고 있다. 공지된 주요 보존된 잔기, 예컨대 서열식별번호: 1의 잔기 661, 695, 848, 923, 924, 926, 1003, 및 1060의 적어도 일부 (예를 들어, 적어도 2, 3, 4, 5개 또는 그 초과, 예컨대 적어도 절반이지만 반드시 전부는 아님)를 포함한 중요한 서열 상동성을 갖는 부가의 Cas9 효소 (도 18에서의 서열 정렬 참조). 본원에 사용된 바와 같은, 용어 "Cas9 단백질"은 서열식별번호: 1과의 실질적인 아미노산 서열 동일성, 예를 들어, 적어도 50%, 60%, 70%, 75%, 80% 이하, 85% 또는 그 초과의 전반적인 서열 동일성을 공유하는 임의의 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포괄한다. 예시적인 야생형 Cas9 단백질은 서열식별번호: 4-13에 제시된 아미노산 서열을 각각 갖는, 박테리아 종 스트렙토코쿠스 뮤탄스(Streptococcus mutans), 스트렙토코쿠스 디스갈락티아에(Streptococcus dysgalactiae), 스트렙토코쿠스 에퀴(Streptococcus equi), 스트렙토코쿠스 오랄리스(Streptococcus oralis), 스트렙토코쿠스 미티스(Streptococcus mitis), 리스테리아 모노시토게네스(Listeria monocytogenes), 엔테로코쿠스 티모넨시스(Enterococcus timonensis), 스트렙토코쿠스 써모필루스(Streptococcus thermophilus), 및 스트렙토코쿠스 파라산구이니스(Streptococcus parasanguinis)으로부터의 것을 포함한다.

용어 "핵산" 또는 "폴리뉴클레오티드"는 단일- 또는 이중-가닥 형태의 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 및 그의 중합체를 지칭한다. 특별히 제한되지 않는 한, 상기 용어는 참조 핵산과 유사한 결합 특성을 갖고 자연적으로 발생하는 뉴클레오티드와 유사한 방식으로 대사되는 자연 뉴클레오티드의 공지된 유사체를 함유하는 핵산을 포괄한다. 달리 표시되지 않는 한, 특별한 핵산 서열은 또한 그의 보존적으로 변형된 변이체 (예를 들어, 축퇴성 코돈 치환) 및 상보적 서열 뿐만 아니라 명시적으로 표시된 서열을 암시적으로 포괄한다. 구체적으로, 축퇴성 코돈 치환은 하나 이상의 선택된 (또는 모든) 코돈의 제3 위치가 혼합-염기 및/또는 데옥시이노신 잔기로 치환되는 서열을 생성함으로써 달성될 수 있다 (Batzer et al., Nucleic Acid Res., 19:5081 (1991); Ohtsuka et al., J. Biol. Chem., 260:2605-2608 (1985); 및 Cassol et al., (1992); Rossolini et al., Mol. Cell. Probes, 8:91-98 (1994)). 용어 핵산 및 폴리뉴클레오티드는 유전자, cDNA, 및 특정 유전자에 의해 코딩된 mRNA와 상호교환적으로 사용된다.

용어 "폴리펩티드", "펩티드" 및 "단백질"은 아미노산 잔기의 중합체를 지칭하기 위해 본원에서 상호교환적으로 사용된다. 이러한 용어는 하나 이상의 아미노산 잔기가 상응하는 자연적으로 발생하는 아미노산의 인공 화학적 모방체인 아미노산 중합체 뿐만 아니라 자연적으로 발생하는 아미노산 중합체 및 비-자연적으로 발생하는 아미노산 중합체에도 적용된다. 본원에 사용된 바와 같은, 상기 용어는 완전한 길이의 단백질 (즉, 항원)을 포함하여 임의의 길이의 아미노산 쇄를 포괄하며, 여기서 아미노산 잔기는 공유 펩티드 결합에 의해 연결된다.

용어 "아미노산"은 자연적으로 발생하는 아미노산 및 합성 아미노산 뿐만 아니라 자연적으로 발생하는 아미노산과 유사한 방식으로 기능하는 아미노산 유사체 및 아미노산 모방체를 지칭한다. 자연적으로 발생하는 아미노산은 유전 코드에 의해 코딩된 것 뿐만 아니라 나중에 변형되는 아미노산, 예를 들어, 히드록시프롤린, γ-카르복시글루타메이트 및 O-포스포세린이다. 아미노산 유사체는 자연적으로 발생하는 아미노산과 동일한 기본 화학 구조, 즉 수소와 결합되는 α 탄소, 카르복실 기, 아미노 기 및 R 기를 갖는 화합물, 예를 들어, 호모세린, 노르류신, 메티오닌 술폭시드, 메티오닌 메틸 술포늄을 지칭한다. 이러한 유사체는 변형된 R 기 (예를 들어, 노르류신) 또는 변형된 펩티드 백본을 갖지만, 자연적으로 발생하는 아미노산과 동일한 기본 화학 구조를 유지한다. "아미노산 모방체"는 아미노산의 일반적인 화학 구조와 상이한 구조를 갖지만, 자연적으로 발생하는 아미노산과 유사한 방식으로 기능하는 화합물을 지칭한다.

아미노산은 IUPAC-IUB 생화학 명명 위원회에서 권장하는 통상적으로 공지된 3-문자 부호 또는 1-문자 부호로서 본원에 언급될 수 있다. 마찬가지로, 뉴클레오티드는 통상적으로 허용되는 단일 문자 코드로서 언급될 수 있다.

"발현 카세트"는 숙주 세포에서 특별한 폴리뉴클레오티드 서열의 전사를 허용하는 일련의 명시된 핵산 요소와 함께 재조합적으로 또는 합성적으로 생성된 핵산 구축물이다. 발현 카세트는 플라스미드, 바이러스 게놈 또는 핵산 단편의 일부일 수 있다. 전형적으로, 발현 카세트는 프로모터에 작동가능하게 연결된, 전사될 폴리뉴클레오티드를 포함한다. 이러한 맥락에서 "작동가능하게 연결된"은 둘 이상의 유전적 요소, 예컨대 코딩 서열의 전사를 지시하는 프로모터와 같은 요소의 적당한 생물학적 기능을 허용하는 상대적 위치에 배치된 폴리뉴클레오티드 코딩 서열과 프로모터를 의미한다. 발현 카세트에 존재할 수 있는 다른 요소는 전사를 증강시키고 (예를 들어, 인핸서) 전사를 종결시키는 요소 (예를 들어, 종결인자) 뿐만 아니라 발현 카세트로부터 생산된 재조합 단백질에 특정 결합 친화성 또는 항원성을 부여하는 요소를 포함한다.

"벡터"는 박테리아-기반 구조 (예를 들어, 플라스미드) 또는 바이러스-기반 구조 (예를 들어, 바이러스 게놈)로부터 재조합적으로 생산된 원형 핵산 구축물이다. 전형적으로 벡터는 하나 이상의 관심 유전적 성분 (예를 들어, 하나 이상의 단백질을 코딩하는 폴리뉴클레오티드 서열) 이외에, 자기 복제 기점을 함유한다. 일부 경우에, 벡터는 발현 카세트를 함유하여, 벡터를 발현 벡터로 만들 수 있다. 다른 경우에, 벡터는 코딩 서열의 발현을 위한 장치를 함유하지 않을 수 있지만, 오히려 하나 이상의 관심 유전적 성분 (예를 들어, 코딩 서열)을 저장하고/하거나 이들을 하나의 유전적 구축물로부터 또 다른 유전적 구축물로 전달하기 위한 운반체 또는 셔틀로서 작용할 수 있다. 임의로, 벡터는 항생제 내성 단백질 (예를 들어, 박테리아 숙주 세포의 검출을 위함) 또는 형광 단백질 (예를 들어, 진핵 숙주 세포의 검출을 위함)과 같은 단백질을 코딩할 수 있는 하나 이상의 선별 또는 확인 마커-코딩 서열을 추가로 포함하여, 벡터를 정착시키고 벡터로부터 단백질 발현을 허용하는 형질전환되거나 또는 형질감염된 숙주 세포를 즉시 검출할 수 있도록 한다.

재조합 구축물에서 두 요소, 예컨대 2개의 폴리뉴클레오티드 서열 또는 2개의 폴리펩티드 서열 간의 관계를 설명하는 맥락에서 사용될 때 용어 "이종"은 상기 두 요소가 2개의 상이한 기원으로부터 유래되어 현재 자연에서 찾을 수 없는 서로 상대적인 위치로 배치된다는 것을 설명한다. 예를 들어, 단백질 코딩 서열의 발현을 지시하는 "이종" 프로모터는 코딩 서열의 발현을 지시하는 자연에서 발견되지 않는 프로모터이다. 또 다른 예로서, 재조합 폴리펩티드를 형성하기 위해 "이종" 펩티드와 융합된 펩티드의 경우, 두 펩티드 서열은 2개의 상이한 모 단백질로부터 유래되거나 또는 동일한 단백질이지만 서로 바로 인접하지 않은 2개의 별도의 부분으로부터 유래된다. 다시 말해서, 서로 "이종"인 두 요소의 배치는 자연에서 발견될 수 있는 더 긴 폴리뉴클레오티드 또는 폴리펩티드 서열을 초래하지 않는다.

본원에 사용된 바와 같은, 용어 "바코드"는 폴리뉴클레오티드 서열의 짧은 연장물 (전형적으로 30개 이하의 뉴클레오티드, 예를 들어 약 4개 또는 5개 내지 약 6, 7, 8, 9, 10, 12, 20 또는 25개 뉴클레오티드)을 지칭하며, 이는 또 다른 사전-결정된 폴리뉴클레오티드 서열 (예를 들어, 관심 단백질, 예컨대 SpCas9에 대한 코딩 서열의 한 세그먼트)에 고유하게 할당되어, 바코드의 존재에 근거하여 사전-결정된 폴리뉴클레오티드 서열 또는 그의 코딩된 아미노산 서열의 검출/확인을 허용한다.

"유형 IIS 제한 효소"는 비대칭 DNA 서열을 인식하고 그의 인식 서열의 외부 (3' 또는 5'으로)를 절단하는 엔도뉴클레아제이다. 이들은 대칭 또는 팔린드롬성 DNA 서열을 인식하고 그의 인식 서열 내에서 절단하는 유형 IIP 제한 효소와 대조적으로 작용한다. 유형 IIS 제한 효소는 그의 인식 서열 외부에서 DNA 가닥을 커팅하기 때문에, 그의 인식 서열과는 독립적으로 사실상 어떠한 서열의 오버행도 생성할 수 있다. 따라서 2가지 상이한 유형 IIS 제한 효소를 사용하여 동일한 크기와 동일한 방향 오버행 (즉, 오버행이 둘 다 3' 또는 5' 오버행이고 동일한 수의 뉴클레오티드를 가짐)을 생성할 수 있을 뿐만 아니라 매칭된 오버행 또는 양립성 단부를 생성할 수 있어 (즉, 반대쪽 두 가닥 상의 오버행는 완전히 상보적임), 2가지 상이한 유형 IIS 제한 효소에 의해 생성된 두 단부 간의 어닐링 및 라이게이션을 허용할 것이다.

본원에 사용된 바와 같은, 용어 "짧은 가이드-RNA" 또는 "sgRNA"는 사전-결정된 표적 부위에서 DNA 분자에 특이적으로 결합하고 CRISPR 뉴클레아제가 표적 부위에 인접한 DNA 분자를 절단하도록 가이드하는 약 15 내지 50개 (예를 들어, 20, 25, 또는 30개) 뉴클레오티드 길이의 RNA 분자를 지칭한다.

뉴클레오티드 서열은 2개의 폴리뉴클레오티드 서열, 특히 2개의 단일-가닥 DNA 또는 RNA 서열이 서로 복합체를 형성하여, 2개 서열 간의 실질적인 또는 완전한 (예를 들어, 적어도 약 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 이하) 왓슨-크릭(Watson-Crick) 상보성에 근거하여 이중 가닥 구조를 형성할 때 또 다른 뉴클레오티드 서열에 "특이적으로 결합한다".

"생리학상 허용되는 부형제/담체" 및 "제약상 허용되는 부형제/담체"는 전달 표적 (세포, 조직 또는 살아있는 유기체)에 대한 활성제의 투여를 돕고 종종 그에 의한 흡수를 돕는 물질을 지칭하며, 수용자에게 큰 영향을 일으키지 않으면서 본 발명의 조성물에 포함될 수 있다. 생리학상/제약상 허용되는 부형제의 비-제한적인 예는 물, NaCl, 생리 식염수, 락테이티드 링거, 정상 슈크로스, 정상 글루코스, 결합제, 충전제, 붕해제, 윤활제, 코팅제, 감미료, 향료 및 착색제 등을 포함한다. 본원에 사용된 바와 같은, 용어 "생리학상/제약상 허용되는 부형제/담체"는 의도 된 용도에 적합한 임의의 및 모든 용매, 분산 매질, 코팅제, 항박테리아제 및 항진균제, 등장성 및 흡수 지연제 등을 포함하는 것으로 의도된다.

사전-결정된 값과 관련하여 사용될 때 용어 "약"은 그 값의 ±10%를 포괄하는 범위를 나타낸다.

상세한 설명

I. 일반사항

본 발명은 바람직한 생물학적 기능성을 갖는 재조합 단백질의 고효율 생성 및 확인을 위한 새롭게 개선된 고차 유전적 변형 및 스크리닝 플랫폼에 관한 것이다. 본 발명은 또한 이러한 플랫폼에 의해 생산된 재조합 단백질을 제공한다.

A. 재조합 기술

재조합 유전학 분야의 일반적인 방법과 기술을 개시하는 기본 텍스트는 문헌 [Sambrook and Russell, Molecular Cloning, A Laboratory Manual (3rd ed. 2001); Kriegler, Gene Transfer and Expression: A Laboratory Manual (1990); 및 Ausubel et al., eds., Current Protocols in Molecular Biology (1994)]을 포함한다.

핵산의 경우, 크기는 킬로염기 (kb) 또는 염기 쌍 (bp)으로 제공된다. 이들은 아가로스 또는 아크릴아미드 겔 전기영동, 시퀀싱된 핵산 또는 공개된 DNA 서열로부터 유래된 추정치다. 단백질의 경우, 크기는 킬로달톤 (kDa) 또는 아미노산 잔기 수로 제공된다. 단백질 크기는 겔 전기영동, 시퀀싱된 단백질, 유래된 아미노산 서열 또는 공개된 단백질 서열로부터 추정된다.

상업적으로 이용가능하지 않은 올리고뉴클레오티드는 문헌 [Van Devanter et al., Nucleic Acids Res. 12: 6159-6168 (1984)]에 기재된 바와 같이 자동화 합성화기를 사용하여, 예를 들어, 문헌 [Beaucage & Caruthers, Tetrahedron Lett. 22: 1859-1862 (1981)]에 처음 기재된 고체상 포스포르아미다이트 트리에스테르 방법에 따라 화학적으로 합성될 수 있다. 올리고뉴클레오티드의 정제는 문헌 [Pearson & Reanier, J. Chrom. 255: 137-149 (1983)]에 기재된 바와 같이 관련 기술분야에서 승인되고 있는 임의의 전략, 예를 들어, 천연 아크릴아미드 겔 전기영동 또는 음이온-교환 HPLC를 사용하여 수행된다.

관심 폴리펩티드, 예를 들어, SpCas9 단백질 또는 그의 단편을 코딩하는 폴리뉴클레오티드 서열, 및 합성 올리고뉴클레오티드는, 예를 들어, 문헌 [Wallace et al., Gene 16: 21-26 (1981)]의 이중 가닥 주형을 시퀀싱하기 위한 연쇄 종결 방법을 사용하여 클로닝 또는 서브클로닝 후에 검증될 수 있다.

B. 폴리뉴클레오티드 코딩 서열의 변형

사전-선택된 관심 단백질 (예를 들어, SpCas9)의 공지된 아미노산 서열을 고려하여, 관련 분야에 공지될 뿐만 아니라 본원에 기재된 시험관 내 또는 생체 내 방법에 의해 결정될 수 있는 바와 같이, 단백질의 바람직한 특징 또는 개선된 생물학적 기능성을 달성하기 위해 변형이 이루어질 수 있다. 아미노산 서열에 대한 가능한 변형은 아미노산 서열의 하나 이상의 위치에서의 하나 이상의 아미노산 잔기의 치환 (보존적 또는 비-보존적), 결실 또는 부가를 포함할 수 있다.

다양한 돌연변이-생성 프로토콜이 관련 기술분야에 확립되고 기재되어 있으며, 관심 단백질을 코딩하는 폴리뉴클레오티드 서열을 변형하기 위해 쉽게 사용될 수 있다. 예를 들어, 문헌 [Zhang et al., Proc. Natl. Acad. Sci. USA, 94: 4504-4509 (1997); 및 Stemmer, Nature, 370: 389-391 (1994)]을 참조한다. 절차는 핵산 세트의 변이체 및 이에 따라 코딩된 단백질의 변이체를 생산하기 위해 개별적으로 또는 조합하여 사용될 수 있다.

다양성을 생성하는 돌연변이 방법은, 예를 들어, 부위-지정 돌연변이유발 (문헌 [Botstein and Shortle, Science, 229: 1193-1201 (1985)]), 우라실-함유 주형을 사용한 돌연변이유발 (문헌 [Kunkel, Proc. Natl. Acad. Sci. USA, 82: 488-492 (1985)]), 올리고뉴클레오티드-지정 돌연변이유발 (문헌 [Zoller and Smith, Nucl. Acids Res., 10: 6487-6500 (1982)]), 포스포로티오에이트-변형된 DNA 돌연변이유발 (문헌 [Taylor et al., Nucl. Acids Res., 13: 8749-8764 and 8765-8787 (1985)]), 및 갭이 있는 이중 나선 DNA를 사용한 돌연변이유발 (문헌 [Kramer et al., Nucl. Acids Res., 12: 9441-9456 (1984)])을 포함한다.

돌연변이를 생성하기 위한 다른 가능한 방법은 점 미스매치 복구 (문헌 [Kramer et al., Cell, 38: 879-887 (1984)]), 복구-결핍성 숙주 계통을 사용한 돌연변이유발 (문헌 [Carter et al., Nucl. Acids Res., 13: 4431-4443 (1985)]), 결실 돌연변이유발 (문헌 [Eghtedarzadeh and Henikoff, Nucl. Acids Res., 14: 5115 (1986)]), 제한-선택 및 제한-정제 (문헌 [Wells et al., Phil. Trans. R. Soc. Lond. A, 317: 415-423 (1986)]), 전체 유전자 합성에 의한 돌연변이유발 (문헌 [Nambiar et al., Science, 223: 1299-1301 (1984)]), 이중 가닥 파손 복구 (문헌 [Mandecki, Proc. Natl. Acad. Sci. USA, 83: 7177-7181 (1986)]), 폴리뉴클레오티드 연쇄 종결 방법에 의한 돌연변이유발 (미국 특허 번호 5,965,408) 및 오류-유발 PCR (문헌 [Leung et al., Biotechniques, 1: 11-15 (1989)])을 포함한다.

C. 바람직한 코돈 사용빈도를 위한 핵산의 변형

관심 단백질 또는 그의 단편을 코딩하는 폴리뉴클레오티드 서열은 특별한 유형의 숙주 세포에서 재조합 발현을 증강시키거나 또는 잠재적인 절단/재-라이게이션을 위해 바람직한 부위에서 제한 엔도뉴클레아제 인식 서열의 구축을 허용하도록 추가의 유전적 조작을 용이하게 하기 위해 바람직한 코돈 사용빈도와 일치하도록 코돈 축퇴의 원리에 기초하여 추가로 변경될 수 있다. 후자의 사용빈도는 조합 돌연변이유발을 진행하는 표적 단백질 (예를 들어, SpCas9 단백질)의 다중 코딩 세그먼트의 이음새 없는 연결이 유형 IIS 제한 효소에 의한 코딩 세그먼트의 소화에 의존하여, 이들 세그먼트 중 임의의 2개 사이의 연접부에서 임의의 외부 서열 또는 소위 흉터 서열을 제거하도록 천연 단백질의 코딩 서열로부터 특이적으로 유래되는 오버행을 생성하기 때문에 본 발명에서 특히 중요하다.

변형이 완료되면, 코딩 서열이 시퀀싱에 의해 검증된 다음, 추가의 조작 또는 단백질의 재조합 발현을 위해 적절한 벡터로 서브클로닝된다.

D. 재조합 폴리펩티드의 발현

관심 재조합 폴리펩티드 (예를 들어, 개선된 Cas9 단백질)는 본원에 개시된 바와 같은 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열에 의존하여, 재조합 유전학 분야의 일상적인 기술을 사용하여 발현될 수 있다.

(i) 발현 시스템

관심 폴리펩티드를 코딩하는 핵산의 높은 수준의 발현을 수득하기 위해, 전형적으로 전사를 지시하는 강력한 프로모터, 전사/번역 종결인자 및 번역 개시를 위한 리보솜 결합 부위를 함유하는 발현 벡터로 폴리뉴클레오티드 코딩 서열을 서브클로닝한다. 적합한 박테리아 프로모터는 관련 기술분야에 널리 공지되어 있으며, 예를 들어, 상기 문헌 ([Sambrook and Russell] 참조, 및 [Ausubel et al.] 참조)에 기재되어 있다. 재조합 폴리펩티드를 발현하기 위한 박테리아 발현 시스템은, 예를 들어, 이. 콜라이, 바실루스 종(Bacillus sp.), 살모넬라(Salmonella), 및 카울로박터(Caulobacter)에서 이용가능하다. 이러한 발현 시스템을 위한 키트는 상업적으로 이용가능하다. 포유 동물 세포, 효모 및 곤충 세포를 위한 진핵 발현 시스템은 관련 기술분야에 널리 공지되어 있으며 또한 상업적으로 이용가능하다. 일부 예시적인 진핵 발현 벡터는 아데노바이러스 벡터, 아데노 관련 벡터 및 레트로바이러스 벡터, 예컨대 렌티바이러스로부터 유래된 바이러스 벡터를 포함한다.

관심 단백질을 코딩하는 이종 폴리뉴클레오티드 서열의 발현을 지시하는데 사용되는 프로모터는 특별한 적용에 의존한다. 프로모터는 그의 자연 환경에서의 전사 출발 부위로부터와 같이, 이종 전사 출발 부위로부터 거의 동일한 거리에 임의로 위치한다. 그러나, 관련 기술분야에 공지된 바와 같이, 이러한 거리에 있어서의 일부 변동은 프로모터 기능의 상실 없이 수용될 수 있다.

프로모터 이외에, 발현 벡터는 전형적으로 숙주 세포에서 원하는 폴리펩티드의 발현에 필요한 모든 부가의 요소를 함유하는 전사 단위 또는 발현 카세트를 포함한다. 따라서 전형적인 발현 카세트는 폴리펩티드를 코딩하는 핵산 서열에 작동가능하게 연결된 프로모터, 및 전사체의 효율적인 폴리아데닐화, 리보솜 결합 부위 및 번역 종결에 필요한 신호를 함유한다. 분비된 단백질의 재조합 발현의 경우, 이러한 단백질을 코딩하는 폴리뉴클레오티드 서열은 전형적으로 절단가능한 신호 펩티드 서열에 연결되어 형질전환된 세포에 의한 재조합 폴리펩티드의 분비를 촉진시킨다. 다른 한편으로는, 재조합 폴리펩티드가 숙주 세포 표면에서 발현되도록 의도된 경우, 적절한 고정 서열이 코딩 서열과 함께 사용된다. 카세트의 부가의 요소는 인핸서를 포함할 수 있으며, 게놈 DNA가 구조 유전자로서 사용되는 경우에는 기능적 스플라이스 공여자 및 수용자 부위가 있는 인트론을 포함할 수 있다.

프로모터 서열 이외에, 발현 카세트는 또한 효율적인 종결을 제공하기 위해 코딩 서열의 하류에 전사 종결 영역을 함유해야 한다. 종결 영역은 프로모터 서열과 동일한 유전자로부터 수득될 수 있거나 또는 상이한 유전자로부터 수득될 수 있다.

진핵 바이러스로부터의 조절 요소를 함유하는 발현 벡터는 전형적으로 진핵 발현 벡터, 예를 들어 SV40 벡터, 유두종 바이러스 벡터, 렌티바이러스 벡터 및 엡스타인 바르(Epstein-Barr) 바이러스로부터 유래된 벡터에 사용된다. 다른 예시적인 진핵 벡터는 pMSG, pAV009/A⁺, pMTO10/A⁺, pMAMneo-5, 바쿨로바이러스 pDSVE, 및 SV40 초기 프로모터, SV40 후기 프로모터, 메탈로티오네인 프로모터, 뮤린 유방 종양 바이러스 프로모터, 라우스(Rous) 육종 바이러스 프로모터, 폴리헤드린 프로모터 또는 진핵 세포에서의 발현에 효과적인 것으로 제시된 다른 프로모터의 지시 하에 단백질의 발현을 허용하는 임의의 다른 벡터를 포함한다.

발현 벡터에 전형적으로 포함되는 요소는 또한 이. 콜라이에서 기능하는 레플리콘, 재조합 플라스미드를 정착시킨 박테리아의 선별을 허용하는 항생제 내성을 코딩하는 유전자, 및 진핵 서열의 삽입을 허용하는 플라스미드의 비필수 영역에 있는 고유한 제한 부위를 포함할 수 있다. 선택된 특별한 항생제 내성 유전자는 중요하지 않으며, 관련 기술분야에 공지된 많은 내성 유전자 중 임의의 것이 적합하다. 원핵 서열은 필요한 경우 진핵 세포에서 DNA의 복제를 방해하지 않도록 임의로 선택된다. 항생제 내성 선별 마커와 유사하게, 공지된 대사 경로에 기초한 대사 선별 마커는 형질전환된 숙주 세포를 선별하기 위한 수단으로서 사용될 수도 있다.

상기 논의된 바와 같이, 관련 기술분야의 통상의 기술자는 단백질의 생물학적 활성을 여전히 유지하면서도 단백질 또는 그의 코딩 서열에 다양한 보존적 치환이 이루어질 수 있음을 인식할 것이다. 더욱이, 폴리뉴클레오티드 코딩 서열의 변형은 또한 특별한 발현 숙주에서 바람직한 코돈 사용빈도를 수용하거나 또는 그 결과로 생성된 아미노산 서열을 변경하지 않고서도 제한 효소 절단 부위를 생성하도록 만들어질 수 있다.

(ii) 형질감염 방법

표준 형질감염 방법을 사용하여 대량의 재조합 폴리펩티드를 발현하는 박테리아, 포유 동물, 효모, 곤충 또는 식물 세포주를 생산한 다음, 표준 기술을 사용하여 정제한다 (예를 들어, 문헌 [Colley et al., J. Biol. Chem. 264: 17619-17622 (1989); Guide to Protein Purification, in Methods in Enzymology, vol. 182 (Deutscher, ed., 1990)] 참조). 진핵 및 원핵 세포의 형질전환은 표준 기술에 따라 수행된다 (예를 들어, 문헌 [Morrison, J. Bact. 132: 349-351 (1977); Clark-Curtiss & Curtiss, Methods in Enzymology 101: 347-362 (Wu et al., eds, 1983)] 참조).

외래 뉴클레오티드 서열을 숙주 세포 내로 도입하기 위한 널리 공지된 절차 중 임의의 것이 사용될 수 있다. 이는 인산칼슘 형질감염, 폴리브렌, 원형질체 융합, 전기천공, 리포솜, 미세주입, 혈장 벡터, 바이러스 벡터, 및 클로닝된 게놈 DNA, cDNA, 합성 DNA 또는 다른 외래 유전 물질을 숙주 세포 내로 도입하는 다른 널리 공지된 방법 중 임의의 것의 사용을 포함한다 (예를 들어, 상기 문헌 [Sambrook and Russell] 참조). 사용된 특별한 유전자 조작 절차는 재조합 폴리펩티드를 발현할 수 있는 숙주 세포 내로 적어도 하나의 유전자를 성공적으로 도입할 수 있어야 한다.

II. 개선된 조합 유전적 변형 시스템

이전에 개발된 고처리량 콤비GEM 조합 유전적 변형 시스템 등에 기초하여, 본 발명자들은 각각 관심 단백질 (예를 들어, SpCas9)의 일부분에 상응하고 그의 아미노산 서열에 적어도 하나의 돌연변이, 가능하게는 다수의 돌연변이를 함유하는 단백질 세그먼트를 코딩하는 DNA 요소를 이음새 없게 연결하는 것을 목표로 이들 시스템을 추가로 변형시켜, 그 결과로 생긴 복합 단백질 변이체가 의도적으로 도입된 돌연변이를 제외하고는 외부 아미노산 잔기를 갖지 않도록 할 것이다. 이전 방법론은 유형 IIP 제한 엔도뉴클레아제를 활용하여 DNA 서열 (조합 단백질 변이체의 세그먼트를 코딩함)을 절단하고 재-라이게이션하기 때문에, 이러한 유형의 엔도뉴클레아제의 특성 (뉴클레오티드 서열의 짧은 팔린드롬성 연장물에의 결합 및 이러한 연장물 내에서의 절단)은 전형적으로, 사용자가 여분의 뉴클레오티드를 도입함으로서 절단 부위를 조작할 수 있으며, 이는 결국 시스템에 의해 생성된 단백질 변이체 내의 두 세그먼트 사이의 각각의 연접 지점에 외부 아미노산 잔기(들) 또는 "흉터" 서열을 생성시킨다. 이러한 외부 아미노산 잔기는 단백질 서열을 추가로 변경하고 변이체의 기능적 스크리닝을 잠재적으로 방해할 수 있다.

이러한 원치 않는 여분의 아미노산 잔기를 도입하는 것을 피하기 위한 노력으로, 본 발명자들은 유형 IIS 제한 효소가 단백질의 세그먼트를 코딩하는 다중 DNA 코딩 서열을 구축하고 라이게이션하여 조합 유전적 변이체의 라이브러리를 구축하는데 대신 사용된다면, 그러한 세그먼트 사이의 바람직하지 않은 "흉터" 서열은 완전히 제거될 수 있다는 것을 발견하였다. 이러한 전략은 유형 IIS 엔도뉴클레아제가 비대칭 인식 부위 외부에서 DNA 가닥을 절단할 수 있다는 사실을 이용하여, 이들 효소에 의한 DNA 절단 후에 생성될 야생형 단백질에 대한 천연 DNA 코딩 서열의 일부분을 갖는 양립성 단부 또는 매칭된 오버행을 허용한다. 양립성 단부 또는 매칭된 오버행에서 천연 단백질 유래 코딩 서열을 사용하면, 단백질 세그먼트 사이의 이음새 없는 연접을 지원할 뿐만 아니라 특이적 방향성 라이게이션을 허용하여, 조합 단백질 변이체를 구축하는 프로세스에서 효율을 추가로 증강시킬 수 있다.

A. 단백질 세그먼트를 코딩하는 DNA 세그먼트의 라이브러리의 생성

조합 단백질 변이체의 라이브러리를 생성하는데 있어서 제1 단계는 단백질의 세그먼트 중 각각의 하나에 대한 라이브러리를 생성하는 것이다: 단백질 변이체는 사전-결정된 수 (예를 들어, 3, 4, 5, 6개, 또는 그 초과)의 단백질 세그먼트 또는 모듈 끝과 끝을 연결함으로써 생산되도록 설계될 수 있다. 본 개시내용에서와 같이 사전-결정된 수는 n+1로서 표현되고, 관심 단백질에 대해 6개의 세그먼트, n=5로 구성되도록 고안된다. 야생형 단백질의 대부분의 N-말단 부분에 상응하고 이러한 단백질 부분에 하나 이상의 가능한 돌연변이를 함유하는 제1 단백질 세그먼트를 코딩하는 DNA 요소의 개별 구성원의 라이브러리 또는 콜렉션이 먼저, 재조합 생산 또는 화학적 합성과 같은 공지된 방법에 의해 생성된 다음, 적절한 제한 효소 부위 뿐만 아니라 사전-결정된 돌연변이 (또는 사전-결정된 돌연변이 세트)를 정착시킨 DNA 요소에 고유하게 할당된 바코드 서열을 함유하는 DNA 벡터 (그의 목적을 위한 소위 저장 벡터) 내로 혼입될 수 있다. DNA 요소가 상대적으로 긴 경우, 이는 저장 벡터 내로 혼입되기 전에 깁슨 어셈블리와 같은 공지된 방법에 의해 더 짧은 단편을 연결함으로써 먼저 만들어질 수 있다. 상기 논의된 바와 같이, DNA 서열 돌연변이를 생성하는 방법은 관련 기술분야의 통상의 기술자에게 널리 공지되어 있으며, 예를 들어, 하나 이상의 뉴클레오티드의 결실, 삽입 및/또는 치환에 의해 천연 버전 또는 야생형 서열을 변형시킴으로써 서열 변이체를 창출하기 위해 용이하게 이용될 수 있다.

도 5a는 단백질 세그먼트를 코딩하는 DNA 요소가 어떻게 삽입되고 벡터에 라이게이션되어, 5'에서 3'으로, 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제1 인식 부위, DNA 요소, 제2 유형 IIS 제한 효소 (예를 들어, BbsI)에 대한 제1 및 제2 인식 부위, 그가 정착된 특이적 돌연변이(들)에 대한 DNA 요소에 고유하게 할당된 바코드, 및 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제2 인식 부위를 포함하는 DNA 구축물을 형성하는지의 예를 도시한다. 조합 돌연변이 연구를 위한 (n+1)개의 세그먼트 또는 모듈을 갖도록 설계 또는 "해체된" 단백질의 경우, DNA 세그먼트를 함유하는 저장 벡터의 라이브러리는 후속 DNA 요소 각각에 대해 동일한 방식으로, 제2, 제3 등 내지 제n DNA 요소 (각각 제2, 제3 등 내지 제n 단백질 세그먼트를 코딩함)를 구축할 수 있으며, 제n 단백질 세그먼트는 단백질의 제2 내지 마지막 또는 대부분의 C-말단 부분에 상응한다.

단백질의 마지막 또는 대부분의 C-말단 세그먼트를 코딩하는 DNA 요소의 경우, 제(n+1) DNA 요소를 함유하는 벡터의 라이브러리를 구축하는데 있어서 구조적으로 상이한 저장 벡터가 이용된다. 도 5a에 예시된 바와 같이, 마지막 또는 제(n+1) DNA 요소가 이러한 저장 벡터에 삽입되어 5'에서 3'으로, 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제1 인식 부위, 제(n+1) DNA 요소, 프라이머-결합 부위로서 작용하는 뉴클레오티드 서열의 짧은 연장물, 그가 정착된 특이적 돌연변이(들)에 대한 DNA 요소에 고유하게 할당된 바코드, 및 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제2 인식 부위를 포함하는 DNA 구축물이 형성된다. 프라이머-결합 부위의 존재 및 배치는 단백질 변이체에 대한 복합 코딩 서열 (n+1개 DNA 요소를 모두 조합함)이 생성된 후 범용 프라이머 (프라이머-결합 부위에 특이적으로 결합함)를 활용하여 조합된 바코드의 신속한 시퀀싱을 허용하여, 변이체에 정착된 돌연변이를 쉽게 확인할 수 있게 하므로, 전체 복합 코딩 서열을 시퀀싱하는 힘든 작업을 수행할 필요가 없다.

라이브러리에서 각각의 잠재적인 조합 단백질 변이체에 대해 동등한 기회를 보장하기 위해, 각각 고유한 돌연변이 세트를 정착시킨 DNA 요소는 바람직하게 동일한 몰 비로 라이브러리에 존재한다.

B. 조합 단백질 돌연변이체 라이브러리의 생성

일단 제1, 제2 등 내지 제n, 및 제(n+1) DNA 요소를 함유하는 저장 벡터의 라이브러리가 구축되면, 단백질 세그먼트 또는 모듈을 코딩하는 DNA 요소를 함유하는 DNA 단편이, 예를 들어, 제1 유형 IIS 제한 엔도뉴클레아제 (예를 들어, BsaI)를 사용하여 벡터를 2개 부위에서 절단함으로써 저장 벡터의 효소적 소화를 거쳐 먼저 방출된다. 저장 벡터의 소화는 단백질 세그먼트 (돌연변이를 정착시킴)를 코딩하는 DNA 요소 및 그의 고유하게 할당된 바코드를 각각 함유하는 DNA 단편을 방출하며, 2가지 유형의 IIS 제한 효소 (예를 들어, BbsI) 인식 부위가 그들 사이에 끼어 있다. DNA 단편의 두 단부는 제1 유형 IIS 제한 효소 절단에 의해 생산된 오버행을 가지고 있다.

한편, 전체 단백질 변이체를 코딩하는 최종 복합 DNA 요소를 운반하고 발현하기 위해 의도되는 DNA 벡터 (그의 목적을 위한 소위 대상 벡터)는 DNA 코딩 서열의 발현에 필요한 모든 유전적 요소를 함유하는 발현 벡터이다. 이전 섹션에서 논의된 바와 같이, 전사를 위한 하나의 필수 요소는 서열의 전사를 지시하기 위해 코딩 서열에 작동가능하게 연결되는 프로모터이다. 전형적으로, 그 프로모터는 코딩 서열에 대한 이종 프로모터이다.

저장 벡터 라이브러리로부터 생산된 DNA 단편을 수용하기 위해, DNA 단편의 삽입/라이게이션을 허용하고 전사를 위한 프로모터의 제어 하에 DNA 요소 (단백질 세그먼트를 코딩함)를 DNA 단편 내에 배치하도록 프로모터로부터 하류의 적합한 거리에 있는 부위에서, 또한 특정 유형의 IIS 제한 효소에 의한 소화를 통해 대상 벡터를 선형화한다. 종종 대상 벡터를 선형화하기 위해 사용되는 상기 유형의 IIS 제한 효소는 저장 벡터로부터 DNA 단편을 방출하기 위해 사용되는 것과 상이하다. 그러나 그들은 DNA 단편을 대상 벡터에 라이게이션할 수 있도록 동일한 크기와 매칭된 오버행을 생성하는 것이 바람직하다.

도 5b에 예시된 바와 같이, 완전히 다양한 제1 단백질 세그먼트를 코딩하는 완전히 다양한 제1 DNA 요소를 함유하는 저장 벡터의 라이브러리가 제1 유형 IIS 제한 효소에 의해 소화될 때, 완전히 다양한 제1 DNA 요소를 함유하는 DNA 단편의 라이브러리가 그의 상응하는 바코드와 함께 저장 벡터로부터 방출된다. 이어서, 이러한 제1 DNA 단편의 라이브러리는 바람직하게, 각각의 서열 다양성에 대해 동일한 몰 비에서, 선형화된 대상 벡터에 라이게이션되어 1-와이즈 라이브러리가 생성된다. 그 결과로 생긴 1-와이즈 라이브러리의 각각의 구성원은 프로모터가 제1 DNA 요소에 작동가능하게 연결되고 제1 DNA 요소에 의해 코딩된 제1 또는 대부분의 N-말단 단백질 세그먼트의 발현을 지시할 수 있는 기능적 발현 카세트를 함유할 것이다.

1-와이즈 라이브러리는 이후에 특정 유형의 IIS 제한 효소로 다시 소화되어, 라이브러리의 각각의 구성원을 제1 DNA 요소와 그의 바코드 사이에서 2회 절단하여 각각의 절단 부위에 2개의 오버행을 생성한다.

한편, 완전히 다양한 제2 단백질 세그먼트를 코딩하는 완전히 다양한 제2 DNA 요소를 함유하는 저장 벡터의 라이브러리는 제1 유형 IIS 제한 효소에 의해 소화되며, 완전히 다양한 제2 DNA 요소를 함유하는 DNA 단편의 라이브러리는 그의 상응하는 바코드와 함께 저장 벡터로부터 방출된다. 이어서, 이러한 제2 DNA 단편의 라이브러리는 바람직하게, 각각의 서열 다양성에 대해 동일한 몰 비에서, 제1 DNA 요소와 그의 상응하는 바코드 사이에 있는 선형화된 1-와이즈 발현 벡터에 라이게이션되어 2-와이즈 발현 벡터의 새로운 라이브러리가 생성된다. 그 결과로 생긴 2-와이즈 라이브러리의 각각의 구성원은 프로모터가 제2 DNA 요소와 융합된 제1 DNA 요소에 작동가능하게 연결되고 제1 DNA 요소와 제2 DNA 요소의 융합에 의해 코딩된 융합된 제1 및 제2 단백질 세그먼트의 발현을 지시할 수 있는 기능적 발현 카세트를 함유할 것이다. 제1 단백질 세그먼트와 제2 단백질 세그먼트 사이의 융합 지점에서 임의의 외부 아미노산 잔기 또는 "흉터" 서열을 제거하기 위해, 제1 DNA 요소와 그의 바코드 사이에 위치한 2개의 절단 부위를 신중하게 설계하여 (1) 선형화된 1-원 벡터의 두 단부의 오버행과 완전히 다양한 제2 DNA 요소를 함유하는 저장 벡터의 라이브러리로부터 방출된 제2 DNA 단편의 두 단부의 오버행 사이에 완벽한 매치 (오버행의 서열 및 크기/방향 둘 다에서)가 존재하도록 해야만 하고; (2) 라이게이션 시 제1 DNA 요소의 꼬리 또는 3' 단부와 제2 DNA 요소의 머리 또는 5' 단부 사이의 매칭된 오버행 서열이 동일한 위치에서 관심 야생형 단백질에서 발견되는 아미노산 서열의 연장물을 코딩하도록 해야만 한다. 다시 말해서, 절단 부위의 설계는 2개의 인접한 단백질 세그먼트의 이음새 없는 연결을 보장한다.

제2 저장 벡터의 라이브러리로부터 방출된 제2 DNA 단편의 라이브러리를 선형화된 1-와이즈 발현 벡터 라이브러리로 라이게이션하는 것을 완료하면, 2-와이즈 복합 발현 벡터의 라이브러리가 구축된다. 마지막 두 단락에 개요 서술된 단계의 주기를 반복하면, 제3 DNA 단편 등 내지 제n 및 제(n+1) DNA 단편을 복합 발현 벡터 내로 계속 혼입시켜 최종 복합 발현 벡터의 라이브러리를 수득할 수 있으며, 이는 모든 가능한 돌연변이 조합을 함유하는 완전한 길이의 단백질 변이체를 코딩하는 DNA 코딩 서열의 전체 어레이를 함유하며, 각각의 변이체 코딩 서열에 이어 복합 바코드 서열이 뒤따르고, 이는 DNA 요소에 고유하게 할당된 것에 상응하지만 DNA 요소가 융합되는 방식의 역순으로 모든 바코드를 가질 것이다.

C. 단백질 변이체의 기능적 스크리닝

대상 벡터의 최종 라이브러리는 특이적 돌연변이 세트를 함유하는 완전한 길이의 단백질 변이체를 코딩하기 위해 모든 n+1개 DNA 요소를 함유하는 복합 DNA 코딩 서열에 작동가능하게 연결된 프로모터를 각각 갖는 발현 벡터이므로, 이들 단백질 변이체는 적절한 리포팅 시스템에서 바람직한 임의의 특별한 기능적 특징에 관하여 용이하게 표현되고, 스크리닝되며 선별될 수 있다. 예를 들어, 바이러스-기반 대상 벡터를 사용하여 숙주 세포를 형질감염시키고 기능적 분석을 위한 적합한 세포 환경에서 관심 단백질의 변이체의 발현을 지시할 수 있다.

도 2a는 SpCas9 변이체가 그의 기능성에 관하여 스크리닝되는 방법의 한 예를 예시한다: 적색 형광 단백질 (RFP)을 안정적으로 발현하는 세포주, 및 RFP 유전자 서열을 표적화하는 gRNA를 SpCas9 변이체에 대한 코딩 서열을 함유하는 렌티바이러스 벡터로 형질감염시켜 각각의 변이체의 온-타겟 활성을 나타내고, 동의 돌연변이를 정착시킨 RFP를 안정적으로 발현하는 또 다른 세포주, 및 상기 gRNA를 형질감염시켜 변이체의 오프-타겟 활성을 나타내었다. 콤비실(CombiSEAL) 플랫폼은 임의의 단백질의 유용한 변이체를 잠재적으로 생성하도록 설계되었기 때문에, 관심 단백질의 특이적 기능성에 따라 상이한 기능적 스크리닝 검정을 고안할 수 있다. 일단 바람직한 기능적 특색의 클론 (Cas9 단백질의 경우와 같이, 온-타겟 및 오프-타겟 활성 프로파필)이 발견되면, 복합 바코드의 시퀀싱을 수행하여 특별한 변이체에서의 특이적 돌연변이를 즉시 확인할 수 있다.

III. 최적화된 Cas9 효소

새롭게 개선된 콤비실 조합 유전적 변형 시스템을 활용하여, 본 발명자들은 일련의 SpCas9 돌연변이체를 확인하고 그의 기능적 특색을 특징규명하였다. 연구된 돌연변이체 중에서, Opti-SpCas9라는 특별한 변이체가 매우 바람직한 기능적 프로필을 갖는 것으로 밝혀졌으며; 이는 효능을 훼손하지 않고 증강된 유전자 편집 특이성과 광범위한 시험 범위를 보유하고 있다. 기능적 속성에 비추어 볼 때, 이러한 개선된 Cas9 효소는 CRISPR 게놈 편집 계획에서 매우 가치있는 도구이다.

야생형 SpCas9 단백질은 서열식별번호: 1에 제시된 아미노산 서열을 가지며, 그의 상응하는 DNA 코딩 서열은 서열식별번호: 2에 제시되어 있다. 이러한 엔도뉴클레아제에 대한 이전 연구는 DNA와 상호작용하는 영역 및 아미노산 잔기를 포함하여 이러한 단백질의 구조에 관한 통찰력을 제공하였다. 콤비실 플랫폼을 개발하는 연구 중에, 본 발명자들은 이전에 표적 및 비-표적 DNA 가닥과 상호작용할 것으로 예측되었던 SpCas9의 아미노산 서열의 특정 잔기에 도입된 돌연변이, 특히 치환이 엔도뉴클레아제의 성능에 직접적인 효과를 발휘한다는 것을 확증하였다. 구체적으로, R661, Q695, K848, Q926, K1003, 및 K1060과 같은 잔기에서의 치환은 효소의 온-타겟/오프-타겟 편집 활성을 변경시키는 것으로 밝혀졌다. 변이체 Opti-SpCas9는 야생형 SpCas9의 이중 돌연변이체이며: 서열식별번호: 1 내의 잔기 661은 알라닌으로 치환되고 잔기 1003은 히스티딘으로 치환된다. 그의 아미노산 서열은 서열식별번호: 3에 제시되어 있다. 이들 치환은 고도로 바람직한 표현형인, 변형된 엔도뉴클레아제의 증가된 온-타겟 편집 효율 및 감소된 오프-타겟 활성에 책임이 있다.

본 발명자들은 또한 R661A, K1003H 및 Q926A의 삼중 돌연변이체를 확인하였으며, 이는 Opti-SpCas9로부터의 오프-타겟 편집을 약 80%만큼 추가로 감소시키면서, 그의 온-타겟 활성 또한 실질적으로 감소시킨다. 이러한 삼중 돌연변이체는 오프-타겟 절단의 회피가 특히 중요한 상황에서 가치가 있을 수 있다. 또한, OptiHF-SpCas9로 지칭되는 제2 돌연변이체가 생성되었으며, 이는 5개의 점 돌연변이 Q695A, K848A, E923M, T924V 및 Q926A (표 2의 변이체 46 참조)를 가지고 있다. Opti-SpCas9 및 OptiHF-SpCas9의 아미노산 서열은 각각 서열식별번호: 3 및 서열식별번호: 13에 제시되어 있다. 표 2는 본 연구에서 분석된 SpCas9 변이체의 편집을 제공하여, 이들이 함유하는 점 돌연변이(들)와 그들의 온-타겟 및 오프-타겟 절단 프로파일을 상세히 설명한다.

본원에 개시된 SpCas9 변이체는 살아있는 세포 게놈의 유전자 조작에 유용한 도구이다. CRISPR 시스템에 의한 표적화된 DNA 절단을 위해 이들 변이체를 사용하기 위해, 전형적으로 변이체 (예를 들어, Opti-SpCas9)의 발현을 지시하는 발현 벡터, 및 게놈 DNA를 표적 부위에서 절단하기 위해 세포의 게놈 내의 사전-선택된 표적 부위로 SpCas9 변이체를 지시하기 위한 적절한 서열의 sgRNA를 코딩하는 발현 벡터를 살아있는 세포 내로 도입한다. 일부 실시양태에서, 발현 벡터는 바이러스 벡터, 예컨대 레트로바이러스 벡터, 특히 렌티바이러스 벡터이다. SpCas9 변이체를 코딩하는 발현 벡터와 sgRNA를 코딩하는 발현 벡터는 종종 2개의 별도의 벡터이지만, 일부 경우에 하나의 단일 발현 벡터는 SpCas9 변이체 및 sgRNA에 대한 코딩 서열 둘 다를 함유하며, 두 코딩 서열은 동일한 프로모터 또는 2개의 개별 프로모터에 작동가능하게 연결된다. 프로모터는 전형적으로 코딩 서열에 이종이기 때문에, 특이적 유형의 수용자 세포에 적합한 프로모터를 사용하는 것이 추가로 고려될 수 있다.

실시예

하기 실시예는 단지 예시로서 제공되며 그에 제한되지 않는다. 관련 기술분야의 통상의 기술자는 본질적으로 동일하거나 유사한 결과를 산출하기 위해 변화되거나 또는 변형될 수 있는 다양한 중요하지 않은 파라미터를 쉽게 인식할 것이다.

실시예 1: 콤비실은 바코딩된 조합 유전적 단위를 이음새 없게 어셈블리하기 위한 고처리량 플랫폼으로서, SpCas9 변이체 스크리닝과 같은 단백질 최적화를 위한 새로운 접근법을 제공한다

단백질 기능에 대한 다수의 돌연변이의 조합 효과는 예측하기 어렵기 때문에, 수많은 단백질 서열 변이체를 기능적으로 평가할 수 있는 능력은 단백질 조작에 실제적으로 유용할 것이다. 본 실시예에 제시된 것은 조합 변형을 통해 바코딩된 단백질 변이체의 확장가능한 어셈블리 및 병렬 특징규명을 가능하게 하는 고처리량 플랫폼이다. 이러한 플랫폼 콤비실은 널리 사용되는 스트렙토코쿠스 피오게네스 Cas9 (SpCas9) 뉴클레아제의 948개 조합 돌연변이체의 라이브러리를 체계적으로 특징규명하여 인간 세포에서의 그의 게놈 편집 활성을 최적화함으로써 예시된다. 다수의 온-타겟 및 오프-타겟 부위에서 SpCas9 변이체의 풀-평가 편집 활성의 용이성은 최적화된 변이체의 확인을 가속화하고 돌연변이 상위성의 연구를 용이하게 한다. Opti-SpCas9가 성공적으로 확인되었으며, 이는 효능과 광범위한 표적화 범위를 희생하지 않고서도 증강된 편집 특이성을 보유한다. 이러한 플랫폼은 일괄 조합 변형을 통해 단백질을 조작하는데 광범위하게 적용가능하다.

도입

단백질 조작은 새롭거나 증강된 특성을 가진 효소, 항체 및 게놈 편집 단백질을 생성하는데 중요한 전략인 것으로 입증되었다^1-7. 단백질 서열의 조합 최적화는 많은 수의 변이체를 창출하고 스크리닝하는 전략에 의존하지만, 현재의 접근법은 고처리량 방식으로 다수의 변형을 체계적이고 효율적으로 구축하고 시험할 수 있는 능력에 있어서 제한적이다^8-11. 구조적 및 생화학적 지식을 기반으로 한 기존의 부위-지정 돌연변이유발은 기능적으로 관련된 돌연변이체의 생성을 용이하게 하지만, 조합 돌연변이체를 스크리닝하기 위해 이러한 일대일 접근법을 사용하면 처리량과 확장성이 결여된다. 유전자 합성 기술을 사용하여 조합 돌연변이체를 풀링된 형식으로 만들 수 있지만, 전형적으로 합성된 킬로 염기당 1 내지 10개의 오류를 제공하며^12,13, 도입될 돌연변이가 단백질의 상이한 영역 전반에 흩어져 있는 경우에는 엄청난 비용이 든다. 조합 DNA 어셈블리^14,15 및 재조합 및 셔플링¹⁶과 같은 방법은 다수의 돌연변이된 서열을 함께 융합하여 전체 단백질 서열을 어셈블리함으로써 조합 돌연변이체를 창출하지만, 돌연변이물의 후속 유전자형결정 및 특징규명은 클로날 단리물 또는 긴 리드 시퀀싱을 선택해야 하며, 이들 중 어느 것도 다수의 돌연변이체를 추적하는데 실현가능하지 않다. 오류-유발 폴리머라제 연쇄 반응 및 유도된 진화를 위한 돌연변이유발 균주를 통한 돌연변이유발은 원하는 돌연변이된 변이체의 양성 선택을 허용하지만, 코돈에서 2개 이상의 특이적 뉴클레오티드 돌연변이가 드물게 발생하기 때문에 아미노산의 서브세트에 대한 선택 편향으로 고통받는다. 서열 무작위 배정을 통해 매우 다양한 단백질 변이체를 달성할 수 있더라도, 선택된 히트를 하나씩 분석하고 유전자형결정하는 매우 제한된 처리량은 단백질 조작에 있어서 주요 장애물이다. 더욱이, 나머지 패신저 돌연변이로부터 원하는 표현형을 부여하는 정확한 돌연변이를 정확히 찾아내는 것은 조합 최적화 프로세스를 가속화하는데 유용할 수 있었다.

본원에서 본 발명자들은 고처리량의 짧은 리드 시퀀싱에 의해 쉽게 추적할 수 있는 바코딩된 조합 돌연변이체의 풀링된 어셈블리를 위해, 본 발명자들이 콤비실이라고 명명한 플랫폼인 일괄 조합 유전학(Combinatorial Genetics En Masse; 콤비GEM)^17-19에서 사용되는 바코드 연결 전략과 이음새 없는 조합 DNA 어셈블리를 커플링시키는 새로운 클로닝 방법을 고안하였다 (도 1). 콤비실은 단백질 서열을 구성가능한 부분으로 모듈화함으로써 작동하며, 각각의 부분은 규정된 위치에서 사전-결정된 돌연변이를 지정하는 바코드로 태그부착된 변이체의 레퍼토리를 포함한다. 유형 IIS 제한 효소 부위는 바코딩된 부분을 플랭킹하기 위해 사용되어 단백질-코딩 서열로부터 유래되는 소화된 오버행을 창출하며, 그에 의해 이전 부분과의 융합 시 이음새 없는 라이게이션을 달성한다. 상기 부분을 반복적으로 풀링된 클로닝 후 그 결과로 생성된 라이브러리에서 각각의 단백질-코딩 서열 변이체에 고유한 바코드가 연결 및 부착된다. 이러한 방법은 다수의 돌연변이를 포괄하는 전체 단백질-코딩 영역 전반에 걸쳐 긴 리드 시퀀싱을 수행할 필요성을 피할 수 있으므로 다른 전략보다 유리하며, 이는 클로날 단리물을 선택할 필요 없이 짧은 (예를 들어, ~50-염기 쌍) 바코드의 고처리량 시퀀싱에 의해 풀 내의 각각의 변이체를 정량적으로 추적하는, 비용면에서 효과적인 방식을 제공한다. 또한, 변이체의 풀링된 특징규명은 동일한 실험 조건 하에 대접전 비교를 허용하고, 돌연변이 상위성의 연구를 용이하게 한다. 별개의 유전적 성분의 조합 어셈블리만을 허용하는 콤비GEM과 달리, 콤비실은 연속된 서열 (예를 들어, 단백질의 상이한 세그먼트)을 이음새 없게 연결하기 위해 융합 흉터 서열을 남기지 않는다. 따라서, 이러한 새로운 플랫폼은 단백질 조작을 위한 엄청난 잠재력을 가지고 있다.

결과

SpCas9 조합 돌연변이체의 고처리량 스크리닝. 콤비실은 높은 편집 특이성과 활성을 가진 최적화된 변이체를 확인하기 위한 목적으로, 게놈 조작을 위해 널리 사용되고 있는 클러스터링된 규칙적 간격의 짧은 팔린드롬성 반복부 (CRISPR) 뉴클레아제^20-23인 SpCas9에 대한 조합 돌연변이체 라이브러리를 어셈블리하는데 적용되었다. 이전에는, eSpCas9(1.1)³, SpCas9-HF1⁴, HypaCas9⁵ 및 evoCas9⁶를 포함한 돌연변이의 특이적 조합을 수반하는 SpCas9 뉴클레아제가 오프-타겟 편집을 최소화하도록 조작되었다. 그러나, 이들 변이체는 미스매칭된 5'-구아닌 (5'G)로 출발하는 gRNA와의 비-양립성으로 인해 표적화할 수 있는 부위가 적다^3-6,24-27. 현재까지 제한된 수의 조합 돌연변이체가 생성되었고 시험되었으므로 (표 1), 여분의 5'G를 보유하는 gRNA와의 더 나은 양립성을 가진 다른 SpCas9 변이체에 대한 보다 체계적인 탐색이 필요하다.

콤비실을 사용하여, SpCas9 서열을 4개 부분으로 모듈화하고 개별 부분에서 상이한 무작위 및 특이적 돌연변이를 포함하는 바코딩된 삽입물을 저장 벡터로 클로닝하였다 (도 1a; 도 7a, b; 세부사항에 관해서는 방법 항목 참조). 이어서, 조합 바코딩된 라이브러리 (4 × 2 × 17 × 7 = 952개 SpCas9 변이체, 야생형 (WT) SpCas9 및 eSpCas9(1.1) 서열 포함)를 풀링하여 렌티바이러스 벡터로 어셈블리하였다. 라이브러리 내의 개별 부분 및 어셈블리된 구축물은 바코딩된 변이체의 매우 정확한 어셈블리를 확증하기 위해 시퀀싱되었다 (세부사항에 관해서는 방법 항목 참조). 본 발명자들은 에스케리키아 콜라이(Escherichia coli) (이. 콜라이)에 저장된 플라스미드 풀 (즉, 952개 변이체 중 951개)과 감염된 인간 세포 풀 (즉, 952개 변이체 중 948개) 둘 다 내에 있는 라이브러리에 대한 높은 커버리지를 검출하였고 (도 1b), 플라스미드와 감염된 세포 풀 간의 고도로 재현가능한 표현 뿐만 아니라 감염된 세포 풀의 생물학적 복제물 간의 고도로 재현가능한 표현을 검출하였다 (도 7c).

강력하고 특이적인 SpCas9 변이체를 검색하기 위해, 적색 형광 단백질 (RFP) 및 RFP 유전자 서열을 표적화하는 gRNA (RFPsg5-ON 및 RFPsg8-ON으로서 후술됨; 도 2a)를 안정적으로 발현하는 모노클로날 인간 세포주를 사용하여 리포터 시스템을 확립하였다. 주로 5'G로 출발하는 20-뉴클레오티드 gRNA를 사용했던 이전 스크린^3-6과 달리, 리포터 시스템에서 부가의 5'G를 수반하는 gRNA는 표적 범위를 희생하지 않는 양립성 SpCas9 변이체를 찾는데 사용되었다. 이어서, 세포를 SpCas9 변이체 라이브러리로 감염시키고, 감염 후 14일에 RFP 형광 수준을 기준으로 빈으로 분류하였다. RFP 형광의 손실은 DNA 절단 및 표적 부위의 indel-매개된 붕괴를 반영하므로, 활성 SpCas9 변이체를 정착시킨 세포는 낮은 RFP 수준으로 분류된 빈에서 강화될 것이다. 일루미나 HiSeq를 사용하여 바코딩된 SpCas9 변이체를 추적한 결과, 변이체의 특정 하위 집단은 비분류된 집단과 비교할 때 가장 낮은 수준의 RFP를 가진 세포 집단의 ~5%를 포괄하는 분류된 빈 (즉, 빈 A)에서 >1.5배만큼 강화된 것으로 밝혀졌다 (도 2b; 도 8). WT SpCas9는 리포터 시스템 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 강화된 시스템 중 하나인 반면, eSpCas9(1.1)은 RFPsg8-ON에 대해 강화되었다. SpCas9 변이체의 온-타겟 및 오프-타겟 활성의 병렬 특징규명을 용이하게 하기 위해, RFP에서 동의 돌연변이를 정착시킨 세포주를 추가로 생성하여, 미스매칭된 부위의 표적화가 SpCas9 변이체의 오프-타겟 활성을 나타내도록 한다 (즉, RFPsg5-OFF5-2 및 RFPsg8-OFF5; 도 2a). eSpCas9(1.1)가 아닌 WT SpCas9가 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 강화되었다 (도 2b; 도 8).

SpCas9 변이체의 라이브러리에 대한 온-타겟 및 오프-타겟 활성은 비분류된 집단과 비교하여 분류된 빈에서의 강화를 기반으로 하여 순위를 매기고 플로팅되었으며, 대다수의 돌연변이체가 SpCas9의 온-타겟 및 오프-타겟 활성 둘 다를 손상시킨다는 것을 발견하였다 (도 3a). 활성 최적화된 변이체는 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 90%이고 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 60% 미만인 강화 비율을 갖는 것으로서 정의되었다. nOne 변이체 (Opti-SpCas9로서 후술됨)는 이들 기준을 충족하고 추가 특징규명를 위해 선택되었다 (표 2). 또한 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 >50% 및 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 <90%의 강화 비율을 기반으로 하여 OptiHF-SpCas9로 명명된 고충실도 변이체가 확인되었다 (표 2). Opti-SpCas9 및 OptiHF-SpCas9의 효율과 특이성은 개별 검증 검정을 통해 검증되어 그들의 온-타겟 및 오프-타겟 활성을 측정하였다. 매칭되거나 미스매칭된 RFP 부위를 표적화하는 gRNA를 각각 발현하는 다수의 세포주를 사용하여, WT와 비교할 때 Opti-SpCas9는 거의 동등한 수준의 온-타겟 활성 (즉, 94.6%; 3개의 매칭된 부위로부터 평균을 냄) 및 실질적으로 감소된 오프-타겟 활성 (즉, 1.7%; 3개의 미스매칭된 부위로부터 평균을 냄)을 나타낸 반면, OptiHF-SpCas9는 온-타겟 (즉, 63.6%; 2개의 매칭된 부위로부터 평균을 냄) 및 오프-타겟 (즉, 2.0%; 2개의 미스매칭된 부위로부터 평균을 냄) 부위 둘 다에서 감소된 활성을 나타냈다는 것을 확증하였다 (도 3b).

SpCas9의 편집 효율에 대한 돌연변이 상위성을 연구함. 콤비실에 의한 단백질 변이체의 체계적인 구축을 통해 본 발명자들은 아미노산 치환 세트를 중성, 유익하거나 해로운 것으로 분류하고 예측하기 어려운 상위성 상호작용을 탐색할 수 있다. SpCas9의 편집 활성을 위한 인덱스로서 강화 비율을 사용하여 (도 9), 돌연변이와 관련된 상위성 상호작용의 조합에 의해 부여된 온-타겟 및 오프-타겟 활성을 제시하는 히트맵을 구축하였다 (도 4; 도 10). 표적 및 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 SpCas9의 아미노산 잔기 (예컨대 R661, Q695, K848, Q926, K1003 및 K1060)에 도입된 치환의 수와 유형이, 온-타겟 효율을 최대화하는 것과 오프-타겟 활성을 최소화하는 것 간의 최적의 균형을 지배하는 것으로 밝혀졌다. 활성-최적화된 변이체 Opti-SpCas9는 이들 DNA-접촉 잔기에서의 2개의 치환 돌연변이 (즉, R661A 및 K1003H)에 의해 WT와 상이하다. SpCas9의 제1003 아미노산 위치에 도입된 3개의 보존적 염기성 잔기 (즉, 리신, 아르기닌 및 히스티딘)를 비교한 결과, K1003H가 R661A 돌연변이와 양성 상위성 상호작용을 나타내고 온-타겟 부위에서의 높은 편집 효율을 Opti-SpCas9에 부여한 바람직한 치환인 것으로 밝혀졌다 (도 4). SpCas9-HF1⁴에 대해 더 높은 특이성을 부여하는 것으로 나타났던 Q926A 치환을 Opti-SpCas9에 부가하면, 그의 오프-타겟 효과가 약간 감소되었고 (즉, Opti-SpCas9의 경우 1.0%에서 Opti-SpCas9 + Q926A의 경우 0.2%로 감소함; 3개의 미스매칭된 표적 부위로부터 평균을 냄), 시험된 3개의 매칭된 부위 전체에 걸친 그의 온-타겟 활성이 21.6%, 62.4%, 및 99.9%만큼 상당히 감소되었다 (도 3b). 더욱이, 이들 DNA-접촉 잔기에서 3개 이상의 돌연변이를 보유하는 대부분의 SpCas9 변이체는 온-타겟 및 오프-타겟 부위 둘 다에서 더 적은 편집을 생성한 것으로 밝혀졌다 (도 4). 이들 결과는 이들 DNA-접촉 잔기에서의 과도한 알라닌 치환이 SpCas9의 편집 활성을 심각하게 감소시킨다는 이전 발견과 일치한다²⁵. 흥미롭게도, 하기 두 도메인을 연결하는 링커 영역에 위치한 E923M + T924V 및 E923H + T924L 돌연변이와 같은 SpCas9의 HNH 및 RuvC 뉴클레아제 도메인²⁸의 입체형태적 제어를 담당하는 잔기에 부가의 치환이 도입되더라도, DNA-접촉 잔기에 3개 이상의 돌연변이를 수반하는 SpCas9 변이체 중 일부는 RFPsg5-ON 부위에서 그의 온-타겟 편집을 복원하였다 (도 4). 고충실도 변이체 OptiHF-SpCas9는 또한 Q695A, K848A 및 Q926A 치환 이외에도 E923M + T924V 돌연변이를 함유하며, Q695A, K848A, 및 Q926A 삼중 돌연변이만 있는 변이체보다 RFPsg8-ON 부위에서 약간 더 높은 온-타겟 활성을 나타냈다 (도 4). 이들 데이터는 SpCas9의 DNA 결합 활성과 절단 활성이 기능적으로 커플링되어 그의 편집 특이성과 효율을 결정하는 모델을 지원하고^5,29, 링커 잔기를 변형시킴으로써 SpCas9의 편집 성능을 프로그래밍할 수 있는 잠재력을 강조한다.

최적화된 SpCas9 변이체를 특징규명하는 것. gRNA 설계 및 구축에서, 5'G는 통상적으로 U6 프로모터 하에서 효율적인 전사를 촉진하기 위해 gRNA 서열의 출발부에 포함되거나 부가된다. WT SpCas9는 프로토스페이서 서열과 미스매칭되는 부가의 5'G를 갖는 gRNA와 양립성이다. 다른 한편으로는, eSpCas9(1.1), SpCas9-HF1, HypaCas9, 및 evoCas9는 부가의 5'G를 보유하거나 (즉, G-N₂₀) 또는 출발 구아닌이 결여된 (즉, H-N₁₉) 20-뉴클레오티드 gRNA를 사용하는 경우 편집 효율이 상실된다^4,6,24-26,30. 프로토스페이서 서열과 매칭된 5'G를 가진 gRNA의 사용은 N₂₀-NGG와 비교하여 G-N₁₉-NGG 부위의 가용성에 근거하여 인간 게놈 내의 편집가능한 부위의 수를 ~4.3배만큼 극적으로 감소시킬 수 있었다 (도 11). Opti-SpCas9의 편집 활성은 부가의 5'G를 수반하는 gRNA로 추가로 특징규명되었으며, Opti-SpCas9는 본 발명자들 및 다른 사람들이 이전에 연구한 내인성 로커스를 검정한 결과에 근거하여 WT에 필적하는 (즉, 95.1%) 온-타겟 DNA 절단 활성을 나타낸 반면^3-5,18,31, eSpCas9(1.1) 및 HypaCas9는 크게 감소된 활성을 나타낸 것으로 밝혀졌다 (즉, 각각 32.4% 및 25.6%) (도 5a; 도 12). 감소된 편집은 두 SpCas9 변이체의 감소된 단백질 발현 수준에 기인한 것이 아니였다 (도 13). 이들 결과는 부가의 5'G를 보유하는 gRNA가 사용된 본 발명자들의 스크리닝 시스템 (도 2; 3a)에서 이들 변이체에 대해 관찰된 온-타겟 활성 뿐만 아니라 녹색 형광 단백질 (GFP) 붕괴 검정을 사용한 독립적인 검증 실험에 근거하여 보강된다 (도 3b; 도 14). 또한, Opti-SpCas9, eSpCas9(1.1), 및 HypaCas9는 매칭된 5'G로 출발하는 20-뉴클레오티드 gRNA를 사용했을 때 WT에 필적하는 편집 활성 (즉, 각각 109.1%, 103.3%, 및 106.8%)을 나타냈다 (도 5a). Opti-SpCas9는 OptiHF-SpCas9, 및 보다 최근에 특징규명된 고충실도 변이체인 evoCas9⁶ 및 Sniper-Cas9³²와 추가로 비교되었고, OptiHF-SpCas9, evoCas9, 및 Sniper-Cas9는 Opti-SpCas9보다 적은 온-타겟 편집을 생성한 것으로 밝혀졌다 (즉, 부가의 5'G를 수반하는 gRNA로 발현될 때 각각 60.7%, 99.8%, 및 51.7%만큼 감소되었고, 20-뉴클레오티드 gRNA 서열에서 매칭된 5'G로 출발하는 gRNA를 사용할 때 각각 40.1%, 87.7% 및 63.9%만큼 감소되었음) (도 5b; 도 12; 13). 전체적으로, 개선된 특이성을 가진 이전에 조작된 다른 SpCas9의 실제적 유용성을 제한하는, U6 하에서의 전사를 위한 20-뉴클레오티드 gRNA 서열의 제1 염기로서 매칭된 5'G를 정착시키는 것의 제한은 부가의 5'G를 수반하는 gRNA와 양립하여 작동하는 Opti-SpCas9에는 적용되지 않는다. 이러한 발견은 조작된 SpCas9가 특이성을 위해 표적화 범위를 반드시 희생할 필요가 없다는 것을 강조한다.

상이한 SpCas9 변이체의 오프-타겟 활성을 추가로 조사하였다. VEGFA 부위 3 및 DNMT1 부위 4 gRNA를 사용하여 WT SpCas9에 의해 편집되는 8개의 잠재적인 오프-타겟 로커스를 증폭시켰고^3-5,31, WT SpCas9에 의해 유도된 게놈 indel이 OVCAR8-ADR 세포에서 이들 부위 중 4개 (즉, VEGFA OFF1, VEGFA OFF2, VEGFA OFF3, 및 DNMT1 OFF1)에서 검출되었다. WT 대신 Opti-SpCas9, eSpCas9(1.1), 및 HypaCas9를 사용했을 때, 오프-타겟 편집은 VEGFA OFF1 부위에서만 검출되었다 (도 15). 4개의 변이체 중에서, Opti-SpCas9는 그 부위에서 가장 큰 온-타겟 내지 오프-타겟 활성을 보여주었다 (도 15). 상이한 SpCas9 변이체의 미스매치 내성을 비교하기 위해, 리포터 유전자 표적 (즉, 게놈적으로 통합된 GFP 유전자 서열)에 대항한 1개 내지 4개 염기 미스매치를 함유하는 gRNA가 생성되었다. 이들 미스매칭된 염기는 gRNA의 스페이서 서열의 상이한 위치 전체에 걸쳐 있다. GFP 형광의 손실은 DNA 절단 및 표적 부위의 indel-매개된 붕괴를 반영하기 위해 측정되었다. 비록 상대적으로 낮은 수준의 활성 (즉, Opti-SpCas9의 경우 3.5% 대 WT의 경우 73.2%)이 2-염기 미스매치를 수반하는 8개 부위 중 1개 부위에서 검출될지라도, Opti-SpCas9는 2개 이상의 미스매칭된 염기를 갖는 gRNA에 대해 크게 내성이 없는 것으로 밝혀졌다 (도 16). eSpCas9(1.1) 및 HypaCas9는 본 발명자들의 리포터 시스템 내의 온-타겟 부위 (즉, >60%만큼 감소됨) 및 오프-타겟 부위 둘 다에서 편집 작업을 더 적게 수행하는 것으로 관찰되었다 (도 16). WT와 Opti-SpCas9 간의 유사한 수준의 온-타겟 활성 (즉, WT의 97.6%)으로, Opti-SpCas9는 WT보다 더 높은 특이성을 보였으며, 이는 단일-염기 미스매치를 함유하지만 여전히 상당한 양의 오프-타겟 편집이 검출되는 20개 부위 중 13개 부위에서 상당히 적은 오프-타겟 편집이 생성된 것으로서 나타난다 (도 16). 다른 사람들은 또한 eSpCas9(1.1), SpCas9-HF1, HypaCas9, evoCas9, 및 Sniper-Cas9를 사용하여 단일-염기 미스매칭된 부위에서의 편집 활성을 보고하였다^3,5,6,32. 그럼에도 불구하고, 게놈 내의 대부분의 인 실리코 예측된 오프-타겟 부위는 gRNA 서열에 대항한 2개 이상의 미스매치를 함유하므로³³, 단일-염기 미스매치에 대한 내성이 정확한 게놈 편집을 달성하기 위한 SpCas9의 유용성을 제한해서는 안된다. GUIDE-Seq를 추가로 수행하여 Opti-SpCas9 및 다른 조작된 SpCas9 변이체에 의해 야기된 게놈 전반에서의 절단 활성을 조사하였다. 이들 결과는 Opti-SpCas9가 WT보다 오프-타겟 절단을 훨씬 적게 생성했으며, OptiHF-SpCas9는 다른 보고된 고충실도 변이체, 예컨대 eSpCas9(1.1), HypaCas9, evoCas9, 및 Sniper-Cas9에 필적하는 증가된 온-타겟 대 오프-타겟 비를 보여주었다는 것을 나타낸다 (도 5c, 표 3). eSpCas9(1.1) 및 HypaCas9와 비교 시, Opti-SpCas9는 말단절단된 gRNA의 사용과 더 나은 양립성을 나타냈으며 (도 17), 이는 Opti-SpCas9의 편집 특이성을 개선하는 상보적 전략을 제공할 수 있었다다³⁴.

논의

본 발명자들은 단백질 조작을 위한 고차 조합 돌연변이의 신속하고 동시 프로파일링에 대한 충족되지 않은 요구를 해결하기 위해 콤비실으로 명명된 간단하면서도 매우 강력한 플랫폼을 확립하였다. 이러한 전략은 풀링된 어셈블리 접근법을 사용하여 개별 조합 돌연변이체를 하나씩 구축하기 위한 힘든 단계를 우회하고, 바코딩 전술을 활용하여 단백질 조작을 용이하게 하기 위해 다수의 단백질 변이체로부터 최고 성능자를 병렬 실험하고 확인할 수 있도록 한다. 더욱이, 이러한 방법은 돌연변이 간의 상위성 관계를 맵핑하는데 적용될 수 있다. 본 발명자들은 콤비실 방법을 사용하여, 인간 세포에서 광범위한 내인성 표적 전체에 걸쳐 우수한 게놈 편집 효율과 특이성을 가진 새로운 변이체인 Opti-SpCas9 및 OptiHF-SpCas9를 성공적으로 확인하였다 (표 3). 콤비실 파이프라인을 쉽게 적용하여 훨씬 더 많은 Cas9 변이체를 구축하여 더 넓은 프로토스페이서 인접 모티프 유연성⁷ 및 리보핵단백질 전달과의 증강된 양립성³⁵을 갖는 것과 같은 다각적 또는 다른 특성을 가진 변이체 검색을 확대할 수 있다. 콤비실은 게놈의 정확한 편집을 위해 CRISPR 효소 (SaCas9³⁶ 및 Cpf1³⁷ 포함) 및 그의 유도체 (예를 들어, 염기 편집기^38-41)의 조작을 가속화할 것으로 예상된다. 이러한 접근법의 일반화 가능성은 다양한 단백질 뿐만 아니라 많은 생체 의학 및 생명 공학 적용과 관련된 합성 DNA 및 유전적 조절 회로를 포함한 다른 생물학적 분자 및 시스템을 체계적으로 조작하기 위해 본 발명자들의 범위를 확장할 것이다.

방법

DNA 벡터의 구축

본 연구에 사용된 벡터 (표 4)는 PCR, 제한 효소 소화, 라이게이션 및 깁슨 어셈블리를 포함한 표준 분자 클로닝 기술을 사용하여 구축되었다. 커스텀 올리고뉴클레오티드는 인티그레이티드 DNA 테크놀로지스(Integrated DNA Technologies) 및 진위즈(Genewiz)로부터 구입하였다. 벡터 구축물을 이. 콜라이 균주 DH5α로 형질전환시키고, 50 μg/ml의 카르베니실린/암피실린을 사용하여 구축물을 정착시킨 콜로니를 단리하였다. DNA는 플라스미드 미니 [다카라(Takara)] 또는 미디 [퀴아젠(Qiagen)] 키트를 사용하여 추출 및 정제되었다. 벡터 구축물의 서열은 생어(Sanger) 시퀀싱으로 검증되었다.

eSpCas9(1.1), HypaCas9, 또는 SpCas9-HF1을 코딩하는 렌티바이러스 발현 벡터를 선별 마커로서 제오신과 함께 창출하기 위해, SpCas9 서열을 포션(Phusion) DNA 폴리머라제 [뉴 잉글랜드 바이오랩스(New England Biolabs)]를 사용한 PCR에 의해 pAWp30 [애드젠(Addgene) #73857], eSpCas9(1.1) (애드젠 #71814), 및 VP12 (애드젠 #72247)로부터 증폭/돌연변이시키고, 깁슨 어셈블리 마스터 혼합물 (뉴 잉글랜드 바이오랩스)을 사용하여 pFUGW 렌티바이러스 벡터 백본에 클로닝하였다. evoCas9, Sniper-Cas9, 및 xCas9(3.7)을 코딩하는 렌티바이러스 발현 벡터는 애드젠 구축물 #107550, #113912, 및 #1803380 각각으로부터 SpCas9 서열을 증폭시키고 pFUGW 벡터 백본으로 클로닝함으로써 창출되었다. 특이적 유전자를 표적화한 gRNA의 U6 프로모터-구동된 발현을 함유하는 저장 벡터를 구축하기 위해, 이전에 기재된 바와 같이 T4 DNA 라이가제 (뉴 잉글랜드 바이오랩스)를 사용하여 BbsI-소화된 pAWp28 벡터 (애드젠 #73850)에서 gRNA 표적 서열과의 올리고 쌍을 합성, 어닐링 및 클로닝하였다¹⁸. U6 프로모터 하에서의 전사를 선호하기 위해 20-뉴클레오티드 스페이서 서열의 출발부에 부가의 5'G를 수반하는 gRNA와 양립하여 작동하는 SpCas9 변이체를 검색하는데 있어서, 도 5 및 도 14에서 사용된 것 중 일부를 제외하고는, 여분의 5'G를 함유하는 gRNA가 본 연구에 사용되었다. gRNA 스페이서 서열이 표 5에 열거되어 있다. gRNA의 U6-구동된 발현을 위한 렌티바이러스 벡터를 구축하기 위해, 저장 벡터를 BglII 및 MfeI 효소 [써모피셔 사이언티픽(ThermoFisher Scientific)]로 소화시켜 U6-gRNA 발현 카세트를 제조하고, 상기 벡터를 BamHI 및 EcoRI 효소 (써모피셔 사이언티픽)로 소화시킴으로써 생성된 양립성 점착 단부를 통해 라이게이션을 사용하여 pAWp12 (애드젠 #72732) 벡터 백본 내로 삽입하였다. 이중 RFP 및 GFP 형광 단백질 리포터와 함께 gRNA를 발현하기 위해, U6-구동된 gRNA 발현 카세트를 상기 기재된 것과 동일한 전략을 사용하여 pAWp12 대신 pAWp9 (애드젠 #73851) 렌티바이러스 벡터 백본 내로 삽입하였다.

SpCas9를 위한 바코딩된 DNA 부분의 창출

본 발명자들이 본 연구를 출발할 때 이용가능한 사전 지식에 따라, 본 발명자들은 gRNA-지정 게놈 부위에서 표적 및 비-표적 DNA 가닥 (SpCas9-HF1⁴ 및 eSpCas9(1.1)³ 각각에서 확인된 것 포함)과 접촉할 것으로 예측되거나 또는 DNA 절단을 위한 SpCas9의 HNH 및 RuvC 뉴클레아제 도메인의 입체형태적 역학을 제어할 것으로 예측되는 아미노산 잔기에서 조합 돌연변이체의 라이브러리를 구축하는데 집중하였다²⁸. 8개의 아미노산 잔기를 선택하고, 지정되거나 또는 무작위로 생성된 치환 돌연변이를 정착시키도록 변형시켰다 (도 1a). 염기성 잔기를 알라닌으로 돌연변이시켜 하전된 잔기의 역할을 평가하였다. 이전에 eSpCas9(1.1)에 도입된 K1003에서의 알라닌 치환에 추가로, 이러한 잔기는 또한 단백질 안정성에 미치는 영향을 최소화하기 위해 다른 양전하를 띤 잔기 (즉, 아르기닌 및 히스티딘)로 돌연변이되었다. SpCas9 상에서의 이들 돌연변이의 특이적 조합이 그의 온-타겟 편집 효율을 최대화하고 gRNA와의 양립성을 증강시키면서, 바람직하지 않은 오프-타겟 활성을 최소화할 수 있다는 가설이 세워졌다.

SpCas9 서열은 조합 돌연변이체를 구축하기 위해 4개의 부분 (즉, P1, P2, P3 및 P4)으로 모듈화되었으며, P1을 위한 4개의 삽입물, P2를 위한 2개의 삽입물, P3을 위한 17개의 삽입물, 및 P4를 위한 7개의 삽입물이 창출되었다. 각각의 삽입물은 포션 (뉴 잉글랜드 바이오랩스) 또는 카파 하이파이(Kapa HiFi) [카파 바이오시스템즈(Kapa Biosystems)] DNA 폴리머라제를 사용한 PCR에 의해 pAWp30 (애드젠 #73857) 또는 eSpCas9(1.1) (애드젠 #71814)로부터 증폭되고 돌연변이되었다. SpCas9의 아미노산 위치 923, 924 및 926에서의 부위-지정 돌연변이를 생성하기 위해, 3개의 원래 코돈 서열을 PCR 프라이머에서 축퇴성 코돈 NNS로 대체하였다. 저장 벡터 (pAWp61 또는 pAWp62)에 클로닝한 후, 각각의 DNA 삽입물에 고유한 8-염기-쌍 바코드를 부가하였다. 제한 효소 부위 BsaI를, 단부를 플랭킹하기 위해 부가하였다 (그리고 바코드 시퀀싱을 위한 BbsI 부위 및 프라이머-결합 부위는 pAWp61 및 pAWp62 각각에 대한 바코드와 삽입물 사이에 도입되었음). 따라서 본원에서 각각의 pAWp61 및 pAWp62 저장 벡터는 "BsaI-삽입물-BbsI-BbsI-바코드-BsaI" 및 "BsaI-삽입물-프라이머-결합 부위-바코드-BsaI"로서 각각 구성되었다. 생어 시퀀싱을 수행하여 개별 삽입물과 그의 바코드의 서열 동일성을 확증하였다. 조작된 관심 서열이 BsaI 또는 BbsI 부위를 함유하는 경우, BsaI 및 BbsI 대신 다른 유형의 IIS 제한 효소 부위를 사용할 수 있거나, 또는 동의 돌연변이를 단백질-코딩 서열에 도입하여, 동일한 아미노산 잔기를 코딩하면서 제한 부위를 제거할 수 있었다.

SpCas9를 위한 바코딩된 조합 돌연변이체 라이브러리의 창출

SpCas9의 각각의 부분에 대한 삽입물을 정착시킨 저장 벡터를 동일한 몰 비로 혼합하였다. 풀링된 삽입물은 BsaI와 혼합된 저장 벡터의 단일 포트 소화 반응에 의해 생성되었다. 대상 벡터 (pAWp60)는 BbsI로 소화시켰다. 이와 같이 소화된 P1 삽입물 및 벡터를 라이게이션하여 대상 벡터에 풀링된 P1 라이브러리를 창출하였다. P1 라이브러리를 BbsI로 다시 소화시키고, 이와 같이 소화된 P2 삽입물과 라이게이션하여 2-원 조합 (P1 × P2)으로 라이브러리를 어셈블리하였다. 3-원 (P1 × P2 × P3) 및 4-원 (P1 × P2 × P3 × P4) 조합 라이브러리를 생성하기 위해 순차적 라운드의 라이게이션 반응을 수행하였다. 풀링된 어셈블리 단계 후, 삽입물의 단백질-코딩 부분이 이음새 없이 연결되고 벡터 구축물의 한쪽 끝에 국한되었고 각각의 바코드가 다른 쪽 끝에 연결되었다. 952개 SpCas9 변이체의 4-원 (4 × 2 × 17 × 7) 조합 라이브러리가 구축되었으며, 각각은 gRNA-지정 게놈 부위의 표적 및 비-표적 DNA 가닥과 상호작용할 것으로 예측되거나^3,4 또는 SpCas9의 뉴클레아제 도메인의 입체형태적 역학을 변경할 것으로 예측되는²⁸ 아미노산 잔기에서의 1개 내지 8개의 돌연변이 (WT 제외)를 수반한다 (도 1a). 부가의 바코딩된 부분을 도입하여 조합 복잡성을 확장하고 수만개 또는 훨씬 더 많은 조합 변형을 동시에 연구하도록 확장할 수 있다. 생어 시퀀싱 분석을 수행하고, 어셈블리된 바코딩된 조합 돌연변이체 구축물의 대부분이 2-원 (즉, 20/20 콜로니), 3-원 (즉, 14/15 콜로니), 및 4-원 (즉, 8/8 콜로니) 라이브러리에서 예상 돌연변이를 수반하는 것으로 검증되었다. 의도하지 않은 염기 치환을 수반하는 하나의 3-원 조합 돌연변이체 구축물을 제외하고는, 다른 구축물에서 다른 무작위 돌연변이가 검출되지 않았다. 최종 라이브러리를 pFUGW 렌티바이러스 벡터로 서브클로닝하여 EFS 프로모터 하에서 선별 마커 제오신과 함께 SpCas9 변이체를 발현시켰다. 렌티바이러스 벡터에 어셈블리된 바코딩된 SpCas9 변이체 (상기 라이브러리로부터 샘플링된 7개 콜로니 중 7개)의 완전한 길이의 서열에 대한 생어 시퀀싱은 예상된 돌연변이만 존재하고 무작위 돌연변이는 존재하지 않았다는 것을 확증시켜 주었다.

개별 검증을 위한 SpCas9 변이체의 생성

Opti-SpCas9를 포함하여 개별 SpCas9 변이체를 코딩하는 렌티바이러스 벡터는 어셈블리가 개별 삽입물 및 벡터로 하나씩 수행되는 것을 제외하고는, 상기 기재된 조합 돌연변이체 라이브러리의 생성에 사용된 것과 동일한 전략으로 구축되었다.

인간 세포 배양

HEK293T 세포는 아메리칸 타입 컬쳐 콜렉션 (ATCC)으로부터 수득하였다. OVCAR8-ADR 세포는 티. 오치야(T. Ochiya) (일본 국립 암 센터 연구소; 일본)로부터의 선물이었다⁴². OVCAR8-ADR 세포의 정체는 세포주 인증 시험 [제네티카 DNA 래보러토리즈(Genetica DNA Laboratories)]에 의해 확증되었다. 모노클로날 안정한 OVCAR8-ADR 세포주는 UBC 및 CMV 프로모터로부터 각각 발현된 RFP 및 GFP 유전자를 코딩하는 렌티바이러스, 및 RFP 부위를 표적화하는 gRNA의 탠덤 U6 프로모터-구동된 발현 카세트로 세포를 형질도입함으로써 생성되었다. RFPsg5-ON, RFPsg8-ON 및 RFP-sg6-ON 라인은 gRNA의 스페이서와 완전히 매칭되는 RFP 상에 표적 부위를 정착시키는 반면, RFPsg5-OFF5-2, RFPsg8-OFF5 및 RFPsg5-OFF5 라인은 동의 돌연변이를 수반하고 gRNA의 스페이서와 미스매칭되는 RFP 상에 표적 부위를 정착시킨다 (표 6). HEK293T 세포는 10% 열-불활성화된 FBS 및 1× 항생제-항진균제 [라이프 테크놀로지스(Life Technologies)]가 보충된 DMEM에서 37℃ 하에 5% CO₂와 함께 배양되었다. OVCAR8-ADR 세포는 10% 열-불활성화된 FBS 및 1× 항생제-항진균제 (라이프 테크놀로지스)가 보충된 RPMI에서 37℃ 하에 5% CO₂와 함께 배양되었다.

렌티바이러스 생산 및 형질도입

렌티바이러스는 웰당 2.5 × 10⁵개 HEK293T 세포가 있는 6-웰 플레이트에서 생산되었다. 세포는 15분 동안 0.5 μg의 렌티바이러스 벡터, 1 μg의 pCMV-dR8.2-dvpr 벡터, 및 0.5 μg의 pCMV-VSV-G 벡터가 100 μl의 OptiMEM 배지 (라이프 테크놀로지스)에서 혼합된 FuGENE HD 형질감염 시약 [프로메가(Promega)]을 사용하여 형질감염시켰다. 형질감염 후 제1일에 배지를 신선한 배양 배지로 교체하였다. 이어서, 바이러스 상청액을 형질감염 후 48시간 내지 96시간에 24시간마다 수집하고, 함께 풀링하여 0.45 μm 폴리에테르술폰 막을 통해 여과하였다. 개별 벡터 구축물을 사용한 형질도입을 위해, 500 μl의 여과된 바이러스 상청액을 사용하여 8 μg/ml 폴리브렌 [시그마(Sigma)]의 존재 하에 2.5 × 10⁵개 세포를 밤새 감염시켰다. 풀링된 라이브러리를 사용하여 인간 세포 (즉, OVCAR8-ADR)로 형질도입하기 위해, 동일한 실험 조건을 사용하여 렌티바이러스 생산을 확대하였다. 대부분의 조합에 대해 충분한 표현을 함유하는 높은 커버리지 라이브러리를 보장하기 위해, 시험할 라이브러리 크기보다 ~300배 더 많은 세포를 함유하는 출발 세포 집단으로 감염을 수행하였다. 렌티바이러스를 ~0.3의 감염 다중도로 적정하여 8 μg/ml 폴리브렌의 존재 하에 ~30%의 감염 효율을 제공하여, SpCas9 변이체 라이브러리가 낮은 카피 수로 전달되도록 하였다.

세포 분류

세포 분류는 BD 유입 세포 분류기 [BD 바이오사이언시즈(BD Biosciences)]에서 수행되었다. 드롭 지연은 BD 아쿠드롭(Accudrop) 비드를 사용하여 결정되었다. 1.0 드롭 퓨어 분류 모드를 사용하여 100 μm 노즐을 통해 분류하기 전에 70 μm 나일론 메쉬 필터를 통해 세포를 여과하였다. 세포를 GFP-양성 신호에 대해 게이트하고 RFP의 형광 수준에 근거하여 3개의 빈 (즉, A, B 및 C)으로 분류하여 집단의 대략 5% 세포가 더 낮은 RFP 수준을 가진 세포를 포괄하는 각각의 빈으로 수집되도록 하였다. 각각의 빈으로 분류될 집단 내의 세포 백분율은 분류된 집단에서 개별 조합의 표현과 빈 간의 변이체의 강화를 검출하는 감도 간의 교환을 균형 맞추기 위해 조정될 수 있었다. 각각의 샘플에서 분류된 각각의 빈에 대해 약 20만개 - 30만개의 세포가 수집되었다.

바코드 시퀀싱을 위한 샘플 제조

조합 돌연변이체 벡터 라이브러리의 경우, 플라스미드 미니 키트 (퀴아젠)를 사용하여 벡터 라이브러리로 형질전환된 이. 콜라이로부터 플라스미드 DNA를 추출하였다. 조합 돌연변이체 라이브러리로 감염된 인간 세포 풀의 경우, DNeasy 블러드 & 티슈 키트(DNeasy Blood & Tissue Kit) (퀴아젠)를 사용하여 다양한 실험 조건으로부터 수집된 세포의 게놈 DNA를 추출하였다. DNA 농도는 퀀트-잇 피코그린(Quant-iT PicoGreen) dsDNA 검정 키트 (라이프 테크놀로지스)로 측정하였다. 카파 하이파이 핫스타트 레디 믹스 (카파 바이오시스템즈)를 사용하여, 개별 조합 돌연변이체를 나타내는 고유한 바코드, 일루미나 앵커 서열, 및 다중화된 시퀀싱을 위한 8-염기-쌍 인덱싱 바코드를 각각 함유하는 393-염기-쌍 단편의 PCR 증폭을 수행하였다. 사용된 정방향 및 역방향 프라이머는 하기와 같다: 5'-AATGATACGGCGACCACCGAGATCTACACGGAACCGCAACGGTATTC-3' 및 5'-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGGTTGCGTCAGCAAACACAG-3', 여기서 NNNNNNNN은 각각의 실험 샘플에 할당된 특이적 인덱싱 바코드를 나타낸다. 집단 분포를 왜곡할 수 있는 PCR의 편향을 피하기 위해, PCR 조건을 최적화하여 지수 증식기 동안 증폭이 발생하도록 하였다. PCR 앰플리콘은 스텝원플러스(StepOnePlus) 실시간 PCR 시스템 [어플라이드 바이오시스템즈(Applied Biosystems)]과 함께 카파 SYBR 신속 qPCR 마스터 혼합물 (카파 바이오시스템즈)을 사용한 실시간 PCR 정량화 전에 1:0.5 및 1:0.95 비의 아젠코트 앰퓨어(Agencourt AMPure) XP 비드 [베크만 쿨터 제노믹스(Beckman Coulter Genomics)]를 사용하여 2 라운드의 크기 선택으로 정제되었다. 정량적 PCR에 사용된 정방향 및 역방향 프라이머는 각각 5'-AATGATACGGCGACCACCGA-3' 및 5'-CAAGCAGAAGACGGCATACGA-3'이었다. 이어서, 정량화된 샘플을, 다중화를 위해 원하는 비율로 풀링하고, 애질런트(Agilent) 2100 바이오분석기 상에서 고감도 DNA 칩 (애질런트)을 사용하여 평가하며, 프라이머 (5'-CCACCGAGATCTACACGGAACCGCAACGGTATTC-3') 및 인덱싱 바코드 프라이머 (5'-GTGGCGTGGTGTGCACTGTGTTTGCTGACGCAACC-3')를 사용하여 일루미나 HiSeq에 대해 실행하였다.

바코드 시퀀싱 데이터 분석

각각의 조합 돌연변이체에 대한 바코드 리드는 시퀀싱 데이터로부터 처리되었다. 각각의 조합을 나타내는 바코드 리드는 인덱싱 바코드에 의해 분류된 각각의 샘플에 대해 백만개 리드당 정규화되었다. 프로파일링은 2개의 생물학적 복제물에서 수행되었다. 분류된 빈 A와 비분류된 집단 간의 각각의 조합 돌연변이체의 빈도를 측정하고, 나머지 집단에 대한 이들 간의 강화 비율 (E)을 계산하였다. 빈 A가 선택되었는데, 이는 이러한 빈에서 변이체의 강화가 가장 분명했기 때문이다 (도 2b). 사용된 방정식은 하기와 같다:

여기서 N_빈은 분류된 빈에 있는 조합 돌연변이체의 빈도를 나타내고 N_비분류됨은 비분류된 빈에 있는 조합 돌연변이체의 빈도를 나타낸다.

분류된 빈 A를 비분류된 집단에 대항하여 비교하는 복제물로부터 결정된 로그-변환된 평균 점수 (즉, log₂(E))를 표적 편집 활성의 측정 기준으로서 사용하였다. 데이터 신뢰도를 개선시키기 위해 비분류된 집단에서 300개 초과의 절대 리드를 제공하는 바코드만을 분석하였다. 풀링된 스크린으로부터 결정된 log₂(E) 점수와 개별 검증 데이터 간의 상관 관계 (도 9)는 풀링된 스크린에서 조합당 세포의 배수 표현을 증가시켜 실험 소음을 감소시킴으로써 개선될 수 있었다⁴³. 활성-최적화된 변이체 (즉, 본 연구에서 확인된 Opti-SpCas9)는 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 >90%이고, RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 <60%인 log₂(E) (빈 A 대 비분류된 집단에 대함)를 갖는 것으로서 정의되었다. OptiHF-SpCas9는 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 >50%의 강화 비율과 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 <90%의 강화 비율을 기반으로 충실도가 높은 변이체로서 확인되었다. 전체 목록이 표 2에 제시되어 있다.

상위성을 결정하기 위해, 본 발명자들은 이전에 단백질 적합성에 대해 기재한 것과 유사한 스코어링 시스템을 적용하였고^44,45, 도 4에서 각각의 조합에 대한 상위성 (ε) 점수를 계산하였다. ε 점수는 하기와 같이 결정되었다: 관찰된 적합성 - 예상 적합성, 여기서 조합 [X,Y]에 대한 예상 적합성은 가법 모델에 따라 (log₂(E_[X]) + log₂(E_[Y]))이다. 일반적으로, 예상보다 더 나은 적합성을 보인 조합은 양성 상위성으로서 정의된 반면, 예상보다 덜 적합한 조합은 음성 상위성으로서 정의되었다. 치명적이거나 거의 치명적인 조합 돌연변이체에 대한 log₂(E) 값은 비교를 위해 본 작업에서 8개의 돌연변이 (즉, R661A + Q695A + K848A + E923M + T924V + Q926A + K1003A + R1060A)를 갖는 SpCas9 변이체와 동일하게 설정되었고, 본 발명자들의 개별 검증 데이터는 표적 RFP 서열을 붕괴시키는데 있어서의 최소한의 활성을 확증하였다 (도 3b). 예상 적합성은 치명적이거나 거의 치명적인 조합 돌연변이체에 대한 log₂(E) 값으로 제한되어, 의미 없는 예측 적합성으로부터 비롯되는 거짓 상위성 값을 최소화하였다. 향후 작업에서는, 비교를 위해 치명적인 돌연변이체로서 풀링된 스크린에 SpCas9의 뉴클레아제 죽은 돌연변이체를 포함하는 것이 유익할 수 있다.

형광 단백질 붕괴 검정

형광 단백질 붕괴 검정은 SpCas9 및 gRNA 발현에 의해 야기된 형광 단백질 (즉, GFP 또는 RFP)의 표적 부위에서의 DNA 절단 및 indel-매개된 붕괴를 평가하기 위해 수행되었으며, 이는 세포 형광 손실을 초래하였다. 통합된 GFP 또는 RFP 리포터 유전자를 SpCas9 및 gRNA와 함께 정착시킨 세포를 세척하고 2% 열-불활성화된 FBS가 보충된 1× PBS로 재현탁하며, LSR 포르테사(Fortessa) 분석기 [벡톤 디킨슨(Becton Dickinson)]로 검정하였다. 세포는 전방 및 측면 산란에 게이트되었다. 각각의 데이터 세트에서 샘플당 적어도 1 × 10⁴개의 세포가 기록되었다.

이뮤노블롯 분석

세포를 프로테아제 억제제 [골드 바이오테크놀로지(Gold Biotechnology) #GB-108-2]로 보충된 2× RIPA 완충액에 용해시켰다. 배양 플레이트를 얼음 상에 스크래핑함으로써 용해물을 수집한 다음, 4℃에서 15분 동안 15,000 rpm으로 원심분리하였다. 상청액은 브래드포드(Bradford) 검정 [바이오래드(BioRad)]을 사용하여 정량화되었다. 단백질은 10% 폴리아크릴아미드 겔 (바이오-래드)에서 겔 전기영동하기 전에 5분 동안 99℃ 하에 변성되었다. 단백질은 4℃ 하에 2시간 동안 110 V에서 폴리비닐리덴 디플루오라이드 막으로 옮겼다. 사용된 1차 항체는 항-Cas9 (7A9-3A3) [1:2,000, 셀 시그널링(Cell Signaling) #14697] 및 항-베타 액틴 (1:10,000, 시그마 #A2228)이었다. 사용된 2차 항체는 HRP-연결된 항-마우스 IgG (1:20,000, 셀 시그널링 #7076)였다. 막은 웨스턴브라이트(WesternBright) ECL HRP 기질 [애드반스타(Advansta) #K-12045-D20]에 의해 전개되었다.

T7 엔도뉴클레아제 I 검정

T7 엔도뉴클레아제 I 검정을 수행하여 gRNA에 의해 표적화된 게놈 로커스에서의 DNA 미스매치 절단을 평가하였다. 퀵익스트랙트(QuickExtract) DNA 추출 용액 [에피센터(Epicentre)] 또는 DNeasy 블러드 & 티슈 키트 (퀴아젠)를 사용하여 세포 배양물로부터 게놈 DNA를 추출하였다. 표적화된 로커스를 정착시킨 앰플리콘을, 표 7에 열거된 프라이머 및 PCR 조건을 사용하여 PCR에 의해 생성한 다음, 아젠코트 앰퓨어 XP 비드 (베크만 쿨터 제노믹스)를 사용하여 정제하였다. 약 400 ng의 PCR 앰플리콘을 변성하고, 자기 어닐링하며, 37℃ 하에 ~40분 동안 4 단위의 T7 엔도뉴클레아제 I (뉴 잉글랜드 바이오랩스)와 함께 인큐베이션하였다. 반응 산물은 2% 아가로스 겔 전기영동을 사용하여 분리되었다. 정량화는 이미지J를 사용하여 측정된 상대 밴드 강도를 기반으로 하였다. Indel 백분율은 이전에 기재된 바와 같이⁴⁶, 공식 100 × (1 - (1 - (b + c)/(a + b + c))^1/2)에 의해 추정되었으며, 여기서 a는 절단되지 않은 PCR 산물의 통합된 강도이고, b 및 c는 각각의 절단 산물의 통합된 강도이다.

게놈 전반에서의 오프-타겟의 GUIDE-Seq 검출

게놈 전반에서의 오프-타겟은 GUIDE-Seq 방법을 사용하여 평가되었다⁴⁷. 각각의 GUIDE-Seq 샘플에 대해, SpCas9 변이체 및 gRNA로 감염된 150만개의 OVCAR8-ADR 세포를 제조업체의 프로토콜에 따라 100 μl 네온 팁 (써모피셔 사이언티픽)을 사용하여 1,000 pmol의 새로 어닐링된 GUIDE-seq 단부-보호된 dsODN으로 전기천공하였다. 사용된 dsODN 올리고 서열은 하기와 같다:

5'-P-G*T*TTAATTGAGTTGTCATATGTTAATAACGGT*A*T-3' 및

5'-P-A*T*ACCGTTATTAACATATGACAACTCAATTAA*A*C-3', 여기서 P는 5' 인산화를 나타내고 *는 포스포로티오에이트 연결을 나타낸다. 전기천공 72시간 후 DNeasy 블러드 & 티슈 키트 (퀴아젠)를 사용하여 게놈 DNA를 추출하였다. 게놈 DNA 농도는 큐비트 형광계 dsDNA HS 검정 (써모피셔 사이언티픽)에 의해 정량화되었으며, 약간의 변형이 있는 GUIDE-Seq 프로토콜에 따라 라이브러리 구축에 400 ng를 사용하였다. 간단히 말해서, DNA를 카파 프래그 키트 (카파 바이오시스템즈)에 의해 효소적으로 단편화한 다음, 어댑터 라이게이션 및 dsODN 통합 서열에 대한 2 라운드의 세미-네스티드 PCR 강화를 수행하였다. 다양한 일루미나 플랫폼 전체에 걸쳐 단일 인덱싱된 시퀀싱 워크플로우를 사용하여 이중 인덱싱된 데이터를 수득하기 위한 일루미나 시퀀싱 워크플로우를 통합하기 위해, 고유 분자 인덱스에 따라 리드 1의 헤드에 샘플 인덱스 (인덱스 2)을 배치하여 절반 기능적 어댑터를 재설계하였다 (표 8). 최종 시퀀싱 라이브러리는 일루미나에 대한 카파 라이브러리 정량화 키트로 정량화되고, 일루미나 NextSeq 500 시스템 상에서 시퀀싱되었다. 인덱스 1의 데이터 역다중화는 bcl2fq v2.19에 의해 수행되었으며, GUIDE-Seq 소프트웨어를 사용하여 분석을 위한 인덱스 2 역다중화 및 포맷팅을 위한 커스텀 스크립트가 이어졌다⁴⁸.

본 출원에 인용된 진뱅크 수탁 번호 또는 동등한 서열 식별 번호를 포함한 모든 특허, 특허 출원 및 다른 간행물은 모든 목적을 위해 그 전체 내용이 참조로 포함된다.

표 1

표 2

표 3

표 4

표 5

표 6

표 7

표 8

SEQUENCE LISTING <110> The University of Hong Kong <120> An Improved High-Throughput Combinatorial Genetic Modification System and Optimized Cas9 Enzyme Variants <130> FPCH19160168P <140> US 62/733,410 <141> 2019-09-16 <160> 13 <170> PatentIn version 3.3 <210> 1 <211> 1368 <212> PRT <213> Streptococcus pyogenes <400> 1 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 2 <211> 4647 <212> DNA <213> Streptococcus pyogenes <400> 2 atggccccaa agaagaagcg gaaggtcggt atccacggag tcccagcagc cgacaagaag 60 tacagcatcg gcctggacat cggcaccaac tctgtgggct gggccgtgat caccgacgag 120 tacaaggtgc ccagcaagaa attcaaggtg ctgggcaaca ccgaccggca cagcatcaag 180 aagaacctga tcggagccct gctgttcgac agcggcgaaa cagccgaggc cacccggctg 240 aagagaaccg ccagaagaag atacaccaga cggaagaacc ggatctgcta tctgcaagag 300 atcttcagca acgagatggc caaggtggac gacagcttct tccacagact ggaagagtcc 360 ttcctggtgg aagaggataa gaagcacgag cggcacccca tcttcggcaa catcgtggac 420 gaggtggcct accacgagaa gtaccccacc atctaccacc tgagaaagaa actggtggac 480 agcaccgaca aggccgacct gcggctgatc tatctggccc tggcccacat gatcaagttc 540 cggggccact tcctgatcga gggcgacctg aaccccgaca acagcgacgt ggacaagctg 600 ttcatccagc tggtgcagac ctacaaccag ctgttcgagg aaaaccccat caacgccagc 660 ggcgtggacg ccaaggccat cctgtctgcc agactgagca agagcagacg gctggaaaat 720 ctgatcgccc agctgcccgg cgagaagaag aatggcctgt tcggaaacct gattgccctg 780 agcctgggcc tgacccccaa cttcaagagc aacttcgacc tggccgagga tgccaaactg 840 cagctgagca aggacaccta cgacgacgac ctggacaacc tgctggccca gatcggcgac 900 cagtacgccg acctgtttct ggccgccaag aacctgtccg acgccatcct gctgagcgac 960 atcctgagag tgaacaccga gatcaccaag gcccccctga gcgcctctat gatcaagaga 1020 tacgacgagc accaccagga cctgaccctg ctgaaagctc tcgtgcggca gcagctgcct 1080 gagaagtaca aagagatttt cttcgaccag agcaagaacg gctacgccgg ctacattgac 1140 ggcggagcca gccaggaaga gttctacaag ttcatcaagc ccatcctgga aaagatggac 1200 ggcaccgagg aactgctcgt gaagctgaac agagaggacc tgctgcggaa gcagcggacc 1260 ttcgacaacg gcagcatccc ccaccagatc cacctgggag agctgcacgc cattctgcgg 1320 cggcaggaag atttttaccc attcctgaag gacaaccggg aaaagatcga gaagatcctg 1380 accttccgca tcccctacta cgtgggccct ctggccaggg gaaacagcag attcgcctgg 1440 atgaccagaa agagcgagga aaccatcacc ccctggaact tcgaggaagt ggtggacaag 1500 ggcgcttccg cccagagctt catcgagcgg atgaccaact tcgataagaa cctgcccaac 1560 gagaaggtgc tgcccaagca cagcctgctg tacgagtact tcaccgtgta taacgagctg 1620 accaaagtga aatacgtgac cgagggaatg agaaagcccg ccttcctgag cggcgagcag 1680 aaaaaggcca tcgtggacct gctgttcaag accaaccgga aagtgaccgt gaagcagctg 1740 aaagaggact acttcaagaa aatcgagtgc ttcgactccg tggaaatctc cggcgtggaa 1800 gatcggttca acgcctccct gggcacatac cacgatctgc tgaaaattat caaggacaag 1860 gacttcctgg acaatgagga aaacgaggac attctggaag atatcgtgct gaccctgaca 1920 ctgtttgagg acagagagat gatcgaggaa cggctgaaaa cctatgccca cctgttcgac 1980 gacaaagtga tgaagcagct gaagcggcgg agatacaccg gctggggcag gctgagccgg 2040 aagctgatca acggcatccg ggacaagcag tccggcaaga caatcctgga tttcctgaag 2100 tccgacggct tcgccaacag aaacttcatg cagctgatcc acgacgacag cctgaccttt 2160 aaagaggaca tccagaaagc ccaggtgtcc ggccagggcg atagcctgca cgagcacatt 2220 gccaatctgg ccggcagccc cgccattaag aagggcatcc tgcagacagt gaaggtggtg 2280 gacgagctcg tgaaagtgat gggccggcac aagcccgaga acatcgtgat cgaaatggcc 2340 agagagaacc agaccaccca gaagggacag aagaacagcc gcgagagaat gaagcggatc 2400 gaagagggca tcaaagagct gggcagccag atcctgaaag aacaccccgt ggaaaacacc 2460 cagctgcaga acgagaagct gtacctgtac tacctgcaga atgggcggga tatgtacgtg 2520 gaccaggaac tggacatcaa ccggctgtcc gactacgatg tggaccatat cgtgcctcag 2580 agctttctga aggacgactc catcgacaac aaggtgctga ccagaagcga caagaaccgg 2640 ggcaagagcg acaacgtgcc ctccgaagag gtcgtgaaga agatgaagaa ctactggcgg 2700 cagctgctga acgccaagct gattacccag agaaagttcg acaatctgac caaggccgag 2760 agaggcggcc tgagcgaact ggataaggcc ggcttcatca agagacagct ggtggaaacc 2820 cggcagatca caaagcacgt ggcacagatc ctggactccc ggatgaacac taagtacgac 2880 gagaatgaca agctgatccg ggaagtgaaa gtgatcaccc tgaagtccaa gctggtgtcc 2940 gatttccgga aggatttcca gttttacaaa gtgcgcgaga tcaacaacta ccaccacgcc 3000 cacgacgcct acctgaacgc cgtcgtggga accgccctga tcaaaaagta ccctaagctg 3060 gaaagcgagt tcgtgtacgg cgactacaag gtgtacgacg tgcggaagat gatcgccaag 3120 agcgagcagg aaatcggcaa ggctaccgcc aagtacttct tctacagcaa catcatgaac 3180 tttttcaaga ccgagattac cctggccaac ggcgagatcc ggaagcggcc tctgatcgag 3240 acaaacggcg aaaccgggga gatcgtgtgg gataagggcc gggattttgc caccgtgcgg 3300 aaagtgctga gcatgcccca agtgaatatc gtgaaaaaga ccgaggtgca gacaggcggc 3360 ttcagcaaag agtctatcct gcccaagagg aacagcgata agctgatcgc cagaaagaag 3420 gactgggacc ctaagaagta cggcggcttc gacagcccca ccgtggccta ttctgtgctg 3480 gtggtggcca aagtggaaaa gggcaagtcc aagaaactga agagtgtgaa agagctgctg 3540 gggatcacca tcatggaaag aagcagcttc gagaagaatc ccatcgactt tctggaagcc 3600 aagggctaca aagaagtgaa aaaggacctg atcatcaagc tgcctaagta ctccctgttc 3660 gagctggaaa acggccggaa gagaatgctg gcctctgccg gcgaactgca gaagggaaac 3720 gaactggccc tgccctccaa atatgtgaac ttcctgtacc tggccagcca ctatgagaag 3780 ctgaagggct cccccgagga taatgagcag aaacagctgt ttgtggaaca gcacaagcac 3840 tacctggacg agatcatcga gcagatcagc gagttctcca agagagtgat cctggccgac 3900 gctaatctgg acaaagtgct gtccgcctac aacaagcacc gggataagcc catcagagag 3960 caggccgaga atatcatcca cctgtttacc ctgaccaatc tgggagcccc tgccgccttc 4020 aagtactttg acaccaccat cgaccggaag aggtacacca gcaccaaaga ggtgctggac 4080 gccaccctga tccaccagag catcaccggc ctgtacgaga cacggatcga cctgtctcag 4140 ctgggaggcg acaagcgtcc tgctgctact aagaaagctg gtcaagctaa gaaaaagaaa 4200 gctagcggca gcggcgccac caacttcagc ctgctgaagc aggccggcga cgtggaggag 4260 aaccccggcc ccatggccaa gttgaccagt gccgttccgg tgctcaccgc gcgcgacgtc 4320 gccggagcgg tcgagttctg gaccgaccgg ctcgggttct cccgggactt cgtggaggac 4380 gacttcgccg gtgtggtccg ggacgacgtg accctgttca tcagcgcggt ccaggaccag 4440 gtggtgccgg acaacaccct ggcctgggtg tgggtgcgcg gcctggacga gctgtacgcc 4500 gagtggtcgg aggtcgtgtc cacgaacttc cgggacgcct ccgggccggc catgaccgag 4560 atcggcgagc agccgtgggg gcgggagttc gccctgcgcg acccggccgg caactgcgtg 4620 cacttcgtgg ccgaggagca ggactga 4647 <210> 3 <211> 1368 <212> PRT <213> Artificial Sequence <220> <223> base seqeuence SEQ ID NO:1, residue 1003 substituted with Histidine and residue 661 substituted with Alanine <400> 3 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Ala Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro His Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 4 <211> 1345 <212> PRT <213> Streptococcus mutans <400> 4 Met Lys Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Val Thr Asp Asp Tyr Lys Val Pro Ala Lys Lys Met 20 25 30 Lys Val Leu Gly Asn Thr Asp Lys Ser His Ile Lys Lys Asn Leu Leu 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Asn Thr Ala Glu Asp Arg Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Glu Glu Met Gly Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Asp Glu Ser Phe Leu Thr Asp Asp Asp Lys Asn 100 105 110 Phe Asp Ser His Pro Ile Phe Gly Asn Lys Ala Glu Glu Asp Ala Tyr 115 120 125 His Gln Lys Phe Pro Thr Ile Tyr His Leu Arg Lys His Leu Ala Asp 130 135 140 Ser Thr Glu Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Glu Leu Asn Ala 165 170 175 Glu Asn Thr Asp Val Gln Lys Leu Phe Ala Asp Phe Val Gly Val Tyr 180 185 190 Asp Arg Thr Phe Asp Asp Ser His Leu Ser Glu Ile Thr Val Asp Ala 195 200 205 Ser Ser Ile Leu Thr Glu Lys Ile Ser Lys Ser Arg Arg Leu Glu Lys 210 215 220 Leu Ile Asn Asn Tyr Pro Lys Glu Lys Lys Asn Thr Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Gln Pro Asn Phe Lys Thr Asn Phe 245 250 255 Lys Leu Ser Glu Asp Ala Lys Leu Gln Phe Ser Lys Asp Thr Tyr Glu 260 265 270 Glu Glu Leu Glu Val Leu Leu Ala Gln Ile Gly Asp Asn Tyr Ala Glu 275 280 285 Leu Phe Leu Ser Ala Lys Lys Leu Tyr Asp Ser Ile Leu Leu Ser Gly 290 295 300 Ile Leu Thr Val Thr Asp Val Ser Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Gln Arg Tyr Asn Glu His Gln Met Asp Leu Ala Gln Leu Lys 325 330 335 Gln Phe Ile Arg Gln Lys Leu Ser Asp Lys Tyr Asn Glu Val Phe Ser 340 345 350 Asp Val Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Asn 355 360 365 Gln Glu Ala Phe Tyr Lys Tyr Leu Lys Gly Leu Leu Asn Lys Ile Glu 370 375 380 Gly Ser Gly Tyr Phe Leu Asp Lys Ile Glu Arg Glu Asp Phe Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gln Glu Met Arg Ala Ile Ile Arg Arg Gln Ala Glu Phe Tyr Pro Phe 420 425 430 Leu Ala Asp Asn Gln Asp Arg Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Lys Ser Asp Phe Ala Trp 450 455 460 Leu Ser Arg Lys Ser Ala Asp Lys Ile Thr Pro Trp Asn Phe Asp Glu 465 470 475 480 Ile Val Asp Lys Glu Ser Ser Val Glu Ala Phe Ile Asn Arg Met Thr 485 490 495 Asn Tyr Asp Leu Tyr Leu Pro Asn Gln Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Lys Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Lys Thr Glu Gln Gly Lys Thr Ala Phe Phe Asp Ala Asn Met Lys 530 535 540 Gln Glu Ile Phe Asp Gly Val Phe Lys Val Tyr Arg Lys Val Thr Lys 545 550 555 560 Asp Lys Leu Met Asp Phe Leu Glu Lys Glu Phe Asp Glu Phe Arg Ile 565 570 575 Val Asp Leu Thr Gly Leu Asp Lys Glu Asn Lys Ala Phe Asn Ala Ser 580 585 590 Tyr Gly Thr Tyr His Asp Leu Arg Lys Ile Leu Asp Lys Asp Phe Leu 595 600 605 Asp Asn Ser Lys Asn Glu Lys Ile Leu Glu Asp Ile Val Leu Thr Leu 610 615 620 Thr Leu Phe Glu Asp Arg Glu Met Ile Arg Lys Arg Leu Lys Asn Tyr 625 630 635 640 Ser Asp Leu Leu Thr Lys Glu Gln Leu Lys Lys Leu Glu Arg Arg His 645 650 655 Tyr Thr Gly Trp Gly Arg Leu Ser Ala Glu Leu Ile His Gly Ile Arg 660 665 670 Asn Lys Glu Ser Arg Lys Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly 675 680 685 Asn Ser Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Ala Leu Ser 690 695 700 Phe Lys Glu Glu Ile Ala Lys Ala Gln Val Ile Gly Glu Thr Asp Asn 705 710 715 720 Leu Asn Gln Val Val Ser Asp Ile Ala Gly Ser Pro Ala Ile Lys Lys 725 730 735 Gly Ile Leu Gln Ser Leu Lys Ile Val Asp Glu Leu Val Lys Ile Met 740 745 750 Gly His Gln Pro Glu Asn Ile Val Val Glu Met Ala Arg Glu Asn Gln 755 760 765 Phe Thr Asn Gln Gly Arg Arg Asn Ser Gln Gln Arg Leu Lys Gly Leu 770 775 780 Thr Asp Ser Ile Lys Glu Phe Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Ser Gln Leu Gln Asn Asp Arg Leu Phe Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Thr Gly Glu Glu Leu Asp Ile Asp Tyr 820 825 830 Leu Ser Gln Tyr Asp Ile Asp His Ile Ile Pro Gln Ala Phe Ile Lys 835 840 845 Asp Asn Ser Ile Asp Asn Arg Val Leu Thr Ser Ser Lys Glu Asn Arg 850 855 860 Gly Lys Ser Asp Asp Val Pro Ser Lys Asp Val Val Arg Lys Met Lys 865 870 875 880 Ser Tyr Trp Ser Lys Leu Leu Ser Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Gly Glu Arg Gly Gly Leu Thr Asp Asp Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Arg Ile Leu Asp Glu Arg Phe Asn Thr Glu Thr Asp 930 935 940 Glu Asn Asn Lys Lys Ile Arg Gln Val Lys Ile Val Thr Leu Lys Ser 945 950 955 960 Asn Leu Val Ser Asn Phe Arg Lys Glu Phe Glu Leu Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asp Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Ile Gly Lys Ala Leu Leu Gly Val Tyr Pro Gln Leu Glu Pro Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Pro His Phe His Gly His Lys Glu Asn Lys 1010 1015 1020 Ala Thr Ala Lys Lys Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe 1025 1030 1035 Lys Lys Asp Asp Val Arg Thr Asp Lys Asn Gly Glu Ile Ile Trp 1040 1045 1050 Lys Lys Asp Glu Tyr Ile Ser Asn Ile Lys Lys Val Leu Ser Tyr 1055 1060 1065 Pro Gln Val Asn Ile Val Lys Lys Val Glu Glu Gln Thr Gly Gly 1070 1075 1080 Phe Ser Lys Glu Ser Ile Leu Pro Lys Gly Asp Ser Asp Lys Leu 1085 1090 1095 Ile Pro Arg Lys Thr Lys Lys Phe Tyr Trp Asp Thr Lys Lys Tyr 1100 1105 1110 Gly Gly Phe Asp Ser Pro Ile Val Ala Tyr Ser Ile Leu Val Ile 1115 1120 1125 Ala Asp Ile Glu Lys Gly Lys Ser Lys Lys Leu Lys Thr Val Lys 1130 1135 1140 Ala Leu Val Gly Val Thr Ile Met Glu Lys Met Thr Phe Glu Arg 1145 1150 1155 Asp Pro Val Ala Phe Leu Glu Arg Lys Gly Tyr Arg Asn Val Gln 1160 1165 1170 Glu Glu Asn Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Lys Leu 1175 1180 1185 Glu Asn Gly Arg Lys Arg Leu Leu Ala Ser Ala Arg Glu Leu Gln 1190 1195 1200 Lys Gly Asn Glu Ile Val Leu Pro Asn His Leu Gly Thr Leu Leu 1205 1210 1215 Tyr His Ala Lys Asn Ile His Lys Val Asp Glu Pro Lys His Leu 1220 1225 1230 Asp Tyr Val Asp Lys His Lys Asp Glu Phe Lys Glu Leu Leu Asp 1235 1240 1245 Val Val Ser Asn Phe Ser Lys Lys Tyr Thr Leu Ala Glu Gly Asn 1250 1255 1260 Leu Glu Lys Ile Lys Glu Leu Tyr Ala Gln Asn Asn Gly Glu Asp 1265 1270 1275 Leu Lys Glu Leu Ala Ser Ser Phe Ile Asn Leu Leu Thr Phe Thr 1280 1285 1290 Ala Ile Gly Ala Pro Ala Thr Phe Lys Phe Phe Asp Lys Asn Ile 1295 1300 1305 Asp Arg Lys Arg Tyr Thr Ser Thr Thr Glu Ile Leu Asn Ala Thr 1310 1315 1320 Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp 1325 1330 1335 Leu Ser Lys Leu Gly Gly Asp 1340 1345 <210> 5 <211> 1371 <212> PRT <213> Streptococcus dysgalactiae <400> 5 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Arg 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Ser Glu Met Ser Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Ala Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Met Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Arg Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Arg Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Ser Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Ala Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Lys Glu Met Ile Glu Glu Arg Leu Lys Lys Tyr Ala 625 630 635 640 Asn Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg His Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Ala Ile Gln Lys Ala Gln Val Ser Gly Gln Gly His Ser Leu 705 710 715 720 His Glu Gln Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Ser Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr 755 760 765 Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu 770 775 780 Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val 785 790 795 800 Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln 805 810 815 Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu 820 825 830 Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Ile Lys Asp 835 840 845 Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly 850 855 860 Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn 865 870 875 880 Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe 885 890 895 Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys 900 905 910 Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys 915 920 925 His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu 930 935 940 Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys 945 950 955 960 Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu 965 970 975 Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val 980 985 990 Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val 995 1000 1005 Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys 1010 1015 1020 Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Arg Phe Phe Tyr 1025 1030 1035 Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn 1040 1045 1050 Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Glu Glu Thr 1055 1060 1065 Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg 1070 1075 1080 Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu 1085 1090 1095 Val Gln Thr Gly Ala Leu Thr Asn Glu Ser Ile Tyr Ala Arg Gly 1100 1105 1110 Ser Phe Asp Lys Leu Ile Ser Arg Lys His Arg Phe Glu Ser Ser 1115 1120 1125 Lys Tyr Gly Gly Phe Gly Ser Pro Thr Val Thr Tyr Ser Val Leu 1130 1135 1140 Val Val Ala Lys Ser Lys Val Gln Asp Gly Lys Val Lys Lys Ile 1145 1150 1155 Lys Thr Gly Lys Glu Leu Ile Gly Ile Thr Leu Leu Asp Lys Leu 1160 1165 1170 Val Phe Glu Lys Asn Pro Leu Lys Phe Ile Glu Asp Lys Gly Tyr 1175 1180 1185 Gly Asn Val Gln Ile Asp Lys Cys Ile Lys Leu Pro Lys Tyr Ser 1190 1195 1200 Leu Phe Glu Phe Glu Asn Gly Thr Arg Arg Met Leu Ala Ser Val 1205 1210 1215 Met Ala Asn Asn Asn Ser Arg Gly Asp Leu Gln Lys Ala Asn Glu 1220 1225 1230 Met Phe Leu Pro Ala Lys Leu Val Thr Leu Leu Tyr His Ala His 1235 1240 1245 Lys Ile Glu Ser Ser Lys Glu Leu Glu His Glu Ala Tyr Ile Leu 1250 1255 1260 Asp His Tyr Asn Asp Leu Tyr Gln Leu Leu Ser Tyr Ile Glu Arg 1265 1270 1275 Phe Ala Ser Leu Tyr Val Asp Val Glu Lys Asn Ile Ser Lys Val 1280 1285 1290 Lys Glu Leu Phe Ser Asn Ile Glu Ser Tyr Ser Ile Ser Glu Ile 1295 1300 1305 Cys Ser Ser Val Ile Asn Leu Leu Thr Leu Thr Ala Ser Gly Ala 1310 1315 1320 Pro Ala Asp Phe Lys Phe Leu Gly Thr Thr Ile Pro Arg Lys Arg 1325 1330 1335 Tyr Gly Ser Pro Gln Ser Ile Leu Ser Ser Thr Leu Ile His Gln 1340 1345 1350 Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu 1355 1360 1365 Gly Gly Asp 1370 <210> 6 <211> 1348 <212> PRT <213> Streptococcus equi <400> 6 Met Lys Lys Pro Tyr Thr Ile Ala Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Val Val Val Thr Asp Asp Tyr Arg Val Pro Thr Lys Lys Met 20 25 30 Lys Val Leu Gly Asn Thr Glu Arg Lys Thr Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Asp Thr Ala Glu Gly Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Pro Arg Tyr Thr Arg Arg Lys Asn Arg Leu Arg 65 70 75 80 Phe Leu Lys Glu Ile Phe Thr Glu Glu Met Ala Lys Val Asp Asp Gly 85 90 95 Phe Phe Gln Arg Leu Glu Asp Ser Phe Tyr Val Leu Glu Asp Lys Glu 100 105 110 Gly Asn Lys His Pro Ile Phe Ala Asn Leu Ala Asp Glu Val Ala Tyr 115 120 125 His Lys Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Glu Leu Val Asp 130 135 140 Asn Pro Gln Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Val Ala His 145 150 155 160 Ile Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Thr Leu Ser Ser 165 170 175 Lys Asn Asn Asn Leu Gln Lys Ser Phe Asp His Leu Val Asp Thr Tyr 180 185 190 Asn Leu Leu Phe Glu Glu Gln Arg Leu Leu Thr Glu Gly Ile Asn Ala 195 200 205 Lys Glu Leu Leu Ser Ala Ala Leu Ser Lys Ser Lys Arg Leu Glu Asn 210 215 220 Leu Ile Ser Leu Ile Pro Gly Gln Lys Lys Thr Gly Ile Phe Gly Asn 225 230 235 240 Ile Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ala Asn Phe 245 250 255 Gly Leu Ser Lys Asp Val Lys Leu Gln Leu Ala Lys Asp Thr Tyr Ala 260 265 270 Asp Asp Leu Asp Ser Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Thr Glu Ser Asp Glu Ile Thr Arg Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Val Lys Arg Tyr Arg Glu His His Lys Asp Leu Val Thr Leu Lys 325 330 335 Thr Leu Ile Lys Asp Gln Leu Pro Glu Lys Tyr Gln Glu Ile Phe Leu 340 345 350 Asp Lys Thr Lys Asn Gly Tyr Ala Gly Tyr Ile Glu Gly Gln Val Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Tyr Leu Lys Pro Ile Leu Ala Arg Leu Asp 370 375 380 Gly Ser Glu Pro Leu Leu Leu Lys Ile Asp Arg Glu Asp Phe Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Glu Glu Leu His Ala Ile Leu Arg Arg Gln Glu Val Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Lys Lys Ile Glu Ser Leu Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly His Ser Arg Phe Ala Trp 450 455 460 Val Lys Arg Lys Phe Asp Gly Ala Ile Arg Pro Trp Asn Phe Glu Glu 465 470 475 480 Ile Val Asp Glu Glu Ala Ser Ala Gln Ile Phe Ile Glu Lys Met Thr 485 490 495 Lys Asn Asp Leu Tyr Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Thr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Ala Thr Glu Gly Met Thr Arg Pro Gln Phe Leu Ser Ala Asp Gln 530 535 540 Lys Gln Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asn Tyr Phe Lys Lys Ile Glu Cys Trp Asp 565 570 575 Ser Val Glu Ile Thr Gly Val Glu Asp Ser Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Gln Asp Lys Asp Phe Leu Asp 595 600 605 Asn Pro Asp Asn Gln Lys Ile Ile Glu Asp Ile Ile Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Lys Lys Met Ile Ser Lys Arg Leu Asp Gln Tyr Ala 625 630 635 640 His Leu Phe Asp Lys Val Val Leu Asn Lys Leu Glu Arg His His Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Gly Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ala Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Ser Glu Leu Ser Phe 690 695 700 Ile Asp Glu Ile Ala Lys Ala Gln Val Ile Gly Lys Thr Glu Tyr Ser 705 710 715 720 Lys Asp Leu Val Gly Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Ser Gln Thr Ile Lys Ile Val Asp Glu Leu Val Lys Ile Met Gly 740 745 750 Tyr Leu Pro Gln Gln Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr 755 760 765 Thr Ala Gln Gly Ile Lys Asn Ala Arg Gln Arg Met Arg Lys Leu Glu 770 775 780 Glu Thr Ala Lys Lys Leu Gly Ser Asn Ile Leu Lys Glu His Pro Val 785 790 795 800 Asp Asn Ser Gln Leu Gln Asn Asp Lys Arg Tyr Leu Tyr Tyr Leu Gln 805 810 815 Asn Gly Lys Asp Met Tyr Thr Gly Asp Asp Leu Asp Ile Asp Tyr Leu 820 825 830 Ser Ser Tyr Asp Ile Asp His Ile Ile Pro Gln Ser Phe Ile Lys Asn 835 840 845 Asn Ser Ile Asp Asn Lys Val Leu Thr Ser Gln Gly Ala Asn Arg Gly 850 855 860 Lys Leu Asp Asn Val Pro Ser Glu Ala Ile Val Arg Lys Met Lys Gly 865 870 875 880 Tyr Trp Gln Ser Leu Leu Arg Ala Gly Ala Ile Ser Lys Gln Lys Phe 885 890 895 Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Thr Gln Val Asp Lys 900 905 910 Ala Gly Phe Ile Gln Leu Gln Leu Val Glu Thr Arg Gln Ile Thr Lys 915 920 925 His Val Ala Gln Ile Leu Asp Ser Arg Phe Asn Thr Glu Phe Asp Asp 930 935 940 His Asn Lys Arg Ile Arg Lys Val His Ile Ile Thr Leu Lys Ser Lys 945 950 955 960 Leu Val Ser Asp Phe Arg Lys Glu Phe Gly Leu Tyr Lys Ile Arg Asp 965 970 975 Ile Asn His Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val 980 985 990 Ala Lys Ala Ile Leu Gly Lys Tyr Pro Gln Leu Ala Pro Glu Phe Val 995 1000 1005 Tyr Gly Asp Tyr Pro Lys Tyr Asn Ser Phe Lys Glu Arg Gln Lys 1010 1015 1020 Ala Thr Gln Lys Thr Leu Phe Tyr Ser Asn Ile Leu Lys Phe Phe 1025 1030 1035 Lys Asp Gln Glu Ser Leu His Val Asn Ser Asp Gly Glu Glu Ile 1040 1045 1050 Trp Asn Ala Asn Lys His Leu Pro Ile Ile Lys Asn Val Leu Ser 1055 1060 1065 Ile Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly 1070 1075 1080 Gly Phe Tyr Lys Glu Ser Ile Leu Ser Lys Gly Asn Ser Asp Lys 1085 1090 1095 Leu Ile Pro Arg Lys Asn Asn Trp Asp Thr Arg Lys Tyr Gly Gly 1100 1105 1110 Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Ile Ala Lys 1115 1120 1125 Met Glu Lys Gly Lys Ala Lys Val Leu Lys Pro Val Lys Glu Met 1130 1135 1140 Val Gly Ile Thr Ile Met Glu Arg Ile Ala Phe Glu Glu Asn Pro 1145 1150 1155 Val Val Phe Leu Glu Ala Lys Gly Tyr Arg Glu Ile Gln Glu His 1160 1165 1170 Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn 1175 1180 1185 Gly Arg Arg Arg Leu Leu Ala Ser Ala Ser Glu Leu Gln Lys Gly 1190 1195 1200 Asn Glu Leu Phe Leu Pro Val Asp Tyr Met Thr Phe Leu Tyr Leu 1205 1210 1215 Ala Ala His Tyr His Glu Leu Thr Gly Ser Ser Glu Asp Val Leu 1220 1225 1230 Arg Lys Lys Tyr Phe Val Glu Arg His Leu His Tyr Phe Asp Asp 1235 1240 1245 Ile Ile Gln Met Ile Asn Asp Phe Ala Glu Arg His Ile Leu Ala 1250 1255 1260 Ser Ser Asn Leu Glu Lys Ile Asn His Thr Tyr His Asn Asn Ser 1265 1270 1275 Asp Leu Pro Val Asn Glu Arg Ala Glu Asn Ile Ile Asn Val Phe 1280 1285 1290 Thr Phe Val Ala Leu Gly Ala Pro Ala Ala Phe Lys Phe Phe Asp 1295 1300 1305 Ala Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu 1310 1315 1320 Asn Ala Thr Leu Ile His Gln Ser Val Thr Gly Leu Tyr Glu Thr 1325 1330 1335 Arg Ile Asp Leu Ser Gln Leu Gly Glu Asn 1340 1345 <210> 7 <211> 1376 <212> PRT <213> Streptococcus oralis <400> 7 Met Asn Asn Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser 1 5 10 15 Val Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys 20 25 30 Met Lys Val Leu Gly Asn Thr Asp Lys His Phe Ile Lys Lys Asn Leu 35 40 45 Leu Gly Ala Leu Leu Phe Asp Glu Gly Thr Thr Ala Glu Asp Arg Arg 50 55 60 Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Leu 65 70 75 80 Arg Tyr Leu Gln Glu Ile Phe Thr Glu Glu Met Ser Lys Val Asp Ser 85 90 95 Asn Phe Phe His Arg Leu Asp Asp Ser Phe Leu Val Pro Glu Asp Lys 100 105 110 Arg Gly Ser Lys Tyr Pro Ile Phe Ala Thr Leu Glu Glu Glu Lys Glu 115 120 125 Tyr His Lys Asn Phe Pro Thr Ile Tyr His Leu Arg Lys His Leu Ala 130 135 140 Asp Ser Lys Glu Lys Ala Asp Phe Arg Leu Ile Tyr Leu Ala Leu Ala 145 150 155 160 His Met Ile Lys Tyr Arg Gly His Phe Leu Tyr Glu Glu Ser Phe Asp 165 170 175 Ile Lys Asn Asn Asp Ile Gln Lys Ile Phe Asn Glu Phe Ile Ser Ile 180 185 190 Tyr Asp Asn Thr Phe Glu Gly Ser Ser Leu Asn Gly Gln Asn Ala Gln 195 200 205 Val Glu Ala Ile Phe Thr Asp Lys Ile Ser Lys Ser Ala Lys Arg Glu 210 215 220 Arg Val Leu Lys Leu Phe Pro Asp Glu Lys Ser Thr Gly Leu Phe Ser 225 230 235 240 Glu Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Lys Lys His 245 250 255 Phe Asp Leu Glu Glu Lys Ala Pro Leu Gln Phe Ser Lys Asp Thr Tyr 260 265 270 Asp Glu Asp Leu Glu Asn Leu Leu Gly Gln Ile Gly Asp Asp Phe Ala 275 280 285 Asp Leu Phe Leu Val Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser 290 295 300 Gly Ile Leu Thr Val Thr Asp Pro Ser Thr Lys Ala Pro Leu Ser Ala 305 310 315 320 Ser Met Ile Glu Arg Tyr Glu Asn His Gln Lys Asp Leu Ala Thr Leu 325 330 335 Lys Gln Phe Ile Lys Asn Asn Leu Pro Glu Lys Tyr Asp Glu Val Phe 340 345 350 Ser Asp Gln Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr 355 360 365 Thr Gln Glu Ala Phe Tyr Lys Tyr Ile Lys Asn Leu Leu Ser Lys Leu 370 375 380 Glu Gly Ala Asp Tyr Phe Leu Asp Lys Ile Glu Arg Glu Asp Phe Leu 385 390 395 400 Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His 405 410 415 Leu Gln Glu Met Asn Ala Ile Ile Arg Arg Gln Gly Glu His Tyr Pro 420 425 430 Phe Leu Gln Glu Asn Lys Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg 435 440 445 Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Arg Asp Phe Ala 450 455 460 Trp Leu Thr Arg Asn Ser Asp Gln Ala Ile Arg Pro Trp Asn Phe Glu 465 470 475 480 Glu Val Val Asp Lys Ala Arg Ser Ala Glu Asp Phe Ile Asn Lys Met 485 490 495 Thr Asn Tyr Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His 500 505 510 Ser Leu Leu Tyr Glu Thr Phe Ala Val Tyr Asn Glu Leu Thr Lys Val 515 520 525 Lys Phe Ile Ala Glu Gly Leu Arg Asp Tyr Gln Phe Leu Asp Ser Gly 530 535 540 Gln Lys Lys Gln Ile Val Thr Gln Leu Phe Lys Glu Lys Arg Lys Val 545 550 555 560 Thr Glu Lys Asp Ile Ile Gln Tyr Leu His Thr Val Asp Gly Tyr Asp 565 570 575 Gly Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ala Ser Leu Ser 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Glu Phe Met Asp 595 600 605 Asp Ser Lys Asn Glu Ala Ile Leu Glu Asn Ile Val His Thr Leu Thr 610 615 620 Ile Phe Glu Asp Arg Glu Met Ile Arg Gln His Leu Thr Gln Tyr Ala 625 630 635 640 Ser Ile Phe Asp Glu Lys Val Ile Lys Ala Leu Thr Arg Arg His Tyr 645 650 655 Thr Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Cys Asp 660 665 670 Lys Gln Thr Gly Asp Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Glu 675 680 685 Ile Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Gly Leu Ser Phe 690 695 700 Lys Glu Ile Ile Gln Lys Ala Gln Val Val Gly Lys Thr Asp Asp Val 705 710 715 720 Lys Gln Val Val Gln Glu Leu Pro Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 His Glu Pro Glu Ser Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr 755 760 765 Thr Ala Arg Gly Lys Lys Asn Ser Gln Gln Arg Tyr Lys Arg Ile Glu 770 775 780 Asp Ala Leu Lys Asn Leu Ala Pro Glu Leu Asp Ser Asn Ile Leu Lys 785 790 795 800 Glu His Pro Thr Asp Asn Ile Gln Leu Gln Asn Asp Arg Leu Phe Leu 805 810 815 Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly Glu Ala Leu Asp 820 825 830 Ile Asn Gln Leu Ser Ser Cys Asp Ile Asp His Ile Ile Pro Gln Ala 835 840 845 Phe Ile Lys Asp Asp Ser Leu Asp Asn Arg Val Leu Thr Ser Ser Lys 850 855 860 Asp Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Leu Glu Ile Val Gln 865 870 875 880 Lys Arg Lys Ala Phe Trp Gln Gln Leu Leu Asp Ser Lys Leu Ile Ser 885 890 895 Glu Arg Lys Phe Asn Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Asp 900 905 910 Glu Arg Asp Lys Val Gly Phe Ile Arg Arg Gln Leu Val Glu Thr Arg 915 920 925 Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ala Arg Phe Asn Thr 930 935 940 Glu Val Thr Glu Lys Asp Lys Lys Asp Arg Ser Val Lys Ile Ile Thr 945 950 955 960 Leu Lys Ser Asn Leu Val Ser Asn Phe Arg Lys Glu Phe Arg Leu Tyr 965 970 975 Lys Val Arg Glu Ile Asn Asp Tyr His His Ala His Asp Ala Tyr Leu 980 985 990 Asn Ala Val Val Ala Lys Ala Ile Leu Lys Lys Tyr Pro Lys Leu Glu 995 1000 1005 Pro Glu Phe Val Tyr Gly Asp Tyr Gln Lys Tyr Asp Leu Lys Arg 1010 1015 1020 Tyr Ile Ser Arg Thr Lys Asp Pro Lys Glu Val Glu Lys Ala Thr 1025 1030 1035 Glu Lys Tyr Phe Phe Tyr Ser Asn Leu Leu Asn Phe Phe Lys Glu 1040 1045 1050 Glu Val His Tyr Ala Asp Gly Thr Ile Val Lys Arg Glu Asn Ile 1055 1060 1065 Glu Tyr Ser Lys Asp Thr Gly Glu Ile Ala Trp Asn Lys Glu Lys 1070 1075 1080 Asp Phe Ala Thr Ile Lys Lys Val Leu Ser Leu Pro Gln Val Asn 1085 1090 1095 Ile Val Lys Lys Thr Glu Glu Gln Thr Val Gly Gln Asn Gly Gly 1100 1105 1110 Leu Phe Asp Asn Asn Ile Val Ser Lys Lys Lys Val Val Asp Ala 1115 1120 1125 Ser Lys Leu Thr Pro Ile Lys Ser Gly Leu Ser Pro Glu Lys Tyr 1130 1135 1140 Gly Gly Tyr Ala Arg Pro Thr Ile Ala Tyr Ser Val Leu Val Ile 1145 1150 1155 Ala Asp Ile Glu Lys Gly Lys Ala Lys Lys Leu Lys Arg Ile Lys 1160 1165 1170 Glu Met Val Gly Ile Thr Val Gln Asp Lys Lys Lys Phe Glu Ala 1175 1180 1185 Asn Pro Ile Ala Tyr Leu Glu Glu Cys Gly Tyr Lys Asn Ile Asn 1190 1195 1200 Pro Asn Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Phe 1205 1210 1215 Asn Asn Gly Gln Arg Arg Leu Leu Ala Ser Ser Ile Glu Leu Gln 1220 1225 1230 Lys Gly Asn Glu Leu Ile Val Pro Tyr His Phe Thr Ala Leu Leu 1235 1240 1245 Tyr His Ala Gln Arg Ile Asn Lys Ile Ser Glu Pro Ile His Lys 1250 1255 1260 Gln Tyr Val Glu Thr His Gln Ser Glu Phe Lys Glu Leu Leu Thr 1265 1270 1275 Ala Ile Ile Ser Leu Ser Lys Lys Tyr Ile Gln Lys Pro Asn Val 1280 1285 1290 Glu Ser Leu Leu Gln Gln Ala Phe Asp Gln Ser Asp Lys Asp Ile 1295 1300 1305 Tyr Gln Leu Ser Glu Ser Phe Ile Ser Leu Leu Lys Leu Ile Ser 1310 1315 1320 Phe Gly Ala Pro Gly Thr Phe Lys Phe Leu Gly Val Glu Ile Ser 1325 1330 1335 Gln Ser Asn Val Arg Tyr Gln Ser Val Ser Ser Cys Phe Asn Ala 1340 1345 1350 Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile 1355 1360 1365 Asp Leu Ser Lys Leu Gly Glu Asp 1370 1375 <210> 8 <211> 1392 <212> PRT <213> Streptococcus mitis <400> 8 Met Asn Asn Asn Asn Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser 1 5 10 15 Val Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys 20 25 30 Met Lys Val Leu Gly Asn Thr Asp Lys His Phe Ile Lys Lys Asn Leu 35 40 45 Ile Gly Ala Leu Leu Phe Asp Glu Gly Thr Thr Ala Glu Asp Arg Arg 50 55 60 Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Leu 65 70 75 80 Arg Tyr Leu Gln Glu Ile Phe Ser Pro Glu Ile Ser Lys Val Asp Ser 85 90 95 Ser Phe Phe His Arg Leu Asp Asp Ser Phe Leu Val Pro Glu Asp Lys 100 105 110 Arg Gly Ser Lys Tyr Pro Ile Phe Ala Thr Leu Ala Glu Glu Lys Glu 115 120 125 Tyr His Lys Asn Phe Pro Thr Ile Tyr His Leu Arg Lys Gln Leu Ala 130 135 140 Asp Ser Lys Glu Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala 145 150 155 160 His Met Ile Lys Tyr Arg Gly His Phe Leu Tyr Glu Glu Ser Phe Asp 165 170 175 Ile Lys Asn Asn Asp Ile Gln Lys Ile Phe Asn Glu Phe Ile Ser Ile 180 185 190 Tyr Asp Asn Thr Phe Glu Gly Ser Ser Leu Ser Gly Gln Asn Ala Gln 195 200 205 Val Glu Ala Ile Phe Thr Asp Lys Ile Ser Lys Ser Ala Lys Arg Glu 210 215 220 Arg Val Leu Lys Leu Phe Pro Asp Glu Lys Ser Thr Gly Leu Phe Ser 225 230 235 240 Glu Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Glu Phe Lys Lys His 245 250 255 Phe Asp Leu Glu Glu Lys Ala Pro Leu Gln Phe Ser Lys Asp Thr Tyr 260 265 270 Asp Asp Asp Leu Glu Asn Leu Leu Gly Gln Ile Gly Asp Gly Phe Ala 275 280 285 Glu Leu Phe Val Ala Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser 290 295 300 Gly Ile Leu Thr Val Thr Asp Pro Ser Thr Lys Ala Pro Leu Ser Ala 305 310 315 320 Ser Met Ile Glu Arg Tyr Glu Asn His Gln Lys Asp Leu Ala Ala Leu 325 330 335 Lys Gln Phe Ile Gln Asn Asn Leu Gln Glu Lys Tyr Asp Glu Val Phe 340 345 350 Ser Asp Gln Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asn Gly Lys Thr 355 360 365 Thr Gln Glu Ala Phe Tyr Lys Tyr Ile Lys Asn Leu Leu Ser Lys Phe 370 375 380 Glu Gly Ser Asp Tyr Phe Leu Asp Lys Ile Glu Arg Glu Asp Phe Leu 385 390 395 400 Lys Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His 405 410 415 Leu Gln Glu Met Asn Ala Ile Ile Arg Arg Gln Gly Glu His Tyr Pro 420 425 430 Phe Leu Gln Glu Asn Lys Glu Lys Ile Lys Lys Ile Leu Thr Phe Arg 435 440 445 Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Gly Asp Phe Ala 450 455 460 Trp Leu Thr Arg Asn Ser Asp Gln Ala Ile Arg Pro Trp Asn Phe Glu 465 470 475 480 Glu Ile Val Asp Gln Ala Ser Ser Ala Glu Asp Phe Ile Asn Lys Met 485 490 495 Thr Asn Tyr Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His 500 505 510 Ser Leu Leu Tyr Glu Thr Phe Ala Val Tyr Asn Glu Leu Thr Lys Val 515 520 525 Lys Phe Ile Ala Glu Gly Leu Arg Asp Tyr Gln Phe Leu Asp Ser Gly 530 535 540 Gln Lys Lys Gln Ile Val Asn Gln Leu Phe Lys Glu Lys Arg Lys Val 545 550 555 560 Thr Glu Lys Asp Ile Thr Gln Tyr Leu His Asn Val Asp Gly Tyr Asp 565 570 575 Gly Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ala Ser Leu Ser 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Ala Phe Met Asp 595 600 605 Asp Ala Glu Asn Glu Ala Thr Leu Glu Asn Ile Ile His Thr Leu Thr 610 615 620 Ile Phe Glu Asp Arg Glu Met Ile Lys Gln Arg Leu Ala Gln Tyr Asp 625 630 635 640 Ser Leu Phe Asp Glu Lys Val Ile Lys Ala Leu Ile Arg Arg His Tyr 645 650 655 Thr Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Cys Asp 660 665 670 Lys Lys Thr Gly Lys Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Tyr 675 680 685 Ser Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Gly Leu Ser Phe 690 695 700 Lys Asp Ile Ile Gln Lys Ala Gln Val Val Gly Arg Thr Asn Asp Val 705 710 715 720 Lys Gln Ile Val His Glu Leu Pro Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Ile Met Gly 740 745 750 His Thr Pro Glu Ser Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr 755 760 765 Thr Ala Arg Gly Lys Lys Asn Ser Gln Gln Arg Tyr Lys Arg Ile Glu 770 775 780 Asp Ala Leu Lys Asn Leu Ala Pro Gly Leu Asp Ser Asn Ile Leu Lys 785 790 795 800 Glu Tyr Pro Thr Asp Asn Ile Gln Leu Gln Asn Asp Arg Leu Phe Leu 805 810 815 Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly Glu Pro Leu Asp 820 825 830 Ile Asn Gln Leu Ser Ser Tyr Asp Ile Asp His Ile Val Pro Gln Ala 835 840 845 Phe Ile Lys Asp Asp Ser Leu Asp Asn Arg Val Leu Thr Ser Ser Lys 850 855 860 Asp Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Leu Glu Val Val Gln 865 870 875 880 Lys Arg Lys Ala Phe Trp Gln Gln Leu Leu Asp Ser Lys Leu Ile Ser 885 890 895 Glu Arg Lys Phe Asn Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Asp 900 905 910 Glu Arg Asp Lys Val Gly Phe Ile Arg Arg Gln Leu Val Glu Thr Arg 915 920 925 Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ala Arg Phe Asn Thr 930 935 940 Glu Val Thr Glu Lys Asp Lys Lys Asn Arg Asn Val Lys Ile Ile Thr 945 950 955 960 Leu Lys Ser Asn Leu Val Ser Asn Phe Arg Lys Glu Phe Lys Leu Tyr 965 970 975 Lys Val Arg Glu Ile Asn Asp Tyr His His Ala His Asp Ala Tyr Leu 980 985 990 Asn Ala Val Val Ala Lys Ala Ile Leu Lys Lys Tyr Pro Lys Leu Glu 995 1000 1005 Pro Glu Phe Val Tyr Gly Asp Tyr Gln Lys Tyr Asp Leu Lys Arg 1010 1015 1020 Tyr Ile Ser Arg Ser Lys Asp Pro Lys Asp Val Glu Lys Ala Thr 1025 1030 1035 Glu Lys Tyr Phe Phe Tyr Ser Asn Leu Leu Asn Phe Phe Lys Glu 1040 1045 1050 Glu Val His Tyr Ala Asp Gly Thr Ile Val Lys Arg Glu Asn Ile 1055 1060 1065 Glu Tyr Ser Lys Asp Thr Gly Glu Ile Ala Trp Asn Lys Glu Lys 1070 1075 1080 Asp Phe Ala Thr Ile Lys Lys Val Leu Ser Leu Pro Gln Val Asn 1085 1090 1095 Ile Val Lys Lys Thr Glu Ile Gln Thr His Gly Leu Asp Arg Gly 1100 1105 1110 Lys Pro Arg Gly Leu Phe Asn Ser Asn Pro Ser Pro Lys Pro Ser 1115 1120 1125 Glu Asp Ser Lys Glu Asn Leu Val Pro Ile Lys Gln Gly Leu Asp 1130 1135 1140 Pro Arg Lys Tyr Gly Gly Tyr Ala Gly Ile Ser Asn Ser Tyr Ala 1145 1150 1155 Val Leu Val Lys Ala Ile Ile Glu Lys Gly Ala Lys Lys Gln Gln 1160 1165 1170 Lys Thr Val Leu Glu Phe Gln Gly Ile Ser Ile Leu Asp Lys Ile 1175 1180 1185 Asn Phe Glu Lys Asn Lys Glu Asn Tyr Leu Leu Glu Lys Gly Tyr 1190 1195 1200 Ile Lys Ile Leu Ser Thr Ile Thr Leu Pro Lys Tyr Ser Leu Phe 1205 1210 1215 Glu Phe Pro Asp Gly Thr Arg Arg Arg Leu Ala Ser Ile Leu Ser 1220 1225 1230 Thr Asn Asn Lys Arg Gly Glu Ile His Lys Gly Asn Glu Leu Val 1235 1240 1245 Ile Ser Glu Lys Tyr Thr Thr Leu Leu Tyr His Ala Lys Asn Ile 1250 1255 1260 Asn Lys Thr Leu Glu Pro Glu His Leu Glu Tyr Val Glu Lys His 1265 1270 1275 Arg Asn Asp Phe Ala Lys Leu Leu Glu Ser Val Leu Asp Phe Asn 1280 1285 1290 Asp Lys Tyr Val Gly Ala Leu Lys Asn Gly Glu Arg Ile Arg Gln 1295 1300 1305 Ala Phe Ile Asp Trp Glu Thr Val Asp Ile Glu Lys Leu Cys Phe 1310 1315 1320 Ser Phe Ile Gly Pro Arg Asn Ser Lys Asn Ala Gly Leu Phe Glu 1325 1330 1335 Leu Thr Ser Gln Gly Ser Ala Ser Asp Phe Glu Phe Leu Gly Val 1340 1345 1350 Lys Ile Pro Arg Tyr Arg Asp Tyr Thr Pro Ser Ser Leu Leu Asn 1355 1360 1365 Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg 1370 1375 1380 Ile Asp Leu Ser Lys Leu Gly Glu Asp 1385 1390 <210> 9 <211> 1334 <212> PRT <213> Listeria monocytogenes <400> 9 Met Lys Asn Pro Tyr Thr Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Leu Thr Asp Gln Tyr Asp Leu Val Lys Arg Lys Met 20 25 30 Lys Val Ala Gly Asn Ser Asp Lys Lys Gln Ile Lys Lys Asn Phe Trp 35 40 45 Gly Val Arg Leu Phe Asp Glu Gly Glu Thr Ala Ala Asp Arg Arg Met 50 55 60 Asn Arg Thr Ala Arg Arg Arg Ile Glu Arg Arg Arg Asn Arg Ile Ser 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ala Leu Glu Met Ala Asn Ile Asp Ala Asn 85 90 95 Phe Phe Cys Arg Leu Asn Asp Ser Phe Tyr Val Asp Ser Glu Lys Arg 100 105 110 Asn Ser Arg His Pro Phe Phe Ala Thr Ile Glu Glu Glu Val Ala Tyr 115 120 125 His Lys Asn Tyr Arg Thr Ile Tyr His Leu Arg Glu Glu Leu Val Asn 130 135 140 Ser Ser Glu Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His 145 150 155 160 Ile Ile Lys Tyr Arg Gly Asn Phe Leu Ile Glu Gly Ala Leu Asp Thr 165 170 175 Lys Asn Thr Ser Val Asp Gly Val Tyr Lys Gln Phe Ile Gln Thr Tyr 180 185 190 Asn Gln Val Phe Ile Ser Asn Ile Glu Glu Gly Thr Leu Ala Lys Met 195 200 205 Glu Glu Asn Thr Thr Val Ala Asp Ile Leu Ala Gly Lys Phe Thr Arg 210 215 220 Lys Glu Lys Leu Glu Arg Ile Leu Gln Leu Tyr Pro Gly Glu Lys Ser 225 230 235 240 Thr Gly Met Phe Ala Gln Phe Ile Ser Leu Ile Val Gly Ser Lys Gly 245 250 255 Asn Phe Gln Lys Val Phe Asp Leu Val Glu Lys Thr Asp Ile Glu Cys 260 265 270 Ala Lys Asp Ser Tyr Glu Glu Asp Leu Glu Ala Leu Leu Ala Ile Ile 275 280 285 Gly Asp Glu Tyr Ala Glu Leu Phe Val Ala Ala Lys Asn Thr Tyr Asn 290 295 300 Ala Val Val Leu Ser Ser Ile Ile Thr Val Thr Asp Thr Glu Thr Asn 305 310 315 320 Ala Lys Leu Ser Ala Ser Met Ile Glu Arg Phe Asp Ala His Glu Lys 325 330 335 Asp Leu Ser Glu Leu Lys Ala Phe Ile Lys Leu His Leu Pro Lys Gln 340 345 350 Tyr Glu Glu Ile Phe Ser Asn Val Ala Ile Asp Gly Tyr Ala Gly Tyr 355 360 365 Ile Asp Gly Lys Thr Lys Gln Val Asp Phe Tyr Lys Tyr Leu Lys Thr 370 375 380 Leu Leu Glu Asn Ile Glu Gly Ala Asp Tyr Phe Ile Ala Lys Ile Glu 385 390 395 400 Glu Glu Asn Phe Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ala Ile 405 410 415 Pro His Gln Leu His Leu Glu Glu Leu Glu Ala Ile Leu His Gln Gln 420 425 430 Ala Lys Tyr Tyr Pro Phe Leu Lys Glu Ala Tyr Asp Lys Ile Lys Ser 435 440 445 Leu Val Thr Phe Arg Ile Pro Tyr Phe Val Gly Pro Leu Ala Asn Gly 450 455 460 Gln Ser Asp Phe Ala Trp Leu Thr Arg Lys Ala Asp Gly Glu Ile Arg 465 470 475 480 Pro Trp Asn Ile Glu Glu Lys Val Asp Phe Gly Lys Ser Ala Val Asp 485 490 495 Phe Ile Glu Lys Met Thr Asn Lys Asp Thr Tyr Leu Pro Lys Glu Asn 500 505 510 Val Leu Pro Lys His Ser Leu Tyr Tyr Gln Lys Tyr Met Val Tyr Asn 515 520 525 Glu Leu Thr Lys Val Arg Tyr Ile Asp Asp Gln Gly Lys Thr Asn Tyr 530 535 540 Phe Ser Gly Gln Glu Lys Gln Gln Ile Phe Asn Asp Tyr Phe Lys Gln 545 550 555 560 Lys Arg Lys Val Ser Lys Lys Asp Leu Glu Gln Phe Leu Arg Asn Met 565 570 575 Ser His Ile Glu Ser Pro Thr Ile Glu Gly Leu Glu Asp Ser Phe Asn 580 585 590 Ser Ser Tyr Ala Thr Tyr His Asp Leu Leu Lys Val Gly Ile Lys Gln 595 600 605 Glu Val Leu Glu Asn Pro Leu Asn Thr Glu Met Leu Glu Asp Ile Val 610 615 620 Lys Ile Leu Thr Val Phe Glu Asp Lys Arg Met Ile Lys Glu Gln Leu 625 630 635 640 Gln Gln Phe Ser Asp Val Leu Asp Gly Ala Val Leu Lys Lys Leu Glu 645 650 655 Arg Arg His Tyr Thr Gly Trp Gly Arg Leu Ser Ala Lys Leu Leu Val 660 665 670 Gly Ile Arg Asp Lys Gln Ser His Leu Thr Ile Leu Asp Tyr Leu Met 675 680 685 Asn Asp Asp Gly Leu Asn Arg Asn Leu Met Gln Leu Ile Asn Asp Ser 690 695 700 Asn Leu Ser Phe Lys Ser Ile Ile Glu Lys Glu Gln Val Ser Thr Thr 705 710 715 720 Asp Lys Asp Leu Gln Ser Ile Val Ala Asp Leu Ala Gly Ser Pro Ala 725 730 735 Ile Lys Lys Gly Ile Leu Gln Ser Leu Lys Ile Val Asp Glu Leu Val 740 745 750 Ser Ile Met Gly Tyr Pro Pro Gln Thr Ile Val Val Glu Met Ala Arg 755 760 765 Glu Asn Gln Thr Thr Val Lys Gly Lys Asn Asn Ser Arg Pro Arg Tyr 770 775 780 Lys Ser Leu Glu Lys Ala Ile Lys Glu Phe Gly Ser Gln Ile Leu Lys 785 790 795 800 Glu His Pro Thr Asp Asn Gln Glu Leu Arg Asn Asn Arg Leu Tyr Leu 805 810 815 Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly Gln Glu Leu Asp 820 825 830 Ile His Asn Leu Ser Asn Tyr Asp Ile Asp His Ile Val Pro Gln Ser 835 840 845 Phe Ile Thr Asp Asn Ser Ile Asp Asn Leu Val Leu Thr Ser Ser Ala 850 855 860 Gly Asn Arg Glu Lys Gly Asp Asp Val Pro Pro Leu Glu Ile Val Arg 865 870 875 880 Lys Arg Lys Val Phe Trp Glu Lys Leu Phe Gln Gly Asn Leu Met Ser 885 890 895 Lys Arg Lys Phe Asp Tyr Leu Thr Lys Ala Glu Arg Gly Gly Leu Thr 900 905 910 Glu Ala Asp Lys Ala Thr Phe Ile His Arg Gln Leu Val Glu Thr Arg 915 920 925 Gln Ile Thr Lys Asn Val Ala Asn Ile Leu His Gln Arg Phe Asn Asn 930 935 940 Glu Thr Asp Asn His Gly Asn Asn Met Glu Gln Val Arg Ile Val Met 945 950 955 960 Leu Lys Ser Ala Leu Val Ser Gln Phe Arg Lys Gln Phe Gln Leu Tyr 965 970 975 Lys Val Arg Glu Val Asn Asp Tyr His His Ala His Asp Ala Tyr Leu 980 985 990 Asn Gly Val Val Ala Asn Thr Leu Leu Lys Val Tyr Pro Gln Leu Glu 995 1000 1005 Pro Glu Phe Val Tyr Gly Glu Tyr His Gln Phe Asp Trp Phe Lys 1010 1015 1020 Ala Asn Lys Ala Thr Ala Lys Lys Gln Phe Tyr Thr Asn Ile Met 1025 1030 1035 Leu Phe Phe Ala Gln Lys Glu Arg Ile Ile Asp Glu Asn Gly Glu 1040 1045 1050 Ile Leu Trp Asp Lys Lys Tyr Leu Glu Thr Ile Lys Lys Val Leu 1055 1060 1065 Asp Tyr Arg Gln Met Asn Ile Val Lys Lys Thr Glu Ile Gln Lys 1070 1075 1080 Gly Glu Phe Ser Lys Ala Thr Ile Lys Pro Lys Gly Asn Ser Ser 1085 1090 1095 Lys Leu Ile Pro Arg Lys Glu Asn Trp Asp Pro Met Lys Tyr Gly 1100 1105 1110 Gly Leu Asp Ser Pro Asn Met Ala Tyr Ala Val Ile Ile Glu His 1115 1120 1125 Ala Lys Gly Lys Lys Lys Val Val Phe Glu Lys Lys Ile Ile Arg 1130 1135 1140 Ile Thr Ile Met Glu Arg Lys Ala Phe Glu Lys Asp Glu Lys Ser 1145 1150 1155 Phe Leu Glu Lys Gln Gly Tyr Arg Gln Pro Lys Val Leu Thr Lys 1160 1165 1170 Leu Pro Lys Tyr Thr Leu Tyr Glu Cys Glu Asn Gly Arg Arg Arg 1175 1180 1185 Met Leu Ala Ser Ala Asn Glu Ala Gln Lys Gly Asn Gln Gln Val 1190 1195 1200 Leu Lys Gly Gln Leu Ile Thr Leu Leu His His Ala Lys Asn Cys 1205 1210 1215 Glu Ala Ser Asp Gly Lys Ser Leu Asp Tyr Ile Glu Ser Asn Arg 1220 1225 1230 Glu Met Phe Gly Glu Leu Leu Ala His Val Ser Glu Phe Ala Lys 1235 1240 1245 Arg Tyr Thr Leu Ala Asp Ala Asn Leu Ser Lys Ile Asn Gln Leu 1250 1255 1260 Phe Glu Gln Asn Lys Asp Asn Asp Ile Lys Val Ile Ala Gln Ser 1265 1270 1275 Phe Val Asn Leu Met Ala Phe Asn Ala Met Gly Ala Pro Ala Ser 1280 1285 1290 Phe Lys Phe Phe Glu Ala Thr Ile Glu Arg Lys Arg Tyr Thr Asn 1295 1300 1305 Leu Lys Glu Leu Leu Ser Ala Thr Ile Ile Tyr Gln Ser Ile Thr 1310 1315 1320 Gly Leu Tyr Glu Ala Arg Lys Arg Leu Asp Gly 1325 1330 <210> 10 <211> 1342 <212> PRT <213> Enterococcus timonensis <400> 10 Met Gly Lys Asp Tyr Thr Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Leu Arg Asp Asp Leu Asp Leu Val Lys Lys Lys Met 20 25 30 Lys Val Phe Gly Asn Thr Asp Lys Lys Ala Leu Lys Lys Asn Phe Trp 35 40 45 Gly Val Ser Leu Phe Asp Glu Gly Gln Thr Ala Ala Asp Ala Arg Met 50 55 60 Lys Arg Thr Met Arg Arg Arg Leu Ala Arg Arg His Gln Arg Ile Val 65 70 75 80 Phe Leu Gln Glu Glu Phe Phe Gln Lys Ala Met Asn Glu Lys Asp Ala 85 90 95 Asn Phe Phe His Arg Leu Asn Glu Ser Phe Leu Val Glu Glu Asp Lys 100 105 110 Glu Phe Asn Arg His Pro Ile Phe Gly Lys Leu Glu Glu Glu Lys Ala 115 120 125 Tyr Tyr Lys Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Glu Leu Ala 130 135 140 Asp Ser Thr Gln Gln Ala Asp Leu Arg Leu Val Tyr Leu Ala Met Ala 145 150 155 160 His Ile Ile Lys Tyr Arg Gly His Phe Leu Ile Glu Gly Lys Leu Ser 165 170 175 Thr Glu Asn Thr Ser Val Ser Glu Thr Phe Lys Val Phe Leu Asp Lys 180 185 190 Phe Asn Glu Ala Ser Lys Ile Ala Asp Asn Glu Leu Lys Leu Asp Thr 195 200 205 Thr Ile Asp Val Glu Lys Val Leu Thr Glu Lys Ser Ser Arg Ser Arg 210 215 220 Lys Ala Glu Asn Val Leu Asn Phe Phe Pro Thr Glu Lys Lys Asn Asp 225 230 235 240 Thr Phe Asp Gln Phe Leu Lys Met Ile Val Gly Asn Gln Gly Asn Phe 245 250 255 Lys Lys Thr Phe Asp Leu Asp Glu Asp Ala Lys Leu Gln Phe Ser Lys 260 265 270 Glu Asp Tyr Asp Thr Glu Leu Glu Asn Leu Leu Gly Met Ala Gly Asp 275 280 285 Gly Tyr Gly Asp Val Phe Glu Ala Ala Lys Asn Ala Tyr Asn Ala Val 290 295 300 Glu Leu Ser Gly Ile Leu Thr Val Gln Asp Ser Leu Thr Lys Ala Lys 305 310 315 320 Leu Ser Ala Gly Met Ile Lys Arg Tyr Asp Asp His Lys Glu Asp Leu 325 330 335 Ala Leu Leu Lys Lys Phe Phe Leu Asn Asn Leu Gly Tyr Glu Glu Tyr 340 345 350 Val Ser Tyr Phe Lys Gly Asp Gly Lys Lys Asp Asn Asn Gly Tyr Ala 355 360 365 Ser Tyr Ile Asp Gly His Thr Lys Gln Asp Asp Phe Tyr Ser Tyr Thr 370 375 380 Lys Lys Met Leu Asp Lys Val Glu Gly Ala Asp Tyr Phe Leu Ala Lys 385 390 395 400 Ile Asp Gln Glu Asp Phe Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly 405 410 415 Val Ile Pro His Gln Ile His Leu Glu Glu Leu Lys Ala Ile Met Glu 420 425 430 His Gln Gly Glu Phe Tyr Pro Phe Leu Lys Glu Asn Phe Gln Lys Ile 435 440 445 Val Asp Leu Phe Asn Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala 450 455 460 Ser Lys Glu Asn His Gly Arg Phe Ala Trp Leu Glu Arg Asn Ser Asp 465 470 475 480 Glu Pro Ile Thr Pro Trp Asn Ile Thr Glu Val Val Asp Met Asn Lys 485 490 495 Ser Ala Glu Lys Phe Ile Glu Arg Met Thr Asn Phe Asp Thr Tyr Leu 500 505 510 Pro Asn Glu Lys Val Leu Pro Lys His Ser Met Leu Tyr Glu Lys Phe 515 520 525 Thr Val Tyr Asn Glu Leu Thr Lys Val Ser Tyr Thr Asp Glu Gln Glu 530 535 540 Lys Thr His Asn Phe Ser Ser Ile Glu Lys Glu Lys Ile Phe Lys Glu 545 550 555 560 Leu Phe Cys Lys Asn Arg Lys Val Thr Lys Asp Arg Leu Gln Lys Phe 565 570 575 Leu Tyr Asn Glu Tyr Asn Leu Glu Asn Val Thr Ile Asn Gly Ile Glu 580 585 590 Asn Glu Phe Asn Ala Lys Leu Ala Thr Tyr His Asp Phe Leu Lys Leu 595 600 605 Asn Val Ser Pro Glu Met Leu Asn Asp Pro Glu Asn Glu Asp Met Phe 610 615 620 Glu Glu Ile Val Lys Met Leu Thr Ile Phe Glu Asp Arg Lys Met Leu 625 630 635 640 Ala Lys Gln Leu Ala Ser Phe Lys Ser Tyr Phe Asp Glu Lys Thr Met 645 650 655 Lys Glu Leu Val Arg Arg Tyr Tyr Thr Gly Trp Gly Arg Leu Ser Ala 660 665 670 Lys Leu Ile Asn Gly Leu Tyr Asp Gln Gln Thr Gly Lys Thr Val Ile 675 680 685 Asp Phe Leu Val Met Asp Asp Ala Pro Gly Lys Asn Thr Asn Arg Asn 690 695 700 Phe Met Gln Leu Ile Asn Asp Asn Met Leu Ser Phe Lys Glu Glu Ile 705 710 715 720 Gln Lys Ala Gln Lys Glu Val Gly Thr Lys Asn Asp Leu Asn Gln Ile 725 730 735 Val Gln Glu Leu Ala Gly Ser Pro Ala Leu Lys Lys Gly Ile Leu Gln 740 745 750 Ser Leu Lys Ile Val Asp Glu Ile Val Asp Ile Met Gly Tyr Ala Pro 755 760 765 Thr Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gly Arg 770 775 780 Gly Lys Ile Asn Ser Gln Pro Arg Tyr Lys Asn Leu Glu Lys Ser Leu 785 790 795 800 Asn Glu Met Gln Ser Lys Ile Leu Lys Asp Tyr Pro Thr Asp Asn Lys 805 810 815 Ala Ile Gln Lys Asp Arg Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg 820 825 830 Asp Met Tyr Thr Gly His Asp Leu Asp Ile Asn Asn Leu Ser Asn Tyr 835 840 845 Asp Ile Asp His Ile Ile Pro Gln Ser Phe Ile Val Asp Asn Ser Ile 850 855 860 Asp Asn Arg Val Leu Val Ser Ser Lys Glu Asn Arg Gly Lys Ser Asp 865 870 875 880 Asp Val Leu Asn Ile Asp Ile Val Lys Ser Arg Lys Gly Phe Trp Glu 885 890 895 Gln Leu Leu His Ser Lys Leu Met Ser Lys Lys Lys Phe Asp Asn Leu 900 905 910 Thr Lys Ala Glu Arg Gly Gly Ile Thr Glu Asp Asp Lys Ala Gly Phe 915 920 925 Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala 930 935 940 Arg Ile Leu Asp Glu Arg Phe Asn Thr Glu Lys Asp Gln Thr Gly Lys 945 950 955 960 Lys Ile Arg Thr Val Arg Ile Val Thr Leu Lys Ser Ala Leu Thr Ser 965 970 975 Gln Phe Arg Lys Asn Tyr Gln Ile Tyr Lys Val Arg Glu Ile Asn Asp 980 985 990 Tyr His His Ala His Asp Ala Tyr Leu Asn Gly Val Val Ala Asn Thr 995 1000 1005 Leu Leu Lys Ile Tyr Pro Gln Leu Glu Pro Glu Phe Val Tyr Gly 1010 1015 1020 Glu Tyr His Arg Tyr Asp Ser Phe Lys Glu Asn Arg Ala Thr Ala 1025 1030 1035 Lys Lys Asn Met Tyr Ser Asn Ile Met Gln Phe Thr Lys Lys Asp 1040 1045 1050 Val Thr Leu Asp Lys Glu Gly Asn Gly Glu Ile Leu Trp Asp Asn 1055 1060 1065 Lys Ser Val Ala Met Val Lys Lys Val Ile Asp Tyr Arg Gln Met 1070 1075 1080 Asn Ile Val Lys Lys Thr Glu Ile Gln Arg Gly Gly Phe Ser Asn 1085 1090 1095 Glu Thr Val Leu Pro Lys Gly Pro Ser Asp Lys Leu Ile Pro Arg 1100 1105 1110 Lys Asn Asn Trp Asp Pro Ala Lys Tyr Gly Gly Val Gly Ser Pro 1115 1120 1125 Thr Glu Ala Tyr Ser Ile Ile Ile Ser Tyr Glu Lys Gly Lys Ser 1130 1135 1140 Lys Lys Val Val Lys Glu Ile Val Gly Ile Thr Ile Met Gln Arg 1145 1150 1155 Lys Ala Phe Glu Glu Asn Glu Leu Gly Phe Leu Lys Thr Arg Gly 1160 1165 1170 Tyr Glu Asn Pro Lys Val Leu Ala Lys Leu Pro Lys Tyr Thr Leu 1175 1180 1185 Phe Glu Phe Ala Asp Gly Arg Arg Arg Leu Leu Ala Ser Ser Lys 1190 1195 1200 Glu Ser Gln Lys Gly Asn Gln Leu Val Leu Ser Lys Asp Leu Asn 1205 1210 1215 Glu Leu Val Tyr His Ala Lys Asn Ser Asp Lys Lys Ser Glu Ser 1220 1225 1230 Leu Glu Phe Val Thr Asn Asn Ser Thr Met Phe Phe Asp Phe Leu 1235 1240 1245 Glu Tyr Val Asp Ile Phe Ala Gln Lys Tyr Ile Ile Ala Thr Lys 1250 1255 1260 Asn Ser Glu Arg Ile Gln Ile Val Ala Glu Asn Asn Lys Asp Ser 1265 1270 1275 Glu Gly Lys Asp Leu Ala Thr Ser Phe Phe Asn Leu Leu Gln Phe 1280 1285 1290 Thr Ala Met Gly Ala Pro Ala Asp Phe Lys Phe Phe Asn Glu Thr 1295 1300 1305 Ile Pro Arg Lys Arg Tyr Ser Ser Thr Ser Glu Leu Leu Asn Ala 1310 1315 1320 Thr Ile Ile Tyr Gln Ser Val Thr Gly Leu Tyr Glu Thr Arg Arg 1325 1330 1335 Asn Leu Gly Asp 1340 <210> 11 <211> 1388 <212> PRT <213> Streptococcus thermophilus <400> 11 Met Thr Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Thr Thr Asp Asn Tyr Lys Val Pro Ser Lys Lys Met 20 25 30 Lys Val Leu Gly Asn Thr Ser Lys Lys Tyr Ile Lys Lys Asn Leu Leu 35 40 45 Gly Val Leu Leu Phe Asp Ser Gly Ile Thr Ala Glu Gly Arg Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Thr Glu Met Ala Thr Leu Asp Asp Ala 85 90 95 Phe Phe Gln Arg Leu Asp Asp Ser Phe Leu Val Pro Asp Asp Lys Arg 100 105 110 Asp Ser Lys Tyr Pro Ile Phe Gly Asn Leu Val Glu Glu Lys Ala Tyr 115 120 125 His Asp Glu Phe Pro Thr Ile Tyr His Leu Arg Lys Tyr Leu Ala Asp 130 135 140 Ser Thr Lys Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Tyr Arg Gly His Phe Leu Ile Glu Gly Glu Phe Asn Ser 165 170 175 Lys Asn Asn Asp Ile Gln Lys Asn Phe Gln Asp Phe Leu Asp Thr Tyr 180 185 190 Asn Ala Ile Phe Glu Ser Asp Leu Ser Leu Glu Asn Ser Lys Gln Leu 195 200 205 Glu Glu Ile Val Lys Asp Lys Ile Ser Lys Leu Glu Lys Lys Asp Arg 210 215 220 Ile Leu Lys Leu Phe Pro Gly Glu Lys Asn Ser Gly Ile Phe Ser Glu 225 230 235 240 Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Arg Lys Cys Phe 245 250 255 Asn Leu Asp Glu Lys Ala Ser Leu His Phe Ser Lys Glu Ser Tyr Asp 260 265 270 Glu Asp Leu Glu Thr Leu Leu Gly Tyr Ile Gly Asp Asp Tyr Ser Asp 275 280 285 Val Phe Leu Lys Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser Gly 290 295 300 Phe Leu Thr Val Thr Asp Asn Glu Thr Glu Ala Pro Leu Ser Ser Ala 305 310 315 320 Met Ile Lys Arg Tyr Asn Glu His Lys Glu Asp Leu Ala Leu Leu Lys 325 330 335 Glu Tyr Ile Arg Asn Ile Ser Leu Lys Thr Tyr Asn Glu Val Phe Lys 340 345 350 Asp Asp Thr Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Asn 355 360 365 Gln Glu Asp Phe Tyr Val Tyr Leu Lys Lys Leu Leu Ala Lys Phe Glu 370 375 380 Gly Ala Asp Tyr Phe Leu Glu Lys Ile Asp Arg Glu Asp Phe Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro Tyr Gln Ile His Leu 405 410 415 Gln Glu Met Arg Ala Ile Leu Asp Lys Gln Ala Lys Phe Tyr Pro Phe 420 425 430 Leu Ala Lys Asn Lys Glu Arg Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Asp Phe Ala Trp 450 455 460 Ser Ile Arg Lys Arg Asn Glu Lys Ile Thr Pro Trp Asn Phe Glu Asp 465 470 475 480 Val Ile Asp Lys Glu Ser Ser Ala Glu Ala Phe Ile Asn Arg Met Thr 485 490 495 Ser Phe Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Thr Phe Asn Val Tyr Asn Glu Leu Thr Lys Val Arg 515 520 525 Phe Ile Ala Glu Ser Met Arg Asp Tyr Gln Phe Leu Asp Ser Lys Gln 530 535 540 Lys Lys Asp Ile Val Arg Leu Tyr Phe Lys Asp Lys Arg Lys Val Thr 545 550 555 560 Asp Lys Asp Ile Ile Glu Tyr Leu His Ala Ile Tyr Gly Tyr Asp Gly 565 570 575 Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ser Ser Leu Ser Thr 580 585 590 Tyr His Asp Leu Leu Asn Ile Ile Asn Asp Lys Glu Phe Leu Asp Asp 595 600 605 Ser Ser Asn Glu Ala Ile Ile Glu Glu Ile Ile His Thr Leu Thr Ile 610 615 620 Phe Glu Asp Arg Glu Met Ile Lys Gln Arg Leu Ser Lys Phe Glu Asn 625 630 635 640 Ile Phe Asp Lys Ser Val Leu Lys Lys Leu Ser Arg Arg His Tyr Thr 645 650 655 Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Arg Asp Glu 660 665 670 Lys Ser Gly Asn Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Ile Ser 675 680 685 Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ala Leu Ser Phe Lys 690 695 700 Lys Lys Ile Gln Lys Ala Gln Ile Ile Gly Asp Glu Asp Lys Gly Asn 705 710 715 720 Ile Lys Glu Val Val Lys Ser Leu Pro Gly Ser Pro Ala Ile Lys Lys 725 730 735 Gly Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met 740 745 750 Gly Gly Arg Lys Pro Glu Ser Ile Val Val Glu Met Ala Arg Glu Asn 755 760 765 Gln Tyr Thr Asn Gln Gly Lys Ser Asn Ser Gln Gln Arg Leu Lys Arg 770 775 780 Leu Glu Lys Ser Leu Lys Glu Leu Gly Ser Lys Ile Leu Lys Glu Asn 785 790 795 800 Ile Pro Ala Lys Leu Ser Lys Ile Asp Asn Asn Ala Leu Gln Asn Asp 805 810 815 Arg Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly 820 825 830 Asp Asp Leu Asp Ile Asp Arg Leu Ser Asn Tyr Asp Ile Asp His Ile 835 840 845 Ile Pro Gln Ala Phe Leu Lys Asp Asn Ser Ile Asp Asn Lys Val Leu 850 855 860 Val Ser Ser Ala Ser Asn Arg Gly Lys Ser Asp Asp Val Pro Ser Leu 865 870 875 880 Glu Val Val Lys Lys Arg Lys Thr Phe Trp Tyr Gln Leu Leu Lys Ser 885 890 895 Lys Leu Ile Ser Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 900 905 910 Gly Gly Leu Ser Pro Glu Asp Lys Ala Gly Phe Ile Gln Arg Gln Leu 915 920 925 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Arg Leu Leu Asp Glu 930 935 940 Lys Phe Asn Asn Lys Lys Asp Glu Asn Asn Arg Ala Val Arg Thr Val 945 950 955 960 Lys Ile Ile Thr Leu Lys Ser Thr Leu Val Ser Gln Phe Arg Lys Asp 965 970 975 Phe Glu Leu Tyr Lys Val Arg Glu Ile Asn Asp Phe His His Ala His 980 985 990 Asp Ala Tyr Leu Asn Ala Val Val Ala Ser Ala Leu Leu Lys Lys Tyr 995 1000 1005 Pro Lys Leu Glu Pro Glu Phe Val Tyr Gly Asp Tyr Pro Lys Tyr 1010 1015 1020 Asn Ser Phe Arg Glu Arg Lys Ser Ala Thr Glu Lys Val Tyr Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Ile Phe Lys Lys Ser Ile Ser Leu Ala 1040 1045 1050 Asp Gly Arg Val Ile Glu Arg Pro Leu Ile Glu Val Asn Glu Glu 1055 1060 1065 Thr Gly Glu Ser Val Trp Asn Lys Glu Ser Asp Leu Ala Thr Val 1070 1075 1080 Arg Arg Val Leu Ser Tyr Pro Gln Val Asn Val Val Lys Lys Val 1085 1090 1095 Glu Glu Gln Asn His Gly Leu Asp Arg Gly Lys Pro Lys Gly Leu 1100 1105 1110 Phe Asn Ala Asn Leu Ser Ser Lys Pro Lys Pro Asn Ser Asn Glu 1115 1120 1125 Asn Leu Val Gly Ala Lys Glu Tyr Leu Asp Pro Lys Lys Tyr Gly 1130 1135 1140 Gly Tyr Ala Gly Ile Ser Asn Ser Phe Ala Val Leu Val Lys Gly 1145 1150 1155 Thr Ile Glu Lys Gly Ala Lys Lys Lys Ile Thr Asn Val Leu Glu 1160 1165 1170 Phe Gln Gly Ile Ser Ile Leu Asp Arg Ile Asn Tyr Arg Lys Asp 1175 1180 1185 Lys Leu Asn Phe Leu Leu Glu Lys Gly Tyr Lys Asp Ile Glu Leu 1190 1195 1200 Ile Ile Glu Leu Pro Lys Tyr Ser Leu Phe Glu Leu Ser Asp Gly 1205 1210 1215 Ser Arg Arg Met Leu Ala Ser Ile Leu Ser Thr Asn Asn Lys Arg 1220 1225 1230 Gly Glu Ile His Lys Gly Asn Gln Ile Phe Leu Ser Gln Lys Phe 1235 1240 1245 Val Lys Leu Leu Tyr His Ala Lys Arg Ile Ser Asn Thr Ile Asn 1250 1255 1260 Glu Asn His Arg Lys Tyr Val Glu Asn His Lys Lys Glu Phe Glu 1265 1270 1275 Glu Leu Phe Tyr Tyr Ile Leu Glu Phe Asn Glu Asn Tyr Val Gly 1280 1285 1290 Ala Lys Lys Asn Gly Lys Leu Leu Asn Ser Ala Phe Gln Ser Trp 1295 1300 1305 Gln Asn His Ser Ile Asp Glu Leu Cys Ser Ser Phe Ile Gly Pro 1310 1315 1320 Thr Gly Ser Glu Arg Lys Gly Leu Phe Glu Leu Thr Ser Arg Gly 1325 1330 1335 Ser Ala Ala Asp Phe Glu Phe Leu Gly Val Lys Ile Pro Arg Tyr 1340 1345 1350 Arg Asp Tyr Thr Pro Ser Ser Leu Leu Lys Asp Ala Thr Leu Ile 1355 1360 1365 His Gln Ser Val Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ala 1370 1375 1380 Lys Leu Gly Glu Gly 1385 <210> 12 <211> 1366 <212> PRT <213> Streptococcus parasanguinis <400> 12 Met Lys Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ala Lys Lys Met 20 25 30 Lys Val Leu Gly Asn Thr Asn Lys Glu Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ala Gly Asn Thr Ala Ala Asp Arg Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ala Ala Glu Met Asn Lys Val Asp Glu Ser 85 90 95 Phe Phe His Arg Leu Asp Asp Ser Phe Leu Val Pro Glu Asp Lys Arg 100 105 110 Gly Ser Lys Tyr Pro Ile Phe Gly Thr Leu Glu Glu Glu Lys Glu Tyr 115 120 125 His Lys Gln Phe Pro Thr Ile Tyr Tyr Leu Arg Lys Ile Leu Ala Asp 130 135 140 Ser Lys Glu Lys Val Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Ile Ile Lys Tyr Arg Gly His Phe Leu Tyr Glu Asp Ser Phe Asp Ile 165 170 175 Lys Asn Asn Asp Ile Gln Lys Ile Phe Asn Glu Phe Thr Ile Leu Tyr 180 185 190 Asp Asn Thr Phe Glu Glu Ser Ser Leu Ser Lys Gly Asn Ala Gln Val 195 200 205 Glu Glu Ile Phe Thr Asp Lys Ile Ser Lys Ser Ala Lys Arg Asp Arg 210 215 220 Val Leu Lys Leu Phe Pro Asp Glu Lys Ser Thr Gly Leu Phe Ser Glu 225 230 235 240 Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Lys Lys His Phe 245 250 255 Asp Leu Glu Glu Lys Ala Pro Leu Gln Phe Ser Lys Asp Thr Tyr Glu 260 265 270 Glu Asp Leu Glu Ser Leu Leu Gly Gln Ile Gly Asp Val Tyr Ala Asp 275 280 285 Leu Phe Val Val Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ala Gly 290 295 300 Ile Leu Ser Val Lys Asp Pro Gly Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Glu Arg Tyr Asp Asn His Gln Asn Asp Leu Ser Ala Leu Lys 325 330 335 Gln Phe Val Arg Arg Asn Leu Pro Glu Lys Tyr Ala Glu Val Phe Ser 340 345 350 Asp Asp Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Thr 355 360 365 Gln Glu Gly Phe Tyr Lys Tyr Ile Lys Asn Leu Ile Ser Lys Ile Glu 370 375 380 Gly Ala Glu Tyr Phe Leu Glu Lys Ile Glu Arg Glu Asp Phe Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gln Glu Met Asn Ala Ile Leu Arg His Gln Gly Glu Tyr Tyr Pro Phe 420 425 430 Leu Lys Glu Asn Lys Asp Lys Ile Glu Gln Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Asp Phe Ala Trp 450 455 460 Leu Ser Arg Asn Ser Asp Glu Ala Ile Arg Pro Trp Asn Phe Glu Glu 465 470 475 480 Met Val Asp Lys Ser Ser Ser Ala Glu Asp Phe Ile His Arg Met Thr 485 490 495 Asn Tyr Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Thr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Ile Ala Glu Gly Met Lys Asp Tyr Gln Phe Leu Asp Ser Gly Gln 530 535 540 Lys Lys Gln Ile Val Asn Gln Leu Phe Lys Glu Lys Arg Lys Val Thr 545 550 555 560 Glu Lys Asp Ile Ile His Tyr Leu His Asn Val Asp Gly Tyr Asp Gly 565 570 575 Ile Glu Leu Lys Gly Ile Glu Lys His Phe Asn Ser Ser Leu Ser Thr 580 585 590 Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Glu Phe Met Asp Asp 595 600 605 Pro Lys Asn Glu Glu Ile Phe Glu Asn Ile Val His Thr Leu Thr Ile 610 615 620 Phe Glu Asp Arg Val Met Ile Lys Gln Arg Leu Asn Gln Tyr Asp Ser 625 630 635 640 Ile Phe Asp Glu Lys Val Ile Lys Ala Leu Thr Arg Arg His Tyr Thr 645 650 655 Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Arg Asp Lys 660 665 670 Lys Thr Ser Lys Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Tyr Ser 675 680 685 Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Gly Leu Ser Phe Lys 690 695 700 Glu Thr Ile Gln Lys Ala Gln Val Val Gly Glu Thr Asn Asp Val Lys 705 710 715 720 Gln Val Val Gln Glu Leu Pro Gly Ser Pro Ala Ile Lys Lys Gly Ile 725 730 735 Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met Gly His 740 745 750 Ala Pro Glu Ser Val Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr 755 760 765 Asn Lys Gly Lys Ser Lys Ser Gln Gln Arg Leu Lys Thr Leu Ser Asp 770 775 780 Ala Ile Ser Glu Leu Gly Ser Asn Ile Leu Lys Glu His Pro Thr Asp 785 790 795 800 Asn Ile Gln Leu Gln Asn Asp Arg Leu Phe Leu Tyr Tyr Leu Gln Asn 805 810 815 Gly Lys Asp Met Tyr Thr Gly Glu Ala Leu Asp Ile Asn Gln Leu Ser 820 825 830 Asn Tyr Asp Ile Asp His Ile Ile Pro Gln Ala Phe Ile Lys Asp Asp 835 840 845 Ser Leu Asp Asn Arg Val Leu Thr Ser Ser Lys Asp Asn Arg Gly Lys 850 855 860 Ser Asp Asn Val Pro Ser Leu Glu Ile Val Glu Lys Met Lys Gly Phe 865 870 875 880 Trp Gln Gln Leu Leu Asp Ser Lys Leu Ile Ser Glu Arg Lys Phe Asn 885 890 895 Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Asp Glu Arg Asp Lys Val 900 905 910 Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His 915 920 925 Val Ala Gln Ile Leu Asp Asp Arg Phe Asn Ala Glu Val Asn Glu Lys 930 935 940 Asn Gln Lys Leu Arg Ser Val Lys Ile Ile Thr Leu Lys Ser Asn Leu 945 950 955 960 Val Ser Asn Phe Arg Lys Glu Phe Gly Leu Tyr Lys Val Arg Glu Ile 965 970 975 Asn Asp Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Ala 980 985 990 Lys Ala Ile Leu Lys Lys Tyr Pro Lys Leu Glu Pro Glu Phe Val Tyr 995 1000 1005 Gly Asp Tyr Gln Lys Tyr Asp Leu Lys Arg Tyr Ile Ser Arg Thr 1010 1015 1020 Lys Asp Pro Lys Glu Ile Glu Lys Ala Thr Glu Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Leu Leu Asn Phe Phe Lys Asp Lys Val Tyr Tyr Ala 1040 1045 1050 Asp Gly Thr Ile Ile Gln Arg Gly Asn Val Glu Tyr Ser Lys Asp 1055 1060 1065 Thr Gly Glu Ile Ala Trp Asn Lys Lys Arg Asp Phe Ala Ile Val 1070 1075 1080 Arg Lys Val Leu Ser Tyr Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Glu Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Gly Asn Ser Asp Lys Leu Ile Pro Arg Lys Thr Lys Asn Val Gln 1115 1120 1125 Leu Asp Thr Thr Lys Tyr Gly Gly Phe Asp Ser Pro Val Ile Ala 1130 1135 1140 Tyr Ser Ile Leu Leu Val Ala Asp Val Glu Lys Gly Lys Ser Lys 1145 1150 1155 Lys Leu Lys Thr Val Lys Ser Leu Ile Gly Ile Thr Ile Met Glu 1160 1165 1170 Lys Val Lys Phe Glu Ala Asn Pro Val Ala Phe Leu Glu Gly Lys 1175 1180 1185 Gly Tyr Gln Asn Val Val Glu Glu Asn Ile Ile Arg Leu Pro Lys 1190 1195 1200 Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Arg Arg Met Leu Ala 1205 1210 1215 Ser Ala Lys Glu Leu Gln Lys Gly Asn Glu Met Val Leu Pro Ser 1220 1225 1230 Tyr Leu Ile Ala Leu Leu Tyr His Ala Lys Arg Ile Gln Lys Lys 1235 1240 1245 Asp Glu Pro Glu His Leu Glu Tyr Ile Lys Gln His His Ser Glu 1250 1255 1260 Phe Asn Asp Leu Leu Asn Phe Val Ser Glu Phe Ser Gln Lys Tyr 1265 1270 1275 Val Leu Ala Glu Ser Asn Leu Glu Lys Ile Lys Asn Leu Tyr Ile 1280 1285 1290 Asp Asn Glu Gln Thr Asn Met Glu Glu Ile Ala Asn Ser Phe Ile 1295 1300 1305 Asn Leu Leu Thr Phe Thr Ala Phe Gly Ala Pro Ala Val Phe Lys 1310 1315 1320 Phe Phe Gly Lys Asp Ile Glu Arg Lys Arg Tyr Ser Thr Val Thr 1325 1330 1335 Glu Ile Leu Lys Ala Thr Leu Ile His Gln Ser Leu Thr Gly Leu 1340 1345 1350 Tyr Glu Thr Arg Ile Asp Leu Ser Lys Leu Gly Glu Glu 1355 1360 1365 <210> 13 <211> 1368 <212> PRT <213> Artificial <220> <223> Base sequence SEQ ID NO:1, residues 695, 848, and 926 substituted with Alanine, residue 923 substituted with Methionine, and residue 924 substituted with Valine <400> 13 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Ala Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Ala 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Met Val Arg Ala Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365

Claims

하기를 5'에서 3'으로 포함하는 DNA 구축물:
제1 유형 IIS 제한 효소에 대한 제1 인식 부위,
DNA 요소,
제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위,
DNA 요소에 고유하게 할당된 바코드, 및
제1 유형 IIS 제한 효소에 대한 제2 인식 부위.
제1항에 있어서, DNA 벡터인 DNA 구축물.
제1항의 DNA 구축물 중 2개 이상을 포함하는 라이브러리.
하기를 5'에서 3'으로 포함하는 DNA 구축물로서:
제1 유형 IIS 제한 효소에 대한 인식 부위,
복수개의 DNA 요소,
프라이머 결합 부위, 및
복수개의 DNA 요소 중 하나에 각각 고유하게 할당된 복수개의 바코드, 및 제2 유형 IIS 제한 효소에 대한 인식 부위,
여기서 복수개의 DNA 요소는 서로 연결되어 복수개의 DNA 요소 중 임의의 2개 사이의 임의의 연결 지점에서 임의의 외부 서열 없이 단백질에 대한 코딩 서열을 형성하고, 여기서 복수개의 바코드는 그의 할당된 DNA 요소의 역순으로 배치되는 것인
DNA 구축물.
제4항에 있어서, DNA 벡터인 DNA 구축물.
제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 있어서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소가 DNA 분자를 절단할 때 양립성 단부를 생성하는 것인 DNA 구축물.
제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 있어서, 제1 유형 IIS 제한 효소가 BsaI이고, 제2 유형 IIS 제한 효소가 BbsI인 DNA 구축물.
하기 단계를 포함하는, 조합 유전적 구축물을 생성하는 방법으로서:
(a) 제2항의 제1 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제1 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제1 바코드를 포함하는 제1 DNA 단편을 방출하는 단계;
(b) 프로모터를 포함하는 초기 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 프로모터의 3' 단부 근처에서 초기 발현 벡터를 선형화하고 (a)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계;
(c) (a)의 제1 DNA 단편을 어닐링하고 이를 (b)의 선형화된 발현 벡터에 라이게이션하여, 제1 DNA 단편 및 제1 바코드가 그의 3' 단부에서 프로모터에 작동가능하게 연결되는 1-원 복합 발현 벡터를 형성하는 단계;
(d) 제2항의 제2 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제2 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제2 바코드를 포함하는 제2 DNA 단편을 방출하는 단계;
(e) (c)의 복합 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 제1 DNA 요소와 제1 바코드 사이에서 복합 발현 벡터를 선형화하고 (d)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계; 및
(f) (d)의 제2 DNA 단편을 어닐링하고 이를 제1 DNA 요소와 제1 바코드 사이에 있는 (e)의 선형화된 복합 발현 벡터에 라이게이션하여, 제1 DNA 단편, 제2 DNA 단편, 제2 바코드, 및 제1 바코드가 그의 3' 단부에서 프로모터에 이러한 순서로 작동가능하게 연결되는 2-원 복합 발현 벡터를 형성하는 단계,
여기서 제1 및 제2 DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1 및 제2 세그먼트를 코딩하고, 여기서 제1 및 제2 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 2-원 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 제1 및 제2 DNA 요소 각각은 하나 이상의 돌연변이를 포함하는 것인
방법.
제6항에 있어서, 단계 (d) 내지 (f)가 제n DNA 요소, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제n 바코드를 포함하는 제n DNA 단편을 n-원 복합 발현 벡터에 혼입시키기 위해 n회까지 반복되며, 제n DNA 요소는 그의 C-말단으로부터 사전-선택된 단백질의 제n 또는 제2 내지 마지막 세그먼트를 코딩하며, 하기 단계를 추가로 포함하며:
(x) 제1 유형 IIS 제한 효소에 대한 제1 인식 부위와 제2 인식 부위 사이에, 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제(n+1) 바코드를 포함하는 최종 DNA 벡터를 제공하는 단계;
(y) 최종 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 5'에서 3'으로: 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제(n+1) 바코드를 포함하는 최종 DNA 단편을 방출하는 단계;
(z) 최종 DNA 단편을 어닐링하고 이를, 단계 (d) 내지 (f)를 n회 동안 반복하고 제2 유형 IIS 제한 효소에 의해 선형화시킨 후에 생산되는 n-원 복합 발현 벡터에 라이게이션하여, 최종 복합 발현 벡터를 형성하는 단계,
여기서 제1, 제2 등 내지 제n 및 제(n+1) DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1, 제2 등 내지 제n 및 마지막 세그먼트를 코딩하고, 여기서 제1, 제2 등 내지 제n 및 마지막 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 최종 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 각각의 DNA 요소는 하나 이상의 돌연변이를 포함하는 것인
방법.
제8항 또는 제9항에 있어서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소가 DNA 분자를 절단할 때 양립성 단부를 생성하는 것인 방법.
제8항 또는 제9항에 있어서, 제1 유형 IIS 제한 효소가 BsaI이고, 제2 유형 IIS 제한 효소가 BbsI인 방법.
제9항의 방법에 의해 생성된 최종 복합 발현 벡터 중 2개 이상을 포함하는 라이브러리.
서열식별번호: 1 및 4-13 중 어느 하나에 제시된 아미노산 서열을 포함하는 폴리펩티드로서, 여기서 서열식별번호: 1의 잔기 1003에 상응하는 잔기가 치환되고, 서열식별번호: 1의 잔기 661에 상응하는 잔기가 치환되는 것인 폴리펩티드.
제13항에 있어서, 서열식별번호: 1의 잔기 1003에 상응하는 잔기가 히스티딘으로 치환되고 서열식별번호: 1의 잔기 661에 상응하는 잔기가 알라닌으로 치환되는 것인 폴리펩티드.
제14항에 있어서, 서열식별번호: 1에 제시된 아미노산 서열을 포함하며, 여기서 잔기 1003이 히스티딘으로 치환되고 잔기 661이 알라닌으로 치환되며, 임의로 잔기 926에서 알라닌으로의 치환을 추가로 포함하는 폴리펩티드.
제13항에 있어서, 서열식별번호: 1의 잔기 695, 848, 및 926에 상응하는 잔기가 알라닌으로 치환되고, 서열식별번호: 1의 잔기 923에 상응하는 잔기가 메티오닌으로 치환되고, 서열식별번호: 1의 잔기 924에 상응하는 잔기가 발린으로 치환되는 것인 폴리펩티드.
제16항에 있어서, 서열식별번호: 1에 제시된 아미노산 서열을 포함하며, 여기서 서열식별번호: 1의 잔기 695, 848, 및 926에 상응하는 잔기가 알라닌으로 치환되고, 서열식별번호: 1의 잔기 923에 상응하는 잔기가 메티오닌으로 치환되고, 서열식별번호: 1의 잔기 924에 상응하는 잔기가 발린으로 치환되는 것인 폴리펩티드.
제13항의 폴리펩티드 및 생리학상 허용되는 부형제를 포함하는 조성물.
제13항 내지 제17항 중 어느 한 항의 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열을 포함하는 핵산.
제17항의 핵산 및 생리학상 허용되는 부형제를 포함하는 조성물.
제13항 내지 제17항 중 어느 한 항의 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열에 작동가능하게 연결된 프로모터를 포함하는 발현 카세트.
제21항의 발현 카세트를 포함하는 벡터.
제22항에 있어서, 바이러스 벡터인 벡터.
제19항의 발현 카세트 또는 제13항 내지 제17항 중 어느 한 항의 폴리펩티드를 포함하는 숙주 세포.
DNA 분자를 표적 부위에서 절단하는 방법으로서, 표적 DNA 부위를 포함하는 DNA 분자를 제13항 내지 제17항 중 어느 한 항의 폴리펩티드 및 표적 DNA 부위에 특이적으로 결합하는 짧은 가이드-RNA (sgRNA)와 접촉시키며, 그에 의해 DNA 분자가 표적 DNA 부위에서 절단되게 하는 것을 포함하는 방법.
제25항에 있어서, DNA 분자가 살아있는 세포 내의 게놈 DNA이며, 여기서 세포가 sgRNA 및 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열로 형질감염된 것인 방법.
제26항에 있어서, 세포가 sgRNA를 코딩하는 제1 벡터 및 폴리펩티드를 코딩하는 제2 벡터로 형질감염된 것인 방법.
제26항에 있어서, 세포가 sgRNA 및 폴리펩티드 둘 다를 코딩하는 벡터로 형질감염된 것인 방법.
제27항에 있어서, 제1 및 제2 벡터 각각이 바이러스 벡터인 방법.
제28항에 있어서, 벡터가 바이러스 벡터인 방법.
제29항 또는 제30항에 있어서, 바이러스 벡터가 레트로바이러스 벡터인 방법.
제31항에 있어서, 레트로바이러스 벡터가 렌티바이러스 벡터인 방법.