KR20210060541A - 개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체 - Google Patents
개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체 Download PDFInfo
- Publication number
- KR20210060541A KR20210060541A KR1020217011033A KR20217011033A KR20210060541A KR 20210060541 A KR20210060541 A KR 20210060541A KR 1020217011033 A KR1020217011033 A KR 1020217011033A KR 20217011033 A KR20217011033 A KR 20217011033A KR 20210060541 A KR20210060541 A KR 20210060541A
- Authority
- KR
- South Korea
- Prior art keywords
- lys
- leu
- glu
- ile
- asp
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1082—Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
- C12N15/1031—Mutagenizing nucleic acids mutagenesis by gene assembly, e.g. assembly by oligonucleotide extension PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1058—Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1065—Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/111—General methods applicable to biologically active non-coding nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/66—General methods for inserting a gene into a vector to form a recombinant vector using cleavage and ligation; Use of non-functional linkers or adaptors, e.g. linkers containing the sequence for a restriction endonuclease
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B20/00—Methods specially adapted for identifying library members
- C40B20/04—Identifying library members by means of a tag, label, or other readable or detectable entity associated with the library members, e.g. decoding processes
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
- C40B40/08—Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Biomedical Technology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- General Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Ecology (AREA)
- Analytical Chemistry (AREA)
- Virology (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Enzymes And Modification Thereof (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 조합 변형에 의해 유전적 변이체를 생성하고 스크리닝하기 위한 개선된 고처리량 시스템 및 방법을 제공한다. 또한 이러한 시스템에 의해 생산된 최적화된 SpCas9 효소 변이체가 제공된다.
Description
관련 출원
본 출원은 2018년 9월 19일에 출원된 미국 가출원 번호 62/733,410을 우선권 주장하며, 이러한 가출원의 내용은 모든 목적을 위해 그 전체 내용이 본원에 참조로 포함된다.
재조합 단백질은 산업 및 의료 분야에서의 사용을 포함하여 광범위한 적용에서 점점 더 중요해지고 있다. 재조합 단백질, 특히 효소 및 항체의 기능성이 유전적 돌연변이에 의해 개선될 수 있으므로, 보다 바람직한 특색을 갖는 것을 확인하기 위해 재조합 단백질의 가능한 유전적 변이체의 광범위한 스펙트럼을 생성하고 선택하기 위한 지속적인 노력이 이루어져서, 그들의 적용에 있어서 개선된 효율이 달성될 수 있다.
Cas9 (CRISPR 관련 단백질 9)는 박테리아, 예컨대 스트렙토코쿠스(Streptococcus) 속의 그람 양성 박테리움 종인 스트렙토코쿠스 피오게네스(Streptococcus pyogenes)에서의 CRISPR (클러스터링된 규칙적 간격의 짧은 팔린드롬성 반복부) 적응 면역 체계과 연관된 RNA-가이드된 DNA 엔도뉴클레아제이다. 최근 몇 년 동안 유전적 편집을 위해 CRISPR의 사용이 증가하였기 때문에, Cas9는 많은 사람들이 유전적 변형을 통해 성능을 개선시키려는 강력한 관심 효소이다. 그러나, 임의의 특별한 단백질의 많은 유전적 변이체를 체계적으로 생성하고 스크리닝하기 위해 현재 이용가능한 시스템은 종종 번거롭고 노동 집약적이며 따라서 비효율적이다.
따라서, 새로운 고처리량 조합 유전적 변형 시스템/방법 뿐만 아니라 개선된 특성을 가진 조작된 단백질 (예컨대 Cas9 효소)에 대한 뚜렷한 필요성이 존재한다. 본 발명은 이러한 필요성 및 다른 관련 필요성을 충족시킨다.
이전에, 본 발명자들이 이끄는 연구 그룹은 일괄 조합 유전학 또는 콤비GEM(CombiGEM)이라고 하는, 고차 바코딩된 조합 유전적 라이브러리의 고처리량 기능적 분석을 위한 시스템을 고안하였다. 이러한 시스템은, 예를 들어, 바코딩된 이중 가이드-RNA (gRNA) 조합의 라이브러리 및 원하는 기능성에 대해 추가로 스크리닝될 2-와이즈 또는 3-와이즈 바코딩된 인간 마이크로RNA (miRNA) 전구체의 라이브러리를 생성하는데 사용되었으며, 예를 들어, 문헌 [Wong et al. (Nat. Biotechnol. 2015 September; 33(9):952-961), Wong et al. (Proc. Nat. Acad. Sci., March 1, 2016, 113(9):2544-2549)], WO2016/070037, 및 WO2016/115033을 참조한다. 또한, 미국 특허 번호 9,315,806를 참조한다. 본 발명자들은 본 발명에 의해 콤비GEM 시스템을 추가로 변형시켰고 개선된 콤비실 플랫폼을 개발하였으며, 이러한 플랫폼은 고차 조합 돌연변이체 라이브러리의 각각의 구성원의 임의의 2개의 인접한 유전적 성분 간의 이음새 없는 연결을 제공한다. 다시 말해서, 이러한 플랫폼은 각각의 연접 부위에 임의의 인공 또는 외부 아미노산 서열을 도입하지 않으므로, 조합 돌연변이를 함유하는 단백질 변이체의 대규모 콜렉션의 생성을 허용하는 동시에 야생형 단백질의 천연 아미노산 서열을 유지한다.
따라서, 본 발명은 먼저, 조합 돌연변이체를 체계적으로 생성하고 스크리닝하기 위한 개선된 고처리량 유전적 변형 시스템을 제공한다. 한 측면에서, 본 발명은 DNA 가닥의 5'에서 3' 방향으로: 제1 유형 IIS 제한 효소에 대한 제1 인식 부위; DNA 요소; 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, DNA 요소에 고유하게 할당된 바코드; 및 제1 유형 IIS 제한 효소에 대한 제2 인식 부위를 포함하는 DNA 구축물을 제공한다. 일부 실시양태에서, DNA 구축물은 선형 구축물이고; 다른 실시양태에서, DNA 구축물은 원형 구축물 또는 박테리아-기반 DNA 플라스미드 또는 DNA 바이러스 벡터를 포함한 DNA 벡터이다. DNA 구축물은 바람직하게 단리되는데, 즉 임의의 상당한 양의 다른 DNA 서열이 존재하지 않는다. 일부 실시양태에서, 본 발명은 상기 및 본원에 기재된 DNA 구축물 중 적어도 2개, 가능하게는 그 초과를 포함한 라이브러리를 제공하며, 각각의 라이브러리 구성원은 고유하게 할당된 바코드와 함께 별개의 폴리뉴클레오티드 서열을 갖는 별개의 DNA 요소를 갖는다.
본 발명의 또 다른 측면에서, 또 다른 DNA 구축물이 제공되며, 이러한 DNA 구축물은 DNA 가닥의 5'에서 3' 방향으로: 제1 유형 IIS 제한 효소에 대한 인식 부위; 복수개의 DNA 요소; 프라이머 결합 부위; 및 복수개의 DNA 요소 중 하나에 각각 고유하게 할당된 복수개의 바코드 및 제2 유형 IIS 제한 효소에 대한 인식 부위를 포함하며, 여기서 복수개의 DNA 요소는 서로 연결되어 복수개의 DNA 요소 중 임의의 2개 사이의 임의의 연결 지점에서 임의의 외부 서열 없이 단백질에 대한 코딩 서열 (예컨대 천연 또는 야생형 단백질에 대한 코딩 서열)을 형성하고, 여기서 복수개의 바코드는 그의 할당된 DNA 요소의 역순으로 배치된다. 일부 실시양태에서, DNA 구축물은 선형 구축물이고; 다른 실시양태에서, DNA 구축물은 원형 구축물, 예컨대 박테리아-기반 DNA 플라스미드 또는 DNA 바이러스 벡터를 포함한 DNA 벡터이다. 이러한 구축물의 라이브러리는 또한 적어도 2개, 가능하게는 그 초과의 구축물을 포함하도록 제공되며, 각각의 구성원은 별개의 폴리뉴클레오티드 서열의 별개의 DNA 요소 세트 및 고유하게 할당된 바코드 세트를 갖는다.
상기 및 본원에 기재된 DNA 구축물의 일부 실시양태에서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소는 DNA 분자를 절단할 때 양립성 단부를 생성한다. 일부 실시양태에서, 제1 유형 IIS 제한 효소는 BsaI이다. 일부 실시양태에서, 제2 유형 IIS 제한 효소는 BbsI이다.
한 추가 측면에서, 본 발명은 조합 유전적 구축물을 생성하는 방법에 관한 것이다. 이러한 방법은 하기 단계: (a) 청구항 2의 제1 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제1 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제1 바코드를 포함하는 제1 DNA 단편을 방출하는 단계; (b) 프로모터를 포함하는 초기 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 프로모터의 3' 단부 근처에서 초기 발현 벡터를 선형화하고 (a)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계; (c) (a)의 제1 DNA 단편을 어닐링하고 이를 (b)의 선형화된 발현 벡터에 라이게이션하여, 제1 DNA 단편 및 제1 바코드가 3' 단부에서 프로모터에 작동가능하게 연결되는 1-원 복합 발현 벡터를 형성하는 단계; (d) 청구항 2의 제2 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제2 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제2 바코드를 포함하는 제2 DNA 단편을 방출하는 단계; (e) (c)의 복합 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 제1 DNA 요소와 제1 바코드 사이에서 복합 발현 벡터를 선형화하고 (d)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계; 및 (f) (d)의 제2 DNA 단편을 어닐링하고 이를 제1 DNA 요소와 제1 바코드 사이에 있는 (e)의 선형화된 복합 발현 벡터에 라이게이션하여, 제1 DNA 단편, 제2 DNA 단편, 제2 바코드, 및 제1 바코드가 3' 단부에서 프로모터에 이러한 순서로 작동가능하게 연결되는 2-원 복합 발현 벡터를 형성하는 단계를 포함하며, 여기서 제1 및 제2 DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1 및 제2 세그먼트를 코딩하고, 여기서 제1 및 제2 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 2-원 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 제1 및 제2 DNA 요소 각각은 하나 이상의 돌연변이를 포함한다.
이러한 방법의 일부 실시양태에서, 단계 (d) 내지 (f)는 제n DNA 요소, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제n 바코드를 포함하는 제n DNA 단편을 n-원 복합 발현 벡터에 혼입시키기 위해 n회까지 반복되며, 제n DNA 요소는 그의 C-말단으로부터 사전-선택된 단백질의 제n 또는 제2 내지 마지막 세그먼트를 코딩한다. 상기 방법은 (x) 제1 유형 IIS 제한 효소에 대한 제1 인식 부위와 제2 인식 부위 사이에, 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제(n+1) 바코드를 포함하는 최종 DNA 벡터를 제공하는 단계; (y) 최종 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 5'에서 3'으로: 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제(n+1) 바코드를 포함하는 최종 DNA 단편을 방출하는 단계; (z) 최종 DNA 단편을 어닐링하고 이를, 단계 (d) 내지 (f)를 n회 동안 반복하고 제2 유형 IIS 제한 효소에 의해 선형화시킨 후에 생산되는 n-원 복합 발현 벡터에 라이게이션하여, 최종 복합 발현 벡터를 형성하는 단계를 추가로 포함하며, 여기서 제1, 제2 등 내지 제n 및 제(n+1) DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1, 제2 등 내지 제n 및 마지막 세그먼트를 코딩하고, 여기서 제1, 제2 등 내지 제n 및 마지막 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 최종 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 각각의 DNA 요소는 하나 이상의 돌연변이를 포함한다.
상기 또는 본원에 기재된 방법의 일부 실시양태에서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소는 DNA 분자를 절단할 때 양립성 단부를 생성한다. 일부 실시양태에서, 제1 유형 IIS 제한 효소는 BsaI이다. 일부 실시양태에서, 제2 유형 IIS 제한 효소는 BbsI이다.
부가의 측면에서, 본 발명은 상기 및 본원에 기재된 방법에 의해 생성된 최종 복합 발현 벡터 중 적어도 2개, 가능하게는 그 초과를 포함하는 라이브러리를 제공한다.
두 번째로, 본 발명은 상기 및 본원에 기재된 개선된 고처리량 유전적 변형 시스템을 사용함으로써 생성 및 확인되는, 개선된 온-타겟 절단 및 감소된 오프-타겟 절단 능력을 보유하는 SpCas9 돌연변이체를 제공한다. 한 측면에서, 본 발명은 염기 서열로서 작용하는, 서열식별번호(SEQ ID NO): 1 및 4-13 중 어느 하나에 제시된 아미노산 서열을 포함하는 폴리펩티드 (바람직하게는 단리된 폴리펩티드)를 제공하며, 여기서 서열식별번호: 1의 잔기(들) 661, 695, 848, 923, 924, 926, 1003, 또는 1060에 상응하는 적어도 1개, 가능하게는 그 초과의 잔기가, 예를 들어, 치환에 의해 변형된다. 본 발명의 일부 예시적인 폴리펩티드는 본 개시내용의 표 2에 제공된다. 일부 실시양태에서, 서열식별번호: 1의 잔기 1003에 상응하는 잔기가 치환되고, 서열식별번호: 1의 잔기 661에 상응하는 잔기가 치환된다. 일부 실시양태에서, 상기 폴리펩티드는 서열식별번호: 1의 잔기 926에 상응하는 잔기에서의 치환을 추가로 갖는다. 예를 들어, 상기 폴리펩티드는 히스티딘으로 치환된 서열식별번호: 1의 잔기 1003에 상응하는 잔기 및 알라닌으로 치환된 서열식별번호: 1의 잔기 661에 상응하는 잔기를 갖는다. 또 다른 예에서, 상기 폴리펩티드는 서열식별번호: 1에 제시된 염기 아미노산 서열을 가지며, 여기서 잔기 1003은 히스티딘으로 치환되고, 잔기 661은 알라닌으로 치환되며, 이는 임의로 잔기 926에서 알라닌으로의 치환을 추가로 포함한다. 추가 예에서, 상기 폴리펩티드는 서열식별번호: 1에 제시된 염기 아미노산 서열을 가지며, 여기서 잔기 695, 848 및 926은 알라닌으로 치환되고, 잔기 923은 메티오닌으로 치환되고, 잔기 924는 발린으로 치환된다. 또한, (1) 상기 및 본원에 기재된 폴리펩티드; 및 (2) 생리학상 허용되는 부형제를 포함하는 조성물이 제공된다.
또 다른 측면에서, 본 발명은 상기 및 본원에 기재된 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열을 포함하는 핵산 (바람직하게는 단리된 핵산) 뿐만 아니라 이러한 핵산을 함유하는 조성물을 제공한다. 본 발명은 또한 본 발명의 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열에 작동가능하게 연결된 프로모터를 포함하는 발현 카세트, 이러한 발현 카세트를 포함하는 벡터 (예컨대 박테리아-기반 플라스미드 또는 바이러스-기반 벡터), 및 본 발명의 발현 카세트 또는 폴리펩티드를 포함하는 숙주 세포를 제공한다.
추가 측면에서, 본 발명은 DNA 분자를 표적 부위에서 절단하는 방법을 제공한다. 상기 방법은 표적 DNA 부위를 포함하는 DNA 분자를 상기 및 본원에 기재된 폴리펩티드 및 표적 DNA 부위에 특이적으로 결합하는 짧은 가이드-RNA (sgRNA)와 접촉시키며, 그에 의해 DNA 분자가 표적 DNA 부위에서 절단되게 하는 것을 포함한다. 상기 방법의 일부 실시양태에서, DNA 분자는 살아있는 세포 내의 게놈 DNA이고, 세포는 sgRNA 및 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열로 형질감염시켰다. 일부 경우에, 세포는 sgRNA를 코딩하는 제1 벡터 및 폴리펩티드를 코딩하는 제2 벡터로 형질감염시켰다. 다른 경우에, 세포는 sgRNA 및 폴리펩티드 둘 다를 코딩하는 벡터로 형질감염시켰다. 상기 방법의 일부 실시양태에서, 제1 및 제2 벡터 각각은 바이러스 벡터, 예컨대 레트로바이러스 벡터, 특히 렌티바이러스 벡터이다.
상기 및 본원에 기재된 고처리량 조합 유전적 변형 시스템, 방법 및 관련 조성물은 적절한 경우 변형을 수반하여, 원핵 세포 및 진핵 세포에 사용하기 적합하다. 일부 등가물은 또한 상기 및 본원의 설명으로부터 유래될 수 있다. 예를 들어, 각각의 DNA 구축물에서 DNA 요소 및 그의 상응하는 바코드의 배치를 전환시킬 수 있는데, 즉 DNA 구축물은 5'에서 3'으로: 제1 유형 IIS 제한 효소에 대한 제1 인식 부위, DNA 요소에 고유하게 할당된 바코드, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, DNA 요소, 및 제1 유형 IIS 제한 효소에 대한 제2 인식 부위를 포함한다. DNA 구축물 및 이러한 DNA 구축물의 라이브러리는 하기 벡터에서의 DNA 요소와 바코드의 상대적 위치가 그에 따라 전환된다는 점을 제외하고는, 본원에 기재된 것과 유사한 중간 및 최종 벡터를 생성하기 위해 본원에 기재된 바와 동일한 방식으로 사용될 수 있다.
도 1. SpCas9의 높은 커버리지 조합 돌연변이체 라이브러리를 생성하고, 이러한 라이브러리를 인간 세포로 효율적으로 전달하는 것. a, SpCas9의 조합 돌연변이체 라이브러리를 어셈블리하기 위한 전략. SpCas9의 코딩 서열은 4개의 구성가능한 부분 (즉, P1 내지 P4)으로 모듈화되었으며, 각각은 다이어그램에 묘사된 바와 같이 규정된 위치에서 사전-결정된 아미노산 잔기 돌연변이를 코딩하는 바코딩된 단편의 레퍼토리를 포함한다. 952개 SpCas9 변이체의 라이브러리는 상기 부분의 원-포트 이음새 없는 라이게이션의 연속 라운드에 의해 어셈블리되었고, 각각의 변이체에 고유하게 태그부착시킨 연결된 바코드가 생성되었다 (세부사항에 관해서는 도 7 참조). b, 이. 콜라이(E. coli)로부터 추출된 플라스미드 풀 및 감염된 OVCAR8-ADR 세포 풀에서 바코딩된 조합 돌연변이체 라이브러리에 대한 시퀀싱 리드의 누적 분포. 상기 플라스미드 및 감염된 세포 풀 내에 있는 라이브러리의 높은 커버리지 (각각 ~99.9% 및 ~99.6%)는 샘플당 ~80만개의 리드로부터 검출되었고, 대부분의 조합은 적어도 300개의 절대 바코드 리드 (음영 구역으로서 강조 표시됨)으로 검출되었다.
도 2. 인간 세포에서 SpCas9 변이체의 온-타겟 및 오프-타겟 활성을 프로파일링하기 위한 전략. a, SpCas9 라이브러리는 UBC 및 CMV 프로모터에 의해 각각 구동된 RFP 및 GFP 유전자를 발현하는 OVCAR8-ADR 리포터 세포주 및 RFP 부위를 표적화하는 gRNA (RFPsg5 또는 RFPsg8)의 탠덤 U6 프로모터-구동된 발현 카세트에 ~0.3의 감염 다중도로 렌티바이러스를 통해 전달되었다. RFP 및 GFP 발현은 유동 세포계수법 하에 분석되었다. SpCas9의 온-타겟 활성은 gRNA 스페이서 서열이 RFP 표적 부위와 완전하게 매칭될 때 측정된 반면, 그의 오프-타겟 활성은 RFP 표적 부위에 동의 돌연변이가 정착될 때 측정되었다. 활성 SpCas9 변이체를 정착시킨 세포는 RFP 형광을 상실할 것으로 예상되었다. 세포는 RFP 형광을 기반으로 집단의 ~5%를 포괄하는 빈(bin)으로 분류되었으며, 일루미나(Illumina) HiSeq에 의해 바코딩된 SpCas9 변이체의 정량화를 위해 게놈 DNA가 추출되었다. b, 상기와 같이 분류된 빈 (즉, A, B 및 C)과 비분류된 집단 간의 각각의 SpCas9 변이체의 바코드 카운트를 비교하는 산점도. 각각의 점은 SpCas9 변이체를 나타내며, WT SpCas9 및 eSpCas9(1.1)가 플롯에 표지된다. 실선 참조 선은 바코드 카운트에 있어서의 1.5배 강화 및 0.5배 고갈을 나타내며, 점선 참조 선은 비분류된 집단과 비교하여 분류된 빈에서 바코드 카운트 상의 변화가 없다는 것을 나타낸다.
도 3. 고처리량 프로파일링은 SpCas9 조합 돌연변이체의 광범위한 스펙트럼 특이성과 효율을 밝혀낸다. a, SpCas9의 조합 돌연변이체는 2개의 생물학적 복제물로부터의 프로파일링 데이터를 기반으로 각각의 온-타겟 (x-축) 및 오프-타겟 (y-축) 리포터 세포주에 대해 상기 분류된 RFP-고갈된 세포 집단에서의 상대적 존재도를 나타내는 로그-변환된 강화 비율 (즉, log2(E))에 의해 순위가 매겨졌다 (세부사항에 관해서는 표 2 및 방법 항목 참조). 산점도의 각각의 점은 SpCas9 변이체를 나타내며, WT SpCas9, eSpCas9(1.1), Opti-SpCas9, 및 OptiHF-SpCas9가 표지된다. >99%의 조합 돌연변이체는 2개의 오프-타겟 리포터 라인 RFPsg5-OFF5-2 및 RFPsg8-OFF5에서 WT보다 더 낮은 log2(E)를 갖는 반면, 돌연변이체의 16.2% 및 2.5%는 2개의 온-타겟 리포터 라인 RFPsg5-ON 및 RFPsg8-ON 각각에서 WT보다 더 높은 log2(E)를 가졌다. b, 온-타겟 (상단 패널) 및 오프-타겟 (하단 패널) 부위를 정착시킨 OVCAR8-ADR 리포터 세포를 개별 SpCas9 조합 돌연변이체로 감염시켰다. SpCas9 변이체의 편집 효율은 고갈된 RFP 수준을 갖는 세포 백분율로서 측정되었고, 이를 WT와 비교하였다.
도 4. 온-타겟 및 오프-타겟 부위에 대한 편집 효율과 상위성을 나타내는 히트맵. 편집 효율 (상부 패널; log2(E)로서 측정됨) 및 상위성 (하부 패널; ε) 점수는 방법 항목에 기재된 바와 같이 각각의 SpCas9 조합 돌연변이체에 대해 결정되었다. 시각화를 돕기 위해, 표적 DNA 가닥과 접촉할 것으로 예측되거나 또는 SpCas9의 HNH 도메인과 RuvC 도메인을 연결하는 링커 영역에 위치하는 아미노산 잔기는 y-축에 군을 형성하는 반면, 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 아미노산 잔기는 x-축에 제시된다. 각각의 조합의 log2(E)에 대한 P-값은 log2(E)를 2-샘플, 양측 스튜던트 t-검정 (MATLAB 함수 'ttest2')을 사용하여 2개의 독립적인 생물학적 복제물로부터 수득된 전체 집단 내에 함유된 것과 비교함으로써 계산된다. 조정된 P-값 (즉, Q-값)은 다중 가설 검정을 교정하기 위해 P-값의 분포도 (MATLAB 함수 'mafdr')를 기반으로 하여 계산된다. log2(E)는 <0.1에서 Q-값 컷오프를 기반으로 전체 집단에 비해 통계적으로 유의미한 것으로 간주되었으며, 박스로 표시된다. 전체 히트맵은 도 10에 전체적으로 제시되어 있다. 강화 비율 또는 상위성 점수가 측정되지 않은 조합은 회색으로 표시된다.
도 5. Opti-SpCas9는 강력한 온-타겟 활성과 감소된 오프-타겟 활성을 나타낸다. a-b, 내인성 로커스를 표적화하는 gRNA를 사용한 효율적인 온-타겟 편집을 위한 SpCas9 변이체의 평가. indel의 백분율은 T7 엔도뉴클레아제 I (T7E1) 검정을 사용하여 측정되었다. WT [(a)에서] 및 Opti-SpCas9 [(b)에서]에 대한 SpCas9 변이체의 온-타겟 활성의 비율을 결정하였고, indel 형성의 정규화된 백분율에 대한 중앙값 및 사분위수 범위가 시험된 10개 내지 16개 로커스에 대해 표시된다. 각각의 로커스를 1회 또는 2회 측정하고, 전체 데이터세트가 도 12에 제시되어 있다. c, 표시된 gRNA와 각각 쌍을 형성하는 SpCas9 변이체 패널에 대한 GUIDE-Seq 게놈 전반에서의 특이성 프로파일. 오프-타겟 부위에서 미스매칭된 위치는 색상으로 강조 표시되고, GUIDE-Seq 리드 카운트는 주어진 부위에서의 절단 효율의 측정 기준으로서 사용되었다. 사용된 gRNA 서열의 목록이 표 5에 제시된다.
도 6. 단백질 서열 상의 조합 돌연변이를 특징규명하기 위한 전략의 예.
도 7. 바코딩된 조합 돌연변이체 라이브러리 풀의 이음새 없는 어셈블리를 위한 전략. a, 저장 벡터에 바코딩된 DNA 부분을 창출하기 위해, 유전적 삽입물을 PCR 또는 합성에 의해 생성하고, 깁슨(Gibson) 어셈블리 반응을 사용하여 무작위 바코드를 정착시킨 저장 벡터 (pAWp61 및 pAWp62; EcoRI 및 BamHI로 소화됨)에 클로닝하였다. BsaI 소화를 수행하여 바코딩된 DNA 부분 (즉, P1, P2,…, P(n))을 생성하였다. 바코드 시퀀싱을 위한 BbsI 부위와 프라이머-결합 부위는 pAWp61 및 pAWp62 각각에 대한 삽입물과 바코드 사이에 도입되었다. b, 바코딩된 조합 돌연변이체 라이브러리를 창출하기 위해, 풀링된 DNA 부분 및 대상 어셈블리 벡터를 BsaI 및 BbsI로 각각 소화시켰다. 원-포트 라이게이션은 풀링된 벡터 라이브러리를 창출하였으며, 이를 추가로 반복적으로 소화시키고 후속 DNA 부분 풀과 라이게이션하여 고차 조합 돌연변이체를 생성하였다. 바코딩된 삽입물은 유형 IIS 제한 효소 (즉, BsaI 및 BbsI)로 소화시킨 후 단백질-코딩 서열로부터 유래된 양립성 오버행과 연결되며, 그에 의해 라이게이션 반응에서는 융합 흉터가 형성되지 않았다. 모든 바코드는 DNA의 연속 연장물에 국한되었다. 최종 조합 돌연변이체 라이브러리는 렌티바이러스에서 코딩되었고, 표적화된 인간 세포로 전달되었다. 각각의 조합을 나타내는 통합된 바코드는 편향되지 않은 방식으로 풀링된 세포 집단 내의 게놈 DNA로부터 증폭되었고, 고처리량 시퀀싱을 사용하여 정량화되어 상이한 실험 조건 하에서 표현의 변화를 확인하였다. c, 플라스미드와 감염된 세포 풀 간의 고도로 재현가능한 표현 뿐만 아니라 감염된 세포 풀의 생물학적 복제물 간의 고도로 재현가능한 표현을 보여주기 위한 것이다.
도 8. 온-타겟 및 오프-타겟 리포터를 정착시킨 SpCas9 라이브러리-감염된 인간 세포의 형광-활성화된 세포 분류. UBC 및 CMV 프로모터에 의해 각각 구동된 RFP 및 GFP 유전자를 발현하는 OVCAR8-ADR 리포터 세포주, 및 RFP 부위를 표적화하는 gRNA (RFPsg5 또는 RFPsg8)의 탠덤 U6 프로모터-구동된 발현 카세트는 비감염되거나 또는 SpCas9 라이브러리로 감염시켰다. RFPsg5-ON 및 RFPsg8-ON 라인은 gRNA 서열과 완전히 매칭되는 부위를 정착시킨 반면, RFPsg5-OFF5-2 및 RFPsg8-OFF5 라인은 RFP 상에 동의 돌연변이를 함유하고 gRNA와 미스매칭된다. 세포를 유동 세포계수법 하에, 각각 낮은 RFP 형광을 갖는 집단의 ~5%를 포괄하는 빈으로 분류하였다. 이들 실험은 유사한 결과를 나타내면서 독립적으로 2회 반복되었다.
도 9. 풀링된 스크린으로부터 결정된 강화 점수와 개별 검증 데이터 간의 양의 상관 관계. 각각의 SpCas9 조합 돌연변이체에 대한 정규화된 log2(E)는 2개의 생물학적 복제물에서 풀링된 스크린으로부터 결정된 평균 점수이며, 정규화된 RFP 붕괴 값은 3개의 생물학적 복제물로부터 결정된 WT와 비교할 때 고갈된 RFP 수준을 갖는 평균 세포 백분율이다. R은 피어슨(Pearson)의 r이다.
도 10. 온-타겟 및 오프-타겟 부위에 대한 편집 효율을 나타내는 히트맵. 편집 효율은 각각의 SpCas9 조합 돌연변이체에 대해 결정된 로그-변환된 강화 비율 (log2(E))에 의해 측정되었다. 강화 및 고갈된 돌연변이체는 각각 >0 및 <0을 갖는다. 시각화를 돕기 위해, 표적 DNA 가닥과 접촉할 것으로 예측되거나 또는 SpCas9의 HNH 도메인과 RuvC 도메인을 연결하는 링커 영역에 위치하는 아미노산 잔기는 y-축에 군을 형성하는 반면, 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 아미노산 잔기는 x-축에 제시된다. 강화되지 않은 것에 대한 조합은 회색으로 표시된다.
도 11. 참조 인간 게놈에서 N20-NGG 및 G-N19-NGG 부위의 빈도. 커스텀 파이썬(Python) 코드를 사용하여, Opti-SpCas9 및 eSpCas9(1.1), SpCas9-HF1, HypaCas9, 및 evoCas9 각각을 포함한 다른 조작된 SpCas9 변이체의 표적화 범위의 추정치로서 참조 인간 게놈 hg19의 두 가닥 모두에서 N20-NGG 및 G-N19-NGG 부위의 발생을 찾았다. N20-NGG 부위는 인간 게놈에서 G-N19-NGG 부위보다 약 4.3배 더 자주 발생한다.
도 12. OVCAR8-ADR 세포에서 DNA 미스매치 절단에 대한 T7 엔도뉴클레아제 I (T7E1) 검정 결과의 요약. 세포를 SpCas9 변이체 및 표시된 gRNA로 감염시키고, 감염 후 11일 내지 16일 후에 T7E1 검정을 위해 게놈 DNA를 수집하였다. 감염된 샘플에 대한 Indel 정량화는 막대 그래프로서 표시된다.
도 13. OVCAR8-ADR 세포에서의 SpCas9 변이체의 발현. 세포는 WT SpCas9, Opti-SpCas9, eSpCas9(1.1), HypaCas9, SpCas9-HF1, Sniper-Cas9, evoCas9, xCas9, 또는 OptiHF-SpCas9를 코딩하는 렌티바이러스로 감염시켰다. 단백질 용해물은 웨스턴 블롯 분석을 위해 추출되었고, 항-SpCas9 항체로 이뮤노블롯팅되었다. 베타-액틴이 부하 대조군으로서 사용되었다. SpCas9-HF1 및 xCas9의 발현은 OVCAR8-ADR 세포에서 검출되지 않았으며, 이는 포유 동물 세포에서의 발현을 위해 비-최적화된 서열때문일 수 있으므로24,49, SpCas9-HF1 및 xCas9는 다른 활성 검정에 포함되지 않았다. 이들 실험은 유사한 결과를 나타내면서 독립적으로 3회 반복되었다.
도 14. GFP 붕괴 검정을 사용하여 부가의 미스매칭된 5' 구아닌 (5'G)을 보유하거나 또는 이것이 결여된 gRNA를 갖는 SpCas9 변이체의 편집 효율의 평가. WT SpCas9, Opti-SpCas9, eSpCas9(1.1), 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 부가의 미스매칭된 5'G를 수반하거나 또는 이것이 결여된 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법을 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 값 및 오차 막대는 4개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 15. Opti-SpCas9는 야생형 SpCas9와 비교할 때 감소된 오프-타겟 활성을 나타낸다. 8개의 내인성 로커스에서 VEGFA 부위 3 또는 DNMT1 부위 4 gRNA에 의해 야기된 오프-타겟 편집에 대한 SpCas9 변이체의 평가. indel의 백분율은 3가지 독립적인 실험으로부터 평균을 낸 T7E1 검정을 사용하여 측정되었다. 대시는 검출된 것이 없다는 것을 표시한다. WT SpCas9 및 OFF1 로커스에서 VEGFA 부위 3 gRNA를 갖는 그의 변이체의 특이성은 온-타겟 활성 대 오프-타겟 활성 (온-타겟 활성 데이터는 도 12로부터 수득되었음)의 비율로서 플롯팅되었다.
도 16. GFP 붕괴 검정을 사용하여 gRNA의 스페이서와 완벽하게 매칭되거나 또는 미스매치(들)를 함유하는 서열을 정착시킨 표적 부위를 편집하기 위한 SpCas9 변이체의 특징규명. WT SpCas9, Opti-SpCas9, eSpCas9(1.1) 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 표적에 대항하여 미스매치가 없거나 또는 1- 내지 4-염기 미스매치(들)를 수반하는 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법을 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 값 및 오차 막대는 3개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 17. 말단절단된 gRNA를 갖는 SpCas9 변이체의 온-타겟 편집 활성. a, b, WT SpCas9, Opti-SpCas9, eSpCas9(1.1), 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 GFP 서열 (a) 및 내인성 로커스 (b)를 표적화하는 다양한 길이 (17개 내지 19개의 뉴클레오티드)의 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법 (a) 및 T7E1 검정 (b)를 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 사용된 gRNA 서열의 목록이 표 5에 제시된다. (a)의 경우, 값 및 오차 막대는 4개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 18. 다중 서열 정렬 - 스트렙토코쿠스 피오게네스의 Cas9 동족체의 비교. Cas9 동족체 중 보존된 아미노산 잔기, 특히 SpCas9 잔기 661 및 1003에 상응하는 아미노산 잔기가 표시된다.
도 2. 인간 세포에서 SpCas9 변이체의 온-타겟 및 오프-타겟 활성을 프로파일링하기 위한 전략. a, SpCas9 라이브러리는 UBC 및 CMV 프로모터에 의해 각각 구동된 RFP 및 GFP 유전자를 발현하는 OVCAR8-ADR 리포터 세포주 및 RFP 부위를 표적화하는 gRNA (RFPsg5 또는 RFPsg8)의 탠덤 U6 프로모터-구동된 발현 카세트에 ~0.3의 감염 다중도로 렌티바이러스를 통해 전달되었다. RFP 및 GFP 발현은 유동 세포계수법 하에 분석되었다. SpCas9의 온-타겟 활성은 gRNA 스페이서 서열이 RFP 표적 부위와 완전하게 매칭될 때 측정된 반면, 그의 오프-타겟 활성은 RFP 표적 부위에 동의 돌연변이가 정착될 때 측정되었다. 활성 SpCas9 변이체를 정착시킨 세포는 RFP 형광을 상실할 것으로 예상되었다. 세포는 RFP 형광을 기반으로 집단의 ~5%를 포괄하는 빈(bin)으로 분류되었으며, 일루미나(Illumina) HiSeq에 의해 바코딩된 SpCas9 변이체의 정량화를 위해 게놈 DNA가 추출되었다. b, 상기와 같이 분류된 빈 (즉, A, B 및 C)과 비분류된 집단 간의 각각의 SpCas9 변이체의 바코드 카운트를 비교하는 산점도. 각각의 점은 SpCas9 변이체를 나타내며, WT SpCas9 및 eSpCas9(1.1)가 플롯에 표지된다. 실선 참조 선은 바코드 카운트에 있어서의 1.5배 강화 및 0.5배 고갈을 나타내며, 점선 참조 선은 비분류된 집단과 비교하여 분류된 빈에서 바코드 카운트 상의 변화가 없다는 것을 나타낸다.
도 3. 고처리량 프로파일링은 SpCas9 조합 돌연변이체의 광범위한 스펙트럼 특이성과 효율을 밝혀낸다. a, SpCas9의 조합 돌연변이체는 2개의 생물학적 복제물로부터의 프로파일링 데이터를 기반으로 각각의 온-타겟 (x-축) 및 오프-타겟 (y-축) 리포터 세포주에 대해 상기 분류된 RFP-고갈된 세포 집단에서의 상대적 존재도를 나타내는 로그-변환된 강화 비율 (즉, log2(E))에 의해 순위가 매겨졌다 (세부사항에 관해서는 표 2 및 방법 항목 참조). 산점도의 각각의 점은 SpCas9 변이체를 나타내며, WT SpCas9, eSpCas9(1.1), Opti-SpCas9, 및 OptiHF-SpCas9가 표지된다. >99%의 조합 돌연변이체는 2개의 오프-타겟 리포터 라인 RFPsg5-OFF5-2 및 RFPsg8-OFF5에서 WT보다 더 낮은 log2(E)를 갖는 반면, 돌연변이체의 16.2% 및 2.5%는 2개의 온-타겟 리포터 라인 RFPsg5-ON 및 RFPsg8-ON 각각에서 WT보다 더 높은 log2(E)를 가졌다. b, 온-타겟 (상단 패널) 및 오프-타겟 (하단 패널) 부위를 정착시킨 OVCAR8-ADR 리포터 세포를 개별 SpCas9 조합 돌연변이체로 감염시켰다. SpCas9 변이체의 편집 효율은 고갈된 RFP 수준을 갖는 세포 백분율로서 측정되었고, 이를 WT와 비교하였다.
도 4. 온-타겟 및 오프-타겟 부위에 대한 편집 효율과 상위성을 나타내는 히트맵. 편집 효율 (상부 패널; log2(E)로서 측정됨) 및 상위성 (하부 패널; ε) 점수는 방법 항목에 기재된 바와 같이 각각의 SpCas9 조합 돌연변이체에 대해 결정되었다. 시각화를 돕기 위해, 표적 DNA 가닥과 접촉할 것으로 예측되거나 또는 SpCas9의 HNH 도메인과 RuvC 도메인을 연결하는 링커 영역에 위치하는 아미노산 잔기는 y-축에 군을 형성하는 반면, 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 아미노산 잔기는 x-축에 제시된다. 각각의 조합의 log2(E)에 대한 P-값은 log2(E)를 2-샘플, 양측 스튜던트 t-검정 (MATLAB 함수 'ttest2')을 사용하여 2개의 독립적인 생물학적 복제물로부터 수득된 전체 집단 내에 함유된 것과 비교함으로써 계산된다. 조정된 P-값 (즉, Q-값)은 다중 가설 검정을 교정하기 위해 P-값의 분포도 (MATLAB 함수 'mafdr')를 기반으로 하여 계산된다. log2(E)는 <0.1에서 Q-값 컷오프를 기반으로 전체 집단에 비해 통계적으로 유의미한 것으로 간주되었으며, 박스로 표시된다. 전체 히트맵은 도 10에 전체적으로 제시되어 있다. 강화 비율 또는 상위성 점수가 측정되지 않은 조합은 회색으로 표시된다.
도 5. Opti-SpCas9는 강력한 온-타겟 활성과 감소된 오프-타겟 활성을 나타낸다. a-b, 내인성 로커스를 표적화하는 gRNA를 사용한 효율적인 온-타겟 편집을 위한 SpCas9 변이체의 평가. indel의 백분율은 T7 엔도뉴클레아제 I (T7E1) 검정을 사용하여 측정되었다. WT [(a)에서] 및 Opti-SpCas9 [(b)에서]에 대한 SpCas9 변이체의 온-타겟 활성의 비율을 결정하였고, indel 형성의 정규화된 백분율에 대한 중앙값 및 사분위수 범위가 시험된 10개 내지 16개 로커스에 대해 표시된다. 각각의 로커스를 1회 또는 2회 측정하고, 전체 데이터세트가 도 12에 제시되어 있다. c, 표시된 gRNA와 각각 쌍을 형성하는 SpCas9 변이체 패널에 대한 GUIDE-Seq 게놈 전반에서의 특이성 프로파일. 오프-타겟 부위에서 미스매칭된 위치는 색상으로 강조 표시되고, GUIDE-Seq 리드 카운트는 주어진 부위에서의 절단 효율의 측정 기준으로서 사용되었다. 사용된 gRNA 서열의 목록이 표 5에 제시된다.
도 6. 단백질 서열 상의 조합 돌연변이를 특징규명하기 위한 전략의 예.
도 7. 바코딩된 조합 돌연변이체 라이브러리 풀의 이음새 없는 어셈블리를 위한 전략. a, 저장 벡터에 바코딩된 DNA 부분을 창출하기 위해, 유전적 삽입물을 PCR 또는 합성에 의해 생성하고, 깁슨(Gibson) 어셈블리 반응을 사용하여 무작위 바코드를 정착시킨 저장 벡터 (pAWp61 및 pAWp62; EcoRI 및 BamHI로 소화됨)에 클로닝하였다. BsaI 소화를 수행하여 바코딩된 DNA 부분 (즉, P1, P2,…, P(n))을 생성하였다. 바코드 시퀀싱을 위한 BbsI 부위와 프라이머-결합 부위는 pAWp61 및 pAWp62 각각에 대한 삽입물과 바코드 사이에 도입되었다. b, 바코딩된 조합 돌연변이체 라이브러리를 창출하기 위해, 풀링된 DNA 부분 및 대상 어셈블리 벡터를 BsaI 및 BbsI로 각각 소화시켰다. 원-포트 라이게이션은 풀링된 벡터 라이브러리를 창출하였으며, 이를 추가로 반복적으로 소화시키고 후속 DNA 부분 풀과 라이게이션하여 고차 조합 돌연변이체를 생성하였다. 바코딩된 삽입물은 유형 IIS 제한 효소 (즉, BsaI 및 BbsI)로 소화시킨 후 단백질-코딩 서열로부터 유래된 양립성 오버행과 연결되며, 그에 의해 라이게이션 반응에서는 융합 흉터가 형성되지 않았다. 모든 바코드는 DNA의 연속 연장물에 국한되었다. 최종 조합 돌연변이체 라이브러리는 렌티바이러스에서 코딩되었고, 표적화된 인간 세포로 전달되었다. 각각의 조합을 나타내는 통합된 바코드는 편향되지 않은 방식으로 풀링된 세포 집단 내의 게놈 DNA로부터 증폭되었고, 고처리량 시퀀싱을 사용하여 정량화되어 상이한 실험 조건 하에서 표현의 변화를 확인하였다. c, 플라스미드와 감염된 세포 풀 간의 고도로 재현가능한 표현 뿐만 아니라 감염된 세포 풀의 생물학적 복제물 간의 고도로 재현가능한 표현을 보여주기 위한 것이다.
도 8. 온-타겟 및 오프-타겟 리포터를 정착시킨 SpCas9 라이브러리-감염된 인간 세포의 형광-활성화된 세포 분류. UBC 및 CMV 프로모터에 의해 각각 구동된 RFP 및 GFP 유전자를 발현하는 OVCAR8-ADR 리포터 세포주, 및 RFP 부위를 표적화하는 gRNA (RFPsg5 또는 RFPsg8)의 탠덤 U6 프로모터-구동된 발현 카세트는 비감염되거나 또는 SpCas9 라이브러리로 감염시켰다. RFPsg5-ON 및 RFPsg8-ON 라인은 gRNA 서열과 완전히 매칭되는 부위를 정착시킨 반면, RFPsg5-OFF5-2 및 RFPsg8-OFF5 라인은 RFP 상에 동의 돌연변이를 함유하고 gRNA와 미스매칭된다. 세포를 유동 세포계수법 하에, 각각 낮은 RFP 형광을 갖는 집단의 ~5%를 포괄하는 빈으로 분류하였다. 이들 실험은 유사한 결과를 나타내면서 독립적으로 2회 반복되었다.
도 9. 풀링된 스크린으로부터 결정된 강화 점수와 개별 검증 데이터 간의 양의 상관 관계. 각각의 SpCas9 조합 돌연변이체에 대한 정규화된 log2(E)는 2개의 생물학적 복제물에서 풀링된 스크린으로부터 결정된 평균 점수이며, 정규화된 RFP 붕괴 값은 3개의 생물학적 복제물로부터 결정된 WT와 비교할 때 고갈된 RFP 수준을 갖는 평균 세포 백분율이다. R은 피어슨(Pearson)의 r이다.
도 10. 온-타겟 및 오프-타겟 부위에 대한 편집 효율을 나타내는 히트맵. 편집 효율은 각각의 SpCas9 조합 돌연변이체에 대해 결정된 로그-변환된 강화 비율 (log2(E))에 의해 측정되었다. 강화 및 고갈된 돌연변이체는 각각 >0 및 <0을 갖는다. 시각화를 돕기 위해, 표적 DNA 가닥과 접촉할 것으로 예측되거나 또는 SpCas9의 HNH 도메인과 RuvC 도메인을 연결하는 링커 영역에 위치하는 아미노산 잔기는 y-축에 군을 형성하는 반면, 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 아미노산 잔기는 x-축에 제시된다. 강화되지 않은 것에 대한 조합은 회색으로 표시된다.
도 11. 참조 인간 게놈에서 N20-NGG 및 G-N19-NGG 부위의 빈도. 커스텀 파이썬(Python) 코드를 사용하여, Opti-SpCas9 및 eSpCas9(1.1), SpCas9-HF1, HypaCas9, 및 evoCas9 각각을 포함한 다른 조작된 SpCas9 변이체의 표적화 범위의 추정치로서 참조 인간 게놈 hg19의 두 가닥 모두에서 N20-NGG 및 G-N19-NGG 부위의 발생을 찾았다. N20-NGG 부위는 인간 게놈에서 G-N19-NGG 부위보다 약 4.3배 더 자주 발생한다.
도 12. OVCAR8-ADR 세포에서 DNA 미스매치 절단에 대한 T7 엔도뉴클레아제 I (T7E1) 검정 결과의 요약. 세포를 SpCas9 변이체 및 표시된 gRNA로 감염시키고, 감염 후 11일 내지 16일 후에 T7E1 검정을 위해 게놈 DNA를 수집하였다. 감염된 샘플에 대한 Indel 정량화는 막대 그래프로서 표시된다.
도 13. OVCAR8-ADR 세포에서의 SpCas9 변이체의 발현. 세포는 WT SpCas9, Opti-SpCas9, eSpCas9(1.1), HypaCas9, SpCas9-HF1, Sniper-Cas9, evoCas9, xCas9, 또는 OptiHF-SpCas9를 코딩하는 렌티바이러스로 감염시켰다. 단백질 용해물은 웨스턴 블롯 분석을 위해 추출되었고, 항-SpCas9 항체로 이뮤노블롯팅되었다. 베타-액틴이 부하 대조군으로서 사용되었다. SpCas9-HF1 및 xCas9의 발현은 OVCAR8-ADR 세포에서 검출되지 않았으며, 이는 포유 동물 세포에서의 발현을 위해 비-최적화된 서열때문일 수 있으므로24,49, SpCas9-HF1 및 xCas9는 다른 활성 검정에 포함되지 않았다. 이들 실험은 유사한 결과를 나타내면서 독립적으로 3회 반복되었다.
도 14. GFP 붕괴 검정을 사용하여 부가의 미스매칭된 5' 구아닌 (5'G)을 보유하거나 또는 이것이 결여된 gRNA를 갖는 SpCas9 변이체의 편집 효율의 평가. WT SpCas9, Opti-SpCas9, eSpCas9(1.1), 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 부가의 미스매칭된 5'G를 수반하거나 또는 이것이 결여된 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법을 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 값 및 오차 막대는 4개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 15. Opti-SpCas9는 야생형 SpCas9와 비교할 때 감소된 오프-타겟 활성을 나타낸다. 8개의 내인성 로커스에서 VEGFA 부위 3 또는 DNMT1 부위 4 gRNA에 의해 야기된 오프-타겟 편집에 대한 SpCas9 변이체의 평가. indel의 백분율은 3가지 독립적인 실험으로부터 평균을 낸 T7E1 검정을 사용하여 측정되었다. 대시는 검출된 것이 없다는 것을 표시한다. WT SpCas9 및 OFF1 로커스에서 VEGFA 부위 3 gRNA를 갖는 그의 변이체의 특이성은 온-타겟 활성 대 오프-타겟 활성 (온-타겟 활성 데이터는 도 12로부터 수득되었음)의 비율로서 플롯팅되었다.
도 16. GFP 붕괴 검정을 사용하여 gRNA의 스페이서와 완벽하게 매칭되거나 또는 미스매치(들)를 함유하는 서열을 정착시킨 표적 부위를 편집하기 위한 SpCas9 변이체의 특징규명. WT SpCas9, Opti-SpCas9, eSpCas9(1.1) 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 표적에 대항하여 미스매치가 없거나 또는 1- 내지 4-염기 미스매치(들)를 수반하는 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법을 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 값 및 오차 막대는 3개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 17. 말단절단된 gRNA를 갖는 SpCas9 변이체의 온-타겟 편집 활성. a, b, WT SpCas9, Opti-SpCas9, eSpCas9(1.1), 또는 HypaCas9를 발현하는 OVCAR8-ADR 세포는 GFP 서열 (a) 및 내인성 로커스 (b)를 표적화하는 다양한 길이 (17개 내지 19개의 뉴클레오티드)의 gRNA를 코딩하는 렌티바이러스로 감염시켰다. 편집 효율은 유동 세포계수법 (a) 및 T7E1 검정 (b)를 사용하여 고갈된 GFP 수준을 갖는 세포 백분율로서 측정되었다. 사용된 gRNA 서열의 목록이 표 5에 제시된다. (a)의 경우, 값 및 오차 막대는 4개의 독립적인 생물학적 복제물의 평균 및 s.d.를 반영한다.
도 18. 다중 서열 정렬 - 스트렙토코쿠스 피오게네스의 Cas9 동족체의 비교. Cas9 동족체 중 보존된 아미노산 잔기, 특히 SpCas9 잔기 661 및 1003에 상응하는 아미노산 잔기가 표시된다.
정의
본원에 사용된 바와 같은 "CRISPR-Cas9" 또는 "Cas9"는 스트렙토코쿠스 피오게네스를 포함한 일부 박테리아 종에서 발견된 CRISPR (클러스터링된 규칙적 간격의 짧은 팔린드롬성 반복부) 적응 면역 체계과 연관된 RNA-가이드된 DNA 엔도뉴클레아제 효소인 CRISPR 관련 단백질 9를 지칭한다. 스트렙토코쿠스 피오게네스 기원의 Cas9 단백질인 SpCas9는 서열식별번호: 2에 제시된 폴리뉴클레오티드 서열에 의해 코딩되는, 서열식별번호: 1에 제시된 아미노산 서열을 가지고 있다. 공지된 주요 보존된 잔기, 예컨대 서열식별번호: 1의 잔기 661, 695, 848, 923, 924, 926, 1003, 및 1060의 적어도 일부 (예를 들어, 적어도 2, 3, 4, 5개 또는 그 초과, 예컨대 적어도 절반이지만 반드시 전부는 아님)를 포함한 중요한 서열 상동성을 갖는 부가의 Cas9 효소 (도 18에서의 서열 정렬 참조). 본원에 사용된 바와 같은, 용어 "Cas9 단백질"은 서열식별번호: 1과의 실질적인 아미노산 서열 동일성, 예를 들어, 적어도 50%, 60%, 70%, 75%, 80% 이하, 85% 또는 그 초과의 전반적인 서열 동일성을 공유하는 임의의 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포괄한다. 예시적인 야생형 Cas9 단백질은 서열식별번호: 4-13에 제시된 아미노산 서열을 각각 갖는, 박테리아 종 스트렙토코쿠스 뮤탄스(Streptococcus mutans), 스트렙토코쿠스 디스갈락티아에(Streptococcus dysgalactiae), 스트렙토코쿠스 에퀴(Streptococcus equi), 스트렙토코쿠스 오랄리스(Streptococcus oralis), 스트렙토코쿠스 미티스(Streptococcus mitis), 리스테리아 모노시토게네스(Listeria monocytogenes), 엔테로코쿠스 티모넨시스(Enterococcus timonensis), 스트렙토코쿠스 써모필루스(Streptococcus thermophilus), 및 스트렙토코쿠스 파라산구이니스(Streptococcus parasanguinis)으로부터의 것을 포함한다.
용어 "핵산" 또는 "폴리뉴클레오티드"는 단일- 또는 이중-가닥 형태의 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 및 그의 중합체를 지칭한다. 특별히 제한되지 않는 한, 상기 용어는 참조 핵산과 유사한 결합 특성을 갖고 자연적으로 발생하는 뉴클레오티드와 유사한 방식으로 대사되는 자연 뉴클레오티드의 공지된 유사체를 함유하는 핵산을 포괄한다. 달리 표시되지 않는 한, 특별한 핵산 서열은 또한 그의 보존적으로 변형된 변이체 (예를 들어, 축퇴성 코돈 치환) 및 상보적 서열 뿐만 아니라 명시적으로 표시된 서열을 암시적으로 포괄한다. 구체적으로, 축퇴성 코돈 치환은 하나 이상의 선택된 (또는 모든) 코돈의 제3 위치가 혼합-염기 및/또는 데옥시이노신 잔기로 치환되는 서열을 생성함으로써 달성될 수 있다 (Batzer et al., Nucleic Acid Res., 19:5081 (1991); Ohtsuka et al., J. Biol. Chem., 260:2605-2608 (1985); 및 Cassol et al., (1992); Rossolini et al., Mol. Cell. Probes, 8:91-98 (1994)). 용어 핵산 및 폴리뉴클레오티드는 유전자, cDNA, 및 특정 유전자에 의해 코딩된 mRNA와 상호교환적으로 사용된다.
용어 "폴리펩티드", "펩티드" 및 "단백질"은 아미노산 잔기의 중합체를 지칭하기 위해 본원에서 상호교환적으로 사용된다. 이러한 용어는 하나 이상의 아미노산 잔기가 상응하는 자연적으로 발생하는 아미노산의 인공 화학적 모방체인 아미노산 중합체 뿐만 아니라 자연적으로 발생하는 아미노산 중합체 및 비-자연적으로 발생하는 아미노산 중합체에도 적용된다. 본원에 사용된 바와 같은, 상기 용어는 완전한 길이의 단백질 (즉, 항원)을 포함하여 임의의 길이의 아미노산 쇄를 포괄하며, 여기서 아미노산 잔기는 공유 펩티드 결합에 의해 연결된다.
용어 "아미노산"은 자연적으로 발생하는 아미노산 및 합성 아미노산 뿐만 아니라 자연적으로 발생하는 아미노산과 유사한 방식으로 기능하는 아미노산 유사체 및 아미노산 모방체를 지칭한다. 자연적으로 발생하는 아미노산은 유전 코드에 의해 코딩된 것 뿐만 아니라 나중에 변형되는 아미노산, 예를 들어, 히드록시프롤린, γ-카르복시글루타메이트 및 O-포스포세린이다. 아미노산 유사체는 자연적으로 발생하는 아미노산과 동일한 기본 화학 구조, 즉 수소와 결합되는 α 탄소, 카르복실 기, 아미노 기 및 R 기를 갖는 화합물, 예를 들어, 호모세린, 노르류신, 메티오닌 술폭시드, 메티오닌 메틸 술포늄을 지칭한다. 이러한 유사체는 변형된 R 기 (예를 들어, 노르류신) 또는 변형된 펩티드 백본을 갖지만, 자연적으로 발생하는 아미노산과 동일한 기본 화학 구조를 유지한다. "아미노산 모방체"는 아미노산의 일반적인 화학 구조와 상이한 구조를 갖지만, 자연적으로 발생하는 아미노산과 유사한 방식으로 기능하는 화합물을 지칭한다.
아미노산은 IUPAC-IUB 생화학 명명 위원회에서 권장하는 통상적으로 공지된 3-문자 부호 또는 1-문자 부호로서 본원에 언급될 수 있다. 마찬가지로, 뉴클레오티드는 통상적으로 허용되는 단일 문자 코드로서 언급될 수 있다.
"발현 카세트"는 숙주 세포에서 특별한 폴리뉴클레오티드 서열의 전사를 허용하는 일련의 명시된 핵산 요소와 함께 재조합적으로 또는 합성적으로 생성된 핵산 구축물이다. 발현 카세트는 플라스미드, 바이러스 게놈 또는 핵산 단편의 일부일 수 있다. 전형적으로, 발현 카세트는 프로모터에 작동가능하게 연결된, 전사될 폴리뉴클레오티드를 포함한다. 이러한 맥락에서 "작동가능하게 연결된"은 둘 이상의 유전적 요소, 예컨대 코딩 서열의 전사를 지시하는 프로모터와 같은 요소의 적당한 생물학적 기능을 허용하는 상대적 위치에 배치된 폴리뉴클레오티드 코딩 서열과 프로모터를 의미한다. 발현 카세트에 존재할 수 있는 다른 요소는 전사를 증강시키고 (예를 들어, 인핸서) 전사를 종결시키는 요소 (예를 들어, 종결인자) 뿐만 아니라 발현 카세트로부터 생산된 재조합 단백질에 특정 결합 친화성 또는 항원성을 부여하는 요소를 포함한다.
"벡터"는 박테리아-기반 구조 (예를 들어, 플라스미드) 또는 바이러스-기반 구조 (예를 들어, 바이러스 게놈)로부터 재조합적으로 생산된 원형 핵산 구축물이다. 전형적으로 벡터는 하나 이상의 관심 유전적 성분 (예를 들어, 하나 이상의 단백질을 코딩하는 폴리뉴클레오티드 서열) 이외에, 자기 복제 기점을 함유한다. 일부 경우에, 벡터는 발현 카세트를 함유하여, 벡터를 발현 벡터로 만들 수 있다. 다른 경우에, 벡터는 코딩 서열의 발현을 위한 장치를 함유하지 않을 수 있지만, 오히려 하나 이상의 관심 유전적 성분 (예를 들어, 코딩 서열)을 저장하고/하거나 이들을 하나의 유전적 구축물로부터 또 다른 유전적 구축물로 전달하기 위한 운반체 또는 셔틀로서 작용할 수 있다. 임의로, 벡터는 항생제 내성 단백질 (예를 들어, 박테리아 숙주 세포의 검출을 위함) 또는 형광 단백질 (예를 들어, 진핵 숙주 세포의 검출을 위함)과 같은 단백질을 코딩할 수 있는 하나 이상의 선별 또는 확인 마커-코딩 서열을 추가로 포함하여, 벡터를 정착시키고 벡터로부터 단백질 발현을 허용하는 형질전환되거나 또는 형질감염된 숙주 세포를 즉시 검출할 수 있도록 한다.
재조합 구축물에서 두 요소, 예컨대 2개의 폴리뉴클레오티드 서열 또는 2개의 폴리펩티드 서열 간의 관계를 설명하는 맥락에서 사용될 때 용어 "이종"은 상기 두 요소가 2개의 상이한 기원으로부터 유래되어 현재 자연에서 찾을 수 없는 서로 상대적인 위치로 배치된다는 것을 설명한다. 예를 들어, 단백질 코딩 서열의 발현을 지시하는 "이종" 프로모터는 코딩 서열의 발현을 지시하는 자연에서 발견되지 않는 프로모터이다. 또 다른 예로서, 재조합 폴리펩티드를 형성하기 위해 "이종" 펩티드와 융합된 펩티드의 경우, 두 펩티드 서열은 2개의 상이한 모 단백질로부터 유래되거나 또는 동일한 단백질이지만 서로 바로 인접하지 않은 2개의 별도의 부분으로부터 유래된다. 다시 말해서, 서로 "이종"인 두 요소의 배치는 자연에서 발견될 수 있는 더 긴 폴리뉴클레오티드 또는 폴리펩티드 서열을 초래하지 않는다.
본원에 사용된 바와 같은, 용어 "바코드"는 폴리뉴클레오티드 서열의 짧은 연장물 (전형적으로 30개 이하의 뉴클레오티드, 예를 들어 약 4개 또는 5개 내지 약 6, 7, 8, 9, 10, 12, 20 또는 25개 뉴클레오티드)을 지칭하며, 이는 또 다른 사전-결정된 폴리뉴클레오티드 서열 (예를 들어, 관심 단백질, 예컨대 SpCas9에 대한 코딩 서열의 한 세그먼트)에 고유하게 할당되어, 바코드의 존재에 근거하여 사전-결정된 폴리뉴클레오티드 서열 또는 그의 코딩된 아미노산 서열의 검출/확인을 허용한다.
"유형 IIS 제한 효소"는 비대칭 DNA 서열을 인식하고 그의 인식 서열의 외부 (3' 또는 5'으로)를 절단하는 엔도뉴클레아제이다. 이들은 대칭 또는 팔린드롬성 DNA 서열을 인식하고 그의 인식 서열 내에서 절단하는 유형 IIP 제한 효소와 대조적으로 작용한다. 유형 IIS 제한 효소는 그의 인식 서열 외부에서 DNA 가닥을 커팅하기 때문에, 그의 인식 서열과는 독립적으로 사실상 어떠한 서열의 오버행도 생성할 수 있다. 따라서 2가지 상이한 유형 IIS 제한 효소를 사용하여 동일한 크기와 동일한 방향 오버행 (즉, 오버행이 둘 다 3' 또는 5' 오버행이고 동일한 수의 뉴클레오티드를 가짐)을 생성할 수 있을 뿐만 아니라 매칭된 오버행 또는 양립성 단부를 생성할 수 있어 (즉, 반대쪽 두 가닥 상의 오버행는 완전히 상보적임), 2가지 상이한 유형 IIS 제한 효소에 의해 생성된 두 단부 간의 어닐링 및 라이게이션을 허용할 것이다.
본원에 사용된 바와 같은, 용어 "짧은 가이드-RNA" 또는 "sgRNA"는 사전-결정된 표적 부위에서 DNA 분자에 특이적으로 결합하고 CRISPR 뉴클레아제가 표적 부위에 인접한 DNA 분자를 절단하도록 가이드하는 약 15 내지 50개 (예를 들어, 20, 25, 또는 30개) 뉴클레오티드 길이의 RNA 분자를 지칭한다.
뉴클레오티드 서열은 2개의 폴리뉴클레오티드 서열, 특히 2개의 단일-가닥 DNA 또는 RNA 서열이 서로 복합체를 형성하여, 2개 서열 간의 실질적인 또는 완전한 (예를 들어, 적어도 약 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 이하) 왓슨-크릭(Watson-Crick) 상보성에 근거하여 이중 가닥 구조를 형성할 때 또 다른 뉴클레오티드 서열에 "특이적으로 결합한다".
"생리학상 허용되는 부형제/담체" 및 "제약상 허용되는 부형제/담체"는 전달 표적 (세포, 조직 또는 살아있는 유기체)에 대한 활성제의 투여를 돕고 종종 그에 의한 흡수를 돕는 물질을 지칭하며, 수용자에게 큰 영향을 일으키지 않으면서 본 발명의 조성물에 포함될 수 있다. 생리학상/제약상 허용되는 부형제의 비-제한적인 예는 물, NaCl, 생리 식염수, 락테이티드 링거, 정상 슈크로스, 정상 글루코스, 결합제, 충전제, 붕해제, 윤활제, 코팅제, 감미료, 향료 및 착색제 등을 포함한다. 본원에 사용된 바와 같은, 용어 "생리학상/제약상 허용되는 부형제/담체"는 의도 된 용도에 적합한 임의의 및 모든 용매, 분산 매질, 코팅제, 항박테리아제 및 항진균제, 등장성 및 흡수 지연제 등을 포함하는 것으로 의도된다.
사전-결정된 값과 관련하여 사용될 때 용어 "약"은 그 값의 ±10%를 포괄하는 범위를 나타낸다.
상세한 설명
I. 일반사항
본 발명은 바람직한 생물학적 기능성을 갖는 재조합 단백질의 고효율 생성 및 확인을 위한 새롭게 개선된 고차 유전적 변형 및 스크리닝 플랫폼에 관한 것이다. 본 발명은 또한 이러한 플랫폼에 의해 생산된 재조합 단백질을 제공한다.
A. 재조합 기술
재조합 유전학 분야의 일반적인 방법과 기술을 개시하는 기본 텍스트는 문헌 [Sambrook and Russell, Molecular Cloning, A Laboratory Manual (3rd ed. 2001); Kriegler, Gene Transfer and Expression: A Laboratory Manual (1990); 및 Ausubel et al., eds., Current Protocols in Molecular Biology (1994)]을 포함한다.
핵산의 경우, 크기는 킬로염기 (kb) 또는 염기 쌍 (bp)으로 제공된다. 이들은 아가로스 또는 아크릴아미드 겔 전기영동, 시퀀싱된 핵산 또는 공개된 DNA 서열로부터 유래된 추정치다. 단백질의 경우, 크기는 킬로달톤 (kDa) 또는 아미노산 잔기 수로 제공된다. 단백질 크기는 겔 전기영동, 시퀀싱된 단백질, 유래된 아미노산 서열 또는 공개된 단백질 서열로부터 추정된다.
상업적으로 이용가능하지 않은 올리고뉴클레오티드는 문헌 [Van Devanter et al., Nucleic Acids Res. 12: 6159-6168 (1984)]에 기재된 바와 같이 자동화 합성화기를 사용하여, 예를 들어, 문헌 [Beaucage & Caruthers, Tetrahedron Lett. 22: 1859-1862 (1981)]에 처음 기재된 고체상 포스포르아미다이트 트리에스테르 방법에 따라 화학적으로 합성될 수 있다. 올리고뉴클레오티드의 정제는 문헌 [Pearson & Reanier, J. Chrom. 255: 137-149 (1983)]에 기재된 바와 같이 관련 기술분야에서 승인되고 있는 임의의 전략, 예를 들어, 천연 아크릴아미드 겔 전기영동 또는 음이온-교환 HPLC를 사용하여 수행된다.
관심 폴리펩티드, 예를 들어, SpCas9 단백질 또는 그의 단편을 코딩하는 폴리뉴클레오티드 서열, 및 합성 올리고뉴클레오티드는, 예를 들어, 문헌 [Wallace et al., Gene 16: 21-26 (1981)]의 이중 가닥 주형을 시퀀싱하기 위한 연쇄 종결 방법을 사용하여 클로닝 또는 서브클로닝 후에 검증될 수 있다.
B. 폴리뉴클레오티드 코딩 서열의 변형
사전-선택된 관심 단백질 (예를 들어, SpCas9)의 공지된 아미노산 서열을 고려하여, 관련 분야에 공지될 뿐만 아니라 본원에 기재된 시험관 내 또는 생체 내 방법에 의해 결정될 수 있는 바와 같이, 단백질의 바람직한 특징 또는 개선된 생물학적 기능성을 달성하기 위해 변형이 이루어질 수 있다. 아미노산 서열에 대한 가능한 변형은 아미노산 서열의 하나 이상의 위치에서의 하나 이상의 아미노산 잔기의 치환 (보존적 또는 비-보존적), 결실 또는 부가를 포함할 수 있다.
다양한 돌연변이-생성 프로토콜이 관련 기술분야에 확립되고 기재되어 있으며, 관심 단백질을 코딩하는 폴리뉴클레오티드 서열을 변형하기 위해 쉽게 사용될 수 있다. 예를 들어, 문헌 [Zhang et al., Proc. Natl. Acad. Sci. USA, 94: 4504-4509 (1997); 및 Stemmer, Nature, 370: 389-391 (1994)]을 참조한다. 절차는 핵산 세트의 변이체 및 이에 따라 코딩된 단백질의 변이체를 생산하기 위해 개별적으로 또는 조합하여 사용될 수 있다.
다양성을 생성하는 돌연변이 방법은, 예를 들어, 부위-지정 돌연변이유발 (문헌 [Botstein and Shortle, Science, 229: 1193-1201 (1985)]), 우라실-함유 주형을 사용한 돌연변이유발 (문헌 [Kunkel, Proc. Natl. Acad. Sci. USA, 82: 488-492 (1985)]), 올리고뉴클레오티드-지정 돌연변이유발 (문헌 [Zoller and Smith, Nucl. Acids Res., 10: 6487-6500 (1982)]), 포스포로티오에이트-변형된 DNA 돌연변이유발 (문헌 [Taylor et al., Nucl. Acids Res., 13: 8749-8764 and 8765-8787 (1985)]), 및 갭이 있는 이중 나선 DNA를 사용한 돌연변이유발 (문헌 [Kramer et al., Nucl. Acids Res., 12: 9441-9456 (1984)])을 포함한다.
돌연변이를 생성하기 위한 다른 가능한 방법은 점 미스매치 복구 (문헌 [Kramer et al., Cell, 38: 879-887 (1984)]), 복구-결핍성 숙주 계통을 사용한 돌연변이유발 (문헌 [Carter et al., Nucl. Acids Res., 13: 4431-4443 (1985)]), 결실 돌연변이유발 (문헌 [Eghtedarzadeh and Henikoff, Nucl. Acids Res., 14: 5115 (1986)]), 제한-선택 및 제한-정제 (문헌 [Wells et al., Phil. Trans. R. Soc. Lond. A, 317: 415-423 (1986)]), 전체 유전자 합성에 의한 돌연변이유발 (문헌 [Nambiar et al., Science, 223: 1299-1301 (1984)]), 이중 가닥 파손 복구 (문헌 [Mandecki, Proc. Natl. Acad. Sci. USA, 83: 7177-7181 (1986)]), 폴리뉴클레오티드 연쇄 종결 방법에 의한 돌연변이유발 (미국 특허 번호 5,965,408) 및 오류-유발 PCR (문헌 [Leung et al., Biotechniques, 1: 11-15 (1989)])을 포함한다.
C. 바람직한 코돈 사용빈도를 위한 핵산의 변형
관심 단백질 또는 그의 단편을 코딩하는 폴리뉴클레오티드 서열은 특별한 유형의 숙주 세포에서 재조합 발현을 증강시키거나 또는 잠재적인 절단/재-라이게이션을 위해 바람직한 부위에서 제한 엔도뉴클레아제 인식 서열의 구축을 허용하도록 추가의 유전적 조작을 용이하게 하기 위해 바람직한 코돈 사용빈도와 일치하도록 코돈 축퇴의 원리에 기초하여 추가로 변경될 수 있다. 후자의 사용빈도는 조합 돌연변이유발을 진행하는 표적 단백질 (예를 들어, SpCas9 단백질)의 다중 코딩 세그먼트의 이음새 없는 연결이 유형 IIS 제한 효소에 의한 코딩 세그먼트의 소화에 의존하여, 이들 세그먼트 중 임의의 2개 사이의 연접부에서 임의의 외부 서열 또는 소위 흉터 서열을 제거하도록 천연 단백질의 코딩 서열로부터 특이적으로 유래되는 오버행을 생성하기 때문에 본 발명에서 특히 중요하다.
변형이 완료되면, 코딩 서열이 시퀀싱에 의해 검증된 다음, 추가의 조작 또는 단백질의 재조합 발현을 위해 적절한 벡터로 서브클로닝된다.
D. 재조합 폴리펩티드의 발현
관심 재조합 폴리펩티드 (예를 들어, 개선된 Cas9 단백질)는 본원에 개시된 바와 같은 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열에 의존하여, 재조합 유전학 분야의 일상적인 기술을 사용하여 발현될 수 있다.
(i) 발현 시스템
관심 폴리펩티드를 코딩하는 핵산의 높은 수준의 발현을 수득하기 위해, 전형적으로 전사를 지시하는 강력한 프로모터, 전사/번역 종결인자 및 번역 개시를 위한 리보솜 결합 부위를 함유하는 발현 벡터로 폴리뉴클레오티드 코딩 서열을 서브클로닝한다. 적합한 박테리아 프로모터는 관련 기술분야에 널리 공지되어 있으며, 예를 들어, 상기 문헌 ([Sambrook and Russell] 참조, 및 [Ausubel et al.] 참조)에 기재되어 있다. 재조합 폴리펩티드를 발현하기 위한 박테리아 발현 시스템은, 예를 들어, 이. 콜라이, 바실루스 종(Bacillus sp.), 살모넬라(Salmonella), 및 카울로박터(Caulobacter)에서 이용가능하다. 이러한 발현 시스템을 위한 키트는 상업적으로 이용가능하다. 포유 동물 세포, 효모 및 곤충 세포를 위한 진핵 발현 시스템은 관련 기술분야에 널리 공지되어 있으며 또한 상업적으로 이용가능하다. 일부 예시적인 진핵 발현 벡터는 아데노바이러스 벡터, 아데노 관련 벡터 및 레트로바이러스 벡터, 예컨대 렌티바이러스로부터 유래된 바이러스 벡터를 포함한다.
관심 단백질을 코딩하는 이종 폴리뉴클레오티드 서열의 발현을 지시하는데 사용되는 프로모터는 특별한 적용에 의존한다. 프로모터는 그의 자연 환경에서의 전사 출발 부위로부터와 같이, 이종 전사 출발 부위로부터 거의 동일한 거리에 임의로 위치한다. 그러나, 관련 기술분야에 공지된 바와 같이, 이러한 거리에 있어서의 일부 변동은 프로모터 기능의 상실 없이 수용될 수 있다.
프로모터 이외에, 발현 벡터는 전형적으로 숙주 세포에서 원하는 폴리펩티드의 발현에 필요한 모든 부가의 요소를 함유하는 전사 단위 또는 발현 카세트를 포함한다. 따라서 전형적인 발현 카세트는 폴리펩티드를 코딩하는 핵산 서열에 작동가능하게 연결된 프로모터, 및 전사체의 효율적인 폴리아데닐화, 리보솜 결합 부위 및 번역 종결에 필요한 신호를 함유한다. 분비된 단백질의 재조합 발현의 경우, 이러한 단백질을 코딩하는 폴리뉴클레오티드 서열은 전형적으로 절단가능한 신호 펩티드 서열에 연결되어 형질전환된 세포에 의한 재조합 폴리펩티드의 분비를 촉진시킨다. 다른 한편으로는, 재조합 폴리펩티드가 숙주 세포 표면에서 발현되도록 의도된 경우, 적절한 고정 서열이 코딩 서열과 함께 사용된다. 카세트의 부가의 요소는 인핸서를 포함할 수 있으며, 게놈 DNA가 구조 유전자로서 사용되는 경우에는 기능적 스플라이스 공여자 및 수용자 부위가 있는 인트론을 포함할 수 있다.
프로모터 서열 이외에, 발현 카세트는 또한 효율적인 종결을 제공하기 위해 코딩 서열의 하류에 전사 종결 영역을 함유해야 한다. 종결 영역은 프로모터 서열과 동일한 유전자로부터 수득될 수 있거나 또는 상이한 유전자로부터 수득될 수 있다.
진핵 바이러스로부터의 조절 요소를 함유하는 발현 벡터는 전형적으로 진핵 발현 벡터, 예를 들어 SV40 벡터, 유두종 바이러스 벡터, 렌티바이러스 벡터 및 엡스타인 바르(Epstein-Barr) 바이러스로부터 유래된 벡터에 사용된다. 다른 예시적인 진핵 벡터는 pMSG, pAV009/A+, pMTO10/A+, pMAMneo-5, 바쿨로바이러스 pDSVE, 및 SV40 초기 프로모터, SV40 후기 프로모터, 메탈로티오네인 프로모터, 뮤린 유방 종양 바이러스 프로모터, 라우스(Rous) 육종 바이러스 프로모터, 폴리헤드린 프로모터 또는 진핵 세포에서의 발현에 효과적인 것으로 제시된 다른 프로모터의 지시 하에 단백질의 발현을 허용하는 임의의 다른 벡터를 포함한다.
발현 벡터에 전형적으로 포함되는 요소는 또한 이. 콜라이에서 기능하는 레플리콘, 재조합 플라스미드를 정착시킨 박테리아의 선별을 허용하는 항생제 내성을 코딩하는 유전자, 및 진핵 서열의 삽입을 허용하는 플라스미드의 비필수 영역에 있는 고유한 제한 부위를 포함할 수 있다. 선택된 특별한 항생제 내성 유전자는 중요하지 않으며, 관련 기술분야에 공지된 많은 내성 유전자 중 임의의 것이 적합하다. 원핵 서열은 필요한 경우 진핵 세포에서 DNA의 복제를 방해하지 않도록 임의로 선택된다. 항생제 내성 선별 마커와 유사하게, 공지된 대사 경로에 기초한 대사 선별 마커는 형질전환된 숙주 세포를 선별하기 위한 수단으로서 사용될 수도 있다.
상기 논의된 바와 같이, 관련 기술분야의 통상의 기술자는 단백질의 생물학적 활성을 여전히 유지하면서도 단백질 또는 그의 코딩 서열에 다양한 보존적 치환이 이루어질 수 있음을 인식할 것이다. 더욱이, 폴리뉴클레오티드 코딩 서열의 변형은 또한 특별한 발현 숙주에서 바람직한 코돈 사용빈도를 수용하거나 또는 그 결과로 생성된 아미노산 서열을 변경하지 않고서도 제한 효소 절단 부위를 생성하도록 만들어질 수 있다.
(ii) 형질감염 방법
표준 형질감염 방법을 사용하여 대량의 재조합 폴리펩티드를 발현하는 박테리아, 포유 동물, 효모, 곤충 또는 식물 세포주를 생산한 다음, 표준 기술을 사용하여 정제한다 (예를 들어, 문헌 [Colley et al., J. Biol. Chem. 264: 17619-17622 (1989); Guide to Protein Purification, in Methods in Enzymology, vol. 182 (Deutscher, ed., 1990)] 참조). 진핵 및 원핵 세포의 형질전환은 표준 기술에 따라 수행된다 (예를 들어, 문헌 [Morrison, J. Bact. 132: 349-351 (1977); Clark-Curtiss & Curtiss, Methods in Enzymology 101: 347-362 (Wu et al., eds, 1983)] 참조).
외래 뉴클레오티드 서열을 숙주 세포 내로 도입하기 위한 널리 공지된 절차 중 임의의 것이 사용될 수 있다. 이는 인산칼슘 형질감염, 폴리브렌, 원형질체 융합, 전기천공, 리포솜, 미세주입, 혈장 벡터, 바이러스 벡터, 및 클로닝된 게놈 DNA, cDNA, 합성 DNA 또는 다른 외래 유전 물질을 숙주 세포 내로 도입하는 다른 널리 공지된 방법 중 임의의 것의 사용을 포함한다 (예를 들어, 상기 문헌 [Sambrook and Russell] 참조). 사용된 특별한 유전자 조작 절차는 재조합 폴리펩티드를 발현할 수 있는 숙주 세포 내로 적어도 하나의 유전자를 성공적으로 도입할 수 있어야 한다.
II. 개선된 조합 유전적 변형 시스템
이전에 개발된 고처리량 콤비GEM 조합 유전적 변형 시스템 등에 기초하여, 본 발명자들은 각각 관심 단백질 (예를 들어, SpCas9)의 일부분에 상응하고 그의 아미노산 서열에 적어도 하나의 돌연변이, 가능하게는 다수의 돌연변이를 함유하는 단백질 세그먼트를 코딩하는 DNA 요소를 이음새 없게 연결하는 것을 목표로 이들 시스템을 추가로 변형시켜, 그 결과로 생긴 복합 단백질 변이체가 의도적으로 도입된 돌연변이를 제외하고는 외부 아미노산 잔기를 갖지 않도록 할 것이다. 이전 방법론은 유형 IIP 제한 엔도뉴클레아제를 활용하여 DNA 서열 (조합 단백질 변이체의 세그먼트를 코딩함)을 절단하고 재-라이게이션하기 때문에, 이러한 유형의 엔도뉴클레아제의 특성 (뉴클레오티드 서열의 짧은 팔린드롬성 연장물에의 결합 및 이러한 연장물 내에서의 절단)은 전형적으로, 사용자가 여분의 뉴클레오티드를 도입함으로서 절단 부위를 조작할 수 있으며, 이는 결국 시스템에 의해 생성된 단백질 변이체 내의 두 세그먼트 사이의 각각의 연접 지점에 외부 아미노산 잔기(들) 또는 "흉터" 서열을 생성시킨다. 이러한 외부 아미노산 잔기는 단백질 서열을 추가로 변경하고 변이체의 기능적 스크리닝을 잠재적으로 방해할 수 있다.
이러한 원치 않는 여분의 아미노산 잔기를 도입하는 것을 피하기 위한 노력으로, 본 발명자들은 유형 IIS 제한 효소가 단백질의 세그먼트를 코딩하는 다중 DNA 코딩 서열을 구축하고 라이게이션하여 조합 유전적 변이체의 라이브러리를 구축하는데 대신 사용된다면, 그러한 세그먼트 사이의 바람직하지 않은 "흉터" 서열은 완전히 제거될 수 있다는 것을 발견하였다. 이러한 전략은 유형 IIS 엔도뉴클레아제가 비대칭 인식 부위 외부에서 DNA 가닥을 절단할 수 있다는 사실을 이용하여, 이들 효소에 의한 DNA 절단 후에 생성될 야생형 단백질에 대한 천연 DNA 코딩 서열의 일부분을 갖는 양립성 단부 또는 매칭된 오버행을 허용한다. 양립성 단부 또는 매칭된 오버행에서 천연 단백질 유래 코딩 서열을 사용하면, 단백질 세그먼트 사이의 이음새 없는 연접을 지원할 뿐만 아니라 특이적 방향성 라이게이션을 허용하여, 조합 단백질 변이체를 구축하는 프로세스에서 효율을 추가로 증강시킬 수 있다.
A. 단백질 세그먼트를 코딩하는 DNA 세그먼트의 라이브러리의 생성
조합 단백질 변이체의 라이브러리를 생성하는데 있어서 제1 단계는 단백질의 세그먼트 중 각각의 하나에 대한 라이브러리를 생성하는 것이다: 단백질 변이체는 사전-결정된 수 (예를 들어, 3, 4, 5, 6개, 또는 그 초과)의 단백질 세그먼트 또는 모듈 끝과 끝을 연결함으로써 생산되도록 설계될 수 있다. 본 개시내용에서와 같이 사전-결정된 수는 n+1로서 표현되고, 관심 단백질에 대해 6개의 세그먼트, n=5로 구성되도록 고안된다. 야생형 단백질의 대부분의 N-말단 부분에 상응하고 이러한 단백질 부분에 하나 이상의 가능한 돌연변이를 함유하는 제1 단백질 세그먼트를 코딩하는 DNA 요소의 개별 구성원의 라이브러리 또는 콜렉션이 먼저, 재조합 생산 또는 화학적 합성과 같은 공지된 방법에 의해 생성된 다음, 적절한 제한 효소 부위 뿐만 아니라 사전-결정된 돌연변이 (또는 사전-결정된 돌연변이 세트)를 정착시킨 DNA 요소에 고유하게 할당된 바코드 서열을 함유하는 DNA 벡터 (그의 목적을 위한 소위 저장 벡터) 내로 혼입될 수 있다. DNA 요소가 상대적으로 긴 경우, 이는 저장 벡터 내로 혼입되기 전에 깁슨 어셈블리와 같은 공지된 방법에 의해 더 짧은 단편을 연결함으로써 먼저 만들어질 수 있다. 상기 논의된 바와 같이, DNA 서열 돌연변이를 생성하는 방법은 관련 기술분야의 통상의 기술자에게 널리 공지되어 있으며, 예를 들어, 하나 이상의 뉴클레오티드의 결실, 삽입 및/또는 치환에 의해 천연 버전 또는 야생형 서열을 변형시킴으로써 서열 변이체를 창출하기 위해 용이하게 이용될 수 있다.
도 5a는 단백질 세그먼트를 코딩하는 DNA 요소가 어떻게 삽입되고 벡터에 라이게이션되어, 5'에서 3'으로, 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제1 인식 부위, DNA 요소, 제2 유형 IIS 제한 효소 (예를 들어, BbsI)에 대한 제1 및 제2 인식 부위, 그가 정착된 특이적 돌연변이(들)에 대한 DNA 요소에 고유하게 할당된 바코드, 및 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제2 인식 부위를 포함하는 DNA 구축물을 형성하는지의 예를 도시한다. 조합 돌연변이 연구를 위한 (n+1)개의 세그먼트 또는 모듈을 갖도록 설계 또는 "해체된" 단백질의 경우, DNA 세그먼트를 함유하는 저장 벡터의 라이브러리는 후속 DNA 요소 각각에 대해 동일한 방식으로, 제2, 제3 등 내지 제n DNA 요소 (각각 제2, 제3 등 내지 제n 단백질 세그먼트를 코딩함)를 구축할 수 있으며, 제n 단백질 세그먼트는 단백질의 제2 내지 마지막 또는 대부분의 C-말단 부분에 상응한다.
단백질의 마지막 또는 대부분의 C-말단 세그먼트를 코딩하는 DNA 요소의 경우, 제(n+1) DNA 요소를 함유하는 벡터의 라이브러리를 구축하는데 있어서 구조적으로 상이한 저장 벡터가 이용된다. 도 5a에 예시된 바와 같이, 마지막 또는 제(n+1) DNA 요소가 이러한 저장 벡터에 삽입되어 5'에서 3'으로, 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제1 인식 부위, 제(n+1) DNA 요소, 프라이머-결합 부위로서 작용하는 뉴클레오티드 서열의 짧은 연장물, 그가 정착된 특이적 돌연변이(들)에 대한 DNA 요소에 고유하게 할당된 바코드, 및 제1 유형 IIS 제한 효소 (예를 들어, BsaI)에 대한 제2 인식 부위를 포함하는 DNA 구축물이 형성된다. 프라이머-결합 부위의 존재 및 배치는 단백질 변이체에 대한 복합 코딩 서열 (n+1개 DNA 요소를 모두 조합함)이 생성된 후 범용 프라이머 (프라이머-결합 부위에 특이적으로 결합함)를 활용하여 조합된 바코드의 신속한 시퀀싱을 허용하여, 변이체에 정착된 돌연변이를 쉽게 확인할 수 있게 하므로, 전체 복합 코딩 서열을 시퀀싱하는 힘든 작업을 수행할 필요가 없다.
라이브러리에서 각각의 잠재적인 조합 단백질 변이체에 대해 동등한 기회를 보장하기 위해, 각각 고유한 돌연변이 세트를 정착시킨 DNA 요소는 바람직하게 동일한 몰 비로 라이브러리에 존재한다.
B. 조합 단백질 돌연변이체 라이브러리의 생성
일단 제1, 제2 등 내지 제n, 및 제(n+1) DNA 요소를 함유하는 저장 벡터의 라이브러리가 구축되면, 단백질 세그먼트 또는 모듈을 코딩하는 DNA 요소를 함유하는 DNA 단편이, 예를 들어, 제1 유형 IIS 제한 엔도뉴클레아제 (예를 들어, BsaI)를 사용하여 벡터를 2개 부위에서 절단함으로써 저장 벡터의 효소적 소화를 거쳐 먼저 방출된다. 저장 벡터의 소화는 단백질 세그먼트 (돌연변이를 정착시킴)를 코딩하는 DNA 요소 및 그의 고유하게 할당된 바코드를 각각 함유하는 DNA 단편을 방출하며, 2가지 유형의 IIS 제한 효소 (예를 들어, BbsI) 인식 부위가 그들 사이에 끼어 있다. DNA 단편의 두 단부는 제1 유형 IIS 제한 효소 절단에 의해 생산된 오버행을 가지고 있다.
한편, 전체 단백질 변이체를 코딩하는 최종 복합 DNA 요소를 운반하고 발현하기 위해 의도되는 DNA 벡터 (그의 목적을 위한 소위 대상 벡터)는 DNA 코딩 서열의 발현에 필요한 모든 유전적 요소를 함유하는 발현 벡터이다. 이전 섹션에서 논의된 바와 같이, 전사를 위한 하나의 필수 요소는 서열의 전사를 지시하기 위해 코딩 서열에 작동가능하게 연결되는 프로모터이다. 전형적으로, 그 프로모터는 코딩 서열에 대한 이종 프로모터이다.
저장 벡터 라이브러리로부터 생산된 DNA 단편을 수용하기 위해, DNA 단편의 삽입/라이게이션을 허용하고 전사를 위한 프로모터의 제어 하에 DNA 요소 (단백질 세그먼트를 코딩함)를 DNA 단편 내에 배치하도록 프로모터로부터 하류의 적합한 거리에 있는 부위에서, 또한 특정 유형의 IIS 제한 효소에 의한 소화를 통해 대상 벡터를 선형화한다. 종종 대상 벡터를 선형화하기 위해 사용되는 상기 유형의 IIS 제한 효소는 저장 벡터로부터 DNA 단편을 방출하기 위해 사용되는 것과 상이하다. 그러나 그들은 DNA 단편을 대상 벡터에 라이게이션할 수 있도록 동일한 크기와 매칭된 오버행을 생성하는 것이 바람직하다.
도 5b에 예시된 바와 같이, 완전히 다양한 제1 단백질 세그먼트를 코딩하는 완전히 다양한 제1 DNA 요소를 함유하는 저장 벡터의 라이브러리가 제1 유형 IIS 제한 효소에 의해 소화될 때, 완전히 다양한 제1 DNA 요소를 함유하는 DNA 단편의 라이브러리가 그의 상응하는 바코드와 함께 저장 벡터로부터 방출된다. 이어서, 이러한 제1 DNA 단편의 라이브러리는 바람직하게, 각각의 서열 다양성에 대해 동일한 몰 비에서, 선형화된 대상 벡터에 라이게이션되어 1-와이즈 라이브러리가 생성된다. 그 결과로 생긴 1-와이즈 라이브러리의 각각의 구성원은 프로모터가 제1 DNA 요소에 작동가능하게 연결되고 제1 DNA 요소에 의해 코딩된 제1 또는 대부분의 N-말단 단백질 세그먼트의 발현을 지시할 수 있는 기능적 발현 카세트를 함유할 것이다.
1-와이즈 라이브러리는 이후에 특정 유형의 IIS 제한 효소로 다시 소화되어, 라이브러리의 각각의 구성원을 제1 DNA 요소와 그의 바코드 사이에서 2회 절단하여 각각의 절단 부위에 2개의 오버행을 생성한다.
한편, 완전히 다양한 제2 단백질 세그먼트를 코딩하는 완전히 다양한 제2 DNA 요소를 함유하는 저장 벡터의 라이브러리는 제1 유형 IIS 제한 효소에 의해 소화되며, 완전히 다양한 제2 DNA 요소를 함유하는 DNA 단편의 라이브러리는 그의 상응하는 바코드와 함께 저장 벡터로부터 방출된다. 이어서, 이러한 제2 DNA 단편의 라이브러리는 바람직하게, 각각의 서열 다양성에 대해 동일한 몰 비에서, 제1 DNA 요소와 그의 상응하는 바코드 사이에 있는 선형화된 1-와이즈 발현 벡터에 라이게이션되어 2-와이즈 발현 벡터의 새로운 라이브러리가 생성된다. 그 결과로 생긴 2-와이즈 라이브러리의 각각의 구성원은 프로모터가 제2 DNA 요소와 융합된 제1 DNA 요소에 작동가능하게 연결되고 제1 DNA 요소와 제2 DNA 요소의 융합에 의해 코딩된 융합된 제1 및 제2 단백질 세그먼트의 발현을 지시할 수 있는 기능적 발현 카세트를 함유할 것이다. 제1 단백질 세그먼트와 제2 단백질 세그먼트 사이의 융합 지점에서 임의의 외부 아미노산 잔기 또는 "흉터" 서열을 제거하기 위해, 제1 DNA 요소와 그의 바코드 사이에 위치한 2개의 절단 부위를 신중하게 설계하여 (1) 선형화된 1-원 벡터의 두 단부의 오버행과 완전히 다양한 제2 DNA 요소를 함유하는 저장 벡터의 라이브러리로부터 방출된 제2 DNA 단편의 두 단부의 오버행 사이에 완벽한 매치 (오버행의 서열 및 크기/방향 둘 다에서)가 존재하도록 해야만 하고; (2) 라이게이션 시 제1 DNA 요소의 꼬리 또는 3' 단부와 제2 DNA 요소의 머리 또는 5' 단부 사이의 매칭된 오버행 서열이 동일한 위치에서 관심 야생형 단백질에서 발견되는 아미노산 서열의 연장물을 코딩하도록 해야만 한다. 다시 말해서, 절단 부위의 설계는 2개의 인접한 단백질 세그먼트의 이음새 없는 연결을 보장한다.
제2 저장 벡터의 라이브러리로부터 방출된 제2 DNA 단편의 라이브러리를 선형화된 1-와이즈 발현 벡터 라이브러리로 라이게이션하는 것을 완료하면, 2-와이즈 복합 발현 벡터의 라이브러리가 구축된다. 마지막 두 단락에 개요 서술된 단계의 주기를 반복하면, 제3 DNA 단편 등 내지 제n 및 제(n+1) DNA 단편을 복합 발현 벡터 내로 계속 혼입시켜 최종 복합 발현 벡터의 라이브러리를 수득할 수 있으며, 이는 모든 가능한 돌연변이 조합을 함유하는 완전한 길이의 단백질 변이체를 코딩하는 DNA 코딩 서열의 전체 어레이를 함유하며, 각각의 변이체 코딩 서열에 이어 복합 바코드 서열이 뒤따르고, 이는 DNA 요소에 고유하게 할당된 것에 상응하지만 DNA 요소가 융합되는 방식의 역순으로 모든 바코드를 가질 것이다.
C. 단백질 변이체의 기능적 스크리닝
대상 벡터의 최종 라이브러리는 특이적 돌연변이 세트를 함유하는 완전한 길이의 단백질 변이체를 코딩하기 위해 모든 n+1개 DNA 요소를 함유하는 복합 DNA 코딩 서열에 작동가능하게 연결된 프로모터를 각각 갖는 발현 벡터이므로, 이들 단백질 변이체는 적절한 리포팅 시스템에서 바람직한 임의의 특별한 기능적 특징에 관하여 용이하게 표현되고, 스크리닝되며 선별될 수 있다. 예를 들어, 바이러스-기반 대상 벡터를 사용하여 숙주 세포를 형질감염시키고 기능적 분석을 위한 적합한 세포 환경에서 관심 단백질의 변이체의 발현을 지시할 수 있다.
도 2a는 SpCas9 변이체가 그의 기능성에 관하여 스크리닝되는 방법의 한 예를 예시한다: 적색 형광 단백질 (RFP)을 안정적으로 발현하는 세포주, 및 RFP 유전자 서열을 표적화하는 gRNA를 SpCas9 변이체에 대한 코딩 서열을 함유하는 렌티바이러스 벡터로 형질감염시켜 각각의 변이체의 온-타겟 활성을 나타내고, 동의 돌연변이를 정착시킨 RFP를 안정적으로 발현하는 또 다른 세포주, 및 상기 gRNA를 형질감염시켜 변이체의 오프-타겟 활성을 나타내었다. 콤비실(CombiSEAL) 플랫폼은 임의의 단백질의 유용한 변이체를 잠재적으로 생성하도록 설계되었기 때문에, 관심 단백질의 특이적 기능성에 따라 상이한 기능적 스크리닝 검정을 고안할 수 있다. 일단 바람직한 기능적 특색의 클론 (Cas9 단백질의 경우와 같이, 온-타겟 및 오프-타겟 활성 프로파필)이 발견되면, 복합 바코드의 시퀀싱을 수행하여 특별한 변이체에서의 특이적 돌연변이를 즉시 확인할 수 있다.
III. 최적화된 Cas9 효소
새롭게 개선된 콤비실 조합 유전적 변형 시스템을 활용하여, 본 발명자들은 일련의 SpCas9 돌연변이체를 확인하고 그의 기능적 특색을 특징규명하였다. 연구된 돌연변이체 중에서, Opti-SpCas9라는 특별한 변이체가 매우 바람직한 기능적 프로필을 갖는 것으로 밝혀졌으며; 이는 효능을 훼손하지 않고 증강된 유전자 편집 특이성과 광범위한 시험 범위를 보유하고 있다. 기능적 속성에 비추어 볼 때, 이러한 개선된 Cas9 효소는 CRISPR 게놈 편집 계획에서 매우 가치있는 도구이다.
야생형 SpCas9 단백질은 서열식별번호: 1에 제시된 아미노산 서열을 가지며, 그의 상응하는 DNA 코딩 서열은 서열식별번호: 2에 제시되어 있다. 이러한 엔도뉴클레아제에 대한 이전 연구는 DNA와 상호작용하는 영역 및 아미노산 잔기를 포함하여 이러한 단백질의 구조에 관한 통찰력을 제공하였다. 콤비실 플랫폼을 개발하는 연구 중에, 본 발명자들은 이전에 표적 및 비-표적 DNA 가닥과 상호작용할 것으로 예측되었던 SpCas9의 아미노산 서열의 특정 잔기에 도입된 돌연변이, 특히 치환이 엔도뉴클레아제의 성능에 직접적인 효과를 발휘한다는 것을 확증하였다. 구체적으로, R661, Q695, K848, Q926, K1003, 및 K1060과 같은 잔기에서의 치환은 효소의 온-타겟/오프-타겟 편집 활성을 변경시키는 것으로 밝혀졌다. 변이체 Opti-SpCas9는 야생형 SpCas9의 이중 돌연변이체이며: 서열식별번호: 1 내의 잔기 661은 알라닌으로 치환되고 잔기 1003은 히스티딘으로 치환된다. 그의 아미노산 서열은 서열식별번호: 3에 제시되어 있다. 이들 치환은 고도로 바람직한 표현형인, 변형된 엔도뉴클레아제의 증가된 온-타겟 편집 효율 및 감소된 오프-타겟 활성에 책임이 있다.
본 발명자들은 또한 R661A, K1003H 및 Q926A의 삼중 돌연변이체를 확인하였으며, 이는 Opti-SpCas9로부터의 오프-타겟 편집을 약 80%만큼 추가로 감소시키면서, 그의 온-타겟 활성 또한 실질적으로 감소시킨다. 이러한 삼중 돌연변이체는 오프-타겟 절단의 회피가 특히 중요한 상황에서 가치가 있을 수 있다. 또한, OptiHF-SpCas9로 지칭되는 제2 돌연변이체가 생성되었으며, 이는 5개의 점 돌연변이 Q695A, K848A, E923M, T924V 및 Q926A (표 2의 변이체 46 참조)를 가지고 있다. Opti-SpCas9 및 OptiHF-SpCas9의 아미노산 서열은 각각 서열식별번호: 3 및 서열식별번호: 13에 제시되어 있다. 표 2는 본 연구에서 분석된 SpCas9 변이체의 편집을 제공하여, 이들이 함유하는 점 돌연변이(들)와 그들의 온-타겟 및 오프-타겟 절단 프로파일을 상세히 설명한다.
본원에 개시된 SpCas9 변이체는 살아있는 세포 게놈의 유전자 조작에 유용한 도구이다. CRISPR 시스템에 의한 표적화된 DNA 절단을 위해 이들 변이체를 사용하기 위해, 전형적으로 변이체 (예를 들어, Opti-SpCas9)의 발현을 지시하는 발현 벡터, 및 게놈 DNA를 표적 부위에서 절단하기 위해 세포의 게놈 내의 사전-선택된 표적 부위로 SpCas9 변이체를 지시하기 위한 적절한 서열의 sgRNA를 코딩하는 발현 벡터를 살아있는 세포 내로 도입한다. 일부 실시양태에서, 발현 벡터는 바이러스 벡터, 예컨대 레트로바이러스 벡터, 특히 렌티바이러스 벡터이다. SpCas9 변이체를 코딩하는 발현 벡터와 sgRNA를 코딩하는 발현 벡터는 종종 2개의 별도의 벡터이지만, 일부 경우에 하나의 단일 발현 벡터는 SpCas9 변이체 및 sgRNA에 대한 코딩 서열 둘 다를 함유하며, 두 코딩 서열은 동일한 프로모터 또는 2개의 개별 프로모터에 작동가능하게 연결된다. 프로모터는 전형적으로 코딩 서열에 이종이기 때문에, 특이적 유형의 수용자 세포에 적합한 프로모터를 사용하는 것이 추가로 고려될 수 있다.
실시예
하기 실시예는 단지 예시로서 제공되며 그에 제한되지 않는다. 관련 기술분야의 통상의 기술자는 본질적으로 동일하거나 유사한 결과를 산출하기 위해 변화되거나 또는 변형될 수 있는 다양한 중요하지 않은 파라미터를 쉽게 인식할 것이다.
실시예 1: 콤비실은 바코딩된 조합 유전적 단위를 이음새 없게 어셈블리하기 위한 고처리량 플랫폼으로서, SpCas9 변이체 스크리닝과 같은 단백질 최적화를 위한 새로운 접근법을 제공한다
단백질 기능에 대한 다수의 돌연변이의 조합 효과는 예측하기 어렵기 때문에, 수많은 단백질 서열 변이체를 기능적으로 평가할 수 있는 능력은 단백질 조작에 실제적으로 유용할 것이다. 본 실시예에 제시된 것은 조합 변형을 통해 바코딩된 단백질 변이체의 확장가능한 어셈블리 및 병렬 특징규명을 가능하게 하는 고처리량 플랫폼이다. 이러한 플랫폼 콤비실은 널리 사용되는 스트렙토코쿠스 피오게네스 Cas9 (SpCas9) 뉴클레아제의 948개 조합 돌연변이체의 라이브러리를 체계적으로 특징규명하여 인간 세포에서의 그의 게놈 편집 활성을 최적화함으로써 예시된다. 다수의 온-타겟 및 오프-타겟 부위에서 SpCas9 변이체의 풀-평가 편집 활성의 용이성은 최적화된 변이체의 확인을 가속화하고 돌연변이 상위성의 연구를 용이하게 한다. Opti-SpCas9가 성공적으로 확인되었으며, 이는 효능과 광범위한 표적화 범위를 희생하지 않고서도 증강된 편집 특이성을 보유한다. 이러한 플랫폼은 일괄 조합 변형을 통해 단백질을 조작하는데 광범위하게 적용가능하다.
도입
단백질 조작은 새롭거나 증강된 특성을 가진 효소, 항체 및 게놈 편집 단백질을 생성하는데 중요한 전략인 것으로 입증되었다1-7. 단백질 서열의 조합 최적화는 많은 수의 변이체를 창출하고 스크리닝하는 전략에 의존하지만, 현재의 접근법은 고처리량 방식으로 다수의 변형을 체계적이고 효율적으로 구축하고 시험할 수 있는 능력에 있어서 제한적이다8-11. 구조적 및 생화학적 지식을 기반으로 한 기존의 부위-지정 돌연변이유발은 기능적으로 관련된 돌연변이체의 생성을 용이하게 하지만, 조합 돌연변이체를 스크리닝하기 위해 이러한 일대일 접근법을 사용하면 처리량과 확장성이 결여된다. 유전자 합성 기술을 사용하여 조합 돌연변이체를 풀링된 형식으로 만들 수 있지만, 전형적으로 합성된 킬로 염기당 1 내지 10개의 오류를 제공하며12,13, 도입될 돌연변이가 단백질의 상이한 영역 전반에 흩어져 있는 경우에는 엄청난 비용이 든다. 조합 DNA 어셈블리14,15 및 재조합 및 셔플링16과 같은 방법은 다수의 돌연변이된 서열을 함께 융합하여 전체 단백질 서열을 어셈블리함으로써 조합 돌연변이체를 창출하지만, 돌연변이물의 후속 유전자형결정 및 특징규명은 클로날 단리물 또는 긴 리드 시퀀싱을 선택해야 하며, 이들 중 어느 것도 다수의 돌연변이체를 추적하는데 실현가능하지 않다. 오류-유발 폴리머라제 연쇄 반응 및 유도된 진화를 위한 돌연변이유발 균주를 통한 돌연변이유발은 원하는 돌연변이된 변이체의 양성 선택을 허용하지만, 코돈에서 2개 이상의 특이적 뉴클레오티드 돌연변이가 드물게 발생하기 때문에 아미노산의 서브세트에 대한 선택 편향으로 고통받는다. 서열 무작위 배정을 통해 매우 다양한 단백질 변이체를 달성할 수 있더라도, 선택된 히트를 하나씩 분석하고 유전자형결정하는 매우 제한된 처리량은 단백질 조작에 있어서 주요 장애물이다. 더욱이, 나머지 패신저 돌연변이로부터 원하는 표현형을 부여하는 정확한 돌연변이를 정확히 찾아내는 것은 조합 최적화 프로세스를 가속화하는데 유용할 수 있었다.
본원에서 본 발명자들은 고처리량의 짧은 리드 시퀀싱에 의해 쉽게 추적할 수 있는 바코딩된 조합 돌연변이체의 풀링된 어셈블리를 위해, 본 발명자들이 콤비실이라고 명명한 플랫폼인 일괄 조합 유전학(Combinatorial Genetics En Masse; 콤비GEM)17-19에서 사용되는 바코드 연결 전략과 이음새 없는 조합 DNA 어셈블리를 커플링시키는 새로운 클로닝 방법을 고안하였다 (도 1). 콤비실은 단백질 서열을 구성가능한 부분으로 모듈화함으로써 작동하며, 각각의 부분은 규정된 위치에서 사전-결정된 돌연변이를 지정하는 바코드로 태그부착된 변이체의 레퍼토리를 포함한다. 유형 IIS 제한 효소 부위는 바코딩된 부분을 플랭킹하기 위해 사용되어 단백질-코딩 서열로부터 유래되는 소화된 오버행을 창출하며, 그에 의해 이전 부분과의 융합 시 이음새 없는 라이게이션을 달성한다. 상기 부분을 반복적으로 풀링된 클로닝 후 그 결과로 생성된 라이브러리에서 각각의 단백질-코딩 서열 변이체에 고유한 바코드가 연결 및 부착된다. 이러한 방법은 다수의 돌연변이를 포괄하는 전체 단백질-코딩 영역 전반에 걸쳐 긴 리드 시퀀싱을 수행할 필요성을 피할 수 있으므로 다른 전략보다 유리하며, 이는 클로날 단리물을 선택할 필요 없이 짧은 (예를 들어, ~50-염기 쌍) 바코드의 고처리량 시퀀싱에 의해 풀 내의 각각의 변이체를 정량적으로 추적하는, 비용면에서 효과적인 방식을 제공한다. 또한, 변이체의 풀링된 특징규명은 동일한 실험 조건 하에 대접전 비교를 허용하고, 돌연변이 상위성의 연구를 용이하게 한다. 별개의 유전적 성분의 조합 어셈블리만을 허용하는 콤비GEM과 달리, 콤비실은 연속된 서열 (예를 들어, 단백질의 상이한 세그먼트)을 이음새 없게 연결하기 위해 융합 흉터 서열을 남기지 않는다. 따라서, 이러한 새로운 플랫폼은 단백질 조작을 위한 엄청난 잠재력을 가지고 있다.
결과
SpCas9 조합 돌연변이체의 고처리량 스크리닝. 콤비실은 높은 편집 특이성과 활성을 가진 최적화된 변이체를 확인하기 위한 목적으로, 게놈 조작을 위해 널리 사용되고 있는 클러스터링된 규칙적 간격의 짧은 팔린드롬성 반복부 (CRISPR) 뉴클레아제20-23인 SpCas9에 대한 조합 돌연변이체 라이브러리를 어셈블리하는데 적용되었다. 이전에는, eSpCas9(1.1)3, SpCas9-HF14, HypaCas95 및 evoCas96를 포함한 돌연변이의 특이적 조합을 수반하는 SpCas9 뉴클레아제가 오프-타겟 편집을 최소화하도록 조작되었다. 그러나, 이들 변이체는 미스매칭된 5'-구아닌 (5'G)로 출발하는 gRNA와의 비-양립성으로 인해 표적화할 수 있는 부위가 적다3-6,24-27. 현재까지 제한된 수의 조합 돌연변이체가 생성되었고 시험되었으므로 (표 1), 여분의 5'G를 보유하는 gRNA와의 더 나은 양립성을 가진 다른 SpCas9 변이체에 대한 보다 체계적인 탐색이 필요하다.
콤비실을 사용하여, SpCas9 서열을 4개 부분으로 모듈화하고 개별 부분에서 상이한 무작위 및 특이적 돌연변이를 포함하는 바코딩된 삽입물을 저장 벡터로 클로닝하였다 (도 1a; 도 7a, b; 세부사항에 관해서는 방법 항목 참조). 이어서, 조합 바코딩된 라이브러리 (4 × 2 × 17 × 7 = 952개 SpCas9 변이체, 야생형 (WT) SpCas9 및 eSpCas9(1.1) 서열 포함)를 풀링하여 렌티바이러스 벡터로 어셈블리하였다. 라이브러리 내의 개별 부분 및 어셈블리된 구축물은 바코딩된 변이체의 매우 정확한 어셈블리를 확증하기 위해 시퀀싱되었다 (세부사항에 관해서는 방법 항목 참조). 본 발명자들은 에스케리키아 콜라이(Escherichia coli) (이. 콜라이)에 저장된 플라스미드 풀 (즉, 952개 변이체 중 951개)과 감염된 인간 세포 풀 (즉, 952개 변이체 중 948개) 둘 다 내에 있는 라이브러리에 대한 높은 커버리지를 검출하였고 (도 1b), 플라스미드와 감염된 세포 풀 간의 고도로 재현가능한 표현 뿐만 아니라 감염된 세포 풀의 생물학적 복제물 간의 고도로 재현가능한 표현을 검출하였다 (도 7c).
강력하고 특이적인 SpCas9 변이체를 검색하기 위해, 적색 형광 단백질 (RFP) 및 RFP 유전자 서열을 표적화하는 gRNA (RFPsg5-ON 및 RFPsg8-ON으로서 후술됨; 도 2a)를 안정적으로 발현하는 모노클로날 인간 세포주를 사용하여 리포터 시스템을 확립하였다. 주로 5'G로 출발하는 20-뉴클레오티드 gRNA를 사용했던 이전 스크린3-6과 달리, 리포터 시스템에서 부가의 5'G를 수반하는 gRNA는 표적 범위를 희생하지 않는 양립성 SpCas9 변이체를 찾는데 사용되었다. 이어서, 세포를 SpCas9 변이체 라이브러리로 감염시키고, 감염 후 14일에 RFP 형광 수준을 기준으로 빈으로 분류하였다. RFP 형광의 손실은 DNA 절단 및 표적 부위의 indel-매개된 붕괴를 반영하므로, 활성 SpCas9 변이체를 정착시킨 세포는 낮은 RFP 수준으로 분류된 빈에서 강화될 것이다. 일루미나 HiSeq를 사용하여 바코딩된 SpCas9 변이체를 추적한 결과, 변이체의 특정 하위 집단은 비분류된 집단과 비교할 때 가장 낮은 수준의 RFP를 가진 세포 집단의 ~5%를 포괄하는 분류된 빈 (즉, 빈 A)에서 >1.5배만큼 강화된 것으로 밝혀졌다 (도 2b; 도 8). WT SpCas9는 리포터 시스템 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 강화된 시스템 중 하나인 반면, eSpCas9(1.1)은 RFPsg8-ON에 대해 강화되었다. SpCas9 변이체의 온-타겟 및 오프-타겟 활성의 병렬 특징규명을 용이하게 하기 위해, RFP에서 동의 돌연변이를 정착시킨 세포주를 추가로 생성하여, 미스매칭된 부위의 표적화가 SpCas9 변이체의 오프-타겟 활성을 나타내도록 한다 (즉, RFPsg5-OFF5-2 및 RFPsg8-OFF5; 도 2a). eSpCas9(1.1)가 아닌 WT SpCas9가 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 강화되었다 (도 2b; 도 8).
SpCas9 변이체의 라이브러리에 대한 온-타겟 및 오프-타겟 활성은 비분류된 집단과 비교하여 분류된 빈에서의 강화를 기반으로 하여 순위를 매기고 플로팅되었으며, 대다수의 돌연변이체가 SpCas9의 온-타겟 및 오프-타겟 활성 둘 다를 손상시킨다는 것을 발견하였다 (도 3a). 활성 최적화된 변이체는 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 90%이고 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 60% 미만인 강화 비율을 갖는 것으로서 정의되었다. nOne 변이체 (Opti-SpCas9로서 후술됨)는 이들 기준을 충족하고 추가 특징규명를 위해 선택되었다 (표 2). 또한 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 >50% 및 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 <90%의 강화 비율을 기반으로 하여 OptiHF-SpCas9로 명명된 고충실도 변이체가 확인되었다 (표 2). Opti-SpCas9 및 OptiHF-SpCas9의 효율과 특이성은 개별 검증 검정을 통해 검증되어 그들의 온-타겟 및 오프-타겟 활성을 측정하였다. 매칭되거나 미스매칭된 RFP 부위를 표적화하는 gRNA를 각각 발현하는 다수의 세포주를 사용하여, WT와 비교할 때 Opti-SpCas9는 거의 동등한 수준의 온-타겟 활성 (즉, 94.6%; 3개의 매칭된 부위로부터 평균을 냄) 및 실질적으로 감소된 오프-타겟 활성 (즉, 1.7%; 3개의 미스매칭된 부위로부터 평균을 냄)을 나타낸 반면, OptiHF-SpCas9는 온-타겟 (즉, 63.6%; 2개의 매칭된 부위로부터 평균을 냄) 및 오프-타겟 (즉, 2.0%; 2개의 미스매칭된 부위로부터 평균을 냄) 부위 둘 다에서 감소된 활성을 나타냈다는 것을 확증하였다 (도 3b).
SpCas9의 편집 효율에 대한 돌연변이 상위성을 연구함. 콤비실에 의한 단백질 변이체의 체계적인 구축을 통해 본 발명자들은 아미노산 치환 세트를 중성, 유익하거나 해로운 것으로 분류하고 예측하기 어려운 상위성 상호작용을 탐색할 수 있다. SpCas9의 편집 활성을 위한 인덱스로서 강화 비율을 사용하여 (도 9), 돌연변이와 관련된 상위성 상호작용의 조합에 의해 부여된 온-타겟 및 오프-타겟 활성을 제시하는 히트맵을 구축하였다 (도 4; 도 10). 표적 및 비-표적 DNA 가닥과 상호작용할 것으로 예측되는 SpCas9의 아미노산 잔기 (예컨대 R661, Q695, K848, Q926, K1003 및 K1060)에 도입된 치환의 수와 유형이, 온-타겟 효율을 최대화하는 것과 오프-타겟 활성을 최소화하는 것 간의 최적의 균형을 지배하는 것으로 밝혀졌다. 활성-최적화된 변이체 Opti-SpCas9는 이들 DNA-접촉 잔기에서의 2개의 치환 돌연변이 (즉, R661A 및 K1003H)에 의해 WT와 상이하다. SpCas9의 제1003 아미노산 위치에 도입된 3개의 보존적 염기성 잔기 (즉, 리신, 아르기닌 및 히스티딘)를 비교한 결과, K1003H가 R661A 돌연변이와 양성 상위성 상호작용을 나타내고 온-타겟 부위에서의 높은 편집 효율을 Opti-SpCas9에 부여한 바람직한 치환인 것으로 밝혀졌다 (도 4). SpCas9-HF14에 대해 더 높은 특이성을 부여하는 것으로 나타났던 Q926A 치환을 Opti-SpCas9에 부가하면, 그의 오프-타겟 효과가 약간 감소되었고 (즉, Opti-SpCas9의 경우 1.0%에서 Opti-SpCas9 + Q926A의 경우 0.2%로 감소함; 3개의 미스매칭된 표적 부위로부터 평균을 냄), 시험된 3개의 매칭된 부위 전체에 걸친 그의 온-타겟 활성이 21.6%, 62.4%, 및 99.9%만큼 상당히 감소되었다 (도 3b). 더욱이, 이들 DNA-접촉 잔기에서 3개 이상의 돌연변이를 보유하는 대부분의 SpCas9 변이체는 온-타겟 및 오프-타겟 부위 둘 다에서 더 적은 편집을 생성한 것으로 밝혀졌다 (도 4). 이들 결과는 이들 DNA-접촉 잔기에서의 과도한 알라닌 치환이 SpCas9의 편집 활성을 심각하게 감소시킨다는 이전 발견과 일치한다25. 흥미롭게도, 하기 두 도메인을 연결하는 링커 영역에 위치한 E923M + T924V 및 E923H + T924L 돌연변이와 같은 SpCas9의 HNH 및 RuvC 뉴클레아제 도메인28의 입체형태적 제어를 담당하는 잔기에 부가의 치환이 도입되더라도, DNA-접촉 잔기에 3개 이상의 돌연변이를 수반하는 SpCas9 변이체 중 일부는 RFPsg5-ON 부위에서 그의 온-타겟 편집을 복원하였다 (도 4). 고충실도 변이체 OptiHF-SpCas9는 또한 Q695A, K848A 및 Q926A 치환 이외에도 E923M + T924V 돌연변이를 함유하며, Q695A, K848A, 및 Q926A 삼중 돌연변이만 있는 변이체보다 RFPsg8-ON 부위에서 약간 더 높은 온-타겟 활성을 나타냈다 (도 4). 이들 데이터는 SpCas9의 DNA 결합 활성과 절단 활성이 기능적으로 커플링되어 그의 편집 특이성과 효율을 결정하는 모델을 지원하고5,29, 링커 잔기를 변형시킴으로써 SpCas9의 편집 성능을 프로그래밍할 수 있는 잠재력을 강조한다.
최적화된 SpCas9 변이체를 특징규명하는 것. gRNA 설계 및 구축에서, 5'G는 통상적으로 U6 프로모터 하에서 효율적인 전사를 촉진하기 위해 gRNA 서열의 출발부에 포함되거나 부가된다. WT SpCas9는 프로토스페이서 서열과 미스매칭되는 부가의 5'G를 갖는 gRNA와 양립성이다. 다른 한편으로는, eSpCas9(1.1), SpCas9-HF1, HypaCas9, 및 evoCas9는 부가의 5'G를 보유하거나 (즉, G-N20) 또는 출발 구아닌이 결여된 (즉, H-N19) 20-뉴클레오티드 gRNA를 사용하는 경우 편집 효율이 상실된다4,6,24-26,30. 프로토스페이서 서열과 매칭된 5'G를 가진 gRNA의 사용은 N20-NGG와 비교하여 G-N19-NGG 부위의 가용성에 근거하여 인간 게놈 내의 편집가능한 부위의 수를 ~4.3배만큼 극적으로 감소시킬 수 있었다 (도 11). Opti-SpCas9의 편집 활성은 부가의 5'G를 수반하는 gRNA로 추가로 특징규명되었으며, Opti-SpCas9는 본 발명자들 및 다른 사람들이 이전에 연구한 내인성 로커스를 검정한 결과에 근거하여 WT에 필적하는 (즉, 95.1%) 온-타겟 DNA 절단 활성을 나타낸 반면3-5,18,31, eSpCas9(1.1) 및 HypaCas9는 크게 감소된 활성을 나타낸 것으로 밝혀졌다 (즉, 각각 32.4% 및 25.6%) (도 5a; 도 12). 감소된 편집은 두 SpCas9 변이체의 감소된 단백질 발현 수준에 기인한 것이 아니였다 (도 13). 이들 결과는 부가의 5'G를 보유하는 gRNA가 사용된 본 발명자들의 스크리닝 시스템 (도 2; 3a)에서 이들 변이체에 대해 관찰된 온-타겟 활성 뿐만 아니라 녹색 형광 단백질 (GFP) 붕괴 검정을 사용한 독립적인 검증 실험에 근거하여 보강된다 (도 3b; 도 14). 또한, Opti-SpCas9, eSpCas9(1.1), 및 HypaCas9는 매칭된 5'G로 출발하는 20-뉴클레오티드 gRNA를 사용했을 때 WT에 필적하는 편집 활성 (즉, 각각 109.1%, 103.3%, 및 106.8%)을 나타냈다 (도 5a). Opti-SpCas9는 OptiHF-SpCas9, 및 보다 최근에 특징규명된 고충실도 변이체인 evoCas96 및 Sniper-Cas932와 추가로 비교되었고, OptiHF-SpCas9, evoCas9, 및 Sniper-Cas9는 Opti-SpCas9보다 적은 온-타겟 편집을 생성한 것으로 밝혀졌다 (즉, 부가의 5'G를 수반하는 gRNA로 발현될 때 각각 60.7%, 99.8%, 및 51.7%만큼 감소되었고, 20-뉴클레오티드 gRNA 서열에서 매칭된 5'G로 출발하는 gRNA를 사용할 때 각각 40.1%, 87.7% 및 63.9%만큼 감소되었음) (도 5b; 도 12; 13). 전체적으로, 개선된 특이성을 가진 이전에 조작된 다른 SpCas9의 실제적 유용성을 제한하는, U6 하에서의 전사를 위한 20-뉴클레오티드 gRNA 서열의 제1 염기로서 매칭된 5'G를 정착시키는 것의 제한은 부가의 5'G를 수반하는 gRNA와 양립하여 작동하는 Opti-SpCas9에는 적용되지 않는다. 이러한 발견은 조작된 SpCas9가 특이성을 위해 표적화 범위를 반드시 희생할 필요가 없다는 것을 강조한다.
상이한 SpCas9 변이체의 오프-타겟 활성을 추가로 조사하였다. VEGFA 부위 3 및 DNMT1 부위 4 gRNA를 사용하여 WT SpCas9에 의해 편집되는 8개의 잠재적인 오프-타겟 로커스를 증폭시켰고3-5,31, WT SpCas9에 의해 유도된 게놈 indel이 OVCAR8-ADR 세포에서 이들 부위 중 4개 (즉, VEGFA OFF1, VEGFA OFF2, VEGFA OFF3, 및 DNMT1 OFF1)에서 검출되었다. WT 대신 Opti-SpCas9, eSpCas9(1.1), 및 HypaCas9를 사용했을 때, 오프-타겟 편집은 VEGFA OFF1 부위에서만 검출되었다 (도 15). 4개의 변이체 중에서, Opti-SpCas9는 그 부위에서 가장 큰 온-타겟 내지 오프-타겟 활성을 보여주었다 (도 15). 상이한 SpCas9 변이체의 미스매치 내성을 비교하기 위해, 리포터 유전자 표적 (즉, 게놈적으로 통합된 GFP 유전자 서열)에 대항한 1개 내지 4개 염기 미스매치를 함유하는 gRNA가 생성되었다. 이들 미스매칭된 염기는 gRNA의 스페이서 서열의 상이한 위치 전체에 걸쳐 있다. GFP 형광의 손실은 DNA 절단 및 표적 부위의 indel-매개된 붕괴를 반영하기 위해 측정되었다. 비록 상대적으로 낮은 수준의 활성 (즉, Opti-SpCas9의 경우 3.5% 대 WT의 경우 73.2%)이 2-염기 미스매치를 수반하는 8개 부위 중 1개 부위에서 검출될지라도, Opti-SpCas9는 2개 이상의 미스매칭된 염기를 갖는 gRNA에 대해 크게 내성이 없는 것으로 밝혀졌다 (도 16). eSpCas9(1.1) 및 HypaCas9는 본 발명자들의 리포터 시스템 내의 온-타겟 부위 (즉, >60%만큼 감소됨) 및 오프-타겟 부위 둘 다에서 편집 작업을 더 적게 수행하는 것으로 관찰되었다 (도 16). WT와 Opti-SpCas9 간의 유사한 수준의 온-타겟 활성 (즉, WT의 97.6%)으로, Opti-SpCas9는 WT보다 더 높은 특이성을 보였으며, 이는 단일-염기 미스매치를 함유하지만 여전히 상당한 양의 오프-타겟 편집이 검출되는 20개 부위 중 13개 부위에서 상당히 적은 오프-타겟 편집이 생성된 것으로서 나타난다 (도 16). 다른 사람들은 또한 eSpCas9(1.1), SpCas9-HF1, HypaCas9, evoCas9, 및 Sniper-Cas9를 사용하여 단일-염기 미스매칭된 부위에서의 편집 활성을 보고하였다3,5,6,32. 그럼에도 불구하고, 게놈 내의 대부분의 인 실리코 예측된 오프-타겟 부위는 gRNA 서열에 대항한 2개 이상의 미스매치를 함유하므로33, 단일-염기 미스매치에 대한 내성이 정확한 게놈 편집을 달성하기 위한 SpCas9의 유용성을 제한해서는 안된다. GUIDE-Seq를 추가로 수행하여 Opti-SpCas9 및 다른 조작된 SpCas9 변이체에 의해 야기된 게놈 전반에서의 절단 활성을 조사하였다. 이들 결과는 Opti-SpCas9가 WT보다 오프-타겟 절단을 훨씬 적게 생성했으며, OptiHF-SpCas9는 다른 보고된 고충실도 변이체, 예컨대 eSpCas9(1.1), HypaCas9, evoCas9, 및 Sniper-Cas9에 필적하는 증가된 온-타겟 대 오프-타겟 비를 보여주었다는 것을 나타낸다 (도 5c, 표 3). eSpCas9(1.1) 및 HypaCas9와 비교 시, Opti-SpCas9는 말단절단된 gRNA의 사용과 더 나은 양립성을 나타냈으며 (도 17), 이는 Opti-SpCas9의 편집 특이성을 개선하는 상보적 전략을 제공할 수 있었다다34.
논의
본 발명자들은 단백질 조작을 위한 고차 조합 돌연변이의 신속하고 동시 프로파일링에 대한 충족되지 않은 요구를 해결하기 위해 콤비실으로 명명된 간단하면서도 매우 강력한 플랫폼을 확립하였다. 이러한 전략은 풀링된 어셈블리 접근법을 사용하여 개별 조합 돌연변이체를 하나씩 구축하기 위한 힘든 단계를 우회하고, 바코딩 전술을 활용하여 단백질 조작을 용이하게 하기 위해 다수의 단백질 변이체로부터 최고 성능자를 병렬 실험하고 확인할 수 있도록 한다. 더욱이, 이러한 방법은 돌연변이 간의 상위성 관계를 맵핑하는데 적용될 수 있다. 본 발명자들은 콤비실 방법을 사용하여, 인간 세포에서 광범위한 내인성 표적 전체에 걸쳐 우수한 게놈 편집 효율과 특이성을 가진 새로운 변이체인 Opti-SpCas9 및 OptiHF-SpCas9를 성공적으로 확인하였다 (표 3). 콤비실 파이프라인을 쉽게 적용하여 훨씬 더 많은 Cas9 변이체를 구축하여 더 넓은 프로토스페이서 인접 모티프 유연성7 및 리보핵단백질 전달과의 증강된 양립성35을 갖는 것과 같은 다각적 또는 다른 특성을 가진 변이체 검색을 확대할 수 있다. 콤비실은 게놈의 정확한 편집을 위해 CRISPR 효소 (SaCas936 및 Cpf137 포함) 및 그의 유도체 (예를 들어, 염기 편집기38-41)의 조작을 가속화할 것으로 예상된다. 이러한 접근법의 일반화 가능성은 다양한 단백질 뿐만 아니라 많은 생체 의학 및 생명 공학 적용과 관련된 합성 DNA 및 유전적 조절 회로를 포함한 다른 생물학적 분자 및 시스템을 체계적으로 조작하기 위해 본 발명자들의 범위를 확장할 것이다.
방법
DNA 벡터의 구축
본 연구에 사용된 벡터 (표 4)는 PCR, 제한 효소 소화, 라이게이션 및 깁슨 어셈블리를 포함한 표준 분자 클로닝 기술을 사용하여 구축되었다. 커스텀 올리고뉴클레오티드는 인티그레이티드 DNA 테크놀로지스(Integrated DNA Technologies) 및 진위즈(Genewiz)로부터 구입하였다. 벡터 구축물을 이. 콜라이 균주 DH5α로 형질전환시키고, 50 μg/ml의 카르베니실린/암피실린을 사용하여 구축물을 정착시킨 콜로니를 단리하였다. DNA는 플라스미드 미니 [다카라(Takara)] 또는 미디 [퀴아젠(Qiagen)] 키트를 사용하여 추출 및 정제되었다. 벡터 구축물의 서열은 생어(Sanger) 시퀀싱으로 검증되었다.
eSpCas9(1.1), HypaCas9, 또는 SpCas9-HF1을 코딩하는 렌티바이러스 발현 벡터를 선별 마커로서 제오신과 함께 창출하기 위해, SpCas9 서열을 포션(Phusion) DNA 폴리머라제 [뉴 잉글랜드 바이오랩스(New England Biolabs)]를 사용한 PCR에 의해 pAWp30 [애드젠(Addgene) #73857], eSpCas9(1.1) (애드젠 #71814), 및 VP12 (애드젠 #72247)로부터 증폭/돌연변이시키고, 깁슨 어셈블리 마스터 혼합물 (뉴 잉글랜드 바이오랩스)을 사용하여 pFUGW 렌티바이러스 벡터 백본에 클로닝하였다. evoCas9, Sniper-Cas9, 및 xCas9(3.7)을 코딩하는 렌티바이러스 발현 벡터는 애드젠 구축물 #107550, #113912, 및 #1803380 각각으로부터 SpCas9 서열을 증폭시키고 pFUGW 벡터 백본으로 클로닝함으로써 창출되었다. 특이적 유전자를 표적화한 gRNA의 U6 프로모터-구동된 발현을 함유하는 저장 벡터를 구축하기 위해, 이전에 기재된 바와 같이 T4 DNA 라이가제 (뉴 잉글랜드 바이오랩스)를 사용하여 BbsI-소화된 pAWp28 벡터 (애드젠 #73850)에서 gRNA 표적 서열과의 올리고 쌍을 합성, 어닐링 및 클로닝하였다18. U6 프로모터 하에서의 전사를 선호하기 위해 20-뉴클레오티드 스페이서 서열의 출발부에 부가의 5'G를 수반하는 gRNA와 양립하여 작동하는 SpCas9 변이체를 검색하는데 있어서, 도 5 및 도 14에서 사용된 것 중 일부를 제외하고는, 여분의 5'G를 함유하는 gRNA가 본 연구에 사용되었다. gRNA 스페이서 서열이 표 5에 열거되어 있다. gRNA의 U6-구동된 발현을 위한 렌티바이러스 벡터를 구축하기 위해, 저장 벡터를 BglII 및 MfeI 효소 [써모피셔 사이언티픽(ThermoFisher Scientific)]로 소화시켜 U6-gRNA 발현 카세트를 제조하고, 상기 벡터를 BamHI 및 EcoRI 효소 (써모피셔 사이언티픽)로 소화시킴으로써 생성된 양립성 점착 단부를 통해 라이게이션을 사용하여 pAWp12 (애드젠 #72732) 벡터 백본 내로 삽입하였다. 이중 RFP 및 GFP 형광 단백질 리포터와 함께 gRNA를 발현하기 위해, U6-구동된 gRNA 발현 카세트를 상기 기재된 것과 동일한 전략을 사용하여 pAWp12 대신 pAWp9 (애드젠 #73851) 렌티바이러스 벡터 백본 내로 삽입하였다.
SpCas9를 위한 바코딩된 DNA 부분의 창출
본 발명자들이 본 연구를 출발할 때 이용가능한 사전 지식에 따라, 본 발명자들은 gRNA-지정 게놈 부위에서 표적 및 비-표적 DNA 가닥 (SpCas9-HF14 및 eSpCas9(1.1)3 각각에서 확인된 것 포함)과 접촉할 것으로 예측되거나 또는 DNA 절단을 위한 SpCas9의 HNH 및 RuvC 뉴클레아제 도메인의 입체형태적 역학을 제어할 것으로 예측되는 아미노산 잔기에서 조합 돌연변이체의 라이브러리를 구축하는데 집중하였다28. 8개의 아미노산 잔기를 선택하고, 지정되거나 또는 무작위로 생성된 치환 돌연변이를 정착시키도록 변형시켰다 (도 1a). 염기성 잔기를 알라닌으로 돌연변이시켜 하전된 잔기의 역할을 평가하였다. 이전에 eSpCas9(1.1)에 도입된 K1003에서의 알라닌 치환에 추가로, 이러한 잔기는 또한 단백질 안정성에 미치는 영향을 최소화하기 위해 다른 양전하를 띤 잔기 (즉, 아르기닌 및 히스티딘)로 돌연변이되었다. SpCas9 상에서의 이들 돌연변이의 특이적 조합이 그의 온-타겟 편집 효율을 최대화하고 gRNA와의 양립성을 증강시키면서, 바람직하지 않은 오프-타겟 활성을 최소화할 수 있다는 가설이 세워졌다.
SpCas9 서열은 조합 돌연변이체를 구축하기 위해 4개의 부분 (즉, P1, P2, P3 및 P4)으로 모듈화되었으며, P1을 위한 4개의 삽입물, P2를 위한 2개의 삽입물, P3을 위한 17개의 삽입물, 및 P4를 위한 7개의 삽입물이 창출되었다. 각각의 삽입물은 포션 (뉴 잉글랜드 바이오랩스) 또는 카파 하이파이(Kapa HiFi) [카파 바이오시스템즈(Kapa Biosystems)] DNA 폴리머라제를 사용한 PCR에 의해 pAWp30 (애드젠 #73857) 또는 eSpCas9(1.1) (애드젠 #71814)로부터 증폭되고 돌연변이되었다. SpCas9의 아미노산 위치 923, 924 및 926에서의 부위-지정 돌연변이를 생성하기 위해, 3개의 원래 코돈 서열을 PCR 프라이머에서 축퇴성 코돈 NNS로 대체하였다. 저장 벡터 (pAWp61 또는 pAWp62)에 클로닝한 후, 각각의 DNA 삽입물에 고유한 8-염기-쌍 바코드를 부가하였다. 제한 효소 부위 BsaI를, 단부를 플랭킹하기 위해 부가하였다 (그리고 바코드 시퀀싱을 위한 BbsI 부위 및 프라이머-결합 부위는 pAWp61 및 pAWp62 각각에 대한 바코드와 삽입물 사이에 도입되었음). 따라서 본원에서 각각의 pAWp61 및 pAWp62 저장 벡터는 "BsaI-삽입물-BbsI-BbsI-바코드-BsaI" 및 "BsaI-삽입물-프라이머-결합 부위-바코드-BsaI"로서 각각 구성되었다. 생어 시퀀싱을 수행하여 개별 삽입물과 그의 바코드의 서열 동일성을 확증하였다. 조작된 관심 서열이 BsaI 또는 BbsI 부위를 함유하는 경우, BsaI 및 BbsI 대신 다른 유형의 IIS 제한 효소 부위를 사용할 수 있거나, 또는 동의 돌연변이를 단백질-코딩 서열에 도입하여, 동일한 아미노산 잔기를 코딩하면서 제한 부위를 제거할 수 있었다.
SpCas9를 위한 바코딩된 조합 돌연변이체 라이브러리의 창출
SpCas9의 각각의 부분에 대한 삽입물을 정착시킨 저장 벡터를 동일한 몰 비로 혼합하였다. 풀링된 삽입물은 BsaI와 혼합된 저장 벡터의 단일 포트 소화 반응에 의해 생성되었다. 대상 벡터 (pAWp60)는 BbsI로 소화시켰다. 이와 같이 소화된 P1 삽입물 및 벡터를 라이게이션하여 대상 벡터에 풀링된 P1 라이브러리를 창출하였다. P1 라이브러리를 BbsI로 다시 소화시키고, 이와 같이 소화된 P2 삽입물과 라이게이션하여 2-원 조합 (P1 × P2)으로 라이브러리를 어셈블리하였다. 3-원 (P1 × P2 × P3) 및 4-원 (P1 × P2 × P3 × P4) 조합 라이브러리를 생성하기 위해 순차적 라운드의 라이게이션 반응을 수행하였다. 풀링된 어셈블리 단계 후, 삽입물의 단백질-코딩 부분이 이음새 없이 연결되고 벡터 구축물의 한쪽 끝에 국한되었고 각각의 바코드가 다른 쪽 끝에 연결되었다. 952개 SpCas9 변이체의 4-원 (4 × 2 × 17 × 7) 조합 라이브러리가 구축되었으며, 각각은 gRNA-지정 게놈 부위의 표적 및 비-표적 DNA 가닥과 상호작용할 것으로 예측되거나3,4 또는 SpCas9의 뉴클레아제 도메인의 입체형태적 역학을 변경할 것으로 예측되는28 아미노산 잔기에서의 1개 내지 8개의 돌연변이 (WT 제외)를 수반한다 (도 1a). 부가의 바코딩된 부분을 도입하여 조합 복잡성을 확장하고 수만개 또는 훨씬 더 많은 조합 변형을 동시에 연구하도록 확장할 수 있다. 생어 시퀀싱 분석을 수행하고, 어셈블리된 바코딩된 조합 돌연변이체 구축물의 대부분이 2-원 (즉, 20/20 콜로니), 3-원 (즉, 14/15 콜로니), 및 4-원 (즉, 8/8 콜로니) 라이브러리에서 예상 돌연변이를 수반하는 것으로 검증되었다. 의도하지 않은 염기 치환을 수반하는 하나의 3-원 조합 돌연변이체 구축물을 제외하고는, 다른 구축물에서 다른 무작위 돌연변이가 검출되지 않았다. 최종 라이브러리를 pFUGW 렌티바이러스 벡터로 서브클로닝하여 EFS 프로모터 하에서 선별 마커 제오신과 함께 SpCas9 변이체를 발현시켰다. 렌티바이러스 벡터에 어셈블리된 바코딩된 SpCas9 변이체 (상기 라이브러리로부터 샘플링된 7개 콜로니 중 7개)의 완전한 길이의 서열에 대한 생어 시퀀싱은 예상된 돌연변이만 존재하고 무작위 돌연변이는 존재하지 않았다는 것을 확증시켜 주었다.
개별 검증을 위한 SpCas9 변이체의 생성
Opti-SpCas9를 포함하여 개별 SpCas9 변이체를 코딩하는 렌티바이러스 벡터는 어셈블리가 개별 삽입물 및 벡터로 하나씩 수행되는 것을 제외하고는, 상기 기재된 조합 돌연변이체 라이브러리의 생성에 사용된 것과 동일한 전략으로 구축되었다.
인간 세포 배양
HEK293T 세포는 아메리칸 타입 컬쳐 콜렉션 (ATCC)으로부터 수득하였다. OVCAR8-ADR 세포는 티. 오치야(T. Ochiya) (일본 국립 암 센터 연구소; 일본)로부터의 선물이었다42. OVCAR8-ADR 세포의 정체는 세포주 인증 시험 [제네티카 DNA 래보러토리즈(Genetica DNA Laboratories)]에 의해 확증되었다. 모노클로날 안정한 OVCAR8-ADR 세포주는 UBC 및 CMV 프로모터로부터 각각 발현된 RFP 및 GFP 유전자를 코딩하는 렌티바이러스, 및 RFP 부위를 표적화하는 gRNA의 탠덤 U6 프로모터-구동된 발현 카세트로 세포를 형질도입함으로써 생성되었다. RFPsg5-ON, RFPsg8-ON 및 RFP-sg6-ON 라인은 gRNA의 스페이서와 완전히 매칭되는 RFP 상에 표적 부위를 정착시키는 반면, RFPsg5-OFF5-2, RFPsg8-OFF5 및 RFPsg5-OFF5 라인은 동의 돌연변이를 수반하고 gRNA의 스페이서와 미스매칭되는 RFP 상에 표적 부위를 정착시킨다 (표 6). HEK293T 세포는 10% 열-불활성화된 FBS 및 1× 항생제-항진균제 [라이프 테크놀로지스(Life Technologies)]가 보충된 DMEM에서 37℃ 하에 5% CO2와 함께 배양되었다. OVCAR8-ADR 세포는 10% 열-불활성화된 FBS 및 1× 항생제-항진균제 (라이프 테크놀로지스)가 보충된 RPMI에서 37℃ 하에 5% CO2와 함께 배양되었다.
렌티바이러스 생산 및 형질도입
렌티바이러스는 웰당 2.5 × 105개 HEK293T 세포가 있는 6-웰 플레이트에서 생산되었다. 세포는 15분 동안 0.5 μg의 렌티바이러스 벡터, 1 μg의 pCMV-dR8.2-dvpr 벡터, 및 0.5 μg의 pCMV-VSV-G 벡터가 100 μl의 OptiMEM 배지 (라이프 테크놀로지스)에서 혼합된 FuGENE HD 형질감염 시약 [프로메가(Promega)]을 사용하여 형질감염시켰다. 형질감염 후 제1일에 배지를 신선한 배양 배지로 교체하였다. 이어서, 바이러스 상청액을 형질감염 후 48시간 내지 96시간에 24시간마다 수집하고, 함께 풀링하여 0.45 μm 폴리에테르술폰 막을 통해 여과하였다. 개별 벡터 구축물을 사용한 형질도입을 위해, 500 μl의 여과된 바이러스 상청액을 사용하여 8 μg/ml 폴리브렌 [시그마(Sigma)]의 존재 하에 2.5 × 105개 세포를 밤새 감염시켰다. 풀링된 라이브러리를 사용하여 인간 세포 (즉, OVCAR8-ADR)로 형질도입하기 위해, 동일한 실험 조건을 사용하여 렌티바이러스 생산을 확대하였다. 대부분의 조합에 대해 충분한 표현을 함유하는 높은 커버리지 라이브러리를 보장하기 위해, 시험할 라이브러리 크기보다 ~300배 더 많은 세포를 함유하는 출발 세포 집단으로 감염을 수행하였다. 렌티바이러스를 ~0.3의 감염 다중도로 적정하여 8 μg/ml 폴리브렌의 존재 하에 ~30%의 감염 효율을 제공하여, SpCas9 변이체 라이브러리가 낮은 카피 수로 전달되도록 하였다.
세포 분류
세포 분류는 BD 유입 세포 분류기 [BD 바이오사이언시즈(BD Biosciences)]에서 수행되었다. 드롭 지연은 BD 아쿠드롭(Accudrop) 비드를 사용하여 결정되었다. 1.0 드롭 퓨어 분류 모드를 사용하여 100 μm 노즐을 통해 분류하기 전에 70 μm 나일론 메쉬 필터를 통해 세포를 여과하였다. 세포를 GFP-양성 신호에 대해 게이트하고 RFP의 형광 수준에 근거하여 3개의 빈 (즉, A, B 및 C)으로 분류하여 집단의 대략 5% 세포가 더 낮은 RFP 수준을 가진 세포를 포괄하는 각각의 빈으로 수집되도록 하였다. 각각의 빈으로 분류될 집단 내의 세포 백분율은 분류된 집단에서 개별 조합의 표현과 빈 간의 변이체의 강화를 검출하는 감도 간의 교환을 균형 맞추기 위해 조정될 수 있었다. 각각의 샘플에서 분류된 각각의 빈에 대해 약 20만개 - 30만개의 세포가 수집되었다.
바코드 시퀀싱을 위한 샘플 제조
조합 돌연변이체 벡터 라이브러리의 경우, 플라스미드 미니 키트 (퀴아젠)를 사용하여 벡터 라이브러리로 형질전환된 이. 콜라이로부터 플라스미드 DNA를 추출하였다. 조합 돌연변이체 라이브러리로 감염된 인간 세포 풀의 경우, DNeasy 블러드 & 티슈 키트(DNeasy Blood & Tissue Kit) (퀴아젠)를 사용하여 다양한 실험 조건으로부터 수집된 세포의 게놈 DNA를 추출하였다. DNA 농도는 퀀트-잇 피코그린(Quant-iT PicoGreen) dsDNA 검정 키트 (라이프 테크놀로지스)로 측정하였다. 카파 하이파이 핫스타트 레디 믹스 (카파 바이오시스템즈)를 사용하여, 개별 조합 돌연변이체를 나타내는 고유한 바코드, 일루미나 앵커 서열, 및 다중화된 시퀀싱을 위한 8-염기-쌍 인덱싱 바코드를 각각 함유하는 393-염기-쌍 단편의 PCR 증폭을 수행하였다. 사용된 정방향 및 역방향 프라이머는 하기와 같다: 5'-AATGATACGGCGACCACCGAGATCTACACGGAACCGCAACGGTATTC-3' 및 5'-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGGTTGCGTCAGCAAACACAG-3', 여기서 NNNNNNNN은 각각의 실험 샘플에 할당된 특이적 인덱싱 바코드를 나타낸다. 집단 분포를 왜곡할 수 있는 PCR의 편향을 피하기 위해, PCR 조건을 최적화하여 지수 증식기 동안 증폭이 발생하도록 하였다. PCR 앰플리콘은 스텝원플러스(StepOnePlus) 실시간 PCR 시스템 [어플라이드 바이오시스템즈(Applied Biosystems)]과 함께 카파 SYBR 신속 qPCR 마스터 혼합물 (카파 바이오시스템즈)을 사용한 실시간 PCR 정량화 전에 1:0.5 및 1:0.95 비의 아젠코트 앰퓨어(Agencourt AMPure) XP 비드 [베크만 쿨터 제노믹스(Beckman Coulter Genomics)]를 사용하여 2 라운드의 크기 선택으로 정제되었다. 정량적 PCR에 사용된 정방향 및 역방향 프라이머는 각각 5'-AATGATACGGCGACCACCGA-3' 및 5'-CAAGCAGAAGACGGCATACGA-3'이었다. 이어서, 정량화된 샘플을, 다중화를 위해 원하는 비율로 풀링하고, 애질런트(Agilent) 2100 바이오분석기 상에서 고감도 DNA 칩 (애질런트)을 사용하여 평가하며, 프라이머 (5'-CCACCGAGATCTACACGGAACCGCAACGGTATTC-3') 및 인덱싱 바코드 프라이머 (5'-GTGGCGTGGTGTGCACTGTGTTTGCTGACGCAACC-3')를 사용하여 일루미나 HiSeq에 대해 실행하였다.
바코드 시퀀싱 데이터 분석
각각의 조합 돌연변이체에 대한 바코드 리드는 시퀀싱 데이터로부터 처리되었다. 각각의 조합을 나타내는 바코드 리드는 인덱싱 바코드에 의해 분류된 각각의 샘플에 대해 백만개 리드당 정규화되었다. 프로파일링은 2개의 생물학적 복제물에서 수행되었다. 분류된 빈 A와 비분류된 집단 간의 각각의 조합 돌연변이체의 빈도를 측정하고, 나머지 집단에 대한 이들 간의 강화 비율 (E)을 계산하였다. 빈 A가 선택되었는데, 이는 이러한 빈에서 변이체의 강화가 가장 분명했기 때문이다 (도 2b). 사용된 방정식은 하기와 같다:
여기서 N빈은 분류된 빈에 있는 조합 돌연변이체의 빈도를 나타내고 N비분류됨은 비분류된 빈에 있는 조합 돌연변이체의 빈도를 나타낸다.
분류된 빈 A를 비분류된 집단에 대항하여 비교하는 복제물로부터 결정된 로그-변환된 평균 점수 (즉, log2(E))를 표적 편집 활성의 측정 기준으로서 사용하였다. 데이터 신뢰도를 개선시키기 위해 비분류된 집단에서 300개 초과의 절대 리드를 제공하는 바코드만을 분석하였다. 풀링된 스크린으로부터 결정된 log2(E) 점수와 개별 검증 데이터 간의 상관 관계 (도 9)는 풀링된 스크린에서 조합당 세포의 배수 표현을 증가시켜 실험 소음을 감소시킴으로써 개선될 수 있었다43. 활성-최적화된 변이체 (즉, 본 연구에서 확인된 Opti-SpCas9)는 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 >90%이고, RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 <60%인 log2(E) (빈 A 대 비분류된 집단에 대함)를 갖는 것으로서 정의되었다. OptiHF-SpCas9는 RFPsg5-ON 및 RFPsg8-ON 둘 다에 대해 WT의 적어도 >50%의 강화 비율과 RFPsg5-OFF5-2 및 RFPsg8-OFF5 둘 다에 대해 WT의 <90%의 강화 비율을 기반으로 충실도가 높은 변이체로서 확인되었다. 전체 목록이 표 2에 제시되어 있다.
상위성을 결정하기 위해, 본 발명자들은 이전에 단백질 적합성에 대해 기재한 것과 유사한 스코어링 시스템을 적용하였고44,45, 도 4에서 각각의 조합에 대한 상위성 (ε) 점수를 계산하였다. ε 점수는 하기와 같이 결정되었다: 관찰된 적합성 - 예상 적합성, 여기서 조합 [X,Y]에 대한 예상 적합성은 가법 모델에 따라 (log2(E[X]) + log2(E[Y]))이다. 일반적으로, 예상보다 더 나은 적합성을 보인 조합은 양성 상위성으로서 정의된 반면, 예상보다 덜 적합한 조합은 음성 상위성으로서 정의되었다. 치명적이거나 거의 치명적인 조합 돌연변이체에 대한 log2(E) 값은 비교를 위해 본 작업에서 8개의 돌연변이 (즉, R661A + Q695A + K848A + E923M + T924V + Q926A + K1003A + R1060A)를 갖는 SpCas9 변이체와 동일하게 설정되었고, 본 발명자들의 개별 검증 데이터는 표적 RFP 서열을 붕괴시키는데 있어서의 최소한의 활성을 확증하였다 (도 3b). 예상 적합성은 치명적이거나 거의 치명적인 조합 돌연변이체에 대한 log2(E) 값으로 제한되어, 의미 없는 예측 적합성으로부터 비롯되는 거짓 상위성 값을 최소화하였다. 향후 작업에서는, 비교를 위해 치명적인 돌연변이체로서 풀링된 스크린에 SpCas9의 뉴클레아제 죽은 돌연변이체를 포함하는 것이 유익할 수 있다.
형광 단백질 붕괴 검정
형광 단백질 붕괴 검정은 SpCas9 및 gRNA 발현에 의해 야기된 형광 단백질 (즉, GFP 또는 RFP)의 표적 부위에서의 DNA 절단 및 indel-매개된 붕괴를 평가하기 위해 수행되었으며, 이는 세포 형광 손실을 초래하였다. 통합된 GFP 또는 RFP 리포터 유전자를 SpCas9 및 gRNA와 함께 정착시킨 세포를 세척하고 2% 열-불활성화된 FBS가 보충된 1× PBS로 재현탁하며, LSR 포르테사(Fortessa) 분석기 [벡톤 디킨슨(Becton Dickinson)]로 검정하였다. 세포는 전방 및 측면 산란에 게이트되었다. 각각의 데이터 세트에서 샘플당 적어도 1 × 104개의 세포가 기록되었다.
이뮤노블롯 분석
세포를 프로테아제 억제제 [골드 바이오테크놀로지(Gold Biotechnology) #GB-108-2]로 보충된 2× RIPA 완충액에 용해시켰다. 배양 플레이트를 얼음 상에 스크래핑함으로써 용해물을 수집한 다음, 4℃에서 15분 동안 15,000 rpm으로 원심분리하였다. 상청액은 브래드포드(Bradford) 검정 [바이오래드(BioRad)]을 사용하여 정량화되었다. 단백질은 10% 폴리아크릴아미드 겔 (바이오-래드)에서 겔 전기영동하기 전에 5분 동안 99℃ 하에 변성되었다. 단백질은 4℃ 하에 2시간 동안 110 V에서 폴리비닐리덴 디플루오라이드 막으로 옮겼다. 사용된 1차 항체는 항-Cas9 (7A9-3A3) [1:2,000, 셀 시그널링(Cell Signaling) #14697] 및 항-베타 액틴 (1:10,000, 시그마 #A2228)이었다. 사용된 2차 항체는 HRP-연결된 항-마우스 IgG (1:20,000, 셀 시그널링 #7076)였다. 막은 웨스턴브라이트(WesternBright) ECL HRP 기질 [애드반스타(Advansta) #K-12045-D20]에 의해 전개되었다.
T7 엔도뉴클레아제 I 검정
T7 엔도뉴클레아제 I 검정을 수행하여 gRNA에 의해 표적화된 게놈 로커스에서의 DNA 미스매치 절단을 평가하였다. 퀵익스트랙트(QuickExtract) DNA 추출 용액 [에피센터(Epicentre)] 또는 DNeasy 블러드 & 티슈 키트 (퀴아젠)를 사용하여 세포 배양물로부터 게놈 DNA를 추출하였다. 표적화된 로커스를 정착시킨 앰플리콘을, 표 7에 열거된 프라이머 및 PCR 조건을 사용하여 PCR에 의해 생성한 다음, 아젠코트 앰퓨어 XP 비드 (베크만 쿨터 제노믹스)를 사용하여 정제하였다. 약 400 ng의 PCR 앰플리콘을 변성하고, 자기 어닐링하며, 37℃ 하에 ~40분 동안 4 단위의 T7 엔도뉴클레아제 I (뉴 잉글랜드 바이오랩스)와 함께 인큐베이션하였다. 반응 산물은 2% 아가로스 겔 전기영동을 사용하여 분리되었다. 정량화는 이미지J를 사용하여 측정된 상대 밴드 강도를 기반으로 하였다. Indel 백분율은 이전에 기재된 바와 같이46, 공식 100 × (1 - (1 - (b + c)/(a + b + c))1/2)에 의해 추정되었으며, 여기서 a는 절단되지 않은 PCR 산물의 통합된 강도이고, b 및 c는 각각의 절단 산물의 통합된 강도이다.
게놈 전반에서의 오프-타겟의 GUIDE-Seq 검출
게놈 전반에서의 오프-타겟은 GUIDE-Seq 방법을 사용하여 평가되었다47. 각각의 GUIDE-Seq 샘플에 대해, SpCas9 변이체 및 gRNA로 감염된 150만개의 OVCAR8-ADR 세포를 제조업체의 프로토콜에 따라 100 μl 네온 팁 (써모피셔 사이언티픽)을 사용하여 1,000 pmol의 새로 어닐링된 GUIDE-seq 단부-보호된 dsODN으로 전기천공하였다. 사용된 dsODN 올리고 서열은 하기와 같다:
5'-P-G*T*TTAATTGAGTTGTCATATGTTAATAACGGT*A*T-3' 및
5'-P-A*T*ACCGTTATTAACATATGACAACTCAATTAA*A*C-3', 여기서 P는 5' 인산화를 나타내고 *는 포스포로티오에이트 연결을 나타낸다. 전기천공 72시간 후 DNeasy 블러드 & 티슈 키트 (퀴아젠)를 사용하여 게놈 DNA를 추출하였다. 게놈 DNA 농도는 큐비트 형광계 dsDNA HS 검정 (써모피셔 사이언티픽)에 의해 정량화되었으며, 약간의 변형이 있는 GUIDE-Seq 프로토콜에 따라 라이브러리 구축에 400 ng를 사용하였다. 간단히 말해서, DNA를 카파 프래그 키트 (카파 바이오시스템즈)에 의해 효소적으로 단편화한 다음, 어댑터 라이게이션 및 dsODN 통합 서열에 대한 2 라운드의 세미-네스티드 PCR 강화를 수행하였다. 다양한 일루미나 플랫폼 전체에 걸쳐 단일 인덱싱된 시퀀싱 워크플로우를 사용하여 이중 인덱싱된 데이터를 수득하기 위한 일루미나 시퀀싱 워크플로우를 통합하기 위해, 고유 분자 인덱스에 따라 리드 1의 헤드에 샘플 인덱스 (인덱스 2)을 배치하여 절반 기능적 어댑터를 재설계하였다 (표 8). 최종 시퀀싱 라이브러리는 일루미나에 대한 카파 라이브러리 정량화 키트로 정량화되고, 일루미나 NextSeq 500 시스템 상에서 시퀀싱되었다. 인덱스 1의 데이터 역다중화는 bcl2fq v2.19에 의해 수행되었으며, GUIDE-Seq 소프트웨어를 사용하여 분석을 위한 인덱스 2 역다중화 및 포맷팅을 위한 커스텀 스크립트가 이어졌다48.
본 출원에 인용된 진뱅크 수탁 번호 또는 동등한 서열 식별 번호를 포함한 모든 특허, 특허 출원 및 다른 간행물은 모든 목적을 위해 그 전체 내용이 참조로 포함된다.
표 1
표 2
표 3
표 4
표 5
표 6
표 7
표 8
SEQUENCE LISTING
<110> The University of Hong Kong
<120> An Improved High-Throughput Combinatorial Genetic Modification
System and Optimized Cas9 Enzyme Variants
<130> FPCH19160168P
<140> US 62/733,410
<141> 2019-09-16
<160> 13
<170> PatentIn version 3.3
<210> 1
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 1
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 2
<211> 4647
<212> DNA
<213> Streptococcus pyogenes
<400> 2
atggccccaa agaagaagcg gaaggtcggt atccacggag tcccagcagc cgacaagaag 60
tacagcatcg gcctggacat cggcaccaac tctgtgggct gggccgtgat caccgacgag 120
tacaaggtgc ccagcaagaa attcaaggtg ctgggcaaca ccgaccggca cagcatcaag 180
aagaacctga tcggagccct gctgttcgac agcggcgaaa cagccgaggc cacccggctg 240
aagagaaccg ccagaagaag atacaccaga cggaagaacc ggatctgcta tctgcaagag 300
atcttcagca acgagatggc caaggtggac gacagcttct tccacagact ggaagagtcc 360
ttcctggtgg aagaggataa gaagcacgag cggcacccca tcttcggcaa catcgtggac 420
gaggtggcct accacgagaa gtaccccacc atctaccacc tgagaaagaa actggtggac 480
agcaccgaca aggccgacct gcggctgatc tatctggccc tggcccacat gatcaagttc 540
cggggccact tcctgatcga gggcgacctg aaccccgaca acagcgacgt ggacaagctg 600
ttcatccagc tggtgcagac ctacaaccag ctgttcgagg aaaaccccat caacgccagc 660
ggcgtggacg ccaaggccat cctgtctgcc agactgagca agagcagacg gctggaaaat 720
ctgatcgccc agctgcccgg cgagaagaag aatggcctgt tcggaaacct gattgccctg 780
agcctgggcc tgacccccaa cttcaagagc aacttcgacc tggccgagga tgccaaactg 840
cagctgagca aggacaccta cgacgacgac ctggacaacc tgctggccca gatcggcgac 900
cagtacgccg acctgtttct ggccgccaag aacctgtccg acgccatcct gctgagcgac 960
atcctgagag tgaacaccga gatcaccaag gcccccctga gcgcctctat gatcaagaga 1020
tacgacgagc accaccagga cctgaccctg ctgaaagctc tcgtgcggca gcagctgcct 1080
gagaagtaca aagagatttt cttcgaccag agcaagaacg gctacgccgg ctacattgac 1140
ggcggagcca gccaggaaga gttctacaag ttcatcaagc ccatcctgga aaagatggac 1200
ggcaccgagg aactgctcgt gaagctgaac agagaggacc tgctgcggaa gcagcggacc 1260
ttcgacaacg gcagcatccc ccaccagatc cacctgggag agctgcacgc cattctgcgg 1320
cggcaggaag atttttaccc attcctgaag gacaaccggg aaaagatcga gaagatcctg 1380
accttccgca tcccctacta cgtgggccct ctggccaggg gaaacagcag attcgcctgg 1440
atgaccagaa agagcgagga aaccatcacc ccctggaact tcgaggaagt ggtggacaag 1500
ggcgcttccg cccagagctt catcgagcgg atgaccaact tcgataagaa cctgcccaac 1560
gagaaggtgc tgcccaagca cagcctgctg tacgagtact tcaccgtgta taacgagctg 1620
accaaagtga aatacgtgac cgagggaatg agaaagcccg ccttcctgag cggcgagcag 1680
aaaaaggcca tcgtggacct gctgttcaag accaaccgga aagtgaccgt gaagcagctg 1740
aaagaggact acttcaagaa aatcgagtgc ttcgactccg tggaaatctc cggcgtggaa 1800
gatcggttca acgcctccct gggcacatac cacgatctgc tgaaaattat caaggacaag 1860
gacttcctgg acaatgagga aaacgaggac attctggaag atatcgtgct gaccctgaca 1920
ctgtttgagg acagagagat gatcgaggaa cggctgaaaa cctatgccca cctgttcgac 1980
gacaaagtga tgaagcagct gaagcggcgg agatacaccg gctggggcag gctgagccgg 2040
aagctgatca acggcatccg ggacaagcag tccggcaaga caatcctgga tttcctgaag 2100
tccgacggct tcgccaacag aaacttcatg cagctgatcc acgacgacag cctgaccttt 2160
aaagaggaca tccagaaagc ccaggtgtcc ggccagggcg atagcctgca cgagcacatt 2220
gccaatctgg ccggcagccc cgccattaag aagggcatcc tgcagacagt gaaggtggtg 2280
gacgagctcg tgaaagtgat gggccggcac aagcccgaga acatcgtgat cgaaatggcc 2340
agagagaacc agaccaccca gaagggacag aagaacagcc gcgagagaat gaagcggatc 2400
gaagagggca tcaaagagct gggcagccag atcctgaaag aacaccccgt ggaaaacacc 2460
cagctgcaga acgagaagct gtacctgtac tacctgcaga atgggcggga tatgtacgtg 2520
gaccaggaac tggacatcaa ccggctgtcc gactacgatg tggaccatat cgtgcctcag 2580
agctttctga aggacgactc catcgacaac aaggtgctga ccagaagcga caagaaccgg 2640
ggcaagagcg acaacgtgcc ctccgaagag gtcgtgaaga agatgaagaa ctactggcgg 2700
cagctgctga acgccaagct gattacccag agaaagttcg acaatctgac caaggccgag 2760
agaggcggcc tgagcgaact ggataaggcc ggcttcatca agagacagct ggtggaaacc 2820
cggcagatca caaagcacgt ggcacagatc ctggactccc ggatgaacac taagtacgac 2880
gagaatgaca agctgatccg ggaagtgaaa gtgatcaccc tgaagtccaa gctggtgtcc 2940
gatttccgga aggatttcca gttttacaaa gtgcgcgaga tcaacaacta ccaccacgcc 3000
cacgacgcct acctgaacgc cgtcgtggga accgccctga tcaaaaagta ccctaagctg 3060
gaaagcgagt tcgtgtacgg cgactacaag gtgtacgacg tgcggaagat gatcgccaag 3120
agcgagcagg aaatcggcaa ggctaccgcc aagtacttct tctacagcaa catcatgaac 3180
tttttcaaga ccgagattac cctggccaac ggcgagatcc ggaagcggcc tctgatcgag 3240
acaaacggcg aaaccgggga gatcgtgtgg gataagggcc gggattttgc caccgtgcgg 3300
aaagtgctga gcatgcccca agtgaatatc gtgaaaaaga ccgaggtgca gacaggcggc 3360
ttcagcaaag agtctatcct gcccaagagg aacagcgata agctgatcgc cagaaagaag 3420
gactgggacc ctaagaagta cggcggcttc gacagcccca ccgtggccta ttctgtgctg 3480
gtggtggcca aagtggaaaa gggcaagtcc aagaaactga agagtgtgaa agagctgctg 3540
gggatcacca tcatggaaag aagcagcttc gagaagaatc ccatcgactt tctggaagcc 3600
aagggctaca aagaagtgaa aaaggacctg atcatcaagc tgcctaagta ctccctgttc 3660
gagctggaaa acggccggaa gagaatgctg gcctctgccg gcgaactgca gaagggaaac 3720
gaactggccc tgccctccaa atatgtgaac ttcctgtacc tggccagcca ctatgagaag 3780
ctgaagggct cccccgagga taatgagcag aaacagctgt ttgtggaaca gcacaagcac 3840
tacctggacg agatcatcga gcagatcagc gagttctcca agagagtgat cctggccgac 3900
gctaatctgg acaaagtgct gtccgcctac aacaagcacc gggataagcc catcagagag 3960
caggccgaga atatcatcca cctgtttacc ctgaccaatc tgggagcccc tgccgccttc 4020
aagtactttg acaccaccat cgaccggaag aggtacacca gcaccaaaga ggtgctggac 4080
gccaccctga tccaccagag catcaccggc ctgtacgaga cacggatcga cctgtctcag 4140
ctgggaggcg acaagcgtcc tgctgctact aagaaagctg gtcaagctaa gaaaaagaaa 4200
gctagcggca gcggcgccac caacttcagc ctgctgaagc aggccggcga cgtggaggag 4260
aaccccggcc ccatggccaa gttgaccagt gccgttccgg tgctcaccgc gcgcgacgtc 4320
gccggagcgg tcgagttctg gaccgaccgg ctcgggttct cccgggactt cgtggaggac 4380
gacttcgccg gtgtggtccg ggacgacgtg accctgttca tcagcgcggt ccaggaccag 4440
gtggtgccgg acaacaccct ggcctgggtg tgggtgcgcg gcctggacga gctgtacgcc 4500
gagtggtcgg aggtcgtgtc cacgaacttc cgggacgcct ccgggccggc catgaccgag 4560
atcggcgagc agccgtgggg gcgggagttc gccctgcgcg acccggccgg caactgcgtg 4620
cacttcgtgg ccgaggagca ggactga 4647
<210> 3
<211> 1368
<212> PRT
<213> Artificial Sequence
<220>
<223> base seqeuence SEQ ID NO:1, residue 1003 substituted with
Histidine and residue 661 substituted with Alanine
<400> 3
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Ala Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro His Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 4
<211> 1345
<212> PRT
<213> Streptococcus mutans
<400> 4
Met Lys Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Val Thr Asp Asp Tyr Lys Val Pro Ala Lys Lys Met
20 25 30
Lys Val Leu Gly Asn Thr Asp Lys Ser His Ile Lys Lys Asn Leu Leu
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Asn Thr Ala Glu Asp Arg Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Glu Glu Met Gly Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Asp Glu Ser Phe Leu Thr Asp Asp Asp Lys Asn
100 105 110
Phe Asp Ser His Pro Ile Phe Gly Asn Lys Ala Glu Glu Asp Ala Tyr
115 120 125
His Gln Lys Phe Pro Thr Ile Tyr His Leu Arg Lys His Leu Ala Asp
130 135 140
Ser Thr Glu Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Glu Leu Asn Ala
165 170 175
Glu Asn Thr Asp Val Gln Lys Leu Phe Ala Asp Phe Val Gly Val Tyr
180 185 190
Asp Arg Thr Phe Asp Asp Ser His Leu Ser Glu Ile Thr Val Asp Ala
195 200 205
Ser Ser Ile Leu Thr Glu Lys Ile Ser Lys Ser Arg Arg Leu Glu Lys
210 215 220
Leu Ile Asn Asn Tyr Pro Lys Glu Lys Lys Asn Thr Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Gln Pro Asn Phe Lys Thr Asn Phe
245 250 255
Lys Leu Ser Glu Asp Ala Lys Leu Gln Phe Ser Lys Asp Thr Tyr Glu
260 265 270
Glu Glu Leu Glu Val Leu Leu Ala Gln Ile Gly Asp Asn Tyr Ala Glu
275 280 285
Leu Phe Leu Ser Ala Lys Lys Leu Tyr Asp Ser Ile Leu Leu Ser Gly
290 295 300
Ile Leu Thr Val Thr Asp Val Ser Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Gln Arg Tyr Asn Glu His Gln Met Asp Leu Ala Gln Leu Lys
325 330 335
Gln Phe Ile Arg Gln Lys Leu Ser Asp Lys Tyr Asn Glu Val Phe Ser
340 345 350
Asp Val Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Asn
355 360 365
Gln Glu Ala Phe Tyr Lys Tyr Leu Lys Gly Leu Leu Asn Lys Ile Glu
370 375 380
Gly Ser Gly Tyr Phe Leu Asp Lys Ile Glu Arg Glu Asp Phe Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gln Glu Met Arg Ala Ile Ile Arg Arg Gln Ala Glu Phe Tyr Pro Phe
420 425 430
Leu Ala Asp Asn Gln Asp Arg Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Lys Ser Asp Phe Ala Trp
450 455 460
Leu Ser Arg Lys Ser Ala Asp Lys Ile Thr Pro Trp Asn Phe Asp Glu
465 470 475 480
Ile Val Asp Lys Glu Ser Ser Val Glu Ala Phe Ile Asn Arg Met Thr
485 490 495
Asn Tyr Asp Leu Tyr Leu Pro Asn Gln Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Lys Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Lys Thr Glu Gln Gly Lys Thr Ala Phe Phe Asp Ala Asn Met Lys
530 535 540
Gln Glu Ile Phe Asp Gly Val Phe Lys Val Tyr Arg Lys Val Thr Lys
545 550 555 560
Asp Lys Leu Met Asp Phe Leu Glu Lys Glu Phe Asp Glu Phe Arg Ile
565 570 575
Val Asp Leu Thr Gly Leu Asp Lys Glu Asn Lys Ala Phe Asn Ala Ser
580 585 590
Tyr Gly Thr Tyr His Asp Leu Arg Lys Ile Leu Asp Lys Asp Phe Leu
595 600 605
Asp Asn Ser Lys Asn Glu Lys Ile Leu Glu Asp Ile Val Leu Thr Leu
610 615 620
Thr Leu Phe Glu Asp Arg Glu Met Ile Arg Lys Arg Leu Lys Asn Tyr
625 630 635 640
Ser Asp Leu Leu Thr Lys Glu Gln Leu Lys Lys Leu Glu Arg Arg His
645 650 655
Tyr Thr Gly Trp Gly Arg Leu Ser Ala Glu Leu Ile His Gly Ile Arg
660 665 670
Asn Lys Glu Ser Arg Lys Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly
675 680 685
Asn Ser Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Ala Leu Ser
690 695 700
Phe Lys Glu Glu Ile Ala Lys Ala Gln Val Ile Gly Glu Thr Asp Asn
705 710 715 720
Leu Asn Gln Val Val Ser Asp Ile Ala Gly Ser Pro Ala Ile Lys Lys
725 730 735
Gly Ile Leu Gln Ser Leu Lys Ile Val Asp Glu Leu Val Lys Ile Met
740 745 750
Gly His Gln Pro Glu Asn Ile Val Val Glu Met Ala Arg Glu Asn Gln
755 760 765
Phe Thr Asn Gln Gly Arg Arg Asn Ser Gln Gln Arg Leu Lys Gly Leu
770 775 780
Thr Asp Ser Ile Lys Glu Phe Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Ser Gln Leu Gln Asn Asp Arg Leu Phe Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Thr Gly Glu Glu Leu Asp Ile Asp Tyr
820 825 830
Leu Ser Gln Tyr Asp Ile Asp His Ile Ile Pro Gln Ala Phe Ile Lys
835 840 845
Asp Asn Ser Ile Asp Asn Arg Val Leu Thr Ser Ser Lys Glu Asn Arg
850 855 860
Gly Lys Ser Asp Asp Val Pro Ser Lys Asp Val Val Arg Lys Met Lys
865 870 875 880
Ser Tyr Trp Ser Lys Leu Leu Ser Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Gly Glu Arg Gly Gly Leu Thr Asp Asp Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Arg Ile Leu Asp Glu Arg Phe Asn Thr Glu Thr Asp
930 935 940
Glu Asn Asn Lys Lys Ile Arg Gln Val Lys Ile Val Thr Leu Lys Ser
945 950 955 960
Asn Leu Val Ser Asn Phe Arg Lys Glu Phe Glu Leu Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asp Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Ile Gly Lys Ala Leu Leu Gly Val Tyr Pro Gln Leu Glu Pro Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Pro His Phe His Gly His Lys Glu Asn Lys
1010 1015 1020
Ala Thr Ala Lys Lys Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe
1025 1030 1035
Lys Lys Asp Asp Val Arg Thr Asp Lys Asn Gly Glu Ile Ile Trp
1040 1045 1050
Lys Lys Asp Glu Tyr Ile Ser Asn Ile Lys Lys Val Leu Ser Tyr
1055 1060 1065
Pro Gln Val Asn Ile Val Lys Lys Val Glu Glu Gln Thr Gly Gly
1070 1075 1080
Phe Ser Lys Glu Ser Ile Leu Pro Lys Gly Asp Ser Asp Lys Leu
1085 1090 1095
Ile Pro Arg Lys Thr Lys Lys Phe Tyr Trp Asp Thr Lys Lys Tyr
1100 1105 1110
Gly Gly Phe Asp Ser Pro Ile Val Ala Tyr Ser Ile Leu Val Ile
1115 1120 1125
Ala Asp Ile Glu Lys Gly Lys Ser Lys Lys Leu Lys Thr Val Lys
1130 1135 1140
Ala Leu Val Gly Val Thr Ile Met Glu Lys Met Thr Phe Glu Arg
1145 1150 1155
Asp Pro Val Ala Phe Leu Glu Arg Lys Gly Tyr Arg Asn Val Gln
1160 1165 1170
Glu Glu Asn Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Lys Leu
1175 1180 1185
Glu Asn Gly Arg Lys Arg Leu Leu Ala Ser Ala Arg Glu Leu Gln
1190 1195 1200
Lys Gly Asn Glu Ile Val Leu Pro Asn His Leu Gly Thr Leu Leu
1205 1210 1215
Tyr His Ala Lys Asn Ile His Lys Val Asp Glu Pro Lys His Leu
1220 1225 1230
Asp Tyr Val Asp Lys His Lys Asp Glu Phe Lys Glu Leu Leu Asp
1235 1240 1245
Val Val Ser Asn Phe Ser Lys Lys Tyr Thr Leu Ala Glu Gly Asn
1250 1255 1260
Leu Glu Lys Ile Lys Glu Leu Tyr Ala Gln Asn Asn Gly Glu Asp
1265 1270 1275
Leu Lys Glu Leu Ala Ser Ser Phe Ile Asn Leu Leu Thr Phe Thr
1280 1285 1290
Ala Ile Gly Ala Pro Ala Thr Phe Lys Phe Phe Asp Lys Asn Ile
1295 1300 1305
Asp Arg Lys Arg Tyr Thr Ser Thr Thr Glu Ile Leu Asn Ala Thr
1310 1315 1320
Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp
1325 1330 1335
Leu Ser Lys Leu Gly Gly Asp
1340 1345
<210> 5
<211> 1371
<212> PRT
<213> Streptococcus dysgalactiae
<400> 5
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Arg
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Ser Glu Met Ser Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Ala Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Met Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Arg Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Arg Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Ser Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Ala Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Lys Glu Met Ile Glu Glu Arg Leu Lys Lys Tyr Ala
625 630 635 640
Asn Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg His Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Ala Ile Gln Lys Ala Gln Val Ser Gly Gln Gly His Ser Leu
705 710 715 720
His Glu Gln Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Ser Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Ile Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Arg Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Glu Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Ala Leu Thr Asn Glu Ser Ile Tyr Ala Arg Gly
1100 1105 1110
Ser Phe Asp Lys Leu Ile Ser Arg Lys His Arg Phe Glu Ser Ser
1115 1120 1125
Lys Tyr Gly Gly Phe Gly Ser Pro Thr Val Thr Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Ser Lys Val Gln Asp Gly Lys Val Lys Lys Ile
1145 1150 1155
Lys Thr Gly Lys Glu Leu Ile Gly Ile Thr Leu Leu Asp Lys Leu
1160 1165 1170
Val Phe Glu Lys Asn Pro Leu Lys Phe Ile Glu Asp Lys Gly Tyr
1175 1180 1185
Gly Asn Val Gln Ile Asp Lys Cys Ile Lys Leu Pro Lys Tyr Ser
1190 1195 1200
Leu Phe Glu Phe Glu Asn Gly Thr Arg Arg Met Leu Ala Ser Val
1205 1210 1215
Met Ala Asn Asn Asn Ser Arg Gly Asp Leu Gln Lys Ala Asn Glu
1220 1225 1230
Met Phe Leu Pro Ala Lys Leu Val Thr Leu Leu Tyr His Ala His
1235 1240 1245
Lys Ile Glu Ser Ser Lys Glu Leu Glu His Glu Ala Tyr Ile Leu
1250 1255 1260
Asp His Tyr Asn Asp Leu Tyr Gln Leu Leu Ser Tyr Ile Glu Arg
1265 1270 1275
Phe Ala Ser Leu Tyr Val Asp Val Glu Lys Asn Ile Ser Lys Val
1280 1285 1290
Lys Glu Leu Phe Ser Asn Ile Glu Ser Tyr Ser Ile Ser Glu Ile
1295 1300 1305
Cys Ser Ser Val Ile Asn Leu Leu Thr Leu Thr Ala Ser Gly Ala
1310 1315 1320
Pro Ala Asp Phe Lys Phe Leu Gly Thr Thr Ile Pro Arg Lys Arg
1325 1330 1335
Tyr Gly Ser Pro Gln Ser Ile Leu Ser Ser Thr Leu Ile His Gln
1340 1345 1350
Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu
1355 1360 1365
Gly Gly Asp
1370
<210> 6
<211> 1348
<212> PRT
<213> Streptococcus equi
<400> 6
Met Lys Lys Pro Tyr Thr Ile Ala Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Val Val Val Thr Asp Asp Tyr Arg Val Pro Thr Lys Lys Met
20 25 30
Lys Val Leu Gly Asn Thr Glu Arg Lys Thr Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Asp Thr Ala Glu Gly Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Pro Arg Tyr Thr Arg Arg Lys Asn Arg Leu Arg
65 70 75 80
Phe Leu Lys Glu Ile Phe Thr Glu Glu Met Ala Lys Val Asp Asp Gly
85 90 95
Phe Phe Gln Arg Leu Glu Asp Ser Phe Tyr Val Leu Glu Asp Lys Glu
100 105 110
Gly Asn Lys His Pro Ile Phe Ala Asn Leu Ala Asp Glu Val Ala Tyr
115 120 125
His Lys Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Glu Leu Val Asp
130 135 140
Asn Pro Gln Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Val Ala His
145 150 155 160
Ile Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Thr Leu Ser Ser
165 170 175
Lys Asn Asn Asn Leu Gln Lys Ser Phe Asp His Leu Val Asp Thr Tyr
180 185 190
Asn Leu Leu Phe Glu Glu Gln Arg Leu Leu Thr Glu Gly Ile Asn Ala
195 200 205
Lys Glu Leu Leu Ser Ala Ala Leu Ser Lys Ser Lys Arg Leu Glu Asn
210 215 220
Leu Ile Ser Leu Ile Pro Gly Gln Lys Lys Thr Gly Ile Phe Gly Asn
225 230 235 240
Ile Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ala Asn Phe
245 250 255
Gly Leu Ser Lys Asp Val Lys Leu Gln Leu Ala Lys Asp Thr Tyr Ala
260 265 270
Asp Asp Leu Asp Ser Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Thr Glu Ser Asp Glu Ile Thr Arg Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Val Lys Arg Tyr Arg Glu His His Lys Asp Leu Val Thr Leu Lys
325 330 335
Thr Leu Ile Lys Asp Gln Leu Pro Glu Lys Tyr Gln Glu Ile Phe Leu
340 345 350
Asp Lys Thr Lys Asn Gly Tyr Ala Gly Tyr Ile Glu Gly Gln Val Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Tyr Leu Lys Pro Ile Leu Ala Arg Leu Asp
370 375 380
Gly Ser Glu Pro Leu Leu Leu Lys Ile Asp Arg Glu Asp Phe Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Glu Glu Leu His Ala Ile Leu Arg Arg Gln Glu Val Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Lys Lys Ile Glu Ser Leu Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly His Ser Arg Phe Ala Trp
450 455 460
Val Lys Arg Lys Phe Asp Gly Ala Ile Arg Pro Trp Asn Phe Glu Glu
465 470 475 480
Ile Val Asp Glu Glu Ala Ser Ala Gln Ile Phe Ile Glu Lys Met Thr
485 490 495
Lys Asn Asp Leu Tyr Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Thr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Ala Thr Glu Gly Met Thr Arg Pro Gln Phe Leu Ser Ala Asp Gln
530 535 540
Lys Gln Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asn Tyr Phe Lys Lys Ile Glu Cys Trp Asp
565 570 575
Ser Val Glu Ile Thr Gly Val Glu Asp Ser Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Gln Asp Lys Asp Phe Leu Asp
595 600 605
Asn Pro Asp Asn Gln Lys Ile Ile Glu Asp Ile Ile Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Lys Lys Met Ile Ser Lys Arg Leu Asp Gln Tyr Ala
625 630 635 640
His Leu Phe Asp Lys Val Val Leu Asn Lys Leu Glu Arg His His Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Gly Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ala Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Ser Glu Leu Ser Phe
690 695 700
Ile Asp Glu Ile Ala Lys Ala Gln Val Ile Gly Lys Thr Glu Tyr Ser
705 710 715 720
Lys Asp Leu Val Gly Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Ser Gln Thr Ile Lys Ile Val Asp Glu Leu Val Lys Ile Met Gly
740 745 750
Tyr Leu Pro Gln Gln Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Ala Gln Gly Ile Lys Asn Ala Arg Gln Arg Met Arg Lys Leu Glu
770 775 780
Glu Thr Ala Lys Lys Leu Gly Ser Asn Ile Leu Lys Glu His Pro Val
785 790 795 800
Asp Asn Ser Gln Leu Gln Asn Asp Lys Arg Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Lys Asp Met Tyr Thr Gly Asp Asp Leu Asp Ile Asp Tyr Leu
820 825 830
Ser Ser Tyr Asp Ile Asp His Ile Ile Pro Gln Ser Phe Ile Lys Asn
835 840 845
Asn Ser Ile Asp Asn Lys Val Leu Thr Ser Gln Gly Ala Asn Arg Gly
850 855 860
Lys Leu Asp Asn Val Pro Ser Glu Ala Ile Val Arg Lys Met Lys Gly
865 870 875 880
Tyr Trp Gln Ser Leu Leu Arg Ala Gly Ala Ile Ser Lys Gln Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Thr Gln Val Asp Lys
900 905 910
Ala Gly Phe Ile Gln Leu Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Phe Asn Thr Glu Phe Asp Asp
930 935 940
His Asn Lys Arg Ile Arg Lys Val His Ile Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Glu Phe Gly Leu Tyr Lys Ile Arg Asp
965 970 975
Ile Asn His Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Ala Lys Ala Ile Leu Gly Lys Tyr Pro Gln Leu Ala Pro Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Pro Lys Tyr Asn Ser Phe Lys Glu Arg Gln Lys
1010 1015 1020
Ala Thr Gln Lys Thr Leu Phe Tyr Ser Asn Ile Leu Lys Phe Phe
1025 1030 1035
Lys Asp Gln Glu Ser Leu His Val Asn Ser Asp Gly Glu Glu Ile
1040 1045 1050
Trp Asn Ala Asn Lys His Leu Pro Ile Ile Lys Asn Val Leu Ser
1055 1060 1065
Ile Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly
1070 1075 1080
Gly Phe Tyr Lys Glu Ser Ile Leu Ser Lys Gly Asn Ser Asp Lys
1085 1090 1095
Leu Ile Pro Arg Lys Asn Asn Trp Asp Thr Arg Lys Tyr Gly Gly
1100 1105 1110
Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Ile Ala Lys
1115 1120 1125
Met Glu Lys Gly Lys Ala Lys Val Leu Lys Pro Val Lys Glu Met
1130 1135 1140
Val Gly Ile Thr Ile Met Glu Arg Ile Ala Phe Glu Glu Asn Pro
1145 1150 1155
Val Val Phe Leu Glu Ala Lys Gly Tyr Arg Glu Ile Gln Glu His
1160 1165 1170
Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn
1175 1180 1185
Gly Arg Arg Arg Leu Leu Ala Ser Ala Ser Glu Leu Gln Lys Gly
1190 1195 1200
Asn Glu Leu Phe Leu Pro Val Asp Tyr Met Thr Phe Leu Tyr Leu
1205 1210 1215
Ala Ala His Tyr His Glu Leu Thr Gly Ser Ser Glu Asp Val Leu
1220 1225 1230
Arg Lys Lys Tyr Phe Val Glu Arg His Leu His Tyr Phe Asp Asp
1235 1240 1245
Ile Ile Gln Met Ile Asn Asp Phe Ala Glu Arg His Ile Leu Ala
1250 1255 1260
Ser Ser Asn Leu Glu Lys Ile Asn His Thr Tyr His Asn Asn Ser
1265 1270 1275
Asp Leu Pro Val Asn Glu Arg Ala Glu Asn Ile Ile Asn Val Phe
1280 1285 1290
Thr Phe Val Ala Leu Gly Ala Pro Ala Ala Phe Lys Phe Phe Asp
1295 1300 1305
Ala Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu
1310 1315 1320
Asn Ala Thr Leu Ile His Gln Ser Val Thr Gly Leu Tyr Glu Thr
1325 1330 1335
Arg Ile Asp Leu Ser Gln Leu Gly Glu Asn
1340 1345
<210> 7
<211> 1376
<212> PRT
<213> Streptococcus oralis
<400> 7
Met Asn Asn Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
1 5 10 15
Val Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys
20 25 30
Met Lys Val Leu Gly Asn Thr Asp Lys His Phe Ile Lys Lys Asn Leu
35 40 45
Leu Gly Ala Leu Leu Phe Asp Glu Gly Thr Thr Ala Glu Asp Arg Arg
50 55 60
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Leu
65 70 75 80
Arg Tyr Leu Gln Glu Ile Phe Thr Glu Glu Met Ser Lys Val Asp Ser
85 90 95
Asn Phe Phe His Arg Leu Asp Asp Ser Phe Leu Val Pro Glu Asp Lys
100 105 110
Arg Gly Ser Lys Tyr Pro Ile Phe Ala Thr Leu Glu Glu Glu Lys Glu
115 120 125
Tyr His Lys Asn Phe Pro Thr Ile Tyr His Leu Arg Lys His Leu Ala
130 135 140
Asp Ser Lys Glu Lys Ala Asp Phe Arg Leu Ile Tyr Leu Ala Leu Ala
145 150 155 160
His Met Ile Lys Tyr Arg Gly His Phe Leu Tyr Glu Glu Ser Phe Asp
165 170 175
Ile Lys Asn Asn Asp Ile Gln Lys Ile Phe Asn Glu Phe Ile Ser Ile
180 185 190
Tyr Asp Asn Thr Phe Glu Gly Ser Ser Leu Asn Gly Gln Asn Ala Gln
195 200 205
Val Glu Ala Ile Phe Thr Asp Lys Ile Ser Lys Ser Ala Lys Arg Glu
210 215 220
Arg Val Leu Lys Leu Phe Pro Asp Glu Lys Ser Thr Gly Leu Phe Ser
225 230 235 240
Glu Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Lys Lys His
245 250 255
Phe Asp Leu Glu Glu Lys Ala Pro Leu Gln Phe Ser Lys Asp Thr Tyr
260 265 270
Asp Glu Asp Leu Glu Asn Leu Leu Gly Gln Ile Gly Asp Asp Phe Ala
275 280 285
Asp Leu Phe Leu Val Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser
290 295 300
Gly Ile Leu Thr Val Thr Asp Pro Ser Thr Lys Ala Pro Leu Ser Ala
305 310 315 320
Ser Met Ile Glu Arg Tyr Glu Asn His Gln Lys Asp Leu Ala Thr Leu
325 330 335
Lys Gln Phe Ile Lys Asn Asn Leu Pro Glu Lys Tyr Asp Glu Val Phe
340 345 350
Ser Asp Gln Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr
355 360 365
Thr Gln Glu Ala Phe Tyr Lys Tyr Ile Lys Asn Leu Leu Ser Lys Leu
370 375 380
Glu Gly Ala Asp Tyr Phe Leu Asp Lys Ile Glu Arg Glu Asp Phe Leu
385 390 395 400
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
405 410 415
Leu Gln Glu Met Asn Ala Ile Ile Arg Arg Gln Gly Glu His Tyr Pro
420 425 430
Phe Leu Gln Glu Asn Lys Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
435 440 445
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Arg Asp Phe Ala
450 455 460
Trp Leu Thr Arg Asn Ser Asp Gln Ala Ile Arg Pro Trp Asn Phe Glu
465 470 475 480
Glu Val Val Asp Lys Ala Arg Ser Ala Glu Asp Phe Ile Asn Lys Met
485 490 495
Thr Asn Tyr Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His
500 505 510
Ser Leu Leu Tyr Glu Thr Phe Ala Val Tyr Asn Glu Leu Thr Lys Val
515 520 525
Lys Phe Ile Ala Glu Gly Leu Arg Asp Tyr Gln Phe Leu Asp Ser Gly
530 535 540
Gln Lys Lys Gln Ile Val Thr Gln Leu Phe Lys Glu Lys Arg Lys Val
545 550 555 560
Thr Glu Lys Asp Ile Ile Gln Tyr Leu His Thr Val Asp Gly Tyr Asp
565 570 575
Gly Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ala Ser Leu Ser
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Glu Phe Met Asp
595 600 605
Asp Ser Lys Asn Glu Ala Ile Leu Glu Asn Ile Val His Thr Leu Thr
610 615 620
Ile Phe Glu Asp Arg Glu Met Ile Arg Gln His Leu Thr Gln Tyr Ala
625 630 635 640
Ser Ile Phe Asp Glu Lys Val Ile Lys Ala Leu Thr Arg Arg His Tyr
645 650 655
Thr Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Cys Asp
660 665 670
Lys Gln Thr Gly Asp Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Glu
675 680 685
Ile Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Gly Leu Ser Phe
690 695 700
Lys Glu Ile Ile Gln Lys Ala Gln Val Val Gly Lys Thr Asp Asp Val
705 710 715 720
Lys Gln Val Val Gln Glu Leu Pro Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
His Glu Pro Glu Ser Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Ala Arg Gly Lys Lys Asn Ser Gln Gln Arg Tyr Lys Arg Ile Glu
770 775 780
Asp Ala Leu Lys Asn Leu Ala Pro Glu Leu Asp Ser Asn Ile Leu Lys
785 790 795 800
Glu His Pro Thr Asp Asn Ile Gln Leu Gln Asn Asp Arg Leu Phe Leu
805 810 815
Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly Glu Ala Leu Asp
820 825 830
Ile Asn Gln Leu Ser Ser Cys Asp Ile Asp His Ile Ile Pro Gln Ala
835 840 845
Phe Ile Lys Asp Asp Ser Leu Asp Asn Arg Val Leu Thr Ser Ser Lys
850 855 860
Asp Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Leu Glu Ile Val Gln
865 870 875 880
Lys Arg Lys Ala Phe Trp Gln Gln Leu Leu Asp Ser Lys Leu Ile Ser
885 890 895
Glu Arg Lys Phe Asn Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Asp
900 905 910
Glu Arg Asp Lys Val Gly Phe Ile Arg Arg Gln Leu Val Glu Thr Arg
915 920 925
Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ala Arg Phe Asn Thr
930 935 940
Glu Val Thr Glu Lys Asp Lys Lys Asp Arg Ser Val Lys Ile Ile Thr
945 950 955 960
Leu Lys Ser Asn Leu Val Ser Asn Phe Arg Lys Glu Phe Arg Leu Tyr
965 970 975
Lys Val Arg Glu Ile Asn Asp Tyr His His Ala His Asp Ala Tyr Leu
980 985 990
Asn Ala Val Val Ala Lys Ala Ile Leu Lys Lys Tyr Pro Lys Leu Glu
995 1000 1005
Pro Glu Phe Val Tyr Gly Asp Tyr Gln Lys Tyr Asp Leu Lys Arg
1010 1015 1020
Tyr Ile Ser Arg Thr Lys Asp Pro Lys Glu Val Glu Lys Ala Thr
1025 1030 1035
Glu Lys Tyr Phe Phe Tyr Ser Asn Leu Leu Asn Phe Phe Lys Glu
1040 1045 1050
Glu Val His Tyr Ala Asp Gly Thr Ile Val Lys Arg Glu Asn Ile
1055 1060 1065
Glu Tyr Ser Lys Asp Thr Gly Glu Ile Ala Trp Asn Lys Glu Lys
1070 1075 1080
Asp Phe Ala Thr Ile Lys Lys Val Leu Ser Leu Pro Gln Val Asn
1085 1090 1095
Ile Val Lys Lys Thr Glu Glu Gln Thr Val Gly Gln Asn Gly Gly
1100 1105 1110
Leu Phe Asp Asn Asn Ile Val Ser Lys Lys Lys Val Val Asp Ala
1115 1120 1125
Ser Lys Leu Thr Pro Ile Lys Ser Gly Leu Ser Pro Glu Lys Tyr
1130 1135 1140
Gly Gly Tyr Ala Arg Pro Thr Ile Ala Tyr Ser Val Leu Val Ile
1145 1150 1155
Ala Asp Ile Glu Lys Gly Lys Ala Lys Lys Leu Lys Arg Ile Lys
1160 1165 1170
Glu Met Val Gly Ile Thr Val Gln Asp Lys Lys Lys Phe Glu Ala
1175 1180 1185
Asn Pro Ile Ala Tyr Leu Glu Glu Cys Gly Tyr Lys Asn Ile Asn
1190 1195 1200
Pro Asn Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Phe
1205 1210 1215
Asn Asn Gly Gln Arg Arg Leu Leu Ala Ser Ser Ile Glu Leu Gln
1220 1225 1230
Lys Gly Asn Glu Leu Ile Val Pro Tyr His Phe Thr Ala Leu Leu
1235 1240 1245
Tyr His Ala Gln Arg Ile Asn Lys Ile Ser Glu Pro Ile His Lys
1250 1255 1260
Gln Tyr Val Glu Thr His Gln Ser Glu Phe Lys Glu Leu Leu Thr
1265 1270 1275
Ala Ile Ile Ser Leu Ser Lys Lys Tyr Ile Gln Lys Pro Asn Val
1280 1285 1290
Glu Ser Leu Leu Gln Gln Ala Phe Asp Gln Ser Asp Lys Asp Ile
1295 1300 1305
Tyr Gln Leu Ser Glu Ser Phe Ile Ser Leu Leu Lys Leu Ile Ser
1310 1315 1320
Phe Gly Ala Pro Gly Thr Phe Lys Phe Leu Gly Val Glu Ile Ser
1325 1330 1335
Gln Ser Asn Val Arg Tyr Gln Ser Val Ser Ser Cys Phe Asn Ala
1340 1345 1350
Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile
1355 1360 1365
Asp Leu Ser Lys Leu Gly Glu Asp
1370 1375
<210> 8
<211> 1392
<212> PRT
<213> Streptococcus mitis
<400> 8
Met Asn Asn Asn Asn Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
1 5 10 15
Val Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys
20 25 30
Met Lys Val Leu Gly Asn Thr Asp Lys His Phe Ile Lys Lys Asn Leu
35 40 45
Ile Gly Ala Leu Leu Phe Asp Glu Gly Thr Thr Ala Glu Asp Arg Arg
50 55 60
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Leu
65 70 75 80
Arg Tyr Leu Gln Glu Ile Phe Ser Pro Glu Ile Ser Lys Val Asp Ser
85 90 95
Ser Phe Phe His Arg Leu Asp Asp Ser Phe Leu Val Pro Glu Asp Lys
100 105 110
Arg Gly Ser Lys Tyr Pro Ile Phe Ala Thr Leu Ala Glu Glu Lys Glu
115 120 125
Tyr His Lys Asn Phe Pro Thr Ile Tyr His Leu Arg Lys Gln Leu Ala
130 135 140
Asp Ser Lys Glu Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
145 150 155 160
His Met Ile Lys Tyr Arg Gly His Phe Leu Tyr Glu Glu Ser Phe Asp
165 170 175
Ile Lys Asn Asn Asp Ile Gln Lys Ile Phe Asn Glu Phe Ile Ser Ile
180 185 190
Tyr Asp Asn Thr Phe Glu Gly Ser Ser Leu Ser Gly Gln Asn Ala Gln
195 200 205
Val Glu Ala Ile Phe Thr Asp Lys Ile Ser Lys Ser Ala Lys Arg Glu
210 215 220
Arg Val Leu Lys Leu Phe Pro Asp Glu Lys Ser Thr Gly Leu Phe Ser
225 230 235 240
Glu Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Glu Phe Lys Lys His
245 250 255
Phe Asp Leu Glu Glu Lys Ala Pro Leu Gln Phe Ser Lys Asp Thr Tyr
260 265 270
Asp Asp Asp Leu Glu Asn Leu Leu Gly Gln Ile Gly Asp Gly Phe Ala
275 280 285
Glu Leu Phe Val Ala Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser
290 295 300
Gly Ile Leu Thr Val Thr Asp Pro Ser Thr Lys Ala Pro Leu Ser Ala
305 310 315 320
Ser Met Ile Glu Arg Tyr Glu Asn His Gln Lys Asp Leu Ala Ala Leu
325 330 335
Lys Gln Phe Ile Gln Asn Asn Leu Gln Glu Lys Tyr Asp Glu Val Phe
340 345 350
Ser Asp Gln Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asn Gly Lys Thr
355 360 365
Thr Gln Glu Ala Phe Tyr Lys Tyr Ile Lys Asn Leu Leu Ser Lys Phe
370 375 380
Glu Gly Ser Asp Tyr Phe Leu Asp Lys Ile Glu Arg Glu Asp Phe Leu
385 390 395 400
Lys Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
405 410 415
Leu Gln Glu Met Asn Ala Ile Ile Arg Arg Gln Gly Glu His Tyr Pro
420 425 430
Phe Leu Gln Glu Asn Lys Glu Lys Ile Lys Lys Ile Leu Thr Phe Arg
435 440 445
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Gly Asp Phe Ala
450 455 460
Trp Leu Thr Arg Asn Ser Asp Gln Ala Ile Arg Pro Trp Asn Phe Glu
465 470 475 480
Glu Ile Val Asp Gln Ala Ser Ser Ala Glu Asp Phe Ile Asn Lys Met
485 490 495
Thr Asn Tyr Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His
500 505 510
Ser Leu Leu Tyr Glu Thr Phe Ala Val Tyr Asn Glu Leu Thr Lys Val
515 520 525
Lys Phe Ile Ala Glu Gly Leu Arg Asp Tyr Gln Phe Leu Asp Ser Gly
530 535 540
Gln Lys Lys Gln Ile Val Asn Gln Leu Phe Lys Glu Lys Arg Lys Val
545 550 555 560
Thr Glu Lys Asp Ile Thr Gln Tyr Leu His Asn Val Asp Gly Tyr Asp
565 570 575
Gly Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ala Ser Leu Ser
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Ala Phe Met Asp
595 600 605
Asp Ala Glu Asn Glu Ala Thr Leu Glu Asn Ile Ile His Thr Leu Thr
610 615 620
Ile Phe Glu Asp Arg Glu Met Ile Lys Gln Arg Leu Ala Gln Tyr Asp
625 630 635 640
Ser Leu Phe Asp Glu Lys Val Ile Lys Ala Leu Ile Arg Arg His Tyr
645 650 655
Thr Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Cys Asp
660 665 670
Lys Lys Thr Gly Lys Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Tyr
675 680 685
Ser Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Gly Leu Ser Phe
690 695 700
Lys Asp Ile Ile Gln Lys Ala Gln Val Val Gly Arg Thr Asn Asp Val
705 710 715 720
Lys Gln Ile Val His Glu Leu Pro Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Ile Met Gly
740 745 750
His Thr Pro Glu Ser Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Ala Arg Gly Lys Lys Asn Ser Gln Gln Arg Tyr Lys Arg Ile Glu
770 775 780
Asp Ala Leu Lys Asn Leu Ala Pro Gly Leu Asp Ser Asn Ile Leu Lys
785 790 795 800
Glu Tyr Pro Thr Asp Asn Ile Gln Leu Gln Asn Asp Arg Leu Phe Leu
805 810 815
Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly Glu Pro Leu Asp
820 825 830
Ile Asn Gln Leu Ser Ser Tyr Asp Ile Asp His Ile Val Pro Gln Ala
835 840 845
Phe Ile Lys Asp Asp Ser Leu Asp Asn Arg Val Leu Thr Ser Ser Lys
850 855 860
Asp Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Leu Glu Val Val Gln
865 870 875 880
Lys Arg Lys Ala Phe Trp Gln Gln Leu Leu Asp Ser Lys Leu Ile Ser
885 890 895
Glu Arg Lys Phe Asn Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Asp
900 905 910
Glu Arg Asp Lys Val Gly Phe Ile Arg Arg Gln Leu Val Glu Thr Arg
915 920 925
Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ala Arg Phe Asn Thr
930 935 940
Glu Val Thr Glu Lys Asp Lys Lys Asn Arg Asn Val Lys Ile Ile Thr
945 950 955 960
Leu Lys Ser Asn Leu Val Ser Asn Phe Arg Lys Glu Phe Lys Leu Tyr
965 970 975
Lys Val Arg Glu Ile Asn Asp Tyr His His Ala His Asp Ala Tyr Leu
980 985 990
Asn Ala Val Val Ala Lys Ala Ile Leu Lys Lys Tyr Pro Lys Leu Glu
995 1000 1005
Pro Glu Phe Val Tyr Gly Asp Tyr Gln Lys Tyr Asp Leu Lys Arg
1010 1015 1020
Tyr Ile Ser Arg Ser Lys Asp Pro Lys Asp Val Glu Lys Ala Thr
1025 1030 1035
Glu Lys Tyr Phe Phe Tyr Ser Asn Leu Leu Asn Phe Phe Lys Glu
1040 1045 1050
Glu Val His Tyr Ala Asp Gly Thr Ile Val Lys Arg Glu Asn Ile
1055 1060 1065
Glu Tyr Ser Lys Asp Thr Gly Glu Ile Ala Trp Asn Lys Glu Lys
1070 1075 1080
Asp Phe Ala Thr Ile Lys Lys Val Leu Ser Leu Pro Gln Val Asn
1085 1090 1095
Ile Val Lys Lys Thr Glu Ile Gln Thr His Gly Leu Asp Arg Gly
1100 1105 1110
Lys Pro Arg Gly Leu Phe Asn Ser Asn Pro Ser Pro Lys Pro Ser
1115 1120 1125
Glu Asp Ser Lys Glu Asn Leu Val Pro Ile Lys Gln Gly Leu Asp
1130 1135 1140
Pro Arg Lys Tyr Gly Gly Tyr Ala Gly Ile Ser Asn Ser Tyr Ala
1145 1150 1155
Val Leu Val Lys Ala Ile Ile Glu Lys Gly Ala Lys Lys Gln Gln
1160 1165 1170
Lys Thr Val Leu Glu Phe Gln Gly Ile Ser Ile Leu Asp Lys Ile
1175 1180 1185
Asn Phe Glu Lys Asn Lys Glu Asn Tyr Leu Leu Glu Lys Gly Tyr
1190 1195 1200
Ile Lys Ile Leu Ser Thr Ile Thr Leu Pro Lys Tyr Ser Leu Phe
1205 1210 1215
Glu Phe Pro Asp Gly Thr Arg Arg Arg Leu Ala Ser Ile Leu Ser
1220 1225 1230
Thr Asn Asn Lys Arg Gly Glu Ile His Lys Gly Asn Glu Leu Val
1235 1240 1245
Ile Ser Glu Lys Tyr Thr Thr Leu Leu Tyr His Ala Lys Asn Ile
1250 1255 1260
Asn Lys Thr Leu Glu Pro Glu His Leu Glu Tyr Val Glu Lys His
1265 1270 1275
Arg Asn Asp Phe Ala Lys Leu Leu Glu Ser Val Leu Asp Phe Asn
1280 1285 1290
Asp Lys Tyr Val Gly Ala Leu Lys Asn Gly Glu Arg Ile Arg Gln
1295 1300 1305
Ala Phe Ile Asp Trp Glu Thr Val Asp Ile Glu Lys Leu Cys Phe
1310 1315 1320
Ser Phe Ile Gly Pro Arg Asn Ser Lys Asn Ala Gly Leu Phe Glu
1325 1330 1335
Leu Thr Ser Gln Gly Ser Ala Ser Asp Phe Glu Phe Leu Gly Val
1340 1345 1350
Lys Ile Pro Arg Tyr Arg Asp Tyr Thr Pro Ser Ser Leu Leu Asn
1355 1360 1365
Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg
1370 1375 1380
Ile Asp Leu Ser Lys Leu Gly Glu Asp
1385 1390
<210> 9
<211> 1334
<212> PRT
<213> Listeria monocytogenes
<400> 9
Met Lys Asn Pro Tyr Thr Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Leu Thr Asp Gln Tyr Asp Leu Val Lys Arg Lys Met
20 25 30
Lys Val Ala Gly Asn Ser Asp Lys Lys Gln Ile Lys Lys Asn Phe Trp
35 40 45
Gly Val Arg Leu Phe Asp Glu Gly Glu Thr Ala Ala Asp Arg Arg Met
50 55 60
Asn Arg Thr Ala Arg Arg Arg Ile Glu Arg Arg Arg Asn Arg Ile Ser
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ala Leu Glu Met Ala Asn Ile Asp Ala Asn
85 90 95
Phe Phe Cys Arg Leu Asn Asp Ser Phe Tyr Val Asp Ser Glu Lys Arg
100 105 110
Asn Ser Arg His Pro Phe Phe Ala Thr Ile Glu Glu Glu Val Ala Tyr
115 120 125
His Lys Asn Tyr Arg Thr Ile Tyr His Leu Arg Glu Glu Leu Val Asn
130 135 140
Ser Ser Glu Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His
145 150 155 160
Ile Ile Lys Tyr Arg Gly Asn Phe Leu Ile Glu Gly Ala Leu Asp Thr
165 170 175
Lys Asn Thr Ser Val Asp Gly Val Tyr Lys Gln Phe Ile Gln Thr Tyr
180 185 190
Asn Gln Val Phe Ile Ser Asn Ile Glu Glu Gly Thr Leu Ala Lys Met
195 200 205
Glu Glu Asn Thr Thr Val Ala Asp Ile Leu Ala Gly Lys Phe Thr Arg
210 215 220
Lys Glu Lys Leu Glu Arg Ile Leu Gln Leu Tyr Pro Gly Glu Lys Ser
225 230 235 240
Thr Gly Met Phe Ala Gln Phe Ile Ser Leu Ile Val Gly Ser Lys Gly
245 250 255
Asn Phe Gln Lys Val Phe Asp Leu Val Glu Lys Thr Asp Ile Glu Cys
260 265 270
Ala Lys Asp Ser Tyr Glu Glu Asp Leu Glu Ala Leu Leu Ala Ile Ile
275 280 285
Gly Asp Glu Tyr Ala Glu Leu Phe Val Ala Ala Lys Asn Thr Tyr Asn
290 295 300
Ala Val Val Leu Ser Ser Ile Ile Thr Val Thr Asp Thr Glu Thr Asn
305 310 315 320
Ala Lys Leu Ser Ala Ser Met Ile Glu Arg Phe Asp Ala His Glu Lys
325 330 335
Asp Leu Ser Glu Leu Lys Ala Phe Ile Lys Leu His Leu Pro Lys Gln
340 345 350
Tyr Glu Glu Ile Phe Ser Asn Val Ala Ile Asp Gly Tyr Ala Gly Tyr
355 360 365
Ile Asp Gly Lys Thr Lys Gln Val Asp Phe Tyr Lys Tyr Leu Lys Thr
370 375 380
Leu Leu Glu Asn Ile Glu Gly Ala Asp Tyr Phe Ile Ala Lys Ile Glu
385 390 395 400
Glu Glu Asn Phe Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ala Ile
405 410 415
Pro His Gln Leu His Leu Glu Glu Leu Glu Ala Ile Leu His Gln Gln
420 425 430
Ala Lys Tyr Tyr Pro Phe Leu Lys Glu Ala Tyr Asp Lys Ile Lys Ser
435 440 445
Leu Val Thr Phe Arg Ile Pro Tyr Phe Val Gly Pro Leu Ala Asn Gly
450 455 460
Gln Ser Asp Phe Ala Trp Leu Thr Arg Lys Ala Asp Gly Glu Ile Arg
465 470 475 480
Pro Trp Asn Ile Glu Glu Lys Val Asp Phe Gly Lys Ser Ala Val Asp
485 490 495
Phe Ile Glu Lys Met Thr Asn Lys Asp Thr Tyr Leu Pro Lys Glu Asn
500 505 510
Val Leu Pro Lys His Ser Leu Tyr Tyr Gln Lys Tyr Met Val Tyr Asn
515 520 525
Glu Leu Thr Lys Val Arg Tyr Ile Asp Asp Gln Gly Lys Thr Asn Tyr
530 535 540
Phe Ser Gly Gln Glu Lys Gln Gln Ile Phe Asn Asp Tyr Phe Lys Gln
545 550 555 560
Lys Arg Lys Val Ser Lys Lys Asp Leu Glu Gln Phe Leu Arg Asn Met
565 570 575
Ser His Ile Glu Ser Pro Thr Ile Glu Gly Leu Glu Asp Ser Phe Asn
580 585 590
Ser Ser Tyr Ala Thr Tyr His Asp Leu Leu Lys Val Gly Ile Lys Gln
595 600 605
Glu Val Leu Glu Asn Pro Leu Asn Thr Glu Met Leu Glu Asp Ile Val
610 615 620
Lys Ile Leu Thr Val Phe Glu Asp Lys Arg Met Ile Lys Glu Gln Leu
625 630 635 640
Gln Gln Phe Ser Asp Val Leu Asp Gly Ala Val Leu Lys Lys Leu Glu
645 650 655
Arg Arg His Tyr Thr Gly Trp Gly Arg Leu Ser Ala Lys Leu Leu Val
660 665 670
Gly Ile Arg Asp Lys Gln Ser His Leu Thr Ile Leu Asp Tyr Leu Met
675 680 685
Asn Asp Asp Gly Leu Asn Arg Asn Leu Met Gln Leu Ile Asn Asp Ser
690 695 700
Asn Leu Ser Phe Lys Ser Ile Ile Glu Lys Glu Gln Val Ser Thr Thr
705 710 715 720
Asp Lys Asp Leu Gln Ser Ile Val Ala Asp Leu Ala Gly Ser Pro Ala
725 730 735
Ile Lys Lys Gly Ile Leu Gln Ser Leu Lys Ile Val Asp Glu Leu Val
740 745 750
Ser Ile Met Gly Tyr Pro Pro Gln Thr Ile Val Val Glu Met Ala Arg
755 760 765
Glu Asn Gln Thr Thr Val Lys Gly Lys Asn Asn Ser Arg Pro Arg Tyr
770 775 780
Lys Ser Leu Glu Lys Ala Ile Lys Glu Phe Gly Ser Gln Ile Leu Lys
785 790 795 800
Glu His Pro Thr Asp Asn Gln Glu Leu Arg Asn Asn Arg Leu Tyr Leu
805 810 815
Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly Gln Glu Leu Asp
820 825 830
Ile His Asn Leu Ser Asn Tyr Asp Ile Asp His Ile Val Pro Gln Ser
835 840 845
Phe Ile Thr Asp Asn Ser Ile Asp Asn Leu Val Leu Thr Ser Ser Ala
850 855 860
Gly Asn Arg Glu Lys Gly Asp Asp Val Pro Pro Leu Glu Ile Val Arg
865 870 875 880
Lys Arg Lys Val Phe Trp Glu Lys Leu Phe Gln Gly Asn Leu Met Ser
885 890 895
Lys Arg Lys Phe Asp Tyr Leu Thr Lys Ala Glu Arg Gly Gly Leu Thr
900 905 910
Glu Ala Asp Lys Ala Thr Phe Ile His Arg Gln Leu Val Glu Thr Arg
915 920 925
Gln Ile Thr Lys Asn Val Ala Asn Ile Leu His Gln Arg Phe Asn Asn
930 935 940
Glu Thr Asp Asn His Gly Asn Asn Met Glu Gln Val Arg Ile Val Met
945 950 955 960
Leu Lys Ser Ala Leu Val Ser Gln Phe Arg Lys Gln Phe Gln Leu Tyr
965 970 975
Lys Val Arg Glu Val Asn Asp Tyr His His Ala His Asp Ala Tyr Leu
980 985 990
Asn Gly Val Val Ala Asn Thr Leu Leu Lys Val Tyr Pro Gln Leu Glu
995 1000 1005
Pro Glu Phe Val Tyr Gly Glu Tyr His Gln Phe Asp Trp Phe Lys
1010 1015 1020
Ala Asn Lys Ala Thr Ala Lys Lys Gln Phe Tyr Thr Asn Ile Met
1025 1030 1035
Leu Phe Phe Ala Gln Lys Glu Arg Ile Ile Asp Glu Asn Gly Glu
1040 1045 1050
Ile Leu Trp Asp Lys Lys Tyr Leu Glu Thr Ile Lys Lys Val Leu
1055 1060 1065
Asp Tyr Arg Gln Met Asn Ile Val Lys Lys Thr Glu Ile Gln Lys
1070 1075 1080
Gly Glu Phe Ser Lys Ala Thr Ile Lys Pro Lys Gly Asn Ser Ser
1085 1090 1095
Lys Leu Ile Pro Arg Lys Glu Asn Trp Asp Pro Met Lys Tyr Gly
1100 1105 1110
Gly Leu Asp Ser Pro Asn Met Ala Tyr Ala Val Ile Ile Glu His
1115 1120 1125
Ala Lys Gly Lys Lys Lys Val Val Phe Glu Lys Lys Ile Ile Arg
1130 1135 1140
Ile Thr Ile Met Glu Arg Lys Ala Phe Glu Lys Asp Glu Lys Ser
1145 1150 1155
Phe Leu Glu Lys Gln Gly Tyr Arg Gln Pro Lys Val Leu Thr Lys
1160 1165 1170
Leu Pro Lys Tyr Thr Leu Tyr Glu Cys Glu Asn Gly Arg Arg Arg
1175 1180 1185
Met Leu Ala Ser Ala Asn Glu Ala Gln Lys Gly Asn Gln Gln Val
1190 1195 1200
Leu Lys Gly Gln Leu Ile Thr Leu Leu His His Ala Lys Asn Cys
1205 1210 1215
Glu Ala Ser Asp Gly Lys Ser Leu Asp Tyr Ile Glu Ser Asn Arg
1220 1225 1230
Glu Met Phe Gly Glu Leu Leu Ala His Val Ser Glu Phe Ala Lys
1235 1240 1245
Arg Tyr Thr Leu Ala Asp Ala Asn Leu Ser Lys Ile Asn Gln Leu
1250 1255 1260
Phe Glu Gln Asn Lys Asp Asn Asp Ile Lys Val Ile Ala Gln Ser
1265 1270 1275
Phe Val Asn Leu Met Ala Phe Asn Ala Met Gly Ala Pro Ala Ser
1280 1285 1290
Phe Lys Phe Phe Glu Ala Thr Ile Glu Arg Lys Arg Tyr Thr Asn
1295 1300 1305
Leu Lys Glu Leu Leu Ser Ala Thr Ile Ile Tyr Gln Ser Ile Thr
1310 1315 1320
Gly Leu Tyr Glu Ala Arg Lys Arg Leu Asp Gly
1325 1330
<210> 10
<211> 1342
<212> PRT
<213> Enterococcus timonensis
<400> 10
Met Gly Lys Asp Tyr Thr Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Leu Arg Asp Asp Leu Asp Leu Val Lys Lys Lys Met
20 25 30
Lys Val Phe Gly Asn Thr Asp Lys Lys Ala Leu Lys Lys Asn Phe Trp
35 40 45
Gly Val Ser Leu Phe Asp Glu Gly Gln Thr Ala Ala Asp Ala Arg Met
50 55 60
Lys Arg Thr Met Arg Arg Arg Leu Ala Arg Arg His Gln Arg Ile Val
65 70 75 80
Phe Leu Gln Glu Glu Phe Phe Gln Lys Ala Met Asn Glu Lys Asp Ala
85 90 95
Asn Phe Phe His Arg Leu Asn Glu Ser Phe Leu Val Glu Glu Asp Lys
100 105 110
Glu Phe Asn Arg His Pro Ile Phe Gly Lys Leu Glu Glu Glu Lys Ala
115 120 125
Tyr Tyr Lys Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Glu Leu Ala
130 135 140
Asp Ser Thr Gln Gln Ala Asp Leu Arg Leu Val Tyr Leu Ala Met Ala
145 150 155 160
His Ile Ile Lys Tyr Arg Gly His Phe Leu Ile Glu Gly Lys Leu Ser
165 170 175
Thr Glu Asn Thr Ser Val Ser Glu Thr Phe Lys Val Phe Leu Asp Lys
180 185 190
Phe Asn Glu Ala Ser Lys Ile Ala Asp Asn Glu Leu Lys Leu Asp Thr
195 200 205
Thr Ile Asp Val Glu Lys Val Leu Thr Glu Lys Ser Ser Arg Ser Arg
210 215 220
Lys Ala Glu Asn Val Leu Asn Phe Phe Pro Thr Glu Lys Lys Asn Asp
225 230 235 240
Thr Phe Asp Gln Phe Leu Lys Met Ile Val Gly Asn Gln Gly Asn Phe
245 250 255
Lys Lys Thr Phe Asp Leu Asp Glu Asp Ala Lys Leu Gln Phe Ser Lys
260 265 270
Glu Asp Tyr Asp Thr Glu Leu Glu Asn Leu Leu Gly Met Ala Gly Asp
275 280 285
Gly Tyr Gly Asp Val Phe Glu Ala Ala Lys Asn Ala Tyr Asn Ala Val
290 295 300
Glu Leu Ser Gly Ile Leu Thr Val Gln Asp Ser Leu Thr Lys Ala Lys
305 310 315 320
Leu Ser Ala Gly Met Ile Lys Arg Tyr Asp Asp His Lys Glu Asp Leu
325 330 335
Ala Leu Leu Lys Lys Phe Phe Leu Asn Asn Leu Gly Tyr Glu Glu Tyr
340 345 350
Val Ser Tyr Phe Lys Gly Asp Gly Lys Lys Asp Asn Asn Gly Tyr Ala
355 360 365
Ser Tyr Ile Asp Gly His Thr Lys Gln Asp Asp Phe Tyr Ser Tyr Thr
370 375 380
Lys Lys Met Leu Asp Lys Val Glu Gly Ala Asp Tyr Phe Leu Ala Lys
385 390 395 400
Ile Asp Gln Glu Asp Phe Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly
405 410 415
Val Ile Pro His Gln Ile His Leu Glu Glu Leu Lys Ala Ile Met Glu
420 425 430
His Gln Gly Glu Phe Tyr Pro Phe Leu Lys Glu Asn Phe Gln Lys Ile
435 440 445
Val Asp Leu Phe Asn Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala
450 455 460
Ser Lys Glu Asn His Gly Arg Phe Ala Trp Leu Glu Arg Asn Ser Asp
465 470 475 480
Glu Pro Ile Thr Pro Trp Asn Ile Thr Glu Val Val Asp Met Asn Lys
485 490 495
Ser Ala Glu Lys Phe Ile Glu Arg Met Thr Asn Phe Asp Thr Tyr Leu
500 505 510
Pro Asn Glu Lys Val Leu Pro Lys His Ser Met Leu Tyr Glu Lys Phe
515 520 525
Thr Val Tyr Asn Glu Leu Thr Lys Val Ser Tyr Thr Asp Glu Gln Glu
530 535 540
Lys Thr His Asn Phe Ser Ser Ile Glu Lys Glu Lys Ile Phe Lys Glu
545 550 555 560
Leu Phe Cys Lys Asn Arg Lys Val Thr Lys Asp Arg Leu Gln Lys Phe
565 570 575
Leu Tyr Asn Glu Tyr Asn Leu Glu Asn Val Thr Ile Asn Gly Ile Glu
580 585 590
Asn Glu Phe Asn Ala Lys Leu Ala Thr Tyr His Asp Phe Leu Lys Leu
595 600 605
Asn Val Ser Pro Glu Met Leu Asn Asp Pro Glu Asn Glu Asp Met Phe
610 615 620
Glu Glu Ile Val Lys Met Leu Thr Ile Phe Glu Asp Arg Lys Met Leu
625 630 635 640
Ala Lys Gln Leu Ala Ser Phe Lys Ser Tyr Phe Asp Glu Lys Thr Met
645 650 655
Lys Glu Leu Val Arg Arg Tyr Tyr Thr Gly Trp Gly Arg Leu Ser Ala
660 665 670
Lys Leu Ile Asn Gly Leu Tyr Asp Gln Gln Thr Gly Lys Thr Val Ile
675 680 685
Asp Phe Leu Val Met Asp Asp Ala Pro Gly Lys Asn Thr Asn Arg Asn
690 695 700
Phe Met Gln Leu Ile Asn Asp Asn Met Leu Ser Phe Lys Glu Glu Ile
705 710 715 720
Gln Lys Ala Gln Lys Glu Val Gly Thr Lys Asn Asp Leu Asn Gln Ile
725 730 735
Val Gln Glu Leu Ala Gly Ser Pro Ala Leu Lys Lys Gly Ile Leu Gln
740 745 750
Ser Leu Lys Ile Val Asp Glu Ile Val Asp Ile Met Gly Tyr Ala Pro
755 760 765
Thr Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gly Arg
770 775 780
Gly Lys Ile Asn Ser Gln Pro Arg Tyr Lys Asn Leu Glu Lys Ser Leu
785 790 795 800
Asn Glu Met Gln Ser Lys Ile Leu Lys Asp Tyr Pro Thr Asp Asn Lys
805 810 815
Ala Ile Gln Lys Asp Arg Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg
820 825 830
Asp Met Tyr Thr Gly His Asp Leu Asp Ile Asn Asn Leu Ser Asn Tyr
835 840 845
Asp Ile Asp His Ile Ile Pro Gln Ser Phe Ile Val Asp Asn Ser Ile
850 855 860
Asp Asn Arg Val Leu Val Ser Ser Lys Glu Asn Arg Gly Lys Ser Asp
865 870 875 880
Asp Val Leu Asn Ile Asp Ile Val Lys Ser Arg Lys Gly Phe Trp Glu
885 890 895
Gln Leu Leu His Ser Lys Leu Met Ser Lys Lys Lys Phe Asp Asn Leu
900 905 910
Thr Lys Ala Glu Arg Gly Gly Ile Thr Glu Asp Asp Lys Ala Gly Phe
915 920 925
Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala
930 935 940
Arg Ile Leu Asp Glu Arg Phe Asn Thr Glu Lys Asp Gln Thr Gly Lys
945 950 955 960
Lys Ile Arg Thr Val Arg Ile Val Thr Leu Lys Ser Ala Leu Thr Ser
965 970 975
Gln Phe Arg Lys Asn Tyr Gln Ile Tyr Lys Val Arg Glu Ile Asn Asp
980 985 990
Tyr His His Ala His Asp Ala Tyr Leu Asn Gly Val Val Ala Asn Thr
995 1000 1005
Leu Leu Lys Ile Tyr Pro Gln Leu Glu Pro Glu Phe Val Tyr Gly
1010 1015 1020
Glu Tyr His Arg Tyr Asp Ser Phe Lys Glu Asn Arg Ala Thr Ala
1025 1030 1035
Lys Lys Asn Met Tyr Ser Asn Ile Met Gln Phe Thr Lys Lys Asp
1040 1045 1050
Val Thr Leu Asp Lys Glu Gly Asn Gly Glu Ile Leu Trp Asp Asn
1055 1060 1065
Lys Ser Val Ala Met Val Lys Lys Val Ile Asp Tyr Arg Gln Met
1070 1075 1080
Asn Ile Val Lys Lys Thr Glu Ile Gln Arg Gly Gly Phe Ser Asn
1085 1090 1095
Glu Thr Val Leu Pro Lys Gly Pro Ser Asp Lys Leu Ile Pro Arg
1100 1105 1110
Lys Asn Asn Trp Asp Pro Ala Lys Tyr Gly Gly Val Gly Ser Pro
1115 1120 1125
Thr Glu Ala Tyr Ser Ile Ile Ile Ser Tyr Glu Lys Gly Lys Ser
1130 1135 1140
Lys Lys Val Val Lys Glu Ile Val Gly Ile Thr Ile Met Gln Arg
1145 1150 1155
Lys Ala Phe Glu Glu Asn Glu Leu Gly Phe Leu Lys Thr Arg Gly
1160 1165 1170
Tyr Glu Asn Pro Lys Val Leu Ala Lys Leu Pro Lys Tyr Thr Leu
1175 1180 1185
Phe Glu Phe Ala Asp Gly Arg Arg Arg Leu Leu Ala Ser Ser Lys
1190 1195 1200
Glu Ser Gln Lys Gly Asn Gln Leu Val Leu Ser Lys Asp Leu Asn
1205 1210 1215
Glu Leu Val Tyr His Ala Lys Asn Ser Asp Lys Lys Ser Glu Ser
1220 1225 1230
Leu Glu Phe Val Thr Asn Asn Ser Thr Met Phe Phe Asp Phe Leu
1235 1240 1245
Glu Tyr Val Asp Ile Phe Ala Gln Lys Tyr Ile Ile Ala Thr Lys
1250 1255 1260
Asn Ser Glu Arg Ile Gln Ile Val Ala Glu Asn Asn Lys Asp Ser
1265 1270 1275
Glu Gly Lys Asp Leu Ala Thr Ser Phe Phe Asn Leu Leu Gln Phe
1280 1285 1290
Thr Ala Met Gly Ala Pro Ala Asp Phe Lys Phe Phe Asn Glu Thr
1295 1300 1305
Ile Pro Arg Lys Arg Tyr Ser Ser Thr Ser Glu Leu Leu Asn Ala
1310 1315 1320
Thr Ile Ile Tyr Gln Ser Val Thr Gly Leu Tyr Glu Thr Arg Arg
1325 1330 1335
Asn Leu Gly Asp
1340
<210> 11
<211> 1388
<212> PRT
<213> Streptococcus thermophilus
<400> 11
Met Thr Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Thr Thr Asp Asn Tyr Lys Val Pro Ser Lys Lys Met
20 25 30
Lys Val Leu Gly Asn Thr Ser Lys Lys Tyr Ile Lys Lys Asn Leu Leu
35 40 45
Gly Val Leu Leu Phe Asp Ser Gly Ile Thr Ala Glu Gly Arg Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Thr Glu Met Ala Thr Leu Asp Asp Ala
85 90 95
Phe Phe Gln Arg Leu Asp Asp Ser Phe Leu Val Pro Asp Asp Lys Arg
100 105 110
Asp Ser Lys Tyr Pro Ile Phe Gly Asn Leu Val Glu Glu Lys Ala Tyr
115 120 125
His Asp Glu Phe Pro Thr Ile Tyr His Leu Arg Lys Tyr Leu Ala Asp
130 135 140
Ser Thr Lys Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Tyr Arg Gly His Phe Leu Ile Glu Gly Glu Phe Asn Ser
165 170 175
Lys Asn Asn Asp Ile Gln Lys Asn Phe Gln Asp Phe Leu Asp Thr Tyr
180 185 190
Asn Ala Ile Phe Glu Ser Asp Leu Ser Leu Glu Asn Ser Lys Gln Leu
195 200 205
Glu Glu Ile Val Lys Asp Lys Ile Ser Lys Leu Glu Lys Lys Asp Arg
210 215 220
Ile Leu Lys Leu Phe Pro Gly Glu Lys Asn Ser Gly Ile Phe Ser Glu
225 230 235 240
Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Arg Lys Cys Phe
245 250 255
Asn Leu Asp Glu Lys Ala Ser Leu His Phe Ser Lys Glu Ser Tyr Asp
260 265 270
Glu Asp Leu Glu Thr Leu Leu Gly Tyr Ile Gly Asp Asp Tyr Ser Asp
275 280 285
Val Phe Leu Lys Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser Gly
290 295 300
Phe Leu Thr Val Thr Asp Asn Glu Thr Glu Ala Pro Leu Ser Ser Ala
305 310 315 320
Met Ile Lys Arg Tyr Asn Glu His Lys Glu Asp Leu Ala Leu Leu Lys
325 330 335
Glu Tyr Ile Arg Asn Ile Ser Leu Lys Thr Tyr Asn Glu Val Phe Lys
340 345 350
Asp Asp Thr Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Asn
355 360 365
Gln Glu Asp Phe Tyr Val Tyr Leu Lys Lys Leu Leu Ala Lys Phe Glu
370 375 380
Gly Ala Asp Tyr Phe Leu Glu Lys Ile Asp Arg Glu Asp Phe Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro Tyr Gln Ile His Leu
405 410 415
Gln Glu Met Arg Ala Ile Leu Asp Lys Gln Ala Lys Phe Tyr Pro Phe
420 425 430
Leu Ala Lys Asn Lys Glu Arg Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Asp Phe Ala Trp
450 455 460
Ser Ile Arg Lys Arg Asn Glu Lys Ile Thr Pro Trp Asn Phe Glu Asp
465 470 475 480
Val Ile Asp Lys Glu Ser Ser Ala Glu Ala Phe Ile Asn Arg Met Thr
485 490 495
Ser Phe Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Thr Phe Asn Val Tyr Asn Glu Leu Thr Lys Val Arg
515 520 525
Phe Ile Ala Glu Ser Met Arg Asp Tyr Gln Phe Leu Asp Ser Lys Gln
530 535 540
Lys Lys Asp Ile Val Arg Leu Tyr Phe Lys Asp Lys Arg Lys Val Thr
545 550 555 560
Asp Lys Asp Ile Ile Glu Tyr Leu His Ala Ile Tyr Gly Tyr Asp Gly
565 570 575
Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ser Ser Leu Ser Thr
580 585 590
Tyr His Asp Leu Leu Asn Ile Ile Asn Asp Lys Glu Phe Leu Asp Asp
595 600 605
Ser Ser Asn Glu Ala Ile Ile Glu Glu Ile Ile His Thr Leu Thr Ile
610 615 620
Phe Glu Asp Arg Glu Met Ile Lys Gln Arg Leu Ser Lys Phe Glu Asn
625 630 635 640
Ile Phe Asp Lys Ser Val Leu Lys Lys Leu Ser Arg Arg His Tyr Thr
645 650 655
Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Arg Asp Glu
660 665 670
Lys Ser Gly Asn Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Ile Ser
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ala Leu Ser Phe Lys
690 695 700
Lys Lys Ile Gln Lys Ala Gln Ile Ile Gly Asp Glu Asp Lys Gly Asn
705 710 715 720
Ile Lys Glu Val Val Lys Ser Leu Pro Gly Ser Pro Ala Ile Lys Lys
725 730 735
Gly Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met
740 745 750
Gly Gly Arg Lys Pro Glu Ser Ile Val Val Glu Met Ala Arg Glu Asn
755 760 765
Gln Tyr Thr Asn Gln Gly Lys Ser Asn Ser Gln Gln Arg Leu Lys Arg
770 775 780
Leu Glu Lys Ser Leu Lys Glu Leu Gly Ser Lys Ile Leu Lys Glu Asn
785 790 795 800
Ile Pro Ala Lys Leu Ser Lys Ile Asp Asn Asn Ala Leu Gln Asn Asp
805 810 815
Arg Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly
820 825 830
Asp Asp Leu Asp Ile Asp Arg Leu Ser Asn Tyr Asp Ile Asp His Ile
835 840 845
Ile Pro Gln Ala Phe Leu Lys Asp Asn Ser Ile Asp Asn Lys Val Leu
850 855 860
Val Ser Ser Ala Ser Asn Arg Gly Lys Ser Asp Asp Val Pro Ser Leu
865 870 875 880
Glu Val Val Lys Lys Arg Lys Thr Phe Trp Tyr Gln Leu Leu Lys Ser
885 890 895
Lys Leu Ile Ser Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg
900 905 910
Gly Gly Leu Ser Pro Glu Asp Lys Ala Gly Phe Ile Gln Arg Gln Leu
915 920 925
Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Arg Leu Leu Asp Glu
930 935 940
Lys Phe Asn Asn Lys Lys Asp Glu Asn Asn Arg Ala Val Arg Thr Val
945 950 955 960
Lys Ile Ile Thr Leu Lys Ser Thr Leu Val Ser Gln Phe Arg Lys Asp
965 970 975
Phe Glu Leu Tyr Lys Val Arg Glu Ile Asn Asp Phe His His Ala His
980 985 990
Asp Ala Tyr Leu Asn Ala Val Val Ala Ser Ala Leu Leu Lys Lys Tyr
995 1000 1005
Pro Lys Leu Glu Pro Glu Phe Val Tyr Gly Asp Tyr Pro Lys Tyr
1010 1015 1020
Asn Ser Phe Arg Glu Arg Lys Ser Ala Thr Glu Lys Val Tyr Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Ile Phe Lys Lys Ser Ile Ser Leu Ala
1040 1045 1050
Asp Gly Arg Val Ile Glu Arg Pro Leu Ile Glu Val Asn Glu Glu
1055 1060 1065
Thr Gly Glu Ser Val Trp Asn Lys Glu Ser Asp Leu Ala Thr Val
1070 1075 1080
Arg Arg Val Leu Ser Tyr Pro Gln Val Asn Val Val Lys Lys Val
1085 1090 1095
Glu Glu Gln Asn His Gly Leu Asp Arg Gly Lys Pro Lys Gly Leu
1100 1105 1110
Phe Asn Ala Asn Leu Ser Ser Lys Pro Lys Pro Asn Ser Asn Glu
1115 1120 1125
Asn Leu Val Gly Ala Lys Glu Tyr Leu Asp Pro Lys Lys Tyr Gly
1130 1135 1140
Gly Tyr Ala Gly Ile Ser Asn Ser Phe Ala Val Leu Val Lys Gly
1145 1150 1155
Thr Ile Glu Lys Gly Ala Lys Lys Lys Ile Thr Asn Val Leu Glu
1160 1165 1170
Phe Gln Gly Ile Ser Ile Leu Asp Arg Ile Asn Tyr Arg Lys Asp
1175 1180 1185
Lys Leu Asn Phe Leu Leu Glu Lys Gly Tyr Lys Asp Ile Glu Leu
1190 1195 1200
Ile Ile Glu Leu Pro Lys Tyr Ser Leu Phe Glu Leu Ser Asp Gly
1205 1210 1215
Ser Arg Arg Met Leu Ala Ser Ile Leu Ser Thr Asn Asn Lys Arg
1220 1225 1230
Gly Glu Ile His Lys Gly Asn Gln Ile Phe Leu Ser Gln Lys Phe
1235 1240 1245
Val Lys Leu Leu Tyr His Ala Lys Arg Ile Ser Asn Thr Ile Asn
1250 1255 1260
Glu Asn His Arg Lys Tyr Val Glu Asn His Lys Lys Glu Phe Glu
1265 1270 1275
Glu Leu Phe Tyr Tyr Ile Leu Glu Phe Asn Glu Asn Tyr Val Gly
1280 1285 1290
Ala Lys Lys Asn Gly Lys Leu Leu Asn Ser Ala Phe Gln Ser Trp
1295 1300 1305
Gln Asn His Ser Ile Asp Glu Leu Cys Ser Ser Phe Ile Gly Pro
1310 1315 1320
Thr Gly Ser Glu Arg Lys Gly Leu Phe Glu Leu Thr Ser Arg Gly
1325 1330 1335
Ser Ala Ala Asp Phe Glu Phe Leu Gly Val Lys Ile Pro Arg Tyr
1340 1345 1350
Arg Asp Tyr Thr Pro Ser Ser Leu Leu Lys Asp Ala Thr Leu Ile
1355 1360 1365
His Gln Ser Val Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ala
1370 1375 1380
Lys Leu Gly Glu Gly
1385
<210> 12
<211> 1366
<212> PRT
<213> Streptococcus parasanguinis
<400> 12
Met Lys Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ala Lys Lys Met
20 25 30
Lys Val Leu Gly Asn Thr Asn Lys Glu Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ala Gly Asn Thr Ala Ala Asp Arg Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ala Ala Glu Met Asn Lys Val Asp Glu Ser
85 90 95
Phe Phe His Arg Leu Asp Asp Ser Phe Leu Val Pro Glu Asp Lys Arg
100 105 110
Gly Ser Lys Tyr Pro Ile Phe Gly Thr Leu Glu Glu Glu Lys Glu Tyr
115 120 125
His Lys Gln Phe Pro Thr Ile Tyr Tyr Leu Arg Lys Ile Leu Ala Asp
130 135 140
Ser Lys Glu Lys Val Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Ile Ile Lys Tyr Arg Gly His Phe Leu Tyr Glu Asp Ser Phe Asp Ile
165 170 175
Lys Asn Asn Asp Ile Gln Lys Ile Phe Asn Glu Phe Thr Ile Leu Tyr
180 185 190
Asp Asn Thr Phe Glu Glu Ser Ser Leu Ser Lys Gly Asn Ala Gln Val
195 200 205
Glu Glu Ile Phe Thr Asp Lys Ile Ser Lys Ser Ala Lys Arg Asp Arg
210 215 220
Val Leu Lys Leu Phe Pro Asp Glu Lys Ser Thr Gly Leu Phe Ser Glu
225 230 235 240
Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Lys Lys His Phe
245 250 255
Asp Leu Glu Glu Lys Ala Pro Leu Gln Phe Ser Lys Asp Thr Tyr Glu
260 265 270
Glu Asp Leu Glu Ser Leu Leu Gly Gln Ile Gly Asp Val Tyr Ala Asp
275 280 285
Leu Phe Val Val Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ala Gly
290 295 300
Ile Leu Ser Val Lys Asp Pro Gly Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Glu Arg Tyr Asp Asn His Gln Asn Asp Leu Ser Ala Leu Lys
325 330 335
Gln Phe Val Arg Arg Asn Leu Pro Glu Lys Tyr Ala Glu Val Phe Ser
340 345 350
Asp Asp Ser Lys Asp Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Thr
355 360 365
Gln Glu Gly Phe Tyr Lys Tyr Ile Lys Asn Leu Ile Ser Lys Ile Glu
370 375 380
Gly Ala Glu Tyr Phe Leu Glu Lys Ile Glu Arg Glu Asp Phe Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gln Glu Met Asn Ala Ile Leu Arg His Gln Gly Glu Tyr Tyr Pro Phe
420 425 430
Leu Lys Glu Asn Lys Asp Lys Ile Glu Gln Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Asp Phe Ala Trp
450 455 460
Leu Ser Arg Asn Ser Asp Glu Ala Ile Arg Pro Trp Asn Phe Glu Glu
465 470 475 480
Met Val Asp Lys Ser Ser Ser Ala Glu Asp Phe Ile His Arg Met Thr
485 490 495
Asn Tyr Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Thr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Ile Ala Glu Gly Met Lys Asp Tyr Gln Phe Leu Asp Ser Gly Gln
530 535 540
Lys Lys Gln Ile Val Asn Gln Leu Phe Lys Glu Lys Arg Lys Val Thr
545 550 555 560
Glu Lys Asp Ile Ile His Tyr Leu His Asn Val Asp Gly Tyr Asp Gly
565 570 575
Ile Glu Leu Lys Gly Ile Glu Lys His Phe Asn Ser Ser Leu Ser Thr
580 585 590
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Glu Phe Met Asp Asp
595 600 605
Pro Lys Asn Glu Glu Ile Phe Glu Asn Ile Val His Thr Leu Thr Ile
610 615 620
Phe Glu Asp Arg Val Met Ile Lys Gln Arg Leu Asn Gln Tyr Asp Ser
625 630 635 640
Ile Phe Asp Glu Lys Val Ile Lys Ala Leu Thr Arg Arg His Tyr Thr
645 650 655
Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Arg Asp Lys
660 665 670
Lys Thr Ser Lys Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Tyr Ser
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile Asn Asp Asp Gly Leu Ser Phe Lys
690 695 700
Glu Thr Ile Gln Lys Ala Gln Val Val Gly Glu Thr Asn Asp Val Lys
705 710 715 720
Gln Val Val Gln Glu Leu Pro Gly Ser Pro Ala Ile Lys Lys Gly Ile
725 730 735
Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met Gly His
740 745 750
Ala Pro Glu Ser Val Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr
755 760 765
Asn Lys Gly Lys Ser Lys Ser Gln Gln Arg Leu Lys Thr Leu Ser Asp
770 775 780
Ala Ile Ser Glu Leu Gly Ser Asn Ile Leu Lys Glu His Pro Thr Asp
785 790 795 800
Asn Ile Gln Leu Gln Asn Asp Arg Leu Phe Leu Tyr Tyr Leu Gln Asn
805 810 815
Gly Lys Asp Met Tyr Thr Gly Glu Ala Leu Asp Ile Asn Gln Leu Ser
820 825 830
Asn Tyr Asp Ile Asp His Ile Ile Pro Gln Ala Phe Ile Lys Asp Asp
835 840 845
Ser Leu Asp Asn Arg Val Leu Thr Ser Ser Lys Asp Asn Arg Gly Lys
850 855 860
Ser Asp Asn Val Pro Ser Leu Glu Ile Val Glu Lys Met Lys Gly Phe
865 870 875 880
Trp Gln Gln Leu Leu Asp Ser Lys Leu Ile Ser Glu Arg Lys Phe Asn
885 890 895
Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Asp Glu Arg Asp Lys Val
900 905 910
Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His
915 920 925
Val Ala Gln Ile Leu Asp Asp Arg Phe Asn Ala Glu Val Asn Glu Lys
930 935 940
Asn Gln Lys Leu Arg Ser Val Lys Ile Ile Thr Leu Lys Ser Asn Leu
945 950 955 960
Val Ser Asn Phe Arg Lys Glu Phe Gly Leu Tyr Lys Val Arg Glu Ile
965 970 975
Asn Asp Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Ala
980 985 990
Lys Ala Ile Leu Lys Lys Tyr Pro Lys Leu Glu Pro Glu Phe Val Tyr
995 1000 1005
Gly Asp Tyr Gln Lys Tyr Asp Leu Lys Arg Tyr Ile Ser Arg Thr
1010 1015 1020
Lys Asp Pro Lys Glu Ile Glu Lys Ala Thr Glu Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Leu Leu Asn Phe Phe Lys Asp Lys Val Tyr Tyr Ala
1040 1045 1050
Asp Gly Thr Ile Ile Gln Arg Gly Asn Val Glu Tyr Ser Lys Asp
1055 1060 1065
Thr Gly Glu Ile Ala Trp Asn Lys Lys Arg Asp Phe Ala Ile Val
1070 1075 1080
Arg Lys Val Leu Ser Tyr Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Glu Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Gly Asn Ser Asp Lys Leu Ile Pro Arg Lys Thr Lys Asn Val Gln
1115 1120 1125
Leu Asp Thr Thr Lys Tyr Gly Gly Phe Asp Ser Pro Val Ile Ala
1130 1135 1140
Tyr Ser Ile Leu Leu Val Ala Asp Val Glu Lys Gly Lys Ser Lys
1145 1150 1155
Lys Leu Lys Thr Val Lys Ser Leu Ile Gly Ile Thr Ile Met Glu
1160 1165 1170
Lys Val Lys Phe Glu Ala Asn Pro Val Ala Phe Leu Glu Gly Lys
1175 1180 1185
Gly Tyr Gln Asn Val Val Glu Glu Asn Ile Ile Arg Leu Pro Lys
1190 1195 1200
Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Arg Arg Met Leu Ala
1205 1210 1215
Ser Ala Lys Glu Leu Gln Lys Gly Asn Glu Met Val Leu Pro Ser
1220 1225 1230
Tyr Leu Ile Ala Leu Leu Tyr His Ala Lys Arg Ile Gln Lys Lys
1235 1240 1245
Asp Glu Pro Glu His Leu Glu Tyr Ile Lys Gln His His Ser Glu
1250 1255 1260
Phe Asn Asp Leu Leu Asn Phe Val Ser Glu Phe Ser Gln Lys Tyr
1265 1270 1275
Val Leu Ala Glu Ser Asn Leu Glu Lys Ile Lys Asn Leu Tyr Ile
1280 1285 1290
Asp Asn Glu Gln Thr Asn Met Glu Glu Ile Ala Asn Ser Phe Ile
1295 1300 1305
Asn Leu Leu Thr Phe Thr Ala Phe Gly Ala Pro Ala Val Phe Lys
1310 1315 1320
Phe Phe Gly Lys Asp Ile Glu Arg Lys Arg Tyr Ser Thr Val Thr
1325 1330 1335
Glu Ile Leu Lys Ala Thr Leu Ile His Gln Ser Leu Thr Gly Leu
1340 1345 1350
Tyr Glu Thr Arg Ile Asp Leu Ser Lys Leu Gly Glu Glu
1355 1360 1365
<210> 13
<211> 1368
<212> PRT
<213> Artificial
<220>
<223> Base sequence SEQ ID NO:1, residues 695, 848, and 926 substituted
with Alanine, residue 923 substituted with Methionine, and
residue 924 substituted with Valine
<400> 13
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Ala Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Ala
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Met Val Arg Ala Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
Claims (32)
- 하기를 5'에서 3'으로 포함하는 DNA 구축물:
제1 유형 IIS 제한 효소에 대한 제1 인식 부위,
DNA 요소,
제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위,
DNA 요소에 고유하게 할당된 바코드, 및
제1 유형 IIS 제한 효소에 대한 제2 인식 부위. - 제1항에 있어서, DNA 벡터인 DNA 구축물.
- 제1항의 DNA 구축물 중 2개 이상을 포함하는 라이브러리.
- 하기를 5'에서 3'으로 포함하는 DNA 구축물로서:
제1 유형 IIS 제한 효소에 대한 인식 부위,
복수개의 DNA 요소,
프라이머 결합 부위, 및
복수개의 DNA 요소 중 하나에 각각 고유하게 할당된 복수개의 바코드, 및 제2 유형 IIS 제한 효소에 대한 인식 부위,
여기서 복수개의 DNA 요소는 서로 연결되어 복수개의 DNA 요소 중 임의의 2개 사이의 임의의 연결 지점에서 임의의 외부 서열 없이 단백질에 대한 코딩 서열을 형성하고, 여기서 복수개의 바코드는 그의 할당된 DNA 요소의 역순으로 배치되는 것인
DNA 구축물. - 제4항에 있어서, DNA 벡터인 DNA 구축물.
- 제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 있어서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소가 DNA 분자를 절단할 때 양립성 단부를 생성하는 것인 DNA 구축물.
- 제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 있어서, 제1 유형 IIS 제한 효소가 BsaI이고, 제2 유형 IIS 제한 효소가 BbsI인 DNA 구축물.
- 하기 단계를 포함하는, 조합 유전적 구축물을 생성하는 방법으로서:
(a) 제2항의 제1 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제1 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제1 바코드를 포함하는 제1 DNA 단편을 방출하는 단계;
(b) 프로모터를 포함하는 초기 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 프로모터의 3' 단부 근처에서 초기 발현 벡터를 선형화하고 (a)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계;
(c) (a)의 제1 DNA 단편을 어닐링하고 이를 (b)의 선형화된 발현 벡터에 라이게이션하여, 제1 DNA 단편 및 제1 바코드가 그의 3' 단부에서 프로모터에 작동가능하게 연결되는 1-원 복합 발현 벡터를 형성하는 단계;
(d) 제2항의 제2 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 제2 DNA 세그먼트, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제2 바코드를 포함하는 제2 DNA 단편을 방출하는 단계;
(e) (c)의 복합 발현 벡터를 제2 유형 IIS 제한 효소로 절단하여, 제1 DNA 요소와 제1 바코드 사이에서 복합 발현 벡터를 선형화하고 (d)의 DNA 단편의 제1 및 제2 단부와 양립성인 2개의 단부를 생성하는 단계; 및
(f) (d)의 제2 DNA 단편을 어닐링하고 이를 제1 DNA 요소와 제1 바코드 사이에 있는 (e)의 선형화된 복합 발현 벡터에 라이게이션하여, 제1 DNA 단편, 제2 DNA 단편, 제2 바코드, 및 제1 바코드가 그의 3' 단부에서 프로모터에 이러한 순서로 작동가능하게 연결되는 2-원 복합 발현 벡터를 형성하는 단계,
여기서 제1 및 제2 DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1 및 제2 세그먼트를 코딩하고, 여기서 제1 및 제2 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 2-원 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 제1 및 제2 DNA 요소 각각은 하나 이상의 돌연변이를 포함하는 것인
방법. - 제6항에 있어서, 단계 (d) 내지 (f)가 제n DNA 요소, 제2 유형 IIS 제한 효소에 대한 제1 및 제2 인식 부위, 및 제n 바코드를 포함하는 제n DNA 단편을 n-원 복합 발현 벡터에 혼입시키기 위해 n회까지 반복되며, 제n DNA 요소는 그의 C-말단으로부터 사전-선택된 단백질의 제n 또는 제2 내지 마지막 세그먼트를 코딩하며, 하기 단계를 추가로 포함하며:
(x) 제1 유형 IIS 제한 효소에 대한 제1 인식 부위와 제2 인식 부위 사이에, 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제(n+1) 바코드를 포함하는 최종 DNA 벡터를 제공하는 단계;
(y) 최종 DNA 벡터를 제1 유형 IIS 제한 효소로 절단하여, 5'에서 3'으로: 제(n+1) DNA 요소, 프라이머-결합 부위, 및 제1 유형 IIS 제한 효소에 의해 생성된 제1 및 제2 단부에 의해 플랭킹된 제(n+1) 바코드를 포함하는 최종 DNA 단편을 방출하는 단계;
(z) 최종 DNA 단편을 어닐링하고 이를, 단계 (d) 내지 (f)를 n회 동안 반복하고 제2 유형 IIS 제한 효소에 의해 선형화시킨 후에 생산되는 n-원 복합 발현 벡터에 라이게이션하여, 최종 복합 발현 벡터를 형성하는 단계,
여기서 제1, 제2 등 내지 제n 및 제(n+1) DNA 요소는 서로 바로 인접한 그의 N-말단으로부터 사전-선택된 단백질의 제1, 제2 등 내지 제n 및 마지막 세그먼트를 코딩하고, 여기서 제1, 제2 등 내지 제n 및 마지막 DNA 단편은 임의의 외부 뉴클레오티드 서열이 없는 최종 복합 발현 벡터에서 서로 연결되어, 사전-선택된 단백질에서 발견되지 않는 임의의 아미노산 잔기를 생성하며, 여기서 각각의 DNA 요소는 하나 이상의 돌연변이를 포함하는 것인
방법. - 제8항 또는 제9항에 있어서, 제1 유형 IIS 제한 효소 및 제2 유형 IIS 제한 효소가 DNA 분자를 절단할 때 양립성 단부를 생성하는 것인 방법.
- 제8항 또는 제9항에 있어서, 제1 유형 IIS 제한 효소가 BsaI이고, 제2 유형 IIS 제한 효소가 BbsI인 방법.
- 제9항의 방법에 의해 생성된 최종 복합 발현 벡터 중 2개 이상을 포함하는 라이브러리.
- 서열식별번호: 1 및 4-13 중 어느 하나에 제시된 아미노산 서열을 포함하는 폴리펩티드로서, 여기서 서열식별번호: 1의 잔기 1003에 상응하는 잔기가 치환되고, 서열식별번호: 1의 잔기 661에 상응하는 잔기가 치환되는 것인 폴리펩티드.
- 제13항에 있어서, 서열식별번호: 1의 잔기 1003에 상응하는 잔기가 히스티딘으로 치환되고 서열식별번호: 1의 잔기 661에 상응하는 잔기가 알라닌으로 치환되는 것인 폴리펩티드.
- 제14항에 있어서, 서열식별번호: 1에 제시된 아미노산 서열을 포함하며, 여기서 잔기 1003이 히스티딘으로 치환되고 잔기 661이 알라닌으로 치환되며, 임의로 잔기 926에서 알라닌으로의 치환을 추가로 포함하는 폴리펩티드.
- 제13항에 있어서, 서열식별번호: 1의 잔기 695, 848, 및 926에 상응하는 잔기가 알라닌으로 치환되고, 서열식별번호: 1의 잔기 923에 상응하는 잔기가 메티오닌으로 치환되고, 서열식별번호: 1의 잔기 924에 상응하는 잔기가 발린으로 치환되는 것인 폴리펩티드.
- 제16항에 있어서, 서열식별번호: 1에 제시된 아미노산 서열을 포함하며, 여기서 서열식별번호: 1의 잔기 695, 848, 및 926에 상응하는 잔기가 알라닌으로 치환되고, 서열식별번호: 1의 잔기 923에 상응하는 잔기가 메티오닌으로 치환되고, 서열식별번호: 1의 잔기 924에 상응하는 잔기가 발린으로 치환되는 것인 폴리펩티드.
- 제13항의 폴리펩티드 및 생리학상 허용되는 부형제를 포함하는 조성물.
- 제13항 내지 제17항 중 어느 한 항의 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열을 포함하는 핵산.
- 제17항의 핵산 및 생리학상 허용되는 부형제를 포함하는 조성물.
- 제13항 내지 제17항 중 어느 한 항의 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열에 작동가능하게 연결된 프로모터를 포함하는 발현 카세트.
- 제21항의 발현 카세트를 포함하는 벡터.
- 제22항에 있어서, 바이러스 벡터인 벡터.
- 제19항의 발현 카세트 또는 제13항 내지 제17항 중 어느 한 항의 폴리펩티드를 포함하는 숙주 세포.
- DNA 분자를 표적 부위에서 절단하는 방법으로서, 표적 DNA 부위를 포함하는 DNA 분자를 제13항 내지 제17항 중 어느 한 항의 폴리펩티드 및 표적 DNA 부위에 특이적으로 결합하는 짧은 가이드-RNA (sgRNA)와 접촉시키며, 그에 의해 DNA 분자가 표적 DNA 부위에서 절단되게 하는 것을 포함하는 방법.
- 제25항에 있어서, DNA 분자가 살아있는 세포 내의 게놈 DNA이며, 여기서 세포가 sgRNA 및 폴리펩티드를 코딩하는 폴리뉴클레오티드 서열로 형질감염된 것인 방법.
- 제26항에 있어서, 세포가 sgRNA를 코딩하는 제1 벡터 및 폴리펩티드를 코딩하는 제2 벡터로 형질감염된 것인 방법.
- 제26항에 있어서, 세포가 sgRNA 및 폴리펩티드 둘 다를 코딩하는 벡터로 형질감염된 것인 방법.
- 제27항에 있어서, 제1 및 제2 벡터 각각이 바이러스 벡터인 방법.
- 제28항에 있어서, 벡터가 바이러스 벡터인 방법.
- 제29항 또는 제30항에 있어서, 바이러스 벡터가 레트로바이러스 벡터인 방법.
- 제31항에 있어서, 레트로바이러스 벡터가 렌티바이러스 벡터인 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862733410P | 2018-09-19 | 2018-09-19 | |
US62/733,410 | 2018-09-19 | ||
PCT/CN2019/106096 WO2020057481A1 (en) | 2018-09-19 | 2019-09-17 | Improved high-throughput combinatorial genetic modification system and optimized cas9 enzyme variants |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210060541A true KR20210060541A (ko) | 2021-05-26 |
Family
ID=69888347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217011033A KR20210060541A (ko) | 2018-09-19 | 2019-09-17 | 개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230193251A1 (ko) |
EP (2) | EP3853363A4 (ko) |
JP (2) | JP2022501025A (ko) |
KR (1) | KR20210060541A (ko) |
CN (1) | CN112955549A (ko) |
WO (1) | WO2020057481A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210008161A1 (en) | 2019-06-17 | 2021-01-14 | Crispr Therapeutics Ag | Methods and compositions for improved homology directed repair |
WO2022018638A1 (en) | 2020-07-21 | 2022-01-27 | Crispr Therapeutics Ag | Genome-editing compositions and methods to modulate faah for treatment of neurological disorders |
EP4263829A1 (en) | 2020-12-17 | 2023-10-25 | Vertex Pharmaceuticals Incorporated | Compositions and methods for editing beta-globin for treatment of hemaglobinopathies |
WO2022238958A1 (en) | 2021-05-12 | 2022-11-17 | Crispr Therapeutics Ag | Multiplex gene editing |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5965408A (en) | 1996-07-09 | 1999-10-12 | Diversa Corporation | Method of DNA reassembly by interrupting synthesis |
EP1557464B1 (en) * | 2004-01-23 | 2010-09-29 | Sloning BioTechnology GmbH | De novo enzymatic production of nucleic acid molecules |
WO2008095927A1 (en) * | 2007-02-05 | 2008-08-14 | Philipps-Universität Marburg | Method of cloning at least one nucleic acid molecule of interest using type iis restriction endonucleases, and corresponding cloning vectors, kits and system using type iis restriction endonucleases |
SG11201408736SA (en) | 2012-06-29 | 2015-03-30 | Massachusetts Inst Technology | Massively parallel combinatorial genetics |
US10253321B2 (en) * | 2013-05-01 | 2019-04-09 | Dna2.0, Inc. | Methods, compositions and kits for a one-step DNA cloning system |
KR20160097327A (ko) * | 2013-12-12 | 2016-08-17 | 더 브로드 인스티튜트, 인코퍼레이티드 | 유전자 산물, 구조 정보 및 유도성 모듈형 cas 효소의 발현의 변경을 위한 crispr-cas 시스템 및 방법 |
US10017770B2 (en) * | 2014-07-03 | 2018-07-10 | Ut-Battelle, Llc | TNT cloning system |
US20190100769A1 (en) | 2014-10-31 | 2019-04-04 | Massachusetts Institute Of Technology | Massively parallel combinatorial genetics for crispr |
US20170369878A1 (en) | 2015-01-12 | 2017-12-28 | Massachusetts Institute Of Technology | Microrna combinations for anti-cancer therapeutics |
MA41349A (fr) * | 2015-01-14 | 2017-11-21 | Univ Temple | Éradication de l'herpès simplex de type i et d'autres virus de l'herpès associés guidée par arn |
WO2016176325A1 (en) * | 2015-04-27 | 2016-11-03 | California Institute Of Technology | Methods and compositions for rapid assembly of genetic modules |
CN114875012A (zh) * | 2015-08-28 | 2022-08-09 | 通用医疗公司 | 工程化的CRISPR-Cas9核酸酶 |
US9926546B2 (en) * | 2015-08-28 | 2018-03-27 | The General Hospital Corporation | Engineered CRISPR-Cas9 nucleases |
IL257453B (en) * | 2015-09-01 | 2022-07-01 | Univ California | Modular polypeptide libraries and methods for their preparation and use |
WO2018035387A1 (en) * | 2016-08-17 | 2018-02-22 | The Broad Institute, Inc. | Novel crispr enzymes and systems |
WO2018064208A1 (en) * | 2016-09-28 | 2018-04-05 | The Broad Institute, Inc. | Systematic screening and mapping of regulatory elements in non-coding genomic regions, methods, compositions, and applications thereof |
WO2018068053A2 (en) * | 2016-10-07 | 2018-04-12 | Integrated Dna Technologies, Inc. | S. pyogenes cas9 mutant genes and polypeptides encoded by same |
US20200172899A1 (en) * | 2016-10-14 | 2020-06-04 | The General Hospital Corporation | Epigenetically Regulated Site-Specific Nucleases |
GB201621589D0 (en) * | 2016-12-19 | 2017-02-01 | Univ Gent And Katholieke Univ Leuven K U Leuven R&D | Polynucleotide shuffling method |
CN110431230A (zh) * | 2017-01-26 | 2019-11-08 | 切除生物治疗公司 | 慢病毒和非整合型慢病毒作为病毒载体实施crispr治疗 |
-
2019
- 2019-09-17 EP EP19863047.7A patent/EP3853363A4/en active Pending
- 2019-09-17 WO PCT/CN2019/106096 patent/WO2020057481A1/en unknown
- 2019-09-17 KR KR1020217011033A patent/KR20210060541A/ko unknown
- 2019-09-17 CN CN201980061793.9A patent/CN112955549A/zh active Pending
- 2019-09-17 EP EP23178221.0A patent/EP4253549A3/en active Pending
- 2019-09-17 JP JP2021515089A patent/JP2022501025A/ja active Pending
- 2019-09-17 US US17/278,189 patent/US20230193251A1/en active Pending
-
2023
- 2023-07-24 JP JP2023119639A patent/JP2023156337A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022501025A (ja) | 2022-01-06 |
JP2023156337A (ja) | 2023-10-24 |
EP3853363A4 (en) | 2022-12-14 |
US20230193251A1 (en) | 2023-06-22 |
EP3853363A1 (en) | 2021-07-28 |
WO2020057481A1 (en) | 2020-03-26 |
CN112955549A (zh) | 2021-06-11 |
EP4253549A3 (en) | 2023-12-06 |
EP4253549A2 (en) | 2023-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6878554B2 (ja) | RNA誘導型FokIヌクレアーゼ(RFN)を用いたRNA誘導型ゲノム編集の特異性の増大 | |
EP3473728B1 (en) | Method for screening targeted genetic scissors by using multiple target system of on-target and off-target activity and use thereof | |
US10011850B2 (en) | Using RNA-guided FokI Nucleases (RFNs) to increase specificity for RNA-Guided Genome Editing | |
KR20210060541A (ko) | 개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체 | |
KR20190116407A (ko) | 고-충실도 Cas9 변이체 및 그의 적용 | |
KR20240036729A (ko) | 클래스 ii, 타입 v crispr 시스템 | |
EP3676396B1 (en) | Transposase compositions, methods of making and methods of screening | |
US9856470B2 (en) | Process for generating a variant library of DNA sequences | |
US20230116689A1 (en) | Methods and biological systems for discovering and optimizing lasso peptides | |
JP2023546681A (ja) | Adarを動員するガイドrnaのスクリーニングプラットフォーム | |
CN118256471A (en) | Improved high-throughput combinatorial gene modification system and optimized Cas9 enzyme variants | |
JP2024522764A (ja) | 遺伝子編集のため、並びにプログラム可能な遺伝子活性化及び阻害のための微小crisprヌクレアーゼを含むシステム、方法及び組成物 | |
CA3163369A1 (en) | Variant cas9 | |
AU2022291127A1 (en) | Crispr-transposon systems for dna modification | |
JP2019521955A (ja) | 操作されたfhaドメイン |