KR20140069313A - 분할된 인테인 및 그의 이용 - Google Patents

분할된 인테인 및 그의 이용 Download PDF

Info

Publication number
KR20140069313A
KR20140069313A KR1020147011492A KR20147011492A KR20140069313A KR 20140069313 A KR20140069313 A KR 20140069313A KR 1020147011492 A KR1020147011492 A KR 1020147011492A KR 20147011492 A KR20147011492 A KR 20147011492A KR 20140069313 A KR20140069313 A KR 20140069313A
Authority
KR
South Korea
Prior art keywords
leu
intein domain
seq
intein
lys
Prior art date
Application number
KR1020147011492A
Other languages
English (en)
Other versions
KR102096534B1 (ko
Inventor
로세르 팔리세 베르그웨르프
스테판 로버트 슈미츠
디닥 마르코 펠리우
패트리시아 카리나 카르바할 발레호스
Original Assignee
에라 바이오테크, 에스.에이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에라 바이오테크, 에스.에이. filed Critical 에라 바이오테크, 에스.에이.
Publication of KR20140069313A publication Critical patent/KR20140069313A/ko
Application granted granted Critical
Publication of KR102096534B1 publication Critical patent/KR102096534B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2/00Peptides of undefined number of amino acids; Derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/0004Oxidoreductases (1.)
    • C12N9/0006Oxidoreductases (1.) acting on CH-OH groups as donors (1.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/0004Oxidoreductases (1.)
    • C12N9/0093Oxidoreductases (1.) acting on CH or CH2 groups (1.17)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/90Isomerases (5.)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/02Preparation of peptides or proteins having a known sequence of two or more amino acids, e.g. glutathione
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/06Preparation of peptides or proteins produced by the hydrolysis of a peptide bond, e.g. hydrolysate products
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/20Fusion polypeptide containing a tag with affinity for a non-protein ligand
    • C07K2319/21Fusion polypeptide containing a tag with affinity for a non-protein ligand containing a His-tag
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/20Fusion polypeptide containing a tag with affinity for a non-protein ligand
    • C07K2319/22Fusion polypeptide containing a tag with affinity for a non-protein ligand containing a Strep-tag
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/90Fusion polypeptide containing a motif for post-translational modification
    • C07K2319/92Fusion polypeptide containing a motif for post-translational modification containing an intein ("protein splicing")domain

Abstract

본 발명은 일반적으로 강건한 분할된 인테인에 관한 것이다. 본 명세서에 개시된 분할된 인테인은, 낮게는 0℃의 온도를 포함한 보다 큰 온도 범위, 넓은 pH 범위에 걸치고, 무질서 염의 존재 하에서 활성이다. 분할된 인테인은 또한 융합된 이종성 폴리펩타이드에서의 서열 변이성에 대한 높은 내성을 보여, 따라서 단백질 정제 및 엔지니어링 기술에서 유용하다.

Description

분할된 인테인 및 그의 이용{SPLIT INTEINS AND USES THEREOF}
본 발명은 일반적으로 강건한 분할된 (split) 인테인 및 그의 이용, 예로서 단백질 정제 및 엔지니어링에서의 이용에 관한 것이다.
인테인 (intein)은 그의 숙주 단백질로부터 자가-절단되어, 펩타이드 결합으로 플랭킹 (flanking) 서열 (엑스테인 (extein))의 결찰을 촉매하는 내부 단백질 성분이다. 인테인 절단은 보조 효소 또는 보조인자(cofactor)를 필요로 하지 않는 번역후 과정이다. 이러한 자가-절단 과정은, 전-mRNA로부터 RNA의 스플라이싱에 대한 유사성으로, "단백질 스플라이싱 (protein splicing)"으로 지칭된다 (Perler F 등, Nucl Acids Res. 22:1125~1127 (1994)). 단편(segment)은 내부 단백질 서열(internal protein sequence)의 경우 "인테인"으로, 외부 단백질 (external protein) 서열의 경우 "엑스테인"으로 지칭되며, 상류 엑스테인은 "N-엑스테인"으로, 하류 엑스테인은 "C-엑스테인"으로 지칭된다. 단백질 스플라이싱 과정의 생성물은 두 개의 안정한 단백질: 성숙 단백질 및 인테인이다.
미니-인테인 및 거대 인테인의 구조
인테인은 두 개의 군: 거대 및 최소 (미니)로 분류된다 (Liu XQ, Ann Rev Genet 34:61~76 (2000)). 거대 인테인은 미니-인테인에 부재하는 호밍(homing) 엔도뉴클레아제를 포함한다. 스플라이싱-효율적인 미니-인테인은, 거대 인테인으로부터 중심 엔도뉴클레아제 도메인을 제거함으로써 엔지니어링되어 왔으며, 이는 엔도뉴클레아제 도메인이 단백질 스플라이싱에 관련되지 않았음을 증명한다 (Chong S. and Xu M., J Biol Chem. 272:15587~15589 (1997); Derbyshire V. 등, Proc Natl Acad Sci USA. 94:11466~11471 (1997); 및 Shingledecker K. 등 Gene. 207:187~195 (1998)).
모든 알려진 인테인은, N- 및 C-말단에서만 보존된 잔기들을 갖고, 낮은 정도의 서열 유사성을 갖는다. 대부분의 인테인은 Ser 또는 Cys로 시작하고, His-Asn 또는 His-Gln로 종료된다. C-엑스테인의 첫번째 아미노산은 불변 Ser, Thr 또는 Cys 이지만, N-엑스테인에서 인테인에 선행하는 잔기는 보존되지 않는다 (Perler F. 2002, Nucl. Acids Res. 30: 383~384). 그러나, N-말단 및 C-말단 엑스테인 모두에서의 인테인-스플라이싱 접합점에 대해 가까운 잔기들은 단백질 스플라이싱을 가속화 또는 감쇄시키는 것으로 최근 발견되었다 (Amitai G 등 2009, Proc. Natl. Acad. Sci. USA. 106:11005~11010).
인테인의 시스- 및 트랜스-스플라이싱 메커니즘
인테인은 스플라이싱 메커니즘에 의하여 분류될 수 있다. 가장 많이 연구된 인테인 그룹인, 클래스 1 인테인은, 4개의 보존된 스플라이스 접합점 잔기들 중 3개에 의하여 매개되는, 4 개의 친핵성 공격의 신속한 과정을 갖는다. 단계 1에서, 스플라이싱 과정은 N-말단 스플라이싱 도메인의 첫번째 위치에 위치된 세린 또는 시스테인 잔기의 아실-전이 (acyl-shift)로 시작한다. 이는 N-엑스테인/인테인 접합점에서 (티오)에스테르 결합을 형성한다. 단계 2에서, (티오)에스테르 결합은 C-엑스테인에서 첫번째 잔기의 (Cys, Ser, 또는 Thr) OH- 또는 SH-기에 의해 공격받는다. 이는 N-엑스테인을 C-엑스테인의 첫번째 잔기의 측쇄로 전달하는 에스테르교환반응을 이끈다. 단계 3에서, C-말단 스플라이싱 도메인의 마지막 위치에 위치된 보존된 Asn 또는 Gln 잔기의 고리화는 엑스테인을 (티오)에스테르 결합에 의해 연결한다. 마지막으로 단계 4는, 자발적인 S-N 또는 O-N 아실 전이에 의한, (티오)에스테르 결합의 펩타이드 결합으로의 재배열이다. 스플라이싱 반응에 직잔접적으로 연관된 중요한 아미노산들을 도 3A에 나타내었다.
클래스 1 인테인에서 인테인-엑스테인 접합점의 위치-특이적 분열(cleavage)은 보존된 인테인 잔기의 돌연변이에 의하여 달성될 수 있다. 인테인 C-말단에서 Asn 또는 Gln 잔기의 돌연변이는 스플라이싱 반응인 단계 3 및 4를 제거하며, N-말단 분열만을 결과로서 초래한다. 여전히 단계 1이 일어나기 때문에, (티오)에스테르 결합은 자발적으로 가수분해하여, 인테인/C-엑스테인 부분으로부터 N-엑스테인을 분리할 수 있다. N-말단 스플라이싱 도메인의 첫번째 위치에 위치된 세린 또는 시스테인 잔기는 N-말단 분열에 요구된다 (도 3C 참조). 인테인의 이러한 보존된 제 1 잔기의 돌연변이는 스플라이싱 반응의 단계 1, 2 및 4를 제거하고, C-말단 분열만을 이끈다. 이러한 돌연변이된 인테인에서, Asn 고리화 (단계 3)는 여전히 일어나서, N-엑스테인/인테인 부분으로부터 C-엑스테인을 분리시킨다. C-말단 스플라이싱 도메인의 마지막 (XN) 및 끝에서 두번째 (XN-1) 위치에 각각 위치된 Asn (또는 Gln) 및 His 잔기는 N-말단 분열에 요구된다 (도 3B 참조). 개질된 시스-스플라이싱 인테인의 제어가능한 분열은 분자 생물학 및 생명과학에서 광범위한 범위의 유용한 응용분야에 적용되어 왔다.
천연 분할된 인테인
인테인은 두 개의 별도로 전사 및 번역된 유전자에 의하여 암호화된 두 개의 단편으로서 존재할 수도 있다. 이들 소위 분할된 인테인들은 자가-연합(self-associate) 및 트랜스에서 (in trans) 단백질-스플라이싱 활성을 촉매한다.
분할된 인테인은 다양한 남조류 및 고세균류(archaea)에서 확인되어 왔지만 (Caspi 등, Mol Microbiol. 50:1569~1577 (2003); Choi J. 등, J Mol Biol. 356:1093~1106 (2006.); Dassa B. 등, Biochemistry. 46:322~330 (2007.); Liu X. and Yang J., J Biol Chem. 278:26315~26318 (2003); Wu H. 등, Proc Natl Acad Sci USA. 95:9226~9231 (1998.); 및 Zettler J. 등, FEBS Letters. 583:909~914 (2009)), 이제까지 진핵생물에서는 발견되지 않았다. 최근, 환경적 메타지노믹 (metagenomic) 데이터의 생물정보 분석은, 신규 지놈(genome) 배열을 갖는 26개의 상이한 유전자좌를 밝혔다. 각 유전자좌에서, 보존된 효소 코딩 영역은 분할된 인테인에 의하여 중단되고, 인테인 서브도메인을 코딩하는 구간들 사이에 삽입된 독립된(free-standing) 엔도뉴클레아제 유전자를 갖는다. 이들 중, 5개의 유전자좌들이 완전히 조립되었다: DNA 헬리카제 (gp41-1, gp41-8); 이노신-5'-모노포스페이트 탈수소화제 (IMPDH-1); 및 리보뉴클레오타이드 환원제 촉매 서브유닛 (NrdA-2 및 NrdJ-1). 이러한 균열된 유전자 조직은 주로 파지 (phage) 내에 존재하는 것으로 나타난다 (Dassa 등, Nucleic Acids Research. 37:2560~2573 (2009)).
분할된 인테인 Npu DnaE은 단백질 트랜스-스플라이싱 반응에 대하여 보고된 최고 속도를 갖는 것으로서 특징되었다. 추가적으로, Npu DnaE 단백질 스플라이싱 반응은 상이한 엑스테인 서열, 6 내지 37℃의 온도, 및 6M 이하의 우레아의 존재에 대하여 강건하고 고-수율인 것으로 고려된다 (Zettler J. 등, FEBS Letters. 583:909~914 (2009); Iwai I. 등, FEBS Letters 580:1853~1858 (2006)). 기대된 바와 같이, 이들 인테인의 N-도메인의 Cys1 Ala 돌연변이가 도입된 경우, 초기 N 내지 S-아실 전이 및 그에 따른 단백질 스플라이싱이 차단되었다. 유감스럽게도, C-말단 분열 반응도 거의 완전히 억제되었다. N-말단의 잘라지기 쉬운 (scissile) 펩타이드 결합에서의 아실 전이에 대한 C-말단 스플라이스 접합점에서 아스파라긴 고리화의 의존도는 천연적으로 분할된 DnaE 인테인 대립유전자에 흔한 독특한 성질인 것으로 보인다 (Zettler J. 등 FEBS Letters. 583:909-914 (2009)).
생명공학에서의 인테인의 적용
인테인은 넓은 범위의 생명공학적 적용에서 가치가 높은 도구이다. 인테인의 천연 스플라이싱 활성을 이용하는 펩타이드 및 단백질의 결찰은 인테인-매개 단백질 결찰 (IPL), 또는 발현된 단백질 결찰 (EPL)로서 알려져 있으며, 분자 생물학 및 생명공학적 방법에서 잘 확립되어 있다 (Evans T. 등, Biopolymers 51:333~342 (1999); Muir T. 등, Proc Natl Acad Sci USA. 95:6705~6710 (1998); 및 Severinov K. 및 Muir T., J Biol Chem. 273:16205~16209 (1998)). 나아가, 인테인은, 인테인-타겟 단백질 경계에서만의 위치-특이적 분열에 의해, 단백질 정제를 위해 사용되어 왔다 (Lu W. 등, J Chromatography A. 1218:2553~2560 (2011)). 생물학적분리 (bioseparation)에서 인테인-매개 절차의 이용은 실험실 규모에서 잘 수립되어 있으며, 대규모 생명공학에서의 관심이 증가되고 있다. 대규모 단백질 생산을 위한 이들 단백질 정제 기술의 능력은 명백하지만, 산업적, 규모-상향된 조건 하에서의 인테인-매개 단백질 정제 시스템은 개발되어야만 한다. 기타 적용분야로는 NMR 분석을 위한 단백질의 단편적 라벨링, 단백질의 고리화, 독성 단백질의 제어된 발현, 양자점들 (quantum dots)의 단백질로의 접합 및 비전형적 (non-canonical) 아미노의 혼입이 있다 (Arnold U., Biotechnol Lett. 31:1129~1139 (2009); Charalambous A. 등, J Nanobiotechnology 7:9 (2009); Oeemig J. 등, FEBS Letters 583:1451~1456 (2009); Seyedsayamdost M. 등, Nat Protoc. 2:1225~1235 (2007); Zueger S. and Iwai H., Nat Biotechnol. 23:736~740 (2005); 및 Evans T. 등, Annu Rev Plant Biol. 56:375~392 (2005)). 기초적 조사 연구에서, 인테인은 생체 내 단백질-단백질 상호작용의 모니터링, 단백질의 세포 소기관 내로의 특이적 전좌(translocation), 외생의 폴리펩타이드의 살아있는 세포 상 막단백질로의 결찰 또는 단백질 활성의 광제어에 사용되어 왔다 (Chong S. and Xu M., Homing endonucleases and inteins. Vol 16. Springer, Berlin Heidelberg, New York, 273~292 (2005); Ozawa T. and Umezawa Y., Homing endonucleases and inteins. Vol 16. Springer, Berlin Heidelberg, New York, 307~323 (2005); Ozawa T. 등, Nat Biotechnol. 21:287~293 (2003); Dhar T. and Mootz H., Chem Commun. 47:3063~3065 (2011); 및 Binschik J. 등, Angewandte Chemie International Ed. 50(14):3249~3252 (2011)). 생명공학에서 사용되는 인테인의 대부분은 원핵생물로부터 유도되거나, 또는 S. 세레비시에 (S. cerevisiae) VMA1-인테인의 엔지니어링된 변이체들이다 (Elleuche & Poggeler 2010 Appl. Microbiol Biotechnol 78:479~489).
이러한 기술을 대규모 생물학적 공정에서 이용하기 위해서는, 강건한 성질을 갖는 인테인 및 그를 이용하는 방법이 확인되어야만 한다. 인테인 및 본 명세서에 설명된 그러한 인테인의 사용 방법은, 넓은 온도 범위에서 염 존재 하에, 가변성 서열의 폴리펩타이드에 융합된 경우에 기능하는 고도로 활성인 인테인을 제공함으로써 이러한 필요를 다룬다.
발명의 개요
본 발명은 강건한 분할된 인테인 및 그의 이용 방법에 관한 것이다. 분할된 인테인은, 보다 큰 온도 범위, 넓은 pH 범위에 걸쳐, 그리고 무질서 (chaotropic salt) 염 존재 하에서 활성이다. 또한, 분할된 인테인은 융합된 이종성 폴리펩타이드에서의 서열 변이성에 대하여 높은 내성을 보인다. 이들 특징은 상기 분할된 인테인이 단백질 정제 및 엔지니어링 기술에서 특히 유용하도록 한다.
구체적으로, (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인, 및 (ii) 상기 인테인 도메인에 대해 C-말단인, 이종성 폴리펩타이드를 포함하는 융합 단백질이 제공된다. 일부 실시양태에서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민이다. 일부 실시양태에서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민외의 아미노산, 예로서 알라닌이다. 일부 실시양태에서, 인테인 도메인의 끝에서 두번째 아미노산은 히스티딘 외의 아미노산이다. 일부 실시양태에서, 이종성 폴리펩타이드는 펩타이드 결합을 통하여 인테인 도메인에 직접 연결된다. 일부 실시양태에서, 이종성 폴리펩타이드의 첫번째 아미노산은 세린, 시스테인, 또는 트레오닌이다. 일부 실시양태에서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산으로, 예로서, 알라닌이고, 이종성 폴리펩타이드의 첫번째 아미노산은 세린, 트레오닌 또는 시스테인 외의 아미노산, 예로서 알라닌이다. 일부 실시양태에서, 융합 단백질은 이종성 폴리펩타이드 및 인테인 도메인 사이의 연결기(linker)를 더 포함한다. 일부 실시양태에서, 연결기의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌이다. 일부 실시양태에서, 연결기의 첫번째 아미노산은 세린, 시스테인, 또는 트레오닌 외의 아미노산, 즉 알라닌이다. 일부 실시양태에서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산, 예로서 알라닌이고, 연결기의 첫번째 아미노산은 세린, 트레오닌 또는 시스테인 외의 아미노산으로, 예로서 알라닌이다. 일부 실시양태에서, 연결기는 천연 엑스테인 서열의 1~5개 아미노산을 포함한다. 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택되는 서열을 갖는 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 C-말단인, 이종성 폴리펩타이드를 갖는 인테인 도메인을 포함하는 융합 단백질도 제공된다.
추가적으로, (i) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인, 및 (ii) 상기 인테인 도메인에 대해 N-말단인, 이종성 폴리펩타이드를 포함하는 융합 단백질이 제공된다. 일부 실시양태에서, 인테인 도메인의 첫번째 아미노산은 시스테인이다. 일부 실시양태에서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인 외의 아미노산으로, 예로서 알라닌이다. 일부 실시양태에서, 이종성 폴리펩타이드는 펩타이드 결합을 통해 인테인 도메인에 직접 연결된다. 일부 실시양태에서, 융합 단백질은 이종성 폴리펩타이드 및 인테인 도메인 사이의 연결기를 더 포함한다. 일부 실시양태에서, 연결기는 천연 엑스테인 서열의 1~5개의 아미노산이다. 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열을 갖는 인테인 도메인 및 상기 인테인 도메인에 대해 N-말단인 이종성 폴리펩타이드를 포함하는 융합 단백질도 제공된다.
또한, 제 1 인테인 도메인, 제 2 인테인 도메인, 및 이종성 폴리펩타이드를 포함하는 융합 단백질이 제공된다. 또한, 제 1 인테인 도메인, 제 2 인테인 도메인, 및 이종성 폴리펩타이드를 포함하는 융합 단백질이 제공되며, 상기 이종성 폴리펩타이드는 제 1 인테인 도메인에 대해 N-말단이고, 상기 이종성 폴리펩타이드는 제 2 인테인 도메인에 대해 C-말단이다. 또한, 제 1 인테인 도메인, 제 2 인테인 도메인 및 이종성 폴리펩타이드를 포함하는 융합 단백질이 제공되며, 상기 이종성 폴리펩타이드는 제 1 인테인 도메인에 대해 N-말단이고 (N-말단 스플라이싱 도메인), 상기 이종성 폴리펩타이드는 제 2 인테인 도메인에 대해 C-말단이다 (C-말단 스플라이싱 도메인). 일부 실시양태에서, (a) 제 1 인테인 도메인은 서열번호 3에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 7에 대하여 75% 이상 동일하고; (b) 제 1 인테인 도메인은 서열번호 12에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 16에 대하여 75% 이상 동일하고; (c) 제 1 인테인 도메인은 서열번호 20에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 24에 대하여 75% 이상 동일하고; (d) 제 1 인테인 도메인은 서열번호 34에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 38에 대하여 75% 이상 동일하고; 또는 (d) 제 1 인테인 도메인은 서열번호 64에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 65에 대하여 75% 이상 동일하다. 일부 실시양태에서, 이종성 폴리펩타이드의 첫번째 아미노산은 세린, 시스테인, 또는 트레오닌이다. 일부 실시양태에서, 융합 단백질은 이종성 폴리펩타이드 및 제 2 인테인 도메인 사이의 연결기를 더 포함하고, 상기 연결기의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌이다. 일부 실시양태에서, 연결기의 첫번째 아미노산은 세린이다.
본 발명에 따른 융합 단백질을 암호화하는 폴리뉴클레오타이드도 본 명세서에서 제공된다.
융합 단백질을 포함하는 조성물도 제공된다. 그러한 조성물은 예로서, C-말단 분열 반응, N-말단 분열 반응, 트랜스-스플라이싱 반응, 및 단백질-고리화 방법에 유용하다.
단백질, 융합 단백질, 폴리뉴클레오타이드 또는 조성물을 포함하는 숙주 세포도 제공된다.
본 명세서에서 제공된 폴리펩타이드 및 융합 단백질의 이용 방법, 예로서 C-말단 분열 반응, N-말단 분열 반응, 트랜스-스플라이싱 반응 및 단백질-고리화가 제공된다. 이러한 방법은 약 0℃ 내지 약 60℃의 온도, 약 6 내지 약 10의 pH, 및/또는 약 0.5M 내지 약 6M 우레아 존재 하에서 시행될 수 있다.
일부 실시양태에서, 본 명세서에 제공된 반응의 반응 속도 상수는 약 1×10-1-1 이상, 또는 약 2×10-1 -1 이상이다. 일부 실시양태에서, 반응 속도 반감기는 약 100초 미만, 약 50초 미만, 또는 약 25초 미만 또는 약 15초 미만이다.
반응은, 예로서 온도 또는 pH에서의 전이 또는 단백질을 혼합함으로써 개시될 수 있다.
본 발명은, 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대하여 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드 및 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 하류의 적어도 하나의 클로닝 자리를 포함하여, 인테인 도메인 및 관심 대상의 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드를 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터도 제공한다.
본 발명은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택되는 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드 및 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 상류의 하나 이상의 클로닝 자리를 포함하여, 관심 대상의 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드 및 인테인 도메인을 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터도 제공한다.
본 발명은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 하류의 적어도 하나의 클로닝 자리, 및 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는, 클로닝 자리의 하류의 폴리뉴클레오타이드를 포함하여, 관심 대상의 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드 및 2 개의 인테인 도메인을 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터도 제공하고, 여기에서:
a. 제 1 인테인 도메인이 서열번호 7에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
b. 제 1 인테인 도메인이 서열번호 16에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
c. 제 1 인테인 도메인이 서열번호 24에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
d. 제 1 인테인 도메인이 서열번호 38에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하다.
본 발명은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택되는 서열에 대해 75% 이상 동일한 제 1 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 제 1 인테인 도메인을 암호화하는 상기 폴리뉴클레오타이드의 하류의 제 1 클로닝 자리, 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택되는 서열에 대해 75% 이상 동일한 제 2 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 및 제 2 인테인 도메인을 암호화하는 상기 폴리뉴클레오타이드의 상류의 제 2 클로닝 자리를 포함하는 벡터를 제공하며, 상기 제 1 클로닝 자리는 관심 대상의 제 1 폴리뉴클레오타이드의 클로닝을 가능하게 하고, 제 2 클로닝 자리는 관심 대상의 제 2 폴리뉴클레오타이드의 클로닝을 가능하게 하여, 상기 순서대로, 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드, 제 2 인테인 도메인, 제 1 인테인 도메인 및 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드를 포함하는 폴리뉴클레오타이드가 형성되도록 하고, 여기에서
a. 제 1 인테인 도메인이 서열번호 7에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
b. 제 1 인테인 도메인이 서열번호 16에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
c. 제 1 인테인 도메인이 서열번호 24에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
d. 제 1 인테인 도메인이 서열번호 38에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나, 또는
e. 제 1 인테인 도메인이 서열번호 65에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 64에 대해 75% 이상 동일하다.
발명의 상세한 설명
하기는 다수의 단백질-엔지니어링 적용에 유용한 분할된 인테인의 설명을 제공한다. 분할된 인테인은 이종성 단백질에 융합된 Gp41.1, Gp41.8, NrdA2, NrdJ1 또는 IMPDH1 서열을 포함하며, 예로서 단백질 합성, 분열, 정제, 결찰, 고리화, 및 단백질 활성의 조절 및/또는 모니터링에 사용될 수 있다.
본 명세서에서 사용된 섹션 제목은 구성적 목적만을 위한 것이지, 설명된 대상을 어떤 방식으로든 제한하는 것으로 해석되어서는 안된다.
I. 정의
달리 명시적으로 정의되지 않는 경우, 본 명세서에 사용된 용어는 당 기술분야에서 그의 일반적인 의미에 따르는 것으로 이해되어야 한다. 단수로 사용되거나 또는 부정관사 ("a" 또는 "an")으로 지칭된 용어는, 문맥에서 달리 특정되거나 표시되지 않는 경우, 복수도 포함하며, 그 반대도 가능하다. 표준 기술 및 방법들은 당 기술분야의 기존 방법 및 각종 일반 참고자료 (일반적으로, Sambrook 등 Molecular Cloning: A Laboratory Manual, 제 2판 (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 이는 참고로서 본 명세서에 통합됨)에 따라 일반적으로 수행되며, 이는 이러한 문헌을 통하여 제공된다.
"폴리펩타이드", "펩타이드" 및 "단백질"이라는 용어는, 임의의 길이의 아미노산의 중합체를 지칭하기 위하여 상호교환적으로 사용된다. 중합체는 선형 또는 분지형일 수 있고, 개질 아미노산을 포함할 수 있고, 비-아미노산에 의하여 중단될 수 있다. 용어는 천연적으로 또는 개재(intervention)에 의하여 변경된 아미노산 중합체도 포괄하며; 이에는 예로서, 이황화물 결합 형성, 글리코실화, 지질화, 아세틸화, 인산화 또는 라벨링 성분과의 접합과 같은 임의의 기타 조작 또는 변경이 있다. 이 정의 내에는 예로서, 아미노산의 하나 이상의 유사체 (예로서, 비천연 아미노산, 등)를 포함하는 폴리펩타이드 및 당 기술분야에서의 기타 변경이 포함된다.
"융합 폴리펩타이드"는 적어도 2 개의 폴리펩타이드 및 선택적으로 2 개의 폴리펩타이드를 하나의 연속된 폴리펩타이드 내로 작동적으로 연결하기 위한 연결 서열로 구성된다. 융합 폴리펩타이드 내에 연결된 2개의 폴리펩타이드는 전형적으로 2 개의 독립된 공급원으로부터 유도되고, 따라서 융합 폴리펩타이드는 천연적으로 연결된 정상적으로는 발견되지 않는 2 개의 연결된 폴리펩타이드를 포함한다. 2 개의 폴리펩타이드는 펩타이드 결합에 의하여 직접적으로 작동적으로 부착되거나 또는 본 명세서에서 설명되거나 또는 그렇지 않으면 당 기술분야에서 알려진 연결기를 통해 간접적으로 연결될 수 있다.
"핵산", "폴리뉴클레오타이드" 또는 "핵산 분자"는 뉴클레오타이드로 지칭되는 공유결합된 서브유닛으로 구성되는 중합체성 화합물이다. 핵산은 폴리리보핵산 (RNA) 및 폴리데옥시리보핵산 (DNA)로, 이들은 모두 단일-가닥 또는 이중-가닥일 수 있다. DNA는 cDNA, 지놈 DNA, 합성 DNA 및 반-합성 DNA를 포함한다.
둘 이상의 핵산 또는 폴리펩타이드의 맥락에서, "동일" 또는 "동일성" 백분율은 동일하거나 또는 특정된 백분율의 뉴클레오타이드 또는, 서열 동일성의 일부로서 임의의 보존성 아미노산 치환은 고려하지 않고 최대 대응성(correspondence)에 대해 비교 및 배열시 (필요한 경우 갭(gap) 도입), 동일한 아미노산 잔기를 갖는 둘 이상의 서열 또는 하위서열을 지칭한다. 동일성 백분율은, 서열 비교 소프트웨어 또는 알고리즘을 이용하거나 또는 시각적 관찰에 의하여 측정될 수 있다. 아미노산 또는 뉴클레오티드 서열의 배열을 수득하는데 사용될 수 있는, 각종 알고리즘 및 소프트웨어가 당 기술분야에서 알려져 있다. 이러한 서열 배열 알고리즘의 한 비제한적인 예로는 Karlin 등, 1990, Proc. Natl. Acad. Sci., 87:2264~2268에서 설명되고, Karlin 등, 1993, Proc. Natl. Acad. Sci., 90:5873~5877에서 변형된 바와 같은 알고리즘, 및 NBLAST 및 XBLAST 프로그램 (Altschul 등, 1991, Nucleic Acids Res., 25:3389~3402) 내에 통합된 알고리즘이 있다. 특정 실시양태에서, 갭이 있는 (gapped) BLAST는 Altschul 등, 1997, Nucleic Acids Res. 25:3389~3402에 설명된 것과 같이 사용될 수 있다. BLAST-2, WU-BLAST-2 (Altschul 등, 1996, Methods in Enzymology, 266:460~480), ALIGN, ALIGN-2 (Genentech, South San Francisco, California) 또는 Megalign (DNASTAR)은, 서열을 배열하는데 사용될 수 있는 추가적인 공개적으로 입수가능한 소프트웨어 프로그램이다. 특정 실시양태에서, 2 개의 뉴클레오티드 서열 간의 동일성 백분율은 GCG 소프트웨어에서 GAP 프로그램을 이용하여 결정된다 (예로서, NWSgapdna.CMP 매트릭스 및 40, 50, 60, 70 또는 90의 갭 중량, 및 1, 2, 3, 4, 5 또는 6의 길이 중량 이용). 특정의 대안적인 실시양태에서, Needleman and Wunsch (J. Mol. Biol. 48:444~453 (1970))의 알고리즘을 포함한 GCG 소프트웨어 패키지에서 GAP 프로그램을 사용하여 2 개의 아미노산 서열 간의 동일성 백분율을 결정할 수 있다 (예로서, Blossum 62 매트릭스 또는 PAM250 매트릭스 중 하나를 이용, 및 16, 14, 12, 10, 8, 6, 또는 4의 갭 중량, 및 1, 2, 3, 4, 5의 길이 중량). 대안적으로, 특정의 실시양태에서, 뉴클레오타이드 또는 아미노산 서열 간의 동일성 백분율은 Myers and Miller (CABIOS, 4:11~17 (1989))의 알고리즘을 이용하여 결정된다. 예로서, 동일성 백분율은 ALIGN 프로그램 (버전 2.0) 및 잔기 표가 있는 PAM120, 갭 길이 페널티 12 및 갭 페널티 4를 이용하여 결정될 수 있다. 특정 배열 소프트웨어에 의한 최대 배열을 위한 적절한 변수는 당업자에 의하여 결정될 수 있다. 특정 실시양태에서, 배열 소프트웨어의 디폴트(default) 파라미터가 사용된다. 특정 실시양태에서, 제 2 서열 아미노산에 대한 첫번째 아미노산 서열의 동일성 백분율 "X"는 100×(Y/Z)로서 계산되며, 식 중 Y는 (시각적 관찰 또는 특정 서열 배열 프로그램에 의하여 배열된 것과 같은) 제 1 및 제 2 서열의 배열에서 동일한 매치로서 점수매김된 아미노산 잔기의 수이고, Z는 제 2 서열에서 잔기의 총 수이다. 제 2 서열이 제 1 서열보다 더 긴 경우, 동일성 백분율은 상기 제 1 및 제 2 서열 사이에서의 중복 (overlap) 영역에서만 결정될 수 있다. 이 경우, 제 1 및 제 2 서열이 중복되는 영역의 길이를 Z 값으로서 사용하는 것을 제외하고, 상기와 같은 동일한 화학식이 사용될 수 있으며, 상기 영역은 제 1 서열의 길이와 실질적으로 동일한 길이를 갖는 영역이다.
비제한적인 예로서, 임의의 특정 폴리뉴클레오타이드가 참조 서열에 대하여 특정 백분율의 서열 동일성 (예로서, 80% 이상 동일, 85% 이상 동일, 90% 이상 동일이고, 일부 실시양태에서, 95%, 96%, 97%, 98%, 또는 99% 이상 동일)을 갖는지의 여부는, Bestfit 프로그램 (Wisconsin Sequence Analysis Package, Version 8 for Unix, Genetics Computer Group, University Research Park, 575 Science Drive, Madison, WI 53711)을 이용하여 결정될 수 있다. Bestfit은 Smith and Waterman, Advances in Applied Mathematics 2: 482 489 (1981)의 국소 상동성을 이용하여, 두 서열간의 최적 상동성 단편을 찾는다. 특정 서열이 예로서 본 발명에 따른 참조 서열에 대해 95% 동일성인지의 여부를 결정하기 위하여 Bestfit 또는 임의의 기타 서열 배열 프로그램을 이용하는 경우, 동일성 백분율은 참조 뉴클레오타이드 서열의 전장에 걸쳐 계산되고, 참조 서열에서 뉴클레오타이드 총 수의 5% 이하의 상동성 내 갭이 허용되도록 변수들이 설정된다.
일부 실시양태에서, 본 발명의 2 개의 핵산 또는 폴리펩타이드가 실질적으로 동일하다는 것은, 최대 대응성에 대해 비교 및 배열시, 서열 비교 알고리즘을 이용하여 또는 시각 관찰에 의해 측정시, 이들이 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 및 일부 실시양태에서 95%, 96%, 97%, 98%, 99% 이상의 뉴클레오타이드 또는 아미노산 잔기 동일성을 갖는다는 것을 의미한다. 동일성은 길이로 약 10 개 이상, 약 20 개 이상, 약 40~60 개 이상 잔기 또는 그 사이에서 임의로 포함된 값으로 서열 영역에 걸쳐 존재하며, 예로서 60~80 개 잔기보다 긴 영역에 걸쳐, 예로서 약 90~100 개 잔기 이상에서 존재할 수 있고, 일부 실시양태에서, 뉴클레오타이드 서열의 코딩영역과 같이, 서열은 비교되는 서열의 전장에 대하여 실질적으로 동일하다.
"벡터"라는 용어는, 숙주세포에서 하나 이상의 관심 대상의 유전자(들) 또는 서열(들)을 전달, 및 선택적으로 발현할 수 있는 구축물을 의미한다. 벡터의 예로는, 이에 제한되지는 않지만, 바이러스성 벡터, 네이키드(naked) DNA 또는 RNA 발현 벡터, 플라스미드, 코스미드 또는 파지 벡터, 양이온성 응축제와 관련된 DNA 또는 RNA 발현 벡터, 리포좀 내에 캡슐화된 DNA 또는 RNA 발현 벡터, 및 특정의 진핵 세포, 예컨대 생산자 세포가 포함된다. 벡터는 안정할 수 있으며, 자가-복제성일 수 있다. "발현 벡터"는 유전자의 발현을, 그가 작동적으로 연합되는 유전자의 발현을 지시할 수 있는 벡터이다.
"프로모터"는 코딩 서열 또는 기능적 RNA의 발현을 제어할 수 있는 DNA 절편을 지칭한다. 일반적으로, 코딩 영역은 3'에서 프로모터로 위치된다. 프로모터는 천연 유전자로부터 그 전체로서 유도될 수 있거나, 자연에서 발견되는 상이한 프로모터로부터 유래된 상이한 성분들로 구성되거나, 또는 심지어는 합성 DNA 절편을 포함할 수 있다. 상이한 프로모터들이 상이한 조직 또는 세포 유형에서 또는 상이한 발생 단계에서, 또는 상이한 환경적 또는 생리학적 조건에 반응하여 유전자의 발현을 지시할 수 있음을, 당업자는 이해할 것이다. 대부분의 세포 유형에서 대부분의 경우에서 유전자가 발현되도록 하는 프로모터는 "구성 프로모터"로서 흔히 지칭된다. 대부분의 경우에서 조절 서열의 정확한 경계는 완전히 정의되지 않았기 때문에, 상이한 길이의 DNA 절편은 동일한 프로모터 활성을 가질 수 있다는 것이 더욱 인식되었다. 프로모터는, 배경 초과에서 검출가능한 수준으로 전사를 개시하는데 필요한 최소 수의 염기 또는 성분을 포함하기 위하여, 일반적으로 전사 개시 위치에 의하여 그의 3' 말단에서 결합되고 상류 (5' 방향)로 신장한다. 프로모터 내에서, (예로서 뉴클레아제 S1을 이용한 맵핑에 의하여 편리하게 정의된) 전사 개시 자리, 및 RNA 중합효소의 결합의 원인이 되는 단백질 결합 도메인 (공통 서열)이 발견될 것이다.
본 명세서에서 사용된 바와 같은 "이종성"이라는 용어는 내생 공급원 외의 공급원으로부터 유도된 벡터, 플라스미드 또는 숙주 세포의 성분을 지칭한다. 따라서, 예로서 이종성 서열 (예로서, 폴리뉴클레오타이드 서열 또는 폴리펩타이드 서열)은 동일한 숙주, 상이한 종류의 숙주 세포, 또는 상이한 분류학적 군의 생물로부터 (예로서, 상이한 계, 문, 강, 목 과, 속 또는 종, 또는 이들 분류 중 하나 내의 임의의 하위군) 의 상이한 유전자 또는 플라스미드로부터 유래된 서열일 수 있을 것이다. "이종성"이라는 용어는 "외생의"라는 용어와 본 명세서에서 동의어로도 사용된다.
DNA 또는 RNA "코딩 영역"은, 적절한 조절 서열의 제어 하에 위치되는 경우 시험관 내 또는 생체 내에서 세포 내 폴리펩타이드 내로 전사 및/또는 번역되는 시험 DNA 또는 RNA 분자이다. "적합한 조절 영역"은 코딩 영역의 상류 (5' 비-코딩 서열), 코딩 영역 내 또는 하류 (3' 비-코딩 서열)에 위치된 핵산 영역을 지칭하며, 이는 전사, RNA 가공 또는 안정성, 또는 연관된 코딩 영역의 번역에 영향을 미친다. 조절 영역은 프로모터, 번역 리더 서열, RNA 가공 자리, 이펙터 결합 자리 및 스템-고리 구조를 포함할 수 있다. 코딩 영역의 경계는 5' (아미노) 말단에서의 출발 코돈 및 3' (카르복실) 말단에서의 번역 중지 코돈에 의하여 결정된다. 코딩 영역으로는 이에 제한되지는 않지만, 원핵생물적 영역, mRNA로부터의 cDNA, 지놈성 DNA 분자, 합성 DNA 분자, 또는 RNA 분자가 포함될 수 있다. 코딩 영역이 진핵 세포에서의 발현에 의도된 경우, 폴리아데닐화 신호 및 전사 종료 서열은 일반적으로 코딩 영역에 대하여 3'에 위치될 것이다.
"오픈 리딩 프레임"은 ORF로 축약되며, 번역 출발 신호 또는 개시 코돈, 예컨대 ATG 또는 AUG, 및 종료 코돈을 포함하는 핵산, DNA, cDNA 또는 RNA 중 어느 하나의 길이를 의미한다.
코딩 영역은 RNA 중합효소가 코딩 영역을 mRNA로 전사시키는 경우 세포 내에서 전사 및 번역 제어 성분의 "제어 하에" 있으며, 그 트랜스-RNA 스플라이스된 (코딩 영역이 인트론을 포함하는 경우) 및 코딩 영역에 의하여 암호화된 단백질 내로 번역된다.
"전사 및 번역 제어 영역"은, 프로모터, 인핸서, 종결제 등과 같은 DNA 조절 영역으로, 이는 숙주 세포에서 코딩 영역의 발현을 제공한다. 진핵세포에서, 폴리아데닐화 신호는 제어 영역이다.
"작동적으로 연관된" 및 "작동적으로 연결된"이라는 용어는, 하나의 작용이 다른 하나에 영향을 미치도록 하는 두 개의 분자의 연관을 지칭한다. 예로서, 프로모터가 코딩 영역의 발현에 영향을 미칠 수 있는 경우 (즉, 코딩 영역이 프로모터의 전사 제어 하에 있는 것), 코딩 영역에 작동적으로 연관된 것이다. 코딩 영역은 센스 또는 안티센스 배향으로 조절 영역에 작동적으로 연관될 수 있다. 두 개의 분자는, 그들이 직접적 (예로서, 융합 단백질) 또는 간접적 (예로서, 연결기를 통하여)으로 부착되었는지의 여부에 관계없이 "작동적으로 연결"된다.
본 명세서에서 사용된 바와 같은, "발현"이라는 용어는 핵산 주형으로부터의 RNA (예로서, mRNA)의 전사 및/또는 mRNA의 폴리펩타이드 내로의 번역을 지칭한다. "증가된 발현"이라는 용어는 증가된 mRNA 생산의 수준 및/또는 폴리펩타이드 발현의 수준에서 유전자 발현에서의 변경을 포함하고자 하는 것으로, 일반적으로 유전자 산물 또는 단백질의 증가된 양을 결과로서 생성한다. 일부 경우, "증가된 발현"은 "과발현" 또는 "과발현된"이라는 용어와 상호교환적으로 사용된다.
II. 인테인
인테인은 숙주 단백질로부터 자가-절단할 수 있고, 펩타이드 결합과 플랭킹 서열의 결찰을 촉매할 수 있는 단백질 성분이다. 분할된 인테인은 인테인의 N-말단 도메인 및 인테인의 C-말단 도메인이 펩타이드 결합을 통하여 직접 연결되지 않은 임의의 인테인이다. 천연의 분할된 인테인은 남조류 및 고세균 내에서 확인되었으나, 분할된 인테인은 인테인의 서열을 2 개의 조각으로 분리시킴으로써 인공적으로 생성될 수 있다. 본 명세서에서 설명된 분할된 인테인은 알려진 분할된 인테인에 비하여, 이들이 넓은 온도 범위 및 염 존재 하에서 작용한다는 장점을 제공한다. 이들은 또한 다른 알려진 분할된 인테인보다 빠른 속도로 스플라이스 된다. 추가적으로, 본 명세서에서 설명된 분할된 인테인은 인테인 내 및 엑스테인 및/또는 이종성 폴리펩타이드 서열 내 모두에서의 서열 변이에 내성이다. 본 명세서에 설명된 분할된 인테인은 알려진 분할된 인테인에 비해, C-엑스테인의 첫번째 아미노산에 독립적으로 C-말단 자가-분열을 수행할 수 있다는 장점을 제공한다.
본 명세서에 사용된 분할된 인테인은 HINT (Hog/인테인) 과의 6개의 보존된 단백질-스플라이싱 모티프 (motif)를 포함할 수 있다. 이러한 보존된 모티프의 서열은, 인테인 도메인에 있는 어느 아미노산이 가장 엄격하게 보존되고, 어느 아미노산이 덜 엄격하게 보존되는지를 예측하는데 사용될 수 있다. 보다 엄격하게 보존된 아미노산의 돌연변이는 인테인 분열의 효능을 감소시킬 수 있다.
"인테인 N-말단 도메인"은 트랜스-스플라이싱 반응 및/또는 N-말단 자가-분열 반응에 대해 작용적인 N-말단 아미노산 서열을 포함하는 인테인 서열을 지칭한다. 트랜스-스플라이싱이 일어난 경우, 인테인 N-말단 도메인은 스플라이스에서 빠질 수 있다 (spliced out). 인테인 서열이 N-말단 도메인인지의 여부를 결정하는데 적합한 분석은 본 발명의 실시예 1에서 발견될 수 있으며, 이는 실시예 6에서의 트랜스스플라이싱 활성을 측정하기 위한 분석을 제공하며, 이는 N-말단 자가-분열을 검출하기 위한 분석을 제공한다.
인테인 N-말단 도메인은 HINT (Hog/인테인) 과의 하나 이상의 N1, N2, N3, 및/또는 N4 모티프를 포함할 수 있다. 따라서, 예로서 인테인 N-말단 도메인은 N1 및 N3 모티프를 포함할 수 있다.
일부 실시양태에서, 인테인 N-말단 도메인은 N1 박스 (A 박스) 서열을 포함한다. N1 박스는 비-엄밀하게는 보존된 서열이다. N1 박스는 예로서 서열ChsXcplhXTXXG (서열번호 44)을 포함하며, 식 중 h는 소수성 아미노산, s는 소형 아미노산, c는 하전된 아미노산, p는 극성 아미노산, 및 l은 거대 아미노산이다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9X10X11X12X13 (서열번호 45)을 포함하며, 식 중 X1은 C; X2는 L, F 또는 V; X3은 S, T, V 또는 A; X4는 L, P, G 또는 Y; X5는 D, E, K 또는 G; X6은 T 또는 A; X7은 E, Q, L, M, K 또는 T; X8은 I 또는 V; X9는 L, Q, V, N, K, D 또는 T; X10은 T, I 또는 V; X11은 V, P, Q, N, E, K 또는 L; X12는 E, Q, G, N, Y, I 또는 E; 및 X13은 Y, G, K, P 또는 D이다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9X10X11X12X13 (서열번호 46)을 포함하고, 식 중 X1은 C; X2는 L, F 또는 V; X3은 S, T, V 또는 A; X4는 L, P 또는 G; X5는 D, K 또는 G; X6은 T 또는 A; X7은 Q, L, M, K 또는 T; X8는 I 또는 V; X9는 Q, V, N, K, D 또는 T; X10은 T, I 또는 V; X11은 P, Q, N, E, K 또는 L; X12는 E, Q, G, N, Y, I 또는 E, 및 X13은 G, K, P 또는 D이다.
아미노산의 화학 성질에 기초하여, 이들은 하기 군으로 나누어질 수 있다: (i) 하전된 (D, E, K, R, H), (ii) 산성 (D, E), (iii) 염기성 (K, R, H), (iv) 소형 (V, C, S, T, P, G, D, A), (v) 극성 (N, Q, S, T), (vi) 거대 (E, Q, R, K, H, Y, W, F, M, L, I), (vii) 소수성 (V, I, L, M, F, Y, W, A) 및 (viii) 친핵성 (S, T, C).
일부 실시양태에서, 인테인 N-말단 도메인 N1-박스는 서열번호 3의 아미노산 1 내지 13에 대응되는 서열에 대해 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인 박스는 서열번호 12의 아미노산 1 내지 13에 대응되는 서열에 대해 약 30% 이상, 약 35% 이상, 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인 N1-박스는 서열번호 34의 아미노산 1 내지 13에 대응되는 서열에 대해 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인 N1-박스는 서열번호 64의 아미노산 1 내지 13에 대응되는 서열에 대해 약 30% 이상, 약 35% 이상, 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인 N1-박스는 서열번호 20의 아미노산 1 내지 13에 대응되는 서열에 대해 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상 또는 약 99% 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 N3 박스 (B 박스) 서열을 포함한다. N3 박스는 비-엄밀하게는 보존된 서열이다. N3 박스는 예로서, 서열 GXXhXhTXaHXhhTX (서열번호 47)을 포함하며 , 식 중 h는 소수성 아미노산이고, a는 산성 아미노산이다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9X10X11X12X13 X14 X15 (서열번호 48)을 포함하고, 식 중 X1은 G 또는 A; X2는 S, K, Q, N 또는 F; X3은 L, E, K 또는 R; X4는 I, L 또는 V; X5는 R, I, V 또는 N; X6은 A, C, V 또는 E; X7은 T, S 또는 D; X8는 K, E, A, P 또는 N; X9는 D, E, N 또는 I; X10은 H; X11은 K, L, Q 또는 M; X12는 F, V 또는 I; X13은 M, P, F, Y 또는 A; X14는 T; 및 X15는 V, Q, K 또는 L이다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9X10X11X12X13 X14 X15 (서열번호 49)을 포함하고, 식 중 X1은 G 또는 A; X2는 K, Q, N 또는 F; X3은 E, K 또는 R; X4는 I, L 또는 V; X5 R, I, V 또는 N; X6은 C, V 또는 E; X7은 T, S 또는 D; X8은 E, A, P 또는 N; X9는 D, E, N 또는 I; X10은 H; X11은 K, L, Q 또는 M; X12는 F, V 또는 I; X13은 P, F, Y 또는 A; X14는 T; 및 X15는 Q, K 또는 L이다.
인테인 N-말단 도메인에서 첫번째 아미노산은 고도로 보존되고, 단백질 스플라이싱 반응에 중요하다. 따라서, 일부 실시양태에서, 인테인 N-말단 도메인 내 첫번째 아미노산은 시스테인이다. 일부 실시양태에서, 인테인 N-말단 도메인 내 첫번째 아미노산은 세린이다. 다른 실시양태에서, 인테인 N-말단 도메인 내 첫번째 아미노산은 이종성 폴리펩타이드 또는 N-엑스테인 및 인테인 사이에서의 분열을 방지 또는 감소시키는 아미노산으로 돌연변이될 수 있다. 따라서, 일부 실시양태에서, 인테인 N-말단 도메인 내 첫번째 아미노산은 세린 또는 시스테인 외의 아미노산이다. 예로서, 인테인 N-말단 도메인 내 첫번째 아미노산은 알라닌일 수 있다.
일부 실시양태에서, 인테인 N-말단 도메인은 약 50 내지 150 개 아미노산이다. 일부 실시양태에서, 인테인 N-말단 도메인은 약 60 내지 약 140 개 아미노산이다. 일부 실시양태에서, 인테인 N-말단 도메인은 약 75 내지 약 125 개 아미노산이다. 일부 실시양태에서, 인테인 N-말단 도메인은 약 70 내지 약 80 개, 약 80 내지 약 90 개, 약 90 내지 약 100 개, 약 100 내지 약 110 개, 약 110 내지 약 120 개, 또는 약 120 내지 약 130 개 아미노산이다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택되는 서열의 아미노산을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은, 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 96% 이상, 약 97% 이상, 약 98% 이상, 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 gp41-1 (서열번호 79), gp41-2 (서열번호 80), gp41-3 (서열번호 81), gp41-4 (서열번호 82), gp41-5 (서열번호 83), gp41-6 (서열번호 84), gp41-7 (서열번호 85), gp41-8 (서열번호 86), IMPDH-1 (서열번호 87), NrdA-1 (서열번호 88), NrdA-2 (서열번호 89), NrdA-4 (서열번호 90), NrdA-5 (서열번호 91), NrdA-6 (서열번호 92), NrdJ-1 (서열번호 93) 및 NrdJ-2 (서열번호 94)의 N-말단 도메인에 대응하는 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열의 약 10 개 이상, 약 20 개 이상, 약 30 개 이상, 약 40 개 이상, 또는 약 50 개 이상의 아미노산을 포함한다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열의 약 10 개 이상, 약 20 개 이상, 약 30 개 이상, 약 40 개 이상, 또는 약 50 개 이상의 연속적인 아미노산을 포함한다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열의 단지 약 5 개, 약 10 개, 약 15 개, 약 20 개, 또는 약 25 개 아미노산의 결실을 포함한다. 일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열의 단지 약 5 개, 약 10 개, 약 15 개, 약 20 개, 또는 약 25 개의 연속적인 아미노산의 결실을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 3에 대해 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 12에 대해 약 30% 이상, 약 35% 이상, 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 20에 대해 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 64의 서열에 대해 약 30% 이상, 약 35% 이상, 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인은 서열번호 34의 서열에 대해 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 이상 동일한 서열을 포함한다.
"인테인 C-말단 도메인"은 트랜스-스플라이싱 반응 및/또는 C-말단 자가-분열 반응에 대해 작용적인 C-말단 아미노산 서열을 포함하는 인테인 서열을 지칭한다. 트랜스-스플라이싱이 일어날 때, 인테인 C-말단 도메인은 스플라이스에서 빠질 수 있다.
소정의 폴리펩타이드가 인테인 C-말단 도메인인지의 여부를 결정하기에 적합한 분석은, 작용성 N-말단 인테인 도메인 존재 하에서 트랜스스플라이싱 활성을 측정하는 분석을 제공하는 본 발명의 실시예 1에서, 또는 제 1 시스테인 잔기에서 돌연변이를 갖는 N-말단 인테인 도메인의 존재 하에 C-말단 인테인 및 이종성 폴리펩타이드를 포함하는 융합 단백질의 C-말단 자가-분열 검출을 위한 분석을 제공하는 실시예 5에서 찾을 수 있다.
인테인 C-말단 도메인은 HINT (Hog/인테인)과의 C1 및/또는 C2 모티프를 포함할 수 있다.
일부 실시양태에서, 인테인 C-말단 도메인은 C2 박스 (F 박스) 서열을 포함한다. C2 박스는 비-엄밀하게는 보존된 서열이다. C2 박스는 예로서 서열 XhhDIpVXXpHXFX (서열번호 50)를 포함할 수 있으며, 식 중 h는 소수성 아미노산이고, p는 극성 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9X10X11X12X13X14 (서열번호 51)을 포함하고, 식 중 X1은 N, E, L, K, Q, D, P, 또는 R; X2는 V, L, 또는 T; X3은 Y, I, V, H 또는 F; X4는 D; X5는 I 또는 L; X6는 G, E, T, Q 또는 K; X7은 V 또는 T; X8는 E, S, T, D, N 또는 K; X9 는 R, G, D, N, Q, S 또는 K; X10은 D, E, N, T 또는 K; X11은 H, R, S, I 또는 N; X12는 N, L, S, I 또는 N; X13은 F, Y, L 또는 I; 및 X14는 A, Y, F, N, C 또는 S이다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9X10X11X12X13X14 (서열번호 52)를 포함하고, 식 중 X1은 E, L, K, Q, D, P 또는 R; X2는 V, L 또는 T; X3은 Y, I, V, H 또는 F; X4는 D; X5는 I 또는 L; X6는 G, E, T, Q 또는 K; X7은 V 또는 T; X8은 E, S, T, D, N 또는 K; X9는 G, D, N, Q, S 또는 K; X10은 D, E, N, T 또는 K; X11은 H, R, S, I 또는 N; X12는 N, L, S, I 또는 N; X13은 F, Y, L 또는 I; 그리고 X14는 A, Y, F, N, C 또는 S이다.
일부 실시양태에서, 인테인 C-말단 도메인은 C1 박스 (G 박스) 서열의 일부를 포함한다. C1 박스는 비-엄밀하게는 보존된 서열이다. C1 박스는 예로서 서열 hNXIhXHNn (서열번호 53)을 포함할 수 있으며, h는 소수성 아미노산이고, n은 친핵성 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9 (서열번호 54)을 포함하고, 식 중 X1은 L, A, V, I 또는 C; X2는 N 또는 R; X3은 G, D, A 또는 N; X4는 I, F 또는 T; X5는 L, I 또는 V; X6은 V, I, T 또는 A; X7은 H 또는 S; X8은 N; 및 X9는 S, T 또는 C이다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열 X1X2X3X4X5X6X7X8X9 (서열번호 55)를 포함하고, 식 중 X1은 A, V, I 또는 C; X2는 N 또는 R; X3은 G, D, A 또는 N; X4는 I, F 또는 T; X5는 L 또는 V; X6은 V, I 또는 T; X7은 H; X8은 N; 및 X9는 S, T 또는 C이다. C1 박스 서열 내에서, X1 내지 X8의 아미노산은 인테인 서열에 대응하며, X9는 엑스테인의 첫번째 아미노산에 대응한다.
일부 실시양태에서, 인테인 C-말단 C1-박스 도메인은 서열번호 7의 마지막 8개 아미노산에 대응하는 서열에 대해 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 C1-박스 도메인은 서열번호 16의 마지막 8개 아미노산에 대응하는 서열에 대해 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 C1-박스 도메인은 서열번호 38의 마지막 8개 아미노산에 대응하는 서열에 대해 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 65% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 C1-박스 도메인은 서열번호 65의 마지막 8개 아미노산에 대응하는 서열에 대해 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 C1-박스 도메인은 서열번호 24의 마지막 8개 아미노산에 대응하는 서열에 대해 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 이상 동일한 서열을 포함한다.
인테인 C-말단 도메인에서 마지막 2 개의 아미노산은 고도로 보존성이고, 단백질 스플라이싱 반응에 중요하다. 따라서, 일부 실시양태에서, 인테인 C-말단 도메인에서 마지막 아미노산은 아스파라긴이다. 일부 실시양태에서, 인테인 C-말단 도메인 내의 마지막 아미노산은 글루타민이다. 일부 실시양태에서, 인테인 C-말단 도메인 내의 끝에서 두번째 아미노산은 히스티딘이다. 다른 실시양태에서, 인테인 C-말단 도메인에서 마지막 및/또는 끝에서 두번째 아미노산은 이종성 폴리펩타이드 또는 엑스테인 및 인테인 사이의 분열을 방지 또는 감소시키는 아미노산으로 돌연변이될 수 있다. 따라서, 일부 실시양태에서, 인테인 C-말단 도메인 내에서 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인 내에서 끝에서 두번째 아미노산은 히스티딘 외의 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인 내에서 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이고, 엑스테인 C-말단 도메인 내에서 첫번째 아미노산은 세린 외의 아미노산이다. 예로서, 인테인 C-말단 도메인 내에서 마지막 아미노산 및/또는 엑스테인 C-말단 도메인 내에서 첫번째 아미노산은 알라닌일 수 있다.
일부 실시양태에서, 인테인 C-말단 도메인은 약 10 내지 약 80 개의 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인은 약 20 내지 약 70 개의 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인은 약 30 내지 약 60 개의 아미노산이다. 일부 실시양태에서, 인테인 C-말단 도메인은 약 25 내지 약 35 개, 약 30 내지 약 40 개, 약 35 내지 약 45 개, 약 40 내지 약 50개, 약 45 내지 약 55 개, 또는 약 55 내지 약 65 개의 아미노산이다.
일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열의 아미노산을 포함한다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 96% 이상, 약 97% 이상, 약 98% 이상, 약 99% 이상 동일한 서열을 포함한다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열의 약 10 개 이상, 약 20 개 이상, 약 30 개 이상, 약 40 개 이상, 또는 약 50 개 이상의 아미노산을 포함한다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열의 약 10 개 이상, 약 20 개 이상, 약 30 개 이상, 약 40 개 이상, 약 50 개 이상의 연속된 아미노산을 포함한다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열 중 단지 약 5개, 약 10개, 약 15개, 약 20개, 또는 약 25개 아미노산의 결실을 포함한다. 일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 단지 약 5개, 약 10개, 약 15개, 약 20개, 또는 약 25 개의 연속된 아미노산의 결실을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 7의 서열에 대해 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 16의 서열에 대해 약 30% 이상, 약 35% 이상, 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 38에 대해 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 65에 대해 약 30% 이상, 약 35% 이상, 약 40% 이상, 약 45% 이상, 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인은 서열번호 24에 대해 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 99% 이상 동일한 서열을 포함한다.
일부 실시양태에서, 인테인 C-말단 도메인은 C-말단 도메인 gp41-1 (서열번호 95), gp41-2 (서열번호 96), gp41-3 (서열번호 97), gp41-8 (서열번호 98), gp41-8 (서열번호 99), IMPDH-1 (서열번호 100), IMPDH-2 (서열번호 101), IMPDH-3 (서열번호 102), NrdA-2 (서열번호 103), NrdA-3 (서열번호 104), NrdA-5 (서열번호 105), NrdA-6 (서열번호 106), NrdA-7 (서열번호 107), NrdJ-1 (서열번호 108)에 대응하는 서열을 포함한다.
일부 실시양태에서, 인테인 N-말단 도메인 및 인테인 C-말단 도메인은 반대 하전을 갖는다. 따라서, 일부 실시양태에서, 인테인 N-말단 도메인은 음으로 하전되고, 인테인 C-말단 도메인은 양으로 하전된다. 다른 실시양태에서, 인테인 N-말단 도메인은 양으로 하전되고, 인테인 C-말단 도메인은 음으로 하전된다.
Figure pct00001
본 발명에서 사용된 인테인의 N- 및 C-말단 도메인의 서열. 밑줄친 서열은 인테인 N-말단 도메인의 N1-박스에 대응한다. 이중 밑줄친 서열은 인테인 C-말단 도메인 (엑스테인의 첫번째 아미노산 결여)의 C1 박스에 대응한다.
인테인 및 분할된 인테인 (N1, N2, C1 및 C2) 단백질 서열에서 확인된 몇몇 박스들 중, C1은 가장 보존된 박스이고, 트랜스-스플라이싱 반응에 직접 관련된다. C1의 중심 역할은 분할된 인테인을 분류 및 그룹화하는데 중요한 특징으로 고려된다.
일부 실시양태에서, 인테인 C-말단 도메인은 gp-41-1 분할된 인테인의 C-말단 도메인의 C1-박스에 대응하는 ANDILTHNS (서열번호 78)의 서열에 대해 약 60% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 99% 이상 동일한 C1-박스를 포함한다.
본 문서의 나머지에 대해서, 하기 표와 같은 경우, 동일성은 아미노산의 총 수에 비교하여 동일한 아미노산의 백분율로서 계산된다.
분할된 인테인 이름 gp41-1 C1 박스에 대한 동일성 %
gp41-2 87,5
gp41-8 87,5
gp41-9 100
NrdA2 75
NrdA3 87,5
NrdA6 62,5
NrdA7 87,5
NrdJ1 87,5
Npu DNA-E 25
gp41-1 C1 박스 (ANDILTHNS, 서열번호 78)에 관해서는, 몇몇 분할된 인테인으로부터 C1 박스 (G 박스로도 알려져 있음)의 동일성 백분율. 본 특허의 나머지 부분에서, 동일성은 아미노산의 총 수에 대하여 동일한 아미노산의 백분율로서 계산된다. 명료함을 위하여, 동일성은 동일 길이를 갖는 두 개의 서열간에서 계산된다. 선행기술로부터 알려진 DNA-E 인테인은, C1 박스는 gp41-1 C1 박스에 실질적으로 동일성을 보이지 않는다는 점에서 남아있는 인테인과 상이하다.
III. 인테인 융합 단백질
분할된 인테인을 포함하는 융합 단백질도 여기 설명된다. 인테인 N-말단 도메인 및/또는 인테인 C-말단 도메인은 이종성 폴리펩타이드에 대해 직접적으로 (즉, 펩타이드 결합을 통하여) 또는 간접적으로 (즉, 연결기 아미노산 서열을 통하여) 융합될 수 있다.
따라서, 일부 실시양태에서, 이종성 폴리펩타이드는 인테인 N-말단 도메인의 N-말단에 직접적 또는 간접적으로 융합된다. 그러한 폴리펩타이드는 인테인 N-말단 도메인(예로서, 발현 또는 정제 태그)의 C-말단에 직접적으로 또는 간접적으로 융합되거나 또는 이종성 폴리펩타이드의 N-말단에 직접적으로 또는 간접적으로 융합된 추가의 아미노산 또는 이종성 폴리펩타이드도 선택적으로 포함할 수 있다.
일부 실시양태에서, 이종성 폴리펩타이드는 인테인 C-말단 도메인의 C-말단에 직접적으로 또는 간접적으로 융합된다. 그러한 폴리펩타이드는 또한 추가적인 아미노산 또는 인테인 C-말단 도메인의 말단의 N-말단에 직접적으로 또는 간접적으로 융합된 (예로서, 발현 또는 정제 태그) 또는 그 폴리펩타이드의 C-말단에 직접적으로 또는 간접적으로 융합된 이종성 폴리펩타이드를 선택적으로 포함할 수 있다.
일부 실시양태에서, 인테인 C-말단 도메인의 C-말단에 융합된 이종성 폴리펩타이드를 포함하는 융합 단백질 및 인테인 N-말단 도메인의 N-말단에 융합된 이종성 폴리펩타이드를 포함하는 융합 단백질은 두 개의 분리된 폴리펩타이드로서 발현된다.
일부 실시양태에서, 인테인 C-말단 도메인의 C-말단에 융합된 이종성 폴리펩타이드를 포함하는 융합 단백질 및 인테인 N-말단 도메인의 N-말단에 융합된 이종성 폴리펩타이드를 포함하는 융합 단백질은 단일 폴리펩타이드로서 발현된다. 인테인 C-말단 도메인의 C-말단에 융합된 이종성 폴리펩타이드를 포함하는 융합 단백질은 인테인 N-말단 도메인의 N-말단에 융합된 이종성 폴리펩타이드를 포함하는 융합 단백질로부터, 약 1 개 내지 약 1000 개, 약 1 개 내지 약 500 개, 약 1 개 내지 약 250 개, 약 1 개 내지 약 200 개, 약 1 개 내지 약 150 개, 약 1 개 내지 약 100 개, 또는 약 1 개 내지 약 50 개 아미노산에 의하여 분리될 수 있다.
일부 실시양태에서, 융합 단백질은 이종성 폴리펩타이드의 N-말단에 융합된 인테인 C-말단 도메인을 포함한다. 바람직한 실시양태에서, 융합 단백질은 (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 인테인 도메인에 대해 C-말단인, 이종성 폴리펩타이드를 포함한다. 여전히 더욱 바람직한 실시양태에서, 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴이다. 또다른 실시양태에서, 이종성 폴리펩타이드의 첫번째 아미노산은 Met, Cys, Thr, Arg, Lys, Ser, Gln, His, Ala, Tyr, Phe, Asn, Trp, Val, Leu, Asp, Ile, Gly, Glu 또는 Pro로 이루어지는 군으로부터 선택된다. 또다른 실시양태에서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이고, 이종성 폴리펩타이드의 첫번째 아미노산은 Met, Cys, Thr, Arg, Lys, Ser, Gln, His, Ala, Tyr, Phe, Asn, Trp, Val, Leu, Asp, Ile, Gly, Glu 또는 Pro로 이루어지는 군으로부터 선택된다. 또다른 실시양태에서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이고, 이종성 폴리펩타이드의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌 외의 아미노산이다.
일부 실시양태에서, 융합 단백질은 이종성 폴리펩타이드의 C-말단에 융합된 인테인 N-말단 도메인을 포함한다. 또다른 실시양태에서, 융합 단백질은 (i) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 N-말단인, 이종성 폴리펩타이드를 포함한다. 바람직한 실시양태에서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인이다. 또다른 실시양태에서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인 외의 아미노산이다.
이종성 폴리펩타이드는 예로서, 효소, 호르몬, 예컨대 칼시토닌, 에리트로포이에틴, 트롬보포이에틴, 인간 성장 호르몬, 표피 성장 인자 등, 인터페론, 시토카인, 치료적, 기능식품성 (nutraceutical), 농업적 또는 산업적 용도를 갖는 단백질일 수 있다. 추가적인 이종성 폴리펩타이드는 효소, 항체, 항체 절편, 및 약학 단백질일 수 있다. 이종성 폴리펩타이드도 폴리펩타이드 절편일 수 있다.
이종성 폴리펩타이드는 예로서, 항체 사슬, 단일 도메인 항체, 카멜리드 중쇄 (VHH 또는 나노바디 (nanobody)), 또는 예컨대 1가 (가변 절편 (Fv), 이황화물-안정화된 Fv 항체 절편 (dsFV), scFv, 단일-쇄 항체 절편 (scAb) 및 Fab), 2가 (미니바디 (minibody), 다이아바디(diabody), F(ab')2 및 (scFv)2) 및 다가 포맷 (테트라바디 (tetrabody), 트라이아바디(triabody) 및 F(ab')3)과 같은 항체 도메인의 조합을 이용하여 발생된 재조합 항체일 수도 있다 (Vijayalakshmi B 등 Methods Volume 56, Issue 2, February 2012, 116~129으로부터의 도 3).
일부 실시양태에서, 이종성 폴리펩타이드의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌이다. 일부 실시양태에서, 이종성 폴리펩타이드의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌이 아니다.
일부 실시양태에서, 이종성 폴리펩타이드 및 인테인 또는 인테인 도메인을 포함하는 융합 단백질은 정제 태그 또는 발현 태그와 같은 추가 서열을 더 포함한다. 이러한 발현 및/또는 정제 태그는 예로서 Strep, His 및 Myc 태그를 포함한다.
일부 실시양태에서, 융합 단백질은 단백질 용해도, 예로서 파지 박테리오파비 람다 헤드 단백질 D (gpD), 티오레독신 (tioredoxine) (Tx) 또는 GST를 증가시키는 서열을 더 포함한다.
일부 실시양태에서, 이종성 폴리펩타이드 및 인테인 N- 및/또는 C-말단 도메인을 포함하는 융합 단백질은, 다른 것들 중, 형광 기, 비오틴, 폴리에틸렌 글리콜 (PEG), 아미노산 유사체, 비천연 아미노산, 포스페이트기, 글리코실기, 방사성동위원소 라벨 및 약학적 분자들을 포함하는, 추가 화학 물질 부분을 포함할 수 있다. 다른 실시양태에서, 이종성 폴리펩타이드는 다른 것들 중, 케톤, 알데하이드, Cys 잔기 및 Lys 잔기를 포함하는 하나 이상의 화학적 반응성기를 포함할 수 있다.
일부 실시양태에서, 융합 단백질은 이종성 폴리펩타이드 및 인테인 서열 간의 연결기를 포함한다. 따라서, 융합 단백질은 이종성 단백질의 C-말단과 인테인의 N-말단 도메인의 N-말단 간의 연결기를 포함할 수 있다. 융합 단백질은 이종성 단백질의 N-말단 및 인테인의 C-말단 도메인의 C-말단 간의 연결기를 포함할 수도 있다. 연결기는 예로서, 길이 1~10 개의 아미노산일 수 있다. 연결기는 길이 1~5 개의 아미노산일 수 있다. 따라서, 연결기는 1개, 2개, 3개, 4개 또는 5개 아미노산을 포함할 수 있다. 일부 실시양태에서, 연결기는 엑스테인 서열을 포함할 수 있다.
일부 실시양태에서, 이종성 폴리펩타이드 및 인테인의 C-말단 도메인의 C-말단에 접촉하는 연결기에서 떨어진 첫번째 아미노산은 Met, Cys, Thr, Arg, Lys, Ser, Gln, His, Ala, Tyr, Phe, Asn, Trp, Val, Leu, Asp, Ile, Gly, Glu 또는 Pro로 이루어지는 군으로부터 선택된다. 또다른 실시양태에서, 이종성 폴리펩타이드 및 인테인의 C-말단 도메인의 C-말단에 접촉하는 연결기에서 떨어진 첫번째 아미노산은 세린, 시스테인 또는 트레오닌을 포함할 수 있다. 인테인의 C-말단 도메인의 C-말단에 인접한 세린, 시스테인 또는 트레오닌은 C-말단 분열 (즉, 인테인 C-말단 도메인과 이종성 폴리펩타이드의 세린, 시스테인 또는 트레오닌 간의 분열)의 효능을 증가시킬 수 있다. 일부 실시양태에서, 연결기의 첫번째, 두번째, 세번째, 네번째 및/또는 다섯번째 아미노산이 세린, 시스테인, 또는 트레오닌이다.
일부 실시양태에서, 연결기는 천연 엑스테인 서열을 포함할 수 있다. 본 명세서에서 사용된 것과 같이, "엑스테인"은 인테인 또는 인테인 도메인 다음에 자연에서 발견되는 서열을 지칭한다. 따라서, 인테인 또는 인테인 도메인 다음에 자연에서 발견되지 않는 폴리펩타이드인, 이종성 폴리펩타이드는 엑스테인이 아니다. 일부 실시양태에서, 엑스테인은 서열번호 4, 8, 13, 17, 21, 25, 35 및 39로 이루어지는 군으로부터 선택된 서열을 포함한다. 일부 실시양태에서, 엑스테인의 아미노산들을 포함하는 연결기는 예로서, 서열번호 4, 8, 13, 17, 21, 25, 35 및 39로 이루어지는 군으로부터 선택된 서열의 첫번째 (즉, N-말단) 1~5 아미노산이다. 일부 실시양태에서, 연결기는 서열번호 4, 8, 13, 17, 21, 25, 35 및 39로 이루어지는 군으로부터 선택된 서열의 1개, 2개, 3개, 4개 또는 5개 아미노산을 포함한다. 일부 실시양태에서, 융합 단백질은 인테인 도메인 및 자연에서 함께 발견되는 엑스테인 도메인을 포함한다. 다른 실시양태에서, 융합 단백질은 인테인 도메인 및 자연에서 함께 발견되지 않는 엑스테인 도메인, 즉 이종성 엑스테인 도메인을 포함한다. 예로서, 융합 단백질은 Gp41.1 인테인 도메인 및 이종성 엑스테인 도메인 예컨대 IMPDH 엑스테인 도메인을 포함할 수 있다.
III. 인테인 융합물을 암호화하는 폴리뉴클레오타이드 및 인테인 융합물의 발현
인테인 융합물을 암호화하는 폴리뉴클레오타이드 또한 본 명세서에서 설명된다. 폴리뉴클레오타이드는 RNA 또는 DNA 형태일 수 있다. DNA는 cDNA, 지놈성 DNA, 및 합성 DNA를 포함하고; 이중-가닥 또는 단일-가닥일 수 있으며, 단일 가닥이라면, 코딩 가닥 또는 비-코딩 (안티-센스) 가닥일 수 있다. 특정 실시양태에서 폴리뉴클레오타이드가 분리된다. 특정 실시양태에서, 폴리뉴클레오타이드는 실질적으로 순수하다.
그러한 폴리뉴클레오타이드는 예로서, 적합한 전사 또는 번역 조절 성분에 작동적으로 연결된, 인테인 융합 단백질을 생산하기 위한 발현 벡터 내에 혼입될 수 있다. 발현 벡터는 인테인 융합 단백질을 암호화하는 합성 또는 cDNA-유도된 DNA 절편을 갖는 복제가능한 DNA 구조물이다. 전사 또는 번역 조절 성분은, 예로서 포유동물, 미생물, 바이러스성, 또는 곤충 유전자로부터 유도될 수 있다. 전사 유닛은, 하기 상세히 설명된 바와 같은, (1) 유전자 발현에서 조절 역할을 갖는 유전자 성분 또는 성분들, 예로서 전사 프로모터 또는 인핸서 (enhancer), (2) mRNA로 전사되고, 단백질로 번역된 구조 또는 코딩 서열, 및 (3) 적절한 전사 및 번역 개시, 및 종결 서열의 조립체를 일반적으로 포함한다. 그러한 조절 성분은 전사 조절을 위한 작동유전자 (operator) 서열을 포함할 수 있다. 일반적으로 복제의 기원에 의하여 부여되는 숙주에서 복제하는 능력, 및 형질전환체의 인식을 용이하게 하기 위한 선발 유전자는 추가적으로 혼입될 수 있다. DNA 영역은, 그가 기능적으로 서로 관련된 경우 작동적으로 연결된 것이다. 예로서, 폴리펩타이드의 분비에 참여하는 전구체로서 발현되는 경우, 신호 펩타이드에 대한 DNA는 폴리펩타이드에 대한 DNA에 대해 작동적으로 연결되고; 서열의 전사를 제어하는 경우, 프로모터는 코딩 서열에 작동적으로 링크되고; 또는 번역이 허용되도록 위치된 경우, 리보솜 결합 자리는 코딩 서열에 작동적으로 연결된다.
발현 제어 서열 및 발현 벡터의 선택은 숙주의 선택에 따라 달라질 것이다. 광범위한 발현 숙주/벡터 조합이 사용될 수 있다. 진핵성 숙주에 유용한 발현 벡터로는, 예로서 SV40, 소 유두종 바이러스, 아데노바이러스 및 사이토메갈로바이러스 (cytomegalovirus)로부터의 발현 제어 서열을 포함하는 벡터가 포함된다. 박테리아 숙주에 대한 유용한 발현 벡터로는, pCR 1, pBR322, pMB9 및 이들의 유도체를 포함하는 대장균(Esherichia coli)으로부터의 플라스미드와 같은 세균성 플라스미드, M13과 같은 보다 넓은 숙주 범위의 플라스미드 및 필라멘트성 (filamentous) 단일-가닥 DNA 파지가 포함된다.
일부 실시양태에서, 인테인을 암호화하는 폴리뉴클레오타이드를 포함하는 벡터는 다중 클로닝 자리를 포함한다. 다중 클로닝 자리는 하나 이상의 독특한 제한효소 자리 (resriction site)를 포함하는 폴리뉴클레오타이드서열이다. 제한효소 자리의 비제한적인 예로는 EcoRI, SacI, KpnI, SmaI, XmaI, BamHI, XbaI, HincII, PstI, SphI, HindIII, AvaI 또는 그의 임의의 조합이 포함된다.
다수의 클로닝 자리는, 인테인을 암호화하는 폴리뉴클레오타이드를 포함하는 벡터에서 이종성 폴리펩타이드를 암호화하는 폴리뉴클레오타이드의 벡터 내로의 삽입을 단순화하기 위하여 사용되어, 벡터가 인테인 및 이종성 폴리펩타이드를 포함하는 융합 단백질을 발현하는데 사용될 수 있도록 한다. 따라서, 예로서 벡터는 이종성 폴리펩타이드를 암호화하는 서열이 인테인 C-말단 도메인의 하류에 쉽게 삽입될 수 있도록 하기 위하여 다중 클로닝 자리의 상류에서 인테인 C-말단 도메인을 암호화하는 서열을 포함할 수 있다. 벡터는 다중 클로닝 자리의 하류에서 인테인 N-말단 도메인을 암호화하는 서열을 포함하여, 이종성 폴리펩타이드를 암호화하는 서열이 인테인 N-말단 도메인의 상류에서 쉽게 삽입될 수 있도록 한다.
따라서, 예로서 벡터는 다중 클로닝 자리의 상류에서 인테인 C-말단 도메인을 암호화하는 서열을 포함할 수 있으며, 이는 차례로 인테인 N-말단 도메인을 암호화하는 서열의 상류에 존재하여, 이종성 폴리펩타이드를 암호화하는 서열이 인테인 C-말단 도메인의 하류 및 인테인 N-말단 도메인의 상류에 쉽게 삽입될 수 있도록 한다.
인테인 N-말단 도메인의 상류에서 다중 클로닝 자리를 갖는 폴리뉴클레오타이드를 포함하는 벡터는, 인테인 C-말단 도메인의 하류에서 다중 클로닝 자리를 갖는 폴리뉴클레오타이드를 포함하는 벡터와 키트 내에서 조합될 수 있다. 일부 실시양태에서, 단일 벡터는 인테인 N-말단 도메인의 상류에서 다중 클로닝 자리를 갖는 폴리뉴클레오타이드 및 인테인 C-말단 도메인의 하류에서 다중 클로닝 자리를 갖는 폴리뉴클레오타이드를 포함한다. 그러한 벡터들에서, 인테인 N-말단 도메인의 상류에서 다중 클로닝 자리를 갖는 폴리뉴클레오타이드 및 인테인 C-말단 도메인의 하류에서 다중 클로닝 자리를 갖는 폴리뉴클레오타이드 각각은 조절 서열들에 작동적으로 연결될 수 있고, 상기 조절 서열은 동일하거나 상이할 수 있다.
벡터는 하나 이상의 프로모터를 포함할 수 있다. 프로모터는 인테인 도메인 또는 인테인 융합의 발현을 일으키게 하는 데 적합한 임의의 서열일 수 있다.
상이한 숙주들은 특정 아미노산 잔기를 암호화하는데 사용되는 특정 코돈을 종종 선호한다. 이러한 코돈 선호는 공지되어 있으며, 바람직한 융합 단백질 서열을 암호화하는 DNA 서열은 시험관 내 돌연변이를 이용하여 변화될 수 있으며, 예로서 숙주-선호된 코돈은 융합 단백질이 발현되는 특정 숙주에 이용되도록 한다.
상기 논의된 것과 같은, 하나 이상의 조절 서열 (제어 성분), 예컨대 고려되는 융합 단백질을 암호화하는 유전자를 규정하는 외생의 핵산 절편 (예로서, DNA 절편 또는 서열)에 작동적으로 연결된 양립성 (compatible) 박테리아 또는 진핵성 숙주 세포 생물에서 유전자의 발현을 이끄는데 적합한 프로모터와 같은 유전자 벡터 또는 구축물을 포함하는, DNA 분자와 같은 재조합 핵산 분자도 고려된다. 보다 구체적으로, 이종성 폴리펩타이드에 연결된 인테인 도메인을 암호화하는 유전자를 규정하는 DNA 절편에 작동적으로 연결된 숙주 생물 세포에서 융합 단백질의 발현을 이끄는 프로모터를 포함하는 유전자 벡터를 암호화하는 재조합 DNA 분자이다. 상기 재조합 DNA 분자는, 숙주 세포에서 적합한 형질감염 및 발현시, 고려된 융합 단백질을 제공한다.
당 기술분야에서 공지된 바와 같이, 필요한 핵산, 예시적으로 DNA 서열이 존재하는 한 (시작 및 정지 신호 포함), 추가 염기쌍은 DNA 절편의 어느 한 말단에서 일반적으로 존재할 수 있으며, 그 절편은 단백질을 발현하는데 여전히 이용될 수 있다. 물론, 이는 발현을 억제하는 작동적으로 연결된 DNA 서열의 절편에는 없는 것으로 여겨지거나, 발현되기를 원하는 융합 단백질을 소비하는 추가의 생성물을 발현하거나, 원하는 융합 단백질에 의하여 생산된 원하는 반응 생성물을 소비하는 생성물을 발현하거나, 그렇지않으면 DNA 절편의 유전자의 발현을 간섭한다
따라서, DNA 절편이 그러한 간섭하는 DNA 서열이 없는 한, 본 발명의 DNA 절편은 약 500 내지 약 15,000 개의 염기쌍 길이일 수 있다. 필요한 경우, 복제 및 발현에 요구되는 최소 DNA 서열 전부가 존재하기만 하면, 재조합 DNA 분자, 특히 발현 벡터의 최대 크기는 편의성 및 숙주 세포에 의하여 수용될 수 있는 벡터 크기에 의해 주로 지배받는다. 최소 벡터 크기는 공지이다.
융합 단백질을 암호화하는 DNA 절편은 화학적 기술, 예로서 Matteucci 등, 1981 J. Am. Chem. Soc., 103:3185의 포스포트리에스테르법에 의하여 합성될 수 있다. 물론, 코딩 서열을 화학적으로 합성함으로써, 천연 아미노산 잔기 서열을 암호화하는 것들을 적절한 염기들로 간단히 치환함으로써 임의의 바람직한 변형이 만들어질 수 있다.
융합 단백질을 암호화하는 유전자를 포함하는 DNA 절편도 유전자를 포함하는 재조합 DNA 분자 (플라스미드 벡터)로부터 수득될 수 있다.
숙주 세포에서 융합 단백질 유전자의 발현을 지시하는 벡터는, 본 명세서에서 "발현 벡터"로서 지칭된다. 발현 벡터는 프로모터를 포함하는 발현 제어 성분을 포함한다. 융합 단백질-코딩 유전자는 발현 벡터에 작동적으로 연결되어, 그 프로모터 서열이 RNA 중합효소 결합 및 융합 단백질-암호화 유전자의 발현을 지시하는 것을 가능하게 한다. Paszkowski 등, 1989 EMBO J., 3:2719 and Odell 등, 1985 Nature, 313:810에 설명된 것과 같은 유도성, 바이러스성, 합성, 구성 프로모터들, 및 Chua 등, 1989 Science, 244:174~181에서 제시된 바와 같이 일시적으로 조절되고, 공간적으로 조절되고, 시공간적으로 조절된 프로모터들이 폴리펩타이드 코딩 유전자를 발현하는데 유용하다.
진핵 세포와 양립성인 발현 벡터들, 예컨대 원핵생물 (대장균), 포유동물, 해조류 또는 곤충 등의 세포와 양립성인 것들이 본 명세서에서 고려된다. 그러한 발현 벡터는 본 발명의 재조합 DNA 분자를 형성하는데 사용될 수도 있다. 원핵 및 진핵 세포 발현 벡터들은 당 분야에서 공지이며, 일부 상업적 공급원들로부터 입수가능하다. 정상적으로는, 그러한 벡터는 원하는 DNA 절편 및 프로모터 서열의 삽입을 위하여 하나 이상의 편리한 제한 부위를 포함한다. 선택적으로, 그러한 벡터는 원핵 또는 진핵 세포에서의 이용에 특이적인 선택가능한 마커를 포함한다.
어떤 발현벡터 및 궁극적으로 프로모터가 융합 단백질-암호화 유전자가 작동적으로 연결되는 어떤 발현벡터가 선택되느냐는, 원하는 기능적 성질, 예로서 단백질 발현의 위치 및 시기, 및 형질전환되는 숙주 세포에 따라 직접적으로 달라진다. 이들은 재조합 DNA 분자 구축의 기술분야에 내재된 알려진 제한들이다. 그러나, 본 발명의 실시에 유용한 벡터는 복제, 및 바람직하게는 그가 작동적으로 연결되어지는 DNA 절편에 포함된 융합 단백질 유전자의 발현을 지시할 수 있다.
분할된 인테인 융합 단백질은 모든 세포 유형에서 발현될 수 있다. 예로서, 분할된 인테인 융합 단백질로는 원핵생물, 식물 (예로서, 외떡잎 또는 쌍떡잎 식물), 동물, 곤충, 진균류 또는 효모 (예로서, 사카로마이세스 (Saccharomyces) 또는 피키아 (Pichia))에서 발현될 수 있다. 적합한 세포는, 예로서, 식물 (예로서 토마토, 담배, 애기장대, 알팔파), 포유동물 세포 (예로서, CHO, COS 및 293T 세포), 섬유성 진균류 (예로서, 트리코더마 리세이 (Tricoderma resei) 및 아스퍼질러스 종), 및 곤충 세포가 포함된다. 적합한 포유동물 숙주 세포주의 예로는 Gluzman (Cell 23:175, 1981)에 의해 설명된 원숭이 신장 세포의 COS-7 주, 및 예로서 L 세포, C127, 3T3, 중국 햄스터 난소 (CHO), HeLa 및 BHK 세포주를 포함하는, 적절한 벡터를 발현할 수 있는 기타 세포주가 포함된다. 곤충 세포 내 이종성 단백질의 생산을 위한 배큘로바이러스 시스템은 Luckow 및 Summers, Bio/Technology 6:47 (1988)에 의하여 검토되었다. 분할된 인테인 융합 단백질은 당 기술분야에서 알려진 기술을 이용하여 그러한 세포들로부터 정제될 수 있다. 추가적으로, 분할된 인테인 융합 단백질은 무세포(cell-free) 전사/번역 시스템에서 생산될 수 있다.
IV. 인테인 융합물을 포함하는 조성물
본 발명은 본 발명의 융합 단백질을 포함하는 조성물 및 부품 키트(kits-of-parts)에 관한 것이다. 본 명세서에서 사용된 것과 같은 "조성물"은 하나 이상의 성분들의 조합을 지칭하며, 상기 성분들은:
(i) 이후 이들을 함께 사용하기 위하여 함께 모아지는, 별개의 제형 (즉, 서로 독립적으로)으로서 제공되거나; 또는
(ii) 이들을 함께 사용하기 위하여 "조합 팩 (combination pack)"의 개별 성분으로서 함께 포장 및 제시될 수 있다.
한 실시양태에서, 상기 조성물 또는 부품 키트는 인테인의 C-말단 도메인의 C-말단에 연결되는, 폴리펩타이드의 C-말단 분열에 적절한 성분을 포함한다. 이들 조성물은 하기 (i) 및 (ii)를 포함한다:
(i) (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택되는 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 C-말단인 이종성 폴리펩타이드를 포함하는, 융합 단백질인 제 1 성분, 및
(ii) (i) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택되는 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 N-말단인 이종성 폴리펩타이드를 포함하는 융합 단백질, 및 인테인 도메인의 첫번째 아미노산이 세린 또는 시스테인 외의 아미노산인 N-말단 인테인 도메인으로 이루어지는 군으로부터 선택된 제 2 성분, 여기에서
a. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 7에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
b. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 16에 대해 75% 이상 동일하고, 제 2 성분의 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
c. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 24에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
d. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 38에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나; 또는
e. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 65에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 64에 대해 75% 이상 동일하다.
또다른 실시양태에서, 키트 부품 조성물의 제 1 성분을 형성하는 이종성 폴리펩타이드 및 융합 단백질을 형성하는 인테인 도메인은, 펩타이드 결합 또는 연결기 중 어느 하나에 의하여 직접 연결된다. 또다른 실시양태에서, C-말단 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴이다.
또다른 실시양태에서, 제 2 성분은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인으로 이루어지는 군으로부터 선택되고, 상기 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인 외의 아미노산이다 (no tengo claro que sea necesario que el dominio N de la inteina este fusionado a una protena heterologa para funcionar).
또다른 실시양태에서, 본 발명의 조성물 또는 키트 부품은 인테인의 N-말단 도메인의 N-말단에 연결된 폴리펩타이드의 N-말단 분열에 적절한 성분들을 포함한다. 이들 조성물은 하기 (i) 및 (ii)를 포함한다:
(i) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 N-말단인, 이종성 폴리펩타이드를 포함하는 융합 단백질인 제 1 성분, 및
(ii) (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인, 및 (ii) 상기 인테인 도메인에 대해 C-말단인, 이종성 폴리펩타이드를 포함하는 융합 단백질 및 C-말단 인테인 도메인으로 이루어지는 군으로부터 선택되는 제 2 성분으로, 상기 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이고, 이종성 폴리펩타이드 또는 연결기의 첫번째 아미노산은 세린, 시스테인, 또는 트레오닌 외의 아미노산이고, 여기에서
a. 제 1 성분을 형성하는 융합 단배질로부터의 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 7에 대해 75% 이상 동일하고;
b. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 16에 대해 75% 이상 동일하고;
c. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 24에 대해 75% 이상 동일하고;
d. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 38에 대해 75% 이상 동일하거나; 또는
e. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 64에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 65에 대해 75% 이상 동일하다.
바람직한 실시양태에서, 조성물 또는 부품 키트의 제 1 성분을 형성하는 이종성 폴리펩타이드 및 인테인 도메인은 펩타이드 결합 또는 연결기 어느 하나에 의하여 직접 연결된다. 또다른 실시양태에서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인이다.
또다른 실시양태에서, 제 2 성분은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인으로 이루어지는 군으로부터 선택되고, 여기에서 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이다.
또다른 실시양태에서, 본 발명에 따른 조성물 또는 부품 키트는 제 1 폴리펩타이드의 N-말단을 제 2 폴리펩타이드의 C-말단에 공유결합시키는데 적절한 시약을 포함하며, 상기 조성물은 하기를 포함하고, 여기에서
(i) (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 C-말단인 제 2의 이종성 폴리펩타이드를 포함하는 융합 단백질, 및
(ii) (i) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인 및 (ii) 상기 인테인 도메인에 대해 N-말단인 제 1 이종성 폴리펩타이드를 포함하는 융합 단백질, 여기에서
a. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 7에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
b. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 16에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
c. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 24에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
d. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 38에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나; 또는
e. 제 1 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 65에 대해 75% 이상 동일하고, 제 2 성분을 형성하는 융합 단백질로부터의 인테인 도메인은 서열번호 64에 대해 75% 이상 동일하다.
바람직한 실시양태에서, 조성물의 제 1 성분인, 융합 단백질의 이종성 폴리펩타이드 및 인테인 도메인 형성 부분은 펩타이드 결합 또는 연결기에 의해 직접 연결된다. 더욱 바람직한 실시양태에서, 본 발명의 제 1 성분인 융합 단백질의 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴이다.
또다른 바람직한 실시양태에서, 본 조성물의 제 2 성분인, 융합 단백질 중 이종성 폴리펩타이드 및 인테인 도메인 형성 부분은 펩타이드 결합 또는 연결기에 의해 직접 연결된다. 더욱 바람직한 실시양태에서, 본 발명의 제 2 성분인 융합 단백질 내 인테인 도메인의 첫번때 아미노산은 세린 또는 시스테인이다.
조성물 중 성분들의 비는 융합 단백질의 효율적인 처리에 적절하다. 제 1 및 제 2 성분의 적합한 비율은, 이에 제한되지는 않지만, 1000:1, 100:1; 10:1, 1:1, 1:10, 1:100 및 1:1000이 포함된다.
V. 인테인 융합을 이용한 방법
본 명세서에서 설명된 분할된 인테인을 포함하는 분할된 인테인 및 융합 단백질은 예로서, 폴리펩타이드 서열을 연결(스플라이스) 및/또는 고리화하는데 사용될 수 있다. 인테인 서열은 이들 서열을 촉매하며, 이는 임의의 기타 효소 화학 첨가제, 또는 처리의 부재 하에서 일어날 수 있다.
일부 실시양태에서, 이종성 폴리펩타이드는 인테인 도메인으로부터 분열될 수 있다. 예로서, 이종성 폴리펩타이드는, 이종성 폴리펩타이드 및 인테인 N-말단 도메인 간의 분열을 방지 또는 감소시키는 아미노산 서열을 포함하는 융합 단백질을 포함하는 분할된 인테인을 이용하여, 인테인 C-말단 도메인의 C-말단으로부터 분열될 수 있다. 바람직한 실시양태에서, 인테인 N-말단 도메인의 첫번째 아미노산은 시스테인 또는 세린, 예로서 알라닌 외의 아미노산이다. 이종성 폴리펩타이드의 첫번째 아미노산은 반응의 수율을 증가시키기 위하여 선택될 수 있는데, 이는 증가된 반응 반감기를 결과로서 일으키기 때문에, 또는 증가된 k 값을 결과로서 생성하기 때문이다. 따라서, 바람직한 실시양태에서, 이종성 폴리펩타이드의 첫번째 아미노산 또는 인테인 C-말단 도메인과 이종성 폴리펩타이드를 연결하는 연결기의 첫번째 아미노산은 Met, Cys, Thr, Arg, Lys, Ser, Gln, His, Ala, Tyr, Phe, Asn, Trp, Val, Leu, Asp, Ile, Gly, Glu 또는 Pro로 이루어지는 군으로부터 선택된다.
추가적으로, 이종성 폴리펩타이드는, 이종성 폴리펩타이드와 인테인 C-말단 도메인 간의 분열을 감소시키는 아미노산 서열을 포함하는 융합 단백질을 포함하는 분할된 인테인을 이용하여, 인테인 N-말단 도메인의 N-말단으로부터 분열될 수 있다. 바람직한 실시양태에서, 인테인 C-말단 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴 외의 아미노산, 예로서 알라닌이다.
일부 실시양태에서, 제 1 폴리펩타이드는, 제 1 폴리펩타이드 및 인테인 N-말단 도메인을 포함하는 융합 단백질을, 제 2 폴리펩타이드 및 인테인 C-말단 도메인을 포함하는 융합 단백질과 접촉시킴으로써 제 2 폴리펩타이드에 연결 (스플라이싱)시킬 수 있다. 제 1 폴리펩타이드의 C-말단은 제 2 폴리펩타이드의 N-말단에 연결될 것이다.
일부 실시양태에서, 분할된 인테인은 폴리펩타이드의 N-말단 상에서 인테인 C-말단 도메인을 포함하고, 폴리펩타이드의 C-말단 상에 인테인 N-말단 도메인을 포함하는 폴리펩타이드를 고리화하는데 사용될 수 있다.
일부 실시양태에서, 반응은 약 0℃ 내지 약 60℃에서 일어난다. 일부 실시양태에서, 반응은 약 0℃, 약 4℃, 약 8℃, 약 12℃, 약 20℃, 약 25℃, 약 30℃, 약 32℃, 약 34℃, 약 37℃, 약 40℃, 약 45℃, 약 50℃, 약 55℃ 또는 약 60℃에서 일어난다.
일부 실시양태에서, 반응은 pH 약 5 내지 약 10에서 일어난다. 일부 실시양태에서, 반응은 pH 약 6, 약 6.5, 약 7, 약 7.5, 약 8, 약 8,5, 약 9, 약 9,5 또는 약 10에서 일어난다.
일부 실시양태에서, 예로서 단백질 용해도를 증가시키기 위하여 반응은 변성제 존재 하에서 일어난다. 일부 실시양태에서, 반응은 우레아 존재 하에서 일어난다. 일부 실시양태에서, 반응은 단지 약 6.5M, 약 6M, 약 5M, 약 4.5M, 약 4M, 약 3.5M, 약 3M, 약 2.5M, 약 2M, 약 1.5M, 약 1M 또는 약 0.5M 우레아 존재 하에서 일어난다. 일부 실시양태에서, 반응은 약 0.5M 내지 약 6M, 약 0.5M 내지 약 4M, 약 1M 내지 약 4M, 약 2M 내지 약 4M, 또는 약 3M 내지 약 4M 우레아 존재 하에서 일어난다. 일부 실시양태에서, 반응은 약 0.5M 내지 약 2M, 또는 약 0.5M 내지 1M 우레아 존재 하에서 일어난다.
본 명세서에 기재된 방법은 분할된 인테인이 강건한 활성을 가질 수 있음을 증명한다. 따라서, 일부 실시양태에서, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응 속도 상수는 약 0.5×10-1-1 이상, 약 1×10-1-1 이상, 약 1.5×10-1-1 이상, 약 0.5×10-2-1 이상, 약 1×10-2-1 이상, 약 1.5×10-2-1 이상, 약 2.0×10-2-1 이상, 약 2.5×10-2-1 이상, 약 3×10-2-1 이상이다. 추가적으로, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응 속도 반감기는 약 150 초 미만, 약 100 초 미만, 약 50 초 미만, 약 40 초 미만, 약 45 초 미만, 약 30 초 미만, 약 25 초 미만, 약 20 초 미만 또는 약 15 초 미만이다. 일부 실시양태에서, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 트랜스-스플라이싱 반응 속도 상수는 약 0.5×10-1-1, 1×10-1-1, 약 1.5×10-1-1, 약 0.5×10-2-1, 약 1×10-2-1, 약 1.5×10-2-1, 약 2.0×10-2-1, 약 2.5×10-2-1, 또는 약 3×10-2-1 이상이다. 추가적으로, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응 속도 반감기는 약 150 초, 약 100 초, 약 50 초, 약 40 초, 약 45 초, 약 30 초, 약 25 초, 약 20초, 또는 약 15 초 미만일 수 있다. 일부 실시양태에서, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, C-분열 반응 속도 상수는 약 1×10-4-1, 3×10-4-1, 6×10-4-1, 9×10-4-1, 1×10-5-1, 약 3×10-5-1, 약 6×10-52-1, 또는 약 9×10-5-1, 이상이다. 추가적으로, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응 속도 반감기는 약 150 분, 약 100 분, 약 50 분, 약 40 분, 약 45 분, 약 30 분, 약 25 분, 약 20분 또는 약 15 분 미만일 수 있다 (el C 분열 es mas lento)
일부 실시양태에서, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응은 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 65% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상의 수율을 결과로서 생성한다. 일부 실시양태에서, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응은 5 분 내에 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상의 수율을 결과로서 생성한다. 일부 실시양태에서, 인테인 N-말단 도메인 및 C-말단 도메인이 균등 몰 농도로 혼합된 경우, 반응은 5 분 내에 약 75% 내지 약 80%, 80% 내지 약 85%, 85% 내지 약 90%, 또는 약 90% 내지 95% 이상의 수율을 결과로서 생성한다.
일부 실시양태에서, 인테인 반응 (예로서, 분열, 연결 (스플라이싱), 고리화)은 인테인 N-말단 도메인 및 선택적으로 이종성 폴리펩타이드를 포함하는 융합 단백질을, 인테인 C-말단 도메인 및 선택적으로 이종성 폴리펩타이드를 포함하는 융합 단백질과 접촉시킴으로써 개시될 수 있다. 다른 실시양태에서, 인테인 반응은 조건, 예로서 온도 또는 pH의 조건을 전이함으로서 개시될 수 있으며, 여기에서 분할된 인테인 융합 단백질 또는 분할된 인테인 융합 단백질의 조합은 인큐베이션된다. 일부 실시양태에서, C-말단 분열은 pH 또는 온도 전이에 의하여 개시된다. 다른 실시양태에서, 인테인 반응은 조건, 예로서 온도 또는 pH를 전이시킴으로써 개시될 수 있으며, 여기에서 분할된 인테인 융합 단백질 또는 분할된 인테인 융합 단백질의 조합을 인큐베이션시킨다. 일부 실시양태에서, C-말단 분열은 pH 또는 온도 전이에 의하여 개시된다.
일부 실시양태에서, 인테인 반응은 융합 단백질을 DTT 또는 또다른 강한 친핵체와 접촉시킴으로써 개시된다. 일부 실시양태에서, DTT는 반응을 증진시키는데 사용된다. 일부 실시양태에서, N-말단 분열은 강한 친핵체, 예로서 DTT에 의하여 개시된다.
단백질 스플라이싱 또는 분열을 유도하는 또다른 방식은 스플라이싱 또는 분열을 활성화하는 펩타이드 또는 의사펩티드제 (peptidomimetic)와 접촉시킴에 의한 것이다. 단백질 스플라이싱 또는 분열을 유도하는 또다른 방식은 스플라이싱 또는 분열을 차단 또는 저해하는 펩타이드 또는 의사펩티드제의 제거함에 의한 것이다.
일부 실시양태에서, 융합 단백질은 단백질 분리 또는 정제 목적을 위하여 수지에 부착될 수 있으며, 예로서 Lu 등, Journal of Chromatography A 1218: 2553~2560 (2011) 및 Elleuche and Poggeler, Appl. Microbiol. Biotechnol 87:479~489 (2010)에 제공된 것들과 같은 것들이 있으며, 이들은 본 명세서에 참고문헌으로서 통합된다. 추가적으로, 융합 단백질은 용액 상태, 친화도 비즈 또는 컬럼에 결합된 상태로, 세포막 또는 파지 표면에 고정된 상태로 존재할 수 있다. 친화도 결합제는 예로서 His-태그, 키틴 결합 도메인, 말토스 결합 단백질, 또는 글루타치온-S 전이효소를 포함할 수 있다. 융합 단백질은 세포 내부 또는 외부에 존재할 수 있다.
일부 실시양태에서, 인테인 반응은 단백질 정제 (예로서, 크로마토그래피성 태그 또는 비-크로마토그래피성 태그 및/또는 대규모 공정에서), 단백질 순환, 단백질 중합, 및 셀레노단백질(selenoprotein) 생산에서 사용될 수 있으며, 이는 예로서 본 명서세에 그 전체가 참고문헌으로서 본 명세서에 통합된, Elleuche and Poggeler, Appl. Microbiol. Biotechnol 87:479-489 (2010), 및 Evans T. 등, Biopolymers 51:333-342 (1999)에서 설명된 것과 같다. 본 명세서에서 제공된 인테인의 높은 효율로, 이들은 대규모 산업 적용에서 특히 쉽게 받아들여진다.
일부 실시양태에서, 인테인 반응은 타겟 폴리펩타이드를 생산하는데 사용될 수 있다. 타겟 폴리펩타이드는 미리 연결되지 않은 두 개의 서열을 포함하는 융합 폴리펩타이드일 수 있다. 타겟 폴리펩타이드는 이전에 연결된 서열로부터 분열되어 나온 폴리펩타이드일 수도 있다.
다중 스플라이싱 반응은 동시에 그리고 임의의 순서로 수행되어, 폴리펩타이드 서열을 배열 및 재배열하거나 또는 다수 또는 상이한 폴리펩타이드를 필요에 따라 결합시킬 수 있다.
VI. 인테인 융합 단백질 생성용 벡터
본 발명은 또한 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 및 인테인 도메인 및 이종성 폴리펩타이드를 포함하는 융합 단백질의 발현을 결과로서 초래하는 위치로 이종성 폴리펩타이드를 암호화하는 폴리뉴클레오타이드가 삽입되도록 하는 하나 이상의 클로닝 자리를 포함하는 인테인 융합 단백질의 생성에 적합한 벡터 또한 제공한다.
따라서, 또다른 측면에서, 본 발명은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드 및 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 하류에서 하나 이상의 클로닝 자리를 포함하여, 인테인 도메인 및 관심 대상의 폴리뉴클레오타이드에 의하여 암호화된 폴리펩타이드를 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터에 관한 것이다.
한 실시양태에서, 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드는 마지막 아미노산이 글루타민 또는 아스파라긴인 인테인 도메인을 암호화한다. 또다른 실시양태에서, 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드는 인테인 도메인의 마지막 아미노산이 아스파라긴 또는 글루타민 외의 아미노산인 인테인 도메인을 암호화한다. 또다른 실시양태에서, 인테인 도메인과 이종성 펩타이드에 의해 암호화된 폴리펩타이드 사이의 연결기 펩타이드를 형성하는 폴리펩타이드를 암호화하는 폴리뉴클레오타이드를 더 포함한다. 바람직한 실시양태에서, 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드를 인테인 도메인의 마지막 아미노산이 아스파라긴 또는 글루타민 외의 아미노산인 인테인 도메인을 암호화하고, 그 후 폴리뉴클레오타이드는 상기 연결기의 첫번째 아미노산이 세린, 트레오닌 또는 세린 외의 아미노산인 연결기 영역을 암호화한다.
또다른 측면에서, 본 발명은 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드 및 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 상류의 적어도 하나의 클로닝 자리를 포함하여, 관심 대상의 폴리뉴클레오타이드에 의하여 암호화된 폴리펩타이드 및 인테인 도메인을 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터에 관한 것이다.
한 실시양태에서, 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일성을 보이는 인테인 도메인을 암호화하는 폴리뉴클레오타이드는 첫번째 아미노산이 세린 또는 시스테인인 인테인 도메인을 암호화한다. 또다른 실시양태에서, 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일성을 보이는 인테인 도메인을 암호화하는 폴리뉴클레오타이드는, 인테인 도메인의 첫번째 아미노산이 세린 또는 시스테인 외의 아미노산인 인테인 도메인을 암호화한다.
또다른 실시양태에서, 본 발명은 관심 대상의 단백질을 암호화하는 폴리뉴클레오타이드를 클로닝하고 고리화될 수 있는 상기 폴리펩타이드를 생산하는데 유용한 벡터에 관한 것이다. 따라서, 본 발명은 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 1 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 관심 대상의 폴리뉴클레오타이드를 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 하류의 적어도 하나의 클로닝 자리, 및 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택되는 서열에 대해 75% 이상 동일한 제 2 인테인 도메인을 암호화하는 클로닝 자리의 하류의 폴리뉴클레오타이드를 포함하여, 관심 대상의 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드 및 제 1 및 제 2 인테인 도메인을 포함하는 융합 단백질을 암호화하는 벡터에 관한 것이다.
바람직한 실시양태에서, 제 1 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴이다. 또다른 실시양태에서, 제 1 인테인 도메인의 끝에서 두번째 아미노산은 히스티딘이다. 그러나, 또다른 실시양태에서, 제 2 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인이다.
한 실시양태에서, 본 발명은 N-말단 및 C-말단 도메인 및 두 인테인 도메인들 사이의 트랜스플라이싱 반응에 의하여 연결되는 폴리펩타이드의 두 영역을 포함하는 융합 단백질의 제조에 유용한 벡터에 관한 것이다. 따라서, 또다른 측면에서, 본 발명은 하기 (i) 내지 (iv)를 포함하는 벡터에 관한 것이다:
(i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 1 인테인 도메인을 암호화하는 폴리뉴클레오타이드,
(ii) 제 1 인테인 도메인을 암호화하는 상기 폴리뉴클레오타이드의 하류의 제 1 클로닝 자리,
(iii) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 2의 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 및
(iv) 제 2 인테인 도메인을 암호화하는 상기 폴리뉴클레오타이드의 상류의 제 2 클로닝 자리,
여기에서, 제 1 클로닝 자리는 관심 대상의 제 1 폴리뉴클레오타이드의 클로닝을 가능하게 하고, 제 2 클로닝 자리는 관심 대상의 제 2 폴리뉴클레오타이드의 클로닝을 가능하게 하여, 상기 순서대로, 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드, 제 2 인테인 도메인, 제 1 인테인 도메인 및 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드를 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하고, 여기에서
a. 제 1 인테인 도메인이 서열번호 7에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
b. 제 1 인테인 도메인이 서열번호 16에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
c. 제 1 인테인 도메인이 서열번호 24에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
d. 제 1 인테인 도메인이 서열번호 38에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나, 또는
e. 제 1 인테인 도메인이 서열번호 65에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 64에 대해 75% 이상 동일하다.
또다른 실시양태에서, 상기 벡터는 제 2 인테인 도메인과 관심 대상의 제 2 폴리뉴클레오타이드에 의하여 암호화되는 폴리펩타이드를 연결하는 제 1 펩타이드 연결기를 암호화하는 폴리뉴클레오타이드를 더 포함 및/또는 제 1 인테인 도메인과 관심 대상의 제 1 폴리뉴클레오타이드에 의하여 암호화되는 폴리펩타이드를 연결하는 제 2 펩타이드 연결기를 암호화하는 폴리뉴클레오타이드를 더 포함한다.
또다른 실시양태에서, 제 2 인테인 도메인의 첫번째 아미노산은 시스테인 또는 세린이고, 여기에서 첫번째 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴이고, 여기에서 첫번째 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴이고, 여기에서 제 1 인테인 도메인의 끝에서 두번째 아미노산은 히스티딘 및/또는 관심 대상의 제 2 폴리펩타이드 또는 제 1 펩타이드 연결기의 첫번째 아미노산은 시스테인, 세린 또는 트레오닌이다.
본 발명에 사용된 것과 같은, "벡터"라는 용어는 그에 의하여 폴리뉴클레오타이드 또는 DNA 분자가 조작되거나 또는 세포 내로 도입될 수 있는 비히클을 지칭한다. 벡터는 선형 또는 원형 폴리뉴클레오타이드일 수 있거나, 또는 보다 큰 크기의 폴리뉴클레오타이드 또는 임의의 다른 유형의 구축물일 수 있으며, 예컨대 바이러스성 지놈으로부터의 DNA 또는 RNA, 비리온 또는 DNA의 조작 또는 그의 세포 내로의 도입을 가능하게 하는 임의의 기타 생물학적 구축물이 있다. "재조합 벡터" 및 "재조합 시스템"이라는 표현은 "벡터"라는 용어와 상호교환적으로 사용될 수 있는 것으로 이해되어야 한다. 당업자는 사용될 수 있는 벡터의 유형에 대해서는 제한이 없다는 것을 알 것이며, 이는 상기 벡터는 증식에 적합하고, 융합 단백질의 정제에 적합한 상이한 이종성 생물에서 적절한 폴리뉴클레오타이드 또는 유전자 구축물 또는 발현 벡터를 수득하기 위한 클로닝 벡터일 수 있기 때문이다. 따라서, 본 발명에 따른 적합한 벡터는 원핵생물에서의 발현 벡터, 예컨대 pUC18, pUC19, Bluescript 및 그의 유도체, mp18, mp19, pBR322, pMB9, CoIEl, pCRl, RP4, 파지 및 "셔틀" 벡터, 예컨대 pSA3 및 pAT28, 효모 중 발현 벡터, 예컨대 2-미크론 플라스미드 유형의 벡터들, 통합(integration) 플라스미드, YEP 벡터, 센트로피어(centromere) 플라스미드 및 유사한 것들, 곤충 세포 중 발현 벡터, 예컨대 pAC 시리즈 및 pVL 시리즈 중 벡터, 식물 중 발현 벡터, 예컨대 pIBI, pEarleyGate, pAVA, pCAMBIA, pGSA, pGWB, pMDC, pMY, pORE 시리즈로부터의 벡터 및 유사한 것들, 및 바이러스성 벡터 (아데노바이러스, 아데노바이러스 관련 바이러스, 및 레트로바이러스 및 렌티바이러스 (lentivirus)) 및 비바이러스성 벡터에 기초한 보다 고등 진핵 세포 내 발현 벡터, 예컨대 pSilencer 4.1-CMV (Ambion), pcDNA3, pcDNA3.1/hyg, pHCMV/Zeo, pCR3.1, pEFl/His, pIND/GS, pRc/HCMV2, pSV40/Zeo2, pTRACER-HCMV, pUB6/V5-His, pVAXl, pZeoSV2, pCI, pSVL 및 pKSV-10, pBPV-1, pML2d 및 pTDTl이 포함된다.
바람직한 형태의 실시양태에서, 벡터는 추가적으로 인테인 도메인을 암호화하는 폴리뉴클레오타이드에 대하여 3' 위치에서, 이종성 폴리펩타이드를 암호화하는 폴리뉴클레오타이드의 클로닝에 대한 하나 또는 수 개의 자리를 포함한다. 바람직하게는, 클로닝 자리는 다중 클로닝 자리를 형성하도록 그룹화되며, 이들은 클로닝 벡터 내에서 종종 나타나는 바와 같다. 따라서, 본 명세서에서 사용된 "다중 클로닝 자리"라는 용어는, 서로 가깝게 위치한 일련의 둘 이상의 제한 엔도뉴클레아제 타겟 서열을 포함하는 핵산 서열을 지칭한다. 다중 클로닝 자리는 평활 말단, 점착성 5'-말단 또는 점착성 3'-말단을 갖는 절편의 삽입을 가능하게 하는 제한 엔도뉴클레아제 타겟을 포함한다. 관심 대상의 폴리뉴클레오타이드의 삽입은, 예로서 Sambrook 등 (Sambrook 등 Molecular Cloning: A Laboratory Manual, Cold Spring Harbour Laboratory Press, 1989) 및/또는 Ausubel 등 (Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley- Interscience (1988, 현재까지 모든 업데이트 포함)에 의하여 설명된 바와 같은, 표준 분자 생물학 방법을 이용하여 수행된다.
본 명세서의 설명으로부터 당업자에게는 명백할 것임과 같이, 본 발명의 개시 내용은 발현 구축물, 즉 핵산이 적합한 프로모터에 작동적으로 연결되는 발현 구축물의 생산에 유용하다.
무세포 발현 시스템은 본 발명의 개시 내용에 의하여 고려된다. 예로서, 핵산은 적합한 프로모터, 예로서 T7 프로모터에 작동적으로 연결되고, 결과의 발현 구축물은 전사 및 번역에 충분한 조건에 노출된다. 시험관 내 발현 또는 무세포 발현에 전형적인 발현 벡터가 기재되었으며, 이에 제한되지는 않지만, 이는 TNT T7 및 TNT T3 시스템 (Promega), pEXPl-DEST 및 pEXP2-DEST 벡터 (Invitrogen)를 포함한다.
세포 내 발현을 위한 많은 벡터들이 이용가능하다. 벡터 성분들은 일반적으로, 이에 제한되지는 않지만, 하기 중 하나 이상을 포함한다: 신호 서열, 폴리펩타이드(들)을 암호화하는 서열, 인핸서 성분, 프로모터, 및 전사 종결 서열. 당업자는 단백질의 발현에 적합한 서열을 알 것이다. 예로서, 예시적인 신호 서열은 원핵성 분비 신호 (예로서, pelB, 알카리성 포스파타제, 페니실린나제, Ipp, 또는 열안정성 엔테로 톡신 II), 효모 분비 신호 (예로서, 전화당 효소 리더, 인자 리더, 또는 산 포스파타아제 리더) 또는 포유동물 분비 신호 (예로서, 단순포진 gD 신호)를 포함한다.
예시적인 프로모터는 원핵생물에서 활성인 것들을 포함한다 (예로서, phoA 프로모터, 베타-락타마제 및 락토오스 프로모터 시스템, 알칼리성 포스파타아제, 트립토판 (trp) 프로모터 시스템, 및 tac 프로모터와 같은 혼성 프로모터). 이들 프로모터는 진정세균을 포함하는 원핵생물, 예컨대 그람-음성 또는 그람-양성 생물, 예로서 장내세균, 예컨대 에스케리키아, 예로서, 대장균, 엔테로박터, 어위니아(Erwinia), 클렙시엘라, 프로테우스, 살모넬라, 예로서 살모넬라 타이피무리움(Salmonella typhimurium), 세라티아(Serratia), 예로서, 세라티아 마르세스칸스 (Serratia marcescans), 및 시겔라(Shigella), 및 바실러스 예컨대 B. 서브틸리스 및 B. 리체니포르미스(licheniformis), 슈도모나스 예컨대, 녹농균 (P. aerugiosa), 및 스트렙토마이세스에서의 발현에 유용하다. 한 예에서, 숙주는 대장균이다. E. 콜라이 (E. coli) B, E. 콜라이 X 1776 (ATCC 31,537), 및 대장균 W3110 (ATCC 27,325), DH5a 또는 DH10B와 같은 기타 균주도 적합하지만, 한 가지 바람직한 대장균 클로닝 숙주는 대장균 294 (ATCC 31,446)이다.
포유동물 세포에서 활성인 예시적인 프로모터는 사이토메갈로바이러스로는, 사이토메갈로바이러스 즉시 초기 프로모터 (CMV-IE), 인간 신장 인자 1-oc 프로모터 (EF1), 소핵성 RNA 프로모터 (Ul a 및 Ulb), 아미오슴(a-myosm) 중쇄 프로모터, Simian 바이러스 40 프로모터 (SV40), Rous sarcoma 바이러스 프로모터 (RSV), 아데노바이러스 주요 후기 프로모터 (major late promotor), 베타-액틴 프로모터; CMV 인핸서를 포함하는 혼성 조절자 요소/ 베타-액틴 프로모터 또는 면역글로불린 프로모터 또는 그의 활성 절편이 포함된다. 유용한 포유동물 숙주 세포주의 예로는 SV40에 의해 형질전환된 원숭이 신장 CV1 주(COS-7, ATCC CRL 1651); 인간 배아 신장주 (현탁 배양에서의 배양을 위해 서브클로닝된 293 또는 293 세포; 아기 햄스터 신장 세포 (BHK, ATCC CCL 10); 또는 중국 햄스터 난소 세포 (CHO)가 있다.
예로서, 피키아 패스토리스 (Pichia pastoris), 사카로마이세스 세레비시에 및 S. 폼베 (S. pombe)를 포함하는 군으로부터 선택된 것과 같은 효모 세포 내 발현에 적합한 전형적인 프로모터로는, 이에 제한되지는 않지만, ADH1 프로모터, GAL1 프로모터, GAL4 프로모터, CUPI 프로모터, PH05 프로모터, nmt 프로모터, RPR1 프로모터, 또는 TEF1 프로모터가 포함된다.
곤충 세포 내 발현에 적합한 전형적인 프로모터는 이에 제한되지는 않지만 OPEI2 프로모터, 봄빅스 무리(Bombyx muri)로부터 분리된 곤충 액틴 프로모터, 초파리 종 (Drosophila sp.) dsh 프로모터 및 유도성 메탈로티오네인 프로모터가 포함된다. 재조합 단백질의 발현을 위한 예시적인 곤충 세포는 BT1 -TN-5B1-4 세포, 및 담배거세미나방류 (Spodoptera frugiperda) 세포 (예로서, sfl9 세포, sf21 세포)를 포함하는 군으로부터 선택된 곤충 세포를 포함한다. 핵산 절편의 발현에 적합한 곤충으로는, 이에 제한되지 않지만, 초파리 종이 포함된다. 도둑나방 (S. frugiperda)의 이용도 고려된다.
본 발명에 따른 벡터는 마커 단백질을 암호화하는 폴리뉴클레오타이드를 더 포함할 수 있다. 본 발명의 개시 내용에 적합한 마커 단백질로는 또다른 독성 화합물에 항생제 내성 또는 내성을 부여하는 것들이 포함된다. 항생제에 내성을 부여하는 마커 단백질의 예로는, 네오마이신 및 카나마이신을 인산화하는 네오마이신 인산 전이효소, 또는 hpt, 인산화 하이그로마이신, 또는 예로서 블레오마이신(bleomycin), 스트렙토마이신, 테트라사이클린, 클로람페니콜, 암피실린, 젠타마이신, 제네티신 (G418), 스펙티노마이신 또는 블라스티딘에 내성을 부여하는 단백질이 포함된다. 한 실시예에서, 상기 단백질은 클로람페니콜에 내성을 부여한다. 예로서, 대장균 지정된 CmR로부터의 유전자이며, 예로서 Nilsen 등, J. Bacteriol, 178: 3188~3193, 1996에 설명된 바와 같다.
대안적으로, 마커 단백질은 세포에서 영양요구성을 보완한다. 예로서, HPRT 발현을 결여한 진핵성 세포는 HPRT를 암호화하는 핵산을 포함하는 발현 구축물을 이용하여 형질전환된다. 리포터 유전자의 발현은 HAT 매질에서 성장할 수 있는 세포를 결과로서 초래하는 한편, 리포터 유전자를 발현하지 않는 세포들은 이들 조건에서 성장할 수 없다.
대안적으로, 효모 세포의 경우, 마커 단백질은 예로서 LEU2 또는 LYS2 또는 TRP이다. 그러한 리포터 유전자는 관련 유전자에 대해 영양요구성인 효모 세포를 보완할 수 있으며, 결과로서 관련 아미노산을 생산할 수 없다.
또다른 예에서, 직접 검출가능한 마커 단백질은 예로서 형광 단백질이다. 몇몇 형광 리포터 유전자는 당 기술분야에서 잘 알려져 있으며, 예로서 녹색 형광 단백질 (GFP), 증진된 녹색 형광 단백질 (eGFP), 적색 전이된 녹색 형광 단백질 (RFP), 시안 형광 단백질 (CFP), 황색 형광 단백질 (YFP), 단량체성 다이스코소마(discosoma) 적색 형광 단백질 (dsRED) 또는 dsRED2; 단량체성 주황색 형광 단백질 또는 단량체성 GFP 평면해파리 (Aequorea coerulescens)를 암호화하는 것들이 포함된다. 이들 단백질은 표준 기술, 예로서 형광 활성화된 세포 분류 (FACS)를 이용하여 마커 단백질을 발현하는 세포의 선발을 가능하게 한다.
추가 예에서, 마커 유전자는 검출가능한 반응을 촉매하는 효소이다. 예시적인 효소적 리포터 유전자에는, 예로서 베타-갈락토시다제, 알칼리성 포스파타제, 반딧불이 발광효소 또는 바다팬지(Renilla) 발광효소가 포함된다. 예로서, 베타-갈락토시다제의 발현은 기질 5-브로모-4-클로로-3-인돌릴-베타-D-갈락토피라노사이드 (x-gal)의 추가에 의하여 검출되며, 이는 베타-갈락토시다아제에 의하여 가수분해되어 청색 침전물을 생산한다. 대안적으로, 반딧불이 발광효소 또는 바다팬지 발광효소 중 어느 하나의 발현은 관련 단백질의 존재 하에서 발광성이고, 예로서 분광광도계를 이용하여 검출가능한 기재의 첨가에 의하여 검출된다.
관심 대상의 폴리펩타이드를 암호화하는 폴리뉴클레오타이드의 본 발명의 벡터 내로의 클로닝은 당업자에게 잘 알려진 표준 기술을 이용하여 실시될 수 있다. 예로서, 관심 대상의 폴리펩타이드를 암호화하는 폴리뉴클레오타이드는 중합효소 연쇄 반응 (PCR)을 이용하여 생산된다. PCR 수행 방법은 당 기술분야에서 알려져 있다. 항체들의 경우, PCR은, 일정 대상 또는 라이브러리로부터 또는 라이브러리 스크리닝 후, 하나 이상의 불변 영역에 작동적으로 연결된 가변 영역을 증폭시키기 위하여 사용될 수 있다. 항체 영역을 암호화하는 핵산의 그러한 증폭을 위한 프라이머는 당 기술분야에 공지이다 (예로서, US6,096,551 및 WOOO/70023에 설명된 바와 같다). 추가의 실시예에서, 핵산은 본 발명의 표준 방법에 따라 제한 엔도뉴클레아제 소화를 이용하여 생산/분리될 수 있다.
핵산 연결 방법은 당업자에게는 명백할 것이며, 예로서 Sambrook 등 Molecular Cloning: A Laboratory Manual, Cold Spring Harbour Laboratory Press, 1989 및/또는 Ausubel 등 (editors), Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley-Interscience (1988, 현재까지의 모든 업데이트 포함) 등에 설명되어 있다. 한 예에서, 상기 방법은 핵산을 연결하기 위하여 리가제, 예로서 T4 DNA 리가제를 사용한다.
본 개시내용의 한 예시적인 형태에서, 리가제 독립적 클로닝은 핵산을 연결하는데 사용된다.
리가제 독립적 클로닝의 한 형태에서, 상보성 단일 가닥 영역은 연결될 2 개의 핵산 내에 포함된다. 이들 핵산은 그 후 서로 혼성화되고, 결과의 핵산은 세포 로 형질전환되며, 여기에서 내생의 효소는 임의의 잔여 갭을 복구하고 단일한 연속적 핵산을 형성한다.
리가제 독립적 클로닝의 또다른 형태에서, 하나 이상의 효소가 단일 핵산 분자의 형성을 증진시키기 위하여 사용된다. 예로서, US7575860호는 3 '-5' 엔도뉴클레아제 활성 (예로서, 백시니아 바이러스로부터)을 갖는 중합효소가 2 개의 핵산을 연결하는데 사용되는 기술을 설명한다. 예로서, 연결되는 핵산은 실질적으로 동일하거나 또는 동일한 영역을 포함한다. 이들 영역은 길이가 5 개 내지 50 개 사이의 뉴클레오타이드, 예로서 길이 약 12 개 내지 15 개의 뉴클레오타이드, 예컨대 길이 약 15 개의 뉴클레오타이드일 수 있다. 연결되는 핵산은 그 후 3 '-5' 엑소뉴클레아제 활성을 갖는 중합효소와 접촉된다. 예시적인 중합효소로는 백시니아 DNA 중합효소, T4 DNA 중합효소 및 대장균 DNA 중합효소 I의 클레나우(Klenow) 절편이 포함된다. 한 예에서, 핵산은 백시니아 및 대장균 단일가닥 결합 단백질과 같은 단일 가닥 DNA 결합 단백질, 단순포진 바이러스 ICP8 단백질, 및 효모 및 인간 복제 단백질 A (예로서, yRPA 및 hRPA)와 추가적으로 접촉된다. 이러한 유형의 리가제 독립적 클로닝을 수행하기 위한 키트는 Clontech로부터 상표명 In-Fusion(R) 하에 상업적으로 구매가능하다.
추가적인 리가제 독립적 클로닝 방법은 당 분야에 알려져 있으며, 예로서 결찰 독립적 클로닝 (LIC; 예로서, Aslanidis 등, Nucl. Acids Res., 18: 6069에 기재된 바와 같음), T7 엑소뉴클레아제-매개 클로닝 (US5580759), 헤테로- 스태거(stagger) PCR-기재 클로닝 (Liu 등, Nucleic Acids Res 24: 2458~2459, 1996), 우라실- 절단 기재 클로닝 (Nisson 등, PCR Meth. Appl 7: 120~123, 1991), 포스포로티오에이트-기재 리가제-독립적 클로닝 (예로서, Blanusa 등, Anal. Biochem, 406: 141~146, 2010에 의해 설명된 바와 같음)이 포함된다.
결과의 핵산은 그 후, 예로서 하기 설명되는 바와 같이, 당 기술분야의 표준 방법을 이용하여 세포 내로 도입될 수 있다.
한 실시예에서, 재조합은 핵산을 연결하는데 사용된다. 예로서, 연결되는 2 개의 핵산은 동일하거나 또는 실질적으로 동일한 영역 (예로서, 길이가 100 개의 뉴클레오타이드 또는 50 개의 뉴클레오타이드 또는 20 개의 뉴클레오타이드 또는 10 개 뉴클레오타이드)을 모두 포함한다. 그 후 핵산을 동종성 재조합을 할 수 있는 세포 내로 도입시키고, 동종성 재조합이 일어난 세포를, 예로서 마커 단백질의 발현에 의하여 선택하여 선발한다.
본 발명은 본 명세서에서 하기 실시예를 통하여 설명되며, 이는 본 발명의 범주를 단지 예시하기 위한 것이지 제한하고자 하는 것은 아니다.
도 1. (A) 트랜스-스플라이싱 반응의 도식적 표현. 초기 N-말단 절편 (F1) 및 분할된 인테인의 C-말단 절편 (F2)을 제일 위에 나타내었다. 트랜스-스플라이싱 반응 후에 결합될 영역은 회색으로 표시하였다. 트랜스-스플라이싱 반응 결과로부터의 3개 절편을 바닥에 나타내었다. F3은 스플라이싱된 생성물을 나타내고 (회색), F4 및 F5는 각각 N- 및 C-분할된 인테인 부산물에 대응한다. StreptagII 정제 태그 (ST), 파지 단백질 박테리오파지 λ 헤드 단백질 D (gpD), N-말단 엑스테인 (EN)에 속하는 5 개의 천연 플랭킹 아미노산, N-말단 분할된 인테인 (IN), 헥사-히스티딘 정제 태그 (H6), C-말단 분할된 인테인 (IC), C-말단 엑스테인 (EC)에 속하는 5 개의 천연 플랭킹아미노산, 티오레독신 (Trx), 및 N- 및 C-말단 엑스테인 (ENC)의 접합점. (B) SDS-PAGE 겔의 쿠마씨 블루 염색에 의하여 분석된 Gp41.1 (G1) 분할된 인테인의 트랜스-스플라이싱 반응의 시간경과. 초기 N- 및 C-말단 절편 (각각, F1 및 F2)을 래인 1에 나타내었다. 25℃에서 10 초, 20 초, 30 초, 1 분, 5 분, 30 분, 1 시간 및 2 시간 인큐베이션 후, 트랜스-스플라이싱 반응은 래인 2-9에 나타내었다. F1, F2, F3, F4 및 F5의 위치는 화살표로 표시하였다.
도 2. (A) Gp41.1 (G1) 분할된 인테인의 C-말단 자가-분열 반응. N-말단 인테인으로부터의 첫번째 아미노산 (시스테인)은 알라닌으로 치환되었다 (C1A). 일반적인 자가-분열 반응의 도식적 표현을 왼쪽에 나타내었다. 분할된 인테인의 돌연변이된 N-말단 절편 (F1) 및 C-말단 절편 (F2)의 인큐베이션은 F2의 분열을 일으켜 원하는 Trx 함유 절편 (F3) 및 C-말단 분할된 인테인 부산물 (F4)을 결과로서 생성한다. 자가-분열 반응에서 유리된 절편을 회색으로 나타내었다. SDS-PAGE 겔의 쿠마씨 블루 염색에 의하여 분석된 Gp41.1 (G1) 분할된 인테인의 자가-분열 반응의 시간경과를 오른쪽에 나타내었다. 초기 N- 및 C-말단 절편 (각각, F1 및 F2)을 래인 1에 나타내었다. 37℃에서 1 분, 5 분, 35 분, 1 시간, 2 시간 및 4시간 동안 인큐베이션 후 자가-분열 반응을 래인 2 내지 7에 나타내었다. F1, F2, F3 및 F4의 위치는 화살표로 표시하였다. (B) Gp41.1 (G1) 분할된 인테인의 C-말단 자가-분열 반응. N-말단 인테인이 C1A 치환을 포함하고, EC에 대응하는 5개의 천연 아미노산이 F2에서 빠진 경우, 일반적인 자가-분열 반응의 도식적 표현을 왼쪽에 나타내었다. SDS-PAGE 겔의 쿠마씨 블루 염색에 의하여 분석된 Gp41.1 (G1) 분할된 인테인의 자가-분열 반응을 오른쪽에 나타내었다. 초기 N- 및 C-말단 절편 (각각, F1 및 F2)을 래인 2에 나타내었다. 래인 3은 37℃에서 23 시간 동안 인큐베이션 후 자가-분열 반응을 래인 3에 나타내었다. F1, F2, F3 및 F4의 위치는 화살표로 표시하였다. StreptagII 정제 태그 (ST), 파지 단백질 박테리오파지 λ 헤드 단백질 D (gpD), N-말단 엑스테인 (EN)에 속하는 5 개의 천연 플랭킹 아미노산, N-말단 분할된 인테인 (IN), 헥사-히스티딘 정제 태그 (H6), C-말단 분할된 인테인 (IC), C-말단 엑스테인 (EC)에 속하는 5 개의 천연 플랭킹아미노산 및 티오레독신 (Trx).
도 3. (A) 트랜스-스플라이싱, (B) C-말단 자가-분열, 및 (C) N-말단 자가-분열 구축물(construct)을 나타내는 도식적 표현. N-말단 엑스테인 (EN)에 속하는 천연 플랭킹아미노산, N-말단 분할된 인테인 (IN), C-말단 분할된 인테인 (IC), C-말단 엑스테인 (EC)에 속하는 천연 플랭킹아미노산. 대응 반응에 직접 또는 간접적으로 관련된 주요 아미노산들을 나타내었다.
실시예
실시예 1: Npu DnaE와 비교된 Gp41.1, Gp41.8, NrdJ1, IMPDH1 분할된 인테인의 트랜스-스플라이싱 활성
시험관 내 트랜스-스플라이싱 반응은 Gp41.1 (G1), Gp41.8 (G8), NrdJ1(N1), 및 IMPDH1(I1)의 분할된 인테인을 포함하는 구축물을 이용하여 수행되었다. 분할된 인테인 Npu DnaE (DE)은 강건하고 고-수율 인테인으로서 특징되어 왔으며 (Zettler J. 등, FEBS Letters 583:909~914 (2009)), 대조구로서 선택되었다. 이들 인테인의 번호매김, 약어, 서열 및 분자량은 하기 표 3에 나타내었다. 도 1A에 나타낸 것과 같이, 각 분할된 인테인 구축물의 N-말단 절편은 (i) StreptagII (ST) 정제 태그, (ii) 단백질 용해도를 증가시킬 수 있는, 파지 단백질 박테리오파지 λ 헤드 단백질 D (gpD), (iii) N-엑스테인 (EN)에 속하는 5개의 천연 플랭킹 아미노산, (iv) N-말단 분할된 인테인 절편 (IN), 및 (v) 헥사-히스티딘 정제 태그 (H6)로 이루어졌다. 각 분할된 인테인 구축물의 C-말단 절편 또한 도 1A에 나타내었으며, (i) C-말단 분할된 인테인 절편 (IC), (ii) C-엑스테인 (EC)에 속하는 5개의 천연 플랭킹아미노산, (iii) 단백질 용해도를 증가시키고, 단백질 접힘을 돕는 티오레독신, 및 (iv) 헥사-히스티딘 정제 태그 (H6)로 이루어졌다.
이들 모든 융합 단백질은 대장균 내에서 독립적으로 발현되었으며, 가능한 형태는 정제되었다. 균등몰 농도 (5~15 μM)의 N- 및 C-말단 분할된 인테인 쌍을 혼합하였다 (G1N+G1C+, G8N+G8C, N1N+N1C, 및 IN+IC). 25℃에서 인큐베이션 후, SDS-샘플버퍼 첨가 직후 5분 동안 비등시킴으로써 트랜스-스플라이싱 반응을 상이한 시점들에서 중단시켰다. 트랜스-스플라이싱 반응을 도 1A에 요약하였다.
표 3: 분할된 인테인을 포함하는 융합 단백질의 분할된 인테인 번호매김, 약어, 서열 및 분자량의 요약. Streptag II 및 His-서열을 밑줄 표시하였다. 분할된 인테인들과 관심 대상의 단백질 (gpD 또는 Trx) 간의 연결기는 진한 이탤릭체로 표시하였다. 연결기 내 엑스테인 서열은 괄호로 묶었다.
Figure pct00002
Figure pct00003
Figure pct00004
P= 단백질 수, Abbr= 약어, MW= 분자량, Gp41.1N: Gp41.1 분할된 인테인의 N-말단 절편 (서열번호 3), Gp41.8N: Gp41.8 분할된 인테인의 N-말단 절편 (서열번호 12), NrdJ1N: Nrdj1 분할된 인테인의 N-말단 절편 (서열번호 20), IMPDH1N: IMPDH1 분할된 인테인의 N-말단 절편 (서열번호 34), DnaEN: DnaE 분할된 인테인의 N-말단 절편 (서열번호 28), Gp41.1C: Gp41.1 분할된 인테인의 C-말단 절편 (서열번호 7), Gp41.8C: Gp41.8 분할된 인테인의 C-말단 절편 (서열번호 16), NrdJ1C: Nrdj1 분할된 인테인의 C-말단 절편 (서열번호 24), IMPDH1C: IMPDH1 분할된 인테인의 C-말단 절편 (서열번호 38), DnaEC: DnaE 분할된 인테인의 C-말단 절편 (서열번호 31), Trx: 대장균 티오레독신 (서열번호 77); gpD: 박테리오파지 λ 헤드 단백질 D (서열번호 76).
실험을 4개의 분할된 인테인 모두를 이용하여 수행하였다 (Gp41.1 (G1), Gp41.8(G8), NrdJ1(N1), 및 IMPDH1(I1)). Gp41.1 (G1)를 이용하여 수득된 예시적인 결과들을 도 1B에 나타내었다. 초기 N- 및 C-말단 절편 (도 1B, 래인 1: 각각 F1 및 F2)은 매우 빠르게 반응하여 스플라이스된 생성물 및 N- 및 C-분할된 인테인 부산물을 생산하였다 (도 1B, 래인 2~9: F3, F4 및 F5, 각각). 트랜스-스플라이스 반응의 속도는 속도 상수 "k"로서 계산하였으며, 이는 트랜스-스플라이스 반응 속도에 직접 비례하였다. 반응 반감기 "t1/2,"는, 소비되는 스플라이싱 반응에서 전구체들 (F1 또는 F2) 의 절반에 대해 요구되는 시간을 나타낸다.
놀랍게도, 분석된 모든 분할된 인테인들 (G1, G8, N1 및 I1)은 이전에 특징화된 Npu DnaE (Zettler J. 등, FEBS Letters 583:909~914 (2009))보다 더욱 빨랐다. 25℃의 동일한 반응 조건에서 G1, G8, N1 및 I1은 각각, 이제까지 보고된 가장 높은 속도 상수를 갖는 뛰어난 분할된 인테인으로서 특징되어 온 Npu DnaE보다 31-, 6-, 9- 및 7-배 더 빨랐다 (표 4). 스플라이싱 수율은 5분에서 G1, G8, N1 및 I1이 약 90%의 스플라이스 생성물 형성을 나타냄을 증명하였다.
표 4: 분할된 인테인에 대해 결정된 단백질 트랜스-스플라이싱 반응의 단백질 스플라이싱 백분율 및 일차 속도 상수.
인테인 온도
SP
(%)
k
(초-1)
t1/2
(s)
G1 25 80-90 5.7 x10-2 12
G8 25 85-95 1.7 x10-2 40
N1 25 85-95 6.2 x10-2 20
I1 25 90-95 2.0 x10-2 34
DE 25 75-85 3.4 x10-3 180
DE* 25 75-85 3.5 x10-3 198
SP= 스플라이스 생성물
*Zettler J. 등 2009. FEBS Letters 583:909~914
G1, G8, N1 및 I1의 스플라이스 생성물을 질량 분석법 LC-MS/MS에 의하여 확인하였다 (>90% 서열 커버리지(coverage)). 결정된 분자량은 이들 모두에 대해 이론 값인 27.3 kDa과 일치하였다.
이들의 뛰어난 성질 고려시, 천연의 분할된 인테인의 이러한 군은 초-신속 스플라이스 인테인의 신규 생성인 것으로 보이며, 이는 단백질 엔지니어링, 세포 화학, 고리화, 정제 및 기타를 포함하는 많은 적용에서 이용될 수 있다.
실시예 2: Gp41.1 활성의 트랜스-스플라이싱에 대한 온도의 효과
이들 분할된 인테인의 다능성(versatility) 및 강건성을 시험하기 위하여, Gp41.1을 더욱 상세하게 분석하였다. 인테인 도메인을 더욱 상세하게 분석하였다. 인테인 활성은 온도에 의해 영향받는 것으로 나타났다. 천연적으로 Ssp DnaE 및 반합성 Mtu RecA 분할된 인테인에 의하여 저온, 예컨대 4℃에서 매개된 단백질 스플라이싱 활성의 증거는 이미 이전에 보고되었지만 (Martin, D. 등 2001. Biochemistry, 40:1393~1402 and Lew, B. 등 1999. Biopolymers (펩타이드 Science), 51:355~362), 4℃ 미만에서의 활성은, 본 발명자들이 아는 바로는, 이전에 문서화되지 않았다. 따라서, GP41.1의 활성을 여러 온도에서 시험하였다. Gp41.1의 정제된 N- 및 C-말단 절편을 5μM의 균등몰 농도의 스플라이싱 버퍼 내에서 혼합하고, 0, 12, 25 및 37℃에서 인큐베이션하였다. 스플라이스 생성물 형성 및 상수 속도를 결정하고, 결과를 표 5에 나타내었다.
놀랍게도, Gp41.1 인테인은 0℃에서 여전히 활성이었다. 이는 k=5.5×10-3-1 였으며, 그러한 극한 조건 하에서 반응 1 시간 후, 80~90% 사이의 스플라이스 생성물이 형성되었다. 동일한 반응이 12℃에서 수행된 경우, 트랜스-스플라이싱 속도는 k=1.3×10-2-1로 증가되었으며 (12℃에서 k=2.2±0.5×10-3-1를 갖는 Npu DnaE보다 빠름), 1시간 반응 후, 85~90%의 스플라이스 생성물이 형성되었다. 25℃에서, Gp41.1 분할된 인테인은 k=5.2×10-2-1를 나타내었으며 (또한, 25℃에서 k=3.5±0.2×10-3-1를 갖는 Npu DnaE보다 빠름), 30분에 90~95% 사이의 스플라이스 생성물 형성을 나타내었다.
Ssp DnaE 및 Mtu RecA을 포함하는 많은 분할된 인테인들은 감소된 수율, 및 보다 고온에서 (즉, 37℃) 가수분해 부산물의 증가된 생성을 나타내었다. 그러나, 다른 인테인들, 예컨대 Npu DnaE는 37℃에서 가장 활성이었다. Gp41.1 분할된 인테인은 37℃에서 그의 가장 높은 속도를 나타내었다: k=1.1×10-1-1 (다시 37℃에서, k=1.1±0.2×10-2-1인 Npu DnaE보다 빠름). 특히, 90~95%의 스플라이스 생성물이 5분 이내에 형성되었다. 이들 결과는 G1이 광범위 (0 내지 37℃) 온도-내성을 갖는다는 것을 나타낸다.
표 5: G1 트랜스-스플라이싱 활성에 걸친 온도의 효과.
온도 (℃) k(초-1) t1/2 (초) SP (%)
0 5.5 x10-3 126 80-90
12 1.8 x10-2 39 80-90
25 5.7 x10-2 12 90-95
37 1.4 x10-1 5 90-95
45 1.8 x10-1 4 85-95
50 1.2 x10-1 6 85-95
55 8.3 x10-2 8 65-75
흥미롭게도, 분석된 모든 온도에서, G1 트랜스-스플라이싱 활성은 고성능 Npu DnaE 분할된 인테인보다 더 빨랐다. 12℃ 및 25℃에서, G1은 Npu DnaE보다 6- 및 15-배 더 빨랐으며, 심지어는 Npu DnaE가 그의 가장 빠른 활성을 나타내는 37℃에서 G1은 10배 더 빠른 활성을 가졌다.
실시예 3: 트랜스-스플라이싱 활성에 대한 pH 및 무질서 염의 효과
Ssp DnaE, 및 Mtu RecA 인테인을 포함하는 많은 분할된 인테인은, 높은 pH 또는 변성제 존재 하에서 감소된 수율 및 증가된 가수분해 부산물의 형성을 나타낸다는 것을 보여 왔다 (Zettler 등, 2009. FEBS letters 583: 909~914). 그러나, G1 스플라이싱의 효율은 pH 6 내지 9에 거의 독립적이다 (표 6). 활성의 감소는 pH 4 및 10과 같은 극한 pH 값에서만 관찰되었다. 반면, Mtu RecA는 pH 6 내지 7.5 (Lew B. 등 Biopolymers. 51:355~362 (1999))의 더욱 좁은 최적 스플라이싱 범위를 가졌다. Ssp DnaE 인테인은 pH 7.0에서 최대 트랜스-스플라이싱을 나타내지만, 더욱 높은 pH에서 급감하였다 (Martin D. 등 2001. Biochemistry. 40:1393~1402).
6: G1 트랜스-스플라이싱 활성에 대한 pH 및 무질서 염의 존재의 효과
pH 무질서 염 1시간 후 SP(%)
6 - 80-85
7 - 80-85
우레아 4M 40-45
8 - 80-85
9 - 75-80
일부 경우에서, 인테인 융합 단백질의 발현은 그들의 용해도를 증가시키기 위해 일부 변성제의 존재를 필요로 할 수 있다. 따라서, 스플라이싱 반응에서 4M 우레아의 존재에 대한 내성이 Gp41.1 분할된 인테인에 대해 측정되었다. 표 4에 나타낸 결과는 온건한 농도의 우레아 (4M)의 존재 하에 현저한 스플라이싱 활성을 나타내며, 최적화된 조건과 관련하여 1 시간 반응 후 거의 50%의 트랜스-스플라이싱 활성을 나타낸다.
이들 특징은 G1 분할된 인테인의 예기치못한 다능성 및 강건성을 증명하였다.
실시예 4: 트랜스-스플라이싱 활성에 대한 엑스테인의 효과
N-인테인 도메인에 플랭킹하는 N-엑스테인 (EN) 아미노산은 트랜스-스플라이싱 반응에 직접 참여하지 않지만, 이들은 반응 효능에 영향을 가질 수 있다. 이러한 가능성을 시험하기 위하여, G1 (TRSGY)으로부터의 EN의 5개 아미노산을 결실시키고, 생성된 신규 N-말단 절편은 (G1N(Δext)) 실시예 1에서 설명된 동일한 조건 하에서 대응 C-말단 절편 (G1C)과 인큐베이션하였다. 흥미롭게도, EN의 부재 하에서 트랜스-스플라이싱 활성이 관찰되었으며 (속도 값 1.8E-3 초-1 및 수율 45%), 이는 G1 분할된 인테인으로부터의 EN이 필수적이지 않다는 것을 증명하였다.
반면, C-엑스테인의 첫번째 아미노산이 인테인 및 분할된-인테인에 의하여 매개된 트랜스-스플라이싱 반응에 직접 관련된 것으로 설명되어 왔다. G1 N-엑스테인 의 첫번째 위치 위치되 세린의 역할을 시험하기 위하여, 2 개의 신규 G1 C-말단 절편을 생성하였다. 이들은 C-말단 절편을 포함하였으며, 여기에서 EC 도메인은: (i) 부분적으로 (세린 플랭킹 IN 만이 유지되었다; G1C(S)) 또는 (ii) 완전히 제거 (G1C(Δext)) 되었다.
G1C(S)와 EN (각각, G1N 또는 G1N(Δext)) 를 포함 또는 결여하는 대응 N-말단 절편의 인큐베이션은, 효율적인 트랜스-스플라이싱 반응을 결과로서 초래하였다. 반면, G1N 또는 G1N(Δext)이 G1C(Δext) 존재 하에 인큐베이션된 경우, 트랜스-스플라이싱 반응은 관찰되지 않았다. 이러한 특이적 상황에서, 놀랍게도 C- 및 N-분열 활성이 관찰되었다. 이들 결과로부터, IN에 가깝고 바람직하게는 그에 플랭킹하는 세린 잔기가 효율적인 트랜스-스플라이싱 반응을 보장하는데 필요한 것으로 결론지을 수 있다.
실시예 5: Gp41.1, Gp41.8, NrdJ1 및 IMPDH1 분할된 인테인에서 I N 에서 점 돌연변이 C1A의 C-말단 자가-분열에 대한 효과
일부 인테인은 N-말단 또는 C-말단에서 독립적인 자가-분열 활성을 나타내며, 구분되는 아미노산 잔기를 필요로 한다. IN에서 Cys1에서 Ala (C1A)으로의 돌연변이는 N-말단에서 분열을 할 수 없도록 하지만, C-말단에서는 아닌 (지금까지, C-말단 자가-분열로서 지칭됨) 한편, IC에서 C-말단 Asn154에서 Ala 로의 돌연변이는 C-말단에서의 분열을 할 수 없도록 하지만 N-말단에서는 그렇지 않다(Mathys, S. 등 Gene 231:1~13 (1999) 및 Lu 등 J. Chromatography A. 1218:2553~2560 (2011)). 이러한 흥미로운 성질때문에, 일부 돌연변이된 인테인은, 융합 단백질로부터 관심 대상의 단백질의 제어된 유리를 가능하게 하는 자가-분열성 펩타이드로서 사용될 수 있다. 따라서, 그러한 돌연변이화된 인테인은 값비싼 상용 프로테아제 대신에 사용될 수 있다.
오늘날까지 분석된 모든 천연의 분할된 인테인에서, C1A 돌연변이는 단백질 스플라이싱을 제거한다. 천연의 분할된 인테인 Npu DnaE 및 Ssp DnaE에서 C1A 돌연변이는 초기 N에서 S-아실 전이를 차단하고, 단백질 스플라이싱을 차단하지만, C-말단 분열 반응 및 Ssp DnaE (Martin, D. 등 2001. Biochemistry. 40:1393-1402)을 거의 완전히 저해한다 (Zettler J., 등 2009. FEBS Letters 583:909~914). 추가적으로, S1A에서 점 돌연변이화된 천연의 전장 C-말단 Pab PoIII 인테인 자가-분열 활성이 90% 이하로 저하되었음이 보고되어 왔다 (Xu, M. & Perler, F. EMBO J. 15:5146~5153 (1996)).
C-말단 자가-분열 활성을 시험하기 위하여, Cys1에서 Ala (C1A)로의 돌연변이를 모든 IN 분할된 인테인 (G1N(C1A), G8N(C1A), N1N(C1A) 및 I1N(C1A)) 내에 도입하였다. 이 점 돌연변이화된 구축물의 번호매김 및 도식적 표현을 각각 표 3 및 도 2A에 나타내었다. 대장균 균질화물로부터 정제된 F1 (IN(C1A)) 및 F2 (IC) 절편을 5~15 uM의 균등몰 농도로 혼합하고, 시간 경과 실험을 25℃에서 수행하였다. 놀랍게도, 천연의 분할된 인테인 Npu DnaE 및 Ssp DnaE에 대조적으로, 시험된 모든 4개의 분할된 인테인은 C-말단 자가-분열을 나타내었다. 모든 경우들에서, 크기에서 예측된 F3 (Trx-H6) 및 절제된 F4 (IntC) 절편에 대응되는 2 개의 신규 단백질 밴드가 관찰되었다 (도 2A). 25 ℃에서 C-말단 분열 반응의 수율 (% CP) 및 일정 속도 값을 하기 표에 나타내었다.
표 7: C-말단 분열 반응의 수율
인테인 온도 (℃) k(초-1) t1/2 (분) CP (%)
G1 25 5.95E-04 19.4 85-95
G8 25 9.50E-05 121.6 85-95
N1 25 2.70E-04 43 85-95
I1 25 3.65E-04 31.6 85-95
CP = 분열된 생성물
N-말단 엑스테인 (EN)에 대조적으로, C-말단 엑스테인 (EC)은 C-말단 자가-분열 반응에 간접적으로 참여한다. EC는 효율적인 C-말단 자가-분열 반응을 보장하기 위하여 IC 에 적절한 환경을 제공하는 것으로 생각된다 (Zettler J. 등, FEBS Letters 583:909~914 (2009); Lu L. 등, J. Chromatography A. 1218:2553~2560 (2011); Nichols N. 등 Biochemistry. 42:5301~5311 (2003); 및 Appleby 등, JBC 284:6194~6199 (2009)). 이러한 요구조건은, 엑스테인 서열이 자가-분열 반응 후에 단백질에 부착된 채로 남을 것이기 때문에, 몇몇 적용에서는 중요한 제한일 수 있다.
C-말단 분할된 인테인에 플랭킹하는 엑스테인 서열 (EC)의 5개 아미노산을 제거하였다. 대응 구축물 (G1C(Δext), G8C(Δext), N1C(Δext) 및 I1C(Δext), 표 1 참조)은 IC와 Trx 유전자 사이에 직접적인 접합점을 제공하였다. 클로닝 목적을 위하여, KpnI 분열 자리는 유지되었지만, 추가의 아미노산 GT의 존재는 엑스테인의 역할 분석에 영향을 미치지 않았으며, 이는 이들이 엑스테인 플랭킹 서열에 대해 상동성이 없으며,Trx 단백질의 일부로서 고려될 수 있기 때문이다.
Gp41.1 (G1), Gp41.8(G8), NrdJ1(N1) 및 IMPDH1(I1)에 대응하는 F1 (gpD-IN(C1A)) 및 F2 (IC-Trx) 절편들을 대장균 균질물로부터 정제하고, 5~15 μM의 균등
몰 농도로 혼합하였다. 시간 경과 실험들을 25℃에서 수행하였다. 놀랍게도, 4개의 모든 천연 분할된 인테인은 C-말단 자가-분열을 나타내었으며, F3 (Trx) 및 F4 (IC)와 일치하는 이동성을 갖는 2 개의 밴드가 인큐베이션 3시간 후 관찰되었다 (도 2B). 25 ℃에서 G1 및 N1의 C-말단 분열 반응의 수율 (%CP) 및 고정 속도를 결정하였다. 표 4 및 5의 비교는, 수율이 매우 높으며, EC의 5개의 아미노산의 존재에 독립적임을 증명한다. EC 절편의 부재는 고정 속도의 감소라는 결과를 초래하지만, 분할된 인테인 반응의 속도에서의 이러한 감소는 반응 온도를 37 또는 45 ℃로 상승시킴으로써 극복될 수 있다 (표 8). 이러한 비예측된 관찰은, 비록 이들 단백질이 호열성 미생물로부터 유래하지 않았음에도 불구하고, 이들 인테인이 고온에서 매우 효율적으로 작용할 수 있음을 나타낸다.
C-말단 분열 반응에서 유리된 F3 절편의 에드만 단백질 서열분석은 F3 절편에서 첫번째 아미노산이 GT였음을 증명하였다. 이는 C-말단 분열 반응이 적절하게 수행되었음을 증명하였다.
표 8: C-말단 분열 반응의 수율
인테인 온도 (℃) k(초-1) t1/2 (분) CP (%)
G1 25 9.00E-05 128 85-95
37 2.4E-04 48 85-95
45 5.2E-04 22 85-95
N1 25 4.00E-05 144 85-95
CP = 분열된 생성물
이들 결과들은 Npu DnaE (Zettler J. 등, FEBS Letters 583:909~914 (2009)), Ssp DnaE (Nichols N. 등, Biochemistry 42:5301~5311 (2003)), 및 Ssp DnaB (Lu L. 등, J. Chromatography A. 1218:2553~2560 (2011))에 대조적으로, Gp41.1 (G1), Gp41.8 (G8), NrdJ1 (N1) 및 IMPDH1 (I1)은 5 아미노산 C-엑스테인 플랭킹 절편 (EC)의 부재 하에서 C-말단 분열을 나타낼 수 있음을 증명하였다.
상기 설명된 실험에서, C-분열이 EC 부재 하에서 수행될 수 있음이 증명되었다. 그럼에도 불구하고, IC 후에 첫번째 아미노산의 성질의 C-분열 효율에 대한 영향은 분석되지 않았다. C-분열 적용을 위하여, 분열된 융합 단백질로부터 유리된 단백질은 그의 N-말단 끝 상에서 임의의 추가적인 아미노산을 포함하지 않는 것이 바람직하다. G1 분할된 인테인이 관심 대상의 단백질의 첫번째 아미노산에 관계없이 "깨끗한" 분열을 생산할 수 있는지의 여부를 결정하기 위하여, 새로운 수많은 구축물을 수행하였다. 이들 구축물에서, Trx 단백질의 첫번째 아미노산은 모든 아미노산 천연 변형체로 돌연변이되었으며, 그 후 G1의 C-말단 도메인에 직접적으로 클로닝되었다. 놀랍게도, 모든 변형체들은 현저한 C-분열 활성을 나타내었다.
각 구축물에 대하여 결정된 수율, 불변속도 및 t(1/2)를 표 9에 요약하였다.
표 9: 몇몇 G1 구축물에 대한 C-분열의 수율 및 동적 파라미터 (k 및 t(1/2))의 요약. *는 IC 후 첫번째 잔기에 대응한다. ** 세린은 G1에서 발견되는 천연 아미노산이다.
C-말단 분열
  수율 k t(1/2)
잔기* (%) 초-1
Met 85,63 8,70E-04 13,28
Cys 83,62 6,83E-04 16,91
Thr 87,51 5,73E-04 20,15
Arg 87,32 5,10E-04 22,65
Lys 86,71 5,10E-04 22,65
Ser** 89,40 4,83E-04 23,90
Gln 88,85 4,70E-04 24,58
His 71,13 4,47E-04 25,86
Ala 75,82 3,57E-04 32,39
Tyr 91,34 3,30E-04 35,01
Phe 72,60 3,07E-04 37,67
Asn 71,20 2,87E-04 40,30
Trp 94,12 2,80E-04 41,26
Val 86,68 2,73E-04 42,27
Leu 69,32 2,73E-04 42,27
Asp 68,61 2,47E-04 46,83
Ile 88,37 1,73E-04 66,65
Gly 75,18 1,37E-04 84,53
Glu 96,18 1,27E-04 91,20
Pro 57,82 6,00E-05 192,54
실시예 6: Gp41.1, Gp41.8, NrdJ1 및 IMPDH1 분할된 인테인을 이용한 N-말단 자가-분열.
몇몇 인테인 및 분할된 인테인에 대하여, 엑스테인으로부터 바로 상류에서 Asn의 돌연변이에 의한 C-말단 분열의 차단은 여전히 N-분열이 일어나도록 허용한다는 것이 설명되었다. 이 돌연변이를 Gp41.1, Gp41.8, NrdJ1 및 IMPDH1 분할된 인테인의 IC 도메인 내로 (각각, G1C(N→A), G8C(N→A), N1C(N→A) 및 I1C(N→A)), 엑스테인으로부터 바로 상류의 Asn을 Ala로 치환시킴으로써 이 돌연변이를 도입시켰다. 앞서 기재된 바와 같이, 이들 융합 단백질은 대장균에서 생산되고, 정제되고, 그 후 균등량의 대응 상대물 G1N, G8N, N1N 및 I1N과 함께, 앞서 설명된 것과 본질적으로 인큐베이션되었다. 놀랍게도, 두 개의 예측된 N-말단 자가-분열 생성물 줄 단지 하나만이 SDS-PAGE 겔 (IN-H6) 에서 명확히 관찰되었다는 관찰에 의하여 결론지어질 수 있는 바와 같이, N-말단 자가-분열 반응은 매우 비효율적이었다. ST-gpD-EN에 대응하는 제 2이 예측된 생산물도 관찰되었으나, 매우 희미한 밴드로서 관찰되었으며, 이는 N-말단 자가-분열 반응이 매우 비효율적이었음을 나타내었다. 또한, ST-gpD-EN에 결합된 아마도 C-말단 절편 (G1C(N→A), G8C(N→A), N1C(N→A) 또는 I1C(N→A))에 대응하는 중간 생성물이 주요 부산물로서 관찰되었다.
N-분열의 효율을 증가시키기 위하여, 미리 분석된 모든 단일한 돌연변이체들 (G1C(N→A), G8C(N→A), N1C(N→A) 및 I1C(N→A)) 상에서 제 2 회의 점 돌연변이를 수행하였다. EC의 첫번째 Ser 잔기는 Ala로 돌연변이시켰다. 생성된 새로운 이중 돌연변이체들 (G1C(N/S→A), G8C(N/S→A), N1C(N/S→A) 및 I1C(N/S→A))이 대장균에서 발현되었으며, 정제된 단백질은 균등 농도의 대응하는 상대물과 함께 25℃에서 인큐베이션되었다 (각각, G1N, G8N, N1N 및 I1N). 이러한 경우, SDS-PAGE에 의한 분석은 N-말단 자가-분열이 매우 효율적으로 일어났음을 보였다. 결론적으로, IC의 마지막 Asn 잔기에서 돌연변이와 조합된 EC의 첫번째 위치에서 Ser 잔기의 돌연변이와 조합된 EC 의 첫번째 위치에서 Ser 잔기의 돌연변이는 유효한 N-말단 분열을 가능하게 한다. 예로서, 정제된 G1C(N/S→A)의, G1N과의 인큐베이션은 5.7 E-4 초-1의 N-말단 분열 속도 및 70%의 수율을 결과로서 생성한다.
본 명세서에서 언급된 모든 간행물, 특허, 특허 출원, 인터넷 사이트, 및 접수 번호/데이터베이스 서열 (폴리뉴클레오타이드 및 폴리펩타이드 서열을 포함)은, 마치 각각의 개별적인 간행물, 특허, 특히 출원, 인터넷 사이트, 또는 접수 번호/데이터베이스 서열이 참고문헌으로 통합된 것으로 특이적으로 및 개별적으로 나타낸 것과 같은 정도의 모든 목적에 대하여 본 명세서에 그 전체가 참고문헌으로 통합된다.
발명의 상세한 설명 부분은 (개요 및 요약 부분은 아님) 특허청구범위를 해석하는데 이용되고자 하는 의도임이 이해되어야 한다. 개요 및 요약은, 본 발명자(들)에 의하여 고려되는 바와 같이, 본 발명의 하나 이상, 그러나 모든 실시양태들은 아닌 실시양태를 설명할 수 있으며, 따라서 이들은 본 발명 및 첨부된 특허청구범위를 어떤 방식으로든 제한하고자 하지 않는다.
특정 실시양태의 상기 설명은 본 발명의 일반 성질을 완전히 밝혀서, 다른 사람들이 당 기술분야의 지식을 적용함으로써 본 발명의 일반적인 개념으로부터 벗어나지 않으면서, 과도한 실험 없이 그러한 특이적 실시양태를 각종 적용을 위해 쉽게 변경 및/또는 적응화할 수 있을 것이다. 따라서, 그러한 적응화 및 변경은, 본 명세서에 제시된 교시 및 지침에 근거하여, 개시된 실시양태의 의미 및 균등물의 범위 내에 있도록 의도된다. 본 명세서에서 어법 또는 전문용어는 설명의 목적이지 제한의 목적이 아닌 것으로 이해되어야 하며, 본 명세서의 전문용어 또는 어법은 교시 및 지침의 견지에서 당업자에 의해 해석되어지는 것과 같다.
본 발명의 폭 및 범주는 상기 설명된 임의의 예시적인 실시양태에 의해 제한되어서는 안되고, 하기 특허청구범위 및 그의 균등물에 의해서만 정의되어야만 한다.
SEQUENCE LISTING <110> ERA BIOTECH, S.A. <120> SPLIT INTEINS AND USES THEREOF <130> P7749PC00 <150> US 61/540101 <151> 2011-09-28 <150> EP12171848 <151> 2012-06-13 <160> 108 <170> PatentIn version 3.5 <210> 1 <211> 678 <212> DNA <213> Artificial Sequence <220> <223> GP-41.1 N-fragment DNA <400> 1 ccatggccag ttggagccac ccgcagttcg aaaaagcgag caaagaaacc tttacccatt 60 accagccgca gggcaacagt gacccggctc ataccgcaac cgcgcccggc ggattgagtg 120 cgaaagcgcc tgcaatgacc ccgctgatgc tggacacctc cagccgtaag ctggttgcgt 180 gggatggcac caccgacggt gctgccgttg gcattcttgc ggttgctgct gaccagacca 240 gcaccacgct gacgttctac aagtccggca cgttccgtta tgaggatgtg ctctggccgg 300 aggctgccag cgacgagacg aaaaaacgga ccgcgtttgc cggaacggca atcagcatcg 360 ttggatccac ccgtagcggt tattgcctgg acctgaaaac ccaggtgcag accccgcagg 420 gcatgaagga gattagcaac attcaggtgg gcgacctggt tctgagcaac accggctata 480 atgaggtgct gaacgtgttc ccgaagagca aaaagaagag ctacaagatc acgctggagg 540 acggcaagga aatcatttgc agcgaagaac atctgtttcc gacccagacc ggcgaaatga 600 atattagcgg tggcctgaaa gaaggcatgt gcctgtatgt gaaagagggc ggtcaccacc 660 atcatcacca ctaagctt 678 <210> 2 <211> 223 <212> PRT <213> Artificial Sequence <220> <223> GP-41.1 N-fragment Protein <400> 2 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Thr Arg Ser Gly Tyr Cys 115 120 125 Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu Ile 130 135 140 Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr Asn 145 150 155 160 Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys Ile 165 170 175 Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu Phe 180 185 190 Pro Thr Gln Thr Gly Glu Met Asn Ile Ser Gly Gly Leu Lys Glu Gly 195 200 205 Met Cys Leu Tyr Val Lys Glu Gly Gly His His His His His His 210 215 220 <210> 3 <211> 88 <212> PRT <213> Artificial Sequence <220> <223> GP 41.1 (InteinN) <400> 3 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu 1 5 10 15 Ile Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr 20 25 30 Asn Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys 35 40 45 Ile Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu 50 55 60 Phe Pro Thr Gln Thr Gly Glu Met Asn Ile Ser Gly Gly Leu Lys Glu 65 70 75 80 Gly Met Cys Leu Tyr Val Lys Glu 85 <210> 4 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> GP 41.1 (ExteinN) <400> 4 Thr Arg Ser Gly Tyr 1 5 <210> 5 <211> 520 <212> DNA <213> Artificial Sequence <220> <223> GP41.1 C-fragment DNA <400> 5 catatgggca aaaacagcat gatgctgaag aagatcctga agatcgagga gctggacgag 60 cgcgagctga ttgatatcga agtgagcggc aaccacctgt tctacgccaa tgacattctg 120 acgcataata gcagcagcga tgtgggtacc ggatctgata aaattattca tctgactgat 180 gattcttttg atactgatgt acttaaggca gatggtgcaa tcctggttga tttctgggca 240 cactggtgcg gtccgtgcaa aatgatcgct ccgattctgg atgaaatcgc tgacgaatat 300 cagggcaaac tgaccgttgc aaaactgaac atcgatcaca acccgggcac tgcgccgaaa 360 tatggcatcc gtggtatccc gactctgctg ctgttcaaaa acggtgaagt ggcggcaacc 420 aaagtgggtg cactgtctaa aggtcagttg aaagagttcc tcgacgctaa cctggccggc 480 tctgaattca gatctcatca ccatcaccat cactaagctt 520 <210> 6 <211> 170 <212> PRT <213> Artificial Sequence <220> <223> GP41.1 C-fragment Protein <400> 6 Met Gly Lys Asn Ser Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu 1 5 10 15 Leu Asp Glu Arg Glu Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu 20 25 30 Phe Tyr Ala Asn Asp Ile Leu Thr His Asn Ser Ser Ser Asp Val Gly 35 40 45 Thr Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr 50 55 60 Asp Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His 65 70 75 80 Trp Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala 85 90 95 Asp Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His 100 105 110 Asn Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu 115 120 125 Leu Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu 130 135 140 Ser Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser 145 150 155 160 Glu Phe Arg Ser His His His His His His 165 170 <210> 7 <211> 37 <212> PRT <213> Artificial Sequence <220> <223> GP 41.1 (InteinC) <400> 7 Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu Leu Asp Glu Arg Glu 1 5 10 15 Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu Phe Tyr Ala Asn Asp 20 25 30 Ile Leu Thr His Asn 35 <210> 8 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> GP 41.1 (ExteinC) <400> 8 Ser Ser Ser Asp Val 1 5 <210> 9 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> E coli enhancer <400> 9 Met Gly Lys Asn Ser 1 5 <210> 10 <211> 681 <212> DNA <213> Artificial Sequence <220> <223> GP 41.8 N-fragment DNA <400> 10 ccatggccag ttggagccac ccgcagttcg aaaaagcgag caaagaaacc tttacccatt 60 accagccgca gggcaacagt gacccggctc ataccgcaac cgcgcccggc ggattgagtg 120 cgaaagcgcc tgcaatgacc ccgctgatgc tggacacctc cagccgtaag ctggttgcgt 180 gggatggcac caccgacggt gctgccgttg gcattcttgc ggttgctgct gaccagacca 240 gcaccacgct gacgttctac aagtccggca cgttccgtta tgaggatgtg ctctggccgg 300 aggctgccag cgacgagacg aaaaaacgga ccgcgtttgc cggaacggca atcagcatcg 360 ttggatccag ccaactgaat cgttgcctga gcctggatac gatggttgtg accaatggca 420 aagcgattga gattcgtgat gtgaaagtgg gcgattggct ggaaagcgaa tgtggcccgg 480 tgcaggtgac cgaagtgctg ccgattatca agcagccggt gtttgaaatt gtgctgaaga 540 gcggcaaaaa gatccgtgtg agcgcgaatc ataaattccc gaccaaagat ggcctgaaaa 600 ccatcaatag cggtctgaaa gttggcgact tcctgcgtag ccgtgcgaaa ggcggccatc 660 atcaccacca tcactaagct t 681 <210> 11 <211> 224 <212> PRT <213> Artificial Sequence <220> <223> GP 41.8 N-fragment PROTEIN <400> 11 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Ser Gln Leu Asn Arg Cys 115 120 125 Leu Ser Leu Asp Thr Met Val Val Thr Asn Gly Lys Ala Ile Glu Ile 130 135 140 Arg Asp Val Lys Val Gly Asp Trp Leu Glu Ser Glu Cys Gly Pro Val 145 150 155 160 Gln Val Thr Glu Val Leu Pro Ile Ile Lys Gln Pro Val Phe Glu Ile 165 170 175 Val Leu Lys Ser Gly Lys Lys Ile Arg Val Ser Ala Asn His Lys Phe 180 185 190 Pro Thr Lys Asp Gly Leu Lys Thr Ile Asn Ser Gly Leu Lys Val Gly 195 200 205 Asp Phe Leu Arg Ser Arg Ala Lys Gly Gly His His His His His His 210 215 220 <210> 12 <211> 89 <212> PRT <213> Artificial Sequence <220> <223> GP41.8 (Intein-N) <400> 12 Cys Leu Ser Leu Asp Thr Met Val Val Thr Asn Gly Lys Ala Ile Glu 1 5 10 15 Ile Arg Asp Val Lys Val Gly Asp Trp Leu Glu Ser Glu Cys Gly Pro 20 25 30 Val Gln Val Thr Glu Val Leu Pro Ile Ile Lys Gln Pro Val Phe Glu 35 40 45 Ile Val Leu Lys Ser Gly Lys Lys Ile Arg Val Ser Ala Asn His Lys 50 55 60 Phe Pro Thr Lys Asp Gly Leu Lys Thr Ile Asn Ser Gly Leu Lys Val 65 70 75 80 Gly Asp Phe Leu Arg Ser Arg Ala Lys 85 <210> 13 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> GP41.8 (Extein-N) <400> 13 Ser Gln Leu Asn Arg 1 5 <210> 14 <211> 529 <212> DNA <213> Artificial Sequence <220> <223> GP41.8 C-term DNA <400> 14 catatgtgcg agatcttcga gaacgagatc gactgggatg aaatcgcgag cattgagtat 60 gtgggcgttg aggagaccat tgacatcaac gtgacgaacg accgcctgtt cttcgcaaac 120 ggcattctga cccataatag cgcggtggaa gagggtaccg gatctgataa aattattcat 180 ctgactgatg attcttttga tactgatgta cttaaggcag atggtgcaat cctggttgat 240 ttctgggcac actggtgcgg tccgtgcaaa atgatcgctc cgattctgga tgaaatcgct 300 gacgaatatc agggcaaact gaccgttgca aaactgaaca tcgatcacaa cccgggcact 360 gcgccgaaat atggcatccg tggtatcccg actctgctgc tgttcaaaaa cggtgaagtg 420 gcggcaacca aagtgggtgc actgtctaaa ggtcagttga aagagttcct cgacgctaac 480 ctggccggct ctgaattcag atctcatcac catcaccatc actaagctt 529 <210> 15 <211> 173 <212> PRT <213> Artificial Sequence <220> <223> GP41.8 PROTEIN <400> 15 Met Cys Glu Ile Phe Glu Asn Glu Ile Asp Trp Asp Glu Ile Ala Ser 1 5 10 15 Ile Glu Tyr Val Gly Val Glu Glu Thr Ile Asp Ile Asn Val Thr Asn 20 25 30 Asp Arg Leu Phe Phe Ala Asn Gly Ile Leu Thr His Asn Ser Ala Val 35 40 45 Glu Glu Gly Thr Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser 50 55 60 Phe Asp Thr Asp Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe 65 70 75 80 Trp Ala His Trp Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp 85 90 95 Glu Ile Ala Asp Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn 100 105 110 Ile Asp His Asn Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile 115 120 125 Pro Thr Leu Leu Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val 130 135 140 Gly Ala Leu Ser Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu 145 150 155 160 Ala Gly Ser Glu Phe Arg Ser His His His His His His 165 170 <210> 16 <211> 45 <212> PRT <213> Artificial Sequence <220> <223> GP41.8 (InteinC) <400> 16 Met Cys Glu Ile Phe Glu Asn Glu Ile Asp Trp Asp Glu Ile Ala Ser 1 5 10 15 Ile Glu Tyr Val Gly Val Glu Glu Thr Ile Asp Ile Asn Val Thr Asn 20 25 30 Asp Arg Leu Phe Phe Ala Asn Gly Ile Leu Thr His Asn 35 40 45 <210> 17 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> GP41.8 (ExteinC) <400> 17 Ser Ala Val Glu Glu 1 5 <210> 18 <211> 729 <212> DNA <213> Artificial Sequence <220> <223> NrdJ1 N-term DNA <400> 18 ccatggccag ttggagccac ccgcagttcg aaaaagcgag caaagaaacc tttacccatt 60 accagccgca gggcaacagt gacccggctc ataccgcaac cgcgcccggc ggattgagtg 120 cgaaagcgcc tgcaatgacc ccgctgatgc tggacacctc cagccgtaag ctggttgcgt 180 gggatggcac caccgacggt gctgccgttg gcattcttgc ggttgctgct gaccagacca 240 gcaccacgct gacgttctac aagtccggca cgttccgtta tgaggatgtg ctctggccgg 300 aggctgccag cgacgagacg aaaaaacgga ccgcgtttgc cggaacggca atcagcatcg 360 ttggatccgg caccaatccg tgttgcctgg tgggcagcag cgagatcatc acccgtaact 420 acggcaaaac cacgatcaaa gaggtggttg agatcttcga caacgacaag aatatccagg 480 tgctggcgtt caacacccac acggacaata tcgaatgggc cccaattaaa gcggcgcaac 540 tgacccgtcc aaacgcagag ctggtggaac tggaaattaa caccctgcat ggcgtgaaaa 600 ccatccgttg caccccggat catccagtgt ataccaaaaa tcgtgactat gtgcgcgccg 660 atgagctgac cgatgatgat gaactggtgg tggcgattgg cggccatcac caccatcacc 720 actaagctt 729 <210> 19 <211> 240 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 N-term PROTEIN <400> 19 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Gly Thr Asn Pro Cys Cys 115 120 125 Leu Val Gly Ser Ser Glu Ile Ile Thr Arg Asn Tyr Gly Lys Thr Thr 130 135 140 Ile Lys Glu Val Val Glu Ile Phe Asp Asn Asp Lys Asn Ile Gln Val 145 150 155 160 Leu Ala Phe Asn Thr His Thr Asp Asn Ile Glu Trp Ala Pro Ile Lys 165 170 175 Ala Ala Gln Leu Thr Arg Pro Asn Ala Glu Leu Val Glu Leu Glu Ile 180 185 190 Asn Thr Leu His Gly Val Lys Thr Ile Arg Cys Thr Pro Asp His Pro 195 200 205 Val Tyr Thr Lys Asn Arg Asp Tyr Val Arg Ala Asp Glu Leu Thr Asp 210 215 220 Asp Asp Glu Leu Val Val Ala Ile Gly Gly His His His His His His 225 230 235 240 <210> 20 <211> 105 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 (InteinN) <400> 20 Cys Leu Val Gly Ser Ser Glu Ile Ile Thr Arg Asn Tyr Gly Lys Thr 1 5 10 15 Thr Ile Lys Glu Val Val Glu Ile Phe Asp Asn Asp Lys Asn Ile Gln 20 25 30 Val Leu Ala Phe Asn Thr His Thr Asp Asn Ile Glu Trp Ala Pro Ile 35 40 45 Lys Ala Ala Gln Leu Thr Arg Pro Asn Ala Glu Leu Val Glu Leu Glu 50 55 60 Ile Asn Thr Leu His Gly Val Lys Thr Ile Arg Cys Thr Pro Asp His 65 70 75 80 Pro Val Tyr Thr Lys Asn Arg Asp Tyr Val Arg Ala Asp Glu Leu Thr 85 90 95 Asp Asp Asp Glu Leu Val Val Ala Ile 100 105 <210> 21 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 (ExteinN) <400> 21 Gly Thr Asn Pro Cys 1 5 <210> 22 <211> 514 <212> DNA <213> Artificial Sequence <220> <223> NrdJ1 C-term DNA <400> 22 catatggaag cgaagaccta catcggtaaa ctgaagagcc gcaagattgt tagcaacgag 60 gacacctacg atatccagac cagcacgcat aatttctttg cgaacgacat cctggtgcac 120 aacagcgaaa ttgtgctggg taccggatct gataaaatta ttcatctgac tgatgattct 180 tttgatactg atgtacttaa ggcagatggt gcaatcctgg ttgatttctg ggcacactgg 240 tgcggtccgt gcaaaatgat cgctccgatt ctggatgaaa tcgctgacga atatcagggc 300 aaactgaccg ttgcaaaact gaacatcgat cacaacccgg gcactgcgcc gaaatatggc 360 atccgtggta tcccgactct gctgctgttc aaaaacggtg aagtggcggc aaccaaagtg 420 ggtgcactgt ctaaaggtca gttgaaagag ttcctcgacg ctaacctggc cggctctgaa 480 ttcagatctc atcaccatca ccatcactaa gctt 514 <210> 23 <211> 168 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 C-term PROTEIN <400> 23 Met Glu Ala Lys Thr Tyr Ile Gly Lys Leu Lys Ser Arg Lys Ile Val 1 5 10 15 Ser Asn Glu Asp Thr Tyr Asp Ile Gln Thr Ser Thr His Asn Phe Phe 20 25 30 Ala Asn Asp Ile Leu Val His Asn Ser Glu Ile Val Leu Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 24 <211> 40 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 (Inteinc) <400> 24 Met Glu Ala Lys Thr Tyr Ile Gly Lys Leu Lys Ser Arg Lys Ile Val 1 5 10 15 Ser Asn Glu Asp Thr Tyr Asp Ile Gln Thr Ser Thr His Asn Phe Phe 20 25 30 Ala Asn Asp Ile Leu Val His Asn 35 40 <210> 25 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 (Exteinc) <400> 25 Ser Glu Ile Val Leu 1 5 <210> 26 <211> 681 <212> DNA <213> Artificial Sequence <220> <223> DNA-E N-term DNA <400> 26 ccatggccag ttggagccac ccgcagttcg aaaaagcgag caaagaaacc tttacccatt 60 accagccgca gggcaacagt gacccggctc ataccgcaac cgcgcccggc ggattgagtg 120 cgaaagcgcc tgcaatgacc ccgctgatgc tggacacctc cagccgtaag ctggttgcgt 180 gggatggcac caccgacggt gctgccgttg gcattcttgc ggttgctgct gaccagacca 240 gcaccacgct gacgttctac aagtccggca cgttccgtta tgaggatgtg ctctggccgg 300 aggctgccag cgacgagacg aaaaaacgga ccgcgtttgc cggaacggca atcagcatcg 360 ttggatcctg tttaagctat gaaacggaaa tattgacagt agaatatgga ttattaccga 420 ttggtaaaat tgtagaaaag cgcatcgaat gtactgttta tagcgttgat aataatggaa 480 atatttatac acaacctgta gcacaatggc acgatcgcgg agaacaagag gtgtttgagt 540 attgtttgga agatggttca ttgattcggg caacaaaaga ccataagttt atgactgttg 600 atggtcaaat gttgccaatt gatgaaatat ttgaacgtga attggatttg atgcgggttg 660 ataatttgcc gaattaagct t 681 <210> 27 <211> 224 <212> PRT <213> Artificial Sequence <220> <223> DNA-E N-term PROTEIN <400> 27 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Cys Leu Ser Tyr Glu Thr 115 120 125 Glu Ile Leu Thr Val Glu Tyr Gly Leu Leu Pro Ile Gly Lys Ile Val 130 135 140 Glu Lys Arg Ile Glu Cys Thr Val Tyr Ser Val Asp Asn Asn Gly Asn 145 150 155 160 Ile Tyr Thr Gln Pro Val Ala Gln Trp His Asp Arg Gly Glu Gln Glu 165 170 175 Val Phe Glu Tyr Cys Leu Glu Asp Gly Ser Leu Ile Arg Ala Thr Lys 180 185 190 Asp His Lys Phe Met Thr Val Asp Gly Gln Met Leu Pro Ile Asp Glu 195 200 205 Ile Phe Glu Arg Glu Leu Asp Leu Met Arg Val Asp Asn Leu Pro Asn 210 215 220 <210> 28 <211> 102 <212> PRT <213> Artificial Sequence <220> <223> DNA-E (Inteinn) <400> 28 Cys Leu Ser Tyr Glu Thr Glu Ile Leu Thr Val Glu Tyr Gly Leu Leu 1 5 10 15 Pro Ile Gly Lys Ile Val Glu Lys Arg Ile Glu Cys Thr Val Tyr Ser 20 25 30 Val Asp Asn Asn Gly Asn Ile Tyr Thr Gln Pro Val Ala Gln Trp His 35 40 45 Asp Arg Gly Glu Gln Glu Val Phe Glu Tyr Cys Leu Glu Asp Gly Ser 50 55 60 Leu Ile Arg Ala Thr Lys Asp His Lys Phe Met Thr Val Asp Gly Gln 65 70 75 80 Met Leu Pro Ile Asp Glu Ile Phe Glu Arg Glu Leu Asp Leu Met Arg 85 90 95 Val Asp Asn Leu Pro Asn 100 <210> 29 <211> 496 <212> DNA <213> Artificial Sequence <220> <223> DNA-E C-term DNA <400> 29 catatgatca aaatagccac acgtaaatat ttaggcaaac aaaatgtcta tgacattgga 60 gttgagcgcg accataattt tgcactcaaa aatggcttca tagcttctaa ttgtttcaat 120 ggtaccggat ctgataaaat tattcatctg actgatgatt cttttgatac tgatgtactt 180 aaggcagatg gtgcaatcct ggttgatttc tgggcacact ggtgcggtcc gtgcaaaatg 240 atcgctccga ttctggatga aatcgctgac gaatatcagg gcaaactgac cgttgcaaaa 300 ctgaacatcg atcacaaccc gggcactgcg ccgaaatatg gcatccgtgg tatcccgact 360 ctgctgctgt tcaaaaacgg tgaagtggcg gcaaccaaag tgggtgcact gtctaaaggt 420 cagttgaaag agttcctcga cgctaacctg gccggctctg aattcagatc tcatcaccat 480 caccatcact aagctt 496 <210> 30 <211> 162 <212> PRT <213> Artificial Sequence <220> <223> DNA-E C-term PROTEIN <400> 30 Met Ile Lys Ile Ala Thr Arg Lys Tyr Leu Gly Lys Gln Asn Val Tyr 1 5 10 15 Asp Ile Gly Val Glu Arg Asp His Asn Phe Ala Leu Lys Asn Gly Phe 20 25 30 Ile Ala Ser Asn Cys Phe Asn Gly Thr Gly Ser Asp Lys Ile Ile His 35 40 45 Leu Thr Asp Asp Ser Phe Asp Thr Asp Val Leu Lys Ala Asp Gly Ala 50 55 60 Ile Leu Val Asp Phe Trp Ala His Trp Cys Gly Pro Cys Lys Met Ile 65 70 75 80 Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu Tyr Gln Gly Lys Leu Thr 85 90 95 Val Ala Lys Leu Asn Ile Asp His Asn Pro Gly Thr Ala Pro Lys Tyr 100 105 110 Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu Phe Lys Asn Gly Glu Val 115 120 125 Ala Ala Thr Lys Val Gly Ala Leu Ser Lys Gly Gln Leu Lys Glu Phe 130 135 140 Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe Arg Ser His His His His 145 150 155 160 His His <210> 31 <211> 36 <212> PRT <213> Artificial Sequence <220> <223> DNA-E (InteinC) <400> 31 Met Ile Lys Ile Ala Thr Arg Lys Tyr Leu Gly Lys Gln Asn Val Tyr 1 5 10 15 Asp Ile Gly Val Glu Arg Asp His Asn Phe Ala Leu Lys Asn Gly Phe 20 25 30 Ile Ala Ser Asn 35 <210> 32 <211> 717 <212> DNA <213> Artificial Sequence <220> <223> IMPDH N-term DNA <400> 32 ccatggccag ttggagccac ccgcagttcg aaaaagcgag caaagaaacc tttacccatt 60 accagccgca gggcaacagt gacccggctc ataccgcaac cgcgcccggc ggattgagtg 120 cgaaagcgcc tgcaatgacc ccgctgatgc tggacacctc cagccgtaag ctggttgcgt 180 gggatggcac caccgacggt gctgccgttg gcattcttgc ggttgctgct gaccagacca 240 gcaccacgct gacgttctac aagtccggca cgttccgtta tgaggatgtg ctctggccgg 300 aggctgccag cgacgagacg aaaaaacgga ccgcgtttgc cggaacggca atcagcatcg 360 ttggatccgg cattggcggt ggctgctttg tgccgggcac cctggtgaac acggaaaacg 420 gcctgaagaa aatcgaggaa attaaggtgg gcgacaaggt gttcagccat accggcaaac 480 tgcaggaagt tgtggacacg ctgatctttg accgcgacga agaaatcatc agcattaacg 540 gcatcgactg cacgaaaaac cacgagttct acgtgatcga caaggagaac gcgaaccgtg 600 tgaacgaaga caatatccat ctgttcgcgc gttgggttca cgcggaggag ctggacatga 660 aaaaacatct gctgattgag ctggaaggcg gccatcatca ccaccaccac taagctt 717 <210> 33 <211> 236 <212> PRT <213> Artificial Sequence <220> <223> IMPDH N-term PROTEIN <400> 33 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Gly Ile Gly Gly Gly Cys 115 120 125 Phe Val Pro Gly Thr Leu Val Asn Thr Glu Asn Gly Leu Lys Lys Ile 130 135 140 Glu Glu Ile Lys Val Gly Asp Lys Val Phe Ser His Thr Gly Lys Leu 145 150 155 160 Gln Glu Val Val Asp Thr Leu Ile Phe Asp Arg Asp Glu Glu Ile Ile 165 170 175 Ser Ile Asn Gly Ile Asp Cys Thr Lys Asn His Glu Phe Tyr Val Ile 180 185 190 Asp Lys Glu Asn Ala Asn Arg Val Asn Glu Asp Asn Ile His Leu Phe 195 200 205 Ala Arg Trp Val His Ala Glu Glu Leu Asp Met Lys Lys His Leu Leu 210 215 220 Ile Glu Leu Glu Gly Gly His His His His His His 225 230 235 <210> 34 <211> 101 <212> PRT <213> Artificial Sequence <220> <223> IMPDH (Inteinn) <400> 34 Cys Phe Val Pro Gly Thr Leu Val Asn Thr Glu Asn Gly Leu Lys Lys 1 5 10 15 Ile Glu Glu Ile Lys Val Gly Asp Lys Val Phe Ser His Thr Gly Lys 20 25 30 Leu Gln Glu Val Val Asp Thr Leu Ile Phe Asp Arg Asp Glu Glu Ile 35 40 45 Ile Ser Ile Asn Gly Ile Asp Cys Thr Lys Asn His Glu Phe Tyr Val 50 55 60 Ile Asp Lys Glu Asn Ala Asn Arg Val Asn Glu Asp Asn Ile His Leu 65 70 75 80 Phe Ala Arg Trp Val His Ala Glu Glu Leu Asp Met Lys Lys His Leu 85 90 95 Leu Ile Glu Leu Glu 100 <210> 35 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> IMPDH (Exteinn) <400> 35 Gly Ile Gly Gly Gly 1 5 <210> 36 <211> 514 <212> DNA <213> Artificial Sequence <220> <223> IMPDH C-term DNA <400> 36 catatgaagt tcaagctgaa ggagatcacg agcatcgaga ccaagcacta caagggcaag 60 gtgcacgatc tgaccgtgaa tcaggaccac agctataacg tgcgcggcac cgtggtgcat 120 aatagcattt gcagcaccgg taccggatct gataaaatta ttcatctgac tgatgattct 180 tttgatactg atgtacttaa ggcagatggt gcaatcctgg ttgatttctg ggcacactgg 240 tgcggtccgt gcaaaatgat cgctccgatt ctggatgaaa tcgctgacga atatcagggc 300 aaactgaccg ttgcaaaact gaacatcgat cacaacccgg gcactgcgcc gaaatatggc 360 atccgtggta tcccgactct gctgctgttc aaaaacggtg aagtggcggc aaccaaagtg 420 ggtgcactgt ctaaaggtca gttgaaagag ttcctcgacg ctaacctggc cggctctgaa 480 ttcagatctc atcaccatca ccatcactaa gctt 514 <210> 37 <211> 168 <212> PRT <213> Artificial Sequence <220> <223> IMPDH C-term PROTEIN <400> 37 Met Lys Phe Lys Leu Lys Glu Ile Thr Ser Ile Glu Thr Lys His Tyr 1 5 10 15 Lys Gly Lys Val His Asp Leu Thr Val Asn Gln Asp His Ser Tyr Asn 20 25 30 Val Arg Gly Thr Val Val His Asn Ser Ile Cys Ser Thr Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 38 <211> 40 <212> PRT <213> Artificial Sequence <220> <223> IMPDH (InteinC) <400> 38 Met Lys Phe Lys Leu Lys Glu Ile Thr Ser Ile Glu Thr Lys His Tyr 1 5 10 15 Lys Gly Lys Val His Asp Leu Thr Val Asn Gln Asp His Ser Tyr Asn 20 25 30 Val Arg Gly Thr Val Val His Asn 35 40 <210> 39 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> IMPDH (ExteinC) <400> 39 Ser Ile Cys Ser Thr 1 5 <210> 40 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Strep taq <400> 40 Trp Ser His Pro Gln Phe Glu Lys 1 5 <210> 41 <211> 107 <212> PRT <213> Artificial Sequence <220> <223> gpD <400> 41 Lys Glu Thr Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala 1 5 10 15 His Thr Ala Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met 20 25 30 Thr Pro Leu Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp 35 40 45 Gly Thr Thr Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp 50 55 60 Gln Thr Ser Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr 65 70 75 80 Glu Asp Val Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg 85 90 95 Thr Ala Phe Ala Gly Thr Ala Ile Ser Ile Val 100 105 <210> 42 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> H6 <400> 42 His His His His His His 1 5 <210> 43 <211> 111 <212> PRT <213> Artificial Sequence <220> <223> Trx <400> 43 Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp 1 5 10 15 Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp 20 25 30 Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp 35 40 45 Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn 50 55 60 Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu 65 70 75 80 Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser 85 90 95 Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser 100 105 110 <210> 44 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Sequence ChsXcplhXTXXG comprised in the N1 box <220> <221> VARIANT <222> (2)..(2) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (3)..(3) <223> /note = "Xaa is a small amino acid" <220> <221> VARIANT <222> (4)..(4) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (5)..(5) <223> /note = "Xaa is a charged amino acid" <220> <221> VARIANT <222> (6)..(6) <223> /note = "Xaa is a polar amino acid" <220> <221> VARIANT <222> (7)..(7) <223> /note = "Xaa is a large amino acid" <220> <221> VARIANT <222> (8)..(8) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (9)..(9) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (11)..(12) <223> /note = "Xaa is any amino acid" <400> 44 Cys Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Thr Xaa Xaa Gly 1 5 10 <210> 45 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein N-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Cys" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Leu" /replace = "Phe" /replace = "Val" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Ser" /replace = "Thr" /replace = "Val" /replace = "Ala" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Leu" /replace = "Pro" /replace = "Gly" /replace = "Tyr" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Asp" /replace = "Glu" /replace = "Lys" /replace = "Gly" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Thr" /replace = "Ala" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Glu" /replace = "Gln" /replace = "Leu" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Met" /replace = "Lys" /replace = "Thr" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Ile" /replace = "Val" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Leu" /replace = "Gln" /replace = "Val" /replace = "Asn" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Lys" /replace = "Asp" /replace = "Thr" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "Thr" /replace = "Ile" /replace = "Val" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Val" /replace = "Pro" /replace = "Gln" /replace = "Asn" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Glu" /replace = "Lys" /replace = "Leu" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Glu" /replace = "Gln" /replace = "Gly" /replace = "Asn" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Tyr" /replace = "Ile" /replace = "Glu" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Tyr" /replace = "Gly" /replace = "Lys" /replace = "Pro" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Asp" <400> 45 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 <210> 46 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein N-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Cys" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Leu" /replace = "Phe" /replace = "Val" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Ser" /replace = "Thr" /replace = "Val" /replace = "Ala" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Leu" /replace = "Pro" /replace = "Gly" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Asp" /replace = "Lys" /replace = "Gly" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Thr" /replace = "Ala" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Gln" /replace = "Leu" /replace = "Met" /replace = "Lys" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Thr" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Ile" /replace = "Val" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Gln" /replace = "Val" /replace = "Asn" /replace = "Lys" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Asp" /replace = "Thr" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "Thr" /replace = "Ile" /replace = "Val" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Pro" /replace = "Gln" /replace = "Asn" /replace = "Glu" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Lys" /replace = "Leu" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Glu" /replace = "Gln" /replace = "Gly" /replace = "Asn" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Tyr" /replace = "Ile" /replace = "Glu" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Gly" /replace = "Lys" /replace = "Pro" /replace = "Asp" <400> 46 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 <210> 47 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Sequence GXXhXhTXaHXhhTX comprised in the N3 box <220> <221> VARIANT <222> (2)..(3) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (4)..(4) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (5)..(5) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (6)..(6) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (8)..(8) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (9)..(9) <223> /note = "Xaa is an acidic amino acid" <220> <221> VARIANT <222> (11)..(11) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (12)..(13) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (15)..(15) <223> /note = "Xaa is any amino acid" <400> 47 Gly Xaa Xaa Xaa Xaa Xaa Thr Xaa Xaa His Xaa Xaa Xaa Thr Xaa 1 5 10 15 <210> 48 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein N-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Gly" /replace = "Ala" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Ser" /replace = "Lys" /replace = "Gln" /replace = "Asn" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Phe" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Leu" /replace = "Glu" /replace = "Lys" /replace = "Arg" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Ile" /replace = "Leu" /replace = "Val" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Arg" /replace = "Ile" /replace = "Val" /replace = "Asn" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Ala" /replace = "Cys" /replace = "Val" /replace = "Glu" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Thr" /replace = "Ser" /replace = "Asp" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Lys" /replace = "Glu" /replace = "Ala" /replace = "Pro" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Asn" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Asp" /replace = "Glu" /replace = "Asn" /replace = "Ile" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "His" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Lys" /replace = "Leu" /replace = "Gln" /replace = "Met" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Phe" /replace = "Val" /replace = "Ile" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Met" /replace = "Pro" /replace = "Phe" /replace = "Tyr" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Ala" <220> <221> VARIANT <222> (14)..(14) <223> /replace = "Thr" <220> <221> VARIANT <222> (15)..(15) <223> /replace = "Val" /replace = "Gln" /replace = "Lys" /replace = "Leu" <400> 48 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 15 <210> 49 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein N-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Gly" /replace = "Ala" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Lys" /replace = "Gln" /replace = "Asn" /replace = "Phe" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Glu" /replace = "Lys" /replace = "Arg" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Ile" /replace = "Leu" /replace = "Val" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Arg" /replace = "Ile" /replace = "Val" /replace = "Asn" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Cys" /replace = "Val" /replace = "Glu" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Thr" /replace = "Ser" /replace = "Asp" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Glu" /replace = "Ala" /replace = "Pro" /replace = "Asn" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Asp" /replace = "Glu" /replace = "Asn" /replace = "Ile" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "His" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Lys" /replace = "Leu" /replace = "Gln" /replace = "Met" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Phe" /replace = "Val" /replace = "Ile" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Pro" /replace = "Phe" /replace = "Tyr" /replace = "Ala" <220> <221> VARIANT <222> (14)..(14) <223> /replace = "Thr" <220> <221> VARIANT <222> (15)..(15) <223> /replace = "Gln" /replace = "Lys" /replace = "Leu" <400> 49 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 15 <210> 50 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Sequence XhhDIpVXXpHXFX comprised in the C1 box <220> <221> VARIANT <222> (1)..(1) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (2)..(3) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (6)..(6) <223> /note = "Xaa is a polar amino acid" <220> <221> VARIANT <222> (8)..(9) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (10)..(10) <223> /note = "Xaa is a polar amino acid" <220> <221> VARIANT <222> (12)..(12) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (14)..(14) <223> /note = "Xaa is any amino acid" <400> 50 Xaa Xaa Xaa Asp Ile Xaa Val Xaa Xaa Xaa His Xaa Phe Xaa 1 5 10 <210> 51 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein C-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Asn" /replace = "Glu" /replace = "Leu" /replace = "Lys" <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Gln" /replace = "Asp" /replace = "Pro" /replace = "Arg" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Val" /replace = "Leu" /replace = "Thr" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Tyr" /replace = "Ile" /replace = "Val" /replace = "His" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Phe" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Asp" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Ile" /replace = "Leu" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Gly" /replace = "Glu" /replace = "Thr" /replace = "Gln" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Lys" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Val" /replace = "Thr" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Glu" /replace = "Ser" /replace = "Thr" /replace = "Asp" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Asn" /replace = "Lys" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Arg" /replace = "Gly" /replace = "Asp" /replace = "Asn" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Gln" /replace = "Ser" /replace = "Lys" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "Asp" /replace = "Glu" /replace = "Asn" /replace = "Thr" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "Lys" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "His" /replace = "Arg" /replace = "Ser" /replace = "Ile" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Asn" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Asn" /replace = "Leu" /replace = "Ser" /replace = "Ile" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Asn" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Phe" /replace = "Tyr" /replace = "Leu" /replace = "Ile" <220> <221> VARIANT <222> (14)..(14) <223> /replace = "Ala" /replace = "Tyr" /replace = "Phe" /replace = "Asn" <220> <221> VARIANT <222> (14)..(14) <223> /replace = "Cys" /replace = "Ser" <400> 51 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 <210> 52 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein C-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Glu" /replace = "Leu" /replace = "Lys" /replace = "Gln" <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Asp" /replace = "Pro" /replace = "Arg" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Val" /replace = "Leu" /replace = "Thr" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Tyr" /replace = "Ile" /replace = "Val" /replace = "His" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Phe" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Asp" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Ile" /replace = "Leu" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Gly" /replace = "Glu" /replace = "Thr" /replace = "Gln" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Lys" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "Val" /replace = "Thr" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Glu" /replace = "Ser" /replace = "Thr" /replace = "Asp" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Asn" /replace = "Lys" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Gly" /replace = "Asp" /replace = "Asn" /replace = "Gln" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Ser" /replace = "Lys" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "Asp" /replace = "Glu" /replace = "Asn" /replace = "Thr" <220> <221> VARIANT <222> (10)..(10) <223> /replace = "Lys" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "His" /replace = "Arg" /replace = "Ser" /replace = "Ile" <220> <221> VARIANT <222> (11)..(11) <223> /replace = "Asn" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Asn" /replace = "Leu" /replace = "Ser" /replace = "Ile" <220> <221> VARIANT <222> (12)..(12) <223> /replace = "Asn" <220> <221> VARIANT <222> (13)..(13) <223> /replace = "Phe" /replace = "Tyr" /replace = "Leu" /replace = "Ile" <220> <221> VARIANT <222> (14)..(14) <223> /replace = "Ala" /replace = "Tyr" /replace = "Phe" /replace = "Asn" <220> <221> VARIANT <222> (14)..(14) <223> /replace = "Cys" /replace = "Ser" <400> 52 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 <210> 53 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Sequence hNXIhXHNn comprised in the C2 box <220> <221> VARIANT <222> (1)..(1) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (3)..(3) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (5)..(5) <223> /note = "Xaa is a hydrophobic amino acid" <220> <221> VARIANT <222> (6)..(6) <223> /note = "Xaa is any amino acid" <220> <221> VARIANT <222> (9)..(9) <223> /note = "Xaa is a nucleophilic amino acid" <400> 53 Xaa Asn Xaa Ile Xaa Xaa His Asn Xaa 1 5 <210> 54 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein C-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Leu" /replace = "Ala" /replace = "Val" /replace = "Ile" <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Cys" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Asn" /replace = "Arg" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Gly" /replace = "Asp" /replace = "Ala" /replace = "Asn" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Ile" /replace = "Phe" /replace = "Thr" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Leu" /replace = "Ile" /replace = "Val" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Val" /replace = "Ile" /replace = "Thr" /replace = "Ala" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "His" /replace = "Ser" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Asn" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Ser" /replace = "Thr" /replace = "Cys" <400> 54 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 <210> 55 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Sequence comprised in the intein C-terminal domain <220> <221> VARIANT <222> (1)..(1) <223> /replace = "Ala" /replace = "Val" /replace = "Ile" /replace = "Cys" <220> <221> MISC_FEATURE <222> (1)..(8) <223> /note = "intein sequence" <220> <221> VARIANT <222> (2)..(2) <223> /replace = "Asn" /replace = "Arg" <220> <221> VARIANT <222> (3)..(3) <223> /replace = "Gly" /replace = "Asp" /replace = "Ala" /replace = "Asn" <220> <221> VARIANT <222> (4)..(4) <223> /replace = "Ile" /replace = "Phe" /replace = "Thr" <220> <221> VARIANT <222> (5)..(5) <223> /replace = "Leu" /replace = "Val" <220> <221> VARIANT <222> (6)..(6) <223> /replace = "Val" /replace = "Ile" /replace = "Thr" <220> <221> VARIANT <222> (7)..(7) <223> /replace = "His" <220> <221> VARIANT <222> (8)..(8) <223> /replace = "Asn" <220> <221> VARIANT <222> (9)..(9) <223> /replace = "Ser" /replace = "Thr" /replace = "Cys" <220> <221> MISC_FEATURE <222> (9)..(9) <223> /note = "first amino acid of the extein" <400> 55 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 <210> 56 <211> 223 <212> PRT <213> Artificial Sequence <220> <223> GP-41.1 C1A N-fragment Protein <400> 56 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Thr Arg Ser Gly Tyr Ala 115 120 125 Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu Ile 130 135 140 Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr Asn 145 150 155 160 Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys Ile 165 170 175 Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu Phe 180 185 190 Pro Thr Gln Thr Gly Glu Met Asn Ile Ser Gly Gly Leu Lys Glu Gly 195 200 205 Met Cys Leu Tyr Val Lys Glu Gly Gly His His His His His His 210 215 220 <210> 57 <211> 224 <212> PRT <213> Artificial Sequence <220> <223> GP 41.8 C1A N-fragment PROTEIN <400> 57 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Ser Gln Leu Asn Arg Ala 115 120 125 Leu Ser Leu Asp Thr Met Val Val Thr Asn Gly Lys Ala Ile Glu Ile 130 135 140 Arg Asp Val Lys Val Gly Asp Trp Leu Glu Ser Glu Cys Gly Pro Val 145 150 155 160 Gln Val Thr Glu Val Leu Pro Ile Ile Lys Gln Pro Val Phe Glu Ile 165 170 175 Val Leu Lys Ser Gly Lys Lys Ile Arg Val Ser Ala Asn His Lys Phe 180 185 190 Pro Thr Lys Asp Gly Leu Lys Thr Ile Asn Ser Gly Leu Lys Val Gly 195 200 205 Asp Phe Leu Arg Ser Arg Ala Lys Gly Gly His His His His His His 210 215 220 <210> 58 <211> 240 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 C1A N-term PROTEIN <400> 58 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Gly Thr Asn Pro Cys Ala 115 120 125 Leu Val Gly Ser Ser Glu Ile Ile Thr Arg Asn Tyr Gly Lys Thr Thr 130 135 140 Ile Lys Glu Val Val Glu Ile Phe Asp Asn Asp Lys Asn Ile Gln Val 145 150 155 160 Leu Ala Phe Asn Thr His Thr Asp Asn Ile Glu Trp Ala Pro Ile Lys 165 170 175 Ala Ala Gln Leu Thr Arg Pro Asn Ala Glu Leu Val Glu Leu Glu Ile 180 185 190 Asn Thr Leu His Gly Val Lys Thr Ile Arg Cys Thr Pro Asp His Pro 195 200 205 Val Tyr Thr Lys Asn Arg Asp Tyr Val Arg Ala Asp Glu Leu Thr Asp 210 215 220 Asp Asp Glu Leu Val Val Ala Ile Gly Gly His His His His His His 225 230 235 240 <210> 59 <211> 236 <212> PRT <213> Artificial Sequence <220> <223> IMPDH C1A N-term PROTEIN <400> 59 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Gly Ile Gly Gly Gly Ala 115 120 125 Phe Val Pro Gly Thr Leu Val Asn Thr Glu Asn Gly Leu Lys Lys Ile 130 135 140 Glu Glu Ile Lys Val Gly Asp Lys Val Phe Ser His Thr Gly Lys Leu 145 150 155 160 Gln Glu Val Val Asp Thr Leu Ile Phe Asp Arg Asp Glu Glu Ile Ile 165 170 175 Ser Ile Asn Gly Ile Asp Cys Thr Lys Asn His Glu Phe Tyr Val Ile 180 185 190 Asp Lys Glu Asn Ala Asn Arg Val Asn Glu Asp Asn Ile His Leu Phe 195 200 205 Ala Arg Trp Val His Ala Glu Glu Leu Asp Met Lys Lys His Leu Leu 210 215 220 Ile Glu Leu Glu Gly Gly His His His His His His 225 230 235 <210> 60 <211> 165 <212> PRT <213> Artificial Sequence <220> <223> GP41.1 deltaext C-fragment Protein <400> 60 Met Gly Lys Asn Ser Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu 1 5 10 15 Leu Asp Glu Arg Glu Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu 20 25 30 Phe Tyr Ala Asn Asp Ile Leu Thr His Asn Gly Thr Gly Ser Asp Lys 35 40 45 Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val Leu Lys Ala 50 55 60 Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys Gly Pro Cys 65 70 75 80 Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu Tyr Gln Gly 85 90 95 Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro Gly Thr Ala 100 105 110 Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu Phe Lys Asn 115 120 125 Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys Gly Gln Leu 130 135 140 Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe Arg Ser His 145 150 155 160 His His His His His 165 <210> 61 <211> 168 <212> PRT <213> Artificial Sequence <220> <223> GP41.8 deltaext C-term PROTEIN <400> 61 Met Cys Glu Ile Phe Glu Asn Glu Ile Asp Trp Asp Glu Ile Ala Ser 1 5 10 15 Ile Glu Tyr Val Gly Val Glu Glu Thr Ile Asp Ile Asn Val Thr Asn 20 25 30 Asp Arg Leu Phe Phe Ala Asn Gly Ile Leu Thr His Asn Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 62 <211> 163 <212> PRT <213> Artificial Sequence <220> <223> NrdJ1 deltaext C-term PROTEIN <400> 62 Met Glu Ala Lys Thr Tyr Ile Gly Lys Leu Lys Ser Arg Lys Ile Val 1 5 10 15 Ser Asn Glu Asp Thr Tyr Asp Ile Gln Thr Ser Thr His Asn Phe Phe 20 25 30 Ala Asn Asp Ile Leu Val His Asn Gly Thr Gly Ser Asp Lys Ile Ile 35 40 45 His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val Leu Lys Ala Asp Gly 50 55 60 Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys Gly Pro Cys Lys Met 65 70 75 80 Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu Tyr Gln Gly Lys Leu 85 90 95 Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro Gly Thr Ala Pro Lys 100 105 110 Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu Phe Lys Asn Gly Glu 115 120 125 Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys Gly Gln Leu Lys Glu 130 135 140 Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe Arg Ser His His His 145 150 155 160 His His His <210> 63 <211> 163 <212> PRT <213> Artificial Sequence <220> <223> IMPDH deltaext C-term PROTEIN <400> 63 Met Lys Phe Lys Leu Lys Glu Ile Thr Ser Ile Glu Thr Lys His Tyr 1 5 10 15 Lys Gly Lys Val His Asp Leu Thr Val Asn Gln Asp His Ser Tyr Asn 20 25 30 Val Arg Gly Thr Val Val His Asn Gly Thr Gly Ser Asp Lys Ile Ile 35 40 45 His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val Leu Lys Ala Asp Gly 50 55 60 Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys Gly Pro Cys Lys Met 65 70 75 80 Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu Tyr Gln Gly Lys Leu 85 90 95 Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro Gly Thr Ala Pro Lys 100 105 110 Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu Phe Lys Asn Gly Glu 115 120 125 Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys Gly Gln Leu Lys Glu 130 135 140 Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe Arg Ser His His His 145 150 155 160 His His His <210> 64 <211> 106 <212> PRT <213> Artificial sequence <220> <223> N-terminal region of the NrdA2 intein <400> 64 Cys Leu Thr Gly Asp Ala Lys Ile Asp Val Leu Ile Asp Asn Ile Pro 1 5 10 15 Ile Ser Gln Ile Ser Leu Glu Glu Val Val Asn Leu Phe Asn Glu Gly 20 25 30 Lys Glu Ile Tyr Val Leu Ser Tyr Asn Ile Asp Thr Lys Glu Val Glu 35 40 45 Tyr Lys Glu Ile Ser Asp Ala Gly Leu Ile Ser Glu Ser Ala Glu Val 50 55 60 Leu Glu Ile Ile Asp Glu Glu Thr Gly Gln Lys Ile Val Cys Thr Pro 65 70 75 80 Asp His Lys Val Tyr Thr Leu Asn Arg Gly Tyr Val Ser Ala Lys Asp 85 90 95 Leu Lys Glu Asp Asp Glu Leu Val Phe Ser 100 105 <210> 65 <211> 34 <212> PRT <213> Artificial sequence <220> <223> C-terminal region of the NrdA2 intein <400> 65 Met Gly Leu Lys Ile Ile Lys Arg Glu Ser Lys Glu Pro Val Phe Asp 1 5 10 15 Ile Thr Val Lys Asp Asn Ser Asn Phe Phe Ala Asn Asn Ile Leu Val 20 25 30 His Asn <210> 66 <211> 166 <212> PRT <213> Artificial sequence <220> <223> G1C(S) <400> 66 Met Gly Lys Asn Ser Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu 1 5 10 15 Leu Asp Glu Arg Glu Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu 20 25 30 Phe Tyr Ala Asn Asp Ile Leu Thr His Asn Ser Gly Thr Gly Ser Asp 35 40 45 Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val Leu Lys 50 55 60 Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys Gly Pro 65 70 75 80 Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu Tyr Gln 85 90 95 Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro Gly Thr 100 105 110 Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu Phe Lys 115 120 125 Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys Gly Gln 130 135 140 Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe Arg Ser 145 150 155 160 His His His His His His 165 <210> 67 <211> 218 <212> PRT <213> Artificial <220> <223> G1N(deltaext) <400> 67 Met Ala Ser Trp Ser His Pro Gln Phe Glu Lys Ala Ser Lys Glu Thr 1 5 10 15 Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala His Thr Ala 20 25 30 Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met Thr Pro Leu 35 40 45 Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp Gly Thr Thr 50 55 60 Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp Gln Thr Ser 65 70 75 80 Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr Glu Asp Val 85 90 95 Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg Thr Ala Phe 100 105 110 Ala Gly Thr Ala Ile Ser Ile Val Gly Ser Cys Leu Asp Leu Lys Thr 115 120 125 Gln Val Gln Thr Pro Gln Gly Met Lys Glu Ile Ser Asn Ile Gln Val 130 135 140 Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr Asn Glu Val Leu Asn Val 145 150 155 160 Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys Ile Thr Leu Glu Asp Gly 165 170 175 Lys Glu Ile Ile Cys Ser Glu Glu His Leu Phe Pro Thr Gln Thr Gly 180 185 190 Glu Met Asn Ile Ser Gly Gly Leu Lys Glu Gly Met Cys Leu Tyr Val 195 200 205 Lys Glu Gly Gly His His His His His His 210 215 <210> 68 <211> 170 <212> PRT <213> Artificial <220> <223> GP41.1 N to A C-fragment protein <400> 68 Met Gly Lys Asn Ser Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu 1 5 10 15 Leu Asp Glu Arg Glu Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu 20 25 30 Phe Tyr Ala Asn Asp Ile Leu Thr His Ala Ser Ser Ser Asp Val Gly 35 40 45 Thr Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr 50 55 60 Asp Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His 65 70 75 80 Trp Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala 85 90 95 Asp Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His 100 105 110 Asn Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu 115 120 125 Leu Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu 130 135 140 Ser Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser 145 150 155 160 Glu Phe Arg Ser His His His His His His 165 170 <210> 69 <211> 173 <212> PRT <213> Artificial <220> <223> GP41-8 N to A C-terminal fragment <400> 69 Met Cys Glu Ile Phe Glu Asn Glu Ile Asp Trp Asp Glu Ile Ala Ser 1 5 10 15 Ile Glu Tyr Val Gly Val Glu Glu Thr Ile Asp Ile Asn Val Thr Asn 20 25 30 Asp Arg Leu Phe Phe Ala Asn Gly Ile Leu Thr His Ala Ser Ala Val 35 40 45 Glu Glu Gly Thr Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser 50 55 60 Phe Asp Thr Asp Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe 65 70 75 80 Trp Ala His Trp Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp 85 90 95 Glu Ile Ala Asp Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn 100 105 110 Ile Asp His Asn Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile 115 120 125 Pro Thr Leu Leu Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val 130 135 140 Gly Ala Leu Ser Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu 145 150 155 160 Ala Gly Ser Glu Phe Arg Ser His His His His His His 165 170 <210> 70 <211> 168 <212> PRT <213> Artificial <220> <223> NrdJ1 N to A C-terminal fragment <400> 70 Met Glu Ala Lys Thr Tyr Ile Gly Lys Leu Lys Ser Arg Lys Ile Val 1 5 10 15 Ser Asn Glu Asp Thr Tyr Asp Ile Gln Thr Ser Thr His Asn Phe Phe 20 25 30 Ala Asn Asp Ile Leu Val His Ala Ser Glu Ile Val Leu Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 71 <211> 168 <212> PRT <213> Artificial <220> <223> IMPDH1 N to A C-terminal fragment <400> 71 Met Lys Phe Lys Leu Lys Glu Ile Thr Ser Ile Glu Thr Lys His Tyr 1 5 10 15 Lys Gly Lys Val His Asp Leu Thr Val Asn Gln Asp His Ser Tyr Asn 20 25 30 Val Arg Gly Thr Val Val His Ala Ser Ile Cys Ser Thr Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 72 <211> 170 <212> PRT <213> Artificial <220> <223> GP41.1 N/S to A C-terminal fragment <400> 72 Met Gly Lys Asn Ser Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu 1 5 10 15 Leu Asp Glu Arg Glu Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu 20 25 30 Phe Tyr Ala Asn Asp Ile Leu Thr His Ala Ala Ser Ser Asp Val Gly 35 40 45 Thr Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr 50 55 60 Asp Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His 65 70 75 80 Trp Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala 85 90 95 Asp Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His 100 105 110 Asn Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu 115 120 125 Leu Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu 130 135 140 Ser Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser 145 150 155 160 Glu Phe Arg Ser His His His His His His 165 170 <210> 73 <211> 173 <212> PRT <213> Artificial <220> <223> GP41.8 N/S to A C-terminal fragment <400> 73 Met Cys Glu Ile Phe Glu Asn Glu Ile Asp Trp Asp Glu Ile Ala Ser 1 5 10 15 Ile Glu Tyr Val Gly Val Glu Glu Thr Ile Asp Ile Asn Val Thr Asn 20 25 30 Asp Arg Leu Phe Phe Ala Asn Gly Ile Leu Thr His Ala Ala Ala Val 35 40 45 Glu Glu Gly Thr Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser 50 55 60 Phe Asp Thr Asp Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe 65 70 75 80 Trp Ala His Trp Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp 85 90 95 Glu Ile Ala Asp Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn 100 105 110 Ile Asp His Asn Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile 115 120 125 Pro Thr Leu Leu Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val 130 135 140 Gly Ala Leu Ser Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu 145 150 155 160 Ala Gly Ser Glu Phe Arg Ser His His His His His His 165 170 <210> 74 <211> 168 <212> PRT <213> Artificial <220> <223> NrdJ1 N/S to A C-terminal fragment <400> 74 Met Glu Ala Lys Thr Tyr Ile Gly Lys Leu Lys Ser Arg Lys Ile Val 1 5 10 15 Ser Asn Glu Asp Thr Tyr Asp Ile Gln Thr Ser Thr His Asn Phe Phe 20 25 30 Ala Asn Asp Ile Leu Val His Ala Ala Glu Ile Val Leu Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 75 <211> 168 <212> PRT <213> Artificial <220> <223> IMPDH1 N/S to A C-terminal fragment <400> 75 Met Lys Phe Lys Leu Lys Glu Ile Thr Ser Ile Glu Thr Lys His Tyr 1 5 10 15 Lys Gly Lys Val His Asp Leu Thr Val Asn Gln Asp His Ser Tyr Asn 20 25 30 Val Arg Gly Thr Val Val His Ala Ala Ile Cys Ser Thr Gly Thr Gly 35 40 45 Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp Val 50 55 60 Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp Cys 65 70 75 80 Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp Glu 85 90 95 Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn Pro 100 105 110 Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu Leu 115 120 125 Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser Lys 130 135 140 Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser Glu Phe 145 150 155 160 Arg Ser His His His His His His 165 <210> 76 <211> 109 <212> PRT <213> bacteriophage lambda <400> 76 Lys Glu Thr Phe Thr His Tyr Gln Pro Gln Gly Asn Ser Asp Pro Ala 1 5 10 15 His Thr Ala Thr Ala Pro Gly Gly Leu Ser Ala Lys Ala Pro Ala Met 20 25 30 Thr Pro Leu Met Leu Asp Thr Ser Ser Arg Lys Leu Val Ala Trp Asp 35 40 45 Gly Thr Thr Asp Gly Ala Ala Val Gly Ile Leu Ala Val Ala Ala Asp 50 55 60 Gln Thr Ser Thr Thr Leu Thr Phe Tyr Lys Ser Gly Thr Phe Arg Tyr 65 70 75 80 Glu Asp Val Leu Trp Pro Glu Ala Ala Ser Asp Glu Thr Lys Lys Arg 85 90 95 Thr Ala Phe Ala Gly Thr Ala Ile Ser Ile Val Gly Ser 100 105 <210> 77 <211> 111 <212> PRT <213> Escherichia coli <400> 77 Gly Ser Asp Lys Ile Ile His Leu Thr Asp Asp Ser Phe Asp Thr Asp 1 5 10 15 Val Leu Lys Ala Asp Gly Ala Ile Leu Val Asp Phe Trp Ala His Trp 20 25 30 Cys Gly Pro Cys Lys Met Ile Ala Pro Ile Leu Asp Glu Ile Ala Asp 35 40 45 Glu Tyr Gln Gly Lys Leu Thr Val Ala Lys Leu Asn Ile Asp His Asn 50 55 60 Pro Gly Thr Ala Pro Lys Tyr Gly Ile Arg Gly Ile Pro Thr Leu Leu 65 70 75 80 Leu Phe Lys Asn Gly Glu Val Ala Ala Thr Lys Val Gly Ala Leu Ser 85 90 95 Lys Gly Gln Leu Lys Glu Phe Leu Asp Ala Asn Leu Ala Gly Ser 100 105 110 <210> 78 <211> 9 <212> PRT <213> Artificial <220> <223> C1-Box of the C-terminal region of the GP41-1 intein <400> 78 Ala Asn Asp Ile Leu Thr His Asn Ser 1 5 <210> 79 <211> 88 <212> PRT <213> Artificial <220> <223> gp41-1 N-intein <400> 79 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu 1 5 10 15 Ile Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr 20 25 30 Asn Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys 35 40 45 Ile Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu 50 55 60 Phe Pro Thr Gln Thr Gly Glu Met Asn Ile Ser Gly Gly Leu Lys Glu 65 70 75 80 Gly Met Cys Leu Tyr Val Lys Glu 85 <210> 80 <211> 27 <212> PRT <213> Artificial <220> <223> gp41-2 N-intein <400> 80 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Gln Gln Gly Leu Lys Asp 1 5 10 15 Ile Ser Asn Ile Gln Val Gly Asp Leu Val Leu 20 25 <210> 81 <211> 46 <212> PRT <213> Artificial <220> <223> gp41-3 N-intein <400> 81 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu 1 5 10 15 Ile Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr 20 25 30 Asn Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser 35 40 45 <210> 82 <211> 88 <212> PRT <213> Artificial <220> <223> gp41-4 N-intein <400> 82 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu 1 5 10 15 Ile Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr 20 25 30 Asn Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys 35 40 45 Ile Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu 50 55 60 Phe Pro Thr Gln Thr Gly Glu Met Asn Ile Ser Gly Gly Leu Lys Glu 65 70 75 80 Gly Met Cys Leu Tyr Val Lys Glu 85 <210> 83 <211> 88 <212> PRT <213> Artificial <220> <223> gp41-5 N-intein <400> 83 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu 1 5 10 15 Ile Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr 20 25 30 Asn Glu Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys 35 40 45 Ile Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu 50 55 60 Phe Pro Thr Gln Thr Gly Glu Met Asn Ile Ser Gly Gly Leu Lys Glu 65 70 75 80 Gly Met Cys Leu Tyr Val Lys Glu 85 <210> 84 <211> 43 <212> PRT <213> Artificial <220> <223> gp41-6 N-intein <400> 84 Ser Tyr Lys Ile Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu 1 5 10 15 Glu His Leu Phe Pro Thr Gln Asn Gly Glu Val Asn Ile Lys Gly Gly 20 25 30 Leu Lys Glu Gly Met Cys Leu Tyr Val Lys Glu 35 40 <210> 85 <211> 88 <212> PRT <213> Artificial <220> <223> gp41-7 N-intein <400> 85 Cys Leu Asp Leu Lys Thr Gln Val Gln Thr Pro Gln Gly Met Lys Glu 1 5 10 15 Leu Ser Asn Ile Gln Val Gly Asp Leu Val Leu Ser Asn Thr Gly Tyr 20 25 30 Asn Gln Val Leu Asn Val Phe Pro Lys Ser Lys Lys Lys Ser Tyr Lys 35 40 45 Ile Thr Leu Glu Asp Gly Lys Glu Ile Ile Cys Ser Glu Glu His Leu 50 55 60 Phe Pro Thr Gln Asn Gly Glu Val Asn Ile Lys Gly Gly Leu Lys Glu 65 70 75 80 Gly Met Cys Leu Tyr Val Lys Glu 85 <210> 86 <211> 89 <212> PRT <213> Artificial <220> <223> gp41-8 N-intein <400> 86 Cys Leu Ser Leu Asp Thr Met Val Val Thr Asn Gly Lys Ala Ile Glu 1 5 10 15 Ile Arg Asp Val Lys Val Gly Asp Trp Leu Glu Ser Glu Cys Gly Pro 20 25 30 Val Gln Val Thr Glu Val Leu Pro Ile Ile Lys Gln Pro Val Phe Glu 35 40 45 Ile Val Leu Lys Ser Gly Lys Lys Ile Arg Val Ser Ala Asn His Lys 50 55 60 Phe Pro Thr Lys Asp Gly Leu Lys Thr Ile Asn Ser Gly Leu Lys Val 65 70 75 80 Gly Asp Phe Leu Arg Ser Arg Ala Lys 85 <210> 87 <211> 101 <212> PRT <213> Artificial <220> <223> IMPDH-1 N-intein <400> 87 Cys Phe Val Pro Gly Thr Leu Val Asn Thr Glu Asn Gly Leu Lys Lys 1 5 10 15 Ile Glu Glu Ile Lys Val Gly Asp Lys Val Phe Ser His Thr Gly Lys 20 25 30 Leu Gln Glu Val Val Asp Thr Leu Ile Phe Asp Arg Asp Glu Glu Ile 35 40 45 Ile Ser Ile Asn Gly Ile Asp Cys Thr Lys Asn His Glu Phe Tyr Val 50 55 60 Ile Asp Lys Glu Asn Ala Asn Arg Val Asn Glu Asp Asn Ile His Leu 65 70 75 80 Phe Ala Arg Trp Val His Ala Glu Glu Leu Asp Met Lys Lys His Leu 85 90 95 Leu Ile Glu Leu Glu 100 <210> 88 <211> 133 <212> PRT <213> Artificial <220> <223> NrdA-1 N-intein <400> 88 Cys Val Ala Gly Asp Thr Lys Ile Lys Ile Lys Tyr Pro Glu Ser Val 1 5 10 15 Gly Asp Gln Tyr Gly Thr Trp Tyr Trp Asn Val Leu Glu Lys Glu Ile 20 25 30 Gln Ile Glu Asp Leu Glu Asp Tyr Ile Ile Met Arg Glu Cys Glu Ile 35 40 45 Tyr Asp Ser Asn Ala Pro Gln Ile Glu Val Leu Ser Tyr Asn Ile Glu 50 55 60 Thr Gly Glu Gln Glu Trp Lys Pro Ile Thr Ala Phe Ala Gln Thr Ser 65 70 75 80 Pro Lys Ala Lys Val Met Lys Ile Thr Asp Glu Glu Ser Gly Lys Ser 85 90 95 Ile Val Val Thr Pro Glu His Gln Val Phe Thr Lys Asn Arg Gly Tyr 100 105 110 Val Met Ala Lys Asp Leu Ile Glu Thr Asp Glu Pro Ile Ile Val Asn 115 120 125 Lys Asp Met Asn Phe 130 <210> 89 <211> 106 <212> PRT <213> Artificial <220> <223> NrdA-2 N-intein <400> 89 Cys Leu Thr Gly Asp Ala Lys Ile Asp Val Leu Ile Asp Asn Ile Pro 1 5 10 15 Ile Ser Gln Ile Ser Leu Glu Glu Val Val Asn Leu Phe Asn Glu Gly 20 25 30 Lys Glu Ile Tyr Val Leu Ser Tyr Asn Ile Asp Thr Lys Glu Val Glu 35 40 45 Tyr Lys Glu Ile Ser Asp Ala Gly Leu Ile Ser Glu Ser Ala Glu Val 50 55 60 Leu Glu Ile Ile Asp Glu Glu Thr Gly Gln Lys Ile Val Cys Thr Pro 65 70 75 80 Asp His Lys Val Tyr Thr Leu Asn Arg Gly Tyr Val Ser Ala Lys Asp 85 90 95 Leu Lys Glu Asp Asp Glu Leu Val Phe Ser 100 105 <210> 90 <211> 105 <212> PRT <213> Artificial <220> <223> NrdA-4 N-intein <400> 90 Cys Leu Ala Gly Asp Thr Thr Val Thr Val Leu Glu Gly Asp Ile Val 1 5 10 15 Phe Glu Met Thr Leu Glu Asn Leu Val Ser Leu Tyr Lys Asn Val Phe 20 25 30 Ser Val Ser Val Leu Ser Phe Asn Pro Glu Thr Gln Lys Gln Glu Phe 35 40 45 Lys Pro Val Thr Asn Ala Ala Leu Met Asn Pro Glu Ser Lys Val Leu 50 55 60 Lys Ile Thr Asp Ser Asp Thr Gly Lys Ser Ile Val Cys Thr Pro Asp 65 70 75 80 His Lys Val Phe Thr Lys Asn Arg Gly Tyr Val Ile Ala Ser Glu Leu 85 90 95 Asn Ala Glu Asp Ile Leu Glu Ile Lys 100 105 <210> 91 <211> 65 <212> PRT <213> Artificial <220> <223> NrdA-5 N-intein <400> 91 His Thr Glu Thr Val Arg Arg Val Gly Thr Ile Thr Ala Phe Ala Gln 1 5 10 15 Thr Ser Pro Lys Ser Lys Val Met Lys Ile Thr Asp Glu Glu Ser Gly 20 25 30 Asn Ser Ile Val Val Thr Pro Glu His Lys Val Phe Thr Lys Asn Arg 35 40 45 Gly Tyr Val Met Ala Lys Asn Leu Val Glu Thr Asp Glu Leu Val Ile 50 55 60 Asn 65 <210> 92 <211> 49 <212> PRT <213> Artificial <220> <223> NrdA-6 N-intein <400> 92 Tyr Val Cys Ser Arg Asp Asp Thr Thr Gly Phe Lys Leu Ile Cys Thr 1 5 10 15 Pro Asp His Met Ile Tyr Thr Lys Asn Arg Gly Tyr Ile Met Ala Lys 20 25 30 Tyr Leu Lys Glu Asp Asp Glu Leu Leu Ile Asn Glu Ile His Leu Pro 35 40 45 Thr <210> 93 <211> 105 <212> PRT <213> Artificial <220> <223> NrdJ-1 N-intein <400> 93 Cys Leu Val Gly Ser Ser Glu Ile Ile Thr Arg Asn Tyr Gly Lys Thr 1 5 10 15 Thr Ile Lys Glu Val Val Glu Ile Phe Asp Asn Asp Lys Asn Ile Gln 20 25 30 Val Leu Ala Phe Asn Thr His Thr Asp Asn Ile Glu Trp Ala Pro Ile 35 40 45 Lys Ala Ala Gln Leu Thr Arg Pro Asn Ala Glu Leu Val Glu Leu Glu 50 55 60 Ile Asp Thr Leu His Gly Val Lys Thr Ile Arg Cys Thr Pro Asp His 65 70 75 80 Pro Val Tyr Thr Lys Asn Arg Gly Tyr Val Arg Ala Asp Glu Leu Thr 85 90 95 Asp Asp Asp Glu Leu Val Val Ala Ile 100 105 <210> 94 <211> 105 <212> PRT <213> Artificial <220> <223> NrdJ-2 N-intein <400> 94 Cys Leu Val Gly Ser Ser Glu Ile Ile Thr Arg Asn Tyr Gly Lys Thr 1 5 10 15 Thr Ile Lys Glu Val Val Glu Ile Phe Asp Asn Asp Lys Asn Ile Gln 20 25 30 Val Leu Ala Phe Asn Thr His Thr Asp Asn Ile Glu Trp Ala Pro Ile 35 40 45 Lys Ala Ala Gln Leu Thr Arg Pro Asn Ala Glu Leu Val Glu Leu Glu 50 55 60 Ile Asn Thr Leu His Gly Val Lys Thr Ile Arg Cys Thr Pro Asp His 65 70 75 80 Pro Val Tyr Thr Lys Asn Arg Asp Tyr Val Arg Ala Asp Glu Leu Thr 85 90 95 Asp Asp Asp Glu Leu Val Val Ala Ile 100 105 <210> 95 <211> 38 <212> PRT <213> Artificial <220> <223> gp41-1 C-intein <400> 95 Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu Leu Asp Glu Arg Glu 1 5 10 15 Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu Phe Tyr Ala Asn Asp 20 25 30 Ile Leu Thr His Asn Ser 35 <210> 96 <211> 38 <212> PRT <213> Artificial <220> <223> gp41-2 C-intein <400> 96 Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu Leu Asp Glu Arg Glu 1 5 10 15 Leu Ile Asp Ile Glu Val Ser Gly Asn His Leu Phe Tyr Ala Asn Ala 20 25 30 Ile Leu Thr His Asn Ser 35 <210> 97 <211> 26 <212> PRT <213> Artificial <220> <223> gp41-7 C-intein <400> 97 Met Met Leu Lys Lys Ile Leu Lys Ile Glu Glu Leu Asp Glu Arg Glu 1 5 10 15 Leu Ile Asp Ile Glu Val Ser Gly Asn His 20 25 <210> 98 <211> 46 <212> PRT <213> Artificial <220> <223> gp41-8 C-intein <400> 98 Met Cys Glu Ile Phe Glu Asn Glu Ile Asp Trp Asp Glu Ile Ala Ser 1 5 10 15 Ile Glu Tyr Val Gly Val Glu Glu Thr Ile Asp Ile Asn Val Thr Asn 20 25 30 Asp Arg Leu Phe Phe Ala Asn Gly Ile Leu Thr His Asn Ser 35 40 45 <210> 99 <211> 47 <212> PRT <213> Artificial <220> <223> gp41-9 C-intein <400> 99 Met Ile Met Lys Asn Arg Glu Arg Phe Ile Thr Glu Lys Ile Leu Asn 1 5 10 15 Ile Glu Glu Ile Asp Asp Asp Leu Thr Val Asp Ile Gly Met Asp Asn 20 25 30 Glu Asp His Tyr Phe Val Ala Asn Asp Ile Leu Thr His Asn Thr 35 40 45 <210> 100 <211> 41 <212> PRT <213> Artificial <220> <223> IMPDH-1 C-intein <400> 100 Met Lys Phe Lys Leu Lys Glu Ile Thr Ser Ile Glu Thr Lys His Tyr 1 5 10 15 Lys Gly Lys Val His Asp Leu Thr Val Asn Gln Asp His Ser Tyr Asn 20 25 30 Val Arg Gly Thr Val Val His Asn Ser 35 40 <210> 101 <211> 43 <212> PRT <213> Artificial <220> <223> IMPDH-2 C.intein <400> 101 Met Lys Phe Thr Leu Glu Pro Ile Thr Lys Ile Asp Ser Tyr Glu Val 1 5 10 15 Thr Ala Glu Pro Val Tyr Asp Ile Glu Val Glu Asn Asp His Ser Phe 20 25 30 Cys Val Glu Asn Gly Phe Val Val His Asn Ser 35 40 <210> 102 <211> 41 <212> PRT <213> Artificial <220> <223> IMPDH-3 C-intein <400> 102 Met Lys Phe Lys Leu Val Glu Ile Thr Ser Lys Glu Thr Phe Asn Tyr 1 5 10 15 Ser Gly Gln Val His Asp Leu Thr Val Glu Asp Asp His Ser Tyr Ser 20 25 30 Ile Asn Asn Ile Val Val His Asn Ser 35 40 <210> 103 <211> 35 <212> PRT <213> Artificial <220> <223> NrdA-2 C-intein <400> 103 Met Gly Leu Lys Ile Ile Lys Arg Glu Ser Lys Glu Pro Val Phe Asp 1 5 10 15 Ile Thr Val Lys Asp Asn Ser Asn Phe Phe Ala Asn Asn Ile Leu Val 20 25 30 His Asn Cys 35 <210> 104 <211> 34 <212> PRT <213> Artificial <220> <223> NrdA-3 <400> 104 Met Leu Lys Ile Glu Tyr Leu Glu Glu Glu Ile Pro Val Tyr Asp Ile 1 5 10 15 Thr Val Glu Glu Thr His Asn Phe Phe Ala Asn Asp Ile Leu Ile His 20 25 30 Asn Cys <210> 105 <211> 28 <212> PRT <213> Artificial <220> <223> NrdA-5 C-intein <400> 105 Met Leu Lys Ile Glu Tyr Leu Glu Glu Glu Ile Pro Val Tyr Asp Ile 1 5 10 15 Thr Val Glu Gly Thr His Asn Leu Ala Tyr Ser Leu 20 25 <210> 106 <211> 33 <212> PRT <213> Artificial <220> <223> NrdA-6 C-intein <400> 106 Met Gly Ile Lys Ile Arg Lys Leu Glu Gln Asn Arg Val Tyr Asp Ile 1 5 10 15 Lys Val Glu Lys Ile Ile Ile Phe Cys Asn Asn Ile Leu Val His Asn 20 25 30 Cys <210> 107 <211> 34 <212> PRT <213> Artificial <220> <223> NrdA-7 C-intein <400> 107 Met Leu Lys Ile Glu Tyr Leu Glu Glu Glu Ile Pro Val Tyr Asp Ile 1 5 10 15 Thr Val Glu Lys Thr Asn Asn Phe Phe Ala Asn Asp Ile Leu Val His 20 25 30 Asn Cys <210> 108 <211> 41 <212> PRT <213> Artificial <220> <223> NrdJ-1 C-intein <400> 108 Met Glu Ala Lys Thr Tyr Ile Gly Lys Leu Lys Ser Arg Lys Ile Val 1 5 10 15 Ser Asn Glu Asp Thr Tyr Asp Ile Gln Thr Ser Thr His Asn Phe Phe 20 25 30 Ala Asn Asp Ile Leu Val His Asn Ser 35 40

Claims (29)

  1. (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인, 및 (ii) 상기 인테인 도메인에 대해 C-말단인, 이종성 폴리펩타이드를 포함하는 융합 단백질.
  2. 제 1항에 있어서, 이종성 폴리펩타이드 및 인테인 도메인은 펩타이드 결합 또는 연결기에 의하여 직접 연결된 융합 단백질.
  3. 제 1항 또는 제 2항에 있어서, 인테인 도메인의 마지막 아미노산은 글루타민 또는 아스파라긴인 융합 단백질.
  4. 제 3항에 있어서, 이종성 폴리펩타이드 또는 연결기의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌인 융합 단백질.
  5. 제 1항 또는 제 2항에 있어서, 인테인 도메인의 마지막 아미노산은 아스파라긴 또는 글루타민 외의 아미노산이고, 여기에서 이종성 폴리펩타이드 또는 연결기의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌 외의 아미노산인 융합 단백질.
  6. (i) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인, 및 (ii) 상기 인테인 도메인에 대해 N-말단인 이종성 폴리펩타이드를 포함하는 융합 단백질.
  7. 제 6항에 있어서, 이종성 폴리펩타이드 및 인테인 도메인은 펩타이드 결합 또는 연결기에 의하여 직접 연결된 융합 단백질.
  8. 제 6항 또는 제 7항에 있어서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인인 융합 단백질.
  9. 제 6항 또는 제 7항에 있어서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인 외의 아미노산인 융합 단백질.
  10. 제 1 인테인 도메인, 제 2 인테인 도메인, 및 이종성 폴리펩타이드를 포함하는 융합 단백질로서, 상기 이종성 폴리펩타이드는 제 1 인테인 도메인에 대해 N-말단이고, 상기 이종성 폴리펩타이드 제 2 인테인 도메인에 대해 C-말단이고, 여기에서,
    (a) 제 1 인테인 도메인은 서열번호 3에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 7에 대하여 75% 이상 동일하고;
    (b) 제 1 인테인 도메인은 서열번호 12에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 16에 대하여 75% 이상 동일하고;
    (c) 제 1 인테인 도메인은 서열번호 20에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 24에 대하여 75% 이상 동일하거나; 또는
    (d) 제 1 인테인 도메인은 서열번호 34에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 38에 대하여 75% 이상 동일하거나; 또는
    (e) 제 1 인테인 도메인은 서열번호 64에 대하여 75% 이상 동일하고, 제 2 인테인 도메인은 서열번호 65에 대하여 75% 이상 동일한, 융합 단백질.
  11. 제 10항에 있어서, 이종성 폴리펩타이드 및 제 2 인테인 도메인은 펩타이드 결합 또는 연결기에 의해 연결되며, 상기 이종성 폴리펩타이드의 첫번째 아미노산 또는 연결기의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌인 융합 단백질.
  12. 하기 제 1 성분 및 제 2 성분을 포함하는 조성물 또는 부품 키트 (kit-of-parts)로,
    (i) 제 1 성분은 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질이고, 그리고
    (ii) 제 2 성분은 제 9항의 융합 단백질 및 N-말단 인테인 도메인으로 이루어지는 군으로부터 선택되고, 여기에서
    a. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 7에 대해 75% 이상 동일하고, 제 9항의 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하며;
    b. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 16에 대해 75% 이상 동일하고, 제 9항의 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
    c. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 24에 대해 75% 이상 동일하고, 제 9항의 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
    d. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 38에 대해 75% 이상 동일하고, 제 9항의 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나; 또는
    e. 제 1항 내지 제 4항 중 어느 한 항에 따른 융합 단백질로부터의 인테인 도메인은 서열번호 65에 대해 75% 이상 동일하고, 제 9항의 융합 단백질로부터의 인테인 도메인 또는 N-말단 인테인 도메인은 서열번호 64에 대해 75% 이상 동일한, 조성물 또는 부품 키트.
  13. 하기 제 1 성분 및 제 2 성분을 포함하는 조성물 또는 부품 키트로,
    (i) 제 1 성분은 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질이고, 그리고
    (ii) 제 2 성분은 제 5항의 융합 단백질 중 어느 하나 및 C-말단 인테인으로 이루어지는 군으로부터 선택되고; 여기에서
    a. 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고, 제 5항의 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 7에 대해 75% 이상 동일하고;
    b. 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고, 제 5항의 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 16에 대해 75% 이상 동일하고;
    c. 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고, 제 5항의 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 24에 대해 75% 이상 동일하고;
    d. 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하고, 제 5항의 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 38에 대해 75% 이상 동일하거나; 또는
    e. 제 6항 내지 제 8항 중 어느 한 항에 따른 융합 단백질로부터의 인테인 도메인은 서열번호 64에 대해 75% 이상 동일하고, 제 5항의 융합 단백질로부터의 인테인 도메인 또는 C-말단 인테인 도메인은 서열번호 65에 대해 75% 이상 동일한, 조성물 또는 부품 키트.
  14. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질 및 제 6항 내지 제 8항의 융합 단백질을 포함하는 조성물 또는 부품 키트로서,
    a. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 7에 대해 75% 이상 동일하고, 제 6항 내지 제 8항의 융합 단백질로부터의 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
    b. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 16에 대해 75% 이상 동일하고, 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
    c. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 24에 대해 75% 이상 동일하고, 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
    d. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 38에 대해 75% 이상 동일하고, 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나; 또는
    e. 제 1항 내지 제 4항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 65에 대해 75% 이상 동일하고, 제 6항 내지 제 8항 중 어느 한 항의 융합 단백질로부터의 인테인 도메인은 서열번호 64에 대해 75% 이상 동일한, 조성물 또는 부품 키트.
  15. 하기 (i) 내지 (iv)로 이루어지는 군으로부터 선택되는 방법:
    (i) 인테인 도메인으로부터, 인테인 도메인의 C-말단에 연결된 이종성 폴리펩타이드를 분열시키는 방법으로, 인테인-매개 단백질 분열을 가능하게 하는 조건 하에서 제 12항의 조성물을 인큐베이션하거나 또는 제 12항의 부품 키트의 성분을 연합시키는 것을 포함하는 방법,
    (ii) 인테인 도메인으로부터, 인테인 도메인의 N-말단에 연결된 이종성 폴리펩타이드를 분열시키는 방법으로, 인테인-매개 단백질 분열을 가능하게 하는 조건 하에서 제 13항의 조성물을 인큐베이션하거나 또는 제 13항의 부품 키트의 성분을 연합시키는 것을 포함하는 방법,
    (iii) 제 1 폴리펩타이드의 N-말단을 제 2 폴리펩타이드의 C-말단에 공유결합적으로 연결하는 방법으로, 인테인 스플라이싱을 가능하게 하는 조건 하에서 제 14항의 조성물을 인큐베이션하거나 또는 제 14항의 부품 키트의 성분을 연합시키는 것을 포함하고, 여기에서 상기 제 1 폴리펩타이드는 제 1항 내지 제 4항 중 어느 한 항에 따른 융합 단백질의 일부를 형성하는 이종성 폴리펩타이드이고, 상기 제 2 폴리펩타이드는 제 6항 내지 제 8항 중 어느 한 항에 따른 융합 단백질의 일부를 형성하는 이종성 폴리펩타이드인 방법,
    (iv) 인테인 스플라이싱을 가능하게 하는 조건 하에서, 제 10항 또는 제 11항의 융합 단백질을 인큐베이션하는 것을 포함하는 이종성 폴리펩타이드의 고리화 방법으로, 상기 이종성 폴리펩타이드는 제 10 항 또는 제 11항의 융합 단백질의 일부를 형성하는 이종성 폴리펩타이드인 방법.
  16. 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드 및 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 하류의 하나 이상의 클로닝 자리를 포함하여, 인테인 도메인 및 관심 대상의 폴리뉴클레오타이드에 의하여 암호화된 폴리펩타이드를 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터.
  17. 제 16항에 있어서, 인테인 도메인의 마지막 아미노산이 글루타민 또는 아스파라긴인 벡터.
  18. 제 17항에 있어서, 인테인 도메인의 끝에서 두번째 아미노산이 히스티딘인 벡터.
  19. 제 16항에 있어서, 인테인 도메인의 마지막 아미노산이 아스파라긴 또는 글루타민 외의 아미노산인 벡터.
  20. 제 16항에 있어서, 인테인 도메인과 이종성 펩타이드에 의하여 암호화된 폴리펩타이드 사이의 연결기 펩타이드를 형성하는 폴리펩타이드를 암호화하는 폴리뉴클레오타이드를 더 포함하는 벡터.
  21. 제 20항에 있어서, 인테인 도메인의 마지막 아미노산이 아스파라긴 또는 글루타민 외의 아미노산이고, 상기 연결기의 첫번째 아미노산은 세린, 시스테인 또는 트레오닌 외의 아미노산인 벡터.
  22. 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 인테인 도메인을 암호화하는 폴리뉴클레오타이드 및 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 상류에서의 하나 이상의 클로닝 자리를 포함하여, 인테인 도메인 및 관심 대상의 폴리뉴클레오타이드에 의하여 암호화된 폴리펩타이드를 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터.
  23. 제 22항에 있어서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인인 벡터.
  24. 제 22항에 있어서, 인테인 도메인의 첫번째 아미노산은 세린 또는 시스테인 외의 아미노산인 벡터.
  25. 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 1 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 관심 대상의 폴리뉴클레오타이드의 클로닝을 가능하게 하는 상기 폴리뉴클레오타이드의 하류의 하나 이상의 클로닝 자리, 및 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 2 인테인 도메인을 암호화하는, 상기 클로닝 자리의 하류의 폴리뉴클레오타이드를 포함하여, 관심 대상의 폴리뉴클레오타이드에 의하여 암호화되는 폴리펩타이드 및 제 1 및 제 2 인테인 도메인을 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하는 벡터로:
    a. 제 1 인테인 도메인이 서열번호 7에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
    b. 제 1 인테인 도메인이 서열번호 16에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
    c. 제 1 인테인 도메인이 서열번호 24에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
    d. 제 1 인테인 도메인이 서열번호 38에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나, 또는
    e. 제 1 인테인 도메인이 서열번호 65에 대해 75% 이상 동일하다면, 제 2 인테인 도메인은 서열번호 64에 대해 75% 이상 동일한 벡터.
  26. 제 25항에 있어서, 인테인 도메인의 마지막 아미노산이 글루타민 또는 아스파라긴이고, 인테인 도메인의 끝에서 두번째 아미노산이 히스티딘 및/또는 제 2 인테인 도메인의 첫번째 아미노산이 세린 또는 시스테인인 벡터.
  27. (i) 서열번호 7, 16, 24, 38 및 65로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 1 인테인 도메인을 암호화하는 폴리뉴클레오타이드,
    (ii) 제 1 인테인 도메인을 암호화하는 상기 폴리뉴클레오타이드의 하류의 제 1 클로닝 자리,
    (iii) 서열번호 3, 12, 20, 34 및 64로 이루어지는 군으로부터 선택된 서열에 대해 75% 이상 동일한 제 2의 인테인 도메인을 암호화하는 폴리뉴클레오타이드, 및
    (iv) 제 2 인테인 도메인을 암호화하는 상기 폴리뉴클레오타이드의 상류의 제 2 클로닝 자리를 포함하는 벡터로,
    상기 제 1 클로닝 자리는 관심 대상의 제 1 폴리뉴클레오타이드의 클로닝을 가능하게 하고, 제 2 클로닝 자리는 관심 대상의 제 2 폴리뉴클레오타이드의 클로닝을 가능하게 하여, 상기 순서대로, 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드, 제 2 인테인 도메인, 제 1 인테인 도메인 및 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드를 포함하는 융합 단백질을 암호화하는 폴리뉴클레오타이드가 형성되도록 하고,
    a. 제 1 인테인 도메인이 서열번호 7에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 3에 대해 75% 이상 동일하고;
    b. 제 1 인테인 도메인이 서열번호 16에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 12에 대해 75% 이상 동일하고;
    c. 제 1 인테인 도메인이 서열번호 24에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 20에 대해 75% 이상 동일하고;
    d. 제 1 인테인 도메인이 서열번호 38에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 34에 대해 75% 이상 동일하거나, 또는
    e. 제 1 인테인 도메인이 서열번호 65에 대해 75%이상 동일하면, 제 2 인테인 도메인은 서열번호 64에 대해 75% 이상 동일한, 벡터.
  28. 제 27항에 있어서, 제 2 인테인 도메인과 관심 대상의 제 2 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드를 연결하는 제 1 펩타이드 연결기를 암호화하는 폴리뉴클레오타이드 및/또는 제 1 인테인 도메인과 관심 대상의 제 1 폴리뉴클레오타이드에 의해 암호화된 폴리펩타이드를 연결하는 제 2 펩타이드 연결기를 암호화하는 폴리뉴클레오타이드를 더 포함하는 벡터.
  29. 제 27항에 있어서, 제 2 인테인 도메인의 첫번째 아미노산이 시스테인 또는 세린; 제 1 인테인 도메인의 마지막 아미노산이 글루타민 또는 아스파라긴; 제 1 인테인 도메인의 끝에서 두번째 아미노산이 히스티딘 및/또는 관심 대상의 제 2 폴리펩타이드 또는 제 1 펩타이드 연결기의 첫번째 아미노산이 시스테인, 세린 또는 트레오닌인 벡터.
KR1020147011492A 2011-09-28 2012-09-28 분할된 인테인 및 그의 이용 KR102096534B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161540101P 2011-09-28 2011-09-28
US61/540,101 2011-09-28
EP12171848 2012-06-13
EP12171848.0 2012-06-13
PCT/EP2012/069219 WO2013045632A1 (en) 2011-09-28 2012-09-28 Split inteins and uses thereof

Publications (2)

Publication Number Publication Date
KR20140069313A true KR20140069313A (ko) 2014-06-09
KR102096534B1 KR102096534B1 (ko) 2020-04-03

Family

ID=47994314

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147011492A KR102096534B1 (ko) 2011-09-28 2012-09-28 분할된 인테인 및 그의 이용

Country Status (11)

Country Link
US (1) US10100080B2 (ko)
EP (1) EP2761006B1 (ko)
JP (1) JP6177780B2 (ko)
KR (1) KR102096534B1 (ko)
CN (1) CN104053779B (ko)
AU (1) AU2012314355B2 (ko)
CA (1) CA2850411C (ko)
DK (1) DK2761006T3 (ko)
ES (1) ES2618632T3 (ko)
IL (1) IL231817B (ko)
WO (1) WO2013045632A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190077620A (ko) * 2014-11-03 2019-07-03 메르크 파텐트 게엠베하 생체분자를 정제하기 위한 가용성 인테인 융합 단백질 및 방법
KR20210069271A (ko) * 2019-12-03 2021-06-11 전남대학교산학협력단 스플릿 인테인을 접목한 가용성 향상 이중 기능성 융합 태그를 이용한 재조합 섬유아세포 성장인자 수용체의 제조방법, 정제방법, 및 이의 용도

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2877490T3 (pl) * 2012-06-27 2019-03-29 The Trustees Of Princeton University Inteiny podzielone, koniugaty i ich zastosowania
WO2014055778A2 (en) 2012-10-03 2014-04-10 Agrivida, Inc. Multiprotein expression cassettes
CN105263509A (zh) * 2013-05-31 2016-01-20 诺和诺德股份有限公司 使用工程改造的内含肽生产肽的方法
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
AU2014368383B2 (en) 2013-12-20 2020-01-16 Cellectis Method of engineering multi-input signal sensitive T cell for immunotherapy
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
CN104387473B (zh) * 2014-10-27 2017-10-10 郑州大学 用于非酶切非色谱纯化方法原核表达融合蛋白Prx的类弹性蛋白多肽ELP
DK3212778T3 (da) 2014-10-28 2019-11-04 Agrivida Inc Fremgangsmåder og sammensætninger til stabilisering af trans-splejsning af intein-modificerede proteaser
DE102015207516A1 (de) 2015-04-23 2016-10-27 Paul-Ehrlich-Institut Bundesamt Für Sera Und Impfstoffe Kopplung von Proteinen von Interesse (POI) mit viralen Vektoren mittels Intein-vermittelten Proteinspleißens
WO2016174311A1 (en) * 2015-04-30 2016-11-03 University Of Helsinki Ion-inducible protein modification
EP3365357B1 (en) 2015-10-23 2024-02-14 President and Fellows of Harvard College Evolved cas9 proteins for gene editing
FI3408292T3 (fi) * 2016-01-29 2023-06-30 Univ Princeton Jaettuja inteiinejä, joilla on poikkeuksellinen silmukoitumisaktiivisuus
CN106397599B (zh) * 2016-02-23 2020-08-07 上海交通大学 二价双特异性抗体杂交蛋白的表达和制备方法
AU2017306676B2 (en) 2016-08-03 2024-02-22 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
SG11201903089RA (en) 2016-10-14 2019-05-30 Harvard College Aav delivery of nucleobase editors
US10738338B2 (en) * 2016-10-18 2020-08-11 The Research Foundation for the State University Method and composition for biocatalytic protein-oligonucleotide conjugation and protein-oligonucleotide conjugate
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
WO2018165504A1 (en) 2017-03-09 2018-09-13 President And Fellows Of Harvard College Suppression of pain by gene editing
US11542496B2 (en) 2017-03-10 2023-01-03 President And Fellows Of Harvard College Cytosine to guanine base editor
IL306092A (en) 2017-03-23 2023-11-01 Harvard College Nucleic base editors that include nucleic acid programmable DNA binding proteins
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
JP2020534795A (ja) 2017-07-28 2020-12-03 プレジデント アンド フェローズ オブ ハーバード カレッジ ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物
CN107312791B (zh) * 2017-08-11 2020-04-14 湖南农业大学 双拷贝eip表达载体及其构建方法和应用
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
WO2019075200A1 (en) * 2017-10-12 2019-04-18 The Jackson Laboratory METHODS AND COMPOSITIONS OF TRANSGENIC SELECTION
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
US20210189485A1 (en) * 2017-11-06 2021-06-24 The Jackson Laboratory Sequence detection systems
WO2019193418A1 (en) 2018-04-05 2019-10-10 Bio-Rad Abd Serotec Gmbh Display systems for proteins of interest
WO2020028744A1 (en) * 2018-08-02 2020-02-06 Asimov, Inc. Universal chimeric receptors
US11530245B2 (en) 2018-08-31 2022-12-20 Washington University Split intein mediated polymerization and production of mussel foot adhesive protein materials
CN112888710B (zh) * 2018-09-30 2023-06-09 美国杰科实验室有限公司 一种多肽组合物
EP3867387A2 (en) * 2018-10-15 2021-08-25 Fondazione Telethon Intein proteins and uses thereof
US11667682B2 (en) 2018-12-13 2023-06-06 Washington University Split intein mediated protein polymerization for microbial production of materials
LU101118B1 (en) 2019-02-06 2020-08-06 Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Method for detecting a specific splice event of a gene of interest
JP2022525775A (ja) 2019-03-18 2022-05-19 バイオ-ラッド エービーディー セロテック ゲーエムベーハー SpyTag含有ペリプラズム融合タンパク質のプロテアーゼTSP及びOMPT分解からの保護
EP3942037A1 (en) 2019-03-18 2022-01-26 Bio-Rad ABD Serotec GmbH Antigen binding fragments conjugated to a plurality of fc isotypes and subclasses
JP2022526908A (ja) 2019-03-19 2022-05-27 ザ ブロード インスティテュート,インコーポレーテッド 編集ヌクレオチド配列を編集するための方法および組成物
US20220204975A1 (en) 2019-04-12 2022-06-30 President And Fellows Of Harvard College System for genome editing
GB201909491D0 (en) * 2019-07-01 2019-08-14 Governing Council Of The Univ Of Toronto Detection of protein to protein interactions
US20220315906A1 (en) 2019-08-08 2022-10-06 The Broad Institute, Inc. Base editors with diversified targeting scope
US20220340677A1 (en) * 2019-09-09 2022-10-27 Wuhan Yzy Biopharma Co., Ltd. Split intein and preparation method for recombinant polypeptide using the same
WO2021072328A1 (en) 2019-10-10 2021-04-15 The Broad Institute, Inc. Methods and compositions for prime editing rna
GB201917046D0 (en) * 2019-11-22 2020-01-08 Ge Healthcare Bioprocess R&D Ab Improved protein production
WO2021158999A1 (en) 2020-02-05 2021-08-12 The Broad Institute, Inc. Gene editing methods for treating spinal muscular atrophy
EP4118206A1 (en) 2020-03-11 2023-01-18 The Broad Institute Inc. Stat3-targeted base editor therapeutics for the treatment of melanoma and other cancers
EP4143315A1 (en) 2020-04-28 2023-03-08 The Broad Institute Inc. <smallcaps/>? ? ?ush2a? ? ? ? ?targeted base editing of thegene
AU2021267940A1 (en) 2020-05-08 2022-12-08 President And Fellows Of Harvard College Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
US20220017917A1 (en) * 2020-07-17 2022-01-20 Kraig Biocraft Laboratories, Inc. Synthesis of High Molecular Weight Proteins Using Inteins
CN114075571A (zh) * 2020-08-18 2022-02-22 梦芊科技知识产权有限公司 表皮生长因子的核酸构建体、生产方法及其组合物
WO2022060927A1 (en) * 2020-09-17 2022-03-24 Northwestern University Engineered mammalian genetic circuits and methods of using the same
JP2023543803A (ja) 2020-09-24 2023-10-18 ザ ブロード インスティテュート,インコーポレーテッド プライム編集ガイドrna、その組成物、及びその使用方法
JP2024503437A (ja) 2021-01-11 2024-01-25 ザ ブロード インスティテュート,インコーポレーテッド プライム編集効率及び精度を向上させるためのプライム編集因子バリアント、構築物、及び方法
CA3227004A1 (en) 2021-08-06 2023-02-09 The Broad Institute, Inc. Improved prime editors and methods of use
WO2023076898A1 (en) 2021-10-25 2023-05-04 The Broad Institute, Inc. Methods and compositions for editing a genome with prime editing and a recombinase
WO2023081714A1 (en) * 2021-11-02 2023-05-11 Cornell University Intein systems and uses thereof
WO2023102538A1 (en) 2021-12-03 2023-06-08 The Broad Institute, Inc. Self-assembling virus-like particles for delivery of prime editors and methods of making and using same
WO2023205687A1 (en) 2022-04-20 2023-10-26 The Broad Institute, Inc. Improved prime editing methods and compositions
WO2023250174A1 (en) 2022-06-23 2023-12-28 Prime Medicine, Inc. Split prime editors
WO2024077267A1 (en) 2022-10-07 2024-04-11 The Broad Institute, Inc. Prime editing methods and compositions for treating triplet repeat disorders
CN116731126B (zh) * 2023-01-30 2024-02-23 态创生物科技(广州)有限公司 内含肽ChiATP、内含肽ChiATP-二肽-2融合蛋白及二肽-2的表达方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2295596A1 (en) * 2008-05-23 2011-03-16 Shantou University A method and kit for purification of recombinant proteins using a self-cleaving ptotein intein

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5667988A (en) 1992-01-27 1997-09-16 The Scripps Research Institute Methods for producing antibody libraries using universal or randomized immunoglobulin light chains
US5580759A (en) 1994-02-03 1996-12-03 Board Of Regents, The University Of Texas System Construction of recombinant DNA by exonuclease recession
AU781215B2 (en) 1998-12-18 2005-05-12 Penn State Research Foundation, The Cyclic peptides
EP2067788B1 (en) 1999-05-18 2015-07-22 Dyax Corp. Fab fragment libraries and methods for their use
CN1231583C (zh) * 1999-05-24 2005-12-14 新英格兰生物实验室公司 产生能够表达活性蛋白产物的断裂、不可传递的基因的方法
US20040096938A1 (en) 1999-05-24 2004-05-20 Ming-Qun Xu Method for generating split, non-transferable genes that are able to express an active protein product
US7575860B2 (en) 2000-03-07 2009-08-18 Evans David H DNA joining method
EP1339427A4 (en) 2000-11-01 2004-09-15 Elusys Therapeutics Inc PROCESS FOR PRODUCING BISPECIFIC MOLECULES BY TRANSEPISSANCE OF PROTEINS
US7238854B2 (en) * 2002-04-11 2007-07-03 E. I. Du Pont De Nemours And Company Method of controlling site-specific recombination
FI20021726A0 (fi) * 2002-09-27 2002-09-27 Ctt Cancer Targeting Tech Oy Menetelmä peptidien tuottamiseksi
CA2523034A1 (en) 2003-04-28 2004-11-11 Sekisui Chemical Co., Ltd. Method of producing target protein, fused protein and gene thereof, partial sequence protein of intein and gene thereof, expression vector and transformant
US20060141570A1 (en) * 2004-11-16 2006-06-29 Wood David W Intein-mediated protein purification using in vivo expression of an aggregator protein
CN101899489A (zh) * 2009-05-27 2010-12-01 南京大学 利用内含肽反式剪接模式化生产融合蛋白质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2295596A1 (en) * 2008-05-23 2011-03-16 Shantou University A method and kit for purification of recombinant proteins using a self-cleaving ptotein intein

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190077620A (ko) * 2014-11-03 2019-07-03 메르크 파텐트 게엠베하 생체분자를 정제하기 위한 가용성 인테인 융합 단백질 및 방법
KR20210069271A (ko) * 2019-12-03 2021-06-11 전남대학교산학협력단 스플릿 인테인을 접목한 가용성 향상 이중 기능성 융합 태그를 이용한 재조합 섬유아세포 성장인자 수용체의 제조방법, 정제방법, 및 이의 용도

Also Published As

Publication number Publication date
CA2850411C (en) 2023-08-15
US10100080B2 (en) 2018-10-16
CA2850411A1 (en) 2013-04-04
AU2012314355B2 (en) 2018-01-18
EP2761006A1 (en) 2014-08-06
ES2618632T3 (es) 2017-06-21
US20150232507A1 (en) 2015-08-20
CN104053779A (zh) 2014-09-17
EP2761006B1 (en) 2016-12-14
WO2013045632A1 (en) 2013-04-04
CN104053779B (zh) 2017-05-24
JP2014528720A (ja) 2014-10-30
KR102096534B1 (ko) 2020-04-03
IL231817B (en) 2018-05-31
AU2012314355A1 (en) 2014-04-24
JP6177780B2 (ja) 2017-08-09
IL231817A0 (en) 2014-05-28
DK2761006T3 (en) 2017-03-27

Similar Documents

Publication Publication Date Title
KR102096534B1 (ko) 분할된 인테인 및 그의 이용
EP2173877B1 (en) Solubility tags for the expression and purification of bioactive peptides
US20100021987A1 (en) Compositions, Methods, and Kits for Enhancing Protein Expression
CA2474457C (en) Protein tag comprising a biotinylation domain and method for increasing solubility and determining folding state
US8080387B2 (en) Method for preparing soluble and active recombinant proteins usins PDI as a fusion partner
KR20200037819A (ko) 재조합 단백질 발현을 위한 융합 태그
EP3289088B1 (en) Uncoupling growth and protein production
AU674741B2 (en) Methods and DNA expression systems for over-expression of proteins in host cells
KR20130141001A (ko) 목적 단백질의 분리 및 정제를 위한 신규한 벡터 시스템
KR20160077750A (ko) 재조합 트랜스 글루타미나아제의 대량 생산 방법
RU2619217C1 (ru) Температурочувствительный мутантный интеин для нерастворимой экспрессии предшественника целевого белка
US6632638B1 (en) Enhanced solubility of recombinant proteins using Uracil DNA glycosylase inhibitor
WO2012067220A1 (ja) 有用タンパク質の高発現方法
CA3233224A1 (en) Chimeric protein and expression system

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)