KR20230118799A - 대형 거울상 단백질의 화학적 합성 및 이의 용도 - Google Patents

대형 거울상 단백질의 화학적 합성 및 이의 용도 Download PDF

Info

Publication number
KR20230118799A
KR20230118799A KR1020237007826A KR20237007826A KR20230118799A KR 20230118799 A KR20230118799 A KR 20230118799A KR 1020237007826 A KR1020237007826 A KR 1020237007826A KR 20237007826 A KR20237007826 A KR 20237007826A KR 20230118799 A KR20230118799 A KR 20230118799A
Authority
KR
South Korea
Prior art keywords
amino acid
protein
ligation
dna
sequence
Prior art date
Application number
KR1020237007826A
Other languages
English (en)
Inventor
팅 주
추야오 판
창 뎅
위안 쑤
Original Assignee
칭화 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 칭화 유니버시티 filed Critical 칭화 유니버시티
Publication of KR20230118799A publication Critical patent/KR20230118799A/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • C07K1/02General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length in solution
    • C07K1/026General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length in solution by fragment condensation in solution
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1241Nucleotidyltransferases (2.7.7)
    • C12N9/1247DNA-directed RNA polymerase (2.7.7.6)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1241Nucleotidyltransferases (2.7.7)
    • C12N9/1252DNA-directed DNA polymerase (2.7.7.7), i.e. DNA replicase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07006DNA-directed RNA polymerase (2.7.7.6)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07007DNA-directed DNA polymerase (2.7.7.7), i.e. DNA replicase

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Peptides Or Proteins (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

RNA/DNA 조작 효소를 포함하는 거울상 단백질(그들의 자연적으로 발생하는 L-아미노산 대응물과 관련하여)로도 지칭되는 대형(400 aa 길이 이상) D-아미노산 단백질의 일반적인 생산 방법 및 광범위한 연구, 실제 데이터 저장 및 의약 응용 분야에서 이의 용도가 여기에 제공된다.

Description

대형 거울상 단백질의 화학적 합성 및 이의 용도
관련 출원
이 출원은 2020년 8월 6일자로 출원된 미국 예비 특허 출원 제63/061,844호의 우선권의 이점을 청구하며, 내용은 그들의 전체가 참조로 본 명세서에 포함된다.
서열 목록 설명
2021년 5월 6일에 생성되고 180,286 바이트로 구성된 87597_ST25.txt라는 제목의 ASCII 파일은 본 출원의 출원과 동시에 제출되어 여기에 참조로 포함된다.
본 발명은 이의 일부 구체예에서 생화학에 관한 것이고, 배타적이지는 않지만 보다 상세하게는, 대형 단백질 및 그들의 거울상 대응물의 전체 화학적 합성 방법 및 이의 용도에 관한 것이다.
전적으로 비-천연 D-아미노산 및 비-키랄 아미노산 글리신으로 구성된 단백질은 그들의 천연 L-단백질 대응물의 거울상 형태이다. 최근 화학적 단백질 합성의 발전으로 도메인 크기의 거울상 D-단백질에 대한 독특하고 손쉬운 합성 접근이 가능해지면서 단백질 연구를 "거울(the looking glass")을 통해 이전에는 달성할 수 없었던 방식으로 수행할 수 있게 되었다. D-단백질은 결정화하기 어려운 천연 L-형태의 구조 결정을 용이하게 할 수 있다(라세미 X선 결정학); D-단백질은 궁극적으로 약리학적으로 우수한 D-펩타이드/D-단백질 치료제(거울상 파지 디스플레이)를 산출하기 위한 라이브러리 스크리닝의 미끼 역할을 할 수 있다; D-단백질은 또한 생물학, 약물 발견 및 면역학에서 분자 이벤트를 조사하기 위한 강력한 기계적 도구로 사용될 수 있다.
160여 년 전 파스퇴르가 타르트레이트 염의 거울상이성질체 결정을 힘들게 분리한 이래 생물학적 분자의 한손잡이성은 과학자와 비전문가 모두를 매료시켰다. 보다 최근에는 많은 이론적 및 실험적 조사가 라세믹 프리바이오틱 세계에서 한 거울상이성질체가 다른 거울상이성질체를 지배하게 된 방법에 대한 모델을 설명하는 데 도움이 되었다. Blackmond, D.G., ["The Origin of Biological Homochirality", Cold Spring Harb Perspect Biol., 2010, 2(5), a002147]은 화학적 또는 물리적 공정 또는 이 둘의 결합을 포함하는 거울상농축 메커니즘을 강조한다. 그러한 노력의 과학적 원동력 중 하나는 생명의 기원을 이해하려는 관심에서 비롯된다. 왜냐하면 생물학적 분자의 동종키랄성은 생명의 신호이기 때문이다. 다른 동기는 예를 들어 안전한 데이터 저장을 위해 자연에 영향을 받지 않는 분자 시스템을 제공할 수 있는 직교 생물학적 도구와 같은 실용적이고 응용되는 과학적 관심에서 비롯된다.
핵산 측면에서 포스포라미데이트 화학은 DNA의 경우 최대 약 150 nt, RNA의 경우 약 70 nt의 올리고뉴클레오티드(올리고) 합성을 가능하게 하였다. 단백질 측면에서 SPPS(solid-phase peptide synthesis, 고체상 펩타이드 합성)와 NCL(native chemical ligation, 천연 화학 결찰) 간의 결합은 다양한 단백질의 전체 화학적 합성을 가능하게 하는 강력한 방법을 제공하였다(5, 14-20). 구체적으로, 거울상 유전자 복제 및 전사 시스템은 174-aa 아프리카 돼지 열병 바이러스 중합효소 X(ASFV pol X)(5)의 거울상 버전을 기반으로 실현되었으며, 그 뒤를 이어 보다 효율적이고 내열성이 뛰어난 352-aa 술폴로부스 솔파타리쿠스(Sulfolobus solfataricus) P2 DNA 중합효소 IV(Dpo4)(17-19)는 거울상 중합효소 연쇄 반응(mirror-image polymerase chain reaction, MI-PCR)뿐만 아니라 거울상 유전자 전사 및 역전사를 구현한다(21). 특히, D-Dpo4의 돌연변이 버전으로 전장 5S rRNA가 120 nt에서 효소적으로 전사되지만 화학적으로 합성하기에는 너무 길었다(21).
거울상 단백질은 구조 생물학, 펩타이드/단백질 약물 설계 및 생물학적 과정의 기계학적 연구에서 광범위하게 응용할 수 있는 강력한 도구이다. 화학적 단백질 합성 기술이 더욱 강력해지고 다양한 분야의 과학자들이 쉽게 사용할 수 있게 됨에 따라 화학, 생물학 및 생의학 연구에서 거울상 단백질의 엄청난 잠재력이 완전히 드러날 것이다. 두 가지 가능 기술인 천연 화학 결찰 및 거울상 파지 디스플레이가 특히 매력적이며 다양한 인간 질병 치료를 위한 약리학적으로 우수한 새로운 종류의 펩타이드 및 단백질 치료제 발견에 큰 영향을 미칠 것이다.
리뷰 "Mirror image proteins" [Zhao, L. and Lu, W., Current Opinion in Chemical Biology, 2014, 22, pp. 56-61]은 거울상 단백질을 구조 생물학, 약물 발견 및 면역학에 적용하는 최근의 진행 상황을 조사하고 있다.
Hartrampf, N. et al. ["Synthesis of protein by automatic flow chemistry", Science, 2020, 368(6494), pp. 980-987]는 327회 연속 반응에 걸쳐 최대 164개의 아미노산 길이의 펩타이드 사슬을 직접 제조하기 위해 자동화 고속 유동 기기와 일치하는 매우 효율적인 화학을 보고하며, 여기서 효소, 구조 단위 및 조절 인자를 나타내는 9개의 상이한 단백질 사슬의 화학적 합성에 의해 입증된 바와 같이 펩타이드 사슬 연장은 몇 시간 내에 완료된다. 연구진은 정제 및 폴딩 후 합성 물질이 생물학적으로 발현된 단백질에 필적하는 생물물리학적 및 효소적 특성을 나타내어 고충실도 자동화 유동 화학(automated flow chemistry) 또는 자동화 고속 유동 펩타이드 합성(automated fast-flow peptide synthesis, AFPS)이 리보좀 없이 단일 도메인 단백질을 생산하기 위한 대체 기술임을 보여준다
그러나 거울상 단백질은 상대적으로 작은 단백질에 구속되어 있는 반면 약 400개 이상의 아미노산(aa) 잔기를 가진 더 큰 단백질의 합성은 주로 펩타이드 세그먼트의 제한된 합성 및 결찰 효율로 인해 달성하기 훨씬 더 어렵다. 최근에 개발된 자동화 고속 유동 펩타이드 합성(AFPS) 기술은 일상적인 표준 SPPS에서 이전에 접근할 수 있었던 것보다 3배 이상 더 긴 펩타이드 사슬을 생성할 수 있지만, 큰 거울상 분자를 합성하기 위한 적절한 방법론의 명백한 부족은 거울상 생물학 시스템의 개발 및 정보 저장과 같은 응용 프로그램을 엄청나게 제한하였다.
1. L. Ceze, J. Nivala, K. Strauss, Molecular digital data storage using DNA. Nat Rev Genet 20, 456-466 (2019). 2. N. Goldman et al., Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature 494, 77-80 (2013). 3. G. M. Church, Y. Gao, S. Kosuri, Next-generation digital information storage in DNA. Science 337, 1628 (2012). 4. L. Pasteur, Researches on the Molecular Asymmetry of Natural Organic Products. Soc. Chim. Paris, (1860). 5. Z. Wang, W. Xu, L. Liu, T. F. Zhu, A synthetic molecular system capable of mirror-image genetic replication and transcription. Nature Chemistry 8, 698-704 (2016). 6. M. Peplow, A Conversation with Ting Zhu. ACS Cent Sci 4, 783-784 (2018). 7. M. Peplow, Mirror-image enzyme copies looking-glass DNA. Nature 533, 303-304 (2016). 8. S. L. Beaucage, M. H. Caruthers, Deoxynucleoside Phosphoramidites - a New Class of Key Intermediates for Deoxypolynucleotide Synthesis. Tetrahedron Lett 22, 1859-1862 (1981). 9. Y. Liu et al., Synthesis and applications of RNAs with position-selective labelling and mosaic composition. Nature 522, 368-372 (2015). 10. R. B. Merrifield, Solid Phase Peptide Synthesis .1. Synthesis of a Tetrapeptide. Journal of the American Chemical Society 85, 2149-& (1963). 11. L. Z. Yan, P. E. Dawson, Synthesis of peptides and proteins without cysteine residues by native chemical ligation combined with desulfurization. J Am Chem Soc 123, 526-533 (2001). 12. P. Dawson, T. Muir, I. Clark-Lewis, S. Kent, Synthesis of proteins by native chemical ligation. Science 266, 776-779 (1994). 13. G.-M. Fang et al., Protein Chemical Synthesis by Ligation of Peptide Hydrazides. Angewandte Chemie International Edition 50, 7645-7649 (2011). 14. R. Milton, S. Milton, S. Kent, Total chemical synthesis of a D-enzyme: the enantiomers of HIV-1 protease show reciprocal chiral substrate specificity. Science 256, 1445-1448 (1992). 15. A. A. Vinogradov, E. D. Evans, B. L. Pentelute, Total synthesis and biochemical characterization of mirror image barnase. Chemical Science 6, 2997-3002 (2015). 16. M. T. Weinstock, M. T. Jacobsen, M. S. Kay, Synthesis and folding of a mirror-image enzyme reveals ambidextrous chaperone activity. Proceedings of the National Academy of Sciences of the United States of America 111, 11679-11684 (2014). 17. W. Xu et al., Total chemical synthesis of a thermostable enzyme capable of polymerase chain reaction. Cell discovery 3, 17008 (2017). 18. W. Jiang et al., Mirror-image polymerase chain reaction. Cell discovery 3, 17037 (2017). 19. A. Pech et al., A thermostable d-polymerase for mirror-image PCR. Nucleic Acids Res 45, 3997-4005 (2017). 20. L. E. Zawadzke, J. M. Berg, A Racemic Protein. Journal of the American Chemical Society 114, 4002-4003 (1992). 21. M. Wang et al., Mirror-image gene transcription and reverse transcription. Chem 5, 848-857 (2019). 22. B. J. Lamarche, S. Kumar, M. D. Tsai, ASFV DNA polymerse X is extremely error-prone under diverse assay conditions and within multiple DNA sequence contexts. Biochemistry 45, 14826-14833 (2006). 23. H. Ling, F. Boudsocq, R. Woodgate, W. Yang, Crystal structure of a Y-family DNA polymerase in action: a mechanism for error-prone and lesion-bypass replication. Cell 107, 91-102 (2001). 24. F. Boudsocq, S. Iwai, F. Hanaoka, R. Woodgate, Sulfolobus solfataricus P2 DNA polymerase IV (Dpo4): an archaeal DinB-like DNA polymerase with lesion-bypass properties akin to eukaryotic polη. Nucleic Acids Research 29, 4607-4616 (2001). 25. J. Cline, J. C. Braman, H. H. Hogrefe, PCR fidelity of pfu DNA polymerase and other thermostable DNA polymerases. Nucleic Acids Res 24, 3546-3551 (1996). 26. C. J. Hansen, L. Wu, J. D. Fox, B. Arezi, H. H. Hogrefe, Engineered split in Pfu DNA polymerase fingers domain improves incorporation of nucleotide gamma-phosphate derivative. Nucleic Acids Res 39, 1801-1810 (2011). 27. Q. Wan, S. J. Danishefsky, Free-radical-based, specific desulfurization of cysteine: a powerful advance in the synthesis of polypeptides and glycopolypeptides. Angew Chem Int Ed Engl 46, 9248-9252 (2007). 28. J. T. Hyde C, Owen D, Quibell M, Sheppard RC., Some 'difficult sequences' made easy. International journal of peptide and Protein Research 43, 431-440 (1994). 29. T. Johnson, M. Quibell, R. C. Sheppard, N,O-bisFmoc derivatives of N-(2-hydroxy-4-methoxybenzyl)-amino acids: Useful intermediates in peptide synthesis. Journal of Peptide Science 1, 11-25 (1995). 30. J. S. Zheng et al., Robust Chemical Synthesis of Membrane Proteins through a General Method of Removable Backbone Modification. J Am Chem Soc 138, 3553-3561 (2016). 31. M. T. Jacobsen et al., A Helping Hand to Overcome Solubility Challenges in Chemical Protein Synthesis. J Am Chem Soc 138, 11775-11782 (2016). 32. F. W. Torsten Wφhr, Adel Nefzi, Barbara Rohwedder, Tatsunori Sato, Xicheng Sun, Manfred Mutter, Pseudo-Prolines as a Solubilizing, Structure-Disrupting Protection Technique in Peptide Synthesis. J Am Chem Soc 118, 9218-9227 (1996). 33. M. K. Pascal Dumy, Declan E. Ryan, Barbara Rohwedder, Torsten Wφhr, Manfred Mutter, Pseudo-Prolines as a Molecular Hinge: Reversible Induction of cis Amide Bonds into Peptide Backbones. J. Am. Chem. Soc. 119, 918-925 (1997). 34. Y. Sohma et al., 'O-Acyl isopeptide method' for the efficient synthesis of difficult sequence-containing peptides: use of 'O-acyl isodipeptide unit'. Tetrahedron Letters 47, 3013-3017 (2006). 35. I. Coin, The depsipeptide method for solid-phase synthesis of difficult peptides. Journal of peptide science : an official publication of the European Peptide Society 16, 223-230 (2010). 36. G. M. Fang, J. X. Wang, L. Liu, Convergent chemical synthesis of proteins by ligation of peptide hydrazides. Angew Chem Int Ed Engl 51, 10347-10350 (2012). 37. J. S. Zheng, S. Tang, Y. K. Qi, Z. P. Wang, L. Liu, Chemical synthesis of proteins using peptide hydrazides as thioester surrogates. Nat Protoc 8, 2483-2495 (2013). 38. N. K. L., G. Gerald, E. Fritz, V. Hans-Peter, Direct sequencing of polymerase chain reaction amplified DNA fragments through the incorporation of deoxynucleoside α-thiotriphosphates. Nucleic Acids Research, 21 (1988). 39. G. Gish, F. Eckstein, DNA and RNA sequence determination based on phosphorothioate chemistry. Science 240, 1520-1522 (1988). 40. C. Y. Chen, DNA polymerases drive DNA sequencing-by-synthesis technologies: both past and present. Front Microbiol 5, 305 (2014). 41. A. S. Xiong et al., A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res 32, e98 (2004). 42. A. Tiessen, P. Perez-Rodriguez, L. J. Delaye-Arredondo, Mathematical modeling and comparison of protein size distribution in different plant, animal, fungal and microbial species reveals a negative correlation between protein size and protein number, thus providing insight into the evolution of proteomes. BMC Res Notes 5, 85 (2012). 43. C. Cozens, V. B. Pinheiro, A. Vaisman, R. Woodgate, P. Holliger, A short adaptive path from DNA to RNA polymerases. Proc Natl Acad Sci U S A 109, 8067-8072 (2012). 44. X. Liu, T. F. Zhu, Sequencing mirror-Image DNA chemically. Cell Chemical Biology 25, 1151-1156 e1153 (2018). 45. D. Wade et al., All-D amino acid-containing channel-forming antibiotic peptides. Proc Natl Acad Sci U S A 87, 4761-4765 (1990).
따라서 본 발명의 양태는 아미노산 잔기의 L- 및 D-손잡이성이 모두에서 상대적으로 큰 단백질(400 aa보다 긴)의 전체 화학적 합성 방법 및 본 명세서에 개시된 방법에 따라 제조된 D-아미노산 단백질에 대한 응용에 관한 것이다. 대형 단백질은 본 발명의 구체예에 따라 아미노산 서열에서 섹션을 탐색함으로써 생화학적 거대분자의 관여 또는 존재 없이 화학적으로 합성되며, 여기서 아미노산 잔기는 다중 서열 정렬 및/또는 구조 정보에 기초하여 단백질의 기능성에 악영향을 미치지 않고 대체(돌연변이)될 수 있다. 현재 개시된 발명에 따르면, 돌연변이는 단백질 서열에 도입되어 분할 부위 및/또는 결찰 부위를 삽입할 뿐만 아니라 결찰-유도성 폴리펩타이드의 소수성을 감소시키고, 단백질에서 Ile 잔기의 수를 감소시켜 D-아미노산 단백질의 제조 비용을 줄인다. D-아미노산 단백질의 용도는 배 직교(biorthogonal) 분자 데이터 저장, 압타머 개발을 위한 SELEX 및 X선 단백질 결정학에서의 결정 성장 전략과 같이 제한 없이 제공된다.
따라서, 본 발명의 일부 구체예의 한 양태에 따르면, 단백질의 적어도 2개의 결찰-유도성 세그먼트를 결찰함으로써 수행되는 단백질을 화학적으로 생산하는 방법이 제공되되, 각각의 결찰-유도성 세그먼트는 화학적으로 합성가능하고,
i. 단백질의 아미노산 서열에서 적어도 하나의 결찰-유도성 서열을 확인하고, 상기 결찰-유도성 서열에서 단백질의 상기 아미노산 서열을 분석하여 복수의 결찰-유도성 세그먼트를 얻는 단계; 및
ii. 각각의 상기 결찰-유도성 세그먼트가 화학적으로 합성가능한 경우, 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하는 단계;
iii. 상기 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 상기 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하고, 상기 구조적으로-손실된 섹션에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 상기 구조적으로-손실된 섹션에 결찰-유도성 서열을 도입하며, 상기 결찰-유도성 서열에서 단백질의 아미노산 서열을 분석하고, 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하는 단계에 의해 얻을 수 있다.
본 발명의 일부 구체예에서, 단계 (i)에서, 결찰-유도성 서열 중 적어도 하나는 단백질에서 구조적으로-손실된 섹션에 있다.
본 발명의 일부 구체예에서, 본 명세서에 제공된 방법은 단계 (iii)을 포함한다.
본 발명의 일부 구체예에서, 본 명세서에 제공된 방법은 단계 (i) 전에
a) 단백질의 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하는 단계;
b) 각각의 도메인-형성 세그먼트가 화학적으로 합성가능한 경우, 각각의 도메인-형성 세그먼트를 화학적으로 합성하는 단계; 및
c) 도메인-형성 세그먼트들을 함께 폴딩하여 단백질을 얻는 단계를 포함한다.
본 발명의 일부 구체예에서, 본 명세서에 제공된 방법은 단백질의 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하는 단계 (a)를 포함한다.
본 발명의 일부 구체예에 따르면, 도메인-형성 세그먼트 중 하나가 화학적으로 합성할 수 없는 경우, 방법은
d) 도메인-형성 세그먼트에서 적어도 하나의 결찰-유도성 서열을 확인하고, 결찰-유도성 서열에서 도메인-형성 세그먼트의 아미노산 서열을 분석하여 복수의 화학적으로 합성가능한 결찰-유도성 세그먼트를 얻는 단계;
e) 도메인-형성 세그먼트가 본질적으로 결찰-유도성 서열이 없거나, 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 도메인-형성 세그먼트 또는 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하는 단계;
f) 구조적으로-손실된 섹션 또는 결찰-유도성 세그먼트의 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 구조적으로-손실된 섹션 또는 결찰-유도성 세그먼트에 결찰-유도성 서열을 도입하고, 결찰-유도성 서열에서 도메인-형성 세그먼트의 아미노산 서열을 분석하여 복수의 화학적으로 합성가능한 결찰-유도성 세그먼트의 서열을 얻는 단계; 및
g) 각각의 화학적으로 합성가능한 결찰-유도성 세그먼트를 화학적으로 합성하는 단계에 의해 추가로 수행된다.
본 발명의 일부 구체예에서, 본 명세서에 제공된 방법은 단계(f)를 포함한다.
본 발명의 일부 구체예에 따르면, 합성 단백질은 상응하는 생물학적으로 생산된 단백질의 활성의 적어도 1%, 5% 또는 적어도 10%를 나타낸다.
본 발명의 일부 구체예에 따르면, 활성은 촉매 활성, 특이 결합 활성 및 구조적 활성으로 구성된 군에서 선택된다.
본 발명의 일부 구체예에 따르면, 단백질은 적어도 240개의 아미노산 잔기를 포함한다.
본 발명의 일부 구체예에 따르면, 단백질은 적어도 약 400개의 아미노산 잔기를 포함한다.
본 발명의 일부 구체예에 따르면, 본 명세서에 제공된 방법은 결찰-유도성 세그먼트 중 적어도 하나에서, 적어도 하나의 소수성 아미노산 잔기를 다음의 소수성 순서에 따라 덜 소수성인 아미노산으로 치환하는 단계를 더 포함한다:
Ile > Leu > Phe > Val > Met > Pro > Trp > His(0) > Thr > Glu(0) > Gln > Cys > Tyr > Ala > Ser > Asn > Asp(0) > Arg+ > Gly > His+ > Glu > Lys+ > Asp-.
본 발명의 일부 구체예에 따르면, 합성 단백질은 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 생산된다.
본 발명의 일부 구체예에 따르면, 단백질은 상응하는 생물학적으로 생산된 단백질의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 갖는다.
본 발명의 일부 구체예에 따르면, 본 명세서 제공된 방법은 적어도 하나의 Ile 잔기를 D-Ala 잔기, D-Val 잔기, D-Leu 잔기, D-Thr 잔기, D-Phe 잔기, D-Met 잔기, Gly 잔기 및 D-Pro 잔기로 구성된 군에서 선택된 D-아미노산 잔기로 치환하는 단계를 더 포함한다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, 본 명세서에 제공된 방법에 따라 제조된 단백질이 제공되되, 단백질은 적어도 약 240개의 아미노산 잔기 길이이다.
본 발명의 일부 구체예에 따르면, 본 명세서에 제공된 화학적으로 합성된 단백질은 비-공유적으로 부착된 폴리펩타이드 사슬인 적어도 2개의 도메인-형성 세그먼트를 포함하되, 도메인-형성 세그먼트는 적어도 하나의 상응하는 생물학적으로 생산된 단백질에서 공유적으로 부착된 폴리펩타이드 사슬이다 .
본 발명의 일부 구체예에 따르면, 본 명세서에 제공된 단백질은 효소, 운송 단백질, 구조/역학 단백질, 호르몬, 신호전달 단백질, 항체, 유체-밸런싱 단백질(fluid-balancing protein), pH-밸런싱 단백질, 세포 채널 및 세포 펌프로 구성된 군에서 선택된다.
본 발명의 일부 구체예에 따르면, 단백질은 상응하는 생물학적으로 생산된 효소에 의해 촉매된 반응을 촉매할 수 있는 효소이다.
본 발명의 일부 구체예에 따르면, 화학적으로 합성된 효소는 DNA 주형을 사용하여 리보뉴클레오티드로부터 RNA를 합성할 수 있는 RNA 중합효소이다.
본 발명의 일부 구체예에 따르면, 화학적으로 합성된 RNA 중합효소는 T7 RNA 중합효소 또는 Pfu DNA 중합효소 돌연변이체이다.
본 발명의 일부 구체예에 따르면, 화학적으로 합성된 Pfu DNA 중합효소 돌연변이체는 V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 갖는다.
일부 구체예에서, Pfu DNA 중합효소는 D215A, A486Y 및 L490W(SEQ ID No. 77)로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다.
일부 구체예에서, Pfu DNA 중합효소는 DNA 결합 구조 도메인을 더 포함하되, DNA 결합 구조 도메인은 sso7d 구조 도메인(SEQ ID No. 78)이다.
본 발명의 일부 구체예에 따르면, 화학적으로 합성된 효소는 디옥시리보뉴클레오티드로부터 DNA를 합성할 수 있는 DNA 중합효소이다.
본 발명의 일부 구체예에 따르면, 화학적으로 합성된 DNA 중합효소는 Pfu DNA 중합효소이다.
본 발명의 구체예의 다른 양태에 따르면, D-아미노산 단백질의 적어도 2개의 결찰-유도성 세그먼트를 결찰하는 단계를 포함하는 D-아미노산 단백질(거울상 단백질)을 화학적으로 생산하는 방법이 제공되되, 각각의 결찰-유도성 세그먼트는 적어도 90%의 비-Gly D-아미노산 잔기를 포함하고, 화학적으로 합성가능하며,
i. 상응하는 L-아미노산 단백질의 아미노산 서열에서 적어도 하나의 결찰-유도성 서열을 확인하고, 결찰-유도성 서열에서 아미노산 서열을 분석하여 복수의 결찰-유도성 세그먼트를 얻는 단계; 및
ii. 각각의 결찰-유도성 세그먼트가 화학적으로 합성가능한 경우, 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 결찰-유도성 세그먼트를 화학적으로 합성하는 단계;
iii. 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하고, 구조적으로-손실된 섹션의 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 구조적으로-손실된 섹션에 결찰-유도성 서열을 도입하며, 결찰-유도성 서열에서 결찰-유도성 세그먼트의 아미노산 서열을 분석하고, 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 결찰-유도성 세그먼트를 화학적으로 합성하는 단계에 의해 얻을 수 있다.
본 발명의 일부 구체예에 따르면, 상기 거울상 단백질을 생산하는 방법은, 단계 (i)에서, 결찰-유도성 서열 중 적어도 하나가 상응하는 L-아미노산 단백질의 구조적으로-손실된 섹션에 있는 것을 포함한다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법은 단계 (iii)을 포함한다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법은 단계 (i) 전에,
a) L-아미노산 단백질의 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하는 단계;
b) 각각의 도메인-형성 세그먼트가 화학적으로 합성가능한 경우, 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 도메인-형성 세그먼트를 화학적으로 합성하는 단계; 및
c) 도메인-형성 세그먼트들을 함께 폴딩하여 D-아미노산 단백질을 얻는 단계를 더 포함한다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법에 있어서, 도메인-형성 세그먼트 중 하나가 화학적으로 합성할 수 없는 경우;
d) 도메인-형성 세그먼트에서 적어도 하나의 결찰-유도성 서열을 확인하고, 결찰-유도성 서열에서 도메인-형성 세그먼트의 아미노산 서열을 분석하여 복수의 화학적으로 합성가능한 결찰-유도성 세그먼트를 얻는 단계;
e) 도메인-형성 세그먼트가 본질적으로 결찰-유도성 서열이 없거나, 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 도메인-형성 세그먼트 또는 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하는 단계;
f) 구조적으로-손실된 섹션 또는 결찰-유도성 세그먼트에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 구조적으로-손실된 섹션 또는 결찰-유도성 세그먼트에 결찰-유도성 서열을 도입하고, 결찰-유도성 서열에서 도메인-형성 세그먼트의 아미노산 서열을 분석하는 단계; 및
g) 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 결찰-유도성 세그먼트를 화학적으로 합성하여 도메인-형성 세그먼트를 얻는 단계이다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법은 단계 (iii)을 포함한다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법에 있어서, D-아미노산 단백질은 상응하는 L-아미노산 단백질의 활성의 적어도 1%, 적어도 5% 또는 적어도 10%를 나타낸다.
본 발명의 일부 구체예에 따르면, 거울상 단백질의 활성은 촉매 활성, 특이 결합 활성 및 구조적 활성으로 구성된 군에서 선택된다.
본 발명의 일부 구체예에 따르면, 본 명세서에 제공된 D-아미노산 단백질은 적어도 240, 300, 400 또는 적어도 500개의 아미노산 잔기를 포함한다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법은, 결찰-유도성 세그먼트 중 적어도 하나에서, 소수성 D-아미노산 잔기 중 적어도 하나를 다음의 소수성 순서에 따라 덜 소수성의 아미노산으로 치환하는 단계를 더 포함한다:
D-Ile > D-Leu > D-Phe > D-Val > D-Met > D-Pro > D-Trp > D-His(0) > D-Thr > D-Glu(0) > D-Gln > D-Cys > D-Tyr > D-Ala > D-Ser > D-Asn > D-Asp(0) > D-Arg+ > Gly > D-His+ > D-Glu > D-Lys+ > D-Asp-.
본 발명의 일부 구체예에 따르면, D-아미노산 단백질은 상응하는 L-아미노산 단백질의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 나타낸다.
본 발명의 일부 구체예에 따르면, 거울상 단백질을 생산하는 방법은 적어도 하나의 Ile 잔기를 D-Ala 잔기, D-Val 잔기, D-Leu 잔기, D-Thr 잔기, Gly 잔기, D-Phe 잔기, D-Met 잔기 및 D-Pro 잔기로 구성된 군에서 선택된 D-아미노산 잔기로 치환하는 단계를 더 포함한다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, 본 명세서에 제공된 방법에 따라 제조된 D-아미노산 단백질이 제공된다.
본 발명의 일부 구체예에서, D-아미노산 단백질은 상응하는 L-아미노산 단백질(예를 들어, 상응하는 생물학적으로 생산된 단백질)의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 갖는다.
본 발명의 일부 구체예에 따르면, D-아미노산 단백질은 비-공유적으로 부착된 폴리펩타이드 사슬인 적어도 2개의 도메인-형성 세그먼트를 포함하되, 도메인-형성 세그먼트는 적어도 하나의 상응하는 L-아미노산 단백질에서 공유적으로 부착된 폴리펩타이드 사슬이다.
본 발명의 일부 구체예에 따르면, D-아미노산 단백질은 효소, 운송 단백질, 구조/역학 단백질, 호르몬, 신호전달 단백질, 항체, 유체-밸런싱 단백질, pH-밸런싱 단백질, 세포 채널 및 세포 펌프로 구성된 군에서 선택된다.
본 발명의 일부 구체예에 따르면, D-아미노산 단백질은 상응하는 산물의 거울상이성질체를 형성하기 위해 상응하는 기질의 거울상이성질체를 사용하여 상응하는 L-아미노산 효소와 비교하여 거울상이성질체 반응을 촉매할 수 있는, 즉 상응하는 생물학적으로 생산된 효소의 효소 반응에 필적하는 반응을 촉매할 수 있는 D-아미노산 효소이다.
본 발명의 일부 구체예에 따르면, D-아미노산 효소는 L-DNA 주형을 사용하여 L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있는 D-아미노산 RNA 중합효소이다.
본 발명의 일부 구체예에 따르면, D-아미노산 RNA 중합효소는 D-아미노산 T7 RNA 중합효소 또는 D-아미노산 Pfu DNA 중합효소 돌연변이체이다.
본 발명의 일부 구체예에 따르면, V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 갖는 D-아미노산 Pfu DNA 중합효소 돌연변이체이다.
본 발명의 일부 구체예에 따르면, D-아미노산 단백질은 적어도 하나의 분할 부위, K363 및 P364 사이의 제1 분할 부위 및 N601 및 T602 사이의 제2 분할 부위를 포함하는 T7 RNA 중합효소이다.
본 발명의 일부 구체예에 따르면, D-아미노산 효소는 L-디옥시리보뉴클레오티드로부터 L-DNA를 합성할 수 있는 D-아미노산 DNA 중합효소이다.
본 발명의 일부 구체예에 따르면, D-아미노산 DNA 중합효소는 D-아미노산 Pfu DNA 중합효소이다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, K363 및 P364 사이의 분할 및/또는 N601 및 T602 사이의 분할에 의해 형성된 적어도 2개의 폴리펩타이드 사슬을 포함하는 T7 RNA 중합효소가 제공된다.
일부 구체예에서, 본 명세서에 제공된 T7 RNA 중합효소는 I6V, I14L, I74V, I82V, I109V, I117L, I141V, I210M, I244L, I281V, I320V, I322L, I330V 및 I367L로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다.
본 발명의 다른 양태에 따르면, SEQ ID No. 83과 비교하여 적어도 80% 또는 적어도 90%의 서열 동일성을 특징으로 하는 아미노산 서열을 갖는 T7 RNA 중합효소가 제공된다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, K467 및 M468 사이의 분할에 의해 형성된 적어도 2개의 폴리펩타이드 사슬을 포함하는 Pfu DNA 중합효소가 제공된다. 두 폴리펩타이드 사슬은 그들의 주 사슬 사이의 공유 결합을 통해 서로 연결되어 있지 않다.
일부 구체예에서, Pfu DNA 중합효소는 E102A, E276A, K317G, V367L 및 I540A로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다.
일부 구체예에서, 본 명세서에 제공된 Pfu DNA 중합효소는 38F, I62V, I65V, I80V, I127V, I137M, I158L, I171A, I176V, I191V, I197V, I198V, I205V, I206V, I228V, I232L, I244M, I256V, I264A, I268L, I282V, I331A, I401V, I434V, I446F, I478K, I557V, I598V, I605T, I611V, I619A, I631L, I643V, I648T, I656V, I677T, I716Y, I734V, I745V 및 I772P로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다.
일부 구체예에서, Pfu DNA 중합효소는 V93Q, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다.
일부 구체예에서, Pfu DNA 중합효소는 RNA 중합 활성을 나타낸다.
일부 구체예에서, Pfu DNA 중합효소는 D215A, A486Y 및/또는 L490W로 구성된 군에서 선택된 돌연변이를 더 포함한다.
일부 구체예에서, Pfu DNA 중합효소는 결핍된 3'→ 5' 엑소뉴클레아제 활성 및 증가된 디디옥시뉴클레오시드 트리포스페이트(ddNTPs) 선택성을 나타낸다.
일부 구체예에서, Pfu DNA 중합효소는 DNA 결합 구조 도메인을 더 포함하되, DNA 결합 구조 도메인은 sso7d 구조 도메인(SEQ ID No. 78)이다.
일부 구체예에서, sso7d 구조 도메인으로 변형된 Pfu DNA 중합효소는 개선된 PCR 증폭 활성을 나타낸다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, SEQ ID No. 51과 비교하여 적어도 80% 또는 적어도 90% 서열 동일성을 특징으로 하는 아미노산 서열을 갖거나, SEQ ID No. 79와 비교하여 적어도 80% 또는 적어도 90% 서열 동일성을 특징으로 하는 아미노산 서열을 갖는 Pfu DNA 중합효소가 제공된다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, 본 명세서에 제공된 D-아미노산 단백질의 용도가 제공되되, D-아미노산 단백질은 효소이고, 용도는 상응하는 L-아미노산 효소에 의해 합성되는 분자의 거울상이성질체인 산물의 합성을 촉매하거나, 상응하는 L-아미노산 효소의 상응하는 기질의 거울상이성질체인 기질의 반응을 촉매하는데 있다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, L-폴리디옥시리보핵산 분자를 효소적으로 생산하는 공정이 제공되며,
본 명세서에 제공된 방법에 따라 제조되고, L-디옥시리보뉴클레오티드로부터 L-DNA를 합성할 수 있는 D-아미노산 DNA 중합효소를 제공하는 단계; 및 D-아미노산 DNA 중합효소를 주형 L-DNA 분자, L-DNA 프라이머 및 복수의 L-디옥시리보뉴클레오티드와 반응시켜 L-DNA 분자를 효소적으로 생산하는 단계에 의해 수행된다.
공정 양태의 일부 구체예에서, D-아미노산 DNA 중합효소는 Pfu DNA 중합효소이다.
공정 양태의 일부 구체예에서, Pfu DNA 중합효소는 본질적으로 본 명세서에 제공된 바와 같다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, L-폴리리보핵산(L-RNA) 분자를 효소적으로 생산하는 공정이 제공되며,
본 명세서에 제공된 방법에 따라 제조되고, L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있는 D-아미노산 RNA 중합효소를 제공하는 단계; 및
D-아미노산 RNA 중합효소를 주형 L-DNA 분자, L-DNA/RNA 프라이머 및 복수의 L-리보뉴클레오티드와 반응시켜 L-RNA 분자를 효소적으로 생산하는 단계에 의해 수행된다.
공정 양태의 일부 구체예에서, D-아미노산 RNA 중합효소는 T7 RNA 중합효소 또는 Pfu DNA 중합효소 돌연변이체이고, Pfu DNA 중합효소 돌연변이체는 V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 갖는다.
공정 양태의 일부 구체예에서, T7 RNA 중합효소는 본질적으로 본 명세서에 제공된 바와 같다.
본 발명의 일부 구체예의 다른 양태에 따르면, 목적 분자와 목적 분자의 거울상이성질체를 함께 결정화하여 거울상이성질체 쌍의 라세미 결정을 형성하는 단계에 의해 수행되는 목적 분자의 라세미 결정 형성 방법이 제공되되, 목적 분자의 거울상이성질체는 본 명세서에 제시된 방법에 따라 제공된 D-아미노산 단백질 또는 이러한 D-아미노산 단백질의 산물이다.
본 발명의 일부 구체예의 다른 양태에 따르면, 라벨링 모이어티가 부착되어 있고, 상응하는 L-아미노산 단백질의 상응하는 분석물질의 거울상이성질체인 분석물질에 대한 친화성을 갖는 본 명세서에 제공된 바와 같은 D-아미노산 단백질을 포함하는 분자 프로브가 제공된다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, L-핵산 압타머 또는 D-펩타이드 결합 모이어티의 생산 방법이 제공되며, 본 명세서에 제시된 방법에 따라 제조된 D-아미노산 단백질을 제공하는 단계; 및 D-아미노산 단백질을 SELEX(systematic evolution of ligands by exponential enrichment, 지수와 농축의 체계적인 진화) 공정에 적용시켜 L-핵산 압타머 또는 D-펩타이드 결합 모이어티를 얻는 단계에 의해 수행된다.
본 발명의 일부 구체예의 다른 양태에 따르면, DNA 또는 RNA 서열의 주형을 본 명세서에 제공된 방법에 따라 제조된 DNA 또는 RNA 중합효소와 반응시키는 단계를 포함하되, 반응은 본질적으로 천연 효소 및/또는 천연 DNA/RNA 오염 없이 수행되는 DNA 서열 또는 RNA 서열의 증폭 방법이 제공된다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, 본 명세서에 제공된 바와 같은 D-아미노산 DNA 또는 D-아미노산 RNA 중합효소, 포스포로티오에이트 L-dNTPs, 또는 포스포로티오에이트 L-NTPs 및 2개의 상이한 염료로 5'-표지된 2개의 프라이머를 사용하여 L-DNA 또는 L-RNA를 시퀀싱하는 방법이 제공된다.
본 발명의 일부 구체예의 또 다른 양태에 따르면, 본 명세서에 제공된 바와 같은 D-아미노산 DNA 중합효소, L-디디옥시뉴클레오시드 트리포스페이트 및 2개의 상이한 염료로 5'-표지된 2개의 프라이머를 사용하여 L-DNA를 시퀀싱하는 방법이 제공된다.
일부 구체예에서, 염료는 FAM 및 Cy5이다.
본 발명의 일부 구체예의 다른 양태에 따르면, 정보 데이터를 인코딩하는 서열을 갖는 적어도 하나의 L-핵산(예를 들어, L-DNA, L-RNA 및 D-핵산 세그먼트를 갖는 이들의 임의의 키메라) 분자;
L-핵산을 합성 및/또는 시퀀싱하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소를 포함하되, D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소는 본 명세서에 제공된 방법에 따라 생산되는 데이터 저장 시스템이 제공된다.
시스템의 일부 구체예에서, L-핵산 분자는 화학적으로 또는 거울상 효소-촉매 반응에 의해 제조된다. L-DNA 데이터 저장 시스템의 일부 구체예에서, 정보-저장 L-DNA 세그먼트는 D-효소를 사용하는 거울상 조립 PCR에 의해 제조된다.
시스템의 일부 구체예에서, L-핵산 분자는 화학적으로 또는 거울상 효소를 사용하는 합성에 의한 시퀀싱 방법에 의해 시퀀싱된다.
시스템의 일부 구체예에서, D-아미노산 RNA 중합효소는 본 명세서에 제공된 T7 RNA 중합효소이다.
시스템의 일부 구체예에서, D-아미노산 DNA 중합효소는 본 명세서에서 제공되는 Pfu DNA 중합효소이다.
본 발명의 일부 구체예의 또 다른 양태에 따르면,
커버 정보 데이터를 인코딩하는 서열을 갖는 적어도 하나의 D-핵산 분자;
스테고(stego) 정보 데이터를 해독하기 위한 사이퍼 키(cipher key)를 인코딩하는 서열을 갖는 적어도 하나의 L-핵산 분자 및/또는 D-/L- 키메라 핵산 분자;
L-DNA 분자를 합성 및/또는 시퀀싱하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소에 의해 수행되되, D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소는 본 명세서에 제공된 바와 같이 생산되는 키랄 스테가노그래피(steganography) 접근법이 제공된다.
일부 구체예에서, L-핵산 분자는 화학적으로 또는 거울상 효소-촉매 반응에 의해 제조된다.
일부 구체예에서, L-핵산 분자는 화학적으로 또는 거울상 효소를 사용하는 합성에 의한 시퀀싱 방법에 의해 시퀀싱된다.
일부 구체예에서, D-/L-키메라 핵산 분자는 화학적으로 또는 천연/거울상 효소-촉매 반응에 의해 제조된다.
일부 구체예에서, D-/L-키메라 핵산 분자의 L-DNA/RNA 부분은 화학적으로 또는 거울상 효소를 사용하는 합성에 의한 시퀀싱 방법에 의해 시퀀싱된다.
일부 구체예에서, D-아미노산 RNA 중합효소는 본 명세서에 제공된 바와 같은 T7 RNA 중합효소이다.
일부 구체예에서, D-아미노산 DNA 중합효소는 본 명세서에 제공된 바와 같은 Pfu DNA 중합효소이다.
일부 구체예에서, 시스템은 암호화된 데이터를 사용한 추가 보안 계층을 제공하기 위해 DNA 크립토그래피(cryptography)와 결합될 가능성이 있다.
본 발명의 일부 구체예의 또 다른 양태에 따르면,
고차 구조 및 긴 길이의 서열을 갖는 적어도 하나의 L-RNA 분자;
L-RNA 분자를 합성하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소에 의해 수행되되, D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소는 본 명세서에 제공된 방법에 따라 생산되는 L-RNA 가수분해 연구 방법이 제공된다.
본 발명의 일부 구체예의 또 다른 양태에 따르면,
고차 구조 및 긴 길이의 서열을 갖는 적어도 하나의 L-RNA 분자;
L-RNA 분자를 합성하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소에 의해 수행되되, D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소는 본 명세서에 제공된 방법에 따라 생산되는 RNA 분해 연구 방법이 제공된다.
일부 구체예에서, 상기 방법은 RNase-억제 시약의 유효성을 평가하는데 사용될 수 있다.
본 발명의 일부 구체예의 또 다른 양태에 따르면,
D-아미노산 RNA 중합효소에 의해 수행되되, D-아미노산 RNA 중합효소는 본 명세서에 제공된 방법에 따라 생산되는 전사 AND-로직이 제공된다.
일부 구체예에서, D-아미노산 RNA 중합효소는 본 명세서에 제공된 T7 RNA 중합효소이다.
일부 구체예에서, D-아미노산 RNA 중합효소는 적어도 하나의 분할 부위, K363 및 P364 사이의 제1 분할 부위 및 N601 및 T602 사이의 제2 분할 부위를 포함한다.
일부 구체예에서, D-아미노산 RNA 중합효소는 적어도 하나의 분할 부위, 즉 동일한 루프에서 상기 언급된 부위, 즉 위치 357에서 위치 366까지 및/또는 위치 564에서 위치 607까지를 포함한다.
본 발명의 일부 구체예의 또 다른 양태에 따르면,
본 명세서에 제공된 방법에 따라 제조되고, L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있는 D-아미노산 RNA 중합효소를 제공하는 단계; 및
D-아미노산 RNA 중합효소를 상이한 길이의 각각의 주형 L-DNA 분자, L-DNA/RNA 프라이머 및 복수의 L-리보뉴클레오티드와 반응시켜 각각 상이한 길이의 L-RNA 분자를 효소적으로 생산하고, 정제 후 특정 농도에서 그들을 서로 혼합하는 단계를 포함하는 L-RNA 마커/래더(ladder)의 생산 방법이 제공된다.
일부 구체예에서, D-아미노산 RNA 중합효소는 본질적으로 본 명세서에 제공된 바와 같은 T7 RNA 중합효소이다.
달리 정의되지 않는 한, 본 명세서에 사용된 모든 기술 및/또는 과학 용어는 본 발명이 속하는 기술 분야의 통상의 기술자가 일반적으로 이해하는 것과 동일한 의미를 갖는다. 본 명세서에 기술된 것과 유사하거나 등가인 방법 및 재료가 본 발명의 구체예의 실행 또는 테스트에 사용될 수 있지만, 예시적인 방법 및/또는 재료가 아래에 기술된다. 상충하는 경우 정의를 포함한 특허 명세서가 우선한다. 또한, 재료, 방법 및 실시예는 예시일 뿐이며 반드시 제한하려는 의도는 아니다.
본 발명의 일부 구체예는 첨부된 도면을 참조하여 단지 예로서 본 명세서에서 설명된다. 이제 도면을 구체적으로 참조하면, 도시된 특정 사항은 예로서 그리고 본 발명의 구체예의 예시적인 논의를 위한 것임을 강조한다. 이와 관련하여, 도면과 함께 취해진 설명은 본 발명의 구체예가 실시될 수 있는 방법을 당업자에게 명백하게 한다.
도면에서:
도 1은 본 발명의 일부 구체예에 따라 본 명세서에 제공된 방법을 예시하는 흐름도이다.
도 2A-B는 돌연변이체 Pfu-N 단편의 합성 경로의 설계 흐름을 나타내고(도 2A), 여기서 추가적인 NCL 부위가 도입되어(E102A, E276A, K317G, V367L) 결찰-유도성 세그먼트가 형성되었고, 25개의 이소루신 잔기가 치환되었으며, 돌연변이체 Pfu-C 단편의 합성 경로의 설계 흐름(도 2B)을 나타내고, 여기서 추가적인 NCL 부위(I540A) 뿐만 아니라 다른 15개의 이소루신 잔기의 돌연변이가 도입된 반면, 이들 돌연변이는 SPPS 및 결찰 과정에서 단백질 합성을 촉진하고 거울상 버전의 합성 비용을 줄이기 위해 도입되었다.
도 3A-C는 SPPS 및 결찰 과정에서 단백질 합성을 촉진하고 거울상 버전의 합성 비용을 줄이기 위해 도입된 이소루신 잔기의 대체, 새로운 NCL 및 K363과 P364 사이의 새로운 분할 부위를 포함하는 369-aa(N 말단에 추가된 His6 태그 포함) 돌연변이체 T7-분할-N 단편(도 3A), 238-aa 돌연변이체 T7-분할-M 단편(도 3B) 및 282-aa 돌연변이체 T7-분할-C 단편(도 3C)의 합성 경로의 설계 흐름을 나타낸다.
도 4는 예시적인 유형의 XNA로서 L-DNA를 사용하는 본 발명의 일부 구체예에 따른 분자 데이터 저장을 예시하는 흐름도이다.
도 5는 비밀 메시지를 전달하기 위해 겉보기에 평범한 D-DNA 저장 라이브러리에 키메라 D-DNA/L-DNA 키 분자를 삽입하는 본 발명의 일부 구체예에 따른 DNA 기반 스테가노그래피를 예시하는 흐름도를 나타낸다.
본 발명은, 이의 일부 구체예에서, 생화학에 관한 것이고, 배타적이지는 않지만 보다 구체적으로, 대형 단백질 및 그들의 거울상 대응물의 전체 화학적 합성 방법 및 이의 용도에 관한 것이다.
본 발명의 원리 및 작동은 도면 및 수반되는 설명을 참조하여 더 잘 이해될 수 있다.
본 발명의 적어도 하나의 구체예를 상세히 설명하기 전에, 본 발명은 하기 설명에 기술되거나 실시예에 의해 예시된 세부 사항에 대한 적용에 있어서 반드시 제한되는 것은 아님을 이해해야 한다. 본 발명은 다른 구체예가 가능하거나 다양한 방식으로 실행되거나 수행될 수 있다.
단백질의 기본 빌딩 블록인 알파-아미노산은 두 가지 형태로 존재하는 키랄 분자이다: L-거울상이성질체(좌회전 또는 왼손잡이에 대해 'L') 및 D-거울상이성질체(우회전 또는 오른손잡이에 대해 'D'). 손잡이 또는 키랄성이 다른 2개의 중첩되지 않는 형태의 아미노산은 서로의 거울상이며 그 외에는 동일한 물리적 및 화학적 특성을 갖는다. 그러나 지구상의 생명체는 L-아미노산과 비-키랄 아미노산 글리신만을 사용하여 매우 다양한 생물학적 기능을 수행하는 단백질을 구축한다. 자연계, 특히 세포벽의 펩티도글리칸과 박테리아 기원의 펩타이드 항생제, 곤충, 달팽이, 양서류와 같은 하등동물의 단백질, 심지어 신경전달물질로서 뇌에도 존재하지만, 다양한 유기체의 D-아미노산은 번역 후 반응을 촉매하는 효소를 통해 부모 L-거울상이성질체로부터 전환되는 것으로 생각된다. 왜 그리고 어떻게 지구상의 생명체가 이 왼손잡이 분자를 선호하는지에 대한 매혹적인 질문은 화학자, 물리학자, 생물학자, 심지어 천문학자 사이에서 수십 년 동안 격렬한 논쟁의 주제였다. 알파-아미노산의 동종키랄성의 기원은 계속 미스터리로 남아 있지만, 과학자들은 키랄 D-아미노산만을 포함하는 비천연 또는 인공 D-펩타이드 및 D-단백질의 물리화학적 및 생물학적 특성을 연구함으로써 이미 많은 것을 배웠다.
본 발명을 실시하는 동안, 발명자들은 실험실에서 거울상 생물학 시스템을 구축하기 위해 핵심 단계는 거울상 핵산과 단백질의 화학적 합성을 두 가지 기술적 기둥으로 활용하면서(5), 분자 생물학의 센트럴 도그마의 키랄 역전 버전을 확립하는 것이라고 추론하였다(5-7). 본 발명자들은 긴 L-핵산 분자 합성의 병목 현상을 극복하는 한 가지 방법이 거울상 중합효소에 의한 효소적 중합을 통하는 것이라고 추론하였으며, 이는 본 발명의 구상 및 개념 증명의 실현으로 이어진다. 그럼에도 불구하고 이전 버전의 거울상 중합효소 시스템은 중합효소 활성과 크기 사이의 마지못한 절충안으로서 전체 화학적 합성의 모델로 선택되었다(5). ASFV pol X 및 Dpo4(10-4 내지 10-2 정도의 오류율을 가짐)와 같은 작은 중합효소의 본질적인 열악한 진행성 및 충실도는 그들을 긴 거울상 유전자의 충실한 조립, 증폭 및 전사에 부적합하게 만들었다(5, 17, 18, 21).
따라서, 본 발명자들은 겉으로 보기에 어떠한 단백질도 가능하게 하는 전체 화학적 합성을 가능하게 하는 방법을 고려하였고, 이로써 D-아미노산 단백질로의 경로가 열렸다.
본 발명의 구체예에 따른 대형 단백질의 전체 화학적 합성 방법은 현장에서 지금까지 극복할 수 없었던 장애물을 체계적으로 제거하는 것이며, 표적 단백질의 아미노산 서열에 특정 돌연변이를 도입하여 단백질의 특이 활성을 무효화하지 않고 길이 문제를 완화하는 것을 기반으로 한다.
분할 단백질 설계 :
본 발명자들은 분할 단백질 설계의 장점을 취함으로써 대형 단백질을 2개 이하의 단백질 단편의 합성으로 화학적으로 합성하는 문제를 대폭 단순화할 수 있으며, 이는 시험관 내에서 기능적으로 온전한 효소로 함께 폴딩될 수 있다고 추론하였다. 또한 분할 단백질 전략을 통해 각 분할 단백질 단편의 합성, 정제, 결찰 및 탈황을 병행하여 수행할 수 있으므로 대형 단백질을 합성하는 데 필요한 전체 시간뿐만 아니라 특정 단편(들)에서 오류가 발생할 때 수정 비용 및 시간을 크게 줄일 수 있다. 일부 효소에는 Pfu DNA 중합효소를 포함하여 천연 또는 가공된 분할 버전이 있다: 예를 들어, 핑거 도메인의 코일형 코일 모티프에서 K467과 M468 사이의 알려진 분할 부위는 PCR 활성 및 충실도를 크게 변경하지 않고 중합효소를 2개의 단편(467-aa Pfu-N 단편 및 308-aa Pfu-C 단편)으로 나눈다. 상기 분할 부위는 또한 Pfu DNA 중합효소의 핑거 도메인의 코일형 코일 모티프에서 상기 언급된 서열 위치 근처, 예를 들어 위치 449와 위치 498 사이에서 선택될 수 있다.
따라서, 본 발명의 일부 구체예에 따르면, 단백질을 화학적으로 생산하는 방법은 단백질의 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하는 단계를 포함하고, 각각은 더 작은 폴리펩타이드 세그먼트의 결찰로부터 화학적으로 합성될 수 있을 만큼 충분히 짧고, 도메인-형성 세그먼트가 폴딩-유도성 조건 하에서 함께 파일링될 때 기능성 단백질에서 기능성 도메인으로 폴딩될 만큼 충분히 길다.
본 발명의 일부 구체예에 따르면, 도메인-형성 세그먼트가 SPPS 또는 AFPS에 의해 화학적으로 합성될 수 있거나, 길이가 약 120, 150 또는 200개 이하인 아미노산 잔기라면, 이는 전형적으로 화학적으로 합성될 수 있고 다른 도메인-형성 세그먼트와 함께 폴딩되어 단백질을 얻기에 적합함을 의미한다.
본 명세서에 사용된 용어 "화학적으로 합성가능한"은 고체상 펩타이드 합성(solid Phase Peptide Synthesis, SPPS) 또는 자동화 고속 유동 펩타이드 합성(automated fast-flow peptide synthesis, AFPS)과 같은 주로 임의의 비생물학적 합성 공정에 의해 달성될 수 있는 폴리펩타이드의 길이를 지칭한다. 일반적으로 약 10-120개의 아미노산 잔기 길이의 폴리펩타이드는 고체상 펩타이드 합성(SPPS)에 의해 생산될 수 있고, 약 10-180개의 아미노산 잔기 길이의 폴리펩타이드는 자동화 고속 유동 펩타이드 합성(AFPS)에 의해 제공될 수 있는 것으로 알려져 있다. 일부 구체예에서, 용어 "화학적으로 합성가능한"은 약 120, 150 또는 200개의 아미노산 길이의 폴리펩타이드 사슬을 지칭한다. 일부 구체예에서, 용어 "화학적으로 합성가능한"은 또한 화학적으로 합성된 폴리펩타이드를 정제하고 임의로 분리하는 능력을 지칭한다.
도메인-형성 세그먼트가 화학적 합성에 적합한 것보다 길면 결찰-유도성 세그먼트로 더 분할되고, 이는 결찰되어 (상대적으로 더 긴) 도메인-형성 세그먼트를 형성한다.
본 발명의 구체예의 맥락에서, 용어 "단편"이 본 명세서에 사용되고, 용어 "도메인-형성 세그먼트"와 상호교환적으로 사용된다. 본 명세서에 사용된 용어 "도메인-형성 세그먼트"는 인식가능한 단백질 도메인(들)로 폴딩되는 연속적인 폴리펩타이드 사슬을 지칭하며, 이 용어는 당업계에 공지되어 있다. 일부 구체예에 따르면, 도메인-형성 세그먼트는 폴리펩타이드가 생체 내에서 폴딩될 때 또는 생물학적/생리학적 조건 하에서 이들 도메인의 구조와 유사하거나 본질적으로 동일한 하나 이상의 도메인으로 시험관 내에서 폴딩될 수 있다.
본 발명의 구체예의 맥락에서, 도메인-형성 세그먼트는 다중도메인 단백질일 수 있거나 하나의 인식가능한 도메인을 포함할 수 있다. 도메인의 인식 또는 확인은 당업자의 능력 내에 있으며 일반적으로 하나 이상의 공개적으로 접근가능한 생물 정보학 도구, 예컨대, 다중 서열 정렬, SCOP[scop(dot)berkeley(dot)edu/], CATH[www(dot)cathdb(dot)info], ExPASy[www(dot)expasy(dot)org], BLAST[blast( dot)ncbi(dot)nlm(dot)nih(dot)gov], PFAM[pfam(dot)xfam(dot)org], PDB[www(dot)rcsb(dot)org] 등을 사용하여 수행되고, 이 모든 것은 숙련된 장인의 손이 미치고 식별할 수 있는 범위 내에 있다.
상기 논의된 바와 같이, 일부 단백질은 본 명세서에 논의된 다중도메인- 또는 도메인-형성 세그먼트와 동등한 하나 이상의 폴리펩타이드 사슬로부터 자연적으로 구축된다. 도메인-형성 세그먼트로의 그러한 자연적 또는 의도된 분할은 본 명세서에 제시된 방법에서 이용될 수 있다.
일부 단백질은 하나의 연속적인 폴리펩타이드 사슬에서 만들어질 수 있지만, 그들의 진화적 패밀리 구성원에는 하나 이상의 폴리펩타이드 사슬에서 만들어지도록 진화한 일부 단백질이 포함될 수 있다. 가능한 분할에 관한 정보는 패밀리 구성원의 다중 서열 정렬뿐만 아니라 화학적 생산을 위한 목적 단백질의 패밀리 구성원의 의도적인 분할에서 비롯될 수 있다. 선택적 분할 부위에 관한 또 다른 정보 출처는 구조적 정렬에 의해 도움을 받는 목적 단백질 또는 단백질 패밀리 구성원의 구조 정보에서 올 수 있다 - 단백질의 특정 섹션이 덜 보존되어 분할 부위가 서열에 의도적으로 도입되는 경우 단백질의 활성을 방해하지 않을 것으로 예상된다.
가능한 분할 부위로 제공할 수 있는 단백질의 섹션은 이들의 확인을 유도하는 정보가 서열 데이터 및/또는 구조 데이터에서 오는지 여부에 관계없이 본 명세서에서 구조적으로-손실된 섹션으로 지칭된다. 따라서, "구조적으로-손실된 섹션"은 다중 서열 정렬을 사용함으로써 및/또는 목적 단백질의 구조 정보로부터 및/또는 단백질 패밀리의 구성원으로부터 확인가능하다.
본 발명의 일부 구체예에 따르면, 단백질이 너무 길어서 실질적으로 SPPS에 의해 또는 SPPS와 결찰의 결합에 의해 직접 화학적으로 생산될 수 없다면, 일단 화학적으로 합성된 도메인-형성 세그먼트가 단백질로 함께 폴딩될 것이라는 기대를 가지고서 목적 단백질의 서열에 분할 부위를 도입할 수 있다.
화학적 결찰:
본 발명을 실시하는 동안 발견된 바와 같이, 단백질이 공동-폴딩에 의해 실현될 수 있는 경우에도, 분할 설계 접근법을 구현한 후에, 각각 또는 하나의 도메인-형성 세그먼트가 화학적 합성에 의해 실현되기에는 너무 길 수 있다.
NCL(Native Chemical ligation, 천연 화학 결찰)은 화학적 결찰 분야의 확장으로, 2개 이상의 보호되지 않은 펩타이드 세그먼트를 조립하여 대형 폴리펩타이드를 구성하는 개념이다. 특히, NCL은 천연 백본 단백질 또는 작거나 중간 크기의 변형된 단백질을 합성하기 위한 강력한 결찰 방법이다. 천연 화학 결찰에서, 보호되지 않은 펩타이드의 N-말단 시스테인 잔기의 티올기는 두 번째 보호되지 않은 펩타이드의 C-말단 티오에스테르를 공격한다. 이 가역적 트랜스티오에스테르화 단계는 화학선택적이고 위치선택적이며 티오에스테르 중간체를 형성하게 한다. 이 중간체는 결찰 부위에서 천연 아미드(펩타이드) 결합을 형성하는 분자내 S,N-아실 이동에 의해 재배열된다.
본 발명의 구체예의 맥락에서, 용어 "결찰-유도성 서열"은 NCL에 의해 형성될 수 있는 아미노산 서열을 나타내는 단백질 서열 내의 위치를 지칭한다. 예를 들어, N-말단 시스테인 잔기는 공지된 조건 하에서 화학적 결찰을 수행하기 위해 사용될 수 있다. 결찰-유도성 서열의 확인 및 이용은 당업자라면 누구나 충분히 도달할 수 있으며 추가 정보는 문헌에서 쉽게 입수할 수 있다(예를 들어, 리뷰 논문 "Native Chemical Ligation and Extended Methods: Mechanisms, Catalysis, Scope, and Limitations" by Agouridas, V. et al. [Chem Rev. 2019,119(12), pp. 7328-7443]).
따라서, 본 발명의 일부 구체예에 따르면, 단백질 또는 이의 긴 도메인-형성 세그먼트는 먼저 단백질의 아미노산 서열에서 결찰-유도성 서열을 확인하고 나서, 이들 결찰-유도성 서열 또는 적어도 이의 일부에서 서열을 분석하여 단백질의 결찰-유도성 세그먼트의 복수의 서열을 얻음으로써 합성될 수 있으며, 이들 각각은 효과적으로 화학적으로 합성되고 정제될 수 있을 만큼 충분히 짧다. 화학적으로 합성될 수 있는 각각의 결찰-유도성 세그먼트는 이후 결찰되어 단백질 또는 도메인-형성 세그먼트를 형성한다.
일반적으로, 본 발명의 일부 구체예에 따르면, 결찰-유도성 서열/세그먼트는 화학적으로 합성가능하거나, 길이가 약 10-120, 약 10-150 또는 약 10-200개의 아미노산 길이이다.
단백질이 세그먼트의 길이를 기준으로 원하는 위치에 결찰-유도성 서열을 나타내지 않는 경우, 단백질의 아미노산 서열의 돌연변이에 의해 결찰-유도성 서열이 도입될 수 있다. 따라서, 본 발명의 일부 구체예에 따르면, 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 즉 길이가 약 120, 150 또는 200개의 아미노산 잔기보다 길거나 효과적으로 합성 및 정제할 수 없는 다른 길이인 경우, 상기 방법은 결찰-유도성 서열에서 적어도 하나의 구조적으로-손실된 센션을 확인하고, 상기 구조적으로-손실된 섹션에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 결찰-유도성 서열을 도입하고, 이어서 돌연변이에 의해 제공되는 결찰-유도성 서열에서 단백질의 아미노산 서열을 분석하고, 추가로 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하여 수행된다.
예를 들어, 352 aa(40 kDa)를 갖는 Dpo4보다 훨씬 더 큰 467 aa(54 kDa)만을 갖는 Pfu-N 단편의 합성은 여전히 상당한 도전을 제기한다. 문제 중 하나는 SPPS에 의해 제조된 합성 펩타이드의 NCL이 결찰 부위에 N-말단 시스테인 잔기를 필요로 하나, 야생형(WT) Pfu DNA 중합효소는 4개의 시스테인 잔기만(Pfu-N 단편(SEQ ID No. 57)의 C429 및 C443; Pfu-C 단편(SEQ ID No. 67)의 C507 및 C510) 가지고 있다는 것이다. 본 발명자들은 이전에 보고된 금속 자유 라디칼 기반 탈황 접근법을 활용하여 NCL 후 비보호 시스테인을 알라닌 잔기로 전환하여 알라닌 잔기(Pfu-N 단편의 A40, A163, A223 및 A408; Pfu-C 단편의 A501, A596, A652 및 A715)를 갖는 또 다른 8개의 결찰 부위도 사용할 수 있었지만, 일부 펩타이드 세그먼트는 SPPS로 제조하기에는 여전히 너무 길었다. 따라서, 본 발명자들은 중합효소의 PCR 활성을 크게 변경하지 않으면서 추가 결찰 부위 또는 결찰-유도성 서열을 도입하기 위해 서열 정렬에 기초한 5개의 점 돌연변이(Pfu-N 단편의 E102A, E276A, K317G 및 V367L; Pfu-C 단편의 I540A)를 갖는 Pfu DNA 중합효소의 돌연변이체 버전을 설계하였다(분할 Pfu-5m; SEQ ID 48).
소수성 및 부피(bulk) :
또 다른 과제는 수성 조건에서 소수성 펩타이드 세그먼트의 합성 및 결찰이다. 이 문제를 극복하기 위한 현재의 방법은 주로 소수성 및/또는 부피가 큰 아미노산 잔기의 수를 줄이기 위해 표적 펩타이드에 다양한 돌연변이 및/또는 화학적 변형을 도입하는 데 중점을 두고 있다. 본 발명의 일부 구체예에 따르면, 화학적 변형은 예를 들어 Hmb-Nα-보호, 제거 가능한 가용화 태그, 슈도프롤린 및 뎁시펩타이드(O-아실 이소펩타이드)에 의해 수행되나, 그들의 실제 사용은 종종 힘든 절차, 낮은 수율 및 값비싼 아미노산 유도체의 요구에 의해 제약을 받는다.
본 발명의 일부 구체예에 따르면, 화학적으로 생산된 단백질의 다양한 세그먼트의 화학적 합성, 결찰 및 공동 폴딩을 용이하게 하기 위해, 일부 고도의 소수성 및/또는 부피가 큰 잔기가 덜 소수성 및/또는 덜 부피가 큰 잔기로 대체하되, 이러한 치환에 대한 기준은 MSA, 구조 정보 및 기타 돌연변이 데이터에 의존할 수 있다.
소수성과 부피는 서로 관련되어 있고 대부분의 경우 함께 사용되지만 반드시 동일한 속성은 아닌데 이러한 특성은 pH, 이온 강도, 상대 이온, 수분 활성도, 온도 및 기타 요인에 따라 상이한 환경 하에서 다르게 달라질 수 있기 때문이다. 이소루신은 "가장 부피가 크고 소수성인 아미노산 중 하나"라는 일반적인 개념이 모두 사실이지만, 문헌의 다른 참조는 폴리펩타이드 사슬의 맥락에서 아미노산 잔기의 소수성 및 부피에 대해 약간 다른 값과 순위를 제공한다. 소수성 및 부피와 관련된 예시적인 정보 출처는 Kyte, J. and Doolittle, R.F., "A simple method for displaying the hydropathic character of a protein" [J. Mol. Biol., 1982, 157(1), pp. 105-132] and Ellington, A. and Cherry, J.M., "Characteristics of amino acids" [Curr Protoc Mol Biol, 2001, A.1C.1-A.1C.12]를 포함하나 이에 제한되지 않는다. 예를 들어, 본 발명의 구체예는 다음의 비제한적인 예시적 순서, I>L>C>T>V>P>S>A>G에 따라 부피를 감소시키고, 다음의 비제한적인 예시적 순서 I>V>L>F>C>M>A>G>T에 따른 소수성을 감소시키기 위해 아미노산 돌연변이에 대한 기준을 기초로 할 수 있다.
일반적으로, 당업계에 공지된 바와 같이, 잔기 대체 가이드라인은 다음의 소수성 순서에 따른다: Ile > Leu > Phe > Val > Met > Pro > Trp > His(0) > Thr > Glu(0) > Gln > Cys > Tyr > Ala > Ser > Asn > Asp(0) > Arg+ > Gly > His+ > Glu > Lys+ > Asp- .
본 명세서에 제시된 방법이 D-아미노산 단백질을 화학적으로 합성하는 데 사용되는 경우, 방법은 이의 일부 구체예에 따라 결찰-유도성 세그먼트 중 적어도 하나에서 적어도 하나의 소수성 D-아미노산 잔기를 다음의 소수성 순서에 따라 덜 소수성의 아미노산으로 치환하는 단계를 더 포함한다: D-Ile > D-Leu > D-Phe > D-Val > D-Met > D-Pro > D-Trp > D-His(0) > D-Thr > D-Glu(0) > D-Gln > D-Cys > D-Tyr > D-Ala > D-Ser > D-Asn > D-Asp(0) > D-Arg+ > Gly > D-His+ > D-Glu > D-Lys+ > D-Asp-.
예를 들어, Pfu-C-4 세그먼트는 아세토니트릴 수용액 또는 6 M Gn·HCl 용액에서 용해도가 낮아 표준 Fmoc-SPPS로 합성하기 어려웠다. 이소루신은 가장 부피가 크고 소수성인 단백질 생성 아미노산 중 하나이므로 소수성 펩타이드에서 이소루신(들)을 대체할 수 있지만 잠재적으로 덜 부피가 크거나 소수성인 아미노산(예, 발린, 알라닌, 루신, 트레오닌, 글리신, 페닐알라닌, 메티오닌 또는 프롤린 등) 또는 하나 이상의 다른 부피가 크거나 소수성인 아미노산(예: 발린, 트레오닌, 페닐알라닌, 루신 등)을 더 극성인 아미노산과 같이 부피가 작거나 소수성이 적은 다른 아미노산으로 변이시키면 이 펩타이드 세그먼트의 물리 화학적 특성이 변경될 수 있다.
본 발명의 일부 구체예에 따르면, 서열 정렬 및 구조 정보를 기반으로 체계적인 이소루신 치환 접근법이 개발되어 중합효소의 PCR 활성을 크게 변경하지 않고이 세그먼트의 7개의 이소루신 잔기(I598V, I605T, I611V, I619A, I631L, I643V 및 I648T) 모두를 돌연변이시켰다. 실제로 이러한 7개의 점 돌연변이를 통해 이 펩타이드 세그먼트의 합성이 쉽게 이루어졌으며, 이는 또한 다운스트림 정제 및 NCL을 위해 수용성 아세토니트릴과 6 M Gn·HCl 용액에 용해되어 합성을 위해 다른 화학적 변형에 의존할 필요성을 우회할 수 있게 되었다.
비용 감소:
기술적 문제 외에도, 대형 거울상(D-아미노산) 단백질의 합성은 전반적인 낮은 수율과 높은 시약 비용으로 인해 경제적 장애물에 직면해 있다. 모든 단백질생성 아미노산의 거울상 버전이 상업적으로 이용가능하지만 대부분 천연 아미노산과 비슷한 가격으로 D-이소루신은 L-이소루신 및 나머지 D-아미노산보다 약 50-300배 더 비싼데 주로 거울상 단백질을 합성할 때 D-아미노산 비용의 80-90%를 차지하면서 합성 및 정제를 어렵고 손실시키는 2개의 키랄 중심이 존재하기 때문이다(천연 단백질의 풍부한 이소루신에 따라, 일반적으로 약 5%). 따라서, 본 발명의 일부 구체예에 따르면, 서열 정렬 및 구조 정보를 기반으로 체계적인 이소루신 치환 접근법이 적용되어 중합효소(분할 Pfu-5m-30I; SEQ ID No. 51)의 PCR 활성을 크게 변경하지 않고 Pfu DNA 중합효소에서 많은 수의(71개 중 41개 또는 58%) 이소루신을 발린, 루신 및 알라닌 등과 같은 다른 아미노산으로 돌연변이시킨다.
체계적인 Ile 감소 접근법은 이 중합효소를 합성하기 위한 D-아미노산 비용의 약 절반을 줄이는 결과를 가져왔으며, 이는 향후 대규모 합성 및 응용에 도움이 될 수 있다.
일부 구체예에 따르면, D-아미노산 단백질을 화학적으로 생산하는 방법은 적어도 하나의 Ile 잔기를 Ala 잔기, Val 잔기, Leu 잔기, Gly 잔기, Thr 잔기, Phe 잔기, Met 잔기 또는 Pro 잔기로 치환하는 것을 포함한다. 따라서, 생성된 D-아미노산 단백질, 일부 또는 모든 Ile 잔기 위치는 D-Ala 잔기, D-Val 잔기, D-Leu 잔기, Gly 잔기, D-Thr 잔기, D-Phe 잔기, D-Met 잔기 및 D-Pro 잔기로 구성된 군에서 선택된 비-Ile D-아미노산 잔기를 나타낸다.
대형 단백질의 전체 화학적 합성 방법 :
위에서 언급하고 아래의 실시예 섹션에서 설명된 바와 같이, 90-kDa 고충실도 D-아미노산 Pfu DNA 중합효소의 전체 화학적 합성은 본 명세서에 제공된 방법을 구현하여 제공되었으며, 킬로베이스 크기의 거울상 유전자의 정확한 조립뿐만 아니라 L-DNA 서열의 충실한 쓰기 및 판독을 수행하였다. 천연 효소 단백질의 평균 크기는 약 0.9-1.5 kb의 코딩 유전자 서열에 해당하는 약 300-500 aa이다. 따라서 Pfu DNA 중합효소만큼 큰 효소 단백질의 거울상 버전을 합성하고 긴 거울상 유전자를 차례로 조립하는 능력은 거울상 형태의 생명체를 구축하기 위한 핵심 구현 기술이자 중요한 디딤돌이다. 1세대 거울상 중합효소 ASFV pol X, 2세대 Dpo4에서 현재 3세대 Pfu DNA 중합효소에 이르기까지 개선된 기술과 함께 최고의 효소 도구를 활용하는 대형 거울상 단백질의 전체 화학적 합성은 자연이 제공하는 것이 현실이 되었다. 이러한 효율적인 차세대 거울상 효소는 보다 정교한 거울상 생물학 시스템을 실현하고 생명 공학 및 의학을 위한 분자 도구 상자를 확장할 수 있는 새로운 기회의 문을 열어준다.
따라서, 본 발명의 일부 구체예의 양태에 따르면, 상대적으로 크고 기능적인 단백질의 전체 화학적 합성 방법이 제공되며, 이는 단백질의 적어도 2개의 결찰-유도성 세그먼트를 결찰하여 수행되며, 여기서 각각의 결찰-유도성 세그먼트는 화학적으로 합성가능하거나, 전형적으로 SPPS에 대해 약 10-120개의 아미노산 잔기 길이이고; 결찰-유도성 세그먼트는 다음에 의해 얻을 수 있다:
i. 단백질의 아미노산 서열에서 적어도 하나의 결찰-유도성 서열을 확인하고, 이들 결찰-유도성 서열에서 단백질의 아미노산 서열을 분석(분할)하여 복수의 결찰-유도성 세그먼트 서열을 얻는 단계. 일부 구체예에 따르면, 자연적으로 발생하는 결찰-유도성 서열 중 적어도 하나는 단백질의 구조적으로-손실된 섹션에서 발견된다.
ii. 각각의 결찰-유도성 세그먼트 서열이 SPPS 및/또는 AFPS에 의해 효과적으로 합성되고 효과적으로 정제될 수 있다면, 각각의 결찰-유도성 세그먼트는 화학적으로 합성될 수 있고 결찰을 위해 준비될 수 있다.
iii. 결찰-유도성 세그먼트의 서열 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 즉 약 120, 150 또는 200개의 아미노산 잔기 길이 또는 효과적으로 합성 및 정제될 수 없는 다른 길이인 경우, 이들 서열은 적어도 하나의 구조적으로-손실된 섹션을 확인하기 위해 분석되며, 이러한 분석은 상기에서 설명되고 당업계에 공지되어 있다. 돌연변이에 의해 결찰-유도성 서열을 도입하기 위해서는 구조적으로-손실된 섹션의 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기(예를 들어, 시스테인)로 치환하여 구조적으로-손실된 섹션에서 결찰-유도성 서열을 도입한다. 그 후, 단백질의 아미노산 서열은 새롭게 도입된 결찰-유도성 서열에서 분할(분석)되고, 결과적으로 120 aa 보다 짧은 결찰-유도성 세그먼트가 화학적으로 합성된다.
위에서 논의된 바와 같이, 존재하는 것을 이용하거나 분할 부위를 단백질의 아미노산 서열에 도입하는 것은 단백질의 전체 화학적 합성을 용이하게 한다. 따라서, 본 발명의 일부 구체예에 따르면, 이 방법은 위에 제시된 단계 (i) 전에, 단백질의 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하고, 각각의 도메인-형성 세그먼트가 화학적으로 합성가능한 경우(약 120, 150 또는 200개 아미노산 잔기 길이 이하), 각각의 도메인-형성 세그먼트를 화학적으로 합성하고, 그런 다음 이러한 도메인-형성 세그먼트들을 함께 폴딩하여 단백질을 얻는 단계를 더 포함한다.
일부 구체예에 따르면, 이는 위에서 논의된 바와 같이, 도메인-형성 세그먼트 중 하나가 화학적으로 합성할 수 없거나(예: 약 120, 150 또는 200개 아미노산 잔기보다 긴 경우), 효과적으로 합성 및 정제할 수 없는 다른 길이인 경우 결찰-유도성 세그먼트로 더 나뉜다.
바람직하게는, 도메인-형성 세그먼트는 도메인-형성 세그먼트 내에서 구조적으로-손실된 섹션을 확인하는 것부터 시작하고 이어서 구조적으로-손실된 섹션에서 적어도 하나의 결찰-유도성 서열을 확인하며 이들 결찰-유도성 서열에서 도메인-형성 세그먼트의 아미노산 서열을 분석하여 구조적으로-손실된 섹션에서 분석된다. 다시 말하지만, 세그먼트 또는 구조적으로-손실된 섹션이 본질적으로 결찰-유도성 서열이 없는 경우, 하나는 상기 제시된 바와 같이 돌연변이에 의해 도입될 수 있다. 도메인-형성 세그먼트가 결찰-유도성 세그먼트의 화학적으로 합성가능한(SPPS의 경우 약 10-120 aa, AFPS의 경우 약 10-180) 서열로 분석되면, 후자는 화학적으로 합성되고 결찰되어 도메인-형성 세그먼트를 형성한다.
도 1은 본 명세서에 제공된 방법을 흐름도의 형태로 예시하되, "박스 1"에서 사용자는 바람직하게는 일부 단백질 패밀리 및 구조 정보가 이용 가능한 목적 단백질을 선택하고, "박스 2"에서 이 방법은 결찰-유도성 aa의 돌연변이, 분할 부위 및 Ile 잔기의 대체를 도입하기 위해 구조적으로-손실된 섹션을 확인하기 위한 MSA 및 구조 데이터의 사용을 요구한다; 목적 단백질이 약 400 aa보다 짧은 경우, "박스 3"에서 이 방법은 결찰-유도성 aa를 발견하거나 돌연변이시킴으로써 결찰-유도성 서열을 발견 및/또는 도입하여 각각이 화학적으로 합성가능한 복수의 결찰-유도성 세그먼트 서열을 형성하도록 결찰-유도성 세그먼트로 단백질의 서열을 분석하는 것을 요구한다. 목적 단백질이 약 400 aa보다 길면, "박스 4"에서 이 방법은 각각 약 400개 미만의 도메인-형성 세그먼트를 형성하기 위해 적어도 하나의 분할 부위를 발견하거나 도입하는 것을 요구하며, "박스 5"에서 이 방법은 결찰-유도성 서열을 발견 및/또는 도입하여 각각이 화학적으로 합성가능한 복수의 결찰-유도성 세그먼트 서열을 형성하도록 각각의 도메인-형성 세그먼트의 서열을 결찰-유도성 세그먼트로 분석하는 것을 요구한다; "박스 6"에서 이 방법은 MSA 및/또는 구조 정보에 따른 서열 보존의 기준에 기초하여 각각의 도메인-형성 세그먼트 또는 결찰-유도성 세그먼트에서 소수성 aa를 대체하는 것을 요구한다; 목적 단백질이 D-아미노산 단백질인 경우, "박스 7"은 MSA 및/또는 구조 정보가 각 도메인-형성 세그먼트 또는 생성된 결찰-유도성 세그먼트에서 유사한 aa로 허용하는 만큼 많은 Ile 잔기의 돌연변이를 요구한다; 및 "박스 8"에서 이 방법은 D-아미노산을 사용하여 모든 결찰-유도성 세그먼트를 합성하고 그에 따라 세그먼트를 결찰하도록 요구한다; 목적 단백질이 L-아미노산 단백질인 경우, "박스 9"는 L-아미노산을 사용하여 모든 결찰-유도성 세그먼트를 합성하고 그에 따라 로트를 결찰하는 것을 요구한다. 그리고 마지막으로, "박스 10"에서 이 방법은 목적 단백질을 제공하기 위해 모든 도메인-형성 세그먼트들을 함께 폴딩하는 것을 요구한다.
본 발명의 일부 구체예에서, 이 방법은 전체 화학적 합성에 적합하도록 목적 단백질의 아미노산 서열을 돌연변이시키는 단계를 요구한다. 이 요구 사항은 목적 단백질의 과도한 길이 때문일 수 있으며, 이 경우 상응하는 생물학적으로 발현된 단백질에 존재하지 않는 분할 부위 또는 상응하는 생물학적으로 발현된 단백질에 존재하지 않는 결찰-유도성 서열을 도입하기 위해 돌연변이가 필요하고, 이는 SPPS(또는 폴리펩타이드를 생성하기 위한 다른 화학적 방법)에 의해 실현되기에 충분히 짧은 것으로 정의되는 결찰-유도성 세그먼트를 제공하는 데 필요하다. 이 요구 사항은 결찰-유도성 세그먼트의 과도한 소수성으로 인해 폴리펩타이드가 수성 조건에서 합성 및 결찰되기 더 어렵게 만드는 반면, 소수성을 낮추면 작업에 더 적합하게 된다.
본 발명의 일부 구체예에서, 이 방법은 특히 단백질을 D-아미노산 단백질, 즉 상응하는 생물학적으로 생산된(또는 발현된) 단백질, 즉 동등한 L-아미노산 단백질의 거울상으로 실현할 때 전체 화학적 합성 비용을 줄이기 위해 목적 단백질의 아미노산 서열을 돌연변이시키는 단계를 요구한다.
본 발명의 구체예의 맥락에서, 용어 "상응하는 단백질", "상응하는 생물학적으로 생산된 단백질", "상응하는 생물학적으로 발현된 단백질"은 위에서 논의한 바와 같이 본 명세서를 실행하는 과정에서 돌연변이될 수 있는 아미노산 서열 및 생산 과정을 제외하고는 기능 및 구조 면에서 본 명세서에 제공된 방법에 의해 생산되는 단백질과 본질적으로 동일한 단백질을 지칭하기 위해 상호교환적으로 사용된다. 거울상 단백질의 경우, 용어 "상응하는 L-아미노산 단백질"은 용어 "상응하는 생물학적으로 생산된 단백질"과 유사하며, 동등한 L-아미노산 단백질에 비해 구조적 반전이 더해진다. 따라서, 본 명세서에 제공된 방법에 의해 생성된 D-아미노산 단백질은 도메인-형성 세그먼트를 제공하기 위해 분할 부위를 도입하기 위한 가능한 돌연변이, 및/또는 결찰-유도성 서열을 도입하기 위한 가능한 돌연변이, 및/또는 잔기의 소수성을 감소시키기 위한 가능한 돌연변이, 및/또는 Ile 잔기의 수를 줄이기 위한 가능한 돌연변이를 제외하고 실질적으로 유사한 서열을 가지고, L-아미노산 잔기보다는 적어도 90%의 비-Gly D-아미노산 잔기로 이루어진 조성물을 가지며, 실질적으로 반전된(거울상) 구조를 가지고, 거울상 리간드, 기질, 산물 등을 갖는 것을 제외하고 유사한 활성을 가짐으로써 이의 동등한 단백질에 관한 것이다. 이러한 서열, 구성, 구조 및 활성은 본 발명의 일부 구체예에 따른 화학적으로 생산된 단백질과 그에 상응하는 생물학적으로 생산된 단백질 사이에도 어느 정도 존재하지만, 두 단백질은 L-아미노산 잔기로 구성되며, 따라서 구조와 활성 측면에서 서로의 거울상은 아니다.
단백질을 화학적으로 합성하는 방법의 일부는 결찰 후, 또는 화학적으로 합성된 여러 사슬의 결찰 및 공동 폴딩 후 생성된 단백질의 정제 및 분리를 포함한다. 정제 프로토콜은 이러한 단백질 정제 작업을 위한 알려진 프로토콜일 수 있으며, 표적 단백질이 내열성인 일부 경우, 프로토콜은 가열 단계를 포함하여 이 열안정성을 이용할 수 있다. 즉, 프로토콜은 최종 결과의 정제의 일부로서 합성/결찰 단계, 폴딩 단계, 열-침전 단계를 포함한다. 열-침전 온도는 일반적으로 표적 단백질의 최대 안정 온도와 대부분의 불순물(잘못 폴딩된 폴리펩타이드 사슬 및 잘못된 아미노산 서열의 폴리펩타이드 사슬)의 최소 침전 온도 사이에서 설정된다. 예를 들어, Pfu DNA 중합효소의 경우 최대 안정 온도는 약 95℃이므로 열-침전 온도는 약 85℃로 설정된다. Dpo4의 경우 최대 안정온도는 약 86℃이므로 열-침전 온도는 약 78℃로 설정된다. 침전된(열분해성) 불순물은 일반적으로 초원심분리 및/또는 여과에 의해 제거된다. 올바르게 폴딩된 내열성 단백질은 상등액에서 발견되고 분리될 수 있다. 다중 폴딩 및 열-침전 라운드가 본 명세서에 언급되며, 여기서 이전 라운드(들)의 폴딩 및 열-침전으로부터 침전된 단백질은 이러한 절차에서 종종 수행되는 것처럼 폐기되지 않고 오히려 재-폴딩 및 재-열침전의 추가 라운드를 거치게 되며, 올바르게 폴딩된 단백질의 전체 수율을 높이기 위해 수행된다.
상기에 더하여, 본 발명의 범위는 생물학적으로 생산된 단백질 및/또는 단백질 단편이 합성적으로 생산된 단백질 및/또는 단백질 단편의 정확한 폴딩을 유도하기 위해 사용되는 경우를 포함한다. 따라서, 합성 단백질 및 이의 단편은 또한 본 발명의 일부 구체예에 따라 생물학적으로 생산된 단백질 또는 이의 단편과 함께 폴딩되어 제공되는 반면, 최종 결과는 생물학적으로 생산된 부분과 합성으로 생산된 부분을 갖는 키메라 다중 단편/도메인 단백질일 수 있다.
화학적으로 합성된 단백질 :
본 발명의 일부 구체예의 일 양태에 따르면, 본 명세서에 개시된 방법에 의해 화학적으로 합성된 단백질이 제공된다. 일부 구체예에서, 화학적으로 생산된 단백질은 적어도 약 240개의 아미노산 잔기 길이, 또는 적어도 약 250개의 아미노산 잔기 길이, 또는 적어도 약 300개의 아미노산 잔기 길이, 또는 적어도 약 350개의 아미노산 잔기 길이 또는 적어도 약 400개의 아미노산 잔기 길이, 또는 적어도 약 450개의 아미노산 잔기 길이, 또는 적어도 약 500개의 아미노산 잔기 길이, 또는 적어도 약 550개의 아미노산 잔기 길이, 또는 적어도 약 600개의 아미노산 잔기 길이이다.
화학적으로 합성된 단백질은 임의의 목적 단백질일 수 있으며, 효소, 운송 단백질, 구조/역학 단백질, 호르몬, 신호전달 단백질, 항체, 유체-밸런싱 단백질, pH-밸런싱 단백질, 세포 채널 또는 세포 펌프 등으로 기능을 한다.
화학적으로 합성된 단백질은 생물학적으로 및/또는 재조합적으로 생산된 대응물만큼 기능적이며, 본 명세서에서는 상응하는 생물학적으로 생산된 단백질이라고도 한다. 화학적으로 생산된 단백질은 상응하는 생물학적으로 생산된 단백질 활성의 적어도 5%를 유지한다. 일부 구체예에서, 화학적으로 생산된 단백질은 상응하는 생물학적으로 생산된 단백질의 적어도 1%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% 또는 적어도 90%의 활성을 유지한다.
상응하는 생물학적으로 생산된 단백질의 활성의 적어도 일정 비율을 유지함으로써, 생물학적으로 생산된 단백질이 촉매 활성, 특이 결합 활성 및/또는 임의의 구조적으로 관련된 활성을 나타내는 경우, 본 발명의 상응하는 화학적으로 생산된 단백질은 이러한 활성의 적어도 5%를 나타낸다는 것을 의미한다. D-아미노산 단백질의 경우, 활성은 화학적으로 및/또는 생물학적으로 제공되는지 여부에 관계없이 상응하는 L-아미노산 단백질과 비교할 때 거울상이성질체 단백질에 해당하는 적절한/상응하는 거울상이성질체 기질, 거울상이성질체 반응물, 거울상이성질체 시약 등을 사용하여 정의, 평가 및 측정된다.
본 발명의 일부 구체예들에 따르면, D-아미노산 단백질은 이의 상응하는 생물학적으로 생산된 L-아미노산 단백질의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 나타낸다. (이의 상응하는 L-아미노산 단백질 또는 자연적으로 발생하는 단백질에 대해) 거울상 단백질로도 본 명세서에 언급된 D-아미노산 단백질을 생산할 때, 이는 결찰-유도성 세그먼트의 화학적 생산에서 적어도 75%, 80%, 90% 또는 적어도 95%의 비-Gly D-아미노산 잔기를 사용하여 생산됨을 의미한다.
적어도 2개의 도메인-형성 세그먼트를 포함하는 단백질을 지칭할 때, 이는 본 발명의 구체예에 따라 화학적으로 생산된 최종 단백질이 적어도 2개의 비공유적으로 부착된 폴리펩타이드 사슬(주쇄 원자를 통해 부착되지 않음)을 포함하고, 각각이 도메인-형성 세그먼트에 상응함을 의미한다. 일부 구체예에서, 상응하는 도메인-형성 세그먼트는 생물학적으로 생산된 단백질의 상응하는 패밀리 구성원 중 적어도 하나에서 공유적으로 부착된 폴리펩타이드 사슬이다.
합성 L-/D-단백질이 임의의 반응에 사용되면, 반응 혼합물은 친화성 정제에 의해 재활용되고 미래의 반응에서 또는 희귀하고 값비싼 아미노산 잔기로 재사용되는 분리 및 합성 단백질일 수 있다. 예를 들어 합성 단백질은 His6 태그와 같은 알려진 친화성 태그로 생산될 수 있고, 사용 후, 반응 혼합물은 합성 L-/D-효소가 반응 혼합물로부터 분리된 상응하는 친화성 수지 또는 비드와 함께 인큐베이션될 수 있다.
이 방법에 의해 제조된 예시 단백질 :
본 발명의 일부 구체예의 또 다른 양태에 따르면, 길이가 적어도 약 240, 300, 350, 400, 500개 이상의 아미노산 잔기이고 본 명세서에 제공된 방법에 따라 생산된 단백질이 제공된다. 단백질은 예를 들어 SPPS에 의한 상응하는 결찰-유도성 세그먼트의 화학적 합성에 사용되는 아미노산에 따라 L-아미노산 단백질 또는 D-아미노산 단백질일 수 있다.
하기 표 1 및 2는 본 발명과 함께 사용될 수 있는 유전적으로 인코딩된 아미노산(표 1) 및 비전통적/변형된 아미노산의 비제한적 예(표 2)를 나열한다.
아미노산 3문자 약어 1문자 기호
알라닌 Ala A
아르기닌 Arg R
아스파라긴 Asn N
아스파르트산 Asp D
시스테인 Cys C
글루타민 Gln Q
글루탐산 Glu E
글리신 Gly G
히스티딘 His H
이소루신 Ile I
루신 Leu L
리신 Lys K
메티오닌 Met M
페닐알라닌 Phe F
프롤린 Pro P
세린 Ser S
트레오닌 Thr T
트립토판 Trp W
티로신 Tyr Y
발린 Val V
비-전통적 아미노산 코드 비-전통적 아미노산 코드
α-아미노부티르산 Abu L-N-메틸알라딘 Nmala
α-아미노-α-메틸부티레이트 Mgabu L-N-메틸아르기닌 Nmarg
아미노시클로프로판-카르복실레이트 Cpro L-N-메틸아스파라긴 Nmasn
아미노이소부티르산 Aib L-N-메틸아스파르트산 Nmasp
아미노노르보닐-카르복실레이트 Norb L-N-메틸시스테인 Nmcys
시클로헥실알라닌 Chexa L-N-메틸글루타민 Nmgin
시클로펜틸알라닌 Cpen L-N-메틸글루탐산 Nmglu
D-알라닌 Dal L-N-메틸히스티딘 Nmhis
D-아르기닌 Darg L-N-메틸이소루신 Nmile
D-아스파르트산 Dasp L-N-메틸루신 Nmleu
D-시스테인 Dcys L-N-메틸리신 Nmlys
D-글루타민 Dgln L-N-메틸메티오닌 Nmmet
D-글루탐산 Dglu L-N-메틸노르루신 Nmnle
D-히스티딘 Dhis L-N-메틸노르발린 Nmnva
D-이소루신 Dile L-N-메틸오르니틴 Nmorn
D-루신 Dleu L-N-메틸페닐알라닌 Nmphe
D-리신 Dlys L-N-메틸프롤린 Nmpro
D-메티오닌 Dmet L-N-메틸세린 Nmser
D/L-오르니틴 D/Lorn L-N-메틸트레오닌 Nmthr
D-페닐알라닌 Dphe L-N-메틸트립토판 Nmtrp
D-프롤린 Dpro L-N-메틸티로신 Nmtyr
D-세린 Dser L-N-메틸발린 Nmval
D-트레오닌 Dthr L-N-메틸에틸글리신 Nmetg
D-트립토판 Dtrp L-N-메틸-t-부틸글리신 Nmtbug
D-티로신 Dtyr L-노르루신 Nle
D-발린 Dval L-노르발린 Nva
D-α-메틸알라닌 Dmala α-메틸-아미노이소부티레이트 Maib
D-α-메틸아르기닌 Dmarg α-메틸-γ-아미노부티레이트 Mgabu
D-α-메틸아스파라긴 Dmasn α-메틸시클로헥실알라닌 Mchexa
D-α-메틸아스파르테이트 Dmasp α-메틸시클로펜틸알라닌 Mcpen
D-α-메틸시스테인 Dmcys α-메틸-α-나프틸알라닌 Manap
D-α-메틸글루타민 Dmgln α-메틸페니실라민 Mpen
D-α-메틸히스티딘 Dmhis N-(4-아미노부틸)글리신 Nglu
D-α-메틸이소루신 Dmile N-(2-아미노에틸)글리신 Naeg
D-α-메틸루신 Dmleu N-(3-아미노프로필)글리신 Norn
D-α-메틸리신 Dmlys N-아미노-a-메틸부티레이트 Nmaabu
D-α-메틸메티오닌 Dmmet α-나프틸알라닌 Anap
D-α-메틸오르니틴 Dmorn N-벤질글리신 Nphe
D-α-메틸페닐알라닌 Dmphe N-(2-카바밀에틸)글리신 Ngln
D-α-메틸프롤린 Dmpro N-(카바밀메틸)글리신 Nasn
D-α-메틸세린 Dmser N-(2-카르복시에틸)글리신 Nglu
D-α-메틸트레오닌 Dmthr N-(카르복시메틸)글리신 Nasp
D-α-메틸트립토판 Dmtrp N-시클로부틸글리신 Ncbut
D-α-메틸티로신 Dmty N-시클로헵틸글리신 Nchep
D-α-메틸발린 Dmval N-시클로헥실글리신 Nchex
D-α-메틸알라닌 Dnmala N-시클로데실글리신 Ncdec
D-α-메틸아르기닌 Dnmarg N-시클로도데실글리신 Ncdod
D-α-메틸아스파라긴 Dnmasn N-시클로옥틸글리신 Ncoct
D-α-메틸아스파르테이트 Dnmasp N-시클로프로필글리신 Ncpro
D-α-메틸시스테인 Dnmcys N-시클로운데실글리신 Ncund
D-N-메틸루신 Dnmleu N-(2,2-디페닐에틸)글리신 Nbhm
D-N-메틸리신 Dnmlys N-(3,3-디페닐프로필)글리신 Nbhe
N-메틸시클로헥실알라닌 Nmchexa N-(3-인돌일리에틸)글리신 Nhtrp
D-N-메틸오르니틴 Dnmorn N-메틸-γ-아미노부티레이트 Nmgabu
N-메틸글리신 Nala D-N-메틸메티오닌 Dnmmet
N-메틸아미노이소부티레이트 Nmaib N-메틸시클로펜틸알라닌 Nmcpen
N-(1-메틸프로필)글리신 Nile D-N-메틸페닐알라닌 Dnmphe
N-(2-메틸프로필)글리신 Nile D-N-메틸프롤린 Dnmpro
N-(2-메틸프로필)글리신 Nleu D-N-메틸세린 Dnmser
D-N-메틸트립토판 Dnmtrp D-N-메틸세린 Dnmser
D-N-메틸티로신 Dnmtyr D-N-메틸트레오닌 Dnmthr
D-N-메틸발린 Dnmval N-(1-메틸에틸)글리신 Nva
γ-아미노부티르산 Gabu N-메틸a-나프틸알라닌 Nmanap
L-t-부틸글리신 Tbug N-메틸페니실라민 Nmpen
L-에틸글리신 Etg N-(p-히드록시페닐)글리신 Nhtyr
L-호모페닐알라닌 Hphe N-(티오메틸)글리신 Ncys
L-α-메틸아르기닌 Marg 페니실라민 Pen
L-α-메틸아스파르테이트 Masp L-α-메틸알라닌 Mala
L-α-메틸시스테인 Mcys L-α-메틸아스파라긴 Masn
L-α-메틸글루타민 Mgln L-α-메틸-t-부틸글리신 Mtbug
L-α-메틸히스티딘 Mhis L-메틸에틸글리신 Metg
L-α-메틸이소루신 Mile L-α-메틸글루타메이트 Mglu
D-N-메틸글루타민 Dnmgln L-α-메틸호모페닐알라닌 Mhphe
D-N-메틸글루타메이트 Dnmglu N-(2-메틸티오에틸)글리신 Nmet
D-N-메틸히스티딘 Dnmhis N-(3-구아니디노프로필)글리신 Narg
D-N-메틸이소루신 Dnmile N-(1-히드록시에틸)글리신 Nthr
D-N-메틸루신 Dnmleu N-(히드록시에틸)글리신 Nser
D-N-메틸리신 Dnmlys N-(이미다졸릴에틸)글리신 Nhis
N-메틸시클로헥실알라닌 Nmchexa N-(3-인돌릴에틸)글리신 Nhtrp
D-N-메틸오르니틴 Dnmorn N-메틸-γ-아미노부티레이트 Nmgabu
N-메틸글리신 Nala D-N-메틸메티오닌 Dnmmet
N-메틸아미노이소부티레이트 Nmaib N-메틸시클로펜틸알라닌 Nmcpen
N-(1-메틸프로필)글리신 Nile D-N-메틸페닐알라닌 Dnmphe
N-(2-메틸프로필)글리신 Nleu D-N-메틸프롤린 Dnmpro
D-N-메틸트립토판 Dnmtrp D-N-메틸세린 Dnmser
D-N-메틸티로신 Dnmtyr D-N-메틸트레오닌 Dnmthr
D-N-메틸발린 Dnmval N-(1-메틸에틸)글리신 Nval
γ-아미노부티르산 Gabu N-메틸a-나프틸알라닌 Nmanap
L-t-부틸글리신 Tbug N-메틸페니실라민 Nmpen
L-에틸글리신 Etg N-(p-히드록시페닐)글리신 Nhtyr
L-호모페닐알라닌 Hphe N-(티오메틸)글리신 Ncys
L-α-메틸아르기닌 Marg 페니실라민 Pen
L-α-메틸아스파르테이트 Masp L-α-메틸알라닌 Mala
L-α-메틸시스테인 Mcys L-α-메틸아스파라긴 Masn
L-α-메틸글루타민 Mgln L-α-메틸-t-부틸글리신 Mtbug
L-α-메틸히스티딘 Mhis L-메틸에틸글리신 Metg
L-α-메틸이소루신 Mile L-α-메틸글루타메이트 Mglu
L-α-메틸루신 Mleu L-α-메틸호모페닐알라닌 Mhphe
L-α-메틸메티오닌 Mmet N-(2-메틸티오에틸)글리신 Nmet
L-α-메틸노르발린 Mnva L-α-메틸리신 Mlys
L-α-메틸페닐알라닌 Mphe L-α-메틸노르루신 Mnle
L-α-메틸세린 mser L-α-메틸오르니틴 Morn
L-α-메틸발린 Mtrp L-α-메틸프롤린 Mpro
L-α-메틸루신 Mval Nnbhm L-α-메틸트레오닌 Mthr
N-(N-(2,2-디페닐에틸)카르바밀메틸-글리신 Nnbhm L-α-메틸티로신 Mtyr
1-카르복시-1-(2,2-디페닐에틸아미노)시클로프로판 Nmbc L-N-메틸호모페닐알라닌 Nmhphe
N-(N-(3,3-디페닐프로필)카르바밀메틸(1)글리신 Nnbhe D/L-시트룰린 D/Lctr
단백질의 전체 화학적 합성 방법을 입증하기 위해, 본 발명자들은 상응하는 생물학적으로 생산된 효소에 의해 촉매된 반응을 촉매할 수 있는 활성 효소를 합성하였다. 이러한 효소 중 하나는 DNA 주형을 사용하여 리보뉴클레오티드로부터 RNA를 합성할 수 있는 RNA 중합효소이다. 하기 실시예 섹션에서, 예시적인 RNA 중합효소는 T7 RNA 중합효소이다. 또 다른 실시예에서, 효소는 디옥시리보뉴클레오티드로부터 DNA를 합성할 수 있는 DNA 중합효소이다. 하기 실시예 섹션에서, 예시적인 DNA 중합효소는 Pfu DNA 중합효소이다.
본 명세서에 제공된 방법을 사용하여 D-아미노산 RNA 중합효소를 생산할 때, 이 독특한 거울상 효소는 L-DNA 주형을 사용하여 L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있다. 예를 들어, D-아미노산 RNA 중합효소는 D-아미노산 T7 RNA 중합효소이다.
하기에 제시된 바와 같이, D-아미노산 T7 RNA 중합효소는 WT 위치 넘버링 방식을 사용하여 적어도 하나의 분할 부위, K363과 P364 사이의 제1 분할 부위 및 N601과 T602 사이의 제2 분할 부위로 제조된다. 대안으로, D-아미노산 T7 RNA 중합효소뿐만 아니라 본 명세서에 제공된 방법에 의해 생산된 L-아미노산 T7 RNA 중합효소는 K363과 P364 사이의 분할 및/또는 N601과 T602 사이의 분할에 의해 형성된 적어도 2개의 폴리펩타이드 사슬을 포함한다. 또한, 상기 분할 부위는 동일한 루프에서 상기 언급된 부위 근처에서, 즉 위치 357에서 위치 366까지 및/또는 위치 564에서 위치 607까지 잠재적으로 선택될 수 있다.
본 발명의 일부 구체예에 따르면, 본 명세서에 제공된 방법에 따라 생산된 T7 RNA 중합효소는 I6V, I14L, I74V, I82V, I109V, I117L, I141V, I210M, I244L, I281V, I320V, I322L, I330V 및 I367L로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함할 수 있다. 이러한 돌연변이는 비용이 많이 드는 D-Ile 잔기를 다른 적합한 D-아미노산 잔기로 대체함으로써 비용 절감 전략에 도움이 된다.
본 발명의 일 양태에 따르면, 본 발명의 방법에 의해 생산되고, SEQ ID No. 83과 동일한 아미노산 서열을 갖거나, SEQ ID No. 83과 적어도 80-90% 서열 동일성을 갖는 D- 또는 L-아미노산 T7 RNA 중합효소가 제공된다.
본 명세서에 제공된 방법을 사용하여 D-아미노산 DNA 중합효소를 생산할 때, 이 독특한 거울상 효소는 L-디옥시리보뉴클레오티드로부터 L-DNA를 합성할 수 있다. 예를 들어, D-아미노산 DNA 중합효소는 D-아미노산 Pfu DNA 중합효소이다.
따라서, 본 발명의 또 다른 양태에 따르면, K467과 M468 사이의 분할에 의해 형성된 적어도 2개의 폴리펩타이드 사슬을 포함하는 Pfu DNA 중합효소가 제공되는 반면 위치 번호는 해당 WT 효소의 아미노산 위치 번호를 기반으로 한다. 다른 분할 부위는 이 부위 근처, 즉 Pfu DNA 중합효소의 핑거 도메인의 코일형 코일 모티프에서, 예를 들어 위치 449와 위치 498 사이에서 선택될 수 있음이 여기에서 주목된다.
일부 구체예에 따르면, 본 명세서에 제공된 합성 Pfu DNA 중합효소는 E102A, E276A, K317G, V367L 및 I540A로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다. 다른 구체예에 따르면, 본 명세서에 제공된 Pfu DNA 중합효소는 V93Q, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함한다.
본 발명의 일 양태에 따르면, 본 명세서에 제공된 방법에 의해 생산되고, SEQ ID No. 48, SEQ ID No. 49, SEQ ID No. 50, SEQ ID No. 51, SEQ ID No. 74, SEQ ID No. 75, SEQ ID No. 76, SEQ ID No. 77 및 SEQ ID No. 79로 구성된 군에서 선택된 아미노산 서열을 갖거나, SEQ ID No. 51과 적어도 80-90% 서열 동일성을 가지며, DNA 결합 구조 도메인(SEQ ID No. 78)을 포함하거나 포함하지 않는 D- 또는 L-아미노산 Pfu DNA 중합효소가 제공된다.
배 직교(biorthogonal) 데이터 저장:
전 세계적으로 데이터가 생성되는 속도가 점점 빨라짐에 따라 방대한 정보를 보존하기 위한 신뢰할 수 있는 고밀도 미디어에 대한 요구가 증가하고 있다. 천연 DNA는 정보를 암호화, 저장 및 전파하도록 정교하게 진화되었다.
빽빽하게 채워진 염색체에 방대한 게놈 명령을 인코딩하기 위해 자연이 선택한 분자인 DNA에 저장하는 것이 유망한 솔루션으로 부상하였다(1-3). 한편, 거울상 DNA는 배 직교 정보 저장 작업에 고유하게 적합하며, 이를 위해 L-DNA 데이터 증착 및 검색 방법론이 필수적이지만 대부분 미개척 상태로 남아 있다.
본 발명자들은 동일한 정보 용량을 소유하고 생물학적 분해 및 오염을 회피하는 고유한 능력을 보유하는 키랄 반전(거울상) DNA가 매우 견고하고 배 직교 데이터 저장소 역할을 할 수 있다고 생각하였다. 본 발명을 실시하는 동안, 본 발명의 일부 구체예에 따르면, L-DNA 서열의 충실한 쓰기 및 판독을 위해 90-kDa의 고충실도 D-아미노산 Pfu DNA 중합효소가 화학적으로 합성되었다.
본 발명자들은 본 발명의 일부 구체예의 양태 중 하나인 거울상 DNA에 디지털 텍스트의 전체 단락을 저장하는 것을 입증하였다. 아래의 예시 섹션에서 볼 수 있듯이, 정제되지 않은 환경 용수 샘플의 미량 메시지 전달 L-DNA 바코드는 안정적이고 몇 달 그리고 잠재적으로 그 이상 동안 증폭될 수 있다. 또한, 본 발명의 일부 구체예에 따라 생산된 고충실도 D-중합효소는 거울상 번역을 달성하고 거울상 센트럴 도그마를 확립하기 위한 필수 단계인 전장 킬로베이스 크기의 거울상 유전자의 정확한 조립을 가능하게 하였다. 차세대 거울상 효소 도구의 성공적인 합성과 긴 거울상 유전자의 조립은 거울상 생물학 시스템의 개발과 새로운 응용 분야의 탐색을 변화시켰다.
간단히 말해서 DNA는 본질적으로 데이터 저장 분자이다. 여기에는 세포(또는 전체 유기체)가 스스로를 유지하는 데 필요한 모든 지침이 포함되어 있다. 이러한 지침은 뉴클레오티드의 특정 서열로 구성된 DNA의 섹션인 유전자 내에서 발견된다. 유전자가 구현되려면 유전자에 포함된 명령이 발현되거나 세포가 생명 유지에 필요한 단백질을 생산하는 데 사용할 수 있는 형태로 복사되어야 한다. DNA에 저장된 명령은 전사와 번역의 두 단계로 세포에 의해 읽고 프로세싱된다. 이러한 각 단계는 여러 분자를 포함하는 별도의 생화학 과정이다. 전사 동안 세포 DNA의 일부는 RNA 분자 생성을 위한 주형 역할을 한다. 어떤 경우에는 새로 생성된 RNA 분자 자체가 완제품이며 세포 내에서 중요한 기능을 수행한다. 다른 경우에 RNA 분자는 프로세싱을 위해 DNA에서 세포의 다른 부분으로 메시지를 전달한다. 대부분의 경우 이 정보는 단백질을 제조하는 데 사용된다. DNA에 저장된 정보를 세포의 다른 영역으로 운반하는 특정 유형의 RNA를 메신저 RNA 또는 mRNA라고 한다.
도 4는 예시적인 유형의 XNA로서 L-DNA를 사용하는 본 발명의 일부 구체예에 따른 분자 데이터 저장을 예시하는 흐름도이다.
따라서, 본 발명의 일 양태에 따르면, D-아미노산 RNA 중합효소 또는 D-아미노산 DNA 중합효소 및 L-리보핵산 또는 L-디옥시리보핵산을 각각 사용하여 배 직교(biorthogonal) 데이터 저장 폴리머를 형성하는 방법이 제공되되, 상기 중합효소는 본 명세서에 제공된 방법에 따라 생산된다.
본 발명의 다른 양태에 따르면, 본 명세서에 제공된 D-아미노산 RNA 중합효소 또는 본 명세서에 제공된 D-아미노산 DNA 중합효소 및 L-리보핵산 또는 L-디옥시리보핵산을 각각 사용하여 배 직교 데이터 저장 폴리머를 형성하는 방법이 제공된다.
본 발명의 다른 양태에 따르면, 본 명세서에 제공된 방법에 의해 생산된 적어도 하나의 D-아미노산 단백질을 사용하여 배 직교 데이터 저장 폴리머를 디코딩하는 방법이 제공되되, 배 직교 데이터 저장 폴리머는 L-리보핵산 또는 L-디옥시리보핵산 잔기를 포함한다.
본 발명의 구체예들의 다른 양태에 따르면, 본 명세서에 제공된 방법에 의해 생산된 적어도 하나의 D-아미노산 단백질을 사용하여 배 직교 데이터 저장 폴리머를 해독하는 방법이 제공되되, 배 직교 데이터 저장 폴리머는 L-리보핵산 또는 L-디옥시리보핵산 잔기를 포함한다.
본 발명의 구체예의 또 다른 양태에 따르면, L-DNA 합성(DNA 서열에 코드를 쓰기) 및/또는 L-DNA 시퀀싱(DNA 서열에서 코드를 판독)을 위해, 본질적으로 전술한 바와 같이 4개의 문자 A, T, G 및 C, D-아미노산 RNA/DNA 중합효소를 사용하여 그 서열에서 정보 데이터를 인코딩하는 적어도 하나의 L-DNA를 포함하는 배 직교 데이터 저장 시스템이 제공된다.
본 발명의 범위는 본 명세서 및 당업계에서 "제노 핵산(Xeno Nucleic Acid)" 또는 XNA로 지칭되는 다른 유형의 비-자연적으로 발생하거나 비-정규의 뉴클레오티드 및 이의 폴리머의 사용을 포함하는 것으로 의도됨을 주목한다. 따라서, 본 발명의 일부 구체예에 따르면, 분자 데이터 저장을 생성하고 사용하기 위해 여기에 제공된 시스템 및 방법은 예를 들어 Eremeeva, E and Herdewijn, P. in the publication "Non canonical genetic material" [Current Opinion in Biotechnology, 2019, 57, pp. 25-33], and by Chaput, J.C. et al. [Chem. Biol., 2012, 21;19(11), pp. 1360-71]에 의해 논의된 것과 같은 XNA의 사용을 포함한다.
L-DNA의 충실한 조립, 증폭 및 시퀀싱은 배 직교 정보 저장, 환경 및 식품 바코드, 의료용 임플란트 모니터링, 법의학 조사 및 보안 메시징에 흥미로운 기회를 제공할 수 있으며, 이는 그들이 소량의 정보를 담고 있는 L-DNA 분자를 증폭 및 시퀀싱하는데 너무 비효율적이고 오류가 발생하기 쉬웠기 때문에 ASFV pol X 또는 Dpo4와 같은 이전 버전의 거울상 중합효소 시스템에서는 실현되지 못했다(5, 17, 18, 21). 향후 거울상 유전자와 전체 게놈을 정확하게 조립하면 게놈 뱅킹 및 행성 간 운송 목적으로 자연 유기체의 거울상 게놈 백업 사본을 생성하는 데도 적합한 시스템을 만들 수 있다.
거울상 리보좀:
거울상 센트럴 도그마를 확립하는 다음 단계는 기능적 거울상 리보좀을 구축하여 거울상 번역을 달성하는 것이다. 본 발명자들은 최근 합성 L-DNA 주형을 120 nt에서 전장 5S rRNA로 전사함으로써 L-RNA 화학 합성의 한계(일반적으로 약 70 nt 미만)를 극복했지만, 번역을 위한 mRNA 뿐만 아니라 1.5 kb 16S 및 2.9 kb 23S rRNA를 얻기 위해서는 거울상 유전자를 더 긴 L-RNA로 전사할 수 있는 보다 효율적인 효소 시스템이 필요하다. 한 가지 가능성은 이전에 입증된 것처럼 DNA 중합효소를 DNA 의존성 RNA 중합효소로 돌연변이시키는 것이다. 실제로, 본 발명자들은 분할 Pfu DNA 중합효소(V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K 7개의 점 돌연변이를 가짐)를 효율적인 DNA-의존성 RNA 중합효소로 재설계하는 데 성공하였다. 그러나 긴 단일 가닥(ss) L-DNA 주형의 제조 및 정제는 또 다른 문제를 제기하며 먼저 해결해야 한다. 또는 이중 가닥(ds) L-DNA 주형을 사용하는 100-kDa T7 RNA 중합효소의 거울상 버전을 합성하면 거울상 변환에 필요한 모든 거울상 rRNA 및 mRNA의 효소 전사가 가능해야 한다. 본 발명을 실시하는 과정에서, 본 발명의 일부 구체예에 따르면, D-아미노산 T7 RNA 중합효소는 하기 실시예 섹션에 제시된 바와 같이 전체 화학적 합성에 의해 실현되었다.
라세미 결정학:
단백질 결정학 분야에서 알려진 바와 같이, 단백질 구조 규명에서 첫 번째이자 아마도 가장 속도를 제한하는 단계는 X-선 회절이 가능한 결정을 얻는 것이다. 저분자 결정화 실험에서 분자의 두 거울상이성질체의 라세미 혼합물이 고품질 회절 결정을 형성하는 경향이 있는 것이 관찰되었으며, 여기서 단위 셀에서 관찰되는 대칭 작업 중 적어도 하나는 반전이다. 구조 생물학에서 떠오르는 라세미 결정학 분야는 특히 대형 거울상 단백질을 구할 때 그들의 희소성으로 인해 거울상 단백질 샘플의 부족으로 어려움을 겪고 있다.
따라서, 본 발명의 일부 구체예에 따르면, 목적 단백질의 결정을 형성하는 방법이 제공되며, 이는 본 명세서에 제공된 바와 같이 제공되어 목적 단백질과 목적 단백질의 거울상이성질체를 공동 결정화하여 거울상이성질체 단백질 쌍의 결정을 형성하여 수행되며, 여기서 거울상이성질체는 D-아미노산(거울상) 단백질 및 상응하는 L-아미노산 목적 단백질이다.
본 발명의 또 다른 유형의 구체예에서, 거울상의 거울상이성질체는 본 명세서에 제공된 바와 같은 거울상 단백질에 의해 생산된다. 예를 들어, 본 명세서에 논의된 바와 같이 제공된 거울상 고충실도 RNA 중합효소는 L-RNA를 전사하는 데 사용될 수 있으며, 그에 따라 그에 상응하는 D-RNA의 거울상이성질체를 생산할 수 있으며, 그런 다음 RNA 구조를 풀기 위해 D-RNA와 거울상이성질체/라세미 공동 결정화에 사용할 수 있다.
라세미 결정학에 관한 추가 정보는 예를 들어 다음에서 찾을 수 있다: Matthews, B.W., "Racemic crystallography-Easy crystals and easy structures: What's not to like?", Protein Science, 2009, 18(6), pp. 1135-1138; Yeates, T.O. and Kent, S.B.H., "Racemic Protein Crystallography", Annual Review of Biophysics, 2012,41(1), pp. 41-61; and Mandal, P.K. et al., "Racemic DNA Crystallography", Angewandte Chemie International Edition, 2014, 53(52), pp. 14424-14427, 이의 내용은 본 명세서에 완전히 기재된 것 처럼 전체가 참조로 여기에 포함된다.
시퀀싱:
본 발명의 일부 구체예에 따르면, 합성 단백질은 화학적으로 합성된 거울상 DNA 올리고를 분리하기 위한 시퀀싱 및 변성 시퀀싱 PAGE에 사용될 수 있어 대부분의 -1 및 -2 nt 산물을 줄임으로써 합성 올리고의 품질을 크게 향상시킨다. D- 또는 L-아미노산 합성 단백질의 이러한 사용은 시퀀싱 공정의 충실도를 향상시켜 최종 조립된 유전자 서열의 대부분이 올바른 서열이 되도록 한다.
본 발명의 일부 구체예에 따르면, 젤 정제를 위한 거울상 PCR 및 PCR 증폭 L-DNA 산물의 필요한 규모를 줄이기 위해 변성 시퀀싱 PAGE(그의 "데드 볼륨(dead volume)"으로서 특정 요구량을 가짐)에 의한 정제 전에 표지되지 않은 담체 D-(또는 L-) DNA가 샘플에 첨가된다. 본 발명의 일부 구체예에 따르면, 합성 거울상 고충실도 중합효소는 L-DNA 및 L-RNA와 같은 거울상 핵산의 합성에 의한 시퀀싱을 위해 포스포로티오에이트 L-dNTP와 함께 사용될 수 있다. 또한, 2개의 상이한 염료(각각 FAM 및 Cy5)로 5'-표지된 2개의 프라이머에 의한 양방향 시퀀싱 전략을 사용하여 한 번의 반응에서 판독 길이를 160 초과 내지 170 bp까지 향상시킨다.
SELEX(systematic evolution of ligands by exponential enrichment, 지수와 농축의 체계적인 진화):
본 발명의 일부 구체예에 따라, 예를 들어 본 명세서에 제공된 거울상 Pfu DNA 중합효소를 사용하는 합성에 의한 시퀀싱의 개발은 번거로운 L-DNA 화학 시퀀싱 접근 방식과 비교하여 보다 효과적인 L-DNA 시퀀싱 기술을 실현하기 위한 또 다른 단계이다.
시험관 내 선택 또는 시험관 내 진화라고도 지칭되는 지수와 농축의 체계적인 진화(SELEX)는 표적 리간드 또는 리간드에 특이적으로 결합하는 단일가닥 DNA 또는 RNA의 올리고뉴클레오티드를 생산하기 위한 분자 생물학의 결합 화학 기술이다. 이 과정은 프라이머 역할을 하는 일정한 5' 및 3' 말단이 측면에 있는 고정 길이의 무작위로 생성된 서열로 구성된 대형 올리고뉴클레오티드 라이브러리의 합성으로 시작된다. 임의로 생성된 길이 n의 영역의 경우 라이브러리에서 가능한 서열의 수는 4n이다(각 위치에서 4개의 가능성(A, T, C 및 G)이 있는 n 위치). 라이브러리의 서열은 표적 리간드(단백질 또는 작은 유기 화합물일 수 있음)에 노출되며 표적에 결합하지 않는 서열은 일반적으로 친화성 크로마토그래피 또는 상자성 비드의 표적 포획에 의해 제거된다. 결합된 서열은 PCR에 의해 용출 및 증폭되어 용출 조건의 엄격성을 증가시켜 가장 긴밀한 결합 서열을 확인할 수 있는 후속 선택 라운드를 준비한다. SELEX는 임상 및 연구 목적 모두에서 흥미로운 표적에 결합하는 다수의 압타머를 개발하는 데 사용되었다. 또한 이러한 목적을 위해 화학적으로 변형된 당과 염기가 있는 많은 뉴클레오티드가 SELEX 반응에 혼입되었다. 이러한 변형된 뉴클레오티드는 새로운 결합 특성과 잠재적으로 향상된 안정성을 가진 압타머의 선택을 허용한다.
거울상 Sanger 시퀀싱 및 자동화 고처리량 L-DNA 시퀀싱 기술을 위한 고충실도 거울상 중합효소를 재설계하기 위한 향후 노력(예를 들어, 돌연변이 합성 또는 3'-5' 엑소뉴클레아제 활성이 없는 절단 버전을 통해)은 다중화된 L-DNA 시퀀싱, L-압타머 약물의 직접 체외 선택을 위한 MI-SELEX(Mirror-image Systematic Evolution of Ligands by Exponential Enrichment)와 같은 새로운 응용 분야로 이어질 수 있다(17, 18).
본 출원으로부터 특허가 만료되는 기간 동안 많은 관련 대형 합성 D/L-단백질이 개발될 것으로 예상되며, 대형 합성 D/L-단백질이라는 용어의 범위는 이러한 모든 신기술을 선험적으로 포함하도록 의도된다.
본 명세서에 사용된 용어 "약"은 ±10%를 지칭한다(예를 들어, "약 30"은 27-33 또는 30±3을 의미함).
용어 "포함하다", "포함하는", "함유하다", "함유하는", "갖는" 및 이들의 활용어는 "함유하지만 이에 제한되지 않는"을 의미한다.
"구성하는"이라는 용어는 "함유하고 이에 제한되는"을 의미한다.
"본질적으로 구성된"이라는 용어는 조성물, 방법 또는 구조가 추가 성분, 단계 및/또는 부품을 포함할 수 있으나 추가 성분, 단계 및/또는 부품이 청구된 조성물, 방법 또는 구조의 기본적이고 새로운 특성을 실질적으로 변경하지 않는 경우에만 가능함을 의미한다.
본 명세서에 사용된 바와 같이, 특정 물질과 관련하여 "실질적으로 결여된" 및/또는 "본질적으로 결여된"이라는 문구는, 이 물질이 전혀 없거나 조성물의 총 중량 또는 부피 기준으로 약 5, 1, 0.5 또는 0.1% 미만의 물질을 포함하는 조성물을 지칭한다. 또는, 공정, 방법, 특성 또는 특징의 맥락에서 "실질적으로 결여된" 및/또는 "본질적으로 결여된" 문구는 특정 공정/방법 단계, 특정 속성 또는 특정 특징 또는 공정/방법이 전혀 없는 공정, 구성, 구조 또는 물품을 지칭하며, 여기서, 특정 공정/방법 단계는 주어진 표준 공정/방법과 비교하여 약 5, 1, 0.5 또는 0.1% 미만으로 수행되며, 또는 특성 또는 특징은 주어진 표준과 비교하여 특성 또는 특징의 약 5, 1, 0.5 또는 0.1% 미만을 특징으로 한다.
용어 "예시적인"은 본 명세서에서 "예, 실례 또는 예시로서의 역할을 하는 것"을 의미하는 것으로 사용된다. "예시적인" 것으로 기술된 임의의 구체예는 반드시 다른 구체예보다 바람직하거나 유리한 것으로 해석되거나 다른 구체예로부터 특징의 통합을 배제하는 것으로 해석되지 않는다.
단어 "임의로" 또는 "대안으로"는 본 명세서에서 "일부 구체예에서는 제공되고 다른 구체예에서는 제공되지 않음"을 의미하는 데 사용된다. 본 발명의 임의의 특정 구체예는 이러한 특징이 충돌하지 않는 한 복수의 "임의의" 특징을 포함할 수 있다.
본 명세서에 사용된 바와 같이, 단수형 "a", "an" 및 "the"는 문맥상 명백하게 달리 지시하지 않는 한 복수 참조를 포함한다. 예를 들어, "화합물" 또는 "적어도 하나 이상의 화합물"이라는 용어는 이들의 혼합물을 포함하는 복수의 화합물을 포함할 수 있다.
본 출원 전반에 걸쳐, 본 발명의 다양한 구체예는 범위 형식으로 제시될 수 있다. 범위 형식의 설명은 단지 편의와 간결함을 위한 것이며 본 발명의 범위에 대한 융통성 없는 제한으로 해석되어서는 안 됨을 이해해야 한다. 따라서 범위에 대한 설명은 모든 가능한 하위 범위와 해당 범위 내의 개별 수치 값을 구체적으로 개시한 것으로 간주되어야 한다. 예를 들어, 1 내지 6과 같은 범위의 설명은 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 4, 2 내지 6, 3 내지 6 등과 같은 구체적으로 개시된 하위 범위뿐만 아니라 해당 범위 내의 개별 숫자, 예컨대, 1, 2, 3, 4, 5 및 6도 갖는 것으로 간주되어야 한다. 이는 범위의 폭에 관계없이 적용된다.
본 명세서에서 수치 범위가 표시될 때마다, 이는 표시된 범위 내의 임의의 인용된 숫자(분수 또는 정수)를 포함하는 것을 의미한다. 첫 번째 표시 번호와 두 번째 표시 번호 사이에 "범위 지정" 및 첫 번째 표시 번호 "에서" 두 번째 표시 번호 "범위 지정/범위"는 본 명세서에서 상호교환적으로 사용되며 첫 번째 및 두 번째 표시된 숫자와 그 사이의 모든 분수 및 정수 숫자를 포함하는 것을 의미한다.
본 명세서에서 사용된 용어 "공정" 및 "방법"은 화학, 재료, 기계, 전산 및 디지털 기술의 실무자에게 알려졌거나 알려진 방식, 수단, 기술 및 절차에서 쉽게 개발된 방식, 수단, 기술 및 절차를 포함하되 이에 제한되지 않는 주어진 작업을 수행하기 위한 방식, 수단, 기술 및 절차를 지칭한다.
본 명세서에 사용된 바와 같이, 용어 "치료하는"은 병태의 진행을 폐지, 실질적으로 억제, 둔화 또는 역전, 병태의 임상적 또는 심미적 증상을 실질적으로 개선 또는 병태의 임상적 또는 심미적 증상의 출현을 실질적으로 방지하는 것을 포함한다.
특정 서열 목록을 참조할 때, 이러한 참조는 또한 예를 들어 시퀀싱 오류, 클로닝 오류 또는 염기 치환, 염기 결실 또는 염기 추가를 초래하는 기타 변경으로 인한 사소한 서열 변이를 포함하는 상보적 서열에 실질적으로 상응하는 서열을 포함하는 것으로 이해되어야 한다. 단, 그러한 변이의 빈도는 50개 뉴클레오티드 중 1개 미만, 또는 100개 뉴클레오티드 중 1개 미만, 또는 200개 뉴클레오티드 중 1개 미만, 또는 500개 뉴클레오티드 중 1개 미만, 또는 1000개 뉴클레오티드 중 1개 미만이어야 합니다. 또는 5,000개 뉴클레오티드 중 1개 미만, 또는 10,000개 뉴클레오티드 중 1개 미만이다.
명료함을 위해 별도의 구체예의 맥락에서 설명된 본 발명의 특정 특징은 또한 단일 구체예에서 조합되어 제공될 수 있음이 이해된다. 역으로, 간결함을 위해 단일 구체예의 맥락에서 설명된 본 발명의 다양한 특징은 또한 개별적으로 또는 임의의 적합한 하위 조합으로 또는 본 발명의 임의의 다른 설명된 구체예에 적합하게 제공될 수 있다. 구체예가 그러한 요소 없이 작동하지 않는 한, 다양한 구체예의 맥락에서 설명된 특정 특징은 해당 구체예의 필수 특징으로 간주되지 않는다.
상기에 기술되고 하기 청구범위 섹션에서 청구된 바와 같이 본 발명의 다양한 구체예 및 양태는 하기 실시예에서 실험적 및/또는 계산적 지원을 발견할 수 있다.
실시예
이제, 상기 설명과 함께 본 발명의 일부 구체예를 비제한적인 방식으로 예시하는 하기 실시예를 참조한다.
실시예 1: Pfu DNA 중합효소의 전체 화학적 합성
본 발명의 일부 구체예의 개념 증명은 Pfu DNA 중합효소의 천연(L-아미노산 단백질) 및 거울상 버전 모두의 전체 화학적 합성에 의해 수행되었다.
본 명세서에 제공된 방법을 구현하는 첫 번째 단계는 효소의 전체 화학적 합성에 도움이 되는 기존의 서열 특징을 확인하고, 구조적 안정성을 손상시키지 않으면서 돌연변이를 도입하여 원하는 효소 활성을 가능하도록 충분한 구조적 유연성(느슨함)을 갖는 서열 내의 위치를 확인하기 위해, Pfu DNA 중합효소에 관한 이용 가능한 정보를 사용하는 것이었다. 이를 위해 Pfu-WT(SEQ ID No. 47), Pfu-5m(SEQ ID No. 48), Pfu-5m-55I(SEQ ID No. 49), Pfu-5m-46I(SEQ ID No. 50), Pfu-5m-30I(SEQ ID No. 51), Pfu-5m-0I(SEQ ID No. 52), KOD1(SEQ ID No. 53), Tgo(SEQ ID No. 54), 9°N-7(SEQ ID No. 55) 및 Tok(SEQ ID No. 56) 중합효소를 이용하여 다중 서열 정렬(MSA)을 수행하였다. MSA는 고도로 보존된 아미노산은 변하지 않은 채로 유지된 반면, MSA의 다른 부분은 추가적인 NCL 부위, 분할 부위, 소수성 저하 돌연변이 및 Ile 감소 돌연변이를 도입하기 위한 돌연변이에 도움이 되는 다양성을 보여주었다. 따라서, MSA에 기초하여, E102A, E276A, K317G, V367L 및 I540A가 서열의 다양한 아미노산 섹션에 결찰-유도성 아미노산을 도입하기 위한 돌연변이로서 선택되었다(또한 위치 540에서 이소루신을 대체함). MSA 분석 및 단백질 구조 정보에 기초하여, 이소루신 WT 잔기 I38, I62, I65, I80, I127, I137, I158, I171, I176, I191, I197, I198, I205, I206, I228, I232, I244, I256, I264 , I268, I282, I331, I401, I434, I446, I478, I557, I598, I605, I611, I619, I631, I643, I648, I656, I677, I716, I734, I745 및 I772는 다른 적합한 잔기로 대체되었다. 또한, V93Q, D141A, E143A, Y410G, A486L 및 E665K 돌연변이를 도입하여 L- 및 D-아미노산 버전 모두에서 Pfu DNA 중합효소를 효율적인 RNA 중합효소로 전환하였다.
Pfu DNA 중합효소의 아미노산 서열은 본 발명의 일부 구체예에 따라 2개의 도메인-형성 세그먼트로 분할되었고, 본 명세서에서는 Pfu-N 단편(SEQ ID No. 57) 및 Pfu-C 단편(SEQ ID No. 67)으로 지칭된다. 하기 도 2A-B에서 볼 수 있는 바와 같이, Pfu-N 단편은 길이가 40 내지 62 aa의 9개의 펩타이드 세그먼트(SEQ ID Nos. 58-66)로 분할되었고, Pfu-C 단편은 33 내지 63 aa의 6개의 세그먼트(SEQ ID Nos. 68-73)로 나뉘었다.
도 2A-B는 돌연변이체 Pfu-N 단편의 합성 경로의 설계 흐름을 제시하되(도 2A), 여기서 추가적인 NCL 부위가 도입되어(E102A, E276A, K317G, V367L) 결찰-유도성 세그먼트를 형성하였고, 25개의 이소루신 잔기가 치환되었으며, 돌연변이체 Pfu-C 단편의 합성 경로의 설계 흐름을 제시하되(도 2B), 여기서 추가로 NCL 부위(I540A)가 도입되었을 뿐만 아니라 다른 15개의 이소루신 잔기의 돌연변이가 도입된 반면 이러한 돌연변이는 SPPS 및 결찰 과정에서 단백질 합성을 촉진하고 거울상 버전의 합성 비용을 줄이기 위해 도입되었다.
펩타이드 세그먼트는 Fmoc 기반 SPPS에 의해 제조되고, 역상 고성능 액체 크로마토그래피(RP-HPLC)로 정제되며, 수렴 조립 전략으로 히드라지드 기반 NCL로 조립한 다음 금속 자유 라디칼 기반 탈황을 수행하였다. L-중합효소에 대해 관찰 분자량(M.W.)이 54830.0 Da(계산된 M.W. 54829.9 Da; 분석용 HPLC 및 ESI-MS에 의해 결정됨, 미도시됨)인 4.3 mg의 L-Pfu-N 단편 및 관찰 M.W.이 35563.2 Da(계산된 M.W. 35563.02 Da)인 2.2 mg의 L-Pfu-C 단편을 얻었으며, D-중합효소에 대해 관찰 M.W.이 54829.5 Da인 16.5 mg의 D-Pfu-N 단편 및 관찰 M.W.이 35561.9 Da인 11.9 mg의 D-Pfu-C 단편을 얻었다. 합성 L-중합효소와 D-중합효소 모두 연속적인 투석에 의해 폴딩된 다음 85℃에서 열-침전이 이어졌고, 이는 올바르게 폴딩된 단백질(ESI-MS, 미도시됨)의 순도를 더욱 향상시켰다. 다음으로, 중합효소의 PCR 활성을 짧은 100-bp 합성 D- 또는 L-DNA 주형(SEQ ID No. 12)에서 시험하고, 재조합 및 합성 L-중합효소와 D-중합효소 사이의 유사한 증폭 효율을 측정하였다(3% 사분 아가로스 젤 전기영동으로 분석하고 ExRed. M, DNA marker, 및 ImageLab software (Bio-Rad Laboratories, CA, U.S.). M, DNA marker로 염색). pUC19 플라스미드(SEQ ID No. 80)의 1.2 kb D-DNA 서열에서도 합성 L-중합효소의 충실도를 정량화했으며, PCR 산물의 Sanger 시퀀싱은 3.6×10-6 미만의 오류율을 측정하였으며(아래 표 3 참조), 이전 연구에서 보고된 WT Pfu DNA 중합효소와 일치하였다.
절차 결실 삽입 치환 전체 염기 서열 올리고 정제법 오류율
중합
(35-사이클 PCR)
0 0 4 91728 - 3.6Х10-6
유전자 조립 28 0 2 10661 OPC 2.8Х10-3
유전자 조립 0 0 1 15230 PAGE 6.6Х10-5
재료:
L-DNA 올리고는 H-8 올리고 합성기(K&A Laborgeraete, Germany)에서 L-디옥시뉴클레오시드 포스포아미다이트(ChemGenes, MA, U.S.)로 합성되었다. 재조합 단백질 발현을 위한 프라이머는 Genewiz(Beijing, China)에서 주문하였다. 박테리아 16S rRNA 유전자 조립을 위한 프라이머는 변성 시퀀싱 PAGE에 의해 정제되었다. 다른 DNA 올리고는 올리고뉴클레오티드 정제 카트리지(OPC)(Ruibiotech, Beijing, China)로 정제하였다. PAGE DNA 정제 키트는 Tiandz Inc.(Beijing, China)에서 구입하였다. Tris-base, NP-40, Tween-20, KCl, 구아니딘 하이드로클로라이드(guanidine hydrochloride, Gn·HCl), β-머캅토에탄올(β-ME)은 Amresco Inc.(PA, U.S.)에서 구입하였다. 이미다졸과 EDTA는 Solarbio Life Sciences(Beijing, China)에서 구입하였다. 2-클로로트리틸 클로라이드 수지(로딩=0.6 mmole/g)는 Tianjin Nankai Hecheng Science & Technology Co.(Tianjin, China)에서 구입하였다. Wang Chemmatrix 수지는 CSBio Ltd(Shanghai, China)에서 구입하였다. Fmoc-D-아미노산, Fmoc-L-아미노산 및 O-(6-클로로벤조트리아졸-1-일)-N,N,N',N'-테트라메틸우로늄 헥사플루오로포스페이트(HCTU)는 GL Biochem Co.(Shanghai, China)에서 구입하였다. N,N-디이소프로필에틸아민(DIEA), 트리플루오로아세트산(TFA), N,N-디메틸포름아미드(DMF), 티오아니솔, 트리이소프로필실란(TIPS), 1,2-에탄디티올(EDT), 염화팔라듐(PdCl2), 나트륨 2-메르캅토에탄술포네이트(MESNa) 및 2,2'-아조비스[2-(2-이미디졸린-2-일)프로판] 디하이드로클로라이드(VA-044)는 J&K Scientific(Beijing, China)에서 구입하였다. 4-머캅토페닐아세트산(MPAA)는 Alfa Aesar Chemicals Co.(Shanghai, China)에서 구입하였다. 피페리딘, Na2HPO4·12H2O, NaH2PO4·2H2O, 아질산나트륨(NaNO2) 및 무수초산은 Sinopharm Chemical Reagent Co.(Shanghai, China)에서 구입하였다. NaCl, NaOH, 염산은 Sinopharm Chemical Reagent(Beijing, China)에서 구입하였다. 디클로로메탄(DCM)은 Shanghai Titan Scientific Co.(중국 상하이)에서 구입하였다. 트리스(2-카르복시에틸)포스핀 염산염(TCEP·HCl), 9-플루오레닐메틸 카르바제이트(Fmoc-NHNH2), 에틸 시아노글리옥실레이트-2-옥심(Oxyma), N,N'-디이소프로필카르보디이미드(DIC) 및 DL-1,4-디티오쓰레이톨(DTT)은 Adamas Reagent Co.(Shanghai, China)에서 구입하였다. 환원된 글루타티온(GSH)은 Acros Organics(NJ, U.S.)에서 구입하였다. 무수 에테르는 Beijing Tongguang Fine Chemicals Company(Beijing, China)에서 구입하였다. Acetonitrile(HPLC grade)은 J. T. Baker(NJ, U.S.)에서 구입하였다.
Fmoc 기반 고체상 펩타이드 합성(Fmoc-SPPS):
모든 펩타이드는 Liberty Blue 자동 마이크로웨이브 펩타이드 합성기(CEM Corporation, NC, U.S.) 및 Prelude X 자동 펩타이드 합성기(Protein Technologies Inc., AZ, U.S.)에서 Fmoc 기반 SPPS에 의해 합성되었다. Pfu-N-9 및 Pfu-C-6과 같은 C-말단 카르복실레이트를 갖는 펩타이드는 첫 번째 C-말단 잔기가 사전 로딩된 Wang Chemmatrix 수지(CSBio Ltd, Shanghai, China)에서 합성되었다. 다른 모든 펩타이드는 펩타이드 히드라지드를 제조하기 위해 Fmoc-히드라진 2-클로로트리틸 클로라이드 수지에서 합성되었다. 각 펩타이드 산에 대해 첫 번째 잔기를 이중 커플링 방법으로 Wang Chemmatrix 수지에 수동으로 부착하였다: 첫 번째 커플링 반응에서 아미노산은 4 당량의 아미노산, 3.8 당량의 HCTU 및 8 당량의 DIEA를 사용하여 30℃에서 1시간 동안 커플링하고 DMF 및 DCM으로 수지를 세척하였다; 탈보호 없이, 두 번째 커플링 반응은 4 당량의 아미노산, 4 당량의 옥시마(Oxyma) 및 4 당량의 DIC로 25℃에서 밤새 수행되었다. 모든 수지는 사용하기 전에 5-10분 동안 DMF에서 팽윤시켰다. 85℃에서 DMF에서 20% 피페리딘 및 0.1 mol/L 옥시마로 처리하여 두 수지 및 조립된 아미노산의 Fmoc기를 제거하였다. Fmoc-Cys(Trt)-OH 및 Fmoc-His(Trt)-OH를 제외한 아미노산의 커플링은 4 당량의 아미노산, 4 당량의 옥시마 및 8 당량의 DIC로 85℃에서 시행되었다. Fmoc-Cys(Trt)-OH 및 Fmoc-His(Trt)-OH에 대한 커플링 반응은 고온에서의 부반응을 피하기 위해 50℃에서 10분 동안 수행하였다. 트리플루오로아세틸 티아졸리딘-4-카복실산-OH(Tfa-Thz-OH)는 실온에서 Oxyma/DIC 활성화를 사용하여 결합되었다. 펩타이드 사슬 조립이 완료된 후, H2O/티오아니솔/트리이소프로필실란/1,2-에탄디티올/트리플루오로아세트산(0.5/0.5/0.5/0.25/8.25)을 사용하여 수지로부터 펩타이드를 절단하였다. 절단 반응은 27℃에서 교반 하에 2.5시간이 걸렸다. 혼합물에서 대부분의 TFA는 N2 블로잉으로 제거하고, 차가운 에테르를 첨가하여 크루드 펩타이드를 침전시켰다. 원심분리 후 상등액을 버리고 침전물을 에테르로 2회 세척하였다. 크루드 펩타이드를 CH3CN/H2O에 용해시키고 RP-HPLC 및 ESI-MS로 분석하고 semi-preparative HPLC로 정제하였다.
천연 화학 결찰(Native chemical ligation, NCL):
C-말단 펩타이드 히드라지드 세그먼트를 산성화 결찰 완충액(6 M Gn·HCl 및 0.1 M NaH2PO4 수용액, pH 3.0)에 용해시켰다. 혼합물을 얼음-염욕(-10℃)에서 냉각시키고, 10 당량의 산성화 결찰 완충액(pH 3.0)의 NaNO2를 첨가하였다. 활성화 반응 시스템을 25분 동안 교반하면서 얼음-염욕에 보관한 후, 결찰 완충액 중 40 당량의 MPAA 및 1 당량의 N-말단 시스테인 펩타이드를 첨가하고 용액의 pH를 실온에서 6.5로 조정하였다. 밤새 반응 후, 결찰 완충액(pH 7.0으로 조정됨) 중 150 mM TCEP를 첨가하여 시스템을 2배 희석하고 반응 시스템을 실온에서 30분 동안 교반하면서 유지하였다. 마지막으로 결찰 산물을 HPLC 및 ESI-MS로 분석하고 semi-preparative HPLC로 정제하였다. 특히, Pfu-C-1과 Pfu-C-2 세그먼트의 결찰 시 불용성인 Pfu-C-2 세그먼트로 인해 결찰이 매우 비효율적이므로 Gn·HCl의 초기 농도가 8 M(최종 Gn·HCl 농도는 약 7M)로 증가하여 두 펩타이드 세그먼트의 용해도 및 결찰 효율이 크게 향상되었다.
탈황:
Cys 함유 펩타이드(3 mg/mL)를 탈황 완충액(6 M Gn·HCl, 200 mM TCEP, 40 mM 환원된 L-글루타티온 및 20 mM VA-044, pH 6.8을 함유하는 0.1 M 인산 수용액 완충액)에 용해시켰다. 혼합물을 37℃에서 밤새 교반하고, 탈황 산물을 HPLC 및 ESI-MS로 분석하고, semi-preparative HPLC로 정제하였다.
Acm 탈보호:
아세트아미도메틸(Acetamidomethyl, Acm)기는 Pd 보조 탈보호 전략에 의해 제거되었다. Acm-보호된 펩타이드를 Acm 탈보호 완충액(6 M Gn·HCl, 0.1 M 인산염 및 40 mM TCEP의 수용액, pH 7.0)에 최종 농도 1 mM로 용해시킨 후, 20 당량의 PdCl2를 첨가하였다. 반응 혼합물을 25℃에서 밤새 교반하면서 인큐베이션하였다. DTT를 50 mM 최종 농도로 첨가하여 반응을 종결시켰다. 반응 혼합물을 1시간 동안 교반하고 semi-preparative HPLC로 정제하였다.
시험관 내 분할 Pfu DNA 중합효소의 폴딩:
동결건조된 Pfu DNA 중합효소의 N 절편과 C 절편을 각각 10 mM β-ME를 포함하는 4 M 및 5 M Gn·HCl에 용해시켰다. 시험관 내에서 단백질 폴딩은 두 단편(0.5 μM)을 같은 농도로 혼합한 다음 40 mM Tris-HCl(pH 7.5), 1 mM EDTA, 100 mM KCl, 10% 글리세롤을 포함하는 완충액에 대해 4℃에서 밤새 투석하여 수행하였다. 폴딩된 Pfu DNA 중합효소를 85℃에서 15분 동안 가열하여 열불안정성 펩타이드를 침전시킨 후 20,000xg에서 40분 동안 4℃에서 원심분리하여 제거하였다. 상등액을 농축하고 저장 완충액 100 mM Tris-HCl(pH 8.0), 50% 글리세롤, 0.2 mM EDTA, 0.2% NP-40 비이온성 세제, 0.2% Tween 20, 2 mM DTT에 대해 투석하였다.
RP-HPLC 및 ESI-MS:
모든 RP-HPLC 분석 및 정제는 SPD-20A UV-Vis 검출기 및 LC-20AT 용매 전달 장치가 있는 Shimadzu Prominence HPLC 시스템(Shimadzu, Kyoto, Japan)에서 수행되었다. 결찰 반응을 모니터링하고 펩타이드 산물의 순도를 분석하기 위해 Ultimate XB-C4 컬럼(5 ㎛, 4.6×250 mm)(Welch Materials, Shanghai, China)을 유속 1 mL/분으로 분석에 사용하였다. Ultimate XB-C4 및 C18 컬럼(5 ㎛, 21.2×250 mm 또는 5 ㎛, 10×250 mm)(Welch Materials, Shanghai, China)을 사용하여 4-8 mL/분의 유속에서 각각 크루드 펩타이드와 결찰 산물을 분리하였다. 정제된 산물은 Shimadzu LC/MS-2020 시스템(Shimadzu, Kyoto, Japan)에서 ESI-MS로 특징규명하였다.
단백질 발현 및 정제:
Pfu DNA 중합효소의 유전자를 pET-28c 플라스미드에 클로닝하고, 돌연변이체를 pEASY-Uni Seamless Cloning and Assembly Kit(TransGen Biotech., Beijing, China)로 제작하였다. N-말단 His6 태그에 융합된 단백질은 LB 배지에서 대장균 균주 BL21(DE3)을 사용하여 발현되었다. 유도된 세포를 수확하고 용해 완충액(40 mM Tris-HCl, 300 mM NaCl, 10 mM 이미다졸, 10 mM β-ME, 10 mg/mL 라이소자임, pH 8.0)에 재현탁시켰다. 세포 용해물을 85℃에서 15분 동안 가열한 후 열불안정성 단백질을 20,000xg에서 40분 동안 4℃에서 원심분리하여 제거하였다. 상등액을 Ni-NTA Superflow 수지(Senhui Microsphere Tech., Suzhou, China)에서 1시간 동안 4℃에서 인큐베이션하였다. 수지를 40 mM Tris-HCl(pH 8.0), 300 mM NaCl, 40 mM 이미다졸 및 10 mM β-ME를 포함하는 완충액으로 세척하고, 그런 다음 40 mM Tris-HCl(pH 8.0), 300 mM NaCl, 250 mM 이미다졸 및 10 mM β-ME를 함유하는 완충액으로 용출시켰다. 정제 및 농축된 Pfu DNA 중합효소 및 돌연변이체를 100 mM Tris-HCl(pH 8.0), 50% 글리세롤, 0.2 mM EDTA, 0.2% NP-40 비이온성 세제, 0.2% Tween 20 및 2 mM DTT을 함유하는 저장 완충액에 대해 투석하였다.
PCR 활성 및 충실도:
천연 및 거울상 PCR 반응은 200 μM(각각) dNTP, 0.2 μM(각각) 프라이머, 주형 및 중합효소와 함께 1Х Pfu 완충액(Solarbio Life Sciences, Beijing, China)을 포함하는 50 ㎕의 반응 시스템에서 수행되었다. Pfu DNA 중합효소와 그 돌연변이체의 PCR 활성을 정량화하기 위해, 야생형(WT) Pfu DNA 중합효소와 동일한 농도로 중합효소를 12% SDS-PAGE로 조정하였다. SDS-PAGE 분석은 대장균(E.coli)으로부터 발현 및 정제된 재조합 분할, 돌연변이체 Pfu DNA 중합효소의 단편과 동일한 서열의 합성의 천연 및 거울상 Pfu DNA 중합효소의 분자량 유사성을 확인하였다(결과는 미도시됨). PCR 프로그램 설정은 94℃에서 3분 동안(초기 변성); 94℃에서 30초, 50-65℃(Tm 의존적)에서 30초, 72℃에서 1-7분(앰플리콘 길이에 따라 다름), 10-35주기; 72℃에서 10분 동안(최종 연장)이다. 합성 Pfu DNA 중합효소의 증폭 효율을 정량화하기 위해 100-bp DNA 서열을 주형으로 사용하였다. 재조합, 합성 L- 및 합성 D-Pfu DNA 중합효소(분할 Pfu-5m-30I)에 의한 PCR 증폭을 3% 체질 아가로스 젤 전기영동으로 분석하고 ExRed로 염색하였다(결과는 미도시됨). 합성 D-Pfu DNA 중합효소의 PCR 증폭 효율은 약 1.5로 측정되었으며, 산물 밴드의 강도를 기준으로 추정되었다. 처음 9주기의 증폭 산물을 ImageJ 소프트웨어(Bio-Rad Laboratories, CA, USA)로 분석하였다. 합성 Pfu DNA 중합효소의 충실도를 조사하기 위해 45주기 이후의 천연 PCR(1.2kb D-DNA) 산물을 V-elute Gel Mini Purification Kit(Beijing Zoman Biotech., Beijing, China)로 정제하고 Zero background ZT4 Simple-Blunt Fast Clone Kit(Beijing Zoman Biotech., Beijing, China)로 복제하여 Sanger 시퀀싱을 하며, 앞에서 설명한 방법에 따라 계산되었다.
실시예 2: T7 RNA 중합효소의 전체 화학적 합성 및 이의 용도
위에서 논의한 바와 같이, 이중가닥(ds) L-DNA 주형을 사용하는 RNA 중합효소의 거울상 버전을 합성하면 거울상 번역에 필요한 모든 거울상 rRNA 및 mRNA의 효소적 전사가 가능할 것이다. 따라서, 본 발명의 일부 양태의 개념 증명의 또 다른 단계로서, 2개의 분할 부위의 설계인 100 kDa T7 RNA 중합효소의 천연(L-아미노산 단백질) 및 거울상 버전 둘 다 화학적으로 합성되었다.
T7 RNA 중합효소는 분할 형태, 예를 들어 Segall-Shapiro et al. [Mol Syst Biol., 2014, 30(10), pp. 742]는 트랜스포존 기반 방법을 사용하여 T7 RNA 중합효소에서 여러 분할 부위를 찾았다. Tiyun Han et al. [ACS Synth Biol., 2017, 6(2), pp. 357-366.]은 분할 T7 RNA 중합효소를 기반으로 광활성화 유전자 스위치를 설계하여 다양한 상황에서 광활성화 유전자 발현을 구현하였다. 그러나 이러한 천연 효소에 사용되는 분할 부위는 T7 RNA 중합효소의 화학적 합성에 항상 적합한 것은 아니다. T7 RNA 중합효소의 분할 부위 중 일부는 효소 활성을 크게 변경한다: 일부는 단백질 펩타이드 사슬의 N 또는 C 말단 근처에 있어 화학적으로 합성하기에는 여전히 너무 큰 하나 이상의 큰 단백질 조각(400-500 aa 이상)을 생성한다.
실용적인 도메인-형성 세그먼트를 제공하기 위해, 본 발명의 일부 구체예에 따라 낮은 서열 보존 및 구조적 유연성의 기준을 사용하여 두 번째 분할 부위, 즉 K363과 P364 사이의 분할 부위가 확인되었다. Segall-Shapiro 등이 보고한 N601과 T602 사이의 분할 부위와 본 발명을 실시하는 동안 발견된 T7 RNA 중합효소 구조의 용매-노출된 루프(solvent-exposed loop)에서의 분할 부위(K363 내지 P364)는 중합효소를 화학적 합성에 적합한 대략 균일한 길이의 3조각으로 함께 나눈다(일반적으로 400-500 aa 미만): 이의 효소 활성과 충실도를 크게 변경하지 않고, 369-aa T7-분할-N 단편(N 말단에 His6 태그 추가), 238-aa T7-분할-M 단편 및 282-aa T7-분할-C 단편(효소를 크게 변경하지 않음). 상기 언급된 분할 부위는 동일한 루프에서, 즉 위치 357에서 위치 366까지 및/또는 위치 564에서 위치 607까지 상기 언급된 부위 근처에 있도록 선택될 수 있다. 동시에, 분할 T7 RNA 중합효소는 전사 AND-로직으로 사용될 수 있다. 예를 들어, T7 RNA 중합효소의 활성이 외부 신호에 의해 직접적으로 조절되는 유전자 스위치는 단백질을 조각으로 나누고 조절 도메인을 사용하여 재구성을 조절하는 공학적 전략으로 얻는다. 광활성화 VVD 도메인 및 그 변형을 조절 도메인으로 사용하여 우수한 암소거/점등 특성을 가진 견고한 전환 가능 시스템을 얻을 수 있다.
T7-WT(SEQ ID No. 82), T7-37I(SEQ ID No. 83), YenP(SEQ ID No. 84), phiEap(SEQ ID No. 85) 및 KpnP(SEQ ID No. 86) 중합효소를 사용하는 다중 서열 정렬(MSA) 및 T7 RNA 중합효소에서 다수의 이소루신(51개 중 14개 또는 Ile 잔기의 27%)을 발린, 루신 및 메티오닌(I6V, I14L, I74V, I82V, I109V, I117L, I141V, I210M, I244L, I281V, I320V, I322L, I330V, I367L)과 같은 다른 아미노산으로 돌연변이시키는 구조 정보에 기초하여 효소 활성과 충실도를 크게 변경하지 않는 체계적인 이소루신 치환 접근법도 구현되었다. 이 접근법은 이 D- 중합효소의 합성을 위한 아미노산 비용을 절감하는 결과를 가져왔으며, 이는 향후 대규모 합성과 실용화를 용이하게 할 것이다.
도 3A-C는 SPPS 및 결찰 과정에서 단백질 합성을 촉진하고 거울상 버전의 합성 비용을 줄이기 위해 도입된 이소루신 잔기의 대체, 새로운 NCL 및 K363과 P364 사이의 새로운 분할 부위를 포함하는 369-aa 돌연변이체 T7-분할-N 단편(SEQ ID No. 87)(도 3A), 238-aa 돌연변이체 T7-분할-M 단편(SEQ ID No. 94)(도 3B) 및 282-aa 돌연변이체 T7-분할-C 단편(SEQ ID No. 101)(도 3C)의 합성 경로의 설계 흐름을 제시한다.
T7 RNA 중합효소의 전체 화학적 합성은 추가로 결찰-유도성 잔기 대체를 도입함으로써 수행되었다. T7-분할-N 단편은 길이가 32 내지 76 aa인 7개의 펩타이드 세그먼트(SEQ ID Nos. 88-94)로 나뉘었고, T7-분할-M 단편은 길이가 23 내지 45 aa인 6개의 펩타이드 세그먼트(SEQ ID Nos. 96-101)로 나뉘었으며, T7-분할-C 단편은 길이가 41 내지 75 aa인 5개의 펩타이드 세그먼트로 나뉘었다(SEQ ID Nos. 103-107). 펩타이드 세그먼트는 Fmoc 기반 SPPS로 제조되고, 역상 고성능 액체 크로마토그래피(RP-HPLC)로 정제하며, 수렴 조립 전략으로 히드라지드 기반 NCL로 조립한 다음 금속 자유 라디칼 기반 탈황을 수행하였다. 합성, 결찰, 정제, 동결건조 후, L-중합효소에 대해 관찰 분자량(M.W.)이 41369.0 Da(계산된 M.W. 41372.6 Da)인 약 3 mg의 T7-분할-N 단편, 26786.0 Da M.W.(계산된 M.W. 26787.4 Da)의 약 2.5 mg의 T7-분할-M 단편 및 31459.0 Da M.W.(계산된 M.W. 31459.9 Da)의 약 4.8 mg의 T7-분할-C 단편을 얻었으며, D-중합효소에 대해 관찰 분자량(M.W.)이 41373.0 Da인 약 9 mg의 D-T7-split-N 단편, 26787.0 Da M.W.의 약 8 mg T7-분할-M 단편 및 31459.0 Da M.W.의 약 15 mg T7-분할-C 단편을 얻었다.
시험관 내 합성 중합효소의 폴딩:
합성 중합효소는 연속적인 투석에 의해 폴딩되고, 이어서 불순물을 침전시키기 위해 한외여과가 수행되었다.
T7 RNA 중합효소의 동결건조된 합성 N, M 및 C 단편을 각각 6 M Gn·HCl 및 20 mM DTT를 함유하는 변성 완충액에 용해시켰다. 단백질 폴딩은 N, M 및 C 단편을 동일하게 혼합(0.5 nmol/mL)하고 부드럽게 교반하면서 4℃에서 24시간 동안 재생 완충액(50 mM Tris-HCl, 100 mM KCl, 10% 글리세롤, 1 mM EDTA, 10 mM DTT, pH 8.0)에 대해 투석하여 수행되었다. 재생 후, 효소를 50% 글리세롤, 50 mM Tris-HCl(pH 8.0), 100 mM NaCl, 1 mM EDTA, 0.1% Triton X-100, 10 mM DTT를 포함하는 저장 완충액에 대해 4℃에서 12시간 동안 부드럽게 교반하면서 투석한 다음, Amicon Utra 원심분리 필터(0.5 mL, 100,000 MWCO)를 사용하여 한외여과하였다.
합성 T7 RNA 중합효소의 전사 활성 및 충실도 :
천연 및 거울상 전사는 500 μM(각각) rNTP, 10% DMSO, 5 mM DTT, 주형 및 중합효소와 함께 1Х T7 반응 완충액(New England Biolabs, Beijing, China)을 포함하는 10 ㎕의 반응 시스템에서 수행되었다. T7 RNA 중합효소 및 그 돌연변이체의 전사 활성을 정량화하기 위해, 중합효소를 야생형(WT) T7 RNA 중합효소와 동일한 농도로 12% SDS-PAGE로 조정하였다(결과는 미도시됨). 반응은 다양한 시간 동안 37℃에서 인큐베이션되었다. 천연 및 거울상 T7 RNA 중합효소의 전사 활성은 중합효소가 160-bp DNA 주형(SEQ ID No. 108) 및 1.5-kb DNA 주형(SEQ ID No. 109)을 성공적으로 전사할 수 있음을 보여주었으며, 이는 합성 거울상 T7 RNA 중합효소에 의해 1.5 kb L-DNA 주형으로부터 광범위한 길이의 L-RNA 분자가 생산될 수 있음을 나타낸다(결과는 미도시됨). 다양한 길이의 정제되고, 농도 결정된 단일가닥 L-RNA 전사체의 혼합물은 RNA 크기 조정 및 천연 또는 변성 젤의 정량화를 위한 RNA 마커(또는 RNA 래더)로 사용할 수 있으며, 이는 천연 RNase에 대한 저항성 때문에 상업용 D-RNA 마커(D-RNA 래더)보다 우수하다. 합성 T7 RNA 중합효소의 충실도는 Superscript Ⅳ 고충실도 역전사효소에 의해 DNase Ⅰ-분해된 전사 산물을 역전사하고, 이어서 고충실도 Pfu DNA 중합효소에 의한 PCR 증폭 및 Sanger 시퀀싱에 의한 앰플리콘 시퀀싱에 의해 조사되었으며, 이전 연구에서 보고된 WT T7 RNA 중합효소의 오류율과 일치하는 오류율(10-6 정도)이 측정되었다.
L-tRNA Ser 충전:
L-tDNASer(SEQ ID No. 110)는 거울상 Dpo4(D-Dpo4-5m)의 돌연변이체 버전에 의해 조립되었다. L-tRNASer는 고충실도 거울상 T7 RNA 중합효소에 의해 전사되었고, 2 mM(각각) L-rNTP, 10% DMSO, 0.3 μM 주형 및 2 μM 중합효소와 함께 1Х T7 반응 완충액 A(40 mM Tris-HCl, 25 mM MgCl2, 1 mM 스퍼미딘, 2 mM DTT, pH 8.0)를 포함하는 반응 시스템을 밤새 37℃에서 인큐베이션하였다. 산물은 단일 뉴클레오티드 분해능을 갖는 변성 PAGE에 의해 정제되었고, 정제된 산물은 10% 변성 PAGE에 의해 분석되었다(결과는 미도시됨). L-tRNASer 충전은 25 mM HEPES-KOH(pH 7.5), 50 mM KCl, 2 μM L-tRNASer 및 10 μM L-dFx에서 수행되었다. 반응 시스템을 2분 동안 95℃로 가열하고 어닐링을 위해 서서히 실온으로 냉각시켰다. 그런 다음 100 mM MgCl2를 시스템에 추가하고 반응 시스템을 실온에서 10분 동안 인큐베이션한 다음 4℃에서 10분 동안 인큐베이션하였다. 마지막으로, 5 mM D-Ser-DBE를 시스템에 첨가하고 반응 시스템을 4℃에서 6시간 동안 인큐베이션하였다. 1/10 부피의 3 M NaOAc 및 2.5 부피의 에탄올을 첨가하여 에탄올 침전을 수행하고 -20℃에서 인큐베이션하였다. 산물을 8% acid PAGE로 분석하였다(결과는 미도시됨).
L-16S rRNA 정제:
L-16S rDNA(SEQ ID No. 109)는 고충실도 거울상 Pfu DNA 중합효소에 의해 조립되었다. L-16S rRNA는 500 μM(각각) L-rNTP, 10% DMSO, 5 mM DTT, 주형 및 중합효소를 37℃에서 밤새 인큐베이션하였다. 전사 산물은 2% 저융점 아가로스 젤(Amersco, U.S.)로부터 β-아가라제 분해에 의해 정제하였다. RNA 샘플을 포함하는 젤 조각을 실온에서 60분 동안 10 부피의 1Хβ-아가라제 완충액으로 평형화한 다음 70℃에서 15분 동안 녹이고 45℃로 냉각하였다. 녹은 아가로스 용액을 2 유닛의 β-아가라제(New England Biolabs, Beijing, China)와 함께 45℃에서 60분 동안 인큐베이션한 다음 -20℃에서 5분 동안 두었다가 4℃에서 15분 동안 원심분리하였다. 상등액을 1/10 부피의 3 M NaOAc 및 2.5 부피의 에탄올이 첨가된 에탄올 침전을 위한 새로운 마이크로원심분리기 튜브로 옮기고 -20℃에서 인큐베이션하였다. 정제된 산물은 3% 아가로스 젤로 분석하였다(결과는 미도시됨).
L-구아닌 센서:
구아닌 센서의 분자 식별은 합성 L- 및 D-T7 RNA 중합효소에 의해 전사된 D- 및 L-구아닌 센서의 특이성을 따라 입증되었다. L-구아닌 센서 DNA 주형(SEQ ID No. 111)은 D-Dpo4-5m에 의해 조립되었다. L-구아닌 센서는 고충실도 거울상 T7 RNA 중합효소에 의해 전사되었고, 2 mM(각각) L-rNTP, 10% DMSO, 0.2 μM 주형 및 2 μM 중합효소와 함께 1Х T7 반응 완충액 A(40 mM Tris-HCl, 25 mM MgCl2, 1 mM 스퍼미딘, 2 mM DTT, pH 8.0)를 포함하는 반응 시스템을 37℃에서 밤새 인큐베이션하였다. 산물은 8 M 우레아에서 폴리아크릴아마이드 젤로 정제하였고, 정제된 산물은 10% 변성 PAGE로 분석하였다(결과는 미도시됨). 1 μM L-구아닌 센서 및 10 μM DFHBI를 40 mM HEPES(pH 7.4), 125 mM KCl 및 1 mM MgCl2를 함유하는 완충액에서 37℃에서 인큐베이션하였다. 그런 다음 1 mM 구아닌을 용액에 빠르게 첨가하고 형광 방출을 다음 기기 매개변수를 사용하여 37℃에서 연속 조명하에서 15분 동안 기록하였다: 여기 파장, 460 nm; 방출 파장, 500 nm; 슬릿 폭, 12 nm. 0.1 μM RNA 및 10 μM DFHBI를 100 μM 구아닌 또는 경쟁 분자와 함께 배양하고 500 nm에서 형광 방출에 대해 분석하였다. 구아닌 센서는 100 μM 구아닌에서 포화되고 동일한 농도에서 GTP와 아데닌에 대해 높은 수준의 분자 식별을 보여주었다(결과는 미도시됨).
L-38-6 RNA 중합 반응:
L-38-6 리보자임(SEQ ID No. 112)의 DNA 주형 및 L-클래스 I 리가아제 DNA 주형(SEQ ID No. 113)은 D-Dpo4-5m에 의해 조립되었다. RNA는 고충실도 거울상 T7 RNA 중합효소에 의해 전사되었고, 2 mM (각각) L-rNTPs, 10% DMSO, 0.3 μM 주형 및 2 μM 중합효소와 함께 1Х T7 반응 완충액 A(40 mM Tris-HCl, 25 mM MgCl2, 1 mM 스퍼미딘, 2 mM DTT, pH 8.0)를 포함하는 반응 시스템을 37℃에서 밤새 인큐베이션하였다. 산물을 8 M 우레아에서 폴리아크릴아마이드 젤로 정제하였다(결과는 미도시됨). RNA 중합 반응은 100 nM L-38-6 리보자임(SEQ ID No. 114), 80 nM L-5'-FAM-표지된 프라이머(SEQ ID No. 115) 및 100 nM L-클래스 I 리가아제 주형(SEQ ID No. 116)을 사용하였다. RNA는 먼저 80℃에서 30초 동안 가열하여 어닐링한 다음 천천히 17℃로 냉각한 후 각 L-rNTP 4 mM, 200 mM MgCl2, 25 mM Tris·HCl(pH 8.3) 및 0.05% Tween-20을 포함하는 반응 혼합물에 첨가하고, 다양한 시간대 동안 17℃에서 인큐베이션하였다. 산물을 ssDNA/RNA Clean & Concentrator kit(ZYMO RESEARCH, CA, U.S.)로 농축한 후 변성 완충액(98% 포름아마이드, 0.25 mM EDTA)과 혼합한 후 65℃에서 10분 동안 가열하고, 그런 다음 재빨리 얼음 위에 놓았다. 샘플은 8 M 우레아에서 10% 폴리아크릴아마이드 젤로 분리하고 Cy2 모드에서 작동하는 Typhoon Trio+ 시스템으로 스캔하였다.
천연 및 거울상 16S rRNA에서 RNA 분해의 동역학:
제어된 조건에서 RNA 무결성을 평가하기 위해 천연 16S rRNA, RNase 억제제가 포함된 천연 16S rRNA 및 거울상 16S rRNA를 포함한 3개의 준비된 전사체를 Bioanalyzer 방법으로 검출하고 분석하였다. 천연 및 거울상 16S rRNA는 각각 천연 및 거울상 T7 RNA 중합효소에 의해 전사되었고, 2% 저융점 아가로스 젤로부터 β-아가라제 I 분해에 의해 정제되었다. 정제된 RNA를 37℃에서 5 분, 30 분, 1 h, 2 h, 4 h, 8 h, 18 h, 24 h, 48 h, 72 h, 7 d, 15 d, 30 d, 60 d, 및 100 d 동안 정치하고, 마이크로칩 젤 전기영동의 전기영동도 이미지에 기초하여 RNA 품질을 평가하였다. 37℃에서 30분 동안 두었을 때 천연 16S rRNA의 최소 분해 징후가 보였다. 분해는 기준선의 상당한 상승과 함께 1시간에서 더욱 두드러졌다. 37℃에서 6시간 후, RNase 억제제가 있는 천연 16S rRNA 샘플에서는 37℃에서 4시간 동안 두었을 때 최소의 분해 징후가 보였고, RNA의 분해는 8시간에서 더 두드러졌으며, 기준선이 상당히 높아졌다. 37℃에서 48시간 후, 진행으로 인해 피크가 완전히 사라진다. 거울상 16S rRNA의 샘플에서는 37℃에서 15일 동안 두어도 분해의 징후가 감지되지 않았다. 이는 RNase가 완전히 제거된 조건에서 RNA의 안정성이 더 강하다는 것을 보여준다. L-RNA 시스템을 사용하여 다양한 조건에서 RNA의 가수분해 동역학을 측정하는 것은 RNase 억제 시약의 효과를 평가하는 대조군 역할을 할 수 있다.
실시예 3: 거울상 DNA 정보 저장
고충실도 거울상 Pfu DNA 중합효소를 얻고 난 후, 본 발명의 일부 구체예에 따라, L-DNA 서열의 충실한 쓰기 및 판독을 통해 거울상 DNA 정보 저장에 적용하는 것을 탐구함으로써 거울상 DNA 정보 저장의 개념 증명을 수행하였다.
거울상 분자와 거울상 생물학 시스템의 개념이 처음 제안된 루이 파스퇴르의 1860년 간행물에서 아래 문단은 DNA 서열(표 4 참조)로 인코딩되었으며, 각각 70-90 nt의 4개의 짧은 합성 L-DNA 올리고로부터 조립된 길이가 220 bp인 11개의 L-DNA 세그먼트로 보관되었다(표 5).
파스퇴르: "결과적으로 천연물의 비대칭성에 기인하는 신비한 영향이 그 의미나 방향을 바꾸어야 한다면, 모든 생명체의 구성 요소는 정반대의 비대칭성을 띠게 될 것이다. 아마도 새로운 세상이 우리의 시야에 나타날 것이다. 오른쪽에 있는 셀룰로오스가 왼쪽이 되고, 왼쪽에 있는 혈액의 알부민이 오른쪽이 된다면 누가 생물의 조직을 예측할 수 있을까? 이러한 수수께끼는 미래를 위한 많은 과제를 제공하며, 앞으로 과학에서 가장 진지한 고려를 요구한다."
문자 코드 문자 코드
a ACG 스페이스 ATC
b GTA , TCC
c CAG . TCT
d TGC 0 ATT
e ATG 1 ACA
f CTA 2 ACC
g GAT 3 AGA
h TCG 4 AGG
i AGC 5 TAA
j AAT 6 TAT
k GCA 7 TTA
l TGA 8 TTC
m CTG 9 TTG
n TAC - TGT
o AGT ? TGG
p GAC : CAA
q AAC ; CAC
r TCA ! CTT
s TAG * CTC
t ACT / CCA
u CAT /n CCT
v GTC ° CCG
w CGA ' CGC
x GCT " CGG
y CGT ( GAA
z AAG ) GAG
^ ATA
70-90 nt의 4개의 짧은 합성 L-DNA 올리고로부터 거울상 조립 PCR을 사용하여 거울상 Pfu DNA 중합효소에 의해 각각 조립된 220 bp의 정보 저장 이중가닥 L-DNA 세그먼트 및 11개의 세그먼트(L-라이브러리) 모두를 포함하는 L-DNA 저장 라이브러리를 2.5% 아가로스 젤 전기영동으로 분석하며 ExRed. M, DNA로 염색되고(결과는 미도시됨), 표 5에 나열되어 있다. 표 5는 L-DNA 정보 저장에 사용되는 서열을 나타내며, 여기서 소문자는 증폭을 위한 M13-F 및 M13-R 서열이고, 밑줄이 그어진 문자는 개별 세그먼트를 시퀀싱하기 위한 고유한 서열이다.
세그먼트 서열
DNA 저장-S1(SEQ ID No. 1) 5'-gtaaaacgacggccagtTCGCGCGTTTCGGTGATGACGGTGAAAACCATTACAATAACGTACTGCATCCAGAGTTACTAGATGAACCATATGTACACTTGACGTTCCATCAGCCTAATCACTTCGATGATCCTGCGTTAGACTATGTCAAGCAGTCATTAGATCAGCTACCTATGACATATGTACCAGATGATCACTAGTATCgtcatagctgtttcctg-3'
DNA 저장-S2(SEQ ID No. 2) 5'-gtaaaacgacggccagttctgacacatgcagctcccggagacggtcaATTACCCGATCGAGCCAGTCGATCACTTCGATGATCACGTAGCGTCTGCTGATGACTTCACGTATCAGTCTAATCTACACGACTCATTCAACGTGAATCGACTCAAGTTGCCATCAGACTTAGATCAGCTAGATCTGCCATATGATCTAGTCGAGTgtcatagctgtttcctg-3'
DNA 저장-S3(SEQ ID No. 3) 5'-gtaaaacgacggccagtcagcttgtctgtaagcggatgccgggagcaATTAGACATTGATGCATCCAGTCGACGTACGATATGATCAGCACTTAGATCTAGATGTACTAGATGATCAGTTCAATCTGCAGCTCAATGCAGACTAGCAGTTACTCCATCACTTCGATGATCCAGAGTTACTAGACTAGCACTCATACTAGCGTCgtcatagctgtttcctg-3'
DNA 저장-S4(SEQ ID No. 4) 5'-gtaaaacgacggccagtgacaagcccgtcagggcgcgtcagcgggtCATTAGGATGATCATGTGAATGCTGATGTACACTTAGATCAGTCTAATCACGTGATGAATCTGAAGCGTCAGCTACGATATCGTAATGAGCTACGATTAGATCCGAAGTCATTGATGCATCACGTAGTAGCATCTGATGATCACTTCGATGATCAGTgtcatagctgtttcctg-3'
DNA 저장-S5(SEQ ID No. 5) 5'-gtaaaacgacggccagtttggcgggtgtcggggctggcttaactatgATTTAAGACGACAGTTAGAGCACTATGATCACGTAGCGTCTGCTGATGACTTCACGTTCTATCATAGACATGTCATCGACGGACTAGATCACGATCTACATGCGAATCCGAAGTTCATGATGCATCCGAAGTCATTGATGCATCGACTCAATGTAGgtcatagctgtttcctg-3'
DNA 저장-S6(SEQ ID No. 6) 5'-gtaaaacgacggccagtcggcatcagagcagattgtactgagagtgcATTTATATGTACACTATCAGCACTTAGATGTGACTAATCACTAGTATCAGTCATTCAATCGTCAGCATGCGATCTATCATACGATCGAGTATCCAGAGTCATTGATGCATCCTAAGTTCAATGTAGATGATGATCACTTCGATGATCAGTTCAGATgtcatagctgtttcctg-3'
DNA 저장-S7(SEQ ID No. 7) 5'-gtaaaacgacggccagtACCATATGCGGTGTGAAATACCGCACAGATATTTTAACGTACAGCTAGACGACTAGCAGTTACATCAGTCTAATCTGAAGCGTCAGCTACGATATCACTTCGAGCTACGATTAGATCAGCCTAATCCAGATGTGATGACATTGAAGTTAGATGTCCATCTCAAGCGATTCGACTATCACGTAGATCgtcatagctgtttcctg-3'
DNA 저장-S8(SEQ ID No. 8) 5'-gtaaaacgacggccagtGCGTAAGGAGAAAATACCGCATCAGGCGTGATTTTCAGCACTATCAGCTAGTCCATCGTAATGCAGACGCTGATGATCTGAATGCTAACTCACATCAGCCTAATCACTTCGATGATCACGTGAGTACATCTGATGTACATCAGTCTAATCACTTCGATGATCGTATGAAGTAGTTGCTCCATCTACgtcatagctgtttcctg-3'
DNA 저장-S9(SEQ ID No. 9) 5'-gtaaaacgacggccagtATTCGCCATTCAGGCTGCGCAACTGTTGGGATTTTGAGTCGAATCTGAATGCTAACTTCCATCGTAATGCAGACGCTGATGATCTCAAGCGATTCGACTTGGATCATAACTTCGATGTAGATGATCACGTCAATGATCCTGCGTTAGACTATGTCAAGCATGTAGATCCGATCGAGCCAGTCGATCgtcatagctgtttcctg-3'
DNA 저장-S10(SEQ ID No. 10) 5'-gtaaaacgacggccagtaagggcgatcggtgcgggcctcttcgctatACAATTCTACATTCATACAGCTAGTCGATCCTGCATCAGTCGATCCGAAGTTCAGCAATCCTAAGTTCAATCACTTCGATGATCCTACATACTCATTCAATGTCCATCACGTACTGCATCTGCATGCTGACGTACTGCATCTCGATGTACCAGATGgtcatagctgtttcctg-3'
DNA 저장-S11(SEQ ID No. 11) 5'-gtaaaacgacggccagttacgccagctggcgaaagggggatgtgctgACAACACTAAGTTCAACTTCGATCACTTCGATGATCCTGAGTTAGACTATCTAGATGTCAAGCAGTCATTAGATCCAGAGTTACTAGAGCTGCATGTCAACGACTAGCAGTTACATCCTATCAAGTCTGATCTAGCAGAGCATGTACCAGATGTCTgtcatagctgtttcctg-3'
DNA 바코드(SEQ ID No. 12) 5'-gtaaaacgacggccagtATATGAAGTACTCATTAGATCATAGACAGTTACTGCTCCATCATAGTAATGAGCAATAGCTACGATgtcatagctgtttcctg-3'
L-DNA 판독은 포스포로티오에이트 접근법(L-디옥시뉴클레오시드 α-티오트리포스페이트(L-dNTPαSs)를 사용 및 2-요오드에탄올에 의한 절단)에 의해 거울상 Pfu DNA 중합효소를 사용하거나 L-디디옥시뉴클레오시드 트리포스페이트(L-ddNTPs)를 사용한 사슬 종결 접근법에 의해 돌연변이체 거울상 Pfu DNA 중합효소를 사용한 합성에 의한 시퀀싱을 통해 달성되었다. 2개의 상이한 염료(각각 FAM 및 Cy5)로 5'-표지된 프라이머들을 사용한 양방향 시퀀싱 접근법도 적용되었으며, 이는 폴리아크릴아마이드 젤 전기영동을 변성시켜 단일 반응에서 최대 판독 길이를 약 180 bp로 개선하였다(PAGE; PCR 증폭). 저장 매체에서 정보를 포함하는 L-DNA 203 bp 서열은 세그먼트 특이적인 시퀀싱 프라이머를 사용하여 DNase I 처리된 L-DNA 저장 라이브러리의 D-Dpo4-5m에 의해 각각 증폭되고, 2.5% 아가로스 젤 전기영동으로 분석되며, ExRed. M, DNA 마커로 염색되었고(결과는 미도시됨), L-DNA 저장 세그먼트 S1(SEQ ID No. 1)은 암호화된 디지털 데이터를 검색하기 위해 포스포로티오에이트 접근법에 의해 거울상 DNA 중합효소를 사용하여 시퀀싱되었다. 구체적으로, L-DNA S1 세그먼트는 4개의 개별 PCR 반응에서 D-Dpo4-5m에 의해 5'-FAM-표지된(정방향) 및 5'-Cy5-표지된(역방향) 시퀀싱 프라이머로 특이적으로 증폭되었으며, 그 안에서 L-dNTP 중 하나는 상응하는 L-dNTPαS로 대체되었고, 각각은 2-요오드에탄올로 절단되고 10% 변성 PAGE로 분석되었으며 Cy2 및 Cy5 모드에서 작동하는 Typhoon Trio+ 시스템으로 스캔되었다. L-dNTPαS 및 5'-표지된 정방향 및 역방향 시퀀싱 프라이머들을 포함하는 D-Dpo4-5m에 의한 정보 저장 L-DNA 세그먼트 S1의 시퀀싱 크로마토그램을 ImageJ 소프트웨어로 처리하였다(결과는 미도시됨). 거울상 Pfu DNA 중합효소는 L-DNA 저장 세그먼트를 증폭하고 시퀀싱할 수 있지만 실제 실험에서는 D-Dpo4의 편리한 합성을 위해 사용되었다.
키랄 스테가노그래피:
스테가노그래피는 수신자 외에는 아무도 메시지를 보거나 메시지의 존재를 알 수 없도록 메시지를 숨기는 기술이자 과학으로 알려졌다. 이것은 정보 자체의 존재가 숨겨지지 않고 그 내용만 숨겨진 암호와 대조된다. 본 명세서에 제공된 L-DNA 정보 저장 시스템은 루이 파스퇴르의 1860 단락을 인코딩하는 D-DNA 저장 라이브러리가 "커버 텍스트" 역할을 하고, L-DNA 키는 "스테고 텍스트, stego text"(비밀 메시지)를 해독하는 데 도움이 되는 키랄 스테가노그래피 실험 설계를 통해 통신을 보호하는데도 적용할 수 있다. 비밀 메시지를 더욱 위장하기 위해 키메라 D-DNA/L-DNA 키 분자(SEQ ID No. 46)는 판독의 키랄성에 따라 거짓 메시지 "오류" 또는 비밀 메시지 "거울"을 전달하도록 설계되었다. D-DNA 저장 라이브러리는 "커버 텍스트"를 검색하기 위해 Sanger 시퀀싱에 의해 시퀀싱되었다. 천연 PCR을 사용하면 저장 라이브러리에 포함된 키메라 키의 D-DNA 부분만 증폭하고 시퀀싱할 수 있으므로 잘못된 메시지가 드러나는 반면 거울상 PCR을 사용하면 키메라 키의 L-DNA 부분을 증폭하고 시퀀싱하여 비밀 메시지를 밝힐 수 있다. 스테가노그래피와 크립토그래피는 데이터를 비밀로 유지하는 두 가지 주요 기술이다. 스테가노그래피는 비밀 메시지의 존재를 숨기는 기술이며 크립토그래피는 비밀 메시지를 읽을 수 없는 형식으로 변환하는 기술을 지칭한다. 여기에서 개발된 키랄 스테가노그래피는 암호화된 데이터를 사용하여 추가 보안 계층을 제공하기 위해 DNA 크립토그래피와 결합될 가능성이 있다.
도 5는 비밀 메시지를 전달하기 위해 겉보기에 평범한 D-DNA 저장 라이브러리에 키메라 D-DNA/L-DNA 키 분자를 삽입하는, 본 발명의 일부 구체예에 따른 DNA 기반 스테가노그래피를 예시하는 흐름도를 나타낸다.
자연 환경으로부터 생물학적 분해와 오염을 회피하는 L-DNA 정보 저장 매체의 능력을 입증하기 위해, 지역 연못에서 담수 샘플을 수집하고 샘플 수집 위치 정보("Lotus Pond , Beijing")(표 5)를 인코딩하는 미량의 100-bp L-DNA 바코드(SEQ ID No. 12)(50 ㎍/L 또는 770 pM)를 수집한 수질 샘플에 추가한다. 놀랍게도 메시지를 전달하는 L-DNA 바코드는 최대 7개월(임의로 선택한 기간) 및 잠재적으로 그 이상 동안 안정적이고 증폭가능하게 유지되었다. 이에 비해 동일한 서열과 농도의 D-DNA 바코드는 하루 만에 증폭할 수 없었다. 구체적으로, L-Dpo4-5m에 의해 24시간 후 D-DNA 바코드 증폭 및 D-Dpo4-5m에 의해 1년 후 L-DNA 바코드 증폭 후 아가로스 젤 전기영동이 수행되었으며, 여기서 D-DNA 바코드의 PCR 증폭은 24시간 후에 40-mL의 연못 수질 샘플에서 L-Dpo4-5m에 의해 수행되었고, L-DNA 바코드의 MI-PCR 증폭은 1년 후 40 mL의 연못 수질 샘플에서 D-Dpo4-5m에 의해 수행되었으며, 3% 체질 아가로스 젤 전기영동으로 분석하고 ExRed. M, DNA marker에 의해 염색되었다(결과는 미도시됨).
또한, 수질 샘플에서 추출한 미생물 DNA의 L-DNA 바코딩도 D-중합 효소 및 L-DNA 프라이머를 사용한 거울상 PCR에 의해 특이적으로 증폭될 수 있었고 D-DNA 메타게놈 미생물 시퀀싱 결과에 영향을 미치지 않았다는 점에서 배 직교적이다.
L-DNA 서열의 충실한 쓰기 및 판독에 힘입어 전장 1.5 kb 거울상 박테리아 16S rRNA 유전자의 조립은 고충실도 거울상 Pfu DNA 중합효소에 의해 수행되었다. 이 시도는 2단계 조립 절차를 사용하여 D-DNA에 대한 합성 L-중합효소를 사용하여 유전자 조립을 테스트하는 것으로 시작되었으며, 450-600 bp의 DNA 블록은 먼저 약 90 nt의 짧은 합성 올리고로부터 조립된 후(표 6), 이어서 DNA 블록을 전장 16S rRNA 유전자(SEQ ID No. 81)로 조립하는 두 번째 단계가 수행된다.
프라이머 서열
TT16S-F1
(SEQ ID No. 13)
5'-tttgttggagagtttgatcctggctcagggtgaacgctggcggcgtgcctaagacatgcaagtcgtgcgggccgcggggttttactccgt-3'
TT16S-R1(SEQ ID No. 14) 5'-tttccccgggttgtccccctcttccgggtaggtcacccacgcgttactcacccgtccgccgctgaccacggagtaaaaccccgcggcccg-3'
TT16S-F2(SEQ ID No. 15) 5'-ggaagagggggacaacccggggaaactcgggctaatcccccatgtggacccgccccttggggtgtgtccaaagggctttgcccgcttccg-3'
TT16S-R2(SEQ ID No. 16) 5'-cggctacccgtcgtcgccttggtgggccattaccccaccaactagctgatgggacgcgggcccatccggaagcgggcaaagccctttgga-3'
TT16S-F3(SEQ ID No. 17) 5'-aaggcgacgacgggtagccggtctgagaggatggccggccacaggggcactgagacacgggccccactcctacgggaggcagcagttagg-3'
TT16S-R3(SEQ ID No. 18) 5'-accccgaagggcttcttcctccaagcggcgtcgctccgtcaggcttgcgcccattgcggaagattcctaactgctgcctcccgtaggagt-3'
TT16S-F4(SEQ ID No. 19) 5'-CTTGGAGGAAGAAGCCCTTCGGGGTGTAAACTCCTGAACCCGGGACGAAACCCCCGACGAGGGGACTGACGGTACCGGGGTAATAGCGCC-3'
TT16S-R4(SEQ ID No. 20) 5'-ACGCCCAGTGAATCCGGGTAACGCTCGCGCCCTCCGTATTACCGCGGCTGCTGGCACGGAGTTGGCCGGCGCTATTACCCCGGTACCGTC-3'
TT16S-F5(SEQ ID No. 21) 5'-GCGTTACCCGGATTCACTGGGCGTAAAGGGCGTGTAGGCGGCCTGGGGCGTCCCATGTGAAAGACCACGGCTCAACCGTGGGGGAGCGTG-3'
TT16S-R5(SEQ ID No. 22) 5'-tatctgcgcatttcaccgctactccgggaattccaccaccctctcccaccgtctagcctgagcgtatcccacgctcccccacggttgagc-3'
TT16S-F6(SEQ ID No. 23) 5'-aattcccggagtagcggtgaaatgcgcagataccgggaggaacgccgatggcgaaggcagccacctggtccacccgtgacgctgaggcgc-3'
TT16S-R6(SEQ ID No. 24) 5'-agacctagcgcgcatcgtttagggcgtggactacccgggtatctaatccggtttgctccccacgctttcgcgcctcagcgtcacgggtgg-3'
TT16S-F7(SEQ ID No. 25) 5'-ccctaaacgatgcgcgctaggtctctgggtctcctgggggccgaagctaacgcgttaagcgcgccgcctggggagtacggccgcaaggct-3'
TT16S-R7(SEQ ID No. 26) 5'-ttcgcgttgcttcgaattaaaccacatgctccaccgcttgtgcgggcccccgtcaattcctttgagtttcagccttgcggccgtactccc-3'
TT16S-F8(SEQ ID No. 27) 5'-ggagcatgtggtttaattcgaagcaacgcgaagaaccttaccaggccttgacatgctagggaacccgggtgaaagcctggggtgccccgc-3'
TT16S-R8(SEQ ID No. 28) 5'-ggacttaacccaacacctcacggcacgagctgacgacggccatgcagcacctgtgctagggctcccctcgcggggcaccccaggctttca-3'
TT16S-F9(SEQ ID No. 29) 5'-cgtgccgtgaggtgttgggttaagtcccgcaacgagcgcaacccccgccgttagttgccagcggttcggccgggcactctaacgggactg-3'
TT16S-R9(SEQ ID No. 30) 5'-TGTGTCGCCCAGGCCGTAAGGGCCATGCTGACCAGACGTCGTCCCCTCCTTCCTCCCGCTTTCGCGGGCAGTCCCGTTAGAGTGCCCGGC-3'
TT16S-F10(SEQ ID No. 31) 5'-ggcccttacggcctgggcgacacacgtgctacaatgcccactacaaagcgatgccacccggcaacggggagctaatcgcaaaaaggtggg-3'
TT16S-R10(SEQ ID No. 32) 5'-gatccgcgattactagcgattccggcttcatggggtcgggttgcagaccccaatccgaactgggcccacctttttgcgattagctccccg-3'
TT16S-F11(SEQ ID No. 33) 5'-gccggaatcgctagtaatcgcggatcagccatgccgcggtgaatacgttcccgggccttgtacacaccgcccgtcacgccatgggagcgg-3'
TT16S-R11(SEQ ID No. 34) 5'-cgacttcgccccagtcacgggccctaccctcggcgcctgcccgtaggctcccggcgacttcgggtagagcccgctcccatggcgtgacgg-3'
TT16S-R12(SEQ ID No. 35) 5'-ccgcaccttccggtacagctaccttgttacgacttcgccccagtcacgggccct-3'
M13-F(SEQ ID No. 36) 5'-GTAAAACGACGGCCAGT-3'
M13-R(SEQ ID No. 37) 5'-CAGGAAACAGCTATGAC-3'
초기 시도에서 전장 D-DNA 산물의 Sanger 시퀀싱은 조립된 서열의 약 40%만이 정확했으며(표 3), 대부분의 오류는 올리고 합성에서 마이너스 1- 및 2-nt 산물에서 발생할 가능성이 있는 뉴클레오티드 결실임을 나타냈다. 따라서, 올리고 정제 접근법은 단일 뉴클레오티드 분해능을 갖는 변성 PAGE를 사용하여 변형되어 대부분의 마이너스 1- 및 2-nt 산물을 제거함으로써 합성 올리고의 품질을 실질적으로 향상시켰다. 그 후 대부분의 결실 오류가 제거되었고 최종 조립된 서열의 약 90%가 정확하였다(나머지는 무작위로 발생한 단일 돌연변이만 포함하였다). 따라서 동일한 올리고 정제 접근법과 거울상 조립 PCR을 이용하여 전장 1.5 kb의 거울상 16S rRNA 유전자의 조립이 수행되었으며, 이는 향후 기능성 리보좀 구축의 린치핀인 거울상 16S rRNA로의 효소 전사를 위한 주형이 될 것이다. 구체적으로, 거울상 Pfu DNA 중합효소에 의해 조립된 거울상 16S rRNA 유전자는 아가로스 젤 전기영동을 수행하며, 거울상 Pfu DNA 중합효소를 사용한 거울상 조립 PCR에 의해 얻은 전장 1.5-kb의 거울상 박테리아 16S rRNA 유전자는 1.5% 아가로스 젤 전기영동으로 분석하고 ExRed. M, DNA 마커로 염색하였다(결과는 미도시됨).
DNA-주형 RNA 중합:
RNA 중합은 1Х Thermopol 완충액(New England Biolabs, MA, U.S.), 3 mM MgSO4, 0.625 mM(각각) NTP, 0.5 μM 5'-FAM-표지된 DNA 프라이머(21 nt) 및 1 μM ssDNA 주형(41 nt) 및 중합효소에서 수행되었다. 중합효소를 첨가하기 전에, 반응 시스템을 94℃로 30초 동안 가열하고 어닐링을 위해 4℃로 천천히 냉각시켰다. 프라이머 연장 반응은 65℃에서 10분 동안 진행되었다. 98% 포름아마이드, 0.25 mM EDTA 및 0.0125% SDS를 함유하는 로딩 완충액을 첨가하여 반응을 정지시키고, 산물을 8 M 우레아 중 20% 변성 PAGE로 분석하였다. 구체적으로, 상이한 돌연변이체 Pfu DNA 중합효소의 DNA-주형 RNA 중합 활성 분석에 이어 PAGE 분석이 수행되었으며, 여기서 41-nt 단일 가닥 DNA 주형, 5'-FAM- 표지된 21-nt DNA 프라이머 및 NTP와 함께 상이한 Pfu DNA 중합효소 돌연변이체에 의한 DNA-주형 지시된 프라이머 연장은 65℃에서 10분 동안 인큐베이션하고 8 M 우레아에서 20% PAGE로 분석하였다(결과는 미도시됨).
L-DNA 쓰기 및 판독:
1860년 루이 파스퇴르가 발표한 550자(위 텍스트 참조)의 한 문단을 1650개의 뉴클레오티드로 구성된 DNA 서열로 변환하고(표 4), 각각 70-90 nt의 짧은 합성 L-DNA 올리고 4개로 조립한 220 bp 길이의 11개 L-DNA 세그먼트(표 5)로 인코딩하였다. 조립 PCR 프로그램 설정은 94℃에서 3분 동안(초기 변성); 94℃에서 30초, 55℃에서 30초, 72℃에서 1분(앰플리콘 길이에 따라 다름), 35주기; 72℃에서 10분 동안(최종 연장)이었다. 포스포로티오에이트 접근법을 위해, L-DNA 세그먼트는 각각의 L-dNTP 중 하나는 상응하는 L-dNTPαS로 대체된 4개의 분리된 PCR 반응에서 D-Dpo4-5m(화학 합성을 용이하게 하기 위한 Dpo4의 돌연변이체 버전)에 의해 5'-FAM-표지된(정방향) 및 5'-Cy5-표지된(역방향) 프라이머로 증폭되었다. PCR 프로그램 설정은 86℃에서 3분 동안(초기 변성); 86℃에서 30초, 54℃에서 1분(Tm-의존적), 65℃에서 1-2.5분(앰플리콘 길이에 따라 다름), 45주기; 65℃에서 5분(최종 연장)이었다. PCR 산물(같은 길이의 표지되지 않은 담체 dsDNA와 1:20 w/w 혼합)을 8% PAGE로 정제하고 약 200 ng/㎕의 농도로 물에 용해하였다. 각각의 시퀀싱 반응에 대해, 2.5 ㎕의 이중 표지된 L-DNA를 2%(v/v) 2-요오드에탄올을 함유하는 변성 완충액(98% 포름아마이드, 0.25 mM EDTA) 2.5 ㎕와 혼합하고, 95℃에서 3분 동안 가열한 다음, 재빨리 얼음 위에 올려놓았다. 사슬 종결 접근법을 위해 L-DNA 세그먼트는 각각의 L-dNTP 중 하나가 특정 비율에서 상응하는 L-ddNTP로 대체된 4개의 분리된 PCR 반응에서 거울상 Pfu DNA 중합효소 돌연변이체(D215A, L490W)(SEQ ID No. 77)에 의해 5'-FAM 표지된(정방향) 및/또는 5'-Cy5 표지된(역방향) 프라이머로 증폭되었다. PCR 프로그램 설정은 94℃에서 3분(초기 변성); 94℃에서 30초, 54℃에서 30초(Tm 의존적), 72℃에서 30-60초(앰플리콘 길이에 따라 다름), 20주기; 72℃에서 5분(최종 연장)이었다. 이중 표지된 PCR 산물을 각각 동량의 변성 완충액(98% 포름아마이드, 0.25 mM EDTA)과 혼합하고 95℃에서 3분 동안 가열한 후 재빨리 얼음 위에 두었다. ddNTP 및 5'-Cy5-표지된(역방향) 시퀀싱 프라이머와 함께 발현된 Pfu DNA 중합효소 돌연변이체(D215A, L490W)를 사용한 사슬 종결 접근법에 의한 D-DNA 세그먼트 S1의 시퀀싱 젤 ddNTPs 및 5'-Cy5-표지된 역 시퀀싱 프라이머와 함께 Pfu DNA 중합효소 돌연변이체(D215A, L490W)에 의한 D-DNA 세그먼트 S1의 증폭산물은 10% 변성 PAGE로 분석하고 Cy5 모드에서 작동하는 Typhoon Trio+ 시스템으로 스캔하였다. A, dATP는 부분적으로 ddATP로 대체됨; C, dCTP는 부분적으로 ddCTP로 대체됨; G, dGTP는 부분적으로 ddGTP로 대체됨; T, dTTP는 부분적으로 ddTTP로 대체됨(결과는 미도시됨). 시퀀싱 샘플은 0.4 mm × 340 mm × 300 mm 슬래브에 로드되었으며 8 M 우레아에서 10% 폴리아크릴아마이드 젤로 분리되었다. 젤은 30-40℃로 가열될 때까지 2시간 동안 50W(일정한 전력)에서 사전 실행되었다. 로딩 후, 젤을 1.5시간 동안 50W(일정 전력)에서 실행하고 형광 스캐닝을 위해 일시 중지한 다음, 젤을 계속 실행하고 총 실행 시간이 최대 5시간이 될 때까지 격시간으로 스캔하였다. 폴리아크릴아마이드 젤은 각각 Cy2 및 Cy5 모드로 작동되는 Typhoon Trio+ 시스템으로 스캔되었다. 젤 정량화 및 크로마토그램 분석은 ImageJ 소프트웨어에 의해 수행되었다.
키랄 스테가노그래피:
키메라 D-DNA/L-DNA 올리고는 위에서 설명한 방법을 사용하여 D- 및 L-디옥시뉴클레오시드 포스포아미다이트를 사용하여 합성되었다. 올리고 D-F1, D-R1, D/L-F2 및 D/L-R2(표 7)를 95℃로 3분 동안 가열하고 어닐링을 위해 천천히 4℃로 냉각하고, 어닐링된 이중가닥 DNA는 T3 DNA 리가아제(New England Biolabs, MA, U.S.)에 의해 25℃에서 1.5시간 동안 결찰되었다. "커버 텍스트" 역할을 하는 D-DNA 저장 라이브러리는 L-DNA 저장 라이브러리와 유사한 방법을 사용하여 TransStart FastPfu Fly 중합효소(TransGen Biotech., Beijing, China)에 의해 제조되었다. 아가로스 젤로 정제한 키메라 이중가닥 D-DNA/L-DNA 키를 각 D-DNA 세그먼트와 1:1 농도 비율로 D-DNA 저장 라이브러리에 추가하였다. 11개의 정보 저장 D-DNA 세그먼트와 키메라 키의 D-DNA 부분은 각각 저장 라이브러리의 세그먼트-특이 프라이머로 증폭되었으며 Sanger 시퀀싱을 위해 Zero Background ZT4 Simple-Blunt Fast Clone Kit(Beijing Zoman Biotech., Beijing, China)에 의해 복제되었다(보충 표 S6). 키메라 키의 L-DNA 부분을 저장 라이브러리의 D-Dpo4-5m에 의해 L-M13F 및 L-M13R 프라이머로 증폭하고 포스포로티오에이트 접근법으로 시퀀싱하였다.
표 7은 키랄 스테가노그래피에 사용되는 서열을 나타내며, 여기서 소문자는 D-DNA 서열이고, 대문자는 L-DNA 서열이며, 밑줄이 그어진 문자는 개별 세그먼트의 증폭 및 시퀀싱을 위한 고유한 서열이다.
올리고 서열
D-F1
(SEQ ID No. 38)
5'-gtgctgcaaggcgattaattaggtatacaaccagaaccagattaagattgtata-3'
D-R1(SEQ ID No. 39) 5'-ctatgactgttaacctatacaatcttaatctggttctggttgtatacctaattaatcgccttg
cagcac-3'
D/L-F2
(SEQ ID No. 40)
5'-ggttaacagtcatagctgtttcctgGTAAAACGACGGCCAGTATT
ACCTTAACAACCTATACCACATATACCAGGTTCAGATTCTATAGGTTCACAGTCATAGCTGTTTCCTG-3'
D/L-R2
(SEQ ID No. 41)
5'-CAGGAAACAGCTATGACTGTGAACCTATAGAATC
TGAACCTGGTATATGTGGTATAGGTTGTTAAGGTAATACTGGCCGTCGTTTTACcaggaaacag-3'
D-DNA key-F
(SEQ ID No. 42)
5'-gtgctgcaaggcgatta-3'
D-DNA key-R(SEQ ID No. 43) 5'-caggaaacagctatgac-3'
L-DNA key-F(SEQ ID No. 44) 5'-GTAAAACGACGGCCAGT-3'
L-DNA key-R(SEQ ID No. 45) 5'-CAGGAAACAGCTATGAC-3'
Chimeric D-DNA/L-DNA key
(SEQ ID No. 46)
5'-gtgctgcaaggcgattaattaggtatacaaccagaaccagattaagattgtataggtt
aacagtcatagctgtttcctgGTAAAACGACGGCCAGTATTACCTTAACAACCTATACCACATATACCAGGTTCAGATTCTATAGGTTCACAGTCATAGCTGTTTCCTG-3'
L-DNA 바코드:
2019년 12월 8일 칭화대학교(40°0'27"N, 116°19'34"E)의 연꽃 연못에서 정화되지 않은 환경 수질 샘플을 수집하였다. 합성 D- 및 L-DNA 올리고를 95℃로 가열하였다. 어닐링을 위해 4℃로 천천히 냉각시키고 어닐링된 dsDNA를 수질 샘플에 50 ㎍/L의 농도로 첨가하였다. DNA 바코드(SEQ ID No. 12)를 증폭하기 위해, D-/L-Pfu DNA 중합효소에 의해 증폭되기 전에 2 mL의 수질 샘플을 0.22 ㎛ 필터(Pall Corporation, WI, U.S.)로 여과하고, Amicon Utra 원심분리 필터 유닛(0.5 mL, 10,000MWCO)에 의해 DEPC 처리된 물에 재현탁하였다. PCR 프로그램 설정은 94℃에서 3분(초기 변성); 94℃에서 30초, 55℃에서 30초 및 72℃에서 1분, 25주기; 72℃에서 10분 동안(최종 연장)이었다. 메타게놈 미생물 DNA 추출을 위해 수질 샘플을 0.2-㎛ Supor 200 PES Membrane Disc Filter(Pall, NY, U.S.)로 여과하고 미생물 DNA를 DNeasy PowerSoil Kit(Qiagen, MD, U.S.)로 추출하였다.
16S rRNA 유전자 조립 :
각각 0.005-0.02 ㎛(내부) 또는 각각 0.2 ㎛(외부)의 농도에서 약 90 nt 길이의 합성 올리고를 두 단계로 전장 유전자로 조립하였다. 첫 번째 단계에서 조립 PCR 프로그램 설정은 94℃에서 3분(초기 변성); 94℃에서 30초, 60℃에서 30초, 72℃에서 3분, 35주기; 72℃에서 10분 동안(최종 연장)이었다. 두 번째 단계에서, 약 450-550 bp 길이의 미리 조립된 DNA 블록을 조립 PCR에 적용하기 전에 1.5% 아가로스 젤로 정제하였다. 조립 PCR 프로그램 설정은 94℃에서 3분(초기 변성); 94℃에서 30초, 60℃에서 30초, 72℃에서 7분, 35주기; 72℃에서 10분(최종 연장)이었다. 조립된 산물은 PCR 프로그램 설정으로 추가로 증폭되었다: 94℃에서 3분(초기 변성); 94℃에서 30초, 60℃에서 30초, 72℃에서 7분, 35주기; 72℃에서 10분(최종 연장)이었다. 자연 조립 PCR의 최종 D-DNA 산물(SEQ ID No. 81)은 V-elute Gel Mini Purification Kit(Beijing Zoman Biotech., Beijing, China)로 정제되었고, Sanger 시퀀싱을 위해 Zero Background ZT4 Simple-Blunt Fast Clone Kit(Beijing Zoman Biotech., Beijing, China)로 복제되었다.
본 발명이 그의 특정 구체예와 관련하여 설명되었지만, 많은 대안, 수정 및 변형이 당업자에게 명백할 것이라는 것이 명백하다. 따라서 첨부된 특허청구범위의 정신 및 넓은 범위에 속하는 이러한 모든 대안, 수정 및 변형을 포함하는 것으로 의도된다.
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적이고 개별적으로 본 명세서에 참조로 포함되는 것으로 표시된 것과 동일한 정도로 본 명세서에 참조로 전체가 본 명세서에 포함된다. 또한, 본 출원에서 참조의 인용 또는 확인은 이러한 참조가 본 발명의 선행 기술로 이용 가능하다는 것을 인정하는 것으로 해석되어서는 안 된다. 섹션 제목이 사용되는 한 반드시 제한하는 것으로 해석되어서는 안 된다. 또한, 이 출원의 모든 우선권 문서(들)는 그 전체가 참조로 본 명세서에 포함된다.
SEQUENCE LISTING <110> Tsinghua University ZHU, Ting FAN, Chuyao DENG, Qiang XU, Yuan <120> CHEMICAL SYNTHESIS OF LARGE AND MIRROR-IMAGE PROTEINS AND USES THEREOF <130> 87597 <150> US 63/061,844 <151> 2020-08-06 <160> 116 <170> PatentIn version 3.5 <210> 1 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 1 gtaaaacgac ggccagttcg cgcgtttcgg tgatgacggt gaaaaccatt acaataacgt 60 actgcatcca gagttactag atgaaccata tgtacacttg acgttccatc agcctaatca 120 cttcgatgat cctgcgttag actatgtcaa gcagtcatta gatcagctac ctatgacata 180 tgtaccagat gatcactagt atcgtcatag ctgtttcctg 220 <210> 2 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 2 gtaaaacgac ggccagttct gacacatgca gctcccggag acggtcaatt acccgatcga 60 gccagtcgat cacttcgatg atcacgtagc gtctgctgat gacttcacgt atcagtctaa 120 tctacacgac tcattcaacg tgaatcgact caagttgcca tcagacttag atcagctaga 180 tctgccatat gatctagtcg agtgtcatag ctgtttcctg 220 <210> 3 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 3 gtaaaacgac ggccagtcag cttgtctgta agcggatgcc gggagcaatt agacattgat 60 gcatccagtc gacgtacgat atgatcagca cttagatcta gatgtactag atgatcagtt 120 caatctgcag ctcaatgcag actagcagtt actccatcac ttcgatgatc cagagttact 180 agactagcac tcatactagc gtcgtcatag ctgtttcctg 220 <210> 4 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 4 gtaaaacgac ggccagtgac aagcccgtca gggcgcgtca gcgggtcatt aggatgatca 60 tgtgaatgct gatgtacact tagatcagtc taatcacgtg atgaatctga agcgtcagct 120 acgatatcgt aatgagctac gattagatcc gaagtcattg atgcatcacg tagtagcatc 180 tgatgatcac ttcgatgatc agtgtcatag ctgtttcctg 220 <210> 5 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 5 gtaaaacgac ggccagtttg gcgggtgtcg gggctggctt aactatgatt taagacgaca 60 gttagagcac tatgatcacg tagcgtctgc tgatgacttc acgttctatc atagacatgt 120 catcgacgga ctagatcacg atctacatgc gaatccgaag ttcatgatgc atccgaagtc 180 attgatgcat cgactcaatg taggtcatag ctgtttcctg 220 <210> 6 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 6 gtaaaacgac ggccagtcgg catcagagca gattgtactg agagtgcatt tatatgtaca 60 ctatcagcac ttagatgtga ctaatcacta gtatcagtca ttcaatcgtc agcatgcgat 120 ctatcatacg atcgagtatc cagagtcatt gatgcatcct aagttcaatg tagatgatga 180 tcacttcgat gatcagttca gatgtcatag ctgtttcctg 220 <210> 7 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 7 gtaaaacgac ggccagtacc atatgcggtg tgaaataccg cacagatatt ttaacgtaca 60 gctagacgac tagcagttac atcagtctaa tctgaagcgt cagctacgat atcacttcga 120 gctacgatta gatcagccta atccagatgt gatgacattg aagttagatg tccatctcaa 180 gcgattcgac tatcacgtag atcgtcatag ctgtttcctg 220 <210> 8 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 8 gtaaaacgac ggccagtgcg taaggagaaa ataccgcatc aggcgtgatt ttcagcacta 60 tcagctagtc catcgtaatg cagacgctga tgatctgaat gctaactcac atcagcctaa 120 tcacttcgat gatcacgtga gtacatctga tgtacatcag tctaatcact tcgatgatcg 180 tatgaagtag ttgctccatc tacgtcatag ctgtttcctg 220 <210> 9 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 9 gtaaaacgac ggccagtatt cgccattcag gctgcgcaac tgttgggatt ttgagtcgaa 60 tctgaatgct aacttccatc gtaatgcaga cgctgatgat ctcaagcgat tcgacttgga 120 tcataacttc gatgtagatg atcacgtcaa tgatcctgcg ttagactatg tcaagcatgt 180 agatccgatc gagccagtcg atcgtcatag ctgtttcctg 220 <210> 10 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 10 gtaaaacgac ggccagtaag ggcgatcggt gcgggcctct tcgctataca attctacatt 60 catacagcta gtcgatcctg catcagtcga tccgaagttc agcaatccta agttcaatca 120 cttcgatgat cctacatact cattcaatgt ccatcacgta ctgcatctgc atgctgacgt 180 actgcatctc gatgtaccag atggtcatag ctgtttcctg 220 <210> 11 <211> 220 <212> DNA <213> Artificial sequence <220> <223> L-DNA nucleic acid sequence <400> 11 gtaaaacgac ggccagttac gccagctggc gaaaggggga tgtgctgaca acactaagtt 60 caacttcgat cacttcgatg atcctgagtt agactatcta gatgtcaagc agtcattaga 120 tccagagtta ctagagctgc atgtcaacga ctagcagtta catcctatca agtctgatct 180 agcagagcat gtaccagatg tctgtcatag ctgtttcctg 220 <210> 12 <211> 100 <212> DNA <213> Artificial sequence <220> <223> DNA Barcode nucleic acid sequence <400> 12 gtaaaacgac ggccagtata tgaagtactc attagatcat agacagttac tgctccatca 60 tagtaatgag caatagctac gatgtcatag ctgtttcctg 100 <210> 13 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 13 tttgttggag agtttgatcc tggctcaggg tgaacgctgg cggcgtgcct aagacatgca 60 agtcgtgcgg gccgcggggt tttactccgt 90 <210> 14 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 14 tttccccggg ttgtccccct cttccgggta ggtcacccac gcgttactca cccgtccgcc 60 gctgaccacg gagtaaaacc ccgcggcccg 90 <210> 15 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 15 ggaagagggg gacaacccgg ggaaactcgg gctaatcccc catgtggacc cgccccttgg 60 ggtgtgtcca aagggctttg cccgcttccg 90 <210> 16 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 16 cggctacccg tcgtcgcctt ggtgggccat taccccacca actagctgat gggacgcggg 60 cccatccgga agcgggcaaa gccctttgga 90 <210> 17 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 17 aaggcgacga cgggtagccg gtctgagagg atggccggcc acaggggcac tgagacacgg 60 gccccactcc tacgggaggc agcagttagg 90 <210> 18 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 18 accccgaagg gcttcttcct ccaagcggcg tcgctccgtc aggcttgcgc ccattgcgga 60 agattcctaa ctgctgcctc ccgtaggagt 90 <210> 19 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 19 cttggaggaa gaagcccttc ggggtgtaaa ctcctgaacc cgggacgaaa cccccgacga 60 ggggactgac ggtaccgggg taatagcgcc 90 <210> 20 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 20 acgcccagtg aatccgggta acgctcgcgc cctccgtatt accgcggctg ctggcacgga 60 gttggccggc gctattaccc cggtaccgtc 90 <210> 21 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 21 gcgttacccg gattcactgg gcgtaaaggg cgtgtaggcg gcctggggcg tcccatgtga 60 aagaccacgg ctcaaccgtg ggggagcgtg 90 <210> 22 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 22 tatctgcgca tttcaccgct actccgggaa ttccaccacc ctctcccacc gtctagcctg 60 agcgtatccc acgctccccc acggttgagc 90 <210> 23 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 23 aattcccgga gtagcggtga aatgcgcaga taccgggagg aacgccgatg gcgaaggcag 60 ccacctggtc cacccgtgac gctgaggcgc 90 <210> 24 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 24 agacctagcg cgcatcgttt agggcgtgga ctacccgggt atctaatccg gtttgctccc 60 cacgctttcg cgcctcagcg tcacgggtgg 90 <210> 25 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 25 ccctaaacga tgcgcgctag gtctctgggt ctcctggggg ccgaagctaa cgcgttaagc 60 gcgccgcctg gggagtacgg ccgcaaggct 90 <210> 26 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 26 ttcgcgttgc ttcgaattaa accacatgct ccaccgcttg tgcgggcccc cgtcaattcc 60 tttgagtttc agccttgcgg ccgtactccc 90 <210> 27 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 27 ggagcatgtg gtttaattcg aagcaacgcg aagaacctta ccaggccttg acatgctagg 60 gaacccgggt gaaagcctgg ggtgccccgc 90 <210> 28 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 28 ggacttaacc caacacctca cggcacgagc tgacgacggc catgcagcac ctgtgctagg 60 gctcccctcg cggggcaccc caggctttca 90 <210> 29 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 29 cgtgccgtga ggtgttgggt taagtcccgc aacgagcgca acccccgccg ttagttgcca 60 gcggttcggc cgggcactct aacgggactg 90 <210> 30 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 30 tgtgtcgccc aggccgtaag ggccatgctg accagacgtc gtcccctcct tcctcccgct 60 ttcgcgggca gtcccgttag agtgcccggc 90 <210> 31 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 31 ggcccttacg gcctgggcga cacacgtgct acaatgccca ctacaaagcg atgccacccg 60 gcaacgggga gctaatcgca aaaaggtggg 90 <210> 32 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 32 gatccgcgat tactagcgat tccggcttca tggggtcggg ttgcagaccc caatccgaac 60 tgggcccacc tttttgcgat tagctccccg 90 <210> 33 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 33 gccggaatcg ctagtaatcg cggatcagcc atgccgcggt gaatacgttc ccgggccttg 60 tacacaccgc ccgtcacgcc atgggagcgg 90 <210> 34 <211> 90 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 34 cgacttcgcc ccagtcacgg gccctaccct cggcgcctgc ccgtaggctc ccggcgactt 60 cgggtagagc ccgctcccat ggcgtgacgg 90 <210> 35 <211> 54 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 35 ccgcaccttc cggtacagct accttgttac gacttcgccc cagtcacggg ccct 54 <210> 36 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Single strand DNA oligonucleotide <400> 36 gtaaaacgac ggccagt 17 <210> 37 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Single strand DNA oligonucleotide <400> 37 caggaaacag ctatgac 17 <210> 38 <211> 54 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 38 gtgctgcaag gcgattaatt aggtatacaa ccagaaccag attaagattg tata 54 <210> 39 <211> 69 <212> DNA <213> Artificial sequence <220> <223> short synthetic oligo nucleic acid sequence <400> 39 ctatgactgt taacctatac aatcttaatc tggttctggt tgtataccta attaatcgcc 60 ttgcagcac 69 <210> 40 <211> 113 <212> DNA <213> Artificial sequence <220> <223> short synthetic D-/L- chimeric oligo nucleic acid sequence <400> 40 ggttaacagt catagctgtt tcctggtaaa acgacggcca gtattacctt aacaacctat 60 accacatata ccaggttcag attctatagg ttcacagtca tagctgtttc ctg 113 <210> 41 <211> 98 <212> DNA <213> Artificial sequence <220> <223> short synthetic D-/L- chimeric oligo nucleic acid sequence <400> 41 caggaaacag ctatgactgt gaacctatag aatctgaacc tggtatatgt ggtataggtt 60 gttaaggtaa tactggccgt cgttttacca ggaaacag 98 <210> 42 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Single strand DNA oligonucleotide <400> 42 gtgctgcaag gcgatta 17 <210> 43 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Single strand DNA oligonucleotide <400> 43 caggaaacag ctatgac 17 <210> 44 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Single strand L-DNA oligonucleotide <400> 44 gtaaaacgac ggccagt 17 <210> 45 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Single strand L-DNA oligonucleotide <400> 45 caggaaacag ctatgac 17 <210> 46 <211> 167 <212> DNA <213> Artificial sequence <220> <223> D-/L- chimeric DNA nucleic acid sequence <400> 46 gtgctgcaag gcgattaatt aggtatacaa ccagaaccag attaagattg tataggttaa 60 cagtcatagc tgtttcctgg taaaacgacg gccagtatta ccttaacaac ctataccaca 120 tataccaggt tcagattcta taggttcaca gtcatagctg tttcctg 167 <210> 47 <211> 775 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase <400> 47 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Glu His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Lys Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Val Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ile Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser 770 775 <210> 48 <211> 775 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 48 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Ala Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser 770 775 <210> 49 <211> 775 <212> PRT <213> Artificial sequence <220> <223> Pfu-5m-55I amino acid sequence <400> 49 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Ala Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Lys Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Val Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Val Asp Glu Glu Gly Lys Val Thr Thr Arg Gly 595 600 605 Leu Glu Val Val Arg Arg Asp Trp Ser Glu Ala Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Leu Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Val Val Lys Glu Val Thr Gln Lys Leu Ala Asn Tyr Glu Val 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Tyr Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Val Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Val Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Pro Lys Lys Ser 770 775 <210> 50 <211> 775 <212> PRT <213> Artificial sequence <220> <223> Pfu-5m-46I amino acid sequence <400> 50 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Phe Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Val Val Arg 50 55 60 Val Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Val 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Leu Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ala Thr Trp Lys Asn Val 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Val Lys 180 185 190 Arg Phe Leu Arg Val Val Arg Glu Lys Asp Pro Asp Val Leu Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Val Lys Leu Thr Leu Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Met Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Val 245 250 255 His Phe Asp Leu Tyr His Val Ala Thr Arg Thr Leu Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Ala Ala Val Tyr Glu Ala Val Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Val Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Val Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser 770 775 <210> 51 <211> 775 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 51 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Phe Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Val Val Arg 50 55 60 Val Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Val 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Leu Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ala Thr Trp Lys Asn Val 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Val Lys 180 185 190 Arg Phe Leu Arg Val Val Arg Glu Lys Asp Pro Asp Val Leu Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Val Lys Leu Thr Leu Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Met Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Val 245 250 255 His Phe Asp Leu Tyr His Val Ala Thr Arg Thr Leu Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Ala Ala Val Tyr Glu Ala Val Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Val Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Val Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Lys Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Val Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Val Asp Glu Glu Gly Lys Val Thr Thr Arg Gly 595 600 605 Leu Glu Val Val Arg Arg Asp Trp Ser Glu Ala Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Leu Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Val Val Lys Glu Val Thr Gln Lys Leu Ala Asn Tyr Glu Val 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Tyr Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Val Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Val Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Pro Lys Lys Ser 770 775 <210> 52 <211> 775 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 52 Met Val Leu Asp Val Asp Tyr Leu Thr Glu Glu Gly Lys Pro Val Val 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Val Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Phe Tyr Ala Leu Leu Arg Asp Asp Ser Lys Leu 35 40 45 Glu Glu Val Lys Lys Val Thr Gly Glu Arg His Gly Lys Val Val Arg 50 55 60 Val Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Val 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Leu 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Val Phe Glu Tyr 100 105 110 Asp Val Pro Phe Ala Lys Arg Tyr Leu Val Asp Lys Gly Leu Val Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Met Leu Ala Phe Asp Val Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Val Leu Met Val 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ala Thr Trp Lys Asn Val 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Val Lys 180 185 190 Arg Phe Leu Arg Val Val Arg Glu Lys Asp Pro Asp Val Leu Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Val Lys Leu Thr Leu Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Met Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Val 245 250 255 His Phe Asp Leu Tyr His Val Ala Thr Arg Thr Leu Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Ala Ala Val Tyr Glu Ala Val Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Val Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Val Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Val Val Val Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Val Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly 435 440 445 Phe Val Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Val 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Val Glu Lys Lys Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Val Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Val Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Val Pro Gly Gly Glu Ser Glu Glu Val Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Val Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Val Asp Glu Glu Gly Lys Val Thr Thr Arg Gly 595 600 605 Leu Glu Val Val Arg Arg Asp Trp Ser Glu Ala Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Leu Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Val Val Lys Glu Val Thr Gln Lys Leu Ala Asn Tyr Glu Val 645 650 655 Pro Pro Glu Lys Leu Ala Val Tyr Glu Gln Val Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Val Lys Pro Gly Met Val Val Gly Tyr Val Val 690 695 700 Leu Arg Gly Asp Gly Pro Val Ser Asn Arg Ala Tyr Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Val Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Val Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Pro Lys Lys Ser 770 775 <210> 53 <211> 774 <212> PRT <213> Artificial sequence <220> <223> KOD1 polymerase <400> 53 Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asp Gly Lys Pro Val Ile 1 5 10 15 Arg Ile Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Glu Tyr Asp Arg 20 25 30 Thr Phe Glu Pro Tyr Phe Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Ala Glu Arg His Gly Thr Val Val Thr 50 55 60 Val Lys Arg Val Glu Lys Val Gln Lys Lys Phe Leu Gly Arg Pro Val 65 70 75 80 Glu Val Trp Lys Leu Tyr Phe Thr His Pro Gln Asp Val Pro Ala Ile 85 90 95 Arg Asp Lys Ile Arg Glu His Pro Ala Val Ile Asp Ile Tyr Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro 115 120 125 Met Glu Gly Asp Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr Glu Glu Gly Glu Glu Phe Ala Glu Gly Pro Ile Leu Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Glu Gly Ala Arg Val Ile Thr Trp Lys Asn Val 165 170 175 Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Val Val Lys Glu Lys Asp Pro Asp Val Leu Ile Thr 195 200 205 Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Cys Glu 210 215 220 Lys Leu Gly Ile Asn Phe Ala Leu Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Val Phe Gly Gln Pro Lys Glu 275 280 285 Lys Val Tyr Ala Glu Glu Ile Thr Thr Ala Trp Glu Thr Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Ile Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Asp Glu Lys Glu Leu Ala Arg Arg Arg Gln Ser Tyr 370 375 380 Glu Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Glu Asn Ile 385 390 395 400 Val Tyr Leu Asp Phe Arg Ser Leu Tyr Pro Ser Ile Ile Ile Thr His 405 410 415 Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Lys Glu Tyr Asp 420 425 430 Val Ala Pro Gln Val Gly His Arg Phe Cys Lys Asp Phe Pro Gly Phe 435 440 445 Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Ile Lys 450 455 460 Lys Lys Met Lys Ala Thr Ile Asp Pro Ile Glu Arg Lys Leu Leu Asp 465 470 475 480 Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Tyr Tyr Gly Tyr 485 490 495 Tyr Gly Tyr Ala Arg Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser 500 505 510 Val Thr Ala Trp Gly Arg Glu Tyr Ile Thr Met Thr Ile Lys Glu Ile 515 520 525 Glu Glu Lys Tyr Gly Phe Lys Val Ile Tyr Ser Asp Thr Asp Gly Phe 530 535 540 Phe Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Lys Lys Ala 545 550 555 560 Met Glu Phe Leu Lys Tyr Ile Asn Ala Lys Leu Pro Gly Ala Leu Glu 565 570 575 Leu Glu Tyr Glu Gly Phe Tyr Glu Arg Gly Phe Phe Val Thr Lys Lys 580 585 590 Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu 595 600 605 Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala 610 615 620 Arg Val Leu Glu Ala Leu Leu Lys Asp Gly Asp Val Glu Lys Ala Val 625 630 635 640 Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro 645 650 655 Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Asp Leu Lys Asp 660 665 670 Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala 675 680 685 Arg Gly Val Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu 690 695 700 Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe 705 710 715 720 Asp Pro Thr Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln 725 730 735 Val Leu Pro Ala Val Glu Arg Ile Leu Arg Ala Phe Gly Tyr Arg Lys 740 745 750 Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Ser Ala Trp 755 760 765 Leu Lys Pro Lys Gly Thr 770 <210> 54 <211> 773 <212> PRT <213> Artificial sequence <220> <223> Tgo polymerase <400> 54 Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asp Gly Lys Pro Val Ile 1 5 10 15 Arg Ile Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Asp Tyr Asp Arg 20 25 30 Asn Phe Glu Pro Tyr Ile Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile 35 40 45 Glu Asp Val Lys Lys Ile Thr Ala Glu Arg His Gly Thr Thr Val Arg 50 55 60 Val Val Arg Ala Glu Lys Val Lys Lys Lys Phe Leu Gly Arg Pro Ile 65 70 75 80 Glu Val Trp Lys Leu Tyr Phe Thr His Pro Gln Asp Val Pro Ala Ile 85 90 95 Arg Asp Lys Ile Lys Glu His Pro Ala Val Val Asp Ile Tyr Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Asp Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Ala Glu Gly Pro Ile Leu Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Glu Gly Ala Arg Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Lys Glu Met Ile Lys 180 185 190 Arg Phe Leu Lys Val Val Lys Glu Lys Asp Pro Asp Val Leu Ile Thr 195 200 205 Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Ser Glu 210 215 220 Lys Leu Gly Val Lys Phe Ile Leu Gly Arg Glu Gly Ser Glu Pro Lys 225 230 235 240 Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Gln Pro Lys Glu 275 280 285 Lys Val Tyr Ala Glu Glu Ile Ala Gln Ala Trp Glu Thr Gly Glu Gly 290 295 300 Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Asp Glu Arg Glu Leu Ala Arg Arg Arg Glu Ser Tyr 370 375 380 Ala Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Glu Asn Ile 385 390 395 400 Val Tyr Leu Asp Phe Arg Ser Leu Tyr Pro Ser Ile Ile Ile Thr His 405 410 415 Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Glu Glu Tyr Asp 420 425 430 Val Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly Phe 435 440 445 Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Val Lys 450 455 460 Lys Lys Met Lys Ala Thr Ile Asp Pro Ile Glu Lys Lys Leu Leu Asp 465 470 475 480 Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Phe Tyr Gly Tyr 485 490 495 Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser 500 505 510 Val Thr Ala Trp Gly Arg Gln Tyr Ile Glu Thr Thr Ile Arg Glu Ile 515 520 525 Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Phe 530 535 540 Phe Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Lys Lys Ala 545 550 555 560 Lys Glu Phe Leu Asp Tyr Ile Asn Ala Lys Leu Pro Gly Leu Leu Glu 565 570 575 Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys Lys 580 585 590 Lys Tyr Ala Val Ile Asp Glu Glu Asp Lys Ile Thr Thr Arg Gly Leu 595 600 605 Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala 610 615 620 Arg Val Leu Glu Ala Ile Leu Lys His Gly Asp Val Glu Glu Ala Val 625 630 635 640 Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro 645 650 655 Pro Glu Lys Leu Val Ile Tyr Glu Gln Ile Thr Arg Asp Leu Lys Asp 660 665 670 Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala 675 680 685 Arg Gly Ile Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu 690 695 700 Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe 705 710 715 720 Asp Pro Ala Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln 725 730 735 Val Leu Pro Ala Val Glu Arg Ile Leu Arg Ala Phe Gly Tyr Arg Lys 740 745 750 Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Gly Ala Trp 755 760 765 Leu Lys Pro Lys Thr 770 <210> 55 <211> 775 <212> PRT <213> Artificial sequence <220> <223> 9 degrees N-7 polymerase amino acid sequence <400> 55 Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asn Gly Lys Pro Val Ile 1 5 10 15 Arg Val Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Glu Tyr Asp Arg 20 25 30 Thr Phe Glu Pro Tyr Phe Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile 35 40 45 Glu Asp Val Lys Lys Val Thr Ala Lys Arg His Gly Thr Val Val Lys 50 55 60 Val Lys Arg Ala Glu Lys Val Gln Lys Lys Phe Leu Gly Arg Pro Ile 65 70 75 80 Glu Val Trp Lys Leu Tyr Phe Asn His Pro Gln Asp Val Pro Ala Ile 85 90 95 Arg Asp Arg Ile Arg Ala His Pro Ala Val Val Asp Ile Tyr Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Asp Glu Glu Leu Thr Met Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Thr Gly Pro Ile Leu Met Ile 145 150 155 160 Ser Tyr Ala Asp Gly Ser Glu Ala Arg Val Ile Thr Trp Lys Lys Ile 165 170 175 Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Lys Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Val Val Arg Glu Lys Asp Pro Asp Val Leu Ile Thr 195 200 205 Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Cys Glu 210 215 220 Glu Leu Gly Ile Lys Phe Thr Leu Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Val Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Glu Glu Ile Ala Gln Ala Trp Glu Ser Gly Glu Gly 290 295 300 Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Tyr 305 310 315 320 Glu Leu Gly Arg Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Ile Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Lys Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Asp Glu Arg Glu Leu Ala Arg Arg Arg Gly Gly Tyr 370 375 380 Ala Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Asp Asn Ile 385 390 395 400 Val Tyr Leu Asp Phe Arg Ser Leu Tyr Pro Ser Ile Ile Ile Thr His 405 410 415 Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Lys Glu Tyr Asp 420 425 430 Val Ala Pro Glu Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly Phe 435 440 445 Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Ile Lys 450 455 460 Arg Lys Met Lys Ala Thr Val Asp Pro Leu Glu Lys Lys Leu Leu Asp 465 470 475 480 Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Phe Tyr Gly Tyr 485 490 495 Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser 500 505 510 Val Thr Ala Trp Gly Arg Glu Tyr Ile Glu Met Val Ile Arg Glu Leu 515 520 525 Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Leu 530 535 540 His Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Lys Lys Ala 545 550 555 560 Lys Glu Phe Leu Lys Tyr Ile Asn Pro Lys Leu Pro Gly Leu Leu Glu 565 570 575 Leu Glu Tyr Glu Gly Phe Tyr Val Arg Gly Phe Phe Val Thr Lys Lys 580 585 590 Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu 595 600 605 Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala 610 615 620 Arg Val Leu Glu Ala Ile Leu Lys His Gly Asp Val Glu Glu Ala Val 625 630 635 640 Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro 645 650 655 Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Asp Leu Arg Asp 660 665 670 Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala 675 680 685 Arg Gly Val Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu 690 695 700 Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Ala Asp Glu Phe 705 710 715 720 Asp Pro Thr Lys His Arg Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln 725 730 735 Val Leu Pro Ala Val Glu Arg Ile Leu Lys Ala Phe Gly Tyr Arg Lys 740 745 750 Glu Asp Leu Arg Tyr Gln Lys Thr Lys Gln Val Gly Leu Gly Ala Trp 755 760 765 Leu Lys Val Lys Gly Lys Lys 770 775 <210> 56 <211> 773 <212> PRT <213> Artificial sequence <220> <223> Tok polymerase <400> 56 Met Ile Leu Asp Ala Asp Tyr Ile Thr Glu Asp Gly Lys Pro Val Ile 1 5 10 15 Arg Val Phe Lys Lys Glu Lys Gly Glu Phe Lys Ile Asp Tyr Asp Arg 20 25 30 Asp Phe Glu Pro Tyr Ile Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile 35 40 45 Glu Asp Ile Lys Lys Ile Thr Ala Glu Arg His Gly Thr Thr Val Arg 50 55 60 Val Thr Arg Ala Glu Arg Val Lys Lys Lys Phe Leu Gly Arg Pro Val 65 70 75 80 Glu Val Trp Lys Leu Tyr Phe Thr His Pro Gln Asp Val Pro Ala Ile 85 90 95 Arg Asp Lys Ile Arg Glu His Pro Ala Val Val Asp Ile Tyr Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Arg Gly Leu Ile Pro 115 120 125 Met Glu Gly Asp Glu Glu Leu Arg Met Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Glu Gly Pro Ile Leu Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Glu Gly Ala Arg Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Ser Val Ser Thr Glu Lys Glu Met Ile Lys 180 185 190 Arg Phe Leu Lys Val Ile Gln Glu Lys Asp Pro Asp Val Leu Ile Thr 195 200 205 Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Ser Glu 210 215 220 Met Leu Gly Val Lys Phe Ile Leu Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Thr Val Tyr Glu Pro Val Phe Gly Gln Pro Lys Glu 275 280 285 Lys Val Tyr Ala Glu Glu Ile Ala Arg Ala Trp Glu Ser Gly Glu Gly 290 295 300 Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Asp Val Ala 355 360 365 Pro Asn Lys Pro Asp Glu Arg Glu Leu Ala Arg Arg Thr Glu Ser Tyr 370 375 380 Ala Gly Gly Tyr Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn Ile 385 390 395 400 Val Tyr Leu Asp Tyr Lys Ser Leu Tyr Pro Ser Ile Ile Ile Thr His 405 410 415 Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Arg Glu Tyr Asp 420 425 430 Val Ala Pro Gln Val Gly His Arg Phe Cys Lys Asp Phe Pro Gly Phe 435 440 445 Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Val Lys 450 455 460 Lys Lys Met Lys Ala Thr Val Asp Pro Ile Glu Arg Lys Leu Leu Asp 465 470 475 480 Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Tyr Tyr Gly Tyr 485 490 495 Tyr Ala Tyr Ala Asn Ala Arg Trp Tyr Cys Arg Glu Cys Ala Glu Ser 500 505 510 Val Thr Ala Trp Gly Arg Gln Tyr Ile Glu Thr Thr Met Arg Glu Ile 515 520 525 Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Phe 530 535 540 Phe Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Asn Lys Ala 545 550 555 560 Lys Glu Phe Leu Asn Tyr Ile Asn Pro Arg Leu Pro Gly Leu Leu Glu 565 570 575 Leu Glu Tyr Glu Gly Phe Tyr Arg Arg Gly Phe Phe Val Thr Lys Lys 580 585 590 Lys Tyr Ala Val Ile Asp Glu Glu Asp Lys Ile Thr Thr Arg Gly Leu 595 600 605 Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala 610 615 620 Arg Val Leu Glu Ala Ile Leu Lys His Gly Asp Val Glu Glu Ala Val 625 630 635 640 Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Arg His Glu Val Pro 645 650 655 Pro Glu Lys Leu Val Ile Tyr Glu Gln Ile Thr Arg Asp Leu Arg Ser 660 665 670 Tyr Arg Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala 675 680 685 Arg Gly Ile Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu 690 695 700 Lys Gly Pro Gly Arg Val Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe 705 710 715 720 Asp Pro Ala Lys His Arg Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln 725 730 735 Val Leu Pro Ala Val Glu Arg Ile Leu Arg Ala Phe Gly Tyr Arg Lys 740 745 750 Glu Asp Leu Arg Tyr Gln Lys Thr Lys Gln Ala Gly Leu Gly Ala Trp 755 760 765 Leu Lys Pro Lys Thr 770 <210> 57 <211> 473 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <400> 57 His His His His His His Met Ile Leu Asp Val Asp Tyr Ile Thr Glu 1 5 10 15 Glu Gly Lys Pro Val Ile Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe 20 25 30 Lys Ile Glu His Asp Arg Thr Phe Arg Pro Tyr Phe Tyr Ala Leu Leu 35 40 45 Arg Asp Asp Ser Lys Ile Glu Glu Val Lys Lys Ile Thr Gly Glu Arg 50 55 60 His Gly Lys Val Val Arg Val Val Asp Val Glu Lys Val Glu Lys Lys 65 70 75 80 Phe Leu Gly Lys Pro Val Thr Val Trp Lys Leu Tyr Leu Glu His Pro 85 90 95 Gln Asp Val Pro Thr Ile Arg Glu Lys Val Arg Ala His Pro Ala Val 100 105 110 Val Asp Ile Phe Glu Tyr Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile 115 120 125 Asp Lys Gly Leu Val Pro Met Glu Gly Glu Glu Glu Leu Lys Met Leu 130 135 140 Ala Phe Asp Ile Glu Thr Leu Tyr His Glu Gly Glu Glu Phe Gly Lys 145 150 155 160 Gly Pro Ile Leu Met Ile Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val 165 170 175 Ala Thr Trp Lys Asn Val Asp Leu Pro Tyr Val Glu Val Val Ser Ser 180 185 190 Glu Arg Glu Met Val Lys Arg Phe Leu Arg Val Val Arg Glu Lys Asp 195 200 205 Pro Asp Val Leu Val Thr Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr 210 215 220 Leu Ala Lys Arg Ala Glu Lys Leu Gly Val Lys Leu Thr Leu Gly Arg 225 230 235 240 Asp Gly Ser Glu Pro Lys Met Gln Arg Met Gly Asp Met Thr Ala Val 245 250 255 Glu Val Lys Gly Arg Val His Phe Asp Leu Tyr His Val Ala Thr Arg 260 265 270 Thr Leu Asn Leu Pro Thr Tyr Thr Leu Ala Ala Val Tyr Glu Ala Val 275 280 285 Phe Gly Lys Pro Lys Glu Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala 290 295 300 Trp Glu Ser Gly Glu Asn Leu Glu Arg Val Ala Lys Tyr Ser Met Glu 305 310 315 320 Asp Ala Gly Ala Thr Tyr Glu Leu Gly Lys Glu Phe Leu Pro Met Glu 325 330 335 Ala Gln Leu Ser Arg Leu Val Gly Gln Pro Leu Trp Asp Val Ser Arg 340 345 350 Ser Ser Thr Gly Asn Leu Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr 355 360 365 Glu Arg Asn Glu Leu Ala Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln 370 375 380 Arg Arg Leu Arg Glu Ser Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu 385 390 395 400 Lys Gly Leu Trp Glu Asn Val Val Tyr Leu Asp Phe Arg Ala Leu Tyr 405 410 415 Pro Ser Ile Ile Ile Thr His Asn Val Ser Pro Asp Thr Leu Asn Leu 420 425 430 Glu Gly Cys Lys Asn Tyr Asp Val Ala Pro Gln Val Gly His Lys Phe 435 440 445 Cys Lys Asp Phe Pro Gly Phe Ile Pro Ser Leu Leu Gly His Leu Leu 450 455 460 Glu Glu Arg Gln Lys Ile Lys Thr Lys 465 470 <210> 58 <211> 45 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <400> 58 His His His His His His Met Ile Leu Asp Val Asp Tyr Ile Thr Glu 1 5 10 15 Glu Gly Lys Pro Val Ile Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe 20 25 30 Lys Ile Glu His Asp Arg Thr Phe Arg Pro Tyr Phe Tyr 35 40 45 <210> 59 <211> 62 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <400> 59 Cys Leu Leu Arg Asp Asp Ser Lys Ile Glu Glu Val Lys Lys Ile Thr 1 5 10 15 Gly Glu Arg His Gly Lys Val Val Arg Val Val Asp Val Glu Lys Val 20 25 30 Glu Lys Lys Phe Leu Gly Lys Pro Val Thr Val Trp Lys Leu Tyr Leu 35 40 45 Glu His Pro Gln Asp Val Pro Thr Ile Arg Glu Lys Val Arg 50 55 60 <210> 60 <211> 60 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 60 His Pro Ala Val Val Asp Ile Phe Glu Tyr Asp Ile Pro Phe Ala Lys 1 5 10 15 Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro Met Glu Gly Glu Glu Glu 20 25 30 Leu Lys Met Leu Ala Phe Asp Ile Glu Thr Leu Tyr His Glu Gly Glu 35 40 45 Glu Phe Gly Lys Gly Pro Ile Leu Met Ile Ser Tyr 50 55 60 <210> 61 <211> 59 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 61 Asp Glu Asn Glu Ala Lys Val Ala Thr Trp Lys Asn Val Asp Leu Pro 1 5 10 15 Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Val Lys Arg Phe Leu 20 25 30 Arg Val Val Arg Glu Lys Asp Pro Asp Val Leu Val Thr Tyr Asn Gly 35 40 45 Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg 50 55 <210> 62 <211> 53 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <400> 62 Cys Glu Lys Leu Gly Val Lys Leu Thr Leu Gly Arg Asp Gly Ser Glu 1 5 10 15 Pro Lys Met Gln Arg Met Gly Asp Met Thr Ala Val Glu Val Lys Gly 20 25 30 Arg Val His Phe Asp Leu Tyr His Val Ala Thr Arg Thr Leu Asn Leu 35 40 45 Pro Thr Tyr Thr Leu 50 <210> 63 <211> 41 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 63 Ala Val Tyr Glu Ala Val Phe Gly Lys Pro Lys Glu Lys Val Tyr Ala 1 5 10 15 Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn Leu Glu Arg Val 20 25 30 Ala Lys Tyr Ser Met Glu Asp Ala Gly 35 40 <210> 64 <211> 49 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 64 Thr Tyr Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ala Gln Leu Ser 1 5 10 15 Arg Leu Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly 20 25 30 Asn Leu Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu 35 40 45 Leu <210> 65 <211> 39 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 65 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 1 5 10 15 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 20 25 30 Val Val Tyr Leu Asp Phe Arg 35 <210> 66 <211> 60 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase N fragment <400> 66 Cys Leu Tyr Pro Ser Ile Ile Ile Thr His Asn Val Ser Pro Asp Thr 1 5 10 15 Leu Asn Leu Glu Gly Cys Lys Asn Tyr Asp Val Ala Pro Gln Val Gly 20 25 30 His Lys Phe Cys Lys Asp Phe Pro Gly Phe Ile Pro Ser Leu Leu Gly 35 40 45 His Leu Leu Glu Glu Arg Gln Lys Ile Lys Thr Lys 50 55 60 <210> 67 <211> 308 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <400> 67 Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Lys Leu Leu Asp Tyr Arg 1 5 10 15 Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly Tyr Tyr Gly 20 25 30 Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser Val Thr 35 40 45 Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu Leu Glu Glu 50 55 60 Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Leu Tyr Ala 65 70 75 80 Thr Ile Pro Gly Gly Glu Ser Glu Glu Val Lys Lys Lys Ala Leu Glu 85 90 95 Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu Glu Leu Glu 100 105 110 Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys Lys Arg Tyr 115 120 125 Ala Val Val Asp Glu Glu Gly Lys Val Thr Thr Arg Gly Leu Glu Val 130 135 140 Val Arg Arg Asp Trp Ser Glu Ala Ala Lys Glu Thr Gln Ala Arg Val 145 150 155 160 Leu Glu Thr Leu Leu Lys His Gly Asp Val Glu Glu Ala Val Arg Val 165 170 175 Val Lys Glu Val Thr Gln Lys Leu Ala Asn Tyr Glu Val Pro Pro Glu 180 185 190 Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His Glu Tyr Lys 195 200 205 Ala Thr Gly Pro His Val Ala Val Ala Lys Lys Leu Ala Ala Lys Gly 210 215 220 Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val Leu Arg Gly 225 230 235 240 Asp Gly Pro Ile Ser Asn Arg Ala Tyr Leu Ala Glu Glu Tyr Asp Pro 245 250 255 Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Val Glu Asn Gln Val Leu 260 265 270 Pro Ala Val Leu Arg Val Leu Glu Gly Phe Gly Tyr Arg Lys Glu Asp 275 280 285 Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser Trp Leu Asn 290 295 300 Pro Lys Lys Ser 305 <210> 68 <211> 33 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <400> 68 Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Lys Leu Leu Asp Tyr Arg 1 5 10 15 Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly Tyr Tyr Gly 20 25 30 Tyr <210> 69 <211> 39 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <400> 69 Cys Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser Val Thr Ala 1 5 10 15 Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu Leu Glu Glu Lys 20 25 30 Phe Gly Phe Lys Val Leu Tyr 35 <210> 70 <211> 56 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <400> 70 Cys Asp Thr Asp Gly Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu 1 5 10 15 Glu Val Lys Lys Lys Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys 20 25 30 Leu Pro Gly Leu Leu Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly 35 40 45 Phe Phe Val Thr Lys Lys Arg Tyr 50 55 <210> 71 <211> 55 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 71 Val Val Asp Glu Glu Gly Lys Val Thr Thr Arg Gly Leu Glu Val Val 1 5 10 15 Arg Arg Asp Trp Ser Glu Ala Ala Lys Glu Thr Gln Ala Arg Val Leu 20 25 30 Glu Thr Leu Leu Lys His Gly Asp Val Glu Glu Ala Val Arg Val Val 35 40 45 Lys Glu Val Thr Gln Lys Leu 50 55 <210> 72 <211> 62 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 72 Asn Tyr Glu Val Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr 1 5 10 15 Arg Pro Leu His Glu Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala 20 25 30 Lys Lys Leu Ala Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile 35 40 45 Gly Tyr Ile Val Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg 50 55 60 <210> 73 <211> 61 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase C fragment <400> 73 Cys Tyr Leu Ala Glu Glu Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala 1 5 10 15 Glu Tyr Tyr Val Glu Asn Gln Val Leu Pro Ala Val Leu Arg Val Leu 20 25 30 Glu Gly Phe Gly Tyr Arg Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg 35 40 45 Gln Val Gly Leu Thr Ser Trp Leu Asn Pro Lys Lys Ser 50 55 60 <210> 74 <211> 775 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 74 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Lys Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Val Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Gly Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ile Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Lys Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser 770 775 <210> 75 <211> 775 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 75 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Gln Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Lys Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Val Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Gly Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Leu Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ile Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Lys Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser 770 775 <210> 76 <211> 775 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 76 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Gln Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Ala Ile Ala Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Lys Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Val Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Gly Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Leu Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ile Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Lys Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser 770 775 <210> 77 <211> 682 <212> PRT <213> Artificial sequence <220> <223> mutant version of the Pfu DNA polymerase <400> 77 Pro Thr Ile Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile 1 5 10 15 Phe Glu Tyr Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly 20 25 30 Leu Ile Pro Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp 35 40 45 Ile Glu Thr Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile 50 55 60 Ile Met Ile Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp 65 70 75 80 Lys Asn Ile Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu 85 90 95 Met Ile Lys Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile 100 105 110 Ile Val Thr Tyr Asn Gly Asp Ser Phe Ala Phe Pro Tyr Leu Ala Lys 115 120 125 Arg Ala Glu Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser 130 135 140 Glu Pro Lys Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys 145 150 155 160 Gly Arg Ile His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn 165 170 175 Leu Pro Thr Tyr Thr Leu Ala Ala Val Tyr Glu Ala Ile Phe Gly Lys 180 185 190 Pro Lys Glu Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser 195 200 205 Gly Glu Asn Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly 210 215 220 Ala Thr Tyr Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu 225 230 235 240 Ser Arg Leu Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr 245 250 255 Gly Asn Leu Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn 260 265 270 Glu Leu Ala Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu 275 280 285 Arg Glu Ser Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu 290 295 300 Trp Glu Asn Ile Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile 305 310 315 320 Ile Ile Thr His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys 325 330 335 Lys Asn Tyr Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp 340 345 350 Ile Pro Gly Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg 355 360 365 Gln Lys Ile Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys 370 375 380 Ile Leu Leu Asp Tyr Arg Gln Lys Ala Ile Lys Leu Trp Ala Asn Ser 385 390 395 400 Phe Tyr Gly Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu 405 410 415 Cys Ala Glu Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val 420 425 430 Trp Lys Glu Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp 435 440 445 Thr Asp Gly Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile 450 455 460 Lys Lys Lys Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro 465 470 475 480 Gly Leu Leu Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe 485 490 495 Val Thr Lys Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile 500 505 510 Thr Arg Gly Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys 515 520 525 Glu Thr Gln Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val 530 535 540 Glu Glu Ala Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn 545 550 555 560 Tyr Glu Ile Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg 565 570 575 Pro Leu His Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys 580 585 590 Lys Leu Ala Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly 595 600 605 Tyr Ile Val Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu 610 615 620 Ala Glu Glu Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr 625 630 635 640 Ile Glu Asn Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe 645 650 655 Gly Tyr Arg Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly 660 665 670 Leu Thr Ser Trp Leu Asn Ile Lys Lys Ser 675 680 <210> 78 <211> 63 <212> PRT <213> Artificial sequence <220> <223> sso7d structural domain amino acid sequence <400> 78 Ala Thr Val Lys Phe Lys Tyr Lys Gly Glu Glu Lys Glu Val Asp Ile 1 5 10 15 Ser Lys Ile Lys Lys Val Trp Arg Val Gly Lys Met Ile Ser Phe Thr 20 25 30 Tyr Asp Glu Gly Gly Gly Lys Thr Gly Arg Gly Ala Val Ser Glu Lys 35 40 45 Asp Ala Pro Lys Glu Leu Leu Gln Met Leu Glu Lys Gln Lys Lys 50 55 60 <210> 79 <211> 844 <212> PRT <213> Artificial sequence <220> <223> Pfu DNA polymerase amino acid sequence <400> 79 Met Ile Leu Asp Val Asp Tyr Ile Thr Glu Glu Gly Lys Pro Val Ile 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn Gly Lys Phe Lys Ile Glu His Asp Arg 20 25 30 Thr Phe Arg Pro Tyr Ile Tyr Ala Leu Leu Arg Asp Asp Ser Lys Ile 35 40 45 Glu Glu Val Lys Lys Ile Thr Gly Glu Arg His Gly Lys Ile Val Arg 50 55 60 Ile Val Asp Val Glu Lys Val Glu Lys Lys Phe Leu Gly Lys Pro Ile 65 70 75 80 Thr Val Trp Lys Leu Tyr Leu Glu His Pro Gln Asp Val Pro Thr Ile 85 90 95 Arg Glu Lys Val Arg Ala His Pro Ala Val Val Asp Ile Phe Glu Tyr 100 105 110 Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro 115 120 125 Met Glu Gly Glu Glu Glu Leu Lys Ile Leu Ala Phe Asp Ile Glu Thr 130 135 140 Leu Tyr His Glu Gly Glu Glu Phe Gly Lys Gly Pro Ile Ile Met Ile 145 150 155 160 Ser Tyr Ala Asp Glu Asn Glu Ala Lys Val Ile Thr Trp Lys Asn Ile 165 170 175 Asp Leu Pro Tyr Val Glu Val Val Ser Ser Glu Arg Glu Met Ile Lys 180 185 190 Arg Phe Leu Arg Ile Ile Arg Glu Lys Asp Pro Asp Ile Ile Val Thr 195 200 205 Tyr Asn Gly Asp Ser Phe Asp Phe Pro Tyr Leu Ala Lys Arg Ala Glu 210 215 220 Lys Leu Gly Ile Lys Leu Thr Ile Gly Arg Asp Gly Ser Glu Pro Lys 225 230 235 240 Met Gln Arg Ile Gly Asp Met Thr Ala Val Glu Val Lys Gly Arg Ile 245 250 255 His Phe Asp Leu Tyr His Val Ile Thr Arg Thr Ile Asn Leu Pro Thr 260 265 270 Tyr Thr Leu Ala Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu 275 280 285 Lys Val Tyr Ala Asp Glu Ile Ala Lys Ala Trp Glu Ser Gly Glu Asn 290 295 300 Leu Glu Arg Val Ala Lys Tyr Ser Met Glu Asp Ala Gly Ala Thr Tyr 305 310 315 320 Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ile Gln Leu Ser Arg Leu 325 330 335 Val Gly Gln Pro Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu 340 345 350 Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala 355 360 365 Pro Asn Lys Pro Ser Glu Glu Glu Tyr Gln Arg Arg Leu Arg Glu Ser 370 375 380 Tyr Thr Gly Gly Phe Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn 385 390 395 400 Ile Val Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser Ile Ile Ile Thr 405 410 415 His Asn Val Ser Pro Asp Thr Leu Asn Leu Glu Gly Cys Lys Asn Tyr 420 425 430 Asp Ile Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Ile Pro Gly 435 440 445 Phe Ile Pro Ser Leu Leu Gly His Leu Leu Glu Glu Arg Gln Lys Ile 450 455 460 Lys Thr Lys Met Lys Glu Thr Gln Asp Pro Ile Glu Lys Ile Leu Leu 465 470 475 480 Asp Tyr Arg Gln Lys Ala Ile Lys Leu Leu Ala Asn Ser Phe Tyr Gly 485 490 495 Tyr Tyr Gly Tyr Ala Lys Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu 500 505 510 Ser Val Thr Ala Trp Gly Arg Lys Tyr Ile Glu Leu Val Trp Lys Glu 515 520 525 Leu Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly 530 535 540 Leu Tyr Ala Thr Ile Pro Gly Gly Glu Ser Glu Glu Ile Lys Lys Lys 545 550 555 560 Ala Leu Glu Phe Val Lys Tyr Ile Asn Ser Lys Leu Pro Gly Leu Leu 565 570 575 Glu Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys 580 585 590 Lys Arg Tyr Ala Val Ile Asp Glu Glu Gly Lys Val Ile Thr Arg Gly 595 600 605 Leu Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln 610 615 620 Ala Arg Val Leu Glu Thr Ile Leu Lys His Gly Asp Val Glu Glu Ala 625 630 635 640 Val Arg Ile Val Lys Glu Val Ile Gln Lys Leu Ala Asn Tyr Glu Ile 645 650 655 Pro Pro Glu Lys Leu Ala Ile Tyr Glu Gln Ile Thr Arg Pro Leu His 660 665 670 Glu Tyr Lys Ala Ile Gly Pro His Val Ala Val Ala Lys Lys Leu Ala 675 680 685 Ala Lys Gly Val Lys Ile Lys Pro Gly Met Val Ile Gly Tyr Ile Val 690 695 700 Leu Arg Gly Asp Gly Pro Ile Ser Asn Arg Ala Ile Leu Ala Glu Glu 705 710 715 720 Tyr Asp Pro Lys Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn 725 730 735 Gln Val Leu Pro Ala Val Leu Arg Ile Leu Glu Gly Phe Gly Tyr Arg 740 745 750 Lys Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Thr Ser 755 760 765 Trp Leu Asn Ile Lys Lys Ser Gly Thr Gly Gly Gly Gly Ala Thr Val 770 775 780 Lys Phe Lys Tyr Lys Gly Glu Glu Lys Glu Val Asp Ile Ser Lys Ile 785 790 795 800 Lys Lys Val Trp Arg Val Gly Lys Met Ile Ser Phe Thr Tyr Asp Glu 805 810 815 Gly Gly Gly Lys Thr Gly Arg Gly Ala Val Ser Glu Lys Asp Ala Pro 820 825 830 Lys Glu Leu Leu Gln Met Leu Glu Lys Gln Lys Lys 835 840 <210> 80 <211> 1228 <212> DNA <213> Artificial Sequence <220> <223> pUC19 plasmid nucleic acid sequence <400> 80 gcgtttcggt gatgacggtg aaaacctctg acacatgcag ctcccggaga cggtcacagc 60 ttgtctgtaa gcggatgccg ggagcagaca agcccgtcag ggcgcgtcag cgggtgttgg 120 cgggtgtcgg ggctggctta actatgcggc atcagagcag attgtactga gagtgcacca 180 tatgcggtgt gaaataccgc acagatgcgt aaggagaaaa taccgcatca ggcgccattc 240 gccattcagg ctgcgcaact gttgggaagg gcgatcggtg cgggcctctt cgctattacg 300 ccagctggcg aaagggggat gtgctgcaag gcgattaagt tgggtaacgc cagggttttc 360 ccagtcacga cgttgtaaaa cgacggccag tgaattcgag ctcggtaccc ggggatcctc 420 tagagtcgac ctgcaggcat gcaagcttgg cgtaatcatg gtcatagctg tttcctgtgt 480 gaaattgtta tccgctcaca attccacaca acatacgagc cggaagcata aagtgtaaag 540 cctggggtgc ctaatgagtg agctaactca cattaattgc gttgcgctca ctgcccgctt 600 tccagtcggg aaacctgtcg tgccagctgc attaatgaat cggccaacgc gcggggagag 660 gcggtttgcg tattgggcgc tcttccgctt cctcgctcac tgactcgctg cgctcggtcg 720 ttcggctgcg gcgagcggta tcagctcact caaaggcggt aatacggtta tccacagaat 780 caggggataa cgcaggaaag aacatgtgag caaaaggcca gcaaaaggcc aggaaccgta 840 aaaaggccgc gttgctggcg tttttccata ggctccgccc ccctgacgag catcacaaaa 900 atcgacgctc aagtcagagg tggcgaaacc cgacaggact ataaagatac caggcgtttc 960 cccctggaag ctccctcgtg cgctctcctg ttccgaccct gccgcttacc ggatacctgt 1020 ccgcctttct cccttcggga agcgtggcgc tttctcatag ctcacgctgt aggtatctca 1080 gttcggtgta ggtcgttcgc tccaagctgg gctgtgtgca cgaacccccc gttcagcccg 1140 accgctgcgc cttatccggt aactatcgtc ttgagtccaa cccggtaaga cacgacttat 1200 cgccactggc agcagccact ggtaacag 1228 <210> 81 <211> 1523 <212> DNA <213> Artificial sequence <220> <223> DNA template coding for the bacterial 16S rRNA gene <400> 81 taatacgact cactataggt ttgttggaga gtttgatcct ggctcagggt gaacgctggc 60 ggcgtgccta agacatgcaa gtcgtgcggg ccgcggggtt ttactccgtg gtcagcggcg 120 gacgggtgag taacgcgtgg gtgacctacc cggaagaggg ggacaacccg gggaaactcg 180 ggctaatccc ccatgtggac ccgccccttg gggtgtgtcc aaagggcttt gcccgcttcc 240 ggatgggccc gcgtcccatc agctagttgg tggggtaatg gcccaccaag gcgacgacgg 300 gtagccggtc tgagaggatg gccggccaca ggggcactga gacacgggcc ccactcctac 360 gggaggcagc agttaggaat cttccgcaat gggcgcaagc ctgacggagc gacgccgctt 420 ggaggaagaa gcccttcggg gtgtaaactc ctgaacccgg gacgaaaccc ccgacgaggg 480 gactgacggt accggggtaa tagcgccggc caactccgtg ccagcagccg cggtaatacg 540 gagggcgcga gcgttacccg gattcactgg gcgtaaaggg cgtgtaggcg gcctggggcg 600 tcccatgtga aagaccacgg ctcaaccgtg ggggagcgtg ggatacgctc aggctagacg 660 gtgggagagg gtggtggaat tcccggagta gcggtgaaat gcgcagatac cgggaggaac 720 gccgatggcg aaggcagcca cctggtccac ccgtgacgct gaggcgcgaa agcgtgggga 780 gcaaaccgga ttagataccc gggtagtcca cgccctaaac gatgcgcgct aggtctctgg 840 gtctcctggg ggccgaagct aacgcgttaa gcgcgccgcc tggggagtac ggccgcaagg 900 ctgaaactca aaggaattga cgggggcccg cacaagcggt ggagcatgtg gtttaattcg 960 aagcaacgcg aagaacctta ccaggccttg acatgctagg gaacccgggt gaaagcctgg 1020 ggtgccccgc gaggggagcc ctagcacagg tgctgcatgg ccgtcgtcag ctcgtgccgt 1080 gaggtgttgg gttaagtccc gcaacgagcg caacccccgc cgttagttgc cagcggttcg 1140 gccgggcact ctaacgggac tgcccgcgaa agcgggagga aggaggggac gacgtctggt 1200 cagcatggcc cttacggcct gggcgacaca cgtgctacaa tgcccactac aaagcgatgc 1260 cacccggcaa cggggagcta atcgcaaaaa ggtgggccca gttcggattg gggtctgcaa 1320 cccgacccca tgaagccgga atcgctagta atcgcggatc agccatgccg cggtgaatac 1380 gttcccgggc cttgtacaca ccgcccgtca cgccatggga gcgggctcta cccgaagtcg 1440 ccgggagcct acgggcaggc gccgagggta gggcccgtga ctggggcgaa gtcgtaacaa 1500 ggtagctgta ccggaaggtg cgg 1523 <210> 82 <211> 883 <212> PRT <213> Artificial sequence <220> <223> T7-WT amino acid sequence <400> 82 Met Asn Thr Ile Asn Ile Ala Lys Asn Asp Phe Ser Asp Ile Glu Leu 1 5 10 15 Ala Ala Ile Pro Phe Asn Thr Leu Ala Asp His Tyr Gly Glu Arg Leu 20 25 30 Ala Arg Glu Gln Leu Ala Leu Glu His Glu Ser Tyr Glu Met Gly Glu 35 40 45 Ala Arg Phe Arg Lys Met Phe Glu Arg Gln Leu Lys Ala Gly Glu Val 50 55 60 Ala Asp Asn Ala Ala Ala Lys Pro Leu Ile Thr Thr Leu Leu Pro Lys 65 70 75 80 Met Ile Ala Arg Ile Asn Asp Trp Phe Glu Glu Val Lys Ala Lys Arg 85 90 95 Gly Lys Arg Pro Thr Ala Phe Gln Phe Leu Gln Glu Ile Lys Pro Glu 100 105 110 Ala Val Ala Tyr Ile Thr Ile Lys Thr Thr Leu Ala Cys Leu Thr Ser 115 120 125 Ala Asp Asn Thr Thr Val Gln Ala Val Ala Ser Ala Ile Gly Arg Ala 130 135 140 Ile Glu Asp Glu Ala Arg Phe Gly Arg Ile Arg Asp Leu Glu Ala Lys 145 150 155 160 His Phe Lys Lys Asn Val Glu Glu Gln Leu Asn Lys Arg Val Gly His 165 170 175 Val Tyr Lys Lys Ala Phe Met Gln Val Val Glu Ala Asp Met Leu Ser 180 185 190 Lys Gly Leu Leu Gly Gly Glu Ala Trp Ser Ser Trp His Lys Glu Asp 195 200 205 Ser Ile His Val Gly Val Arg Cys Ile Glu Met Leu Ile Glu Ser Thr 210 215 220 Gly Met Val Ser Leu His Arg Gln Asn Ala Gly Val Val Gly Gln Asp 225 230 235 240 Ser Glu Thr Ile Glu Leu Ala Pro Glu Tyr Ala Glu Ala Ile Ala Thr 245 250 255 Arg Ala Gly Ala Leu Ala Gly Ile Ser Pro Met Phe Gln Pro Cys Val 260 265 270 Val Pro Pro Lys Pro Trp Thr Gly Ile Thr Gly Gly Gly Tyr Trp Ala 275 280 285 Asn Gly Arg Arg Pro Leu Ala Leu Val Arg Thr His Ser Lys Lys Ala 290 295 300 Leu Met Arg Tyr Glu Asp Val Tyr Met Pro Glu Val Tyr Lys Ala Ile 305 310 315 320 Asn Ile Ala Gln Asn Thr Ala Trp Lys Ile Asn Lys Lys Val Leu Ala 325 330 335 Val Ala Asn Val Ile Thr Lys Trp Lys His Cys Pro Val Glu Asp Ile 340 345 350 Pro Ala Ile Glu Arg Glu Glu Leu Pro Met Lys Pro Glu Asp Ile Asp 355 360 365 Met Asn Pro Glu Ala Leu Thr Ala Trp Lys Arg Ala Ala Ala Ala Val 370 375 380 Tyr Arg Lys Asp Lys Ala Arg Lys Ser Arg Arg Ile Ser Leu Glu Phe 385 390 395 400 Met Leu Glu Gln Ala Asn Lys Phe Ala Asn His Lys Ala Ile Trp Phe 405 410 415 Pro Tyr Asn Met Asp Trp Arg Gly Arg Val Tyr Ala Val Ser Met Phe 420 425 430 Asn Pro Gln Gly Asn Asp Met Thr Lys Gly Leu Leu Thr Leu Ala Lys 435 440 445 Gly Lys Pro Ile Gly Lys Glu Gly Tyr Tyr Trp Leu Lys Ile His Gly 450 455 460 Ala Asn Cys Ala Gly Val Asp Lys Val Pro Phe Pro Glu Arg Ile Lys 465 470 475 480 Phe Ile Glu Glu Asn His Glu Asn Ile Met Ala Cys Ala Lys Ser Pro 485 490 495 Leu Glu Asn Thr Trp Trp Ala Glu Gln Asp Ser Pro Phe Cys Phe Leu 500 505 510 Ala Phe Cys Phe Glu Tyr Ala Gly Val Gln His His Gly Leu Ser Tyr 515 520 525 Asn Cys Ser Leu Pro Leu Ala Phe Asp Gly Ser Cys Ser Gly Ile Gln 530 535 540 His Phe Ser Ala Met Leu Arg Asp Glu Val Gly Gly Arg Ala Val Asn 545 550 555 560 Leu Leu Pro Ser Glu Thr Val Gln Asp Ile Tyr Gly Ile Val Ala Lys 565 570 575 Lys Val Asn Glu Ile Leu Gln Ala Asp Ala Ile Asn Gly Thr Asp Asn 580 585 590 Glu Val Val Thr Val Thr Asp Glu Asn Thr Gly Glu Ile Ser Glu Lys 595 600 605 Val Lys Leu Gly Thr Lys Ala Leu Ala Gly Gln Trp Leu Ala Tyr Gly 610 615 620 Val Thr Arg Ser Val Thr Lys Arg Ser Val Met Thr Leu Ala Tyr Gly 625 630 635 640 Ser Lys Glu Phe Gly Phe Arg Gln Gln Val Leu Glu Asp Thr Ile Gln 645 650 655 Pro Ala Ile Asp Ser Gly Lys Gly Leu Met Phe Thr Gln Pro Asn Gln 660 665 670 Ala Ala Gly Tyr Met Ala Lys Leu Ile Trp Glu Ser Val Ser Val Thr 675 680 685 Val Val Ala Ala Val Glu Ala Met Asn Trp Leu Lys Ser Ala Ala Lys 690 695 700 Leu Leu Ala Ala Glu Val Lys Asp Lys Lys Thr Gly Glu Ile Leu Arg 705 710 715 720 Lys Arg Cys Ala Val His Trp Val Thr Pro Asp Gly Phe Pro Val Trp 725 730 735 Gln Glu Tyr Lys Lys Pro Ile Gln Thr Arg Leu Asn Leu Met Phe Leu 740 745 750 Gly Gln Phe Arg Leu Gln Pro Thr Ile Asn Thr Asn Lys Asp Ser Glu 755 760 765 Ile Asp Ala His Lys Gln Glu Ser Gly Ile Ala Pro Asn Phe Val His 770 775 780 Ser Gln Asp Gly Ser His Leu Arg Lys Thr Val Val Trp Ala His Glu 785 790 795 800 Lys Tyr Gly Ile Glu Ser Phe Ala Leu Ile His Asp Ser Phe Gly Thr 805 810 815 Ile Pro Ala Asp Ala Ala Asn Leu Phe Lys Ala Val Arg Glu Thr Met 820 825 830 Val Asp Thr Tyr Glu Ser Cys Asp Val Leu Ala Asp Phe Tyr Asp Gln 835 840 845 Phe Ala Asp Gln Leu His Glu Ser Gln Leu Asp Lys Met Pro Ala Leu 850 855 860 Pro Ala Lys Gly Asn Leu Asn Leu Arg Asp Ile Leu Glu Ser Asp Phe 865 870 875 880 Ala Phe Ala <210> 83 <211> 883 <212> PRT <213> Artificial sequence <220> <223> T7-37I (I6V, I14L, I74L, I82V, I109V, I117L, I141V, I219M, I244L, I281V, I320V, I322L, I330V, I367L) amino acid sequence <400> 83 Met Asn Thr Ile Asn Val Ala Lys Asn Asp Phe Ser Asp Leu Glu Leu 1 5 10 15 Ala Ala Ile Pro Phe Asn Thr Leu Ala Asp His Tyr Gly Glu Arg Leu 20 25 30 Ala Arg Glu Gln Leu Ala Leu Glu His Glu Ser Tyr Glu Met Gly Glu 35 40 45 Ala Arg Phe Arg Lys Met Phe Glu Arg Gln Leu Lys Ala Gly Glu Val 50 55 60 Ala Asp Asn Ala Ala Ala Lys Pro Leu Val Thr Thr Leu Leu Pro Lys 65 70 75 80 Met Val Ala Arg Ile Asn Asp Trp Phe Glu Glu Val Lys Ala Lys Arg 85 90 95 Gly Lys Arg Pro Thr Ala Phe Gln Phe Leu Gln Glu Val Lys Pro Glu 100 105 110 Ala Val Ala Tyr Leu Thr Ile Lys Thr Thr Leu Ala Cys Leu Thr Ser 115 120 125 Ala Asp Asn Thr Thr Val Gln Ala Val Ala Ser Ala Val Gly Arg Ala 130 135 140 Ile Glu Asp Glu Ala Arg Phe Gly Arg Ile Arg Asp Leu Glu Ala Lys 145 150 155 160 His Phe Lys Lys Asn Val Glu Glu Gln Leu Asn Lys Arg Val Gly His 165 170 175 Val Tyr Lys Lys Ala Phe Met Gln Val Val Glu Ala Asp Met Leu Ser 180 185 190 Lys Gly Leu Leu Gly Gly Glu Ala Trp Ser Ser Trp His Lys Glu Asp 195 200 205 Ser Met His Val Gly Val Arg Cys Ile Glu Met Leu Ile Glu Ser Thr 210 215 220 Gly Met Val Ser Leu His Arg Gln Asn Ala Gly Val Val Gly Gln Asp 225 230 235 240 Ser Glu Thr Leu Glu Leu Ala Pro Glu Tyr Ala Glu Ala Ile Ala Thr 245 250 255 Arg Ala Gly Ala Leu Ala Gly Ile Ser Pro Met Phe Gln Pro Cys Val 260 265 270 Val Pro Pro Lys Pro Trp Thr Gly Val Thr Gly Gly Gly Tyr Trp Ala 275 280 285 Asn Gly Arg Arg Pro Leu Ala Leu Val Arg Thr His Ser Lys Lys Ala 290 295 300 Leu Met Arg Tyr Glu Asp Val Tyr Met Pro Glu Val Tyr Lys Ala Val 305 310 315 320 Asn Leu Ala Gln Asn Thr Ala Trp Lys Val Asn Lys Lys Val Leu Ala 325 330 335 Val Ala Asn Val Ile Thr Lys Trp Lys His Cys Pro Val Glu Asp Ile 340 345 350 Pro Ala Ile Glu Arg Glu Glu Leu Pro Met Lys Pro Glu Asp Leu Asp 355 360 365 Met Asn Pro Glu Ala Leu Thr Ala Trp Lys Arg Ala Ala Ala Ala Val 370 375 380 Tyr Arg Lys Asp Lys Ala Arg Lys Ser Arg Arg Ile Ser Leu Glu Phe 385 390 395 400 Met Leu Glu Gln Ala Asn Lys Phe Ala Asn His Lys Ala Ile Trp Phe 405 410 415 Pro Tyr Asn Met Asp Trp Arg Gly Arg Val Tyr Ala Val Ser Met Phe 420 425 430 Asn Pro Gln Gly Asn Asp Met Thr Lys Gly Leu Leu Thr Leu Ala Lys 435 440 445 Gly Lys Pro Ile Gly Lys Glu Gly Tyr Tyr Trp Leu Lys Ile His Gly 450 455 460 Ala Asn Cys Ala Gly Val Asp Lys Val Pro Phe Pro Glu Arg Ile Lys 465 470 475 480 Phe Ile Glu Glu Asn His Glu Asn Ile Met Ala Cys Ala Lys Ser Pro 485 490 495 Leu Glu Asn Thr Trp Trp Ala Glu Gln Asp Ser Pro Phe Cys Phe Leu 500 505 510 Ala Phe Cys Phe Glu Tyr Ala Gly Val Gln His His Gly Leu Ser Tyr 515 520 525 Asn Cys Ser Leu Pro Leu Ala Phe Asp Gly Ser Cys Ser Gly Ile Gln 530 535 540 His Phe Ser Ala Met Leu Arg Asp Glu Val Gly Gly Arg Ala Val Asn 545 550 555 560 Leu Leu Pro Ser Glu Thr Val Gln Asp Ile Tyr Gly Ile Val Ala Lys 565 570 575 Lys Val Asn Glu Ile Leu Gln Ala Asp Ala Ile Asn Gly Thr Asp Asn 580 585 590 Glu Val Val Thr Val Thr Asp Glu Asn Thr Gly Glu Ile Ser Glu Lys 595 600 605 Val Lys Leu Gly Thr Lys Ala Leu Ala Gly Gln Trp Leu Ala Tyr Gly 610 615 620 Val Thr Arg Ser Val Thr Lys Arg Ser Val Met Thr Leu Ala Tyr Gly 625 630 635 640 Ser Lys Glu Phe Gly Phe Arg Gln Gln Val Leu Glu Asp Thr Ile Gln 645 650 655 Pro Ala Ile Asp Ser Gly Lys Gly Leu Met Phe Thr Gln Pro Asn Gln 660 665 670 Ala Ala Gly Tyr Met Ala Lys Leu Ile Trp Glu Ser Val Ser Val Thr 675 680 685 Val Val Ala Ala Val Glu Ala Met Asn Trp Leu Lys Ser Ala Ala Lys 690 695 700 Leu Leu Ala Ala Glu Val Lys Asp Lys Lys Thr Gly Glu Ile Leu Arg 705 710 715 720 Lys Arg Cys Ala Val His Trp Val Thr Pro Asp Gly Phe Pro Val Trp 725 730 735 Gln Glu Tyr Lys Lys Pro Ile Gln Thr Arg Leu Asn Leu Met Phe Leu 740 745 750 Gly Gln Phe Arg Leu Gln Pro Thr Ile Asn Thr Asn Lys Asp Ser Glu 755 760 765 Ile Asp Ala His Lys Gln Glu Ser Gly Ile Ala Pro Asn Phe Val His 770 775 780 Ser Gln Asp Gly Ser His Leu Arg Lys Thr Val Val Trp Ala His Glu 785 790 795 800 Lys Tyr Gly Ile Glu Ser Phe Ala Leu Ile His Asp Ser Phe Gly Thr 805 810 815 Ile Pro Ala Asp Ala Ala Asn Leu Phe Lys Ala Val Arg Glu Thr Met 820 825 830 Val Asp Thr Tyr Glu Ser Cys Asp Val Leu Ala Asp Phe Tyr Asp Gln 835 840 845 Phe Ala Asp Gln Leu His Glu Ser Gln Leu Asp Lys Met Pro Ala Leu 850 855 860 Pro Ala Lys Gly Asn Leu Asn Leu Arg Asp Ile Leu Glu Ser Asp Phe 865 870 875 880 Ala Phe Ala <210> 84 <211> 895 <212> PRT <213> Artificial sequence <220> <223> YenP amino acid sequence <400> 84 Met Asn Ile Leu Asn His Val Ala Arg Asn Asp Phe Ser Glu Met Glu 1 5 10 15 Leu Ala Ala Ile Pro Tyr Asn Thr Leu Ser Glu His Tyr Gly Asp Arg 20 25 30 Leu Ala Arg Glu Gln Leu Ala Leu Glu His Glu Ala Tyr Glu Leu Gly 35 40 45 Glu Lys Arg Phe Leu Lys Met Leu Asp Arg Gln Ala Gln Ala Gly Glu 50 55 60 Leu Ala Asp Asn Ala Ala Ala Lys Pro Leu Val Ala Thr Leu Val Pro 65 70 75 80 Arg Met Ala Ser Arg Val Thr Glu Trp Val Asp Glu Ser Phe Phe Val 85 90 95 Thr Asp Pro Glu Thr Gly Glu Lys Lys Gly Lys Lys Gly Lys Arg Ser 100 105 110 Val Ser Gln Arg Ile Leu Arg Glu Val Lys Pro Glu Val Val Ala Phe 115 120 125 Val Thr Ile Lys Cys Val Leu Gly Gly Leu Thr Ser Thr Gly Ser Thr 130 135 140 Val Val Gln Arg Leu Ala Ser Ser Val Gly Lys Ala Leu Glu Glu Glu 145 150 155 160 Met Arg Phe Gly Arg Ile Arg Asp Leu Glu Gln Lys His Phe Lys Lys 165 170 175 Asn Val Gln Glu Gln Leu Glu Lys Arg Val Gly His Val Tyr Lys Lys 180 185 190 Ala Phe Leu Gln Val Val Glu Ala Asp Met Leu Ser Lys Gly Leu Met 195 200 205 Gly Gly Glu Ala Trp Ser Ser Trp Thr Ala Glu Asp Thr Ile Gln Val 210 215 220 Gly Val Lys Cys Ile Glu Leu Leu Ile Glu Ser Thr Gly Leu Val Glu 225 230 235 240 Leu Glu Arg Glu Gly His Gly Ile Ala Gly Ala Asp Ser Glu Asn Val 245 250 255 Lys Leu Ala Asp Glu Tyr Met Asp Ile Ile Thr Lys Arg Ala Gly Ala 260 265 270 Leu Ala Gly Ile Ala Pro Met His Gln Pro Cys Val Val Pro Pro Lys 275 280 285 Pro Trp Thr Gly Val Ile Gly Gly Gly Tyr Trp Ala Asn Gly Arg Lys 290 295 300 Pro Leu Ala Leu Val Arg Thr His Ser Lys Lys Ala Leu Leu Arg Tyr 305 310 315 320 Glu Asp Val Tyr Met Pro Glu Val Tyr Lys Ala Val Asn Ile Ala Gln 325 330 335 Asn Thr Pro Trp Lys Ile Asn Lys Lys Val Leu Ala Val Val Asn Gln 340 345 350 Val Thr Lys Trp Gln His Cys Pro Val Ala Asp Val Pro Ala Gln Glu 355 360 365 Arg Glu Glu Leu Pro Gln Arg Pro Asp Asp Met Asp Thr Asn Pro Glu 370 375 380 Ala Leu Lys Ala Trp Lys Lys Ala Ala Ser Ala Val Tyr Arg Lys Asp 385 390 395 400 Lys Ala Arg Val Ser Arg Arg Leu Ser Leu Glu Phe Met Leu Ala Gln 405 410 415 Ala Asn Lys Phe Ala Asn His Lys Ala Ile Trp Phe Pro Tyr Asn Met 420 425 430 Asp Trp Arg Gly Arg Val Tyr Ala Val Ser Met Phe Asn Pro Gln Gly 435 440 445 Asn Asp Met Thr Lys Gly Leu Leu Thr Leu Ala Lys Gly Lys Pro Ile 450 455 460 Gly Ala Glu Gly Phe Tyr Trp Leu Lys Ile His Gly Ala Asn Thr Ala 465 470 475 480 Gly Val Asp Lys Val Thr Phe Pro Glu Arg Ile Lys Phe Ile Glu Asp 485 490 495 Asn His Ala Asn Ile Met Ala Cys Ala Lys Ser Pro Leu Glu Asn Thr 500 505 510 Trp Trp Ala Glu Gln Asp Ser Pro Phe Cys Phe Leu Ala Phe Cys Phe 515 520 525 Glu Tyr Ala Gly Val Gln Ser His Gly Leu Gly Tyr Val Cys Ser Leu 530 535 540 Pro Leu Ala Phe Asp Gly Ser Cys Ser Gly Ile Gln His Phe Ser Ala 545 550 555 560 Met Leu Arg Asp Glu Val Gly Gly Arg Ala Val Asn Leu Leu Pro Ser 565 570 575 Glu Glu Val Gln Asp Ile Tyr Gly Ile Val Ala Gln Arg Val Asn Glu 580 585 590 Met Leu Leu Glu Ala Thr Val Ser Gly Thr Ala Asp Glu Thr Glu Thr 595 600 605 Leu Val Asn Lys Asp Thr Gly Glu Ile Thr Glu Arg Leu Lys Leu Gly 610 615 620 Thr Ala Lys Leu Ala Ala Gln Trp Leu Ala Phe Gly Val Thr Arg Lys 625 630 635 640 Val Thr Lys Arg Ser Val Met Thr Leu Ala Tyr Gly Ser Lys Glu Phe 645 650 655 Gly Phe Arg Gln Gln Val Leu Glu Asp Thr Val Gln Pro Ala Leu Asp 660 665 670 Asn Gly Gln Gly Leu Met Phe Thr Gln Pro Asn Gln Ala Ala Gly Tyr 675 680 685 Met Ala Lys Leu Ile Trp Glu Ala Val Ser Val Thr Val Val Ala Ala 690 695 700 Val Glu Ala Met Asn Trp Leu Lys Ala Ser Ala Lys Leu Leu Ala Ala 705 710 715 720 Glu Val Lys Asp Lys Lys Thr Asp Glu Val Leu Arg Ala Arg Cys Ala 725 730 735 Val His Trp Val Thr Pro Asp Gly Phe Pro Val Trp Gln Glu Tyr Arg 740 745 750 Lys Pro Val Gln Ser Arg Leu Asn Leu Met Phe Leu Gly Gln Phe Arg 755 760 765 Leu Gln Pro Thr Ile Asn Thr Asn Lys Asp Ser Gly Ile Asp Ala His 770 775 780 Lys Gln Glu Ser Gly Ile Ala Pro Asn Phe Val His Ser Gln Asp Gly 785 790 795 800 Asn His Leu Arg Met Thr Val Val His Ala His Glu Ala Tyr Gly Ile 805 810 815 Glu Ser Phe Ala Leu Ile His Asp Ser Phe Gly Thr Ile Pro Ala Asp 820 825 830 Ala Ala Asn Leu Phe Lys Ala Val Arg Glu Thr Met Val Ser Thr Tyr 835 840 845 Glu Glu Asn Asp Val Leu Ala Asp Phe Tyr Asp Gln Phe Ala Asp Gln 850 855 860 Leu His Glu Ser Gln Leu Glu Lys Met Pro Ala Leu Pro Ala Lys Gly 865 870 875 880 Ser Leu Asn Leu Gln Asp Ile Leu Lys Ser Asp Phe Ala Phe Ala 885 890 895 <210> 85 <211> 893 <212> PRT <213> Artificial sequence <220> <223> phiEap amino acid sequence <400> 85 Met Ser Leu Met Asn Ser Ile Glu Arg Asn Asp Phe Ser Asp Ile Glu 1 5 10 15 Leu Ala Ala Ile Pro Tyr Asn Ile Leu Ser Glu His Tyr Gly Ala Ser 20 25 30 Leu Ala Lys Glu Gln Leu Ala Leu Glu His Glu Ala Tyr Glu Leu Gly 35 40 45 Glu Gln Arg Phe Leu Lys Thr Phe Glu Arg Gln Met Asn Asn Gly Glu 50 55 60 Leu Ala Asp Asn Ala Ala Ala Lys Pro Leu Val Leu Thr Leu Leu Pro 65 70 75 80 Arg Leu Val Ser Arg Ile Asn Gln Trp Arg His Glu Gln Val Tyr Lys 85 90 95 Leu Asn Asp Lys Gly Glu Glu Val Leu Arg Gly Gly Lys Lys Thr Ile 100 105 110 Met Phe Asn Leu Thr Ala Thr Leu Thr Ala Glu Ala Val Ala Leu Ala 115 120 125 Thr Ile Lys Thr Val Leu Ala Ser Leu Thr Ser Thr Asn Ala Val Thr 130 135 140 Ile Gln Glu Ala Gly Ser Ala Ile Gly Arg Ala Ile Glu Asp Glu Ala 145 150 155 160 Arg Phe Gly Arg Ile Arg Asp Leu Glu Glu Lys His Phe Lys Lys Asn 165 170 175 Val Lys Glu Gln Leu Glu Lys Arg Val Gly Thr Val Tyr Lys Lys Ala 180 185 190 Phe Met Gln Val Ile Glu Ala Asp Met Leu Ser Lys Gly Leu Met Gly 195 200 205 Gly Gln Ala Trp Ala Ser Trp Ser Lys Glu Asp Ser Ile His Val Gly 210 215 220 Ile Arg Cys Ile Glu Leu Leu Ile Glu Ala Thr Gly Met Val Glu Val 225 230 235 240 Val Arg His Gly Ala Gly Ile Ala Lys Leu Asp Ser Glu Asn Leu Gln 245 250 255 Leu Thr Lys Glu Tyr Ala Asp Leu Ile Thr Lys Arg Ala Gly Ala Leu 260 265 270 Ala Gly Ile Ser Pro Met Phe Gln Pro Cys Val Val Pro Pro Lys Pro 275 280 285 Trp Thr Glu Ile Thr Gly Gly Gly Tyr Trp Ala Asn Gly Arg Arg Pro 290 295 300 Leu Ala Leu Val Arg Thr His Gly Lys Lys Ala Leu Met Arg Tyr Gln 305 310 315 320 Asp Val Tyr Met Pro Glu Val Tyr Lys Ala Ile Asn Ile Ala Gln Ser 325 330 335 Thr Pro Trp Lys Ile Asn Gln Lys Val Leu Lys Val Ala Asn Glu Ile 340 345 350 Val Asn Trp Lys Asn Cys Pro Val Glu Asp Val Pro Ala Thr Glu Arg 355 360 365 Lys Glu Leu Pro Val Lys Pro Asp Asp Ile Asp Thr Asn Pro Glu Ala 370 375 380 Leu Lys Ala Trp Lys Lys Ala Ala Ser Thr Ile Tyr Arg Asn Asp Lys 385 390 395 400 Ala Arg Val Ser Arg Arg Ile Ser Met Glu Phe Met Leu Ala Gln Ala 405 410 415 Asn Lys Phe Ala Asn Lys Lys Ala Ile Trp Phe Pro Tyr Asn Met Asp 420 425 430 Trp Arg Gly Arg Val Tyr Ala Val Pro Met Phe Asn Pro Gln Gly Asn 435 440 445 Asp Leu Thr Lys Gly Leu Leu Thr Leu Ala Lys Gly Lys Pro Ile Gly 450 455 460 Leu Asp Gly Leu Tyr Trp Leu Lys Ile His Gly Ala Asn Cys Ala Gly 465 470 475 480 Val Asp Lys Val Pro Phe Pro Glu Arg Ile Lys Phe Ile Glu Glu Asn 485 490 495 His Asp Asn Ile Met Gln Ser Ala Ala Asn Pro Ile Glu Phe Asp Trp 500 505 510 Trp Ala Lys Gln Asp Ser Pro Phe Cys Phe Leu Ala Phe Cys Phe Glu 515 520 525 Tyr Ala Gly Val Glu His His Gly Leu Asn Tyr Asn Cys Ser Leu Pro 530 535 540 Leu Ala Phe Asp Gly Ser Cys Ser Gly Ile Gln His Phe Ser Ala Met 545 550 555 560 Leu Arg Asp Glu Ile Gly Gly Arg Ala Val Asn Leu Leu Pro Ser Thr 565 570 575 Glu Val Gln Asp Ile Tyr Arg Ile Val Ala Asp Lys Val Asn Glu Ile 580 585 590 Leu Lys Val Asp Ala Val Asn Gly Thr Ala Asn Glu Val Glu Leu Ile 595 600 605 Thr Asp Lys Thr Thr Gly Glu Ile Lys Glu Arg Leu Lys Val Gly Thr 610 615 620 Ser Val Met Ala Gln Glu Trp Leu Ala Phe Gly Val Thr Arg Lys Val 625 630 635 640 Thr Lys Arg Ser Val Met Thr Leu Ala Tyr Gly Ser Lys Glu Phe Gly 645 650 655 Phe Arg Gln Gln Ile Leu Asp Asp Thr Val Gln Pro Ala Ile Asp Asn 660 665 670 Gly Tyr Thr Gly Phe Thr Asn Gly Asn Gln Ser Ala Gly Tyr Met Ala 675 680 685 Lys Leu Ile Trp Asn Ala Val Ser Val Thr Val Val Ala Ala Val Glu 690 695 700 Ala Met Asn Trp Leu Lys Ser Ala Ala Lys Leu Leu Ala Ala Glu Val 705 710 715 720 Lys Asp Lys Lys Thr Lys Glu Val Leu Arg Ala Arg Cys Ala Val His 725 730 735 Trp Val Thr Pro Asp Gly Phe Pro Val Trp Gln Glu Tyr Arg Lys Ser 740 745 750 Lys Gln Val Arg Leu Asp Leu Ile Phe Leu Gly Ser Ile Arg Leu Gln 755 760 765 Pro Thr Val Asn Thr Asn Lys Asp Thr Gly Ile Asp Ala His Lys Gln 770 775 780 Glu Ser Gly Ile Ala Pro Asn Phe Val His Ser Gln Asp Gly Asn His 785 790 795 800 Leu Arg Ala Thr Val Val His Ala His Glu Lys Tyr Gly Ile Glu Ser 805 810 815 Phe Ala Leu Ile His Asp Ser Phe Gly Thr Ile Pro Ala Asp Ala Ala 820 825 830 Asn Leu Phe Lys Ala Val Arg Glu Thr Met Val Glu Thr Tyr Glu Ser 835 840 845 Asn Asp Val Leu Ala Asp Phe Tyr Glu Gln Phe Ala Asp Gln Leu His 850 855 860 Glu Ser Gln Leu Glu Asp Met Pro Ala Leu Pro Lys Ala Gly Asn Leu 865 870 875 880 Asn Leu Gln Asp Ile Leu Lys Ser Asp Phe Ala Phe Ala 885 890 <210> 86 <211> 906 <212> PRT <213> Artificial sequence <220> <223> KpnP amino acid sequence <400> 86 Met Asn Ala Leu Asn Ile Ala Arg Asn Asp Phe Ser Glu Ile Glu Leu 1 5 10 15 Ala Ala Ile Pro Tyr Asn Ile Leu Ser Glu His Tyr Gly Asp Lys Leu 20 25 30 Ala Arg Glu Gln Leu Ala Leu Glu His Glu Ala Tyr Glu Leu Gly Glu 35 40 45 Gln Arg Phe Leu Lys Met Leu Glu Arg Gln Val Lys Ala Gly Glu Phe 50 55 60 Ala Asp Asn Val Ala Ala Lys Pro Leu Val Leu Thr Leu His Pro Gln 65 70 75 80 Leu Thr Lys Arg Ile Asp Asp Trp Lys Glu Glu Gln Ala Asn Ala Arg 85 90 95 Gly Lys Lys Pro Arg Ala Tyr Tyr Pro Ile Lys His Gly Val Ala Ser 100 105 110 Glu Leu Ala Val Asn Met Gly Ala Glu Val Leu Lys Glu Lys Arg Gly 115 120 125 Val Ser Ser Glu Ala Ile Ala Leu Leu Thr Ile Lys Val Val Leu Gly 130 135 140 Thr Leu Thr Asp Ala Ser Lys Ala Thr Ile Gln Gln Val Ser Ser Gln 145 150 155 160 Leu Gly Lys Ala Leu Glu Asp Glu Ala Arg Phe Gly Arg Ile Arg Glu 165 170 175 Gln Glu Ala Ala Tyr Phe Lys Lys Asn Val Ala Asp Gln Leu Asp Lys 180 185 190 Arg Val Gly His Val Tyr Lys Lys Ala Phe Met Gln Val Val Glu Ala 195 200 205 Asp Met Ile Ser Lys Gly Met Leu Gly Gly Asp Asn Trp Ser Ser Trp 210 215 220 Lys Thr Asp Glu Gln Met His Val Gly Thr Lys Leu Leu Glu Leu Leu 225 230 235 240 Ile Glu Gly Thr Gly Leu Val Glu Met Thr Lys Asn Lys Met Ala Asp 245 250 255 Gly Ser Asp Asp Val Thr Ser Met Gln Met Val Gln Leu Ala Pro Ala 260 265 270 Phe Val Glu Leu Leu Ser Lys Arg Ala Gly Ala Leu Ala Gly Ile Ser 275 280 285 Pro Met Tyr Gln Pro Cys Val Val Pro Pro Lys Pro Trp Val Glu Thr 290 295 300 Val Gly Gly Gly Tyr Trp Ser Val Gly Arg Arg Pro Leu Ala Leu Val 305 310 315 320 Arg Thr His Ser Lys Lys Ala Leu Arg Arg Tyr Glu Asp Val His Met 325 330 335 Pro Glu Val Tyr Lys Ala Val Asn Leu Ala Gln Asn Thr Pro Trp Lys 340 345 350 Val Asn Lys Lys Val Leu Ala Val Val Asn Glu Ile Ile Asn Trp Lys 355 360 365 His Cys Pro Val Gly Asp Val Pro Ala Ile Glu Arg Glu Glu Leu Pro 370 375 380 Pro Arg Pro Asp Asp Ile Asp Thr Asn Glu Val Ala Arg Lys Ala Trp 385 390 395 400 Arg Lys Glu Ala Ala Ala Val Tyr Arg Lys Asp Lys Ala Arg Gln Ser 405 410 415 Arg Arg Leu Ser Met Glu Phe Met Val Ala Gln Ala Asn Lys Phe Ala 420 425 430 Asn His Lys Ala Ile Trp Phe Pro Tyr Asn Met Asp Trp Arg Gly Arg 435 440 445 Val Tyr Ala Val Ser Met Phe Asn Pro Gln Gly Asn Asp Met Thr Lys 450 455 460 Gly Met Leu Thr Leu Ala Lys Gly Lys Pro Ile Gly Leu Asp Gly Phe 465 470 475 480 Tyr Trp Leu Lys Ile His Gly Ala Asn Cys Ala Gly Val Asp Lys Val 485 490 495 Pro Phe Pro Glu Arg Ile Lys Phe Ile Glu Glu Asn Asp Ala Asn Ile 500 505 510 Leu Ala Ser Ala Ala Asp Pro Leu Asn Asn Thr Trp Trp Thr Gln Gln 515 520 525 Asp Ser Pro Phe Cys Phe Leu Ala Phe Cys Phe Glu Tyr Ala Gly Val 530 535 540 Lys His His Gly Leu Asn Tyr Asn Cys Ser Leu Pro Leu Ala Phe Asp 545 550 555 560 Gly Ser Cys Ser Gly Ile Gln His Phe Ser Ala Met Leu Arg Asp Ser 565 570 575 Ile Gly Gly Arg Ala Val Asn Leu Leu Pro Ser Asp Thr Val Gln Asp 580 585 590 Ile Tyr Lys Ile Val Ala Asp Lys Val Asn Glu Val Leu His Gln His 595 600 605 Val Ile Asn Gly Ser Gln Thr Val Val Glu Gln Ile Ala Asp Lys Glu 610 615 620 Thr Gly Glu Phe Arg Glu Lys Val Thr Leu Gly Glu Ser Val Leu Ala 625 630 635 640 Ala Gln Trp Leu Gln Tyr Gly Val Thr Arg Lys Val Thr Lys Arg Ser 645 650 655 Val Met Thr Leu Ala Tyr Gly Ser Lys Glu Phe Gly Phe Arg Gln Gln 660 665 670 Val Leu Glu Asp Thr Ile Gln Pro Ala Ile Asp Asn Gly Glu Gly Leu 675 680 685 Met Phe Thr His Pro Asn Gln Ala Ala Gly Tyr Met Ala Lys Leu Ile 690 695 700 Trp Asp Ala Val Thr Val Thr Val Val Ala Ala Val Glu Ala Met Asn 705 710 715 720 Trp Leu Lys Ser Ala Ala Lys Leu Leu Ala Ala Glu Val Lys Asp Lys 725 730 735 Lys Thr Lys Glu Val Leu Arg Lys Arg Cys Ala Ile His Trp Val Thr 740 745 750 Pro Asp Gly Phe Pro Val Trp Gln Glu Tyr Arg Lys Gln Asn Gln Ala 755 760 765 Arg Leu Lys Leu Val Phe Leu Gly Gln Ala Asn Val Lys Met Thr Tyr 770 775 780 Asn Thr Gly Lys Asp Ser Glu Ile Asp Ala His Lys Gln Glu Ser Gly 785 790 795 800 Ile Ala Pro Asn Phe Val His Ser Gln Asp Gly Ser His Leu Arg Met 805 810 815 Thr Val Val His Ala Asn Glu Val Tyr Gly Ile Asp Ser Phe Ala Leu 820 825 830 Ile His Asp Ser Phe Gly Thr Ile Pro Ala Asp Ala Gly Asn Leu Phe 835 840 845 Lys Ala Val Arg Glu Thr Met Val Lys Thr Tyr Glu Asp Asn Asp Val 850 855 860 Ile Ala Asp Phe Tyr Asp Gln Phe Ala Asp Gln Leu His Glu Ser Gln 865 870 875 880 Leu Asp Lys Met Pro Ala Val Pro Ala Lys Gly Asp Leu Asn Leu Arg 885 890 895 Asp Ile Leu Glu Ser Asp Phe Ala Phe Ala 900 905 <210> 87 <211> 369 <212> PRT <213> Artificial sequence <220> <223> T7-split-N fragment amino acid sequence <400> 87 His His His His His His Met Asn Thr Ile Asn Val Ala Lys Asn Asp 1 5 10 15 Phe Ser Asp Leu Glu Leu Ala Ala Ile Pro Phe Asn Thr Leu Ala Asp 20 25 30 His Tyr Gly Glu Arg Leu Ala Arg Glu Gln Leu Ala Leu Glu His Glu 35 40 45 Ser Tyr Glu Met Gly Glu Ala Arg Phe Arg Lys Met Phe Glu Arg Gln 50 55 60 Leu Lys Ala Gly Glu Val Ala Asp Asn Ala Ala Ala Lys Pro Leu Val 65 70 75 80 Thr Thr Leu Leu Pro Lys Met Val Ala Arg Ile Asn Asp Trp Phe Glu 85 90 95 Glu Val Lys Ala Lys Arg Gly Lys Arg Pro Thr Ala Phe Gln Phe Leu 100 105 110 Gln Glu Val Lys Pro Glu Ala Val Ala Tyr Leu Thr Ile Lys Thr Thr 115 120 125 Leu Ala Cys Leu Thr Ser Ala Asp Asn Thr Thr Val Gln Ala Val Ala 130 135 140 Ser Ala Val Gly Arg Ala Ile Glu Asp Glu Ala Arg Phe Gly Arg Ile 145 150 155 160 Arg Asp Leu Glu Ala Lys His Phe Lys Lys Asn Val Glu Glu Gln Leu 165 170 175 Asn Lys Arg Val Gly His Val Tyr Lys Lys Ala Phe Met Gln Val Val 180 185 190 Glu Ala Asp Met Leu Ser Lys Gly Leu Leu Gly Gly Glu Ala Trp Ser 195 200 205 Ser Trp His Lys Glu Asp Ser Met His Val Gly Val Arg Cys Ile Glu 210 215 220 Met Leu Ile Glu Ser Thr Gly Met Val Ser Leu His Arg Gln Asn Ala 225 230 235 240 Gly Val Val Gly Gln Asp Ser Glu Thr Leu Glu Leu Ala Pro Glu Tyr 245 250 255 Ala Glu Ala Ile Ala Thr Arg Ala Gly Ala Leu Ala Gly Ile Ser Pro 260 265 270 Met Phe Gln Pro Cys Val Val Pro Pro Lys Pro Trp Thr Gly Val Thr 275 280 285 Gly Gly Gly Tyr Trp Ala Asn Gly Arg Arg Pro Leu Ala Leu Val Arg 290 295 300 Thr His Ser Lys Lys Ala Leu Met Arg Tyr Glu Asp Val Tyr Met Pro 305 310 315 320 Glu Val Tyr Lys Ala Val Asn Leu Ala Gln Asn Thr Ala Trp Lys Val 325 330 335 Asn Lys Lys Val Leu Ala Val Ala Asn Val Ile Thr Lys Trp Lys His 340 345 350 Cys Pro Val Glu Asp Ile Pro Ala Ile Glu Arg Glu Glu Leu Pro Met 355 360 365 Lys <210> 88 <211> 43 <212> PRT <213> Artificial sequence <220> <223> T7-N-1 amino acid sequence <400> 88 His His His His His His Met Asn Thr Ile Asn Val Ala Lys Asn Asp 1 5 10 15 Phe Ser Asp Leu Glu Leu Ala Ala Ile Pro Phe Asn Thr Leu Ala Asp 20 25 30 His Tyr Gly Glu Arg Leu Ala Arg Glu Gln Leu 35 40 <210> 89 <211> 32 <212> PRT <213> Artificial sequence <220> <223> T7-N-2 amino acid sequence <400> 89 Cys Leu Glu His Glu Ser Tyr Glu Met Gly Glu Ala Arg Phe Arg Lys 1 5 10 15 Met Phe Glu Arg Gln Leu Lys Ala Gly Glu Val Ala Asp Asn Ala Ala 20 25 30 <210> 90 <211> 70 <212> PRT <213> Artificial sequence <220> <223> T7-N-3 amino acid sequence <400> 90 Cys Lys Pro Leu Val Thr Thr Leu Leu Pro Lys Met Val Ala Arg Ile 1 5 10 15 Asn Asp Trp Phe Glu Glu Val Lys Ala Lys Arg Gly Lys Arg Pro Thr 20 25 30 Ala Phe Gln Phe Leu Gln Glu Val Lys Pro Glu Ala Val Ala Tyr Leu 35 40 45 Thr Ile Lys Thr Thr Leu Ala Cys Leu Thr Ser Ala Asp Asn Thr Thr 50 55 60 Val Gln Ala Val Ala Ser 65 70 <210> 91 <211> 76 <212> PRT <213> Artificial sequence <220> <223> T7-N-4 amino acid sequence <400> 91 Cys Val Gly Arg Ala Ile Glu Asp Glu Ala Arg Phe Gly Arg Ile Arg 1 5 10 15 Asp Leu Glu Ala Lys His Phe Lys Lys Asn Val Glu Glu Gln Leu Asn 20 25 30 Lys Arg Val Gly His Val Tyr Lys Lys Ala Phe Met Gln Val Val Glu 35 40 45 Ala Asp Met Leu Ser Lys Gly Leu Leu Gly Gly Glu Ala Trp Ser Ser 50 55 60 Trp His Lys Glu Asp Ser Met His Val Gly Val Arg 65 70 75 <210> 92 <211> 44 <212> PRT <213> Artificial sequence <220> <223> T7-N-5 amino acid sequence <400> 92 Cys Ile Glu Met Leu Ile Glu Ser Thr Gly Met Val Ser Leu His Arg 1 5 10 15 Gln Asn Ala Gly Val Val Gly Gln Asp Ser Glu Thr Leu Glu Leu Ala 20 25 30 Pro Glu Tyr Ala Glu Ala Ile Ala Thr Arg Ala Gly 35 40 <210> 93 <211> 34 <212> PRT <213> Artificial sequence <220> <223> T7-N-6 amino acid sequence <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 93 Leu Ala Gly Ile Ser Pro Met Phe Gln Pro Cys Val Val Pro Pro Lys 1 5 10 15 Pro Trp Thr Gly Val Thr Gly Gly Gly Tyr Trp Ala Asn Gly Arg Arg 20 25 30 Pro Leu <210> 94 <211> 69 <212> PRT <213> Artificial sequence <220> <223> T7-N-7 amino acid sequence <400> 94 Cys Leu Val Arg Thr His Ser Lys Lys Ala Leu Met Arg Tyr Glu Asp 1 5 10 15 Val Tyr Met Pro Glu Val Tyr Lys Ala Val Asn Leu Ala Gln Asn Thr 20 25 30 Ala Trp Lys Val Asn Lys Lys Val Leu Ala Val Ala Asn Val Ile Thr 35 40 45 Lys Trp Lys His Cys Pro Val Glu Asp Ile Pro Ala Ile Glu Arg Glu 50 55 60 Glu Leu Pro Met Lys 65 <210> 95 <211> 238 <212> PRT <213> Artificial sequence <220> <223> T7-split-M fragment amino acid sequence <400> 95 Pro Glu Asp Leu Asp Met Asn Pro Glu Ala Leu Thr Ala Trp Lys Arg 1 5 10 15 Ala Ala Ala Ala Val Tyr Arg Lys Asp Lys Ala Arg Lys Ser Arg Arg 20 25 30 Ile Ser Leu Glu Phe Met Leu Glu Gln Ala Asn Lys Phe Ala Asn His 35 40 45 Lys Ala Ile Trp Phe Pro Tyr Asn Met Asp Trp Arg Gly Arg Val Tyr 50 55 60 Ala Val Ser Met Phe Asn Pro Gln Gly Asn Asp Met Thr Lys Gly Leu 65 70 75 80 Leu Thr Leu Ala Lys Gly Lys Pro Ile Gly Lys Glu Gly Tyr Tyr Trp 85 90 95 Leu Lys Ile His Gly Ala Asn Cys Ala Gly Val Asp Lys Val Pro Phe 100 105 110 Pro Glu Arg Ile Lys Phe Ile Glu Glu Asn His Glu Asn Ile Met Ala 115 120 125 Cys Ala Lys Ser Pro Leu Glu Asn Thr Trp Trp Ala Glu Gln Asp Ser 130 135 140 Pro Phe Cys Phe Leu Ala Phe Cys Phe Glu Tyr Ala Gly Val Gln His 145 150 155 160 His Gly Leu Ser Tyr Asn Cys Ser Leu Pro Leu Ala Phe Asp Gly Ser 165 170 175 Cys Ser Gly Ile Gln His Phe Ser Ala Met Leu Arg Asp Glu Val Gly 180 185 190 Gly Arg Ala Val Asn Leu Leu Pro Ser Glu Thr Val Gln Asp Ile Tyr 195 200 205 Gly Ile Val Ala Lys Lys Val Asn Glu Ile Leu Gln Ala Asp Ala Ile 210 215 220 Asn Gly Thr Asp Asn Glu Val Val Thr Val Thr Asp Glu Asn 225 230 235 <210> 96 <211> 45 <212> PRT <213> Artificial sequence <220> <223> T7-M-1 amino acis sequence <400> 96 Pro Glu Asp Leu Asp Met Asn Pro Glu Ala Leu Thr Ala Trp Lys Arg 1 5 10 15 Ala Ala Ala Ala Val Tyr Arg Lys Asp Lys Ala Arg Lys Ser Arg Arg 20 25 30 Ile Ser Leu Glu Phe Met Leu Glu Gln Ala Asn Lys Phe 35 40 45 <210> 97 <211> 38 <212> PRT <213> Artificial sequence <220> <223> T7-M-2 amino acis sequence <400> 97 Cys Asn His Lys Ala Ile Trp Phe Pro Tyr Asn Met Asp Trp Arg Gly 1 5 10 15 Arg Val Tyr Ala Val Ser Met Phe Asn Pro Gln Gly Asn Asp Met Thr 20 25 30 Lys Gly Leu Leu Thr Leu 35 <210> 98 <211> 44 <212> PRT <213> Artificial sequence <220> <223> T7-M-3 amino acis sequence <400> 98 Cys Lys Gly Lys Pro Ile Gly Lys Glu Gly Tyr Tyr Trp Leu Lys Ile 1 5 10 15 His Gly Ala Asn Cys Ala Gly Val Asp Lys Val Pro Phe Pro Glu Arg 20 25 30 Ile Lys Phe Ile Glu Glu Asn His Glu Asn Ile Met 35 40 <210> 99 <211> 43 <212> PRT <213> Artificial sequence <220> <223> T7-M-4 amino acis sequence <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 99 Cys Ala Lys Ser Pro Leu Glu Asn Thr Trp Trp Ala Glu Gln Asp Ser 1 5 10 15 Pro Phe Cys Phe Leu Ala Phe Cys Phe Glu Tyr Ala Gly Val Gln His 20 25 30 His Gly Leu Ser Tyr Asn Cys Ser Leu Pro Leu 35 40 <210> 100 <211> 22 <212> PRT <213> Artificial sequence <220> <223> T7-M-5 amino acis sequence <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 100 Phe Asp Gly Ser Cys Ser Gly Ile Gln His Phe Ser Ala Met Leu Arg 1 5 10 15 Asp Glu Val Gly Gly Arg 20 <210> 101 <211> 44 <212> PRT <213> Artificial sequence <220> <223> T7-M-6 amino acis sequence <400> 101 Cys Val Asn Leu Leu Pro Ser Glu Thr Val Gln Asp Ile Tyr Gly Ile 1 5 10 15 Val Ala Lys Lys Val Asn Glu Ile Leu Gln Ala Asp Ala Ile Asn Gly 20 25 30 Thr Asp Asn Glu Val Val Thr Val Thr Asp Glu Asn 35 40 <210> 102 <211> 282 <212> PRT <213> Artificial sequence <220> <223> T7-split-C fragment amino acid sequence <400> 102 Thr Gly Glu Ile Ser Glu Lys Val Lys Leu Gly Thr Lys Ala Leu Ala 1 5 10 15 Gly Gln Trp Leu Ala Tyr Gly Val Thr Arg Ser Val Thr Lys Arg Ser 20 25 30 Val Met Thr Leu Ala Tyr Gly Ser Lys Glu Phe Gly Phe Arg Gln Gln 35 40 45 Val Leu Glu Asp Thr Ile Gln Pro Ala Ile Asp Ser Gly Lys Gly Leu 50 55 60 Met Phe Thr Gln Pro Asn Gln Ala Ala Gly Tyr Met Ala Lys Leu Ile 65 70 75 80 Trp Glu Ser Val Ser Val Thr Val Val Ala Ala Val Glu Ala Met Asn 85 90 95 Trp Leu Lys Ser Ala Ala Lys Leu Leu Ala Ala Glu Val Lys Asp Lys 100 105 110 Lys Thr Gly Glu Ile Leu Arg Lys Arg Cys Ala Val His Trp Val Thr 115 120 125 Pro Asp Gly Phe Pro Val Trp Gln Glu Tyr Lys Lys Pro Ile Gln Thr 130 135 140 Arg Leu Asn Leu Met Phe Leu Gly Gln Phe Arg Leu Gln Pro Thr Ile 145 150 155 160 Asn Thr Asn Lys Asp Ser Glu Ile Asp Ala His Lys Gln Glu Ser Gly 165 170 175 Ile Ala Pro Asn Phe Val His Ser Gln Asp Gly Ser His Leu Arg Lys 180 185 190 Thr Val Val Trp Ala His Glu Lys Tyr Gly Ile Glu Ser Phe Ala Leu 195 200 205 Ile His Asp Ser Phe Gly Thr Ile Pro Ala Asp Ala Ala Asn Leu Phe 210 215 220 Lys Ala Val Arg Glu Thr Met Val Asp Thr Tyr Glu Ser Cys Asp Val 225 230 235 240 Leu Ala Asp Phe Tyr Asp Gln Phe Ala Asp Gln Leu His Glu Ser Gln 245 250 255 Leu Asp Lys Met Pro Ala Leu Pro Ala Lys Gly Asn Leu Asn Leu Arg 260 265 270 Asp Ile Leu Glu Ser Asp Phe Ala Phe Ala 275 280 <210> 103 <211> 72 <212> PRT <213> Artificial sequence <220> <223> T7-C-1 amino acid sequence <400> 103 Thr Gly Glu Ile Ser Glu Lys Val Lys Leu Gly Thr Lys Ala Leu Ala 1 5 10 15 Gly Gln Trp Leu Ala Tyr Gly Val Thr Arg Ser Val Thr Lys Arg Ser 20 25 30 Val Met Thr Leu Ala Tyr Gly Ser Lys Glu Phe Gly Phe Arg Gln Gln 35 40 45 Val Leu Glu Asp Thr Ile Gln Pro Ala Ile Asp Ser Gly Lys Gly Leu 50 55 60 Met Phe Thr Gln Pro Asn Gln Ala 65 70 <210> 104 <211> 49 <212> PRT <213> Artificial sequence <220> <223> T7-C-2 amino acid sequence <400> 104 Cys Gly Tyr Met Ala Lys Leu Ile Trp Glu Ser Val Ser Val Thr Val 1 5 10 15 Val Ala Ala Val Glu Ala Met Asn Trp Leu Lys Ser Ala Ala Lys Leu 20 25 30 Leu Ala Ala Glu Val Lys Asp Lys Lys Thr Gly Glu Ile Leu Arg Lys 35 40 45 Arg <210> 105 <211> 75 <212> PRT <213> Artificial sequence <220> <223> T7-C-3 amino acid sequence <400> 105 Cys Ala Val His Trp Val Thr Pro Asp Gly Phe Pro Val Trp Gln Glu 1 5 10 15 Tyr Lys Lys Pro Ile Gln Thr Arg Leu Asn Leu Met Phe Leu Gly Gln 20 25 30 Phe Arg Leu Gln Pro Thr Ile Asn Thr Asn Lys Asp Ser Glu Ile Asp 35 40 45 Ala His Lys Gln Glu Ser Gly Ile Ala Pro Asn Phe Val His Ser Gln 50 55 60 Asp Gly Ser His Leu Arg Lys Thr Val Val Trp 65 70 75 <210> 106 <211> 44 <212> PRT <213> Artificial sequence <220> <223> T7-C-4 amino acid sequence <220> <221> MISC_FEATURE <222> (1)..(1) <223> N-terminal Trifluoroacetyl thiazolidine-4-caboxylic acid (Tfa-Thz) conjugated <400> 106 His Glu Lys Tyr Gly Ile Glu Ser Phe Ala Leu Ile His Asp Ser Phe 1 5 10 15 Gly Thr Ile Pro Ala Asp Ala Ala Asn Leu Phe Lys Ala Val Arg Glu 20 25 30 Thr Met Val Asp Thr Tyr Glu Ser Cys Asp Val Leu 35 40 <210> 107 <211> 41 <212> PRT <213> Artificial sequence <220> <223> T7-C-5 amino acid sequence <400> 107 Cys Asp Phe Tyr Asp Gln Phe Ala Asp Gln Leu His Glu Ser Gln Leu 1 5 10 15 Asp Lys Met Pro Ala Leu Pro Ala Lys Gly Asn Leu Asn Leu Arg Asp 20 25 30 Ile Leu Glu Ser Asp Phe Ala Phe Ala 35 40 <210> 108 <211> 160 <212> DNA <213> Artificial sequence <220> <223> DNA template nucleic acid sequence <400> 108 gatctcgatc ccgcgaaatt aatacgactc actataggtc ccccgtgccc atagcggcgt 60 ggaaccaccc gttcccattc cgaacacgga agtgaaacgc gccagcgccg atggtactgg 120 gcgggcgacc gcctgggaga gtaggtcggt gcgggggatt 160 <210> 109 <211> 1539 <212> DNA <213> Artificial sequence <220> <223> Tt 16S DNA template nucleic acid sequence <400> 109 ctcgatcccg cgaaattaat acgactcact ataggtttgt tggagagttt gatcctggct 60 cagggtgaac gctggcggcg tgcctaagac atgcaagtcg tgcgggccgc ggggttttac 120 tccgtggtca gcggcggacg ggtgagtaac gcgtgggtga cctacccgga agagggggac 180 aacccgggga aactcgggct aatcccccat gtggacccgc cccttggggt gtgtccaaag 240 ggctttgccc gcttccggat gggcccgcgt cccatcagct agttggtggg gtaatggccc 300 accaaggcga cgacgggtag ccggtctgag aggatggccg gccacagggg cactgagaca 360 cgggccccac tcctacggga ggcagcagtt aggaatcttc cgcaatgggc gcaagcctga 420 cggagcgacg ccgcttggag gaagaagccc ttcggggtgt aaactcctga acccgggacg 480 aaacccccga cgaggggact gacggtaccg gggtaatagc gccggccaac tccgtgccag 540 cagccgcggt aatacggagg gcgcgagcgt tacccggatt cactgggcgt aaagggcgtg 600 taggcggcct ggggcgtccc atgtgaaaga ccacggctca accgtggggg agcgtgggat 660 acgctcaggc tagacggtgg gagagggtgg tggaattccc ggagtagcgg tgaaatgcgc 720 agataccggg aggaacgccg atggcgaagg cagccacctg gtccacccgt gacgctgagg 780 cgcgaaagcg tggggagcaa accggattag atacccgggt agtccacgcc ctaaacgatg 840 cgcgctaggt ctctgggtct cctgggggcc gaagctaacg cgttaagcgc gccgcctggg 900 gagtacggcc gcaaggctga aactcaaagg aattgacggg ggcccgcaca agcggtggag 960 catgtggttt aattcgaagc aacgcgaaga accttaccag gccttgacat gctagggaac 1020 ccgggtgaaa gcctggggtg ccccgcgagg ggagccctag cacaggtgct gcatggccgt 1080 cgtcagctcg tgccgtgagg tgttgggtta agtcccgcaa cgagcgcaac ccccgccgtt 1140 agttgccagc ggttcggccg ggcactctaa cgggactgcc cgcgaaagcg ggaggaagga 1200 ggggacgacg tctggtcagc atggccctta cggcctgggc gacacacgtg ctacaatgcc 1260 cactacaaag cgatgccacc cggcaacggg gagctaatcg caaaaaggtg ggcccagttc 1320 ggattggggt ctgcaacccg accccatgaa gccggaatcg ctagtaatcg cggatcagcc 1380 atgccgcggt gaatacgttc ccgggccttg tacacaccgc ccgtcacgcc atgggagcgg 1440 gctctacccg aagtcgccgg gagcctacgg gcaggcgccg agggtagggc ccgtgactgg 1500 ggcgaagtcg taacaaggta gctgtaccgg aaggtgcgg 1539 <210> 110 <211> 113 <212> DNA <213> Artificial sequence <220> <223> tRNA(Ser) DNA template <400> 110 tggcggagag agggggattt gaacccccgg tagagttgcc cctactccgg ttttcgagac 60 cggtccgttc agccgctccg gcatctctcc tatagtgagt cgtattagaa ccg 113 <210> 111 <211> 163 <212> DNA <213> Artificial Sequence <220> <223> L-guanine sensor DNA template <400> 111 ctcgatcccg cgaaattaat acgactcact atagacgcga ctgaatgaaa tggtgaagga 60 cgggtccaga taatcgcgtg gatatggcac gcaagtttct accgggcacc gtaaatgtcc 120 gactcttgtt gagtagagtg tgagctccgt aactagtcgc gtc 163 <210> 112 <211> 203 <212> DNA <213> Artificial Sequence <220> <223> DNA template of L- 38-6 ribozyme <400> 112 ggactaatac gactcactat tagtcattgc cgcacaaaga caaatctccc ctcagagctt 60 gagaacatct acggatgcag aggagggggc cttcggtgga tcaattgtgc accaccgttc 120 tcaacacgta cccgaacata aaaagacctg acaaaaaggc gatgttagac acgcacaggt 180 gccataccca acacatggct gac 203 <210> 113 <211> 133 <212> DNA <213> Artificial Sequence <220> <223> L- class I ligase DNA template <400> 113 ggactaatac gactcactat tgacaatgac aaaaaatcac tattgttgag aacgttggcg 60 ttaaagccac cgggggctgc ctcccctgca tccgaagatg ttctcaagct ctgagggcag 120 atttgtcttt tcc 133 <210> 114 <211> 182 <212> DNA <213> Artificial Sequence <220> <223> L- 38-6 ribozyme <400> 114 agucauugcc gcacaaagac aaaucucccc ucagagcuug agaacaucua cggaugcaga 60 ggagggggcc uucgguggau caauugugca ccaccguucu caacacguac ccgaacauaa 120 aaagaccuga caaaaaggcg auguuagaca cgcacaggug ccauacccaa cacauggcug 180 ac 182 <210> 115 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> L- 5'-FAM-labelled primer <220> <221> misc_feature <222> (1)..(1) <223> FAM labelled <220> <221> misc_feature <222> (1)..(1) <223> FAM conjugated <400> 115 ggaaaagaca aaucugcccu 20 <210> 116 <211> 112 <212> DNA <213> Artificial Sequence <220> <223> L- class I ligase template <400> 116 gacaaugaca aaaaaucacu auuguugaga acguuggcgu uaaagccacc gggggcugcc 60 uccccugcau ccgaagaugu ucucaagcuc ugagggcaga uuugucuuuu cc 112

Claims (97)

  1. 단백질의 적어도 2개의 결찰-유도성 세그먼트를 결찰하는 단계를 포함하되, 각각의 상기 결찰-유도성 세그먼트는 화학적으로 합성가능하고,
    i. 단백질의 아미노산 서열에서 적어도 하나의 결찰-유도성 서열을 확인하고, 상기 결찰-유도성 서열에서 상기 단백질의 아미노산 서열을 분석하여 복수의 결찰-유도성 세그먼트를 얻는 단계; 및
    ii. 각각의 상기 결찰-유도성 세그먼트가 화학적으로 합성가능한 경우, 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하는 단계;
    iii. 상기 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 상기 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하고, 상기 구조적으로-손실된 섹션에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 상기 구조적으로-손실된 섹션에 결찰-유도성 서열을 도입하며, 상기 결찰-유도성 서열에서 단백질의 아미노산 서열을 분석하고, 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하는 단계에 의해 얻을 수 있는 단백질을 화학적으로 생산하는 방법.
  2. 제1항에 있어서,
    단계 (i)에서 상기 결찰-유도성 서열 중 적어도 하나는 단백질에서 구조적으로-손실된 섹션에 있는 방법.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서,
    단계 (iii)를 포함하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 단계 (i) 전에,
    a) 상기 단백질의 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하는 단계;
    b) 각각의 상기 도메인-형성 세그먼트가 화학적으로 합성가능한 경우, 각각의 상기 도메인-형성 세그먼트를 화학적으로 합성하는 단계; 및
    c) 상기 도메인-형성 세그먼트들을 함께 폴딩하여 단백질을 얻는 단계를 더 포함하는 방법.
  5. 제4항에 있어서,
    단계 (a)를 포함하는 방법.
  6. 제4항에 있어서, 상기 도메인-형성 세그먼트 중 하나가 화학적으로 합성할 수 없는 경우,
    d) 상기 도메인-형성 세그먼트에서 적어도 하나의 결찰-유도성 서열을 확인하고, 상기 결찰-유도성 서열에서 상기 도메인-형성 세그먼트의 아미노산 서열을 분석하여 복수의 화학적으로 합성가능한 결찰-유도성 세그먼트를 얻는 단계;
    e) 상기 도메인-형성 세그먼트가 본질적으로 결찰-유도성 서열이 없거나, 상기 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 상기 도메인-형성 세그먼트 또는 상기 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하는 단계;
    f) 상기 구조적으로-손실된 섹션 또는 상기 결찰-유도성 세그먼트에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 상기 구조적으로-손실된 섹션 또는 상기 결찰-유도성 세그먼트에 결찰-유도성 서열을 도입하고, 상기 결찰-유도성 서열에서 상기 도메인-형성 세그먼트의 아미노산 서열을 분석하여 복수의 화학적으로 합성가능한 결찰-유도성 세그먼트의 서열을 얻는 단계; 및
    g) 각각의 상기 화학적으로 합성가능한 결찰-유도성 세그먼트를 화학적으로 합성하는 단계인 방법.
  7. 제1항에 있어서,
    단계 (f)를 포함하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    단백질은 상응하는 생물학적으로 생산된 단백질의 활성의 적어도 5%를 나타내는 방법.
  9. 제8항에 있어서,
    상기 활성은 촉매 활성, 특이 결합 활성 및 구조적 활성으로 구성된 군에서 선택되는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    단백질은 적어도 240개의 아미노산 잔기를 포함하는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    단백질은 적어도 약 400개의 아미노산 잔기를 포함하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 결찰-유도성 세그먼트 중 적어도 하나에서, 적어도 하나의 소수성 아미노산 잔기를 다음의 소수성 순서에 따라 덜 소수성인 아미노산으로 치환하는 단계를 더 포함하는 방법:
    Ile > Leu > Phe > Val > Met > Pro > Trp > His(0) > Thr > Glu(0) > Gln > Cys > Tyr > Ala > Ser > Asn > Asp(0) > Arg+ > Gly > His+ > Glu > Lys+ > Asp-.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    단백질은 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 생산되는 방법.
  14. 제13항에 있어서,
    단백질은 상응하는 생물학적으로 생산된 단백질의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 갖는 방법.
  15. 제13항 내지 제14항 중 어느 한 항에 있어서,
    적어도 하나의 Ile 잔기를 D-Ala 잔기, D-Val 잔기, D-Leu 잔기, D-Thr 잔기, D-Phe 잔기, D-Met 잔기, Gly 잔기 및 D-Pro 잔기로 구성된 군에서 선택된 D-아미노산 잔기로 치환하는 단계를 더 포함하는 방법.
  16. 제1항 내지 제15항 중 어느 한 항의 방법에 따라 제조되고, 적어도 약 240개의 아미노산 잔기 길이인 단백질.
  17. 제16항에 있어서,
    비-공유적으로 부착된 폴리펩타이드 사슬인 적어도 2개의 도메인-형성 세그먼트를 포함하되, 상기 도메인-형성 세그먼트들은 적어도 하나의 상응하는 생물학적으로 생산된 단백질에서 공유적으로 부착된 폴리펩타이드 사슬인 단백질.
  18. 제16항 내지 제17항 중 어느 한 항에 있어서,
    효소, 운송 단백질, 구조/역학 단백질, 호르몬, 신호전달 단백질, 항체, 유체-밸런싱 단백질(fluid-balancing protein), pH-밸런싱 단백질, 세포 채널 및 세포 펌프로 구성된 군에서 선택되는 단백질.
  19. 제18항에 있어서,
    단백질은 효소이며, 상기 효소는 상응하는 생물학적으로 생산된 효소에 의해 촉매된 반응을 촉매할 수 있는 단백질.
  20. 제19항에 있어서,
    상기 효소는 DNA 주형을 사용하여 리보뉴클레오티드로부터 RNA를 합성할 수 있는 RNA 중합효소인 단백질.
  21. 제20항에 있어서,
    상기 RNA 중합효소는 T7 RNA 중합효소 또는 Pfu DNA 중합효소 돌연변이체인 단백질.
  22. 제21항에 있어서,
    상기 Pfu DNA 중합효소 돌연변이체는 V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 갖는 단백질.
  23. 제19항에 있어서,
    상기 효소는 디옥시리보뉴클레오티드로부터 DNA를 합성할 수 있는 DNA 중합효소인 단백질.
  24. 제23항에 있어서,
    상기 DNA 중합효소는 Pfu DNA 중합효소인 단백질.
  25. D-아미노산 단백질의 적어도 2개의 결찰-유도성 세그먼트를 결찰하는 단계를 포함하되, 각각의 상기 결찰-유도성 세그먼트는 적어도 90%의 비-Gly D-아미노산 잔기를 포함하고, 화학적으로 합성가능하며,
    i. 상응하는 L-아미노산 단백질의 아미노산 서열에서 적어도 하나의 결찰-유도성 서열을 확인하고, 상기 결찰-유도성 서열에서 상기 아미노산 서열을 분석하여 복수의 결찰-유도성 세그먼트를 얻는 단계; 및
    ii. 각각의 상기 결찰-유도성 세그먼트가 화학적으로 합성가능한 경우, 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하는 단계;
    iii. 상기 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 상기 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하고, 상기 구조적으로-손실된 섹션에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 상기 구조적으로-손실된 섹션에 결찰-유도성 서열을 도입하며, 상기 결찰-유도성 서열에서 상기 결찰-유도성 세그먼트의 아미노산 서열을 분석하고, 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하는 단계에 의해 얻을 수 있는 D-아미노산 단백질을 화학적으로 생산하는 방법.
  26. 제25항에 있어서,
    단계 (i)에서, 상기 결찰-유도성 서열 중 적어도 하나는 상기 상응하는 L-아미노산 단백질에서 구조적으로-손실된 섹션에 있는 방법.
  27. 제25항 내지 제26항 중 어느 한 항에 있어서,
    단계 (iii)를 포함하는 방법.
  28. 제25항에 있어서, 단계 (i) 전에,
    a) 상기 L-아미노산 단백질의 상기 아미노산 서열을 적어도 2개의 도메인-형성 세그먼트로 분할하는 단계;
    b) 각각의 상기 도메인-형성 세그먼트가 화학적으로 합성가능한 경우, 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 상기 도메인-형성 세그먼트를 화학적으로 합성하는 단계; 및
    c) 상기 도메인-형성 세그먼트들을 함께 폴딩하여 D-아미노산 단백질을 얻는 단계를 더 포함하는 방법.
  29. 제28항에 있어서, 상기 도메인-형성 세그먼트 중 하나가 화학적으로 합성할 수 없는 경우,
    d) 상기 도메인-형성 세그먼트에서 적어도 하나의 결찰-유도성 서열을 확인하고, 상기 결찰-유도성 서열에서 상기 도메인-형성 세그먼트의 아미노산 서열을 분석하여 복수의 화학적으로 합성가능한 결찰-유도성 세그먼트를 얻는 단계;
    e) 상기 도메인-형성 세그먼트가 본질적으로 결찰-유도성 서열이 없거나, 상기 결찰-유도성 세그먼트 중 임의의 하나가 화학적으로 합성할 수 없는 경우, 상기 도메인-형성 세그먼트 또는 상기 결찰-유도성 세그먼트에서 적어도 하나의 구조적으로-손실된 섹션을 확인하는 단계;
    f) 상기 구조적으로-손실된 섹션 또는 상기 결찰-유도성 세그먼트에서 적어도 하나의 아미노산을 결찰-유도성 아미노산 잔기로 치환하여 상기 구조적으로-손실된 섹션 또는 상기 결찰-유도성 세그먼트에 결찰-유도성 서열을 도입하고, 상기 결찰-유도성 서열에서 상기 도메인-형성 세그먼트의 아미노산 서열을 분석하는 단계; 및
    g) 적어도 90%의 비-Gly D-아미노산 잔기를 사용하여 각각의 상기 결찰-유도성 세그먼트를 화학적으로 합성하여 상기 도메인-형성 세그먼트를 얻는 단계인 방법.
  30. 제25항에 있어서,
    단계 (iii)를 포함하는 방법.
  31. 제25항 내지 제30항 중 어느 한 항에 있어서,
    D-아미노산 단백질은 상기 L-아미노산 단백질의 활성의 적어도 10%를 나타내는 방법.
  32. 제31항에 있어서,
    상기 활성은 촉매 활성, 특이 결합 활성 및 구조적 활성으로 구성된 군에서 선택되는 방법.
  33. 제25항 내지 제32항 중 어느 한 항에 있어서,
    D-아미노산 단백질은 적어도 240개의 아미노산 잔기를 포함하는 방법.
  34. 제25항 내지 제33항 중 어느 한 항에 있어서,
    D-아미노산 단백질은 적어도 400개의 아미노산 잔기를 포함하는 방법.
  35. 제25항 내지 제34항 중 어느 한 항에 있어서,
    상기 결찰-유도성 세그먼트 중 적어도 하나에서, 적어도 하나의 소수성 D-아미노산 잔기를 다음의 소수성 순서에 따라 덜 소수성의 아미노산으로 치환하는 단계를 더 포함하는 방법:
    D-Ile > D-Leu > D-Phe > D-Val > D-Met > D-Pro > D-Trp > D-His(0) > D-Thr > D-Glu(0) > D-Gln > D-Cys > D-Tyr > D-Ala > D-Ser > D-Asn > D-Asp(0) > D-Arg+ > Gly > D-His+ > D-Glu > D-Lys+ > D-Asp-.
  36. 제25항 내지 제35항 중 어느 한 항에 있어서,
    D-아미노산 단백질은 상기 L-아미노산 단백질의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 갖는 방법.
  37. 제25항 내지 제36항 중 어느 한 항에 있어서,
    적어도 하나의 Ile 잔기를 D-Ala 잔기, D-Val 잔기, D-Leu 잔기, D-Thr 잔기, Gly 잔기, D-Phe 잔기, D-Met 잔기 및 D-Pro 잔기로 구성된 군에서 선택된 D-아미노산 잔기로 치환하는 단계를 더 포함하는 방법.
  38. 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 제조된 D-아미노산 단백질.
  39. 제38항에 있어서,
    D-아미노산 단백질은 상응하는 L-아미노산 단백질의 3D 구조와 비교하여 본질적으로 거울상 3D 구조를 갖는 D-아미노산 단백질.
  40. 제38항 내지 제39항 중 어느 한 항에 있어서,
    비-공유적으로 부착된 폴리펩타이드 사슬인 적어도 2개의 도메인-형성 세그먼트를 포함하되, 상기 도메인-형성 세그먼트는 적어도 하나의 상응하는 L-아미노산 단백질에서 공유적으로 부착된 폴리펩타이드 사슬인 D-아미노산 단백질.
  41. 제38항 내지 제39항 중 어느 한 항에 있어서,
    효소, 운송 단백질, 구조/역학 단백질, 호르몬, 신호전달 단백질, 항체, 유체-밸런싱 단백질, pH-밸런싱 단백질, 세포 채널 및 세포 펌프로 구성된 군에서 선택되는 D-아미노산 단백질.
  42. 제41항에 있어서,
    D-아미노산 단백질은 D-아미노산 효소이며, 상기 효소는 상응하는 L-아미노산 효소와 비교하여 거울상이성질체 반응을 촉매할 수 있는 D-아미노산 단백질.
  43. 제42항에 있어서,
    D-아미노산 효소는 L-DNA 주형을 사용하여 L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있는 D-아미노산 RNA 중합효소인 D-아미노산 단백질.
  44. 제43항에 있어서,
    상기 D-아미노산 RNA 중합효소는 D-아미노산 T7 RNA 중합효소 또는 D-아미노산 Pfu DNA 중합효소 돌연변이체인 D-아미노산 단백질.
  45. 제44항에 있어서,
    상기 D-아미노산 Pfu DNA 중합효소 돌연변이체는 V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 갖는 D-아미노산 단백질.
  46. 제44항에 있어서,
    상기 D-아미노산 단백질은 적어도 하나의 분할 부위, K363 및 P364 사이의 제1 분할 부위 및 N601 및 T602 사이의 제2 분할 부위를 포함하는 T7 RNA 중합효소인 D-아미노산 단백질.
  47. 제46항에 있어서,
    상기 분할 부위는 위치 357에서 위치 366까지 및/또는 위치 564에서 위치 607까지에서 선택되는 D-아미노산 단백질.
  48. 제42항에 있어서,
    D-아미노산 효소는 L-디옥시리보뉴클레오티드로부터 L-DNA를 합성할 수 있는 D-아미노산 DNA 중합효소인 D-아미노산 단백질.
  49. 제48항에 있어서,
    상기 D-아미노산 DNA 중합효소는 D-아미노산 Pfu DNA 중합효소인 D-아미노산 단백질.
  50. K363 및 P364 사이의 분할 및/또는 N601 및 T602 사이의 분할에 의해 형성된 적어도 2개의 폴리펩타이드 사슬을 포함하는 T7 RNA 중합효소.
  51. 제50항에 있어서,
    I6V, I14L, I74V, I82V, I109V, I117L, I141V, I210M, I244L, I281V, I320V, I322L, I330V 및 I367L로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함하는 T7 RNA 중합효소.
  52. SEQ ID No. 83와 비교하여 적어도 80-90% 서열 동일성을 특징으로 하는 아미노산 서열을 갖는 T7 RNA 중합효소.
  53. K467 및 M468 사이의 분할에 의해 형성된 적어도 2개의 폴리펩타이드 사슬을 포함하는 Pfu DNA 중합효소.
  54. 제53항에 있어서,
    E102A, E276A, K317G, V367L 및 I540A로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함하는 Pfu DNA 중합효소.
  55. 제44항, 제53항 내지 제54항 중 어느 한 항에 있어서,
    V93Q, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함하는 Pfu DNA 중합효소.
  56. 제44항, 제53항 내지 제54항 중 어느 한 항에 있어서,
    D215A, A486Y 및 L490W(SEQ ID No. 77)로 구성된 군에서 선택된 적어도 하나의 돌연변이를 더 포함하는 Pfu DNA 중합효소.
  57. 제44항, 제53항 내지 제54항 중 어느 한 항에 있어서,
    DNA 결합 구조 도메인을 더 포함하되, DNA 결합 구조 도메인은 sso7d 구조 도메인(SEQ ID No. 78)인 Pfu DNA 중합효소.
  58. 제55항에 있어서,
    RNA 중합 활성을 나타내는 Pfu DNA 중합효소.
  59. 제56항에 있어서,
    결핍된 3'→5' 엑소뉴클레아제 활성 및 증가된 디디옥시뉴클레오시드 트리포스페이트(ddNTPs) 선택성을 나타내는 Pfu DNA 중합효소.
  60. 제57항에 있어서,
    개선된 증폭 속도 및 연장 능력을 나타내는 Pfu DNA 중합효소.
  61. SEQ ID No. 51과 비교하여 적어도 80-90% 서열 동일성을 특징으로 하는 아미노산 서열을 갖거나, SEQ ID No. 79와 비교하여 적어도 80% 또는 적어도 90% 서열 동일성을 특징으로 하는 아미노산 서열을 갖는 Pfu DNA 중합효소.
  62. D-아미노산 단백질이 상응하는 L-아미노산 효소에 의해 합성되는 분자의 거울상이성질체인 산물의 합성을 촉매하거나, 상응하는 L-아미노산 효소의 상응하는 기질의 거울상이성질체인 기질의 반응을 촉매하는 효소인 제38항의 D-아미노산 단백질의 용도.
  63. 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 제조되고, L-디옥시리보뉴클레오티드로부터 L-DNA를 합성할 수 있는 D-아미노산 DNA 중합효소를 제공하는 단계; 및
    상기 D-아미노산 DNA 중합효소를 주형 L-DNA 분자, L-DNA 프라이머 및 복수의 L-디옥시리보뉴클레오티드와 반응시켜 L-DNA 분자를 효소적으로 생산하는 단계를 포함하는 L-폴리디옥시리보핵산 분자를 효소적으로 생산하는 공정.
  64. 제63항에 있어서,
    상기 D-아미노산 DNA 중합효소는 Pfu DNA 중합효소인 공정.
  65. 제64항에 있어서,
    상기 Pfu DNA 중합효소는 본질적으로 본 명세서에 제공된 바와 같은 공정.
  66. 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 제조되고, L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있는 D-아미노산 RNA 중합효소를 제공하는 단계; 및
    상기 D-아미노산 RNA 중합효소를 주형 L-DNA 분자, L-DNA/RNA 프라이머 및 복수의 L-리보뉴클레오티드와 반응시켜 L-RNA 분자를 효소적으로 생산하는 단계를 포함하는 L-폴리리보핵산(L-RNA) 분자를 효소적으로 생산하는 공정.
  67. 제66항에 있어서,
    상기 D-아미노산 RNA 중합효소는 T7 RNA 중합효소 또는 Pfu DNA 중합효소 돌연변이체이고, 상기 Pfu DNA 중합효소 돌연변이체는 V93Q, E102A, D141A, E143A, Y410G, A486L 및 E665K로 구성된 군에서 선택된 적어도 하나의 돌연변이를 갖는 공정.
  68. 제67항에 있어서,
    상기 T7 RNA 중합효소는 본질적으로 본 명세서에 제공된 바와 같은 공정.
  69. 목적 분자 및 상기 목적 분자의 거울상이성질체를 함께 결정화하여 거울상이성질체 쌍의 라세미 결정을 형성하는 단계를 포함하되, 상기 목적 분자의 상기 거울상이성질체는 제38항의 D-아미노산 단백질 또는 이의 산물인 라세미 결정 형성 방법.
  70. 라벨링 모이어티가 부착되어 있고, 상응하는 L-아미노산 단백질의 상응하는 분석물질의 거울상이성질체인 분석물질에 대한 친화성을 갖는 제38항의 D-아미노산 단백질을 포함하는 분자 프로브.
  71. 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 제조된 D-아미노산 단백질을 제공하는 단계; 및
    상기 D-아미노산 단백질을 SELEX(systematic evolution of ligands by exponential enrichment, 지수와 농축의 체계적인 진화) 공정에 적용시켜 L-핵산 압타머 또는 D-펩타이드 결합 모이어티를 얻는 단게를 포함하는 L-핵산 압타머 또는 D-펩타이드 결합 모이어티의 생산 방법.
  72. DNA 또는 RNA 서열의 주형을 제1항 내지 제12항 중 어느 한 항에 따라 제조된 DNA 또는 RNA 중합효소와 반응시키는 단계를 포함하되, 상기 반응은 본질적으로 천연 효소 및/또는 천연 DNA/RNA 오염 없이 수행되는 DNA 서열 또는 RNA 서열의 증폭 방법.
  73. 본 명세서에 제공된 바와 같은 D-아미노산 DNA 또는 D-아미노산 RNA 중합효소, 포스포로티오에이트 L-dNTPs 또는 포스포로티오에이트 L-NTPs 및 2개의 상이한 염료로 5'-표지된 2개의 프라이머를 사용하여 L-DNA 또는 L-RNA를 시퀀싱하는 방법.
  74. 본 명세서에 제공된 바와 같은 D-아미노산 DNA 중합효소, L-디디옥시뉴클레오시드 트리포스페이트 및 2개의 상이한 염료로 5'-표지된 2개의 프라이머를 사용하여 L-DNA를 시퀀싱하는 방법.
  75. 제73항 및 제74항 중 어느 한 항에 있어서,
    상기 염료는 FAM 및 Cy5인 방법.
  76. 정보 데이터를 인코딩하는 서열을 갖는 적어도 하나의 L-핵산 분자;
    상기 L-DNA 분자를 합성 및/또는 시퀀싱하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소를 포함하되, 상기 D-아미노산 RNA 중합효소 및/또는 상기 D-아미노산 DNA 중합효소는 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 생산되는 데이터 저장 시스템.
  77. 제76항에 있어서,
    상기 L-아미노산 분자는 화학적으로 또는 거울상 효소-촉매 반응에 의해 제조되는 시스템.
  78. 제76항에 있어서,
    상기 L-핵산 분자는 화학적으로 또는 거울상 효소를 사용하여 합성에 의한 시퀀싱 방법에 의해 시퀀싱되는 시스템.
  79. 제76항에 있어서,
    상기 D-아미노산 RNA 중합효소는 제50항 내지 제52항 중 어느 한 항의 T7 RNA 중합효소인 시스템.
  80. 제76항에 있어서,
    상기 D-아미노산 DNA 중합효소는 제53항 내지 제61항 중 어느 한 항의 Pfu DNA 중합효소인 시스템.
  81. 커버 정보 데이터를 인코딩하는 서열을 갖는 적어도 하나의 D-핵산 분자;
    스테고(stego) 정보 데이터를 해독하기 위한 사이퍼 키(cipher key)를 인코딩하는 서열을 갖는 적어도 하나의 L-핵산 분자 및/또는 D-/L- 키메라 핵산 분자;
    상기 L-DNA 분자를 합성 및/또는 시퀀싱하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소를 포함하되,
    상기 D-아미노산 RNA 중합효소 및/또는 상기 D-아미노산 DNA 중합효소는 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 생산되는 키랄 스테가노그래피(steganography) 접근법.
  82. 제81항에 있어서,
    상기 L-핵산 분자는 화학적으로 또는 거울상 효소-촉매 반응에 의해 제조되는 시스템.
  83. 제81항에 있어서,
    상기 L-핵산 분자는 화학적으로 또는 거울상 효소를 사용한 합성에 의한 시퀀싱 방법에 의해 시퀀싱되는 시스템.
  84. 제81항에 있어서,
    상기 D-/L-키메라 핵산 분자는 화학적으로 또는 천연/거울상 효소-촉매 반응에 의해 제조되는 시스템.
  85. 제81항에 있어서,
    상기 D-/L-키메라 핵산 분자의 L-DNA/RNA 일부는 화학적으로 또는 거울상 효소를 사용하여 합성에 의한 시퀀싱 방법에 의해 시퀀싱되는 시스템.
  86. 제81항에 있어서,
    상기 D-아미노산 RNA 중합효소는 제50항 내지 제52항 중 어느 한 항의 T7 RNA 중합효소인 시스템.
  87. 제81항에 있어서,
    상기 D-아미노산 DNA 중합효소는 제53항 내지 제61항 중 어느 한 항의 Pfu DNA 중합효소인 시스템.
  88. 제81항에 있어서,
    암호화된 데이터를 사용한 추가 보안 계층을 제공하기 위해 DNA 크립토그래피(cryptography)와 결합될 가능성이 있는 시스템.
  89. 고차 구조 및 긴 길이의 서열을 갖는 적어도 하나의 L-RNA 분자;
    상기 L-RNA 분자를 합성하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소를 포함하되, 상기 D-아미노산 RNA 중합효소 및/또는 상기 D-아미노산 DNA 중합효소는 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 생산되는 L-RNA 가수분해 연구 방법.
  90. 고차 구조 및 긴 길이의 서열을 갖는 적어도 하나의 L-RNA 분자;
    상기 L-RNA 분자를 합성하기 위한 D-아미노산 RNA 중합효소 및/또는 D-아미노산 DNA 중합효소를 포함하되, 상기 D-아미노산 RNa 중합효소 및/또는 상기 D-아미노산 DNA 중합효소는 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항에 따라 생산되는 RNA 분해 연구 방법.
  91. 제90항에 있어서,
    RNase-억제 시약의 유효성을 평가하는데 사용될 수 있는 방법.
  92. D-아미노산 RNA 중합효소를 포함하되, 상기 D-아미노산 RNA 중합효소는 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항에 따라 생산되는 전사적 AND-로직.
  93. 제92항에 있어서,
    상기 D-아미노산 RNA 중합효소는 제50항 내지 제52항 중 어느 한 항의 T7 RNA 중합효소인 시스템.
  94. 제92항에 있어서,
    상기 D-아미노산 RNA 중합효소는 적어도 하나의 분할 부위, K363 및 P364 사이의 제1 분할 부위 및 N601 및 T602 사이의 제2 분할 부위를 포함하는 시스템.
  95. 제92항에 있어서,
    상기 D-아미노산 RNA 중합효소는 적어도 하나의 분할 부위, 즉, 동일한 루프에서 상기 언급된 부위들인 위치 357에서 위치 366까지 및/또는 위치 564에서 위치 607까지를 포함하는 시스템.
  96. 제13항 내지 제15항 또는 제25항 내지 제37항 중 어느 한 항의 방법에 따라 제조되고, L-리보뉴클레오티드로부터 L-RNA를 합성할 수 있는 D-아미노산 RNA 중합효소를 제공하는 단계; 및
    상기 D-아미노산 RNA 중합효소를 상이한 길이의 각각의 주형 L-DNA 분자, L-DNA/RNA 프라이머 및 복수의 L-리보뉴클레오티드와 반응시켜 상이한 길이의 L-RNA 분자를 각각 효소적으로 생산하고, 정제 후 특정 농도에서 그들을 서로 혼합하는 단계를 포함하는 L-RNA 마커/래더(ladder)의 생산 방법.
  97. 제96항에 있어서,
    상기 D-아미노산 RNA 중합효소는 본질적으로 본 명세서에 제공된 바와 같은 T7 RNA 중합효소인 방법.
KR1020237007826A 2020-08-06 2021-05-13 대형 거울상 단백질의 화학적 합성 및 이의 용도 KR20230118799A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063061844P 2020-08-06 2020-08-06
US63/061,844 2020-08-06
PCT/IB2021/054106 WO2022029512A1 (en) 2020-08-06 2021-05-13 Chemical synthesis of large and mirror-image proteins and uses thereof

Publications (1)

Publication Number Publication Date
KR20230118799A true KR20230118799A (ko) 2023-08-14

Family

ID=76502751

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237007826A KR20230118799A (ko) 2020-08-06 2021-05-13 대형 거울상 단백질의 화학적 합성 및 이의 용도

Country Status (10)

Country Link
US (1) US20230313156A1 (ko)
EP (1) EP4192841A1 (ko)
JP (1) JP2023537902A (ko)
KR (1) KR20230118799A (ko)
CN (1) CN116547380A (ko)
AU (1) AU2021321395A1 (ko)
CA (1) CA3188462A1 (ko)
IL (1) IL300418A (ko)
MX (1) MX2023001604A (ko)
WO (1) WO2022029512A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6184344B1 (en) * 1995-05-04 2001-02-06 The Scripps Research Institute Synthesis of proteins by native chemical ligation
ATE347617T1 (de) * 1999-05-06 2006-12-15 Sinai School Medicine Steganographie auf dna basis
DK2074211T3 (da) * 2006-09-06 2013-06-17 Medical Res Council DNA polymeraser til inkorporation af farvestof-mærkede nukleotid-analoger
US8551752B2 (en) * 2008-08-08 2013-10-08 Tosoh Corporation RNA polymerase mutant with improved functions
US9193959B2 (en) * 2010-04-16 2015-11-24 Roche Diagnostics Operations, Inc. T7 RNA polymerase variants with enhanced thermostability
US9285372B2 (en) * 2010-11-12 2016-03-15 Reflexion Pharmaceuticals, Inc. Methods and compositions for identifying D-peptidic compounds that specifically bind target proteins

Non-Patent Citations (45)

* Cited by examiner, † Cited by third party
Title
1. L. Ceze, J. Nivala, K. Strauss, Molecular digital data storage using DNA. Nat Rev Genet 20, 456-466 (2019).
10. R. B. Merrifield, Solid Phase Peptide Synthesis .1. Synthesis of a Tetrapeptide. Journal of the American Chemical Society 85, 2149-& (1963).
11. L. Z. Yan, P. E. Dawson, Synthesis of peptides and proteins without cysteine residues by native chemical ligation combined with desulfurization. J Am Chem Soc 123, 526-533 (2001).
12. P. Dawson, T. Muir, I. Clark-Lewis, S. Kent, Synthesis of proteins by native chemical ligation. Science 266, 776-779 (1994).
13. G.-M. Fang et al., Protein Chemical Synthesis by Ligation of Peptide Hydrazides. Angewandte Chemie International Edition 50, 7645-7649 (2011).
14. R. Milton, S. Milton, S. Kent, Total chemical synthesis of a D-enzyme: the enantiomers of HIV-1 protease show reciprocal chiral substrate specificity. Science 256, 1445-1448 (1992).
15. A. A. Vinogradov, E. D. Evans, B. L. Pentelute, Total synthesis and biochemical characterization of mirror image barnase. Chemical Science 6, 2997-3002 (2015).
16. M. T. Weinstock, M. T. Jacobsen, M. S. Kay, Synthesis and folding of a mirror-image enzyme reveals ambidextrous chaperone activity. Proceedings of the National Academy of Sciences of the United States of America 111, 11679-11684 (2014).
17. W. Xu et al., Total chemical synthesis of a thermostable enzyme capable of polymerase chain reaction. Cell discovery 3, 17008 (2017).
18. W. Jiang et al., Mirror-image polymerase chain reaction. Cell discovery 3, 17037 (2017).
19. A. Pech et al., A thermostable d-polymerase for mirror-image PCR. Nucleic Acids Res 45, 3997-4005 (2017).
2. N. Goldman et al., Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature 494, 77-80 (2013).
20. L. E. Zawadzke, J. M. Berg, A Racemic Protein. Journal of the American Chemical Society 114, 4002-4003 (1992).
21. M. Wang et al., Mirror-image gene transcription and reverse transcription. Chem 5, 848-857 (2019).
22. B. J. Lamarche, S. Kumar, M. D. Tsai, ASFV DNA polymerse X is extremely error-prone under diverse assay conditions and within multiple DNA sequence contexts. Biochemistry 45, 14826-14833 (2006).
23. H. Ling, F. Boudsocq, R. Woodgate, W. Yang, Crystal structure of a Y-family DNA polymerase in action: a mechanism for error-prone and lesion-bypass replication. Cell 107, 91-102 (2001).
24. F. Boudsocq, S. Iwai, F. Hanaoka, R. Woodgate, Sulfolobus solfataricus P2 DNA polymerase IV (Dpo4): an archaeal DinB-like DNA polymerase with lesion-bypass properties akin to eukaryotic polη. Nucleic Acids Research 29, 4607-4616 (2001).
25. J. Cline, J. C. Braman, H. H. Hogrefe, PCR fidelity of pfu DNA polymerase and other thermostable DNA polymerases. Nucleic Acids Res 24, 3546-3551 (1996).
26. C. J. Hansen, L. Wu, J. D. Fox, B. Arezi, H. H. Hogrefe, Engineered split in Pfu DNA polymerase fingers domain improves incorporation of nucleotide gamma-phosphate derivative. Nucleic Acids Res 39, 1801-1810 (2011).
27. Q. Wan, S. J. Danishefsky, Free-radical-based, specific desulfurization of cysteine: a powerful advance in the synthesis of polypeptides and glycopolypeptides. Angew Chem Int Ed Engl 46, 9248-9252 (2007).
28. J. T. Hyde C, Owen D, Quibell M, Sheppard RC., Some 'difficult sequences' made easy. International journal of peptide and Protein Research 43, 431-440 (1994).
29. T. Johnson, M. Quibell, R. C. Sheppard, N,O-bisFmoc derivatives of N-(2-hydroxy-4-methoxybenzyl)-amino acids: Useful intermediates in peptide synthesis. Journal of Peptide Science 1, 11-25 (1995).
3. G. M. Church, Y. Gao, S. Kosuri, Next-generation digital information storage in DNA. Science 337, 1628 (2012).
30. J. S. Zheng et al., Robust Chemical Synthesis of Membrane Proteins through a General Method of Removable Backbone Modification. J Am Chem Soc 138, 3553-3561 (2016).
31. M. T. Jacobsen et al., A Helping Hand to Overcome Solubility Challenges in Chemical Protein Synthesis. J Am Chem Soc 138, 11775-11782 (2016).
32. F. W. Torsten Wφhr, Adel Nefzi, Barbara Rohwedder, Tatsunori Sato, Xicheng Sun, Manfred Mutter, Pseudo-Prolines as a Solubilizing, Structure-Disrupting Protection Technique in Peptide Synthesis. J Am Chem Soc 118, 9218-9227 (1996).
33. M. K. Pascal Dumy, Declan E. Ryan, Barbara Rohwedder, Torsten Wφhr, Manfred Mutter, Pseudo-Prolines as a Molecular Hinge: Reversible Induction of cis Amide Bonds into Peptide Backbones. J. Am. Chem. Soc. 119, 918-925 (1997).
34. Y. Sohma et al., 'O-Acyl isopeptide method' for the efficient synthesis of difficult sequence-containing peptides: use of 'O-acyl isodipeptide unit'. Tetrahedron Letters 47, 3013-3017 (2006).
35. I. Coin, The depsipeptide method for solid-phase synthesis of difficult peptides. Journal of peptide science : an official publication of the European Peptide Society 16, 223-230 (2010).
36. G. M. Fang, J. X. Wang, L. Liu, Convergent chemical synthesis of proteins by ligation of peptide hydrazides. Angew Chem Int Ed Engl 51, 10347-10350 (2012).
37. J. S. Zheng, S. Tang, Y. K. Qi, Z. P. Wang, L. Liu, Chemical synthesis of proteins using peptide hydrazides as thioester surrogates. Nat Protoc 8, 2483-2495 (2013).
38. N. K. L., G. Gerald, E. Fritz, V. Hans-Peter, Direct sequencing of polymerase chain reaction amplified DNA fragments through the incorporation of deoxynucleoside α-thiotriphosphates. Nucleic Acids Research, 21 (1988).
39. G. Gish, F. Eckstein, DNA and RNA sequence determination based on phosphorothioate chemistry. Science 240, 1520-1522 (1988).
4. L. Pasteur, Researches on the Molecular Asymmetry of Natural Organic Products. Soc. Chim. Paris, (1860).
40. C. Y. Chen, DNA polymerases drive DNA sequencing-by-synthesis technologies: both past and present. Front Microbiol 5, 305 (2014).
41. A. S. Xiong et al., A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res 32, e98 (2004).
42. A. Tiessen, P. Perez-Rodriguez, L. J. Delaye-Arredondo, Mathematical modeling and comparison of protein size distribution in different plant, animal, fungal and microbial species reveals a negative correlation between protein size and protein number, thus providing insight into the evolution of proteomes. BMC Res Notes 5, 85 (2012).
43. C. Cozens, V. B. Pinheiro, A. Vaisman, R. Woodgate, P. Holliger, A short adaptive path from DNA to RNA polymerases. Proc Natl Acad Sci U S A 109, 8067-8072 (2012).
44. X. Liu, T. F. Zhu, Sequencing mirror-Image DNA chemically. Cell Chemical Biology 25, 1151-1156 e1153 (2018).
45. D. Wade et al., All-D amino acid-containing channel-forming antibiotic peptides. Proc Natl Acad Sci U S A 87, 4761-4765 (1990).
5. Z. Wang, W. Xu, L. Liu, T. F. Zhu, A synthetic molecular system capable of mirror-image genetic replication and transcription. Nature Chemistry 8, 698-704 (2016).
6. M. Peplow, A Conversation with Ting Zhu. ACS Cent Sci 4, 783-784 (2018).
7. M. Peplow, Mirror-image enzyme copies looking-glass DNA. Nature 533, 303-304 (2016).
8. S. L. Beaucage, M. H. Caruthers, Deoxynucleoside Phosphoramidites - a New Class of Key Intermediates for Deoxypolynucleotide Synthesis. Tetrahedron Lett 22, 1859-1862 (1981).
9. Y. Liu et al., Synthesis and applications of RNAs with position-selective labelling and mosaic composition. Nature 522, 368-372 (2015).

Also Published As

Publication number Publication date
AU2021321395A1 (en) 2023-04-13
CN116547380A (zh) 2023-08-04
MX2023001604A (es) 2023-09-05
IL300418A (en) 2023-04-01
JP2023537902A (ja) 2023-09-06
WO2022029512A1 (en) 2022-02-10
CA3188462A1 (en) 2022-02-10
US20230313156A1 (en) 2023-10-05
EP4192841A1 (en) 2023-06-14
WO2022029512A8 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
US20210230578A1 (en) Removal of dna fragments in mrna production process
Fan et al. Bioorthogonal information storage in l-DNA with a high-fidelity mirror-image Pfu DNA polymerase
KR20190059966A (ko) S. 피오게네스 cas9 돌연변이 유전자 및 이에 의해 암호화되는 폴리펩티드
Schutz et al. Capture and sequence analysis of RNAs with terminal 2′, 3′-cyclic phosphates
US11702640B2 (en) Monooxygenase mutant, preparation method and application thereof
EP2850192B1 (en) Enzymatic synthesis of l-nucleic acids
US20220325260A1 (en) Mirror nucleic acid replication system
KR20210125496A (ko) 폴리뉴클레오티드의 주형-유리 효소 합성에서 효율적 생성물 절단
JP7093417B2 (ja) ヌクレアーゼシステムのノッキングアウトによるインビトロ生合成活性の調節方法
JP6670237B2 (ja) 酵素によるl−核酸の合成
AU2021339819A1 (en) Base editing enzymes
CN108795893B (zh) 一种氨基酸脱氢酶突变体及其制备方法和应用
Sisido et al. Four-base codon/anticodon strategy and non-enzymatic aminoacylation for protein engineering with non-natural amino acids
Chen et al. Translating protein enzymes without aminoacyl-tRNA synthetases
EP4127155A1 (en) Class ii, type ii crispr systems
CN109868271B (zh) 利用芯片合成寡核苷酸文库进行dna洗牌文库从头合成的方法
KR20230118799A (ko) 대형 거울상 단백질의 화학적 합성 및 이의 용도
AU2022380842A1 (en) Base editing enzymes
WO2022159742A1 (en) Novel engineered and chimeric nucleases
WO2023222114A1 (en) Methods of making circular rna
EP4330386A2 (en) Enzymes with ruvc domains
WO2022056301A1 (en) Base editing enzymes
CA3204424A1 (en) A protein translation system
KR20220097976A (ko) 폴리뉴클레오타이드의 무-주형 고 효율 효소 합성
CN116867897A (zh) 碱基编辑酶

Legal Events

Date Code Title Description
A201 Request for examination