KR20010042037A - Methods for making character strings, polynucleotides and polypeptides having desired characteristics - Google Patents

Methods for making character strings, polynucleotides and polypeptides having desired characteristics Download PDF

Info

Publication number
KR20010042037A
KR20010042037A KR1020007010375A KR20007010375A KR20010042037A KR 20010042037 A KR20010042037 A KR 20010042037A KR 1020007010375 A KR1020007010375 A KR 1020007010375A KR 20007010375 A KR20007010375 A KR 20007010375A KR 20010042037 A KR20010042037 A KR 20010042037A
Authority
KR
South Korea
Prior art keywords
string
sequence
strings
nucleic acid
source
Prior art date
Application number
KR1020007010375A
Other languages
Korean (ko)
Inventor
셀리포노브서지에이.
스테머윌렘피씨
구스타프손클라에스
토빈매튜
델카데이어스테픈
패튼필립에이
민셜제레미
Original Assignee
맥시겐, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/408,393 external-priority patent/US6436675B1/en
Priority claimed from US09/408,392 external-priority patent/US6376246B1/en
Application filed by 맥시겐, 인크. filed Critical 맥시겐, 인크.
Priority claimed from PCT/US2000/001203 external-priority patent/WO2000042561A2/en
Priority claimed from PCT/US2000/001138 external-priority patent/WO2000042559A1/en
Publication of KR20010042037A publication Critical patent/KR20010042037A/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA

Landscapes

  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biochemistry (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

실리코내 핵산 재조합 방법 및 실리코내(in silico) 셔플링 방법(shuffling method)에 의하여 제조된 유전적 작동 유전자 및 라이브러리를 이용한 관련된 통합 시스템을 제공하는 것이다.It is to provide a related integrated system using genetically working genes and libraries produced by in silico nucleic acid recombination methods and in silico shuffling methods.

Description

목적으로 하는 특징을 갖는 문자열인, 폴리뉴클레오타이드 및 폴리펩타이드의 제작 방법{METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS}METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS}

[관련 출원에 대한 참조 문헌][Reference to Related Applications]

본 출원은 Selifonov 및 Stemmer에 의해 1999년 1월 19일 출원된 USSN 제60/116,447호로서, "METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS"의 예비 가명세서 출원이 아니며, 또한 Selifonov 및 Stemmer에 의해 1999년 2월 15일 출원된 USSN 제60/118,854호로서, "METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS"의 비가명세서 출원인, Selifonov외 다수에 의하여 1999년 10월 12일자로 출원된 USSN 제09/416,375호로서, "METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS"의 부분 계속 출원이다.This application is a USSN 60 / 116,447 filed January 19, 1999 by Selifonov and Stemmer, which is not a preliminary pseudonym application of "METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS", and also Selifonov and Stemmer USSN 60 / 118,854, filed February 15, 1999, filed October 12, 1999 by Selifonov et al., Of non-specific applicant, "METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS" US Ser. No. 09 / 416,375, filed in part, entitled "METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS."

본 출원은 또한 Crameri외 다수에 의하여 1999년 9월 28일 출원된 USSN 제09/408,392호로서, "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION"의 부분 계속 출원이고, Crameri외 다수에 의하여 1999년 2월 5일 출원된 USSN 제60/118,813호로서, "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION"의 비가명세서 출원이며, 또한 Crameri외 다수에 의하여 1999년 6월 24일 출원된 USSN 제60/141,049호로서 "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION"의 비가명세서 출원인, Crameri외 다수에 의하여 동시 출원된, Attorney Docket Number 02-296-3 US인 "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION"의 부분 계속 출원이다.This application is also part of USOL 09 / 408,392, filed September 28, 1999 by Crameri et al., And is a continuing application of "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION," filed February 5, 1999 by Crameri et al. US Ser. No. 60 / 118,813, entitled "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION," and USOL 60 / 141,049, filed June 24, 1999 by Crameri et al., As "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION." Partial application of "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION", Attorney Docket Number 02-296-3 US, filed simultaneously by non-specific applicant, Crameri et al.

본 출원은 또한 Selifonov 및 Stemmer에 의하여 1999년 10월 12일자로 출원된 USSN 제09/416,837호로서, "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS"의 부분 계속 출원이며, Selifonov 및 Stemmer에 의하여 동시 출원된, Attorney Docket Number 3271.002W00(Majestic, Parsons, Siebert & Hsue에 의하여 출원됨)"METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS"의 부분 계속 출원이다.This application is also part of USMET 09 / 416,837, filed Oct. 12, 1999 by Selifonov and Stemmer, a partial continuing application of "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS" and concurrently filed by Selifonov and Stemmer. Attorney Docket Number 3271.002W00, filed by Majestic, Parsons, Siebert & Hsue, is a partial continuing application of "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS."

본 출원은 또한 Welch외 다수에 의하여 1999년 9월 28일 출원된 USSN 제09/408,393호 "USE OF CODON VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING"와 관련된 출원이다.This application is also related to USSN 09 / 408,393, "USE OF CODON VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING," filed September 28, 1999 by Welch et al.

본 출원은 35 U.S.C. §119(e) 및/또는 35 U.S.C. §120에 따라서 적법한 형태로서 본 장에 나열된 각 출원에 우선권 및 특권을 부여한다. 상기 모든 출원들은 본원에 참고 문헌으로 첨부되어 있다.This application claims 35 U.S.C. § 119 (e) and / or 35 U.S.C. In accordance with § 120, each application listed in this chapter, in legal form, shall be given priority and privilege. All such applications are hereby incorporated by reference.

[저작권 공고][Copyright notice]

37 C.F.R. 1.71(e)에 따라서, 본 출원인들은 본 공개 공보에 저작권에 의하여 보호 받는 자료들을 포함하고 있다는 사실을 알고 있다. 상기 저작권 소유자는 특허 상표청 특허 화일 또는 기록에 나타난바와 같은 특허 문서 또는 특허 공보의 제3자에 의한 팩스 복사에 대하여 이의를 갖지 않지만, 그렇지 않은 다른 경우에는 모든 권리에 대하여 저작권을 보유한다.37 C.F.R. In accordance with 1.71 (e), Applicants understand that this publication contains material protected by copyright. The copyright owner has no objection to the facsimile copying by a third party of the patent document or patent publication as indicated in the Patent and Trademark Office patent file or record, but otherwise reserves the copyright for all rights.

반복적 핵산 재조합("셔플링;shuffling")은 생체내 또는 시험관내에서 핵산을 급속하게 진화시킨다. 이러한 급속 진화는 신규한 및/또는 개선된 특성을 갖는 암호화된 분자들(예를 들어, 핵산 및 단백질)을 생산한다. 산업용, 농업용 그리고 치료용으로 중요한 역할을 하는 단백질 및 핵산은 DNA 셔플링 과정을 통하여 만들어지거나 또는 개선될 수 있다.Repetitive nucleic acid recombination (“shuffling”) rapidly evolves nucleic acids in vivo or in vitro. This rapid evolution produces encoded molecules (eg, nucleic acids and proteins) with new and / or improved properties. Proteins and nucleic acids, which play an important role in industrial, agricultural, and therapeutic purposes, can be made or improved through DNA shuffling processes.

본 발명의 발명자 및 공동 연구자들에 의하여 출판된 다수의 출판물에서는 DNA 셔플링에 관하여 기술하고 있다. 예를 들어, Stemmer외 다수 공저(1994) "Rapid Evolution of a Protein" Nature 370:389-391 ; Stemmer저(1994) "DNA Shuffling by Random Fragmentation and Reassembly:in vitro Recombination for Molecular Evolution", Proc. Natl. Acad. USA 91:10747-10751; Stemmer, 미합중국 특허 제 5,603,793호 "METHODS FOR IN VITRO RECOMBINATION" ; Stemmer외 다수, 미합중국 특허 제 5,830,721호 "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY" ; 및 Stemmer외 다수, 미합중국 특허 제 5,811,238호 "METHODS FOR GENERATING POLYNUCLEOTIDES HAVING DESIRED CHARACTERISTICS BY INTERATIVE SELECTION AND RECOMBINATION"에는 예를 들어, 다양한 셔플링 기술에 관하여 기술되어 있다.Numerous publications published by the inventors and collaborators of the present invention describe DNA shuffling. See, eg, Stemmer et al. (1994) “Rapid Evolution of a Protein” Nature 370: 389-391; By Stemmer (1994) "DNA Shuffling by Random Fragmentation and Reassembly: in vitro Recombination for Molecular Evolution", Proc. Natl. Acad. USA 91: 10747-10751; Stemmer, US Patent No. 5,603,793 "METHODS FOR IN VITRO RECOMBINATION"; Stemmer et al., US Pat. No. 5,830,721 "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY"; And Stemmer et al., US Pat. No. 5,811,238, " METHODS FOR GENERATING POLYNUCLEOTIDES HAVING DESIRED CHARACTERISTICS BY INTERATIVE SELECTION AND RECOMBINATION, " for example, describe various shuffling techniques.

다수의 DNA 셔플링 기술의 적용 방법이 발명자 및 그들의 공동 연구자들에 의하여 개발되었다. 상기 문헌들 외에도, Minshull외 다수에 의한 미합중국 특허 제 5,837,458호 "METHODS AND COMPOSITIONS FOR CELLULAR AND METABOLIC ENGINEERING"에서는 반복적 셔플링 기술을 통한 신규한 대사 경로의 진화 및 생물학적 프로세싱의 개선 방법을 제공한다. Crameri외 다수(1996), "Construction And Evolution Of Antibody-Phage Libraries BY DNA Shuffling" Nature Medicine 2(1):100-103에서는 예를 들어 항체 파지 라이브러리에 대한 항체 셔플링에 관하여 기술하고 있다. DNA Shuffling에 관한 부가적인 설명은 예를 들어 WO95/22625, WO97/20078, WO96/33207, WO97/33957, WO98/27230, WO97/35966, WO98/31837, WO98/13487, WO98/13485 및 WO98/42832와 같은 다수의 공개된 출원에서도 살펴 볼 수 있다.Many methods of application of DNA shuffling techniques have been developed by the inventors and their collaborators. In addition to the above documents, US Pat. No. 5,837,458 by Minshull et al., "METHODS AND COMPOSITIONS FOR CELLULAR AND METABOLIC ENGINEERING," provides a method for the evolution of new metabolic pathways and the improvement of biological processing through iterative shuffling techniques. Crameri et al. (1996), “Construction And Evolution Of Antibody-Phage Libraries BY DNA Shuffling” Nature Medicine 2 (1): 100-103, for example, describe antibody shuffling against antibody phage libraries. Additional descriptions regarding DNA Shuffling are described, for example, in WO95 / 22625, WO97 / 20078, WO96 / 33207, WO97 / 33957, WO98 / 27230, WO97 / 35966, WO98 / 31837, WO98 / 13487, WO98 / 13485 and WO98 / 42832 It can also be found in many published applications, such as.

본 발명자 및 그의 공동 연구자 그리고 당 업계의 다른 연구자의 다수의 문헌에도 예를 들어, 유전자의 작은 단편으로부터 수득한 유전자 또는 유전자 단편을 코드화하는 올리고뉴클레오타이드를 재조립하는 방법을 제공함으로써 DNA 셔플링을 촉진시키는 기술에 관하여 설명되어 있다. 상기 문헌들에 더하여, Stemmer외 다수(1998)에 의한 미합중국 특허 제 5,834,252호 "END COMPLEMENTARY POLYMERASE REACTION"에서는 타겟 서열(예를 들어, 핵산의 혼합물내에서)을 증폭 및 검출하는 과정 뿐만아니라 단편들로부터 큰 폴리뉴클레오타이드를 조립하는 과정에 관하여 기술하고 있다.Many of the literature of the present inventors and their co-workers and other researchers in the art also promote DNA shuffling by providing methods for reassembling oligonucleotides encoding, for example, genes or gene fragments obtained from small fragments of genes. The technique of letting is described. In addition to the above documents, US Pat. No. 5,834,252 to "END COMPLEMENTARY POLYMERASE REACTION" by Stemmer et al. (1998) describes amplification and detection of target sequences (eg, in a mixture of nucleic acids) as well as from fragments. A process for assembling large polynucleotides is described.

상기 문헌들을 살펴보면 DNA 셔플링이 실제로 많이 사용되는 중요한 신기술임을 알 수 있다. 따라서, DNA 셔플링을 촉진시키는 신기술은 매우 바람직하다. 구체적으로, 셔플링 과정에 요구되는 물리적 조작의 횟수를 감소시키는 기술이 특히 유용하다. 본 발명은 본 명세서를 완벽히 검토할 경우 명백해질 중요한 DNA 셔플링의 신기술 및 기타 양상들을 제공한다.Looking at the above documents, it can be seen that DNA shuffling is an important new technology that is actually used a lot. Thus, new technologies that promote DNA shuffling are highly desirable. In particular, techniques for reducing the number of physical operations required for the shuffling process are particularly useful. The present invention provides novel techniques and other aspects of DNA shuffling that will become apparent upon a complete review of the specification.

[발명의 개요][Overview of invention]

본 발명은 핵산을 물리적으로 조작(일부 또는 전부)할 필요 없이, DNA 셔플링 과정의 일부 또는 전부가 컴퓨터 시스템에서 수행되거나 또는 모형화되는 신규의 "실리코내(in silico)" DNA 셔플링 기술을 제공한다. 이와 같은 접근 방법을 총칭하여 "유전자 알고리즘 유도성 유전자 합성 (Genetic Algorithm Guided G ene Synthesis)" 즉 "GAGGS"라 부른다.The present invention provides a novel “in silico” DNA shuffling technique in which part or all of the DNA shuffling process is performed or modeled in a computer system, without the need for physical manipulation (some or all) of the nucleic acids. do. This approach is collectively called "Genetic Algorithm Guided G ene Synthesis "or" GAGGS ".

본 발명의 제1양상은 목적으로 하는 특징을 갖는 "키메라" 또는 "재조합" 폴리뉴클레오타이드 또는 폴리펩타이드(또는 기타 생체 고분자)를 수득하는 방법을 제공하는 것이다. 상기 방법에 있어서, 하나 이상의 폴리펩타이드 및/또는 하나 이상의 1본쇄 또는 2본쇄 폴리뉴클레오타이드에 대한 서열 정보를 암호화하는 2이상의 근원 문자열(parent character string)이 제공된다. 상기 서열들 전부 또는 일부(즉, 하나 이상의 준서열)는 동일성 구역(areas of identity) 및 이종 구역(areas of heterology)을 포함한다. 최소한 각 근원 문자열의 일부분 및/또는 상기 근원 문자열에 상보적인 폴리뉴클레오타이드 사슬의 일부분의 중첩 서열 단편을 포함하는, 1본쇄 올리고뉴클레오타이드 서열을 암호화하는 예정된 또는 선택된 길이의 문자열 군이 제공된다.It is a first aspect of the present invention to provide a method for obtaining a "chimeric" or "recombinant" polynucleotide or polypeptide (or other biopolymer) having the desired characteristics. In this method, two or more parent character strings are provided that encode sequence information for one or more polypeptides and / or one or more single- or double-stranded polynucleotides. All or some of the sequences (ie, one or more subsequences) comprise an area of identity and an area of heterology. A set of strings of predetermined or selected lengths that encode single-stranded oligonucleotide sequences is provided that includes at least a portion of each source string and / or overlapping sequence fragments of a portion of a polynucleotide chain complementary to the source string.

일군의 구체예에 있어서, 본 발명은 생물학적 고분자 라이브러리를 제조하는 방법을 제공한다. 상기 방법은 컴퓨터내에서 다양한 무리의 문자열을 발생시키는 것을 포함하는데, 여기서 상기 문자열은 기존의 문자열의 변경(재조합, 돌연변이 유발등)을 통하여 발생된다. 이후 다양한 무리의 문자열은 합성되어 생물학적 고분자(핵산, 폴리펩타이드, 펩타이드 핵산등) 라이브러리를 구성한다. 통상적으로, 생물학적 고분자 라이브러리의 일원들은 하나 이상의 활성에 대하여 선택된다. 본 발명의 제2 양상에 있어서, 의도하는 역치(threshold) 이하의 활성을 나타내는 생물학적 고분자 라이브러리의 일원을 갖는 추가의 라이브러리 또는 문자열의 추가의 세트는 이들을 공제함으로써 필터링된다. 본 발명의 제3 양상에 있어서, 의도하는 역치(threshold) 이상의 활성을 나타내는 생물학적 고분자 라이브러리의 일원을 갖는 문자열의 추가의 라이브러리 또는 추가의 세트는 이들을 바이어스시킴으로써 필터링된다.In a group of embodiments, the invention provides a method of making a biological polymer library. The method involves generating various groups of strings in a computer, where the strings are generated through alterations (recombination, mutagenesis, etc.) of existing strings. Strings of various groups are then synthesized to form a library of biological polymers (nucleic acids, polypeptides, peptide nucleic acids, etc.). Typically, members of a biological polymer library are selected for one or more activities. In a second aspect of the invention, additional sets of additional libraries or strings having members of a biological polymer library exhibiting activity below the intended threshold are filtered by subtracting them. In a third aspect of the invention, additional libraries or additional sets of strings having members of a biological polymer library exhibiting activity above the intended threshold are filtered by biasing them.

문자열에서 정의된 서열들 세트에 따라 제조된 1본쇄 올리고뉴클레오타이드 세트가 제공된다. 제조된 1본쇄 뉴클레오타이드의 일부 또는 전부는 변성 또는 어닐링 조건하에서 풀링(pooling)되는데, 여기서 2이상의 1본쇄 올리고뉴클레오타이드는 2개의 상이한 근원 서열의 일부를 나타낸다. 결과로 수득된 1본쇄 올리고뉴클레오타이드 군집은 동일성 구역의 1본쇄 단편을 어닐링시켜 어닐링된 단편을 형성시키는 중합효소와 함께 항온처리된다. 이와 같은 동일성 구역은 쌍 사슬중 어느 하나가 다른 하나의 복제를 프라이밍시켜 상기 올리고뉴클레오타이드의 길이를 증가시키는데에 충분하다. 결과로 수득된 1본쇄 및 2본쇄 올리고뉴클레오타이드 혼합물은 1본쇄 단편으로 변성된다. 상기 단계들은 반복 수행되어, 최소한의 1본쇄 키메라 및 돌연변이된 폴리뉴클레오타이드의 혼합물의 일부가 연속 순환 단계에서 사용된다. 의도하는 특성을 갖도록 진화된 재조합 폴리뉴클레오타이드가 선택되거나 또는 스크리닝된다.A set of single-stranded oligonucleotides prepared according to the set of sequences defined in the string is provided. Some or all of the single-stranded nucleotides prepared are pooled under denaturing or annealing conditions, where two or more single-stranded oligonucleotides represent a portion of two different source sequences. The resulting single stranded oligonucleotide population is incubated with a polymerase that anneals the single stranded fragment of the identity zone to form the annealed fragment. This identity zone is sufficient for either of the paired chains to prime the replication of the other to increase the length of the oligonucleotide. The resulting single and double stranded oligonucleotide mixtures are denatured into single stranded fragments. The above steps are performed repeatedly so that a portion of the mixture of at least single-stranded chimeric and mutated polynucleotides is used in the continuous circulation step. Recombinant polynucleotides that have been evolved to have the desired properties are selected or screened.

본 발명의 제4 양상에 있어서, 본 발명은 유전자 작동자의 사용(예를 들어, 컴퓨터에서의 사용)를 제공한다. 이와 같은 방법에 있어서, 상기 올리고뉴클레오타이드에 상응하는 서열 열은 1본쇄 올리고뉴클레오타이드의 이하 세트중 하나 이상에 상응하는 서열 열으로부터 컴퓨터에 의해서 선택된다.In a fourth aspect of the invention, the invention provides for the use of a gene effector (eg, in a computer). In such a method, the sequence column corresponding to the oligonucleotide is selected by a computer from a sequence column corresponding to one or more of the following sets of single-stranded oligonucleotides.

a)하나 이상의 문자를 다른 문자로 치환하거나, 또는 하나 이상의 문자를 결실 또는 삽입한 것을 포함하는, 변형 서열에 따라 근원 서열에 랜덤하게 또는 비랜덤적으로 소정의 돌연 변이를 포함하도록 합성된 올리고뉴클레오타이드;a) oligonucleotides synthesized to include certain mutations, randomly or non-randomly, in the source sequence, according to a variant sequence, including replacing one or more letters with another letter, or deleting or inserting one or more letters ;

b)랜덤하게 또는 비랜덤적으로 소정의 위치에서 축퇴성의, 혼합 또는 비천연 뉴클레오타이드를 포함하도록 합성된 올리고뉴클레오타이드 서열; 및b) oligonucleotide sequences synthesized to include degenerate, mixed or non-natural nucleotides at random positions, randomly or non-randomly; And

c)2이상의 근원 서열의 결합된 일부 서열을 포함하도록 디자인된 문자 아열의 인공 서열에 따라서 합성된 키메라 올리고뉴클레오타이드.c) A chimeric oligonucleotide synthesized according to the artificial sequence of the character subcolumn designed to include some joined sequence of two or more source sequences.

임의의 구체예에 있어서, (c)세트의 올리고뉴클레오타이드는 (a) 및 (b)에서 정의된 하나 이상의 돌연변이성 또는 축퇴성 위치를 포함한다. (c)세트의 올리고뉴클레오타이드는 상이한 근원 문자열을 갖는 서열을 포함하는 열 쌍의 전부 또는 일부 사이에서 쌍 동일성(상동성)을 나타내는 다수의 문자 아열을 동정할 수 있도록 하는 방법에 따라서 선택된 크로스오버점을 갖는 임의의 키메라 뉴클레오타이드가다.In any embodiment, the set of (c) oligonucleotides comprises one or more mutagenic or degenerate positions as defined in (a) and (b). (c) the set of oligonucleotides is a crossover point selected according to a method that enables the identification of multiple character substrings showing pair identity (homology) between all or a portion of a column pair comprising sequences having different source strings. Is any chimeric nucleotide having

키메라 올리고뉴클레오타이드 서열을 제조하기 위한 크로스오버점은 동정된 쌍 동일성 구역(상동성)의 일부 또는 중간 구역에서 임의로 랜덤하게 또는 비랜덤적으로 선택되거나 또는 기타의 선택 표본 세트에 의해서 선택된다.The crossover points for preparing chimeric oligonucleotide sequences are randomly or nonrandomly selected in some or intermediate regions of the identified pair identity regions (homology) or by other sets of selection samples.

본 발명의 제5 양상에 있어서, 하나 이상의 키메라 올리고뉴클레오타이드 서열에 대한 하나 이상의 크로스오버점은 검출된 동일성 구역 이외에서 선택된다.In a fifth aspect of the invention, one or more crossover points for one or more chimeric oligonucleotide sequences are selected outside the detected identity region.

본 발명의 제6 양상에 있어서, 전술한 1본쇄 올리고뉴클레오타이드의 혼합물은 제공된 임의의 근원 서열의 일부 및/또는 전부의 문자열, 및/또는 제공된 근원 문자열의 임의 구역과의 이종성 및 동일성 구역을 포함하는 기타의 문자열에 의하여 암호화되는 하나 이상의 2본쇄 또는 1본쇄 폴리뉴클레오타이드를 포함하는 폴리뉴클레오타이드의 추가적인 세트로써 1회 이상 풀링된다.In a sixth aspect of the invention, a mixture of the foregoing single-stranded oligonucleotides comprises a region of part and / or all of any source sequence provided, and / or a region of heterogeneity and identity with any region of the provided source strings. Pooled one or more times with an additional set of polynucleotides comprising one or more double- or single-stranded polynucleotides encoded by other strings.

폴리뉴클레오타이드의 추가적 세트로부터 수득된 폴리뉴클레오타이드는 임의의 근원 문자열(또는 이들의 상동체)에 상응하는 올리고뉴클레오타이드를 합성하거나 또는 랜덤 단편화(random fragmentation)(예를 들어, 폴리뉴클레오타이드의 DNase와 같은 효소에 의한 절단, 또는 화학적 절단)시키고/또는 전술한 문자열 및/또는 제공된 근원 문자열의 임의구역과의 이종 및 동일 구역을 포함하는 기타의 문자열에 의하여 암호화되는 폴리뉴클레오타이드를 제한 효소 단편화시킴으로써 수득할 수 있다. 즉, GAGGS에 의하여 합성된 임의의 핵산은 실용 가능한 방법에 의하여 추가로 변형되어 추가적으로 변이된 핵산을 얻을 수 있다. 더욱이, 임의의 변이된 핵산은 GAGGS의 추가적인 순환에 있어서 기질로서 사용할 수 있다.Polynucleotides obtained from an additional set of polynucleotides can be used to synthesize oligonucleotides corresponding to any source string (or homologs thereof) or to random fragmentation (e.g., DNases of polynucleotides). Cleavage, or chemical cleavage) and / or restriction enzyme fragmentation of polynucleotides encoded by heterologous and any other strings comprising the same region as described above and / or any region of the source string provided. That is, any nucleic acid synthesized by GAGGS can be further modified by practical methods to obtain additionally modified nucleic acids. Moreover, any mutated nucleic acid can be used as a substrate for further circulation of GAGGS.

상기 방법은 광범위한 길이의 합성 올리고뉴클레오타이드(예를 들어, 10-20 뉴클레오타이드 또는 그 이상, 20-40 뉴클레오타이드 또는 그 이상, 40-60 뉴클레오타이드 또는 그 이상, 60-100 뉴클레오타이드 또는 그 이상, 100-150 뉴클레오타이드 또는 그 이상 등), 다양한 형태의 근원 서열(예를 들어, EPO, 인슐린, 성장 호르몬, 항체등과 같은 치료용 단백질; 식물 호르몬, 질병 내성 인자, 제초제 내성 인자(예를 들어, p450s)와 같은 농업용 단백질; 산업용 단백질(예를 들어, 기름의 세균성 탈황화, 중합체 합성, 단백질의 해독화 및 복합화, 발효 등에 관여하는 단백질) 및 다수의 선택/스크리닝 순환(예를 들어, 1이상의 순환, 2이상의 순환, 3-4이상의 순환, 10이상의 순환, 10-50이상의 순환, 50-100이상의 순환 또는 100이상의 순환)에 대하여 적합하게 적용된다. GAGGS 진화 라운드는 다양한 형식으로(생체내 또는 시험관내)물리적 핵산 셔플링 및/또는 선택 검정법으로 변경될 수 있다. 선택된 핵산(즉, 의도하는 특성을 갖는 핵산)은 시퀀싱 또는 제한 효소 분석법, 실시간 PCR 분석법등과 같은 기타의 과정들에 의해서 풀림(deconvolution), 예를 들어 이전의 GAGGS 라운드로부터 수득된 DNA를 물리적으로 조작하지 않을 수 있으며, 이로써 상기 과정은 유전자 합성을 유도하는 서열 정보를 사용하여 시작할 수 있다.The method comprises synthetic oligonucleotides of a wide range of lengths (e.g., 10-20 nucleotides or more, 20-40 nucleotides or more, 40-60 nucleotides or more, 60-100 nucleotides or more, 100-150 nucleotides Or more), various forms of source sequences (e.g., therapeutic proteins such as EPO, insulin, growth hormones, antibodies, etc .; plant hormones, disease resistance factors, herbicide resistance factors (e.g. p450s) Agricultural proteins; industrial proteins (e.g., proteins involved in bacterial desulfurization of oils, polymer synthesis, detoxification and complexation of proteins, fermentation, etc.) and multiple selection / screening cycles (e.g., one or more cycles, two or more) Cycles, 3-4 cycles, 10 cycles, 10-50 cycles, 50-100 cycles, or 100 cycles. Rounds may be altered by physical nucleic acid shuffling and / or selection assays in a variety of formats (in vivo or in vitro): Selected nucleic acids (ie, nucleic acids with intended properties) may be sequenced or restriction enzyme assays, real-time PCR assays, etc. Other processes such as deconvolution, for example, may not physically manipulate DNA obtained from previous GAGGS rounds, so that the process can be started using sequence information to induce gene synthesis. .

상기 방법에 있어서 통상적으로, 1본쇄 올리고뉴클레오타이드로부터 수득한 폴리뉴클레오타이드는 조립 PCR(assembly PCR)에 의하여 합성된다. 핵산 제조시의 기타 선택 사양으로서는 결찰 반응, 클로닝등을 포함한다.In the above method, polynucleotides obtained from single-stranded oligonucleotides are usually synthesized by assembly PCR. Other options at the time of nucleic acid preparation include ligation reactions, cloning and the like.

통상의 구체예에 있어서, 근원 열 단편을 포함하는 1본쇄 올리고뉴클레오타이드를 암호화하고, 예정된 길이의 키메라 및 돌연변이/축퇴성의 단편들을 포함하는 문자열 세트들은 서열 열 조작용 소프트웨어가 구비된 컴퓨터와 같은 처리 인자들을 포함하는 장치를 사용하여 합성된다.In a typical embodiment, a set of strings encoding a single stranded oligonucleotide comprising a source column fragment and comprising chimeric and mutant / degenerate fragments of predetermined length are processed such as a computer with software for sequence column manipulation. Synthesized using a device containing arguments.

본 발명의 제7양상에 있어서, 본 발명은 단일 근원 GAGGS를 제공한다. 상기 방법들은 본원의 실시예에서 더욱 상세히 설명된다.In a seventh aspect of the invention, the invention provides a single source GAGGS. The methods are described in more detail in the Examples herein.

본 발명은 유전자 알고리즘 및 핵산 셔플링 방법에 유전자 알고리즘을 적용하는 것에 관한 것이다.The present invention relates to the application of genetic algorithms to genetic algorithms and nucleic acid shuffling methods.

도1은 GAGGS에 의하여 유도된 진화의 일부를 설명하는 플로우 차트이다.1 is a flow chart illustrating some of the evolution induced by GAGGS.

도2는 GAGGS에 의하여 유도된 진화의 일부를 설명하는 플로우 차트이다. 도2의 플로우 차트는 도1과 임의적으로 연결될 수 있다.2 is a flow chart illustrating some of the evolution induced by GAGGS. The flowchart of FIG. 2 may be arbitrarily connected with FIG.

도3은 GAGGS에 의하여 유도된 진화의 일부를 설명하는 플로우 차트이다. 도3의 플로우 차트는 도 2와 임의로 연결될 수 있다.3 is a flow chart illustrating part of the evolution induced by GAGGS. The flowchart of FIG. 3 can be arbitrarily connected with FIG.

도4는 GAGGS에 의하여 유도된 진화의 일부를 설명하는 플로우 차트이다. 도4의 플로우 차트는 도 3과 임의로 연결될 수 있다.4 is a flow chart illustrating some of the evolution induced by GAGGS. The flowchart of FIG. 4 may be arbitrarily connected with FIG. 3.

도5는 상이한 서브틸리신(표준적인 셔플링 타겟)에 대한 유사도%를 나타내는 관계 트리(relational tree)이다.5 is a relational tree showing the percent similarity for different subtilisin (standard shuffling target).

도6은 상이한 서브틸리신에 대한 상동성 구역을 나타내는 쌍 점 플롯(dot-plot) 배열이다.FIG. 6 is a dot-plot arrangement showing homology zones for different subtilisin.

도7은 7개의 상이한 근원 서브틸리신에 상동성을 나타내는 점 플롯 배열이다.FIG. 7 is a dot plot arrangement showing homology to seven different source subtilisins.

도8에 있어서, 패널 A-C는 선택된 유전자 길이의 임의의 구역 및 근원 사슬의 쌍을 독립적으로 제어할 수 있는 크로스오버 선택의 가능성을 결정하는 조건을 나타내는 평행 히스토그램이다.In Figure 8, Panels A-C are parallel histograms showing conditions that determine the possibility of crossover selection capable of independently controlling any region and source chain pair of selected gene length.

도9는 검색된 크로스오버 마커를 각 근원 서열로 도입시키는 것을 나타내는 차트이다.9 is a chart illustrating the introduction of retrieved crossover markers into each source sequence.

도10은 핵산을 제조하기 위하여 올리고뉴클레오타이드를 조립하는 과정을 나타낸다.10 shows a process for assembling oligonucleotides to prepare nucleic acids.

도11은 올리고뉴클레오타이드 조립 과정을 나타내는 도10의 연속이다.11 is a continuation of FIG. 10 illustrating an oligonucleotide assembly process.

도12는 나프탈렌 탈산소효소 셔플링에 대한 차이 도표 및 상관성 트리(relatedness tree)이다.Figure 12 is a difference plot and correlation tree for naphthalene deoxygenase shuffling.

도13은 본 발명의 디지털 시스템의 개략도이다.Figure 13 is a schematic diagram of the digital system of the present invention.

도14는 뉴클레오타이드간 기하학적 관계를 나타내는 개략도이다.14 is a schematic diagram showing geometric relationships between nucleotides.

도15는 HMM 매트릭스의 개략도이다.15 is a schematic diagram of an HMM matrix.

본 발명에 있어서, "유전자(genetic)" 또는 "진화의(evolutionary)" 알고리즘은 의도하는 특성을 갖도록 셔플링되고 시험된 물리적 분자로 전환될 수 있는 서열 열을 제조하는 데에 사용된다. 이는 셔플링 방법중 셔플링 기질을 미리 선택하는 능력이 핵산의 실질적인 물리적 조작을 감소시키므로, 진화 과정을 강력히 촉진시킨다. 더욱이, 셔플링 방법에서 "가상적 기질(virtual substrates)"로서의 문자열을 사용하는 경우에는 유전자 재구성 방법과 함께 수행될 경우, 유전자를 암호화하는 물리적 근원 분자를 구할 필요성이 감소된다.In the present invention, "genetic" or "evolutionary" algorithms are used to prepare sequence sequences that can be converted into physical molecules that have been shuffled and tested to have the desired properties. This strongly facilitates the evolutionary process, as the ability to preselect shuffling substrates in the shuffling method reduces substantial physical manipulation of the nucleic acid. Furthermore, the use of strings as "virtual substrates" in shuffling methods reduces the need to obtain physical source molecules encoding genes when performed in conjunction with gene reconstruction methods.

완전히 특성화되지 않거나 또는 너무 복잡해서 완전히 특성화시킬 수는 없고 분석적 평가만이 가능하다는 문제점을 해결하는 다양한 분야에서 유전자 알고리즘(Genetic Algorithms;GA)이 사용된다. 즉, GA는 솔루션의 상대치(즉, 다른 솔루션과 하나의 잠재 솔루션(potential solution)의 비교에 따른 상대치의 최소값)에 대한 정량 가능한 측정법에 의하여 평가될 수 있는 문제점들을 해결하는데에 사용된다. 유전자 알고리즘의 기본 컨셉은 일련의 파라미터로서 문제점에 대한 잠재 솔루션을 암호화하는 것이다. 단일 세트의 파라미터 값은 각 솔루션의 "게놈" 즉, 유전자 물질 솔루션으로서 처리된다. 그 결과 후보 솔루션의 거대 군집이 창출된다. 상기 솔루션은 적자 생존의 원칙, 즉 각 솔루션은 최종 솔루션 세트에 대한 몇몇 파라미터 값을 반복하게 될 가능성은 개체의 최적 상태와 직접적으로 관련되어 있다는 의미이다(즉, 선택된 파라미터에 대한 군집내에서 상기 솔루션이 다른 개체와 어떻게 관계를 잘 유지해 나가는가에 관한 것).Genetic Algorithms (GAs) are used in various fields to solve the problem that they are not fully characterized or are too complex to be fully characterized and only analytical evaluation is possible. That is, GA is used to solve problems that can be assessed by quantifiable measures of the relative value of a solution (ie, the minimum value of the relative value of a comparison of one potential solution with another solution). The basic concept of genetic algorithms is to encode potential solutions to problems as a set of parameters. A single set of parameter values is treated as the "genomic" of each solution, ie the genetic material solution. The result is a large cluster of candidate solutions. The solution means that the principle of survival of the fittest, ie the likelihood that each solution will repeat several parameter values for the final solution set, is directly related to the optimal state of the individual (ie the solution within the cluster for the selected parameter). How to maintain a good relationship with this other entity).

브리딩(breeding)은 기본적인 생물학적 재조합과 유사한 크로스오버 및 돌연변이와 같은 작동자를 사용함으로써 이루어진다. 이론적 선택 메카니즘과 함께 작동자를 간단히 사용하면 광범위한 문제점에 대하여 눈에 띌만큼 좋은 결과를 가져올 수 있다.Breeding is accomplished by using operators such as crossovers and mutations similar to basic biological recombination. Simple use of the operator in combination with the theoretical selection mechanism can produce noticeable results for a wide range of problems.

유전자 알고리즘으로의 도입은 David E. Goldberg(1989) Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley Pub Co;ISBN:0201157675 및 Timothy Masters(1993) Practical Neural Network Recipes in C++(Book&Disk edition) Academic Pr;ISBN:0124790402에서 살펴볼 수 있다. 더욱 최근의 다수의 참고 문헌에서는 다수의 난해한 문제들을 해결하는데에 사용되는 유전자 알고리즘의 용도에 관하여 논의되고 있다. 예를 들어 http://garage.cse.msu.edu/papers/papers-index.html 및 여기에 언급되어 있는 참고 문헌 ; http://gaslab.cs.unr.edu 및 여기에 언급되어 있는 참고 문헌 ; http://www.aic.nrl.navy.mil/ 및 여기에 언급되어 있는 참고 문헌 ; http://www.cs.gmu.edu/research/gag/ 및 여기에 언급되어 있는 참고 문헌 및 http://www.cs.gmu.edu/research/gag/pubs.html 및 여기에 언급되어 있는 참고 문헌들을 참조하시오.Introduction to genetic algorithms is described by David E. Goldberg (1989) Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley Pub Co; IBSN: 0201157675 and Timothy Masters (1993) Practical Neural Network Recipes in C ++ (Book & Disk edition) Academic Pr ; ISBN: 0124790402. Many more recent references discuss the use of genetic algorithms for solving many difficult problems. See for example http://garage.cse.msu.edu/papers/papers-index.html and references cited therein; http://gaslab.cs.unr.edu and references cited therein; http://www.aic.nrl.navy.mil/ and references cited therein; http://www.cs.gmu.edu/research/gag/ and references cited here and http://www.cs.gmu.edu/research/gag/pubs.html and references cited here See references.

본 발명에 있어서, 유전자 알고리즘(GA)은 생체 고분자의 변이를 초래하는 과정에 대하여 문자열을 기초로 한 표본을 제공하는데에 사용된다(하나 이상의 유전자 작동자를 예를 들어 유전자 서열과 같은 문자열의 제공된 군집(예를 들어, 근원 라이브러리)에 적용시킴으로써 문자열을 컴퓨터상에서 진화시킴).In the present invention, a genetic algorithm (GA) is used to provide string-based samples for processes that result in mutations in biopolymers (provided clusters of strings such as gene sequences, for example one or more gene effectors). (E.g., evolving strings on a computer by applying them to a source library).

GA-발생 문자열 군집(또는 "파생 라이브러리(derivative library)")의 표본은 폴리뉴클레오타이드 합성(예를 들어, 비오류 경향성 합성(non-error prone synthesis), 오류 경향성 합성(error-prone synthesis), 평행적 합성(parallel synthesis), 풀링 합성(pooled synthesis), 화학 합성, 화학 효소적 합성(합성 올리고뉴클레오타이드의 조립 PCR을 포함)등을 통하여)을 제어하는데에 적합한 형태로 설정된 서열 지침으로서 사용된다. 폴리뉴클레오타이드 합성은 파생 라이브러리내 문자열에 의하여 암호화된 서열로써 수행된다. 이는 연산에 의해 발생된 "유전자" (또는 기타 문자열) 다양성의 물리적 표현(폴리뉴클레오타이드 라이브러리)을 제공한다.Samples of GA-generating string clusters (or "derivative libraries") may be used for polynucleotide synthesis (eg, non-error prone synthesis, error-prone synthesis, parallelism). It is used as a sequence guide set in a form suitable for controlling parallel synthesis, pooled synthesis, chemical synthesis, chemical enzymatic synthesis (including synthetic PCR of synthetic oligonucleotides). Polynucleotide synthesis is performed with sequences encoded by strings in the derived library. This provides a physical representation (polynucleotide library) of the "gene" (or other string) diversity generated by the operation.

의도하는 특징을 갖는 폴리뉴클레오타이드의 물리적 선택 또한 임의로(그리고 통상적으로) 수행된다. 이와 같은 선택은 폴리뉴클레오타이드 또는 폴리펩타이드의 특성에 대한 물리적 검정법의 결과, 즉 시험관내에서 번역되었는지 또는 생체내에서 발현되었는지 여부를 기초로 한다.Physical selection of the polynucleotides having the intended characteristics is also optionally (and usually) performed. This selection is based on the results of physical assays on the properties of the polynucleotides or polypeptides, ie whether they are translated in vitro or expressed in vivo.

목적으로 하는 특징을 갖는 것으로 알려진 폴리뉴클레오타이드 서열들은 (예를 들어, 시퀀싱 또는 위치 정보가 유용할 경우에는 폴리뉴클레오타이드의 위치를 기록함으로써) 단순화된다. 이는 DNA 시퀀싱, 배열상 위치의 파악, 실시간 PCR(예를 들어, TaqMan), 제한 효소 절단, 또는 본원에 언급된 기타 방법 또는 현재 사용되고 있는 방법으로써 수행된다.Polynucleotide sequences known to have the desired characteristics are simplified (eg, by recording the location of the polynucleotide if sequencing or position information is available). This is done by DNA sequencing, localization, real-time PCR (eg, TaqMan), restriction enzyme cleavage, or other methods mentioned herein or currently used.

상기 단계들은 예를 들어 1-4회 이상의 순환 동안 임의로 반복 실시될 수 있는데, 매회 각 과정을 시작하는 데에 사용하는 신규의 변형된 문자열 세트를 합성하기 위한 정보 소스로서 단순화된 서열들이 임의로 사용된다. 물론, 실리코에서 합성된 임의의 핵산 서열이 합성되어 본원에 언급된 발명자 및 공동 연구자에 의하여 참고 문헌에서 교시된 방법들을 포함하는 임의의 공지된 DNA 셔플링 방법에 의하여 셔플링될 수 있다. 이와 같이 합성된 DNA는 또한 돌연 변이가 유발될 수 있거나 그렇지 않으면 현존 기술에 따라서 변형될 수 있다.The steps can be optionally repeated, for example for one to four or more cycles, wherein simplified sequences are optionally used as a source of information for synthesizing a new set of modified strings used to begin each process each time. . Of course, any nucleic acid sequence synthesized in silico can be synthesized and shuffled by any known DNA shuffling method, including methods taught in the references by the inventors and co-workers mentioned herein. DNA thus synthesized may also be mutated or otherwise modified according to existing techniques.

요약하면, GAGGS는 물리적으로 핵산을 합성하기 위한 주형으로서 사용되는 특정 정보 인자(예를 들어, 문자열)들의 세트를 창출하는 정보 조작 단계(유전자 알고리즘을 핵산 또는 단백질과 같은 생체 고분자를 나타내는 문자열에 적용시키는 단계)를 포함하는 진화적 과정이다. 정보 인자는 데이터베이스내에 삽입시킬 수도 있으며, 그렇지 않은 경우에는 예를 들어, 합성된 서열에 GA를 반복적으로 적용시켜 실리코내(in silico)에서 조작될 수 있다. 대응하는 물리적인 핵산은 단순화된(예를 들어, 시퀀싱되었거나 또는 분석된) 핵산으로 재조합/선택될 수 있거나 또는 기타 다양성을 유발시킬 수 있으며 과정의 전체를 반복 수행하여 의도하는 핵산을 얻을 수 있다.In summary, GAGGS applies information manipulation steps (genetic algorithms to strings representing biopolymers such as nucleic acids or proteins) that create a set of specific informational factors (eg strings) that are physically used as templates for synthesizing nucleic acids. Evolutionary process). The information factor may be inserted into the database or otherwise manipulated in silico, for example, by repeatedly applying GA to the synthesized sequence. Corresponding physical nucleic acids may be recombined / selected into simplified (eg, sequenced or analyzed) nucleic acids or may cause other diversity and repeat the process to obtain the desired nucleic acid.

GAGGS의 전형적인 이점Typical Benefits of GAGGS

종래 기술에 비하여 GAGGS는 다수의 장점을 갖고 있다. 올리고뉴클레오타이드 디자인 및 선택에 서열 정보가 사용되기 때문에, 예를 들어 유전자/유기체에 물리적으로 접근할 필요가 없다는 것이 이중 하나이다. 다수의 일반적인 데이터베이스는 예를 들어, GenbankTM및 상기 언급한 정보를 포함하는 추가적인 서열 정보를 제공한다. 추가의 서열 데이터베이스는 게놈 정보의 발생 및 저장에 전문적인 다수의 회사들의 계약을 기초로하여 상용화되어 있다.Compared with the prior art, GAGGS has a number of advantages. Since sequence information is used in oligonucleotide design and selection, one of them is that there is no need for physical access to a gene / organism, for example. Many common databases provide additional sequence information, including, for example, Genbank and the aforementioned information. Additional sequence databases are commercially available based on contracts from a number of companies that specialize in the generation and storage of genomic information.

이와 유사하게, 획득 및 배양이 불가능한 유기체들 유래의 서열은 GAGGS에 사용될 수 있다. 예를 들어, 병원성 유기체로부터 수득한 서열들은 상기 병원체를 실제로 다루지 않고서도 사용될 수 있다. 손상되었으며 불완전한 유전자(예를 들어, 의사 유전자;pseudo genes)를 포함하여, 물리적 DNA 셔플링에 적합한 모든 형태의 서열은 GAGGS 적용이 용이하다.Similarly, sequences from organisms that cannot be obtained and cultured can be used for GAGGS. For example, sequences obtained from pathogenic organisms can be used without actually dealing with the pathogen. All forms of sequence suitable for physical DNA shuffling, including damaged and incomplete genes (eg, pseudo genes), are easy to apply to GAGGS.

상이한 형태의 돌연 변이 유발 및 크로스오버를 포함하며, DNA 조작을 수반하는 물리적 실험시 사람으로 인한 오류 및 변이가 발생하는 것을 막을 수 있는 모든 유전자 작동자는 재현 가능한 형태로 완전하게 그리고 독립적으로 제어가능하다. GAGGS는 인공 지능에 의한 자기 학습 능력을 부여할 수 있다(수율에 대한 피드백 도입, 물리적 스크리닝의 성공률 및 실패율을 기초로 한 알고리즘 출력 파라미터 거동의 최적화).All gene operators, including different forms of mutagenesis and crossover, that can prevent human errors and mutations from occurring in physical experiments involving DNA manipulation, are completely and independently controllable in a reproducible form. . GAGGS can impart self-learning capabilities by artificial intelligence (optimization of algorithm output parameter behavior based on feedback on yield, success rate and failure rate of physical screening).

GAGGS 과정에 있어서, 프레임 이동 돌연 변이(frame-shift mutations)(일반적으로 바람직하지 않은)가 발생한 서열은 제거되거나 또는 수정된다(특징 세트로부터 제거하거나 또는 실리코내에서 수선됨). 이와 유사하게, 조기 종결된 부분 및 의도하는 특성을 나타내는 데에 중요한 것으로 알려진 서열 특징이 상실된 부분(예를 들어, 금속 결합에 보존적인 리간드)은 제거되거나 또는 수선된다.In the GAGGS process, sequences in which frame-shift mutations (generally undesirable) occur are removed or modified (removed from a feature set or repaired in silico). Similarly, portions that are prematurely terminated and portions of which sequence features are known to be important for exhibiting the intended properties (eg, ligands conserved in metal bonds) are removed or repaired.

더욱이, 야생형 양친은 다수 중복 양친 분자를 갖는 파생 라이브러리를 오염시키지 않으며, 하나의 바람직한 구체예에서, 이미변형된 유전자들만이 물리적으로 셔플링 및/또는 스크리닝된다(어떤 경우에 있어서는 사용가능한 검정법에 따라 고비용일 수 있거나 또는 낮은 처리량이거나 그렇지 않으면 그리 이상적이지 못하다).Moreover, wild type parents do not contaminate derived libraries with multiple overlapping parent molecules, and in one preferred embodiment, only the already modified genes are physically shuffled and / or screened (in some cases according to the available assays) May be expensive or low throughput or otherwise not ideal).

더욱이, 실질적인 물리적 재조합 방법을 필요로 하지 않기 때문에, 단백질 서열들은 실리코내에서 핵산 서열과 동일한 방식으로 셔플링될 수 있으며 결과의 셔플링된 서열들의 역번역은 코돈 사용시의 문제점을 경감시키고 암호화 핵산의 하나 이상의 라이브러리를 구성하는데에 필요한 올리고뉴클레오타이드의 수를 최소화시키는데에 사용될 수 있다. 이러한 관점에서, 단백질 서열들은 DNA 서열의 어닐링 기초 상동성 표현 또는 AA 서열의 단순한 상동성에 의하여 결합된다기 보다는 구조적 도메인 및 접힘 모티브(folding motif) 인지를 기초로 하는 유전자 작동자를 사용하여 실리코내에서 셔플링될 수 있다. 뿐만 아니라, 이론적 구조를 기초로 한 바이어스는 이와 같은 정보가 유용할 경우, 라이브러리 구성체에 용이하게 결합된다.Moreover, since no physical physical recombination method is required, protein sequences can be shuffled in the same manner as nucleic acid sequences in silico and reverse translation of the resulting shuffled sequences alleviates problems with codon usage and It can be used to minimize the number of oligonucleotides needed to construct one or more libraries. In this regard, protein sequences are shuffled in silico using gene operators based on structural domain and folding motif recognition rather than bound by annealing based homologous representations of DNA sequences or simple homology of AA sequences. Can be ring. In addition, biases based on theoretical structures are readily coupled to library constructs when such information is useful.

GAGGS 수행시의 상당한 작동 비용은 실리코내에서 대표되는 유전자의 거대한 라이브러리의 합성 비용이다. 유전자의 합성 조립은 예를 들어, 현재 기술로써 저렴하게 합성될 수 있는, 40-60bp 올리고뉴클레오타이드를 사용하는 조립 PCR(assembly PCR)에 의하여 수행될 수 있다.The significant operating cost of performing GAGGS is the cost of synthesizing a huge library of genes represented in silico. Synthetic assembly of genes can be performed, for example, by assembly PCR using 40-60bp oligonucleotides, which can be synthesized inexpensively with current techniques.

GAGGS에 의하여 유도된 진화GAGGS Induced Evolution

임의의 진화 과정중 임의의 DNA 서열에 발생하는 모든 변화들은 제한된 수의 사건들, 즉 최소의 유전자 작동자의 작용으로부터 결과되는 사건들로써 기술될 수 있다. 임의의 주어진 근원 서열의 부분 공간에서, 이와 같은 변화들은 정확하게 설명될 수 있으며 의도하는 특성에 대하여 물리적으로 연속 스크리닝할 경우 서열에 다양성을 가져오도록 의도된 진화 과정의 물리적 표현에서 모의될 수 있다. 물리적 2본쇄 폴리뉴클레오타이드들은 GAGGS 과정을 시작하는데에 필요로 하지 않는다 : 대신, 이들은 물리적 스크리닝 및/또는 선택의 목적으로, 그리고/또는 상기 스크리닝 또는 선택의 결과로서 초기 GAGGS 과정을 수행함으로써 합성된다. 스크리닝/선택에 사용되는 매우 거대한 라이브러리를 제조할 필요가 없다.All changes that occur to any DNA sequence during any evolutionary process can be described as a limited number of events, i.e. events resulting from the action of minimal gene effectors. In the subspace of any given source sequence, such changes can be accurately described and simulated in the physical representation of the evolutionary process intended to bring diversity to the sequence when physically screened for the desired properties. Physical double-stranded polynucleotides are not needed to initiate the GAGGS process: instead, they are synthesized for the purpose of physical screening and / or selection and / or by performing an initial GAGGS process as a result of the screening or selection. There is no need to produce a very large library used for screening / selection.

유전자 알고리즘(GA)Genetic algorithm (GA)

문자열 : 일반적으로, 문자열은 문자 배열의 임의의 표현일 수 있다(예를 들어, 비선형 배열이 특징의 선형 배열을 발생시키는 암호로서 사용되는 경우에 문자의 선형 배열은 "명령어"를 제공한다). GAGGS수행시, 문자열은 바람직하게는 폴리뉴클레오타이드, 폴리펩타이드등에서 단량체 또는 다량체 서열(자연 단량체로 구성되었건 또는 인공 단량체로 구성되었건 간에)을 표시하는 문자열로 명백하게 전환될 수 있는 임의의 암호화된 열, 이미지 또는 대상물의 배치를 포함하는, 폴리뉴클레오타이드 또는 폴리펩타이드 열을 직접적 또는 간접적으로 코드화하는 것이다.String: In general, a string can be any representation of an array of characters (eg, a linear array of characters provides a “command” when a non-linear array is used as a cipher that produces a linear array of features). In performing GAGGS, the string is preferably any encoded sequence that can be explicitly converted into a string representing a monomer or multimeric sequence (whether composed of natural monomers or artificial monomers) in a polynucleotide, polypeptide, etc., Encoding a polynucleotide or polypeptide string directly or indirectly, including the placement of an image or object.

유전자 알고리즘 : 유전자 알고리즘은 일반적으로 진화의 과정을 모의한 과정이다. 완전히 특성화되지 않거나 또는 너무 복잡해서 완전히 특성화시킬 수는 없고 분석적 평가만이 가능하다는 문제점을 해결하는 다양한 분야에서 유전자 알고리즘(Genetic Algorithms;GA)이 사용된다. 즉, GA는 솔루션의 상대치(즉, 다른 솔루션과 하나의 잠재 솔루션(potential solution)의 비교에 따른 상대치의 최소값)에 대한 정량 가능한 측정법에 의하여 평가될 수 있는 문제점들을 해결하는데에 사용된다. 본 발명의 상세한 설명내에서, 유전자 알고리즘은 컴퓨터내에서 문자열을 선택 또는 조작하는 과정으로서, 통상적으로 상기 문자열은 하나 이상의 생체 고분자(예를 들어, 핵산, 단백질, PNA등)에 상응될 수 있다. 생물학적 고분자는 RNA, RNA 유사체, DNA, DNA 유사체, 폴리펩타이드, 폴리펩타이드 유사체, 펩타이드 핵산등을 포함하는 RNA, DNA 및 폴리펩타이드와 같은 자연 발생 고분자와 몇몇 구조적 특성을 나눈 임의의 고분자이다.Genetic Algorithms: Genetic algorithms generally simulate the process of evolution. Genetic Algorithms (GAs) are used in various fields to solve the problem that they are not fully characterized or are too complex to be fully characterized and only analytical evaluation is possible. That is, GA is used to solve problems that can be assessed by quantifiable measures of the relative value of a solution (ie, the minimum value of the relative value of a comparison of one potential solution with another solution). Within the detailed description of the present invention, genetic algorithms are the process of selecting or manipulating strings in a computer, which typically can correspond to one or more biopolymers (eg, nucleic acids, proteins, PNAs, etc.). A biological polymer is any polymer that shares some structural properties with naturally occurring polymers such as RNA, DNA, and polypeptides, including RNA, RNA analogs, DNA, DNA analogs, polypeptides, polypeptide analogs, peptide nucleic acids, and the like.

문자열 또는 대상물의 유도된 진화 :Induced Evolution of a String or Object:

인공 선택에 의하여 문자열을 인위적으로 변화시키는 과정은 유전적인 몇몇 다양성을 갖는(2) 다양한 개체(1)로서, 몇몇 다양성은 적합성(fitness)(예정된 특성(의도하는 특성)에 대한 선택 결과로써 결정되는 생식적 성공)이 상이한 생식 군집에서 이루어진다. 상기 생식 군집은 예를 들어, 컴퓨터내에서의 물리적인 군집이거나 또는 가상적인 군집일 수 있다.The process of artificially altering strings by artificial selection is of various genetic diversity (2), with several beings (1), some of which are determined as a result of selection for fitness (expected characteristics). Reproductive success) occurs in different reproductive communities. The reproductive community may be, for example, a physical community within a computer or a virtual community.

유전자 작동자(GOs): 각각 문자열 조작을 논리적으로 지시하는 세트를 포함하는 사용자 정의 작동 또는 작동 세트. 유전자 작동자는 예정된 선택 수단으로써 탐색 공간의 목적(유용한) 구역(예정된 의도 특성을 갖는 개체 군집)을 발경하기 위하여 개체 군집내에서 변화를 일으키도록 적용시킨다. 예정된(또는 부분적으로 예정된) 선택 수단은 연산적 도구(문자열의 라이브러리를 기술하는 정보 분석에 의하여 유도되는 논리 단계를 포함하는 작동자)를 포함하는데, 여기서 물리적 대상물의 물리적 특성 분석용 물리적 도구는 문자열 라이브러리를 기술하는 정보를 물리적으로 표현하기 위하여 자료로 부터 창줄(합성)될 수 있다. 바람직한 구체예에서, 상기 논리적 작동의 일부 또는 전부는 컴퓨터내에서 수행된다.Gene Operators (GOs): A user-defined operation or set of operations, each of which contains a set of logical instructions for string manipulation. The gene effector is adapted to cause a change in the population to launch the purpose (useful) zone of the search space (population with the intended intent characteristics) as a predetermined means of selection. Predetermined (or partially scheduled) means of selection include computational tools (operators that include logic steps derived by analyzing information describing a library of strings), where the physical tool for physical characterization of a physical object is a string library It can be windowed from data to physically represent the information describing it. In a preferred embodiment, some or all of the logical operations are performed in a computer.

유전자 작동자Gene effector

문자열(즉, 이와 같은 열에 의해서 암호화되는 물리적 대상물의 임의의 물리적 특성)의 임의의 형태를 갖는 임의의 군집에서 일어나는 모든 변화는 다양한 형태의 유전자 작동자를 포함하는 논리 수학적의 제한된 함수 세트를 랜덤한 그리고/또는 예정된 적용의 결과이다.Any change that occurs in any cluster with any form of string (i.e. any physical property of the physical object encoded by such a column) randomizes a limited set of logical mathematical functions, including various types of gene operators. And / or the result of the intended application.

수학적 특성에 있어서, 상기 명령은 가정에 의한 추상적 공리(axiom)는 아니다. 실제로, 상기 명령은 Wiles' proof of Fermat's last theorem으로부터 용이하게 구해지는 엄격한 공식적 증명으로부터 파생된 증명이다. 진화 분자 생물학에 있어서 Wiles' Proof를 근본적으로 적용시키는 것은 모든 타원 곡선이 근본적으로 모듈 형태라는 것을 말해주는 추측의 증명 과정이다. 구체적으로, 우주에서 살아있는 물질(즉, 제한된 수의 타원 곡선에 의하여 표시될 수 있는 특성을 갖는 다수의 대상물)의 모든 다양성 및 진화는 5개의 5개의 기본적인 산술적 작동 언어로써 기술될 수 있다: 첨가, 공제, 조작, 분할 및 모듈 형태(즉, 생명의 진화는 문자열의 제한된 군집, 예를 들어 우주에 존재하는 모든 DNA에서의 단순한 정보의 조합을 제한적으로 변화시킴으로써 효과적으로 기술될 수 있는 형태) 이 경우, 생명체의 핵산을 기초로 한 형태의 언어를 결정할 수 있을 뿐만 아니라, 진화 선택으로써 핵산에 적용하는 유전자 작동자의 모든 기본 형태를 정의할 수도 있다.In mathematical terms, the instructions are not abstract axioms by assumption. In fact, the command is a proof derived from a strict formal proof that is easily obtained from Wiles' proof of Fermat's last theorem. The fundamental application of Wiles' Proof in evolutionary molecular biology is a process of proof of speculation that states that all elliptic curves are fundamentally modular. Specifically, all the diversity and evolution of living matter in the universe (ie, multiple objects with properties that can be represented by a limited number of elliptic curves) can be described as five basic arithmetic operating languages: addition, Deduction, manipulation, division, and modular forms (ie, the evolution of life can be effectively described by restrictively changing a limited cluster of strings, eg, a simple combination of information in all DNA in the universe). Not only can we determine the language of a form based on the nucleic acid of an organism, but we can also define all the basic forms of gene effectors that apply to nucleic acids by evolutionary selection.

임의의 유전자 작동자에 대한 수학적 모델링은 예를 들어, Sun(1999)"Modeling DNA Shuffling" Journal of Computational Biology 6(1):77-90 ; Kelly외 다수(1994) "A test of the Markovian model of DNA evolution" Biometrics 50(3):653-64 ; Boehnke 외 다수(1991)"Statististical method for multipoint radiation hybrid mapping" Am. J. Hum. Genet. 49: 1174-1188 ; Irvine외 다수(1991) "SELEXION : systematic evolution of ligands by exponential enrichment with integrated optimization by non-linear analysis" J.Mol.Biol.222:739-761 ; Lander 및 Waterman(1988) Genomic mapping by fingerprinting random clones:a mathematical analysis" Genomics 2:231-239;Large(1997) Mathematical and Statistical Methods for Genetic Analysis Springer Verlag, NY; Sun and Waterman(1996)"A mathmatical analysis of in vitro molecular section-amplification" J.Mol.Biol. 258:650-660 ; Waterman(1995) Introduction to Computational Biology Chapman 및 Hall, London, UK에 제시되어 있다.Mathematical modeling for any gene effector is described, for example, in Sun (1999) "Modeling DNA Shuffling" Journal of Computational Biology 6 (1): 77-90; Kelly et al. (1994) “A test of the Markovian model of DNA evolution” Biometrics 50 (3): 653-64; Boehnke et al. (1991) "Statististical method for multipoint radiation hybrid mapping" Am. J. Hum. Genet. 49: 1174-1188; Irvine et al. (1991) "SELEXION: systematic evolution of ligands by exponential enrichment with integrated optimization by non-linear analysis" J. Mol. Biol. 222: 739-761; Lander and Waterman (1988) Genomic mapping by fingerprinting random clones: a mathematical analysis "Genomics 2: 231-239; Large (1997) Mathematical and Statistical Methods for Genetic Analysis Springer Verlag, NY; Sun and Waterman (1996)" A mathmatical analysis of in vitro molecular section-amplification "J. Mol. Biol. 258: 650-660; Waterman (1995) Introduction to Computational Biology Chapman and Hall, London, UK.

이하에서는 본 발명에 적용 가능한 임의의 기본 유전적 작동에 관하여 기술한다.The following describes any basic genetic operation applicable to the present invention.

증식(중복 및 복제를 포함)은 문자열의 생식의 한 형태로서, 이는 스트리의 근원 군집/라이브러리를 포함하는 문자열의 부가적인 복사본을 생산한다. 증식 작동은 다수의 변수를 갖는다. 이들은 각각의 열 또는 동일하거나 또는 동일하지 않은 열 군에 적용될 수 있다. 증식을 위한 열 군을 선택하는 것은 랜덤하거나 또는 바이어스된 것일 수 있다.Proliferation (including redundancy and duplication) is a form of string reproduction, which produces an additional copy of the string that includes the origin cluster / library of the stream. Proliferation behavior has a number of variables. They can be applied to each row or to groups of identical or unequal columns. Selecting ten groups for propagation can be random or biased.

돌연 변이: 한 세트의 열의 각각의 일원에서 모든 돌연 변이 형태는 한 세트의 특징을 다른 세트의 특징로 치환시키는 것을 포함하는 요소로 감소될 수 있는 몇몇의 단순한 특징에 의하여 기술될 수 있다. 하나 이상의 특징이 단일 작용으로 돌연 변이될 수 있다. 하나 이상의 특징이 돌연 변이될 경우, 특징 세트는 전체 열 길이(임의의 화학적 돌연 변이원에 의하여 밀접한 클러스터링을 모의하는데에 유용한 특질)에 걸쳐서 연속적일 수 있거나 또는 연속적이지 않을 수 있다. 단일 점 돌연변이(Single point mutation) 작동자는 단일 특징을 다른 단일 특징로 치환시킬 수 있다. 신규 특징의 특성은 다양할 수 있으며, 이들은 근원 열을 구성하는 동일 세트의 특징, 또는 상이한 세트의 특징(예를 들어, 축퇴성 핵산 염기, 비자연적 핵산 염기 또는 아미노산 등을 나타내는)로부터 수득될 수 있다. 결실 돌연 변이(Deletion mutation)는 열으로부터 하나 이상의 특징을 제거한 더욱 복잡한 작동자이다. 핵산 아호화 열에서의 단일 접 결실 각각은 폴리뉴클레오타이드 서열을 나타내는 열을 조작하는데에 바람직하지 않을 수 있으나 ; 3x 클러스터링된(연속적인 또는 분산된) 결실("삼원성 결실 프레임 이동")은 허용가능할 수 있다. 그러나, 단일 점 결실이 폴리펩타이드를 암호화하는 열의 진화적 연산에 있어서 허용가능하고 유용하다. 삽입 돌연변이(Insertion mutation)은 하나 이상의 신규한 특징이 삽입된다는 점을 제외하고는 결실과 유사하다. 첨가된 특징은 임의적으로는 다양하며, 이들은 근원 열을 구성하는 동일 세트의 특징, 또는 상이한 세트의 특징(예를 들어, 축퇴성 핵산 염기, 비자연적 핵산 염기 또는 아미노산 등을 나타내는)로부터 수득될 수 있다. 사멸(Death)은 결실 작동자의 변이로서 간단히 정의될 수 있다. 이는 유전자 작동자(또는 이들의 조합)의 적용 결과, 각각의 문자열 전체 또는 문자열 (하위)군집 전체에 결실이 일어날 경우 발생한다. 또한 사멸은 엘리티즘(elitism) 경향성 증식(하나 이상의 열의 중복 레벨을 0까지 한정하는 값의 증식) 작동자의 변이로서 정의될 수 있다. 사멸은 또한 열의 하위 군집을 선택하는 작동자내에서 비선택적 작용을 이행하지 않고 열의 인덱스된 라이브러리의 작동을 인덱스 및 분류함으로써 조작을 이송시킨다(이송되지 않은 열 모두는 후속 연산에 있어서 사멸 또는 부존재로서 간주될 수 있다).Mutations: All mutation forms in each member of a set of rows can be described by several simple features that can be reduced to elements that include replacing one set of features with another set of features. One or more features may be mutated in a single action. If one or more features are mutated, the feature set may or may not be continuous over the entire row length (a feature useful for simulating intimate clustering by any chemical mutant). Single point mutation An operator can substitute a single feature for another single feature. The characteristics of the novel features may vary and they may be obtained from the same set of features that make up the source row, or from different sets of features (e.g., representing degenerate nucleic acid bases, unnatural nucleic acid bases or amino acids, etc.). have. Deletion mutations are more complex operators that remove one or more features from the heat. Each single conjugation in a nucleic acid stabilizing column may be undesirable for manipulating a row representing a polynucleotide sequence; 3x clustered (continuous or distributed) deletions ("ternary deletion frame shift") may be acceptable. However, single point deletions are acceptable and useful in the evolutionary operations of the sequences encoding polypeptides. Insertion mutations are similar to deletions except that one or more new features are inserted. The added features are optionally varied and they can be obtained from the same set of features constituting the source row, or from different sets of features (e.g., representing degenerate nucleic acid bases, unnatural nucleic acid bases or amino acids, etc.). have. Death can simply be defined as a mutation of a deletion operator. This occurs when, as a result of the application of a gene operator (or a combination thereof), deletions occur in each string or in the entire string (sub) population. Death can also be defined as a variation of the operator of elitism tendency propagation (proliferation of values that limit the level of redundancy of one or more rows to zero). Death also transfers operations by indexing and classifying the behavior of a column's indexed library without performing non-selective actions within the operator that selects a subgroup of columns (all untransferred columns are considered dead or nonexistent in subsequent operations). Can be).

열의 단편화(FRAGMENTATION OF STRINGS)는 DNA셔플링의 다양한 방식으로열의 진화를 자극시키는 이점을 가질 수 있는 초보적이지 않은(복잡한) 임의의 작동자의 중요한 클래스이다. 작동적으로, 단편화는 결실 작동자 또는 증식 작동자의 조합의 공식적 변이로서 기술될 수 있다. 그러나, 당 업계의 숙련자는 임의의 주어진 문자열을 단편화시켜서 더욱 짧은 열의 후손을 생산해 낼 수 있는 다수의 기타 단순 알고리즘 작동이 존재함을 이해할 것이다. 단편화 작동은 랜덤하거나 또는 바이어스성일 수 있다. 상이한 범위의 단편의 크기는 예정될 수 있다. 열 단편화는 근원 열을 갖는 동일한 군집내에 남아 있을 수 있거나, 또는 상이한 군짐으로 이송될 수 있다.다양한 열 군집으로부터 얻은 열 단편은 모아져서 신규의 군집을 형상할 수 있다.FRAGMENTATION OF STRINGS is an important class of any non-elementary (complex) operator that may have the advantage of stimulating the evolution of heat in various ways of DNA shuffling. In operation, fragmentation may be described as a formal variation of a combination of deletion or propagation effectors. However, those skilled in the art will appreciate that there are many other simple algorithmic operations that can fragment any given string to produce shorter columns of descendants. Fragmentation operations can be random or biased. The size of different ranges of fragments can be predetermined. Thermal fragmentation may remain in the same community with the source row, or may be transferred to different populations. Thermal fragments from various thermal clusters may be collected to form new clusters.

크로스오버(재조합) :상기 작동자는 공식적으로 하나의 열의 연속 부위를 다른 열의 연속 부위와 하나 또는 두개의 잡종 열(키메라)이 형성되는 방식으로 결합시키는 것을 포함하는데, 여기서 상기 키메라 각각은 2개의 상이한 재조합 열의 서열 일부를 포함하는 2이상이 연결된 연속적 열 구역을 포함한다. 상이한 근원 열으로부터 서열 특징이 수득되는 구역/점을 크로스오버/재조합 구역/점이라 칭한다. 크로스오버 작동은 연결되는 크로스오버 구역/점에 인접하는 재조합 열의 하나 이상의 특징에 영향을 주는 돌연 변이 작동과 관련될 수 있다. 문자열의 군집에 반복적으로 적용시킬 경우, 2이상의 근원 열의 일부 서열과 연결된 복잡한 키메라가 형성될 수 있다.Crossover (Recombination): The operator formally combines a continuous portion of one row with a continuous portion of another row in such a way that one or two hybrid rows (chimeras) are formed, wherein each of the chimeras is two different It comprises two or more contiguous row sections joined comprising at least part of the sequence of the recombinant row. The zones / points from which sequence features are obtained from different source columns are called crossovers / recombination zones / points. Crossover operation may be associated with mutational operations that affect one or more features of the recombination rows adjacent to connecting crossover regions / points. When applied repeatedly to clusters of strings, complex chimeras can be formed that are linked to some sequence of two or more source rows.

결찰(LIGATION)은 필수적으로 하나의 열 전체 부분이 다른 열의 전체 부분과 하나의 열의 마지막 특징이 다른 열의 처음 특징에 후속되는 방식으로 결합되는 삽입 돌연변이 작동자의 변이이다. 결찰 작동은 연결 지점에 인접하는 결찰 열의 하나 이상의 특징에 영향을 주는 돌연변이 작동과 결합될 수 있다. 상기 결찰은 또한 키메라 형성의 수단으로서도 간주될 수 있다.LIGATION is essentially a mutation of an insertion mutant operator in which the entire portion of one row is combined in such a way that the entire portion of the other row and the last feature of one row follow the first feature of the other row. The ligation operation can be combined with a mutation operation that affects one or more features of the ligation columns adjacent to the linking point. The ligation can also be regarded as a means of chimera formation.

엘리티즘(ELITISM)은 임의의 유전자 작동자로서 사용되는 표준을 구별하는 것을 포함하는 바이어스(bias)의 유용한 형태, 그리고 지정 및 기능이 부여될 수 있는 양성적 및 음성적 바이어스의 다양한 형태를 제공하는 개념이다. 엘리티즘 작동자를 합당하게 지정하는 것은 적합성의 개념을 기초로 한다. 적합성은 다양한 서열 특이적 특질(GC 함량, 프레임 이동, 종결, 서열 길이, 특이 하위 열, 상동성, 리간드 결합, 접힘 모티브등)을 인지하고/또는 문자열의 물리적 표현에 대한 물리적 선택으로부터 확득되었으며 인덱스된 상호 관련성 파라미터(효소 활성, 안정성, 리간드 결합 등)를 이지하는 열 분석 도구를 사용하여 결정된다. 상이한 엘리티즘 표현이 전술된 유전자 작동자, 또는 작동자들의 조합에 개별적으로 적용될 수 있다는 것이 이해된다. 뿐만 아니라, 각각의 유사한 작동자의 입력/출력 파라미터가 독립적으로(또는 상호 의존적으로) 제어가능할 경우, 동일한 진화 연산 과정에서 동일한 형태의 몇몇 작동자와 함께 엘리티즘을 이용할 수도 있다. 상이한 엘리티즘 표현은 열 특징 군집내에서 각각의 작동자의 작용으로 발생되는 변화를 제어하는 데에 사용될 수 있다.ELITISM is a concept that provides a useful form of bias, including distinguishing the standard used as any gene operator, and various forms of positive and negative bias to which assignment and function can be assigned. . The proper designation of an elite operator is based on the concept of conformity. Suitability has been obtained from physical selection for the physical representation of strings and / or recognizing various sequence specific features (GC content, frame shift, termination, sequence length, specific subcolumns, homology, ligand binding, folding motifs, etc.) Determined interrelation parameters (enzyme activity, stability, ligand binding, etc.) are determined using thermal analysis tools. It is understood that different elitism expressions can be individually applied to the gene actuators, or combinations of actuators described above. In addition, if the input / output parameters of each similar operator are controllable independently (or interdependently), it may be possible to use the ellipsis with several operators of the same type in the same evolutionary operation. Different elitism representations can be used to control the changes caused by the action of each operator in a group of thermal features.

서열 상동성 또는 서열 유사성은 폴리뉴클레오타이드 및 폴리펩타이드 서열을 암호화하는 문자열을 진화시키는데에 사용되는 유전자 알고리즘내 크로스오버/재조합에 의하여 발생되는 문자열 군집의 변화를 제어하는데에 유용한 서열 특이적 엘리티즘의 특히 중요한 형태이다.Sequence homology or sequence similarity is particularly important for sequence specific elitism useful for controlling changes in string community caused by crossover / recombination in genetic algorithms used to evolve strings encoding polynucleotide and polypeptide sequences. Form.

다양한 접근 방법, 즉 당 업계에 공지된 방법 및 알고리즘은 상이한 문자열사이의 상동성 또는 유사성을 검출하는데에 사용될 수 있다. 비교용 서열의 최적 얼라이먼트 상태는 예를 들어, Smith & Waterman, Adv. App. Math. 2:482(1981)의 구역 상동성 알고리즘, Needleman & Wunsch, J. Mol. Biol. 48:443(1970)의 상동성 얼라이먼트 알고리즘, Pearson & Lipman, Proc. Nat'l. Acad. Sci. USA 85:2444(1988)의 유사성 방법을 검색함으로써, 상기 알고리즘의 연산된 방식(Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, WI의 GAP, BESTFIT, FASTA 및 TFASTA)에 의하여 또는 시각적 관찰(보통 Ausubel외 다수, 이하)을 통해서도 수행될 수 있다.Various approaches, ie methods and algorithms known in the art, can be used to detect homology or similarity between different strings. Optimal alignment states of the comparative sequences are described, for example, in Smith & Waterman, Adv. App. Math. Zone homology algorithm of 2: 482 (1981), Needleman & Wunsch, J. Mol. Biol. 48: 443 (1970) homology alignment algorithm, Pearson & Lipman, Proc. Nat'l. Acad. Sci. By searching the similarity method of USA 85: 2444 (1988), by the algorithm's computed method (Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, WI's GAP, BESTFIT, FASTA and TFASTA) or This can also be done through visual observation (usually Ausubel et al., Hereinafter).

서열 동일성 및 서열 유사성 %를 결정하는데에 적합한 하나의 표준적인 알고리즘은 BLAST 알고리즘으로서, 이는 Altschul외 다수, J. Mol. Biol.215:403-410(1990)에 기술되어 있다. BLAST 분석법을 수행하는 소프트웨어는 National Center for Biotechnology Information(http://www.ncbi.nlm.nih.gov/)을 통하여 일반에 상용화되어 있다. 상기 알고리즘은 조회 서열에서 W라는 짧은 길이의 명령어를 동정함으로서 고 스코어링 서열 쌍(High scoring Sequenc Pair;HSP)를 처음 동정하는 것을 포함하는데, 여기서 데이터베이스 서열내 동일한 길이의 명령어로서 배열될 경우 몇몇 양의 값의 역치 스코어 T를 만족시키거나 또는 이와 매치된다. T는 인접 명령어 스코어 역치값으로서 불리워진다(Altschul외 다수, 상동). 이들 초기 인접 명령어 히트는 이들을 함유하는 더욱 긴 길이의 HSP를 찾는 검색 개시용 시드(seed)로서 작용한다. 상기 명령어 히트는 이후 누적적 얼라이먼트 스코어가 증가될 수 있는만큼 각 서열을 따라 양 방향으로 확장된다. 누적 스코어는 파라미터 M(매치되는 잔기 쌍에 대한 응답 스코어;항상 0을 초과) 및 N(미스매치 잔기에 대한 패널티 스코어;항상 0미만)을 사용하여 연산된다. 아미노산 서열에 있어서, 스코어 매트릭스는 누적 스코어를 연산하는데에 사용된다. 상기 누적 얼라이먼트 스코어가 그의 최대 값으로부터 X값까지 감소될 경우 ; 하나 이상의 음의 스코어 잔기 얼라이먼트가 축적됨으로써 상기 누적 스코어가 0 또는 그 이하로 감소할 경우 ; 또는 어느 하나의 서열의 말단에 도달될 경우, 상기 명령어 히트는 각각의 방향으로 더 이상 확장되지 않는다. BLAST 알고리즘 파라미터, W, T 및 X는 상기 얼라이먼트의 감수성 및 속도를 결정한다. BLASTN 프로그램(뉴클레오타이드에 대한)은 디폴트값으로서 명령어 길이(W) 11, 기대치(E) 10, 컷오프 100, M=5, N=-4 및 양 사슬의 비교값을 사용한다. 아미노산 서열에 있어서, BLASTP 프로그램은 디폴트값으로서 명령어 길이(W) 3, 기대치(E) 10, BLOSUM62 스코어 매트릭스를 사용한다(Henikoff&Henikoff(1989) Proc. Natl. Acad. Sci. USA 89:10915).One standard algorithm suitable for determining sequence identity and percent sequence similarity is the BLAST algorithm, which is described by Altschul et al., J. Mol. Biol. 215: 403-410 (1990). Software for performing BLAST assays is commercially available through the National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/). The algorithm involves first identifying a High scoring Sequenc Pair (HSP) by identifying a short length instruction named W in the query sequence, where some amount of the sequence, if arranged as an instruction of equal length in the database sequence, Satisfies or matches the threshold score T of the value. T is called as the adjacent instruction score threshold (Altschul et al., Homologous). These initial contiguous instruction hits serve as seeds for initiating a search for longer length HSPs containing them. The instruction hit is then expanded in both directions along each sequence by which the cumulative alignment score can be increased. The cumulative score is calculated using the parameters M (response score for matched residue pairs; always greater than 0) and N (penalty score for mismatched residues; always less than 0). For amino acid sequences, score matrices are used to calculate cumulative scores. The cumulative alignment score decreases from its maximum value to an X value; When the cumulative score decreases to zero or less by accumulating one or more negative score residue alignments; Or when reaching the end of either sequence, the instruction hit no longer extends in each direction. The BLAST algorithm parameters, W, T and X, determine the sensitivity and speed of the alignment. The BLASTN program (for nucleotides) uses the instruction length (W) 11, expected value (E) 10, cutoff 100, M = 5, N = -4 and comparison values of both chains as default values. For amino acid sequences, the BLASTP program uses instruction length (W) 3, expected value (E) 10, and BLOSUM62 score matrix as default values (Henikoff & Henikoff (1989) Proc. Natl. Acad. Sci. USA 89: 10915).

서열 동일성의 %를 연산하는 것에 더하여, 상기 BLAST 알고리즘은 또한 2개의 사슬간의 유사성을 통계학적으로 분석한다(Karlin & Altschul(1993) Proc. Nat'l. Acad. Sci. USA 90:5873-5787 참조). 상기 BLAST 알고리즘으로 제공되는 유사성의 하나의 측정 방법은 확률의 최소 총합값(P(N))으로서, 이는 2개의 뉴클레오타이드 또는 아미노산 서열 사이에 우연하게 매치되는 확률을 나타내는 것이다. 예를 들어, 시험 핵산을 참조 핵산과 비교했을 때 확률의 최소 총합값이 약 0.1 미만이거나 또는 0.01 미만, 심지어 약 0.001 미만일 경우 핵산은 참조 서열과 유사한(상동적인) 것으로 간주한다.In addition to calculating the percent sequence identity, the BLAST algorithm also statistically analyzes the similarities between the two chains (see Karlin & Altschul (1993) Proc. Nat'l. Acad. Sci. USA 90: 5873-5787). ). One measure of similarity provided by the BLAST algorithm is the smallest sum of probabilities (P (N)), which indicates the probability of a match between two nucleotide or amino acid sequences. For example, a nucleic acid is considered to be similar (homologous) to a reference sequence if the minimum total sum of probabilities when the test nucleic acid is compared to the reference nucleic acid is less than about 0.1 or less than 0.01, even less than about 0.001.

유용한 서열 얼라이먼트 알고리즘의 추가의 예로서는 PILEUP를 들 수 있다. PILEUP은 진보적, 또는 평행 정렬을 사용하여 관련된 서열군으로부터 다수의 서열 정렬을 창출해 낸다. 상기 정렬을 창출하는 데에 사용되는 클러스터링 관계를 나타내는 트리를 도표화할 수도 있다. PILEUP은 Feng & Doolittle, J.Mol.Evol. 35:351-360(1987)의 진보적 정렬 방법을 사용한다. 사용된 방법은 Higgins & Sharp, CABIOS5:151-153(1989)에 기술된 방법과 유사하다. 상기 프로그램은 예를 들어, 최대 길이가 5,000자인 300 이하의 서열을 정렬시킬 수 있다. 중복 정렬 과정은 정렬된 2개의 서열 클러스터를 생산하는, 가장 유사한 2개의 서열을 평행하게 정렬시킴으로써 시작된다. 상기 클러스터는 이후 가장 많이 관련된 다음의 서열 또는 정렬된 서열 클러스터에 정렬될 수 있다. 2개의 서열 클러스터는 2개의 각각의 서열을 평행하게 정렬시킨 것을 간단히 확장시킴으로써 정렬될 수 있다. 최종 정렬은 일련의 진보적, 평행한 정렬에 의해서 수행된다. 상기 프로그램은 또한 클러스터링 관계를 나타내는 덴도그램 또는 트리를 도표화하는데에도 사용될 수 있다. 상기 프로그램은 비교 서열 구역에 대한 특정 서열을 지정하고 이들의 아미노산 또는 뉴클레오타이드의 협력에 의하여 진행된다.A further example of a useful sequence alignment algorithm is PILEUP. PILEUP generates multiple sequence alignments from groups of related sequences using progressive or parallel alignments. It is also possible to plot a tree representing the clustering relationship used to create the sort. PILEUP is Feng & Doolittle, J.Mol.Evol. 35: 351-360 (1987) using the progressive alignment method. The method used is similar to the method described in Higgins & Sharp, CABIOS 5: 151-153 (1989). The program can, for example, align up to 300 sequences of up to 5,000 characters in length. The overlap alignment process begins by aligning the two most similar sequences in parallel, producing an aligned two sequence cluster. The cluster can then be aligned to the next most relevant sequence or aligned sequence cluster. The two sequence clusters can be aligned by simply expanding the parallel alignment of the two respective sequences. Final alignment is performed by a series of progressive, parallel alignments. The program can also be used to plot a dendogram or tree representing a clustering relationship. The program proceeds by designating specific sequences for the comparative sequence regions and cooperation of their amino acids or nucleotides.

그러므로, 다양한 수준의 동일성 및 길이를 갖는 상이한 형태의 유사성은 검출되어 인지될 수 있다. 예를 들어, 다수의 상동성 결정 방법이 생체 고분자 서열의 분석, 명령어 처리중 철자 검사 및 다양한 데이터베이스로부터의 데이터 검색용으로 디자인되어 오고 있다. 자연의 폴리뉴클레오타이드에서 4개의 주요 핵산 염기 사이의 2본쇄 평행 상보성 반응을 이해함으로써, 상보성성 상동 폴리뉴클레오타이드 열의 어닐링을 모의하는 모델 역시 크로스오버 작동자를 제어하는데에 유용한 서열 특이적 엘리티즘의 기초로서 사용될 수 있다.Therefore, different forms of similarity with varying levels of identity and length can be detected and recognized. For example, many homology determination methods have been designed for the analysis of biopolymer sequences, spell checking during command processing, and retrieval of data from various databases. By understanding the double-stranded parallel complementarity response between four major nucleic acid bases in natural polynucleotides, a model that simulates the annealing of complementary homologous polynucleotide sequences can also be used as the basis of sequence specific elitism useful for controlling crossover effectors. have.

따라서 크로스오버 작동자의 상동성 기초 엘리티즘이 열 군집에서 적당한 열 재조합 쌍을 찾아내는데에 사용될 수 있으며, 또는 재조합용으로 선택된 문자열의 길이의 재조합에 대하여 특히 적당한/의도하는 구역/지점을 발견/예정하는데에 사용될 수도 있다.Thus, the homology-based elitism of the crossover operator can be used to find a suitable thermal recombination pair in a column cluster, or to find / sect a region / point that is particularly suitable / intentioned for recombination of the length of a string selected for recombination. It may also be used.

예정된 형태 및 유사성/상동성의 엄격성을 크로스오버가 발생되는 조건으로서 세팅시키는 것은 다양한 정도의 대표적 상동성 문자열 사이에서 키메라 형성을 제어하는 엘리키즘의 형태이다.Setting the severity of a predetermined form and similarity / homology as the condition under which crossover occurs is a form of elixism that controls chimeric formation between varying degrees of representative homology strings.

문자열의 진화에 대한 유전자 작동자의 반복 사용. 기술된 모든 유전자 작동자는 반복적 방싱으로 적용될 수 있으며, 각각의 적용 발생률에 대한 특정 파라미터는 동일하게 유지될 수 있거나 또는체계적으로 또는 랜덤하게 변이될 수 있다.Repetitive use of gene effectors for string evolution. All gene operators described can be applied in repetitive rooming, and the specific parameters for each application incidence can remain the same or can be systematically or randomly varied.

문자열의 진화에 대한 유전자 작동자에서의 무작위성. 각각의 유전자 작동자는 하나 이상의 열 길이에 걸쳐서 범위내에서 랜덤하게 선택된 랜덤하게 선택된 발생률로 랜덤하게 선택된 열 및/또는 랜덤하게 선택된 위치에 적용될 수 있다.Randomness in gene effectors for string evolution. Each gene effector may be applied to randomly selected rows and / or randomly selected locations at randomly selected randomly selected incidences within a range over one or more column lengths.

GAS내에서의 GOS의 배열. 문자열의 파생 라이브러리 산물에 각각의 GO에서의 순서 결정화를 적용시키는 것은 상이하고 다양한 방식의 GAGGS를 수행하기 위하여 선택된 각각의 GO에 대한 특정 세트의 구성에 의존적일 수 있다. 상기 순서는 선형, 원형, 평행 또는 상기 3가지 형태의 조합된 형태일 수 있으며 통상적으로 그래프로 나타낼 수 있다. 다수의 GO 배열은 유전적 다양성을 발생시키는 자연의 성적 과정 및 돌연변이 과정, 또는 단일 근원 또는 과(family)에서의 DNA 셔플링과 같은 인공적 과정을 모의하는데에 사용될 수 있다. 그러나, GA의 목적은 몇몇 공지된 물리적 DNA 조작 방법을 모의하는데에 제한되는 것은 아니다. GA의 궁극적 목적은 현재 실행되는 방법에 효율적인 이점을 제공할 수 있으며 실제 사용되는 진화 과정을 창출하고 최적화시키기 위하여, 자연적 진화 과정 및 인의적 진화 과정에 대한 이해를 기초로하는 공식적이고 지능적인 도구를 제공하는 것이다.Array of GOS in GAS. Applying order crystallization at each GO to the derivative library product of a string may depend on the configuration of a particular set for each GO selected to perform GAGGS in different and different ways. The order may be linear, circular, parallel or a combination of the three forms and may typically be represented graphically. Multiple GO sequences can be used to simulate natural sexual and mutant processes that generate genetic diversity, or artificial processes such as DNA shuffling from a single source or family. However, the purpose of GA is not limited to simulating some known physical DNA manipulation methods. GA's ultimate goal is to provide a formal and intelligent tool based on an understanding of natural and human evolutionary processes that can provide efficient benefits to the methods currently implemented and to create and optimize the evolutionary processes in practice. To provide.

유전자 합성Gene synthesis

유전자 알고리즘을 작동시킴으로써 얻어지는 문자열의 파생적 라이브러리에 의하여 암호화되는 유전자의 물리적 합성은 의도하는 특성에 대한 물리적 검정법에 순응하는 물질의 물리적 표현을 창출하고 물리적 다양성 발생 과정에 추가로 관여하는 기질을 생산해 내는 주요 수단이다. 따라서, 본 발명의 제1 양상은 본원에 제시된 하나 이상의 컴퓨터 셔플링 과정을 진행시켜 선택된 서열로 유전자를 합성하는 방법에 관한다.The physical synthesis of genes encoded by derivative libraries of strings obtained by operating genetic algorithms creates the physical representations of substances that conform to physical assays for their intended properties and produces substrates that are further involved in the process of generating physical diversity. Means. Thus, a first aspect of the invention relates to a method of synthesizing a gene with a selected sequence by undergoing one or more computer shuffling procedures presented herein.

시간 및 리소스에 효과적인 기술인 GAGGS에 있어서, 유전자 합성 기술은 통상적으로 부합하는 방식으로 그리고 GA 조작에 의하여 생산되는 서열 표현에 밀접하게 유전자 라이브러리를 구성하는데에 사용된다. 통상적으로 GAGGS는 104-109개의 "유전자" 변이 라이브러리를 신속하게 구성할 수 있는 유전자 합성 방법을 사용한다. 이는 통상적으로 스크리닝/선택 방법에 적당한데, 왜냐하면 라이브러리가 클수록 제조 및 유지가 더욱 어려우며 종종 물리적 검정법 또는 선택 방법에 의하여 완전하게 샘플링될 수 없기 때문이다. 예를 들어, 당 업계에 현존하는 물리적 검정법(예를 들어, "생존 및 사멸" 선택법을 포함)은 일반적으로 약 109개 또는 그 미만의 변이체를 특정 라이브러리의 특정 스크리닝에 의하여 샘플링시키고 다수의 검정법은 104-105개의 일원들을 샘플링시키는데에 효과적이다. 그러므로, 몇몇 작은 라이브러리를 만드는 것이 바람직한 방법인데, 왜냐하면 커다란 라이브러리를 완벽하게 스크리닝시키는 것이 용이하지 않기 때문이다. 그러나, 예를 들어 고처리량 스크리닝 방법을 사용하여 더욱 큰 라이브러리를 제조할 수도 있다.For GAGGS, a technique that is effective in time and resources, gene synthesis techniques are commonly used to construct gene libraries in close fashion and in close proximity to sequence expressions produced by GA manipulation. Typically GAGGS is 10 4 -10 9 uses a gene synthesis method in "gene" to quickly configure the mutant library. This is typically suitable for the screening / selection method, because larger libraries are more difficult to manufacture and maintain and often cannot be fully sampled by physical assays or selection methods. For example, existing physical assays in the art (including, for example, "survival and death" selection methods) generally sample about 10 9 or less variants by specific screening of specific libraries and multiple assays. Is effective for sampling 10 4 -105 members. Therefore, it is a good idea to make some small libraries, because it is not easy to fully screen large libraries. However, larger libraries can also be prepared using, for example, high throughput screening methods.

유전자 합성 기술Gene synthesis technology

우수하게 정의된 서열로 유전자를 합성하는데에 사용할 수 있는 다수의 방법들이 존재한다. 설명을 명확하게 하기 위한 목적만으로, 본 장에서는 다수의 가능성 있는 그리고 실용화되고 있는 형태의 공지의 유전자 및 ㅍㄹ리뉴클레오타이드 합성 방법중 하나에 초점을 맞추고자 한다.There are a number of methods that can be used to synthesize genes with well defined sequences. For purposes of clarity only, this chapter focuses on one of a number of possible and commercially available forms of known genes and trinucleotide synthesis methods.

폴리뉴클레오타이드 합성에 있어서 현재 기술은 올리고머 생성에 효과적이며 널리 공지된 그리고 성숙한 포스포아미디트 화합물로써 가장 잘 표현될 수 있다. 약간은 비실용적이긴 하지만, 상기 화합물은 사용전에 일반적으로 정제되는 더욱 긴 합성 올리고머와 함께 100bp보다 훨씬 긴 올리고머를 합성하는 데에 통상적으로 사용할 수 있는데, 왜냐하면 더욱 긴 올리고머의 경우에는 서열의 질을 저하시키기 때문이다. 통상적으로 "40-80bp크기의 올리고머는 매우 고순도로써 그리고 실질적으로 서열의 질을 저하시킴이 없이 통상적이고 직접적인 방법으로 수득될 수 있다.Current technology in polynucleotide synthesis is effective for oligomer production and best expressed as well known and mature phosphoramidite compounds. Although slightly impractical, the compounds can be commonly used to synthesize oligomers that are much longer than 100 bp with longer synthetic oligomers that are generally purified prior to use, because for longer oligomers the quality of the sequence can be degraded. Because. Typically oligomers of the "40-80 bp size can be obtained in conventional and direct methods with very high purity and without substantially degrading the quality of the sequence.

예를 들어, 시험관내 증폭/유전자 재구성 방법에 사용하고, 유전자 프로브 또는 셔플링 타겟(예를 들어 합성 유전자 또는 유전자 절편)으로서 사용하기 위한 올리고뉴클레오타이드는 통상적으로 Needham VanDevanter외 다수(1984) Nucleic Acids Res., 12:6159-6168에 기술된 바와 같은 자동 합성기를 사용하는, Beaucage 및 Caruthers(1981) Tetrahedron Letts.,22(20):1859-1862에 기술된 고체상 포스포아미디트 트리에스터 방법에 따라서 화학적으로 합성된다. 또한 올리고뉴클레오타이드는 업계의 숙련자들에 공지된 다수의 상업 소스로부터 맞춤 제작 및 주문될 수도 있다. 올리고머 합성 서비스의 다수의 상업적 공급자가 존재하며, 이는 널리 적용 가능한 기슬이다. 임의의 핵산은 The Midland Certified Reagent Company(mrc@oligos.com), The Great American Gene Company(http://www.genco.com), ExpressGen Inc.(www.expressgen.com), Operon Technologies Inc.(Alameda, CA)등과 같은 다수의 상업 소스로부터 맞춤 주문될 수 있다. 이와 유사하게, 펩타이드 및 항체는 PeptidoGenic(pkim@conet.com), HTI Bio-products, Inc.(http://www.htibio.com), BMA Biomedicals Ltd(U.K.), Biosynthesis, Inc.등과 같은 다수의 소스로부터 맞춤 주문할 수도 있다.For example, oligonucleotides for use in in vitro amplification / gene reconstruction methods and for use as gene probes or shuffling targets (e.g., synthetic genes or gene segments) are commonly used by Needham VanDevanter et al. (1984) Nucleic Acids Res. , Chemical according to the solid phase phosphoramidite ester method described in Beaucage and Caruthers (1981) Tetrahedron Letts., 22 (20): 1859-1862, using an automated synthesizer as described in 12: 6159-6168. Are synthesized. Oligonucleotides may also be customized and ordered from a number of commercial sources known to those skilled in the art. There are many commercial suppliers of oligomeric synthesis services, which are widely applicable mechanisms. Any nucleic acid can be found in The Midland Certified Reagent Company (mrc@oligos.com), The Great American Gene Company (http://www.genco.com), ExpressGen Inc. (www.expressgen.com), Operon Technologies Inc. ( Custom orders from a number of commercial sources such as Alameda, CA). Similarly, peptides and antibodies may be found in many forms, such as PeptidoGenic (pkim@conet.com), HTI Bio-products, Inc. (http://www.htibio.com), BMA Biomedicals Ltd (UK), Biosynthesis, Inc. You can also make custom orders from sources.

최적화에 용이하게 순응하는 작은 단편으로부터 전체 유전자를 합성하는 것은 Dillon 및 Rosen(Biotechniques, 1990, 9(3)298-300)에 제시되어 있다. 부분적으로 중첩된 1본쇄 올리고뉴클레오타이드 세트로부터 수득한 유전자의 리가제를 사용하지 않는, 간편하고 신속한 PCR 기초 조립 방법이 수행될 수 있다. 몇몇 그룹들이 크기가 증가된 다양한 유전자 합성에 대한 동일한 PCR 기초 유전자 조립 연구법을 성공적으로 변이시켜 돌연 변이된 유전자 라이브러리 합성에 대한 이의 일반적인 적용 가능성 및 이의 조합 특성을 나타내는 방법에 관하여 기술하고 있다. 유용한 참고 문헌으로서는 Sandhu외 다수(Biotechniques, 1992, 12(1)15-16), (77-86bp의 3개의 올리고머로부터 수득된 220bp 유전자); Prodromou 및 Pearl(Protein Engineering, 1992, 5(8)827-829(54-86bp의 10개의 올리고머로부터 수득된 522bp 유전자); Chen 외 다수, 1994(JACS, 1194(11):8799-8800)(779bp 유전자); Hayashi외 다수, 1994(Biotechniques, 1994, 17:310-314)등을 포함한다.Synthesis of whole genes from small fragments that easily conform to optimization is shown in Dillon and Rosen (Biotechniques, 1990, 9 (3) 298-300). A simple and rapid PCR based assembly method can be performed that does not use ligase of genes obtained from partially overlapped single stranded oligonucleotide sets. Several groups have described how to successfully mutate the same PCR based gene assembly assays for various gene synthesiss of increased size to indicate their general applicability and their combinatorial properties to mutated gene library synthesis. Useful references include Sandhu et al. (Biotechniques, 1992, 12 (1) 15-16), (220bp gene obtained from three oligomers of 77-86bp); Prodromou and Pearl (Protein Engineering, 1992, 5 (8) 827-829 (522bp gene obtained from 10 oligomers of 54-86bp); Chen et al., 1994 (JACS, 1194 (11): 8799-8800) (779bp Genes), Hayashi et al., 1994 (Biotechniques, 1994, 17: 310-314) and the like.

더욱 최근에는 Stemmer외 다수(Gene, 1995, 164:49-53)가 예를 들어, PCR 기초 조립 방법이 합성 40bp 올리고머의 수십개 또는 수백개로부터 2.7kb이상의 더욱 큰 유전자들을 제조하는데에 효과적으로 유용하다는 것을 나타낸다. 상기 저자들은 또한 PCR 기초 유전자 합성 방법(올리고뉴클레오타이드 합성, 유전자 조립, 유전자 증폭 및 임의적으로는 클로닝)을 포함하는 4개의 기초벅인 단계중에서, 만일 '순환' 조립 PCR이 사용될 경우에는 상기 유전자 증폭 단계는 생략할 수 있음을 기술하고 있다.More recently, Stemmer et al. (Gene, 1995, 164: 49-53) have shown, for example, that PCR based assembly methods are effectively useful for producing larger genes greater than 2.7 kb from dozens or hundreds of synthetic 40 bp oligomers. Indicates. The authors also note that among the four basal buckling steps, including PCR based gene synthesis methods (oligonucleotide synthesis, gene assembly, gene amplification and optionally cloning), the gene amplification step if 'circulating' assembly PCR is used States that it can be omitted.

발명자 및 공동 연구자, 그리고 당 업계의 다른 연구자들의 다수의 출판물에서는 예를 들어 작은 단편 또는 올리고뉴클레오타이드로부터 유전자를 재조립시킴으로써 DNA 셔플링을 촉진시키는 기술을 제시하고 있다. 본 발명의 제2 양상은 다양한 DNA 셔플링 방법에서 재조합 주형 중간물로서 과 셔플링 올리고뉴클레오타이드 및 크로스오버 올리고뉴클레오타이드를 사용하는 능력에 관한 것이다.Many publications by inventors and collaborators, and other researchers in the art, present techniques for facilitating DNA shuffling, for example by reassembling genes from small fragments or oligonucleotides. A second aspect of the invention relates to the ability to use over-shuffling oligonucleotides and crossover oligonucleotides as recombinant template intermediates in various DNA shuffling methods.

실제로, 발명자 및 공동 연구자, 그리고 당 업계의 다른 연구자들의 다수의 출판물에서는 올리고뉴클레오타이드를 포함하는 작은 단편들로부터 유전자의 재조립을 촉진시키는 기술을 제시하고 있다. 전술한 출판물들에 더하여 Stemmer외 다수(1998) 미합중국 특허 제 5,834,252호 END COMPLEMENTARY POLYMERASE REACTION은 타겟 서열을 증폭 및 검출하는 방법(예를 들어, 핵산 혼합물내에서) 및 단편들로부터 큰 폴리뉴클레오타이드를 조립하는 방법에 관하여 기술하고 있다. Crameri외 다수(1998) Nature 391:288-291은 Crameri외 다수(1998)Bio technoques 18(2):194-196에서와 같이, 유전자 재조립에 대한 기초 방법들을 제공한다.Indeed, many publications by inventors and collaborators, as well as other researchers in the art, present techniques for facilitating the reassembly of genes from small fragments containing oligonucleotides. In addition to the publications described above, Stemmer et al. (1998) United States Patent No. 5,834,252 END COMPLEMENTARY POLYMERASE REACTION assembles large polynucleotides from fragments and methods for amplifying and detecting target sequences (eg, in nucleic acid mixtures). It describes how. Crameri et al. (1998) Nature 391: 288-291 provide basic methods for gene reassembly, as in Crameri et al. (1998) Bio technoques 18 (2): 194-196.

더욱 최근에는, 유전자를 동시에 재조합 및 재구성시키는 다수의 유전자 재조립 방법이 발명자들 및 그들의 공동 연구자의 몇몇 출원, 예를 들어 Crameri외 다수에 의하여 1999년 2월 5일 출원된 USSN 제60/118,813호 및 1999년 6월 24일 USSN 제60/141,049호 및 1999년 9월 28일 출원된 USSN 제09/408,392호의 "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION" 및 Welch외 다수에 의하여 1999년 9월 28일 출원된 USSN 제09/408,393호의 "USE OF CODON-BASED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING"에 기술되어 있다. 이와 같은 구체예에 있어서, 상이한 상동체에 대응하는 올리고뉴클레오타이드가 하나 이상의 근원 핵산에 상응하는 올리고뉴클레오타이드를 포함하는 PCR 또는 결찰 반응에서 합성되고 재조립됨으로써 신규의 재조합된 핵산을 합성하는 합성 재조합 방법이 사용된다.More recently, a number of gene reassembly methods of simultaneously recombining and reconstructing genes have been described in USSN 60 / 118,813, filed February 5, 1999 by several applications of inventors and their co-researchers, such as Crameri et al. And USOL 60 / 141,049 filed June 24, 1999 and USOL 09 / 408,392 filed September 28, 1999, "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION," and USSN filed September 28, 1999 by Welch et al. 09 / 408,393 to "USE OF CODON-BASED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING". In such embodiments, a synthetic recombination method in which oligonucleotides corresponding to different homologues are synthesized and reassembled in a PCR or ligation reaction comprising oligonucleotides corresponding to one or more source nucleic acids to synthesize new recombinant nucleic acids. Used.

올리고뉴클레오타이드 매개성 재조합법의 한 가지 장점은 서열 유사성이 낮은 상동성 핵산을 재조합시키는 능력 또는 비상동성 핵산을 재조합시키는 능력이다. 이와 같은 저상동성 올리고뉴클레오타이드 셔플링 방법에서, 하나 이상의 단편화된 핵산 세트가 예를 들어, 크로스오버 과(familly) 다양성 올리고뉴클레오타이드 세트와 재조합된다. 상기 크로스오버 올리고뉴클레오타이드 각각은 상동성 핵산 또는 서열 상동성이 낮은 비상동성 핵산으로부터 수득된 다수의 서열 다양성 도메인에 상응하는 다수의 서열 다양성 도메인을 갖는다. 하나 이상의 상동성 또는 비상동성 핵산과 비교함으로써 얻어지는 단편화된 올리고뉴클레오타이드는 혼성화되어 재조합을 촉진시키는 하나 이상의 크로스오버 올리고머 구역에 혼성화될 수 있다. 이러한 올리고뉴클레오타이드 세트는 본원의 방법에 따라서 실리코내에서 선택될 수 있다.One advantage of oligonucleotide mediated recombination is the ability to recombine homologous nucleic acids with low sequence similarity or the ability to recombine non-homologous nucleic acids. In such low homology oligonucleotide shuffling methods, one or more fragmented nucleic acid sets are recombined with, for example, crossover familial diversity oligonucleotide sets. Each of the crossover oligonucleotides has multiple sequence diversity domains corresponding to multiple sequence diversity domains obtained from homologous nucleic acids or nonhomologous nucleic acids having low sequence homology. Fragmented oligonucleotides obtained by comparison with one or more homologous or nonhomologous nucleic acids can be hybridized to one or more crossover oligomer regions that hybridize to facilitate recombination. Such oligonucleotide sets may be selected in silico according to the methods herein.

상동성 핵산을 재조합시킬 때, 중첩 유전자 무리 셔플링 올리고뉴클레오타이드 세트(비교물로부터 유래된 다양성 구역 및 유사성 구역에 상응하는 상동성 핵산 및 올리고뉴클레오타이드 단편 세트를 비교하여 얻어지는)는 혼성화되어 연장(예를 들어, 조립 PCR에 의하여)되는데, 이는 의도하는 특질 또는 특성에 대하여 선택될 수 있는 재조합 핵산 군집을 제공한다. 통상적으로, 중첩 셔플링 유전자 무리 올리고뉴클레오타이드 세트는 복수개의 상동성 타겟 핵산으로부터 유래된 공동 연속 구역을 갖는 다수개의 올리고뉴클레오타이드 일원의 형태를 포함한다.When recombining homologous nucleic acids, sets of overlapping gene swarm shuffling oligonucleotides (obtained by comparing sets of homologous nucleic acid and oligonucleotide fragments corresponding to diversity regions and similarity regions derived from the comparisons) are hybridized and extended (e.g., For example, by assembly PCR, which provides a population of recombinant nucleic acids that can be selected for the desired characteristic or property. Typically, a set of overlapping shuffling gene swarm oligonucleotides comprises the form of a plurality of oligonucleotide members having co-continuous regions derived from a plurality of homologous target nucleic acids.

통상적으로, 유전자 무리 셔플링 뉴클레오타이드는 상동성 핵산 서열을 정렬시켜 동일한 서열의 보존적 구역 및 다양한 서열의 보존적 구역을 선택함으로써 제공된다. 다수의 유전자 무리 셔플링 올리고뉴클레오타이드는 하나 이상의 서열 다양성 구역에 대응하여(연속적으로 또는 평행하게) 합성된다. 무리 셔플링에 관한 보다 상세한 설명은 상기 언급된 USSN 제09/408,392호에서 살펴볼 수 있다.Typically, gene swarm shuffling nucleotides are provided by aligning homologous nucleic acid sequences to select conservative regions of the same sequence and conserved regions of various sequences. Multiple gene swarm shuffling oligonucleotides are synthesized corresponding to one or more sequence diversity regions (continuously or in parallel). A more detailed description of flock shuffling can be found in the aforementioned USSN 09 / 408,392.

올리고뉴클레오타이드 셔플링 접근법에 사용되는 단편의 하위 세트 또는 단편 세트는 하나 이상의 상동성 핵산을 (예를 들어, DNase로) 절단하거나, 또는 보다 일반적으로는 하나 이상의 핵산의 복수개의 구역에 상응하는 올리고뉴클레오타이드 세트(통상적으로 전체 길이의 핵산에 상응하는 올리고뉴클레오타이드가 핵산 단편 세트의 일원으로서 제공되는 세트)를 합성함으로써 제공될 수 있다. 본원의 셔플링 방법에 있어서, 이와 같이 절단된 단편들은 유전자 무리 셔플링 올리고뉴클레오타이드와 함께 재조합 핵산을 생산하는 하나 이상의 재조합 반응에서 사용될 수 있다.A subset or fragment set of fragments used in an oligonucleotide shuffling approach may be used to cleave one or more homologous nucleic acids (eg, with DNase), or more generally oligonucleotides corresponding to multiple regions of one or more nucleic acids. It can be provided by synthesizing a set (typically an oligonucleotide corresponding to a full length nucleic acid is provided as part of a set of nucleic acid fragments). In the shuffling methods herein, such truncated fragments can be used in one or more recombinant reactions to produce recombinant nucleic acids with gene swarm shuffling oligonucleotides.

PCR에 의하여 1본쇄 상보성성 중첩 합성 올리고머로부터 유전자를 조립하는 것은 GAGGS에서 수행하는 선택 방법이다. 재조립 및 유전자 조립의 엄격성을 제어하는데에 사용되어 유전자 합성동안 서열 편차의 수를 증가시키거나 또는 감소시키는 다양한 올리고머 길이, 재조합 반응에서 올리고머의 수, 올리고뉴클레오타이드의 중첩 정도, 재조립 과정에서 사용된 서열 축퇴성의 수준 및 특성, 특정 반응 조건 및 특정 폴리머라제 효소를 포함하는 상기 방법의 최적화는 수행될 수 있다.Assembling genes from single stranded complementary overlapping synthetic oligomers by PCR is a selection method performed in GAGGS. Used to control the stringency of reassembly and gene assembly, varying oligomer lengths to increase or decrease the number of sequence deviations during gene synthesis, number of oligomers in recombinant reactions, degree of overlap of oligonucleotides, and use in reassembly Optimization of the method, including the level and nature of sequence degeneracy, specific reaction conditions and specific polymerase enzymes can be performed.

상기 방법은 또한 연속적 물리적 스크리닝이 예정된 복수개의 유전자를 포함하는 각각의 라이브러리 일원 각자가 공간적으로 격리된 용기 또는 용기 배열 또는 풀링 방식(poolwise fashion)으로 합성되는, 평행 모드로 수행될 수 있는데, 여기서 의도하는 다수개의 유전자 전부 또는 일부는 단일 용기에서 합성된다. 기타 합성 뉴클레오타이드를 제조하는 다수의 합성 방법 역시 공지되어 있으며, GAGGS수행에 있어서 하나와 다른 하나를 사용하는 특정한 이점은 당 업계의 숙려자에 의하여 용이하게 결정될 수 있다.The method may also be carried out in parallel mode, in which each member of the library comprising a plurality of genes for which continuous physical screening is scheduled is synthesized in a spatially isolated container or container arrangement or poolwise fashion, wherein the intended All or part of multiple genes are synthesized in a single container. Numerous synthetic methods for preparing other synthetic nucleotides are also known, and the particular advantages of using one and the other in performing GAGGS can be readily determined by one of ordinary skill in the art.

서열 풀림Unsequence

서열 풀림(sequence deconvolution)은 재료(예를 들어, 폴리뉴클레오타이드, 폴리펩타이드등)의 적당한 조성에 바람직한 변화를 가져오는 문자열에 상응(즉, 생체 고분자에 대한 물리적 서열에 상응)하는 변화를 확인하기 위하여 의도하는 성질을 갖는 것으로 알려진 폴리뉴클레오타이드 변이체로써 수행될 수 있다.Sequence deconvolution is used to identify changes that correspond to a string (ie, corresponding to the physical sequence for a biopolymer) that results in a desirable change in the proper composition of a material (eg, polynucleotide, polypeptide, etc.). It can be carried out as polynucleotide variants known to have the intended properties.

서열 풀림을 포함하는, 본 발명에 유용한 시퀀싱 및 기타 표준적인 재조합 기술은 예를 들어 Berger 및 Kimmel, Guide to Molecular Cloning Techniques, Methods in Enzymology vol. 152 Academic Press, Inc.,San Diego, CA(Berger); Sambrook외 다수, Molecular Cloning-A Laboratory Manual(2nd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989("Sambrook") 및 Current Protocols in Molecular Biology, F.M.Ausubel외 다수, eds., Current Protocols, Green Publishing Associates, Inc. 및 John Wiley & Sons, Inc. 합작 회사,(1999년부터 보강됨)("Ausubel")에서 살펴볼 수 있다. GAGGS생산물을 시퀀싱하는 것에 더하여, 특이적 제하 위치도 특정 서열을 검출하는데에 사용될 수 있다. 제한 효소 절단을 통한 숙련자를 지도하는 충분한 정보는 또한 Sambrook, Berger 및 Ausubel, (상동)에서 찾아볼 수 있다.Sequencing and other standard recombination techniques useful in the present invention, including sequencing, are described, for example, in Berger and Kimmel, Guide to Molecular Cloning Techniques, Methods in Enzymology vol. 152 Academic Press, Inc., San Diego, CA (Berger); Sambrook et al., Molecular Cloning-A Laboratory Manual (2nd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989 ("Sambrook") and Current Protocols in Molecular Biology, F.M.Ausubel et al., Eds., Current Protocols, Green Publishing Associates, Inc. And John Wiley & Sons, Inc. See Joint Venture, Aug. 1999 ("Ausubel"). In addition to sequencing GAGGS products, specific sites of subtraction can also be used to detect specific sequences. Sufficient information can also be found in Sambrook, Berger and Ausubel, (homologous), which leads the skilled person through restriction enzyme cleavage.

암호화된 분자들을 클로닝 및 시퀀싱시키는 방법 및/또는 발현 및 선택하기 위하여 식물 세포 및 동물 세포를 포함하는 세포들을 GAGGS 합성 핵산으로 특징도입시키는 방법은 이러한 핵산에 의해서 암호화되는 단백질을 발현시키는 방법과 같이, 일반적으로 상용화되어 있다. Berger, Ausubel 및 Sambrook에 더하여 동물 세포 배양에 유용한 참고 문헌으로는 Freshney의 저서(Culture of Animal Cells, a Manual of Basic Techniques, third edition Wiley-Liss, New York(1994)) 및 이곳에 언급된 참고 문헌인, Humanson의 저서(Animal Tissue Techniques, fourth edition W.H. Freeman and Company(1979)) 및 Ricciardelli외 다수, In Vitro Cell Dev. Biol. 25:1016-1024(1989)를 포함한다. 식물 세포 클로닝, 배양 및 재생에 대한 참고 문헌으로는 Payne외 다수(1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, NY(Payne); 및 Gamborg 및 Philips(eds)(1995) Plant Cell, Tissue and Organ Culture;Fundamental Method Springer Lab Manual, Springer-Verlag(Berlin Heidelberg New York)(Gamborg). 다양한 세포 배양 배지는 Atlas 및 Paks(eds) The Handbook of Microbiology Media(1993) CRC Press, Boca Raton, FL(Atlas)에 기술되어 있다. 식물 세포 배양에 관한 추가의 정보는 Sigma-Aldrich, Inc.(StLouis, MO)(Sigma-LSRCCC)에서 출판된 Life Science Research Cell Culture Catalogue(1998) 및 Sigma-Aldrich, Inc.(StLouis, MO)(Sigma-PCCS)의 Plant Culture Catalogue 및 증보판(1997)과 같은 상업적으로 시판되고 있는 문헌에서 찾아볼 수 있다.Methods of cloning and sequencing encoded molecules and / or characterizing cells, including plant cells and animal cells, for expression and selection, with GAGGS synthetic nucleic acids, such as methods for expressing proteins encoded by such nucleic acids, It is generally commercialized. Useful references for animal cell culture in addition to Berger, Ausubel and Sambrook include Freshney's book (Culture of Animal Cells, a Manual of Basic Techniques, third edition Wiley-Liss, New York (1994)) and references cited therein. Humanson's work (Animal Tissue Techniques, fourth edition WH Freeman and Company (1979)) and Ricciardelli et al., In Vitro Cell Dev. Biol. 25: 1016-1024 (1989). References to plant cell cloning, culture and regeneration include Payne et al. (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, NY (Payne); And Gamborg and Philips (eds) (1995) Plant Cell, Tissue and Organ Culture; Fundamental Method Springer Lab Manual, Springer-Verlag (Berlin Heidelberg New York) (Gamborg). Various cell culture media are described in Atlas and Paks (eds) The Handbook of Microbiology Media (1993) CRC Press, Boca Raton, FL (Atlas). Further information on plant cell culture can be found in the Life Science Research Cell Culture Catalog (1998) and Sigma-Aldrich, Inc. (StLouis, MO) published by Sigma-Aldrich, Inc. (StLouis, MO) (Sigma-LSRCCC). Commercially available literature such as Plant Culture Catalog of Sigma-PCCS) and Supplements (1997).

시험관내 증폭 방법은 또한 증폭시키는데에 사용될 수 있으며, 또한 서열 GAGGS는 클로닝 및 선택용 핵산을 합성할 수 있다. 폴리머라제 연쇄 반응(PCR), 리가제 연쇄 반응(LCR), Qβ복제효소 및 기타 RNA 폴리머라제 매개 기술(예를 들어, NASBA)을 매개하는 기술은 Berger, Sambrook 및 Ausubel(상동) 및 Mullis외 다수(1987) 미합중국 특허 제 4,683,202호; PCR Protocols A Guide to Method and Applications(Innis외 다수, eds.) Academic Press Inc. San Diego, CA(1990)(Innis); Arnheim & Levinson(October 1, 1990) C&EN 36-47; The Journal Of NIH Reasearch (1991) 3, 81-94; Kwoh외 다수(1989) Proc. Natl. Acad. Sci. USA 87, 1974 ; Lomell외 다수(1989) J.Clin.Chem 35, 1826; Landergren외 다수(1988) Science 241, 1077-1080; Van Brunt(1990) Biotechnology 8, 291-294; Wu 및 Wallace(1989) Gene 4, 560; Barringer외 다수(1990) Gene 89, 117 및 Sooknanan 및 Malek(1995) Biotechnology 13:563-564에서 살펴볼 수 있다. 시험관내에서 증폭된 핵산을 클로닝하는 개선된 방법은 Wallace외 다수, 미합중국 특허 제 5,426,039호에 기술되어 있다. PCR에 의해서 큰 핵산을 증폭시키는 개선된 방법은 40kb이하의 PCR 앰플리콘이 합성되는 Cheng외 다수(1994) Nature 369:684-685 및 여기에 존재하는 참고 문헌에서 요약된다. PCR 재조립 기술은 상기와 같이 논의된다. 업계의 숙련자는 임의의 필수 RNA가 역전사효소 및 폴리머라제를 사용하는 제한 절단, PCR 증폭 및 시퀀싱에 적합한 2본쇄 DNA로 전환될 수 있다는 것을 이해할 것이다. Ausbel, Sambrook 및 Berger(상동)에 의한 문헌을 참조하시오.In vitro amplification methods can also be used to amplify, and the sequence GAGGS can also synthesize nucleic acids for cloning and selection. Techniques for mediating polymerase chain reaction (PCR), ligase chain reaction (LCR), Qβ replication enzymes, and other RNA polymerase mediated techniques (e.g. NASBA) include Berger, Sambrook and Ausubel (homologous) and Mullis et al. (1987) US Pat. No. 4,683,202; PCR Protocols A Guide to Method and Applications (Innis et al., Eds.) Academic Press Inc. San Diego, CA (1990) (Innis); Arnheim & Levinson (October 1, 1990) C & EN 36-47; The Journal Of NIH Reasearch (1991) 3, 81-94; Kwoh et al. (1989) Proc. Natl. Acad. Sci. USA 87, 1974; Lomell et al. (1989) J. Clin. Chem 35, 1826; Landergren et al. (1988) Science 241, 1077-1080; Van Brunt (1990) Biotechnology 8, 291-294; Wu and Wallace (1989) Gene 4, 560; Barringer et al. (1990) Gene 89, 117 and Sooknanan and Malek (1995) Biotechnology 13: 563-564. An improved method for cloning amplified nucleic acids in vitro is described in Wallace et al., US Pat. No. 5,426,039. Improved methods for amplifying large nucleic acids by PCR are summarized in Cheng et al. (1994) Nature 369: 684-685 and references therein, wherein PCR amplicons up to 40 kb are synthesized. PCR reassembly techniques are discussed as above. Those skilled in the art will understand that any essential RNA can be converted to double-stranded DNA suitable for restriction digestion, PCR amplification and sequencing using reverse transcriptase and polymerase. See literature by Ausbel, Sambrook and Berger (homologous).

유전자 합성이 필수적으로 오류가 없는(엄격한) 경우, 즉 예를 들어 라이브러리의 각 일원들이 근본적으로 격리된 공간 또는 용기내에서 합성되는 평행한 방식으로 수행되는 경우, 풀림(deconvolution)은 모든 라이브러리 일원의 의도된 서열 각각에 대한 인덱스를 암호화하는 위치를 언급함으로써 수행된다. 상기 합성이 풀링 방식으로 수행되면(즉 라이브러리 일원들이 선택을 통하여 풀링되면), 다수의 공지된 폴리뉴클레오타이드 시퀀싱 기술중의 하나가 사용된다.If gene synthesis is essentially error-free (strict), i.e., where each member of the library is synthesized in a parallel manner in which it is synthesized in a fundamentally isolated space or container, deconvolution is performed by all library members. This is done by referring to the position encoding the index for each of the intended sequences. If the synthesis is performed in a pooled manner (ie library members are pooled through selection), one of a number of known polynucleotide sequencing techniques is used.

반복적 GAGGS 과정Iterative GAGGS Process

폴리뉴클레오타이드 및 폴리펩타이드의 의도하는 특성을 단계적 방식/라운드 방식으로 개선시키는 것을 목적으로 하는 유도성 진화 방법의 반복 특성은 이해가 잘 되어 있다. GAGGS에 의한 유도성 진화(DE)에 있어서, 의도하는 특성의 수준(여기서, 상기 수준은 몇몇 특성들의 측정값 사이의 증가량/감소량/비율로써 임의적으로 한정됨)에 임의의 변화를 초래하는 변이체들의 서열을 암호화하는 하나 이상의 풀린 상태의 문자열은 신규의 GAGGS 라운드에서의 문자열의 신규한 라이브러리를 구성하는데에 사용된다. 통상의 DNA 셔플링과는 달리, 반복적 GAGGS는 유전자 다양성의 이후 세대를 생산하기 위해서 폴리뉴클레오타이드를 물리적으로 조작하지는 않는다. 대신에, GAGGS는 문자열에 의해서 암호화되는 분자들의 의도하는 특성에서 이후의 변화(즉, 개선)를 초래하는 부가적인 변화를 발생시키는 기초로서 획득된 유용한 변화를 나타내는 서열 정보를 단순히 이용한다. 반복적 GAGGS는 암호화된 폴리뉴클레오타이드 및 폴리펩타이드가 임의적으로 의도하는 특성을 보유하게 되는 시점까지 특징의 열이 진화할 때까지 또는 특징에 있어서 추가의 변화가 수득되지 않을 때까지(예를 들어, 물리적 검정법의 조건하에서 효소 회전이 이론적인 확산 비율의 한계값에 도달할때까지) 수행될 수 있다. 유전자 알고리즘 파라미터 즉, 유전자 합성 방법 및 계획 그리고 물리적 검정법 및 서열 풀림 방법은 반복적 GAGGS에 의한 유도성 유전의 상이한 라운드/회전 각각에서 다양할 수 있다.The repetitive nature of inductive evolution methods aimed at improving the desired properties of polynucleotides and polypeptides in a stepwise / round manner is well understood. In inducible evolution (DE) by GAGGS, a sequence of variants that results in any change in the level of the intended characteristic, where the level is optionally defined as an increase / decrease / ratio between the measurements of some of the characteristics. One or more unwrapped strings that encrypt s are used to construct a new library of strings in a new GAGGS round. Unlike conventional DNA shuffling, repetitive GAGGS does not physically manipulate polynucleotides to produce subsequent generations of gene diversity. Instead, GAGGS simply uses sequence information indicative of useful changes obtained as a basis for generating additional changes resulting in subsequent changes (ie, improvements) in the intended properties of the molecules encoded by the string. Repeated GAGGS may be used until the sequence of features evolves until a point at which the encoded polynucleotides and polypeptides have any desired properties or until no further changes in the features are obtained (eg, physical assays). Under conditions of enzymatic rotation until the theoretical diffusion rate limit is reached). Genetic algorithm parameters, namely gene synthesis methods and schemes, and physical assays and unsequencing methods, may vary in each of the different rounds / turns of inducible inheritance by repetitive GAGGS.

상기 연구법의 하나의 특정적인 이점은 라이브러리 세대에 있어서 초기에 랜덤하게 접근하거나 또는 의사적으로 랜덤하게 접근할 수 있게 되는 활성 수준에 대한 정보로서 보다 더욱 유도적일 수 있다는 점이다. 예를 들어, 임의의 발견적 교시 연구법 또는 신경 네트웍 연구법은 "올바른(correct)"(활성인) 서열을 선택하는데에 더욱 효과적이게 된다. 음성 데이터, 파라미터화 데이터등을 사용하는, 원칙 구성 요소 분석법을 포함하는, 다수의 연구법을 이하에 제시하였다.One particular advantage of this approach is that it can be more inducible as information about activity levels that are initially randomly or pseudorandomly accessible for library generation. For example, any heuristic teaching method or neural network method will be more effective at selecting "correct" (active) sequences. A number of studies are presented below, including principle component analysis using speech data, parameterization data, and the like.

GAGGS, DNA 셔플링 및 기타 유도성 진화 기술의 통합화Integration of GAGGS, DNA Shuffling, and Other Inductive Evolution Technologies

GAGGS는 DNA 셔플링 또는 임의의 유용한 유도성 진화 방법에 상관없이 수행될 수 있는 자가 충족성(self-sufficient) 기술 및 독립적 기술을 구성한다. 그러나, GAGGS의 하나 이상의 라운드는 핵산의 물리적 셔플링과 함께 수행될 수 있으며 , 또는 위치 유도성 돌연변이(site-specific mutagenesis), 오류 경향성 PCR(error-prone PCR)(예를 들어, 유도성 진화 과정을 변경시키는 것과 같은) 또는 기타 다양성 발생 방법과 함께 수행될 수 있다. 폴리뉴클레오타이드의 GAGGS 발생 라이브러리는 핵산 셔플링시킬 수 있으며 실리코내 및/또는 물리적 셔플링 라운드를 진행시킨 결과 의도의 특징을 갖는 것으로 알려진 폴리뉴클레오타이드는 선택후 시퀀싱되어 GAGGS 과정을 평가하는 문자열을 제공하거나 또는 추가의 GAGGS 작동에 대한 문자열을 형성시킬 수 있다. 그러므로, GAGGS는 사슬만에 의한 기술로서 수행될 수 있거나, 또는 셔플링, 돌연변이, 랜덤 프라이밍 PCR등을 후속적으로 수행할 수 있다.GAGGS constitutes a self-sufficient and independent technique that can be performed regardless of DNA shuffling or any useful inductive evolution method. However, one or more rounds of GAGGS can be performed with physical shuffling of nucleic acids, or site-specific mutagenesis, error-prone PCR (eg, inductive evolution processes). Or other diversity methods. The GAGGS generation library of polynucleotides can be nucleic acid shuffled and polynucleotides known to have characteristics of intent as a result of undergoing rounds of intra-silicon and / or physical shuffling are selected and sequenced to provide a string to evaluate the GAGGS process, or You can form strings for additional GAGGS operations. Therefore, GAGGS may be performed as a chain only technique, or may subsequently be subjected to shuffling, mutation, random priming PCR, and the like.

본 발명의 방법이 개개의 유전자, 전체 플라스미드, 바이러스, 다중 유전자 클러스터 또는 심지어 전체 유전자까지를 진화시키기 위하여 물리적 재조합("셔플링")을 수행하고 스크리닝 또는 선택시키는 과정을 포함하는 경우, 본 발명자들 및 그들의 공동 연구자의 기술이 특히 유용하다. 예를 들어, 재조합 및 스크리닝/선택의 반복적 순환은 문자열상에서 GO를 수행함으로써 합성되는 목적 핵산을 추가로 진화시킴으로써(예를 들어, 조립 PCR에 의해서 상응 올리고뉴클레오타이드 합성 및 유전자 합성/재생산을 후속시킴으로써) 수행될 수 있다.If the method of the present invention involves performing physical screening ("shuffling") and screening or selecting to evolve individual genes, whole plasmids, viruses, multiple gene clusters or even whole genes, the inventors And the skills of their collaborators are particularly useful. For example, the repetitive cycle of recombination and screening / selection may be further evolved (eg, by subsequent assembly oligonucleotide synthesis and gene synthesis / reproduction by assembly PCR) by evolving the target nucleic acid synthesized by performing GO on a string. Can be performed.

이하의 출판물들은 본 발명의 실리코내 방법과 함께 수행될 수 있는 다수의 반복적 과정 및/또는 관련있는 다양성 발생 방법을 기술하고 있다 : Stemmer외 다수 공저(1999)"Molecular breeding of viruses for targeting and other clinical properties:Tumor Targeting"4:1-4 ; Nesset외 다수 공저(1999) "Dna Shuffling of subgenomic sequences of subtilisin" Nature Biotechnology 17:893-896; Chang 외 다수(1999)"Evolution of a cytokine using DNA family shuffling" Nature Biotechnology 17:793-797; Mishull 및 Stemmer(1990)"Protein evolution by molecular breeding" Current Opinion in Chemicl Biology 3:284-290; Christians외 다수(1999) "Directed evolution of thymidine kinase for AZT phosphorylation using DNA family shuffling" Nature Biotechnology 17:259-264; Crameri외 다수 공저(1998)"DNA shuffling of a family of genes from diverse directed evolution" Nature 391:288-291; Crameri외 다수 공저(1997)"Molecular evolution of an arsenate detoxification pathway by DNA shuffling", Nature Biotechnology 15:436-438; Zing외 다수(1997)"Directed evolution of an effective fucosidase from a galactosidase by DNA shuffling and screening" Proceedings of the National Academy of Sciences, U.S.A. 94:4504-4509 ; Pattern외 다수 공저(1997) "Applications of DNA shuffling to Pharmaceuticals and Vaccines" Current Opinion in Biotechnology 8:724-733; Crameri 외 다수 공저(1996)"Constructions and evolution of antibody-phage libraries by DNA shuffling" Nature Medicine 2:100-103; Crameri외 다수 공저(1996)"Improved green fluorescent protein by molecular evolution using DNA shuffling" Nature Biotechnology 14:315-319;Gates외 다수 공저(1996)"Afinity selective isolation of ligands from peptide libraries through display on a lac repressor 'hesdpice dimer'" Journal of molecular Biology 255:373-386; Stemmer(1996)"Sexual PCR and Assembly PCR" In:The Encyclopedia of Molecular Biology, VCH Publishers, New York pp447-457;Crameri and Stemmer(1995)"Combinatorial multiple cassette mutagenesis creates all the permutations of mutant and wildtype cassettes" BioTechniques 18:194-195 ; Stemmer외 다수(1995)"Single-step assembly of a gene and entire plasmid form large numbers of oligodeoxyribonucleotides" Gene,164:49-53; Stemmer(1995) "The Evolution of Molecular Computation" Science 270:1510; Stemmer (1995)" Searching Sequence Space" Bio/Technology 13:549-553; Stemmer(1994) "Rapid evolution of protein in vitro by DNA shuffling" Nature 370:389-391; 및 Stemmer(1994) "DNA shuffling by random fragmentation and reassembly:In vitro recombination for molecular evolution" Proceedings of the National Academy of Sciences, U.S.A. 91:10747-10751.The following publications describe a number of iterative processes and / or related diversity generation methods that can be performed with the intrasilicone method of the present invention: Stemmer et al. (1999) "Molecular breeding of viruses for targeting and other clinical properties: Tumor Targeting "4: 1-4; Co-authored by Nesset et al. (1999) “Dna Shuffling of subgenomic sequences of subtilisin” Nature Biotechnology 17: 893-896; Chang et al. (1999) "Evolution of a cytokine using DNA family shuffling" Nature Biotechnology 17: 793-797; Mishull and Stemmer (1990) "Protein evolution by molecular breeding" Current Opinion in Chemicl Biology 3: 284-290; Christians et al. (1999) "Directed evolution of thymidine kinase for AZT phosphorylation using DNA family shuffling" Nature Biotechnology 17: 259-264; Crameri et al. (1998) "DNA shuffling of a family of genes from diverse directed evolution" Nature 391: 288-291; Crameri et al. (1997) "Molecular evolution of an arsenate detoxification pathway by DNA shuffling", Nature Biotechnology 15: 436-438; Zing et al. (1997) "Directed evolution of an effective fucosidase from a galactosidase by DNA shuffling and screening" Proceedings of the National Academy of Sciences, U.S.A. 94: 4504-4509; (1997) "Applications of DNA shuffling to Pharmaceuticals and Vaccines" Current Opinion in Biotechnology 8: 724-733; Crameri et al. (1996) "Constructions and evolution of antibody-phage libraries by DNA shuffling" Nature Medicine 2: 100-103; Crameri et al. (1996) "Improved green fluorescent protein by molecular evolution using DNA shuffling" Nature Biotechnology 14: 315-319; Gates et al. (1996) "Afinity selective isolation of ligands from peptide libraries through display on a lac repressor '' hesdpice dimer '"Journal of molecular Biology 255: 373-386; Stemmer (1996) "Sexual PCR and Assembly PCR" In: The Encyclopedia of Molecular Biology, VCH Publishers, New York pp447-457; Crameri and Stemmer (1995) "Combinatorial multiple cassette mutagenesis creates all the permutations of mutant and wildtype cassettes" BioTechniques 18: 194-195; Stemmer et al. (1995) "Single-step assembly of a gene and entire plasmid form large numbers of oligodeoxyribonucleotides" Gene, 164: 49-53; Stemmer (1995) "The Evolution of Molecular Computation" Science 270: 1510; Stemmer (1995) "Searching Sequence Space" Bio / Technology 13: 549-553; Stemmer (1994) "Rapid evolution of protein in vitro by DNA shuffling" Nature 370: 389-391; And Stemmer (1994) "DNA shuffling by random fragmentation and reassembly: In vitro recombination for molecular evolution" Proceedings of the National Academy of Sciences, U.S.A. 91: 10747-10751.

DNA 셔플링 방법에 대한 추가의 설명은 본 발명자들 및 그들의 공동 연구자에 의하여 출원된 다음과 같은 미합중국 특허들에서 찾아볼 수 있다 : Stemmer에 의한 미합중국 특허 제 5,605,793호(1997년 2월 25일), "METHODS FOR IN VITRO RECOMBINATION" ; Stemmer외 다수에 의한 미합중국 특허 제 5,811,238호(1998년 9월 22일)"METHODS FOR GENERATING PLYNUCLEOTIDES HAVING DESIRED CHARACTERISTICS BY ITERATIVE SELECTION AND RECOMBINATION"; Stemmer외 다수에 의한 미합중국 특허 제 5,830,721호(1998년 11월 3일), "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY"; Stemmer외 다수에 의한 미합중국 특허 제 5,834,252호(1998년 11월 10일) "END-COMPLEMENTARY POLYMERASE REACTION" 및 Minshull외 다수에 의한 미합중국 특허 제 5,837,458호(1998년 11월 17일), "METHODS AND COMPOSITIONS FOR CELLULAR AND METABOLIC ENGINEERING".Further explanation of the DNA shuffling method can be found in the following United States patents filed by the inventors and their collaborators: United States Patent No. 5,605,793 to February 25, 1997, by Stemmer, "METHODS FOR IN VITRO RECOMBINATION"; United States Patent No. 5,811,238 (September 22, 1998) by Stemmer et al. "METHODS FOR GENERATING PLYNUCLEOTIDES HAVING DESIRED CHARACTERISTICS BY ITERATIVE SELECTION AND RECOMBINATION"; US Patent No. 5,830,721 to Stemmer et al., Nov. 3, 1998, "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY"; US Patent No. 5,834,252 by Stemmer et al. (November 10, 1998) "END-COMPLEMENTARY POLYMERASE REACTION" and US Patent No. 5,837,458 by Minshull et al. (November 17, 1998), "METHODS AND COMPOSITIONS FOR CELLULAR AND METABOLIC ENGINEERING ".

더욱이, 핵산 셔플링에 대한 상세한 설명 및 방식은 다수의 PCT 출원 및 외국 특허 출원 공개 공보에서 찾아 볼 수 있다 : Stemmer 및 Crameri에 의한 "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY" WO95/22625; Stemmer 및 Lipschutz "END COMPLEMENTARY POLYMERASE CHAIN REACTION" WO 96/33207; Stemmer 및 Crameri에 의한 "METHODS FOR GENERATING POLYNUCLEOTIDES HAVING DESIRED CHARACTERISTICS BY ITERATIVE SELECTION AND RECOMBINATION" WO 97/0078; Minshul 및 Stemmer에 의한 "METHODS AND COMPOSITIONS FOR CELLULAR AND METABOLIC ENGINEERING" WO 97/35966; Punnonen외 다수에 의한 "TARGETING OF GENETIC VACCINE VECTORS" WO 99/41402; Punnonen외 다수에 의한 "ANTIGEN LIBRARY IMMUNIZATION" WO 99/41383; Punnonen외 다수에 의한 "GENETIC VACCINE VECTOR ENGINEERING" WO 99/41369; Punnonen외 다수에 의한 "OPTIMIZATION OF IMMINOMODULATORY PROPERTIES OF GENETIC VACCINES WO 9941368; Stemmer 및 Crameri에 의한 "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY" EP 0934999; Stemmer에 의한 "EVOLVING CELLULAR DNA UPTAKE BY RECURSIVE SEQUENCE RECOMBIVATION" EP0932670; Stemmer외 다수에 의한 "MODIFICATION OF VIRUS TROPISM AND HOST RANGE BY VIRAL GENOME SHUFFLING" WO9923107; Apt외 다수에 의한 "HUMAN PAPILLOMAVIRUS VECTORS" WO9921979; Del Cardayre외 다수에 의한 "EVOLUTION OF WHOLE CELLS AND ORGANISMS BY RECURSIVE SEQUENCE RECOMBINATION" WO 9831837 ; Pattern 및 Stemmer에 의한 "METHOD AND COMPOSITIONS FOR POLYPEPTIDE ENGINEERING" WO9827230; Stemmer외 다수에 의한 "METHODS OF OPTIMIZATION OF GENE THERAPY BY RECURSIVE SEQUENCE SHUFFLING AND SELECTION" WO9813487.Moreover, details and manners for nucleic acid shuffling can be found in a number of PCT applications and foreign patent application publications: "DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY" WO95 / 22625 by Stemmer and Crameri; Stemmer and Lipschutz "END COMPLEMENTARY POLYMERASE CHAIN REACTION" WO 96/33207; "METHODS FOR GENERATING POLYNUCLEOTIDES HAVING DESIRED CHARACTERISTICS BY ITERATIVE SELECTION AND RECOMBINATION" by Stemmer and Crameri WO 97/0078; "METHODS AND COMPOSITIONS FOR CELLULAR AND METABOLIC ENGINEERING" by Minshul and Stemmer WO 97/35966; "TARGETING OF GENETIC VACCINE VECTORS" by Punnonen et al. WO 99/41402; "ANTIGEN LIBRARY IMMUNIZATION" by Punnonen et al. WO 99/41383; "GENETIC VACCINE VECTOR ENGINEERING" by Punnonen et al. WO 99/41369; "OPTIMIZATION OF IMMINOMODULATORY PROPERTIES OF GENETIC VACCINES WO 9941368; by Punnonen et al." DNA MUTAGENESIS BY RANDOM FRAGMENTATION AND REASSEMBLY "by Stemmer and Crameri EP 0934999; "MODIFICATION OF VIRUS TROPISM AND HOST RANGE BY VIRAL GENOME SHUFFLING" WO9923107; "HUMAN PAPILLOMAVIRUS VECTORS" by Apt and others WO9921979; "EVOLUTION OF WHOLE CELLS AND ORGANISMS BY RECURSBIN SEQUENCE 98" by Del Cardayre et al. "METHOD AND COMPOSITIONS FOR POLYPEPTIDE ENGINEERING" by Pattern and Stemmer WO9827230; "METHODS OF OPTIMIZATION OF GENE THERAPY BY RECURSIVE SEQUENCE SHUFFLING AND SELECTION" by Stemmer et al. WO9813487.

다음과 같은 임의의 미합중국 특허 출원은 DNA 셔플링 및 관련 기술에 관하여 기술하고 있다 : Pattern외 다수에 의하여 1998년 9월 29일(USSN 60/102,362), 1999년 1월 29일(USSN 60/117,729) 및 1999년 9월 28일(USSN PCT/US99/22588) 출원된 "SHUFFLING OF CODON ALTERED GENES"; del Cardyre외 다수에 의하여 1999년 7월 15일 출원된 "EVOLUTION OF WHOLE CELLS AND ORGANISMS BY RECURSIVE SEQUENCE REOMBINATION"(USSN 09/354,922); Crameri외 다수에 의하여 1999년 2월 5일(USSN 60/118,813), 1999년 6월 24일(USSN 60/141,049) 및 1999년 9월 28일(USSN 09/408,392)에 출원된 "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION" 및 Welch외 다수에 의하여 1999년 9월 28일에 출원된 "USE OF CODON-BASED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING"(USSN 09/408,393).Any of the following U.S. patent applications describe DNA shuffling and related technologies: September 29, 1998 (USSN 60 / 102,362), January 29, 1999 (USSN 60 / 117,729) by Pattern et al. ) And "SHUFFLING OF CODON ALTERED GENES", filed September 28, 1999 (USSN PCT / US99 / 22588); "EVOLUTION OF WHOLE CELLS AND ORGANISMS BY RECURSIVE SEQUENCE REOMBINATION", filed Jul. 15, 1999 by del Cardyre et al. (USSN 09 / 354,922); "OLIGONUCLEOTIDE MEDIATED NUCLEIC, filed February 5, 1999 (USSN 60 / 118,813), June 24, 1999 (USSN 60 / 141,049) and September 28, 1999 (USSN 09 / 408,392) by Crameri et al. "USE OF CODON-BASED OLIGONUCLEOTIDE SYNTHESIC FOR SYNTHETIC SHUFFLING", filed September 28, 1999 by ACID RECOMBINATION and Welch et al. (USSN 09 / 408,393).

상기 출판물, 특허, 공개 출원 및 미합중국 특허 출원을 살펴보면, 의도하는 특성을 갖는 신규의 핵산을 제공하기 위한 핵산의 셔플링(즉"반복적 재조합")은 다수의 확실한 방법들에 의해서 수행될 수 있다. 이들 방법중 임의의 방법은 하나 이상의 선택된 근원 문자열상에서 하나 이상의 GO를 수행함으로써 제조된 문자열에 상응하는 핵산을 결합시킴으로써 본 발명의 방법들과 통합화될 수 있다. 이들 방법중 임의의 방법은 본원에 논의된 바와 같이 GAGGS 합성 핵산을 진화시켜 개선된 특성들을 갖는 신규의 핵산을 제조하는 본 발명에 적용될 수 있다. 이러한 핵산들을 합성하는 방법 및 이들 방법에 의하여 제조된 핵산은 모두 본 발명의 양상에 상응된다.Looking at the above publications, patents, published applications and United States patent applications, shuffling of nucleic acids (ie, "repetitive recombination") to provide novel nucleic acids with the intended properties can be performed by a number of sure methods. Any of these methods can be integrated with the methods of the present invention by binding nucleic acids corresponding to strings prepared by performing one or more GOs on one or more selected source strings. Any of these methods can be applied to the present invention to evolve GAGGS synthetic nucleic acids to produce novel nucleic acids with improved properties as discussed herein. Both methods of synthesizing such nucleic acids and nucleic acids produced by these methods correspond to aspects of the present invention.

간단히 말해서, 5개 이상의 상이한 재조합 방법이 일반적으로 본 발명에 따라 수행될 수 있다(개별적으로 또는 결합하여). 첫째, 문자열의 GO 조작에 의하여 제조된 문자열에 상응하는 핵산 세트, 또는 이들 세트의 유용한 상동체, 또는 이들 모두를 합성함으로써 제조된 핵산은 예를 들어, 재조합될 핵산을 DNase로 절단후 상기 핵산들을 결찰 및/또는 PCR 재조립시키는 방법과 같이, 상기 참고 문헌에서 논의되는 다수의 기술중 어느 하나에 의해서 시험관내에서 재조합될 수 있다. 둘째, 문자열의 GO 조작에 의하여 제조된 특징 스트리에 상응하는 핵산 세트 및/또는 이러한 세트의 유용한 상동체는 예를 들어 세포내에서 핵산들 사이에서 재조합시킴으로써 생체내에서 반복적으로 재조합될 수 있다. 세째, 전체 세포 유전자 재조합 방법은 세포의 전체 유전자가 재조합될 경우 사용될 수 있는데, 임의적으로는 문자열의 GO 조작에 의하여 제조된 문자열에 상응하는 핵산 세트 또는 이러한 세트의 유용한 상동체에 의해서 제조된 문자열에 상응하는 핵산 세트와 같은 바람직한 라이브러리 구성 요소로 유전자 재조합 혼합물을 스파이킹시키는 것을 포함한다. 네째, 합성 재조합 방법이 사용될 수 있는데, 여기서는 하나 이상의 근원 핵산에 상응하는 올리고뉴클레오타이드를 포함하는 PCR 또는 결찰 반응물에서 상이한 상동체에 상응하는 올리고뉴클레오타이드가 합성 및 재조립되어 신규의 재조합 핵산이 합성된다. 올리고뉴클레오타이드는 표준적인 뉴클레오타이드 첨가 방법에 의해서 제조될 수 있거나, 또는 삼원성 뉴클레오타이드 합성 연구법에 의해서 제조될 수 있다. 다섯째, 핵산 또는 단백질 상동체에 상응하는 서열 스트리을 재조합시키기 위하여 컴퓨터내에서 GO가 사용되는 실리코내 재조합 방법만으로 유용할 수 있다. 결과로 재조합된 서열 열은 재조합된 서열에 상응하는 핵산을 합성시킴으로써 예를 들어, 올리고뉴클레오타이드 합성/유전자 재조립 기술에 의하여 임의적으로 핵산으로 전환될 수 있다. 상기 일반적인 재조합 방식중 임의의 것은 독립적으로 또는 함께 반복적으로 수행되어 다양한 세트의 재조합 핵산을 합성할 수 있다.In short, five or more different methods of recombination can generally be carried out (individually or in combination) in accordance with the present invention. First, nucleic acids prepared by synthesizing a set of nucleic acids corresponding to a string prepared by GO manipulation of a string, or useful homologs of these sets, or both, may be prepared by, for example, cleaving the nucleic acid to be recombined with DNase and then removing the nucleic acids. Recombination in vitro may be by any of a number of techniques discussed in the references, such as methods of ligation and / or PCR reassembly. Second, a set of nucleic acids corresponding to a feature strip prepared by GO manipulation of a string and / or useful homologues of such a set may be repeatedly recombined in vivo, for example by recombination between nucleic acids in a cell. Third, whole cell gene recombination methods can be used when the whole gene of a cell is recombined, optionally to a set of nucleic acids corresponding to a string produced by GO manipulation of the string or to a string prepared by a useful homologue of such a set. Spiking the genetic recombination mixture with a preferred library component, such as a corresponding set of nucleic acids. Fourth, synthetic recombination methods may be used, wherein oligonucleotides corresponding to different homologues are synthesized and reassembled in a PCR or ligation reaction comprising oligonucleotides corresponding to one or more source nucleic acids to synthesize new recombinant nucleic acids. Oligonucleotides may be prepared by standard nucleotide addition methods or may be prepared by ternary nucleotide synthesis methods. Fifth, only in silico recombination methods where GO is used in a computer to recombine sequence streams corresponding to nucleic acids or protein homologues may be useful. The resulting sequence of recombinant sequences can optionally be converted to nucleic acids by, for example, oligonucleotide synthesis / gene reassembly techniques by synthesizing nucleic acids corresponding to the recombinant sequences. Any of the above general methods of recombination can be performed independently or together repeatedly to synthesize various sets of recombinant nucleic acids.

상기 참고 문헌들은 본 발명과 함께 기타의 재조합 기술 및 이들 방식의 다수의 변형 형태를 제공한다. 상기에서 사용된 방식에 상관 없이, 본 발명의 핵산은 각각의 다른 핵산 및 관련된(또는 관련되지 않은 경우라도) 핵산과 재조합되어 상동성 핵산을 포함하는 다수의 재조합 핵산 세트를 제조할 수 있다.The references provide other recombination techniques and a number of variations of these approaches in conjunction with the present invention. Regardless of the manner used above, the nucleic acids of the present invention can be recombined with each other nucleic acid and associated (or even unrelated) nucleic acids to produce a plurality of sets of recombinant nucleic acids, including homologous nucleic acids.

기타의 다양성 발생 연구법이 또한 문자열 또는 핵산을 변형시키는데에 사용될 수 있다. 각각의 뉴클레오타이드 또는 여속적 또는 비연속적 뉴클레오타이드를 변경시키는 방법, 즉 돌연변이 유발법에 의해서 추가의 다양성이 입력 또는 출력 핵산으로 도입될 수 있다. 돌연 변이 유발법은 예를 들어 다음과 같은 것들을 포함한다 : 재조합(PCT/US98/05223; 공개 번호 WO98/42727); 올리고뉴클레오타이드 유도성 돌연변이 유발법(Smith, Ann.Rev.Genet. 19:423-462(1985); Bostein 및 Shortle, Science 229:1193-1201(1985); Carter, Biochem. J. 237:1-7(1986); Kunkel, Nucleic acids & Molecular Biology의 "The efficacy of oligonucleotide directed mutagenesis", Eckstein 및 Lilley, eds., Springer Verlag, Berlin (1987)). 상기 방법들에는 다음과 같은 방법이 포함된다 : 올리고뉴클레오타이드 유도성 돌연변이 유발법(Zoller 및 Smith, Nucl. Acids Res. 10:6487-6500(1982), Methods in Enzymol. 100:468-500(1983), 및 Methods in Enzymol. 154:329-350(1987)); 포스포티오에이트 변형 DNA 돌연변이 유발법(Taylor외 다수, Nucl. Acids Res. 13:8749-8764(1985);Taylor외 다수, Nucl. Acids. Res. 13:8765-8787(1985); Nakayama 및 Eckstein, Nucl. Acids Res.14:9679-9698(1986); Sayers외 다수, Nucl. Acids Res.16:803-814(1988), 우라실 함유 주형을 이용한 돌연 변이 유발법(Kunkel, Proc. Nat'l. Acad. Sci. USA 82:488-492(1985) 및 Kunkel외 다수 공저, Methods in Enzymol. 154:367-382)); 갭 형성된 이중 DNA를 사용한 돌연 변이 유발법(Kramer외 다수 공저, Nucl.Acids Res. 12:9441-9456(1984); Kramer 및 Fritz, Methods in Enzymol. 154:350-367(1987); Kramer 및 Fritz, Nucl. Acids Res. 16:7207(1988); 및 Fritz외 다수 공저, Nucl. Acids Res. 16:6987-6999(1988)). 추가의 적당한 방법으로서는 점 미스매치 수선(Fritz외 다수 공저, Cell 38:879-887(1984)), 수선 결함성 숙주 균주를 이용한 돌연 변이 유발법(Carter외 다수 공저, Nucl. Acids Res. 13:4431-4443(1985); Carter, Methods in Enzymol. 154:382-403(1987)), 결실 돌연 변이 유발법(Eghtedarzadeh 및 Henikoff, Nucl. Acids Res. 14:5115(1986)), 제한 선택 및 제한 정제(Wells외 다수 공저, Phil. Trans. R.Soc.Lond. A 317:415-423(1986)), 전체 유전자 합성에 의한 돌연 변이 유발법(Nambiar외 다수 공저, Science 223:1299-1301(1984); Sakamar 및 Khorana, Nicl. Acids Res. 14:6361-6372(1988); Wells외 다수 공저, Gene 34:315-323(1985); 및 Grundstom외 다수 공저, Nicl. Acids Res. 13:3305-3316(1985). 돌연 변이 유발 키트가 상업적으로 시판되고 있다(예를 들어, Bio-Rad, Amersham International, Anglian Biotechnology).Other diversity generation methods can also be used to modify strings or nucleic acids. Additional variability can be introduced into the input or output nucleic acid by the method of altering each nucleotide or a continuous or discontinuous nucleotide, ie mutagenesis. Mutagenesis includes, for example, the following: recombination (PCT / US98 / 05223; Publication No. WO98 / 42727); Oligonucleotide-induced mutagenesis (Smith, Ann. Rev. Genet. 19: 423-462 (1985); Bostein and Shortle, Science 229: 1193-1201 (1985); Carter, Biochem. J. 237: 1-7 (1986); Kunkel, Nucleic acids & Molecular Biology, "The efficacy of oligonucleotide directed mutagenesis", Eckstein and Lilley, eds., Springer Verlag, Berlin (1987)). Such methods include the following methods: Oligonucleotide-induced mutagenesis (Zoller and Smith, Nucl. Acids Res. 10: 6487-6500 (1982), Methods in Enzymol. 100: 468-500 (1983) And Methods in Enzymol. 154: 329-350 (1987)); Phosphothioate modified DNA mutagenesis (Taylor et al., Nucl. Acids Res. 13: 8749-8764 (1985); Taylor et al. Nucle. Acids. Res. 13: 8765-8787 (1985); Nakayama and Eckstein , Nucl.Acids Res. 14: 9679-9698 (1986); Sayers et al., Nucl.Acids Res. 16: 803-814 (1988), mutagenesis using uracil-containing templates (Kunkel, Proc. Nat'l) Acad. Sci. USA 82: 488-492 (1985) and Kunkel et al., Methods in Enzymol. 154: 367-382); Mutagenesis using gapped double DNA (Kramer et al., Nucl. Acids Res. 12: 9441-9456 (1984); Kramer and Fritz, Methods in Enzymol. 154: 350-367 (1987); Kramer and Fritz , Nucl.Acids Res. 16: 7207 (1988); and by Fritz et al., Nucl.Acids Res. 16: 6987-6999 (1988). Further suitable methods include point mismatch repair (Fritz et al., Cell 38: 879-887 (1984)), mutagenesis using repair defective host strains (Carter et al., Nucl. Acids Res. 13: 4431-4443 (1985); Carter, Methods in Enzymol. 154: 382-403 (1987)), inducing deletion mutations (Eghtedarzadeh and Henikoff, Nucl. Acids Res. 14: 5115 (1986)), restriction selection and restriction Purification (Wells et al., Phil. Trans. R. Soc. Lond. A 317: 415-423 (1986)), inducing mutations by whole gene synthesis (Nambiar et al., Science 223: 1299-1301 1984); Sakamar and Khorana, Nicl.Acids Res. 14: 6361-6372 (1988); Wells et al., Gene 34: 315-323 (1985); and Grundstom et al., Nicl.Acids Res. 13: 3305 -3316 (1985) Mutation induction kits are commercially available (eg, Bio-Rad, Amersham International, Anglian Biotechnology).

기타의 다양성 발생 방법이 미합중국 특허 제 5,756,316호 ; 미합중국 특허 제 5,965,408호; Ostermeier외 다수 공저(1999) "A combinational approach to hybrid enzymes indepedent of DNA homology" Nature Biotech 17:1205; 미합중국 특허 제 5,783,431호; 미합중국 특허 제 5,824,485호; 미합중국 특허 제 5,958,672호; Jirholt외 다수 공저(1998) "Exploiting sequence space:shuffling in vivo formed complementarity determining regions into a master framework" Gene 215:471; 미합중국 특허 제 5,939,250호; WO 99/10539; WO 98/58085; WO 99/10539등에 제시되어 있다. 상기 다양성 발생 방법은 실리코내 작동, 사용자에 의하여 선택된 임의의 결합 방법에서 서로 결합되거나 또는 셔플링 반응과 함께 수행되어 핵산의 다양성을 창출할 수 있는데, 이들은 또한 임의의 유용한 스크리닝 방법을 사용하여 스크리닝될 수 있다. 이하의 재조합 또는 기타 다양화 반응에서 합성된 임의의 핵산은 바람직한 활성에 대해서 선택될 수 있다. 본 발명의 명세서에 있어서, 이는 당 업계의 적합한 검정법에 의해서 검출 가능하거나 또는 검정 가능한 활성에 대해서 시험하여 동정할 수 있다. 다수의 관련된(또는 관련되지 않았더라도) 특성은 임의의 유용한 검정법을 사용하여 검정될 수 있다.Other methods of generating diversity are described in US Pat. No. 5,756,316; US Patent No. 5,965,408; Ostermeier et al. (1999) "A combinational approach to hybrid enzymes indepedent of DNA homology" Nature Biotech 17: 1205; US Patent No. 5,783,431; US Patent No. 5,824,485; US Patent No. 5,958,672; Jirholt et al. (1998) "Exploiting sequence space: shuffling in vivo formed complementarity determining regions into a master framework" Gene 215: 471; US Patent No. 5,939,250; WO 99/10539; WO 98/58085; WO 99/10539 et al. The method of diversity generation can be combined with each other in a silico operation, any binding method chosen by the user, or performed with a shuffling reaction to create diversity of nucleic acids, which can also be screened using any useful screening method. Can be. Any nucleic acid synthesized in the following recombination or other diversification reaction can be selected for the desired activity. In the context of the present invention, this can be identified by testing for detectable or assayable activity by a suitable assay in the art. Many related (or unrelated) properties can be assayed using any useful assay.

따라서, 본 발명의 하나 이상의 폴리뉴클레오타이드(GAGGS 방법에 의하여 합성된)를 본 발명의 일부인 추가의 핵산과 반복적으로 재조합시킴으로써 재조합 핵산이 합성된다. 하나 이상의 추가적인 핵산은 본 발명의 다른 폴리뉴클레오타이드를 포함할 수 있다 ; 임의로, 또는 대안으로, 또는 부가적으로 하나 이상의 추가의 핵산은 예를 들어 자연 발생적 서열 또는 그의 준서열분을 암호화하는 핵산, 또는 임의의 상동성 서열 또는 그의 준서열분을 포함할 수 있다.Thus, recombinant nucleic acids are synthesized by repeatedly recombining one or more polynucleotides of the invention (synthesized by the GAGGS method) with additional nucleic acids that are part of the invention. One or more additional nucleic acids may comprise other polynucleotides of the invention; Optionally, or in the alternative, or in addition, one or more additional nucleic acids may include, for example, nucleic acids encoding naturally occurring sequences or subsequences thereof, or any homologous sequences or subsequences thereof.

재조합 단계는 생체내, 시험관내 또는 실리코내에서 상기 문헌 및 본원에 상세히 설명된 바와 같이 수행될 수 있다. 뿐만 아니라, 본 발명에 포함된 세포는 본원에 제시된 핵산을 반복적으로 재조합시켜서 제조된 재조합 핵산, 핵산 라이브러리, 및 상기 라이브러리를 포함하거나 또는 본원에 제시된 핵산을 다른 핵산과 재조합(또는 반복적 재조합)시켜 얻어진 임의의 재조합 핵산을 포함하는 일군의 세포, 벡터, 바이러스등, 또는 추가의 핵산을 포함하는 세포이다. 컴퓨터 시스템 또는 컴퓨터 판독 가능한 매체에 존재하는 데이터베이스내 상응 서열 열은 본 발명의 양상이다.The recombination step can be performed in vivo, in vitro or in silico as described in detail above and herein. In addition, a cell included in the present invention may be a recombinant nucleic acid prepared by repeatedly recombining a nucleic acid set forth herein, a nucleic acid library, and obtained by recombining (or repeatedly recombining) a nucleic acid comprising the library or the nucleic acid provided herein with another nucleic acid. A group of cells, vectors, viruses, etc., or any other nucleic acid comprising any recombinant nucleic acid. Corresponding sequence sequences in a database residing on a computer system or computer readable medium are aspects of the present invention.

일례로써, 통상의 물리적 재조합 과정은 일반적으로 서로간에 약간의 동일성을 나타내는(즉, 서열 동일성이 약 30%, 50%, 70%, 80% 또는 90%이상인) 2이상의 기질로써 시작되지만, 어느 위치에서는 서로 상이하다(그러나, 실리코내 또는 크로스오버 올리고뉴클레오타이드 매개성 형식에서만은 핵산의 상동성은 근소하거나 또는 거의 나타내지 않는다). 예를 들어, 2 이상의 핵산이 본원에서 재조합될 수 있다. 핵산들 사이의 차이점은 예를 들어, 치환, 삽입 및 결실과 같은 임의의 돌연 변이 형태일 수 있다. 종종 상이한 절편들이 약 1-20위치에서 상이하다. 출발 물질에 비해서 상대적으로 다양성을 증가시키는 재조합 방법에 있어서, 출발 물질은 2이상의 뉴클레오타이드 위치에서 서로 상이하다. 즉, 2개의 기질만이 존재하면 2이상의 다양화 위치가 존재하게 된다. 예를 들어, 3개의 기질이 존재하면, 하나의 기질은 단일 위치에서 두번째 기질과 상이할 수 있으며, 또한 두번째 기질은 상이한 단일 위치에서 세번째 기질과 상이할 것이다. 물론, 하나의 초기 문자열만이 제공되면, 임의의 GO는 목적 활성에 대하여 스크리닝될 수 있는 핵산의 다양한 배열을 제조하는 핵산을 변형시키는데에 사용될 수 있다.As an example, conventional physical recombination processes generally begin with at least two substrates that exhibit some identity to each other (ie, at least about 30%, 50%, 70%, 80%, or 90% sequence identity), but at any position Are different from each other (however, only in the silico or crossover oligonucleotide mediated form, the homology of nucleic acids is slight or hardly expressed). For example, two or more nucleic acids can be recombined herein. The difference between nucleic acids can be in the form of any mutation, such as, for example, substitutions, insertions, and deletions. Often different sections differ at about 1-20 positions. In recombinant methods that increase the diversity relative to the starting material, the starting materials differ from each other at two or more nucleotide positions. That is, if only two substrates are present, there are two or more diversification sites. For example, if three substrates are present, one substrate may be different from the second substrate at a single location, and the second substrate will also be different from the third substrate at a different single location. Of course, provided that only one initial string is provided, any GO can be used to modify the nucleic acid to produce various arrays of nucleic acids that can be screened for desired activity.

물리적 셔플링 과정에 있어서, 출발 DNA 절편은 예를 들어 대립 특징성 변이체 또는 종 변이체와 같은 서로 상이한 자연 발생적 변이체일 수 있다. 더욱 통상적으로, 이들은 하나 이상의 상동성 핵산 서열로부터 유래된다. 상기 절편은 또한 어느 정도 구조적 상관성 및 일반적으로 기능적 상관성을 나타내는 비대립특징 유전자로부터도 수득될 수 있다. 출발 DNA 절편은 또한 상호간의 유도 변이체일 수 있다. 예를 들어, 하나의 DNA 절편은 다른 절편을 오류 경향성 PCR 복제에 의하여, 또는 돌연 변이원 카세트의 치환에 의해서 제조될 수 있다. 유도성 돌연 변이주는 또한 돌연 변이원 균주에서 절편의 하나(또는 두개)를 촉진시킴으로써 제조될 수도 있다. 이러한 상황에서, 엄격히 말하면, 두번째 DNA 절편은 단일 절편은 아니지만 관련 절편들의 거대 군집이다. 출발 물질을 형성하는 상이한 절편들은 길이가 동일하거나 또는 거의 동일하다. 그러나, 이럴 필요는 없다 ; 예를 들어, 하나의 절편은 다른 절편의 준서열분일 수 있다. 상기 절편은 벡터와 같은 더욱 큰 분자의 일부분으로서 제공될 수 있거나 또는 분리된 형태일 수 있다. 한가지 선택 사양에 있어서, 목적 핵산은 GAGGS에 의해서 DE로부터 유래된다.In the physical shuffling process, the starting DNA fragments can be different naturally occurring variants from one another, for example, allelic or variant variants. More typically, they are derived from one or more homologous nucleic acid sequences. The fragments can also be obtained from non-alleles that exhibit some degree of structural and generally functional correlation. Starting DNA fragments can also be mutually inducing variants. For example, one DNA fragment can be prepared by error prone PCR replication or by substitution of a mutagenic cassette. Inducible mutant strains may also be prepared by promoting one (or two) of fragments in a mutant strain. In this situation, strictly speaking, the second DNA fragment is not a single fragment but a large community of related fragments. The different segments forming the starting material are the same or almost the same in length. However, this need not be the case; For example, one segment may be an subsequence of another segment. The fragment may be provided as part of a larger molecule such as a vector or may be in isolated form. In one option, the target nucleic acid is derived from DE by GAGGS.

코돈 다양화 올리고뉴클레오타이드 방법Codon Diversification Oligonucleotide Method

코돈 다양화 올리고뉴클레오타이드는 서열은 유사하지만, 하나 이상의 염기가 변이된 올리고뉴클레오타이드로서, 여기서 하나 이상의 변이가 발생함으로써 아미노산의 변이를 암호화할 수 있다. 이들은 삼원성 뉴클레오타이드(tri-nucleotide) 즉, 코돈 기초 포스포아미디트 커플화 화합물을 이용하여 합성될 수 있는데, 여기서 20개의 아미노산에 대한 코돈을 나타내는 삼원성 뉴클레오타이드 포스포아미디트는 전체 코돈을 고체상 기술에 의하여 합성된 올리고뉴클레오타이드 서열에 도입시키는데에 사용된다. 바람직하게는 선택된 핵산 서열과 결합하는 선택된 길이(예를 들어, 약 20, 30, 40, 50, 60, 70, 80, 90 또는 100 이상의 뉴클레오타이드)의 모든 올리고뉴클레오타이드가 합성된다. 본 발명에 있어서, 코돈 변이성 올리고뉴클레오타이드 서열은 본원에 언급된 임의의 연구법에 의해서 합성된 핵산의 선택된 세트로부터 수득된 서열을 기초로 할 수 있다. 삼원성 뉴클레오타이드 합성에 대한 추가의 설명은 Welch외 다수에 의하여 1999년 9월 28일 출원된 USSN 09/408,393 "USE OF CODON VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING"에서 찾아볼 수 있다. 올리고뉴클레오타이드는 표준적인 첨가 방법에 의하여 합성될 수 있거나 또는 삼원성 뉴클레오타이드 합성 연구법에 의하여 제조될 수 있다. 암호화된 아미노산의 차이에 상응하는 변화를 선택하는 이점은 프레임 이동을 거의 유발시키지 않는 삼원성 코돈에 의한 변형이다(따라서, 소수의 불활성 라이브러리 일원과 유사함). 또한 단순한 염기 변이보다는 코돈 변형에 초점을 맞춘 합성은 합성 과정에 필요한 올리고머의 총수를 감소시킨다.Codon diversification oligonucleotides are oligonucleotides that are similar in sequence but have one or more base mutated mutations, where one or more mutations can occur to encode a variation of an amino acid. They can be synthesized using ternary tri-nucleotides, ie, codon-based phosphoramidite coupling compounds, where ternary nucleotide phosphoramides, which represent codons for 20 amino acids, describe the entire codon as a solid phase. It is used to introduce into the oligonucleotide sequence synthesized by. Preferably all oligonucleotides of selected length (eg, about 20, 30, 40, 50, 60, 70, 80, 90 or 100 or more nucleotides) that bind the selected nucleic acid sequence are synthesized. In the present invention, codon variant oligonucleotide sequences may be based on sequences obtained from a selected set of nucleic acids synthesized by any of the methods mentioned herein. Further explanation of ternary nucleotide synthesis can be found in USSN 09 / 408,393, "USE OF CODON VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING," filed September 28, 1999 by Welch et al. Oligonucleotides can be synthesized by standard addition methods or prepared by ternary nucleotide synthesis assays. The advantage of selecting a change corresponding to the difference in encoded amino acids is the modification by ternary codons that rarely cause frame shifts (thus similar to a few inactive library members). In addition, synthesis focused on codon modifications rather than simple base variations reduces the total number of oligomers required for the synthesis process.

올리고머 세트Oligomer set

일반적으로, 올리고머 세트는 물리적 수준에서 유전적 현상 및 작동자와 상관시키는 다수의 상이한 방식 및 상기 방식들의 상이한 조합에서 조립용으로 조합될 수 있다.In general, oligomer sets can be combined for assembly in a number of different ways that correlate with genetic phenomena and operators at the physical level, and in different combinations of these ways.

언급한 바와 같이, 올리고뉴클레오타이드의 중첩된 세트들은 합성후 혼성화 및 연장되어 전체 길이의 핵산을 형성할 수 있다. 전체 길이 핵산은 연구자에 의하여 목적으로 하는 유전자 재구성 방법에서 사용되는 올리고머보다 더욱 긴 임의의 핵산이다. 이것은 자연 발생적 전체 길이 서열의 임의의 %, 예를 들어, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 또는 90% 이상에 상응할 수 있다.As mentioned, nested sets of oligonucleotides can be hybridized and extended after synthesis to form nucleic acids of full length. Full length nucleic acid is any nucleic acid that is longer than the oligomer used by the investigator in the gene reconstruction method of interest. This may correspond to any percentage of naturally occurring full length sequence, eg, at least 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, or 90%.

올리고머 세트는 종종 약 5, 때로는 약 10, 종종 약 15, 일반적으로 약 20 이상인, 유전자 재구성을 촉진시켜 주는 뉴클레오타이드 중첩 서열을 갖는다. 올리고머 세트는 임의적으로는 유전자 재구성의 목적 즉, 우발적으로 중첩된 구역이 존재하는 즉, 반복적 서열 요소가 존재하거나 또는 합성될 유전자 서열로 디자인되는 유전자 재구성의 목적으로 단순화된다. 세트내 올리고머의 길이는 서열 구역이 중첩될 수 있는 것과 같이 동일하거나 상이할 수 있다. 혼성화 및 연장을 촉진시키기 위하여(예를 들어, PCR 순환 동안), 중첩 구역은 임의적으로는 유사한 용융 온도를 갖도록 디자인된다.Oligomer sets often have nucleotide overlapping sequences that facilitate gene reconstruction, which are often about 5, sometimes about 10, often about 15, generally about 20 or more. The oligomer set is optionally simplified for the purpose of gene reconstruction, ie, where there is an accidentally overlapping region, that is, for the reconstruction of genes in which repetitive sequence elements are present or designed into the gene sequence to be synthesized. The length of the oligomers in the set can be the same or different as the sequence regions can overlap. In order to facilitate hybridization and extension (eg, during the PCR cycle), the overlap zones are optionally designed to have similar melting temperatures.

근원 서열은 (개념적으로 또는 물리적으로) 그리딩(gridding)될 수 있으며 보통의 서열은 보통의 서열 올리고머를 선택하는데에 사용될 수 있는데, 이로써 올리고머 일원을 하나 이상의 세트에 결합시켜 전체 길이 핵산을 제조하는데에 요구되는 올리고머 일원을 감소시키게 된다. 이와 유사하게, 약간의 서열 유사성을 갖는 올리고뉴클레오타이드는 합성중인 올리고머 풀이 이종 염기를 첨가시키는 중에 상이한 풀로 나누어지거나, 또는 임의적으로 상기 올리고머에 동일한 첨가 반응을 필요로 하는 후속 단계에서 재결합된 합성 단계(풀링)가 연속되는, 풀링 합성(pooled synthesis) 및/또는 스플릿 합성(split synthesis)에 의하여 합성될 수 있다. 올리고머 셔플링 방식에 있어서, 다수의 상이한 근원에 상응하는 이종 올리고머는 합성중에 스플릿되거나 또는 재결합될 수 있다. 단순한 축퇴성 합성법에 있어서, 하나 이상의 핵산 염기는 단일 합성 단계중에 첨가되어 결과로 수득되는 2이상의 올리고뉴클레오타이드내 서열에 2이상의 변이를 가져올 수 있다. 핵산 염기 첨가에 있어서 상대적인 %는 하나 이상의 근원 서열에 대해서 바이어스성 합성을 제어할 수 있다. 이와 유사하게, 부분 발생은 축퇴성 올리고뉴클레오타이드 합성시 종결 코돈이 삽입되는 것을 방지하도록 수행될 수 있다. 따라서 스플릿 및 풀링 방식에 있어서, 몇몇 올리고머는 매 합성 단계중에 임의로 연장되지는 않는다(프레임 이동을 방지하기 위하여, 하나 이상의 코돈에 상응하는 몇몇 올리고머는 상기 단계에서 연장되지 않는다).The source sequence can be grided (conceptually or physically) and the ordinary sequence can be used to select a common sequence oligomer, thereby binding the oligomer member to one or more sets to produce full length nucleic acid. This reduces the oligomeric member required for. Similarly, oligonucleotides with some sequence similarity may be synthesized by pooling the oligomer pools being synthesized into different pools while adding heterologous bases, or optionally recombining in subsequent steps requiring the same addition reaction to the oligomers (pooling). ) May be synthesized by successive pooled synthesis and / or split synthesis. In the oligomer shuffling mode, heterologous oligomers corresponding to many different sources can be split or recombined during synthesis. In simple degenerate synthesis, one or more nucleic acid bases can be added during a single synthesis step resulting in two or more mutations in the resulting two or more oligonucleotide sequences. The relative percentages in nucleic acid base addition can control bias synthesis for one or more source sequences. Similarly, partial generation can be performed to prevent the insertion of stop codons in the synthesis of degenerate oligonucleotides. Thus, in the split and pull mode, some oligomers do not extend arbitrarily during every synthesis step (to prevent frame movement, some oligomers corresponding to one or more codons do not extend in this step).

올리고머를 구성할때, 크로스오버 올리고머는 2이상의 근원 서열 사이의 하나 이상의 변이 지점에서 구성될 수 있다(염기 변화 또는 기타 변이는 크로스오버 발생 지점으로서 처리된다). 상기 크로스오버 올리고머는 크로스오버점이 존재하는 위치에 제 2근원 서열과 동일한 구역이 후속되는 , 제1근원 서열과 동일한 서열의 구역을 가진다. 예를 들어, 모든 자연 발생적 돌연 변이는 크로스오버점일 수 있다.When constructing an oligomer, the crossover oligomer may be constructed at one or more variation points between two or more source sequences (base changes or other variations are treated as points of crossover occurrence). The crossover oligomer has a region of the same sequence as the first source sequence, followed by the same region as the second source sequence at the location where the crossover point is present. For example, all naturally occurring mutations can be crossover points.

바이어스성 서열 재조합법의 다른 방법은 올리고뉴클레오타이드 혼합물을 하나 이상의 근원 핵산 단편으로 스파이킹시키는 것이다(하나 이상의 핵산이 단편화되면, 결과로 형성되는 절편은 상이한 빈도수로 재조합 혼합물에 스파이킹되어 하나 이상의 근원에 대한 재조합 결과를 바이어스시키는 것이다). 재조합 현상은 또한 상기 재조합 혼힙물로부터 얻어진 하나 이상의 근원에 상응하는 하나 이상의 올리고뉴클레오타이드를 결실시킴으로써 간단히게 조작될 수 있다.Another method of biased sequence recombination is to spike the oligonucleotide mixture into one or more source nucleic acid fragments (when one or more nucleic acids are fragmented, the resulting fragments are spiked into the recombinant mixture at different frequencies to one or more sources). To bias the recombination results. Recombination phenomena can also be manipulated simply by deleting one or more oligonucleotides corresponding to one or more sources obtained from the recombinant hybrids.

관련 올리고뉴클레오타이드의 무리를 사용하는 것에 더하여, 다양성은 선택된, 의사 랜덤 또는 랜덤 올리고머를 결과의 전체 길이 서열을 바이어스시키는데에 사용될 수 있는 연장 혼합물에 첨가시킴으로써 조절될 수 있다. 이와 유사하게, 다소의 전체 길이 핵산의 다양한 라이브러리를 형성시키는, 돌연 변이성 또는 비돌연변이성 조건은 PCR 연장에 대해서 선택될 수 있다.In addition to using a bunch of related oligonucleotides, diversity can be controlled by adding selected, pseudo-random or random oligomers to an extension mixture that can be used to bias the resulting full length sequence. Similarly, mutagenic or nonmutagenic conditions, which form various libraries of somewhat full length nucleic acids, can be selected for PCR extension.

연장 혼합물에서 상이한 근원에 상응하는 올리고머 세트를 혼합시키는 것에 더하여, 단지 하나의 근원에 상응하는 올리고머 세트는 연장되어 상기 근원을 재구성시킬 수 있다. 두가지 경우에서, 결과로 수득되는 임의의 전체 길이 서열은 본원에 언급된 참고 문헌에서 밝힌 DNA 셔플링 방법에서와 같이, 단편화되고 재조합될 수 있다.In addition to mixing oligomer sets corresponding to different sources in the extension mixture, oligomer sets corresponding to only one source can be extended to reconstitute the sources. In both cases, any resulting full length sequence can be fragmented and recombined, as in the DNA shuffling method disclosed in the references cited herein.

물리적 수준에서 유전적 현상 및 작동자와 상호 관련될 수 있는 다수의 기타 올리고뉴클레오타이드 세트 및 합성 변이체에 관하여는 Crameri외 다수에 의하여 1999년 2월 5일(USSN 60/118,813) 및 1999년 6월 24일(USSN 60/141,049) 및 1999년 9월 28일(USSN 09/408,392)에 출원된 "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION" 및 Welch외 다수에 의하여 1999년 9월 28일 출원된 "OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING" (USSN 09/408,393)에서 찾아볼 수 있다.For a number of other oligonucleotide sets and synthetic variants that may be correlated with genetic phenomena and effectors at the physical level, see February 5, 1999 (USSN 60 / 118,813) and June 1999 24 by Crameri et al. "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION", filed on USSN 60 / 141,049 and September 28, 1999 (USSN 09 / 408,392) and "OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING, filed September 28, 1999 by Welch et al. "(USSN 09 / 408,393).

코돈 변형 및 셔플링에 대한 타겟Targets for Codon Deformation and Shuffling

근본적으로 임의의 핵산은 본원의 GAGGS 방법을 사용하여 셔플링될 수 있다. 수십만개의 공지된 핵산을 동정하는 시도는 본원에서 이루어지고 있지 않다. 공지의 단백질용 서열 저장소로서는 일반적으로 GenBank EMBL, DDBJ 및 NCBI를 포함한다. 기타 저장소는 인터넷 검색에 의해서 용이하게 찾아볼 수 있다.Essentially any nucleic acid can be shuffled using the GAGGS method herein. Attempts to identify hundreds of thousands of known nucleic acids are not made herein. Known sequence reservoirs for proteins generally include GenBank EMBL, DDBJ and NCBI. Other repositories can be easily found by searching the Internet.

GAGGS 방법용으로 바람직한 일군의 타겟으로는 에리트로포이틴(EPO), 인슐린과 같은 치료용 단백질, 인간 성장 호르몬과 같은 펩타이드 호르몬; 성장 인자 및 상피성 호중구 활성 펩타이드-78, GROα/MGSA, GROβ, GROγ, MIP-1α, MIP-1δ, MCP-1, 표피 성장 인자, 섬유 아세포 성장 인자, 간세포 성장 인자, 인슐린 유사성 성장 인자, 인터페론, 인터류킨, 케라틴 합성 세포 성장 인자, 백혈병 억제 인자, 온코스타틴 M, PD-ESCF, PDGF, 플레이오트로핀, SCF, c-kit 리간드, VEGEF, G-CSF등을 포함한다. 이들 단백질 및 이들의 암호화 핵산은 상업적으로 시판되고 있다(예를 들어, Sigma BioSciences 1997 카타로그 및 가격 리스트 참조) 및 임의의 경우에 있어서, 상응 유전자들은 널리 공지되어 있다.A preferred group of targets for the GAGGS method include erythropotin (EPO), therapeutic proteins such as insulin, peptide hormones such as human growth hormone; Growth factor and epithelial neutrophil active peptide-78, GROα / MGSA, GROβ, GROγ, MIP-1α, MIP-1δ, MCP-1, epidermal growth factor, fibroblast growth factor, hepatocyte growth factor, insulin-like growth factor, interferon , Interleukin, keratin synthetic cell growth factor, leukemia inhibitory factor, oncostatin M, PD-ESCF, PDGF, fluorotropin, SCF, c-kit ligand, VEGEF, G-CSF and the like. These proteins and their encoding nucleic acids are commercially available (see, for example, the Sigma BioSciences 1997 catalog and price list) and in any case, the corresponding genes are well known.

GAGGS용의 바람직한 타겟의 다른 군들은 전사 또는 발현 활성자이다. 표준적인 전사 및 발현 활성자로서는 세포 성장, 분화, 조정등을 조절하는 유전자 또는 단백질을 포함한다. 발현 및 전사 활성자는 광범위의 치료 타겟을 제공하는 원핵 세포, 바이러스 및 곰팡이, 식물 및 포유 동물을 포함하는 동물을 포함하는 진핵 세포에서 찾아볼 수 있다. 발현 활성자 및 전사 활성자가 예를 들어, 수용기와의 결합, 시그널 변환 캐스캐이드의 자극, 전사 인자 발현의 조절, 프로모터 및 강화 인자와의 결합, 프로모터 및 강화 인자와 결합하는 단백질과의 결합, DNA 풀림, 전구체-mRNA의 스플라이싱, RNA의 폴리아데닐화 및 RNA 분해와 같은 다수의 기작에 의해서 전사를 조절한다는 것이 이해될 것이다. 발현 활성자로서는 싸이토카인, 염증성 분자, 성장 인자, 예를 들어, 인터류킨(예를 들어, IL-1, IL-2, IL-8 등), 인터페론, FGF, IGF-I, IGF-II, FGF, PDGF, TNF, TGF-α, TGF-β, EGF, KGF, SCF/c-Kit, CD40L/CD40, VLA-4/VCAM-1, ICAM-1/LFA-1 및 히알루린/CD44와 같은 종양 유전자 생성물 및 이들의 수용기; 예를 들어, Mos, Ras, Raf 및 Met와 같은 시그널 변환 분자 및 이들의 종양 유전자 생성물; 및 예를 들어, p53, Tat, Fos, Myc, Jun, Myb, Rel와 같은 전사 활성자 및 억제자 및 예를 들어 에스크로겐, 프로게스테론, 테스토스테론, 알도스테론과 같은 스테로이드 호르몬에 대한 수용기, LDL 수용기 리간드 및 코르티코스테론을 포함한다Other groups of preferred targets for GAGGS are transcriptional or expression activators. Standard transcriptional and expression activators include genes or proteins that regulate cell growth, differentiation, modulation, and the like. Expression and transcriptional activators can be found in eukaryotic cells, including animals including prokaryotic cells, viruses and fungi, plants and mammals that provide a wide range of therapeutic targets. Expression activators and transcriptional activators, for example, binding to receptors, stimulation of signal transduction cascades, regulation of transcription factor expression, binding to promoters and enhancers, binding to proteins that bind to promoters and enhancers, It will be appreciated that transcription is regulated by a number of mechanisms such as DNA loosening, splicing of precursor-mRNA, polyadenylation of RNA and RNA degradation. Expression activators include cytokines, inflammatory molecules, growth factors such as interleukin (e.g., IL-1, IL-2, IL-8, etc.), interferon, FGF, IGF-I, IGF-II, FGF, Tumor genes such as PDGF, TNF, TGF-α, TGF-β, EGF, KGF, SCF / c-Kit, CD40L / CD40, VLA-4 / VCAM-1, ICAM-1 / LFA-1 and Hyalurin / CD44 Products and their receptors; For example, signal transduction molecules such as Mos, Ras, Raf and Met and their tumor gene products; And receptors for transcriptional activators and inhibitors, such as, for example, p53, Tat, Fos, Myc, Jun, Myb, Rel and steroid hormones such as, for example, estrogen, progesterone, testosterone, aldosterone, LDL receptor ligands, and Contains Corticosterone

이와 유사하게, 백신 적용이 가능한 감염성 유기체로부터 수득한 단백질들은 을 예를 들어, 아스퍼질러스속(Aspergillus), 칸디다속(Candida); 세균, 구체적으로 병원성 세균 모델로서 사용되는 이.콜라이(E.Coli) 및 스타필로코커스속(Staphylococcus)(예를 들어, 아우레우스종(aureus)), 스트렙토코커스속(Streptococcus)(예를 들어, 뉴모니아애종(pneumoniae)), 클로스트리디아속(Clostridia)(예를 들어, 퍼프리젠스종(perfringens)), 네이세리아속(Neisseria)(예를 들어, 고노로에아종(gonoroeae)), 엔테로박테리아세아에속(Enterobacteriaceae)(예를 들어 콜라이종(coli)), 헬리코박터속(Helicobacter)(예를 들어, 피로리종(pylori)), 비브리오속(Vibrio)(예를 들어, 콜레라애(cholerae)), 카필로박터속(Capylobacter)(예를 들어, 제쥬니종(jejuni)), 슈도모나스속(Pseudomonas)(예를 들어, 애어루기노사종(aeruginosa)), 해모필러스속(Haemophilus)(예를 들어, 인플루엔자종(influenza)), 보르데텔라속(Bordetella)(예를 들어, 페르투시스종(pertusis)), 마이코플라스마속(Mycoplasma)(예를 들어, 뉴모니아애종(pneumoniae)), 유레아플라스마속(Ureaplasma)(예를 들어, 유레아리티큠종(urealyticum)), 레지오넬라속(Legionella)(예를 들어, 뉴모필리아종(pneumophila)), 스피로케츠속(Spirochetes)(예를 들어, 트레포네마종(Treponema), 렙토스피라종(Leptospira) 및 보렐리아종(Borrelia)), 마이코박테리아속(Mycobacteria)(예를 들어, 튜베르큘로시스종(tuberculosis), 스메그마티스종(smegmatis)), 악티노마이세스속(Actinomyces)(예를 들어, 이스라엘리종(israelii)), 노르카디아속(Norcardia)(예를 들어, 아스테로이드종(asteroides)), 클라미디아속(Clamydia)(예를 들어, 트라코마티스종(trachomatis), 리켓챠속(Rickettsia), 콕시엘라속(Coxiella), 에릴리치아속(Ehrilichia), 로칼리마애아속(Rochalimaea), 브루셀라속(Brucella), 여시니아속(Yersinia), 프라시셀라속(Fracisella) 및 파스퇴렐라속(Pasteurella); 포자충아문(예를 들어, 플라스모디아(Plasmodia), 리조퍼드속(Rhizopod)(예를 들어, 엔트아메바종(Entamoeba) 및 편모충(트리파노소마속(Trypanosoma), 레이쉬마니아속(Leishmania), 트리코모나스속(Trichomonas), 지아르디아속(Giardia) 등)과 같은 원생동물; (+)RNA 바이러스(예를 들어, 백시니아종(vaccinia)과 같은 폭스바이러스속(Poxvirus); 예를 들어 폴리오종(polio)과 같은 피코나바이러스속(Picornavirus); 예를 들어 루벨라종(rubella)과 같은 토가바이러스속(Togavirus); 예를 들어 HCV와 같은 플라비바이러스속(Flavivirus); 및 코로나바이러스속(Coronavirus)), (-)RNA 바이러스(예를 들어, VSV와 같은 래비도바이러스속(Rhabidovirus); 예를 들어 RSV와 같은 파라믹소바이러스속(Paramixovirus); 예를 들어 인플루엔자와 같은 오르소믹소바이러스속(Orthomyxovirus); 부니아바이러스속(Bunyavirus); 및 아레나바이러스속(Arenavirus)), dsDNA 바이러스(예를 들어, 레오바이러스(Reovirus)), RNA-〉DNA 바이러스, 즉 예를 들어, HIV 및 HTLV와 같은 레트로바이러스, 및 간염 B형 바이러스와 같은 임의의 DNA-〉RNA 바이러스와 같이 의학적으로 중요한 세균포함하여 이하에 더욱 상세히 기술되어 있다.Similarly, proteins obtained from infectious infectious organisms include, for example, Aspergillus, Candida; Bacteria, specifically E. Coli and Staphylococcus (e.g., aureus), Streptococcus (e.g., used as pathogenic bacterial models) , Pneumoniae), Clostridia (e.g. perfringens), Neisseria (e.g. gonoroeae), Enterobacteriaceae (e.g. coli), Helicobacter (e.g. pylori), Vibrio (e.g. cholerae) )), Capylobacter (e.g. jejuni), Pseudomonas (e.g. aruginosa), Haemophilus ( For example, influenza, Bordetella (eg, Pertusis), Mycoplasma ( For example, pneumoniae), Ureaplasma (e.g. urealyticum), Legionella (e.g. pneumophila), Spirochetes (e.g. Treponema, Leptospira and Borrelia), Mycobacteria (e.g. tuberculosis) ), Smegmatis), Actinomyces (e.g. israelii), Norcardia (e.g. asteroides), chlamydia Clamydia (for example, trachomatis, Rickettsia, Coxiella, Ehrilichia, Rochalimaea, Brucella) , Genus Yersinia, Fracisella and Pasteurella; Sporeworms (eg Plasmodia, Rhizopod) (eg Entamoeba) and flagella (Trypanosoma, Leishmania, Trichomonas) Protozoa, such as Trichomonas, Giardia, etc .; (+) RNA viruses (e.g., Poxvirus, such as vaccinia; e.g., polio species and Picornaviruses such as; Togaviruses such as, for example, rubella; Flaviviruses, such as, for example, HCV; and Coronaviruses. , (-) RNA virus (e.g., Rhabidovirus, such as VSV; Paramyxovirus, such as, for example, RSV; Orthomyxovirus, such as, for example, influenza) Bunyavirus and arenavirusers Genus (Arenavirus), dsDNA virus (eg Reovirus), RNA-> DNA virus, ie, retroviruses such as, for example, HIV and HTLV, and any DNA- such as hepatitis B virus. It is described in more detail below, including medically important bacteria such as RNA viruses.

예를 들어, 벌레, 곰팡이등과 같은 곡물 해충 및 잡초등의 독소 또는 전사 억제자와 같이 비의학적 용도에 적합한 단백질을 암호화하는 기타의 핵산은 또한 GAGGS의 타겟으로서 바람직하다. 모노옥시제나제, 단백질분해효소, 핵산분해효소 및 리파제와 같은 산업적으로 유용한 효소들도 타겟으로서 바람직하다. 일례로서, 서브틸리신은 서브틸리신 유전자의 셔플링 선택형에 의해서 진화될 수 있다(von der Osten외 다수 공저, J.Biotechnol. 28:55-68(1993)는 서브틸리신 암호화 핵산을 제공한다.). 샤프로닌과 같이 접힘에 도움을 주는 단백질도 바람직하다.For example, other nucleic acids encoding proteins suitable for non-medical use, such as toxins or transcriptional inhibitors such as insect pests, fungi and the like and weeds such as weeds, are also preferred as targets of GAGGS. Industrially useful enzymes such as monooxygenases, proteases, nucleases and lipases are also preferred as targets. As an example, subtilisin can be evolved by the shuffling selection of the subtilisin gene (von der Osten et al., J. Biotechnol. 28: 55-68 (1993), to provide a subtilisin encoding nucleic acid. ). Proteins that aid in folding, such as chaperin, are also desirable.

또한 코돈 변경 및 셔플링에 적당한 공지의 바람직한 유전자로서는 다음의 것들을 포함한다: 알파-1 안티트립신, 아지오스타틴, 항용혈 인자, 아포리포단백질, 아포단백질, 심방성(心房性) 나트륨 이뇨 인자, 심방성 나트륨 이뇨 폴리펩타이드, 심방성 펩타이드, C-X-C 키모카인(예를 들어, T39765, NAP-2, ENA-78, Gro-a, Gro-b, Gro-c, IP-10, GCP-2, NAP-4, SDF-1, PF4, MIG), 칼시토닌, CC 키모카인(예를 들어, 단핵구 화학 흡인성 단백질-1(monocyte chemoattractant protein), 단핵구 화학 흡인성 단백질-2, 단핵구 화학 흡인성 단백질-3, 단핵구 염증성 단백질-1 알파, 단핵구 염증성 단백질-1 베타, RANTES, I309, R83915, R91733, HCC1, T58847, D31065, T64262), CD40리간드, 콜라겐, 콜로니 자극 인자(CSF), 보체 인자 5a, 보체 억제자, 보체 수용기1, 인자IX, 인자VII, 인자VIII, 인자X, 피브리노겐, 피브로넥틴, 글루코세레브로시다제, 성선 자극 호르본, 헤지호그 단백질(예를 들어, 소닉, 인디안, 데저트), 헤모글로빈(혈액 치환용;방사능 감지용), 히루딘, 인간 혈청 알부민, 락토페린, 루시퍼라제, 뉴어튜린, 호중구 억제 인자(NIF), 골형성 단백질, 파라티로이드 호르몬, 단백질A, 단백질G, 릴랙신, 레닌, 새먼 칼시토닌, 새먼 성장 호르몬, 가용성 보체 수용기 I, 가용성 I-CAM 1, 가용성 인터루킨 수용기(IL-1, IL-2, IL-3, IL-4, IL-5, IL-6, IL-7, IL-9, IL-10, IL-11, IL-12, IL-13, IL-14, IP-15), 가용성 TNF 수용기, 소마토메딘, 소마토스타틴, 소마토트로핀, 스트렙토키나제, 초항원(superantigen) 즉, 스타필로코커스성 내독소(SEA, SEB, SEC1, SEC2, SEC3, SED, SEE), 독소 쇼크성 증후군 독소(TSST-1), 외발엽성 독소 A 및 B(Exofoliating toxin A, B), 피로겐 외독소 A, B 및 C 및 엠. 아트리즈 세포분열유기물질(M.arthritides mitogen), 수퍼옥시드 디스뮤타제, 티모신 알파 1, 조직 플라스미노겐 활성자, 종양 괴사 인자 베타(TNF 베타), 종양 과사 인자 수용기(TNFR), 종양 괴사 인자 알파(TNF 알파) 및 유로키나제.Known preferred genes suitable for codon alteration and shuffling also include the following: alpha-1 antitrypsin, agiostatin, antihemostatic factors, apolipoproteins, apoproteins, atrial sodium diuretic factor, atria Sexual natriuretic polypeptides, atrial peptides, CXC chemokines (eg, T39765, NAP-2, ENA-78, Gro-a, Gro-b, Gro-c, IP-10, GCP-2, NAP- 4, SDF-1, PF4, MIG), calcitonin, CC chemokines (eg, monocyte chemoattractant protein-1, monocyte chemoattractant protein-2, monocyte chemoattractable protein-3, Monocyte inflammatory protein-1 alpha, monocyte inflammatory protein-1 beta, RANTES, I309, R83915, R91733, HCC1, T58847, D31065, T64262), CD40 ligand, collagen, colony stimulating factor (CSF), complement factor 5a, complement inhibitor , Complement receptor 1, factor IX, factor VII, factor VIII, factor X, fibrinogen, fibronectin, gluco Lebrosidase, gonadotropin, hedgehog protein (e.g., sonic, indian, desert), hemoglobin (for blood substitution; for radioactivity detection), hirudin, human serum albumin, lactoferrin, luciferase, neuturin , Neutrophil inhibitor (NIF), bone morphogenetic protein, parathyroid hormone, protein A, protein G, relaxin, lenin, salmon calcitonin, salmon growth hormone, soluble complement receptor I, soluble I-CAM 1, soluble interleukin receptor ( IL-1, IL-2, IL-3, IL-4, IL-5, IL-6, IL-7, IL-9, IL-10, IL-11, IL-12, IL-13, IL- 14, IP-15), soluble TNF receptor, somatomedin, somatostatin, somatotropin, streptokinase, superantigen, ie, staphylococcus endotoxin (SEA, SEB, SEC1, SEC2, SEC3, SED , SEE), toxin shock syndrome toxin (TSST-1), ectotoxic toxins A and B, pyrogen exotoxins A, B and C and M. M.arthritides mitogen, superoxide dismutase, thymosin alpha 1, tissue plasminogen activator, tumor necrosis factor beta (TNF beta), tumor overkill factor receptor (TNFR), tumor Necrosis factor alpha (TNF alpha) and urokinase.

셔플링용으로 바람직한 기타 유전자로서는 p450(상기 효소는 자연발생적 다양성의 매우 다양한 세트를 나타냄)를 포함한다; 예를 들어, Ortiz de Montellano(ed.)(1995) CytochromeP450 Structure Mechanism and Biochemistry, Second Edition Plenum Press(New York 및 London 소재) 및 여기에 언급된 참고 문헌 즉, 싸이토크롬 P450 입문을 참조하시오. 기타 모노옥시제나제 및 디옥시제나제, 아실 전이효소(cis-diol), 할로겐화 탄화수소 탈할로겐효, 메틸 전이효소, 테르펜 합성효소등이 셔플링될 수 있다.Other genes preferred for shuffling include p450 (the enzyme represents a very diverse set of naturally occurring diversity); See, for example, Ortiz de Montellano (ed.) (1995) Cytochrome P450 Structure Mechanism and Biochemistry, Second Edition Plenum Press (New York and London) and references cited therein, namely Cytochrome P450. Other monooxygenases and deoxygenases, acyl transferases (cis-diol), halogenated hydrocarbon dehalogenases, methyl transferases, terpene synthetases and the like can be shuffled.

"디플로머시(diplomacy)"를 포함하는, 유도성 진화에서 교감 유전자의 용도Use of sympathetic genes in inducible evolution, including "diplomacy"

근원 유전자의 표준적인 셔플링 무리와 관련된 인자들중의 하나는 물리적으로 재조합된 유전자의 동일성 정도이다. 제한된 동일 유전자를 올리고뉴클레오타이드를 크로스오버시키지 않고서 재조합시키는 것은 매우 어려운 일이며, 종종 허용 불가능한 사멸률을 갖는 셔플링된 라이브러리를 생성하거나, 또는 키메라가 형성되지 않으며, 활성이 없고, 기능적 라이브러리는 만들어지지 않는다. 하나의 양상에서, 본 발명은 재조합될 서열들 각각에 대해서 중간 수준의 상동성을 갖는 "디플로맷(diplomat)" 서열을 실리코내에서 디자인한후 상기 서열들 사이에서의 크로스오버 현상을 촉진하여 키메라 형성을 증진시킴으로써 상기 난점을 극복한다. 이러한 디플로맷 서열은 교감 서열을 선택하는 서열들을 정렬시키고, 다양한 핵산들 사에의 유사성을 최적화시키도록 코돈을 변형시킴으로써, 재조합될 서열에 비해서 상기 디플로맷 서열내에 중간 정도의 서열 유사성을 부여하는 다수의 GO중의 임의의 것에 의하여 제조된 문자열일 수 있다.One of the factors associated with the standard shuffling cluster of source genes is the degree of identity of the physically recombined genes. Recombination of limited identical genes without crossovering oligonucleotides is very difficult and often produces shuffled libraries with unacceptable killing rates, or no chimeras are formed, inactive, and functional libraries are not created. Do not. In one aspect, the present invention provides for the design of " diplomat " sequences in silico with moderate homology to each of the sequences to be recombined, thereby facilitating crossover between the sequences. This difficulty is overcome by promoting chimeric formation. This diplomat sequence aligns sequences that select sympathetic sequences and modifies the codons to optimize similarity between the various nucleic acids, thereby imparting moderate sequence similarity within the diplomat sequence relative to the sequence to be recombined. May be a string produced by any of a number of GOs.

언급한 바와 같이, 디플로맷 서열을 디자인하는 한 가지 방법은 교감 서열을 예를 들어, 본원의 방법중 임의의 방법을 사용하여 선택하는 것이다. 상기 교감 서열은 유전자 무리를 비교 및 라인업(line-up)/파일업(pile-up)시키거나(DNA 교감), 또는 아미노산 서열을 라인업/파일업시킴으로써(aa 교감) 합성된다. 후자의 경우, 상기 아미노산 교감 서열은 아미노산 코돈의 택일적 세트(alternative set)에 접근 가능하도록 하기 위하여 상동성을 더욱 강화시키거나 또는 숙주 유기체의 발현을 강화시키거나 또는 택일적 코돈의 용도에 대해서 선택하도록 만든 바람직한 코돈을 사용하여 임의적으로 역번역된다. 다른 하나는 상이한 세트의 유전자 무리를 사용하여 교감 서열을 합성하는 것이다.As mentioned, one method of designing a diplomat sequence is to select a sympathetic sequence, for example, using any of the methods herein. The sympathetic sequences are synthesized by comparing and line-up / pile-up gene clusters (DNA sympathetic), or by line-up / fileup (aa sympathetic) amino acid sequences. In the latter case, the amino acid sympathy sequence is further enhanced for homology or enhanced expression of the host organism or selected for use of alternative codons in order to access an alternative set of amino acid codons. It is arbitrarily reversed using the preferred codons. The other is to synthesize sympathetic sequences using different sets of gene clusters.

더욱이, 상기 교감 서열 자체는 개선된 효소를 암호화시킬 수 있다. 이에 관하여는 International Coference 개최 "Enzyme Opportunities in the Next Millenium", Chicago, IL, May 5-7 (발표자: Dr. Luis Pasamonted, Roche Vitamins, Inc.)의 "Development of Heat Stable Phytase"-a consensus phytase had an increase of 16 degrees C in thermostability)에서 살펴볼 수 있다. 개선된 특성을 갖는 교감 단백질의 다른 예로서는 교감 인터페론(IFN-con1)을 들 수 있다.Moreover, the sympathetic sequence itself can encode an improved enzyme. International Coference held on "Development of Heat Stable Phytase" -a consensus phytase had by "Enzyme Opportunities in the Next Millenium", Chicago, IL, May 5-7 (presenter: Dr. Luis Pasamonted, Roche Vitamins, Inc.). See an increase of 16 degrees C in thermostability. Another example of a sympathetic protein with improved properties is sympathetic interferon (IFN-con1).

따라서, 본원의 임의의 방법을 독립적으로 또는 함께 수행할 경우, 디플로맷 서열은 선택된 GO 표본을 사용하여 디자인될 수 있으며, 임의로는 본원의 임의의 기술을 사용하여 물리적으로 합성 및 셔플링될 수 있다.Thus, when performed independently or together with any of the methods herein, the Diplomat sequence can be designed using selected GO specimens, and can optionally be physically synthesized and shuffled using any of the techniques herein. have.

역번역 및 올리고머 디자인에 대한 표준 공정 단계Standard process steps for back translation and oligomer design

다음과 같은 기능을 수행하는 자동 공정 단계(예를 들어, 본원에 기술된 바와 같은 디지털 시스템에서 수행되는)는 본원의 합성 셔플링 기술에서 올리고뉴클레오타이드 선택을 촉진시킨다.An automated process step (eg, performed in a digital system as described herein) that performs the following functions facilitates oligonucleotide selection in the synthetic shuffling techniques herein.

예를 들어, 상기 시스템은 목적으로 하는 단백질 무리의 아미노산 서열을 입력시킬 수 있는 지시 세트를 포함할 수 있다.For example, the system may include a set of instructions capable of entering the amino acid sequence of the protein cluster of interest.

상기 서열들은 임의의 바람직한 코돈 사용 파라미터, 예를 들어 발현에 사용되거나 또는 재조합을 촉진시키기 위하여, 또는 서열 정렬을 최적화시키기 위하여, 또는 상기 두가지 경우 모두를 위하여 하나 이상의 유기체에 대한 최적 사용 파라미터로 역번역된다. 예를 들어, 코돈 사용법은 예를 들어, 이.콜라이 또는 에스.세레비지애(S. cerevisiae)와 같은 다중성 발현 숙주에 대하여 선택될 수 있다. 몇몇의 경우에, 서열들이 그들의 자연 발생적 종 코돈 바이어스를 상실하게 되는 것처럼, 숙주세포내에서 발현을 위한 코돈 사용법을 단순히 최적화시키면 더욱 유사한 상동성 서열을 제조할 수 있을 것이다.The sequences are translated back into any desired codon usage parameter, for example to be used for expression or to facilitate recombination, or to optimize sequence alignment, or to optimize usage parameters for one or more organisms for both cases. do. For example, codon usage can be selected for multiplexed expression hosts such as, for example, E. coli or S. cerevisiae. In some cases, simply optimizing the use of codons for expression in host cells, such as sequences lose their naturally occurring species codon bias, can produce more similar homologous sequences.

서열들을 정렬시켜 교감 서열을 제조할 수 있으며, 임의적으로는 축퇴성 코돈이 사용될 수 있다.The symmetric sequences can be prepared by aligning the sequences, optionally degenerate codons can be used.

셔플링용 합성 핵산에 상응하는 하나 이상의 합성 구성체를 위하여 올리고뉴클레오타이드가 디자인된다. 올리고뉴클레오타이드 디자인에 있어서의 입력 파라미터는 최소 및 최대 길이, 말단 동일 서열의 최소 길이, 올리고뉴클레오타이드당 최대 축퇴성, 올리고머 중첩 길이등을 포함한다.Oligonucleotides are designed for one or more synthetic constructs corresponding to synthetic nucleic acids for shuffling. Input parameters for oligonucleotide design include minimum and maximum lengths, minimum lengths of terminal identical sequences, maximum degeneracy per oligonucleotide, oligomeric overlap lengths, and the like.

언급된 바와 같이, 특정 유기체에서의 발현용 최적 코돈 사용을 완수하기 위한 택일적 역번역은 무리의 일원들 사이에서의 뉴클레오타이드 상동성을 최적화시키기 위한 역번역 서열이다. 예를 들어, 아미노산 서열이 정렬된다. 각각의 아미노산에 대한 모든 가능한 코돈이 결정되며 정렬된 서열의 무리 사이의 차이점을 최소화시키는 코돈들이 각각의 위치에서 선택된다.As mentioned, an alternative reverse translation to complete the use of optimal codons for expression in a particular organism is a reverse translation sequence for optimizing nucleotide homology between members of the herd. For example, amino acid sequences are aligned. All possible codons for each amino acid are determined and codons are selected at each location that minimize the difference between the cluster of aligned sequences.

특정 단백질 특성에 관한 구조적 모티브를 동정하는 셔플링 무리의 용도Use of shuffling herds to identify structural motifs related to specific protein properties

특정 성질을 부여하는 단백질 구역을 동정하는 것과 관련 단백질들을 기능적으로 조작하고 디자인하는 것을 촉진시키는 것은 종종 흥미로운 일이다. 이러한 동정은 통상적으로 X-선 결정분석법과 같은 생물 물리학적 기술에 의하여 수득되는 구조적 정보를 이용함으로써 수행된다. 본 발명은 변이체를 수득하여 서열 모티브와 관련있는 특정 성질에 대하여 분석하는 택일적 방법을 제공한다.It is often interesting to identify protein regions that impart specific properties and to facilitate the functional manipulation and design of related proteins. Such identification is typically performed by using structural information obtained by biophysical techniques such as X-ray crystallography. The present invention provides an alternative method of obtaining variants and analyzing them for specific properties related to sequence motifs.

유사하거나 또는 동일한 반응을 촉매화시키는 자연 발생적 효소 서열은 매우 다양할 수 있다: 상기 서열들은 50% 또는 그 미만 정도만이 동일할 수 있다. 이러한 효소 무리들은 각각 근본적으로 동일한 반응을 촉매화시킬 수 있으며, 상기 효소들의 다른 특성은 매우 상이할 수 있다. 이들 특성들로서는 온도 및 유기 용매에 대한 안정성, 최적 pH, 용해도, 수정되었을 때 활성을 유지하는 능력, 상이한 숙주 시스템에서의 발현의 용이성 등을 포함한다. 이것들은 또한 활성(kcat및 Km), 허용 가능한 기질의 범위 및 사용된 화합물을 포함하는 촉매 특성도 포함한다.Naturally occurring enzyme sequences that catalyze similar or identical reactions can vary widely: the sequences can only be about 50% or less identical. Each of these enzyme groups can catalyze essentially the same reaction, and the different properties of the enzymes can be very different. These properties include stability to temperature and organic solvents, optimum pH, solubility, ability to maintain activity when modified, ease of expression in different host systems, and the like. These also include catalytic properties including activity (k cat and K m ), acceptable range of substrates and compounds used.

본원에 기술된 방법은 또한 다중성 기능 차원이 상동성 서열의 무리에 의하여 암호화되는 경우에는 언제든지, 비촉매성 단백질(즉, 싸이토카인과 같은 리간드) 및 핵산 서열(다수의 상이한 리간드에 의하여 유도될 수 있는 프로모터와 같은)에 적용될 수 있다.The methods described herein also provide for non-catalytic proteins (i.e. ligands such as cytokines) and nucleic acid sequences (which can be derived by a number of different ligands) whenever the multi-functional dimension is encoded by a cluster of homologous sequences. Such as a promoter).

유사한 촉매 기능을 갖는 효소들 사이의 다양성으로 인하여, 이들 아미노산 사이에 상당한 차이가 존재하기 때문에 일반적으로 특정 성질을 임의의 위치에 존재하는 각각의 아미노산과 상관시키는 것은 불가능하다. 그러나, DNA 무리 셔플링으로써 상동성 자연 발생적 서열들의 무리로부터 변이체 라이브러리를 제조할 수 있다. 이들 라이브러리는 다수의 상이한 조합으로 서열들의 원래 세트의 다양성을 포함할 수 있다. 상기 라이브러리로부터 수득한 개체들을 이후 특정 세트의 성질 조건하에서 시험하면, 이들 조건에 대한 양침 세트로부터 수득한 서열들의 최적 조합을 결정할 수 있다.Due to the diversity between enzymes with similar catalytic functions, it is generally not possible to correlate specific properties with each amino acid present at any position because there are significant differences between these amino acids. However, variant libraries can be prepared from a cluster of homologous naturally occurring sequences by DNA bunch shuffling. These libraries can include the diversity of the original set of sequences in a number of different combinations. Individuals obtained from the library can then be tested under specific sets of property conditions to determine the optimal combination of sequences obtained from acupuncture sets for these conditions.

상기 검정법 조건중 하나의 파라미터가 변경되면, 상기 라이브러리로부터 수득된 상이한 개체들이 최선 수행원으로서 동정될 것이다. 상기 스크리닝 조건은 매우 유사하기 때문에, 대부분의 아미노산은 2개의 세트의 최선 수행원들 사이에서 보존될 수 있다. 상기 서열들을 2가지의 상이한 조건하(예를 들어 실리코내)에서 비교하면, 수행시의 차이점을 부여하는 서열의 차이점을 동정하게 된다. 구성원의 주요 분석법은 특정 성질을 부여하는 서열들을 동정하는데에 사용되는 강력한 도구이다. 예를 들어, Partek Incorported(St. Peters, Missouri; www.partek.com)는 다중 변이성(multivariate) 데이터 분석, 반응성 시현, 다양한 선택법, 신경성 & 통계적 모델화에 대한 유전자 알고리즘에 적용될 수 있는 패턴 인지용 소프트웨어(예를 들어, Partek Pro 2000 Pattern Recognition Software 공급)를 제공한다. 관계는 예를 들어 Principal Components Analysis(PCA)에 의하여 맵핑된 산포도(scatterplot) 및 이원성 도표(biplot), Multi-Dimensional Scaling(MDS)에 의하여 맵핑된 산포도, Starplot등에 의하여 분석될 수 있다.If a parameter of one of the assay conditions is changed, different individuals obtained from the library will be identified as best performers. Since the screening conditions are very similar, most amino acids can be conserved between two sets of best attendants. Comparing the sequences under two different conditions (eg in silico) will identify differences in the sequences that give the difference in performance. The main analysis of a member is a powerful tool used to identify sequences that impart specific properties. For example, Partek Incorported (St. Peters, Missouri; www.partek.com) is software for pattern recognition that can be applied to genetic algorithms for multivariate data analysis, responsive representation, various selection methods, and neurological & statistical modeling. (E.g. supplied by Partek Pro 2000 Pattern Recognition Software). Relationships can be analyzed, for example, by scatter plots mapped by Principal Components Analysis (PCA), biplots, scatter plots mapped by Multi-Dimensional Scaling (MDS), Starplot, and the like.

일단 서열 모티브가 동정되면, 단백질들은 예를 들어, 다수의 임의의 방법으로 조작된다. 예를 들어, 동정된 변화들은 다른 서열 배경에 임의적으로 신중하게 도입될 수 있다. 상이한 특정 성질을 부여하는 서열들이 결합될 수 있다. 더욱 철저한 연구를 위하여 예를 들어, 실리코내 공정에서 선택된 축퇴성 올리고뉴클레오타이드를 사용하는 랜덤화를 완수함으로써 특정 기능에 중요한, 동정된 서열 구역이 타겟팅될 수 있다.Once sequence motifs are identified, proteins are manipulated, for example, in any number of ways. For example, the identified changes can be arbitrarily and deliberately introduced into other sequence backgrounds. Sequences that confer different specific properties can be combined. For a more thorough study, identified sequence regions that are important for a particular function can be targeted, for example, by completing randomization using selected degenerate oligonucleotides in an in silico process.

무리 셔플링을 통하여 생산된 키메라에 대한 근원 유인(contributor)의 동정Identification of source contributors to chimeras produced through herd shuffling

보 실험은 무리 셔플링을 통하여 생산된 키메라에 대한 근원 유인을 동정하는 방법을 제공한다.Beam experiments provide a way to identify source incentives for chimeras produced through herd shuffling.

본 방법에서는 근원 유전자 서열 및 키메라 서열을 입력시키고, 각 키메라를 각 근원 서열과 비교한다. 이후 각 키메라 단편의 근원 소스를 나타내는 각각의 키메라에 대한 서열 지도 및 도표 지도를 만든다. 기능 데이터를 갖는 이들의 상관 관계는 특정 성질을 부여하는 근원을 동정하여 본원에서 언급된 임의의 방법으로 제조될 수 있으며 임의의 바람직한 기능성에 대하여 스크리닝시킬 수 있는 신규의 라이브러리에 대한 근원의 선택을 촉진시킬 수 있다.In this method, the source gene sequence and chimeric sequence are input and each chimera is compared with each source sequence. A sequence map and a graphical map are then generated for each chimera representing the source source of each chimeric fragment. Their correlation with functional data facilitates the selection of sources for novel libraries that can be prepared by any of the methods mentioned herein and can be screened for any desired functionality by identifying sources imparting specific properties. You can.

하나의 실시예에 있어서, 무리 3 및 무리 4 유전자는 예를 들어 pH 5.5에서의 활성을 부여한 반면에, 무리 1 및 무리 2 유전자는 pH 10에서 더욱 활성적이었다. 그러므로, 낮은 pH에서 적용시키는 경우, 라이브러리를 만드는 근원 조성물은 3 및 4로 바이어스되는 반면에, 높은 pH에서는, 월등하게 1 및 2로 바이어스된 라이브러리가 적당할 것이다. 따라서, 무리 3 및 4로부터 월등하게 유전자를 재구성하기 위하여 올리고뉴클레오타이드를 선택하는 GO가 이행될 것이다. 올리고뉴클레오타이드 셔플링에 사용되는 유전자 배합 방법에 관한 추가의 상세한 설명은 Crameri외 다수에 의하여 1999년 2월 5일 출원(USSN 60/118,813) 및 1999년 6월 24일 출원(USSN 60/141,049) 및 1999년 9월 28일 출원(USSN 09/408,392)된 "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION"에서 찾아볼 수 있다.In one embodiment, herd 3 and herd 4 genes confer activity, for example at pH 5.5, while herd 1 and herd 2 genes were more active at pH 10. Therefore, when applied at low pH, the source composition from which the library is made is biased at 3 and 4, whereas at high pH, libraries biased to superior 1 and 2 will be suitable. Thus, GO will be implemented to select oligonucleotides to reconstruct genes significantly from herds 3 and 4. Further details regarding the gene blending method used for oligonucleotide shuffling are described by Crameri et al. In the 5 February 1999 application (USSN 60 / 118,813) and the June 24, 1999 application (USSN 60 / 141,049). "OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION", filed September 28, 1999 (USSN 09 / 408,392).

유전자 배합은 특정 서열 모티브 동정용 주요 구성 요소 분석법(principal component analysis;PCA)와 유사하다. 주요 구성 요소 분석법(PCA)은 상관(가능성 있는) 변수의 수를 "주요 구성 요소"라 불리우는 비상관 변수의 수(더욱 작은)로 변형시키는 것이다. 제1 주요 구성 요소는 데이터에서의 변이량만큼에 상응하며, 각각의 연속적 구성 요소는 변이 유지량만큼에 상응한다. 통상적으로 주요 구성 요소 분석법은 제곱 대칭형 SSCP(제곱값 및 곱한값의 순수한 총합) 매트릭스, 공분산(제곱값 및 곱한값의 척도형 총합) 매트릭스, 또는 상관성(표준화된 데이터로부터 얻어진 제곱값 및 곱한값) 매트릭스상에서 수행된다. 상기 분석 결과, 형태 SSCP 및 공분산의 객체가 유사하다는 것을 알 수 있었다. 상관성 객체(correlation object)는 각각의 변이체의 분산값이 실질적으로 상이하거나 또는 상기 각각의 변화량의 측정 단위가 상이할 때 사용된다. 주요 구성 요소 분석법의 목적은 신규의 의미 심장한 변수값을 동정하기 위하여 예를 들어, 데이터 세트의 치수를 찾거나 또는 감소시키는 것을 포함한다.Gene formulation is similar to principal component analysis (PCA) for identifying specific sequence motifs. Principal Component Analysis (PCA) is the transformation of the number of correlation (possibly) variables into the number (or smaller) of uncorrelated variables called "major components". The first major component corresponds to the amount of variation in the data, and each successive component corresponds to the amount of variation retention. Typically, the principal component analysis involves a square symmetric SSCP (net-to-square sum and multiply) matrix, a covariance (scale-to-scale sum of squares and multiply) matrix, or correlation (square and multiply from standardized data). Performed on a matrix. As a result of the analysis, it was found that the objects of the form SSCP and covariance are similar. Correlation objects are used when the variance of each variant is substantially different, or when the units of measure of each variation are different. The purpose of the principal component analysis involves, for example, finding or reducing the dimensions of the data set to identify new meaningful variable values.

주요 차이점은 본 발명을 실행함으로써 PCA가 특정 모티브를 동정할 때, 어느 근원이 혼합물내에서 사용되며(또한 그렇게 함으로써 신규의 자연 발생 유전자 기초 라이브러리를 구성) 또한 유도된 방법 또는 랜덤화된 방법에서 변경될 수 있는 추상적인 구역을 동정함으로써, 보다 포괄적인 합성 셔플링에 적응을 잘하는지에 대한 정보를 얻을 수 있다.The main difference is that when the PCA identifies a particular motif by practicing the present invention, which source is used in the mixture (and thereby constitutes a novel naturally occurring gene based library) and also changes in derived or randomized methods By identifying possible abstract areas, one can obtain information on how well they are adapted to more comprehensive synthetic shuffling.

상기 논의된 Partek(PCA) 소프트웨어는 특정 기능에 영향을 주는 것으로 보이는 변수를 동정하는 "실험적 디자인" 구성 요소를 갖는다. 이것이 본 실시예에 적용될 때, 이것은 라이브러리 무리가 구성되어 스크리닝되고 결과로 생산된 키메라가 서열 변이와의 기능적 상관관계에 관해서 분석되는 반복적 과정에 있어서 유용하다. 이것은 특정 기능을 나타내는 서열 구역을 예측하는데에 사용되며, 상기 라이브러리는 기능성과 상관된 구역의 임의의 바람직한 GO 유도성 변화에 의해서 실리코내에서 선택된다. 상기 구역에 다양성을 나타내는 집중 라이브러리(focused library)가 예를 들어, 본원에 기술된 바와 같은 올리고뉴클레오타이드 합성 방법에 의해서 구성된다. 결과로 형성된 라이브러리 일원들(키메라)은 서열 변이와의 기능적 상관성에 대해서 분석된다. 이와 같은 연구 방법은 단백질 또는 기타 관련 분자들의 가장 적당한 구역의 서열 공간의 변이를 검색하는 것에 초점을 둔다.Partek (PCA) software, discussed above, has an "experimental design" component that identifies variables that appear to affect specific functions. When this is applied in this example, it is useful in an iterative process in which library clusters are constructed and screened and the resulting chimeras are analyzed for functional correlation with sequence variation. This is used to predict regions of the sequence that exhibit a particular function and the library is selected in silico by any desired GO inducible change in the region correlated with functionality. Focused libraries exhibiting diversity in the region are constructed by, for example, oligonucleotide synthesis methods as described herein. The resulting library members (chimeras) are analyzed for functional correlation with sequence variations. This method of research focuses on searching for variations in the sequence space of the most appropriate region of proteins or other related molecules.

활성 서열을 푼 이후, 결과로 형성된 서열 정보는 실리코내 작동, 예를 들어 신경망 조절 연구법(neural net training approach)에 대한 추가의 예측을 이끌어내는데에 사용된다.After unpacking the active sequence, the resulting sequence information is used to derive further predictions for intrasilico operation, eg, neural net training approach.

예를 들어, 신경망 연구법은 유전자 알고리즘형 프로그램 수행과 함께 실시될 수 있다. 예를 들어, NNUGA(Neural Network Using Genetic Algorithm;유전자 알고리즘을 이용한 신경 네트워크)은 신경 네트워크와 유전자 알고리즘을 연결시킨 유용한 프로그램이다(http://www.cs.bgu.ac.il/~omri/NNUGA/). 신경 네트워크에 대한 입문은 예를 들어, Kevin Gurney(1999) An Introduction to Neural Networks, UCL Press, 1 Gunpowder Square, London EC4A 3DE, UK 및 http://www.shef.ac.uk/psycology/gurney/notes/index.html. 추가의 유용한 신경 네트워크에 관한 참고 문헌은 유전자 알고리즘에 관하여 상기 언급된 문헌, 예를 들어 Christopher M.Bishop(1995) Neural Networks for Pattern Recognition Oxford Univ Press;ISBN:0198538642; Brian D. Ripley, N.L.Hjort(Contributor)(1995) Pattern Recognition and Neural Networks Cambridge Univ Pr (Short); ISBN:0521460867을 포함한다.For example, neural network research can be performed in conjunction with performing genetic algorithmic programs. For example, NNUGA (Neural Network Using Genetic Algorithm) is a useful program that links neural networks with genetic algorithms (http://www.cs.bgu.ac.il/~omri/NNUGA). /). Introduction to neural networks is described, for example, by Kevin Gurney (1999) An Introduction to Neural Networks, UCL Press, 1 Gunpowder Square, London EC4A 3DE, UK and http://www.shef.ac.uk/psycology/gurney/ notes / index.html. References to further useful neural networks can be found in the literature cited above with respect to genetic algorithms, for example Christopher M. Bishop (1995) Neural Networks for Pattern Recognition Oxford Univ Press; ISBN: 0198538642; Brian D. Ripley, N. L. Hjort (Contributor) (1995) Pattern Recognition and Neural Networks Cambridge Univ Pr (Short); ISBN: 0521460867.

이론적 단백질 디자인 및 셔플링의 연결Linking Theoretical Protein Design and Shuffling

이론과 실험 사이에서 순환시키는 것을 포함하는 단백질 디자인 순환은 최근들어 이론적 단백질 디자인을 발전시켰다. 국부적 환경에 따라서 단백질을 분류하는 정리자들의 접근 방법은 적당한 에너지 발생 정도를 향상시켰다. 단백질 디자인 프로그램은 디자인 표본의 임의로 선택된 세트로 단백질을 구성 및 변형시키는데에 사용될 수 있다. 예를 들어, http://www.mayo.caltech.edu/; Gordon 및 Mayo공저 (1999) "Branch-and-Terminate: A Combinatorial Optimization Algorithm for Protein Design" Structure with Folding and Design 7(9):1089-1098; Street 및 Mayo공저(1999) "Intrinsic β-sheet Properties Result from van der Waals Interactions Between Side Chains and the Local Backbone" Proc. Natl. Acad. Sci. USA, 96, 9074-9076; Gordon외 다수(1991) "Energy Function for Protein Design" Current Opinion in Structural Biology 9(4):509-513; Street 및 Mayo공저(1999) "Computational Protein Design" Structure with Folding and Design 7(5):R105-R109; Strop 및 Mayo 공저(1990) "Rubredoxin Variant Folds Without Iron" J. Am. Chem. Soc. 121(11):2341-2345; Gordon 및 Mayo공저(1998) "Radical Perfprmance Enhancements for Combinatorial Optimization Algorithms based on the Dead-End Elimination Theorem" J. Com. Chem. 19:1505-1514; Malakauskas 및 Mayo 공저(1998) "Design, Structure, and Stability of a Hyperthermophilic Protein Variant" Nature Struct. Biol. 5:470; Street 및 Mayo공저(1998) "Pairwise Calculation of Protein Solvent-Acessible Surface Areas" Folding & Design 3:253-258; Dahiyat 및 Mayo(1997) "De Novo Protein Design:Fully Automated Sequence Selection" Science 278:82-87; Dahiyat 및 Mayo(1997) "Probing the Role of Packing Specificity in Protein Design" Proc. Natl. Acad. Sci. USA 94:10172-10177; Dahiyat외 다수 공저(1997) "Automated Design of Surface Positions of Protein Helices" Prot. Sci. 6:1333-1337; Dahiyat외 다수 공저(1997) "De Novo Protein Design:Towards Fully Automated Sequence Selection" J. Mol. Biol. 273:789-796; 및 Harney외 다수 공저(1997) "Structural basis for thermostability and identification of potential active site residues for adenylate kinases from the archaeal genus Methanococcus" Proteins 28(1):117-30를 참조하시오. 이러한 디자인 방법은 일반적으로 타겟 단백질 구조에 대한 상이한 아미노산 서열의 질을 평가하는 에너지 발생에 의존한다. 임의의 경우에서, 디자인되거나 또는 변형된 단백질 또는 단백질에 상응하는 문자열은 물리적 셔플링에 의해서 실리코내에서 직접 셔플링되거나 또는 역번역될 수 있다. 그러므로, 본 발명의 하나의 양상은 고처리량의 이론적 디자인을 연결시키고 실리코내 또는 물리적 셔플링에서 유전자들을 스크리닝시켜 목적으로 하는 활성을 나타낼 수 있는 것이다.Protein design cycles, including cycling between theory and experiment, have recently developed theoretical protein design. The organizer's approach to classifying proteins according to their local environment improved the degree of adequate energy generation. Protein design programs can be used to construct and modify proteins with an arbitrarily selected set of design samples. For example, http://www.mayo.caltech.edu/; By Gordon and Mayo (1999) "Branch-and-Terminate: A Combinatorial Optimization Algorithm for Protein Design" Structure with Folding and Design 7 (9): 1089-1098; Street and Mayo (1999) "Intrinsic β-sheet Properties Result from van der Waals Interactions Between Side Chains and the Local Backbone" Proc. Natl. Acad. Sci. USA, 96, 9074-9076; Gordon et al. (1991) "Energy Function for Protein Design" Current Opinion in Structural Biology 9 (4): 509-513; Street and Mayo (1999) "Computational Protein Design" Structure with Folding and Design 7 (5): R105-R109; By Strop and Mayo (1990) "Rubredoxin Variant Folds Without Iron" J. Am. Chem. Soc. 121 (11): 2341-2345; By Gordon and Mayo (1998) "Radical Perfprmance Enhancements for Combinatorial Optimization Algorithms based on the Dead-End Elimination Theorem" J. Com. Chem. 19: 1505-1514; By Malakauskas and Mayo (1998) "Design, Structure, and Stability of a Hyperthermophilic Protein Variant" Nature Struct. Biol. 5: 470; Street and Mayo (1998) "Pairwise Calculation of Protein Solvent-Acessible Surface Areas" Folding & Design 3: 253-258; Dahiyat and Mayo (1997) "De Novo Protein Design: Fully Automated Sequence Selection" Science 278: 82-87; Dahiyat and Mayo (1997) "Probing the Role of Packing Specificity in Protein Design" Proc. Natl. Acad. Sci. USA 94: 10172-10177; Dahiyat et al. (1997) "Automated Design of Surface Positions of Protein Helices" Prot. Sci. 6: 1333-1337; Dahiyat et al. (1997) "De Novo Protein Design: Towards Fully Automated Sequence Selection" J. Mol. Biol. 273: 789-796; And Harney et al. (1997) "Structural basis for thermostability and identification of potential active site residues for adenylate kinases from the archaeal genus Methanococcus" Proteins 28 (1): 117-30. Such design methods generally rely on energy generation to assess the quality of different amino acid sequences for the target protein structure. In any case, the designed or modified protein or string corresponding to the protein may be directly shuffled or reverse translated in silico by physical shuffling. Therefore, one aspect of the present invention is to link high throughput theoretical designs and screen genes in silico or in physical shuffling to exhibit the desired activity.

이와 유사하게, 예를 들어, Ornsein외 다수(http://www.emsl.pnl.gov:2080/homes/tms/bms.html; Curr Opin Rtruct Biol(1999) 9(4):509-13)와 같은 분자 역동적 모의(molecular dynamic simulation)는 생물학적으로 진화될 가능성이 낮은 신규의 효소 형태를 찾아내는 생체 분자 모델화 & 모의에 의하여 "이론적"으로 효소를 재디자인한다. 예를 들어, p450 시토크롬 및 알칸 탈할로겐화 효소를 이론적으로 재디자인하는 것은 현재의 이론적 디자인의 목표인것이다. 이론적으로 디자인된 임의의 단백질(예를 들어, 신규의 p450 상동체 또는 신규의 알카리성 탈수소효소 단백질)은 기타 디자인된 단백질 또는 이와 관련된 자연 발생적 상동성 효소에 대하여 역번역 및 셔플링되어 진화될 수 있다. p450에 대한 상세한 설명은 Oritz de Montellano(ed.)저 (1995), Cytochrome P450 Structure and Mechanism and Biochemistry, Second Edition Plenum Press (New York 및 London 소재)에서 찾아 볼 수 있다.Similarly, Ornsein et al. (Http://www.emsl.pnl.gov:2080/homes/tms/bms.html; Curr Opin Rtruct Biol (1999) 9 (4): 509-13) Molecular dynamic simulations such as " theoretical " redesign the enzyme by biomolecular modeling & simulation to find novel enzyme forms that are less likely to be biologically evolved. For example, theoretically redesigning p450 cytochromes and alkanes dehalogenases is the goal of current theoretical design. Any protein designed theoretically (eg, a novel p450 homologue or novel alkaline dehydrogenase protein) can evolve by reverse translation and shuffling with other designed proteins or naturally occurring homologous enzymes associated therewith. . A detailed description of p450 can be found in Oritz de Montellano (ed.) (1995), Cytochrome P450 Structure and Mechanism and Biochemistry, Second Edition Plenum Press (New York and London).

구조적 상동성보다는 서열 상동성을 기초로 한 크로스오버점을 예측하기 위하여 단백질 결정 구조를 비교할 수 있으며 크로스오버는 본원에 기술된 바와 같이 키메라 형성을 지휘하는 올리고머에 의하여 수행될 수 있다.Protein crystal structures can be compared to predict crossover points based on sequence homology rather than structural homology and crossover can be performed by oligomers that direct chimeric formation as described herein.

단백질의 다중 변이형 서열 활성 모델화; 이론적 통계치에 의한 효소 활성의 최적화Modeling multiple variant sequence activities of proteins; Optimization of enzyme activity by theoretical statistics

본 장은 최근의 통계학적 방법을 사용하여 다수의 관련 단백질 서열을 분석하는 방법 및 이론적 통계치 및 다중 변이 분석을 사용하여 바람직한 양상을 갖는 신규의 단백질 서열을 수득하는 방법에 관하여 기술한다.This chapter describes how to analyze a large number of related protein sequences using recent statistical methods and how to obtain novel protein sequences with desired aspects using theoretical statistics and multiple mutation analysis.

예비적 다중 변이 데이터 분석법Preliminary Multivariate Data Analysis

다중 변이 데이터 분석법 및 실험 디자인은 산업, 정부 및 연구 기관등에 널리 적용되고 있다. 이들은 통상적으로 가솔린 생성 또는 화학 공정의 최적화와 같은 분야애 사용될 수 있다. 가솔린 생성의 정통적인 공정에 있어서, 25가지 이상의 상이한 첨가물이 상이한 양만큼 상이한 조합 형태로 가하여진다. 뿐만 아니라, 최종 생산물의 출력은 다인성(multifactorial)이다(예를 들어, 에너지 수준, 오염의 정도, 안정성등). 실험적 디자인을 사용하여, 모든 첨가물의 양 및 존재는 관련 "제형 공간(formulation space)"을 최대한 활용하기 위하여 랜덤하지 않은 방식으로 제한된 수의 시험 제형이 생산될 수 있다. 상이한 제형들이 적당한 측정값이 실제로 분석된다. 다중 변이 방식(multivariate fashion)(다중 치수 방식;multidimensional fashion)으로 데이터점을 도표화시킴으로써, 상기 제형 공간을 그래프로 시각화시킬 수 있으며 이로써 첨가물의 이상적인 조합을 추로해 낼 수 있다. 이와 같은 형태의 분석법에서 가장 일반적으로 사용되는 통계학적 방법중의 하나는 주요 구성 요소 분석(Principal Component Analysis;PCA)이다.Multivariate data analysis and experimental design are widely used in industry, government, and research institutes. They can typically be used in areas such as gasoline production or optimization of chemical processes. In the traditional process of gasoline production, at least 25 different additives are added in different combinations by different amounts. In addition, the output of the end product is multifactorial (eg energy level, degree of contamination, stability, etc.). Using experimental design, a limited number of test formulations can be produced in a non-random manner in order to make the best use of the relevant "formulation space" of all additive amounts and presence. Different formulations are actually analyzed for proper measurements. By plotting the data points in a multivariate fashion (multidimensional fashion), the formulation space can be visualized graphically, leading to the ideal combination of additives. One of the most commonly used statistical methods in this type of analysis is Principal Component Analysis (PCA).

본 실시예에서, 종속 변수 Y의 매트릭스와 예측 변수 X의 매트릭스 사이의 관계를 동정하기 위하여 각각의 다중 치수 데이터포인트와 특정 출력 벡터를 상관시키는데에 이러한 형태의 매트릭스가 사용된다. 이러한 형태의 일반적 분석 방법이 잠재성 구조에 대한 이차 근소치 제곱 투영법(Partial Least Square Projection to Latent Structure;PLS)이다. 예를 들어, 상기 방법은 변동하고 있는 주식값에 대한 투자 전문가의 분석 또는 신규 화합물의 특성을 예측하는 재료 과학에서 사용된다. 각각의 데이터포인트는 각각 n-차원의 초공간(각 파라미터에 대한 하나의 차원)에서 각각에 대하여 도표화되는 수백개의 상이한 파라미터로 구성된다. 컴퓨터 시스템내에서 조작이 행하여 지는데, 이는 입력 데이터를 다룰 수 있도록 요구되는 차원의 수를 가하는 것이다. 투영면의 발견을 도와 초공간을 정확하게 분석시킬 수 있는 방법들(PCA, PLS 등)을 상기에 언급하였다.In this embodiment, this type of matrix is used to correlate each multi-dimensional data point with a particular output vector to identify the relationship between the matrix of dependent variable Y and the matrix of predictor variable X. A common analysis method of this type is the Partial Least Square Projection to Latent Structure (PLS). For example, the method is used in materials sciences to predict the properties of new compounds or to analyze investment experts on changing stock values. Each data point consists of hundreds of different parameters, each plotted for each in an n-dimensional hyperspace (one dimension for each parameter). Manipulation is performed within a computer system, which adds to the number of dimensions required to handle the input data. The above-mentioned methods (PCA, PLS, etc.) that help the discovery of the projection plane and accurately analyze hyperspace are mentioned above.

예비 서열 분석Preliminary sequencing

뉴클레오타이드 또는 아미노산 서열 분석은 전통적으로 정성 패턴 인지(qualititive pattern recognition)에 집중되어 있었다(예를 들어, 서열 분류(sequence classification). 이는 주로 유사성을 기초로 하여 서열을 동정하는 방법을 포함한다. 상기 방법은 분류시 예측 및 동정에 탁월한 효과를 나타내지만, 항상 양적인 값과 상관되는 것은 아니다. 예를 들어, 교감 전사 프로모터(consensus transcriptional promoter)는 특정의 적용에 있어서 바람직한 프로모터일 수는 없지만, 대신에 관련 서열의 정렬된 그룹 사이에서 보통의 프로모터가 될 수는 있다.Nucleotide or amino acid sequence analysis has traditionally been focused on qualitative pattern recognition (eg, sequence classification. This includes methods for identifying sequences based primarily on similarity.) Has an excellent effect on prediction and identification in classification, but is not always correlated with quantitative values, for example, a consensus transcriptional promoter may not be the preferred promoter for a particular application, but instead is relevant. It can be a normal promoter among the ordered groups of sequences.

관련된 생물학적 서열(DNA/RNA 또는 아미노산)의 양적인 특징을 파악하기 위해서 관련 생물 활성을 갖는 정렬된 서열로부터, 체계적인 변이(즉, 유사성의 체계적 부재)를 분석할 수 있다. 단백질 서열에 상이한 다중 변이성 분석 방법(PLS와 같은)을 적용함으로써, 상기 분석된 세트에 존재하는 최선의 서열보다 더욱 활성이 양호한 서열을 예측할 수 있다. 일반적으로 적용되는 방법을 나타내는 실험적 데이터를 이하에 기술하였다.To determine the quantitative characteristics of the relevant biological sequence (DNA / RNA or amino acid), systematic variation (ie, systematic absence of similarity) can be analyzed from the aligned sequence with the relevant biological activity. By applying different multiple variability analysis methods (such as PLS) to protein sequences, one can predict sequences that are more active than the best sequences present in the analyzed set. Experimental data showing the methods generally applied are described below.

예비적 프로모터 활성 다중 변이 분석법Preliminary Promoter Activity Multiple Variation Assay

다중 변이 분석 데이터를 생물학적 서열에 적용시킨 극소수의 참고 문헌중의 하나는 조절 세트(traing set)에서 발견되는 것들중 임의의 것보다 더욱 강한 프로모터를 예측할 수 있는지를 살펴보기 위하여 한정된 전사 프로모터 세트를 분석하는데에 초점을 맞추었다[Jonsson 외 다수 공저(1993), Nucleic Acids Res. 21:733-739].One of the very few references that applies multiple mutation analysis data to biological sequences is to analyze a limited set of transcriptional promoters to see if they can predict a stronger promoter than any of those found in the trading set. [Jonsson et al. (1993), Nucleic Acids Res. 21: 733-739.

본 실시예에서는 프로모터 서열이 파라미터화되었다. 간편하게 하기 위하여, 각각의 뉴클레오타이드(A,C,G,T)사이의 물리적-화학적 차이를 동등하게 설정하였는데, 즉 임의의 다른 뉴클레오타이드와 보다 밀접하게 관련된 뉴클레오타이드를 따로 설정해 두지는 않았다. 이들을 완벽한 4면체를 형성하는 정육면체의 정반대 4개의 모퉁이로서 나타내었다. 원점을 중앙에 할당시킴으로써, 각 모퉁이를 수치로 나타내는 수치 좌표(numerical coordinate)로 나타내었다. 서술자는 각 특성의 균등한 분포만을 나타내기 때문에, 임의의 뉴클레오시드는 임의의 모퉁이에 배치될 수 있다(도 17참조).In this example the promoter sequence was parameterized. For simplicity, the physical-chemical differences between each nucleotide (A, C, G, T) were set equal, ie no nucleotides more closely related to any other nucleotide were set aside. These are shown as four opposite corners of the cube forming a perfect tetrahedron. By assigning the origin to the center, each corner is represented by numerical coordinates. Since the descriptors represent only an even distribution of each property, any nucleoside may be placed at any corner (see FIG. 17).

선행 연구(Brunner 및 Bujard(1987) EMBO J. 6, 3139-3144; Knaus 및 Bujard(1988) EMBO J. 7:2919-2923; Lanzer 및 Bujard(1988) Proc. Natl. Acad. Sci. 85:8973-8977)결과 상기와 동일 문헌에서 상세히 연구된 28개 세트의 프로모터가 분석되었다. 상기 프로모터들로서는 이.콜라이 프로모터, T5 파지 프로모터 및 다수의 키메라 및 합성 프로모터를 포함하였다. 이들 모두는 DHFR 암호화 구역의 앞에 삽입된 68개 염기(-49내지 +19)로서 클로닝되었다. 전사의 상대적인 수준은 내부 표준으로서 벡터 유도성 β-락탐 분해효소 유전자를 사용하는 점 블롯(dot-blot)에 의하여 측정되었다.Previous studies (Brunner and Bujard (1987) EMBO J. 6, 3139-3144; Knaus and Bujard (1988) EMBO J. 7: 2919-2923; Lanzer and Bujard (1988) Proc. Natl. Acad. Sci. 85: 8973 As a result, 28 sets of promoters studied in detail in the same literature were analyzed. Such promoters included E. coli promoter, T5 phage promoter and a number of chimeric and synthetic promoters. All of them were cloned as 68 bases (-49 to +19) inserted in front of the DHFR coding region. Relative levels of transcription were determined by dot blot using the vector inducible β-lactam degrading enzyme gene as internal standard.

본 실시예에서, 각각 68개의 뉴클레오타이드로 이루어진 28개의 프로모터가 도 14에 정의된 바와 같이 3개의 서술자로 파라미터화되면, 결과는 28×204 매트릭스(28 프로모터×68 뉴클레오타이드×3 파라미터(입체적 용적, 소수성 및 극성)로 나타내어 진다. 각 프로모터의 특정 서열은 204차원의 초공간내 단일점으로서 표현될 수 있다. 그러므로 이와 같은 28개의 프로모터들을 집계하여 상기 공간에 28 포인트 클러스터를 형성시킬 수 있다. 상기 선행 연구로부터 얻어진 실험 데이터는 반복 처리되며 이로써 얻어진 전사 수준은 PLS를 이용하는 204차원 초공간에서 형성된 28 포인트 클러스터에 대하여 도표화된다. 이어서 상기 프로모터의 절반(14개)은 통계학적 모델을 수립하는데에 사용하였으며 나머지 절반은 이를 시험하는데에 사용하였다. 이는 연산된 프로모터 강도 대 관찰된 프로모터 강도 사이의 상관관계가 양호하다는 것을 보여주는 것이다.In this example, if 28 promoters, each consisting of 68 nucleotides, are parameterized with three descriptors as defined in FIG. 14, the result is a 28 × 204 matrix (28 promoter × 68 nucleotide × 3 parameters (volume volume, hydrophobicity and The specific sequence of each promoter can be expressed as a single point in hyperspace in 204. Thus, these 28 promoters can be aggregated to form a 28 point cluster in the space. The experimental data obtained from are repeated and the level of transcription thus obtained is plotted against a 28 point cluster formed in 204 dimensional hyperspace using PLS, then half (14) of the promoters were used to establish a statistical model and the rest. Half were used to test it. To show that the correlation between the computed strength promoter for the promoter strength observed that good.

형성된 모델을 외삽시켜 2개의 신규 프로모터를 구성하였으며, 이때 2가지 모두는 28개의 초기 프로모터 사이에 존재하는 최선의 프로모터보다 상당히 양호한 것으로 나타났다The model formed was extrapolated to construct two new promoters, both of which were significantly better than the best promoters present between the 28 initial promoters.

다중 변이 분석법 및 단백질 서열Multiple Mutation Assays and Protein Sequences

동일한 분석 방법이 단백질 서열에 적용될 수 있다. 시그널 펩타이드는 초공간에서의 위치 및 최종의 물리적 공간 사이의 양호한 상관관계를 나타내는 다중 변이 분석법(multivariate analysis)을 사용하여 특징화된다[Sjostrom외 다수(1987) EMBO J. 6:823-831]. 뉴클레오타이드의 정성적 서술자 대신인, 뉴클레오타이드 및 아미노산 사이의 주요 차이점은(도 14참조), 정량적 서술자는 아미노사 을 파라미터화시키는데에 사용되어야 한다는 점이다. 아미노산의 관련 특질은(입체적 용량, 소수성 및 극성) 측정될 수 있으며 다음과 같은 문헌으로부터 도출될 수 있다[Hellberg외 다수(1986) Acta Chem. Scand. B40:135-140; Jonsson외 다수(1989) Quant. Struct.-Act.Relat. 8:204-209].The same assay method can be applied to protein sequences. Signal peptides are characterized using multivariate analysis, which shows a good correlation between location in hyperspace and final physical space (Sjostrom et al. (1987) EMBO J. 6: 823-831). The main difference between nucleotides and amino acids, instead of qualitative descriptors of nucleotides (see FIG. 14), is that quantitative descriptors should be used to parameterize amino acids. Relevant properties of amino acids can be determined (such as volumetric capacity, hydrophobicity and polarity) and can be derived from the following literature (Hellberg et al. (1986) Acta Chem. Scand. B40: 135-140; Jonsson et al. (1989) Quant. Struct.-Act.Relat. 8: 204-209.

셔플링된 단백질을 셔플링 및 특성화시킨후, 초기 서열들에 비해서 "보다 양호한(better)" 상태의 것들 및 "보다 불량한(worse)" 상태의 돌연변이된 단백질을 분석하였다. 분석된 세트에 존재하는 최선의 서열보다 양호한 것으로 보여지는 신규의 서열을 외삽하는데에 통계학적 방법들(PLS와 같은)을 사용할 수 있었다.After shuffling and characterizing the shuffled proteins, mutated proteins in the "better" state and the "worse" state were analyzed relative to the initial sequences. Statistical methods (such as PLS) can be used to extrapolate new sequences that appear to be better than the best sequences present in the analyzed set.

단백질 서열 공간의 모델화Modeling Protein Sequence Spaces

전술한 바와 같이, DNA 서열에 의하여 암호화된 임의의 단백질은 통계학적 방법을 이용하는 다차원 공간에서 명확한 포인트로서 도표화될 수 있다. "보통의(normal)" 1kb 유전자는 예를 들어, 약 330개의 아미노산을 구성할 수 있다. 각각의 아미노산은 예를 들어 각각의 아미노산(단백질에 대한 다른 서술자들은 대체로 이들 3개의 주요 서술자에 의존성임)에 대한 3개의 주요 물리 화학적 서술자(입체적 용량, 소수성 및 극성)에 의하여 기술될 수 있다. Jonsson외 다수 공저(1989) Quant. Struct.-Act. Relat. 8:204-209를 참조하시오. 따라서 1kb 유전자는 330(아미노산의 수)×20(각각의 위치에서 있을 수 있는 아미노산) ×3(각각의 아미노산에 대한, 전술한 바와 같은 3개의 주요 서술자)=19,800차원으로 모델화된다. 서열 공간의 확장성으로 인하여, 셔플링된 서열들의 수는 서열 활성 관련 예측값을 유효화시키는데에 사용된다. 주위의 서열들이 공간내에서 가까워질수록(유사성%), 예측값을 도출해낼 수 있는 가능성은 더욱 높아진다. 이와는 달리, 분석된 서열 공간이 많을수록, 예측값은 더욱 정확해진다. 이러한 모델화 전략은 임의의 유용한 서열에 적용될 수 있다.As mentioned above, any protein encoded by a DNA sequence can be plotted as a clear point in multidimensional space using statistical methods. A "normal" 1 kb gene may, for example, make up about 330 amino acids. Each amino acid may be described, for example, by three main physicochemical descriptors (stereoscopic capacity, hydrophobicity and polarity) for each amino acid (other descriptors for the protein are largely dependent on these three main descriptors). Jonsson et al. (1989) Quant. Struct.-Act. Relat. See 8: 204-209. The 1 kb gene is thus modeled in 330 (number of amino acids) x 20 (amino acids that may be present at each position) x 3 (three major descriptors, as described above for each amino acid) = 19,800 dimensions. Due to the scalability of the sequence space, the number of shuffled sequences is used to validate sequence activity related predictions. The closer the surrounding sequences are in space (% similarity), the higher the probability of making predictions. In contrast, the more sequence space analyzed, the more accurate the prediction. This modeling strategy can be applied to any useful sequence.

다수의 셔플링된 서열을 도표화한 예측값을 전술하였다. 2개의 추가적 연구법이 사용된 수도 있다. 첫째, 예를 들어 PLS(잠재적 구조에 대한 2차 근소치 제곱 투영법)를 이용하여 라이브러리내 키메라 자손의 수 대 효소 활성을 도표화시킬 수 있다. 만일 충분한 데이터가 유용할 경우, 최선의 조절 세트보다 활성이 높은 실리코내 서열을 제작하는 실험 데이터의 외부를 외삽시킬 수 있는 함수를 구성할 수 있다. 둘째, 모든 관련 서열들을 도표화시킬 수 있으며 임의의 서열들은 주어진 관련 활성을 갖는 것들과 무리를 지을 수 있게 된다. 상기 매트릭스를 사용함으로써, 결과의 유전자들은 적당한 활성 또는 시퀀싱된 클론의 하위세트에 의해서 직접적으로 스크리닝될 수 있는 신규의 관련 활성을 갖는 것들과 무리를 지을 수 있게 된다Predictive values for plotting multiple shuffled sequences are described above. Two additional methods may be used. First, for example, PLS (second-order near-squared projection of potential structure) can be used to plot the number of enzymatic activities of chimeric offspring in a library. If sufficient data are available, one can construct a function that can extrapolate the outside of the experimental data to produce sequences in silico that are more active than the best set of controls. Second, all relevant sequences can be plotted and arbitrary sequences can be grouped with those with a given related activity. By using the matrix, the resulting genes can be grouped with those with novel relevant activity that can be screened directly by a suitable activity or a subset of sequenced clones.

상기 방침에 대한 전체의 논점은 유용한 정보를 제공하는 셔플링을 통하여 생성된 충분한 관련 서열들의 유용성이다. 서열을 셔플링시키는 방법에 대한 대안은 모든 유용한 서열들, 예를 들어 GenBank 데이터베이스 및 기타 공공의 소스에 모델화 방법을 적용하는 것이다. 비록 이것이 다량의 연산을 필요로 하지만, 현재의 기술은 이와 같은 연구법을 유용하게 만든다. 모든 유용한 서열들을 맵핑시키면 목적 서열 공간 구역을 표시할 수 있다. 더욱이, 상기 정보는 어떠한 가상적인 자손이 물리적 방법(예를 들어, 본원에 기술된 합성 및/또는 재조합)에 바람직한 후보인지를 결정하는 실리코내 셔플링에 적용되는 필터로서 사용될 수 있다.The whole issue of this policy is the availability of sufficient relevant sequences generated through shuffling to provide useful information. An alternative to the method of shuffling sequences is to apply the modeling method to all useful sequences, such as the GenBank database and other public sources. Although this requires a lot of computation, current technology makes this approach useful. Mapping all useful sequences can indicate the desired sequence space region. Moreover, the information can be used as a filter applied to in silico shuffling to determine which hypothetical offspring are the preferred candidates for physical methods (eg, the synthesis and / or recombination described herein).

분기학적 중간물의 셔플링Shuffling of Branching Intermediates

본 발명은 "진화 중간물(evolutionary intermediate)"의 셔플링을 제공한다. 본 발명의 명세서내에서 진화 중간물은 예를 들어, 상기 서열들이 진화 덴도그램(evolutionary dendogram)으로 무리지어질 경우 2 이상의 상동성 서열 사이의 특징을 매개하는 인공 구성물을 의미한다.The present invention provides for shuffling of "evolutionary intermediate". Evolutionary intermediates within the context of the present invention refer to artificial constructs which mediate the feature between two or more homologous sequences, for example when the sequences are grouped in an evolutionary dendogram.

핵산들은 종종 진화 분지점 및 관련성을 나타내는 진화 덴도그램(즉 "트리(tree)")으로 분류된다. 예를 들어, 분기학적 분석법(cladistic analysis)은 가정된 공통 조상의 근원(분기된 유전적 특징 또는 유기체의 매개 형태)을 기초로 하여 유기체 또는 유전적 특징(핵산 또는 폴리펩타이드 서열을 포함)의 순서 및 위치가 결정되는 분류 방법이다. 분기학적 분석법은 비록 차이는 있지만(그 구별은 종종 차이의 정도를 다루는 진화 분류학자 및 단순히 진화 덴도그램내 분지점을 결정하는(정통 분기 분석법) 진화 분류학자사이에서 이루어짐; 그러나, 본 발명에 있어서, 관련성 트리는 상기 방법중 하나에 의하여 도출됨), 주로 관련성(relatedness)을 나타내는 관련성 트리(즉 "덴도그램")를 분지시키는 것과 관련된 것이다.Nucleic acids are often classified into evolutionary dendograms (ie, “trees”) that represent evolutionary branches and relevance. For example, a cladistic analysis is a sequence of organisms or genetic features (including nucleic acid or polypeptide sequences) based on the assumed common ancestor's source (branched genetic features or mediators of the organism). And a classification method in which a position is determined. Although divergence analysis differs (the distinction is often made between evolutionary taxographers who deal with the extent of the difference and evolutionary taxographers who simply determine branch points in evolutionary dendograms (orthodox branching methods); however, in the present invention , The relation tree is derived by one of the above methods, and is primarily concerned with branching a relation tree (ie, "dendogram") that represents a relatedness.

분기학적 매개물 또는 기타 진화 매개물은 2이상의 현존 핵산 사이의 서열내의 매개물인 핵산을 선택함으로써 결정될 수 있다. 비록 상기 서열이 자연에 존재할 수 없다 하여도, 그 서열은 자연에서 선택된 서열과 유사한 서열을 나타내는데, 즉 2이상의 서열의 중간물은 2이상의 현존 핵산의 가정적 공통 조상과 유사한 서열을 나타낸다. 그러므로, 진화 중간물은 하나의 바람직한 셔플링 기질로서, 이들을 "의사 선택된(pseudo selected)" 서열이라 부르며, 이들은 활성을 가지며 랜덤하게 선택된 서열과 더욱 유사하다.Divergence mediators or other evolutionary mediators can be determined by selecting nucleic acids that are mediators in the sequence between two or more existing nucleic acids. Although the sequence cannot exist in nature, the sequence exhibits sequences similar to those selected in nature, ie, intermediates of two or more sequences represent sequences similar to the hypothetical consensus ancestry of two or more existing nucleic acids. Therefore, evolutionary intermediates are one preferred shuffling substrate, which are termed "pseudo selected" sequences, which are active and more similar to randomly selected sequences.

셔플링용 기질로서 진화 중간물을 사용할때(또는 이러한 서열에 상응하는 올리고뉴클레오타이드를 사용할때)의 한가지 이점은 극소수의 출발 기질에 상당한 서열 다양성을 나타낼 수 있다는 것이다(즉, 만일 근원 A 및 B로서 출발하면, 단일 중간물 "C"는 상기 A 및 B의 최소한의 일부임). 이는 방법의 효율을 개선시키며, 유전자 재구성/재조합 방법에 있어서의 올리고뉴클레오타이드 합성의 과정을 단순화시킬 수 있다. 뿐만 아니라, 서열 데이터베이스를 진화 중간물로 검색하면 BLAST와 같은 표준적인 검색 프로그램을 사용하여 관련 핵산을 동정하는 기회를 증가시키게 된다.One advantage of using evolutionary intermediates (or oligonucleotides corresponding to these sequences) as the substrate for shuffling is that they can exhibit significant sequence diversity in very few starting substrates (ie, starting as source A and B). A single intermediate “C” is at least part of A and B above). This improves the efficiency of the method and can simplify the process of oligonucleotide synthesis in gene reconstruction / recombination methods. In addition, searching the sequence database for evolutionary intermediates increases the chance of identifying relevant nucleic acids using standard search programs such as BLAST.

매개 서열은 또한 단순히 2개의 합성 서열로부터 출발시킴으로써, 자연에서 표현되지 않는 2이상의 합성 서열사이에서 선택될 수 있다. 이러한 합성 서열로서는 진화 중간물, 제시된 유전자 서열, 또는 서열과 관련된 기타의 목적 서열을 포함할 수 있다. 이와 같은 "인공 중간물"는 또한 유전자 재구성 방법의 복잡성을 경감시키고 진화 데이터베이스를 검색하는 능력을 개선시키는데에 유용하자.The mediating sequence can also be selected between two or more synthetic sequences that are not expressed in nature by simply starting from two synthetic sequences. Such synthetic sequences may include evolutionary intermediates, suggested gene sequences, or other desired sequences associated with the sequences. Such "artificial intermediates" are also useful to reduce the complexity of genetic reconstruction methods and to improve the ability to search evolutionary databases.

따라서, 본 발명의 하나의 구체예에 있어서, 진화적 또는 인공적 중간물을 나타내는 문자열은 처음에 정렬 및 서열 관계 소프트웨어를 사용하여 결정될 수 있으며 이후 올리고뉴클레오타이드 재구성 방법을 사용하여 합성딜 수 있다. 이와는 달리, 상기 중간물은 본원의 유전자 재구성 방법에 사용되는 올리고뉴클레오타이드를 선택하는 기반을 이룰수 있다.Thus, in one embodiment of the present invention, a string representing an evolutionary or artificial intermediate may be determined initially using alignment and sequence relation software and then synthesized using oligonucleotide reconstruction methods. Alternatively, the intermediate may form the basis for selecting oligonucleotides used in the gene reconstruction methods herein.

이하의 몇몇 단원들은 비밀의 Markov 모델을 활용한 연구법 및 기타의 연구법 수행에 관하여 기술하고 있다.Some of the sections below describe how to conduct research using the secret Markov model and other methods.

비밀의 Markov 모델을 이용한 실리코내 셔플링Shuffle in Silico with the Secret Markov Model

합성 셔플링에 관한 관점은 근원에 존재하는 각각의 아미노산이 독립적으로 실재하며 주어진 기능적 차원에서 그 자체에 의하여 기능을 부가한다는(또는 부가하지 않는다는) 가정에 있다. DNasI을 기초로한 방법을 사용하여 셔플링할 때, 조립시 20-200bp 단편으로서 재조합이 행하여지고, 이로써 기능 단위(functional unit)(유전자 또는 프로모터 또는 기타 생물학적 물질)의 선택적 압력(selctive pressure)으로 인하여 주어진 방향으로 공동 진화되는 임의의 아미노산 사이에서 각각의 아미노산이 진화되기 때문에 이와 같은 문제점은 제거된다. 일반적으로 유전자 무리내에 존재하며, 생성된 라이브러리의 질을 개선시킨 공동 변이체(co-variance)를 포획함으로써, 야생형 또는 통상의 셔플링을 통하여 생성된 변이체, 상당수의 생물학적 비활성 자손이 제거된다. 인공적으로 생성된 자손은 구조적, 조절적 또는 다른 민감한 부조화로 인하여 비활성화될 수 있다.The view of synthetic shuffling lies in the assumption that each amino acid present at the source is independently present and adds (or not adds) a function by itself at a given functional level. When shuffling using a method based on DNasI, recombination is performed as a 20-200 bp fragment during assembly, thereby allowing the selective pressure of a functional unit (gene or promoter or other biological material). This problem is eliminated because each amino acid evolves between any amino acids that co-evolve in a given direction. By capturing co-variances, which are generally present in the gene family and improve the quality of the resulting library, the variants, many biologically inactive progeny generated through wild type or conventional shuffling, are removed. Artificially generated progeny may be inactivated due to structural, regulatory or other sensitive mismatches.

바람직하지 않은 비 공동 변이 자손(non co-variance progeny)을 제거하는 한 가지 방법은 근원 서열상에서 Hidden Model(HMM)과 같은 통계학적 거동을 적용시키는 것이다. 구성된 HMM 매트릭스(예를 들어 도 15와 같은)는 모든 가능한 상태(즉, 아미노산의 조합, 결실 및 삽입)의 확률로서 무리중에서 완전한 변이체를 포획할 수 있다. 분석된 무리들로부터 얻어진 매트릭스는 임의의 특정 서열의 표준적인 BLAST 알고리즘에 의하여 동정되기에 충분할만큼 유사하지는 않지만, 원래의 무리를 기초로 한 확률 분포 패턴을 사용하여 프로빙하여 동정되기에 충분할 만큼 유사한 무리의 추가의 일원에 대하여 분류된 데이터베이스를 검색하는데에 사용된다.One way to remove the undesirable co-variance progeny is to apply statistical behavior such as Hidden Model (HMM) on the source sequence. The constructed HMM matrix (such as, for example, FIG. 15) can capture complete variants in the herd as probabilities of all possible states (ie, amino acid combinations, deletions and insertions). The matrix obtained from the analyzed herds is not similar enough to be identified by the standard BLAST algorithm of any particular sequence, but similar enough to be identified by probing using a probability distribution pattern based on the original herd. Used to search a classified database for additional members of.

도 15에 나타낸 HMM 매트릭스는 8개의 아미노사 펩타이드의 무리를 구체화시킨다. 각각의 위치에서, 상기 펩타이드는 특정 아미노산(□내에 존재하는 20개의 아미노산 중의 하나), 삽입(◇), 또는 결실(○))일 수 있다. 발생한 각각에 대한 확률은 풀링된 근원들 사이에서 얼마나 자주 발생하는가에 의존적이다. 모든 가능한 경로가 확률 인자에 부여되는 방식으로 행하여지는 거동을 통하여, 결과적으로 임의의 주어진 근원은 '이어진(threaded)' 상태가 될 수 있다.The HMM matrix shown in FIG. 15 embodies a cluster of eight aminosa peptides. At each position, the peptide may be a specific amino acid (one of the 20 amino acids present in)), an insertion (o), or a deletion (o). The probability for each occurrence depends on how often it occurs between pooled sources. Through the behavior done in such a way that all possible paths are assigned to probability factors, any given source can be 'threaded'.

HMM은 또한 다른 방법으로도 사용될 수 있다. 발생된 거동을 앞서 미확인된 무리의 일원을 동정하는데에 적용시키는 대신에, 상기 HMM 거동을 새로이 무리의 일원들을 합성시키는데에 주형으로서 사용할 수 있다[예를 들어, 핵산의 분기 트리(cladistic tree)의 중간물 일원). 예를 들어, HMMER 프로그램이 유용하다(http://hmmer.wustl.edu/). 상기 프로그램은 무리의 일원들의 한정된 세트상에 HMM 거동을 구축한다. 하위 프로그램인 HMMEMIT은 상기 거동 및 이것을 기초로 하여 새로이 구성된 서열을 판독한다. HMMEMIT의 원래의 목적은 탐색 패턴에 대한 양성 대조구를 합성하는 것이지만, 상기 프로그램은 셔플링을 한정하는 HMM 거동의 실리코내 발생된 자손으로서 출력을 사용함으로써 본 발명에 적용될 수 있다. 본 발명에 의하면, 상기 핵산들에 상응하는 올리고뉴클레오타이드들은 재조합, 유전자 재구성 및 스크리닝용으로 합성된다.HMM can also be used in other ways. Instead of applying the generated behavior to identifying previously unidentified members of the herd, the HMM behavior can be used as a template for synthesizing newly members of the herd (eg, from the cladistic tree of nucleic acid). Intermediate member). For example, the HMMER program is useful (http://hmmer.wustl.edu/). The program builds HMM behavior on a finite set of members of the herd. The subprogram HMMEMIT reads the newly constructed sequence based on this behavior and this. Although the original purpose of HMMEMIT was to synthesize a positive control for the search pattern, the program can be applied to the present invention by using the output as a generated progeny in silico of HMM behavior that limits shuffling. According to the present invention, oligonucleotides corresponding to the nucleic acids are synthesized for recombination, gene reconstitution and screening.

각각의 위치에 대한 서열 관계를 확률의 형태로써 설명하였기 때문에, 비활성 자손의 수는 이러한 자손들을 단순히 랜덤하게 선택하는 셔플링 반응에서 보다 상당히 낮다. 자연 발생적(즉, 근원중에서)인 유전적 조절 현상(구조적, 기능적, 또는 비한정적)과 점 돌연변이 또는 구조적 요소의 공동 진화 사이의 크로스오버는 본 셔플링 과정을 통하여 유지된다.Since the sequence relationship for each position has been described in the form of probabilities, the number of inactive offspring is significantly lower than in the shuffling reaction that simply selects these offspring. Crossovers between naturally occurring (ie, from source) genetic regulatory phenomena (structural, functional, or non-limiting) and co-evolution of point mutations or structural elements are maintained through this shuffling process.

서열 정렬로부터 수득된 서열 중간물을 합성시키는 표준적인 알고리즘Standard algorithm to synthesize sequence intermediates obtained from sequence alignments

다음은 관련있는 핵산의 정렬로부터 수득된 서열 중간물 합성용 프로그램을 개략적으로 나타낸 것이다.The following outlines the program for synthesizing sequence intermediates obtained from the alignment of relevant nucleic acids.

근원을 암호화하는 서열의 정렬와 자손을 암호화하는 정렬이 주어지고Given the alignment of the sequence encoding the source and the alignment encoding the offspring

각각의 자손 서열에 있어서In each descendant sequence

각각의 근원 서열에 있어서In each source sequence

각각의 윈도우에 있어서In each window

만일 근원 서열 및 자손 서열이 상기 윈도우와 매치되면If the source sequence and progeny sequence match the window

만일 상기 윈도우가 절편 리스트내에서 서열에 의하여 아직 커버되지 않으면If the window is not yet covered by the sequence in the intercept list

미스매치가 과다하게 생성될 때까지 윈도우 즉 5' 및 3'을 증폭시키고,Amplify the windows, i.e. 5 'and 3', until too many mismatches are generated,

상기 서열에 대한 절편 리스트에 최종적으로 증폭된 절편을 가하고,Add the finally amplified fragment to the list of fragments for the sequence,

각각의 자손 서열에 있어서In each descendant sequence

서열의 시작부위에 위치를 설정하고Set the position at the beginning of the sequence

자손 서열의 말단부에 이를때까지 다음과 같이 수행한다.Until the end of the progeny sequence is carried out as follows.

상응 위치 이전의 지점으로부터 가장 길게 증폭된 절편(근원 절편과 가장 유사)을 찾는 절편을 통하여 검색Search through intercepts to find the longest amplified section (most similar to the root section) from the point before the corresponding position

만일 어느 하나가 최적 패스 리스트에 가하여지면 그 위치를 검색된 절편의 말단부에 설정하고If either is added to the optimal path list, the position is set at the end of the retrieved intercept

만일 어느 하나가 현 위치에서 증가하는 것으로 나타나지 않으면 최적 패스 리스트로부터 절편을 디스플레이한다.If either does not appear to increase at the current position, display the intercept from the optimal path list.

라이브러리의 표준화(Normalization)-양성적 또는 음성적 활성 데이터의 사용Normalization of the Library—Use of Positive or Negative Activity Data

본 발명의 하나의 양상은 실리코내 또는 물리적 방법의 단계에서, 또는 양자 모두의 경우에서 서열 디자인 및 선택 방법에 양성적 또는 음성적 데이터를 사용하는 것이다. 양성적 또는 음성적 데이터를 사용하는 것은 신경 네트워크의 교수법의 내용중에 포함될 수 있거나, 또는 디자인 또는 라이브러리 합성 과정에서 단순히 양성적 또는 음성적 데이터를 사용함으로써 논리적 또는 물리적 필터를 제공할 수 있다. 네트워크 교습은 상기와 같이 기술될 수 있으며 이는 결과적으로 생성된 추가의 서열들이 바람직한 활성을 갖게 될 기회를 증가시키는 양성적 또는 음성적 데이터를 사용하는 것과 같은 편리한 방법을 제공한다. 스크리닝은 강화된 진화 방법(forced evolution method)에 의하여 종종 개선된 유전자 및 단백질을 합성하는 제한된 단계로서 작용하기 때문에, 스크리닝된 라이브러리 크기를 감소시키는 음성 데이터를 사용하는 능력은 상당한 이점을 제공한다. 이와 유사하게, 목적 서열로 라이브러리를 바이어스시키는 양성적 데이터를 사용하는 것은 라이브러리를 강화하는 또다른 방법이다.One aspect of the present invention is the use of positive or negative data in the method of sequence design and selection in the silico or at the stage of a physical method, or in both cases. Using positive or negative data may be included in the content of the neural network's teaching methods, or may provide a logical or physical filter by simply using positive or negative data in the design or library synthesis process. Network teaching can be described as above, which provides a convenient way of using positive or negative data that increases the chance that the resulting additional sequences will have the desired activity. Since screening often acts as a limited step in synthesizing improved genes and proteins by a forced evolution method, the ability to use negative data to reduce the screened library size provides significant advantages. Similarly, using positive data to bias the library with the desired sequence is another way to enhance the library.

예를 들어, 언급한 바와 같이, 신경망 교습 연구법에 더하여, 양성적 또는 음성적 데이터는 목적 임의 시스템에 대하여 물리적 또는 논리적 "필터(filter)"를 제공하는 데에 사용될 수 있다. 즉, 비활성인 것으로 나타내어 지는 서열들은 밀접하게 관련된 서열들도 또한 비활성적인 것으로 판명될 밀접하게 관련된 서열, 구체적으로 활성 서열들도 동정되는 경우에 대한 유용한 정보를 제공한다. 이와 유사하게, 활성인 서열들은 밀접하게 관련된 서열들도 또한 활성적인 것으로 판명될 밀접하게 관련된 서열, 구체적으로 비활성 서열들도 동정되는 경우에 대한 유용한 정보를 제공한다. 이러한 활성 또는 비활성 서열들은 더욱 활성인 일원들을 생산하는데에 라이브러리를 바이어스시키도록 가상적인 또는 물리적인 필터를 제공하는데에 사용될 수 있다.For example, as mentioned, in addition to neural network teaching studies, positive or negative data can be used to provide a physical or logical “filter” for any system of interest. That is, sequences that are shown to be inactive provide useful information when closely related sequences, specifically active sequences, are also identified that will be found to be inactive. Similarly, active sequences provide useful information for when closely related sequences, particularly inactive sequences, are also identified in which closely related sequences will also prove to be active. Such active or inactive sequences can be used to provide a virtual or physical filter to bias the library to produce more active members.

예를 들어, 음성적 데이터를 사용할 경우, 물리적 공제법(physical subtraction method)은 선택된 엄격성 조건하에서(고엄격성, 상동성 일원을 포함하는 본원의 방법에 의해서 생성된 라이브러리 수) 비활성 일원과 혼성화시켜 합성된 라이브러리로부터 유사한 핵산들을 제거하게 된다. 이와 유사하게, 혼성화 규칙 또는 기타 파라미터들은 비활성 서열에 유사한 것으로 생각되는 일원들에 대하여 선택하는데에 사용된다. 예를 들어, 유전자 재구성 방법에서 사용된 올리고뉴클레오타이드는 비활성인 것으로 보이는 서열들에 대하여 바이어스될 수 있다. 그러므로, 임의의 방법에서, 라이브러리 또는 문자열은 상기 라이브러리 또는 목적으로 하는 활성 이하인 생물학적 중합체의 초기 라이브러리 일원을 갖는 문자열 세트를 공제함으로써 필터링될 수 있다.For example, when using negative data, the physical subtraction method may hybridize with an inactive member under selected stringency conditions (number of libraries generated by the method herein including high stringency, homology members). Similar nucleic acids are removed from the synthesized library. Similarly, hybridization rules or other parameters are used to select for members that are considered similar to inactive sequences. For example, oligonucleotides used in gene reconstruction methods can be biased against sequences that appear to be inactive. Therefore, in any method, a library or string can be filtered by subtracting a set of strings having an initial library member of a biological polymer that is below the library or the desired activity.

양성적 데이터를 사용할 경우, 물리적 증폭 방법은 선택된 엄격성 조건하에서(고엄격성, 상동성 일원을 포함하는 본원의 방법에 의해서 생성된 라이브러리 수) 활성 일원과 혼성화시켜 합성된 라이브러리 일원을 포함하는 유사한 핵산들을 분리하게 된다. 이와 유사하게, 혼성화 규칙 또는 기타 파라미터들은 활성 서열에 유사한 것으로 생각되는 일원들에 대하여 선택하는데에 사용된다. 예를 들어, 유전자 재구성 방법에서 사용된 올리고뉴클레오타이드는 활성인 것으로 보이는 서열들에 대하여 바이어스될 수 있다. 그러므로, 임의의 방법에서, 라이브러리 또는 문자열은 상기 라이브러리 또는 목적으로 하는 활성 이상인 생물학적 중합체의 초기 라이브러리 일원을 갖는 문자열 세트를 공제함으로써 필터링될 수 있다.When using positive data, physical amplification methods are similar, including library members synthesized by hybridization with active members under selected stringency conditions (number of libraries produced by the methods herein, including high stringency, homology members). Nucleic acids are separated. Similarly, hybridization rules or other parameters are used to select for members that are considered similar to the active sequence. For example, oligonucleotides used in gene reconstruction methods can be biased against sequences that appear to be active. Therefore, in any method, the library or string can be filtered by subtracting the set of strings with the initial library member of the biological polymer above the library or the desired activity.

이와 유사하게, 실리코내 연구법은 활성 서열보다 비활성 서열 라이브러리를 제조하는데에 사용될 수 있다. 즉, 비활성 서열들은 실리코내에서 셔플링되어 활성이 낮을것감은 클론 라이브러리들을 제조할 수 있다. 이러한 비활성 서열들은 물리적으로 합성되어 다른 방법에 의하여(통상적으로 라이브러리 일원들에 혼성화시킴으로써)합성된 라이브러리를 공제하는데에 사용될 수 있다. 이와 같이 공제시킴으로써, 즉 주로 비활성일 것으로 보이는 일원들을 제거시킴으로써 스크리닝될 라이브러리의 크기를 감소시킬 수 있다.Similarly, in silico assays can be used to prepare inactive sequence libraries rather than active sequences. In other words, inactive sequences can be shuffled in silico to produce clone libraries with low activity. Such inactive sequences can be physically synthesized and used to subtract the synthesized library by other methods (typically by hybridizing to library members). By subtracting this way, that is, by removing members that appear to be primarily inactive, the size of the library to be screened can be reduced.

실시예--모티브 필터링Example--motif filtering

선택법 또는 스크리닝법은 종종 양성적 또는 음성적 클론들 모두의 비용-절약적 서열들에 대하여 과다한 "양성적" 클론을 생산해 낼 수 있다. 그러나, 만약 양성적 또는 음성적 클론들에서 증폭 또는 감소된 서열 모티브가 동정되면, 이러한 바이어스는 "양호한(good)" 모티브로 바이어스되고 "불량한(baad)" 모티브로 바이어스된 합성 라이브러리 구성에 사용된다.Selection or screening methods can often produce excessive "positive" clones for the cost-saving sequences of both positive or negative clones. However, if amplified or reduced sequence motifs are identified in positive or negative clones, these biases are used in constructing synthetic libraries that are biased with "good" motifs and biased with "baad" motifs.

만일 각각의 연속적으로 선택된 구역 또는 모티브(예를 들어, 성택된 윈도우가 예를 들어 20 염기 구역일 경우)가 독립적인 유전자 또는 유전 인자로 생각되면, 상기 선택 또는 스크리닝법의 이전 또는 이후에 유전자 발생 빈도수상의 변화를 측정할 수 있다. 양성적 클론에 있어서 발생 빈도가 증가한 모티브는 "양호한" 것으로 특징화되고 양성적 클론에 있어서 발생 빈도가 감소된 모티브는 "불량한" 것으로 특징화된다. 제2세대 라이브러리는 본원에 제시한 바와 같은 임의의 필터링 또는 교습 방법을 사용하여 양호한 모티브에 대해서 증폭시키고 불량한 모티브로는 감소되도록 선택되어 합성된다.If each consecutively selected region or motif (eg, if the window selected is a 20 base region) is considered to be an independent gene or genetic factor, gene generation before or after the selection or screening method. The change in frequency can be measured. Motif with increased incidence in positive clones is characterized as "good" and motif with reduced incidence in positive clones is characterized as "poor". The second generation library is selected and synthesized to amplify for good motifs and reduce to poor ones using any filtering or teaching method as presented herein.

유전자 군집에서 모티브의 발생 빈도를 측정하는 다수의 방법이 유용하다. 예를 들어, 하나의 방법은 예를 들어 Affymetrix(Santa Clara, CA), 기타 유전자 칩 제조업자에 의하여 제공되는 유전자 칩을 사용하여, 공간적으로 어드레스할 수 있는 방식으로 암호화된 목적 모티브를 갖는 유전자 칩(gene chip) 또는 기타 핵산 배열에 분석 서열을 혼성화시킬 수 있다. 이와 유사하게, 공간적으로 어드레스할 수 있는 모티브를 포함하고 선택 과정의 이전 또는 이후에 프로브에 상대적인 시그널 강도를 측정하는 막에 혼성화시키는 것은 또한 표준적인 서던 블럿 또는 노던 블럿을 사용하는 것과 같이 본질적으로 유사한 방식으로 수행될 수 있다. 칩상에서의 동정된 바람직한/바람직하지 않은 특질의 상대적 비율은 또한 전체 라이브러리 질에 대한 표시를 제공한다. 이와 유사하게, 파아지 디스플레이 또는 기타 발현 라이브러리는 발현 산물을 평가하여 라이브러리 특성을 사정하는데에 사용될 수 있다.Many methods for measuring the frequency of occurrence of motifs in a community of genes are useful. For example, one method uses a gene chip provided by Affymetrix (Santa Clara, Calif.), Other gene chip manufacturers, for example, a gene chip having an object motif encoded in a spatially addressable manner. The assay sequences can be hybridized to gene chips or other nucleic acid sequences. Similarly, hybridization to membranes that contain spatially addressable motifs and measure signal strength relative to the probe before or after the selection process is also essentially similar, such as using standard Southern blots or Northern blots. It can be done in a manner. The relative proportions of desired / desirable features identified on the chip also provide an indication of the overall library quality. Similarly, phage display or other expression libraries can be used to evaluate expression products to assess library properties.

이와는 달리, 실시간 정량 PCR(예를 들어, TaqMan)은 PCR 올리고머가 의도로하는 특성에 대하여 매우 차별적이도록 수행될 수 있다. 이는 예를 들어, 완벽하게 매치되면 PCR을 효과적으로 프라이밍시키도록 올리고뉴클레오타이드의 3' 말단의 근처 또는 3'말단에 존재하는 모티브에 특이적인 다형성을 갖게 함으로써 수행될 수 있다. 예를 들어 FRET 또는 TaqMan에 의한 실시간 PCR 산물 분석법(및 관련 실시간 역전사 PCR)은 다수의 문헌에서 사용되는 공지의 기술인 실시간 PCR 모니터의 일군의 방법이다[Laurendeau외 다수 공저(1999) "TaqMan PCR-based gene dosage assay for predictive testing in individuals from a cancer family with INK4 locus haploinsufficiency" Clin Chem 45(7):982-6; Laurendeau외 다수 공저(1999) "Quantitation of MYC gene expression in sporadic breast tumors with a real-time reverse transcription-PCR assay" Clin Chem 59(12):2759-65; 및 Kreuzer외 다수 공저(1999) "LightCycler technology for the quantitation of bcr/abl fusion transcripts" Cancer Research 59(13):3171-4를 참조하시오].Alternatively, real-time quantitative PCR (eg, TaqMan) can be performed to be very discriminating with respect to the properties intended by the PCR oligomers. This can be done, for example, by having a polymorphism specific to the motif present near or at the 3 'end of the oligonucleotide to effectively prime the PCR if it matches perfectly. Real-time PCR product analysis (and related real-time reverse transcription PCR) by FRET or TaqMan, for example, is a group of methods of real-time PCR monitors, a well-known technique used in numerous literature [Laurendeau et al. (1999) "TaqMan PCR-based gene dosage assay for predictive testing in individuals from a cancer family with INK4 locus haploinsufficiency "Clin Chem 45 (7): 982-6; Laurendeau et al. (1999) "Quantitation of MYC gene expression in sporadic breast tumors with a real-time reverse transcription-PCR assay" Clin Chem 59 (12): 2759-65; And Kreuzer et al. (1999) “LightCycler technology for the quantitation of bcr / abl fusion transcripts” Cancer Research 59 (13): 3171-4].

목적의 유전자 무리가 매우 유사하게 시작되면(예를 들어, 서열 동일성이 90%), 선택의 이전 또는 이후에 유전자군을 간단히 시퀀싱할 수 있다. 몇몇 상하 유전자에 대한 시퀀싱 프라이머가 사용되면, 상기 서열들은 시퀀싱겔상에서 평행하게 나타날 수 있다. 상기 프라이머의 근처의 서열 다형성은 임의의 주어진 위치에서 염기들의 상대적 비율을 나타내는 것으로 판독될 수 있다. 예를 들어, 상기 군집이 주어진 위치에서 50%의 T 및 50%의 C로 시작되고, 선택 이후에는 90%의 T 및 10%의 C로 시작되면, 상기 다형성에 인접하여 시퀀싱을 시작함으로써 염기의 비율을 용이하게 정량할 수 있다. 상기 프라이머로부터 추가적으로 수득하여 더욱 다형적인 부분을 해독해 나가고, 다양한 서열들의 이동성은 점점 더 다양화되며 이에 따른 해독은 함께 진행되어 나가기 때문에, 상기 방법은 제한적이다. 그러나, 시퀀싱 및 올리고머의 비용이 계속해서 감소되어 감에 따라, 이에 대한 한가지 해결책은 단순히 유전자의 상하를 다수의 상이한 올리고머로 시퀀싱하는 것이다.If the gene cluster of interest begins very similarly (eg, 90% sequence identity), one can simply sequence the gene groups before or after selection. If sequencing primers for several up and down genes are used, the sequences can appear in parallel on the sequencing gel. Sequence polymorphism in the vicinity of the primer can be read to indicate the relative proportion of bases at any given position. For example, if the population begins with 50% T and 50% C at a given location, and after selection begins with 90% T and 10% C, then the sequencing is initiated adjacent to the polymorphism to The ratio can be easily quantified. The method is limited because additional polymorphic parts are obtained from the primers to decipher the more polymorphic parts, and the mobility of the various sequences becomes more and more diversified and the translation proceeds together. However, as the cost of sequencing and oligomers continues to decrease, one solution to this is simply to sequence the top and bottom of the gene into a number of different oligomers.

실시예:서열 공간의 분획 추출Example: Fraction Extraction of Sequence Space

통상의 서열 공간은 물리적으로 클로닝되고 특성화될 수 있는 서열수에 비하여 매우 크다. 연산적 방법은 목적으로 하는 특성(상동)을 갖는 클론들을 증폭시킬 것으로 예상되는 서열 공간의 하위 세트를 설명해 준다. 그러나, 상기 모델에 고유한 가정 및 연산적 제한 요소들이 존재한다. 목적의 표현형에 대하여 더욱 적합하거나 또는 덜 적합하도록 주어진 모델에 의해서 예상되는 분자에 대하여 강화되도록 서열 공간을 분획시키는 방법은 이러한 예상 모델을 시험하는데에 유용할 것이다.Conventional sequence spaces are very large relative to the number of sequences that can be physically cloned and characterized. The computational method describes a subset of the sequence space that is expected to amplify clones with the desired properties (homology). However, there are assumptions and computational constraints inherent in the model. Methods of fractionating the sequence space to be enriched for the molecule expected by a given model to be more or less suitable for the phenotype of interest would be useful for testing this predictive model.

이러한 작업을 수행하는 방법의 간단한 실시예는 다음과 같다. 자연 발생적 인간 IFN 유전자 무리를 기초로 하는 약 1027개의 가능성있는 셔플링된 IFN(크기의 관점에서 통상적인 단백질)이 존재한다. 이는 용이하게 스크리닝될 수 있는 수보다 더욱 크다. 만일 셔플링된 활성 인간 IFN을 마우스 세포상에서 진화시키는 것을 목적으로 하는 경우, IFN-α2α와 같은 다른 인간 IFN상에 이식시켰을때 개선된 활성을 부여하는 인간 IFN-α1으로부터 121 및 125 잔기를 나타내는 문헌의 정보를 활용할 수 있다. 다수의 상이한 내용에서 상기 모티브가 개선된 활성을 부여할 것으로 가정하면, 셔플링된 IFN 유전자의 거대 풀(통상적으로 109-1012정도)을 제조하고, 이들을 ssDNA로 전환시켜, 이들 잔기에 대한 인간 IFN-α1에 상보적인 올리고뉴클레오타이드를 포함하는 친화성 컬럼 크로마토그래피에 이들을 통과시키고, 적당히 엄격한 조건하에서 세척시켜 결합된 분자들을 용리시킨후, 상기 용리된 유전자들을 PCR 증폭시키고, 상기 물질들을 클로닝시켜 발현된 클론에 대하여 기능 시험을 수행할 수 있다. 이와 같은 방법으로써 의도하는 활성을 개선시킨 매우 단순한 모델에 의하여 예상 모티브를 포함시키도록 셔플링된 유전자 라이브러리를 물리적으로 바이어스시킬 수 있다.A simple embodiment of how to do this is as follows. There are about 10 27 possible shuffled IFNs (common proteins in terms of size) based on naturally occurring human IFN gene clusters. This is larger than the number that can be easily screened. If the aim is to evolve shuffled active human IFNs on mouse cells, the literature shows 121 and 125 residues from human IFN-α1 that confer improved performance when transplanted onto other human IFNs such as IFN-α2α. Information can be used. Assuming that the motifs will impart improved activity in a number of different contexts, a large pool of shuffled IFN genes (typically around 10 9 -10 12 ) are prepared and converted to ssDNA to those residues. Pass them through affinity column chromatography containing oligonucleotides complementary to human IFN-α1, wash under moderately stringent conditions to elute bound molecules, PCR amplify the eluted genes and clone the materials. Functional tests can be performed on expressed clones. In this way it is possible to physically bias the shuffled gene library to include expected motifs by a very simple model that improves the intended activity.

이상적으로는, 상기 모티브 및 모티브 수를 감소시킨 군집을 증폭시킨 군집들을 취할 수 있다. 양 군집들은 분석된다(각각의 군집으로부터 1000 클론). 상기와 같은 가설은 이와 같은 서열 공간 분획이 예상 방법으로 평균적인 적합성을 바이어스시키는지 여부를 문의함으로써 "시험(tested)"된다. 만일 그랬다면, 상기 가설을 "수용(accept)"하여 라이브러리 스크리닝의 규모를 증가시키게 된다. 또한 친화성 기초 분획으로써 다수의 디자인 알고리즘을 시험할 수도 있으며, 이러한 실험 결과로 지지되는 사실을 수용하여 연속적으로 친화성 선택을 수행함으로써 다중성 알고리즘의 디자인 표본이 되는 클론을 증폭시키게 된다.Ideally, one can take clusters that amplify the motif and the population that reduced the number of motifs. Both clusters are analyzed (1000 clones from each cluster). This hypothesis is "tested" by querying whether such sequence space fractions bias the average suitability in the expected manner. If so, the hypothesis is "accepted" to increase the scale of library screening. It is also possible to test a number of design algorithms as affinity-based fractions, and to accept the facts supported by these experiments and to continuously perform affinity selection to amplify clones that are design samples of the multiplicity algorithm.

이러한 모델에서, 무리 셔플링과 같은 셔플링은 제1순위의 디자인 알고리즘으로서 사용된다. 그러나, 추가의 디자인 알고리즘은 단순한 디자인 교습을 기초로하여 서열 공간을 추가로 분확화시키는 셔플링의 통합화된 다운스트림이다. 상기 방법은 핵산 선택 계획(nucleic acid selection scheme)으로 번역될 수 있는 임의의 디자인 알고리즘으로 핵산의 수준에서 수행될 수 있다.In this model, shuffling such as bunch shuffling is used as the first order design algorithm. However, an additional design algorithm is an integrated downstream of shuffling that further refines the sequence space based on simple design lessons. The method can be performed at the level of nucleic acid with any design algorithm that can be translated into a nucleic acid selection scheme.

이와 같은 실시예상에서의 다수의 변이는 물리적 또는 가상적 필터링 방법에 의해서 생산된 라이브러리의 크기를 감소시키는데에 유용하다.Many variations on such embodiments are useful for reducing the size of libraries produced by physical or virtual filtering methods.

예를 들어, 유전자 재조합/재합성(물리적이거나 또는 실리코내 방법)이후 목적으로 하는 모티브를 암호화하는 올리고뉴클레오타이드를 친화성 선택시키면, 본원에 언급된 바와 같은 유전자 재조합/재합성 방법으로 합성된 핵산 군집의 다양성을 감소시킨다.For example, affinity selection of oligonucleotides encoding the motif of interest after genetic recombination / recombination (physical or in silico method) results in a population of nucleic acids synthesized by the genetic recombination / resynthesis method as mentioned herein. Reduces the variety.

이와 유사하게, 모티브를 암호화하는 올리고뉴클레오타이드는 올리고머와 완벽하게 매치되지 않는 효소 분해 분자에 의하여 선택된 후 예를 들어, 유전자 재조합/재합성될 수 있다. 이와는 달리, 올리고뉴클레오타이드와 불완전하게 매치되는 유전자는 예를 들어, mutS 또는 기타 DNA 미스매치 수선 단백질과 결합함으로써 선택될 수 있다.Similarly, oligonucleotides encoding motifs may be selected, for example, by genetic recombination / resynthesis, by enzymatic digestion molecules that do not perfectly match the oligomer. Alternatively, genes incompletely matching oligonucleotides can be selected, for example, by binding to mutS or other DNA mismatch repair proteins.

재조합/유전자 합성 방법중 중합화 반응은 목적으로 하는 모티브를 암호화하는 하나 이상의 올리고머를 사용하여 프라이밍될 수 있다. 즉, 혼성화된 핵산의 3' 말단 또는 그 근처에 미스매치가 발생하면, 연장(elongation)이 감소되거나 또는 차단된다. 이러한 변이에 있어서, 오로지 신규하게 중합된 분자들만이 생존하게 된다(후속되는 라이브러리 구성/선택 단계에 사용된다). 이러한 방법은 예를 들어, RNA의 역전사를 프라이밍시킨후 상기 RNA를 분해시킴으로써 수행될 수 있다.Polymerization reactions in recombinant / genetic synthesis methods can be primed using one or more oligomers encoding the motif of interest. That is, if a mismatch occurs at or near the 3 'end of the hybridized nucleic acid, elongation is reduced or blocked. In this variation, only newly polymerized molecules will survive (used in subsequent library construction / selection steps). Such a method can be performed, for example, by priming reverse transcription of RNA and then digesting the RNA.

다른 연구법은 주형을 특이적으로 분해되도록 만드는 것이다. 예를 들어, 우라실이 높은 빈도로 결합된 DNA가 합성될 수 있다. 중합효소 기초 합성법은 올리고머로 프라이밍되어 우라실을 포함하지 않는 dNTP로 증폭된다. 결과의 합성물을 우라실 글리코실라제 및 퓨린 염기가 없는 위치를 절단하는 핵산 분해효소로 처리한다. 이와 유사하게, RNA 뉴클레오타이드가 DNA 사슬에 합체될 수 있다(합성적으로 또는 효소적 합체화에 의해서); 이후 이들 뉴클레오타이드는 RNA 엔도뉴클레아제에 의해서 절단되는 타겟으로서 사용될 수 있다. 효소 또는 기타 잔기들에 대한 타겟이며 빛, 열등에 반응하는 절단부로서 이용되는 임의의 잔기들을 포함하는, 기타 다수의 절단 가능한 잔기들이 공지되어 있다. 의도의 절단 타겟을 합체시키는 활성을 갖는 중합효소가 실질적으로 유용하지 않은 경우, 이러한 중합효소들은 현존 중합효소 활성을 변형시키거나 또는 신규한 중합효소 활성을 부여하는 셔플링 방법을 사용하여 제조될 수 있다.Another approach is to make the template specifically degraded. For example, DNA to which uracil is bound with high frequency can be synthesized. Polymerase based synthesis is primed with oligomers and amplified with dNTPs that do not contain uracil. The resulting composite is treated with uracil glycosylase and a nuclease that cleaves sites free of purine bases. Similarly, RNA nucleotides can be incorporated into the DNA chain (either synthetically or by enzymatic coalescence); These nucleotides can then be used as targets cleaved by RNA endonucleases. Many other cleavable residues are known, including any residues that are targets for enzymes or other residues and are used as cleavage portions that react to light, inferiority, and the like. If polymerases having the activity of incorporating the intended cleavage target are not practically useful, these polymerases can be prepared using shuffling methods that modify existing polymerase activity or impart new polymerase activity. have.

집중된(localized) 모티브는 친화성 선택 방법으로 용이하게 번역될 수 있다. 그러나, 종종 분자들이 유전자내 공간에서 분리된 다수의 서열 특징들(예를 들어, 서열 특징 2,3,4,5,6 등)에 규칙을 부여하고 싶을 경우도 있다. 이 경우 가요성 링커(flexible linker)에 의하여 분리되는 목적 모티브 모두를 포함하는 핵산 주형을 제조함으로써 선택하도록 규정될 수 있다. 모든 모티브를 갖는 분자의 Tm은 상기 모티브의 하나 또는 둘만을 갖는 분자들보다 높을 수 있다. 따라서, 선택 올리고머에 대하여 높은 Tm을 갖는 분자들을 선택함으로써 모든 모티브를 갖는 분자들을 증폭시킬 수 있다.Localized motifs can be easily translated by affinity selection methods. However, it is often desirable to assign rules to a number of sequence features (eg, sequence features 2,3,4,5,6, etc.) in which molecules are separated in intragenic space. In this case it may be defined to select by preparing a nucleic acid template comprising all of the desired motifs separated by a flexible linker. The Tm of a molecule with all motifs can be higher than molecules with only one or two of the motifs. Thus, it is possible to amplify molecules with all motifs by selecting molecules with high Tm for the selection oligomer.

이와 같이 강하게 결합된 다수의 모티브 "유전자"는 가요성 링커 또는 우발적으로 염기쌍이 형성된 이노신과 같은 염기에 의하여 분리되어 합성될 수 있다. 이후 핵산 선택시 높은 Tm을 갖는 유전자를 선택할 수 있다. 상기 선택 핵산 주형을 신중하게 디자인함으로써 다수의 서열 모티브를 함유하는 유전자들을 목적 표현형을 갖도록 바이어스시키는 것으로 예측되는 다수의 서열 모티브를 갖는 유전자를 증폭시킬 수 있다.Many of these strongly bound motifs "genes" can be isolated and synthesized by flexible linkers or bases such as inosine that is accidentally formed with base pairs. Then, when selecting a nucleic acid, a gene having a high Tm may be selected. By carefully designing the selected nucleic acid template, one can amplify a gene with multiple sequence motifs that is predicted to bias genes containing multiple sequence motifs to have a desired phenotype.

임의의 주어진 모티브가 상기 라이브러리를 바람직하게 바이어스시킬 것으로 예상되는지 여부에 대한 정보가 적을 경우, 상기 기술이 또한 사용될 수 있다. 모티브 세트는 예를 들어 상이한 상동체들 사이에서의 서열 보존을 기초로하여 한정되거나 또는 랜덤하게 선택된 모티브일 수 있다. 상기 서열 공간이 동위체가 아닌 경우(모든 방면에서 양호한 일원들로 동등하게 집약된 경우), 디자인된 또는 랜덤한 모티브 세트를 기초로 하여 서열 공간을 간단히 분획화시키고, 목적 서열 공간의 구역에서 클론들의 평균 적합성을 측정하여 가장 적합한 구역에 더욱 비중을 둘 수 있다.The technique can also be used if there is little information on whether any given motif is expected to bias the library preferably. Motif sets can be defined or randomly selected motifs, for example, based on sequence conservation among different homologues. If the sequence space is not isotopes (equally aggregated with good members in all respects), simply fractionate the sequence space based on a set of designed or random motifs, and identify the clones in the region of the desired sequence space. Average suitability can be measured to give more weight to the most suitable zone.

간단한 서열 정렬 방법에 더하여, 거대 분자 결합 위치와 같은 목적으로 하는 구역을 동정하는데에 유용한 보다 복잡한 연구 방법이 있다. 예를 들어, Schneider외 다수(1999)에 의하여 출원된 미합중국 특허 제5,867,402호 "COMPUTATIONAL ANALYSIS OF NUCLEIC ACID INFORMATION DEFINES BINDING SITES"에서는 결합 위치가 목적으로 하는 특정 위치의 독립적인 정보양을 기초로하여 한정되는 방법을 제시하고 있다. 결합 위치 서열내에서의 치환은 상기 치환이 유해한 돌연 변이 또는 양성의 다형성을 유발시키는 지 여부를 결정하도록 분석될 수 있다. 독립적인 정보 양을 사용하여 신규의 결합 위치를 동정하는 방법도 제안되고 있다. 이와 같은 연구법은 본 발명중에서도 실리코내 서열 조작에서 목적 서열을 동정하는 하나의 방법으로서 사용되고 있다.In addition to simple sequence alignment methods, there are more complex research methods that are useful for identifying regions of interest, such as large molecule binding sites. For example, US Pat. No. 5,867,402, filed by Schneider et al. (1999), in " COMPUTATIONAL ANALYSIS OF NUCLEIC ACID INFORMATION DEFINES BINDING SITES, " Here's how. Substitutions within binding site sequences can be analyzed to determine whether such substitutions cause deleterious mutations or positive polymorphisms. A method of identifying new binding locations using independent amounts of information has also been proposed. Such a research method is also used in the present invention as one method for identifying a target sequence in in silico sequence manipulation.

모티브 브리딩(MOTIF BREEDING)MOTIF BREEDING

이론적 디자인은 서열 또는 목적 서열 공간내에서 바람직한 모티브를 제조하는데에 사용될 수 있다. 그러나, 종종 디자인된 주어진 모티브가 기능적 형태로서 발현되는지 여부, 또는 그의 존재가 기타의 목적으로 하는 성질에 영향을 줄것인지의 여부를 예측하는 것은 어려운 일이다. 이에 대한 하나의 예는 글리코실화 위치를 단백질내에 디자인하여 이들이 세포성 글리코실화 기작에 억세스할 수 있도록 하고 부착된 다당류 그룹에 의하여 입체적으로 억제시킴으로써 다른 단백질이 결합하는 것을 차단하는 것과 같이 단백질의 기타 특성에 악영향을 끼치지 않도록 하는 방법이다.Theoretical design can be used to produce the desired motif in the sequence or in the desired sequence space. However, it is often difficult to predict whether a given designed motif will be expressed as a functional form, or whether its presence will affect other intended properties. One example of this is the design of glycosylation sites in proteins to allow them to access cellular glycosylation mechanisms and to block other proteins from binding by steric inhibition by attached polysaccharide groups. This is a way to avoid adversely affecting.

이러한 논점들을 설명할 수 있는 한가지 방법은 모티브 또는 상기 모티브의 복수개의 변이를 상기 타겟 유전자내 다중성 후보 위치(multiple candidate sites)에 디자인하는 것 이다. 이후 서열 공간은 목적 표현형에 대하여 스크리닝되어 선택된다. 특정화된 디자인 기준치를 나타내는 분자들을 반복적으로 함께 셔플링시켜서, 목적으로 하는 성질을 최적화시킬 수 있다.One way to address these issues is to design a motif or multiple variations of the motif at multiple candidate sites in the target gene. The sequence space is then screened for the desired phenotype and selected. Molecules that exhibit specified design criteria can be shuffled together repeatedly to optimize the desired properties.

모티브들은 임의의 유전자내에서 구성될 수 있다. 표준적인 단백질 모티브에는 다음과 같은 것들을 포함한다 : N-연결성 글리코실화 위치(즉, Asn-X-Ser), o-연결성 글리코실화 위치(즉, Ser 또는 Thr), 단백질 분해 효소 감수성 위치(즉, P-X-G-P내 X위치 이후를 콜라겐 분해효소로 절단), 세균에 대한 Rho-의존성 전사 종결 위치, 번역의 효율에 영향을 미치는 RNA 2차 구조 인자, 전사 강화 인자, 전사 프로모터 인자, 전사 억제 모티브등.Motifs can be constructed in any gene. Standard protein motifs include the following: N-linked glycosylation sites (ie Asn-X-Ser), o-linked glycosylation sites (ie Ser or Thr), protease sensitive sites (ie Cleavage after X position in PXGP with collagenase), Rho-dependent transcription termination position for bacteria, RNA secondary structural factors, transcription enhancing factors, transcriptional promoter factors, transcriptional suppression motifs, etc. that affect translation efficiency.

고처리량의 이론적 디자인High throughput theoretical design

전술한 바와 같은 이론적 디자인 연구법에 더하여 또는 이와 함께, 고처리량의 이론적 디자인 방법도 또한 사용된다. 구체적으로, 고처리량 이론적 디자인 방법은 예를 들어 재조합/합성 방법 수행이전에 실리코내에서 임의의 주어진 서열을 변형시키는데에 사용될 수 있다. 예를 들어, 단백질 디자인 자동화(Protein Design Automation;PDA)는 단백질 및 펩타이드를 디자인 및 최적화시키고 단백질 및 펩타이드를 디자인하는 컴퓨터 운영 시스템의 하나이다.In addition to or in conjunction with the theoretical design approach described above, high throughput theoretical design methods are also used. In particular, high throughput theoretical design methods can be used, for example, to modify any given sequence in silico prior to performing the recombination / synthesis method. For example, Protein Design Automation (PDA) is one of the computer operating systems that designs and optimizes proteins and peptides and designs proteins and peptides.

통상적으로 PDA는 단백질의 3차원 접힘 특성을 유지시키면서, 단백질 골격 구조로 시작되어 상기 단백질 특성을 변형시키도록 아미노산을 디자인한다. 다수의 서열들이 단백잘의 구조(서열, 연속 서열 부위등)를 디자인할 수 있는 PDA를 사용하여 조작될 수 있다. PDA는 예를 들어 Malakauskas 및 Mayo 공저(1998) "Design, Structure and Stability of Hyperthermophilic Protein Variant" Nature Struc. Biol. 5:470; Dahiyat 및 Mayo(1997) "De Novo Protein Design:Fully Automated Sequence Selection" Science, 278, 82-87; DeGrado (1997) "Proteins from Scratch" Science, 278:80-81; Dahiyot, Sarisky 및 Mayo (1997) "De Novo Protein Design:Towards Fully Automated Sequence Selection" J. Mol. Biol. 273:789-796; Dahiyot 및 Mayo 공저(1997) "Probing the Role of Packing Specificity in Protein Design" Proc. Natl. Acad. Sci. USA 94:10172-10177; Hellinga저(1997) "Rational Protein Design-Combining Theory and Experiment" Proc. Natl. Acad. Sci. USA 94:10015-10017; Su 및 Mayo 공저(1997) "Coupling Backbone Flexibility and Amino Acid Sequence Selection in Protein Design" Prot. Sci. 6:1701-1707; Dahiyat, Gordon 및 Mayo 공저(1997) "Automated Design of the Surface Positions of Protein Helices" Prot. Sci. 6:1333-1337; Dahiyat 및 Mayo 공저(1996) "Protein Design Automation" Prot. Sci. 5:895-903을 포함하는 다수의 출판물에 기술되어 있다. PDA에 대한 추가의 설명은 예를 들어 http://www.xencor.com/에서 얻을 수 있다.PDAs typically design amino acids to begin with the protein backbone structure and modify the protein properties while maintaining the three-dimensional folding properties of the protein. Multiple sequences can be manipulated using a PDA that can design the structure of a protein well (sequences, contiguous sequence sites, etc.). PDAs are described, for example, by Malakauskas and Mayo (1998) "Design, Structure and Stability of Hyperthermophilic Protein Variant" Nature Struc. Biol. 5: 470; Dahiyat and Mayo (1997) "De Novo Protein Design: Fully Automated Sequence Selection" Science, 278, 82-87; DeGrado (1997) "Proteins from Scratch" Science, 278: 80-81; Dahiyot, Sarisky and Mayo (1997) "De Novo Protein Design: Towards Fully Automated Sequence Selection" J. Mol. Biol. 273: 789-796; By Dahiyot and Mayo (1997) "Probing the Role of Packing Specificity in Protein Design" Proc. Natl. Acad. Sci. USA 94: 10172-10177; By Hellinga (1997) "Rational Protein Design-Combining Theory and Experiment" Proc. Natl. Acad. Sci. USA 94: 10015-10017; By Su and Mayo (1997) "Coupling Backbone Flexibility and Amino Acid Sequence Selection in Protein Design" Prot. Sci. 6: 1701-1707; By Dahiyat, Gordon and Mayo (1997) "Automated Design of the Surface Positions of Protein Helices" Prot. Sci. 6: 1333-1337; By Dahiyat and Mayo (1996) "Protein Design Automation" Prot. Sci. It is described in numerous publications, including 5: 895-903. Further description of the PDA can be obtained, for example, at http://www.xencor.com/.

본 발명의 설명에 있어서, PDA 및 기타 디자인 방법은 본원에 제시된 셔플링 방법에서 합성/재조합될 수 있는 실리코내 서열을 변형시키는데에 사용될 수 있다. 이와 유사하게, PDA 및 기타 디자인 방법은 다음과 같은 선택 방법으로부터 수득되는 핵산 서열을 조작하는데에 사용될 수 있다. 그러므로, 디자인 방법은 반복적 셔플링 과정중에서 반복적으로 사용될 수 있다.In the description of the present invention, PDAs and other design methods can be used to modify intra-silico sequences that can be synthesized / recombinated in the shuffling methods presented herein. Similarly, PDAs and other design methods can be used to engineer nucleic acid sequences obtained from the following selection methods. Therefore, the design method can be used repeatedly during an iterative shuffling process.

비올리고뉴클레오타이드 의존성 실리코내 셔플링 방법Shuffling Methods in Biooligonucleotide-dependent Silicos

본원에서 논의된 바와 같이, 본 발명의 다수의 방법은 실리코내 서열 열상에 다양성을 유발시킨후, 올리고뉴클레오타이드 유전자 재조합/합성 방법을 수행하는 것을 포함한다. 그러나, 비올리고뉴클레오타이드를 기초로 한 재조합 방법 역시 적당하다. 예를 들어, 올리고뉴클레오타이드를 합성하는 대신에, 실리코내 유발된 임의의 다양성과 대응하는 유전자가 올리고뉴클레오타이드 중간물을 사용하지 않고서 제조될 수 있다.As discussed herein, many of the methods of the present invention include following the induction of diversity in the sequence column in silico, followed by performing oligonucleotide gene recombination / synthesis methods. However, recombination methods based on bioligonucleotides are also suitable. For example, instead of synthesizing oligonucleotides, genes corresponding to any of the diversity induced in silico may be prepared without the use of oligonucleotide intermediates.

이는 유전자가 합성을 유도할 수 있기에 충분하도록 짧을 경우 특히 유용하다.This is particularly useful when the gene is short enough to induce synthesis.

뿐만 아니라, 다양한 문자열 군집으로부터 올리고뉴클레오타이드를 매개로 해서라기 보다는 직접적으로 펩타이드 서열을 합성할 수 있다. 예를 들어, 고체상 폴리펩타이드 합성이 수행될 수 있다. 예를 들어, 고체상 펩타이드 배열은 실리코내 합성된 서열 열에 상응하도록 선택된 배열들의 일원으로써 표준적인 고체상 펩타이드 합성법에 의하여 구성될 수 있다.In addition, peptide sequences can be synthesized directly from various string populations rather than through oligonucleotides. For example, solid phase polypeptide synthesis can be performed. For example, the solid phase peptide sequence can be constructed by standard solid phase peptide synthesis as a member of sequences selected to correspond to the sequence sequence synthesized in silico.

이러한 관점에서, 펩타이드를 포함하는 생물학적 중합체의 고체상 합성은 예를 들어, Marrifield(1963)의 J. Am. Chem. Soc. 85:2149-2154(1963)에 기술된 바와 같이, 초기 "메리필드(Merrifield)" 고체상 펩타이드 합성 방법에 의해서조차도 수행될 수 있다. 고체상 합성 기술은 예를 들어, 다수의 "핀(pins)"에서 몇몇 펩타이드 서열을 합성하는데에 유용하다. 본원에 참고 문헌으로서 첨부된 Geyser외 다수 공저(1987) J.Immun.Meth. 102:259-274을 참조하시오. 다른 고체상 기술에는 예를 들어, 컬럼에 지지된 상이한 셀룰로즈 디스크상의 다양한 펩타이드 서열들을 합성하는 것을 포함한다. Frank 및 Doring(1988) 공저 Tetrahedron 44:6031-6040을 참조하시오. 기타 고체상 기술은 Hamill에 발표된 미합중국 특허 제 4,728,502호 및 WO 90/00626에 기술되어 있다. 펩타이드의 거대 배열을 형성하는 방법도 유용하다. 예를 들어, Pirung외 다수, 미합중국 특허 제 5,143,854호 및 Fodor와 다수, PCT 공개 제 WO 92/10092에는 예를 들어, 광유도성 합성 기술(light-directed synthesis techniques)를 이용한 펩타이드 및 기타 중합체 서열의 배열을 형성하는 방법에 관하여 공개되어 있다. Stewart 및 Young, Solid Phase Peptide Synthesis, 2d.ed., Pierce Chemical Co.(1984); Artherton외 다수 공저(1989) Solid Phase Peptide Synthesis, IRL Press, Greene외 다수 공저(1991) Protective Groups In Organic Chemistry, 2nd ed., John Wiley & Sons, New York, NY 및 Bodanzszyky(1993) Principles of Peptide Synthesis 2nd ed., Springer Verlag, Inc. N.Y.를 참조하시오. 단백질에 관한 다른 유용한 정보는 R.Scopes, Protein Purification, Springer-Verlag, N.Y.(1982); Deutscher, Methods in Enzymology Vol.182:Guide to Protein Purification, Academic Press, Inc. N.Y.(1990); Sandana(1997) Bioseparation of Proteins, Academic Press, INC.; Bollag외 다수 공저(1996) Protein Methods, 2nd ed.,Wiley-Liss, NY; Walker(1996) The Protein Protocols Handbook Humana Press, NJ, Harris and Angal(1990) Protein Purification Applications: A Practical Approach IRL Press at Oxford, Oxford, England; Harris 및 Angal Protein Purification Methods: A Practical Approach IRL Press at Oxford, Oxford, England; Scopes(1993) Protein Purification: Principles and Practice 3rd Edition Springer Verlag, NY; Jason 및 Ryden(1998) Protein Purification:Principles, High Resolution Methods and Applications, Second Edition Wiley-VCH, NY; 및 Walker(1998) Protein Protocols on CD-ROM Humana Press, NJ; 및 이들 문헌에 언급된 참고 문헌들에서 찾아볼 수 있다.In this regard, solid phase synthesis of biological polymers comprising peptides is described, for example, in J. Am. Chem. Soc. As described in 85: 2149-2154 (1963), this may be done even by the initial “Merrifield” solid phase peptide synthesis method. Solid phase synthesis techniques are useful, for example, for synthesizing some peptide sequences on a number of “pins”. Geyser et al. (1987) J. Immun. Meth. See 102: 259-274. Other solid phase techniques include, for example, synthesizing various peptide sequences on different cellulose disks supported on a column. See Tetrahedron 44: 6031-6040, by Frank and Doring (1988). Other solid phase techniques are described in US Pat. No. 4,728,502 and WO 90/00626 published in Hamill. Methods of forming large arrays of peptides are also useful. For example, Pirung et al., U. S. Patent No. 5,143, 854 and Fodor and many, PCT Publication No. WO 92/10092 disclose, for example, the arrangement of peptides and other polymer sequences using light-directed synthesis techniques. It is disclosed about how to form. Stewart and Young, Solid Phase Peptide Synthesis, 2d.ed., Pierce Chemical Co. (1984); Col. Artherton et al. (1989) Solid Phase Peptide Synthesis, IRL Press, Greene et al. (1991) Protective Groups In Organic Chemistry, 2nd ed., John Wiley & Sons, New York, NY and Bodanzszyky (1993) Principles of Peptide Synthesis 2nd ed., Springer Verlag, Inc. See N.Y. Other useful information about proteins can be found in R. Scopes, Protein Purification, Springer-Verlag, N.Y. (1982); Deutscher, Methods in Enzymology Vol. 182: Guide to Protein Purification, Academic Press, Inc. N.Y. (1990); Sandana (1997) Bioseparation of Proteins, Academic Press, INC .; Bollag et al. (1996) Protein Methods, 2nd ed., Wiley-Liss, NY; Walker (1996) The Protein Protocols Handbook Humana Press, NJ, Harris and Angal (1990) Protein Purification Applications: A Practical Approach IRL Press at Oxford, Oxford, England; Harris and Angal Protein Purification Methods: A Practical Approach IRL Press at Oxford, Oxford, England; Scopes (1993) Protein Purification: Principles and Practice 3rd Edition Springer Verlag, NY; Jason and Ryden (1998) Protein Purification: Principles, High Resolution Methods and Applications, Second Edition Wiley-VCH, NY; And Walker (1998) Protein Protocols on CD-ROM Humana Press, NJ; And the references cited in these documents.

단백질 및 핵산에 더하여, 실리코내 발생된 문자열이 다른 생체 중합체에 상응할 수 있다는 것을 이해하게 될 것이다. 예를 들어, 문자열은 유용한 기술에 따라 합성되어 임의의 적당한 검정법에서 활성에 대하여 스크리닝될 수 있는 펩타이드 핵산(PNAs)에 상응할 수 있다. 예를 들어, Nielsen 및 Michael Egholm(eds)(1999) Peptide Nucleic Acids: Protocols and Applications ISBN 1-898486-16-6 Horizon Scientific Press, Wymondham, Norfolk, U.K. for an introduction to PNA synthesis and activity screening을 참조하시오.In addition to proteins and nucleic acids, it will be appreciated that the string generated in silico may correspond to other biopolymers. For example, strings may correspond to peptide nucleic acids (PNAs) that can be synthesized according to useful techniques and screened for activity in any suitable assay. See, for example, Nielsen and Michael Egholm (eds) (1999) Peptide Nucleic Acids: Protocols and Applications ISBN 1-898486-16-6 Horizon Scientific Press, Wymondham, Norfolk, U.K. See for an introduction to PNA synthesis and activity screening.

검정법--물리적 선택법Assay--Physical Choice

DNA 셔플링, 또는 전통적인 사슬 증폭법 또는 임의의 기능 유전자학 기술에서와 같이, GAGGS에 의하여 유도된 진화법은 바람직한 표현형을 암호화하는 폴리뉴클레오타이드를 검출하는 당 업계에 공지된 임의의 물리학적 검정법을 사용할 수 있다.As with DNA shuffling, or traditional chain amplification or any functional genetics technique, GAGGS-induced evolution can use any physical assay known in the art to detect polynucleotides encoding desired phenotypes. have.

합성 유전자는 전통적인 클로닝 및 발현 연구법을 적용시키기에 용이하다; 그러므로, 상기 유전자 및 이들 유전자가 암호화하는 단백질의 특성은 이들을 숙주 세포내에서 발현시킨후 용이하게 관찰할 수 있다. 합성 유전자는 또한 시험관내(세포와 유리된) 전사 및 번역에 의해서 폴리펩타이드 산물을 합성하는데에 사용될 수도 있다. 그러므로 폴리뉴클레오타이드와 폴리펩타이드는 그들의 다수의 예정된 리간드, 작은 분자 및 이온, 또는 다른 단백질 및 폴리펩타이드를 포함하는 중합체 및 이종 중합체 기질, 및 미생물 세포벽, 바이러스 입자, 표면 및 막에 결합하는 능력에 대해서 관찰될 수 있다.Synthetic genes are easy to apply traditional cloning and expression studies; Therefore, the properties of these genes and the proteins they encode can be readily observed after they are expressed in host cells. Synthetic genes can also be used to synthesize polypeptide products by in vitro transcription and translation. Thus, polynucleotides and polypeptides are observed for their many predetermined ligands, small molecules and ions, or polymers and heteropolymeric substrates comprising other proteins and polypeptides, and their ability to bind microbial cell walls, viral particles, surfaces and membranes. Can be.

예를 들어, 직접적으로 어느 하나의 폴리펩타이드에 의하거나 또는 암호화된 폴리펩타이드에 의한 화학 반응의 촉매 작용과 연관된 표현형을 암호화하는 폴리뉴클레오타이드를 검출하는데에 다수의 물리적 방법들이 사용될 수 있다. 설명의 목적으로 그리고 목적의 예정된 특정 화학 반응의 특성에 의하여, 이들 방법들은 기질과 생성물 사이의 차이 또는 화학 반응과 연관된 반응 매체에서의 변화들(예를 들어, 전자기학적 발광, 흡착, 분산 및 UV, 가시광선 또는 원적외선(열)에 대한 형광성의 변화)을 설명하여 주는 당 업계에 널리 공지된 다수의 기술을 포함할 수 있다. 이들 방법들은 또한 이하의 임의의 조합으로부터 선택될 수도 있다 : 질량 분광법; 핵 자기 공명법; 동위원소 표지된 물질, 동위원소 분포 또는 표지된 생성물의 형성을 설명해 주는 분획 및 분광법; 반응 생성물의 이온 또는 원소 조성의 변화(pH 변화, 무기 및 유기 이온등의 변화)를 검출하는 분광학적 및 화학적 방법. GAGGS에 사용하기에 적합한 물리적 검정법의 기타의 방법들은 리포터 특성을 갖는 항체를 포함하는 생성물 또는 리포터 유전자의 발현 및 활성과 커플화된 생체내 친화성 인지를 기초로 하는 생성물을 포함하는, 반응 생성물에 특이적인 생체 센서를 사용하는 것을 기초로 할 수 있다. 생체내 반응 생성물 검출 및 세포 생존-사멸-성장 선택에 대한 효소 커플화된 검정법은 또한 적당한 경우에 사용될 수도 있다. 물리적 검정법의 특이 성질에 상관없이, 이들 모두는 GAGGS합성 폴리뉴클레오타이드에 의하여 암호화되는 바람직한 특성, 또는 바람직한 특성들의 조합을 선택하는데에 사용된다. 그러므로 바람직한 특성을 갖는 것으로 보여지는 폴리뉴클레오타이드는 라이브러리로부터 선택된다.For example, a number of physical methods can be used to detect polynucleotides that encode phenotypes directly by either polypeptide or associated with the catalysis of a chemical reaction by an encoded polypeptide. For the purpose of explanation and by the nature of the particular chemical reaction intended for the purpose, these methods are characterized by differences between the substrate and the product or changes in the reaction medium associated with the chemical reaction (e.g. And a variety of techniques well known in the art for explaining the change in fluorescence for visible or far infrared (heat). These methods may also be selected from any combination of the following: mass spectroscopy; Nuclear magnetic resonance method; Fractions and spectroscopy illustrating the formation of isotopically labeled substances, isotope distribution or labeled products; Spectroscopic and chemical methods for detecting changes in the ionic or elemental composition of the reaction product (changes in pH, changes in inorganic and organic ions, etc.). Other methods of physical assays suitable for use in GAGGS include reaction products, including products with antibodies with reporter properties or products based on in vivo affinity recognition coupled with expression and activity of reporter genes. It may be based on using specific biometric sensors. Enzyme coupled assays for in vivo reaction product detection and cell survival-kill-growth selection may also be used where appropriate. Regardless of the specific nature of the physical assay, all of them are used to select the desired property, or combination of preferred properties, encoded by the GAGGS synthetic polynucleotide. Therefore, polynucleotides that are shown to have desirable properties are selected from the library.

본 발명의 방법은 임의적으로는 바람직한 특징을 갖는 핵산을 선택하는 선택 및/또는 스크리닝 단계를 포함한다. 상기 선택에 사용되는 적당한 검정법은 적용 방법에 의존성일 것이다. 단백질, 수용기, 리간드등의 다수의 검정법이 공지되어 있다. 이들의 방식에는 수정된 구성 요소와 결합, 세포 또는 유기체 생존성, 리포터 조성물의 생성등을 포함한다The methods of the present invention optionally comprise a selection and / or screening step of selecting nucleic acids having the desired characteristics. The appropriate assay used for the selection will depend on the method of application. Many assays are known, such as proteins, receptors, ligands and the like. These methods include binding to modified components, cell or organism viability, generation of reporter compositions, and the like.

고처리량 검정법에서는, 수천개의 상이한 셔플링된 변이체를 하루에 스크리닝해 낼 수 있다. 예를 들어, 미세 적정 플레이트의 각각의 웰은 독립적인 검정법을 수행하는데에 사용될 수 있거나, 또는 농축 또는 항온처리 시간 효과가 관찰되면, 매 5-10개의 웰은 단일 변이체를 (예를 들어, 상이한 농도에서) 시험할 수 있다. 그러므로, 단일 표준 미세 적정 플레이트는 약 100가지(예를 들어 96가지)의 반응에 대하여 검정할 수 있다. 만일 1536개의 웰 플레이트가 사용되면, 단일 플레이트는 약 100가지 또는 약 1500가지의 상이한 반응들로부터 용이하게 검정할 수 있다. 하루에 수개의 상이한 플레이트를 검정할 수 있다 ; 약 6,000-20,000가지 이하의 상이한 검정법으로(예를 들어, 상이한 핵산, 암호화된 단백질, 농축들을 포함) 스크리닝하는 검정법은 본 발명의 통합된 시스템을 사용하여 수행 가능하다. 더욱 최근들어, 시약 조작에 대한 미세 유동 연구법(microfluidic approaches)이 예를 들어, Caliper Technologies(Moutain View, CA)에 의하여 개발되었는데, 이는 처리량이 매우 많은 미세 유동 검정법을 제공할 수 있다.In high throughput assays, thousands of different shuffled variants can be screened per day. For example, each well of a microtiter plate may be used to perform an independent assay, or if an enrichment or incubation time effect is observed, every 5-10 wells may be a single variant (e.g., At concentrations). Therefore, a single standard microtiter plate can be assayed for about 100 (eg 96) reactions. If 1536 well plates are used, a single plate can easily be assayed from about 100 or about 1500 different reactions. Several different plates can be assayed per day; Assays with up to about 6,000-20,000 different assays (eg, including different nucleic acids, encoded proteins, enrichments) can be performed using the integrated system of the present invention. More recently, microfluidic approaches to reagent manipulation have been developed, for example, by Caliper Technologies (Moutain View, Calif.), Which can provide very high throughput microflow assays.

본 발명의 하나의 양상에 있어서, GAGGS 셔플링된 핵산을 포함하는 세포 바이러스 플라크, 포자등은 고체 배지상에서 분리되어 각각의 콜로니들(또는 플라크)을 생산한다. 자동화 콜로니 채집기(예를 들어 Q-bot, Genetix, U.K.)를 사용하여, 콜로니 또는 플라크가 동정되어 채집되고 10,000개 이하의 상이한 돌연 변이체들은 웰당 2개의 3mm 유리 볼을 포함하는 96 웰 미세적정 디쉬에 접종된다. 상기 Q-bot는 콜로니 전체를 채집하지는 않지만 콜로니의 중앙에 핀을 삽입하여 소량의 세포(또는 균사) 및 포자(또는 플라크 형태의 바이러스) 샘플을 추출하는 것이다. 상기 핀이 콜로니내에 머무는 시간, 배양 배지를 접종하기 위해서 찍는 횟수, 및 접종을 수행하기 위해 배지에 핀이 머무는 시간 및 각각의 파라미터는 조절 및 최적화될 수 있다.In one aspect of the invention, cellular viral plaques, spores, etc. comprising GAGGS shuffled nucleic acids are separated on solid medium to produce respective colonies (or plaques). Using an automated colony collector (eg Q-bot, Genetix, UK), a colony or plaque was identified and collected and up to 10,000 different mutants containing 96 well microtiter dishes containing two 3 mm glass balls per well. Is inoculated. The Q-bot does not collect the entire colony but inserts a pin in the center of the colony to extract a small amount of cells (or mycelia) and spores (or plaque virus) samples. The time the pin stays in the colony, the number of times it is taken to inoculate the culture medium, the time the pin stays in the medium to perform the inoculation, and each parameter can be adjusted and optimized.

Q-bot와 같은 자동화 콜로니 채집의 동일한 방법은 사람에 의한 조작시의 실수를 줄여주고 배양액을 성공적으로 제조하는 비율을 증가시킨다(약 10,000/4시간). 상기 배양액은 임의로는 배양기에 의하여 조절되는 온도 및 습도하에서 교반된다. 미세 적정 플레이트에서의 유리 볼은 발효조의 블레이드와 유사하게, 세포의 통기 및 세포 단편(예를 들어 균사)의 분산을 균일하게 촉진시켜 준다. 목적 배양액으로부터 클론들은 희석을 제한시킴으로써 분리될 수 있다. 전술한 바와 마찬가지로, 라이브러리를 포함하는 플라크 또는 세포들은 또한 혼성화, 단백질 활성, 항체에의 단백질 결합등을 검출함으로써 단백질 생산에 대하여 직접적으로 스크리닝될 수 있다. 충분한 크기의 풀을 동정하는 기회를 증가시키기 위하여, 돌연 변이체의 수를 10배 증가시키는 예비 스크리닝법이 사용될 수 있다. 상기 예비 스크리닝의 목적은 근원 사슬만큼 또는 근원 사슬보다 생산 적정량이 많은 돌연 변이체를 신속하게 동정하여 이들 돌연 변이체들을 후속 분석법에 사용하도록 세포 배양액에 운반하는 것이다.The same method of automated colony collection, such as Q-bot, reduces human error and increases the rate of successful culture production (about 10,000 / 4 hours). The culture is optionally stirred under temperature and humidity controlled by an incubator. The glass balls in the fine titration plates promote the aeration of cells and the dispersion of cell fragments (eg mycelia) uniformly, similar to the blades of fermenters. Clones from the desired culture can be separated by limiting dilution. As mentioned above, plaques or cells comprising the library can also be screened directly for protein production by detecting hybridization, protein activity, protein binding to antibodies, and the like. To increase the chance of identifying pools of sufficient size, a preliminary screening method can be used that increases the number of mutants by 10 times. The purpose of this preliminary screening is to quickly identify mutants with as much production titration as the source chain or more than the source chain and to transport these mutants to cell culture for use in subsequent assays.

다수의 라이브러리를 스크리닝하는 하나의 연구법은 활성이 강화된 효소를 암호화하는 셔플링된 핵산을 발현하는 세포를 스크리닝하는 거대 평행 고체상 방법(massively parallel solid-phase procedure)을 사용하는 것이다. 흡착, 형광 또는 FRET를 사용하는 거대 평행 고체상 스크리닝 장치가 유용하다. 예를 들어 Bylina외 다수(1999) 미합중국 특허 제 5,914,245호; http://www.kairos-scientific.com/; Youvan외 다수 (1999) "Fluorescence Imaging Micro-Spectrophotometer(FIMS)" Biotechnology et alia〈www.et-al.com〉 1:1-16; Yang외 다수 공저(1998) "High Resolution Imaging Microscope(HIRIM)" Biotechnology et alia〈www.et-al.com〉 4:1-20; 및 Youvan외 다수 (1999) "Calibration of Fluorescence Resonance Energy Transfer in Microscopy Using Genetically Engineered GFP Derivatives on Nickel Chelating Beads" www.kairos-scientific.com을 참조하시오. 상기 기술들에 의하여 스크리닝한후, 목적 서열을 통상적으로 분리하고 임의적으로는 시퀀싱하며, 본원에 제시된 바와 같은 서열들은 실리코내 또는 다른 셔플링 방법에서 신규 서열을 디자인하기 위하여 사용된다.One approach to screening multiple libraries is to use a massively parallel solid-phase procedure for screening cells expressing shuffled nucleic acids encoding enzymes with enhanced activity. Large parallel solid phase screening devices using adsorption, fluorescence or FRET are useful. See, eg, Bylina et al. (1999) US Pat. No. 5,914,245; http://www.kairos-scientific.com/; Youvan et al. (1999) "Fluorescence Imaging Micro-Spectrophotometer (FIMS)" Biotechnology et alia <www.et-al.com> 1: 1-16; Yang et al. (1998) "High Resolution Imaging Microscope (HIRIM)" Biotechnology et alia <www.et-al.com> 4: 1-20; And Youvan et al. (1999) "Calibration of Fluorescence Resonance Energy Transfer in Microscopy Using Genetically Engineered GFP Derivatives on Nickel Chelating Beads" www.kairos-scientific.com. After screening by the above techniques, the desired sequence is typically isolated and optionally sequenced, and the sequences as set forth herein are used to design new sequences in silico or in other shuffling methods.

이와 유사하게, 널리 공지된 검정 시스템에 유용한 솔루션상 화학 물질용 다수의 로봇 시스템도 또한 개발되고 있다. 상기 시스템은 Takeda Chemical Industries, LTD.(Osaka, Japan)에 의하여 개발된 자동화 합성 장치와 같은 자동화 워크스테이션 및 로봇 팔을 사용하며 과학자들에 의하여 수행되는 수동적 합성 작동을 모방한 다수의 로봇 시스템(ZymateII, Zymark Corporation, Hopkinton, Mass.; Orca, Beckman Coulter, Inc.(Fullerton, CA))을 포함한다. 상기 장치들중 임의의 것은 예를 들어 코돈 변형 핵산에 의하여 암호화된 분자들의 고처리량 스크리닝법과 같은 본 발명에 사용하기에 적합하다. 본원에 언급된 바와 같이 작동 가능한 이들 장치들에 대한 변형의 성질 및 수행법은 관련 기술 분야의 숙련자들에게 명백할 것이다.Similarly, a number of robotic systems for chemicals in solution are also being developed that are useful for well known assay systems. The system uses a robotic arm and an automated workstation, such as an automated synthesis device developed by Takeda Chemical Industries, LTD. (Osaka, Japan), and a number of robotic systems (Zymate II) that mimic the passive synthesis operations performed by scientists. , Zymark Corporation, Hopkinton, Mass .; Orca, Beckman Coulter, Inc. (Fullerton, Calif.). Any of these devices is suitable for use in the present invention, such as, for example, high throughput screening of molecules encoded by codon modified nucleic acids. The nature and manner of modification to these devices operable as mentioned herein will be apparent to those skilled in the art.

고처리량 스크리닝 시스템은 시판되고 있다[예를 들어, Zymark Corp., Hopkinton, MA; Air Technical Industries, Mentor, OH; Beckman Instruments, Inc. Fullerton, CA; Precision Systems, Inc., Natick, MA등을 참조하시오]. 상기 시스템은 통상적으로 모든 샘플 및 시약 피펫팅, 액체 분산, 배양 시간 조절 및 검출기 미세 플레이트의 최종 판독 단계를 포함하는 전체 과정이 자동화되어 있다. 상기 한정 가능 시스템은 고처리량 및 출발의 신속성 그리고 고도의 융통성 및 주문 설정성을 제공한다.High throughput screening systems are commercially available [eg, Zymark Corp., Hopkinton, MA; Air Technical Industries, Mentor, OH; Beckman Instruments, Inc. Fullerton, CA; See Precision Systems, Inc., Natick, MA et al.]. The system is typically automated throughout the process, including all sample and reagent pipetting, liquid dispersion, incubation time adjustment and final readout of the detector microplates. The definable system provides high throughput and fast start-up and a high degree of flexibility and customization.

이러한 시스템의 제작자들은 다양한 고처리량에 대한 상세한 과정을 제공한다. 그러므로, 예를 들어 Zymark Corp.은 유전자 전사, 리간드 결합등의 조절을 검출하는 스크리닝 시스템을 설명하는 기술적인 보고서를 제공한다.The manufacturers of these systems provide detailed procedures for various high throughputs. Thus, for example, Zymark Corp. provides a technical report describing screening systems that detect the regulation of gene transcription, ligand binding, and the like.

상업적으로 시판되고 있는 다수의 주변 장치 및 소프트웨어는 예를 들어, PC(Intel ×86 또는 펜티엄 칩 호환성 DOSTM, OS2TMWINDOWSTM, WINDOWS NTTM또는 WINDOWS95TM기초로 한 기계), MACINTOSHTM, 또는 UNIX 기초로 한 컴퓨터(예를 들어, SUNTM워크스테이션)을 사용하여 디지털화된 비디오 또는 디지털화된 광학 또는 기타 검정법 이미지를 디지털화, 저장 및 분석에 유용하다.Many commercially available peripherals and software are, for example, PCs (machines based on Intel × 86 or Pentium chip compatible DOS , OS2 WINDOWS , WINDOWS NT or WINDOWS95 ), MACINTOSH , or UNIX. It is useful for digitizing, storing and analyzing digitized video or digitized optical or other calibration images using a computer based (eg, SUN workstation).

분석용의 통합 시스템은 통상적으로 GAGGS에 대한 GO소프트웨어가 장착된 디지털 컴퓨터를 포함하는데, 임의적으로는 고처리량 액체 제어 소프트웨어, 이미지 분석 소프트웨어, 데이터 해독 소프트웨어, 솔루션을 소스로부터 디지털 컴퓨터와 작동적으로 연결된 목적지까지 운반하는 로봇 액체 제어 아마츄어, GAGGS 작동을 제어하기 위하여 데이터를 디지털 컴퓨터에 도입시키는 입력 장치(예를 들어, 컴퓨터 키보드) 또는 로봇 액체 제어 아마츄어에 의한 고처리량 액체 운반 그리고, 임의적으로는 표지된 검정법 구성 요소로부터의 라벨 시그널을 디지털화시키는 이미지 스캐너를 포함한다. 상기 이미지 스캐너는 이미지 분석 소프트웨어를 조정하여 프로브 표지의 강도를 측정한다. 통상적으로 상기 프로브 표지 강도는 데이터 해석 소프트웨어에 의하여 해석되어 표지된 프로브가 고체 지지체상의 DNA와 혼성화되는지 여부를 나타낸다.Integrated systems for analysis typically include a digital computer with GO software for GAGGS, optionally with high throughput liquid control software, image analysis software, data decoding software, and a solution operatively connected to the digital computer from a source. Robotic liquid control armature to deliver to destination, high throughput liquid transfer by an input device (eg computer keyboard) or robotic liquid control arm to introduce data into digital computer to control GAGGS operation and optionally labeled An image scanner that digitizes the label signal from the assay component. The image scanner adjusts the image analysis software to measure the intensity of the probe markers. Typically the probe label intensity is interpreted by data interpretation software to indicate whether the labeled probe hybridizes with DNA on a solid support.

현재 당 업계의 컴퓨터 하드웨어 지원은 GAGGS에 사용하기에 충분하다[임의의 중저가 Unix 시스템(예를 들어, Sun Microsystems) 또는 그보다 비싼 Macintosh 또는 PC가 충분할 것이다]. 현재 당 업계의 소프트웨어 기술은 생물학적 기초 지식을 갖춘 GAGGS 사용자에 특화된, 업그레이드 가능한 개방형 구조물 방향성 유전 알고리즘 패키지(upgradable open-architecture object-oriented genetic algorithm package)를 디자인하는데에 충분하다.Currently, computer hardware support in the industry is sufficient for use with GAGGS [any medium or low cost Unix system (eg Sun Microsystems) or a more expensive Macintosh or PC will be sufficient]. Current software technology is sufficient to design upgradeable open-architecture object-oriented genetic algorithm packages that are specific to GAGGS users with biological basic knowledge.

GO용 디지털 장치Digital device for GO

본원에 언급된 바와 같이 바람직한 기능을 수행하는데에 다양한 방법 및 유전자 알고리즘(GO)이 사용될 수 있다. 더욱이, 디지털 또는 아날로그 컴퓨터 시스템과 같은 디지털 또는 아날로그 시스템은 출력 파일들을 디스플레이 및/또는 제어하는 것과 같은 기타의 기능들을 제어할 수 있다.As mentioned herein, various methods and genetic algorithms (GOs) can be used to perform the desired functions. Moreover, a digital or analog system, such as a digital or analog computer system, can control other functions such as displaying and / or controlling output files.

예를 들어, 워드 프로세스 소프트웨어와 같은 표준 데스크탑 어플리케이션(예를 들어, Microsoft WordTM또는 Corel WordPerfectTM) 및 데이터베이스 소프트웨어(예를 들어, Microsoft ExcelTM, Corel Quattro ProTM과 같은 스프레드시트 소프트웨어, 또는 Microsoft AccessTM또는 ParadoxTM과 같은 데이터베이스 프로그램)이 하나 이상의 문자열을 디지털 시스템의 메모리에 로딩된 소프트 웨어에 입력시켜 상기 문자열에 대하여 본원에서 언급한 바와 같이 GO를 수행함으로써 본 발명에 적용될 수 있다. 예를 들어, 시스템은 문자열을 조작하는 사용자 인터페이스(예를 들어, Windows, Macintosh 또는 LINUX 시스템과 같은 표준적 운용 시스템의 GUI), 상기 어플리케이션에 프로그램화된 GO, 또는 사용자에 의하여 수동적으로 수행되는 GO와 함께 사용되는 적당한 문자열 정보를 갖는 상기 소프트웨어를 포함할 수 있다. 언급된 바와 같이, 결과적으로 정렬된 서열상에서 추가의 GO를 수행하는 예비 단계로서 핵산 또는 단백질(또는 상응 문자열)을 정렬시키기 위한 PILEUP 및 BLAST와 같이 특정화된 정렬 프로그램도 또한 본 발명의 시스템에 결합될 수 있다. PCA 수행용 소프트웨어도 또한 상기 디지털 시스템에 포함될 수 있다.For example, standard desktop applications such as word processing software (eg, Microsoft Word TM or Corel WordPerfect TM) and database software (eg, Microsoft Excel TM, spreadsheet software such as Corel Quattro Pro TM, or Microsoft Access. A database program such as TM or Paradox may be applied to the present invention by inputting one or more character strings into software loaded into the memory of the digital system to perform GO as mentioned herein. For example, the system may be a user interface that manipulates strings (for example, a GUI of a standard operating system such as a Windows, Macintosh, or LINUX system), a GO programmed into the application, or a GO performed manually by the user. It may include the software having the appropriate string information used with. As mentioned, specific sorting programs such as PILEUP and BLAST to align nucleic acids or proteins (or corresponding strings) as a preliminary step to perform further GO on the aligned sequences are also incorporated into the system of the present invention. Can be. Software for performing PCA may also be included in the digital system.

GO 조작용 시스템은 통상적으로 예를 들어, 본원에 언급된 GO에 따른 서열의 정렬 및 조작용 GO 소프트웨어, 또는 PCA 수행용 GO 소프트웨어가 장착된 디지털 컴퓨터 및 조작된 서열들을 포함하는 소프트웨어 시스템에 도입된 데이터 세트를 포함한다. 상기 컴퓨터는 예를 들어, PC(Intel ×86 또는 Pentium 칩 호환성 DOSTM, OS2TM, WINDOWSTM, WINDOWS NTTM, WINDOWS 95TM, WINDOWS 98TM, LINUX, 애플 호환성, MACINTOSHTM 호환성, Power PC 호환성, 또는 UNIX 호환성(예를 들어, SUNTM워크스테이션)기기) 또는 숙련자들에게 공지된 기타 시판되고 있는 일반적인 컴퓨터 시스템일 수 있다. 서열 정렬용 또는 조작용 소프트웨어는 본원의 방법에 따라서 Visualbasic, Fortran, Basic, Java등과 같은 표준적인 프로그램 언어를 사용하여 당 업계의 숙련자에 의하여 구성될 수 있다.GO operating systems are typically incorporated into software systems comprising, for example, digital software and engineered sequences equipped with GO software for alignment and manipulation of sequences according to the GO mentioned herein, or GO software for performing PCA. Contains a data set. The computer is, for example, a PC (Intel × 86 or Pentium chip compatible DOS TM , OS2 TM , WINDOWS TM , WINDOWS NT TM , WINDOWS 95 TM , WINDOWS 98 TM , LINUX, Apple Compatibility, MACINTOSHTM Compatibility, Power PC Compatibility, or UNIX compatible (eg, SUN workstation) devices or other commercially available common computer systems known to those skilled in the art. Sequence alignment or manipulation software can be constructed by one skilled in the art using standard programming languages such as Visualbasic, Fortran, Basic, Java, etc. in accordance with the methods herein.

임의의 제어기 또는 컴퓨터는 임의적으로는 예를 들어, 양극선 튜브("CRT") 디스플레이, 수평 패널 디스플레이(예를 들어, 활성 매트릭스 액정 디스플레이, 액정 디스플레이)등과 같은 것들을 포함한다. 컴퓨터 회로는 종종 마이크로프로세서, 메모리, 인터페이스 회로등과 같은 다수의 통합 회로 칩을 포함하는 박스내에 배치된다. 상기 박스는 또한 임의적으로는 하드 디스크 드라이브, 플로피 디스크 드라이브, 정보 도입 가능한 CD-ROM과 같은 고용량의 분리 가능한 드라이브 및 기타 일반적인 주변 요소들을 포함할 수 있다. 키보드 또는 마우스와 같은 입력 장치는 임의로는 사용자가 입력을 제공하거나 또는 관련 컴퓨터 시스템에서 비교되거나 또는 조작될 서열을 사용자가 선택하도록 만든다.Any controller or computer optionally includes such things as, for example, a bipolar tube ("CRT") display, a horizontal panel display (eg, an active matrix liquid crystal display, a liquid crystal display), and the like. Computer circuitry is often placed in a box containing a number of integrated circuit chips such as microprocessors, memory, interface circuits, and the like. The box may also optionally include a hard disk drive, a floppy disk drive, a high capacity removable drive such as an information retractable CD-ROM, and other common peripheral elements. Input devices such as keyboards or mice optionally allow the user to provide input or to select a sequence to be compared or manipulated in the relevant computer system.

통상적으로 컴퓨터 시스템은 사용자의 지시를 수용하는 적당한 소프트웨어를 포함하는데, 여기서 상기 소프트웨어는 사용자가 예를 들어, GUI내의 세트 파라미터 필드에 입력시키거나 또는 다수의 상이한 특정 작동을 위하여 프로그램화된 지시의 형태로 포함된다. 이후 상기 소프트웨어는 이들 지시를 상기 시트템 운용에 적합한 언어로 전환시켜 임의의 바람직한 작동을 수행한다. 예를 들어, 문자열의 GO 조작을 수행하는데에 더하여, 디지털 시스템은 올리고뉴클레오타이드 합성기가 유전자 재구성용 올리고뉴클레오타이드를 합성하거나 또는 심지어 시판되고 있는 소스의 올리고뉴클레오타이드를 정렬시키도록(예를 들어, 적당한 순서 형태를 프린트시키거나 또는 인터넷상에서 순서 형태를 연결시킴으로써) 지시할 수 있다.Typically a computer system includes suitable software that accepts a user's instructions, where the software is in the form of instructions programmed by the user for example in a set parameter field in the GUI or for a number of different specific operations. Included as. The software then translates these instructions into a language suitable for operating the system to perform any desired operation. For example, in addition to performing GO manipulation of strings, the digital system allows the oligonucleotide synthesizer to synthesize oligonucleotides for gene reconstruction or even to align oligonucleotides of commercially available sources (eg, in the proper order form). By printing or linking the order form on the Internet).

상기 디지털 시스템은 또한 핵산의 합성을 제어(예를 들어, 본원의 서열 또는 서열 정렬을 기초로 하여)하는 출력 요소를 포함할 수 있는데, 즉 본 발명의 통합 시스템은 임의적으로 올리고뉴클레오타이드 합성기 또는 올라고뉴클레오타이드 합성 제어기를 포함한다. 상기 시스템은 예를 들어 상기에서 검정법으로서 언급된 바와 같이, 본원의 서열에 상응하는 문자열을 사용하여 수행되는 정렬 또는 기타 작동으로부터 흐름을 따라서 발생하는 기타의 작동을 포함할 수 있다.The digital system may also include an output element that controls the synthesis of the nucleic acid (eg, based on the sequence or sequence alignment herein), ie the integrated system of the present invention is optionally an oligonucleotide synthesizer or Nucleotide synthesis controllers. The system can include other operations that occur along the flow from alignment or other operations performed using strings corresponding to sequences herein, for example, as mentioned above as assays.

하나의 실시예에서, 본 발명의 GO는 하나 이상의 문자열에 대해서 적당히 구성된 연산 장치가 GO 를 수행하도록 로딩될 때 논리적 지시 및/또는 데이터수정 매체 또는 전송 가능한 프로그램 구성 요소로 구체화된다. 도 13은 매체(717), 네트워크 포트(719), 사용자 입력 키보드(709), 사용자 입력(711) 또는 기타 입력 수단들로부터 발생된 지시들을 판독할 수 있는 논리 장치임이 이해되어야 할 표준적 디지털 장치(700)를 나타낸다. 이후 장치(700)는 이들 지시들을 사용하여 하나 이상의 문자열을 예를 들어, 하나 이상의 데이터 세트(예를 들어 핵산 또는 단백질에 상응하는 다수의 GO 변형 서열을 포함)를 구성하여 GO 변형시키도록 유도할 수 있다. 본 발명을 구체화시킬 수 있는 논리 장치의 한가지 형태는 CPU(707), 선택적 사용자 입력 장치 키보드(709) 및 GUI 특정 장치(711) 및 디스크 드라이브(715) 및 모니터(705)(GO 변형 문자열을 디스플레이하고 사용자에 의하여 문자열과 같은 하위 세트의 단순화된 선택법을 제공하는)와 같은 주변 구성 요소를 포함하는 컴퓨터 시스템(700)과 같은 컴퓨터 시스템을 포함한다.In one embodiment, the GO of the present invention is embodied as a logical indication and / or data modification medium or transferable program component when a computing device suitably configured for one or more strings is loaded to perform GO. 13 is a standard digital device that should be understood to be a logical device capable of reading instructions generated from medium 717, network port 719, user input keyboard 709, user input 711, or other input means. (700). The apparatus 700 can then use these instructions to induce one or more strings to be GO modified, for example by constructing one or more data sets (including a plurality of GO modification sequences corresponding to nucleic acids or proteins, for example). Can be. One form of logic device that may embody the present invention is to display a CPU 707, an optional user input device keyboard 709 and a GUI specific device 711 and a disk drive 715 and a monitor 705 (GO variant strings). And a computer system 700 including peripheral components such as by the user to provide a simplified selection of a subset of strings.

수정 매체(717)는 임의적으로는 전체 시스템을 프로그램화시키는데에 사용되며 예를 들어 디스크 형태의 광학 또는 자기 매체 도는 기타 전자 메모리 저장 요소를 포함할 수 있다. 통싱 포트(719)는 상기 시스템을 프로그램화하는데에 사용될 수 있으며 임의의 형태의 통신 연결 상태를 나타낼 수 있다.Modification medium 717 is optionally used to program the entire system and may include, for example, optical or magnetic media or other electronic memory storage elements in the form of disks. The communication port 719 can be used to program the system and can represent any form of communication connection state.

본 발명은 또한 특이적으로 통합화된 회로(ASIC) 어플리케이션 또는 프로그램화된 논리 장치의 회로내에서 구체화될 수 있다. 이러한 경우, 본 발명은 ASIC 또는 PLD로서 창출될 수 있는 컴퓨터 가독성 서술자 언어로 구체화될 수 있다.The invention may also be embodied in circuits of specifically integrated circuit (ASIC) applications or programmed logic devices. In such cases, the invention may be embodied in a computer readable descriptor language that may be created as an ASIC or PLD.

본 발명은 또한 PDA, 랩탑 컴퓨터 시스템, 디스플레이, 이미지 편집 장치등과 같은 다수의 기타 디지털 장치의 회로 또는 논리 프로세서내에서 구체화될 수 있다.The invention may also be embodied in circuits or logic processors in many other digital devices such as PDAs, laptop computer systems, displays, image editing devices, and the like.

하나의 바람직한 구체예에서, 상기 디지털 시스템 컴퓨터는 물리적 올리고뉴클레오타이드 조립 계획의 결과(조성, 산물의 풍부성, 상이한 과정들)가 물리적 검정법과 연합하여 모니터링되고 상관 관계가 구체화되는 구성 요소의 학습을 포함한다. 성공적인 조합 및 비성공적인 조합은 데이터베이스에서 입증되어 근원 문자열/핵산/단백질의 동일 세트(또는 상기 정보가 방법 개선 정보를 제공하는 경우에는 관련성이 없는 서열들까지도)를 포함하는 후속의 GAGGS 과정에 대한 파라미터 세트의 사용자 기초 또는 디지털 시스템 기초 선택에 대하여 조정/선취권을 제공한다. 상기 상관 관계는 상기 과정을 최적화하는 후속의 GAGGS 과정을 변형시키는데에 사용된다. 물리적 합성, 선택 및 상관 관계의 순환은 임의적으로 반복되어 상기 시스템을 최적화한다. 예를 들어, 신경 네트워크를 학습하여 결과를 최적화시킬 수 있다.In one preferred embodiment, the digital system computer comprises learning of components in which the results of the physical oligonucleotide assembly scheme (composition, product abundance, different processes) are monitored and correlated in association with physical assays. do. Successful and unsuccessful combinations have been validated in the database to include parameters for subsequent GAGGS processes that include the same set of source strings / nucleic acids / proteins (or even irrelevant sequences if the information provides method improvement information). Provide coordination / priority for the user base or digital system base selection of the set. The correlation is used to modify subsequent GAGGS processes to optimize the process. The cycle of physical synthesis, selection, and correlation is randomly repeated to optimize the system. For example, you can learn neural networks to optimize your results.

웹 싸이트에서의 구체화Materialization on the Web Site

본 발명의 방법은 구역화되거나 또는 분배된 연산 환경에서 수행될 수 있다. 분포된 환경에서, 본 방법은 다수의 프로세서 또는 다수의 컴퓨터를 포함하는 단일 컴퓨터상에서 수행될 수 있다. 상기 컴퓨터는 예를 들어, 일반적인 버스를 통하여 연결될 수 있는데, 더욱 바람직하게는 상기 컴퓨터는 네트워크상에서 노드일 수 있다. 상기 네트워크는 일반화되거나 또는 연역죈 논리 또는 광역 네트워크일 수 있으며, 임의의 구체예에서 상기 컴퓨터는 인트라넷 또는 인터넷의 구성 요소일 수 있다.The method of the present invention may be performed in a zoned or distributed computing environment. In a distributed environment, the method may be performed on a single computer including multiple processors or multiple computers. The computer may for example be connected via a general bus, more preferably the computer may be a node on a network. The network may be a generalized or deductive logic or wide area network, and in some embodiments the computer may be a component of an intranet or the Internet.

하나의 인터넷 구체예에서, 클라이언트 시스템은 통상적으로 웹 브라우저를 실행시켜 웹 서버를 실행시키는 서버 컴퓨터에 커플링된다. 상기 웹 브라우저는 통상적으로 IBM Web Explorer, Internet explorer, NetScape 또는 Mosaic와 같은 프로그램이다. 상기 웹 서버는 통상적으로 IBM HTTP Daemon이거나 또는 기타 WWW Daemon(예를 들어, 프로그램의 LINUX 기초형)이지만 반드시 그럴 필요는 없다. 상기 클라이언트 컴퓨터는 라인 또는 무성 시스템을 통하여 서버 컴퓨터와 쌍방향으로 커플링된다. 반대로, 상기 서버 컴퓨터는 본 발명의 방법을 수행하는 소프트웨어에 억세스되는 웹싸이트(상기 웹싸이트를 호스트하는 서버)와 쌍방향으로 커플링된다.In one Internet embodiment, the client system is typically coupled to a server computer running a web browser to run a web server. The web browser is typically a program such as IBM Web Explorer, Internet Explorer, NetScape or Mosaic. The web server is typically an IBM HTTP Daemon or other WWW Daemon (e.g., a LINUX-based version of the program) but need not be. The client computer is interactively coupled with the server computer via a line or silent system. In contrast, the server computer is interactively coupled to a website (server hosting the website) that is accessed by software that performs the method of the present invention.

인트라넷 또는 인터넷에 연결된 클라이언트의 사용자는 상기 클라이언트로 하여금 본 발명의 방법을 수행하는 어플리케이션을 호스트시키는 웹싸이트의 일부인 리소스를 요구하도록 만들 수 있다. 이후 서버 프로그램은 특정된 리소스(이들이 현재 사용될 수 있다고 가정)를 리턴시키도록 프로세스한다. 표준적인 명명 관습이 채택되어 이를 Uniform Resource Locator("URL")라 부른다. 상기 관습은 몇가지 형태의 구역 이름을 포함하는데, 현재 Hypertext Transport Protocol("http"), File Transport Protocol("ftp"), 고퍼(gopher) 및 Wide Area Information Service("WAIS")와 같은 하위 클래스를 포함한다. 리소스가 다운로드될 때, 추가의 리소스인 URL을 포함할 수 있다. 그러므로, 상기 클라이언트의 사용자들은 이들이 구체적으로 요청한 신규 리소스의 존부를 용이하게 파악할 수 있는 것이다.A user of a client connected to an intranet or the Internet can cause the client to request a resource that is part of a website that hosts an application that performs the method of the present invention. The server program then processes to return the specified resources (assuming they can now be used). Standard naming conventions have been adopted and are called Uniform Resource Locators ("URLs"). The convention includes some form of zone name, which currently includes subclasses such as Hypertext Transport Protocol ("http"), File Transport Protocol ("ftp"), gopher, and Wide Area Information Service ("WAIS"). Include. When a resource is downloaded, it may include a URL that is an additional resource. Therefore, users of the client can easily determine the existence of the new resource they specifically requested.

본 발명의 방법을 수행하는 소프트웨어는 진정 클라이언트 서버 구조물내 웹싸이트를 호스트하는 서버상에서 구역적으로 수행될 수 있다. 그러므로, 상기 클라이언트 컴퓨터 포스트는 요청된 과정을 구역적으로 운용하여 결과를 클라이언트로 다시 다운로드하는 호스트 서버를 요청한다. 이와는 달리, 본 발명의 방법은 본 방법의 구성 요소가 상기 클라이언트에 의하여 구역적으로 수행되는 "멀티 타이어(multi-tier)" 방식으로 수행될 수 있다. 이는 클라이언트에 의하여 요청으로 서버로부터 다운로드된 소프트웨어(예를 들어, Java 어플리케이션)에 의해 수행될 수 있거나 또는 상기 클라이언트상에 "영구적으로(permanently)" 설치된 소프트웨어에 의하여 수행될 수 있다.The software that performs the method of the present invention can be run locally on a server that hosts a website in a true client server architecture. Therefore, the client computer post requests the host server to regionally operate the requested process and download the results back to the client. Alternatively, the method of the present invention may be performed in a "multi-tier" manner in which the components of the method are regionally performed by the client. This may be performed by software (eg, Java application) downloaded from the server on request by the client or by software that is "permanently" installed on the client.

본 발명의 방법을 수행하는 어플리케이션의 하나의 구체예는 프레임으로 나누어진다. 이와 같은 패러다임에서는, 어플리케이션을 특징이나 기능성의 집합으로 파악하기 보다는 추상적 프레임 또는 관점의 집합으로 보는 것이 유용하다. 예를 들어, 통상의 어플리케이션은 일반적으로 메뉴 아이템 세트를 포함하는데, 이들 각각은 특정한 프레임을 요청한다--즉, 상기 어플리케이션의 임의의 기능을 명백히 한다. 이러한 관점으로, 어플리케이션은 암호의 단일체로서가 아닌 애플렛의 모음으로 간주되거나 또는 기능의 묶음으로서 간주된다. 브라우저내에서 이와 같은 방식으로, 사용자는 어플리테이션의 특정 프레임(즉, 하위 어플리케이션)을 요청하는 웹 페이지 연결을 선택한다. 그러므로, 예를 들어 하나 이상의 프레임은 다른 프레임이 암호화된 문자열의 다양성을 발생 및/또는 증가시키는 도구를 제공할 경우, 생물학적 분자들을 하나 이상의 문자열로 입력시키고/또는 암호화시키는 기능을 제공한다.One embodiment of an application that performs the method of the present invention is divided into frames. In this paradigm, it is useful to see an application as an abstract frame or set of perspectives rather than as a set of features or functionality. For example, a typical application typically includes a set of menu items, each of which requests a particular frame--that is, clarifies any function of the application. In this respect, an application is considered as a collection of applets rather than as a single piece of cryptography or as a bundle of functions. In this way within the browser, the user selects a web page connection that requests a particular frame of application (ie, a sub-application). Thus, for example, one or more frames provide the ability to enter and / or encode biological molecules into one or more strings, provided that another frame provides a tool for generating and / or increasing the diversity of an encrypted string.

특정의 바람직한 구체예에서, 본 발명의 방법은 예를 들어, 다음과 같은 기능을 제공하는 하나 이상의 프레임으로서 수행된다.In certain preferred embodiments, the method of the present invention is performed as one or more frames, for example providing the following functions.

2이상의 생물학적 분자들을 각각의 생물학적 분자들이 선택된 하위 단위를 포함하는 2이상의 상이한 초기 문자열의 모음을 제공하는 문자열로 암호화하는 기능; 상기 문자열로부터 2이상의 하위열을 선택하는 기능; 상기 하위열을 연결시켜 하나 이상의 초기 문자열과 거의 동일한 길이인 하나 이상의 생성열을 형성시키는 기능; 상기 생성열(장소)을 문자열 모음에 부가하는 기능; 및 본원에 제시된 GAGGS 또는 임의의 GO 또는 GA의 임의의 특징을 실행시키는 기능.Encoding at least two biological molecules into a string providing a collection of at least two different initial strings, each subunit comprising a selected subunit; Selecting at least two substrings from the string; Concatenating the substrings to form one or more generated strings that are approximately the same length as one or more initial strings; Adding the generated string (place) to a string collection; And the ability to implement any feature of GAGGS or any GO or GA presented herein.

2이상의 생물학적 분자들을 암호화하는 기능은 사용자가 생물학적 분자의 표시를 삽입시킬 수 있는 하나 이상의 위도우를 제공할 수 있다. 뿐만 아니라, 암호화 기능은 또한 임의적으로 지역 네트워크 및/또는 인트라넷을 통하여 접근 가능한 사적인 및/또는 공적인 데이터베이스에 대한 접근 방법을 제공하여 상기 데이터베이스내에 포함된 하나 이상의 서열들이 본 발명의 방법에 입력될 수 있도록 한다. 그러므로, 예를 들어 하나의 구체예에 있어서, 최종 사용자가 시퀀싱된 핵산 서열을 암호화 기능에 도입시키면, 사용자는 임의적으로는 GenBank에 검색을 요청할 수 있으며 이러한 검색 방법으로 되돌아온 하나 이상의 서열을 암호화 및/또는 변이 발생 기능에 도입시킬 수 있다.The ability to encode two or more biological molecules can provide one or more widows from which a user can insert an indication of the biological molecule. In addition, the encryption function also provides access to private and / or public databases, optionally accessible through local networks and / or intranets, so that one or more sequences contained in the databases can be entered into the method of the present invention. do. Thus, for example, in one embodiment, if the end user introduces the sequenced nucleic acid sequence into a coding function, the user may optionally request a search from GenBank and / or encode one or more sequences returned to this search method. Or may be introduced into a mutation generating function.

연산 및/또는 데이터 접근 방법의 인트라넷 및/또는 인트라넷 구체화 실행 방법은 당 업계의 숙련자들에게 널리 공지되어 있으며 다음과 같은 문헌에 매우 상세히 기록되어 있다[예를 들어, Cluer외 다수 공저(1992) A General Framework for the Optimization of Object-Oriented Queries, Proc SIGMOID International Conference on Management of Data, San Diego, California, Jun.2-5, 1992, Sigmoid International Conference on Management of Data, San Diego, California, Jun.2-5, 1992, SIGMOID Record, vol.21, Issue 2, Jun., 1992;Stonebraker, M.,Editor; ACM Press, pp.383-392; ISO-ANSI, Working Draft, "Information Technology-Database Language SQL", Jim Melton, Editor, International Organization for Standardization and American National Standards Institute, Jul. 1992; Microsoft Corporation, "ODBC 2.0 Programmer's Reference and SDK Guide. The Microsoft Open Database for Microsoft Windows.TM. and Windows NT.TM., Microsoft Open Database Connectivity.T.M.Software Development Kit", 1992, 1993, 1994 Microsoft Press, pp.3-30 및 41-56; ISO Working Draft, "Database Language SQL-Part 2:Foundation(SQL/Foundation)", CD9075-2:199.chi.SQL, Sep.11, 1997등을 참조하시오] 에플리케이션 기초 웹에 관한 추가의 적당한 설명은 Selifonov 및 Stemmer에 의하여 출원되었으며, Attorney Docket Number3271.002WO0인 "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS"에서 찾아볼 수 있다.Methods of implementing intranet and / or intranet refinement of computational and / or data access methods are well known to those skilled in the art and are described in great detail in the following literature [eg, Cluer et al. (1992) A General Framework for the Optimization of Object-Oriented Queries, Proc SIGMOID International Conference on Management of Data, San Diego, California, Jun. 2-5, 1992, Sigmoid International Conference on Management of Data, San Diego, California, Jun.2- 5, 1992, SIGMOID Record, vol. 21, Issue 2, Jun., 1992; Stonebraker, M., Editor; ACM Press, pp. 383-392; ISO-ANSI, Working Draft, "Information Technology-Database Language SQL", Jim Melton, Editor, International Organization for Standardization and American National Standards Institute, Jul. 1992; Microsoft Corporation, "ODBC 2.0 Programmer's Reference and SDK Guide.The Microsoft Open Database for Microsoft Windows.TM. And Windows NT.TM., Microsoft Open Database Connectivity.TMSoftware Development Kit", 1992, 1993, 1994 Microsoft Press, pp. 3-30 and 41-56; See ISO Working Draft, "Database Language SQL-Part 2: Foundation (SQL / Foundation)", CD9075-2: 199.chi.SQL, Sep.11, 1997, etc.] Filed by Selifonov and Stemmer and found at "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS", Attorney Docket Number3271.002WO0.

이하 실시예는 본 발명을 상세하게 설명하기 위한 것으로, 본 발명을 한정하기 위한 것이 아니다. 당업자라면 변화시켜도 실질상 유사한 결과를 나타낼 수 있는 각종 변수들을 잘 알 것이다.The following examples are intended to illustrate the present invention in detail and are not intended to limit the present invention. Those skilled in the art will be familiar with various variables that can vary substantially with similar results.

실시예 1 : GAGGS 공정의 일예를 위한 결정 트리Example 1 Decision Tree for an Example of a GAGGS Process

GAGGS로 유도성 진화(DE) 공정의 일예를 일반적으로 나타낸 플로우 모식도 세트를 첨부한다(도 1 내지 도 4). 도 1은 바람직한 성질의 아이디어에서부터 유전자 알고리즘의 선발에 이르는 양태 결정법을 제공한 것이다. 도 2는 유전자 알고리즘의 선발에서부터 정련된 근원 문자열의 라이브러리에 이르는 유도성 진화 결정 트리를 제공한 것이다. 도 3은 정련된 근원 라이브러리에서부터 문자열의 천연 유도 라이브러리에 이르는 양태 프로세싱 단계를 도시한 것이다. 도 4는 천연 문자열을 바람직한 성질의 문자열로 진행시키는 과정을 도시한 것이다.Attached is a set of flow schematics generally illustrating an example of an inductive evolution (DE) process with GAGGS (FIGS. 1-4). 1 provides an aspect determination method from the idea of desirable properties to the selection of genetic algorithms. 2 provides an inductive evolution decision tree from the selection of genetic algorithms to a library of refined source strings. FIG. 3 illustrates the aspect processing steps from the refined source library to the natural derived library of strings. 4 shows a process of progressing a natural string into a string of desirable properties.

일반적으로, 이러한 차트들은 구성원들의 배열의 모식도이며, 공정 결정 트리 구조의 모식도이다. 본 명세서에서 전술한 바와 같이 특정 DEGAGGS 배열에 대한 다양한 변형을 개발하여 실시할 수 있다는 점은 자명한 것이다. 구성의 명료성을 위하여 대부분의 유전자 인공 신경원 네트워크 학습 부재 뿐만 아니라 특정 성질 조절 모듈 및 링크는 생략하였으나, 당업자라면 잘 알고 있을 것이다. 이 차트들은 연속 배열로서 각각 미두부가 연결되는 것이다. 각 GO 모듈의 부가 재료와 실행, 및 작업 순서와 트리에서의 다양한 GO 배열(예컨대 GAGGS)은 각종 소프트웨어 팩키지로서 입수용이하다. 기존의 견본 소프트웨어에 관한 적합한 참조문헌으로는 예컨대 http://www.aic.nrl.navy.mil/galist/ 및 http://www.cs.purdue.edu/coast/archive/clife/FAQ/www/Q20_2.htm이 있다. 도 1 내지 도 4에 도시되어 있는 다양한 결정 단계들은 선발/결정 공정을 용이하게 하는 1 이상의 소프트웨어 프로그램을 사용하여 컴퓨터에 의해 대부분 용이하게 실시된다는 것은 자명한 일이다.In general, these charts are schematic diagrams of the arrangement of members and schematic diagrams of the process decision tree structure. It will be apparent that various modifications to the particular DEGAGGS arrangement can be developed and implemented as described herein. Although the absence of most genetic artificial neuronal network learning as well as specific property control modules and links have been omitted for clarity of construction, those skilled in the art will be familiar with it. These charts are arranged in series, with each head connected. Additional materials and implementations of each GO module, work order and various GO arrangements in the tree (eg GAGGS) are available as various software packages. Suitable references for existing sample software include, for example, http://www.aic.nrl.navy.mil/galist/ and http://www.cs.purdue.edu/coast/archive/clife/FAQ/www There is /Q20_2.htm. It will be apparent that the various decision steps shown in FIGS. 1-4 are most easily performed by a computer using one or more software programs that facilitate the selection / decision process.

실시예 2 : 모델링 비용 산정Example 2 Modeling Cost Estimation

매우 한정된 정도/저 레벨의 위치 축퇴성이 있는 축퇴성 합성 올리고(위치 당 0.01 이하 내지 5%)를 사용하면 실질상 돌연변이원성이 병입된 라이브러리를 작제하는데 있어 상당한 비용 절감을 얻을 수 있다. 하지만, PCR 조립 유전자 합성법에서는, 근원 참가 서열 사이에 모든 크로스오버 양태로서 대표적으로 모의 크로스오버 양태 당 2개의 관련 올리고의 합성을 사용한다.The use of very definite / low levels of site degenerate degenerate synthetic oligos (<0.05 to 5% per site) can yield significant cost savings in constructing libraries that are substantially mutagenically convoluted. However, PCR assembly gene synthesis uses the synthesis of two related oligos per mock crossover mode, typically as all crossover embodiments between source entry sequences.

그러나, 하기 실시예와 핵산 진화 알고리즘의 조합 성질로부터 명백하게 알 수 있듯이 물리적 선발을 위한 매우 큰(109내지 1010) 유전자 라이브러리를 건축하는 경우에도 일반적으로 크기가 약 1.6 kb인 유전자 패밀리를 진화시키기 위하여 103미만의 40량체 올리고를 사용한다.However, as can be clearly seen from the combinatorial properties of the following examples and nucleic acid evolution algorithms, even when constructing a very large (10 9 to 10 10 ) gene library for physical selection, a gene family of about 1.6 kb in size can be evolved. 40-mer oligos of less than 10 3 are used.

하기 몇몇 일반적인 실시예는 GAGGS에 있어서 유전자 합성 성분의 비용에 대한 예를 제공한 것으로, 여기에서 비용 산정은 일 예로서 염기당 $0.7(유전자 재조립 절차에 적당한 40 내지 50 nmol 양)로 임의적 기준에 근거한 것이다. 올리고 합성에 있어서 보다 다량의 용량을 사용하면 단위 비용을 실질상 감소(예컨대, 10배 정도의 감소)시키고, 올리고 합성의 전반적인 비용도 감소시킨다. 올리고 합성은 자동화가 용이하고 따라서 수율 증가가 용이한 본래 병행되는 통상적인 공정이다. 현재, 올리고 합성용 비칩형 병행 장치는 5 시간 이내에 196개(2 x 96)의 각 60량체 올리고를 동시(단일 장입량) 합성할 수 있는 유효 용량을 갖고 있다. 이 때, 소요되는 하드웨어 비용은 $100K 이하이고, 시약 비용은 염기당 $0.07 이하이다. 따라서, 이러한 비용의 측면에서 볼 때 하기 실시예에서 이루어지는 비용 추정치는 8배 이상으로 감소될 수 있다.Some general examples below provide examples of the cost of gene synthesis components for GAGGS, where the cost estimate is, for example, $ 0.7 per base (amount from 40 to 50 nmol suitable for gene reassembly procedure) on an arbitrary basis. It is based. The use of higher doses in oligo synthesis substantially reduces unit cost (eg, a tenfold reduction) and also reduces the overall cost of oligo synthesis. Oligo synthesis is a common process inherently parallel that is easy to automate and therefore easy to increase yield. At present, the non-chip parallel apparatus for oligo synthesis has an effective capacity capable of simultaneously (single loading) synthesizing 196 (2 x 96) of each 60-mer oligos within 5 hours. At this point, the hardware cost is less than $ 100K and the reagent cost is less than $ 0.07 per base. Thus, in view of these costs, the cost estimates made in the examples below can be reduced by more than eight times.

실시예 3 : 단일 근원 저 돌연변이원성 라이브러리의 GAGGSExample 3: GAGGS of a single source low mutagenic library

본 실시예는 1종의 1.6 kb 유전자(500 aa + "컨비니언스" 개시/말단 올리고 암호)에 대한 서열 정보가 제공된다면 평균 유전자(약 1.6 kb)에서 유래된 단일 근원 저 돌연변이원성 라이브러리의 GAGGS에 대한 것이다. 본 실시예의 목표는 가능한 모든 단일 아미노산 변화, 즉 라이브러리 중의 각 유전자 카피 당 하나의 aa 변화를 보유한 유전자 변형체의 라이브러리를 작제하는 것이다.This example is directed to GAGGS of a single source low mutagenic library derived from the mean gene (approximately 1.6 kb) if sequence information is provided for one 1.6 kb gene (500 aa + "convenience" initiation / end oligo code). will be. The goal of this example is to construct a library of genetic variants with all possible single amino acid changes, one aa change for each gene copy in the library.

관련 매개 변수로는 올리고의 수, 예컨대 비오류 용이성 조립 PCR에 의해, 예컨대 완전한 20+20 염기 오버랩을 보유한 40량체 올리고로부터 1개의 근원 1.6 kb 유전자를 작제하는데 드는 비용, 가능한 모든 aa 치환 돌연변이의 수, 가능한 모든 단일 aa 돌연변이를 "작제"하는데 사용되는 독특한 비축퇴성 40량체 올리고의 수, 종결 코돈을 제외한 가능한 모든 단일 aa 돌연변이를 병입시키는데 사용되는 모든 독특한 고정 위치의 단일 코돈 축퇴성 올리고의 최소 수 및 모든 가능한 단일 aa 돌연변이를 병입시키는데 사용되는 모든 독특한 고정 위치의 1 코돈 완전 축퇴성 올리고의 최소 수가 있다.Relevant parameters include the number of oligos, such as the cost of constructing one source 1.6 kb gene, for example from a 40-mer oligo having a complete 20 + 20 base overlap, by non-error easy assembly PCR, the number of all possible aa substitution mutations. , The number of unique non-degenerate 40-mer oligos used to "construct" all possible single aa mutations, the minimum number of single codon degenerate oligos at all unique fixed positions used to feed in all possible single aa mutations except the stop codons, and There is a minimum number of 1 codon fully degenerate oligos of all unique fixed positions used to inject all possible single aa mutations.

1.6 kb 유전자의 경우, 1∞1,600:40∞2 = 80 올리고; $0.7∞40∞80=$2,240이다. N=500∞19=9,500. 9,500x2=19,000; $532,000@$0.7/염기 $56/유전자, 1/푸울 500x2x3 = 3,000; $84,000@0.7/염기, $8.85/유전자, 20표현형/푸울, 규정화된 다량성(예컨대, 단지 3개의 가변 코돈을 사용, 이 중 2개는 축퇴성: NNT, VAA, TGG) 500x2 = 1,000; $28,000@0.7/염기 $2.94/유전자, 20 표현형/푸울, 비대칭 다중성(이것은 합성된 라이브러리내에 유의적인 절두형 유전자의 수의 존재를 초래한다).For a 1.6 kb gene, 1∞1,600: 40∞2 = 80 oligos; $ 0.7∞40∞80 = $ 2,240. N = 500∞19 = 9,500. 9,500x2 = 19,000; $ 532,000 @ $ 0.7 / base $ 56 / gene, 1 / pool 500x2x3 = 3,000; $ 84,000 @ 0.7 / base, $ 8.85 / gene, 20 phenotype / pool, defined multiplicity (eg, using only three variable codons, two of which are degenerate: NNT, VAA, TGG) 500 × 2 = 1,000; $ 28,000 @ 0.7 / base $ 2.94 / gene, 20 phenotypes / pools, asymmetric multiplicity (this results in the presence of a significant number of truncated genes in the synthesized library).

1차 GAGGS에 사용한 동일한 물리적 올리고 목록을 2차 GAGGS에 사용하여 임의의 2가지 단일 aa 변화의 가능한 모든 조합 중 약 95%를 포함하는 라이브러리를 합성한다. +/- 20bp 근접 위치내에 존재하는 돌연변이의 조합을 포함하도록 100%를 만들고자 하는 경우에는 부가 올리고를 사용한다. 이전 GAGGS에서 얻어진 1 이상의 돌연변이가 유익한 것으로 확인되면, 유익한 돌연변이 중 +/- 20 bp 내에 존재하는 신규 돌연변이 중 모든 조합을 만들기 위해서는 42개 이하의 신규 올리고의 합성을 이용한다. 후속 GAGGS에 사용되는 비용은 한계적이며 1차 선형적으로만 증가하는 반면, 재귀적 방식으로 샘플링되는 다양성은 지수적으로 증가한다.The same physical oligo list used for the primary GAGGS is used for the secondary GAGGS to synthesize a library comprising about 95% of all possible combinations of any two single aa changes. Addition oligos are used to make 100% to include a combination of mutations present in the +/- 20bp proximal position. If one or more mutations obtained from the previous GAGGS were found to be beneficial, the synthesis of up to 42 new oligos was used to make all combinations of new mutations present within +/- 20 bp of the beneficial mutations. The cost used for subsequent GAGGS is marginal and only increases linearly linearly, while the diversity sampled in a recursive manner increases exponentially.

실시예 4 : 일군의 유전자 패밀리에서 유전된 재조합원성(비돌연변이성) 라이브러리의 GAGGS(1차 패밀리 DNA 셔플링에 해당하는 GAGGS)Example 4 GAGGS (GAGGS Corresponding to Primary Family DNA Shuffling) of Recombinant (Nonmutant) Libraries inherited from a Group of Gene Families

다른 근원 유전자와 각각 6개의 상동성 영역(각 상동성 영역을 키메라화하기 위한 6개의 "두부" 및 "미부")을 가진 6개의 보통 평균(1.6 kb) 크기의 유전자에 대한 서열 정보가 제공되어 있는 경우.Sequence information is provided for six normal mean (1.6 kb) genes, each with six source regions and six homology regions (six "tofu" and "tail" to chimeric each homology region). If there is.

관련 변수로는 다음과 같은 것이 있다. 올리고의 수와 이에 따라서 6개의 근원 1.6 kb 유전자를 작제하는데 사용되는 비용(비오류 용이성 조립 PCR에 의해 완전한 20+20 오버랩을 보유한 40량체 올리고로부터), 쌍을 이룬 상동성 영역당 1 크로스오버가 나타나는 것으로 가정하고 모든 정합 상동성 영역 간에 나타나는 독특한 쌍 크로스오버의 수, 크로스오버를 사용한 모든 가능한 키메라의 수, 이론적 라이브러리 크기, 및 가능한 모든 키메라를 작제하는데 사용되는 비용과 특정 올리고의 수. 전술한 바와 같이, 6∞1,600:40∞2 = 480 올리고, $0.7∞40∞480 = $13,440, 즉 유전자 작제물 당 $2,240. 식 N=k∞m∞(m-1)에 따라 연산(여기에서 근원 수인 m=6, 크로스오버 조건에 적합한 쌍 상동성 영역의 수인 k=6)하였을 때 N=180. 하기 식에 따라 연산시, X=∼5.315∞109 Related variables include: The number of oligos and thus the cost used to construct the six source 1.6 kb genes (from 40-mer oligos with full 20 + 20 overlap by non-error easy assembly PCR), 1 crossover per paired homology region The number of unique pair crossovers that appear between all matching homology regions, the number of all possible chimeras using the crossover, the theoretical library size, and the cost and number of specific oligos used to construct all possible chimeras. As noted above, 6∞1,600: 40∞2 = 480 oligo, $ 0.7∞40∞480 = $ 13,440, ie $ 2,240 per gene construct. N = 180 when calculated according to the formula N = k∞m∞ (m-1) (where m = 6, the number of sources and k = 6, the number of pair homology regions suitable for the crossover condition). When calculated according to the following formula, X = ∼5.315∞10 9

이 식에서, X는 이론적 라이브러리 크기이고 n은 각 라이브러리 목록 중에 존재하는 크로스오버의 수(1 내지 k의 정수), 2∞180+480 = 840 올리고; $0.7∞40∞840=$23,520; 유전자 작제물 당 $0.000048. 106만을 선별하는 경우, 올리고의 비용은 유전자 작제물 당 $0.24이다. 104을 선별하는 경우, 올리고 비용은 유전자 작제물 당 $2.35이다.Where X is the theoretical library size and n is the number of crossovers present in each library list (an integer from 1 to k), 2∞180 + 480 = 840; $ 0.7∞40∞840 = $ 23,520; $ 0.000048 per gene construct. If only 10 6 is selected, the cost of the oligo is $ 0.24 per gene construct. For screening 10 4 , the oligo cost is $ 2.35 per gene construct.

GAGGS를 복수회 진행시키는데 드는 비용은 부가적이지 않은데, 그 이유는 이전 GAGGS에서 얻어지는 과량의 올리고 대부분이 후속 세대 라이브러리의 합성에 재사용될 수 있기 때문이다. 작제된 모든 유전자 중에서 사실상 단지 소량만이 선발될지라도(예컨대, 104으로, 유전자 작제물 당 사용된 올리고 비용은 $2.35임), 올리고 비용은 유전자 분석 기준 당 사용되는 분석 비용과 비슷하다. 또한, 산업적으로 널리 사용되는 올리고 합성 비용은 감소하고 있다.The cost of running GAGGS multiple times is not additive because most of the excess oligo obtained from previous GAGGS can be reused for the synthesis of subsequent generation libraries. Although virtually only a small amount of all constructed genes are selected (eg 10 4 , the cost of oligos used per gene construct is $ 2.35), the cost of oligos is comparable to the cost of analyses used per gene assay criteria. In addition, the cost of oligo synthesis widely used industrially is decreasing.

실시예 5 : 단계별 GAGGSExample 5 Step by Step GAGGS

본 실시예는 GAGGS 패밀리 모델 단계별 프로토콜을 제공한 것이다.This example provides a GAGGS family model step-by-step protocol.

일군의 유전자/단백질(DNA 또는 AA 서열)을 선발한다. 크로스오버 점을 선발한다. 가능한 모든 쌍 정렬을 만들어 크로스오버 조작 조건(길이, 동일성%, 스트린젠시)을 만족시키는 쌍 상동성 영역을 동정한다. 크로스오버 점을 각 아열 이 중간에서 또는 무작위로, 또는 근원의 매쌍마다 크로스오버 확률 등급의 히스토그램에서 제조된 어닐링을 기초로 한 확률 모델에 따라, 각 쌍 상동성 아열 마다 하나씩 선발한다. 조립 PCR을 위해 올리고를 선발하고 합성한다. 합성된 올리고로부터 유전자/라이브러리를 어셈블링한다. 이 라이브러리들을 전술한 바와 같이 선별/선발한다.A group of genes / proteins (DNA or AA sequences) are selected. Pick a crossover point. All possible pair alignments are made to identify pair homology regions that meet the crossover manipulation conditions (length, percent identity, stringency). Crossover points are selected, one for each pair homology subcolumn, with each subcolumn in the middle or randomly, or according to a probabilistic model based on an annealing made from a histogram of crossover probability ratings for each pair of sources. Oligos are selected and synthesized for assembly PCR. Assemble the gene / library from the synthesized oligos. These libraries are screened / selected as described above.

실시예 6 : 서브틸리신 패밀리 모델Example 6 Subtilisin Family Model

아미노산 서열을 정렬한다(바람직한 발현계를 위하여 역해독시 사용 코돈은 최적화하고, 합성에 사용되는 올리고의 수는 최소화한다). 7가지 근원의 모든 가능한 쌍들의 점 블롯 쌍 정렬을 제조하였다(도 5, 6, 7). 도 5는 7가지 근원의 정렬시 유사성%이다. 리더 서열을 제외한 아미노산 서열들을 정렬시켰다. 도 6은 유사성 영역을 확인하기 위한 서열의 점 플롯 정렬이다. 도 7은 정렬된 서열 중에서 쌍 크로스오버 점을 나타내는 점 플롯이다.Align the amino acid sequence (optimize the codons used for reverse reads for the preferred expression system and minimize the number of oligos used for synthesis). Point blot pair alignments of all possible pairs of seven sources were prepared (FIGS. 5, 6, 7). 5 is the% similarity in alignment of the seven sources. The amino acid sequences except the leader sequence were aligned. 6 is a dot plot alignment of sequences to identify similarity regions. 7 is a point plot showing paired crossover points in an aligned sequence.

쌍 6과 7은 ≥7 aa의 각 윈도우 마다 나타나는 동일성이 95%임을 나타내는 반면, 기타 다른 모든 쌍들은 ≥7 aa의 각 윈도우마다 80% 동일성%를 나타낸다. 고도 상동성 근원에도 불구하고 저 상동성 크로스오버가 나타날 수 있도록, 정렬의 스트린젠시( 및 후속적으로 나타나는 근원간의 크로스오버)를 각 쌍마다 개별적으로 조정할 수 있다는 점을 주의하라. 따라서, 이 모델에는 구조적 또는 활성 부위적 편견도 반영되지 않는다.Pairs 6 and 7 indicate 95% identity for each window of ≧ 7 aa, while all other pairs show 80% identity for each window of ≧ 7 aa. Note that the alignment of the alignment (and the crossover between subsequent appearing sources) can be adjusted individually for each pair so that low homology crossovers may appear despite the highly homologous source. Thus, this model also does not reflect structural or active site bias.

일예로서, 각각 아미노산이 약 400개이고, 1200bp(리더 서열 포함)이거나 성숙 단백질에 대한 아미노산이 약 275개이고 825bp인 근원을 7개로 가정하고 서브틸리신 패밀리 모델에 대한 GAGGS를 연산해 보면 유전자 합성에 의해 생성될 총 서열은 7 x 825 x 2 + 약 500 = 12 kb이다. 완전 중첩 조립(20 + 20bp 중첩)를 가진 40량체의 경우에는 약 300개의 올리고가 사용된다.As an example, assuming that there are about 400 amino acids each, 1200 bp (including the leader sequence), or 7 sources of about 275 amino acids and 825 bp for mature proteins, GAGGS for the subtilisin family model is calculated by gene synthesis. The total sequence to be produced is 7 x 825 x 2 + about 500 = 12 kb. In the case of 40-mers with full overlap assembly (20 + 20 bp overlap) about 300 oligos are used.

정렬 결과에 기초하여 각각의 상동성 아열 당 1 크로스오버를 보유한 키메라를 작제하기 위한 쌍 크로스오버 올리고는 암호 영역에 170개와 리더 영역에 10개의 아열으로 구성된 약 180개의 상동성 아열을 보유한다. 각 크로스오버 점마다 2개의 60량체와 각 근원 상마다 2개의 두미부 세트를 보유한 경우에는, 크로스오버를 작제하는데 관여하는 약 360개의 부가 올리고가 사용될 수 있다. 올리고의 총 수는 약 660개이다(40량체 300개와 60량체 360개). 염기 당 0.70$로 연산하면 올리고의 총 비용은 약 $23,520이 된다. 시약비는 염기당 약 $0.07으로 연산하면 총 비용은 약 $2,252이다.Based on the alignment results, the paired crossover oligos for constructing chimeras with one crossover per each homology subcolumn have about 180 homology subcolumns consisting of 170 in the crypto area and 10 sub-rows in the leader area. In the case of having two 60-mers for each crossover point and two sets of heads for each source phase, about 360 additional oligos involved in constructing the crossover can be used. The total number of oligos is about 660 (300 40-mers and 360 60-mers). Operating at $ 0.70 per base, the total cost of the oligo is about $ 23,520. The reagent cost is approximately $ 0.07 per base, with a total cost of approximately $ 2,252.

실시예 7 : 나프탈렌 디옥시게나제Example 7 Naphthalene Deoxygenase

나프탈렌 디옥시게나제는 비헴 환원성 디옥시게나제이다. 나프탈렌 디옥시게나제에는 밀접한 관련이 있으나 촉매성이 독특한 3가지 이상의 종류가 있다. 도 12는 3가지 종류의 나프탈렌 디옥시게나제에 대한 유사성% 플롯의 모식도로서, ISP 라지 서브유닛(기질 특이성에 관여하는 서브유닛)의 아미노산 서열을 제공하고 있다.Naphthalene deoxygenase is a non-hemene reducing deoxygenase. There are three or more types of naphthalene deoxygenase that are closely related but unique in their catalytic properties. FIG. 12 is a schematic of the% similarity plot for three types of naphthalene deoxygenase, providing amino acid sequences of ISP large subunits (subunits involved in substrate specificity).

아미노산 크기가 약 1,400개인 경우에, 20+20 중첩 유전자 합성을 위한 40량체 올리고는 3x1,400 총 염기쌍=260개가 사용된다. 서열 정렬 플롯을 통해 재조합에 사용된 60량체 고 스트린젠시 올리고가 14+19+23=112개인 것으로 확인되었다. 올리고 비용은 염기당 $0.70로서, 올리고를 제조하기 위한 합성기의 시간을 약 9시간으로 하여 합성에 사용되는 비용은 약 $12,000이었다. 추정되는 라이브러리 크기는 약 9.4 x 109라이브러리이다.In the case of about 1,400 amino acids in size, 3x1,400 total base pairs = 260 of 40-mer oligos for 20 + 20 overlapping gene synthesis are used. Sequence alignment plots confirmed 14 + 19 + 23 = 112 60-mer high stringency oligos used for recombination. The oligo cost was $ 0.70 per base and the cost used for the synthesis was about $ 12,000 with a synthesizer time of about 9 hours to prepare the oligo. The estimated library size is about 9.4 × 10 9 libraries.

실시예 8 : 1종 근원 GAGGS 연산Example 8 Type 1 GAGGS Computation

전술한 바와 같이, 본 발명의 일 양태는 1종 근원 GAGGS를 제공하는 것이다. 이 방법을 통해 바람직한 특성의 폴리뉴클레오타이드가 제공된다. 이 방법은 다음과 같은 단계들을 통해 실시된다. (a) 폴리뉴클레오타이드 또는 폴리펩타이드를 암호하는 근원 서열 특성의 문자열을 제공하는 단계, (b) 전체 근원 특성의 문자열의 중첩 서열 단편과 이 근원 특성의 문자열에 상보적인 전체 폴리뉴클레오타이드 가닥(근원 서열은 조립 PCR에 적합한 올리고로 절단함)을 포함하는 1본쇄 올리고뉴클레오타이드 서열을 암호하는 소정 길이의 문자열 세트를 제공하는 단계, (c) 가능한 모든 단일 점 돌연변이를 보유하는, 예컨대 변형체 문자열당 1개의 돌연변이(가능한 모든 단일 점 돌연변이를 가짐)를 보유하는 변형체를 포함하는 근원 서열의 유도체 세트를 작제하는 단계, (d) 근원 올리고뉴클레오타이드 서열의 양 가닥을 암호하는 소정 길이의 중첩 문자열 세트 및 돌연변이를 포함하는 서열 영역을 암호하는 소정 길이의 중첩 문자열 세트(동일한 조립 PCR에 적합한 단일 점 돌연변이를 포함하는 올리고)를 제공하는 단계, (e) 단계 (c)에 따라 1본쇄 올리고뉴클레오타이드 세트를 합성하는 단계(예컨대, 유전자 조립 동안 단일 점 돌연변이를 병입시키는 과정 등을 통해 근원 서열 또는 이의 변형체를 작제 또는 재작제하는 단계), (f) 1본쇄 올리고뉴클레오타이드로부터 조립 PCR에 필요한 변이된 유전자의 라이브러리를 조립하는 단계(용기 마다 수집물, 부분 수집물 또는 하나씩 제공).As mentioned above, one aspect of the present invention is to provide one source GAGGS. This method provides a polynucleotide of desirable properties. This method is carried out through the following steps. (a) providing a string of origin sequence properties encoding a polynucleotide or polypeptide, (b) an overlapping sequence fragment of the string of full origin properties and a full polynucleotide strand complementary to the string of this origin property (the source sequence is Providing a set of strings of a predetermined length encoding single-stranded oligonucleotide sequences comprising oligonucleotides suitable for assembly PCR), (c) one mutation per strain string containing all possible single point mutations (e.g., Constructing a set of derivatives of the original sequence comprising a variant having all possible single point mutations, (d) a sequence of lengths of overlapping strings encoding the both strands of the source oligonucleotide sequence and the sequence comprising the mutations Set of nested strings of predetermined length to encode regions (same assembly PCR Providing an oligo comprising a suitable single point mutation), (e) synthesizing a single-stranded oligonucleotide set according to step (c) (e.g., incorporating a single point mutation during gene assembly, etc.) Or constructing or reconstructing a variant thereof), (f) assembling a library of mutated genes required for assembly PCR from single-stranded oligonucleotides (provide one collection, partial collection, or one per container).

용기 당 1 유전자 방법(또는 물리적으로 분리되어 있는 라이브러리 성분, 예컨대 어레이 중에 포함하는 기타 다른 방법)에서는, 야생형 올리고가 돌연변이들로부터 제외되고, (g) 목적하는 성질로 진화된 재조합 폴리뉴클레오타이드를 선택하거나 스크리닝하는 단계를 포함한다. 선택적으로, 추가 단계 (h)에서는 유용한 돌연변이를 측정하기 위하여 목적으로 하는 성질로 진화된 돌연변이 폴리뉴클레오타이드의 풀림 서열을 만드는 단계(즉, 라이브러리 구성원이 목적 서열을 보유하고 있는지, 그리고 그 서열이 어떤 서열인지를 측정하는 단계)를 포함한다(이 공정은 조립 PCR이 1용기당 1 형식인 경우에 실제 서열분석 보다 위치 서열 풀림으로 실시하며, 즉 성분의 물리적 위치가 서열의 기능를 제공하는데 적당한지를 통해 실시된다). 추가의 선택적 단계 (i)로서, 가능한 모든 또는 일부 유용한 돌연변이들을 가능한 일부 또는 모든 조합으로 결합시킨 재조합 변이체의 라이브러리를 1본쇄 올리고로부터 조립 PCR에 의해 조립하는 단계를 포함한다. 이것은 동일한 올리고 세트를 사용하여 실시되는데, 돌연변이 중 일부가 위치적으로 가까운 경우(어느 한 올리고내에서)에는, 돌연변이 조합을 포함시킨 추가 1본쇄 올리고를 제조한다. 선택적 단계 (j)로서, 목적으로 한 성질로 더 진화된 재조합 폴리뉴클레오타이드를 선택하거나 스크리닝하는 단계를 포함하기도 한다.In one genetic method per container (or other physically isolated library components such as other methods included in an array), wild type oligos are excluded from mutations, and (g) select recombinant polynucleotides that have evolved to the desired properties or Screening. Optionally, in further step (h), an unwinding sequence of the mutant polynucleotides evolved with the desired properties in order to determine useful mutations (i.e., where the library member has the desired sequence and which sequence is the sequence) (A step of determining cognition), which is carried out by position sequencing rather than actual sequencing if the assembly PCR is 1 form per container, ie whether the physical position of the component is appropriate to provide the function of the sequence. do). A further optional step (i) comprises the step of assembling a library of recombinant variants from single-stranded oligos by assembly PCR, combining all possible or some useful mutations in some or all possible combinations. This is done using the same oligo set, where if some of the mutations are positionally close (in either oligo), an additional single-stranded oligo containing a combination of mutations is prepared. Optional step (j) may also include selecting or screening recombinant polynucleotides further evolved to the desired properties.

일 예로서, 서열 1kb 당 단일 근원 GAGGS 연산은 다음과 같다.As an example, the single source GAGGS operation per kb of sequence is as follows.

게놈 길이 : 1000 bp.Genome length: 1000 bp.

1차 돌연변이율 : 1아미노산/유전자Primary mutation rate: 1 amino acid / gene

야생형 유전자 작제에 사용되는 올리고뉴클레오타이드 수 : 52(40량체, 20+20 중첩 합성 도식).Number of oligonucleotides used in wild-type gene construction: 52 (40-mer, 20 + 20 overlapping synthetic scheme).

비말단성의 가능한 모든 단일 점 돌연변이(가능한 총 수 333)를 제공하는 올리고뉴클레오타이드의 수 : 비축퇴성 올리고 : 13320. 부분 축퇴성 40량체, 올리고 당 1 pg 위치 : 1920. 완전 축퇴성 올리고, 40량체, 올리고 당 1 fg 위치 : 666.Number of oligonucleotides giving all non-terminal possible single point mutations (total possible number 333): non-degenerate oligos: 13320. Partially degenerate 40-mer, 1 pg per oligo position: 1920. Fully degenerate oligo-, 40-mer, 1 fg per oligo: 666.

또한, 오류 경향성 PCR 조립은 실시하지만, 후속 단계 이전에 서열분석하여 서열 풀림은 실시하지 않는다.In addition, error prone PCR assembly is performed, but no sequencing is performed prior to subsequent steps.

유용한 돌연변이를 가진 가능한 모든 재조합체를 작제하는데 사용되는 추가 올리고의 수는 이전 올리고수의 약 10% 정도이다. 하지만, 유용한 돌연변이를 보유한 가능한 모든 재조합체의 약 95%가 상기 제조된 1차 세트에서 만들어질 수 있다.The number of additional oligos used to construct all possible recombinants with useful mutations is about 10% of the previous oligos. However, about 95% of all possible recombinants with useful mutations can be made in the primary set prepared above.

실시예 9 : 키메라성 폴리뉴클레오타이드를 합성하기 위하여 크로스오버 올리고뉴클레오타이드를 디자인하는 방법Example 9 Design of Crossover Oligonucleotides to Synthesize Chimeric Polynucleotides

첫째, 크로스오버 작동자를 키메라 접합부에 적용하기 위하여 근원 문자열 중에서 아열을 동정하고 선발한다. 이 단계는 a) 모든 근원 문자열 간의 전체 또는 일부 쌍 상동성 영역을 동정하는 단계, b) 선택된 각 쌍 상동성 영역에 존재하는 1 이상의 크로스오버 점을 인덱스화하기 위하여 동정된 전체 또는 일부 쌍 상동성 영역을 선택하는 단계, c) 1 이상의 쌍 비상동성 영역을 선택하여 각각의 선택된 상 비상동성 영역내에 존재하는 1 이상의 크로스오버 점을 인덱스화하여("c"는 제외될 수 있는 선택적 단계이며, 구조 활성계 엘리티즘이 적용될 수 있는 단계이기도 하다), 크로스오버 점을 추가 선택하기에 적합한 근원 문자열의 위치 및 근원 인덱스화된 영역/구역(아열) 세트를 제공하는 단계에 의해 실시된다.First, we identify and select a substring from the source string to apply the crossover operator to the chimeric junction. This step includes the steps of a) identifying all or part pair homology regions between all source strings, b) all or part pair homology identified to index one or more crossover points present in each selected pair homology region. Selecting an area, c) selecting one or more paired nonhomologous areas to index one or more crossover points present within each selected phase nonhomologous area (“c” is an optional step that can be excluded, It is also a step in which active system elitism can be applied), providing a location of the source string suitable for further selection of the crossover point and providing a set of source indexed regions / regions (sub-rows).

둘째, 상기 단계 1에서 선택된 아열 세트 중 각 아열내에 존재하는 크로스오버 점을 더 선택한다. 이 단계는 a) 선택된 각 아열 중에서 1 이상의 크로스오버 점을 랜덤하게 선택하는 단계 및/또는 b) 선택된 각 아열 내에 존재하는 크로스오버 점 선택의 확률을 측정하기 위한 1 이상의 어닐링 모의 실험을 기초로 한 모델을 사용하여, 선택된 각 아열내에 존재하는 1 이상의 크로스오버 점을 선택하는 단계 및/또는 c) 선택된 각 아열의 거의 중간에서 하나의 크로스오버 점을 선택하여 쌍 크로스오버 점의 세트를 작제하고, 여기서 각 점이 키메라 접합부의 형성에 바람직한 각 근원 문자열 중의 대응 문자 위치에 인덱스되는 단계를 포함한다.Second, the crossover point existing in each sub-row among the sub-row sets selected in step 1 is further selected. This step may be based on: a) randomly selecting one or more crossover points from each selected subcolumn, and / or b) one or more annealing simulations to measure the probability of crossover point selection within each selected subcolumn. Using the model, selecting one or more crossover points existing within each selected subcolumn, and / or c) constructing a set of paired crossover points by selecting one crossover point approximately in the middle of each selected subcolumn, Wherein each point is indexed at a corresponding character position in each source string desired for formation of the chimeric junction.

셋째, 선택적으로 코돈 사용의 조정을 실시한다. 상동성을 측정하는데 사용되는 방법(DNA 또는 AA을 코드화하는 열)에 따라 공정은 달라질 수 있다. 예를 들어, DNA 서열이 사용되었다면, a) 선택된 발현계를 위하여 모든 근원 문자열에 대하여 코돈을 조정을 실시한다. 그 다음, b) 근원 간의 코돈을 조정하여 모든 대응 위치에 존재하는 모든 소정의 aa에 대한 코돈 용법을 표준화한다. 이 공정은 유전자 라이브러리 합성이 필요한 특정 올리고의 총 수를 유의적으로 감소시킬 수 있어, AA 상동성이 DNA 상동성 보다 높은 경우 또는 고도 상동성 유전자(예컨대, 80%+ 동일성) 패밀리인 경우 특히 유리할 수 있다.Third, optionally adjust codon usage. The process may vary depending on the method used to measure homology (heat encoding DNA or AA). For example, if a DNA sequence was used: a) Codon adjustments for all source strings for the selected expression system. B) Adjust codons between sources to normalize codon usage for all given aa present at all corresponding positions. This process can significantly reduce the total number of specific oligos that require gene library synthesis, which would be particularly advantageous when AA homology is higher than DNA homology or in highly homologous genes (eg, 80% + identity) family. Can be.

이 단계는 본질적으로 엘리티즘 돌연변이 작동자의 발현의 마찬가지로 주의를 기울여 실시되어야 한다. 즉, 바람직하지 않은 결과를 나타낼 수 있는 올리고의 수 및 최종 비용의 삭감 대 이 바이어스의 도입의 잇점을 고려해야 한다. 가장 바람직하게는, 대다수의 근원 중에서 소정의 위치에 존재하는 AA을 코드화하는 코돈을 사용하는 것이 좋다.This step should essentially be carried out with similar attention to the expression of the elliptically mutant effector. That is, the benefits of introducing this bias versus the reduction in the number and final cost of oligomers that may produce undesirable results should be considered. Most preferably, it is preferable to use codons that encode AA present at a given position among the majority of sources.

AA 서열을 사용하는 경우에는, a) 서열을 축퇴성 DNA로 역번역하고, b) (대다수의 근원 또는 대응 근원의) 원 DNA에 있는 코돈 용법을 위치마다 참조하여 축퇴성 뉴클레오타이드를 한정하고(또는) 물리적 분석이 수행될 수 있는 선택된 발현계에 적합한 코돈 조정을 실시한다.If an AA sequence is used, a) reverse translation of the sequence into degenerate DNA, b) confine the degenerate nucleotides by reference to the codon usage in the original DNA (of the majority or corresponding source) from position to position (or Codon adjustments are made to the selected expression system in which physical analysis can be performed.

또한, 이 단계는 필요한 경우 후속으로 라이브러리 목록을 동정/QA/풀림/조작하기 위하여 유전자의 암호 영역내에 임의의 제한 부위를 도입시키는데 사용할 수 있다. 상기 단계 2에서 동정된 모든 크로스오버 점(근원의 쌍으로 인덱스화됨)은 조정된 DNA 서열에도 대응하여 인덱스화된다.In addition, this step can be used to introduce any restriction site into the coding region of the gene to subsequently identify / QA / unlock / manipulate the library list if necessary. All crossover points (indexed with pairs of sources) identified in step 2 above are indexed correspondingly to the adjusted DNA sequences.

넷째, 유전자 조립 도식을 위하여 올리고 배열을 선택한다. 이 단계는 여러 결정 단계를 포함한다.Fourth, the oligo sequence is selected for the gene assembly schematic. This step includes several decision steps.

일반적으로 균일한 40 내지 60량체 올리고를 사용한다(보다 긴 올리고를 사용하는 경우에는 근원을 작제하는데 사용되는 올리고의 수를 감소시키고, 밀접 위치된 크로스오버/돌연변이의 표본을 제공하기 위한 부가 올리고를 사용한다.Generally, homogeneous 40-60-mer oligos are used (if longer oligos are used, additional oligos are used to reduce the number of oligos used to construct the source and to provide a sample of closely located crossovers / mutants. use.

단쇄/장쇄 올리고가 허용되는 지의 여부를 선택한다(즉, 예/아니오 결정). "예"로 결정되면 갭(결실/삽입), 특히 1 내지 2 aa의 갭이 있는 여러 길이의 고 상동성 유전자에 대한 올리고의 총수를 줄인다.Choose whether short / long chain oligos are allowed (ie yes / no crystals). A determination of “yes” reduces the total number of oligos for high homologous genes of various lengths with gaps (deletions / insertions), especially gaps of 1 to 2 aa.

중첩 길이(일반적으로 대칭 또는 비대칭일 수 있는 15 내지 20 염기)를 선택한다.The overlap length (usually 15 to 20 bases, which can be symmetrical or asymmetrical) is chosen.

축퇴성 올리고가 허용되는지를 선택한다(예/아니오). 이것은 또다른 비용 절감의 강력한 특징이며 추가 서열 다양성을 얻을 수 있는 강력한 수단이다. 부분 축퇴성 도식 및 최소 축퇴성 도식이 특히 돌연변이원성 라이브러리를 작제하는데 유리하다.Select whether degenerate oligos are allowed (Yes / No). This is another powerful feature of cost savings and a powerful means of gaining additional sequence diversity. Partial degenerate schemes and minimal degenerate schemes are particularly advantageous for constructing mutagenic libraries.

이러한 조작을 위하여 소프트웨어 툴을 사용한다면, 최대 라이브러리 복잡성과 최소 비용을 선택할 수 있도록 여러 파라미터파라미터킨다. 다양한 길이의 올리고를 사용하여 복합 조립 도식을 실시하게 되면 인덱스화 공정 및 후속으로 위치 코드화된 평행 또는 부분 풀링 형식에서의 라이브러리의 조립을 상당히 복잡하게 만든다. 이것이 고도의 소프트웨어 없이 실시되는 경우에는 간단하고 균일한 도식(예컨대 20 염기 중첩을 보유한 총 올리고 40 염기 길이)을 사용할 수 있다.If you use software tools for this manipulation, you can use several parameter parameters to select the maximum library complexity and minimum cost. Complex assembly schemes using oligos of varying lengths significantly complicate the assembly of the library in the indexing process and subsequently in the location-coded parallel or partial pooling format. If this is done without high software, a simple and uniform scheme (eg total oligo 40 base length with 20 base overlap) can be used.

다섯째, 근원 문자열의 전후에 "컨비니언스 서열"을 디자인한다. 마지막에 모든 라이브러리 목록 중에 작제되는 것이 동일한 세트라면 이상적인 일이다. 이러한 서열로는 임의의 제한 부위, 조립 생성물 동정을 위한 프라이머 서열, RBS, 리더 펩타이드 및 기타 다른 특별하거나 바람직한 특징이 있다. 본래, 컨비니언스 서열은 이후 단계에서 얻어질 수 있고, 이 단계에서는 쉽게 구분할 수 있는 금제 문자의 아열과 같은 적당한 길이의 "모조" 세트를 사용할 수 있다.Fifth, design a "convenience sequence" before and after the source string. It would be ideal if the last set of all the library listings was the same set. Such sequences include any restriction sites, primer sequences for assembly product identification, RBS, leader peptides and other special or desirable features. Originally, the convenience sequence can be obtained at a later stage, at which stage a set of "imitation" of appropriate length, such as substrings of easily distinguished forbidden letters can be used.

여섯째, 선택된 도식에 따라 모든 근원을 작제하기 위한 올리고 문자열의 인덱스화된 매트릭스를 작제한다. 모든 올리고의 인덱스로는 근원 동정자(근원 ID), 암호 또는 상보적 사슬의 표시 및 위치 번호가 있다. 크로스오버 점은 두미부 콘비니언스 아열을 사용하여 모든 근원의 인덱스화된 암호열에서 결정한다. 모든 문자열의 상보적 사슬을 작제한다. 모든 암호 문자열아열 단계 4에서 선택된 조립 PCR 도식에 따라 선택한다(예컨대, 40 bp의 증가). 모든 보체열은 동일한 도식에 따라 분할한다(예컨대 20 bp 이동이 있는 40 bp).Sixth, an indexed matrix of oligo strings is constructed to construct all sources according to the chosen scheme. Indices of all oligos include the source identifier (source ID), an indication of the code or complementary chain, and the location number. The crossover point is determined from the indexed cipher strings of all sources using the DumiBu Convenience Substring. Construct a complementary chain of all strings. All cipher strings are selected according to the assembly PCR scheme selected in step 4 (eg, an increase of 40 bp). All complements are split according to the same scheme (eg 40 bp with 20 bp shift).

일곱째, 모든 상 크로스오버 조작을 위하여 올리고의 인덱스화된 매트릭스를 작제한다. 먼저, 쌍 크로스오버 마커를 보유한 모든 올리고를 결정한다. 그 다음, 근원 크로스오버 마커(크로스오버 점 당 4개)의 동일한 위치와 동일한 쌍을 보유하는 모든 올리고의 총 세트를 결정한다. 다음, 동일한 크로스오버 마커로 표지된 4개의 올리고열의 모든 세트를 취하고, 2개의 암호 사슬과 2개의 보체 사슬을 암호하는 문자를 포함하는 4개의 키메라 올리고열의 다른 유도체 세트(예컨대, 40=20+20 도식에서 20bp 이동을 보유함)를 제조한다. 한쪽 근원의 전방 말단 서열의 아열과 그 다음 크로스오버 점 이후에 제2 근원의 후방 말단을 보유하는 2개의 암호열의 가능하다. 또한, 같은 방식으로 보체 열을 디자인하여, PCR에 의한 유전자 라이브러리 조립에 적합한 올리고를 암호하는 문자열의 인덱스화된 완전 목록을 얻는다.Seventh, construct an indexed matrix of oligos for all phase crossover manipulations. First, all oligos with paired crossover markers are determined. Next, determine the total set of all oligos that have the same location and the same pair of source crossover markers (four per crossover point). Next, take all sets of four oligonucleotides labeled with the same crossover marker, and set another derivative of four chimeric oligonucleotides containing letters encoding two code chains and two complement chains (e.g. 40 = 20 + 20 With a 20 bp shift in the scheme). It is possible for two code strings to retain the rear end of the second source after the subrow of the forward end sequence of one source and the next crossover point. In addition, the complement sequence is designed in the same manner to obtain an indexed complete list of strings encoding oligos suitable for assembly of the gene library by PCR.

이 목록은 경우에 따라 모든 과잉의 올리고를 검출하고, 이를 계수한 뒤 목록에서 제거하여 개량하는 동시에, 각 올리고 열의 인덱스 중의 "풍부=양" 범위에 계수값을 대입시킨다. 이것은 라이브러리 합성을 위한 올리고의 총 수를 감소시킬 수 있는 매우 유용한 단계로서, 특히 근원 서열이 고도 상동성인 경우 바람직하다.This list optionally detects all excess oligos, counts them, removes them from the list, and improves them, while assigning count values to the "rich = amount" range in the index of each oligo row. This is a very useful step that can reduce the total number of oligos for library synthesis, particularly when the source sequence is highly homologous.

실시예 10 : 합성용 올리고뉴클레오타이드를 디자인하기 위한 프로그램 알로리즘Example 10 Program Algorithms for Designing Synthetic Oligonucleotides

다음은 합성/재조합 프로토콜에 사용되는 올리고뉴클레오타이드의 디자인에 유용한 프로그램 개요이다.The following is a program overview useful for the design of oligonucleotides used in the synthesis / recombination protocol.

단백질 및 코돈 바이어스 표의 정렬이 제공되는 경우:If an alignment of the protein and codon bias tables is provided:

정렬된 단백질 중의 각 위치마다,For each position in the aligned protein,

코돈 바이어스 표를 사용하여 각 위치에 있는 아미노산을 암호하는 최소 축퇴성 코돈 세트를 탐색한다.The codon bias table is used to search for a minimal set of degenerate codons that encode amino acids at each position.

정렬된 각 서열에 대하여,For each sequence aligned,

이 서열 중의 각 위치에 있는 아미노산을 암호하는 3문자 코돈(DNA)을 서열의 DNA 형태에 첨가한다.A three letter codon (DNA) encoding the amino acid at each position in this sequence is added to the DNA form of the sequence.

!갭은 특정 코돈∼∼∼으로 표시한다.The gap is represented by a specific codon.

전술한 바와 같이 작제된 DNA의 각 서열의 경우,For each sequence of DNA constructed as described above,

!이 단계에서는 갭을 무시한다.At this stage, ignore the gap.

각 윈도우=대략적 올리고 크기Each window = approximate raised size

말단 축퇴성을 점검한다.Check for terminal degeneracy.

말단 축퇴성을 최소화하면서 길이 한계를 유지하기 위하여 윈도우 길이를 증가 및 감소시킨다.The window length is increased and decreased to maintain the length limit while minimizing terminal degeneracy.

윈도우 한계가 제공된 올리고 및 모든 서열을 첨가한다.Add oligos and all sequences provided with window limits.

역윈도우 한계가 제공된 올리고 및 모든 서열을 첨가한다.Add oligos and all sequences provided with reverse window limits.

dnaseps 중의 각 위치마다,for each position in dnaseps,

각 서열에 대하여,For each sequence,

갭의 5'쪽에 있는 현 서열로부터 최소량의 서열과 갭의 3'쪽에 있는 현 서열로부터 최소량의 서열을 포함하는 한계가 제공된 올리고를 첨가한다.Add oligos provided a limit comprising a minimum amount of sequence from the current sequence on the 5 'side of the gap and a minimum amount of sequence from the current sequence on the 3' side of the gap.

역한계를 위한 올리고를 반복 첨가한다.Add oligo for reverse limit repeatedly.

올리고를 첨가한다 : 서열(DNA) 및 한계의 목록이 제공된 경우Add oligos: if a list of sequences (DNA) and limits is provided

한계 중의 각 위치마다,For each position within the limit,

목록 중의 DNA 서열로부터 이 위치에 있는 모든 고유 염기를 얻는다.All unique bases in this position are obtained from the DNA sequences in the list.

이 위치의 염기(또는 축퇴성 염기 기호)를 제조한다.The base (or degenerate base symbol) at this position is prepared.

총 축퇴성 위치가 사용자가 정의한 수보다 큰 경우,If the total degenerate position is greater than the number you define,

서열 목록을 둘로 나누고, 올리고 제공된 서열 목록 1을 첨가하고 올리고 제공된 서열 목록 2(반복적)를 첨가한다.Divide the sequence listing in two, add the oligo provided sequence listing 1 and add the oligo provided sequence listing 2 (repetitive).

그 외에 상기 올리고(각 위치의 염기 세트)를 올리고 목록 중에 있는 모든 올리고 목록 디스플레이에 첨가한다.In addition, the oligo (base set at each position) is raised and added to all oligo list displays in the list.

실시예 11 : 크로스오버 점 선택Example 11 Crossover Point Selection

도 8 내지 11은 근원 핵산 간의 재조합을 위하여 올리고뉴클레오타이드를 선택하는 각종 공정 및 공정 기준의 모식도이다. 도 8의 패널 A는 두 근원의 일반적인 점 플롯 정렬 및 유사성 영역을 만드는 크로스오버 확률의 증가를 도시한 것이다. 패널 B는 크로스오버가 간단한 논리적/물리적 필터에 근거하여, 즉 올리고뉴클레오타이드의 물리적 또는 실제 어닐링 온도, 예컨대 선형 어닐링 온도를 사용하여 선택될 수 있다는 것을 도시한 것이다. 패널 C는 어닐링 온도의 변화를 통해, 즉 물리적 또는 실제상의 어닐링 온도를 적당하게 조절하여 특정 크로스오버를 달성하는 각종의 보다 복잡한 필터를 도시한 것이다.8-11 are schematic diagrams of various processes and process criteria for selecting oligonucleotides for recombination between source nucleic acids. Panel A of FIG. 8 shows an increase in the crossover probability of creating a common point plot alignment and similarity regions of the two sources. Panel B shows that the crossover can be selected based on a simple logical / physical filter, ie using the physical or actual annealing temperature of the oligonucleotide, such as a linear annealing temperature. Panel C shows a variety of more complex filters through varying annealing temperatures, ie, by appropriately adjusting the annealing temperature physically or practically to achieve a specific crossover.

도 9는 정렬된 각 근원 서열 중으로 인덱스화된 크로스오버 점을 도입시키는 과정에 대하여 모식적으로 도시한 것이다. 간략히 설명하면, 서열을 정렬하고, 각 크로스오버 점의 위치 인덱스(마커 범위)를 수직 확인자 마커로 모식적으로 도시하였다. 도 8에 도시한 바와 같이 근원 m 및 n에 대한 크로스오버점은 식별자, 근원 m(두부)의 위치 번호 및 근원 n(미부)의 위치 번호로 표시하였다. 이 공정은 올리고뉴클레오타이드 그리딩 작동자(PCR 조립 조작시 모든 올리고뉴클레오타이드의 개시 및 말단을 나타내는 위치 인덱스의 그리드)를 적용하여 데이터 세트 중의 모든 근원에 대해 반복하였다. 도 10은 근원 모두를 조립하기 위한 올리고뉴클레오타이드 서열의 완전한 목록을 모식적으로 도시한 것이다. 이 데이터 세트는 정합성의 쌍 크로스오버 인덱스를 가지고 올리고뉴클레오타이드 서열의 모든 쌍을 확인하여 간결화시키므로써 크로스오버 마커를 보유한 올리고의 준목록을 제공한다. 도 11은 선택된 각 크로스오버점에 대한 키메라 올리고뉴클레오타이드의 서열 목록을 얻기 위한 모식도를 제공한 것이다. 간략히 설명하면, 정합성 쌍 크로스오버 인덱스를 보유한 올리고 서열의 2쌍을 선택한다(화살표 1 아래). 키메라 올리고뉴클레오타이드의 서열을 쌍 크로스오버점(두미부, 미두부, s 또는 a쇄) 주위에 만든다. "40=20+20" 조립 도식(40량체가 각 근원 유래의 20 잔기를 보유하는 경우)에서는 각 키메라화(각 올리고 내 상대적 위치에 관계없이 각 크로스오버 점마다 2개)를 위하여 60 bp 보다 긴 단 하나의 올리고를 사용한다. 이러한 실험적 발견은 표시된 S 또는 A쇄(예컨대, 도 8에서와 같음)에서 절단 및 결합 조작의 변화를 통해 설명될 수 있는 것으로, 이 규칙은 안내표로 요약하였다. 키메라 올리고에서, A 또는 S쇄 및 서열 두부 및 미부 준단편은 안내표의 소정의 규칙의 서브세트를 사용하여 표시하였다. 안내표로부터 얻어지는 선택 또는 규칙은 올리고내 크로스오버 점의 상대적 위치의 비교를 기초로 하여 자동화할 수 있다(불 논리 연산)(화살표 3 아래). 이 공정은 동일한 크로스오버 인덱스를 보유한 올리고의 모든 세트마다 반복하여, 선택된 각 크로스오버 점에 대한 키메라 올리고 서열의 목록을 얻을 수 있다.9 schematically illustrates the process of introducing an indexed crossover point into each aligned original sequence. Briefly, the sequences were aligned and the position index (marker range) of each crossover point was schematically illustrated with a vertical identifier marker. As shown in Fig. 8, the crossover points for the root m and the n are indicated by the identifier, the position number of the root m (the head), and the position number of the root n (the tail). This process was repeated for all sources in the data set by applying an oligonucleotide gridding operator (grid of position indices representing the beginning and end of all oligonucleotides in the PCR assembly operation). FIG. 10 schematically shows a complete list of oligonucleotide sequences for assembling all sources. This data set provides a semi-list of oligos with crossover markers by identifying and simplifying all pairs of oligonucleotide sequences with a pairwise matching crossover index. FIG. 11 provides a schematic for obtaining a sequence listing of chimeric oligonucleotides for each selected crossover point. Briefly, two pairs of oligo sequences with matching pair crossover indices are selected (under arrow 1). The sequence of chimeric oligonucleotides is made around a pair crossover point (head, head, s or a chain). In the "40 = 20 + 20" assembly scheme (when the 40-mer has 20 residues from each source), more than 60 bp for each chimerization (two for each crossover point regardless of the relative position within each oligo) Use only one oligo long. Such experimental findings can be explained through changes in cleavage and binding manipulations in the indicated S or A chains (eg, as in FIG. 8), which rules are summarized in the guide. In chimeric oligos, the A or S chains and the sequence head and tail subfragments were indicated using a subset of the predetermined rules of the guidance table. The selection or rule obtained from the guide can be automated based on a comparison of the relative positions of the crossover points in the oligo (non-logical operation) (under arrow 3). This process can be repeated for every set of oligos having the same crossover index to obtain a list of chimeric oligo sequences for each selected crossover point.

지금까지 전술한 방법 및 재료는 청구되는 본 발명의 취지 또는 범위를 벗어남이 없이 변형될 수 있다. 또한, 본 발명은 다음과 같은 다양한 용도에 사용될 수 있다.The methods and materials described so far may be modified without departing from the spirit or scope of the invention as claimed. In addition, the present invention can be used for a variety of uses, such as:

반복 공정을 비롯한 셔플링된 핵산을 시험하고(또는) 셔플링된 핵산을 생성하기 위한 집적 시스템에 대한 용도.Use for an integrated system for testing shuffled nucleic acids and / or generating shuffled nucleic acids, including repeating processes.

전술한 선택 전략, 재료, 성분, 방법 또는 기질 중 어느 1가지를 사용하는 분석법, 키트 또는 시스템. 키트는 경우에 따라 방법 또는 분석법을 실시하는 지침서, 패키징 재료, 분석법, 장치 또는 시스템 성분 등을 포함하는 1 이상의 용기를 더 포함할 수 있다.An assay, kit, or system using any one of the aforementioned selection strategies, materials, ingredients, methods, or substrates. The kit may optionally further comprise one or more containers containing instructions, packaging materials, assays, devices or system components, etc. for carrying out the method or assay.

다른 양태로, 본 발명은 본 명세서에 설명된 방법 및 장치를 구체화한 키트를 제공한다. 본 발명의 키트는 경우에 따라 (1) 본 명세서에 설명된 바와 같은 셔플링된 성분, (2) 본 명세서에 기재된 바와 같은 방법의 실시 및/또는 본 명세서에 기재된 선택 절차의 조작에 대한 지침서, (3) 1 이상의 분석 성분, (4) 핵산 또는 효소, 기타 핵산, 돌연변이 식물, 동물, 세포 등을 보유하는 용기, (5) 팩키징 재료, 및 (6) GAGGS와 관련하여 본 명세서에 기재된 결정 단계 중 임의의 단계를 수행하는 소프트웨어 중 1 이상을 포함한다.In another aspect, the present invention provides a kit incorporating the methods and apparatus described herein. The kits of the invention optionally include (1) shuffled components as described herein, (2) instructions for carrying out the methods as described herein and / or for the manipulation of the selection procedures described herein, (3) a container containing one or more analytical components, (4) nucleic acids or enzymes, other nucleic acids, mutant plants, animals, cells, and the like, (5) packaging materials, and (6) determination steps described herein with respect to GAGGS At least one of the software to perform any of the steps.

또 다른 양태로, 본 발명은 본 명세서에 기재된 모든 성분 또는 키트의 용도, 본 명세서에 기재된 모든 방법 또는 분석법의 실시 및/또는 본 명세서에 기재된 모든 분석법 또는 방법을 실시하는 모든 장치 또는 키트의 용도를 제공한다.In another aspect, the invention relates to the use of any component or kit described herein, to the implementation of any method or assay described herein and / or to the use of any device or kit implementing any assay or method described herein. to provide.

전술한 실시예는 예시적인 것으로 제한하는 것이 아니다. 당업자라면 실질상 유사 결과를 얻기 위하여 변형시킬 수 있는 각종 비임계적 파라미터를 잘 알고 있을 것이다. 본 명세서에 인용된 모든 특허, 출원 및 공보들은 모두 그 전내용이 본 발명에 참고 인용되었다.The foregoing embodiments are illustrative and not restrictive. Those skilled in the art will be familiar with various noncritical parameters that can be modified to obtain practically similar results. All patents, applications, and publications cited herein are hereby incorporated by reference in their entirety.

Claims (88)

복수개의 핵산에 상응하는 복수개의 근원 문자열(character string)을 제공하는 단계로서, 여기서 상기 문자열은 동일성이 최대가 되도록 정렬하였을때 하나 이상의 이종성 영역을 포함하는 단계;Providing a plurality of character strings corresponding to the plurality of nucleic acids, wherein the strings comprise one or more heterologous regions when aligned for maximum identity; 상기 문자열을 정렬시키는 단계;Sorting the strings; 복수개의 근원 문자열의 2이상의 준서열을 포함하는 문자열의 준서열 세트를 한정하는 단계;Defining a quasi-sequence set of strings comprising at least two quasi-sequences of the plurality of source strings; 문자열 준서열 세트에 상응하는 올리고뉴클레오타이드 세트를 제공하는 단계;Providing a set of oligonucleotides corresponding to the set of string subsequences; 상기 올리고뉴클레오타이드 세트를 어닐링시키는 단계; 및Annealing the oligonucleotide set; And 올리고뉴클레오타이드 세트의 하나 이상의 일원을 중합효소로 연장시키거나, 또는 올리고뉴클레오타이드 세트의 2이상의 일원을 리가제로 결찰시켜 하나 이상의 재조합 핵산을 생산하는 단계를 포함하는 것이 특징인 재조합 핵산 제조 방법.Extending one or more members of the oligonucleotide set with a polymerase or ligation of two or more members of the oligonucleotide set with a ligase to produce one or more recombinant nucleic acids. 제1항에 있어서, 상기 문자열은 동일성이 최대가 되도록 정렬시켰을때 하나 이상의 유사성 영역을 포함하는 것이 특징인 방법.2. The method of claim 1, wherein the string includes one or more similarity regions when aligned for maximum identity. 제1항에 있어서, 상기 근원 문자열의 하나 이상이 진화적(evolutionary) 또는 인공적(artificial) 중간물인 것이 특징인 방법.The method of claim 1, wherein at least one of said source strings is an evolutionary or artificial intermediate. 제1항에 있어서, 상기 하나 이상의 근원 문자열이 디자인된 핵산에 상응하는 것이 특징인 방법.The method of claim 1, wherein the one or more source strings correspond to the designed nucleic acid. 제4항에 있어서, 상기 디자인된 핵산이 암호화된 폴리펩타이드에 대하여 에너지를 최소화시킨 디자인인 것이 특징인 방법.The method of claim 4, wherein the designed nucleic acid is designed to minimize energy for the encoded polypeptide. 제1항에 있어서, 하나 이상의 유전자 작동자를 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열에 적용시키는 단계를 추가로 포함하는 방법으로서, 여기서 상기 유전자 작동자(genetic operator)가 다음에서 선택되는 것이 특징인 방법:The method of claim 1, further comprising applying one or more gene operators to one or more source strings or one or more string subsequences, wherein the genetic operator is selected from: : 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 돌연 변이, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 증폭, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 단편화, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열 또는 추가의 문자열중의 임의의 것들 사이에서의 크로스오버, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 결찰, 엘리티즘 연산, 정렬된 열의 서열 상동성 또는 서열 유사성의 연산, 문자열 진화를 위한 하나 이상의 유전자 작동자의 반복적 사용, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열에 랜덤한 작동자의 적용, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 결실 돌연 변이, 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 삽입 돌연 변이, 비활성 서열을 갖는 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 공제, 활성 서열을 갖는 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 선택, 및 하나 이상의 근원 문자열 또는 하나 이상의 문자열 준서열의 사멸중에서 선택되는 것인 방법.Mutation of one or more source strings or one or more string subsequences, amplification of one or more source strings or one or more string subsequences, fragmentation of one or more source strings or one or more string subsequences, one or more source strings or one or more strings subsequences, or additional Crossover between any of the strings, ligation of one or more source strings or one or more string subsequences, elitism operations, calculation of sequence homology or sequence similarity of aligned columns, repeated use of one or more genetic operators for string evolution , Random operator of one or more source strings or one or more string subsequences, deletion mutations of one or more source strings or one or more strings subsequences, one or more source strings or one or more strings Select from among mouth mutations, subtraction of one or more source strings or one or more string subsequences with inactive sequences, selection of one or more source strings or one or more string subsequences with active sequences, and killing one or more source strings or one or more string subsequences How to be. 제1항에 있어서, 복수개의 문자열의 2이상 사이의 서열 유사성이 중간 수준인 디플로맷 서열(diplomat sequence)을 선택하는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising selecting a diplomat sequence with moderate sequence similarity between two or more of the plurality of strings. 제1항에 있어서, 상기 올리고뉴클레오타이드 세트가 복수개의 중첩된 올리고뉴클레오타이드 서열을 포함하는 것이 특징인 방법.The method of claim 1, wherein said oligonucleotide set comprises a plurality of overlapping oligonucleotide sequences. 제1항에 있어서, 상기 문자열 준서열 세트가 문자열 길이를 선택하고 복수개의 근원 문자열중 2이상을 선택된 길이의 절편으로 세분함으로써 한정되는 것이 특징인 방법.2. The method of claim 1, wherein the set of string subsequences is defined by selecting a string length and subdividing at least two of the plurality of source strings into segments of the selected length. 제1항에 있어서, 상기 문자열을 정렬시키는 단계가 디지털 컴퓨터 또는 웹 기초 시스템에서 수행되는 것이 특징인 방법.The method of claim 1, wherein the step of sorting the strings is performed in a digital computer or web based system. 제1항에 있어서, 문자열 준서열 세트에 상응하는 1본쇄 올리고뉴클레오타이드 세트를 합성하여 올리고뉴클레오타이드 세트를 제공하는 것이 특징인 방법.The method of claim 1, wherein the single-stranded oligonucleotide set corresponding to the string subsequence set is synthesized to provide the oligonucleotide set. 제1항에 있어서,The method of claim 1, 올리고뉴클레오타이드 세트의 전부 또는 일부를 풀링시키는 단계;Pooling all or a portion of the oligonucleotide set; 결과로 풀링된 올리고뉴클레오타이드를 혼성화시키는 단계; 및Hybridizing the resulting pooled oligonucleotides; And 결과로 혼성화된 복수개의 올리고뉴클레오타이드를 신장시키는 단계로서, 여기서 결과로 신장된 하나 이상의 2본쇄 핵산이 복수개의 근원 문자열 2이상으로부터 수득한 서열을 포함하는 단계를 추가로 포함하는 것이 특징인 방법.Extending the resulting hybridized plurality of oligonucleotides, wherein the resultant stretched one or more double-stranded nucleic acids further comprise a sequence comprising from two or more source strings. 제11항에 있어서, 상기 2본쇄 핵산을 변성시켜 1본쇄 핵산의 이종 혼합물을 제조하는 것을 추가로 포함하는 것이 특징인 방법.12. The method of claim 11, further comprising denaturing the double stranded nucleic acid to produce a heterologous mixture of single stranded nucleic acids. 제11항에 있어서,The method of claim 11, (ⅰ)상기 2본쇄 핵산을 변성시켜 1본쇄 핵산의 이종 혼합물을 제조하는 단계;(Iii) denaturing the double stranded nucleic acid to produce a heterogeneous mixture of single stranded nucleic acids; (ⅱ)상기 1본쇄 핵산의 이종 혼합물을 재혼성화시키는 단계; 및(Ii) rehybridizing the heterogeneous mixture of single-stranded nucleic acids; And (ⅲ)결과로 재혼성화된 2본쇄 핵산을 중합효소로 신장시키는 단계(Iii) extending the rehybridized double stranded nucleic acid with the polymerase as a result; 를 추가로 포함하는 것이 특징인 방법.Characterized in that it further comprises. 제13항에 있어서, 단계(ⅰ),(ⅱ) 및 (ⅲ)을 2회 이상 반복 수행하는 단계를 추가로 포함하는 것이 특징인 방법.14. The method of claim 13, further comprising repeating steps (iii), (ii) and (iii) two or more times. 제1항에 있어서, 목적으로 하는 성질에 대하여 하나 이상의 재조합 핵산을 선택하는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising selecting one or more recombinant nucleic acids for the property of interest. 제1항에 있어서, 상기 올리고뉴클레오타이드 세트가 하나 이상의 변형된 근원 문자열 준서열을 포함하는 올리고뉴클레오타이드를 합성함으로써 제조되고, 여기서 상기 준서열은 근원 문자열 준서열의 하나 이상의 문자를 다른 문자로 1회 이상 치환시킴으로써 변형된 근원 문자열 준서열;The oligonucleotide set of claim 1, wherein the oligonucleotide set is prepared by synthesizing an oligonucleotide comprising one or more modified source string subsequences, wherein the subsequence is substituted one or more characters of the source string subsequence with another character one or more times Source string subsequence modified by means of; 근원 문자열 준서열의 하나 이상의 문자를 1회 이상 결실 또는 삽입시킴으로써 변형된 근원 문자열 준서열;A source string subsequence modified by deleting or inserting one or more characters of the source string subsequence one or more times; 랜덤하게 또는 비랜덤적으로 선택된 하나 이상의 선택 위치에 축퇴성 서열 문자을 포함시킴으로써 변형된 근원 문자열 준서열;Source string subsequences modified by including degenerate sequence letters in one or more selected positions randomly or nonrandomly selected; 하나 이상의 위치에 제2 근원 문자열 준서열 유래의 상이한 문자열로부터의 문자열을 포함시킴으로써 변형된 근원 문자열 준서열;A source string subsequence modified by including a string from a different string from a second source string subsequence at one or more locations; 핵산의 선택된 라이브러리에서의 발생 빈도수를 기초로 하여 바이어스된 근원 문자열 준서열; 및Source string subsequence biased based on frequency of occurrence in selected libraries of nucleic acids; And 준서열에 인공적으로 포함된 하나 이상의 서열 모티브를 포함하는 근원 문자열 준서열중 1이상을 조합하는 것이 특징인 방법.A method characterized by combining at least one of the source string subsequences comprising one or more sequence motifs artificially included in the subsequences. 제17항에 있어서, 상기 서열 모티브가 N-연결성 글리코실화 서열, O-연결성 글리코실화 서열, 단백질 분해효소 감수성 서열, 콜라겐 분해효소 감수성 서열, Rho 의존성 전사 종결 서열, 전사 효율에 영향을 미치는 RNA 2차 구조 서열, 번역 효율에 영향을 미치는 RNA 2차 구조 서열, 전사 강화 서열, 전사 프로모터 서열, 또는 전사 침묵 서열을 포함하는 것이 특징인 방법.18. The method of claim 17, wherein said sequence motif is RNA 2 affecting N-linked glycosylation sequence, O-linked glycosylation sequence, protease sensitive sequence, collagenase sensitive sequence, Rho dependent transcription termination sequence, transcription efficiency And a secondary structural sequence, an RNA secondary structural sequence that affects translation efficiency, a transcription enhancing sequence, a transcriptional promoter sequence, or a transcriptional silencing sequence. 제1항에 있어서, 상기 올리고뉴클레오타이드 세트가 하나 이상의 근원 문자열의 상응 준서열에 비교하여 하나 이상의 변형된 또는 축퇴성 위치를 포함하는 것이 특징인 방법.The method of claim 1, wherein said oligonucleotide set comprises one or more modified or degenerate positions compared to corresponding subsequences of one or more source strings. 제1항에 있어서, 선택된 핵산 또는 선택된 핵산 세트와 혼성화되는 것을 기초로 하여 하나 이상의 재조합 핵산을 선택하는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising selecting one or more recombinant nucleic acids based on hybridization with the selected nucleic acid or selected nucleic acid set. 제1항에 있어서, 하나 이상의 근원 문자열이 2이상의 근원 문자열을 포함하고, 상기 올리고뉴클레오타이드 세트는 키메라 핵산 서열을 포함하는 하나 이상의 올리고뉴클레오타이드 일원을 포함하며, 하나 이상의 올리고뉴클레오타이드 일원은 2이상의 올리고뉴클레오타이드 일원 준서열을 포함하되, 상기 2이상의 올리고뉴클레오타이드 일원 준서열은 2이상의 근원 문자열로부터 수득된 2이상의 준서열에 상응하며 크로스오버점에 의하여 분리되는 것이 특징인 방법.The method of claim 1, wherein the one or more source strings comprise two or more source strings, the oligonucleotide set comprises one or more oligonucleotide members comprising a chimeric nucleic acid sequence, and the one or more oligonucleotide members comprises two or more oligonucleotide members Wherein said at least two oligonucleotide member subsequences correspond to at least two subsequences obtained from at least two source strings and are separated by crossover points. 제21항에 있어서, 상기 크로스오버점이 2이상의 근원 문자열의 복수개로부터 복수개의 근원 문자 아열을 동정한후, 이 아열을 정렬시켜 이 아열간 쌍 동일성을 나타내도록 정렬시키고, 이 정렬된 서열내의 한 점을 크로스오버점으로서 선택함으로써 얻어지는 것이 특징인 방법.22. The method of claim 21, wherein the crossover points identify a plurality of source character subcolumns from a plurality of source strings of two or more, and then align the subcolumns to indicate pair identity between the subcolumns, and a point in the aligned sequence. Characterized by being obtained as a crossover point. 제21항에 있어서, 상기 크로스오버점이 랜덤하게 선택되는 것이 특징인 방법.22. The method of claim 21 wherein the crossover point is selected randomly. 제21항에 있어서, 상기 크로스오버점이 비랜덤하게 선택되는 것이 특징인 방법.22. The method of claim 21 wherein the crossover point is selected non-randomly. 제21항에 있어서, 상기 크로스오버점이 하나 이상의 동정된 쌍 동일성 구역의 거의 중앙에 있는 크로스오버점을 선택함으로써 비랜덤하게 선택되는 것이 특징인 방법.22. The method of claim 21, wherein the crossover point is selected non-randomly by selecting a crossover point that is nearly centered in one or more identified pair identity zones. 제21항에 있어서, 하나 이상의 올리고뉴클레오타이드 일원에 대한 하나 이상의 크로스오버점이 동정된 쌍 상동성 구역의 외부 구역으로부터 선택되는 것이 특징인 방법.The method of claim 21, wherein one or more crossover points for one or more oligonucleotide members are selected from the outer region of the identified pair homology region. 제1항에 있어서, 올리고뉴클레오타이드 세트의 하나 이상의 추가 올리고뉴클레오타이드 일원보다 높은 농도로 올리고뉴클레오타이드 세트의 하나 이상의 올리고뉴클레오타이드 일원을 가하는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising adding one or more oligonucleotide members of the oligonucleotide set to a concentration higher than one or more additional oligonucleotide members of the oligonucleotide set. 제1항에 있어서, 상기 올리고뉴클레오타이드 세트의 하나 이상의 일원을 재조합 핵산 및 중합효소와 함께 항온처리시키는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising incubating one or more members of the oligonucleotide set with recombinant nucleic acid and polymerase. 제1항에 있어서, 상기 재조합 핵산을 변성시키는 단계 및 상기 올리고뉴클레오타이드 세트로부터 하나 이상의 추가 핵산과 상기 재조합 핵산을 접촉시키는 단계를 추가로 포함하는 방법.The method of claim 1, further comprising denaturing the recombinant nucleic acid and contacting the recombinant nucleic acid with one or more additional nucleic acids from the oligonucleotide set. 제1항에 있어서, 상기 재조합 핵산을 변성시키는 단계 및 하나 이상의 근원 문자열에 의하여 암호화된 근원 핵산을 절단시킴으로써 제조된 추가의 하나 이상의 핵산과 상기 재조합 핵산을 접촉시키는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising denaturing the recombinant nucleic acid and contacting the recombinant nucleic acid with an additional one or more nucleic acids prepared by cleaving the source nucleic acid encoded by the one or more source strings. Way. 제1항에 있어서, 상기 재조합 핵산을 변성시키는 단계 및 하나 이상의 근원 문자열에 의하여 암호화된 근원 핵산을 절단시킴으로써 제조된 추가의 하나 이상의 핵산과 상기 재조합 핵산을 접촉시키는 단계를 추가로 포함하되, 상기 근원 핵산의 절단은 화학적 절단, DNase로의 절단 및 제한 엔도뉴클레아제로의 절단중 1이상에 의한 것임이 특징인 방법.The method of claim 1, further comprising denaturing the recombinant nucleic acid and contacting the recombinant nucleic acid with an additional one or more nucleic acids prepared by cleaving the source nucleic acid encoded by the one or more source strings, wherein the source Cleavage of the nucleic acid is by at least one of chemical cleavage, cleavage with DNase, and cleavage with restriction endonucleases. 제1항에 있어서, 상기 근원 문자열이 EPO, 인슐린, 펩타이드 호르몬, 싸이토카인, 표피 성장 인자, 섬유 아세포 성장 인자, 간세포 성장 인자, 인슐린 유사성 성장 인자, 인터페론, 인터류킨, 케라틴 합성 세포 성장 인자, 백혈병 억제 인자, 온코스타틴 M, PD-ESCF, PDGF, 플레이오트로핀, SCF, c-kit 리간드, VEGEF, G-CSF, 종양 유전자, 종양 억제자, 스테로이드 호르몬 수용기, 식물 호르몬, 질병 내성 유전자, 제조제 내성 유전자, 세균 유전자, 모노옥시제나제, 단백질분해효소, 핵산분해효소 및 리파제중에서 선택되는 유전자 또는 하나 이상의 단백질에 상응하는 하나 이상의 핵산을 암호화하는 것이 특징인 방법.The method of claim 1, wherein the source string is EPO, insulin, peptide hormones, cytokines, epidermal growth factor, fibroblast growth factor, hepatocyte growth factor, insulin-like growth factor, interferon, interleukin, keratin synthetic cell growth factor, leukemia inhibitory factor Oncotin M, PD-ESCF, PDGF, Pliotropin, SCF, c-kit ligand, VEGEF, G-CSF, tumor gene, tumor suppressor, steroid hormone receptor, plant hormone, disease resistance gene, manufacturer resistance A method characterized by encoding one or more nucleic acids corresponding to one or more proteins or genes selected from among genes, bacterial genes, monooxygenases, proteases, nucleases and lipases. 제1항에 있어서, 상기 올리고뉴클레오타이드 세트가 길이가 약 20 내지 약 60뉴클레오타이드 사이인 하나 이상의 올리고뉴클레오타이드 일원을 포함하는 것이 특징인 방법.The method of claim 1, wherein said oligonucleotide set comprises one or more oligonucleotide members that are between about 20 to about 60 nucleotides in length. 제1항에 있어서, 재조합 핵산을 목적으로하는 특색 또는 특성에 대하여 선택하여, 선택된 재조합 핵산을 제공하는 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising providing a selected recombinant nucleic acid by selecting for the feature or characteristic desired for the recombinant nucleic acid. 제34항에 있어서, 상기 선택된 재조합 핵산을 상동성 핵산, 및 상기 올리고뉴클레오타이드 세트로부터 수득된 올리고뉴클레오타이드 일원중 1이상과 재조합시키는 단계를 추가로 포함하는 것이 특징인 방법.35. The method of claim 34, further comprising recombining the selected recombinant nucleic acid with homologous nucleic acid and one or more of the oligonucleotide members obtained from the oligonucleotide set. 제1항에 있어서, 재조합 핵산을 목적으로 하는 특색 또는 특성에 대해서 선택하는 단계 및 이로써 선택된 재조합 핵산을 제공하는 단계를 추가로 포함하되, 상기 목적으로 하는 특색 또는 특성이 생체내 선발 검정법 또는 평행 고체상 검정법에서 선택되는 것이 특징인 방법.The method of claim 1, further comprising selecting for the feature or feature of interest and providing the selected recombinant nucleic acid, wherein the feature or feature of interest is an in vivo selection assay or a parallel solid phase. A method characterized by being selected from the assay. 제1항에 있어서, 재조합 핵산을 목적으로 하는 특색 또는 특성에 대해서 선택하는 단계 및 이로써 선택된 재조합 핵산을 제공하는 단계를 추가로 포함하되, 상기 목적으로 하는 특색 또는 특성이 생체내 검정법에서 선택되는 것이 특징인 방법.The method of claim 1, further comprising the step of selecting for the feature or feature of interest and providing the selected recombinant nucleic acid, wherein the feature or feature of interest is selected in an in vivo assay. Characteristic method. 제1항에 있어서, 상기 재조합 핵산의 풀림(deconvolution) 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising the step of deconvolution of said recombinant nucleic acid. 제1항에 있어서, 상기 재조합 핵산의 시퀀싱 단계 또는 클로닝 단계를 추가로 포함하는 것이 특징인 방법.The method of claim 1, further comprising sequencing or cloning the recombinant nucleic acid. 제1항에 있어서, 상기 재조합 핵산이 조립 PCR(assembly PCR)에 의하여 시험관내에서 합성되는 것이 특징인 방법.The method of claim 1, wherein said recombinant nucleic acid is synthesized in vitro by assembly PCR (assembly PCR). 제1항에 있어서, 상기 재조합 핵산이 오류 경향성(error-prone) 조립 PCR에 의하여 시험관내에서 합성되는 것이 특징인 방법.The method of claim 1, wherein said recombinant nucleic acid is synthesized in vitro by error-prone assembly PCR. 제1항에 있어서, 상기 근원 문자열 또는 올리고뉴클레오타이드 세트가 컴퓨터에서 선택되는 것이 특징인 방법.The method of claim 1, wherein said source string or oligonucleotide set is selected from a computer. a)폴리뉴클레오타이드 또는 폴리펩타이드를 코드화하는 근원 문자열을 제공하는 단계;a) providing a source string encoding a polynucleotide or polypeptide; b)근원 문자열의 서열 단편을 포함하는 복수개의 1본쇄 올리고뉴클레오타이드 서열 및 이들의 보체를 암호화하는, 소정의 길이의 올리고뉴클레오타이드 문자열 세트를 제공하는 단계; 및b) providing a set of oligonucleotide strings of a predetermined length, encoding a plurality of single-stranded oligonucleotide sequences comprising the sequence fragments of the source string and the complements thereof; And c)변이체 열 당 하나의 돌연 변이를 갖는 서열 변이체 열을 포함하고, 복수개의 돌연변이를 포함하는 근원 서열 유도체 세트를 제조하는 단계를 포함하는 것이 특징인 문자열의 제조 방법.c) producing a set of source sequence derivatives comprising a sequence variant sequence having one mutation per variant string and comprising a plurality of mutations. 제43항에 있어서, 복수개의 1본쇄 올리고뉴클레오타이드 서열들이 서열내에서 중첩되는 것이 특징인 방법.The method of claim 43, wherein the plurality of single-stranded oligonucleotide sequences overlap in the sequence. 제43항에 있어서, 하나 이상의 유전자 작동자를 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열에 적용시키는 단계를 더 포함하고, 상기 유전적 작동자는 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 돌연변이, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 증폭, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 단편화, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열 또는 추가의 문자열중의 임의의 문자열들 사이의 크로스오버, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 결찰, 엘리티즘 연산, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열을 포함하는 정렬된 문자열의 서열 상동성 또는 서열 유사성의 연산, 문자열의 진화를 위한 하나 이상의 유전자 작동자의 반복적 사용, 랜덤 작동자의 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열에의 적용, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 결실 돌연 변이, 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열로의 삽입 돌연 변이, 비활성 서열을 갖는 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 공제, 활성 서열을 갖는 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 선택 및 근원 문자열 또는 하나 이상의 올리고뉴클레오타이드 문자열의 사멸중에서 선택된 것이 특징인 방법.The method of claim 43, further comprising applying one or more gene effectors to the source string or one or more oligonucleotide strings, wherein the genetic effector is a mutation, source string or one or more oligos of the source string or one or more oligonucleotide strings. Amplification of a nucleotide string, fragmentation of a source string or one or more oligonucleotide strings, crossover between any string in the source string or one or more oligonucleotide strings or additional strings, ligation of the source string or one or more oligonucleotide strings, An operation of elitism, sequence homology or sequence similarity of an aligned string comprising a source string or one or more oligonucleotide strings, one for evolution of a string Use of gene effectors on a gene, application of random operator to a source string or one or more oligonucleotide strings, deletion mutations in the source string or one or more oligonucleotide strings, insertion mutations in the source string or one or more oligonucleotide strings, inactive And a subtraction of the source string or one or more oligonucleotide strings with sequence, the selection of the source string or one or more oligonucleotide strings with active sequence and the killing of the source string or one or more oligonucleotide strings. 제43항에 있어서,The method of claim 43, d)근원 문자열 서열의 양 사슬을 암호화하는 예정된 길이의 중첩된 문자열 세트를 제공하는 단계; 및d) providing a set of overlapping strings of predetermined length that encode both chains of the source string sequence; And e)단계(c) 및 단계(d)에 따라서 1본쇄 올리고뉴클레오타이드 세트를 합성하는 단계를 추가로 포함하는 방법.e) synthesizing a single-stranded oligonucleotide set according to steps (c) and (d). 제46항에 있어서,47. The method of claim 46 wherein f)조립 PCR에 의해서 1본쇄 올리고뉴클레오타이드로부터 재조합 핵산 라이브러리를 조립하는 단계를 추가로 포함하는 방법.f) assembling the recombinant nucleic acid library from single-stranded oligonucleotides by assembly PCR. 제47항의 방법으로 제조된 라이브러리.A library prepared by the method of claim 47. 제47항에 있어서,The method of claim 47, g)목적으로 하는 특성을 갖는 하나 이상의 재조합 폴리뉴클레오타이드에 대하여 상기 라이브러리를 선택 또는 스크리닝하는 단계를 추가로 포함하는 것이 특징인 방법.g) selecting or screening the library for one or more recombinant polynucleotides having the desired properties. 제48항에 있어서,The method of claim 48, h)하나 이상의 선택된 폴리뉴클레오타이드 서열을 푸는(deconvoluting) 단계를 추가로 포함하는 것이 특징인 방법.h) deconvoluting one or more selected polynucleotide sequences. 제46항에 있어서, 하나 이상의 선택된 폴리뉴클레오타이드 서열이 선택된 폴리뉴클레오타이드를 시퀀싱시키거나 또는 하나 이상의 선택된 폴리뉴클레오타이드를 분해시킴으로써 풀어지는 것이 특징인 방법.The method of claim 46, wherein the one or more selected polynucleotide sequences are solved by sequencing the selected polynucleotides or by digesting the one or more selected polynucleotides. 제46항에 있어서, 상기 서열이 하나 이상의 선택된 폴리뉴클레오타이드를 위치 풀림을 통해 풀림처리 되는것이 특징인 방법.47. The method of claim 46, wherein said sequence is unannealed by unwinding one or more selected polynucleotides. 제46항에 있어서, 재조합 핵산 라이브러리를 반복적으로 셔플링시키거나 또는 선택하는 단계를 추가로 포함하는 것이 특징인 방법.47. The method of claim 46, further comprising repeatedly shuffling or selecting the recombinant nucleic acid library. 분기성 핵산에 상응하는 근원 문자열을 정렬시켜 서열 동일성 구역인지 서열 분기성 구역인지를 동정하는 단계;Aligning the source string corresponding to the divergent nucleic acid to identify whether it is a sequence identity region or a sequence divergence region; 상기 근원 문자열사이의 서열의 중간물인 디플로맷 문자열을 한정하는 단계;Defining a diplomat string that is an intermediate of the sequence between the source strings; 최소한 일부의 디플로맷 서열을 합성시켜 디플로맷 핵산을 제조하는 단계; 및Synthesizing at least some of the Diplomat sequences to produce Diplomat nucleic acid; And 근원 핵산 또는 이들의 단편들을 포함하는 선택된 핵산 혼합물과 디플로맷 핵산을 재조합시키는 단계를 포함하여, 2 이상의 분기성(divergent) 핵산 사이의 재조합을 촉진시키는 것이 특징인 방법.Recombining the selected nucleic acid mixture comprising the source nucleic acid or fragments thereof and the diplomat nucleic acid, thereby facilitating recombination between two or more divergent nucleic acids. 제54항에 있어서, 상기 디플로맷 핵산의 서열에 상응하는 복수개의 중첩된 올리고뉴클레오타이드를 합성하고, 상기 중첩된 올리고뉴클레오타이드를 혼성화시킨후, 상기 중첩된 올리고뉴클레오타이드를 중합효소와 항온처리시킴으로써 상기 디플로맷 핵산을 합성하는 것이 특징인 방법.55. The diploid of claim 54, wherein a plurality of overlapping oligonucleotides corresponding to the sequences of the diplomat nucleic acid are synthesized, the overlapping oligonucleotides are hybridized, and the overlapping oligonucleotides are incubated with a polymerase. A method characterized by synthesizing a roman nucleic acid. 제54항에 있어서, 하나 이상의 근원 문자열에 상응하는 올리고뉴클레오타이드 풀(pool)을 합성시키는 단계를 추가로 포함하고, 상기 올리고뉴클레오타이드 풀은 선택된 핵산의 혼합물로 존재하는 것이 특징인 방법.55. The method of claim 54, further comprising synthesizing an oligonucleotide pool corresponding to one or more source strings, wherein the oligonucleotide pool is present in a mixture of selected nucleic acids. 제56항의 방법에 의하여 제조된 선택 핵산의 혼합물.A mixture of selected nucleic acids prepared by the method of claim 56. 다수의 아미노산 서열 문자열을 디지털 시스템에 입력시키는 단계;Inputting a plurality of amino acid sequence strings into a digital system; 상기 디지털 시스템에서 입력된 아미노산 문자열을 다수의 핵산 문자열로 역번역시키고, 상기 역번역된 핵산 서열은 선택된 발현 숙주중의 종 코돈 바이어스 및 복수개의 핵산 문자열사이의 최적화된 서열 유사성중 1이상에 대하여 선택되는 단계; 및The amino acid string entered in the digital system is translated back into a plurality of nucleic acid strings, the reverse translated nucleic acid sequence being selected for at least one of the species codon bias in the selected expression host and the optimized sequence similarity between the plurality of nucleic acid strings. Becoming; And 하나 이상의 역번역된 핵산 서열에 상응하는 하나 이상의 올리고뉴클레오타이드 세트를 합성하는 단계를 포함하는 것이 특징인 핵산의 합성 및 재조합 방법.A method of synthesizing and recombining nucleic acids, characterized in that it comprises the step of synthesizing one or more sets of oligonucleotides corresponding to one or more reverse translated nucleic acid sequences. 제58항에 있어서, 하나 이상의 올리고뉴클레오타이드 세트의 일원들을 서로 또는 하나 이상의 아미노산 서열 문자열에 상응하는 하나 이상의 아미노산 중합체를 암호화하는 단편화된 핵산 세트에 혼성화시키는 단계를 추가로 포함하는 것이 특징인 방법.59. The method of claim 58, further comprising hybridizing members of the one or more oligonucleotide sets to a set of fragmented nucleic acids encoding one or more amino acid polymers corresponding to each other or one or more amino acid sequence strings. 제59항에 있어서, 결과적으로 혼성화된 하나 이상의 핵산을 중합효소로 연장시키는 단계를 추가로 포함하는 것이 특징인 방법.60. The method of claim 59, further comprising extending the hybridized one or more nucleic acids with a polymerase. 제58항에 있어서, 결과적으로 연장된 하나 이상의 핵산을 단편화시키고 결과로 생성된 2차 단편화 핵산을 서로 또는 하나 이상의 올리고뉴클레오타이드 세트의 일원과 혼성화시키거나 또는 하나 이상의 아미노산 서열 문자열에 상응하는 하나 이상의 아미노산 중합체를 암호화하는 1차 단편화 핵산 세트와 혼성화시키는 단계를 추가로 포함하는 것이 특징인 방법.59. The method of claim 58, wherein the resulting one or more nucleic acids are fragmented and the resulting secondary fragmented nucleic acids are hybridized with one another or with one or more members of a set of oligonucleotides or corresponding to one or more amino acid sequence strings. And hybridizing with the first set of fragmented nucleic acids encoding the polymer. 다차원 데이터포인트 세트를 제공하기 위해 핵산 또는 단백질 세트를 파라미터화시키는 단계;Parameterizing a set of nucleic acids or proteins to provide a multidimensional set of data points; 가설에 의한 하나 이상의 다차원 데이터포인트를 다차원 데이터포인트 세트로부터 외삽하는 단계;Extrapolating one or more multidimensional datapoints by hypothesis from the multidimensional datapoint set; 상기 가설에 의한 다차원 데이터포인트를 가설에 의한 핵산 또는 단백질에 상응하는 신규의 문자열로 변환시키는 단계를 포함하는 것이 특징인 핵산 활성의 최적화 방법.And converting the multidimensional data point according to the hypothesis into a new string corresponding to the nucleic acid or protein according to the hypothesis. 제62항에 있어서, 상기 가설에 의하여 핵산 또는 단백질을 합성하는 것을 포함하는 방법.63. The method of claim 62 comprising synthesizing a nucleic acid or protein by the hypothesis. 제62항에 있어서, 다차원 데이터포인트 세트의 원리적 구성 요소 분석 단계를 추가로 포함하는 것이 특징인 방법.63. The method of claim 62, further comprising analyzing the principal components of the multidimensional set of data points. 제62항에 있어서, 상기 가설에 의한 핵산 또는 이들의 준서열을 추가의 핵산으로 셔플링시키는 단계를 추가로 포함하는 것이 특징인 방법.63. The method of claim 62, further comprising shuffling said hypothesis nucleic acid or subsequence thereof into additional nucleic acid. 제62항에 있어서, 상기 핵산 또는 단백질 세트가 이들의 각 잔기를 기수 표시자의 매트릭스에 상관시킴으로써 파라미터화되는 것이 특징인 방법.63. The method of claim 62, wherein said nucleic acid or protein set is parameterized by correlating each residue thereof to a matrix of radix indicators. 제66항에 있어서, 상기 매트릭스를 4면체로서 도시화하기 위해 4면체의 중심부위에는 원점을 지정하고, 각 모퉁이는 기수로서 표시하며, 핵산의 각 잔기는 상이한 모퉁이에 위치시켜 기수 표시자의 매트릭스를 제조하는 것이 특징인 방법.67. The method of claim 66, wherein an origin is specified over the center of the tetrahedron to depict the matrix as a tetrahedron, each corner is represented as an radix, and each residue of the nucleic acid is located at a different corner to produce a matrix of radix indicators. How is it characterized. 제62항에 있어서, 종속 변수 Y의 매트릭스 및 예측 변수 X의 매트릭스 사이의 관계를 동정하는 출력 벡터와 각 다차원 데이터포인트를 상관시키는 단계를 포함하는 방법.63. The method of claim 62, comprising correlating each multidimensional data point with an output vector that identifies a relationship between a matrix of dependent variable Y and a matrix of predictor variable X. 제68항에 있어서, 상기 상관성이 잠재성 구조 분석에 대한 이차 근소치 제곱 투영법(Partial Least Square Projection to Latent Structure;PLS)에 의하여 수행되는 것이 특징인 방법.69. The method of claim 68, wherein said correlation is performed by Partial Least Square Projection to Latent Structure (PLS) for latent structure analysis. 제62항에 있어서, 각 다차원 데이터포인트가 하나 이상의 상이한 파라미터를 포함하되, 이 파라미터는 각 파라미터에 대하여 1이상의 차원을 포함하는 n 차원 초공간에서 서로에 대하여 도표화되는 것이 특징인 방법.63. The method of claim 62, wherein each multidimensional data point comprises one or more different parameters, wherein the parameters are plotted with respect to each other in an n-dimensional hyperspace including one or more dimensions for each parameter. 동일하지 않은 약 105개 이상의 상이한 일원의 형태를 포함하는 약 106개 이상의 재조합 핵산의 초기 라이브러리를 제조하는 단계;Preparing an initial library of about 10 6 or more recombinant nucleic acids comprising forms of at least about 10 5 different members that are not identical; 상이한 라이브러리 일원중의 하나 이상의 준서열에 상응하는 하나 이상의 핵산 군집과 상기 라이브러리를 혼성화시키는 단계;Hybridizing the library with one or more populations of nucleic acids corresponding to one or more subsequences of different library members; 하나 이상의 핵산 군집에 혼성화되는 라이브러리 일원들을 분리하여 하나 이상의 핵산 군집에 혼성화되는 일원들에 대한 핵산 라이브러리를 집적시키는 단계; 및Separating library members that hybridize to one or more nucleic acid populations to aggregate nucleic acid libraries for members that hybridize to one or more nucleic acid populations; And 하나 이상의 목적 성질에 대하여 상기 집적된 라이브러리 일원들을 선택하는 단계를 포함하여, 목적 서열이 집족된 재조합 핵산 라이브러리를 제공하고, 이 라이브러리를 선택하는 것이 특징인 방법.Providing a recombinant nucleic acid library in which the sequence of interest is concentrated, the method comprising selecting the integrated library members for one or more desired properties. 제71항에 있어서, 상기 초기 라이브러리가 약 109내지 1012개의 일원을 갖는 것이 특징인 방법.The method of claim 71, wherein the initial library has about 10 9 to 10 12 members. 제71항에 있어서, 상기 하나 이상의 핵산 군집이 고체상 기질에 고정된 것임이 특징인 방법.The method of claim 71, wherein said at least one nucleic acid population is immobilized on a solid substrate. 제73항에 있어서, 상기 고체상 기질이 컬럼 매트릭스 재료 및 핵산 칩중 1이상을 포함하는 것이 특징인 방법.74. The method of claim 73, wherein said solid phase substrate comprises at least one of a column matrix material and a nucleic acid chip. 제71항에 있어서, 상기 초기 라이브러리가 하나 이상의 상동성 핵산을 제조합하여 제조되는 것이 특징인 방법.The method of claim 71, wherein the initial library is prepared by synthesizing one or more homologous nucleic acids. 제71항의 방법에 의하여 제조되는 것이 특징인 집적된 라이브러리.An integrated library, characterized in that it is produced by the method of claim 71. 제71항에 있어서, 초기 라이브러리가76. The method of claim 71, wherein the initial library is 최대의 동일성을 갖도록 정렬시켰을 때 하나 이상의 유사성 구역 및 하나 이상의 이종성 지역을 포함하며 복수개의 핵산에 상응하는 복수개의 근원 문자열을 제공하는 단계;Providing a plurality of source strings comprising one or more similarity regions and one or more heterologous regions when aligned for maximum identity and corresponding to the plurality of nucleic acids; 상기 문자열을 정렬시키는 단계;Sorting the strings; 2이상의 복수개의 근원 문자열의 준서열을 포함하는 문자열 준서열 세트를 한정하는 단계;Defining a set of string subsequences comprising the subsequences of two or more source strings; 문자열 준서열 세트에 상응하는 올리고뉴클레오타이드 세트를 제공하는 단계;Providing a set of oligonucleotides corresponding to the set of string subsequences; 올리고뉴클레오타이드 세트를 어닐링시키는 단계; 및Annealing the oligonucleotide set; And 올리고뉴클레오타이드 세트의 하나 이상의 일원을 중합효소로 연장시켜 핵산의 초기 라이브러리를 제조하는 단계에 의하여 제조되는 것이 특징인 방법:.Wherein said method is characterized by extending one or more members of a set of oligonucleotides with a polymerase to produce an initial library of nucleic acids. 이미 존재하는 문자열을 변형시킴으로써 생성된 문자열의 다양한 군집을 컴퓨터내에서 생성시키는 단계; 및Computer-generated various clusters of strings created by modifying existing strings; And 생물학적 중합체 라이브러리를 포함하는 다양한 문자열 군집을 합성하는 단계를 포함하며는 것이 특징인 생물학적 중합체의 라이브러리를 합성하는 방법.A method of synthesizing a library of biological polymers, the method comprising synthesizing various string communities comprising a biological polymer library. 제 78항에 있어서, 상기 변형이 이미 존재하는 문자열의 재조합 단계를 포함하는 것이 특징인 방법.79. The method of claim 78, wherein said modification comprises recombining an existing string. 제78항에 있어서, 상기 생물학적 중합체가 핵산, 폴리펩타이드 및 펩타이드 핵산으로부터 선택되는 것이 특징인 방법.79. The method of claim 78, wherein said biological polymer is selected from nucleic acids, polypeptides, and peptide nucleic acids. 제78항에 있어서, 상기 생물학적 중합체 라이브러리의 일원을 하나 이상의 활성에 대하여 선택하는 단계를 추가로 포함하는 것이 특징인 방법.79. The method of claim 78, further comprising selecting a member of said biological polymer library for one or more activities. 제81항에 있어서, 목적으로 하는 한계치 이하의 활성을 나타내는 생물학적 중합체 라이브러리의 일원을 보유하는 추가의 라이브러리 또는 추가의 문자열 세트를 공제시킴으로써 추가의 문자열 세트 또는 추가의 라이브러리를 필터링시키는 단계를 추가로 포함하는 것이 특징인 방법.82. The method of claim 81, further comprising filtering the additional string set or additional library by subtracting additional libraries or additional string sets retaining members of a biological polymer library exhibiting activity below a desired threshold. How it is characterized. 제81항에 있어서, 목적으로 하는 한계치 이상의 활성을 나타내는 생물학적 중합체 라이브러리의 일원을 보유하는 추가의 라이브러리 또는 추가의 문자열 세트를 바이어스시킴으로써 추가의 문자열 세트 또는 추가의 라이브러리를 필터링시키는 단계를 추가로 포함하는 것이 특징인 방법.82. The method of claim 81, further comprising filtering the additional set of strings or the additional library by biasing the additional library or set of additional strings that retain members of a biological polymer library exhibiting activity above a desired threshold. How is it characterized. 제1 문자열을 포함하는 제1 데이터 세트, 제2 문자열을 포함하는 제2 데이터 세트, 상기 제1 문자열 및 제2 문자열을 정렬시키는 소프트웨어, 상기 제1 문자열 및 제2 문자열상에 대하여 유전적 조작을 수행하는 소프트웨어, 제1 및 제2 문자열 유래의 문자열 준서열을 포함하는 제3 문자열 함유의 제3 문자열 데이터 세트를 포함하는 출력 파일 및 제3 문자열에 상응하는 복수개의 중첩 올리고뉴클레오타이드 서열을 포함하는 올리고뉴클레오타이드 서열 출력 파일을 갖춘 컴퓨터를 포함하는 통합 시스템.A first data set comprising a first string, a second data set comprising a second string, software to align the first string and the second string, and genetic manipulation on the first string and the second string Software to perform, an output file comprising a third string data set containing a third string containing string subsequences from the first and second strings, and an oligo comprising a plurality of overlapping oligonucleotide sequences corresponding to the third string An integrated system comprising a computer with a nucleotide sequence output file. 제84항에 있어서, 상기 시스템이 복수개의 중첩된 올리고뉴클레오타이드를 합성하는 올리고뉴클레오타이드 합성 기계를 추가로 포함하고는 것이 특징인 통합 시스템.85. The integrated system of claim 84, wherein said system further comprises an oligonucleotide synthesis machine that synthesizes a plurality of overlapping oligonucleotides. 제84항에 있어서, 복수개의 중첩 올리고뉴클레오타이드 서열에 의하여 암호화되는 복수개의 올리고뉴클레오타이드를 추가로 포함하고, 이 올리고뉴클레오타이드는 1회 이상의 사슬 신장 순환시 항온처리될 때 제3 문자열에 의하여 암호화되는 제3 핵산을 생성하는 것이 특징인 통합 시스템.85. The method of claim 84, further comprising a plurality of oligonucleotides encoded by a plurality of overlapping oligonucleotide sequences, wherein the oligonucleotides are encoded by a third string when incubated in one or more chain stretch cycles. Integrated system characterized by producing nucleic acids. 제84항에 있어서, 상기 시스템이 하나 이상의 유전자 작동자를 제1 또는 제2 문자열에 적용시키거나 또는 임의의 기타 문자열에 적용시키는 지시 세트를 갖춘 프로그램을 추가로 포함하는 것이 특징인 통합 시스템.85. The integrated system of claim 84, wherein the system further comprises a program having a set of instructions for applying one or more gene operators to the first or second string or any other string. 제84항에 있어서, 상기 시스템이 하나 이상의 유전자 작동자를 제1 또는 제2 문자열에 적용시키거나 또는 임의의 기타 문자열에 적용시키는 지시 세트를 갖춘 프로그램을 추가로 포함하며, 상기 유전자 작동자는85. The system of claim 84, wherein the system further comprises a program with a set of instructions for applying one or more gene actuators to the first or second string or any other string, 상기 문자열의 돌연변이, 증폭, 단편화, 하나 이상의 열 간의 크로스오버, 열의 결찰, 서열 상동성 또는 서열 유사성의 연산, 정렬, 엘리티즘 연산, 문자열의 진화, 랜덤성, 결실 돌연변이, 삽입 돌연변이 및 사멸에 대한 하나 이상의 유전자 작동자의 반복적 사용중에서 선택되는 것이 특징인 통합 시스템.One for mutation, amplification, fragmentation, crossover between one or more columns, ligation of columns, computation of sequence homology or sequence similarity, alignment, elitism, string evolution, randomness, deletion mutation, insertion mutation and death Integrated system, characterized in that selected from the repeated use of the above gene effector.
KR1020007010375A 1999-01-19 2000-01-18 Methods for making character strings, polynucleotides and polypeptides having desired characteristics KR20010042037A (en)

Applications Claiming Priority (20)

Application Number Priority Date Filing Date Title
US11644799P 1999-01-19 1999-01-19
US11885499P 1999-02-05 1999-02-05
US11881399P 1999-02-05 1999-02-05
US14104999P 1999-06-24 1999-06-24
US09/408,393 US6436675B1 (en) 1999-09-28 1999-09-28 Use of codon-varied oligonucleotide synthesis for synthetic shuffling
US9/408,393 1999-09-28
US9/408,392 1999-09-28
US09/408,392 US6376246B1 (en) 1999-02-05 1999-09-28 Oligonucleotide mediated nucleic acid recombination
US41637599A 1999-10-12 1999-10-12
US41683799A 1999-10-12 1999-10-12
US60/118,854 1999-10-12
US60/116,447 1999-10-12
US60/141,049 1999-10-12
US60/118,813 1999-10-12
US9/416,375 1999-10-12
US9/416,837 1999-10-12
PCT/US2000/001203 WO2000042561A2 (en) 1999-01-19 2000-01-18 Oligonucleotide mediated nucleic acid recombination
PCT/US2000/001138 WO2000042559A1 (en) 1999-01-18 2000-01-18 Methods of populating data structures for use in evolutionary simulations
PCT/US2000/001202 WO2000042560A2 (en) 1999-01-19 2000-01-18 Methods for making character strings, polynucleotides and polypeptides
US???? 2001-09-04

Publications (1)

Publication Number Publication Date
KR20010042037A true KR20010042037A (en) 2001-05-25

Family

ID=42760798

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020007010375A KR20010042037A (en) 1999-01-19 2000-01-18 Methods for making character strings, polynucleotides and polypeptides having desired characteristics
KR1020007010378A KR20010042040A (en) 1999-01-19 2000-01-18 Oligonucleotide mediated nucleic acid recombination

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020007010378A KR20010042040A (en) 1999-01-19 2000-01-18 Oligonucleotide mediated nucleic acid recombination

Country Status (2)

Country Link
JP (2) JP2010178757A (en)
KR (2) KR20010042037A (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6117679A (en) * 1994-02-17 2000-09-12 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination

Also Published As

Publication number Publication date
JP2013138675A (en) 2013-07-18
JP2010178757A (en) 2010-08-19
KR20010042040A (en) 2001-05-25

Similar Documents

Publication Publication Date Title
US7853410B2 (en) Method for making polynucleotides having desired characteristics
US6917882B2 (en) Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US7058515B1 (en) Methods for making character strings, polynucleotides and polypeptides having desired characteristics
WO2001075767A2 (en) In silico cross-over site selection
RU2694321C2 (en) Predictive modeling based on structure
JP5319865B2 (en) Methods, systems, and software for identifying functional biomolecules
US6368861B1 (en) Oligonucleotide mediated nucleic acid recombination
US20070054313A1 (en) Oligonucleotide mediated nucleic acid recombination
US20060051795A1 (en) Oligonucleotide mediated nucleic acid recombination
WO2001023401A2 (en) Use of codon-varied oligonucleotide synthesis for synthetic sequence recombination
US20030054390A1 (en) Oligonucleotide mediated nucleic acid recombination
WO2008127213A2 (en) Methods, systems, and software for regulated oligonucleotide-mediated recombination
KR20010042037A (en) Methods for making character strings, polynucleotides and polypeptides having desired characteristics
MXPA00009026A (en) Methods for making character strings, polynucleotides and polypeptides having desired characteristics
DK2253704T3 (en) Oligonucleotide-mediated recombination nucleic acid
MXPA00009027A (en) Oligonucleotide mediated nucleic acid recombination
KR20010083870A (en) Methods of populating data structures for use in evolutionary simulations

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination