NO20023606L - Combinatorial protein domains - Google Patents

Combinatorial protein domains Download PDF

Info

Publication number
NO20023606L
NO20023606L NO20023606A NO20023606A NO20023606L NO 20023606 L NO20023606 L NO 20023606L NO 20023606 A NO20023606 A NO 20023606A NO 20023606 A NO20023606 A NO 20023606A NO 20023606 L NO20023606 L NO 20023606L
Authority
NO
Norway
Prior art keywords
accordance
protein
chimeric protein
chimeric
amino acid
Prior art date
Application number
NO20023606A
Other languages
Norwegian (no)
Other versions
NO20023606D0 (en
Inventor
Lutz Riechmann
Greg Winter
Original Assignee
Domantis Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0002492A external-priority patent/GB0002492D0/en
Priority claimed from GB0016346A external-priority patent/GB0016346D0/en
Priority claimed from GB0019362A external-priority patent/GB0019362D0/en
Application filed by Domantis Ltd filed Critical Domantis Ltd
Publication of NO20023606D0 publication Critical patent/NO20023606D0/en
Publication of NO20023606L publication Critical patent/NO20023606L/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/02Libraries contained in or displayed by microorganisms, e.g. bacteria or animal cells; Libraries contained in or displayed by vectors, e.g. plasmids; Libraries containing only microorganisms or vectors
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/24Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Enterobacteriaceae (F), e.g. Citrobacter, Serratia, Proteus, Providencia, Morganella, Yersinia
    • C07K14/245Escherichia (G)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1037Screening libraries presented on the surface of microorganisms, e.g. phage display, E. coli display

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Virology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Plant Pathology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Peptides Or Proteins (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)

Description

Den foreliggende oppfinnelse vedrører de novo syntese av foldede proteindomener ved kombinatorisk rearrangering av sekvenssegmenter. Sekvensene av segmentene kan korres-pondere direkte til de av naturlige proteiner, eller kan avledes fra de av naturlige proteiner (f.eks. ved vilkårlig eller rettet mutagenese), eller være avledet med design basert på de kjente strukturer av proteiner. Nærmere bestemt benytter foreliggende oppfinnelse kombinatoriske rearrangering av sekvenssegmenter som ikke er hele fullstendige strukturelementer av et naturlig protein og som, i isolasjon, ikke viser noen signifikant folding. The present invention relates to the de novo synthesis of folded protein domains by combinatorial rearrangement of sequence segments. The sequences of the segments may correspond directly to those of natural proteins, or may be derived from those of natural proteins (eg by random or directed mutagenesis), or be derived by design based on the known structures of proteins. More specifically, the present invention utilizes combinatorial rearrangement of sequence segments that are not complete structural elements of a native protein and that, in isolation, do not show any significant folding.

De novo design av proteiner er typisk basert på struk-turpredikeringer av forutbestemte aminosyresekvenser (Hecht 1994, Sauer 1996, Regan 1998) . Partiell randomisering introduseres ofte for å muliggjøre for imperfeksjon i de predikerte algoritmer. Resulterende repertoar screenes eller selekteres for stabilt foldede strukturer. Denne løs-ning har vært suksessfull for design av heliske strukturer så som 4-heliksbunter med stabile og kompakte strukturer som oppviser frie energier av utfolding på ca 4 kcal/mol (Kamtekar et al., 1993). Mer problematisk har design av P~flakproteiner vært, hvor selv de nyligste forsøk for naturlige |3-flakproteiner var for dårlige mht. til stabilitet (Quinn et al., 1994, Kortemme et al., 1998, Alba et al., 1999). Problemet i design av (3-flakstrukturer er relatert til deres avhengighet av backbone-hydrogenbindinger mellom forskjellige sekundære strukturelementer, De novo design of proteins is typically based on structure predictions of predetermined amino acid sequences (Hecht 1994, Sauer 1996, Regan 1998). Partial randomization is often introduced to allow for imperfection in the predicted algorithms. The resulting repertoire is screened or selected for stably folded structures. This solution has been successful for the design of helical structures such as 4-helix bundles with stable and compact structures that exhibit free energies of unfolding of about 4 kcal/mol (Kamtekar et al., 1993). More problematic has been the design of P-flake proteins, where even the most recent attempts for natural |3-flake proteins were too poor in terms of to stability (Quinn et al., 1994, Kortemme et al., 1998, Alba et al., 1999). The problem in the design of (3-flake structures is related to their dependence on backbone hydrogen bonds between different secondary structure elements,

og vi har mindre kunnskap om dette enn prinsippene for heliksdannelse (Hecht 1994). Repertoarer av vilkårlige proteinsekvenser er også blitt screenet for forekomst av foldede proteiner. Ca. 1% av medlemmene i et, vilkårlig bibliotek av Glu-, Leu- og Arg-rike proteiner oppviste noen heliksdannelse og kooperativ utfolding., men var ustabile (Davidson&Sauer 1994). and we have less knowledge about this than the principles of helix formation (Hecht 1994). Repertoires of arbitrary protein sequences have also been screened for the presence of folded proteins. About. 1% of the members of a random library of Glu-, Leu- and Arg-rich proteins showed some helix formation and cooperative unfolding, but were unstable (Davidson&Sauer 1994).

Nylig har nye strategier for å selektere stabilt foldede proteiner fra repertoarer av fagoppviste proteiner, basert på deres resistanse til proteolytisk degradering, blitt anvendt for å forbedre stabiliteten av naturlige proteiner (Kristensen & Winter, 1997, Sieber et al.- 1998, Finucane et al. 1999). Proteolytisk degradering er vanligvis begrenset til ufoldede proteiner eller sterkt fleksible regioner av sterkt foldede proteiner. Foldede proteiner er for det meste resistente til proteaser, pga. at den proteolytiske spalting krever at polypeptidkjeden er adaptert til den spesifikke stereokjemi i aktivt sete for proteasen, og Recently, new strategies to select stably folded proteins from repertoires of phage-expressed proteins, based on their resistance to proteolytic degradation, have been applied to improve the stability of native proteins (Kristensen & Winter, 1997, Sieber et al.- 1998, Finucane et al . 1999). Proteolytic degradation is usually limited to unfolded proteins or highly flexible regions of highly folded proteins. Folded proteins are mostly resistant to proteases, due that the proteolytic cleavage requires that the polypeptide chain is adapted to the specific stereochemistry in the active site of the protease, and

derfor får være i stand til fleksibel, aksessbar og i stand til lokal utfolding (Hubbard et al., 1994, Fontana et al., 1997). Disse metoder er kun blitt beskrevet for seleksjon av proteiner med punktmutasjoner; der intet element av kombinerende sekvenser fra forskjellige proteiner er in-volvert. therefore must be capable of flexible, accessible and capable of local unfolding (Hubbard et al., 1994, Fontana et al., 1997). These methods have only been described for the selection of proteins with point mutations; in which no element of combining sequences from different proteins is involved.

En teoretisk løsning til proteinutyikling via kombinatorisk rearrangering av definerte, komplette strukturelle elementer er blitt beskrevet (Bogarad & Deem 1999) . For-fatterne predikerer, ved anvendelse av statistiske algoritmer, at rearrangering av et antall strukturelle elementer (så som helikser, tråder, sløyfer, avbøyninger og andre) vil resultere i generering av nye proteinfunlcsjoner hurtigere enn ved utvikling av punktmutasjonsstrategier alene. Imidlertid, det utføres ingen gyldighet for kontekst-avhengighet av strukturen, og heller ikke er det noen referanse til partielle strukturelle domener som ikke oppviser noen strukturell identitet i isolasjon. Selv om (sjeldne) sekvenser vil danne strukturer i isolasjon, kan andre adoptere en forskjellig struktur i et forskjellig miljø, som vist med strukturelle rearrangementer etter spalting av noen polypeptider av protease eller ved ligandbinding. Det er således ikke enkelt å definere et strukturelt element dersom dette ikke gjøres i- konteksten til den tredimensjonale struktur av proteinet hvori det er omsluttet, og det er denne definisjon vi har benyttet her. Videre viser denne artikkel ikke at det vil være mul.ig å gjøre denne prosess in vitro, eller indikere eksakt hvordan man skal utføre slike eksperimenter. A theoretical solution to protein unfolding via combinatorial rearrangement of defined, complete structural elements has been described (Bogarad & Deem 1999). The authors predict, using statistical algorithms, that rearranging a number of structural elements (such as helices, threads, loops, deflections and others) will result in the generation of new protein functions faster than by developing point mutation strategies alone. However, no validation is performed for context-dependence of the structure, nor is there any reference to partial structural domains that exhibit no structural identity in isolation. Although (rare) sequences will form structures in isolation, others may adopt a different structure in a different environment, as shown by structural rearrangements after cleavage of some polypeptides by protease or upon ligand binding. It is thus not easy to define a structural element if this is not done in the context of the three-dimensional structure of the protein in which it is enclosed, and it is this definition that we have used here. Furthermore, this article does not show that it will be possible to do this process in vitro, or indicate exactly how to carry out such experiments.

Sammendrag av oppfinnelsenSummary of the invention

Vi'har utviklet en forskjellig strategi for etablering av seleksjon av nye proteindomener som er i stand til å danne stabilt foldede strukturer, og således for å identifisere nye strukturelle og funksjonelle elementer i proteiner. We have developed a different strategy for establishing the selection of new protein domains that are able to form stably folded structures, and thus to identify new structural and functional elements in proteins.

Oppfinnerne har realisert at idet strukturen av et «strukturelt» element er avhengig av sammenhengen, vil enkle strukturelle elementer tatt fra ett protein og lagt på. enkle strukturelle elementer fra et andre protein ikke nødvendigvis opprettholde deres opprinnelige struktur. Således har oppfinnerne ikke søkt å begrense segmentene til enkle fullstendige strukturelle elementer. Videre kan anvendelse av deler av strukturelle elementer tilveiebringe nye strukturer som ikke er enkle pga. nærhe til eksisterende strukturelle elementer, og anvendelse av segmentene omfatter multiple strukturelle elementer (og gjør pakkeinteraksjoner med hverandre) vil forventes å være mer stabile enn enkle strukturelle elementer, og mer sannsynlig å omfatte en signifikant «nugget» av struktur i det kimeriske domenet. The inventors have realized that since the structure of a "structural" element depends on the context, simple structural elements will be taken from one protein and added on. simple structural elements from a second protein do not necessarily maintain their original structure. Thus, the inventors have not sought to limit the segments to simple complete structural elements. Furthermore, the application of parts of structural elements can provide new structures that are not simple due to proximity to existing structural elements, and application of the segments comprising multiple structural elements (and making pack interactions with each other) would be expected to be more stable than single structural elements, and more likely to comprise a significant "nugget" of structure in the chimeric domain.

Således undersøker foreliggende oppfinnelse området proteinevolusjon ved å sammenstille sekvenssegmenter. «Sekvenssegmenter», som angitt heri, er aminosyresekvenser som ikke er konstruert eller selektert til å bestå kun av enkle og komplette proteinstrukturene elementer, og som ikke er designet eller selektert til å bestå av et komplett proteindomene. Foreliggendé oppfinnelse er således ikke rettet mot sammenstilling av diskrete og'enkle elementer av strukturer funnet i naturlig forekommende eller syntetiske proteiner, men til sammenstilling av blokker av mer enn ett strukturelt element eller med etablering av nye strukturelle elementer ved sammenstilling av sekvenser som, i isolasjon eller i deres opprinnelige miljø, ikke oppviser en diskret og komplett struktur. Thus, the present invention examines the area of protein evolution by combining sequence segments. "Sequence segments", as indicated herein, are amino acid sequences which are not designed or selected to consist only of simple and complete protein structural elements, and which are not designed or selected to consist of a complete protein domain. The present invention is thus not directed to the assembly of discrete and simple elements of structures found in naturally occurring or synthetic proteins, but to the assembly of blocks of more than one structural element or to the establishment of new structural elements by assembly of sequences which, in isolation or in their native environment, do not exhibit a discrete and complete structure.

Derfor er et «sekvenssegment» en aminosyresekvens som, i dens opprinnelige miljø, ikke omfatter et fullstendig proteindomene og ikke kodes av ett eller flere fullstendige naturlige eksoner. Videre, et «sekvenssegment», i dets opprinnelige miljø, danner ikke ett eller flere diskrete strukturelle elementer, men er i stedet del av et strukturelt element, eller fortrinnsvis, er lengre enn et strukturelt element. Sekvenssegmentet viser i isolasjon ingen signifikant folding ved smeltetemperaturen for det kimeriske protein; med andre ord, det oppviser ingen uavhengig struktur i isolert form. Therefore, a "sequence segment" is an amino acid sequence which, in its native environment, does not comprise a complete protein domain and is not encoded by one or more complete native exons. Furthermore, a "sequence segment", in its native environment, does not form one or more discrete structural elements, but instead is part of a structural element, or preferably, is longer than a structural element. The sequence segment in isolation shows no significant folding at the melting temperature of the chimeric protein; in other words, it exhibits no independent structure in isolated form.

«Opprinnelig miljø» for sekvenssegmentet er protein- eller polypeptidformen hvorfra segmentet er tatt, i dets foldede form. Dette kan være et naturlig protein, eller et artifisielt polypeptid eller protein. Fortrinnsvis tas The "native environment" of the sequence segment is the protein or polypeptide form from which the segment is taken, in its folded form. This can be a natural protein, or an artificial polypeptide or protein. Preferably taken

sekvenssegmentet fra en aminosyresekvens som er lengre enn selve sekvenssegmentet.. the sequence segment from an amino acid sequence that is longer than the sequence segment itself..

I samsvar med foreliggende oppfinnelse, i en første konfigurasjon, muliggjør det kombinatoriske rearrangement av proteinsekvenssegmentene seleksjon av nye foldede proteindomener fra kombinatoriske repertoarer. In accordance with the present invention, in a first configuration, the combinatorial rearrangement of the protein sequence segments enables the selection of new folded protein domains from combinatorial repertoires.

I et første aspekt tilveiebringer således foreliggende oppfinnelse et kimerisk foldet proteindomene som er avledet fra et repertoar av kimeriske proteiner, og som omfatter to eller flere sekvenssegmenter avledet fra opprinnelige aminosyresekvenser som ikke er homologe. Thus, in a first aspect, the present invention provides a chimeric folded protein domain which is derived from a repertoire of chimeric proteins, and which comprises two or more sequence segments derived from original amino acid sequences which are not homologous.

Fortrinnsvis er de opprinnelige aminosyresekvenser avledet fra proteindomener. De opprinnelige aminosyresekvenser kan være naturlige, semisyntetiske eller syntetiske av opprinnelse. De kan være avledet ved ekspresjon fra gener, eller sammenstilt med kjemisk syntese. Preferably, the original amino acid sequences are derived from protein domains. The original amino acid sequences may be natural, semi-synthetic or synthetic in origin. They may be derived by expression from genes, or assembled by chemical synthesis.

Fortrinnsvis er aminosyresekvenssegmentene avledet fra proteiner. I en fordelaktig utførelse er proteinene valgt fra gruppen som består av et naturlig forekommende protein, et konstruert protein, et protein med en kjent bindingsaktivitet, et protein med en kjent bindingsaktivitet for et peptid eller polypeptid,- et protein med en kjent bindingsaktivitet for et karbohydrat, et protein med en kjent bindingsaktivitet for en nukleinsyre, et protein med en kjent bindingsaktivitet for et hapten, et protein med en kjent bindingsaktivitet for et steroid, et protein med en kjent bindingsaktivitet for en uorganisk forbindelse, og et protein med en enzymaktivitet. Preferably, the amino acid sequence segments are derived from proteins. In an advantageous embodiment, the proteins are selected from the group consisting of a naturally occurring protein, an engineered protein, a protein with a known binding activity, a protein with a known binding activity for a peptide or polypeptide, - a protein with a known binding activity for a carbohydrate , a protein with a known binding activity for a nucleic acid, a protein with a known binding activity for a hapten, a protein with a known binding activity for a steroid, a protein with a known binding activity for an inorganic compound, and a protein with an enzyme activity.

Som anvendt heri inkluderer termen «aminosyre» de 20 naturlig forekommende aminosyrer, og likeledes ikke-naturlig-forekommende aminosyrer og modifiserte aminosyrer, så som merkede aminosyrer. Som anvendt heri angir termen «protein» en polymer hvor monomerene er aminosyrer som er koblet sammen gjennom peptid- eller disulfid-bindinger. Fortrinnsvis refererer «protein» til en full-lengde naturlig forekommende aminosyrekjede eller fragment derav, så som en selektert region av polypeptidet som er av interesse i en bindingsinteraksjon, eller en syntetisk aminosyrekjede, eller en kombinasjon derav. As used herein, the term "amino acid" includes the 20 naturally occurring amino acids, as well as non-naturally occurring amino acids and modified amino acids, such as labeled amino acids. As used herein, the term "protein" denotes a polymer in which the monomers are amino acids linked together through peptide or disulfide bonds. Preferably, "protein" refers to a full-length naturally occurring amino acid chain or fragment thereof, such as a selected region of the polypeptide of interest in a binding interaction, or a synthetic amino acid chain, or a combination thereof.

Sekvenssegmentene kan kombineres, i det kimeriske proteindomenet, på enhver egnet måte. Typisk vil segmentene kombineres ved rekombinante DNA-teknikker og vil således kobles, i det rekombinante protein, med peptidbindinger. I alternative utførelser kan segmentene syntetiseres separat og deretter kobles. Dette kan oppnås ved anvendelse av kovalent binding, f.eks. peptidbindinger, esterbindinger eller disulfidbindinger, eller ved ikke-kovalent binding. Fortrinnsvis omfatter sekvenssegmentene i samsvar med foreliggende oppfinnelse én eller flere reaksjonsgrupper for kovalent eller ikke-kovalent kobling. F.eks. kan linkere i stand til å assosieres ikke-kovalent, så som biotin/streptavidin, inkorporeres i sekvenssegmentene for å effektuere ikke-kovalent kobling. The sequence segments may be combined, in the chimeric protein domain, in any suitable manner. Typically, the segments will be combined by recombinant DNA techniques and will thus be linked, in the recombinant protein, with peptide bonds. In alternative embodiments, the segments may be synthesized separately and then linked. This can be achieved by using covalent bonding, e.g. peptide bonds, ester bonds or disulfide bonds, or by non-covalent bonding. Preferably, the sequence segments in accordance with the present invention comprise one or more reaction groups for covalent or non-covalent coupling. E.g. linkers capable of non-covalent association, such as biotin/streptavidin, can be incorporated into the sequence segments to effect non-covalent linkage.

Repertoaret hvorfra det kimeriske proteindomenet avledes kan være av i hovedsak enhver størrelse. Fortrinnsvis omfatter repertoaret minst 10000 individuelle proteindomener, mer fortrinnsvis omfatter det minst 1 mill. proteindomener, og mest fortrinnsvis minst 100 mill. proteindomener. The repertoire from which the chimeric protein domain is derived can be of essentially any size. Preferably, the repertoire comprises at least 10,000 individual protein domains, more preferably it comprises at least 1 million protein domains, and most preferably at least 100 million protein domains.

Sekvenssegmentene kan være ethvert egnet antall aminosyrer i lengde slik at den kombinerte lengde av segmentene representerer lengden av et komplett domene, hvilket domene varierer fra så lite som 35 enheter til flere hundre enheter i lengde. The sequence segments can be any suitable number of amino acids in length such that the combined length of the segments represents the length of a complete domain, which domain varies from as little as 35 units to several hundred units in length.

I et fordelaktig aspekt er de opprinnelige aminosyresekvenser avledet fra de åpne leserammer av et genom eller deler derav; In an advantageous aspect, the original amino acid sequences are derived from the open reading frames of a genome or parts thereof;

(a) hvor nevnte leserammer er den naturlige leseramme (a) where said reading frame is the natural reading frame

til genene, ellerto the genes, or

(b) hvor nevnte leserammer ikke er den naturlig forekommende leseramme til genene. (b) where said reading frames are not the naturally occurring reading frames of the genes.

Sekvenser kan således avledes fra ORF'er som fore-Sequences can thus be derived from ORFs that

ligger i et helt eller vesentlig helt genom av en organisme, eller en del derav, så som en gruppe eller familie av gener, som enten er relatert med struktur, funksjon eller evolusjon, eller ikke-relatert til hverandre. Delen av gehomet kan også bestå av et enkelt gen. located in an entire or substantially entire genome of an organism, or part thereof, such as a group or family of genes, which are either related by structure, function or evolution, or unrelated to each other. The part of the genome can also consist of a single gene.

Sekvensene kan videre være avledet fra to eller flere genomer, fra organismer som er beslektet eller ikke-beslektet. The sequences can further be derived from two or more genomes, from organisms that are related or unrelated.

Proteindomenet i samsvar med foreliggende oppfinnelse er i stand til folding pga. kombinasjon av to eller flere polypeptidsegmenter som, i isolasjon, ikke foldes og ikke definerer et enkelt strukturelt element i det opprinnelige protein. The protein domain in accordance with the present invention is capable of folding due to combination of two or more polypeptide segments that, in isolation, do not fold and do not define a single structural element of the original protein.

Fortrinnsvis selekteres proteindomenet i samsvar med foreliggende oppfinnelse i samsvar med deres resistens til proteolyse. Dette tilveiebringer et nyttig middel for å isolere kandidatdomener fra biblioteker, en seleksjonspro-sedyre kan konfigureres slik at kun proteolyse-resistente domener selekteres fra bibliotekene. Fortrinnsvis utføres proteolysen ved eksponering til en protease, så som termolysin. Preferably, the protein domain in accordance with the present invention is selected in accordance with their resistance to proteolysis. This provides a useful means of isolating candidate domains from libraries, a selection procedure can be configured so that only proteolysis resistant domains are selected from the libraries. Preferably, the proteolysis is carried out by exposure to a protease, such as thermolysin.

I en foretrukket utførelse kan proteindomenet i samsvar med foreliggende oppfinnelse selekteres i samsvar med deres aktivitet. Dette kan f.eks. være en bindingsaktivitet, f. eks. i tilfellet for immunoglobulin-lignende domener, eller enzymatisk aktivitet i tilfellet enzymdomenet. Alternativt kan proteindomenet ha kapasitet til å binde antistoff rettet mot det opprinnelige protein. Videre kan en screening for aktivitet utføres i tillegg til en seleksjon på basis av folding som bestemt med proteaseresi-stens. En slik løsning er spesielt fordelaktig der hvor en innledningsseleksjon på basis av aktivitet vil være van-skelig eller umulig å utføre. In a preferred embodiment, the protein domain in accordance with the present invention can be selected in accordance with their activity. This can e.g. be a bonding activity, e.g. in the case of immunoglobulin-like domains, or enzymatic activity in the case of the enzyme domain. Alternatively, the protein domain may have the capacity to bind antibody directed against the original protein. Furthermore, a screening for activity can be performed in addition to a selection based on folding as determined by protease resistance. Such a solution is particularly advantageous where an initial selection based on activity would be difficult or impossible to carry out.

Videre omfatter oppfinnelsen sammenstilling av sekvenssegmenter avledet av ikke-homologe domener som deler en lignende polypeptidfolding for minst deler av strukturen. Vi har observert, ved seleksjon av proteindomener i samsvar med oppfinnelsen, at sekvenssegmenter avledet fra opprinnelige proteindomener som har lignende folding for i det minste deler av deres strukturer, sammenstilles i noen av de nye kimeriske proteiner. Således tilveiebringer foreliggende oppfinnelse et kimerisk protein i samsvar med et første aspekt av oppfinnelsen, hvor sekvenssegmentene er fra opprinnelige domener med lignende polypeptidfoldinger i minst deler av strukturen. Furthermore, the invention encompasses the assembly of sequence segments derived from non-homologous domains that share a similar polypeptide fold for at least parts of the structure. We have observed, upon selection of protein domains in accordance with the invention, that sequence segments derived from original protein domains that have similar folding for at least parts of their structures are assembled in some of the new chimeric proteins. Thus, the present invention provides a chimeric protein in accordance with a first aspect of the invention, where the sequence segments are from original domains with similar polypeptide folds in at least parts of the structure.

Det er videre blitt observert at, i seleksjoner av proteindomener i samsvar med oppfinnelsen, har sekvenssegmenter avledet fra opprinnelige proteindomener som har totalt forskjellige foldinger for i det minste deler av deres strukturer, blitt sammenstilt i andre nye strukturer. Således tilveiebringer foreliggende oppfinnelse et kimerisk proteindomene omfattende to eller flere sekvenssegmenter avledet fra opprinnelige aminosyresekvenser, hvor sekvenssegmentene er hentet fra opprinnelig domene med forskjellige polypeptidfoldinger i det minste i deler av strukturen. It has further been observed that, in selections of protein domains according to the invention, sequence segments derived from original protein domains having totally different folds for at least parts of their structures have been assembled into other new structures. Thus, the present invention provides a chimeric protein domain comprising two or more sequence segments derived from original amino acid sequences, where the sequence segments are taken from the original domain with different polypeptide folds at least in parts of the structure.

Videre, i seleksjon av proteindomener i samsvar med den første konfigurasjon av oppfinnelsen, kan sekvenssegmenter avledet fra det samme proteindomenet observeres og sammenstilles for å danne nye strukturer. I noen tilfeller kan nevnte sekvenssegmenter omfatte regioner som sammen fører til en duplisering av sekvens i det kimeriske protein. Videre består fellesregionen ikke kun av ett eller flere komplette proteinstrukturene elementer. Det synes således som at duplisering av aminosyresegmenter eller deler derav, uten hensyn til nærvær av kun ett eller flere komplette strukturelle elementer, kan føre til dannelse av stabilt foldede strukturer. Slike dupliseringer omfatter en andre konfigurasjon av oppfinnelsen. Furthermore, in the selection of protein domains according to the first configuration of the invention, sequence segments derived from the same protein domain can be observed and assembled to form new structures. In some cases, said sequence segments may comprise regions which together lead to a duplication of sequence in the chimeric protein. Furthermore, the common region does not only consist of one or more complete protein structural elements. It thus appears that duplication of amino acid segments or parts thereof, regardless of the presence of only one or more complete structural elements, can lead to the formation of stably folded structures. Such duplications comprise a second configuration of the invention.

Som anvendt heri angir termene «regioner til felles» eller «fellesregioner» regioner som deler sekvenslikheter eller har en lignende folding. I denne sammenheng angir «sekvenslikhet» fortrinnsvis områder av identisk sekvens på minst 10 aminosyreenheter, mer fortrinnsvis minst 20 aminosyreenheter. As used herein, the terms "regions in common" or "common regions" denote regions that share sequence similarities or have a similar fold. In this context, "sequence similarity" preferably denotes regions of identical sequence of at least 10 amino acid units, more preferably at least 20 amino acid units.

I samsvar med den andre konfigurasjon av oppfinnelsen vil kombinasjonen av segmentene fra homologe proteiner, som fører til ekvivalente regioner fra disse homologe proteiner som bringes sammen i det samme protein, også forventes å føre til etablering av stabilt foldede strukturer. Regioner som er ekvivalente i homologe proteiner, identifiseres ved alignment av deres aminosyresekvenser. Det er faktisk mulig å kombinere segmenter fra ikke-homologe proteiner som deler en felles folding (vide supra), for å etablere stabilt foldede kimeriske proteiner fra segmenter som omfatter en felles region av en felles folding i de opprinnelige proteiner . In accordance with the second configuration of the invention, the combination of the segments from homologous proteins, leading to equivalent regions from these homologous proteins brought together in the same protein, would also be expected to lead to the establishment of stably folded structures. Regions that are equivalent in homologous proteins are identified by alignment of their amino acid sequences. It is indeed possible to combine segments from non-homologous proteins that share a common fold (vide supra), to establish stably folded chimeric proteins from segments that comprise a common region of a common fold in the original proteins.

Nevnte stabile foldede strukturer basert på duplikering av aminosyresegmenter er blitt etablert som et produkt av en vilkårlig shuffling av aminosyresekvenser, og ble selektert gjennom proteolytisk seleksjon pga. deres stabilitet. Duplisering eller faktisk multiplisering utført på andre ikke-vilkårlige måter, er tidligere blitt rapportert, inkluderende f.eks. Hardies et al., 1979 og Fire&Xu 1995). Oppfinnerne antar at nevnte metoder for duplisering og multiplisering også kan benyttes for duplisering eller multiplisering av aminosyresekvenser for å etablere nye og stabilt foldede domener under den andre konfigurasjon av oppfinnelsen. Slike stabile domener kan selekteres og screenes for på måter som er identiske eller lignende til de som benyttes for kimeriske domener avledet fra kombinatorisk shuffling. Said stable folded structures based on duplication of amino acid segments have been established as a product of an arbitrary shuffling of amino acid sequences, and were selected through proteolytic selection due to their stability. Duplication, or indeed multiplication carried out in other non-arbitrary ways, has previously been reported, including e.g. Hardies et al., 1979 and Fire&Xu 1995). The inventors assume that said methods for duplication and multiplication can also be used for duplication or multiplication of amino acid sequences to establish new and stably folded domains under the second configuration of the invention. Such stable domains can be selected and screened for in ways identical or similar to those used for chimeric domains derived from combinatorial shuffling.

Proteindomener i samsvar med begge konfigurasjoner ifølge foreliggende oppfinnelse kan etableres og selekteres på enhver egnet måte. Foretrukket er kombinatorisk re-arrangeringer av nukleinsyresegmenter, f.eks. i fag-frem-. visningsbiblioteker. Således tilveiebringer foreliggende oppfinnelse et kimerisk proteindomene i samsvar med et av de foregående aspekter ifølge oppfinnelsen, fusjonert til kappeproteiner av filamentøs bakteriofag, hvor nevnte bakteriofag omkapsler en proteinsyre som koder for proteindomenet . Protein domains in accordance with both configurations according to the present invention can be established and selected in any suitable way. Combinatorial rearrangements of nucleic acid segments are preferred, e.g. in subject-forward-. display libraries. Thus, the present invention provides a chimeric protein domain in accordance with one of the preceding aspects according to the invention, fused to coat proteins of filamentous bacteriophage, where said bacteriophage recapsulates a protein acid that codes for the protein domain.

Videre tilveiebringer begge konfigurasjoner ifølge oppfinnelsen en nukleinsyre som koder for et proteindomene i samsvar med oppfinnelsen, som definert ovenfor. Furthermore, both configurations according to the invention provide a nucleic acid which codes for a protein domain in accordance with the invention, as defined above.

I et ytterligere aspekt av begge konfigurasjoner ifølge oppfinnelsen kan aminosyresekvensene av ethvert kimerisk protein inneholde sekvenser konstruert for å oppvise epitoper for vaksinering mot det opprinnelige protein for nevnte aminosyresekvenser. F.eks. kan det benyttes et valgt polypeptidsegment fra kappeproteinet i et virus, som det skal fremstilles en vaksine mot, som kan inkorporeres som en konstitutiv partner i et kombinatorisk bibliotek av aminosyresekvenser generert gjennom shuffling med ett eller flere segmenter fra andre genetiske kilder. Resulterende kimeriske proteiner vil således omfatte segmentet av det virale kappeprotein i en rekke strukturelle omgivelser. Med screening eller seleksjon, f.eks. ved anvendelse av antistoff fra antisera rettet mot viruset, er det mulig å identifisere disse foldede kimeriske proteiner hvorfor den virale sekvens fremvises på en tilsvarende tredimensjonal konfigurasjon som det virale protein. Slike stabilt foldede proteiner blant disse kimeriske konstrukter kan anvendes for vaksinering og for å utløse en immunrespons mot det kimeriske protein som inkluderer.det virale aminosyre-segment. Vaksinering med et slikt protein resulterer i immunisering mot virus. Én fordel sammenlignet med vaksinering med det virale kappeprotein er at det således er mulig å fokusere immunresponsen mot én definert epitop på viruset, så som en nøytraliserende epitop. In a further aspect of both configurations according to the invention, the amino acid sequences of any chimeric protein may contain sequences engineered to exhibit epitopes for vaccination against the original protein for said amino acid sequences. E.g. a selected polypeptide segment from the coat protein of a virus, against which a vaccine is to be prepared, can be used, which can be incorporated as a constitutive partner in a combinatorial library of amino acid sequences generated through shuffling with one or more segments from other genetic sources. Resulting chimeric proteins will thus comprise the segment of the viral envelope protein in a variety of structural settings. With screening or selection, e.g. by using antibody from antisera directed against the virus, it is possible to identify these folded chimeric proteins, which is why the viral sequence is displayed on a corresponding three-dimensional configuration as the viral protein. Such stably folded proteins among these chimeric constructs can be used for vaccination and to trigger an immune response against the chimeric protein which includes the viral amino acid segment. Vaccination with such a protein results in immunization against viruses. One advantage compared to vaccination with the viral coat protein is that it is thus possible to focus the immune response against one defined epitope on the virus, such as a neutralizing epitope.

Det er også mulig å vaksinere mot definerte epitoper av humane proteiner med den samme strategi ved å kombinere et segment fra et humant protein med det fra en annen kilde. Segmentet av ikke-human kilde bør tilveiebringe T-celleepitoper som vil føre til en immunrespons mot den humane epitop. F.eks. er det mulig å reise en blokkerende (IgG)-antistoffrespons mot den del av IgE som binder til mastcellereseptoren. En slik respons er nyttig f.eks. ved å blokkere astma. Dette oppnås ved konstruksjon av et kimerisk protein som følger. Først inkorporeres segmenter fra IgE inn i kimeriske proteiner ved kombinasjon med et repertoar av ikke-humane segmenter, deretter screenes proteinet eller selekteres for binding til mast-celle-reseptoren eller til antistoff kjent for å binde IgE ved det kritiske sted, for det tredje anvendes de kimeriske proteiner med bindingsaktiviteter for immunisering. IgE-segmentene kan avledes ved vilkårlig fragmentering av IgE-genet, eller ved å anvende et segment allerede kjent til å interagere med reseptoren. For immunisering kan det være nødvendig å bygge inn flere potente T-celle-epitoper i den ikke-humane del, noe som kan oppnås ved å utføre mutasjoner i det ikke-humane segment. It is also possible to vaccinate against defined epitopes of human proteins with the same strategy by combining a segment from a human protein with that from another source. The segment of non-human source should provide T-cell epitopes that will lead to an immune response against the human epitope. E.g. is it possible to raise a blocking (IgG) antibody response against the part of IgE that binds to the mast cell receptor. Such a response is useful e.g. by blocking asthma. This is achieved by constructing a chimeric protein as follows. First, segments from IgE are incorporated into chimeric proteins by combination with a repertoire of non-human segments, then the protein is screened or selected for binding to the mast cell receptor or to antibody known to bind IgE at the critical site, thirdly, using the chimeric proteins with binding activities for immunization. The IgE segments can be derived by arbitrary fragmentation of the IgE gene, or by using a segment already known to interact with the receptor. For immunization, it may be necessary to incorporate multiple potent T-cell epitopes into the non-human portion, which can be achieved by performing mutations in the non-human segment.

Fortrinnsvis omfatter således det kimeriske protein i samsvar med foreliggende oppfinnelse en epitop av en opprinnelig aminosyresekvens. Fortrinnsvis er epitopen en strukturell epitop. Preferably, the chimeric protein in accordance with the present invention thus comprises an epitope of an original amino acid sequence. Preferably, the epitope is a structural epitope.

Epitoper som er i det kimeriske protein i samsvar med oppfinnelsen, i en foretrukket utførelese, kryssreagerer med antistoff rettet med en opprinnelig aminosyresekvens, eller fordelaktig, det foldede opprinnelige protein. Epitopes that are in the chimeric protein according to the invention, in a preferred embodiment, cross-react with antibody directed with a native amino acid sequence, or advantageously, the folded native protein.

I et ytterligere aspekt av begge konfigurasjoner ifølge oppfinnelsen kan segmentene være avledet' fullstendig fra humane proteiner. Det forventes at disse proteiner vil være mindre immunogene i mennesker enn fremmede proteiner, idet sekvensene av proteinet nesten fullstendig vil være humane. Selv om slike nye humane proteiner vil forventes å være forskjellige i tredimensjonal struktur fra eksisterende humane proteiner, (og deretter å omfatte nye B-celle-epitoper), vil de omfatte T-celleepitoper avledet fra andre humane proteiner (med unntak av sekvensene som flankerer koblingen mellom segmentene). Slike proteiner, som ikke er immunogene, eller kun svakt, vil være svært egnet for terapeutiske formål eller for å unngå sensitisering i mennesker (f.eks. enzymer i vaskepulver). In a further aspect of both configurations according to the invention, the segments may be derived entirely from human proteins. It is expected that these proteins will be less immunogenic in humans than foreign proteins, since the sequences of the protein will be almost completely human. Although such new human proteins would be expected to differ in three-dimensional structure from existing human proteins, (and subsequently to include novel B-cell epitopes), they would include T-cell epitopes derived from other human proteins (with the exception of the sequences flanking the link between the segments). Such proteins, which are not immunogenic, or only weakly so, would be very suitable for therapeutic purposes or to avoid sensitization in humans (eg enzymes in washing powder).

Det er usannsynlig at det kimeriske protein i enhver sammenheng vil etterligne den tredimensjonale overflate til det opprinnelige protein i regionen av målsegmenter . Dette kan være ønskelig idet det kan muliggjøre at proteinet kan adoptere en konformasjon som har endrede bindingsaktiviteter. Således kan slike proteiner være nyttige som forbedrede enzyminhibitorer. It is unlikely that the chimeric protein will in any context mimic the three-dimensional surface of the original protein in the region of target segments. This may be desirable as it may enable the protein to adopt a conformation that has altered binding activities. Thus, such proteins may be useful as improved enzyme inhibitors.

Videre tilveiebringer foreliggende oppfinnelse i begge konfigurasjoner for etablering av små domener som etter-ligner deler av overflaten av et større protein. Én fordel med små domener er at de enklere kan muliggjøre at den tredimensjonale struktur kan løses med røntgen-krystallo-grafi eller NMR, og også ved høyere oppløsning. Dette vil forenkle konstruksjon av ikke-proteinmedikamenter basert på strukturen. Furthermore, the present invention provides in both configurations for the creation of small domains that mimic parts of the surface of a larger protein. One advantage of small domains is that they can more easily enable the three-dimensional structure to be solved with X-ray crystallography or NMR, and also at higher resolution. This will simplify the construction of non-protein drugs based on the structure.

Videre muliggjør oppfinnelsen i begge konfigurasjoner fusjon av individuelle sekvenssegmenter sammenkoblet i det kimeriske protein til ytterligere stabilt foldede og fullstendige proteindomener. Fusjonen til ytterligere domener kan tilveiebringe et middel for selektering av de kimeriske proteindomener (se metoder nedenfor). De kan også fungere for å komplementere det kimeriske proteindomenet for å utføre en spesifikk funksjon, f.eks. binding, immunogeni-sitet eller katalysering. Furthermore, the invention in both configurations enables the fusion of individual sequence segments connected in the chimeric protein to further stably folded and complete protein domains. The fusion of additional domains can provide a means of selecting the chimeric protein domains (see methods below). They may also function to complement the chimeric protein domain to perform a specific function, e.g. binding, immunogenicity or catalysis.

I den andre konfigurasjon av oppfinnelsen kan nærvær av minst to regioner av den samme sekvens eller tilsvarende (homologe sekvenser) i det kimeriske protein muliggjøre utvikling av kimeriske proteiner som bindes til ligander ved hvert av de to steder. Dette kan være en fordel ved å gi forbedret «...» av binding hvor begge hoder engasjerer dimerisk ligand (eller andre multimerer), og også tilveiebringer to bindingsseter med forskjellige affiniteter, som dekker et større dynamisk område i binding til en ligand. In the second configuration of the invention, the presence of at least two regions of the same sequence or equivalent (homologous sequences) in the chimeric protein may enable the development of chimeric proteins that bind to ligands at each of the two sites. This may be advantageous by providing improved "..." of binding where both heads engage dimeric ligand (or other multimers), and also provide two binding sites with different affinities, covering a larger dynamic range in binding to a ligand.

Et ytterligere aspekt av den første konfigurasjon ifølge oppfinnelsen vedrører en fremgangsmåte for selektering av et proteindomene i samsvar med oppfinnelsen som definert ovenfor. Således tilveiebringer oppfinnelsen en fremgangsmåte for fremstilling av et proteindomene i samsvar med det første aspekt av oppfinnelsen, kjennetegnet ved at den omfatter trinnene: (a) tilveiebringe et første bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder for sekvenssegmenter avledet fra én eller flere aminosyresekvenser, hvor kodesekvensene ikke er selektert eller konstruert at de kun koder for et enkelt og komplett proteinstrukturelement eller kodet for et komplett proteindomene, (b) tilveiebringe et andre bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder for sekvenssegmenter avledet fra én eller flere aminosyresekvenser, hvor partnerkodesekvensen ikke er selektert eller konstruert slik at den kun koder for et enkelt og komplett proteinstrukturelement, eller koder for et komplett proteindomene, (c) kombinere kodesekvensene for å danne et kombinatorisk bibliotek av nukleinsyrer, hvor nukleinsyrene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter avledet fra de første og andre biblioteker, (d) transkribere og/eller translatere de kontiguøse kodesekvenser for å produsere de kodede proteindomener, (e) selektere de kimeriske proteindomener som er i stand til å adoptere en foldet struktur, eller for å oppfylle en spesifikk funksjon. A further aspect of the first configuration according to the invention relates to a method for selecting a protein domain in accordance with the invention as defined above. Thus, the invention provides a method for producing a protein domain in accordance with the first aspect of the invention, characterized in that it comprises the steps: (a) providing a first library of nucleic acids, where the library comprises coding sequences that encode sequence segments derived from one or more amino acid sequences , where the coding sequences are not selected or engineered to only code for a single and complete protein structural element or code for a complete protein domain, (b) providing a second library of nucleic acids, where the library comprises coding sequences that code for sequence segments derived from one or more amino acid sequences, where the partner coding sequence is not selected or engineered so that it only codes for a single and complete protein structural element, or codes for a complete protein domain, (c) combining the coding sequences to form a combinatorial library of nucleic acids, wherein the nucleic acids comprise contiguous coding sequences see coding sequence fragments derived from the first and second libraries, (d) transcribe and/or translate the contiguous coding sequences to produce the encoded protein domains, (e) select the chimeric protein domains capable of adopting a folded structure, or to fulfill a specific function.

Bibliotek i samsvar med foreliggende oppfinnelse kan konstrueres slik at sekvenser som er homologe til partnerkodesekvensen ekskluderes. F.eks. kan bibliotek baseres på en artifisiell kombinasjon av løse strukturer, noe som betyr at nærvær eller fravær av sekvenshomologer til partnerkodesekvensen kan reguleres. Imidlertid, dersom genomiske biblioteker anvendes, er det mulig at sekvenser som er homologe til partnersekvensen kan foreligge. I et foretrukket aspekt inkluderer således fremgangsmåten i samsvar med oppfinnelsen ytterligere trinnene: (f) analysere sekvensen av de selekterte kimeriske proteindomener for å identifisere opprinnelsen til sekvenssegmentene, og (g) sammenligne sekvensene av hver av de opprinnelige aminosyresekvenser for å identifisere om sekvensene av de opprinnelige aminosyresekvenser er ikke-homologe. Tilsvarende er det mulig å konstruere biblioteker omfattende sekvenssegmenter avledet fra definerte protein-foldinger. Imidlertid er det nødvendig å bestemme om det isolerte proteindomenet i samsvar med oppfinnelsen er sammensatt av sekvenssegmenter avledet fra opprinnelige domener som har den samme folding, og fremgangsmåten i samsvar med oppfinnelsen inkluderer fortrinnsvis trinnet: • (h) sammenligne strukturene av hvert av de opprinnelige domener for å identifisere om de har samme polypeptidfolding i hele, eller deler. Libraries in accordance with the present invention can be constructed so that sequences homologous to the partner coding sequence are excluded. E.g. libraries can be based on an artificial combination of loose structures, meaning that the presence or absence of sequence homologues to the partner coding sequence can be regulated. However, if genomic libraries are used, it is possible that sequences homologous to the partner sequence may be present. Thus, in a preferred aspect, the method according to the invention further includes the steps: (f) analyzing the sequence of the selected chimeric protein domains to identify the origin of the sequence segments, and (g) comparing the sequences of each of the original amino acid sequences to identify whether the sequences of the original amino acid sequences are non-homologous. Correspondingly, it is possible to construct libraries comprising sequence segments derived from defined protein folds. However, it is necessary to determine whether the isolated protein domain according to the invention is composed of sequence segments derived from original domains having the same folding, and the method according to the invention preferably includes the step: • (h) comparing the structures of each of the original domains to identify whether they have the same polypeptide folding in whole, or parts.

I et ytterligere foretrukket aspekt vedrører første konfigurasjon av oppfinnelsen kombinasjonen av et bibliotek av sekvenssegmenter med en unik partnerkodesekvens avledet fra et protein. Partnersekvensen er i denne forbindelse tilveiebragt som en unik sekvens. Således kan trinnene (b) og (c) i fremgangsmåten i samsvar med den første konfigurasjon av oppfinnelsen som angitt ovenfor, modifiseres som følger: (b) tilveiebringe en partnerkodesekvens som koder fra en segmentsekvens avledet fra ett protein, hvor partnerkodesekvensen ikke er selektert eller konstruert slik at den kun koder for et enkelt og komplett proteinstrukturelement eller koder for et komplett proteindomene, In a further preferred aspect, the first configuration of the invention relates to the combination of a library of sequence segments with a unique partner coding sequence derived from a protein. In this connection, the partner sequence is provided as a unique sequence. Thus, steps (b) and (c) of the method in accordance with the first configuration of the invention as set forth above may be modified as follows: (b) providing a partner code sequence encoding from a segment sequence derived from one protein, where the partner coding sequence is not selected or constructed so that it only codes for a single and complete protein structural element or codes for a complete protein domain,

(c) kombinere biblioteket og partnerkodesekvensene for å danne et kombinatorisk bibliotek av nukleinsyrer, hvor nukleinsyrene omfatter konti-guøse kodesekvenser som koder for sekvensfragmenter avledet fra det første bibliotek og partnerkodesekvensen. (c) combining the library and the partner coding sequences to form a combinatorial library of nucleic acids, the nucleic acids comprising contiguous coding sequences encoding sequence fragments derived from the first library and the partner coding sequence.

Et ytterligere aspekt av den andre konfigurasjon ifølge oppfinnelsen vedrører en fremgangsmåte for å selektere et proteindomene, hvor de individuelle sekvenssegmenter omfatter fellessekvenser. Således tilveiebringer oppfinnelsen en fremgangsmåte for å fremstille et proteindomene i samsvar med det første aspekt av oppfinnelsen, kjennetegnet ved at den omfatter trinnene: (a) tilveiebringe et første bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder sekvenssegmenter avledet fra én eller flere aminosyresekvenser, hvor kodesekvensene ikke er selektert eller konstruert for å kode et komplett proteindomene, (b) tilveiebringe et andre bibliotek av nukleinsyrer, hvor det nevnte bibliotek omfatter kodesekvenser som koder fra sekvenssegmenter avledet fra én eller flere aminosyresekvenser, hvor partnerkodesekvensen ikke er selektert eller konstruert slik at den koder for et enkelt eller komplett amin-syreelement eller koder for et komplett proteindomene, (c) kombinere kodesekvensene for å danne et kombinatorisk bibliotek for nukleinsyrer, A further aspect of the second configuration according to the invention relates to a method for selecting a protein domain, where the individual sequence segments comprise common sequences. Thus, the invention provides a method for producing a protein domain in accordance with the first aspect of the invention, characterized in that it comprises the steps: (a) providing a first library of nucleic acids, where the library comprises coding sequences that encode sequence segments derived from one or more amino acid sequences, where the coding sequences are not selected or engineered to encode a complete protein domain, (b) providing a second library of nucleic acids, wherein said library comprises coding sequences that encode from sequence segments derived from one or more amino acid sequences, where the partner coding sequence is not selected or engineered such that it encodes a single or complete amino acid element or encodes a complete protein domain, (c) combining the coding sequences to form a combinatorial library of nucleic acids;

hvor nukleinsyrene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter avledet fra de første og andre biblioteker, (d) transkribere og/eller translatere de kontiguøse kodesekvenser for å produsere de kodede proteindomener, (e) selektere de kimeriske proteindomener, som er i stand til å adoptere en foldet struktur, eller å oppfylle en spesifikk funksjon, wherein the nucleic acids comprise contiguous coding sequences encoding sequence fragments derived from the first and second libraries, (d) transcribing and/or translating the contiguous coding sequences to produce the encoded protein domains, (e) selecting the chimeric protein domains, which are capable of adopting a folded structure, or to fulfill a specific function,

og valgfritt:and optionally:

(f) analysere sekvensene til de selekterte kimeriske proteindomener for å identifisere opprinnelsen til sekvenssegmentene, og (g) sammenligne sekvensene for å identifisere om de omfatter felles sekvenser. (f) analyzing the sequences of the selected chimeric protein domains to identify the origin of the sequence segments, and (g) comparing the sequences to identify whether they comprise common sequences.

Tilsvarende, i et ytterligere aspekt av den andre konfigurasjon vedrører foreliggende oppfinnelse en fremgangsmåte for å selektere et proteindomene, hvor de individuelle sekvenssegmenter omfatter felles regioner fra de opprinnelige proteiner med en felles folding. Imidlertid, dersom det er nødvendig å bestemme om det isolerte proteindomenet i samsvar med oppfinnelsen er sammensatt av sekvenssegmenter avledet fra opprinnelige domener, krever fremgangsmåten i samsvar med foreliggende oppfinnelse fortrinnsvis ikke trinn (g) ovenfor, men inkluderer i stedet trinnene: Correspondingly, in a further aspect of the second configuration, the present invention relates to a method for selecting a protein domain, where the individual sequence segments comprise common regions from the original proteins with a common folding. However, if it is necessary to determine whether the isolated protein domain according to the invention is composed of sequence segments derived from native domains, the method according to the present invention preferably does not require step (g) above, but instead includes the steps:

(g) sammenligne strukturene av de opprinne-(g) compare the structures of the origin-

lige aminosyresekvenser for å identifisere om de opprinnelige proteiner har en felles folding, og identical amino acid sequences to identify whether the original proteins have a common folding, and

(h) identifisere om segmentene omfatter en(h) identify whether the segments include a

felles region i den felles folding.common region in the common folding.

I et ytterligere foretrukket aspekt vedrører en andre konfigurasjon ifølge oppfinnelsen kombinasjonen av et bibliotek av sekvenssegmenter med en unik partnerkodesekvens avledet fra et protein. Partnersekvensen er i dette aspekt tilveiebrakt som en unik sekvens. Således kan trinnene (b) og (C) i fremgangsmåten ifølge den andre konfigurasjon som angitt ovenfor modifiseres slik at: (a) tilveiebringe en partnerkodesekvens som koder for et sekvenssegment avledet fra et protein hvor nevnte partnerkodesekvens ikke er selektert eller designet slik at den kun koder for et enkelt og fullstendig proteindomene; (b) kombinere biblioteket og partnerkodesekvensene for å danne et kombinatorisk bibliotek av nukleinsekvenser, hvor nukleinsekvensene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter som er avledet fra det første bibliotek og partnerkodesekvensen. In a further preferred aspect, a second configuration according to the invention relates to the combination of a library of sequence segments with a unique partner coding sequence derived from a protein. The partner sequence is in this aspect provided as a unique sequence. Thus, steps (b) and (C) in the method according to the second configuration as indicated above can be modified so as to: (a) provide a partner coding sequence which codes for a sequence segment derived from a protein where said partner coding sequence has not been selected or designed so that it only encodes a single and complete protein domain; (b) combining the library and the partner coding sequences to form a combinatorial library of nucleic sequences, the nucleic sequences comprising contiguous coding sequences encoding sequence fragments derived from the first library and the partner coding sequence.

Fortrinnsvis, ifølge fremgangsmåtene ifølge begge konfigurasjonene ifølge oppfinnelsen, er domenene som er i stand til å adoptere en foldet struktur selektert ved hjelp av en eller flere metoder valgt fra gruppen som består av in vivo proteolyse, in vitro proteolyse, bindingsevne, funksjonell aktivitet og ekspresjon. Preferably, according to the methods according to both configurations according to the invention, the domains capable of adopting a folded structure are selected by means of one or more methods selected from the group consisting of in vivo proteolysis, in vitro proteolysis, binding capacity, functional activity and expression .

I en ytterligere utførelse kan en aminosyresekvens av ethvert av de kimeriske proteiner som er produsert ved kombinatorisk shuffling i samsvar med begge konfigurasjoner ifølge oppfinnelsen muteres eller forandres etter den opprinnelige sammenstilling av moraminosyresekvensene. Slike forandringer kan introduseres på en av følgende måter: In a further embodiment, an amino acid sequence of any of the chimeric proteins produced by combinatorial shuffling in accordance with both configurations according to the invention can be mutated or changed after the original assembly of the mor amino acid sequences. Such changes can be introduced in one of the following ways:

(a) designe og indtrodusere spesifikke eller vilkårlige mutasjoner ved forutbestemte posisjoner innen genet i det kimeriske protein, (b) deletere nukleotider i genet i det kimeriske (a) designing and introducing specific or arbitrary mutations at predetermined positions within the gene in the chimeric protein, (b) deleting nucleotides in the gene in the chimeric

protein for å fjerne aminosyreenheter,protein to remove amino acid units,

(c) innsette nukleotider i genet i det kimeriske (c) inserting nucleotides into the gene in the chimeric

protein for å innsette aminosyreenheter,protein to insert amino acid units,

(d) tilføye nukleotider til genet i det kimeriske (d) adding nucleotides to the gene in the chimeric

protein for å tilføye aminosyreenheter,protein to add amino acid units,

(e) vilkårlig introdusere mutasjoner i alle eller deler av genet som koder for det kimeriske protein gjennom rekombinant DNA-teknologi, (f) vilkårlig introdusere mutasjoner i genet i det kimeriske protein gjennom propagering i muterende celler, (g) introdusere derivater av naturlige aminosyrer (e) arbitrarily introduce mutations into all or part of the gene encoding the chimeric protein through recombinant DNA technology, (f) arbitrarily introduce mutations into the gene of the chimeric protein through propagation in mutant cells, (g) introduce derivatives of natural amino acids

gjennom kjemisk syntese,through chemical synthesis,

(h) kjemisk derivatisering av aminosyregrupper etter (h) chemical derivatization of amino acid groups by

syntese,synthesis,

(i) multimerisering av kimeriske proteiner gjennom ... av to eller flere kopier av genet i en enkel åpen leseramme, (i) multimerization of chimeric proteins through ... of two or more copies of the gene in a single open reading frame,

(j) multiplisere de kimeriske proteiner gjennom kovalent kobling av to eller flere kopier av det kimeriske proteindomenet etter translasjon, (j) multiply the chimeric proteins by covalently linking two or more copies of the chimeric protein domain after translation;

(k) multimerisere de kimeriske proteiner.gjennom fusjon til en multimerisk partner. (k) multimerize the chimeric proteins through fusion to a multimeric partner.

Enhver av de nevnte forandringer kan forbedre stabiliteten eller funksjonen til det kimeriske protein. F.eks. kan forandringene ha som formål å nå predikerte strukturelle krav inne i de kombinerte sekvenser som er fordelaktige for dannelsen av spesifikke polypeptidfoldinger eller for å introdusere spesifikke aminosyresekvenser for å oppfylle en bestemt funksjon. Et eksempel på en slik forbedring er gitt i Eksempel 14 i den eksperimentelle seksj on. Any of the aforementioned changes may improve the stability or function of the chimeric protein. E.g. the changes may be intended to reach predicted structural requirements within the combined sequences that are beneficial for the formation of specific polypeptide folds or to introduce specific amino acid sequences to fulfill a specific function. An example of such an improvement is given in Example 14 in the experimental section.

Oppfinnelsen omfatter ytterligere optimalisering av The invention includes further optimization of

regionene av N- og C-termini av rekombinerte aminosyresegmenter. Således er både kobling og enderegionene som deler i et kimerisk protein ikke optimalisert til med hensyn til stabilitet og/eller funksjon av det kimeriske protein. Naturlige proteiner, som er blitt etablert gjennom en re-kombinatorisk hendelse, er deretter optimalisert gjennom (punkt) mutasjonshendelser og darwinistisk seleksjon. Denne prosess kan etterlignes in vitro for kimerisk protein som definert heri, f.eks. ved å anvende de angitte metoder (inkluderende mutasjon, delesjon og/eller addisjon av aminosyreenheter). the regions of the N- and C-termini of recombined amino acid segments. Thus, both the link and the end regions that divide into a chimeric protein are not optimized with regard to stability and/or function of the chimeric protein. Natural proteins, which have been established through a recombinatorial event, are then optimized through (point) mutation events and Darwinian selection. This process can be mimicked in vitro for chimeric protein as defined herein, e.g. by using the specified methods (including mutation, deletion and/or addition of amino acid units).

Kimeriske proteiner som inneholder slike forbedringer kan identifiseres av én eller flere fremgangsmåter anvendt for seleksjonen og screening av det opprinnelige kombinatoriske bibliotek. Det kan videre være fordelaktig å produsere selekterte kimeriske proteindomener i en multimerisert form, f.eks. for å øke stabilitet gjennom interdomene-interaksjoner eller forbedre binding til en ligand gjennom aviditetseffekter. Chimeric proteins containing such improvements can be identified by one or more methods used for the selection and screening of the original combinatorial library. It may also be advantageous to produce selected chimeric protein domains in a multimerized form, e.g. to increase stability through interdomain interactions or improve binding to a ligand through avidity effects.

Kort beskrivelse av figureneBrief description of the figures

Fig. 1. Proteolyse av selekterte fag og kimeriske proteiner, (a) ELISA for barstar-binding av fag lc2 (firkanter), lbll (sirkler), lg6 (diamanter) og csp/2 (trekanter) før og etter trypsin/termolysin-behandling ved forskjellige temperaturer. SDS-PAGE av proteiner His-lc2, His-lbll og His-lg6 før og etter behandling med trypsin, termolysin og chymotrypsin ved 25°C. Fig. 2. Sirkulær dikroisme og termodenaturering av kimeriske proteiner, (a) Sirkulære dikroisme-spektra av His-lc2 (øverste spor) og His-2f3 (nederste spor) ved 20°C. Elliptisitet av His-lc2 (ved 205 nm, øverste spor) og His-2f3 (ved 223 nm, laveste spor) ved forskjellige temperaturer . Fig. 3. Nukleærmagnetisk resonansanalyse av kimeriske proteiner. ID-H-NMR-spektra av His-2f3 opptatt (a) ved 25°C i H20 og (b) etter inkubering i 24 timer ved 25°C icD20. 1D-<X>H NMR-spektra His-lc2 opptatt ved 30°C (c) i H20 og (d) etter inkubering i 24 timer ved 25°C i D20. 2D-<1>H-NOESY--spektra av His-lc2 opptatt ved 30°C (e) i H20. Fig. 4. Biotin-CspA ELISA. Et kanin-anti-CspA-antiserum ble inkubert med varierende mengder løselig His-CspA. His-lc2. His-2fc, His-lbll eller lysozym (som en negativ kontroll) før binding til biotinylert CspA immobilisert på streptavidin-belagte ELISA-brønner. Bundet kanin-antisera ble detektert med en HRP-konjugert geit-anti-kanin IgG antiserum. Fig. 1. Proteolysis of selected phage and chimeric proteins, (a) ELISA for barstar binding of phage lc2 (squares), lbll (circles), lg6 (diamonds) and csp/2 (triangles) before and after trypsin/thermolysin treatment at different temperatures. SDS-PAGE of proteins His-lc2, His-lbll and His-lg6 before and after treatment with trypsin, thermolysin and chymotrypsin at 25°C. Fig. 2. Circular dichroism and thermodenaturation of chimeric proteins, (a) Circular dichroism spectra of His-lc2 (top trace) and His-2f3 (bottom trace) at 20°C. Ellipticity of His-lc2 (at 205 nm, top trace) and His-2f3 (at 223 nm, bottom trace) at different temperatures. Fig. 3. Nuclear magnetic resonance analysis of chimeric proteins. ID-H NMR spectra of His-2f3 taken (a) at 25°C in H 2 O and (b) after incubation for 24 h at 25°C in H 2 O. 1D-<X>H NMR spectra of His-lc2 taken at 30°C (c) in H 2 O and (d) after incubation for 24 h at 25°C in D 2 O. 2D-<1>H-NOESY spectra of His-lc2 taken at 30°C (e) in H2O. Fig. 4. Biotin-CspA ELISA. A rabbit anti-CspA antiserum was incubated with varying amounts of soluble His-CspA. His-lc2. His-2fc, His-lbll or lysozyme (as a negative control) before binding to biotinylated CspA immobilized on streptavidin-coated ELISA wells. Bound rabbit antisera was detected with an HRP-conjugated goat anti-rabbit IgG antiserum.

Detaljert beskrivelse av oppfinnelsenDetailed description of the invention

Den foreliggende oppfinnelse vedrører kimeriskeThe present invention relates to chimerics

foldede proteindomener. I forbindelse med foreliggende oppfinnelse angir termen «foldet» at proteindomenene er i stand til å adoptere, eller har adoptert, en stabil tertiær struktur. Stabilitet i denne sammenheng kan defineres som konformasjonsstabilitet av proteinet, som er forskjellen i fri energi mellom de foldede og ikke-foldede konformasjoner under fysiologiske tilstander, jo høyere denne verdi er, desto høyere er energien som er nødvendig for å utfolde proteinet, og således er stabiliteten større for den foldede struktur. Et kvantitativt mål på denne konformasjons- folded protein domains. In connection with the present invention, the term "folded" indicates that the protein domains are able to adopt, or have adopted, a stable tertiary structure. Stability in this context can be defined as conformational stability of the protein, which is the difference in free energy between the folded and unfolded conformations under physiological conditions, the higher this value is, the higher the energy required to unfold the protein, and thus the stability greater for the folded structure. A quantitative measure of this conformational

stabilitet av proteiner, Gibbs fri-energi for folding, kan bestemmes fra reversible termodynamikker. Proteiner under-går orden/uorden-transisjoner, som kan detekteres i diffe-rensielle scanning-kalorimetri (DSC)-profiler av spesifikk varme vs. temperatur. stability of proteins, the Gibbs free energy of folding, can be determined from reversible thermodynamics. Proteins undergo order/disorder transitions, which can be detected in differential scanning calorimetry (DSC) profiles of specific heat vs. temperature.

Fortrinnsvis er den frie energi for folding som oppvises at et proteindomene i samsvar med oppfinnelsen 1,6 kcal/mol eller høyere, fortrinnsvis er den 3 kcal/mol eller høyere, og mest fortrinnsvis er den 5 kcal/mol eller høyere. Preferably, the free energy for folding exhibited by a protein domain according to the invention is 1.6 kcal/mol or higher, preferably it is 3 kcal/mol or higher, and most preferably it is 5 kcal/mol or higher.

Foldede proteiner som danner stabile strukturer er kjent å være resistente proteolyse. Således tilveiebringer oppfinnelsen for seleksjon av foldede protein domener i samsvar med oppfinnelsen ved anvendelse av proteaseenzymer, som spalter og fortrinnsvis eliminerer ustabile og ufoldede domener. «Foldet» kan derfor defineres i termer av resistens til proteolyse under analysebetingelser. Eksempler på betingelser er angitt i eksemplene nedenfor. Folded proteins that form stable structures are known to be resistant to proteolysis. Thus, the invention provides for the selection of folded protein domains in accordance with the invention using protease enzymes, which cleave and preferably eliminate unstable and unfolded domains. The "fold" can therefore be defined in terms of resistance to proteolysis under assay conditions. Examples of conditions are set out in the examples below.

Sekvenssegmenter i samsvar med oppfinnelsen er sekvenser av naturlige proteinsekvenser, som forekommer i naturlig-■ forekommende proteiner, eller artifisielle segmenter av sekvenser modulert på sekvensen eller strukturen av naturlig-forekommende proteiner. Sekvenssegmentene kan være mellom 10 og 100 aminosyrer i lengde, eller lengre, fortrinnsvis mellom 15 og 50 aminosyrer i lengde, og mer fortrinnsvis mellom 20 og 45 aminosyrelengder, eller hvor oppfinnelsen vedrører nukleinsyrer, den nødvendige lengde for å kode for slike aminosyresekvenser. Sequence segments in accordance with the invention are sequences of natural protein sequences, which occur in naturally occurring proteins, or artificial segments of sequences modulated on the sequence or structure of naturally occurring proteins. The sequence segments can be between 10 and 100 amino acids in length, or longer, preferably between 15 and 50 amino acids in length, and more preferably between 20 and 45 amino acid lengths, or where the invention relates to nucleic acids, the necessary length to code for such amino acid sequences.

Sekvenssegmentene i samsvar med oppfinnelsen er avledet fra opprinnelige proteindomener som er ikke er homologe . The sequence segments in accordance with the invention are derived from original protein domains which are not homologous.

Termen «opprinnelige ("parent") aminosyresekvenser» angir enhver aminosyresekvens som kodes for av åpne lese rammer inne i DNA-sekvensene, som danner kilden for de klo-nede DNA-segmenter som del av de kombinatoriske biblioteker som angitt i patentkravene. Slike leserammer kan være del av den opprinnelige leseramme av genene, eller skiftede leserammer eller av reverstråd for genene. De kan også være en del av intrageniske regioner, som er kjent for å kode et protein. Opprinnelige gener kan være naturlige eller syntetiske . The term "parent" amino acid sequences denotes any amino acid sequence encoded by open reading frames within the DNA sequences, which form the source of the cloned DNA segments as part of the combinatorial libraries as set forth in the patent claims. Such reading frames can be part of the original reading frame of the genes, or shifted reading frames or of the reverse strand of the genes. They can also be part of intragenic regions, which are known to encode a protein. Original genes can be natural or synthetic.

Som beskrevet i introduksjonen refererer termen homologi mellom to eller flere proteiner eller proteindomener til en likhet eller identitet i både deres aminosyresekvenser og deres strukturelle folding. For foreliggende formål skal termen «homologi» kun angi graden av identitet mellom to opprinnelige aminosyresekvenser. As described in the introduction, the term homology between two or more proteins or protein domains refers to a similarity or identity in both their amino acid sequences and their structural folding. For present purposes, the term "homology" shall indicate only the degree of identity between two original amino acid sequences.

Homologe aminosyresekvenser har 35% eller større identitet (f.eks. ved minst 40% identitet, 50% identitet, 60% identitet, 70% identitet, eller minst 80% identitet, slik at ved minst 90% identitet, eller ved minst 95% identitet). Homologe nukleinsyresekvenser er nukleinsyresekvenser som koder for homologe polypeptider, som definert. Aktuell nukleinsyrehomologi/identitetsverdier kan bestemmes ved anvendelse av «Align»-programmet av Myers&Miller 1988, («Optimal Alignment in Linear Space») og tilgjengelig ved NCBI. Alternativt, eller i tillegg, kan termen «homologi», f.eks. med hensyn til en nukleotid eller aminosyresekvens, indikere et kvantitativt mål for homologi mellom to sekvenser. Prosent sekvenshomologi kan beregnes som (Nref - Ndif) *100/Nref , hvor Ndifer det totale antall ikke-identiske enheter i de to sekvenser idet disse alignes, og hvor Nrefer antallet enheter i én av sekvensene. Således har DNA-sekvensen AGTCAGTC sekvenslikhet på 75% med sekvensen AATCAATC (Nref=8; Ndif=2) . Alternativt, eller i tillegg, kan termen «homologi» med hensyn til sekvensene angi antallet posisjoner med identiske nukleotider eller aminosyrer avledet av antallet nukleotider eller aminosyrer i den korteste av de to sekvenser hvor alignment av de to sekvenser kan bestemmes i samsvar med Wilbur og Lipman-algoritmen (Wilbur & Lipman 1983), f.eks. ved å benytte en vindusstørrelse på 20 nukleotider, en «ordlengde» på 4 nukleotider, og en gap-penalty på 4, og datamaskinassistert analyse og tolkning av sekvensdata inkluderende alignment kan konvensjonelt utføres ved anvendelse av kommersielt tilgjengelige programmer (f.eks. Intelligenetics™Suite. Intelligenetics Inc., CA). Når RNA-sekvenser sies å være like, eller har en grad av sekvensidentitet eller homologi med DNA-sekvenser, vurderes tymidin (T) i DNA-sekvensen lik Uracil (U) i RNA-sekvensen. Homologous amino acid sequences have 35% or greater identity (eg at least 40% identity, 50% identity, 60% identity, 70% identity, or at least 80% identity, such that at least 90% identity, or at least 95% identity). Homologous nucleic acid sequences are nucleic acid sequences that encode homologous polypeptides, as defined. Current nucleic acid homology/identity values can be determined using the "Align" program by Myers&Miller 1988, ("Optimal Alignment in Linear Space") and available at NCBI. Alternatively, or in addition, the term "homology", e.g. with respect to a nucleotide or amino acid sequence, indicate a quantitative measure of homology between two sequences. Percent sequence homology can be calculated as (Nref - Ndif) *100/Nref , where Ndifer is the total number of non-identical units in the two sequences when these are aligned, and where Nrefer is the number of units in one of the sequences. Thus, the DNA sequence AGTCAGTC has a sequence similarity of 75% with the sequence AATCAATC (Nref=8; Ndif=2). Alternatively, or in addition, the term "homology" with respect to the sequences may indicate the number of positions with identical nucleotides or amino acids derived from the number of nucleotides or amino acids in the shorter of the two sequences where alignment of the two sequences can be determined in accordance with Wilbur and Lipman -algorithm (Wilbur & Lipman 1983), e.g. using a window size of 20 nucleotides, a "word length" of 4 nucleotides, and a gap penalty of 4, and computer-assisted analysis and interpretation of sequence data including alignment can be conventionally performed using commercially available programs (e.g. Intelligenetics™ Suite. Intelligenetics Inc., CA). When RNA sequences are said to be similar, or have a degree of sequence identity or homology with DNA sequences, thymidine (T) in the DNA sequence is considered equal to Uracil (U) in the RNA sequence.

RNA-sekvensene innen rammen av oppfinnelsen kan være avledet fra DNA-sekvenser, hvor tymidin (T) i DNA-sekvensen vurderes som lik Uracil (U) i RNA-sekvensene. The RNA sequences within the scope of the invention can be derived from DNA sequences, where thymidine (T) in the DNA sequence is considered equal to Uracil (U) in the RNA sequences.

Ytterligere eller alternativt kan aminosyrelikhet eller identitet eller homologi bestemmes ved anvendelse av BlastP-program (Altschul et al. 1997), og tilgjengelig ved NCBI. De påfølgende referanser (inkorporert heri med hen-visning) tilveiebringer algoritmer for å sammenligne den relative identitet eller homologi av aminosyreenhetene til to proteiner, og ytterligere eller alternativt med hensyn til det foregående, kan beskrivelsene i disse referanser anvendes for å bestemme prosenthomologi eller identitet: Needleman & Wunsch (1970); Smith & Waterman (1981); Smith et al. (1983); Feng & Dolittle (1987); Higgins & Sharp Additionally or alternatively, amino acid similarity or identity or homology can be determined using the BlastP program (Altschul et al. 1997), and available at NCBI. The following references (incorporated herein by reference) provide algorithms for comparing the relative identity or homology of the amino acid units of two proteins, and in addition or alternatively to the foregoing, the descriptions in these references may be used to determine percent homology or identity: Needleman & Wunsch (1970); Smith & Waterman (1981); Smith et al. (1983); Feng & Dolittle (1987); Higgins & Sharp

(1989); Thompson et al. (1994); and Devereux et al. (1984). (1989); Thompson et al. (1994); and Devereux et al. (1984).

Den foreliggende oppfinnelse omfatter rekombinasjonen av sekvenssegmenter som er avledet fra opprinnelige proteiner med tilsvarende folding. I denne sammenheng er termen «lignende» ikke ekvivalent til «homolog». Faktisk har lignende foldinger vist å oppstå uavhengig under evolusjon. Slike foldinger er like, men ikke homologe. The present invention comprises the recombination of sequence segments which are derived from original proteins with corresponding folding. In this context, the term "similar" is not equivalent to "homologous". Indeed, similar foldings have been shown to arise independently during evolution. Such folds are similar but not homologous.

Et «proteinstruktur-element» er en aminosyresekvens som kan gjenkjennes som et strukturelement i et proteindomene. Fortrinnsvis er strukturelementet valgt fra gruppen som består av en a-heliks, p-flak, p-barell, et parallelt eller anti-parallelt p-ark, eller heliske strukturer (så som 3io - heliksen og fi-heliksen), og sekvenser som representerer høye kurvaturer eller sløyfer. Fortrinnsvis er det strukturelle element en a-heliks eller en p-tråd, ark eller barell. A "protein structural element" is an amino acid sequence that can be recognized as a structural element of a protein domain. Preferably, the structural element is selected from the group consisting of an α-helix, β-sheet, β-barrel, a parallel or anti-parallel β-sheet, or helical structures (such as the 3io helix and the phi helix), and sequences which represent high curvatures or loops. Preferably, the structural element is an α-helix or a β-strand, sheet or barrel.

I en foretrukket utførelse er de foldede proteindomener i samsvar med foreliggende oppfinnelse konstruert fra sekvenssegmenter som ikke omfatter kun et enkelt strukturelt element, men i stedet omfatter de mindre enn et enkelt strukturelement, eller mer enn et enkelt strukturelement, In a preferred embodiment, the folded protein domains in accordance with the present invention are constructed from sequence segments which do not comprise only a single structural element, but instead comprise less than a single structural element, or more than a single structural element,

eller deler derav.or parts thereof.

i in

I samsvar med foreliggende oppfinnelse er sekvenssegmentene som anvendes ikke konstruert eller selektert for å omfatte kun slike enkle elementer, med andre ord, de kan omfatte In accordance with the present invention, the sequence segments used are not designed or selected to include only such simple elements, in other words, they may include

mer enn et enkelt strukturelement, eller mindre enn etmore than a single structural element, or less than one

i enkelt strukturelement. Dette kan oppnås gjennom anvendelse av i hovedsak vilkårlige sekvenssegmenter for konstruering av et bibliotek i samsvar med oppfinnelsen. F.eks. kan sonikerte genomiske eller cDNA eller segmenter produsert in a single structural element. This can be achieved through the use of essentially arbitrary sequence segments for constructing a library in accordance with the invention. E.g. can sonicated genomic or cDNA or segments produced

ved vilkårlig PCR av DNA anvendes. Fortrinnsvis er DNA-by arbitrary PCR of DNA is used. Preferably, the DNA

) fragmentene mellom 100 og 500 nukleotider i lengde. ) the fragments between 100 and 500 nucleotides in length.

Sekvenssegmentene anvendt i samsvar med foreliggende oppfinnelse er ikke i stand til å foldes i vesentlig grad i The sequence segments used in accordance with the present invention are not capable of folding to a significant extent

isolasjon, dvs. de inneholder ikke tilstrekkelig struktur-insulation, i.e. they do not contain sufficient structural

j isolasjon til å danne et foldet proteindomene med mindre de kombineres med andre sekvenssegmenter i samsvar med fore- j isolation to form a folded protein domain unless they are combined with other sequence segments in accordance with pre-

liggende oppfinnelse. Denne manglende evne til å foldes signifikant kan måles med hvor utsatt de er for protease-oppkutting, f.eks. under betingelser gitt i eksemplet nedenfor, eller ved å måle den frie energi for folding. lying invention. This inability to fold significantly can be measured by how susceptible they are to protease cleavage, e.g. under conditions given in the example below, or by measuring the free energy of folding.

Proteolyse kan utføres ved anvendelse av proteaseenzymer. Egnede proteaser inkluderer trypsin (spalte ved Lys, Arg), chymoprypsin (Phe, Trp, Tyr, Leu), termolysin (små alifatiske enheter), subtilisin (små alifatiske enheter), Glu-C (Glu), Faktor Xa (Ile/Leu/Glu-Gly-Arg), Arg-C (Arg) og trombin. Fortrinnsvis, siden kombinasjonen av vilkårlige polypeptidsekvens-segmenter ikke kan garanteres å generere et presist spaltingssete for en bestemt protease, anvendes en bred-spektrums-protease i stand til å spalte ved en rekke steder. Trypsin, chymotrypsin og termolysin er bred-spektrums-proteaser som er nyttige ifølge foreliggende oppfinnelse. Proteolysis can be carried out using protease enzymes. Suitable proteases include trypsin (cleave at Lys, Arg), chymotrypsin (Phe, Trp, Tyr, Leu), thermolysin (small aliphatic units), subtilisin (small aliphatic units), Glu-C (Glu), Factor Xa (Ile/Leu /Glu-Gly-Arg), Arg-C (Arg) and thrombin. Preferably, since the combination of arbitrary polypeptide sequence segments cannot be guaranteed to generate a precise cleavage site for a particular protease, a broad-spectrum protease capable of cleaving at a variety of sites is used. Trypsin, chymotrypsin and thermolysin are broad-spectrum proteases useful in the present invention.

Evnen til et proteindomene til å foldes er også assosiert med dets funksjon. Således tilveiebringes oppfinnelsen for seleksjonen av foldede proteindomener med funksjonelle analyser. The ability of a protein domain to fold is also associated with its function. Thus, the invention is provided for the selection of folded protein domains with functional analyses.

I tilfellet immunoglobuliner eller andre polypeptider i stand til binding, kan slike analyser utføres for bindingsaktivitet i samsvar med etablerte protokoller, imidlertid slik at der hvor binding kun er midlertidig, kan seleksjon utføres på basis av funksjon alene. In the case of immunoglobulins or other polypeptides capable of binding, such assays can be performed for binding activity in accordance with established protocols, however, so that where binding is only temporary, selection can be performed on the basis of function alone.

Egnede metoder er angitt f.eks. i Internasjonal Suitable methods are indicated e.g. in International

Patentsøknad PCT/GB00/00030 og PCT/GB98/01889. Slike teknikker er nyttig for seleksjon av nye eller forbedrede enzymer produsert av kombinatorisk rearrangering i samsvar med foreliggende oppfinnelse. Patent application PCT/GB00/00030 and PCT/GB98/01889. Such techniques are useful for the selection of new or improved enzymes produced by combinatorial rearrangement in accordance with the present invention.

Den foreliggende oppfinnelse tilveiebringer også for screening for aktivitet eller seleksjon i samsvar med pro-teaseresistans. Dette muliggjør at proteindomener som er blitt selektert i samsvar med deres evne til å foldes, screenes for ønsket aktivitet. Siden repertoarstørrelsen er mer begrenset, som et resultat av seleksjon med proteolyse, kan screeningstrinnet utføres enklere (f.eks. i en multi-brønnsplate). The present invention also provides for screening for activity or selection consistent with protease resistance. This enables protein domains that have been selected according to their ability to fold to be screened for the desired activity. Since the repertoire size is more limited, as a result of selection with proteolysis, the screening step can be performed more easily (eg in a multi-well plate).

Bibliotekene ifølge foreliggende oppfinnelse kan etableres med enhver egnet metode i enhver form. Som anvendt heri angir termen «bibliotek» en blanding av heterogene polypeptider eller nukleinsyrer. Biblioteket er sammensatt av medlemmer, som hvert har et unikt polypeptid eller nukleinsyresekvens. I denne forbindelse er «bibliotek» synonym med repertoar. Sekvensforskjeller mellom biblioteksmedlemmer er ansvarlig for diversiteten som foreligger i biblioteket. Biblioteket kan ha form av en enkelt blanding av polypeptider eller nukleinsyrer, eller kan være i form av organismer eller celler, f.eks. bakterier, virus, dyre- eller planteceller og lignende, transformert med et bibliotek av nukleinsyrer. Typisk inneholder hver organisme eller celle kun ett element av biblioteket. I visse appli-kasjoner kan hver individuelle organisme eller celle inneholde to eller flere medlemmer av biblioteket. Fortrinnsvis er nukleinsyrene inkorporert inn i ekspresjonsvektorer for å muliggjøre ekspresjon av polypeptidene som kodes for av nukleinsyrer. I et foretrukket aspekt kan biblioteket således ha form av en populasjon av vertsorganismer, hvor hver organisme inneholder én eller flere kopier av en eks-presjonsvektor inneholdende et enkelt medlem av biblioteket i nukleinsyreform som kan uttrykkes for å produsere dets korresponderende polypeptidmedlem. Således har populasjonen av vertsorganismer potensiale til å kode for et stort repertoar av genetisk forskjellige polypeptidvarianter. The libraries according to the present invention can be established with any suitable method in any form. As used herein, the term "library" denotes a mixture of heterogeneous polypeptides or nucleic acids. The library is composed of members, each of which has a unique polypeptide or nucleic acid sequence. In this context, "library" is synonymous with repertoire. Sequence differences between library members are responsible for the diversity that exists in the library. The library may be in the form of a single mixture of polypeptides or nucleic acids, or may be in the form of organisms or cells, e.g. bacteria, viruses, animal or plant cells and the like, transformed with a library of nucleic acids. Typically, each organism or cell contains only one element of the library. In certain applications, each individual organism or cell may contain two or more members of the library. Preferably, the nucleic acids are incorporated into expression vectors to enable expression of the polypeptides encoded by the nucleic acids. Thus, in a preferred aspect, the library may take the form of a population of host organisms, each organism containing one or more copies of an expression vector containing a single member of the library in nucleic acid form which can be expressed to produce its corresponding polypeptide member. Thus, the population of host organisms has the potential to encode a large repertoire of genetically diverse polypeptide variants.

Et antall vektorsystemer som er nyttige for biblioteks-produksjon og seleksjon er kjent innen fagfeltet. F.eks. kan bakteriofag-lambda-ekspresjonssystemer screenes direkte av bakteriofag-plaque eller som kolonier av lysogener, begge som tidligere beskrevet (Huse et al., (1989): Caton&Koprowski (1990): Mullinax et al. (1990): Persson et al. A number of vector systems useful for library production and selection are known in the art. For example bacteriophage lambda expression systems can be screened directly by bacteriophage plaque or as colonies of lysogens, both as previously described (Huse et al., (1989): Caton&Koprowski (1990): Mullinax et al. (1990): Persson et al.

(1991)), og kan benyttes ifølge oppfinnelsen. Idet slike ekspresjonssystemer kan anvendes opptil IO<6>forskjellige medlemmer av et bibliotek, er de ikke godt egnet for screening av større antall (større enn IO<6>medlemmer). Andre screeningssystemer er f.eks. basert på direkte kjemisk syntese av biblioteksmedlemmer. Én tidligere metode omfatter syntese av peptider på et sett av pinner eller staver, så som beskrevet i WO84/03564. En tilsvarende metode omfatter peptidsyntese på kuler, som danner et pep-tidbibliotek hvor hver kule er et individuelt biblioteksmedlem, som beskrevet i US Patent Nr 4.631.211, og en beslektet metode er beskrevet i WO92/00091. En signifikant forbedring av de kulebaserte metoder omfatter merking av hver kule med en unik identifiseringsmarkør, så som et oligonukleotid, for å fremme identifisering av aminosyresekvenser for hvert biblioteksmedlem. Disse forbedrede kulebaserte metoder er beskrevet i WO93/06121. (1991)), and can be used according to the invention. Since such expression systems can be used for up to IO<6> different members of a library, they are not well suited for screening larger numbers (greater than IO<6> members). Other screening systems are e.g. based on direct chemical synthesis of library members. One prior method involves the synthesis of peptides on a set of sticks or rods, as described in WO84/03564. A similar method involves peptide synthesis on beads, which form a peptide library where each bead is an individual library member, as described in US Patent No. 4,631,211, and a related method is described in WO92/00091. A significant improvement to the bead-based methods involves labeling each bead with a unique identification marker, such as an oligonucleotide, to facilitate identification of amino acid sequences for each library member. These improved bead-based methods are described in WO93/06121.

En annen kjemisk syntesemetode omfatter syntese av arrangementer av peptider (eller peptidomimetics) på en overflate på en måte som plasserer hvert distinkte biblioteksmedlem (f.eks. unik peptidsekvens) ved en diskret for-håndsbestemt lokalisasjon i arrangementet, eller ved å spotte preformede polypeptider på et slikt arrangement. Identifisering av hvert biblioteksmedlem bestemmes av dets rommelige lokalisering i arrangementet. Lokaliseringene i arrangementet på bindingsinteraksjoner mellom et forut-bestemt molekyl (f.eks. en reseptor) og reaktive biblioteksmedlemmer bestemmes, slik at man dermed identifiserer sekvensene i det reaktive biblioteksmedlem på basis av rommelig lokalisering. Disse metoder er beskrevet i US Another chemical synthesis method involves synthesizing arrays of peptides (or peptidomimetics) on a surface in a manner that places each distinct library member (eg, unique peptide sequence) at a discrete predetermined location in the array, or by spotting preformed polypeptides on such an event. Identification of each library member is determined by its spatial location in the arrangement. The locations in the array of binding interactions between a predetermined molecule (eg, a receptor) and reactive library members are determined, thereby identifying the sequences in the reactive library member on the basis of spatial localization. These methods are described in US

Patent Nr 5.143.854, WO90/15070 og WO92/10092; Fodor et al. Patent No. 5,143,854, WO90/15070 and WO92/10092; Fodor et al.

(1991); og Dower & Fodor (1991). (1991); and Dower & Fodor (1991).

Spesielt nyttig ved konstruksjon av biblioteker ifølge oppfinnelsen er seleksjonsoppvisningssystemer, som mulig-gjør at en nukleinsyre kan kobles til det polypeptid den uttrykker. Som anvendt heri er et «seleksjonsoppvisnings-system» et system som muliggjør seleksjon, med egnede frem-visningsmidler, av de individuelle medlemmer i biblioteket. Particularly useful in the construction of libraries according to the invention are selection display systems, which enable a nucleic acid to be linked to the polypeptide it expresses. As used herein, a "selection display system" is a system that enables the selection, by suitable display means, of the individual members of the library.

Ethvert seleksjonsfremvisningssystem kan anvendes i forbindelse med et bibliotek i samsvar med oppfinnelsen. Seleksjonsprotokoller for å isolere ønskede medlemmer er kjent innen fagfeltet, f.eks. fagfremvisningsteknikker. Slike systemer, hvor forskjellige peptidsekvenser fremvises på overflaten av filamentøs bakteriofag (Scott & Smith Any selection display system can be used in connection with a library in accordance with the invention. Selection protocols for isolating desired members are known in the art, e.g. subject presentation techniques. Such systems, where different peptide sequences are displayed on the surface of filamentous bacteriophage (Scott & Smith

(1990)), har vist seg nyttig for etablering av biblioteker av antistoff-fragmenter (og nukleotidsekvensene som koder for disse) for in vitro seleksjon og mangfoldiggjøring av spesifikke antistoff-fragmenter som forbinder et målanti-gen. Nukleotidsekvensene som koder for VH- og VL-regionene er koblet til genfragmenter som koder for ledesignaler som dirigerer dem til det periplasmiske rom av E. coli, og som et resultat fremvises de resulterende antistoff-fragmenter på overflaten av bakteriofagen, typisk som fusjoner til bakteriofag-kappe-proteiner (f.eks. pill eller VIII). Alternativt fremvises antistoff-fragmenter eksternt på lambdafag-kapsider (fagkropper). En fordel med fag-baserte fremvisningssystemer er at, pga. at de er biologiske systemer, kan selekterte biblioteksmedlemmer mangfoldig-gjøres enkelt ved at fagen som inneholder det selekterte biblioteksmedlem kan vokse i bakterielle celler. Videre, siden nukleotidsekvensen som koder for polypeptidsmedlemmet er inneholdt på en fag eller fagemidvektor, er sekven- sering, ekspresjon og påfølgende genetisk manipulering relativt rett frem. (1990)), has proven useful for establishing libraries of antibody fragments (and the nucleotide sequences encoding them) for in vitro selection and multiplication of specific antibody fragments that bind a target antigen. The nucleotide sequences encoding the VH and VL regions are linked to gene fragments encoding guidance signals that direct them to the periplasmic space of E. coli, and as a result, the resulting antibody fragments are displayed on the surface of the bacteriophage, typically as fusions to bacteriophage -coat proteins (e.g. Pill or VIII). Alternatively, antibody fragments are displayed externally on lambda phage capsids (phage bodies). An advantage of subject-based display systems is that, due to that they are biological systems, selected library members can be multiplied simply by allowing the phage containing the selected library member to grow in bacterial cells. Furthermore, since the nucleotide sequence encoding the polypeptide member is contained on a phage or phagemid vector, sequencing, expression and subsequent genetic manipulation is relatively straight forward.

Fremgangsmåter for konstruksjon av bakteriofag-antistoff-fremvisningsbiblioteker og lambda-fag-ekspresjons-biblioteker er godt kjent innen fagfeltet (McCafferty et al. (1990); Kang et al. (1991); Clackson et al. (1991); Lowman et al. (1991); Burton et al. (1991); Hoogenboom et al. (1991); Chang et al. (1991); Breitling et al. (1991); Marks et al. (1991); Barbas et al. (1992); Hawkins&Winter Procedures for the construction of bacteriophage antibody display libraries and lambda phage expression libraries are well known in the art (McCafferty et al. (1990); Kang et al. (1991); Clackson et al. (1991); Lowman et al. (1991); Burton et al. (1991); Hoogenboom et al. (1991); Chang et al. (1991); Breitling et al. (1991); Marks et al. (1991); Barbas et al. ( 1992); Hawkins & Winter

(1992); Marks et al. (1992); Lerner et al. (1992), (inkorporert heri med referanse). (1992); Marks et al. (1992); Lerner et al. (1992), (incorporated herein by reference).

Andre systemer for å generere bibliotek av polypeptider eller nukleotider omfatter anvendelse av cellefritt enzymatisk maskineri for in vitro-syntese av biblioteksmedlemmer. F.eks. kan in vitro-translasjon benyttes for å syntetisere polypeptider som en fremgangsmåte for å generere store bibliotek. Disse metoder som generelt omfatter stabiliserte polysomkomplekser, er videre, beskrevet i WO88/08453, WO90/05785, WO90/07003, WO91/02076, WO91/05058 og WO92/02536. Alternative fremvisningssystemer som ikke er fag-basert, så som de som er beskrevet i W095/22625 og W095/11922 (Affymax) anvender polysomer for å fremvise polypeptider for seleksjon. Disse, og alle de foregående dokumenter, er inkorporert heri med referanse. Other systems for generating libraries of polypeptides or nucleotides include the use of cell-free enzymatic machinery for in vitro synthesis of library members. E.g. In vitro translation can be used to synthesize polypeptides as a method to generate large libraries. These methods, which generally comprise stabilized polysome complexes, are further described in WO88/08453, WO90/05785, WO90/07003, WO91/02076, WO91/05058 and WO92/02536. Alternative non-phage-based display systems such as those described in WO95/22625 and WO95/11922 (Affymax) use polysomes to display polypeptides for selection. These, and all of the foregoing documents, are incorporated herein by reference.

For å produsere biblioteker og sekvenssegmenter i samsvar med foreliggende oppfinnelse, benyttes fortrinnsvis PCR-mangfoldiggjøring. Der en definert partnersekvens anvendes, kan én PCR-primer designes for å anneale spesifikt med partnersekvensen, mens for vilkårlige biblioteker kan generelle vilkårlige PCR-primere anvendes. De resulterende fragmenter kobles med restriksjon og ligering, og klones inn i egnede vektorer. Selv om ligering av to sekvens-ligander er beskrevet nedenfor, omfatter oppfinnelsen også ligering av tre eller flere sekvenssegmenter, og disse kan være de samme eller forskjellige, så som for å etterligne multiple crossover-hendelser. To produce libraries and sequence segments in accordance with the present invention, PCR amplification is preferably used. Where a defined partner sequence is used, one PCR primer can be designed to anneal specifically with the partner sequence, while for random libraries general random PCR primers can be used. The resulting fragments are joined by restriction and ligation, and cloned into suitable vectors. Although ligation of two sequence ligands is described below, the invention also encompasses ligation of three or more sequence segments, and these may be the same or different, so as to mimic multiple crossover events.

Den foreliggende oppfinnelse vil bli ytterligere beskrevet, for illustrasjonsformål, i den påfølgende eksperimentelle seksjon. The present invention will be further described, for purposes of illustration, in the following experimental section.

Eksempel 1Example 1

Fremstilling av et repertoar av kimeriske proteiner omfattende to konsekvenssegmenter. Production of a repertoire of chimeric proteins comprising two consequence segments.

Et repertoar av gener som koder for kimeriske proteiner, som omfatter de N-terminale 36 enheter av E. coli cold-shock-protein (CspA) og en C-terminal polypeptidsekvens som koder for vilkårlig etablerte fragmenter av E.coli-genomet, ble fremstilt. CspA omfatter 70 enheter, og danner en stabil (3-barrel (Schindelin et al. 1994) . Dets Nterminale 36 enheter omfatter de første tre tråder og dets seks ... (3-... og er ikke i stand til å foldes idet den uttrykkes alene idet de graderes i E. coli- cytoplasma. A repertoire of genes encoding chimeric proteins, comprising the N-terminal 36 units of E. coli cold-shock protein (CspA) and a C-terminal polypeptide sequence encoding arbitrarily established fragments of the E. coli genome, were produced. CspA comprises 70 units, forming a stable (3-barrel (Schindelin et al. 1994) . Its N-terminal 36 units comprise the first three strands and its six ... (3-... and is unable to fold as it is expressed alone as they grade in the E. coli cytoplasm.

Genfragmentet som koder de første 36 enheter avThe gene fragment that codes for the first 36 units of

CspA ble komplementert med fragmentert DNA fra E.coli-genomet med rundt 140 basepar i størrelse. DNA-fragraentene ble etablert med vilkårlig PCR-mangfoldiggjøring ved anvendelse av genomisk E.coli-DNA som et templat. Resulterende kimeriske gener ble innsatt mellom koderegionene for infeksjonsproteinet p3 og en N-terminal markør, en stabil, men katalytisk inaktiv mutant av RNase barnase, som et enkelt kontinuøst gen på en fragemidvektor for protein-fremvisnings filamentøs fag. CspA was complemented with fragmented DNA from the E.coli genome about 140 base pairs in size. The DNA fragments were established by random PCR amplification using genomic E.coli DNA as a template. Resulting chimeric genes were inserted between the coding regions for the infectious protein p3 and an N-terminal marker, a stable but catalytically inactive mutant of RNase barnase, as a single continuous gene on a phragmid vector for protein-displaying filamentous phage.

I det resulterende genomiske bibliotek (l,0xl0<8>medlemmer) ble et opal (TGA)-stoppkodon inkorporert ved 3'-enden av det kimeriske gen i 60% av klonene mens de resterende inneholdt Gly-kodet GGA-kode i denne posisjon. Den partielle inkorporering av TGA-kodon ved 3'-enden av de kimeriske gener ble oppnådd gjennom anvendelse av to forskjellige PCR-primere (XTND og NOARG) i PCR-mangfoldig-gjøringene av E.coli-genfragmentene. Transfer-RNA<Trp>kan dekode DNA med en effektivitet på opptil 3% (Eggertsson X Soll 1988) noe som fører til tilstrekkelig fremvisning av barnase-kimera-p3-fusjonen på fagen, men unngår foldingsrelaterte toksiske effekter. Fag som oppviste dette repertoar ble fremstilt ved anvendelse av et hjelperfag KM13, som inneholder et modifisert fd-gen 3 som koder for en trypsin-sensitiv p3 pga. en modifisert sekvens (Kristensen&Winter 1997) for å redusere infektivitet pga. hjelperfag-kodede p3-molekyler. In the resulting genomic library (1,0xl0<8>members), an opal (TGA) stop codon was incorporated at the 3' end of the chimeric gene in 60% of the clones while the remainder contained Gly-encoded GGA codon at this position . The partial incorporation of the TGA codon at the 3' end of the chimeric genes was achieved through the use of two different PCR primers (XTND and NOARG) in the PCR amplifications of the E.coli gene fragments. Transfer RNA<Trp>can decode DNA with an efficiency of up to 3% (Eggertsson X Soll 1988) which leads to sufficient display of the barnase chimera p3 fusion on the phage, but avoids folding-related toxic effects. Phage exhibiting this repertoire were produced using a helper phage KM13, which contains a modified fd-gene 3 that codes for a trypsin-sensitive p3 due to a modified sequence (Kristensen&Winter 1997) to reduce infectivity due to helper phage-encoded p3 molecules.

Eksempel 2Example 2

Fremstilling av et repertoar av kimeriske proteiner omfattende to sekvenssegmenter med felles sekvenser Preparation of a repertoire of chimeric proteins comprising two sequence segments with common sequences

I et andre «plasmid-avledet» bibliotek ble det Nterminale CspA-genfragment komplementert med DNA-fragmenter på rundt 140 basepar etablert med vilkårlig PCR-mangfoldiggjøring ved anvendelse som PCR-templat av et 3,6 kb plasmid inneholdende villtype CspA-genet. Resulterende kimeriske gener ble igjen innsatt som en fusjon mellom koderegioner for infeksjonsproteinet p3 og en N-terminal markør, en stabil men katalytisk inaktiv mutant av RNase, på en fagemidvektor for proteinfremvisning på filamentøs fag. In a second "plasmid-derived" library, the N-terminal CspA gene fragment was complemented with DNA fragments of around 140 base pairs established by random PCR amplification using as a PCR template a 3.6 kb plasmid containing the wild-type CspA gene. Resulting chimeric genes were again inserted as a fusion between coding regions for the infectious protein p3 and an N-terminal marker, a stable but catalytically inactive mutant of RNase, on a phagemid vector for protein display on filamentous phage.

I det plasmid-avledede bibliotek (l,7xl0<8>medlemmer) ble et opal (TGA) stoppkodon konstitutivt introdusert ved 3'-enden av det kimeriske gen i alle kloner. Fagene som fremviser dette repertoar ble fremstilt ved anvendelse av hjelperfag KM13, som inneholder et modifisert fd-gen 3 som koder en trypsin-sensitiv p3 pga. en modifisert sekvens (Kristensen & Winter 1997), for å redusere infektivitet pga. hjelperfag-kodede p3-molekyler. In the plasmid-derived library (1.7x10<8> members), an opal (TGA) stop codon was constitutively introduced at the 3' end of the chimeric gene in all clones. The phages displaying this repertoire were produced using helper phage KM13, which contains a modified fd gene 3 encoding a trypsin-sensitive p3 due to a modified sequence (Kristensen & Winter 1997), to reduce infectivity due to helper phage-encoded p3 molecules.

Eksempel 3Example 3

Proteolytisk seleksjon av kombinatoriske bibliotekerProteolytic selection of combinatorial libraries

For å selektere stabilt foldede kimeriske proteiner fra repertoarene av barnase-kimaera-p3-funksjoner beskrevet i Eks. 1 og 2, ble fag-fremviste biblioteker selektert for proteolytisk stabilitet i tre runder gjennom behandling ved 10°C med proteasen trypsin (spesifikk for peptidbindinger inneholdende Arg eller Lys i Pi-posisjon) og termolysin (spesifikk for bindinger inneholdende en aminosyre med en alifatisk sidekjede i Pi-posisjon) etterfulgt av opptak på barstar, eluering, infeksjon og re-vekst. To select stably folded chimeric proteins from the repertoires of barnase chimera p3 functions described in Ex. 1 and 2, phage-displayed libraries were selected for proteolytic stability in three rounds through treatment at 10°C with the protease trypsin (specific for peptide bonds containing Arg or Lys in the Pi position) and thermolysin (specific for bonds containing an amino acid with an aliphatic side chain in the Pi position) followed by uptake on barstar, elution, infection and re-growth.

Etter den første seleksjonsrunde ble 2xl0<4>og 6xl0<2>av IO<10>proteolytisk behandlede fag eluert fra én enkelt bar-starbelagt mikrotiterplate-brønn i tilfelle det plasmid-avledede bibliotek og det genomiske bibliotek, respektivt. Dersom proteasebehandling utelates, kan 5xl0<6->fag elueres, noe som indikerer at hovedandelen av de uselekterte fag ikke oppviser et stabilt foldet kimera-protein fusjon mellom barnase og p3. Antallet fag som er opptatt etter to eller tre runder av seleksjon økte til 2xl0<5>og det plas-midavledede bibliotek og 2xl0<3>og 4xl0<4>for det genomiske bibliotek. After the first round of selection, 2x10<4> and 6x10<2> of 10<10> proteolytically treated phages were eluted from a single bar-star coated microtiter plate well in the case of the plasmid-derived library and the genomic library, respectively. If protease treatment is omitted, 5xl0<6->phages can be eluted, which indicates that the majority of the unselected phages do not exhibit a stably folded chimera protein fusion between barnase and p3. The number of subjects occupied after two or three rounds of selection increased to 2xl0<5>and the plasmid-derived library and 2xl0<3>and 4xl0<4>for the genomic library.

Selekterte fag fikk vokse opp individuelt, ble bundet til immobilisert barstar, behandlet in situ med trypsin og termolysin ved 10°C, og resistens ble målt gjennom detek-sjon av bundet (og derfor resistent) fag i ELISA. For det plasmid-avledede bibliotek opprettholdt 27 av 64 fag (42%) 80% eller mer av deres barstar-bindingsaktivitet etter proteasebehandling. For det genomiske bibliotek, etter to runder, opprettholdt 6 av 192 (3%) minst 80% av deres bar-starbindingsaktivitet. Etter tre runder opprettholdt 31 av 86 (36%) fag 80% eller mer av deres barstar-bindingsaktivitet. Seleksjon anriker således klart fag-fremvis-ningsprotease-resistente p3-fusjoner. Selected phages were allowed to grow up individually, were bound to immobilized barstar, treated in situ with trypsin and thermolysin at 10°C, and resistance was measured through detection of bound (and therefore resistant) phages in ELISA. For the plasmid-derived library, 27 of 64 phages (42%) maintained 80% or more of their barstar binding activity after protease treatment. For the genomic library, after two rounds, 6 of 192 (3%) maintained at least 80% of their bar-star binding activity. After three rounds, 31 of 86 (36%) subjects maintained 80% or more of their barstar binding activity. Selection thus clearly enriches phage display protease-resistant p3 fusions.

Eksempel 4Example 4

Sekvensanalyse for selekterte kimeriske proteinerSequence analysis for selected chimeric proteins

Som en innledende karakterisering av de selekterte kimeriske fusjonsproteiner ble sekvensene for de selekterte kloner fra Eksempel 3 bestemt. De kimeriske gener av alle de fire mest stabile fagkloner selektert fra plasmidavledet bibliotek har en åpen leseramme fra genene for barnase, gjennom det ene for kimerisk protein og til slutten for p3-genet. De inneholder heller intet stoppkodon (i tillegg til det opale stoppkodon ved 3'-enden). 20 av disse inneholdt innskudd som opprinnelig var fra CspA-genet i den korrekte leseramme. Disse 20 omfattet tre forskjellige gener (Al var funnet 12 ganger, D6-6-ganger, og G4 to ganger). Fag Al inneholder en deletert versjon (enheter 1 til 52) av CspA villtype-gen, som er blitt etablert gjennom en deletering innen et fagemidklon som opprinnelig skjuler et større innskudd (Tabell 1). Fag D6 inneholder i tillegg til N-terminalhalvdel av CspA (enheter 1 til 36 som del av klonevektoren) kjernen CspA (enheter 17 til 53) (Tabell 1). Fag G4 inneholder som et innskudd en partiell duplisering av den N-terminale halvdel av CspA (enheter 2 til 19). Således fra det plasmid-avledede bibliotek var fag med p3-fusjons-kimerere, hvor den N-terminale halvdel av CspA var komplementert med et annet fragment fra CspA, sterkt anriket av den proteolytiske seleksjon. As an initial characterization of the selected chimeric fusion proteins, the sequences of the selected clones from Example 3 were determined. The chimeric genes of all the four most stable phage clones selected from the plasmid-derived library have an open reading frame from the genes for barnase, through the one for chimeric protein and to the end for the p3 gene. They also contain no stop codon (in addition to the opal stop codon at the 3' end). 20 of these contained insertions that were originally from the CspA gene in the correct reading frame. These 20 comprised three different genes (Al was found 12 times, D6-6 times, and G4 twice). Phage Al contains a deleted version (units 1 to 52) of the CspA wild-type gene, which has been established through a deletion within a phagemid clone originally harboring a larger insert (Table 1). Phage D6 contains in addition to the N-terminal half of CspA (units 1 to 36 as part of the clone vector) the core CspA (units 17 to 53) (Table 1). Phage G4 contains as an insert a partial duplication of the N-terminal half of CspA (units 2 to 19). Thus, from the plasmid-derived library, phage with p3 fusion chimeras, where the N-terminal half of CspA was complemented with another fragment from CspA, were highly enriched by the proteolytic selection.

Sekvensene av 25 protease-resistente fagkloner selektert fra det genomiske bibliotek ga 11 forskjellige kloner, (2 kloner var funnet fem ganger, 1 klone fire ganger, og 3 kloner 2 ganger). Alle innskudd beholdt leserammen fra barnase til p3. De inneholdt alle det opale stoppkodon ved deres 3'-ende men ingen ytterligere stoppkodon. Innskuddene i alle fagsekvensene kunne spores tilbake til E.coli-genomet som viser en feilrate på ca. 1% sannsynligvis pga. deres generering ved PCR. 64% av de sekvenserte fag inneholdt innskudd, hvis leseramme var identisk til det av det opprinnelige E.coli-protein. Dette•antyder en anrikning for DNA-fragmenter i deres naturlige leseramme, og fra en vilkårlig distribusjon basert på tre mulige leserammer og to mulige orienteringer av ethvert DNA ville kun 16% av innskuddene forventes å opprettholde den naturlige leseramme. Imidlertid indikerte seleksjonen av klonene med opphav i den opprinnelige leseramme (ORF'ene) som ikke korrespon-derer til den naturlige leseramme på det opprinnelige gen i 36% av sekvensene, at disse kan også føre til dannelse av stabilt foldede kimerer. The sequences of 25 protease-resistant phage clones selected from the genomic library yielded 11 different clones, (2 clones were found five times, 1 clone four times, and 3 clones 2 times). All deposits retained the reading frame from barnase to p3. They all contained the opal stop codon at their 3' end but no additional stop codon. The insertions in all the phage sequences could be traced back to the E.coli genome, which shows an error rate of approx. 1% probably due to their generation by PCR. 64% of the sequenced phages contained inserts whose reading frame was identical to that of the original E.coli protein. This•suggests an enrichment for DNA fragments in their natural reading frame, and from an arbitrary distribution based on three possible reading frames and two possible orientations of any DNA, only 16% of the deposits would be expected to maintain the natural reading frame. However, the selection of the clones originating in the original reading frame (ORFs) which do not correspond to the natural reading frame of the original gene in 36% of the sequences indicated that these can also lead to the formation of stably folded chimeras.

Som beskrevet i Eksempel 1 inneholdt 60% av alle kloner i det uselekterte genomiske bibliotek et opal (TGA)stoppkodon ved 3'-enden av det kimeriske gen, mens de resterende inneholdt Gly-kodende GGA-kodon i denne posisjon. Imidlertid ble kun kloner inneholdende de opale stoppkodon ved denne posisjon funnet etter proteolytisk seleksjon fra det genomiske bibliotek. I fravær av et konstitutivt stoppkoden fører omtrent alle kimere genfunksjoner til at det selekteres for et rammeskift mellom barnase og p3-genet (data ikke vist). Disse resultater viser at effektiviteten (opp til 3% i samsvar med Eggertsson&Soll, 1988), hvormed transfer-RNA<Trp>kan dekode TGA som et tryptofan, fører til tilstrekkelig fremvisning av barnase-kimera-p3-fusjonen på fagen men synes å redusere foldingsrelaterte toksiske effekter. Anvendelse av et opalt stoppkodon i genene som koder for de fremviste fusjonspro-teiner var derfor fordelaktige for seleksjon i de presenterte eksempler. As described in Example 1, 60% of all clones in the unselected genomic library contained an opal (TGA) stop codon at the 3' end of the chimeric gene, while the remainder contained the Gly-encoding GGA codon at this position. However, only clones containing the opal stop codon at this position were found after proteolytic selection from the genomic library. In the absence of a constitutive stop codon, almost all chimeric gene functions result in selection for a frameshift between barnase and the p3 gene (data not shown). These results show that the efficiency (up to 3% according to Eggertsson&Soll, 1988) with which transfer RNA<Trp>can decode TGA as a tryptophan leads to sufficient display of the barnase chimera p3 fusion on the phage but seems to reduce folding-related toxic effects. Use of an opal stop codon in the genes that code for the presented fusion proteins was therefore advantageous for selection in the presented examples.

Eksempel 5Example 5

Proteolytisk stabilitet av selekterte kimerafag i løsning Proteolytic stability of selected chimera phages in solution

For å vise at de sekvenserte fusjonsproteiner ikke kun var proteolytisk stabile etter immobilisering på frem-visningsfagen på en barstar-belagt overflate (som vist i Eksempel 3) men også i løsning, ble de testet for proteolytisk stabilitet gjennom eksponering til trypsin og termolysin i løsning (før immobilisering) ved forskjellige temperaturer (Fig. 1). Fagene som opprettholder barnase-markøren (som en konsekvens av et proteolytisk stabilit fusjonsprotein) ble opptatt på barstar, og prosentandelen av gjenværende barstar-bindingsaktivitet ble kvantifisert med ELISA. To show that the sequenced fusion proteins were not only proteolytically stable after immobilization on the display phage on a barstar-coated surface (as shown in Example 3) but also in solution, they were tested for proteolytic stability through exposure to trypsin and thermolysin in solution (before immobilization) at different temperatures (Fig. 1). The phages retaining the barnase tag (as a consequence of a proteolytically stable fusion protein) were captured on barstar, and the percentage of residual barstar binding activity was quantified by ELISA.

Blant fagene fra det plasmid-avledede bibliotek opprettholdt to kloner (Al og D6) minst 80% av deres bindingsaktivitet etter behandling ved 20°C. Fra det genomiske bibliotek opprettholdt 8 av de 11 kloner (1C2, IG6, 1A7, 2F3, 1B11, 2F1, 2H2, 3A12) deres effektivitet etter trypsin/termolysin-behandling ved 24°C. De resterende fag var mindre beskyttet fra proteolytisk angrep i løsning enn når de var bundet til barstar-belagt overflate (sammenlign Eksempel 3). Among the phages from the plasmid-derived library, two clones (A1 and D6) maintained at least 80% of their binding activity after treatment at 20°C. From the genomic library, 8 of the 11 clones (1C2, IG6, 1A7, 2F3, 1B11, 2F1, 2H2, 3A12) maintained their efficiency after trypsin/thermolysin treatment at 24°C. The remaining phages were less protected from proteolytic attack in solution than when bound to the barstar-coated surface (compare Example 3).

Eksempel 6Example 6

Løselig ekspresjon av selekterte kimeriske proteinerSoluble expression of selected chimeric proteins

For å karakterisere de selekterte kimeriske proteiner utenfor konteksten av barnase-p3-fusjonsprotein, ble genene for de ti mest stabile kimerene av de selekterte kloner i Eksempel 5 uttrykt uten fusjonspartnerne. For dette ble deres gener subklonet for cytoplasmisk ekspresjon til en His-tag-vektor. Fem av disse proteiner (His-al, His-d6, fra det plasmid-avledede bibliotek, His-lc2, His-2f3 og H is-lbll fra det genomiske bibliotek) kunne renses etter ekspresjon direkte fra den løselige fraksjon av cytoplasma via deres His-markør. De gjenværende proteiner dannet inklu-sjonslegemer i de uttrykkende celler. Én av disse, His-lg6 som inneholder et innskudd uttrykt i en leseramme forskjellig fra det til dets opprinnelige gen (Tabell II), ble re-foldet via solubilisering i 8M urea. De resulterende kloner ble ikke studert ytterligere. To characterize the selected chimeric proteins outside the context of the barnase-p3 fusion protein, the genes for the ten most stable chimeras of the selected clones in Example 5 were expressed without the fusion partners. For this, their genes were subcloned for cytoplasmic expression into a His-tag vector. Five of these proteins (His-a1, His-d6, from the plasmid-derived library, His-lc2, His-2f3 and His-lbll from the genomic library) could be purified after expression directly from the soluble fraction of the cytoplasm via their Elevator marker. The remaining proteins formed inclusion bodies in the expressing cells. One of these, His-lg6 containing an insert expressed in a reading frame different from that of its parent gene (Table II), was refolded via solubilization in 8M urea. The resulting clones were not studied further.

Eksempel 7Example 7

Biofysikalsk karakterisering av kimeriske proteinerBiophysical characterization of chimeric proteins

Den første biokjemiske analyse av de rensede kimeriske proteiner beskrevet i Eksempel 6 vedrører deres multimeri-seringsstatus. De kimeriske proteiner His-al, His-d6, His-lc2, His-2f3, His-lg6 dannet kun monomerer i samsvar med deres elueringsvolum i gelfiltrering, mens His-lbll dannet 30% monomerer og deres gjenværende dannet dimerer. The first biochemical analysis of the purified chimeric proteins described in Example 6 concerns their multimerization status. The chimeric proteins His-a1, His-d6, His-lc2, His-2f3, His-lg6 formed only monomers according to their elution volume in gel filtration, while His-lb11 formed 30% monomers and their remaining formed dimers.

For å analyse typen sekundærstruktur som ble dannet av disse kimerer, ble det rensede proteiner studert med CD og NMR. CD-spektra (Fig. 2A) av monomeriske proteiner og den monomeriske fraksjon av His-lbll hadde alle karakteristisk (5-struktur-inneholdende proteiner med minima mellom 215 nm og 225 nm (Greenfield&Fasman 1969, Johnson 1990). Alle proteiner utviste kooperative foldingskarakteristika med sigmoidale smeltekurver (Fig. 2b) og midtpunkt for ut-foldingstransisjon mellom 46°C og 62°C (Tabell I). Den kooperative foldingsadferd er en sterk indikasjon på at hver av de analyserte kimerer dannet et domene med én enkelt folding, i motsetning til en blanding av foldede eller delvis foldede strukturer som et smelte-globul. NMR-spektra av His-2f3 og His-lc2 antyder videre nærvær av et godt foldet proteindomene, slik det kan tolkes fra den kjemisk skift-dispersjon av mange amidprotoner til verdier nedstrøms 9 ppm (Fig. 3a, c) og metylgruppeprotoner til verdier rundt 0 ppm i deres NMR-spektra (Wuthrich 1986). Til slutt ses downfield-kjemiske skift på Ca-protoner til verdier mellom 5 og 6 ppm, slik det også ses i NMR-spektra av His-lc2 (Fig. 3e), observeres også hyppig i p-flak inneholdende polypeptider så som immunoglobulindomener (Riechmann & Davies 1995). To analyze the type of secondary structure formed by these chimeras, purified proteins were studied by CD and NMR. CD spectra (Fig. 2A) of monomeric proteins and the monomeric fraction of His-lbll all had characteristic (5-structure-containing proteins with minima between 215 nm and 225 nm (Greenfield&Fasman 1969, Johnson 1990). All proteins exhibited cooperative folding characteristics with sigmoidal melting curves (Fig. 2b) and midpoint of unfolding-folding transition between 46°C and 62°C (Table I). The cooperative folding behavior is a strong indication that each of the chimeras analyzed formed a domain with a single fold, i in contrast to a mixture of folded or partially folded structures such as a melt globule.NMR spectra of His-2f3 and His-lc2 further suggest the presence of a well-folded protein domain, as interpreted from the chemical shift dispersion of many amide protons to values downstream 9 ppm (Fig. 3a,c) and methyl group protons to values around 0 ppm in their NMR spectra (Wuthrich 1986).Finally, downfield chemical shifts are seen on Ca protons to values between 5 and 6 ppm, as also seen in the NMR spectra of His-lc2 (Fig. 3e), is also frequently observed in β-flakes containing polypeptides such as immunoglobulin domains (Riechmann & Davies 1995).

For å bestemme den termodynamiske stabilitet for de selekterte kimerer, ble energiutfolding (AG) av de seks proteiner studert fra deres termodenaturerings-kurver som målt ved CD (Fig. 2b). Foldingsenergiene til His-al, His-26, His-lbll, His-2f3 og His-lg6 er mellom 1,6 og 2,4 kcal/mol (Tabell 1). Disse verdier er lavere enn de for typiske naturlige proteiner, og tilsvarende de til nå mest stabile av de novo-designede p-proteiner, p-doblet (2,5 kcal/mol; Quinn et al. 1994). Imidlertid hadde His-lc2-proteinet selektert fra det genomiske bibliotek en betyde-lig høyere foldingsenergi på 5,3 kcal/mol, som faller til innen det normale området for naturlige proteiner (5 til 15 kcal/mol; Pace 1990). His-lc2 er faktisk 1,7 kcal/mol mer stabil enn His-CspA. To determine the thermodynamic stability of the selected chimeras, energy unfolding (AG) of the six proteins was studied from their thermodenaturation curves as measured by CD (Fig. 2b). The folding energies of His-a1, His-26, His-lb11, His-2f3 and His-lg6 are between 1.6 and 2.4 kcal/mol (Table 1). These values are lower than those for typical natural proteins, and corresponding to the so far most stable of de novo designed p-proteins, p-doubled (2.5 kcal/mol; Quinn et al. 1994). However, the His-lc2 protein selected from the genomic library had a significantly higher folding energy of 5.3 kcal/mol, which falls within the normal range for natural proteins (5 to 15 kcal/mol; Pace 1990). His-lc2 is actually 1.7 kcal/mol more stable than His-CspA.

De relative foldingsstabiliteter av His-2f3 og His-lc2 ble bekreftet gjennom utbyttingsraten for deres amidprotoner i D2O som observert i NMR-eksperimenter. For His-2f3 viste et 1D-<1>H NMR-spektrum opptatt etter inkubering på 24 timer i D20-buffer ved 25°C den komplette utbytting av dets amidprotoner (Fig. 3a, b). I motsetning var amidutbytting i His-lc2 langsom og muliggjorde observasjon av mange amidprotoner i et<1>H NMR-spektrum etter 24 timer ved 25°C i D20 (Fig. 3c, d). En gruppe amidsignaler mellom 8,7 og 10 ppm var også detekterbar 3 uker senere ved ca. 40% med deres opprinnelige intensitet. The relative folding stabilities of His-2f3 and His-lc2 were confirmed through the rate of exchange of their amide protons in D2O as observed in NMR experiments. For His-2f3, a 1D-<1>H NMR spectrum taken after incubation for 24 h in D20 buffer at 25°C showed the complete yield of its amide protons (Fig. 3a,b). In contrast, amide yield in His-lc2 was slow and allowed the observation of many amide protons in a <1>H NMR spectrum after 24 h at 25°C in D2O (Fig. 3c, d). A group of amide signals between 8.7 and 10 ppm was also detectable 3 weeks later at approx. 40% of their original intensity.

Eksempel 8Example 8

Proteolytisk stabilitet for kimerer som løselige proteiner Proteolytic stability of chimeras as soluble proteins

I tillegg til de spektroskopiske bevis for foldingsstabilitet (se Eksempel 7) ble stabilitet også bekreftet med eksponering av de isolerte kimeriske proteiner til proteaser i løsning. Stabilitetsdata beskrevet i Eksempel 7 av de løselige kimeriske proteiner fra Eksempel 6 korres-ponderte i hovedsak til graden av deres beskyttelse fra proteolyse av trypsin, termolysin (begge anvendt under seleksjon) og chymotrypsin (Fig. lb). Tryptisk degradering av N-terminal His-tag gjennom spalting etter Argll ble observert for alle seks proteiner. Argininet ble introdusert som del av ekspresjonsvektoren umiddelbart C-terminal i forhold til N-terminal His-tag. His-lc2 (med en foldingsenergi på 5,3 kcal/mol) degraderes ikke ytterligere med noen av proteasene, noe som bekrefter dets høye konformasjonsstabilitet, men de andre proteiner proteolyseres delvis innen hovedlegemet for polypeptidene. Dette er i samsvar med en partiell utfolding forventet fra en foldingsenergi på ca. 2 kg/mol). Dermed, selv om alle proteinene er resistente til proteolyse (f.eks. sammenlignet med ...-spalting av His-tag ved' Arg) , varierer resistensen mellom proteinene og etter forholdene. In addition to the spectroscopic evidence for folding stability (see Example 7), stability was also confirmed by exposure of the isolated chimeric proteins to proteases in solution. Stability data described in Example 7 of the soluble chimeric proteins from Example 6 corresponded essentially to the degree of their protection from proteolysis by trypsin, thermolysin (both used during selection) and chymotrypsin (Fig. 1b). Tryptic degradation of the N-terminal His-tag through cleavage after Argll was observed for all six proteins. The arginine was introduced as part of the expression vector immediately C-terminal to the N-terminal His-tag. His-lc2 (with a folding energy of 5.3 kcal/mol) is not further degraded by any of the proteases, confirming its high conformational stability, but the other proteins are partially proteolyzed within the main body of the polypeptides. This is consistent with a partial unfolding expected from a folding energy of approx. 2 kg/mol). Thus, although all the proteins are resistant to proteolysis (eg compared to ...-cleavage of His-tag by' Arg), the resistance varies between the proteins and according to the conditions.

Eksempel 9Example 9

) Sekvensduplisering i selekterte kimeriske proteiner) Sequence duplication in selected chimeric proteins

Som beskrevet i Eksempel 4 ovenfor, i 20 av 24 sekvenserte kimeriske proteiner, som ble selektert fra det plasmid-avledede bibliotek, ble den N-terminale halvdel As described in Example 4 above, in 20 of 24 sequenced chimeric proteins, which were selected from the plasmid-derived library, the N-terminal half

i komplementert med et annet fragment fra CspA. Faktisk omfatter de kimeriske proteiner D6 og G4 begge en partiell in complemented with another fragment from CspA. In fact, the chimeric proteins D6 and G4 both comprise a partial

duplisering i deres N-terminale halvdel. Fag D6 inneholder i tillegg til den N-terminale halvdel av CspA (enheter 1 til 36 som del av kloningsvektoren) kjernen av CspA (enheter 17 til 53) (Tabell 1). Fag G4 inneholder som et innskudd en partiell duplisering av den N-terminale halvdel av CspA (enheter 2 til 19). Dette resultat indikerer at (partiell) duplisering av aminosyresegmenter kan føre til dannelse av stabilt foldede proteindomener. duplication in their N-terminal half. Phage D6 contains in addition to the N-terminal half of CspA (units 1 to 36 as part of the cloning vector) the core of CspA (units 17 to 53) (Table 1). Phage G4 contains as an insert a partial duplication of the N-terminal half of CspA (units 2 to 19). This result indicates that (partial) duplication of amino acid segments can lead to the formation of stably folded protein domains.

Eksempel 10Example 10

Duplisering av homologe elementer i stabilt foldede kimeriske proteiner Duplication of homologous elements in stably folded chimeric proteins

Ingen direkte strukturell informasjon er tilgjengelig for de syv DNA-fragmenter, som ble funnet etter seleksjon av det genomiske bibliotek (Eksempel 1) og som ble uttrykt i deres naturlige leseramme. Man har imidlertid et høyt nivå av sekvensidentitet med en sekvensnabo av kjent tredimensjonal struktur(som identifisert med BLAST-analyse av E.coli-genomet). Innskuddet av fag 1B11 strekker seg over enheter 364 til 398 i E. coli 30S ribosomalt subenhet protein Sl (geneidentifiseringsnr. 1787140), hvis enheter 369 til 397 har en 52% identitet med enhetene 11 til 39 i Sl RNA-bindingsdomenet fra E.coli-polynukleotid fosforylase. Disse omfatter et område på fire p-tråder i 3D-strukturen av Sl-domenet, som så som CspA danner en p-barrell men med en innskutt heliks (Bycroft et al., 1997). No direct structural information is available for the seven DNA fragments, which were found after selection of the genomic library (Example 1) and which were expressed in their natural reading frame. However, one has a high level of sequence identity with a sequence neighbor of known three-dimensional structure (as identified by BLAST analysis of the E.coli genome). The insert of phage 1B11 spans units 364 to 398 of the E. coli 30S ribosomal subunit protein S1 (gene identification no. 1787140), whose units 369 to 397 have a 52% identity to units 11 to 39 of the Sl RNA binding domain from E.coli -polynucleotide phosphorylase. These comprise a region of four β-strands in the 3D structure of the Sl domain, which like CspA forms a β-barrel but with an intercalated helix (Bycroft et al., 1997).

De to Sl-domener (av det 30S ribosomale protein og av fosforylasen) er i samsvar med deres sekvenslikhet og identitet homolog til CspA. Sammenstillingen av segmentene i det kimeriske protein 1B11 representerer derfor en sammenstilling av korresponderende regioner fra homologe polypeptid-domener (som også danner den samme strukturelle folding). Dette resultat indikerer at en (partiell) dupli sering av homologe aminosyresegmenter kan føre til dannelse av stabilt foldede proteindomener. The two S1 domains (of the 30S ribosomal protein and of the phosphorylase) are, according to their sequence similarity and identity, homologous to CspA. The assembly of the segments in the chimeric protein 1B11 therefore represents an assembly of corresponding regions from homologous polypeptide domains (which also form the same structural fold). This result indicates that a (partial) duplication of homologous amino acid segments can lead to the formation of stably folded protein domains.

E ksempel 11Example 11

Bevis for komplementering med elementer av lignende struktur fra proteomisk analyse i et kimerisk protein Evidence for complementation with elements of similar structure from proteomic analysis in a chimeric protein

20 av de 24 mest stabile fagkloner selektert fra det plasmid-avledede bibliotek (Eksempel 2) inneholdt innskudd opprinnelig fra CspA-genet i den korrekte leseramme (se Eksempel 4). Disse 20 omfatter tre forskjellige kloner (Al, D6, G4). Al inneholder en deletert versjon (enheter 1 til 52) av CspA-villtypegenet, som må ha blitt etablert gjennom en deletering innen et fagemidklon som opprinnelig omfatter et større innskudd (Tabell 1). Fag D6 inneholder i tillegg til den N-terminale halvdel av CspA (enheter 1 til 36 som del av klonevektoren) kjernen av CspA (enheter 17 til 53) 20 of the 24 most stable phage clones selected from the plasmid-derived library (Example 2) contained inserts originally from the CspA gene in the correct reading frame (see Example 4). These 20 comprise three different clones (A1, D6, G4). Al contains a deleted version (units 1 to 52) of the CspA wild-type gene, which must have been established through a deletion within a phagemid clone originally comprising a larger insert (Table 1). Phage D6 contains in addition to the N-terminal half of CspA (units 1 to 36 as part of the clone vector) the core of CspA (units 17 to 53)

(Tabell 1). Fag G4 inneholder som et innskudd en partiell duplisering av den N-terminale halvdel av CspA (enheter 2 til 19). De komplementerende sekvenser i alle tre kloner omfatter regioner av CspA,. som i CspA-strukturen danner P~trådregionen. Således sammenkobles sekvenser som danner den samme type sekundærstruktur i de kimeriske proteiner Al, D6 og G4 . (Table 1). Phage G4 contains as an insert a partial duplication of the N-terminal half of CspA (units 2 to 19). The complementary sequences in all three clones include regions of CspA,. which in the CspA structure forms the P~strand region. Thus, sequences that form the same type of secondary structure are joined together in the chimeric proteins A1, D6 and G4.

Ingen direkte strukturell informasjon er tilgjengelig for de syv DNA-fragmenter, som ble funnet etter seleksjon av det genomiske bibliotek (Eksempel 1) og som ble uttrykt i deres naturlige leseramme. Én har imidlertid en høy grad av sekvensidentitet med en sekvensnabo av kjente tredimensjonal struktur (som identifisert med en BLAST-analyse av E.coli-genomet). Innskuddet i fag 1B11 strekker seg over enheter 364 til 398 i E. coli 30S ribosomalt-subenhetprotein Sl (genidentifiseringsnr. 1787140), hvis enheter 369 til 397 har en 52% identitet med enheter 11 til 39 i Sl RNA-bindingsdomenet fra E. coli polynukleotid fosforylase. Disse omfatter et område på fire (3-tråder i 3D-strukturen i Sl-domenet, som på samme måte som CspA danner en P~..., men med en innskutt heliks (Bycroft et al. 1997). Således sammenstilles sekvenser som danner den samme type sekundær struktur i det kimeriske protein 1B11. No direct structural information is available for the seven DNA fragments, which were found after selection of the genomic library (Example 1) and which were expressed in their natural reading frame. However, one has a high degree of sequence identity with a sequence neighbor of known three-dimensional structure (as identified by a BLAST analysis of the E.coli genome). The insert in phage 1B11 spans units 364 to 398 of the E. coli 30S ribosomal subunit protein Sl (Gene ID No. 1787140), whose units 369 to 397 have a 52% identity to units 11 to 39 of the Sl RNA-binding domain from E. coli polynucleotide phosphorylase. These comprise a region of four (3-strands in the 3D structure of the Sl domain, which, in the same way as CspA, forms a P~..., but with an intercalated helix (Bycroft et al. 1997). Thus, sequences that forms the same type of secondary structure in the chimeric protein 1B11.

Således, i tilfellene med His-Al, His-d6 og His-lbll-proteinene, har sammenstilling av sekvenser, som danner samme type sekundære struktur, ført til dannelse av stabilt foldede kimerisk protein. Genfragmenter selektert fra begge biblioteker synes å bli anriket for sekvenser som danner primært p-struktur i deres opprinnelige protein. Slike sekvenser kan være mer hyppig i stand til å danne et stabilt domene med et annet genfragment, som opprinnelig koder deler av en P-..., enn sekvenser av heliksopprinnelse. Thus, in the cases of the His-A1, His-d6 and His-lb11 proteins, juxtaposition of sequences forming the same type of secondary structure has led to the formation of stably folded chimeric proteins. Gene fragments selected from both libraries appear to be enriched for sequences that form primarily β-structure in their original protein. Such sequences may be more frequently able to form a stable domain with another gene fragment, originally encoding parts of a P-..., than sequences of helix origin.

Eksempel 12Example 12

Bevis for komplementering med elementer av forskjellig struktur fra proteomisk analyse i selekteriske kimeriske proteiner Evidence for complementation with elements of different structure from proteomic analysis in selective chimeric proteins

Ingen direkte strukturell informasjon er tilgjengelig for de syv DNA-fragmenter, som ble funnet etter seleksjon av det genomiske bibliotek (Eksempel 1) og som uttrykt i deres naturlige leseramme. Man har imidlertid en. høy grad av sekvensidentitet med en sekvensnabo av kjent tredimensjonal struktur (identifisert med BLAST-analyse av E.coligenomet. Innskuddet på 3A12 strekker seg over enheter 52 til 80 i det putative transport-periplasmiske protein (genidentifiseringsnr. 1787590) som deler en 48% sekvensidentitet med enheter 30 til 58 av Salmonella oligopeptid-bindende protein. I dets 3D-struktur (Tame et al. 1994) danner disse enheter en heliks og to korte antiparallelle P-tråder. Det oligopeptid-bindende protein som et blandet a/p-protein har ingen strukturell homologi med CspA og dets enheter 52 til 80 danner ingen del av en (3-barrel. Således sammenstilles sekvenser fra forskjellige foldinger i det kimeriske protein 3A12. Således idet genfragmentene selektert fra begge biblioteker synes å være anriket for sekvenser som danner primært (3-struktur i deres opprinnelige protein, er polypeptidsekvenser som opprinnelig danner forskjellige foldinger også representert. No direct structural information is available for the seven DNA fragments, which were found after selection of the genomic library (Example 1) and as expressed in their natural reading frame. However, one has one. high degree of sequence identity with a sequence neighbor of known three-dimensional structure (identified by BLAST analysis of the E. coli genome. The insertion of 3A12 spans units 52 to 80 of the putative transport-periplasmic protein (Gene ID #1787590) sharing a 48% sequence identity with units 30 to 58 of the Salmonella oligopeptide-binding protein. In its 3D structure (Tame et al. 1994), these units form a helix and two short antiparallel P strands. The oligopeptide-binding protein as a mixed a/p protein has no structural homology with CspA and its units 52 to 80 form no part of a (3-barrel. Thus, sequences from different folds in the chimeric protein 3A12 are assembled. Thus, as the gene fragments selected from both libraries appear to be enriched for sequences that form primarily (3 structure in their native protein, polypeptide sequences that originally form different folds are also represented.

Eksempel 13Example 13

Effekter av modifiserte seleksjonsbetingelserEffects of modified selection conditions

Proteolytisk seleksjon synes å favorisere fagfremvisnings-kimeriske proteiner med høyere foldingsstabilitet enn de som fremviser kimerer med høye smeltepunkter. Fra det plasmid-avledede bibliotek ble fagklonen som oppviser det mer stabile protein Al selektert to ganger så hyppig som den mindre stabile D6, som imidlertid har det høyeste smeltepunkt (Tabell 1). I tilfellet for det genomiske bibliotek ble fagene som oppviser de to mest stabile proteiner (1C2, 1G6) funnet fire og fem ganger, mens fagene i de to minst stabile proteiner (1B11, 2F3) ble kun funnet to ganger etter seleksjon. Dette antyder at unnslippelse fra proteolyse avhenger mer på stabilitet enn på smeltepunktet så lenge proteolysen utføres ved temperaturer langt under smeltepunktet. Høyere proteolysetemperaturer enn anvendt her, kan derfor muliggjøre mer hyppig seleksjon for proteiner med høyere smeltepunkt, mens energetisk mer stabile proteiner sannsynligvis vil anrikes dersom fagene proteolyseres i lengre tid. Proteolytic selection appears to favor phage display chimeric proteins with higher folding stability than those displaying chimeras with high melting points. From the plasmid-derived library, the phage clone exhibiting the more stable protein A1 was selected twice as frequently as the less stable D6, which however has the highest melting point (Table 1). In the case of the genomic library, the phages exhibiting the two most stable proteins (1C2, 1G6) were found four and five times, while the phages in the two least stable proteins (1B11, 2F3) were only found twice after selection. This suggests that escape from proteolysis depends more on stability than on the melting point as long as the proteolysis is carried out at temperatures well below the melting point. Higher proteolysis temperatures than used here can therefore enable more frequent selection for proteins with a higher melting point, while energetically more stable proteins are likely to be enriched if the phages are proteolysed for a longer time.

Slike modifiserte betingelser kan øke frekvensen, med hvilken polypeptidene som utviser stabiliteter av naturlige proteiner selekteres fra vilkårlige kombinatoriske biblioteker.' Ytterligere forbedringer kan forventes ved anvendelse av langt større repertoar, f.eks. etablert ved oppskalering, ved forbedringer i transfeksjonseffektivitet av plasmid, fagemid eller fagreplikon inn i celler, eller ved andre teknikker så som in vivo-rekombinasjon ved anvendelse av cre-lox-systemet (Sternberg&Hamilton 1981). Alternativt, eller i tillegg, kan repertoarene ytterligere diversifiseres ved hjelp av mutagenese før eller etter seleksjon. Effektive repertoarstørrelser kan ytterligere økes, når rekombinasjonspartnere anrikes før rekombinasjon for i ramme, ingen stoppkodon-inneholdende DNA-fragmenter. Such modified conditions can increase the frequency with which polypeptides exhibiting stabilities of natural proteins are selected from arbitrary combinatorial libraries. Further improvements can be expected when using a much larger repertoire, e.g. established by scale-up, by improvements in transfection efficiency of plasmid, phagemid or phage replicon into cells, or by other techniques such as in vivo recombination using the cre-lox system (Sternberg&Hamilton 1981). Alternatively, or in addition, the repertoires can be further diversified by means of mutagenesis before or after selection. Effective repertoire sizes can be further increased, when recombination partners are enriched before recombination for in frame, no stop codon containing DNA fragments.

Den foreliggende metodologi muliggjør seleksjon av nye kimeriske proteiner, som er blitt etablert gjennom re-kombinas jon av naturlige gener, og som kan kombinere egenskaper fra forskjellige molekyler. Ved anvendelse av egnede kombinatoriske partnere kan polypeptider etableres, som viser ønskelige funksjoner (så som et målbindingssete eller en antigenisk epitop) fra opprinnelige proteiner, mens man fjerner uønskede egenskaper (så som uønsket reseptor-bindingssete eller uønskede epitoper). For dette formål kan proteolytisk behandling kombineres med seleksjon for binding . The present methodology enables the selection of new chimeric proteins, which have been established through the recombination of natural genes, and which can combine properties from different molecules. By using suitable combinatorial partners, polypeptides can be established that exhibit desirable functions (such as a target binding site or an antigenic epitope) from native proteins, while removing undesirable properties (such as an unwanted receptor binding site or unwanted epitopes). For this purpose, proteolytic processing can be combined with selection for binding.

I tilfellet seleksjon for binding av kimeriske proteiner til en ligand, kan det være fordelaktig å øke kopi-antallet av fag-oppviste fusjonsproteiner. Et øket kopiantall av oppviste p3-fusjonsproteiner, der det kan være opptil fem på hver fagpartikkel, vil resultere i multiple bindings-forhold for en enkelt klon, som kan muliggjøre seleksjon selv i tilfellet av kimeriske proteiner med en lav affinitet for liganden. Kopiantall for fusjonsproteiner i fagfremvisning kan f.eks. økes, idet fagemid-kodede fusjon-p3-fusjonsproteiner gjenvinnes for fagpreparering med en hjelperfag som mangler genet for p3 (Rekonjac et al. 1997). In the case of selection for binding of chimeric proteins to a ligand, it may be advantageous to increase the copy number of phage-displayed fusion proteins. An increased copy number of detected p3 fusion proteins, where there may be up to five on each phage particle, will result in multiple binding ratios for a single clone, which may enable selection even in the case of chimeric proteins with a low affinity for the ligand. Copy number for fusion proteins in subject presentation can e.g. is increased, as phagemid-encoded fusion-p3 fusion proteins are recovered for phage preparation with a helper phage lacking the gene for p3 (Rekonjac et al. 1997).

Eksempel 14Example 14

Sekundære modifiseringer av selekterte kimerere Secondary modifications of selected chimeras

Bindingsaktiviteten av kimeriske proteiner etablert gjennom vilkårlig rekombinasjon av polypeptidsegmenter for en gitt ligand kan være lav, selv om de opprinnelige proteiner for disse segmenter har en høy affinitet for en slik ligand. Således forventes ethvert nytt sammenstilt polypeptidsegment å ha en viss effekt på strukturen av de andre idet man sammenlignet dets struktur i det opprinnelige protein. Som en konsekvens vil de fleste bindingsseter ikke lenger passe liganden med den samme presisjon, og resultere i en redusert affinitet. Det antas derfor at det kan være nødvendig å forbedre slike bindingsseter, straks et nytt kimerisk protein er blitt etablert som del av et kombinatorisk bibliotek. The binding activity of chimeric proteins established through random recombination of polypeptide segments for a given ligand may be low, even if the original proteins for these segments have a high affinity for such a ligand. Thus, any newly assembled polypeptide segment is expected to have some effect on the structure of the others when compared to its structure in the original protein. As a consequence, most binding sites will no longer fit the ligand with the same precision, resulting in a reduced affinity. It is therefore assumed that it may be necessary to improve such binding sites, as soon as a new chimeric protein has been established as part of a combinatorial library.

Forbedringer av selekterte kimeriske proteiner kan oppnås ved sekundær modifisering eller mutering. Slike modifiseringer kan utføres for å forbedre binding, men de kan også utføres for å øke stabilitet og/eller å introdusere nye bindings- eller enzymatiske funksjoner. Type modifisering og dets lokalisering i det kimeriske protein (dvs. hvilke gamle aminosyrer som erstattes med nye) kan være basert på rasjonelle designprinsipper eller partielt eller fullstendig vilkårlig. Modifiseringer kan introduseres ved en sete-rettet mutagenese (Hutchison III et al. 1978) eller med en sete-rettet vilkårlig mutagenese (Riechmann&Weill 1993) etterfulgt av seleksjon eller screening for aktivitet eller stabilitet i de resulterende mutante kimerer. Alternativt kan en fullstendig vilkårlig mutagenese (gjennom f.eks. error-prone-PCR-mangfoldig-gjøring, Hawkins et al. 1992) av enten det ene eller begge segmenter (eller faktisk deres koblingssekvens) av det kimeriske protein eller gjennom passering av fagemiden gjennom en E. coli mutatorstamme (Low et al. 1996) etterfulgt av seleksjon og/eller screening for binding, enzymatisk aktivitet eller stabilitet. Improvements of selected chimeric proteins can be achieved by secondary modification or mutation. Such modifications can be made to improve binding, but they can also be made to increase stability and/or to introduce new binding or enzymatic functions. The type of modification and its location in the chimeric protein (ie, which old amino acids are replaced with new ones) can be based on rational design principles or partially or completely arbitrary. Modifications can be introduced by site-directed mutagenesis (Hutchison III et al. 1978) or by site-directed random mutagenesis (Riechmann&Weill 1993) followed by selection or screening for activity or stability in the resulting mutant chimeras. Alternatively, completely random mutagenesis (through e.g. error-prone PCR multiplexing, Hawkins et al. 1992) of either one or both segments (or indeed their linker sequence) of the chimeric protein or through passage of the phagemid through an E. coli mutator strain (Low et al. 1996) followed by selection and/or screening for binding, enzymatic activity or stability.

Modifiseringer kan videre omfatte deletering av enheter, eller introdusering av ytterligere enheter. Spesielt kan koblings- og sluttregionene av de kombinerte polypeptidsegmenter forventes å ikke være optimalisert. Kob-lingsregionene kan begrense interaksjoner mellom de sam-menstilte segmenter, som kan frigjøres ved å introdusere ytterligere enheter innen koblingsregionen. Regioner nær enden av det kimeriske protein kan omfatte terminale enheter som ikke tar del i foldingen av domenet, og deres deletering kan forbedre den totale integritet av proteinet. Modifications may further include the deletion of units, or the introduction of additional units. In particular, the linker and end regions of the combined polypeptide segments can be expected not to be optimized. The connecting regions can limit interactions between the assembled segments, which can be released by introducing additional units within the connecting region. Regions near the end of the chimeric protein may include terminal units that do not participate in the folding of the domain, and their deletion may improve the overall integrity of the protein.

Vi viste for ett av de kimeriske proteiner hvordan deres stabilitet ble forbedret basert på rasjonell design. His-2f3 ble etablert gjennom kombinatorisk shuffling av den N-terminale halvdel av E.coli-protein CspA med vilkårlige aminosyresegmenter kodet for fragmentene på E.coli-genomet (Eksempel 1). Sekvensene og genetisk opprinnelse av det vilkårlige fragment er gitt i Tabell II. Den spektroskopiske analyse av His-2f3 (Eksempel 7) indikerer en folding som er rik i (3-struktur. Dersom His-2f3-foldere (så som CspA) til en p-barrel, må visse sekvenskrav oppfylles for å forbedre stabiliteten til barrelen. We showed for one of the chimeric proteins how their stability was improved based on rational design. His-2f3 was established through combinatorial shuffling of the N-terminal half of E.coli protein CspA with arbitrary amino acid segments encoded by the fragments of the E.coli genome (Example 1). The sequences and genetic origin of the arbitrary fragment are given in Table II. The spectroscopic analysis of His-2f3 (Example 7) indicates a fold that is rich in (3) structure. If His-2f3 folds (such as CspA) into a β-barrel, certain sequence requirements must be met to improve the stability of the barrel .

I CspA lukker den hydrofobe sidekjede av enhet Leu 45 en ende av dets p-barrel, og Gly48 og Gln49 danner en kurve mellom to p-tråder i polypeptidfoldingen for å muliggjøre dannelse av backbone-hydrogenbindinger av den påfølgende P-tråd med den N-terminale P-tråd av CspA. Innen denne tråd peker sidekjedene .av de to hydrofobiske' enheter (Val51, Phe53 og Ile55) til innsiden av barrelen. His-2f3 møter ikke disse kravene eksakt, men har et tilsvarende motiv innen dets genomiske segmenter, idet enhetene Pro58, Gly61, Ala62, Met64, Phe66 og Ala68 (i dets genomiske segment) oppviser den samme rommelige fordeling som motivet beskrevet i CspA (sammenlign Tabell III). In CspA, the hydrophobic side chain of unit Leu 45 closes one end of its β-barrel, and Gly48 and Gln49 form a curve between two β-strands of the polypeptide fold to enable the formation of backbone hydrogen bonds of the subsequent P-strand with the N- terminal P strand of CspA. Within this thread, the side chains of the two hydrophobic units (Val51, Phe53 and Ile55) point to the inside of the barrel. His-2f3 does not meet these requirements exactly, but has a corresponding motif within its genomic segments, with the units Pro58, Gly61, Ala62, Met64, Phe66 and Ala68 (in its genomic segment) showing the same spatial distribution as the motif described in CspA (compare Table III).

Vi muterte derfor det genomiske segment i 2f3 ved posisjoner 58 (P til L), 62 (A til Q) og 68 (A til L) for å matche aminosyretypene beskrevet for motivet i CspA, mens enhetene ved posisjon 61, 64 og 66 i 2f3 allerede var vur-dert til å være identiske eller tilstrekkelig like. Som oppsummert i Tabell III øket de kombinerte P58L og A62Q-mutasjonene stabiliteten av 2f3 til 6 kcal/mol, som begge er innen området for typiske naturlige proteindomener og er 1,6 kcal/mol høyere enn for CspA selv. A68L hadde ingen positiv effekt i 2f3. We therefore mutated the genomic segment in 2f3 at positions 58 (P to L), 62 (A to Q) and 68 (A to L) to match the amino acid types described for the motif in CspA, while the units at positions 61, 64 and 66 in 2f3 were already judged to be identical or sufficiently similar. As summarized in Table III, the combined P58L and A62Q mutations increased the stability of 2f3 to 6 kcal/mol, both of which are within the range of typical natural protein domains and are 1.6 kcal/mol higher than for CspA itself. A68L had no positive effect in 2f3.

I tillegg ble de to C-terminale enheter (PW) i 2f3 (sammenlign tabellene II og III) fjernet, idet disse var delvis degradert i det opprinnelige uttrykte, løselige 2f3-protein. Fjerning av disse enheter hadde ingen signifikant effekt på den totale stabilitet av 2f3, men resul-terte i et mer homogent proteinpreparat etter ekspresjon, som f.eks. er fordelaktig for strukturstudier så som NMR. Dette resultat viser at de nye kimeriske proteiner kan forbedres etter seleksjon gjennom ytterligere modifiseringer, i dette tilfellet basert på et rasjonelt design. In addition, the two C-terminal units (PW) of 2f3 (compare Tables II and III) were removed, as these were partially degraded in the original expressed soluble 2f3 protein. Removal of these units had no significant effect on the overall stability of 2f3, but resulted in a more homogeneous protein preparation after expression, which e.g. is advantageous for structural studies such as NMR. This result shows that the new chimeric proteins can be improved after selection through further modifications, in this case based on a rational design.

Eksempel 15Example 15

Kryssreaktivitet av anti-CspA antisera med kimeriske proteiner Cross-reactivity of anti-CspA antisera with chimeric proteins

En mulig applikasjon av kimeriske proteiner er deres anvendelse som vaksiner mot det opprinnelige polypeptid av én eller flere av de rekombinante aminosyresekvenser. For dette formål vil antisera mot det kimeriske protein være kryssreaktivt med det opprinnelige polypeptid (og faktisk vice versa). One possible application of chimeric proteins is their use as vaccines against the original polypeptide of one or more of the recombinant amino acid sequences. To this end, antisera against the chimeric protein will be cross-reactive with the original polypeptide (and indeed vice versa).

En kanin ble immunisert med CspA ved anvendelse av Freund's adjuvant (se metoder). Det resulterende anti-serum gjenkjente immobiliserte biotinylert CspA. Binding av kanin-antiserum til det immobiliserte Biotin-CspA kunne konkurreres med løselig CspA og i varierende grad med det kimeriske protein His-lc2, His-2f3 og His-lbll (Fig.4). Dette resultat viser at en immunisering med CspA resulterer i en immunrespons som inneholder antistoff som kryssreagerer med alle tre av de analyserte kimerer. Således kan det derfor også være mulig å oppnå en immunrespons mot CspA dersom kun én av kimerene anvendes for vaksinering. Immunresponsen kan forventes å være rettet mot både lineære og mot konformasjonsdeterminanter av CspA. A rabbit was immunized with CspA using Freund's adjuvant (see methods). The resulting anti-serum recognized immobilized biotinylated CspA. Binding of rabbit antiserum to the immobilized Biotin-CspA could be competed with soluble CspA and to varying degrees with the chimeric protein His-lc2, His-2f3 and His-lbll (Fig.4). This result shows that an immunization with CspA results in an immune response containing antibody that cross-reacts with all three of the analyzed chimeras. Thus, it may therefore also be possible to achieve an immune response against CspA if only one of the chimeras is used for vaccination. The immune response can be expected to be directed against both linear and conformational determinants of CspA.

Eksempel 16Example 16

Seleksjon av kimeriske proteiner for bindingSelection of chimeric proteins for binding

I de tidligere eksempler ble stabilt foldede kimeriske domener selektert med proteolyse gjennom kombinatorisk sammenkobling av den N-terminale halvdel av E.coli-protein CspA med aminosyresegmenter kodet for av fragmentene av E.coli-genomet (eks. 1 og 3). Et antall av disse kimeriske proteiner forventes å binde en polypeptidfolding som ligner den for CspA idet den sekundære strukturpredikasjon og spektroskopiske analyse av de fire kimerer beskrevet (Eksempel 7) indikerer en folding rik på (^-struktur. In the previous examples, stably folded chimeric domains were selected by proteolysis through combinatorial linking of the N-terminal half of E.coli protein CspA with amino acid segments encoded by the fragments of the E.coli genome (Ex. 1 and 3). A number of these chimeric proteins are expected to bind a polypeptide fold similar to that of CspA as the secondary structure prediction and spectroscopic analysis of the four chimeras described (Example 7) indicate a fold rich in (^-structure.

Det er mulig at RNA-bindingsfunksjonen (Jiang et al. 1997) av CspA opprettholdes i noen av de selekterte kimerer. Nukleinsyrebindingssetet i CspaA er foreslått å være lokalisert på overflaten dannet rundt Trpll, Phel8, Phe20, Phe31 og Lys60 (Newkirk et al. 1994; Schroder et al. 1995). Mens de fire aromatiske enheter er del av den Nterminale halvdel CspA og derfor foreligger i alle medlemmene av det genomiske repertoar (Eksempel 1) er enhet Lys60 ikke. Det synes sannsynlig at i noen av de kimeriske proteiner vil nukleinsyrebindings-aktiviteten opprettholdes, og slike proteiner kan f.eks." selekteres ved binding av fag som fremviser proteinet for nukleinsyre immobilisert på fastfase. (Imidlertid, fagfremvisningssystemet anvendt i eksperimentene ovenfor, vil være uegnet idet barnase-markøren opprettholder nukleinsyrebindingsaktiviteten). It is possible that the RNA binding function (Jiang et al. 1997) of CspA is maintained in some of the selected chimeras. The nucleic acid binding site in CspaA is proposed to be located on the surface formed around Trpll, Phel8, Phe20, Phe31 and Lys60 (Newkirk et al. 1994; Schroder et al. 1995). While the four aromatic units are part of the N-terminal half of CspA and are therefore present in all members of the genomic repertoire (Example 1), unit Lys60 is not. It seems likely that in some of the chimeric proteins the nucleic acid binding activity will be maintained, and such proteins can, for example, be selected by the binding of phage displaying the protein for nucleic acid immobilized on solid phase. (However, the phage display system used in the above experiments will be unsuitable as the barnase marker maintains nucleic acid binding activity).

Videre, for funksjonell seleksjon kan det være nødvendig å anvise et fagfremvisningssystem som muliggjør multippel fremvisning av funksjonsproteinet, og dermed fremmer seleksjon av kimeriske proteiner med lav affinitet for liganden (i dette tilfellet nukleinsyre) gjennom resulterende ... -effekten. Dette kan oppnås i tilfelle for kimerer fusjonert til fagkappeprotein p3, f.eks. gjennom anvendelse av en fagvektor-lignende fag-fd (Zacher et al. 1980), gjennom anvendelse av et fagemid i kombinasjon med en hjelpefag som mangler fag p3-genet (Rakonjac et al. 1997), eller gjennom en øket ekspresjon av funksjonelt kimera-p3-fusjonsprotein. Alternativt kan multippel fremvisning oppnås gjennom fusjon til et forskjellig fagkappeprotein, som p8. Furthermore, for functional selection it may be necessary to design a phage display system that enables multiple display of the functional protein, thereby promoting selection of chimeric proteins with low affinity for the ligand (in this case nucleic acid) through the resulting ... effect. This can be achieved in the case of chimeras fused to phage coat protein p3, e.g. through the use of a phage vector-like phage-fd (Zacher et al. 1980), through the use of a phagemid in combination with a helper phage lacking the phage p3 gene (Rakonjac et al. 1997), or through an increased expression of functional chimera -p3 fusion protein. Alternatively, multiple display can be achieved through fusion to a different phage coat protein, such as p8.

Av spesiell viktighet er binding av de kimeriske domener til antistoffer. Dersom antiserum mot det opprinnelige protein ble anvendt for seleksjon, vil dette forventes å dirigere seleksjon til enhver av epitopene i det kimeriske protein som er lignende til de i det opprinnelige protein og som er representert i anti-serum. Alternativt kan monoklonale antistoff anvendes som ville selektere for de kloner som binder en enkelt-epitop som er lignende til det i det opprinnelige protein. Et antall av disse kimeriske proteiner forventes å danne en polypeptidfolding som ligner det til CspA, idet den sekundære struktur-seleksjon og spektroskopisk analyse av de fire kimerer beskrevet i Eksempel 7 indikerer en folding som er rik i Pstruktur. Of particular importance is binding of the chimeric domains to antibodies. If antiserum to the original protein was used for selection, this would be expected to direct selection to any of the epitopes in the chimeric protein that are similar to those in the original protein and that are represented in the antiserum. Alternatively, monoclonal antibodies can be used that would select for those clones that bind a single epitope similar to that in the original protein. A number of these chimeric proteins are expected to form a polypeptide fold similar to that of CspA, with the secondary structure selection and spectroscopic analysis of the four chimeras described in Example 7 indicating a fold rich in P structure.

Dersom noen av de rekombinerte kimeriske proteiner innen repertoaret ligner foldingen til CspA, skulle det være mulig å anrike slike proteiner gjennom binding til antistoff som spesifikt gjenkjenner CspA. If some of the recombined chimeric proteins within the repertoire resemble the folding of CspA, it should be possible to enrich such proteins through binding to antibodies that specifically recognize CspA.

Eksempel 15 beskriver allerede at et anti-CspAantiserum kryssreagerer med tre av de kimeriske selektert gjennom proteolyse (og barstar-binding) alene. Anti-CspAantiserum kan derfor fungere som en reagens for å anrike det kombinatoriske bibliotek fra Eksempel 1 spesifikt for fag som oppviser kimeriske proteiner som ligner CspA mest. Example 15 already describes that an anti-CspA antiserum cross-reacts with three of the chimeric ones selected through proteolysis (and barstar binding) alone. Anti-CspA antiserum can therefore act as a reagent to enrich the combinatorial library from Example 1 specifically for phage exhibiting chimeric proteins most similar to CspA.

Et kanin-anti-CspA-serum ble fraksjoner gjennom binding til Biotin-CspA immobilisert til streptavidinagarose for å anrike for dette mot konformasjonsdeterminanter av CspA. Rensede CspA-spesifikke (anti-CspA) kaninantistoff (IgG) ble testet for anti-CspA-bindingsaktivitet som beskrevet i Eksempel 5. For anvendelse i fagseleksjon ble anti-CspA kanin-antistoff immobilisert på en streptavidin-belagt ELISA-brønnplate gjennom et kommersielt biotinylert anti-kanin IgG-antiserum. Fag (7xl0<9>cfu) fra det genomiske bibliotek av kimeriske proteiner (Eksempel 1), som hadde undergått én runde proteolytisk seleksjon (etterfulgt av barstar-binding, se Eksempel 3), ble behandlet med trypsin og termolysin (se Eksempel 3) etterfulgt av binding til CspA-spesifikt-kanin-antistoff i 2% BSA i PBS. Etter vasking med PBS og 40 mM DDT, ble 4,3xl0<3>bundne fag eluert ved pH 2, nøytralisert og anvendt for infeksjon av bakterielle celler. A rabbit anti-CspA serum was fractionated through binding to Biotin-CspA immobilized to streptavidin agarose to enrich for this against conformational determinants of CspA. Purified CspA-specific (anti-CspA) rabbit antibodies (IgG) were tested for anti-CspA binding activity as described in Example 5. For use in phage selection, anti-CspA rabbit antibody was immobilized on a streptavidin-coated ELISA well plate through a commercial biotinylated anti-rabbit IgG antiserum. Phage (7xl0<9>cfu) from the genomic library of chimeric proteins (Example 1), which had undergone one round of proteolytic selection (followed by barstar ligation, see Example 3), were treated with trypsin and thermolysin (see Example 3) followed by binding to CspA-specific rabbit antibody in 2% BSA in PBS. After washing with PBS and 40 mM DDT, 4.3 x 10<3> bound phage were eluted at pH 2, neutralized and used for infection of bacterial cells.

96 av de resulterende kloner fikk vokse i en multi-brønnsplate, og ble infisert med hjelperfag KM13 for fag-produksjon. Fag fra dyrkningssupernatanten fra de infiserte bakterielle kloner ble bundet til anti-CspA-antistoff, som igjen var blitt immobilisert til en streptavidin-belagt plate med et biotinylert geite-anti-kanin-IgG-antiserum. Bundet fag ble vasket med PBS, eksponert til trypsin og termolysin etter immobilisering som tidligere, vasket med 96 of the resulting clones were grown in a multi-well plate and were infected with helper phage KM13 for phage production. Phage from the culture supernatant of the infected bacterial clones was bound to anti-CspA antibody, which in turn had been immobilized to a streptavidin-coated plate with a biotinylated goat anti-rabbit IgG antiserum. Bound phage were washed with PBS, exposed to trypsin and thermolysin after immobilization as before, washed with

PBS, og gjenværende fag ble detektert med et anti-M13-HRP-konjugat. Sekvenser av de nye kloner med det sterkeste signal som var igjen etter proteolyse. Syv av disse kloner var identiske (to) eller omtrent identiske (fem kloner hadde én enhet mindre ved den N-terminale ende av det genomiske innskudd og to forskjellige enheter ved den C-terminale ende) til klone 2f3, som var blitt selektert tidligere, men ikke med den samme høye frekvens, etter proteolytisk seleksjon/barstar-binding (eksempler 3 og 4). De to gjenværende sekvenser var ikke tidligere blitt observert. Renset fag av 2f3- og 2f3-lignende kloner ble bekreftet å være sterkt reaktive med det rensede kanin-anti-CspA-antistoff, også etter eksponering til trypsin i løsning, noe som bekrefter at dets protease-resistente foldede sekvenser bindes til antistoff. Sammen med det faktum at anti-serum var blitt fraksjonert for binding til det foldede CspA, indikerer dette sterkt at seleksjonen har vært mot- en kon-formasjonsdeterminant. ELISA i Fig. 4 (se Eksempel 15) viser at det korresponderende kimeriske protein også inter-agerer i dets løselige versjon med et anti-CspA-antiserum. PBS, and residual phage was detected with an anti-M13-HRP conjugate. Sequences of the new clones with the strongest signal that remained after proteolysis. Seven of these clones were identical (two) or nearly identical (five clones had one less unit at the N-terminal end of the genomic insert and two different units at the C-terminal end) to clone 2f3, which had been selected previously, but not with the same high frequency, after proteolytic selection/barstar binding (Examples 3 and 4). The two remaining sequences had not previously been observed. Purified phage of 2f3 and 2f3-like clones were confirmed to be highly reactive with the purified rabbit anti-CspA antibody, even after exposure to trypsin in solution, confirming that its protease-resistant folded sequences bind to antibody. Together with the fact that the antiserum had been fractionated for binding to the folded CspA, this strongly indicates that the selection has been against a conformational determinant. The ELISA in Fig. 4 (see Example 15) shows that the corresponding chimeric protein also interacts in its soluble version with an anti-CspA antiserum.

Dette eksperiment antyder hvordan det er mulig å identifisere «isosteriske» peptider (samme konformasjon i det opprinnelige protein og det kimeriske domenet). Det indikerer også at metoden kan anvendes for vaksinering mot et konformasjonssegment av proteinet, det skulle således være tilsvarende mulig å anvende 2f3 for vaksinering, og å produsere anti-serum som gjenkjenner konformasjonen av den N-terminale porsjon av CspA. This experiment suggests how it is possible to identify "isosteric" peptides (same conformation in the original protein and the chimeric domain). It also indicates that the method can be used for vaccination against a conformational segment of the protein, it should thus be similarly possible to use 2f3 for vaccination, and to produce anti-serum that recognizes the conformation of the N-terminal portion of CspA.

MetoderMethods

Vektorkonstråks jonerVector constrac ions

Genet for H102A-mutanten av barnase (Meiering et al. 1992) ble fusjonert til N-terminus av genet 3 protein (p3) av fag fd (Zacher et al. 1980) i en modifisert fagemid pHENl The gene for the H102A mutant of barnase (Meiering et al. 1992) was fused to the N-terminus of the gene 3 protein (p3) of phage fd (Zacher et al. 1980) in a modified phagemid pHENl

(Hoogenboom et al. 1991) mellom DNA'en som koder for pelB lederpeptid og det modne p2 etter PCR-mangfoldiggjøring- med egnede oligonukleotider ved anvendelse av NCoI og Pstl-restriksjonsseter for å etablere vektoren p22-12. Inn i p22-12 ble egnede mangfoldiggjorte deler av E.coligenet CspA (Goldstein et al. 1990) klonet mellom barnase- og p3-genene ved anvendelse av Pstl og Notl-restriksjonsseter. I den resulterende fagemidvektor pC5-7 etterfølges barnase-genet av de N-terminale 36 enheter av CspA (der Nterminal Met er mutert til Leu for å ledsage Pstl-setet) og DNA-sekvensen GGG AGC TCA GGC GGC CGC AGA A (SacI og Noti restriksjonsseter i kursiv) før GAA-kodon for den første enhet (Glu) av p3. I pC5-7 er barnase-Csp-kassetten ute av ramme med p3-genet. I kontrollvektoren pCsp/2 er barnase-Csp-kassetten i ramme med p3-genet, men det første kodon av koblings-DNA utgjør et opalt stoppkodon. (Hoogenboom et al. 1991) between the DNA encoding the pelB leader peptide and the mature p2 after PCR amplification with appropriate oligonucleotides using NCoI and Pstl restriction sites to establish the vector p22-12. Into p22-12, appropriate amplified portions of E. coligene CspA (Goldstein et al. 1990) were cloned between the barnase and p3 genes using Pstl and Notl restriction sites. In the resulting phagemid vector pC5-7, the barnase gene is followed by the N-terminal 36 units of CspA (where the Nterminal Met is mutated to Leu to accompany the Pstl site) and the DNA sequence GGG AGC TCA GGC GGC CGC AGA A (SacI and Note restriction sites in italics) before GAA codon for the first unit (Glu) of p3. In pC5-7, the barnase Csp cassette is out of frame with the p3 gene. In the control vector pCsp/2, the barnase Csp cassette is in frame with the p3 gene, but the first codon of the linker DNA forms an opal stop codon.

Vektorer for den cytoplasmiske ekspresjon av løselige proteiner ble konstruert ved å subklone gener fra fage-midene inn i BamHI og Hindlll-seter i en modifisert QE30-vektor (Qiagen). Denne vektor er identisk til QE30 med unntak for en tetra-His-markør. Under PCR-bevirket sub-kloning ved anvendelse av primerne CYTOFOR (5'-CAA CAG TTT Vectors for the cytoplasmic expression of soluble proteins were constructed by subcloning genes from the phage mites into BamHI and HindIII sites in a modified QE30 vector (Qiagen). This vector is identical to QE30 except for a tetra-His tag. During PCR-mediated sub-cloning using the primers CYTOFOR (5'-CAA CAG TTT

AAG CTT CCG CCT GAG CCC AGG-3') og CYTOBAK (5'-CCT TTA CAG AAG CTT CCG CCT GAG CCC AGG-3') and CYTOBAK (5'-CCT TTA CAG

GAT CCA GAC TGC AG-3') ble opale stoppkodon omdannet til Trp-kodende TGG-triplett. GAT CCA GAC TGC AG-3') opal stop codon was converted to Trp-encoding TGG triplet.

Konstruksjon av bibliotekConstruction of library

Som templater for vilkårlige mangfoldiggjøringer ble 100 ng pBCSK (Stratagene)-basert plasmid inneholdende den As templates for random amplifications, 100 ng of pBCSK (Stratagene)-based plasmid containing the

fullstendige CspA koderegion eller genomisk DNA (2 \ iq oppkuttet med SacI) fra E. coli-stamme TG1 (Gibson 1984) fremstilt som beskrevet (Ausubel et al. 1995) anvendt i 25 PCR sykluser med en annealings-temperatur på 38°C ved anven- complete CspA coding region or genomic DNA (2 µq cut with SacI) from E. coli strain TG1 (Gibson 1984) prepared as described (Ausubel et al. 1995) used in 25 PCR cycles with an annealing temperature of 38°C at use

deise av oligonukleotidet SN6NEW (5'-GAG CCT GCA GAG CTC AGG NNN NNN-3') ved 40 pmol/ml for plasmid eller i 30 PCR-sykluser med en annealings-temperatur på 38°C ved anvendelse av oligonukleotid SN6MIX (5'-GAG CCT GCA GAG CTC CGG NNN NNN-3') ved 40 pmol/ml for det genomiske DNA. PCR-produkter ble forlenget i ytterligere 30 sykluser med en annealingstemperatur på 52°C ved anvendelse av nukleotidet NOARG (5'-CGT GCG AGC CTG CAG AGC TCA GG-3' ved 4000 pmol/ml) for plasmidet og oligonukleotidet XTND (5'-CGT GCG AGC CTG CAG AGC TCC GG-3' ved 4000 pmol/ml) for det genomiske DNA. PCR-produkter på ca. 140 bp ble renset fra en agarosegel, og re-mangfoldiggjort i 30 PCR-sykluser ved anvendelse av oligonukleotidet NOARG ved en annealings-temperatur på 50°C. deis of the oligonucleotide SN6NEW (5'-GAG CCT GCA GAG CTC AGG NNN NNN-3') at 40 pmol/ml for plasmid or in 30 PCR cycles with an annealing temperature of 38°C using oligonucleotide SN6MIX (5' -GAG CCT GCA GAG CTC CGG NNN NNN-3') at 40 pmol/ml for the genomic DNA. PCR products were extended for a further 30 cycles with an annealing temperature of 52°C using the nucleotide NOARG (5'-CGT GCG AGC CTG CAG AGC TCA GG-3' at 4000 pmol/ml) for the plasmid and the oligonucleotide XTND (5' -CGT GCG AGC CTG CAG AGC TCC GG-3' at 4000 pmol/ml) for the genomic DNA. PCR products of approx. 140 bp was purified from an agarose gel, and re-amplified in 30 PCR cycles using the oligonucleotide NOARG at an annealing temperature of 50°C.

Resulterende fragmenter ble oppkuttet med SacI, renset og ligert inn i den fosfatasebehandlede- og Sacl-vektor pC5-7. Ligert DNA ble elektroporert inn i TG1 for etablering av et plasmid-avledet repertoar på l,7xl0<8>kloner og et genomisk repertoar på 1,0xl0<8->kloner. I begge bibliotek inneholdt ca. 60% av rekombinantene monomeriske innskudd, mens det resterende inneholdt oligomeriske innskudd. Ligerings-bakgrunn var mindre enn 1% for begge ligeringer. På grunn Resulting fragments were cut with SacI, purified and ligated into the phosphatase-treated and SacI vector pC5-7. Ligated DNA was electroporated into TG1 to establish a plasmid-derived repertoire of 1.7x10<8> clones and a genomic repertoire of 1.0x10<8> clones. Both libraries contained approx. 60% of the recombinants contained monomeric inserts, while the remainder contained oligomeric inserts. Ligation background was less than 1% for both ligations. Due

av forskjeller i 3'-enden av PCR-primerne XTND og NOARGof differences at the 3' end of the PCR primers XTND and NOARG

i inneholdt 40% av klonene med i-ramme-innskudd i det genomiske bibliotek en GGA-kodet Gly-enhet som del av 3'-SacI-setet, mens de gjenværende kloner inneholdt TGA-kodet opalt stoppkodon ved den samme posisjon. Alle medlemmer av det i , 40% of clones with in-frame insertions in the genomic library contained a GGA-encoded Gly unit as part of the 3'-SacI site, while the remaining clones contained the TGA-encoded opal stop codon at the same position. All members of it

plasmid-avledede bibliotek med i-ramme-innskudd inneholdtplasmid-derived libraries with in-frame inserts contained

i det TGA-kodede opale stoppkodon ved denne posisjon. in the TGA-encoded opal stop codon at this position.

SeleksjonerSelections

For seleksjoner ble ca. 10<10>kolonidannende enheter (cfu)For selections, approx. 10<10>colony forming units (cfu)

i av fag behandlet med 200 nM trypsin (Sigma T8802) og 384 nM i of subjects treated with 200 nM trypsin (Sigma T8802) and 384 nM

termolysin (Sigma P1512) TBS-Ca-buffer (25 mM Tris, 137 mM NaCl, 1 mM CaCl2, pH 7,4) i 10 min. ved 10°C. Proteolysert fag ble opptatt i 1 time med biotinylert C40A, C82A dobbelmutant barnase-inhibitor-barstar (Hartley 1993, Lubienski et al. 1993) immobilisert på en streptavidin-belagt mikrotiter-plate (Boehringer)-brønner i 3% Marvel i PBS. Brønnene ble vasket 20 ganger med PBS og én gang med 50 mM ditiotreitol (DTT) i PBS i 5 min. for å eluere fag som inneholder proteolysert p3-fusjoner kun holdt sammen med disulfidbroer. Bundet fag ble eluert ved pH 2, nøy-tralisert ved pH 7, og propagert etter re-infeksjon. thermolysin (Sigma P1512) TBS-Ca buffer (25 mM Tris, 137 mM NaCl, 1 mM CaCl2, pH 7.4) for 10 min. at 10°C. Proteolyzed phage were captured for 1 hour with biotinylated C40A, C82A double mutant barnase inhibitor barstar (Hartley 1993, Lubienski et al. 1993) immobilized on a streptavidin-coated microtiter plate (Boehringer) wells in 3% Marvel in PBS. The wells were washed 20 times with PBS and once with 50 mM dithiothreitol (DTT) in PBS for 5 min. to elute phage containing proteolyzed p3 fusions held together only by disulfide bridges. Bound phage was eluted at pH 2, neutralized at pH 7, and propagated after re-infection.

Fag ELISASubject ELISA

Proteolyse og binding av renset fag (ca. 1010cfu pr. brønn) til immobilisert barstar ble utført som ovenfor. Fag som ble igjen etter vasking med PBS og DTT, ble detektert i ELISA med anti-M13-fag-antistoff, pepperrotperoksidase (HRP)-konjugat (Pharmacia) i 3% Marvel i PBS. Ikke-renset fag fra kultursupernatanter ble bundet til det biotinylerte barstar, og deretter proteolysert in situ. Renset fag ble proteolysert i løsning og proteaser ble inaktivert med Pefabloc (Boehringer) og EDTA før opptak. Proteolysis and binding of purified phage (approx. 1010 cfu per well) to immobilized barstar was carried out as above. Phage remaining after washing with PBS and DTT were detected in ELISA with anti-M13 phage antibody, horseradish peroxidase (HRP) conjugate (Pharmacia) in 3% Marvel in PBS. Unpurified phage from culture supernatants were bound to the biotinylated barstar, and then proteolyzed in situ. Purified phage were proteolysed in solution and proteases were inactivated with Pefabloc (Boehringer) and EDTA before uptake.

Anti- CpsA- antiseraAnti-CpsA antisera

Et første anti-CspA-serum (som anvendt i Fig. 4) ble opptatt fra en immunisert kanin. Kaninen ble injisert 1 gang med refoldet (se ovenfor) His-CspA (0,5 ml ved 1,75 mg/ml PBS) blandet med 1:1 Freud's komplette adjuvans, etterfulgt av to injeksjoner med refoldet His-CspA (0,5 ml ved 1,75 mg/mg PBS) blandet 1:1 "med Freud's ufullstendige adjuvans i 4-ukers intervaller for å fremskynde immunresponsen. Anti-sera anvendt ble hentet fra blod som var tatt 10 dager etter den andre boost. A first anti-CspA serum (as used in Fig. 4) was collected from an immunized rabbit. The rabbit was injected once with refolded (see above) His-CspA (0.5 ml at 1.75 mg/ml PBS) mixed with 1:1 Freud's complete adjuvant, followed by two injections of refolded His-CspA (0.5 ml at 1.75 mg/mg PBS) mixed 1:1" with Freud's incomplete adjuvant at 4-week intervals to speed up the immune response. Anti-sera used were obtained from blood drawn 10 days after the second boost.

Et anti-CspA-serum som anvendt for rensing av antiCspA-spesifikke antistoff i Eksempel 16 ble opptatt fra en forskjellig immunisert kanin. Kaninen ble injisert 1 gang med refoldet (se ovenfor) His-CspA (0,5 ml ved 1,75 mg/ml PBS) blandet med 1:1 med Freud's komplette adjuvans, etterfulgt av 3 injeksjoner med refoldet His-CspA (0,5 ml ved 1,75 mg/ml PBS) alene i 4-ukers intervaller for å booste immunresponsen. Anti-sera anvendt ble hentet fra blod tatt 10 dager etter den tredje boost. 1 ml av dette antiserum ble renset på 0,2 ml streptavidin-agarose (Pierce Nr 53117), hvortil ca. 0,1 mg Biotin-CspA (se nedenfor) ble bundet, etter vasking med PBS, eluering ved pH 2, etterfulgt-av nøytralisering og bufferbytte til 3,5 ml PBS (dvs. ved 3,5-gangers fortynning sammenlignet med det opprinnelige anti-sera). Ved anvendelse for fagseleksjon var det rensede anti-CspA-antistoff 500-ganger fortynnet i PBS for binding til et biotinylert geit-antistoff-antiserum (Sigma B-7389) immobilisert i streptavidin-belagte ELISA-brønner. An anti-CspA serum used for purification of anti-CspA-specific antibody in Example 16 was collected from a different immunized rabbit. The rabbit was injected 1 time with refolded (see above) His-CspA (0.5 ml at 1.75 mg/ml PBS) mixed 1:1 with Freud's complete adjuvant, followed by 3 injections of refolded His-CspA (0, 5 ml at 1.75 mg/ml PBS) alone at 4-week intervals to boost the immune response. Anti-sera used were obtained from blood taken 10 days after the third boost. 1 ml of this antiserum was purified on 0.2 ml of streptavidin-agarose (Pierce No. 53117), to which approx. 0.1 mg Biotin-CspA (see below) was bound, after washing with PBS, elution at pH 2, followed by neutralization and buffer exchange to 3.5 ml PBS (ie at 3.5-fold dilution compared to the original anti-sera). When used for phage selection, the purified anti-CspA antibody was diluted 500-fold in PBS for binding to a biotinylated goat antibody antiserum (Sigma B-7389) immobilized in streptavidin-coated ELISA wells.

His-CspA, som anvendt for immunisering og data i Tabell III og Fig. 4, ble renset fra ikke-fraksjonert E. coli-cellepellet ved anvendelse av NTA-agarose etter solubilisering med 8M urea i TBS. Før eluering med 200 mM imidazol PBS ble agarose-bundet His-CspA re-naturert med 8 M til 0 M ureagradient TBS. Eluert protein ble dialysert mot PBS. His-CspA, as used for immunization and data in Table III and Fig. 4, was purified from the unfractionated E. coli cell pellet using NTA-agarose after solubilization with 8M urea in TBS. Before elution with 200 mM imidazole PBS, agarose-bound His-CspA was renatured with 8 M to 0 M urea gradient TBS. Eluted protein was dialyzed against PBS.

For biotinylering ble CspA modifisert gjennom tilsetning av cystein-glutamin-alaninenheter som en Cterminalmarkør, introdusert på gennivå ved anvendelse av egnede PCR-primere. Det korresponderende His-CspA-Cysprotein ble uttrykt, renset og re-foldet som His-CspA med unntak for addisjonen med 0,5 mM DDT til alle løsninger. NTA-agarosen med bundet His-CspA-Cys ble vasket med 5 volum PBS (alle løsninger uten DTT fra dette trinn fremover) og blandet med biotinylert reagens EZ-Link™Biotin-HPDP (Pierce) for biotinylering i samsvar med produsentens instruksjoner. Etter 1 time ble agarosen med det bundne og biotinylerte protein vasket med 10 vol. PBS, eluert med For biotinylation, CspA was modified through the addition of cysteine-glutamine-alanine units as a C-terminal marker, introduced at the gene level using suitable PCR primers. The corresponding His-CspA-Cys protein was expressed, purified and refolded as His-CspA except for the addition of 0.5 mM DDT to all solutions. The NTA-agarose with bound His-CspA-Cys was washed with 5 volumes of PBS (all solutions without DTT from this step forward) and mixed with biotinylated reagent EZ-Link™Biotin-HPDP (Pierce) for biotinylation according to the manufacturer's instructions. After 1 hour, the agarose with the bound and biotinylated protein was washed with 10 vol. PBS, eluted with

200 mM imidazol i PBS og buffer-utbyttet til PBS.-Biotinylering av det må His-Biotin-CspA ble verifisert med MALDI-massespektrometri ved anvendelse av SELDI (Ciphergen Systems). 200 mM imidazole in PBS and the buffer yield to PBS.-Biotinylation of the must His-Biotin-CspA was verified by MALDI mass spectrometry using SELDI (Ciphergen Systems).

Binding av kanin-anti-CspA-antisera til CspA ble analysert etter immobilisering av biotinylert His-Csp-Cys (ved 0,25 jag/ml i PBS) på streptavidin-belagte ELISA-plater (Boehringer-Mannheim). Kanin-anti-CspA-serum ble fortynnet 1/30.000 i 2% bovint serumalbumin i PBS, og pre-inkubert med varierende mengder rensede kompetitorer (se Fig. 4) før binding til ELISA-brønnen. Bundne kanin-antistoff fra serumet ble detektert med et HRP-konjugert geite-anti-kanin-IgG-antiserum (Sigma). Binding of rabbit anti-CspA antisera to CspA was analyzed after immobilization of biotinylated His-Csp-Cys (at 0.25 µg/ml in PBS) on streptavidin-coated ELISA plates (Boehringer-Mannheim). Rabbit anti-CspA serum was diluted 1/30,000 in 2% bovine serum albumin in PBS, and pre-incubated with varying amounts of purified competitors (see Fig. 4) before binding to the ELISA well. Bound rabbit antibody from the serum was detected with an HRP-conjugated goat anti-rabbit IgG antiserum (Sigma).

2f3 - nm tsm. ter2f3 - nm tsm. ter

Genet for 6H-2f3-proteinet (sammenligning Tabell III) ble fremstilt med PCR med primerne QEBACK (5'-CGG ATA ACA ATT TCA CAC AG-3') og 2F3FOR (5'-GGC CGC CTC AAG CTT TTA AGG CGG ATG GTT GAA-3') ved anvendelse av 2fg-genet i QE30 (sammenlign Tabell II) som et templat. Mutante gener for 6H-2f3-proteinet ble fremstilt gjennom PCR-mangfoldig-gjøring av det partielle 2f3-gen ved anvendelse av til-passede konstruerte primere, og det samme templat. For hver mutant ble to PCR-produkter (som dekker den N- og C-terminale porsjon av 2f3-genet, respektivt) renset, denaturert, annealet og forlenget. Full-lengde mutantgener ble spesifikt re-mangfoldiggjort ved anvendelse av to ytterside-primere BACKTWO (5'-CCT TTA CAG GAT CC-3') og 2F3FOR. Komplette gener ble oppkuttet med Hindlll og BamHI, og klonet inn i ikke-modifisert QE30-vektor (Qiagen, som koder en 6-histidin-inneholdende N-terminal-markør). The gene for the 6H-2f3 protein (comparison Table III) was prepared by PCR with the primers QEBACK (5'-CGG ATA ACA ATT TCA CAC AG-3') and 2F3FOR (5'-GGC CGC CTC AAG CTT TTA AGG CGG ATG GTT GAA-3') using the 2fg gene in QE30 (compare Table II) as a template. Mutant genes for the 6H-2f3 protein were prepared by PCR amplification of the partial 2f3 gene using custom designed primers, and the same template. For each mutant, two PCR products (covering the N- and C-terminal portion of the 2f3 gene, respectively) were purified, denatured, annealed and extended. Full-length mutant genes were specifically re-amplified using two outer primers BACKTWO (5'-CCT TTA CAG GAT CC-3') and 2F3FOR. Complete genes were digested with HindIII and BamHI, and cloned into unmodified QE30 vector (Qiagen, which encodes a 6-histidine-containing N-terminal marker).

For mutanten 6H-2f3-P58L ble primerne 2F3F2 (5'-GGT AAA AAG For the mutant 6H-2f3-P58L, the primers were 2F3F2 (5'-GGT AAA AAG

CAT GAT TGC GCC AAT TTC TAG CTC GCC TGC-3'), CYTOBAK (for CAT GAT TGC GCC AAT TTC TAG CTC GCC TGC-3'), CYTOBAK (for

den N-terminale halvdel), 2F3B0 (5'-GGT AAA AAG CAT GAT TGC G-3') og QEFOR (5'-GTT CTG AGG TCA TTA CTG G-3') (for den C-terminale halvdel) anvendt. For mutanten 6H-2f3-P58L.A62Q ble primerne 2F3F1 (5'GGT AAA AAG CAT GAT TTG GCC AAT TTC TAG CTC GCC TGC-3'). CYTOBAK (for den Nterminale halvdel), 2F3B0 og QEFOR (for den C-terminale halvdel) anvendt. For mutanten 6H-2f3-P58L.A62Q.A68L ble primerne 2F3F1, CYTOBAK (for den N-terminale halvdel), 2F3B1 (5'-AAT CAT GCT TTT TAC CCT AAT GGA TGG C-3') og QEFOR (for den C-terminale halvdel) anvendt. the N-terminal half), 2F3B0 (5'-GGT AAA AAG CAT GAT TGC G-3') and QEFOR (5'-GTT CTG AGG TCA TTA CTG G-3') (for the C-terminal half) were used. For the mutant 6H-2f3-P58L.A62Q, the primers were 2F3F1 (5'GGT AAA AAG CAT GAT TTG GCC AAT TTC TAG CTC GCC TGC-3'). CYTOBAK (for the N-terminal half), 2F3B0 and QEFOR (for the C-terminal half) used. For the mutant 6H-2f3-P58L.A62Q.A68L, the primers 2F3F1, CYTOBAK (for the N-terminal half), 2F3B1 (5'-AAT CAT GCT TTT TAC CCT AAT GGA TGG C-3') and QEFOR (for the C -terminal half) applied.

Proteinekspresjon, rensing og analyseProtein expression, purification and analysis

Proteiner ble uttrykt ved induksjon av eksponensielle bakterielle kulturer ved 30°C, og renset fra den løselige fraksjon av cytoplasma ved anvendelse av NTA-agarose i samsvar med Qiagen-protokollen. His-lg6 ble renset etter solubilisering med 8 M urea i TBS, og re-foldet med dialyse fra 8 M, 4 M, 2 M, IM, 0,5 M til 0 M urea i TBS. Proteiner ble ytterligere renset med gelfiltrering på en Superdex-75-kolonne (Pharmacia). Den molekylære vekt av det proteo-lytisek fragmenter ble bestemt ved anvendelse av over-for-sterket laserdesorpsjon/ionisering (SELDI)-teknikk (Hutchems&Yip 1993). Proteins were expressed by induction of exponential bacterial cultures at 30°C, and purified from the soluble fraction of cytoplasm using NTA-agarose according to the Qiagen protocol. His-lg6 was purified after solubilization with 8 M urea in TBS, and refolded by dialysis from 8 M, 4 M, 2 M, IM, 0.5 M to 0 M urea in TBS. Proteins were further purified by gel filtration on a Superdex-75 column (Pharmacia). The molecular weight of the proteolytic fragments was determined using the super-enhanced laser desorption/ionization (SELDI) technique (Hutchems & Yip 1993).

Proteolyse av løselige proteiner (ca. 40 uM) ble utført ved anvendelse av 40 nM trypsin, termolysin eller achymotrypsin (Sigma C3142) i TBS-Ca ved 20°C i 10 min. Sirkulær dikroisme-spektra og termodenaturering ble oppnådd som beskrevet (Davis&Riechmann 1995). Termodenaturering på 10 u-M proteiner (His-lc2 ved 2U.M) i PBS ble etterfulgt av en bølgelengde mellom 220 nm og 225 nm (His-lc2 i 2,5 uM fosfatbuffer, pH 7, ved 205 nm). Nuklær-magnetiske reso-nanseksperimenter ble utført på et Bruker DMX-600 spektro-meter som beskrevet (Riechmann & Holliger 1997) ved anvendelse av watergate-sekvensen (Piotto et al. 1992) for vannundertrykking med protein ved 1 mM i 20 m M fosfatbuffer ved pH 6,2 inneholdende 100 mM NaCl i 93% H20/7% D20 eller 99, 9% D20. Proteolysis of soluble proteins (approximately 40 µM) was performed using 40 nM trypsin, thermolysin or achymotrypsin (Sigma C3142) in TBS-Ca at 20°C for 10 min. Circular dichroism spectra and thermodenaturation were obtained as described (Davis&Riechmann 1995). Thermodenaturation of 10 µM proteins (His-lc2 at 2U.M) in PBS was followed by a wavelength between 220 nm and 225 nm (His-lc2 in 2.5 µM phosphate buffer, pH 7, at 205 nm). Nuclear magnetic resonance experiments were performed on a Bruker DMX-600 spectrometer as described (Riechmann & Holliger 1997) using the watergate sequence (Piotto et al. 1992) for water suppression with protein at 1 mM in 20 mM phosphate buffer at pH 6.2 containing 100 mM NaCl in 93% H2O/7% D2O or 99.9% D2O.

Alle publikasjoner angitt i beskrivelsen ovenfor inkorporeres heri med referanse. Forskjellige modifiseringer og variasjoner av de beskrevne fremgangsmåter og system ifølge oppfinnelsen vil være åpenbare for fagkyndige uten å avvike fra rammen og idéen til oppfinnelsen. Selv om oppfinnelsen er blitt beskrevet i forbindelse med spesifikt foretrukne utførelser, skal det forstås at oppfinnelsen slik den er gjort krav på, ikke skal begrenses til slike spesifikke utførelser. Faktisk er tanken at forskjellige modifiseringer av de beskrevne utførelser for oppfinnelsen som er åpenbare for fagkyndige innen molekylærbiologi eller beslektede felter skal være innenfor rammen av de med-følgende patentkrav. All publications indicated in the description above are incorporated herein by reference. Various modifications and variations of the described methods and system according to the invention will be obvious to those skilled in the art without deviating from the scope and idea of the invention. Although the invention has been described in connection with specifically preferred embodiments, it is to be understood that the invention as claimed shall not be limited to such specific embodiments. In fact, the idea is that various modifications of the described embodiments of the invention which are obvious to those skilled in the art of molecular biology or related fields should be within the scope of the accompanying patent claims.

1. Konformasjonsstabiliteten AG (kcal/mol) ved en gitt temperatur T ble beregnet ved anvendelse av Gibbs-Helmholtz ligning AG (T) = AHm (1-T/Tm) - ACp [(Tm-T) - In (T/Tm)] mens ..midtpunktet av termisk utfolding (T m) og entalpi-forandringen for (AHm) ved Tm fra denatureringskurven (Agashe&Udgaonkar 1995) og der man antar for ACp (forskjellen i varmekapasitet mellom ufoldet og foldet konformasjon) en verdi på 12 kal. Pr. enhet (Edelhoch&Osborne 1976). 1. The conformational stability AG (kcal/mol) at a given temperature T was calculated using the Gibbs-Helmholtz equation AG (T) = AHm (1-T/Tm) - ACp [(Tm-T) - In (T/Tm )] while ..the midpoint of thermal unfolding (T m) and the enthalpy change for (AHm) at Tm from the denaturation curve (Agashe&Udgaonkar 1995) and assuming for ACp (the difference in heat capacity between unfolded and folded conformation) a value of 12 cal . Per unit (Edelhoch&Osborne 1976).

2. Sekvenser som er vist, er de som følger N-terminal halvdel av CspA, som er MRGSHHHHGSRLQSGKMTGIVKWFNA 2. Sequences shown are those following the N-terminal half of CspA, which is MRGSHHHHGSRLQSGKMTGIVKWFNA

DKGFGFITPDDGSKDVFVHFSA.DKGFGFITPDDGSKDVFVHFSA.

3. His-(Csp/2)-proteinet ble verken funnet i løselig eller uløselig fraksjon av cytoplasma, sannsynligvis pga. degradering inne i cellen. 3. The His-(Csp/2) protein was not found in either the soluble or insoluble fraction of the cytoplasm, probably due to degradation inside the cell.

Segmenter som opprettholder 80% barstar-bindingsaktivitet etter proteolyse av fag in situ3, og i løsning<b>og de som er renset som kimeriske proteiner<0>. Sekvensene av det genomiske segment<d>som et C-terminalt tillegg til den N-terminale region av CspA (LQSGKMTGIV KWFNADKGFG FITPDDGSKD VFVHSAGSS) er angitt, og sekvenser uttrykt i ramme med det opprinnelige gen er vist i kursiv. Lokaliseringen av hvert segment innen E.coli-genomet er indikert med nukleotid-tallet i EMBL-databasen, og navnet på det opprinnelig gene, og for de som uttrykkes i samme ramme til det opprinnelige gen, er enhetstallet av det korresponderende protein og dets ID i Swiss proteindatabasen gittf. En enkelt basepar-delesjon etter de første 29 basepar i DNA-innskuddet i lbll gjør at de 10 første enheter er ute av ramme med rspA-genet<9>. (a) Aminosyresekvensen til CspA er den for det native gen som i EMPL-databasen. Nummereringen av 2f3-sekvensen tar hensyn til N-terminal His-tag (MRGSHHHHHHGSRLQ). De Cterminale enheter PWAQAEA (sammenlign 2f3 i Tabell 1) ble deletert i konstruktet anvendt for dataene her, idet de var delvis spaltet i det uttrykte protein av det opprinnelige His-2f3-konstrukt, noe som indikerer at de ikke deltar i foldingen av det kimeriske domenet. Deres deletering hadde ingen signifikant effekt på den totale foldingsstabilitet til domenet Segments that maintain 80% barstar binding activity after proteolysis of phage in situ3, and in solution<b>and those purified as chimeric proteins<0>. The sequences of the genomic segment<d>as a C-terminal addition to the N-terminal region of CspA (LQSGKMTGIV KWFNADKGFG FITPDDGSKD VVVHSAGSS) are indicated, and sequences expressed in frame with the original gene are shown in italics. The localization of each segment within the E.coli genome is indicated by the nucleotide number in the EMBL database, and the name of the original gene, and for those expressed in the same frame as the original gene, the unit number of the corresponding protein and its ID in the Swiss protein database given A single base pair deletion after the first 29 base pairs in the DNA insert in lbll means that the first 10 units are out of frame with the rspA gene<9>. (a) The amino acid sequence of CspA is that of the native gene as in the EMPL database. The numbering of the 2f3 sequence takes into account the N-terminal His-tag (MRGSHHHHHHGSRLQ). The C-terminal units PWAQAEA (compare 2f3 in Table 1) were deleted in the construct used for the data here, being partially cleaved in the expressed protein of the original His-2f3 construct, indicating that they do not participate in the folding of the chimeric the domain. Their deletion had no significant effect on the overall folding stability of the domain

(1,8 vs. 1,9 kcal/mol i 2f3-konstruktene anvendt for data i Tabell I og III, respektivt). Enhetene som er viktig for (3-... foldingen i CspA, som (1.8 vs. 1.9 kcal/mol in the 2f3 constructs used for data in Tables I and III, respectively). The units important for the (3-... folding in CspA, which

diskutert i Eksempel 14, er angitt med en stjerne, (b) Foldingsenergier ble bestemt som beskrevet i Tabell I. Mutasjon for 2f3 angir den opprinnelige aminosyre, etterfulgt av enhetsnummeret for den nye aminosyre. discussed in Example 14, is indicated by an asterisk, (b) Folding energies were determined as described in Table I. Mutation for 2f3 indicates the original amino acid, followed by the unit number of the new amino acid.

Referanser:References:

F.M. Ausubel, R. Brent, R.E. Kingston, D.D. Moore, J.G. Seidman, J.A. Smith & K. Struhl (1995): Current protocols in molecular biology, Chapter 2.4.1. Wiley&Sons. F.M. Ausubel, R. Brent, R.E. Kingston, D.D. Moore, J.G. Seidman, J.A. Smith & K. Struhl (1995): Current protocols in molecular biology, Chapter 2.4.1. Wiley & Sons.

V.R. Agashe & J.B. Udgaonkar: Thermodynamics of denaturation of barstar: evidence for cold denaturation and evaluation of the interaction with guanidine hydrochloride. Biochemistry, vol 34, pp 3286-3299 V.R. Agashe & J.B. Udgaonkar: Thermodynamics of denaturation of barstar: evidence for cold denaturation and evaluation of the interaction with guanidine hydrochloride. Biochemistry, vol 34, pp 3286-3299

(1995) . (1995).

E. de Alba, J. Santoro, M. Rico & M.A. Jimenez. De novo design of a monomeric three- stranded anti- parallel /?-sheet. Protein. Sei., vol 8, pp 854-865 (1999). E. de Alba, J. Santoro, M. Rico & M.A. Jimenez. De novo design of a monomeric three-stranded anti-parallel /?-sheet. Protein. Sci., vol 8, pp 854-865 (1999).

S.F. Altschul, T.L. Madden, A.A. Schaffer, J.H. Zhang, Z. Zhang, W. Miller & D.J. Lipman. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., vol 25, pp 3389-3402 S.F. Altschul, T.L. Madden, A.A. Schaffer, J.H. Zhang, Z. Zhang, W. Miller & D.J. Lipman. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., vol 25, pp 3389-3402

(1997) . (1997).

CF. Barbas, J.E. Crowe, D. Cababa, T.M. Jones, S.L. Zebedee, B.R. Murphy, R.M. Chanock&D.R. Burton. Human monoclonal fab fragments derived from a combinatorial library bind to respiratory syncytial virus- f glyco- protein and neutralize infectivity. Proe. Nati. Acad. Sei. USA, vol 89, pp 10164-10168 (1992). L. Bogarad&S, Deem, A hierarchical approach to protein molecular evolution. Proe. Nati. Acad. Sei. USA, vol 96, pp 2561-2595 (1999). CF. Barbas, J.E. Crowe, D. Cababa, T.M. Jones, S.L. Zebedee, B.R. Murphy, R.M. Chanock&D.R. Burton. Human monoclonal fab fragments derived from a combinatorial library bind to respiratory syncytial virus-f glyco- protein and neutralize infectivity. Pro. Nati. Acad. Pollock. USA, vol 89, pp 10164-10168 (1992). L. Bogarad&S, Deem, A hierarchical approach to protein molecular evolution. Pro. Nati. Acad. Pollock. USA, vol 96, pp 2561-2595 (1999).

F. Breitling, S. Dubel, T. Seehaus, I. Klewingshaus & M. Little. A surface expression vector for antibody screening. Gene, vol 104, pp 147-153 (1991). D.R. Burton, CF.Barbas, M.A.A. Persson, S. Koenig, R.M. Chanock&R.A. Lerner. A large array of human monoclonal- antibodies to type- 1 human- immunodefiency-virus from combinatorial libraries of asymptomatic sero-posivit individuals. Proe. Nati. Acad. Sei. USA, vol 88, pp 10134-10137 (1991). M. Bycroft, T.J. Hubbaard, M. Proctor, S.M. Freund & A.G. Murzin. The solution structure of the sl RNA binding domain: a member of an ancient nucleic acid-binding fold. Cell, vol 88, pp 235-242 (1997). F. Breitling, S. Dubel, T. Seehaus, I. Klewingshaus & M. Little. A surface expression vector for antibody screening. Gene, vol 104, pp 147-153 (1991). D.R. Burton, CF. Barbas, M.A.A. Persson, S. Koenig, R.M. Chanock&R.A. Learning. A large array of human monoclonal antibodies to type 1 human immunodefiency virus from combinatorial libraries of asymptomatic sero-positive individuals. Pro. Nati. Acad. Pollock. USA, vol 88, pp 10134-10137 (1991). M. Bycroft, T.J. Hubbaard, M. Proctor, S.M. Freund & A.G. Murzin. The solution structure of the sl RNA binding domain: a member of an ancient nucleic acid-binding fold. Cell, vol 88, pp 235-242 (1997).

A.J. Caton & H. Koprowski. Influenza- virus hemagglutinin- specific antibodise isolated from av combinatorial expression library are closely related to the immuneresponse of the donor. Proe. Nati. Acad. Sei. USA, vol 87, pp 6450-6454 (1990). A.J. Caton & H. Koprowski. Influenza virus hemagglutinin-specific antibodies isolated from a combinatorial expression library are closely related to the immune response of the donor. Pro. Nati. Acad. Pollock. USA, vol 87, pp 6450-6454 (1990).

CN. Chang, N.F. Landolfi & C. Queen. Expression of antibody fab domains on bacteriophage surfaces - poten-tial use for antibody selection. J. Immunol., vol 147, pp 3610-3614 (1991). CN. Chang, N.F. Landolfi & C. Queen. Expression of antibody fab domains on bacteriophage surfaces - potential use for antibody selection. J. Immunol., vol 147, pp 3610-3614 (1991).

T. Clackson, H.R. Hoogenboom, A.D. Griffiths & G. Winter. Making antibody fragments using phage display libraries. Nature, vol 352, pp 624-628 (1991). T. Clackson, H.R. Hoogenboom, A.D. Griffiths & G. Winter. Making antibody fragments using phage display libraries. Nature, vol 352, pp 624-628 (1991).

J. Davies & L. Riechmann. An antibody VH domain with a lox- Cre site integrated into its coding region: bacte-rial recombination within a single polypeptide chain. FEBS Lett., vol 377, pp 92-96 (1995). J. Davies & L. Riechmann. An antibody VH domain with a lox-Cre site integrated into its coding region: bacterial recombination within a single polypeptide chain. FEBS Lett., vol 377, pp 92-96 (1995).

A.R. Davidson & R.T. Sauer. Folded proteins occur frequently in libraries of random amino- acid- sequences. Proe. Nati. Acad. Sei. USA, vol 91, pp 2146-2150 (1994). J. Devereux, P. Haeberlie & 0. Smithies. A comprehensive set of sequence analysis program for the VAX. Nucl. YEAR. Davidson & R.T. Sheep. Folded proteins occur frequently in libraries of random amino acid sequences. Pro. Nati. Acad. Pollock. USA, vol 91, pp 2146-2150 (1994). J. Devereux, P. Haeberlie & 0. Smithies. A comprehensive set of sequence analysis programs for the VAX. Nucl.

Acids Res., vol 12, pp 387-395 (1984).Acids Res., vol 12, pp 387-395 (1984).

W.J. Dower&S.P.A. Fodor. The search for molecular diversity. 2. recombinant and synthetic randomized peptide libraries. Annu. Rep. Med. Chem., vol 26, pp 271-280 W. J. Dower&S.P.A. Fodor. The search for molecular diversity. 2. recombinant and synthetic randomized peptide libraries. Annu. Rep. With. Chem., vol 26, pp 271-280

(1991). (1991).

H. Edelhoch & J.C. Osborne Jr. The thermodynamic basis of the stability of proteins, nucleic acids, and mem-branes. Adv. Prot. Chem., vol 30, pp 183-250 (1976). H. Edelhoch & J.C. Osborne Jr. The thermodynamic basis of the stability of proteins, nucleic acids, and membranes. Adv. Prot. Chem., vol 30, pp 183-250 (1976).

G. Eggertsson&D. Soll. Transfer ribonucleic acid-mediated suppression of termination codons in Escherichia Coli. Microbiol. Rev., vol 52, pp 354-374. D.F. Feng&R.F. Dolittle. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J. of Molec. Evol., vol 25, pp 351-360 (1987). G. Eggertsson&D. Soll. Transfer ribonucleic acid-mediated suppression of termination codons in Escherichia Coli. Microbiol. Rev., vol 52, pp 354-374. D.F. Feng&R.F. Dolittle. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J. of Molec. Evol., vol 25, pp 351-360 (1987).

M.D. Fincuane, M. Tuna, J.H. Lees&D.N. Woolfson. Core-directed protein design. I. An experimental method for selecting stable proteins from combinatorial libraries. Biochemistry, vol 38, pp 11604-11612 (1999). MD Fincuane, M. Tuna, J.H. Lees&D.N. Woolfson. Core-directed protein design. I. An experimental method for selecting stable proteins from combinatorial libraries. Biochemistry, vol 38, pp 11604-11612 (1999).

A. Fire & S.Q. Xu. Rolling replication of short dna circles. Proe. Nati. Acad. Sei. USA, vol 92, pp 4641-4645 (1995). A. Fire & S.Q. Xu. Rolling replication of short dna circles. Pro. Nati. Acad. Pollock. USA, vol 92, pp 4641-4645 (1995).

S.P.A. Fodor, J.L. Read, M.C. Pirrung, L. Styer, A.T. Lu&D. Solas. Light- directed, spatialley addressable parallell chemical synthesis. Science, vol 251, pp 767-773 (1991). S.P.A. Fodor, J.L. Read, M.C. Pirrung, L. Styer, A.T. Lu&D. Solar. Light-directed, spatially addressable parallel chemical synthesis. Science, vol 251, pp 767-773 (1991).

A. Fontana, P. De Laureto, V. de Fllipis, E. Scaramella&M. Zambonin. Probing the partly folded states of proteins by limited proteolysis. Fold. Des., vol 2, R17-R2 6. A. Fontana, P. De Laureto, V. de Fllipis, E. Scaramella&M. Zamboni. Probing the partially folded states of proteins by limited proteolysis. Fold. Dec, vol 2, R17-R2 6.

T.J. Gibson (1984) Ph. D. Thesis, University of Cambridge, UK. T.J. Gibson (1984) Ph.D. D. Thesis, University of Cambridge, UK.

J. Goldstein, N.S. Pollitt & M. Inouye. Major cold shock protein of Escherichia coli. Proe. Nati. Acad. Sei. USA, vol 87, pp 283-287 (1990). J. Goldstein, N.S. Pollitt & M. Inouye. Major cold shock protein of Escherichia coli. Pro. Nati. Acad. Pollock. USA, vol 87, pp 283-287 (1990).

N. Greenfield, G.D. Fasmann. Computed circular dichroism spectra for the evaluation of protein conformation. Biochemistry, vol 8, pp 4108-4116 (1969). N. Greenfield, G.D. Fasman. Computed circular dichroism spectra for the evaluation of protein conformation. Biochemistry, vol 8, pp 4108-4116 (1969).

S.C. Hardies, W. Hillen, T.C. Goodman&R.D. Wells. High resolution thermal denaturation analyses of small sequented DNA restrictjion fragments containing Escherichia coli lactose genetic control loci. J. Biol. Chem., vol 254, pp 5527-5534 (1979). S.C. Hardies, W. Hillen, T.C. Goodman&R.D. Wells. High resolution thermal denaturation analyzes of small sequenced DNA restriction fragments containing Escherichia coli lactose genetic control loci. J. Biol. Chem., vol 254, pp 5527-5534 (1979).

R.W. Hartley. Directed mutagenesis and barnase- barstar recognition. Biochemistry, vol 32, pp 5978-5984 (1993). R.E. Hawkins, S.J. Russell&G. Winter. Selection of phage antibodies by binding- affinity - mimickling affinity maturartion. J. Mol. Biol., vol 226, pp 889-896 R. W. Hartley. Directed mutagenesis and barnase-barstar recognition. Biochemistry, vol 32, pp 5978-5984 (1993). R. E. Hawkins, S.J. Russell&G. Winter. Selection of phage antibodies by binding affinity - mimicking affinity maturation. J. Mol. Biol., vol 226, pp 889-896

(1992). (1992).

R.E. Hawkins & G. Winter. Cell selection- strategies for making antibodies from variable gene libraries - trap-ping the memory pool. Eur. J. Immunol., vol 22, pp 867-870 (1992) . M. Hecht. De novo design of P- sheet proteins. Proe. Nati. Acad. Sei. USA, vol 91, pp 8729-8730 (1994). D.G. Higgins&P.M. Sharp. Fast and sensitive multiple sequence alignment on a microcomputer. CABIOS, vol 5, pp 151-153 (1989). R. E. Hawkins & G. Winter. Cell selection - strategies for making antibodies from variable gene libraries - trapping the memory pool. Eur. J. Immunol., vol 22, pp 867-870 (1992). M. Hecht. De novo design of P-sheet proteins. Pro. Nati. Acad. Pollock. USA, vol 91, pp 8729-8730 (1994). D. G. Higgins&P.M. Sharp. Fast and sensitive multiple sequence alignment on a microcomputer. CABIOS, vol 5, pp 151-153 (1989).

H.R. Hoogenboom, A.D. Griffiths, K.S. Johnson, D.J. Chiswell, P. Hudson & G. Winter. Multi- subunit proteins on the surface of filamentous phage: methodologies for displaying antibody ( Fab) heavy and light chains. Nucleic Acids Res., vol 19, pp 4133-4137 (1991). HR Hoogenboom, A.D. Griffiths, K.S. Johnson, D.J. Chiswell, P. Hudson & G. Winter. Multi-subunit proteins on the surface of filamentous phage: methodologies for displaying antibody (Fab) heavy and light chains. Nucleic Acids Res., vol 19, pp 4133-4137 (1991).

S.J. Hubbard, F. Eisenmenger & J.M. Thornton. Modeling studies of the change in conformation required for cleavage of limited proteolytic sites. Protein Science, vol 3, pp 757-768 (1994). S. J. Hubbard, F. Eisenmenger & J.M. Thornton. Modeling studies of the change in conformation required for cleavage of limited proteolytic sites. Protein Science, vol 3, pp 757-768 (1994).

W.D. Huse, L. Sastry, S.A. Iverson, A.S. Kang, M. Altingmees, D.R. Burton, S.J. Benkovic&R.A. Lerner. Generation of a large combinatorial library of the immunoglobulin repertoire in phage- lambda. Science, vol 246, pp 1275-1281 (1989). W. D. Huse, L. Sastry, S.A. Iverson, A.S. Kang, M. Altingmees, D.R. Burton, S.J. Benkovic&R.A. Learning. Generation of a large combinatorial library of the immunoglobulin repertoire in phage-lambda. Science, vol 246, pp 1275-1281 (1989).

T.W. Hutchens and T.T. Yip. New desorpsjon strategies for the mass speet romet rie analysis of macromolecules. Rapid Commun. Mass Spectrom., vol 7, pp 576-580 (1993). T.W. Hutchens and T.T. Yep. New desorption strategies for the mass space analysis of macromolecules. Rapid Commun. Mass Spectrom., vol 7, pp 576-580 (1993).

CA. Hutchison III, S. Phillips, M.H. Edgell, S. Gillam, P. Jahnke&M. Smith. Mutagenesis at a specific position in a DNA sequence. J. Biol. Chem., vol 253, pp 6551-6560 ABOUT. Hutchison III, S. Phillips, M.H. Edgell, S. Gillam, P. Jahnke&M. Smith. Mutagenesis at a specific position in a DNA sequence. J. Biol. Chem., vol 253, pp 6551-6560

(1978). (1978).

W.N. Jiang, Y. Hou&M. Inouye. CspA, the major cold-shock protein of Escherichia vol i, is an RNA chaperone. J. Biol. Chem., vol 272, pp 196-202 (1997). W. N. Jiang, Y. Hou&M. Inouye. CspA, the major cold-shock protein of Escherichia vol i, is an RNA chaperone. J. Biol. Chem., vol 272, pp 196-202 (1997).

W.C Johnson Jr. Protein secondary structure and circular- dichroism - a practical guide. Proteins, vol 7, pp 205-214 (1990). W. C Johnson Jr. Protein secondary structure and circular dichroism - a practical guide. Proteins, vol 7, pp 205-214 (1990).

S. Kamtekar, J.M. Schiffer, H. Xiong, J.M. Babik & M. Hecht. Protein design by binary patterning of polar and nonpolar amino acids. Science, vol 262, pp 1680-1685 S. Kamtekar, J.M. Schiffer, H. Xiong, J.M. Babik & M. Hecht. Protein design by binary patterning of polar and nonpolar amino acids. Science, vol 262, pp 1680-1685

(1993) . (1993).

A.S. Kang, T.-M. Jones & D.R. Burton. Antibody redesign by chain shuffling from random combonatorial immunoglobulin libraries. Proe. Nati. Acad. Sei. USA, vol 88, pp 11120-11123 (1991). A.S. Kang, T.-M. Jones & D.R. Burton. Antibody redesign by chain shuffling from random combonatorial immunoglobulin libraries. Pro. Nati. Acad. Pollock. USA, vol 88, pp 11120-11123 (1991).

P. Kristensen&G. Winter. Proteolytic selection for protein folding using filamentous bacteriophages. Folding Des., vol 3, pp 321-328 (1997). P. Kristensen&G. Winter. Proteolytic selection for protein folding using filamentous bacteriophages. Folding Des., vol 3, pp 321-328 (1997).

T. Kortemme, M. Ramirez-Alvardo & L. Serrano. Design of a 20- amino acid, three- starnded fi- sheet protein. Science, vol 281, pp 253-256 (1998). T. Kortemme, M. Ramirez-Alvardo & L. Serrano. Design of a 20-amino acid, three-starned fi-sheet protein. Science, vol 281, pp 253-256 (1998).

R.A. Lerner, A.S. Kang, J.D. Bain, D.R. Burton & CF. Barbas. Antibodies without immunization. Science, vol 258, pp 1313-1314 (1992). RAW. Lerner, A.S. Kang, J.D. Bain, D.R. Burton & CF. Barbas. Antibodies without immunization. Science, vol 258, pp 1313-1314 (1992).

N.M. Low, P. Holliger&G. Winter. Mimicking somatic hypermutation: Affinity maturation of antibodies displayed on bacteriophage using a bacterial.• J. Mol. Biol., vol 260, pp 359-368 (1996). N.M. Low, P. Holliger&G. Winter. Mimicking somatic hypermutation: Affinity maturation of antibodies displayed on bacteriophage using a bacterial.• J. Mol. Biol., vol 260, pp 359-368 (1996).

H.B. Lowman, S.H. Bass, N. Simpson & J.A. Wells. Selecting high- affinity binding- proteins by monovalent phage display. Biochemistry, vol 30, pp 10832-10838 H. B. Lowman, S.H. Bass, N. Simpson & J.A. Wells. Selecting high-affinity binding proteins by monovalent phage display. Biochemistry, vol 30, pp 10832-10838

(1991). M.J. Lubienski, M. Bycroft, D.N.M. Jones&A.R. Fersht. Assignment of the backbone Hl and N- 15 nmr resonances and secondary structure characterisation of barstar. FEBS Lett., vol 332, pp 81-87 (1993). (1991). M. J. Lubienski, M. Bycroft, D.N.M. Jones&A.R. Fersht. Assignment of the backbone Hl and N- 15 nmr resonances and secondary structure characterization of barstar. FEBS Lett., vol 332, pp 81-87 (1993).

J.D. Marks, H.R. Hoogenboom, T.P. Bonnert, J. McCafferty, A.D. Griffiths & G. Winter. By- passing immunization - human antijbodies from v- gene libraries displayed on phage. J. Mol. Biol., vol 222, pp 581-597 J. D. Marks, H.R. Hoogenboom, T.P. Bonnert, J. McCafferty, A.D. Griffiths & G. Winter. Bypassing immunization - human antibodies from v-gene libraries displayed on phage. J. Mol. Biol., vol 222, pp 581-597

(1991) . (1991).

J.D. Marks, H.R. Hoogenbbom, A.D. Griffiths, G. Winter. Molecular evolution of proteins on filamentous phage - mimicking the strategy of the immune- system. J. Biol. Chem., vol 267, pp 16007-16010 (1992). J. D. Marks, H.R. Hoogenbom, A.D. Griffiths, G. Winter. Molecular evolution of proteins on filamentous phage - mimicking the strategy of the immune system. J. Biol. Chem., vol 267, pp 16007-16010 (1992).

J. McCaffergy, A.D. Griffiths, G. Winter & D.J. Chiswell. Phage antibodes - filamentous phage displaying antibody variable domains. Nature, vol 348, pp 552-554 J. McCaffergy, A.D. Griffiths, G. Winter & D.J. Chiswell. Phage antibodies - filamentous phage displaying antibody variable domains. Nature, vol 348, pp 552-554

(1990) . (1990).

E.M. Meiering, L. Serrano & A.R. Fersht. Effect of active site residues in barnase on activity and stability. J. Mol. Biol., vol 225, pp 585-589 (1992). E.M. Meiering, L. Serrano & A.R. Fersht. Effect of active site residues in barnase on activity and stability. J. Mol. Biol., vol 225, pp 585-589 (1992).

R.L. Mullinax, E.A. Gross, J.R. Amberg, B.N. Hau, H.H. Hogrefe, M.M. Kubitz, A. Greener, M. Altingmees, D. Ardourel, J.M. Short, J.A. Sorge & B. Shopes. Identification of human- antibody fragment clones specific for tertanus toxoid in a bacteriophage- lambda immunoexpres-sion library. Proe. Nati. Acad. Sei. USA, vol 87, pp 8095-8099 (1990). R. L. Mullinax, E.A. Gross, J.R. Amberg, B.N. Hau, H.H. Hogrefe, M.M. Kubitz, A. Greener, M. Altingmees, D. Ardourel, J.M. Short, J.A. Sorge & B. Shopes. Identification of human-antibody fragment clones specific for tertanus toxoid in a bacteriophage-lambda immunoexpression library. Pro. Nati. Acad. Pollock. USA, vol 87, pp 8095-8099 (1990).

E.W. Myers&W. Miller. Optimal Alignements in Linear Space. CABIOS, vol 4, pp 11,17 (1988). E. W. Myers&W. Miller. Optimal Alignments in Linear Space. CABIOS, vol 4, pp 11,17 (1988).

S.B. Needleman, CD. Wunsch. A general method applicable to the search for sililarities in the amino acid sequences of two proteins. J. Mol. Biol., vol 48, pp 444-453. S.B. Needleman, CD. Wunsch. A general method applicable to the search for sililarities in the amino acid sequences of two proteins. J. Mol. Biol., vol 48, pp 444-453.

K. Newkirk, W.Q. Feng, W.N. Jiang, et al. Solution nmr structure of the major cold shock protein ( cspa) from Escherichia coli - identification of a binding epitope for DNA. Proe. Nati. Acad. Sei. USA, vol 91, pp 5114-5118 (1994) . C.N. Pace. Conformational stability of globular proteins. Trends Biochem. Sei., vol 15, pp 14,17 (1990). M.A.A. Persson, R.H. Caothien&D.R. Burton. Generation of diverse high- affinisy human monoclonat- antibodies by repertoire cloning. Proe. Nati. Acad. Sei. USA, vol 88, pp 2432-2436 (1991). M. Piotto, V. Saudek & V. Sklenar. Gradient- tailored excitation for single- quantum nmr- spectroscopy of aqueous- solutions. J. Biomolecular NMR, vol 2, pp 661-665 (1992). K. Newkirk, W.Q. Feng, W.N. Jiang et al. Solution nmr structure of the major cold shock protein (cspa) from Escherichia coli - identification of a binding epitope for DNA. Pro. Nati. Acad. Pollock. USA, vol 91, pp 5114-5118 (1994). C. N. Pace. Conformational stability of globular proteins. Trends Biochem. Sci., vol 15, pp 14,17 (1990). M.A.A. Persson, R.H. Caothien&D.R. Burton. Generation of diverse high-affinity human monoclonal antibodies by repertoire cloning. Pro. Nati. Acad. Pollock. USA, vol 88, pp 2432-2436 (1991). M. Piotto, V. Saudek & V. Sklenar. Gradient-tailored excitation for single-quantum nmr-spectroscopy of aqueous solutions. J. Biomolecular NMR, vol 2, pp 661-665 (1992).

T.P. Quinn, N.B. Tweedy, R.W. Williams J..S. Richardson & D.C. Richardson. Betadoublet. De novo design, synthesis, and characterisation of a fi- sandwich protein. Proe. Nati. Acad. Sei, USA, vol 91, pp 8747-8751 (1994). T. P. Quinn, N.B. Tweedy, R.W. Williams J.S. Richardson & D.C. Richardson. The beta double. De novo design, synthesis, and characterization of a fi-sandwich protein. Pro. Nati. Acad. Sei, USA, vol 91, pp 8747-8751 (1994).

J. Rakonjac, G. Jovanovic & P. Modell. Filamentous phage infection- mediated gene expression: construction and J. Rakonjac, G. Jovanovic & P. Modell. Filamentous phage infection-mediated gene expression: construction and

propagation of the glll deletion mutant helper phage R408d3. Gene, vol 198, pp 99-103 (1997). propagation of the glll deletion mutant helper phage R408d3. Gene, vol 198, pp 99-103 (1997).

L. Regan. Proteins to order? Structure, vol 6, pp 1-4 L. Regan. Proteins to order? Structure, vol 6, pp 1-4

(1998). (1998).

L. Riechmann&J. Davies. Backbone assignment, secondary structure and Protein A binding of an isolated, human antibody VH domain. J. Biomol. NMR, vol 6, pp 141-152 L. Riechmann&J. Davies. Backbone assignment, secondary structure and Protein A binding of an isolated, human antibody VH domain. J. Biomol. NMR, vol 6, pp 141-152

(1995). L. Riechmann&P. Holliger. The C- terminal dopamine of TolA is the coreceptor for filamentous phage infection of E. Coli. Cell, vol 90, pp 351-360 (1997). L. Riechmann&M. Weill. Phage display and selection of a site- directed randomized single- chain antibody Fv fragment for its affinity improvement. Biochemistry, vol 32, pp 8848-8855 (1993). . R.T. Sauer. Protein folding from av combinatorial per-spective. Folding Des., vol 1, R27-R30 (1996). (1995). L. Riechmann&P. Holliger. The C-terminal dopamine of TolA is the coreceptor for filamentous phage infection of E. Coli. Cell, vol 90, pp 351-360 (1997). L. Riechmann&M. Weill. Phage display and selection of a site-directed randomized single-chain antibody Fv fragment for its affinity improvement. Biochemistry, vol 32, pp 8848-8855 (1993). . RT Sheep. Protein folding from a combinatorial perspective. Folding Des., vol 1, R27-R30 (1996).

H. Schindelin, M.A. Maraheil&U. Heinemann. Crystal structure of CspA, the major cold shock protein of H. Schindelin, M.A. Maraheil&U. Heinemann. Crystal structure of CspA, the major cold shock protein of

Escherichia coli. Proe. Nati. Acad. Sei. USA, vol 91, pp 5119-5123. Escherichia coli. Pro. Nati. Acad. Pollock. USA, vol 91, pp 5119-5123.

K. Schroder, P. Graumann, A. Schnuchel, T.A. Holak & M.A. Marahiel. Mutational analyses of the putative nucleic acid- binding surface of the cold- shock domain. Cspb, revealed an essential role of aromatic and basic residues in binding of single- stranded- DNA containing the y- box motif. Mol. Microbiol., vol 16, pp 699-708 K. Schroder, P. Graumann, A. Schnuchel, T.A. Holak & M.A. Marahiel. Mutational analyzes of the putative nucleic acid-binding surface of the cold-shock domain. Cspb, revealed an essential role of aromatic and basic residues in binding of single-stranded-DNA containing the y-box motif. Mol. Microbiol., vol 16, pp 699-708

(1995). (1995).

J.K. Scott.& G.P. Smith. Searching for peptide ligands with an epitope library. Science, vol 249, pp 386-390 J. K. Scott.& G.P. Smith. Searching for peptide ligands with an epitope library. Science, vol 249, pp 386-390

(1990). V. Sieber, A. Plueckthun & F.X. Schmid. Selecting proteins with improved stability by a phage- based method. Nat. Biotechnol., vol 16, pp 955-960 (1998). (1990). V. Sieber, A. Plueckthun & F.X. Schmidt. Selecting proteins with improved stability by a phage-based method. Nat. Biotechnol., vol 16, pp 955-960 (1998).

T.F. Smith&M.S. Waterman. Comparison of Bio- sequences. Advances in Applied Mathematics, vol 2, pp 482-48 9 T.F. Smith&M.S. Waterman. Comparison of Biosequences. Advances in Applied Mathematics, vol 2, pp 482-48 9

(1981). (1981).

■T.F. Smith, M.S. Waterman&J.R. Sadler. Statistical characterisation of nucleic acid sequences functional domains. Nucleic Acids Res., vol 11, pp 2205-2220 ■T.F. Smith, M.S. Waterman&J.R. Saddles. Statistical characterization of nucleic acid sequences functional domains. Nucleic Acids Res., vol 11, pp 2205-2220

(1983). (1983).

N. Sternberg&D. Hamilton. Bacteriophage Pl site-specific recombination. I. Recombination between loxP sites. J. Mol. Biol., vol 150, pp 467-486 (1981). N. Sternberg&D. Hamilton. Bacteriophage Pl site-specific recombination. I. Recombination between loxP sites. J. Mol. Biol., vol 150, pp 467-486 (1981).

J.R. Tame, G.N. Murshudov, E.J. Dodson, T.K. Neil, G.G. Dodson, C.F. Higgins&A.J. Wilkinson. The structural basis of sequence- independent peptid binding by OppA protein. Science, vol 264, pp 1578-1581 (1994). J. R. Tame, G.N. Murshudov, E.J. Dodson, T.K. Neil, G.G. Dodson, C.F. Higgins&A.J. Wilkinson. The structural basis of sequence-independent peptide binding by OppA protein. Science, vol 264, pp 1578-1581 (1994).

J.D. Thompson, D.G. Higgins&T.J. Gibson. ClusterW: Improving the sensitivity of progressive multiple sequence alignment through sequence weighing, posisions-specific gap penalties and weigh matrix choice. Nucleic Acid Res., vol 22, p 4673 (1994). J. D. Thompson, D.G. Higgins&T.J. Gibson. ClusterW: Improving the sensitivity of progressive multiple sequence alignment through sequence weighing, position-specific gap penalties and weigh matrix choice. Nucleic Acids Res., vol 22, p 4673 (1994).

W.J. Wilbur & D.J. Lipman. Rapid similarity searches of nucleic- acid and protein data banks. Proe. Nati. Acad. Sei. USA, vol 80, pp 726-730 (1983). W. J. Wilbur & D.J. Lipman. Rapid similarity searches of nucleic acid and protein data banks. Pro. Nati. Acad. Pollock. USA, vol 80, pp 726-730 (1983).

K. Wuthrich. NMR of proteins and nucleic acids. Chapter 3. Wiley&Sons. K. Wuthrich. NMR of proteins and nucleic acids. Chapter 3. Wiley&Sons.

A.N. Zacher, C.A. Stock, J.W. Golden&G.P. Smith. A new filamentous phage doning vector: fd- tet. Gene, vol 9, pp 127-140 (1980). A.N. Zacher, C.A. Stock, J.W. Golden&G.P. Smith. A new filamentous phage donating vector: fd- tet. Gene, vol 9, pp 127-140 (1980).

Anførte patenter og patentsøknader:Listed patents and patent applications:

PCT/GB00/00030 PCT/GB00/00030

PCT/GB98/01889 PCT/GB98/01889

WO84/03564 WO84/03564

WO88/08453 WO88/08453

WO91/05058 WO91/05058

WO90/05785 WO90/05785

WO90/07003 WO90/07003

WO90/15070 WO90/15070

WO91/02076 WO91/02076

WO92/00091 WO92/00091

WO92/02536 WO92/02536

WO92/10092 WO92/10092

WO93/06121 WO93/06121

W095/11922 W095/11922

W095/22625 W095/22625

US Patent Nr 4.631.211 US Patent No. 4,631,211

Claims (77)

1. Kimerisk foldet proteindomene, karakterisert ved at det, i det det er avledet fra et repertoar av kimeriske proteiner, omfatter to eller flere sekvenssegmenter avledet fra opprinnelige aminosyresekvenser som er ikke-homologe.1. Chimeric folded protein domain, characterized in that, being derived from a repertoire of chimeric proteins, it comprises two or more sequence segments derived from original amino acid sequences that are non-homologous. 2. Kimerisk foldet protein i samsvar med krav 1, karakterisert ved at to eller flere av sekvenssegmentene kombineres ikke-kovalent.2. Chimerically folded protein in accordance with claim 1, characterized in that two or more of the sequence segments are combined non-covalently. 3. Kimerisk foldet proteindomene i samsvar med krav 1, karakterisert ved at minst én av de opprinnelige aminosyresekvenser er avledet fra et protein.3. Chimerically folded protein domain in accordance with claim 1, characterized in that at least one of the original amino acid sequences is derived from a protein. 4. Kimerisk foldet proteindomene i samsvar med krav 3, karakterisert ved at minst én av de opprinnelige aminosyresekvenser er avledet fra et protein valgt fra gruppen som består av et naturlig forekommende protein, et konstruert protein et protein med en kjent bindingsaktivitet, et protein med en kjent bindingsaktivitet for en organisk forbindelse, et protein med en kjent bindingsaktivitet for et peptid eller polypeptid, et protein med en kjent bindingsaktivitet for et karbohydrat, et protein med en kjent bindingsaktivitet for en nukleinsyre, en kjent bindingsaktivitet for et hapten, et protein med en kjent bindingsaktivitet for et steroid, et protein med en kjent bindingsaktivitet for en uorganisk forbindelse, og et protein med enzymatisk aktivitet.4. Chimerically folded protein domain in accordance with claim 3, characterized in that at least one of the original amino acid sequences is derived from a protein selected from the group consisting of a naturally occurring protein, an engineered protein, a protein with a known binding activity, a protein with a known binding activity for an organic compound, a protein with a known binding activity for a peptide or polypeptide, a protein with a known binding activity for a carbohydrate, a protein with a known binding activity for a nucleic acid, a known binding activity for a hapten, a protein with a known binding activity for a steroid, a protein with a known binding activity for an inorganic compound, and a protein with enzymatic activity. 5. Kimerisk foldet proteindomene i samsvar med krav 1, karakterisert ved at de opprinnelige aminosyresekvenser er avledet fra de åpne leserammer av enkeltgenom eller porsjon derav: (a) hvor nevnte leserammer er den naturlige leseramme for genene, eller (b) hvor nevnte leserammer ikke er den naturlige leseramme for genene.5. Chimerically folded protein domain in accordance with claim 1, characterized in that the original amino acid sequences are derived from the open reading frames of a single genome or portion thereof: (a) where said reading frames are the natural reading frame of the genes, or (b) where said reading frames are not the natural reading frames of the genes. 6. Kimerisk foldet proteindomene i samsvar med krav 1, karakterisert ved at de opprinnelige aminosyresekvenser er avledet fra de åpne leserammer av to eller flere genomer, eller porsjoner derav: (a) hvor nevnte leserammer er den naturlige leseramme for genene, eller (b) hvor nevnte leserammer ikke er den naturlige leseramme for genene.6. Chimerically folded protein domain in accordance with claim 1, characterized in that the original amino acid sequences are derived from the open reading frames of two or more genomes, or portions thereof: (a) where said reading frames are the natural reading frame for the genes, or (b) where said reading frames are not the natural reading frames of the genes. 7. Kimerisk proteindomene i samsvar med krav 1, karakterisert vedat det er resistent til in vivo eller in vitro-proteolyse med proteaseenzymer.7. Chimeric protein domain in accordance with claim 1, characterized in that it is resistant to in vivo or in vitro proteolysis with protease enzymes. 8. Kimerisk protein i samsvar med krav 1, karakterisert ved at sekvensegmentene stammer fra opprinnelige domener med den samme polypeptidfolding i minst deler av strukturen.8. Chimeric protein in accordance with claim 1, characterized in that the sequence segments originate from original domains with the same polypeptide folding in at least parts of the structure. 9. Kimerisk protein i samsvar med krav 1, karakterisert ved at sekvensegmentene stammer fra opprinnelige domener med forskjellige poly-peptidf oldinger i minst deler av strukturen.9. Chimeric protein in accordance with claim 1, characterized in that the sequence segments originate from original domains with different polypeptide folds in at least parts of the structure. 10. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det har en fri energi for folding som er større enn 1,6 kcal/mol.10. Chimeric protein domain in accordance with claim 1, characterized in that it has a free energy for folding that is greater than 1.6 kcal/mol. 11. Kimerisk proteindomene i samsvar med krav 10, karakterisert ved at den frie foldingsenergi er større enn 3 kcal/mol.11. Chimeric protein domain in accordance with claim 10, characterized in that the free folding energy is greater than 3 kcal/mol. 12. Kimerisk proteindomene i samsvar med krav 11, karakterisert ved at den frie foldingsenergi er større enn 5 kcal/mol.12. Chimeric protein domain in accordance with claim 11, characterized in that the free folding energy is greater than 5 kcal/mol. 13. Kimerings-foldingsprotein i samsvar med et av kravene 1-12, karakterisert ved at ett eller flere av sekvenssegmentene fusjoneres til ett eller flere ytterligere og komplette proteindomener.13. Chimerization-folding protein in accordance with one of claims 1-12, characterized in that one or more of the sequence segments are fused to one or more additional and complete protein domains. 14. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det er fusjonert til kappeproteinet av en filamentøs bakteriofag, hvor bakteriofagen enkapsiderer en nukleinsyre som koder for proteindomenet .14. Chimeric protein domain in accordance with claim 1, characterized in that it is fused to the coat protein of a filamentous bacteriophage, where the bacteriophage encapsidates a nucleic acid that codes for the protein domain. 15. Kimerisk proteindomene i samsvar med krav 1, karakterisert ' ved at et enkelt sekvenssegment stammer fra humane proteiner.15. Chimeric protein domain in accordance with claim 1, characterized in that a single sequence segment originates from human proteins. 16. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at to eller flere sekvenssegmenter stammer fra humane proteiner.16. Chimeric protein domain in accordance with claim 1, characterized in that two or more sequence segments originate from human proteins. 17. Kimerisk proteindomene i samsvar med krav 15 eller 16, karakterisert ved at minst ett av segmentene er avledet fra en kilde som ikke er et humant protein.17. Chimeric protein domain in accordance with claim 15 or 16, characterized in that at least one of the segments is derived from a source that is not a human protein. 18. Kimerisk proteindomene i samsvar med krav 17, karakterisert ved at alle segmenter er avledet fra humane proteiner.18. Chimeric protein domain in accordance with claim 17, characterized in that all segments are derived from human proteins. 19. Kimerisk protein i samsvar med krav 1, karakterisert ved at et omfatter en epitop av den opprinnelige aminosyresekvens.19. Chimeric protein in accordance with claim 1, characterized in that it comprises an epitope of the original amino acid sequence. 20. Kimerisk protein i samsvar med krav 19, karakterisert ved at det omfatter et konformasjonsepitop.20. Chimeric protein in accordance with claim 19, characterized in that it comprises a conformational epitope. 21. Kimerisk protein i samsvar med krav 1, karakterisert ved at det kryssreagerer med antistoff rettet mot en opprinnelig aminosyresekvens.21. Chimeric protein in accordance with claim 1, characterized in that it cross-reacts with antibody directed against an original amino acid sequence. 22. Kimerisk protein i samsvar med krav 1, karakterisert ved at den kryssreagerer med antistoff rettet mot det foldede opprinnelige protein.22. Chimeric protein in accordance with claim 1, characterized in that it cross-reacts with antibody directed against the folded original protein. 23. Kimerisk protein i samsvar med krav 1, karakterisert ved at det anvendes i vaksiner mot ett eller flere av aminosyresekvensene hvorfra kimeren er avledet.23. Chimeric protein in accordance with claim 1, characterized in that it is used in vaccines against one or more of the amino acid sequences from which the chimera is derived. 24. Kimerisk protein i samsvar med krav 1, karakterisert ved at det benyttes for administrering til et menneske for terapeutiske formål.24. Chimeric protein in accordance with claim 1, characterized in that it is used for administration to a human for therapeutic purposes. 25. Kimerisk protein i samsvar med krav 1, karakterisert ved at det anvendes i et kommersielt produkt hvortil mennesker eksponeres.25. Chimeric protein in accordance with claim 1, characterized in that it is used in a commercial product to which humans are exposed. 26. Kimerisk protein i samsvar med krav 1, karakterisert ved at aminosyresekvensene forandres for å øke stabiliteten eller funksjonen av det kimeriske protein.26. Chimeric protein in accordance with claim 1, characterized in that the amino acid sequences are changed to increase the stability or function of the chimeric protein. 27. Kimerisk nukleinsyre, karakterisert ved at det koder for et proteindomene i samsvar med krav 1.27. Chimeric nucleic acid, characterized in that it codes for a protein domain in accordance with claim 1. 28. Fremgangsmåte for å fremstille et proteindomene i samsvar med krav 1, karakterisert ved at fremgangsmåten omfatter trinnene: (a) tilveiebringe et første bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder for sekvenssegmenter avledet fra én eller flere aminosyresekvenser, hvor kodesekvensene ikke er selektert eller konstruert at de kun koder for et enkelt og komplett proteinstrukturelement eller kodet for et komplett proteindomene, (b) tilveiebringe et andre bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder for sekvenssegmenter avledet fra én eller flere aminosyresekvenser, (c) kombinere kodesekvensene for å danne et kombinatorisk bibliotek av nukleinsyrer, hvor nukleinsyrene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter avledet fra de første og andre biblioteker, (d) transkribere og/eller translatere de kontiguøse kodesekvenser for å produsere de kodede proteindomener, (e) selektere de kimeriske proteindomener som er istand til å adoptere en foldet struktur, eller å oppfylle en spesifikk funksjon.28. Method for producing a protein domain in accordance with claim 1, characterized in that the method comprises the steps: (a) providing a first library of nucleic acids, where the library comprises coding sequences that code for sequence segments derived from one or more amino acid sequences, where the coding sequences are not selected or engineered to only code for a single and complete protein structural element or code for a complete protein domain, (b) providing a second library of nucleic acids, the library comprising coding sequences encoding sequence segments derived from one or more amino acid sequences; (c) combining the coding sequences to form a combinatorial library of nucleic acids, the nucleic acids comprising contiguous coding sequences encoding sequence fragments derived from the first and second libraries; (d) transcribing and/or translating the contiguous coding sequences to produce the encoded protein domains; (e) selecting the chimeric protein domains capable of adopting a folded structure, or fulfilling a specific function. 29. Fremgangsmåte i samsvar med krav 28, karakterisert ved at den ytterligere omfatter trinnene: (f) analysere sekvensen av de selekterte kimeriske proteindomener for å identifisere opprinnelsen til sekvenssegmentene, og (f) sammenligne sekvensene av hver av de opprinnelige aminosyresekvenser for å identifisere om sekvensene av de opprinnelige aminosyresekvenser er ikke-homologe.29. Method in accordance with claim 28, characterized in that it further comprises the steps: (f) analyzing the sequence of the selected chimeric protein domains to identify the origin of the sequence segments, and (f) comparing the sequences of each of the original amino acid sequences to identify whether the sequences of the original amino acid sequences are non-homologous. 30. Fremgangsmåte for å fremstille et proteindomene i samsvar med krav 9 eller 10, karakterisert ved at fremgangsmåten omfatter trinnene i samsvar med krav 28 eller 29, og ytterligere trinnet: (h) sammenligne strukturen av hver av de opprinnelige aminosyresekvenser for å identifisere om de i hele eller deler har de samme polypeptidfoldinger.30. Method for producing a protein domain in accordance with claim 9 or 10, characterized in that the method comprises the steps in accordance with claim 28 or 29, and the further step: (h) comparing the structure of each of the original amino acid sequences to identify whether in whole or in part they have the same polypeptide folds. 31. Fremgangsmåte i samsvar med krav 28, karakterisert ved at trinn (b) og (c) er modifisert som følger: (b) tilveiebringer en partnerkodesekvens som koder et sekvenssegment avledet fra ett protein, (c) kombinere biblioteket og partnerkodesekvensen for å danne et kombinatorisk bibliotek av nukleinsyrer, hvor nukleinsyrene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter avledet fra det første bibliotek og partnerkodesekvensen.31. Method in accordance with claim 28, characterized in that steps (b) and (c) are modified as follows: (b) provides a partner coding sequence encoding a sequence segment derived from one protein; (c) combining the library and the partner coding sequence to form a combinatorial library of nucleic acids, the nucleic acids comprising contiguous coding sequences encoding sequence fragments derived from the first library and the partner coding sequence. 32. Fremgangsmåte i samsvar med krav 28, karakterisert ved at domenene som er i stand til å adoptere en foldestruktur selekteres ved én eller flere metoder valgt fra gruppen som består av in vivo proteolyse, in vitro proteolyse, bindingsevne, funksjonell aktivitet og uttrykking.32. Method in accordance with claim 28, characterized in that the domains which are able to adopt a folding structure are selected by one or more methods selected from the group consisting of in vivo proteolysis, in vitro proteolysis, binding capacity, functional activity and expression. 33. Fremgangsmåte i samsvar med krav 32, karakterisert ved at bindingsevnen er til et antistoff rettet mot et opprinnelig protein.33. Method in accordance with claim 32, characterized in that the binding ability is to an antibody directed against an original protein. 34. Fremgangsmåte for fremstilling av et proteindomene i samsvar med krav 26, hvor sekvenssegmentene i de opprinnelige aminosyresekvenser forandres etter deres sammenstilling, karakterisert ved ett eller flere av de følgende trinn: (a) designere og introdusering av spesifikke eller vilkårlige mutasjoner ved forutbestemte posisjoner innen genet i det kimeriske protein, (b) deletering av nukleotider innen genet for det kimeriske protein for å deletere aminosyreenheter, (c) innsetting av nukleotidet innen genet i det kimeriske protein for å innsette aminosyreenheter, (d) tilføye nukleotider til genet i det kimeriske protein for å tilføye aminosyreenheter, (e) vilkårlig introdusere mutasjoner i alle, eller deler av genet som koder for det kimeriske protein, gjennom rekombinant DNA-teknologi, (f) vilkårlig introdusere mutasjoner i genet i det kimeriske protein gjennom propagering i muterende celler, (g) introduksjon av derivater av naturlige aminosyrer under kjemisk syntese, (h) kjemisk derivatisering av aminosyregrupper etter syntese, (i) multimerisering av de kimeriske proteiner gjennom kontatenering av to eller flere kopier av genet i en enkel åpen leseramme, (j) multimerisering av de kimeriske proteiner gjennom kovalent kobling av to eller flere kopier av det kimeriske proteindomenet etter translasjon, (k) multimerisering av de kimeriske proteiner gjennom fusjon til en multimerisk partner.34. Method for producing a protein domain in accordance with claim 26, where the sequence segments in the original amino acid sequences are changed after their assembly, characterized by one or more of the following steps: (a) designing and introducing specific or arbitrary mutations at predetermined positions within the gene in the chimeric protein; (b) deleting nucleotides within the gene for the chimeric protein to delete amino acid units; (c) inserting the nucleotide within the gene into the chimeric protein to insert amino acid units; (d) adding nucleotides to the gene in the chimeric protein to add amino acid units; (e) arbitrarily introduce mutations into all or part of the gene encoding the chimeric protein through recombinant DNA technology; (f) arbitrarily introducing mutations into the gene in the chimeric protein through propagation in mutant cells; (g) introduction of derivatives of natural amino acids during chemical synthesis; (h) chemical derivatization of amino acid groups after synthesis; (i) multimerization of the chimeric proteins through the concatenation of two or more copies of the gene in a single open reading frame, (j) multimerization of the chimeric proteins through covalent linking of two or more copies of the chimeric protein domain after translation; (k) multimerization of the chimeric proteins through fusion to a multimeric partner. 35. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det omfatter minst én reaksjonsgruppe for kovalent kobling.35. Chimeric protein domain in accordance with claim 1, characterized in that it comprises at least one reaction group for covalent coupling. 36. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det omfatter minst én reaksjonsgruppe for ikke-kovalent kobling.36. Chimeric protein domain in accordance with claim 1, characterized in that it comprises at least one reaction group for non-covalent coupling. 37. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det omfatter minst én D-aminosyre.37. Chimeric protein domain in accordance with claim 1, characterized in that it comprises at least one D-amino acid. 38. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det omfatter én ikke-naturlig forekommende aminosyre.38. Chimeric protein domain in accordance with claim 1, characterized in that it comprises one non-naturally occurring amino acid. 39. Kimerisk proteindomene i samsvar med krav 1, karakterisert ved at det omfatter minst én aminosyre som har en markør eller en tagg.39. Chimeric protein domain in accordance with claim 1, characterized in that it comprises at least one amino acid which has a marker or a tag. 40. Kimerisk foldet proteindomene, karakterisert ved at det idet det er avledet fra et repertoar av kimeriske foldede proteiner, omfatter to eller flere sekvenssegmenter avledet fra opprinnelige aminosyresekvenser hvor hvert av nevnte segmenter omfatter felles sekvenser i det kimeriske protein, og hvor nevnte felles sekvenser ikke er designet eller selektert for å bestå kun av ett eller komplette strukturelementer.40. Chimeric folded protein domain, characterized in that, as it is derived from a repertoire of chimeric folded proteins, it comprises two or more sequence segments derived from original amino acid sequences where each of said segments includes common sequences in the chimeric protein, and where said common sequences do not is designed or selected to consist of only one or complete structural elements. 41. Foldet kimerisk proteindomene i samsvar med krav 40, karakterisert ved at regionen av fellessekvenser er 10 eller flere identiske aminosyreenheter i lengde.41. Folded chimeric protein domain in accordance with claim 40, characterized in that the region of common sequences is 10 or more identical amino acid units in length. 42. Foldet kimerisk proteindomene i samsvar med krav 41, karakterisert ved at regionen av fellessekvenser er 20 eller flere identiske aminosyreenheter i lengde.42. Folded chimeric protein domain in accordance with claim 41, characterized in that the region of common sequences is 20 or more identical amino acid units in length. 43. Kimerisk foldet proteindomene, karakterisert ved at det idet det er avledet fra et repertoar av kimeriske foldede proteiner, omfatter to eller flere sekvenssegmenter hvor hvert av nevnte segmenter: (a) er avledet fra opprinnelige proteiner med en felles folding, og (b) omfatter en felles region av fellesfoldingen, og hvor nevnte fellesregioner av foldingen ikke er designet eller selektert til å bestå av ett eller flere komplette strukturelle elementer.43. Chimeric folded protein domain, characterized in that, as it is derived from a repertoire of chimeric folded proteins, it comprises two or more sequence segments where each of said segments: (a) are derived from native proteins with a common fold, and (b) comprises a common region of the joint folding, and where said joint regions of the folding are not designed or selected to consist of one or more complete structural elements. 44. Kimerisk foldet proteindomene i samsvar med krav 43, karakterisert ved at hvert av nevnte segmenter er avledet av forskjellige proteiner som er homologe i sekvens.44. Chimeric folded protein domain in accordance with claim 43, characterized in that each of said segments is derived from different proteins that are homologous in sequence. 45. Kimerisk foldet proteindomene i samsvar med krav 43, karakterisert ved at hvert av nevnte segmenter er avledet fra det samme protein.45. Chimerically folded protein domain in accordance with claim 43, characterized in that each of said segments is derived from the same protein. 46. Foldet kimerisk proteindomene i samsvar med krav 43, karakterisert ved at fellesregionen av foldingen er 10 eller flere aminosyreenheter lang.46. Folded chimeric protein domain in accordance with claim 43, characterized in that the common region of the fold is 10 or more amino acid units long. 47. Foldet kimerisk proteindomene i samsvar med krav 43, karakterisert ved at fellesregionen av foldingen er 20 eller flere aminosyreenheter lang.47. Folded chimeric protein domain in accordance with claim 43, characterized in that the common region of the fold is 20 or more amino acid units long. 48. Kimerisk foldet proteindomene i samsvar med krav 43, karakterisert ved at aminosyresekvensene av de opprinnelige proteiner er avledet fra de åpne leserammer av et genom eller del derav, hvor nevnte leserammer er den naturlige leseramme til genene.48. Chimerically folded protein domain in accordance with claim 43, characterized in that the amino acid sequences of the original proteins are derived from the open reading frames of a genome or part thereof, where said reading frames are the natural reading frame of the genes. 49. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det er resistent til in vivo eller in vitro-proteolyse med proteaseenzymer.49. Chimeric protein domain in accordance with claim 40, characterized in that it is resistant to in vivo or in vitro proteolysis with protease enzymes. 50. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det har en fri energi for folding som er større enn 1,6 kcal/mol.50. Chimeric protein domain in accordance with claim 40, characterized in that it has a free energy for folding that is greater than 1.6 kcal/mol. 51. Kimerisk foldet protein i samsvar med krav 40, karakterisert ved at ett eller flere av sekvenssegmentene fusjoneres til ett eller flere ytterligere og komplette proteindomener.51. Chimerically folded protein in accordance with claim 40, characterized in that one or more of the sequence segments are fused to one or more additional and complete protein domains. 52.. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det er fusjonert til kappeproteinet av filamentøs bakteriofag, hvor bakteriofagen innkapsler en nukleinsyre som koder for proteindomenet.52.. Chimeric protein domain in accordance with claim 40, characterized in that it is fused to the coat protein of filamentous bacteriophage, where the bacteriophage encapsulates a nucleic acid which codes for the protein domain. 53. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at et enkelt sekvenssegment stammer fra et humant protein.53. Chimeric protein domain in accordance with claim 40, characterized in that a single sequence segment originates from a human protein. 54. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at to eller flere av sekvenssegmentene stammer fra et humant protein.54. Chimeric protein domain in accordance with claim 40, characterized in that two or more of the sequence segments originate from a human protein. 55. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at minst ett av segmentene er avledet fra en kilde som ikke er et humant protein.55. Chimeric protein domain in accordance with claim 40, characterized in that at least one of the segments is derived from a source that is not a human protein. 56. Kimerisk proteindomene i samsvar med krav 47, karakterisert ved at alle segmenter er avledet fra humane proteiner.56. Chimeric protein domain in accordance with claim 47, characterized in that all segments are derived from human proteins. 57. Kimerisk protein i samsvar med krav 40, karakterisert ved at det omfatter en epitop av den opprinnelige aminosyresekvens.57. Chimeric protein in accordance with claim 40, characterized in that it comprises an epitope of the original amino acid sequence. 58. Kimerisk protein i samsvar med krav 57, karakterisert ved at det omfatter en konformasjonsepitop.58. Chimeric protein in accordance with claim 57, characterized in that it comprises a conformational epitope. 59. Kimerisk protein i samsvar med krav 40, karakterisert' ved at det kryssreagerer med antistoff rettet mot- en opprinnelig aminosyresekvens.59. Chimeric protein in accordance with claim 40, characterized in that it cross-reacts with antibody directed against an original amino acid sequence. 60. Kimerisk protein i samsvar med krav 40, karakterisert ved at det kryssreagerer med antistoff rettet mot det foldede opprinnelige protein.60. Chimeric protein in accordance with claim 40, characterized in that it cross-reacts with antibody directed against the folded original protein. 61. Kimerisk protein i samsvar med krav 40, karakterisert ved at det benyttes i vaksiner mot de(t) opprinnelig(e) protein(er) fra hvilket kimeren er avledet.61. Chimeric protein in accordance with claim 40, characterized in that it is used in vaccines against the original protein(s) from which the chimera is derived. 62. Kimerisk protein i samsvar med krav 40, karakterisert ved at det benyttes for administrering til et menneske for terapeutiske formål.62. Chimeric protein in accordance with claim 40, characterized in that it is used for administration to a human for therapeutic purposes. 63. Kimerisk protein i samsvar med krav 40, for anvendelse i et kommersielt produkt hvortil mennesker eksponeres.63. Chimeric protein according to claim 40, for use in a commercial product to which humans are exposed. 64. Kimerisk protein i samsvar med krav 40, karakterisert ved at aminosyresekvensen forandres for å øke stabilitet eller funksjon til det kimeriske protein.64. Chimeric protein in accordance with claim 40, characterized in that the amino acid sequence is changed to increase stability or function of the chimeric protein. 65. Kimerisk nukleinsyre, karakterisert ved at det koder for et proteindomene i samsvar med krav 40.65. Chimeric nucleic acid, characterized in that it codes for a protein domain in accordance with claim 40. 66. Fremgangsmåte for å fremstille et kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det omfatter trinnene: (a) tilveiebringe et første bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder for sekvenssegmenter avledet fra én eller flere aminosyresekvenser, (b) tilveiebringe et andre bibliotek av nukleinsyrer, hvor biblioteket omfatter kodesekvenser som koder for sekvenssegmenter avledet fra én eller flere aminosyresekvenser, (c) kombinere kodesekvensene for å danne et kombinatorisk bibliotek av nukleinsyrer, hvor nukleinsyrene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter avledet fra de første og andre biblioteker, (d) transkribere og/eller translatere de kontiguøse kodesekvenser for å produsere de kodede proteindomener, og (e) selektere de kimeriske proteindomener som er istand til å adoptere en foldet struktur, eller å oppfylle en spesifikk funksjon.66. Method for producing a chimeric protein domain in accordance with claim 40, characterized in that it comprises the steps: (a) providing a first library of nucleic acids, the library comprising coding sequences encoding sequence segments derived from one or more amino acid sequences; (b) providing a second library of nucleic acids, the library comprising coding sequences encoding sequence segments derived from one or more amino acid sequences; (c) combining the coding sequences to form a combinatorial library of nucleic acids, the nucleic acids comprising contiguous coding sequences encoding sequence fragments derived from the first and second libraries; (d) transcribing and/or translating the contiguous coding sequences to produce the encoded protein domains, and (e) selecting the chimeric protein domains capable of adopting a folded structure, or fulfilling a specific function. 67. Fremgangsmåte i samsvar med krav 66, karakterisert ved at fremgangsmåten ytterligere omfatter trinnene: (f) analysere sekvensen av det selekterte kimeriske proteindomenet for å identifisere opprinnelsen til sekvenssegmentene, og (g) sammenligne sekvensene for å identifisere om de omfatter fellessekvenser i samsvar med krav 40.67. Method in accordance with claim 66, characterized in that the method further comprises the steps: (f) analyzing the sequence of the selected chimeric protein domain to identify the origin of the sequence segments, and (g) comparing the sequences to identify whether they comprise common sequences in accordance with claim 40. 68. Fremgangsmåte i samsvar med krav 66, karakterisert ved at den benyttes for fremstilling av et kimerisk proteindomene i samsvar med' krav 44, hvor trinn (g) er erstattet, og trinn (h) er tilføyd, slik at: (g) sammenligne strukturen av de opprinnelige aminosyresekvenser for å identifisere om de opprinnelige aminosyresekvenser har felles folding, og (h) identifisere om segmentene omfatter en felles region i den felles folding.68. Method in accordance with claim 66, characterized in that it is used for the production of a chimeric protein domain in accordance with claim 44, where step (g) is replaced, and step (h) is added, so that: (g) comparing the structure of the original amino acid sequences to identify whether the original amino acid sequences have common folding, and (h) identify whether the segments comprise a common region of the common fold. 69. Fremgangsmåte i samsvar med krav 66, karakterisert ved at trinnene (b) og (c) er modifisert som følger: (b) tilveiebringe en partnerkodesekvens som koder for et sekvenssegment avledet fra ett protein, (c) kombinere biblioteket og partnerkodesekvensene for danne et kombinatorisk bibliotek av nukleinsyrer, hvor nukleinsyrene omfatter kontiguøse kodesekvenser som koder for sekvensfragmenter avledet fra det første bibliotek og partnerkodesekvensen.69. Method in accordance with claim 66, characterized in that steps (b) and (c) are modified as follows: (b) providing a partner coding sequence encoding a sequence segment derived from one protein; (c) combining the library and the partner coding sequences to form a combinatorial library of nucleic acids, the nucleic acids comprising contiguous coding sequences encoding sequence fragments derived from the first library and the partner coding sequence. 70. Fremgangsmåte i samsvar med krav 66, karakterisert ved at domenet som er i stand til å adoptere en foldestruktur selekteres av én eller flere fremgangsmåter valgt fra gruppen som består av in vivo proteolyse, in vitro proteolyse, bindingsevne, funksjonell aktivitet og ekspresjon.70. Method according to claim 66, characterized in that the domain capable of adopting a folding structure is selected by one or more methods selected from the group consisting of in vivo proteolysis, in vitro proteolysis, binding capacity, functional activity and expression. 71. Fremgangsmåte i samsvar med krav 70, karakterisert ved at bindingsevnen er til et antistoff rettet mot et opprinnelig protein.71. Method in accordance with claim 70, characterized in that the binding ability is to an antibody directed against an original protein. 72. Fremgangsmåte for fremstilling av et kimerisk proteindomene i samsvar med krav 40, hvor sekvenssegmentene av de opprinnelige aminosyresekvenser forandres etter deres sammenstilling, karakterisert ved at fremgangsmåten omfatter ett eller flere av de følgende trinn: (a) designere og introdusere spesifikke eller vilkårlige mutasjoner ved forutbestemte posisjoner innen genet i det kimeriske protein, (b) deletering av nukleotider innen genet for det kimeriske protein for å deletere aminosyreenheter, (c) innsette nukleotider i genet for kimeriske protein for å innsette aminosyreenheter, (d) tilføye nukleotider til genet i det•kimeriske protein for å tilføye aminosyreenheter, (e) vilkårlig introdusere mutasjoner i alle, eller deler av genet som koder for det kimeriske protein, gjennom rekombinant DNA-teknologi, (f) vilkårlig introdusere mutasjoner i genet i det kimeriske protein gjennom propagering i muterende celler, (g) introdusere derivater av naturlige aminosyrer ved hjelp av kjemisk syntese, (h) kjemisk derivatisering av aminosyregrupper etter syntese, (i) multimerisering av de kimeriske proteiner gjennom kovalent kobling av to eller flere kopier av genet i en enkel åpen leseramme, (j) multimerisering av de kimeriske proteiner gjennom kovalent kobling av to eller flere kopier av det kimeriske proteindomenet etter translasjon, (k) multimerisering av de kimeriske proteiner gjennom fusjon til den multimerisk partner.72. Method for producing a chimeric protein domain in accordance with claim 40, where the sequence segments of the original amino acid sequences are changed after their assembly, characterized in that the method comprises one or more of the following steps: (a) designing and introducing specific or arbitrary mutations at predetermined positions within the gene in the chimeric protein; (b) deleting nucleotides within the gene for the chimeric protein to delete amino acid units; (c) inserting nucleotides into the gene for chimeric protein to insert amino acid units, (d) adding nucleotides to the gene in the chimeric protein to add amino acid units; (e) arbitrarily introduce mutations into all or part of the gene encoding the chimeric protein through recombinant DNA technology; (f) arbitrarily introducing mutations into the gene in the chimeric protein through propagation in mutant cells; (g) introducing derivatives of natural amino acids by chemical synthesis; (h) chemical derivatization of amino acid groups after synthesis; (i) multimerization of the chimeric proteins through covalent linking of two or more copies of the gene in a single open reading frame, (j) multimerization of the chimeric proteins through covalent linking of two or more copies of the chimeric protein domain after translation; (k) multimerization of the chimeric proteins through fusion to the multimeric partner. 73. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det omfatter minst én reaksjonsgruppe for kovalent kobling.73. Chimeric protein domain in accordance with claim 40, characterized in that it comprises at least one reaction group for covalent coupling. 74. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det omfatter minst én reaksjonsgruppe for ikke-kovalent kobling.74. Chimeric protein domain in accordance with claim 40, characterized in that it comprises at least one reaction group for non-covalent coupling. 75. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det omfatter minst én D-aminosyre.75. Chimeric protein domain in accordance with claim 40, characterized in that it comprises at least one D-amino acid. 76. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det omfatter minst én ikke-naturlig forekommende aminosyre.76. Chimeric protein domain in accordance with claim 40, characterized in that it comprises at least one non-naturally occurring amino acid. 77. Kimerisk proteindomene i samsvar med krav 40, karakterisert ved at det omfatter minst én aminosyre som har en markør eller en tagg.77. Chimeric protein domain in accordance with claim 40, characterized in that it comprises at least one amino acid which has a marker or a tag.
NO20023606A 2000-02-03 2002-07-30 Combinatorial protein domains NO20023606L (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB0002492A GB0002492D0 (en) 2000-02-03 2000-02-03 Combinatorial protein domains
US18032600P 2000-02-04 2000-02-04
GB0016346A GB0016346D0 (en) 2000-07-03 2000-07-03 Combinatorial protein domains
GB0019362A GB0019362D0 (en) 2000-08-07 2000-08-07 Combinational protein Domains
PCT/GB2001/000445 WO2001057065A2 (en) 2000-02-03 2001-02-02 Combinatorial protein domains

Publications (2)

Publication Number Publication Date
NO20023606D0 NO20023606D0 (en) 2002-07-30
NO20023606L true NO20023606L (en) 2002-10-02

Family

ID=27447768

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20023606A NO20023606L (en) 2000-02-03 2002-07-30 Combinatorial protein domains

Country Status (7)

Country Link
EP (1) EP1252319A2 (en)
JP (1) JP2003523742A (en)
AU (1) AU3040101A (en)
CA (1) CA2399809A1 (en)
GB (1) GB2375112A (en)
NO (1) NO20023606L (en)
WO (1) WO2001057065A2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090005257A1 (en) 2003-05-14 2009-01-01 Jespers Laurent S Process for Recovering Polypeptides that Unfold Reversibly from a Polypeptide Repertoire
AU2008259590A1 (en) 2007-06-06 2008-12-11 Domantis Limited Methods for selecting protease resistant polypeptides
MX2010005927A (en) 2007-11-30 2010-06-15 Glaxo Group Ltd Antigen-binding constructs.
MX2011005874A (en) 2008-12-05 2011-06-27 Glaxo Group Ltd Methods for selecting protease resistant polypeptides.
WO2010097386A1 (en) 2009-02-24 2010-09-02 Glaxo Group Limited Antigen-binding constructs
JP2012518400A (en) 2009-02-24 2012-08-16 グラクソ グループ リミテッド Multivalent and / or multispecific RANKL binding constructs
EP2401298A1 (en) 2009-02-24 2012-01-04 Glaxo Group Limited Antigen-binding constructs
SG190362A1 (en) 2010-11-24 2013-06-28 Glaxo Group Ltd Multispecific antigen binding proteins targeting hgf
EP2736925A2 (en) 2011-07-27 2014-06-04 Glaxo Group Limited Anti-vegf single variable domains fused to fc domains
EP3561703B1 (en) * 2018-04-25 2021-01-20 Bayer AG Identification of the mating of variable domains from light and heavy chains of antibodies
JPWO2023140360A1 (en) * 2022-01-20 2023-07-27

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2715940B1 (en) * 1994-02-10 1996-04-26 Pasteur Merieux Serums Vacc Process for the preparation of a multi-combinatorial library of expression vectors of antibody genes, library and expression systems of "colonic" antibodies obtained.
EP0883686A1 (en) * 1996-02-26 1998-12-16 Morphosys Gesellschaft für Proteinoptimierung mbH Novel method for the identification of nucleic acid sequences encoding two or more interacting (poly)peptides
AU762814B2 (en) * 1998-05-13 2003-07-03 Domantis Limited Selection system
GB9929061D0 (en) * 1999-12-08 2000-02-02 Medical Res Council Methods of producing novel enzymes

Also Published As

Publication number Publication date
WO2001057065A2 (en) 2001-08-09
GB0217404D0 (en) 2002-09-04
NO20023606D0 (en) 2002-07-30
CA2399809A1 (en) 2001-08-09
EP1252319A2 (en) 2002-10-30
AU3040101A (en) 2001-08-14
WO2001057065A3 (en) 2002-01-31
JP2003523742A (en) 2003-08-12
GB2375112A (en) 2002-11-06

Similar Documents

Publication Publication Date Title
US9422548B2 (en) OB-fold used as scaffold for engineering new specific binders
US10556933B2 (en) Polypeptide libraries with a predetermined scaffold
AU2007218045B2 (en) Method of constructing and screening libraries of peptide structures
US20150275201A1 (en) Repeat protein from collection of repeat proteins comprising repeat modules
EP2029620A1 (en) Ob fold domains
JP2001527417A (en) Nucleic acid binding protein
KR20040018316A (en) Combinatorial libraries of proteins having the scaffold structure of c-type lectin-like domains
WO2006058226A2 (en) Modified dimeric streptavidins and uses thereof
US9897611B2 (en) Molecule library constructed on the basis of backbone structure of microprotein
NO20023606L (en) Combinatorial protein domains
Johnsson et al. Phage display of combinatorial peptide and protein libraries and their applications in biology and chemistry
JP2004528802A (en) Small proteins that bind DNA and proteins
WO1992015702A1 (en) The biological selection of useful molecules
Kay Biologically displayed random peptides as reagents in mapping protein-protein interactions
WO2002012277A2 (en) Hybrid combinatorial proteins made from reshuffling of differently folded domains
US20030078192A1 (en) Combinatorial protein domains
Chung et al. Structural study of Legionella pneumophila effector DotY (Lpg0294), a component of the Dot/Icm type IV secretion system
KR20110003547A (en) Artificial protein scaffolds
JP2003502022A (en) Self-associating biomolecular structures
Ku A combinatorial approach towards molecular recognition
O'Neil Protein engineering by phage display
Parmeggiani Design of armadillo repeat protein scaffolds
Miertus et al. Peptide Display Libraries: Design and Construction Maria Dani
RAHIKAINEN IMPROVED PHAGE DISPLAY METHODS FOR THE SELECTION OF DNA-SHUFFLED AVIDIN MUTANTS
Dawson Deciphering the molecular basis of protein function through chemical synthesis

Legal Events

Date Code Title Description
FC2A Withdrawal, rejection or dismissal of laid open patent application