WO2024018050A1 - Verfahren zur optimierung einer nukleotidsequenz durch austausch synonymer codons für die expression einer aminosäuresequenz in einem zielorganismus - Google Patents

Verfahren zur optimierung einer nukleotidsequenz durch austausch synonymer codons für die expression einer aminosäuresequenz in einem zielorganismus Download PDF

Info

Publication number
WO2024018050A1
WO2024018050A1 PCT/EP2023/070275 EP2023070275W WO2024018050A1 WO 2024018050 A1 WO2024018050 A1 WO 2024018050A1 EP 2023070275 W EP2023070275 W EP 2023070275W WO 2024018050 A1 WO2024018050 A1 WO 2024018050A1
Authority
WO
WIPO (PCT)
Prior art keywords
codon
tuple
amino acid
sequence
nucleotide sequence
Prior art date
Application number
PCT/EP2023/070275
Other languages
English (en)
French (fr)
Inventor
Gert Weber
Gunter Weber
Original Assignee
Proteolutions UG (haftungsbeschränkt)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Proteolutions UG (haftungsbeschränkt) filed Critical Proteolutions UG (haftungsbeschränkt)
Publication of WO2024018050A1 publication Critical patent/WO2024018050A1/de

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Definitions

  • the present invention lies in the field of producing synthetic nucleotide sequences and their use for producing proteins by introducing these nucleotide sequences into an expression system with a suitable host organism which expresses the protein encoded by the nucleotide sequence.
  • the present invention relates in particular to methods in which a nucleotide sequence is optimized for expression in a predetermined host organism.
  • An “expression system” is a biological system that is capable of carrying out protein biosynthesis in a targeted and controlled manner, i.e. producing, i.e. “expressing”, certain proteins based on the template of a nucleotide sequence.
  • Heterologous expression is understood to mean the expression of a gene or part of it in a host organism that does not naturally possess this gene or gene fragment.
  • the corresponding nucleotide sequences are created using genetic technology or recombinant DNA technology, for example with the help of of vectors or genome editing, into the host organism, whereupon it is multiplied and stimulated to overproduce the protein.
  • a “homologous expression” therefore refers to the expression of a gene or part of it in a host organism or a system from which it originally comes.
  • Heterologous protein expression can be carried out in many types of host organisms.
  • the host organism can e.g. B. be a bacterium, a fungus, a yeast, an insect cell, a mammalian cell or a plant cell.
  • a frequently occurring problem in heterologous protein expression is a low transcription and translation rate of a foreign nucleotide sequence in a specific host organism, also referred to here as the target organism.
  • the cause is u. a. the degeneration of the genetic code, which leads to the fact that for most of the amino acids to be incorporated in translation, several codons with the same meaning, also referred to here as “synonymous codons”, are available.
  • a codon is a sequence of three consecutive nucleobases of a nucleic acid sequence, i.e. a “base triplet” that represents one Amino acid can encode. There are a total of 64 possible codons, of which 61 code for the 20 canonical proteinogenic amino acids, and three more code for stop codons.
  • codons in the genes of an organism are not arranged randomly, but rather that the observed frequencies of codon pairs can, contrary to expectations, deviate from the product of the respective individual frequencies and are therefore statistically “underrepresented” or “overrepresented”. This context is also referred to as the “codon context,” which can have an additional influence on translation efficiency.
  • codon optimization by exchanging individual codons of the nucleotide sequence to be expressed for synonymous codons with higher frequencies in the target organism (also referred to as “codon optimization” or “codon usage optimization”), as well as through transmission the frequencies of codons of highly expressed genes in the target organism on the target protein (also referred to as “codon adaptation index”).
  • codon context optimization whereby the codons of the nucleic acid sequence to be expressed are adapted to the codon context by replacing them with overrepresented or underrepresented synonymous codons of the target organism can be adapted without changing the encoded amino acid sequence.
  • WO 2020/024917 Al discloses a computer-implemented one
  • nucleic acid sequences etc. a. on the basis of Codon Adaptation Index and codon context can be optimized for the expression of a protein in a host using a computer-aided NSGA-II algorithm.
  • a computer-aided method in which a predetermined nucleic acid sequence is optimized for expression in a predetermined target organism using a quality function.
  • the quality function can take into account, among other things, the codon use and the codon context as a quality criterion.
  • WO 2008/000632 A1 a further method is proposed in which new coding sequences are generated from a predetermined nucleotide sequence, which encodes a predetermined amino acid sequence, by exchanging one or more synonymous codons in several repetition steps and based on a fitness value, which, among other things. a. taking the codon context of the host organism into account.
  • WO 2018/104385 A1 a method for determining an optimized nucleotide sequence, which encodes a predetermined amino acid sequence and is optimized for expression in a specific target organism, is known, wherein a large number of candidate nucleotide sequences are generated and using a statistical machine learning algorithm be rated .
  • the subject of the present invention is a method for optimizing a nucleotide sequence for the expression of a predetermined amino acid sequence in at least one target organism.
  • the expression can in principle be heterologous or homologous. It is preferably a heterologous expression.
  • the nucleotide sequence comprises a large number of base triplets, with at least one change position in the nucleotide sequence being a base triplet that contains an amino acid of the predetermined one Amino acid sequence encoded is replaced by a synonymous base triplet that encodes the same amino acid of the predetermined amino acid sequence in order to optimize the nucleotide sequence for expression in the at least one target organism.
  • a change position according to the invention here comprises a direct sequence of n base triplets, which forms a first codon n-tuple and encodes a sequence section of n amino acids of the predetermined amino acid sequence, which forms an amino acid n-tuple, the amino acid n-tuple having a predetermined amount of amino acid n-tuple events in the genome of the at least one target organism or part thereof and / or in genomes of viruses or parts thereof capable of infecting the at least one target organism.
  • the method according to the invention includes that at least one of the n base triplets from the direct succession of the at least one change position is replaced by a synonymous base triplet, the synonymous base triplet being chosen so that a second codon n-tuple results, which in relation to the quantity the amino acid n-tuple events have a higher relative codon n-tuple frequency in the genome or the part thereof of the at least one target organism and / or in the genomes or the parts thereof of the viruses capable of infecting the at least one target organism as the first codon n-tuple.
  • n is a natural number greater than or equal to two and in particular less than or equal to a total number N of amino acids of the predetermined amino acid sequence.
  • the invention is based on the knowledge that the influence of a direct sequence of n base triplets, referred to here as a codon n-tuple, the translation efficiency of a sequence of n amino acids encoded by the n base triplets, here referred to as an amino acid n-tuple, in a specific target organism can be expressed by the relative frequency with which the direct sequence of n base triplets encodes the direct sequence of n amino acids within the genome of a host organism, referred to here as relative codon n-tuple frequency.
  • the inventors have recognized that the ratio of the absolute frequency of a codon n-tuple and the absolute frequency of the corresponding amino acid n-tuple, which is encoded by the codon n-tuple, is an advantageous measure to quantify the suitability of a given nucleic acid sequence for expression in a specific target organism.
  • the relative frequency can have values between 0 and 1 or Assume 0% and 100%, where the relative frequency is equal to 0, if a particular codon n-tuple in the genome or part of it of the target organism is not used at all to encode the corresponding amino acid n-tuple.
  • the relative frequency is equal to 1 or .
  • any codon n-tuple can be selected which encodes this amino acid n-tuple.
  • the associated synonymous codon n-tuples can each be assigned a uniform relative frequency of 1/i, where i is the number of synonymous codon n-tuples that encode the amino acid n-tuple.
  • codon n-tuples encoding this amino acid n-tuple can be assigned a relative frequency of 0. Another possibility is to use this change position or to exclude this amino acid n-tuple from the optimization.
  • the method according to the invention can also enable the biosynthesis of proteins that previously could not or hardly be expressed heterologously. In this way, the method according to the invention leads to an improvement in efficiency and sustainability in biotechnological Protein production for scientific, medical and technical or industrial purposes.
  • n is less than or equal to 50, less than or equal to 40, less than or equal to 30, less than or equal to 20 or less than or equal to 10.
  • n 2.
  • n 3.
  • n 6.
  • n is greater than or equal to three.
  • predetermined means that the set of amino acid n-tuple events is determined by the genome or the proteome of the at least one target organism or a portion thereof or the genomes of the at least one viruses or parts thereof capable of targeting a target organism. It is therefore understood that the determination of the number of events, hereinafter also referred to as the absolute frequency, with which a specific amino acid n-tuple occurs in the genome of the at least one target organism or a part or in the genomes of viruses or parts thereof capable of infecting the at least one target organism represents a step that can be carried out during the process, but does not have to be carried out.
  • the information about the absolute frequency with which an amino acid n -Tuple is encoded in the genome of the at least one target organism or part thereof and/or in genomes of viruses or parts thereof capable of infecting the at least one target organism another way, e.g. B. from databases or the like, can be included in the method according to the invention.
  • the determination of the set of events with which the amino acid n-tuple in the genome of at least one target organism or a part thereof or is encoded in genomes of viruses or parts thereof capable of infecting the at least one target organism is carried out as a method step.
  • the same basically applies to determining the number of events, i.e. H . the absolute frequency with which a specific codon n-tuple occurs in the genome of at least one target organism or a part thereof or occurs in genomes of viruses or parts thereof capable of infecting the at least one target organism, and/or for the resulting relative frequency of the codon n-tuple according to the invention.
  • the absolute frequency and/or the relative frequency of essentially every combinatorially possible codon n-tuple in the genome of the at least one target organism or a part thereof or in genomes of viruses or parts thereof capable of infecting the at least one target organism are deposited in a database and are included in the method according to the invention in the form of database information.
  • the synonymous base triplet is selected in the method according to the invention specifically from the point of view that the second codon n-tuple fulfills the condition required according to the invention of a higher relative codon n-tuple frequency compared to the first codon n-tuple.
  • Selecting the synonymous base triplet can therefore in particular include determining and/or evaluating the relative codon n-tuple frequency of the second codon n-tuple.
  • the term “determine” can as stated above, e.g. B. in the form of a calculation of the relative codon n-tuple frequency of the second codon n-tuple or in the form of a data comparison, the inclusion of database information or the like.
  • a preferred method implementation therefore includes at least the following steps: a) determining the at least one change position; b) replacing the at least one base triplet of the at least one change position with the synonymous base triplet; c) Determine the relative codon n-tuple frequency of the resulting second codon n-tuple.
  • the method further comprises a step d) evaluating the relative codon n-tuple frequency of the second codon n-tuple determined in step c), the evaluation z.
  • a comparison with the relative codon n-tuple frequency of the first codon n-tuple can be carried out and/or based on a target criterion such as a minimum value or the like.
  • Steps b) and c) and if necessary. d) can also be repeated until a second codon n-tuple results, which has the higher relative codon n-tuple frequency required according to the invention than the first codon n-tuple.
  • the determined set of amino acid n-tuple events or The determined relative frequency of the codon n-tuple does not necessarily have to be based on the complete genome of the at least one target organism or the complete genomes of the viruses capable of infecting the at least one target organism. Rather, in certain process variants it can be sufficient and advantageous if only parts of the genome or of the genomes from the determined absolute amino acid n-tuple frequency or the relative codon n-tuple frequency are included, especially since the Most genomes each contain a large portion of non-coding regions, which are less relevant for the inventive measurement of the suitability of a given nucleic acid sequence for expression in the target organism.
  • the set of amino acid n-tuple events results from several, preferably all, protein-coding genes and/or proteins of the at least one target organism or the viruses or viruses capable of infecting at least one target organism. is based on several protein-coding genes and/or proteins of at least one target organism or the viruses capable of infecting at least one target organism are determined. Proteins constitutively expressed by the target organism or proteins with high transient expression or high abundance are particularly suitable for this. Particularly preferably, at least 25%, at least 50%, at least 75%, at least 80%, at least 90% or at least 95% of the coding part of the genome of the target organism is included in the determination of the amount of amino acid n-tuple events.
  • the relative codon n-tuple frequency also results from a set of events of the first or second codon n-tuple in several, preferably all, protein-coding genes and / or proteins of the at least one target organism or the viruses or viruses capable of infecting at least one target organism. is based on several protein-coding genes and/or proteins of at least one target organism or of viruses capable of infecting at least one target organism is determined, which is based on the amount of amino acid n-tuple events. Particularly preferred are at least 25%, at least 50%, at least 75%, at least 80%, at least 90% or at least 95% of the coding part of the genome of the target organism is covered by the determination of the relative codon n-tuple frequency.
  • the relative frequency of the first or second codon n-tuple is a value arithmetically calculated from absolute frequencies.
  • the relative frequency of the first and/or second codon n-tuple can also be determined by a different probability distribution or another probability measure can be expressed or replaced, e.g. B. as an interval estimate. That's how it is, for example. B. possible, from chance observations, e.g. B.
  • the relative codon n-tuple frequency is then z. B. represented by the interval center or .
  • the relative codon n-tuple frequency can also be calculated using other values from the interval. be represented. In addition to the interval center, e.g. B. the smallest value of the Interval, especially for very conservative estimates, or the average value of a weight function (e.g. -1/x) on the interval represents the relative codon n-tuple frequency.
  • the at least one change position comprises a direct sequence of n base triplets, which forms a first codon n-tuple and encodes a sequence section of n amino acids of the predetermined amino acid sequence, which forms an amino acid n-tuple , whereby at least one of the n base triplets of the direct sequence is replaced by a synonymous base triplet, which is selected using an estimating function in such a way that a second codon n-tuple results, which has the amino acid n-tuple with a greater probability in the genome or a part thereof of the at least one target organism and/or in genomes or parts thereof of viruses capable of infecting the at least one target organism coded as the first codon n-tuple.
  • Suitable estimation functions that can be implemented for the method according to the invention are known to those skilled in the art.
  • “at least one change position” includes the possibility that the method includes several or a plurality of change positions, in each of the change positions at least one of the n base triplets of the direct succession through a synonymous base triplet is replaced and the synonymous base triplets are chosen so that at least some of the resulting second codon n-tuples have a higher relative codon n-tuple frequency than the respective first codon n-tuples.
  • the change positions can for this purpose in one or more of the change positions also several or all of the n base triplets are each replaced by a synonymous base triplet.
  • At least in the change position with the first codon n-tuple, which has the lowest relative codon n-tuple frequency of all change positions at least one of the base triplets of the direct sequence is replaced by a synonymous base triplet, which is chosen so that the resulting second codon n-tuple has a higher relative codon n-tuple frequency than the first codon n-tuple.
  • the inventors have recognized that the codon n-tuple with the lowest relative frequency in the nucleotide sequence regularly has a limiting effect on the entire translation process, so that replacing this first codon n-tuple with a second codon n-tuple with a higher relative frequency Frequency can have a particularly beneficial effect on translation and folding and can therefore lead to a particularly strong improvement in the expression of soluble proteins in the target organism.
  • the method according to the invention provides for the possibility that the direct successions of the n base triplets of at least two change positions overlap, with the base triplet, which is replaced by the synonymous base triplet, of at least these two change positions is included at the same time.
  • the method according to the invention can further provide that the synonymous base triplet is selected so that in one of the two change positions the resulting second codon n-tuple has a lower relative codon n-tuple frequency and in the other of the two Change positions, the resulting second codon n-tuple has a higher relative codon n-tuple frequency than the respective first codon n-tuple.
  • the method according to the invention can also provide for such overlapping change positions that the resulting second codon n-tuple in both change positions has a higher relative codon n-tuple frequency than the respective first codon n-tuple . It is still possible that the relative codon n-tuple frequency decreases in both change positions.
  • n n base triplets from more than two change positions overlap and the base triplet, which is replaced by the synonymous base triplet, includes more than two change positions at the same time is . It is then possible for the synonymous base triplet to be chosen so that in at least one of the change positions the resulting second codon n-tuple has a lower relative codon n-tuple frequency and in the other of the change positions the resulting second codon n-tuple has a higher relative codon n-tuple frequency than the respective first codon n-tuple.
  • the relative codon n-tuple frequency of the second codon n-tuples compared to the respective first codon n-tuples is at least approximately 1%, 5% or 10% and/or at most approximately 40%, 30 % or 20% of the change items is reduced.
  • the inventors have further recognized that in order to improve the expression rate of soluble protein from the nucleotide sequence in the target organism, it may be significantly more important to use the method according to the invention to increase particularly low relative codon n-tuple frequencies than isolated or even the majority achieve particularly high relative codon n-tuple frequencies.
  • the method according to the invention therefore looks preferred
  • the synonymous base triplets are chosen so that the relative codon n-tuples frequency of the second codon n-tuples has the greatest possible minimum value, i.e. H . a greatest possible global minimum is achieved or at least not more than 50%, preferably not more than
  • the synonymous base triplets are preferably chosen so that an average of the relative codon n-tuple frequencies of the second codon n-tuples reaches a maximum value or at least not more than 50%, preferably not more than 40% or not more than 30%, preferably not more than 20%, particularly preferably not more than 10% below an achievable maximum value.
  • the optimization method can be used to provide nucleotide sequences that are particularly well adapted to expression in the target organism and can therefore be expressed particularly reliably and with high expression rates of soluble protein in the target organism.
  • the basic condition according to the invention is that at least one of the n base triplets from the direct succession of the at least one change position is replaced by a synonymous base triplet, which is specifically chosen so that at least a second codon n-tuple results, which is related to the set of amino acid n-tuple events has a higher relative codon n-tuple frequency in the genome or the part thereof of the at least one target organism and / or in the genomes or the parts thereof of the viruses capable of infecting the at least one target organism as the first codon-n-tuple, inevitably always fulfilled when the criteria mentioned are reached.
  • the relative frequency of the first codon n-tuples can in principle be used as a control parameter for implementing the method according to the invention or, for example, to compare an intermediate or final result of the optimization with the initial state. Furthermore, in these embodiments, the relative frequency of the first codon n-tuples can remain open, since the goal of the optimization is not based on which initial sequence was started.
  • the mean value contains a degressive weighting of the relative codon n-tuple frequencies of the first and second codon n-tuples, which is configured so that a high relative Codon n-tuple frequency has a disproportionate influence on the mean value compared to a lower relative codon n-tuple frequency. whose calculation has .
  • an increase in a low relative codon n-tuple frequency can have a greater impact on the mean than an increase in a medium or high relative codon n-tuple frequency.
  • the method can additionally or alternatively also be designed so that the relative codon n-tuple frequency reaches a maximum value in at least some of the change positions.
  • the natural number n must be the same natural number for the n base triplets, the codon n-tuple and the amino acid n-tuple of a change position.
  • the change position e.g. B. comprises a direct sequence of three base triplets, this also codes for a sequence section of three amino acids of the given amino acid sequence, i.e. H .
  • the first and second codon n-tuple are each a codon 3-tuple and the amino acid n-tuple is correspondingly an amino acid 3-tuple.
  • various change positions e.g. B. at least two change positions, in the number n differ or that n for different change positions, e.g. B.
  • n one Change position can be varied during the process, i.e. H .
  • the change position can be enlarged or reduced during the process.
  • a large change position can be divided into several small change positions and vice versa. This can e.g. B. be advantageous in areas of the nucleotide sequence that encode amino acid n-tuples that occur rarely or not at all in the genome of the target organism or organisms or viruses. in the parts of it, resort to smaller n with more reliable statistics.
  • nucleotide sequences that are harmful for expression in the target organism such as. B. Restriction interfaces are very likely to be excluded by using larger n. Since such sequence motifs usually have no basis in the target organism's own genome, i.e. H . If the relative codon n-tuple frequency in the genome of the target organism or organisms approaches zero, the method according to the invention implicitly leads to their systematic exclusion.
  • harmful sequences are e.g. B. up to a length of 3n-2 inclusive is automatically excluded from the optimized nucleotide sequence if n is greater than or equal to 3.
  • the base triplets are replaced by the synonymous base triplets in several iteration steps using a computer-aided optimization method. In this way, it is particularly possible to successively add nucleotide sequences with a large number of overlapping change positions optimize.
  • at least one of the n base triplets can be replaced by a synonymous base triplet in all change positions or only in part of the change positions.
  • the at least one of the n base triplets is replaced by a synonymous base triplet in only part of the change positions.
  • the base triplet can be comprised of one change position or several overlapping change positions.
  • Replacing the base triplets with the synonymous base triplets can, for example, be iterated so often until one of the target criteria already mentioned above is achieved, for example the relative codon n-tuple frequencies of the second codon n-tuples have a maximum possible minimum value, a maximum possible Average, in particular a largest possible weighted average, or reach a maximum value or approach these values in the dimensions defined above.
  • the method in these embodiments can also include one or more iteration steps that lead away from the respective target criterion, in particular by determining the relative frequency of the second codon n-tuple in one or more of the change positions compared to the first codon -n- tuples are at least temporarily reduced by an iteration step in order to obtain local maxima of minimum value or To be able to overcome mean values that stand in the way of achieving the target criterion. It is therefore also provided that in one or more of the change positions, the at least one of the n base triplets can be replaced several times by different synonyms until the target criterion is reached Base triplets can be replaced. In particular, there is no provision for determining a change position to a specific second codon n-tuple after an iteration step has been carried out.
  • the computer-aided optimization method preferably includes an approximation method, in particular a simulated cooling method, also referred to as “simulated annealing”. These methods are particularly useful for finding an approximate solution for a nucleotide sequence that is optimal for the target organism with regard to the relative codon n-tuple frequencies proven to be suitable and advantageous, especially when longer nucleotide sequences, for example with 30 codons or more, with a large number of overlapping change positions due to their complexity preclude the complete checking of all possible synonymous base triplets and mathematical optimization methods.
  • other heuristic approximation methods such as For example, a deluge algorithm or a genetic algorithm is possible. Other suitable approximation methods are known to those skilled in the art.
  • other computer-aided optimization methods such as B. artificial intelligence (AI)-based applications are conceivable.
  • the change positions together comprise at least 1%, at least 5%, at least 10%, at least 20%, at least 30%, at least 40% or at least 50% of the base triplets of the nucleotide sequence that encode an amino acid of the predetermined amino acid sequence .
  • the change positions together comprise at least 60%, at least 70% or at least 80%, particularly preferably at least 90% or at least 95% of the base triplets of the nucleotide sequence which contain an amino acid of the predetermined Encoding amino acid sequence.
  • the method according to the invention ensures a particularly reliable optimization of the nucleotide sequence for expression in the target organism.
  • change positions can also contain base triplets that are not replaced by a synonymous base triplet, i.e. H . It is not necessary that each base triplet included in the change positions is replaced by a synonymous base triplet.
  • the synonymous base triplets are preferably chosen so that the relative codon n-tuple frequencies of the second codon n-tuples are at least 10%, at least 15%, at least 20%, at least 25%, at least 30% or at least 35% , preferably in at least 40% or at least 45% of the change positions, preferably in at least 50%, at least 55%, at least 60%, at least 65% or at least 70% of the change positions, particularly preferably in at least 75%, at least 80%, at least 85 % or at least 90% of the change positions have a higher relative codon n-tuple frequency than the respective first codon n-tuples.
  • At least one target organism includes the possibility that the nucleotide sequence is optimized for the expression of the specified amino acid sequence in a plurality of different target organisms at the same time.
  • the method according to the invention provides for this, for example that the relative codon n-tuple frequency results from the set of events of a codon n-tuple based on the set of events of the corresponding amino acid n-tuple in the genomes or parts thereof of the majority of the different target organisms.
  • an optimized nucleotide sequence can be provided using the method according to the invention better for heterologous expression in different
  • the at least one target organism can in principle be a predetermined host cell or any predetermined organism that is suitable for the expression of the predetermined amino acid sequence.
  • the host cell can be a prokaryotic or a eukaryotic host cell.
  • the host cell may be a host cell suitable for culture in liquid or solid media.
  • the host cell can be a cell that is part of a multicellular tissue or a multicellular organism such as a plant, an animal or a human, in particular a transgenic one.
  • the host cell can be microbial or non-microbial.
  • a microbial host cell can be a bacterial, yeast or fungal cell.
  • Suitable bacterial host cells include both Gram-positive and Gram-negative bacteria.
  • suitable bacterial host cells are bacteria from the genera Bacillus, Actinomycetis, Escherichia, Streptomyces and lactic acid bacteria such as Lactobacillus, Streptococcus, Lactococcus, Oenococcus, Leuconostoc, Pediococcus, Carnobacterium, Propionibacterium, Enterococcus and Bifidobacterium.
  • Bacillus subtilis Bacillus amyloliquefaciens
  • the host cell can also be a eukaryotic microorganism such as a yeast or a fungus, in particular a filamentous one.
  • yeasts as host cells belong to the genera Saccharomyces, Kluyveromyces, Candida, Pichia, Schizosaccharomyces, Hansenula, Kloeckera, Schwanniomyces, and Yarrowia.
  • Particularly preferred Debaromyces host cells are Saccharomyces cerevisiae and Kluyveromyces lactis.
  • the host cell of the present invention is a cell of a filamentous fungus.
  • Filamentous fungi include all filamentous forms of the subdivisions Eumycota and Oomycota.
  • Filamentous mushrooms are characterized by a mycelial wall composed of chitin, cellulose, glucan, chitosan, mannan and other complex polysaccharides. Vegetative growth occurs through hyphal elongation and carbon degradation is obligatorily aerobic.
  • the filamentous fungi whose strains can be used as host cells in the present invention include, among others, strains of the genera Acremonium, Aspergillus, Aureobasidium, Cryptococcus, Filibasidium, Fusarium Humicola, Magnaporthe, Mucor, Myceliophthora, Neocallimastix, Neurospora, Paecilomyces, Penicillium , Piromyces, Schizophyllum, Chrysosporium, Talaromyces, Thermoascus, Thielavia, Tolypocladium and Trichoderma.
  • filamentous fungi are selected from the group consisting of Aspergillus niger, Aspergillus oryzae, Aspergillus sojae, Trichoderma reesei and Penicillium chrysogenum. Examples of suitable host strains are known to those skilled in the art.
  • Suitable non-microbial host cells are, for example
  • Mammalian host cells such as hamster cells (e.g. Chinese hamster
  • CHO ovary
  • BHK Baby Hamster Kidney
  • Mouse cells monkey cells or human cells or cell lines such as HeLa or HEK293
  • Insect cells such as Drosophila cells or Lepidoptera cell lines Hi5, S f21
  • Plant cells such as B.
  • Non-pathogenic Leishmania are suitable for protein expression.
  • Such non-microbial cells are particularly suitable for the production of mammalian or human proteins for use in mammalian or human therapy.
  • the predetermined amino acid sequence is preferably a protein or a part thereof, which is in particular naturally a eukaryotic protein.
  • the method according to the invention has proven to be particularly advantageous for the expression of eukaryotic proteins, for example an insect, plant or mammalian protein, in bacterial, in particular prokaryotic, expression systems such as Escherichia coli.
  • the nucleotide sequence is optimized for the expression of the specified amino acid sequence in a plurality of different target organisms at the same time, it is possible that the different target organisms have very different genome sizes, with large genomes usually having proteomes with a larger number of amino acids. n-tuples encode as smaller genomes. This can lead to the relative codon n-tuple frequencies being disproportionately influenced by large genomes and thus the optimization of the nucleotide sequence inevitably favors expression in target organisms with large genomes more than in target organisms with small genomes.
  • the relative codon n-tuple frequency contains a genome-dependent weighting, which is configured, for example, in such a way that a difference in size in the genomes or parts thereof, in particular a different extent of the coding regions, of the different target organisms is at least partially compensated. This ensures that the nucleotide sequence optimized according to the invention is more suitable for expression in the various target organisms.
  • the method according to the invention is not only able to significantly improve the quantitative protein yield in the heterologous expression system compared to conventional optimization methods, but in particular also to significantly increase the proportion of soluble protein in the yield.
  • This is a particular advantage of the method according to the invention, since the dissolved form of a protein generally represents the native, biochemically active state, which is of central importance, especially in high-value proteins for scientific, medical-pharmaceutical and biotechnological purposes.
  • a special characteristic of the method according to the invention is that after the optimization of the nucleotide sequence, the amino acid sequence expressed in the at least one target organism has a greater solubility and/or is present in a larger proportion in dissolved form than before the optimization.
  • the optimization of the nucleotide sequence for expression in the at least one target organism can alternatively or in addition to the optimization based on the genome of the target organism or parts thereof also based on genomes or parts thereof of those capable of infecting the at least one target organism
  • Viruses occur.
  • the viruses may include bacteriophages.
  • the optimization is based on a plurality or large number of virus genomes or Sharing of this occurs because a single viral genome or Viral transcriptome generally does not have the required size and therefore does not have the necessary statistical significance for effective optimization of the nucleotide sequence based on the relative codon n-tuple frequency according to the invention.
  • the inventors therefore summarize the genomes or Transcriptomes of different viruses are combined to form a type of “supergenome” or “supertranscriptome,” which is used as the basis for determining the relative codon n-tuple frequency.
  • the method preferably includes these
  • the inventors make use of the knowledge that the genomes of viruses or Phages are already naturally optimized for high-throughput protein expression in the infected target organism.
  • the inventors have recognized a particular advantage that viruses or Phage genomes often have a reduced base complexity, which means that an mRNA that is transcribed from a nucleotide sequence optimized according to the invention forms little or no secondary structures.
  • the optimization method according to the invention is in practice significantly superior to other methods that use artificial algorithms for mRNA secondary structure optimization.
  • the method can include steps that serve to reduce or exclude nucleotide sequences and/or motifs that are present within the nucleotide sequence and/or are randomly generated by replacing base triplets in the change positions and which can adversely affect expression in the target organism.
  • such unfavorable nucleotide sequences and/or motifs are at least partially removed from the nucleotide sequence.
  • Non-limiting examples of unfavorable nucleotide sequences and/or motifs include cis-acting mRNA destabilizing motifs, RNase splice sites, ribosome binding sites, repetitive elements, and restriction enzyme recognition sequences.
  • B restriction enzyme recognition sequences.
  • nucleotide sequences that are harmful for expression in the target organism are already inherently excluded for the most part by the method according to the invention, in particular by the length of the codon n-tuples with n greater than or equal to 3.
  • an additional step such as: B. Optimization of the mRNA secondary structure or GC content, removal of mRNA destabilizing motifs, ribosome binding sites, repetitive elements and/or recognition sequences of restriction enzymes can be excluded from the process.
  • the subject of the present invention is also the use of a method according to the method described above optimized nucleotide sequence for producing synthetic DNA and/or for protein expression in a target organism.
  • a further subject of the present invention is a nucleic acid molecule, in particular an isolated one, which comprises an optimized nucleotide sequence which was obtained by one of the methods described here.
  • the nucleic acid is DNA.
  • a vector is provided which comprises the, in particular isolated, nucleic acid molecule. Nucleic acid molecules optimized according to the invention can be clearly distinguished from conventionally optimized sequences using a sequence comparison. In this regard, reference is also made to the following comparative examples.
  • a further subject of the invention is a recombinant host cell which contains the above-mentioned, in particular isolated, nucleic acid molecule or the above-mentioned vector.
  • the present invention also relates to a method for expressing a, in particular recombinant, protein in a target organism, which comprises providing a nucleotide sequence which encodes the protein and which is optimized according to the above method.
  • the method may comprise one or more of the following steps: synthesizing a nucleic acid molecule comprising the optimized nucleic acid sequence; Introducing the nucleic acid molecule into the target organism; and cultivating the target organism under conditions that enable expression of the protein from the optimized nucleic acid sequence.
  • the expression is preferably carried out at least partially at a temperature less than or equal to 30 ° C, less than or equal to 25 ° C or less than or equal to 20 ° C.
  • nucleotide sequences optimized according to the invention significantly favor heterologous protein expression at relatively low temperatures compared to conventionally optimized nucleotide sequences.
  • the method according to the invention is particularly suitable for the expression of sensitive high-value proteins and at the same time leads to greater sustainability through energy saving potential.
  • Another subject of the present invention is a computer program with program code means.
  • the program code means of the computer program are set up to carry out a method according to the above description when the computer program is executed on a computer.
  • the computer program can include an interface to a DNA and/or RNA synthesis device.
  • the subject of the present invention is also a computer-readable storage medium on which the aforementioned computer program is stored in computer-readable form.
  • a further subject of the invention is a device for optimizing and/or producing a nucleotide sequence for the expression of a predetermined amino acid sequence in at least one target organism.
  • the device has a computing device which is set up to carry out one of the above-mentioned methods.
  • the device can in particular be a DNA and/or RNA synthesis device, also referred to as a “DNA/RNA synthesizer”.
  • SEQ ID NO:1 Nucleotide sequence of the I. sakaiensis PETase (wild-type sequence) coding for amino acids (aa) 28-290;
  • SEQ ID NO: 2 Synthetically produced nucleotide sequence of the I. sakaiensis PETase (encoding for AS 28-290) with a double Strep tag at the C-terminus after conventional optimization for expression in E. coli according to the prior art (reference);
  • SEQ ID NO: 5 nucleotide sequence of the A. thaliana OTP86-DYW domain (AS 826-960) (wild-type sequence);
  • SEQ ID NO: 6 Synthetically produced nucleotide sequence of the A. thaliana OTP86-DYW domain (AS 826-960) with double Strep tag and Tobacco etch virus (TEV) cleavage site at the N-terminus after conventional optimization for expression in E. coli according to the state of the art (reference);
  • SEQ ID NO: 9 Protein sequence of citrine (encoding aa 1-239) as a predetermined amino acid sequence for expression in H. sapiens;
  • SEQ ID NO: 10 Synthetically produced nucleotide sequence of citrine (encoding AS 1-239) with FLAG tag and double Strep tag at the N-terminus after conventional optimization for expression in H. sapiens according to the prior art (reference), 5 '- flanked by a Kozak sequence (GCCACC);
  • SEQ ID NO: 12 nucleotide sequence (wild type) of the H. sapiens STING1 ER exit protein 1 ("STEEP1") coding for AS 1-222;
  • SEQ ID NO: 13 Synthetically produced nucleotide sequence of H. sapiens STEEP1 (encoding aa 1-222) with FLAG tag and double Strep tag at the N-terminus after conventional optimization for expression in H. sapiens according to the state of the art (reference ) , 5'- flanked by a Kozak sequence (GCCACC);
  • SEQ ID NO: 15 nucleotide sequence (wild type) of the H. sapiens nitric oxide synthase-interacting protein (NOSIP) coding for AS 1-304;
  • SEQ ID NO: 16 Synthetically produced nucleotide sequence from H. sapiens NOSIP (encoding AS 1-304) with FLAG tag and double Strep tag at the N-terminus after conventional optimization using codon adaptation Index and mRNA secondary structure optimization for expression in H. sapiens according to the prior art (reference), 5'-flanked by a Kozak sequence (GCCACC);
  • SEQ ID NO: 17 Synthetically produced nucleotide sequence of H. sapiens NOSIP (encoding AS 1-304) with FLAG tag and double Strep tag at the N-terminus after conventional optimization according to WO 2020/024917 Al for expression in Homo sapiens State of the art (reference), 5'-flanked by a Kozak sequence (GCCACC);
  • SEQ ID NO: 19 Protein sequence of EqFP611 (AS 1-231) as a specified amino acid sequence for expression in S. elongatus;
  • SEQ ID NO: 20 Synthetically produced nucleotide sequence of EqFP611 (encoding aa 1-231) with double Strep tag at the N-terminus after conventional optimization for expression in S. elongatus according to the state of the art (reference), 5 '-flanked by a restriction site Ndel and 3'- flanked by a transcription terminator and a Kpnl restriction site;
  • FIG. 1 shows a flowchart with a schematic sequence of an embodiment of the method according to the invention
  • Fig. 2 SDS-PAGE (A) and quantitative evaluation (B) of the heterologous expression of Ideonella sakaiensis PETase in Escherichia coli at 20 ° C;
  • FIG. 3 SDS-PAGE (A) and quantitative evaluation (B) of the heterologous expression of Ideonella sakaiensis PETase in Escherichia coli at 30 °C;
  • Fig. 4 is a graphical representation of the relative
  • FIG. 8 Western blot (A) and quantitative evaluation (B) of the expression of H. sapiens STEEP1 in HeLa cells;
  • FIG. 9 Western blot (A) and quantitative evaluation (B) of the expression of H. sapiens STEEP1 in HEK293 cells;
  • FIG. 10 Western blot (A) and quantitative evaluation (B) of the expression of H. sapiens NOSIP in HeLa cells with SEQ ID NO: 16 (reference) and SEQ ID NO: 18;
  • FIG. 11 Western blot (A) and quantitative evaluation (B) of the expression of H. sapiens NOSIP in HeLa cells with SEQ ID NO: 17 (reference) and SEQ ID NO: 18;
  • FIG. 12 Western blot (A) and quantitative evaluation (B) of the expression of H. sapiens NOSIP in HEK293 Cells with SEQ ID NO: 16 (reference) and SEQ ID NO: 18.
  • Comparative Example 1 Heterologous expression of Ideonella sakaiensis PET hydrolase (PETase) in Escherichia coli
  • nucleotide sequence of the PETase from I. sakaiensis which codes for the amino acid positions 28-290 (molecular weight 27.9 kDa) (SEQ ID NO: 1), was used for heterologous expression in E. coli according to the method according to the invention and optimized as a reference according to the method according to WO 2020/024917 Al.
  • three pET28a expression plasmids were purchased from Genscript, which encode the amino acid sequence of the PETase with a double Strep tag at the C-terminus under an inducible T7 promoter.
  • the amino acid sequence was supplemented N-terminally with Met (start codon) and the amino acids Ala and Ser.
  • Fig. 1 shows in this context a schematic sequence of an exemplary implementation of the method 100 according to the invention in a computer-implemented embodiment for optimizing the PETase from I. sakai ensi s.
  • the field 102 represents the input of the nucleotide sequence to be optimized into the computer.
  • the entire coding sequence was continuously in change positions, i.e. H . each with a codon offset between adjacent change positions.
  • N-2 codon-3 tuples or N-l codon 2 tuples based on the total number N of amino acids of the given amino acid sequence, N-2 codon-3 tuples or N-l codon 2 tuples.
  • the change positions are thus determined by entering the nucleotide sequence to be optimized.
  • E. coli protein-coding genes were created using a DNA sequence database.
  • a suitable DNA sequence database is e.g. B. GenBank (Nucleic Acids Research 41, 2013, D36-42).
  • the Reference Sequence (RefSeq) database (The NCBI Handbook, 2nd edition, Chapter 18: The Reference Sequence (RefSeq) Database, Bethesda (MD), National Center for Biotechnology Information , USA, 2013).
  • the absolute frequency of each combinatorially possible codon n-tuple as well as the absolute frequency of each combinatorially possible amino acid n-tuple within the protein-coding genes determined, where n in one
  • unwanted nucleotide sequences such as the TATA box “TATAA” or the ribosomal binding site “AGGAGG”, which are known to those skilled in the art that they can affect expression in E. coli, were entered in field 108.
  • Other unwanted sequence motifs included AAAAAA, TTTTT, AGGAGGT, TATAAA, ATCTGTT, GGAGGT and GGGTGGT.
  • the base triplets in the change positions of the wild-type sequence were then successively replaced in field 110 in a large number of interaction steps 112 until the relative codon n-tuple frequency of all codon n-tuples Tuple in the nucleotide sequence achieved the largest possible weighted average while minimizing the number of unwanted nucleotide sequences. Only the start codon was excluded from the optimization, although it is in principle possible to also include the start codon and/or stop codon in the optimization.
  • the weighted average was additionally offset against an expression for the occurrence of undesirable sequence motifs.
  • a value F E was determined, which corresponds to the number of unwanted sequence motifs in the nucleotide sequence to be optimized multiplied by -1.
  • the optimized nucleotide sequences SEQ ID NO: 3 and SEQ ID NO: 4 were output in field 114, which were then synthesized accordingly.
  • nucleotide sequence optimized according to the invention differs significantly from the wild-type sequence even at the nucleotide level.
  • the expression cultures were prepared from 1 mL preculture and 99 mL TB medium.
  • the expression of recombinant PETase in the cultures were induced at an OD600 of 0.6 by adding IPTG at a final concentration of 1 mM. Expression took place in one variant at 20 °C for 14 hours and in another variant at 30 °C for five hours.
  • the OD600 of the expression cultures was determined and the same amount of cells were harvested from each of the cultures in order to normalize the protein yields based on the cell mass.
  • the cell pellets were dissolved in 10 mL of buffer A (20 mM Tris-Cl, pH 7.5, 150 mM NaCl, 1 mM DTT) and disrupted using ultrasound. The cell lysate was then centrifuged at 20,000 g for one hour to separate the insoluble cell components as a pellet.
  • the supernatant with the soluble fraction was mixed in an Eppendorf tube with 200 pL of streptactin beads equilibrated in buffer A (IBA Lifesciences, Göttingen, Germany). The beads were washed twice with 1 mL of buffer A in the Eppendorf tube by centrifugation and removing the supernatant. The bound proteins were eluted with 200 pL buffer A containing 10 mM desthiobiotin. The identity of the protein was analytically verified by SDS-polyacrylamide gel electrophoresis (SDS-PAGE). The amount of protein in the SDS-PAGE gel bands was quantified using Image J software (National Institutes of Health, USA). In addition, the protein concentration in the respective supernatants was determined using the Bradford assay (Thermo Fisher Scientific, Bremen, Germany) according to the manufacturer's instructions.
  • Figure 2A shows an image of the SDS-PAGE analysis of expression at 20°C.
  • Lane 1 contains a size marker
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 2 (reference)
  • lane 3 contains the expression product of the plasmid with the inserted SEQ ID NO: 3
  • lane 4 contains the expression product of the plasmid with the inserted SEQ ID NO: 4.
  • the PETase was successfully expressed by all three plasmids as evidenced by the band at 30.4 kDa, which corresponds to the molecular weight of the protein including the double Strep tag.
  • the bar diagram shown in Fig. 2B shows the relative protein yield of soluble PETase depending on the nucleotide sequence used in each case, where the The quantitatively determined amount of protein was normalized to the amount of protein from the reference experiment with SEQ ID NO: 2.
  • the hatched columns show the result of the quantification using SDS-PAGE, the white columns show the result of the quantification using the Bradf ord assay.
  • Figure 3A shows an image of the SDS-PAGE analysis of expression at 30°C.
  • Lane 1 contains a size marker
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 2 (reference)
  • lane 3 contains the expression product of the plasmid with the inserted SEQ ID NO: 4.
  • the PETase was also identified here from both plasmids the band at 30.4 kDa was successfully expressed. Based on the band strength it can be seen that the plasmid with the nucleotide sequence SEQ ID NO: 4 optimized according to the invention led to a higher protein yield than the plasmid with the reference sequence SEQ ID NO: 2.
  • 3B again shows the relative protein yield of soluble PETase depending on the nucleotide sequence used in each case, the quantitatively determined amount of protein being normalized to the amount of protein from the reference experiment with SEQ ID NO: 2.
  • the hatched columns show the result of the quantification using SDS-PAGE, the white columns show the result of the quantification using the Bradf ord assay.
  • the quantitative analysis shows a more than doubled expression of PETase using the nucleotide sequence SEQ ID NO: 4 optimized according to the invention compared to the sequence optimized according to WO 2020/024917 Al.
  • the nucleotide sequence of the OTP86-DYW domain in amino acid positions 826-960 from A. thaliana (SEQ ID NO: 5) was used for heterologous expression in E. coli according to the method according to the invention and according to the method according to WO 2020/024917 Al optimized for reference.
  • the OTP86-DYW domain is a sensitive plant protein that is known to be difficult to express in heterologous systems.
  • OTP86-DYW domain For the expression of the OTP86-DYW domain in E. coli as a target organism, three pET41 expression plasmids were cloned, which contain the amino acid sequence 826-960 of the OTP86-DYW domain with a double Strep tag and a TEV protease cleavage site as an insert under an inducible T7- Promoter included. A Met (start codon) and a Gly were also added to the N-terminus of the amino acid sequence. The inserts were purchased from Genscript.
  • the coding part of the genomes of the following viruses or phages capable of infecting E. coli was taken as a basis:
  • the experiment for the sequence optimization according to the invention was carried out essentially as described in Comparative Example 1.
  • the relative codon 3 tuple frequencies P were used as the midpoints of the Clopper-Pearson confidence interval with a confidence level of 95 % calculated.
  • the number L of codons in the nucleotide sequence included in the optimization is 501 in this example, since the start codon and the subsequent glycine codon were not included in the optimization. Expression was carried out at 17°C with buffer A containing no DTT.
  • the sequence listing also makes it clear here that there are already significant differences at the nucleotide level between the wild-type nucleotide sequence and the nucleotide sequences that were optimized according to the method according to the invention.
  • nucleotide sequences optimized according to the method according to the invention differs from the sequence optimized according to the prior art.
  • the sequence according to the state of the Technology according to WO 2020/024917 Al was optimized as a reference (SEQ ID NO: 6), only has 85.2% identical nucleotides with the optimized sequence according to the method according to the invention using the E. coli genome (SEQ ID NO: 7) and only 74.6% identical nucleotides with the optimized sequence according to the method according to the invention based on the genomes of the viruses or phages capable of infecting E. coli (SEQ ID NO: 8).
  • FIG. 4 shows the relative frequency of the first codon 3 tuples in the wild-type sequence SEQ ID NO: 5 (A) and the relative frequency of the second codon 3 tuples in the nucleotide sequence SEQ ID NO: 7 (B) optimized according to the invention OTP86-DYW for the sequence section that corresponds to nucleotide positions 211-330 in the sequence listing.
  • the sequence section shown contains codons number 71 to number 110 inclusive of OTP86-DYW.
  • Three neighboring codons each form a change position with a codon 3 tuple, with the sequence section shown being continuously divided into 38 change positions or codon 3 tuples, which are referred to here as ni to n 38 . There is an offset of one codon between successive change positions.
  • each codon 3 tuple (x-axis) is assigned by a horizontal line the corresponding relative frequency in percent (y-axis) with which the respective codon 3 tuple contains the corresponding amino acid 3 tuple protein-coding genes of E. coli.
  • the vertical lines each show the range of the relative frequencies of all codon 3 tuples that are considered for a specific change position and which code for the corresponding amino acid n-tuple of the change position.
  • the method according to the invention results in a significant increase in the relative codon 3 tuple frequency took place in a majority of the change positions shown.
  • at least one of the base triplets was replaced by a synonymous base triplet;
  • two or three base triplets were replaced by a synonymous base triplet in order to optimally increase the relative frequency of the second codon 3 tuples.
  • the second codon 3 tuple correspond to the codon 3 tuple with the greatest relative frequency in E. coli.
  • a second codon 3 tuple is formed in the change position n 33 , which has a lower relative frequency than the original first codon 3 tuple, in order to be able to increase the relative frequencies of the more critical first codon 3 tuples in the other change positions . In this way, the largest possible weighted average of the relative codon 3 tuple frequencies could be achieved.
  • Fig. 5 shows an image of SDS-PAGE analysis from expression at 17 °C.
  • Lane 1 contains a size marker
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 6 (reference)
  • lane 3 contains the expression product of the plasmid with the inserted SEQ ID NO: 7
  • lane 4 contains the expression product of the plasmid with the inserted SEQ ID NO: 8.
  • the OTP86-DYW domain was successfully expressed by all three plasmids as evidenced by the band at 19.5 kDa.
  • Fig. 5B shows the relative protein yield of soluble OTP86-DYW domain depending on the nucleotide sequence used in each case, the quantitatively determined amount of protein being normalized to the amount of protein from the reference experiment with SEQ ID NO: 6.
  • the hatched columns show the result of the quantification using SDS-PAGE, the white columns show the result of the quantification using photometric UV absorption measurement at 260 and 280 nm (Nanodrop).
  • the nucleotide sequence of the fluorescent protein citrine (SEQ ID NO: 9) was used for heterologous expression in human HeLa cells as a target organism according to the method according to the invention and according to a conventional methods based on the codon adaptation index and local mRNA secondary structure optimization as a reference.
  • Citrine is a variant of the green fluorescent protein (GFP) from Aquaeoria vi ctoria and is commonly used for reporter assays and in fluorescence microscopy.
  • GFP green fluorescent protein
  • citrine in HeLa cells two pTwist CMV expression plasmids were purchased from Twist Bioscience (San Francisco, CA, USA), which contain the amino acid sequence of citrine with a FLAG tag followed by a double Strep tag at the N-terminus encode a constitutive cytomegalovirus promoter. The amino acid sequence was supplemented N-terminally with Met (start codon) and the amino acid Ala. A Kozak sequence was inserted before the start codon.
  • One of the plasmids contained the citrine-encoding nucleotide sequence with FLAG and double Strep tag after optimization by the manufacturer's method (SEQ ID NO: 10) as a reference.
  • nucleotide sequence optimized according to the invention differs significantly from the sequence optimized according to the prior art (SEQ ID NO: 10) at the nucleotide level.
  • HeLa cells were cultured 24 hours before transfection in 6-well plates with DMEM high glucose medium (Biowest SAS, Nuaille, France) with 10% FCS (Biochrom AG - Berlin, Germany) and 1% penicillin/ Streptomycin (Biowest). The transfections were carried out with 2 pg plasmid and Rotifect (Carl Roth GmbH, Düsseldorf, Germany) according to the manufacturer's instructions. 70 hours after transfection, the medium was removed and the cells were treated with 1 mL washed with ice-cold phosphate-buffered saline (PBS) and resuspended in RIPA lysis buffer.
  • PBS ice-cold phosphate-buffered saline
  • the lysates were mixed with 6x SDS loading buffer and separated by size on a 15% SDS polyacrylamide gel.
  • the protein samples on the gel were then transferred to a nitrocellulose membrane using Western blotting.
  • the nonspecific binding sites of the membrane were blocked with 2% BSA and the membrane was incubated overnight with the primary antibodies against the FLAG-tagged expressed target protein or the housekeeping gene GAPDH (loading control).
  • the membrane was washed with TBS Tween and incubated with horseradish peroxidase (HRP)-coupled secondary antibody against rabbit (FLAG) or mouse (GAPDH).
  • HRP horseradish peroxidase
  • the proteins were visualized using the ECL kit (Pierce, Waltham, MA, USA) and the bands were quantified using ImageQuantTL (Cytiva, Marlborough, MA, USA).
  • ImageQuantTL Cosmetic, Marlborough, MA, USA.
  • the band strength of citrine was set in the respective ratio to the band strength of the loading control GAPDH in order to normalize the amount of protein applied in relation to the amount of cells.
  • the cell lysates were centrifuged for two minutes at 13,000 g and the fluorescence of citrine in the supernatant was measured in triplicates in a Tecan Spark Plate Reader at an excitation wavelength of 516 nm and an emission wavelength of 529 nm.
  • the intensity of the fluorescence was in turn set in relation to the respective band intensity of the loading controls (GAPDH) in order to take into account the different cell densities of the cultures.
  • GPDH band intensity of the loading controls
  • Figure 6A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged citrine and stained with the HRP-coupled secondary antibody for the loading control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the inserted SEQ ID NO: 10 (reference)
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 11, which was optimized according to the invention.
  • Citrine was successfully expressed by both plasmids as evidenced by the bands stained by the specific HRP-coupled secondary antibody.
  • the relative protein yield of citrine is shown depending on the nucleotide sequence used, with the quantitatively determined amount of protein normalized with respect to the cell amount using the loading control GAPDH as an internal standard and based on the amount of protein from the reference experiment with SEQ ID NO: 10 was standardized.
  • Fig. 7A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged citrine and stained with the HRP-coupled secondary antibody for the loading control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the inserted SEQ ID NO: 10 (reference)
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 11, which was optimized according to the invention.
  • Citrine was also successfully expressed in HEK293 cells from both plasmids as evidenced by the bands stained by the specific HRP-coupled secondary antibody.
  • the bar diagram shown in Fig. 7B shows the relative protein yield of citrine depending on the nucleotide sequence used, with the quantitatively determined amount of protein normalized with respect to the cell amount using the loading control GAPDH as an internal standard and based on the amount of protein from the reference experiment with SEQ ID NO: 10 was standardized.
  • the nucleotide sequence of the H. sapi ens protein STEEP1 was optimized for expression in HeLa cells using the method according to the invention and in a conventional manner according to Comparative Example 3 as a reference.
  • STEEP1 is a human protein found in the endoplasmic reticulum membrane. Mutations in STEEP1 are responsible for several diseases.
  • Proteins from H. sapi ens are generally difficult to express in a host system.
  • One of the plasmids contained the STEEP1-encoding nucleotide sequence with FLAG and double Strep tag after conventional optimization by the manufacturer (SEQ ID NO: 13).
  • sequence listing shows significant differences between the wild-type nucleotide sequence (SEQ ID NO: 12) and the nucleotide sequence optimized according to the method according to the invention (SEQ ID NO: 14).
  • FIG. 8A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged STEEP1 and stained with the HRP-coupled secondary antibody for the loading control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the inserted SEQ ID NO: 13 (reference)
  • lane 2 contains the expression product of the plasmid with the SEQ ID NO: 14 optimized according to the invention.
  • STEEP1 was coupled to both plasmids as shown by the specific HRP Secondary antibody stained bands were successfully expressed.
  • Fig. 8B shows the relative protein yield of STEEP1 depending on the nucleotide sequence used in each case, the quantitatively determined protein amount being normalized to the cell amount using the loading control as described above and related to the protein amount from the reference experiment with SEQ ID NO: 13 .
  • the hatched columns show the result of the quantification based on the band intensity of the Western blot.
  • Comparative example 5 used optimized nucleotide sequences of STEEP1 expressed in HEK293 cells. Otherwise, the test was carried out essentially as described in Comparative Example 5.
  • Fig. 9A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged STEEP1 and stained with the HRP-coupled secondary antibody for the loading control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the inserted SEQ ID NO: 13 (reference)
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 14 optimized according to the invention.
  • STEEP1 was also successfully expressed in HEK293 cells from both plasmids, as evidenced by the bands stained by the specific HRP-coupled secondary antibody.
  • Fig. 9B shows the relative protein yield of STEEP1 depending on the nucleotide sequence used in each case, the quantitatively determined protein amount being normalized to the cell amount using the loading control as described above and related to the protein amount from the reference experiment with SEQ ID NO: 13 .
  • the hatched columns show the result of the quantification based on the band intensity of the Western blot.
  • Comparative Example 7 Expression of H. sapi ens Nitric oxide synthase-interacting protein (NOS IP) in Heia cell culture
  • nucleotide sequence of the H. sapi ens protein NOS IP was optimized for expression in HeLa using the method according to the invention and using the prior art as a reference.
  • the reference optimizations were carried out in a variant according to comparative example 3 and in a second variant according to WO 2020/024917 Al.
  • NOS IP modulates the activity and localization of nitrite oxide synthase, thereby regulating nitrite oxide production, which is crucial for the development of the human brain, eye and face.
  • NOS IP for the expression of NOS IP in HeLa cells as a target organism, three pTwist CMV expression plasmids were purchased from Twist Bioscience, which contain the amino acid sequence of NOS IP with a FLAG tag followed by a double Strep tag at the N-terminus under a constitutive cytomegalovirus Promoter encode. The amino acid sequence was supplemented N-terminally with Met (start codon) and the amino acid Ala. A Kozak sequence was inserted before the start codon.
  • One of the plasmids contained the NOS IP coding nucleotide sequence with FLAG and double Strep tag after optimization according to the state of the art by the manufacturer's optimization service as a reference (SEQ ID NO: 16).
  • the second plasmid contained the NOSIP-encoding nucleotide sequence with FLAG and double Strep tag after optimization according to WO 2020/024917 A1 as a further reference (SEQ ID NO: 17).
  • sequence listing also makes it clear here that there are already significant differences at the nucleotide level between the wild-type nucleotide sequence and the nucleotide sequence that was optimized according to the method according to the invention.
  • nucleotide sequence optimized according to the invention also clearly differs from the sequences optimized according to the prior art (SEQ ID NO: 16, SEQ ID NO: 17) at the nucleotide level.
  • Fig. 10 shows the comparison between SEQ ID NO: 16 and SEQ ID NO: 18.
  • Fig. 10A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged NOSIP and stained with the HRP-coupled secondary antibody for the charging control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the inserted SEQ ID NO: 16 (Reference)
  • lane 2 contains the expression product of the plasmid with the inserted SEQ ID NO: 18, which was optimized according to the invention.
  • nucleotide sequence SEQ ID NO: 18 optimized according to the invention compared to the plasmid with the conventionally optimized one Nucleotide sequence SEQ ID NO: 16.
  • Fig. 10B shows the relative protein yield of NOS IP depending on the nucleotide sequence used, whereby the quantitatively determined protein amount is first normalized to the cell amount using the loading control GAPDH as described above and then to the protein amount from the reference experiment with SEQ ID NO : 16 was obtained.
  • the hatched columns show the result of the quantification based on the band intensity of the Western blot.
  • Fig. 11 shows the comparison between SEQ ID NO: 17 and SEQ ID NO: 18.
  • Fig. 11A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged NOS IP and stained with the HRP-coupled secondary antibody for the loading control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the reference sequence SEQ ID NO: 17 optimized according to WO 2020/024917 A1
  • lane 2 contains the expression product of the plasmid with the sequence SEQ ID NO: 18 optimized according to the invention.
  • NOS IP was successfully expressed by both plasmids as evidenced by the bands stained by the specific HRP-coupled secondary antibody. It can already be seen from the band strength that the plasmid with the nucleotide sequence SEQ ID NO: 18 optimized according to the invention led to an increased protein yield compared to the plasmid with the conventionally optimized nucleotide sequence SEQ ID NO: 17.
  • Fig. 11B shows the relative protein yield of NOS IP depending on the respective nucleotide sequence used, whereby the quantitatively determined protein amount is first normalized to the cell amount using the loading control GAPDH as described above and then to the protein amount from the reference experiment with SEQ ID NO : 17 was obtained.
  • Fig. 12A shows an image of the Western blot stained with the HRP-coupled secondary antibody for the FLAG-tagged NOS IP and stained with the HRP-coupled secondary antibody for the loading control GAPDH.
  • Lane 1 contains the expression product of the plasmid with the conventionally optimized SEQ ID NO: 16 (reference)
  • lane 2 contains the expression product of the plasmid with the SEQ ID NO: 18 optimized according to the invention.
  • NOS IP could also be successfully expressed in HEK293 cells with both plasmids, as evidenced by the bands colored by the specific HRP-coupled secondary antibody, with the band strength showing a significantly better expression of the nucleotide sequence SEQ ID NO: 18 optimized according to the invention.
  • the relative protein yield of NOS IP is shown depending on the nucleotide sequence used in each case, with the quantitatively determined protein amount, as described above, first being normalized to the cell amount using the loading control GAPDH and then to the protein amount from the reference experiment with SEQ ID NO : 16 was obtained.
  • the hatched columns show the result of the quantification based on the band intensity of the Western blot.
  • eqFP611 is a red fluorescent protein (RFP) from Entacmaea quadricolor and is commonly used for reporter assays and in fluorescence microscopy.
  • RFP red fluorescent protein
  • eqFP611 in S . el ongatus As the target organism, two pSyn-6 expression plasmids (Thermo Fisher, Waltham, MA, USA) were purchased from Genscript, which encodes the amino acid sequence of eqFP611 with a double Strep tag at the N-terminus under a constitutive psbAl promoter.
  • Genscript Thermo Fisher, Waltham, MA, USA
  • One of the plasmids contained the eqFP611-encoding nucleotide sequence with a double Strep tag after optimization according to WO 2020/024917 A1 (SEQ ID NO: 20).
  • sequence listing shows that the nucleotide sequence optimized according to the invention for the heterologous expression of eqFP611 in S. elongatus (SEQ ID NO: 21) differs significantly from the sequence optimized according to the prior art (SEQ ID NO: 20) at the nucleotide level.
  • An analog comparison calculation resulted in a weighted average of the relative codon 3 tuple frequencies for the reference sequence according to WO 2020/024917 Al (SEQ ID NO:20) of F w -496.2.
  • eqFP611 For the expression of eqFP611 in S. elongatus, the manufacturer's protocol of the "GeneArt algal protein expression system" (Thermo Fisher) was followed. Further treatment of the cyanobacterial biomass is carried out as described in Comparative Example 1 for E. coli. The expressed eqFP611 protein is purified via streptactin and quantified by SDS-PAGE. Additionally, fractions of the eqFP611 cell lysates are centrifuged for two minutes at 13,000 g and the eqFP611 fluorescence in the supernatant is measured in a Tecan Spark Plate Reader at an excitation wavelength of 559 nm and an emission wavelength of 611 nm in triplicates.
  • the invention is not limited to these by the description based on the exemplary embodiments. Rather, the invention includes every new feature and every combination of features, which in particular includes every combination of features in the patent claims and the description, even if this feature or this combination of features itself is not explicitly stated in the patent claims, the description or the exemplary embodiments.

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

Es wird ein Verfahren zur Optimierung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in mindestens einem Zielorganismus angegeben. Die Nukleotidsequenz umfasst eine Vielzahl von Basentripletts, wobei an mindestens einer Änderungsposition der Nukleotidsequenz ein Basentriplett, das eine Aminosäure der vorgegebenen Aminosäuresequenz codiert, durch ein synonymes Basentriplett, das dieselbe Aminosäure der vorgegebenen Aminosäuresequenz codiert, ersetzt wird, um die Nukleotidsequenz für die Expression in dem mindestens einen Zielorganismus zu optimieren. Die Änderungsposition umfasst eine direkte Aufeinanderfolge von n Basentripletts, die ein erstes Codon-n-Tupel bildet und einen Sequenzabschnitt von n Aminosäuren der vorgegebenen Aminosäuresequenz codiert, der ein Aminosäure-n-Tupel bildet, das mit einer vorbestimmten Menge von Aminosäure-n-Tupel-Ereignissen im Genom oder eines Teils davon des mindestens einen Zielorganismus und/oder in Genomen oder Teilen davon von zur Infektion des mindestens einen Zielorganismus befähigten Viren codiert wird. Mindestens eines der n Basentripletts der direkten Aufeinanderfolge wird durch ein synonymes Basentriplett ersetzt, das so gewählt ist, dass ein zweites Codon-n-Tupel resultiert, das bezogen auf die Menge von Aminosäure-n-Tupel-Ereignissen eine höhere relative Codon-n-Tupel-Häufigkeit in dem Genom oder des Teils davon des mindestens einen Zielorganismus und/oder in den Genomen oder der Teile davon der zur Infektion des mindestens einen Zielorganismus befähigten Viren aufweist als das erste Codon-n-Tupel.

Description

Titel
VERFAHREN ZUR OPTIMIERUNG EINER NUKLEOTIDSEQUENZ DURCH AUSTAUSCH SYNONYMER CODONS FÜR DIE EXPRESSION EINER AMINOSÄURESEQUENZ IN EINEM ZIELORGANISMUS
Verweis auf frühere Anmeldung
Diese Anmeldung beansprucht die Priorität der deutschen Patentanmeldung Nr . 10 2022 118 459 . 5 , eingereicht am 22 . Juli 2022 , deren Of fenbarungsgehalt hiermit durch Verweis vollumfänglich einbezogen wird .
Sequenzprotokoll
Diese Anmeldung beinhaltet ein elektronisches Sequenzprotokoll im xml-Format nach WIPO ST . 26 Standard mit 21 Sequenzen als Teil der Beschreibung, auf dessen Inhalte hiermit vollumfänglich Bezug genommen wird .
Gebiet der Erfindung
Die vorliegende Erfindung liegt auf dem Gebiet der Erzeugung synthetischer Nukleotidsequenzen und deren Verwendung zur Erzeugung von Proteinen, indem diese Nukleotidsequenzen in ein Expressionssystem mit einem geeigneten Wirtsorganismus eingebracht werden, der das durch die Nukleotidsequenz codierte Protein exprimiert . Die vorliegende Erfindung betri f ft insbesondere Verfahren, bei denen eine Nukleotidsequenz für die Expression in einem vorbestimmten Wirtsorganismus optimiert wird .
Hintergrund der Erfindung Heterologe Expressionssysteme besitzen eine große Bedeutung in der Biotechnologie , um rekombinante Proteine herzustellen . Als „Expressionssystem" wird ein biologisches System bezeichnet , das in der Lage ist , gezielt und kontrolliert Proteinbiosynthese zu betreiben, d . h . bestimmte Proteine nach der Vorlage einer Nukleotidsequenz herzustellen, also zu „exprimieren" .
Unter „heterologer Expression" wird hierbei die Expression eines Gens oder eines Teils davon in einem Wirtsorganismus verstanden, der dieses Gen oder Genfragment von Natur aus nicht besitzt . Die entsprechenden Nukleotidsequenzen werden durch Gentechnologie bzw . rekombinante DNA-Technologie , z . B . mithil fe von Vektoren oder Genom-Editierung, in den Wirtsorganismus eingebracht , woraufhin dieser vermehrt und zur Überproduktion des Proteins angeregt wird . Eine „homologe Expression" bezieht sich demzufolge auf die Expression eines Gens oder eines Teils davon in einem Wirtsorganismus bzw . einem System, aus dem es ursprünglich stammt .
Eine heterologe Proteinexpression kann in vielen Arten von Wirtsorganismen durchgeführt werden . Der Wirtsorganismus kann z . B . ein Bakterium, ein Pil z , eine Hefe , eine Insektenzelle , eine Säugetierzelle oder eine Pflanzenzelle sein . Ein häufig auftretendes Problem bei der heterologen Proteinexpression ist eine geringe Transkriptions- und Translationsrate einer artfremden Nukleotidsequenz in einem bestimmten Wirtsorganismus , hier auch als Zielorganismus bezeichnet . Ursächlich ist u . a . die Degeneration des genetischen Codes , die dazu führt , dass für die meisten der translational einzubauenden Aminosäuren j eweils mehrere Codons mit gleicher Bedeutung, hier auch als „synonyme Codons" bezeichnet , verfügbar sind . Ein Codon ist eine Abfolge von drei aufeinanderfolgenden Nukleobasen einer Nukleinsäuresequenz , d . h . ein „Basentriplett" , das für eine Aminosäure codieren kann . Insgesamt existieren 64 mögliche Codons , davon codieren 61 für die insgesamt 20 kanonischen der proteinogenen Aminosäuren, drei weitere codieren für Stop- Codons .
Unterschiedliche Organismen können Codons für die Expression einer Aminosäure mit unterschiedlicher Häufigkeit verwenden, auch als „Codon Usage" oder „Codon Bias" bezeichnet . Darüber hinaus hat sich gezeigt , dass Codons in den Genen eines Organismus nicht zufällig angeordnet sind, sondern vielmehr die beobachteten Frequenzen von Codonpaaren widererwarten vom Produkt der j eweiligen Einzel frequenzen abweichen können und dadurch statistisch „unterrepräsentiert" oder „überrepräsentiert" sind . Dieser Zusammenhang wird auch als „Codonkontext" bezeichnet , welcher einen zusätzlichen Einfluss auf die Translationsef fi zienz ausüben kann .
Bekannte Möglichkeiten zur Steigerung der Expressionsrate sind daher die Codonoptimierung durch Austausch einzelner Codons der zu exprimierenden Nukleotidsequenz gegen synonyme Codons mit höheren Frequenzen im Zielorganismus ( auch als „Codon- Optimi zation" oder „Codon-Usage-Optimi zation" bezeichnet ) , sowie durch Übertragung der Frequenzen von Codons stark exprimierter Gene im Zielorganismus auf das Zielprotein ( auch als „Codon Adaptation Index" bezeichnet ) . Hinzu kommt die Möglichkeit der Codonkontext-Optimierung, wobei die Codons der zu exprimierenden Nukleinsäuresequenz durch Austausch mit überrepräsentierten oder unterrepräsentierten synonymen Codons an den Codonkontext des Zielorganismus angepasst werden, ohne die codierte Aminosäuresequenz zu verändern .
WO 2020/ 024917 Al of fenbart ein computerimplementiertes
Verfahren, bei dem Nukleinsäuresequenzen u . a . auf der Basis des Codon Adaptation Index und des Codonkontextes unter Verwendung eines computergestützten NSGA- I I I-Algorithmus für die Expression eines Proteins in einem Wirt optimiert werden .
Aus WO 2004 / 059556 A2 ist ein computergestütztes Verfahren bekannt , bei dem eine vorgegebene Nukleinsäuresequenz mithil fe einer Gütefunktion für die Expression in einem vorgegebenen Zielorganismus optimiert wird . Die Gütefunktion kann als Gütekriterium unter anderem die Codonverwendung und den Codonkontext berücksichtigen .
In der WO 2008 / 000632 Al wird ein weiteres Verfahren vorgeschlagen, bei dem aus einer vorgegebenen Nukleotidsequenz , die eine vorbestimmte Aminosäuresequenz codiert , durch Austauschen von einem oder mehreren synonymen Codons in mehreren Wiederholungsschritten neue codierende Sequenzen erzeugt und anhand eines Fitnesswertes , der u . a . den Codonkontext des Wirtsorganismus berücksichtigt , weiterentwickelt werden .
Aus der WO 2018 / 104385 Al ist ein Verfahren zur Ermittlung einer optimierten Nukleotidsequenz , die eine vorbestimmte Aminosäuresequenz codiert und für die Expression in einem bestimmten Zielorganismus optimiert ist , bekannt , wobei eine Viel zahl von Kandidaten-Nukleotidsequenzen erzeugt und unter Verwendung eines statistischen maschinellen Lernalgorithmus bewertet werden .
Ein weiteres auf dem Codonkontext des Zielorganismus basierendes Verfahren zur Optimierung von Nukleotidsequenzen für die heterologe Proteinexpression ist aus WO 2007 / 130650 A2 bekannt .
Es hat sich gezeigt , dass diese konventionellen Optimierungen oft nicht ausreichen, um eine wesentliche Verbesserung der Proteinausbeute im heterologen System zu erreichen . Darüber hinaus sind die bekannten Verfahren in der Regel auf eine mengenmäßige Optimierung der transkribierten mRNA oder der Proteinausbeute abgestimmt und lassen dabei die Löslichkeit des exprimierten Proteins unberücksichtigt , die j edoch für dessen Verwertbarkeit für wissenschaftliche , medi zinischpharmazeutische und industrielle Zwecke wesentlich ist .
Es ist daher eine Aufgabe der vorliegenden Erfindung, verbesserte Verfahren und Vorrichtungen zur Optimierung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in einem Zielorganismus bereitzustellen, welche die oben genannten Probleme zumindest teilweise lösen und dabei insbesondere den Anteil an löslichem Protein in der heterologen Proteinexpression steigern können .
Diese Aufgabe wird durch die Gegenstände der unabhängigen Ansprüche gelöst . Bevorzugte Aus führungs formen der Erfindung sind Gegenstände der abhängigen Ansprüche und der nachfolgenden Beschreibung .
Beschreibung der Erfindung
Gegenstand der vorliegenden Erfindung ist ein Verfahren zur Optimierung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in mindestens einem Zielorganismus . Die Expression kann prinzipiell heterolog oder homolog sein . Vorzugsweise handelt es sich um eine heterologe Expression .
Die Nukleotidsequenz umfasst eine Viel zahl von Basentripletts , wobei an mindestens einer Änderungsposition der Nukleotidsequenz ein Basentriplett , das eine Aminosäure der vorgegebenen Aminosäuresequenz codiert , durch ein synonymes Basentriplett , das dieselbe Aminosäure der vorgegebenen Aminosäuresequenz codiert , ersetzt wird, um die Nukleotidsequenz für die Expression in dem mindestens einen Zielorganismus zu optimieren .
Eine erfindungsgemäße Änderungsposition umfasst hierbei eine direkte Aufeinanderfolge von n Basentripletts , die ein erstes Codon-n-Tupel bildet und einen Sequenzabschnitt von n Aminosäuren der vorgegebenen Aminosäuresequenz codiert , der ein Aminosäure-n-Tupel bildet , wobei das Aminosäure-n-Tupel mit einer vorbestimmten Menge von Aminosäure-n-Tupel-Ereignissen im Genom des mindestens einen Zielorganismus oder eines Teils davon und/oder in Genomen von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon codiert wird .
Das erfindungsgemäße Verfahren beinhaltet , dass mindestens eines der n Basentripletts aus der direkten Aufeinanderfolge der mindestens einen Änderungsposition durch ein synonymes Basentriplett ersetzt wird, wobei das synonyme Basentriplett so gewählt wird, dass ein zweites Codon-n-Tupel resultiert , welches in Bezug auf die Menge der Aminosäure-n-Tupel-Ereignisse eine höhere relative Codon-n-Tupel-Häuf igkeit in dem Genom oder des Teils davon des mindestens einen Zielorganismus und/oder in den Genomen oder den Teilen davon der zur Infektion des mindestens einen Zielorganismus befähigten Viren aufweist als das erste Codon-n-Tupel .
Hierbei ist n eine natürliche Zahl größer gleich zwei und insbesondere kleiner gleich einer Gesamtzahl N der Aminosäuren der vorgegebenen Aminosäuresequenz .
Der Erfindung liegt die Erkenntnis zugrunde , dass sich der Einfluss einer direkten Aufeinanderfolge von n Basentripletts , hier als Codon-n-Tupel bezeichnet , auf die Translationsef fi zienz einer durch die n Basentripletts codierten Aufeinanderfolge von n Aminosäuren, hier als Aminosäure-n-Tupel bezeichnet , in einem bestimmten Zielorganismus durch die relative Häufigkeit ausdrücken lässt , mit der die direkte Aufeinanderfolge von n Basentripletts die direkte Aufeinanderfolge von n Aminosäuren innerhalb des Genoms eines Wirtsorganismus codiert , hier als relative Codon-n-Tupel Häufigkeit bezeichnet .
Ohne Beschränkung auf theoretische Überlegungen wird hierbei angenommen, dass der Translationsprozess zumindest zeitweise von zwei oder mehr aufeinanderfolgenden Basentripletts beeinflusst wird, die während der Translation gleichzeitig am Ribosom gebunden sind . Dabei haben die Erfinder Anhaltspunkte dafür gefunden, dass sich in Genomen häufiger Codon-n-Tupel mit vorteilhaftem Einfluss als synonyme Codon-n-Tupel mit weniger vorteilhaftem oder ungünstigem Einfluss finden lassen .
Mit anderen Worten haben die Erfinder erkannt , dass das Verhältnis aus der absoluten Häufigkeit eines Codon-n-Tupels und der absoluten Häufigkeit des entsprechenden Aminosäure-n-Tupels , welches durch das Codon-n-Tupel codiert wird, ein vorteilhaftes Maß ist , um die Eignung einer vorgegebenen Nukleinsäuresequenz für die Expression in einem bestimmten Zielorganismus zu quanti fi zieren . Die relative Häufigkeit kann Werte zwischen 0 und 1 bzw . 0% und 100% annehmen, wobei die relative Häufigkeit gleich 0 ist , wenn ein bestimmtes Codon-n-Tupel im Genom oder des Teils davon des Zielorganismus überhaupt nicht zur Codierung des entsprechenden Aminosäure-n-Tupels verwendet wird . Die relative Häufigkeit ist gleich 1 bzw . 100% , wenn ein bestimmtes Aminosäure-n-Tupel im Genom oder des Teils davon des Zielorganismus ausschließlich durch ein bestimmtes Codon-n-Tupel codiert wird . Auf diese Weise ist es möglich, eine Nukleinsäure durch gezieltes Ersetzen von Codon-n-Tupeln mit geringer relativer Häufigkeit durch Codon-n-Tupel mit höherer relativer Häufigkeit im Genom eines vorbestimmten Zielorganismus zu optimieren, sodass diese dem Zielorganismus für die Expression einer vorgegebenen Aminosäuresequenz besser angepasst ist .
Wenn ein bestimmtes Aminosäure-n-Tupel der Aminosäuresequenz im Genom des Zielorganismus oder des Teils davon bzw . in den Genomen der Viren oder der Teile davon überhaupt nicht vorkommt , kann im Prinzip ein beliebiges Codon-n-Tupel ausgewählt werden, welches dieses Aminosäure-n-Tupel codiert . Beispielsweise kann den zugehörigen synonymen Codon-n-Tupeln j eweils eine einheitliche relative Häufigkeit von 1 / i zugewiesen werden, wobei i die Anzahl der synonymen Codon-n-Tupel ist , die das Aminosäure-n-Tupel codieren . Alternativ kann Codon-n-Tupeln, welche dieses Aminosäure-n-Tupel codieren, eine relative Häufigkeit von 0 zugewiesen werden . Eine weitere Möglichkeit besteht darin, diese Änderungsposition bzw . dieses Aminosäure-n- Tupel von der Optimierung aus zuschließen .
Es hat sich gezeigt , dass sich bei einem gegebenen Zielorganismus mithil fe des erfindungsgemäßen Verfahrens die heterologe Proteinexpression und insbesondere die Ausbeute an löslichem Protein um ein Viel faches gegenüber den bisher bekannten Verfahren steigern lässt . In diesem Zusammenhang wird auch auf die Ergebnisse der Vergleichsversuche in den nachfolgenden Aus führungsbeispielen verwiesen .
Darüber hinaus kann das erfindungsgemäße Verfahren auch die Biosynthese von Proteinen ermöglichen, die sich bisher nicht oder kaum heterolog exprimieren ließen . Auf diese Weise führt das erfindungsgemäße Verfahren zu einer Verbesserung der Ef fi zienz und Nachhaltigkeit in der biotechnologischen Proteinherstellung für wissenschaftliche, medizinische und technische bzw. industrielle Zwecke.
In bevorzugten Aus führungs formen des Verfahrens ist n kleiner gleich 50, kleiner gleich 40, kleiner gleich 30, kleiner gleich 20 oder kleiner gleich 10. Besonders bevorzugt ist n ausgewählt aus der Gruppe bestehend aus n = 2, n = 3, n = 4, n = 5, n = 6 und beliebigen Kombinationen davon. In einer Aus führungs form ist n = 2. In einer Aus führungs form ist n = 3. In einer
Aus führungs form ist n = 4. in einer Aus führungs form ist n = 5.
In einer Aus führungs form ist n = 6. Besonders bevorzugt ist n größer gleich drei. Mit diesen n wird vorteilhafte Anpassung der Nukleotidsequenz für die Expression in dem Zielorganismus erreicht .
So, wie der Begriff hier verwendet wird, bedeutet „vorbestimmt", dass die Menge von Aminosäure-n-Tupel-Ereignissen durch das Genom bzw. das Proteom des mindestens einen Zielorganismus oder eines Teils davon bzw. die Genome von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon vorgegeben ist. Es versteht sich daher, dass die Bestimmung der Anzahl von Ereignissen, nachfolgend auch als absolute Häufigkeit bezeichnet, mit der ein bestimmtes Aminosäure-n-Tupel im Genom des mindestens einen Zielorganismus oder eines Teils bzw. in den Genomen von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon codiert wird, einen Schritt darstellt, der während des Verfahrens durchgeführt werden kann, aber nicht durchgeführt werden muss. Vielmehr kann die Information über die absolute Häufigkeit, mit der ein Aminosäure-n-Tupel im Genom des mindestens einen Zielorganismus oder eines Teils davon und/oder in Genomen von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon codiert wird, auch auf anderem Wege , z . B . aus Datenbanken oder dergleichen, in das erfindungsgemäße Verfahren einbezogen werden . Selbstverständlich ist es aber auch möglich, dass die Bestimmung der Menge von Ereignissen, mit denen das Aminosäure-n-Tupel im Genom des mindestens einen Zielorganismus oder eines Teils davon bzw . in Genomen von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon codiert wird, als Verfahrensschritt durchgeführt wird .
Gleiches gilt im Grunde genommen auch für die Bestimmung der Anzahl von Ereignissen, d . h . der absoluten Häufigkeit , mit denen ein bestimmtes Codon-n-Tupel im Genom des mindestens einen Zielorganismus oder eines Teils davon bzw . in Genomen von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon vorkommt , und/oder für die sich daraus ergebende erfindungsgemäße relative Häufigkeit des Codon-n- Tupels . Beispielsweise ist es möglich, dass die absolute Häufigkeit und/oder die relative Häufigkeit im Wesentlichen j edes kombinatorisch möglichen Codon-n-Tupels im Genom des mindestens einen Zielorganismus oder eines Teils davon bzw . in Genomen von zur Infektion des mindestens einen Zielorganismus befähigten Viren oder Teilen davon in einer Datenbank hinterlegt sind und in Form einer Datenbankinformation in das erfindungsgemäße Verfahren einbezogen werden .
Die Wahl des synonymen Basentripletts erfolgt in dem erfindungsgemäßen Verfahren gezielt unter dem Gesichtspunkt , dass das zweite Codon-n-Tupel die erfindungsgemäß erforderliche Bedingung der höheren relativen Codon-n-Tupel-Häuf igkeit gegenüber dem ersten Codon-n-Tupel erfüllt . Das Auswählen des synonymen Basentripletts kann daher insbesondere ein Ermitteln und/oder Bewerten der relativen Codon-n-Tupel-Häuf igkeit des zweiten Codon-n-Tupels umfassen . Der Begri f f „Ermitteln" kann, wie oben ausgeführt , z . B . in Form einer Berechnung der relativen Codon-n-Tupel-Häuf igkeit des zweiten Codon-n-Tupels oder auch in Form eines Datenabgleichs , der Einbeziehung einer Datenbankinformation oder dergleichen durchgeführt werden . Eine bevorzugte Verfahrensdurchführung umfasst daher zumindest die folgenden Schritte : a ) Bestimmen der mindestens einen Änderungsposition; b ) Ersetzen des mindestens einen Basentripletts der mindestens einen Änderungsposition durch das synonyme Basentriplett ; c ) Ermitteln der relativen Codon-n- Tupel-Häuf igkeit des resultierenden zweiten Codon-n-Tupels . Vorzugsweise umfasst das Verfahren weiterhin einen Schritt d) Bewerten der in Schritt c ) ermittelten relativen Codon-n-Tupel- Häuf igkeit des zweiten Codon-n-Tupels , wobei die Bewertung z . B . ein Vergleichen mit der relativen Codon-n-Tupel-Häuf igkeit des ersten Codon-n-Tupels beinhalten und/oder anhand eines Zielkriteriums wie beispielsweise einem Mindestwert oder dergleichen durchgeführt werden kann . Diesbezüglich wird auch auf die nachfolgende Beschreibung und die Aus führungsbeispiele verwiesen . Die Schritte b ) und c ) sowie ggf . d) können auch wiederholt werden, bis ein zweites Codon-n-Tupel resultiert , das die erfindungsgemäß erforderliche höhere relative Codon-n-Tupel- Häuf igkeit aufweist als das erste Codon-n-Tupel .
Wie bereits oben dargestellt wurde , sind der ermittelten Menge der Aminosäure-n-Tupel-Ereignisse bzw . der ermittelten relativen Häufigkeit des Codon-n-Tupels nicht notwendigerweise das vollständige Genom des mindestens einen Zielorganismus oder die vollständigen Genome der zur Infektion des mindestens einen Zielorganismus befähigten Viren zugrunde zu legen . Vielmehr kann es in bestimmten Verfahrensvarianten ausreichend und vorteilhaft sein, wenn lediglich Teile des Genoms bzw . der Genome von der ermittelten absoluten Aminosäure-n-Tupel-Häuf igkeit bzw . der relativen Codon-n-Tupel-Häuf igkeit umfasst sind, zumal die meisten Genome j eweils zu einem Großteil nichtcodierende Bereiche enthalten, die für die erfindungsgemäße Bemessung der Eignung einer vorgegebenen Nukleinsäuresequenz für die Expression in dem Zielorganismus weniger relevant sind .
In bevorzugten Aus führungs formen ergibt sich die Menge von Aminosäure-n-Tupel-Ereignissen aus mehreren, vorzugsweise sämtlichen, proteincodierenden Genen und/oder Proteinen des mindestens einen Zielorganismus bzw . der zur Infektion des mindestens einen Zielorganismus befähigten Viren bzw . wird anhand von mehreren proteincodierenden Genen und/oder Proteinen des mindestens einen Zielorganismus bzw . der zur Infektion des mindestens einen Zielorganismus befähigten Viren bestimmt . Konstitutiv vom Zielorganismus exprimierte Proteine oder Proteine mit hoher transienter Expression bzw . hoher Abundanz sind hierfür besonders geeignet . Besonders bevorzugt sind mindestens 25% , mindestens 50% , mindestens 75% , mindestens 80% , mindestens 90% oder mindestens 95% vom codierenden Teil des Genoms des Zielorganismus von der Ermittlung der Menge von Aminosäure-n-Tupel-Ereignissen umfasst .
Entsprechend ergibt sich auch die relative Codon-n-Tupel- Häufigkeit aus einer Menge von Ereignissen des j eweils ersten bzw . zweiten Codon-n-Tupels in mehreren, vorzugsweise sämtlichen, proteincodierenden Genen und/oder Proteinen des mindestens einen Zielorganismus bzw . der zur Infektion des mindestens einen Zielorganismus befähigten Viren bzw . wird anhand von mehreren proteincodierenden Genen und/oder Proteinen des mindestens einen Zielorganismus bzw . der zur Infektion des mindestens einen Zielorganismus befähigten Viren bestimmt , der die Menge von Aminosäure-n-Tupel Ereignissen zugrunde gelegt wird . Besonders bevorzugt sind mindestens 25% , mindestens 50% , mindestens 75% , mindestens 80% , mindestens 90% oder mindestens 95% vom codierenden Teil des Genoms des Zielorganismus von der Ermittlung der relativen Codon-n-Tupel-Häuf igkeit umfasst .
Es ist für das erfindungsgemäße Verfahren grundsätzlich nicht erforderlich, dass die relative Häufigkeit des ersten bzw . zweiten Codon-n-Tupels ein aus absoluten Häufigkeiten arithmetisch errechneter Wert ist . Beispielsweise kann die relative Häufigkeit des ersten und/oder zweiten Codon-n-Tupels auch durch eine andere Wahrscheinlichkeitsverteilung bzw . ein anderes Wahrscheinlichkeitsmaß ausgedrückt oder ersetzt werden, z . B . als Intervallschätzung . So ist es z . B . möglich, aus zufälligen Beobachtungen, z . B . in Form von Stichproben im Genom des mindestens einen Zielorganismus oder eines Teils davon bzw . in den Genomen der zur Infektion des mindestens einen Zielorganismus befähigten Viren oder der Teile davon, mit der beobachteten ersten bzw . zweiten Codon-n-Tupel-Häuf igkeit und/oder der beobachteten Häufigkeit sämtlicher synonymer Codon- n-Tupel , die für das gleiche Aminosäure-n-Tupel codieren, als Anzahl von Erfolgen und der Aminosäure-n-Tupel-Häuf igkeit als Anzahl von Versuchen ein Konfidenzintervall für die Erfolgswahrscheinlichkeit einer Binomial- oder auch Multinomialverteilung zu bestimmen, beispielsweise das Clopper- Pearson-Vertrauensintervall mit einem Konfidenzniveau von 95% oder simultane Konfidenzintervalle für multinomiale Anteile . Die relative Codon-n-Tupel-Häuf igkeit wird dann z . B . durch den Intervallmittelpunkt repräsentiert bzw . ersetzt , welcher eine genauere Schätzung darstellt . Dies kann insbesondere bei geringer Aminosäure-n-Tupel-Häuf igkeit und bei sehr hoher oder sehr niedriger relativer Codon-n-Tupel-Häuf igkeit vorteilhaft sein . Selbstverständlich kann die relative Codon-n-Tupel- Häufigkeit aber auch mithil fe anderer Werte aus dem Intervall berechnet bzw . repräsentiert werden . Außer dem Intervallmittelpunkt kann z . B . der kleinste Wert des Intervalls , insbesondere für sehr konservative Schätzungen, oder der Durchschnittswert einer Gewichts funktion ( z . B . - 1 /x ) auf dem Intervall die relative Codon-n-Tupel-Häuf igkeit repräsentieren .
Eine Variante des erfindungsgemäßen Verfahrens sieht daher vor, dass die mindestens eine Änderungsposition eine direkte Aufeinanderfolge von n Basentripletts umfasst , die ein erstes Codon-n-Tupel bildet und einen Sequenzabschnitt von n Aminosäuren der vorgegebenen Aminosäuresequenz codiert , der ein Aminosäure-n-Tupel bildet , wobei mindestens eines der n Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt wird, welches anhand einer Schätz funktion so ausgewählt wird, dass ein zweites Codon-n-Tupel resultiert , welches das Aminosäure-n-Tupel mit einer größeren Wahrscheinlichkeit im Genom oder eines Teils davon des mindestens einen Zielorganismus und/oder in Genomen oder Teilen davon von zur Infektion des mindestens einen Zielorganismus befähigten Viren codiert als das erste Codon-n-Tupel . Geeignete Schätz funktionen, welche für das erfindungsgemäße Verfahren implementiert werden können, sind dem Fachmann bekannt .
So , wie der Begri f f hier verwendet wird, schließt „mindestens eine Änderungsposition" die Möglichkeit mit ein, dass das Verfahren mehrere bzw . eine Viel zahl von Änderungspositionen umfasst , wobei in j eder der Änderungspositionen mindestens eines der n Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt wird und die synonymen Basentripletts hierbei so gewählt werden, dass zumindest ein Teil der resultierenden zweiten Codon-n-Tupel eine höhere relative Codon-n-Tupel-Häuf igkeit aufweist als die j eweiligen ersten Codon-n-Tupel . Selbstverständlich können zu diesem Zweck in einer oder mehrerer der Änderungspositionen auch mehrere oder sämtliche der n Basentripletts j eweils durch ein synonymes Basentriplett ersetzt werden .
In bevorzugten Aus führungs formen wird hierbei zumindest in der Änderungsposition mit dem ersten Codon-n-Tupel , das von allen Änderungspositionen die geringste relative Codon-n-Tupel- Häufigkeit aufweist , mindestens eines der Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt , welches so gewählt ist , dass das resultierende zweite Codon-n-Tupel eine höhere relative Codon-n-Tupel Häufigkeit als das erste Codon-n-Tupel aufweist . Die Erfinder haben erkannt , dass sich das Codon-n-Tupel mit der geringsten relativen Häufigkeit in der Nukleotidsequenz regelmäßig limitierend auf den gesamten Translationsprozess auswirkt , sodass der Austausch dieses ersten Codon-n-Tupels durch ein zweites Codon-n-Tupel mit höherer relativer Häufigkeit sich besonders vorteilhaft auf die Translation und Faltung auswirken und dadurch zu einer besonders starken Verbesserung der Expression löslichen Proteins im Zielorganismus führen kann .
Bei mehreren oder einer Viel zahl von Änderungspositionen in der Nukleotidsequenz sieht das erfindungsgemäße Verfahren die Möglichkeit vor, dass sich die direkten Aufeinanderfolgen der n Basentripletts von mindestens zwei Änderungspositionen überschneiden, wobei das Basentriplett , welches durch das synonyme Basentriplett ersetzt wird, von mindestens diesen zwei Änderungspositionen gleichzeitig umfasst ist .
Für solche Aus führungs formen kann das erfindungsgemäße Verfahren weiterhin vorsehen, dass das synonyme Basentriplett so gewählt wird, dass in einer der beiden Änderungspositionen das resultierende zweite Codon-n-Tupel eine geringere relative Codon-n-Tupel Häufigkeit und in der anderen der beiden Änderungspositionen das resultierende zweite Codon-n-Tupel eine höhere relative Codon-n-Tupel-Häuf igkeit als das j eweilige erste Codon-n-Tupel aufweist . Alternativ oder zusätzlich kann das erfindungsgemäße Verfahren aber für solche sich überschneidenden Änderungspositionen auch vorsehen, dass das resultierende zweite Codon-n-Tupel in beiden Änderungspositionen eine höhere relative Codon-n-Tupel-Häuf igkeit als das j eweilige erste Codon-n-Tupel aufweist . Es ist weiterhin möglich, dass sich die relative Codon-n-Tupel-Häuf igkeit in beiden Änderungspositionen verringert .
Wenn für n ein Wert größer gleich zwei gewählt wird, ist es selbstverständlich auch möglich, dass sich die direkten Aufeinanderfolgen der n Basentripletts von mehr als zwei Änderungspositionen überschneiden und das Basentriplett , welches durch das synonyme Basentriplett ersetzt wird, von mehr als zwei Änderungspositionen gleichzeitig umfasst ist . Es ist dann möglich, dass das synonyme Basentriplett so gewählt wird, dass in mindestens einer der Änderungspositionen das resultierende zweite Codon-n-Tupel eine geringere relative Codon-n-Tupel Häufigkeit und in den anderen der Änderungspositionen das resultierende zweite Codon-n-Tupel eine höhere relative Codon-n- Tupel-Häuf igkeit als das j eweilige erste Codon-n-Tupel aufweist .
Es hat sich bei dem erfindungsgemäßen Verfahren überraschenderweise gezeigt , dass bei einer Viel zahl von Änderungspositionen in der Nukleotidsequenz , die sich zumindest teilweise überschneiden, die Inkaufnahme einer Verschlechterung, d . h . eine Verringerung der relativen Codon-n-Tupel-Häuf igkeit eines zweiten Codon-n-Tupels gegenüber dem erste Codon-n-Tupel , von einzelnen Codon-n-Tupeln erforderlich und sogar wesentlich sein kann, um insgesamt eine Verbesserung der Translationsef fi zienz der gesamten Nukleotidsequenz zu erreichen . Das kann insbesondere der Fall sein, wenn sich eine Änderungsposition mit einem für die Expression in dem Zielorganismus besonders ungünstigen ersten Codon-n-Tupel mit einer Änderungsposition mit einem für die Expression in den Zielorganismus günstigen ersten Codon-n-Tupel überschneidet und kein synonymes Basentriplett gewählt werden kann, dass die relative Häufigkeit für beide zweite Codon-n-Tupel steigert .
Es ist z . B . möglich, dass die relative Codon-n-Tupel-Häuf igkeit der zweiten Codon-n-Tupel gegenüber den j eweiligen ersten Codon- n-Tupeln in mindestens etwa 1 % , 5% oder 10% und/oder höchstens etwa 40% , 30% oder 20% der Änderungspositionen verringert wird .
In diesem Zusammenhang haben die Erfinder weiterhin erkannt , dass es für die Verbesserung der Expressionsrate löslichen Proteins aus der Nukleotidsequenz in dem Zielorganismus wesentlich wichtiger sein kann, mithil fe des erfindungsgemäßen Verfahrens besonders niedrige relative Codon-n-Tupel- Häufigkeiten zu erhöhen als vereinzelt oder auch mehrheitlich besonders hohe relative Codon-n-Tupel Häufigkeiten zu erreichen . Das erfindungsgemäße Verfahren sieht daher in bevorzugten
Aus führungs formen als Maßgabe bzw . Ziel für die Optimierung vor, dass die relative Codon-n-Tupel-Häuf igkeit der ersten Codon-n- Tupel und die relative Codon-n-Tupel-Häuf igkeit der zweiten Codon-n-Tupel in den Änderungspositionen j eweils ein globales Minimum aufweist , wobei das globale Minimum der zweiten Codon-n- Tupel größer ist als das globale Minimum der ersten Codon-n- Tupel .
In weiter bevorzugten Aus führungs formen werden die synonymen Basentripletts so gewählt , dass die relative Codon-n-Tupel Häufigkeit der zweiten Codon-n-Tupel einen größtmöglichen Mindestwert , d . h . ein größtmögliches globales Minimum, erreicht oder zumindest nicht mehr als 50% , vorzugsweise nicht mehr als
40% oder nicht mehr als 30% , bevorzugt nicht mehr als 20% , besonders bevorzugt nicht mehr als 10% unterhalb des größtmöglichen Mindestwertes liegt . Geeignete mathematische Näherungs- und/oder Optimierungsverfahren zum Auf finden eines größtmöglichen globalen Minimums sind dem Fachmann bekannt . Auch hier liegt eine Abkehr von der bisher vorherrschenden technischen Lehre aus Codonoptimierung bzw . Codonkontextoptimierung vor, indem das erfindungsgemäße Verfahren vorrangig auf eine globale Optimierung von ungünstigen Änderungspositionen in der Nukleotidsequenz abstellt , die sich erfindungsgemäß durch geringe Codon-n-Tupel-Häuf igkeiten identi fi zieren lassen, und nicht auf das Erreichen lokaler Höchstwerte in Bezug auf Codonverwendung oder Codonpaarpräf erenz . Auf diese Weise lassen sich insbesondere auch Proteine , die mithil fe von herkömmlichen Optimierungsverfahren bisher kaum oder gar nicht in artfremden Zielorganismen exprimiert werden konnten, sehr zuverlässig für eine heterologe Expression zugänglich machen .
Vorzugsweise werden die synonymen Basentripletts so gewählt , dass ein Mittelwert aus den relativen Codon-n-Tupel-Häuf igkeiten der zweiten Codon-n-Tupel einen Höchstwert erreicht oder zumindest nicht mehr als 50% , vorzugsweise nicht mehr als 40% oder nicht mehr als 30% , bevorzugt nicht mehr als 20% , besonders bevorzugt nicht mehr als 10% unterhalb eines erreichbaren Höchstwertes liegt . Auf diese Weise lassen sich mithil fe des Optimierungsverfahrens Nukleotidsequenzen bereitstellen, die besonders gut an die Expression in dem Zielorganismus angepasst sind und sich dementsprechend besonders zuverlässig und mit hohen Expressionsraten löslichen Proteins in dem Zielorganismus exprimieren lassen . Es versteht sich, dass für die vorgenannten Aus führungs formen eine Ermittlung der relativen Häufigkeit der ersten Codon-n- Tupel nicht erforderlich ist , da das Erreichen der genannten Optimierungskriterien bereits eine höhere relative Codon-n-Tupel Häufigkeit von zumindest einem Teil der zweiten Codon-n-Tupel im Vergleich zu den j eweiligen ersten Codon-n-Tupeln impli ziert . Mit anderen Worten ist die erfindungsgemäße Grundbedingung, dass mindestens eines der n Basentripletts aus der direkten Aufeinanderfolge der mindestens einen Änderungsposition durch ein synonymes Basentriplett ersetzt wird, das gezielt so gewählt ist , dass mindestens ein zweites Codon-n-Tupel resultiert , das in Bezug auf die Menge der Aminosäure-n-Tupel-Ereignisse eine höhere relative Codon-n-Tupel Häufigkeit in dem Genom oder des Teils davon des mindestens einen Zielorganismus und/oder in den Genomen oder den Teilen davon der zur Infektion des mindestens einen Zielorganismus befähigten Viren aufweist als das erste Codon-n-Tupel , beim Erreichen der genannten Kriterien zwangsläufig immer erfüllt . Die relative Häufigkeit der ersten Codon-n-Tupel kann aber grundsätzlich als Kontrollparameter für die Verwirklichung des erfindungsgemäßen Verfahrens hinzugezogen werden oder beispielsweise um ein Zwischen- oder Endergebnis der Optimierung mit dem Ausgangs zustand zu vergleichen . Im Übrigen kann in diesen Aus führungs formen die relative Häufigkeit der ersten Codon-n-Tupel dahingestellt bleiben, da sich das Ziel der Optimierung nicht daran bemisst , mit welcher Ausgangssequenz gestartet wurde .
Wie bereits im Vorhergehenden mehrfach dargelegt wurde , haben die Erfinder erkannt , dass es für die Optimierung einer Nukleotidsequenz oft vorteilhafter ist , den Schwerpunkt des Verfahrens stärker auf die Optimierung von Änderungspositionen mit niedriger relativer Codon-n-Tupel-Häuf igkeit zu legen als auf eine Erhöhung von durchschnittlichen oder ohnehin bereits hohen relativen Codon-n-Tupel-Häuf igkeiten . Zu diesem Zweck ist in bevorzugten Aus führungs formen des erfindungsgemäßen Verfahrens vorgesehen, dass der Mittelwert eine degressive Wichtung der relativen Codon-n-Tupel-Häuf igkeiten der ersten und zweiten Codon-n-Tupel enthält , die so konfiguriert ist , dass eine hohe relative Codon-n-Tupel-Häuf igkeit im Vergleich zu einer niedrigeren relativen Codon-n-Tupel Häufigkeit einen betragsmäßig unterproportionalen Einfluss auf den Mittelwert bzw . dessen Berechnung hat . Umgekehrt kann sich dadurch die Erhöhung einer niedrigen relativen Codon-n-Tupel-Häuf igkeit , auch wenn diese geringfügig ist , stärker im Mittelwert niederschlagen als die Erhöhung einer mittleren oder hohen relativen Codon-n-Tupel-Häuf igkeit .
Selbstverständlich kann das Verfahren aber zusätzlich oder alternativ auch darauf ausgelegt sein, dass die relative Codon- n-Tupel-Häuf igkeit in zumindest einem Teil der Änderungspositionen j eweils einen Höchstwert erreicht .
Es versteht sich, dass die natürliche Zahl n für die n Basentripletts , das Codon-n-Tupel und das Aminosäure-n-Tupel einer Änderungsposition die gleiche natürliche Zahl sein muss . Wenn die Änderungsposition z . B . eine direkte Aufeinanderfolge von drei Basentripletts umfasst , codiert diese auch für einen Sequenzabschnitt von drei Aminosäuren der vorgegebenen Aminosäuresequenz , d . h . das erste und zweite Codon-n-Tupel sind j eweils ein Codon-3-Tupel und das Aminosäure-n-Tupel ist entsprechend ein Aminosäure-3-Tupel . Dessen ungeachtet ist es aber möglich, dass sich verschiedene Änderungspositionen, z . B . mindestens zwei Änderungspositionen, in der Zahl n unterscheiden bzw . dass n für verschiedene Änderungspositionen, z . B . für mindestens zwei Änderungspositionen, unterschiedlich gewählt wird . Darüber hinaus ist vorgesehen, dass das n einer Änderungsposition während des Verfahrens variiert werden kann, d . h . die Änderungsposition kann während des Verfahrens vergrößert oder verkleinert bzw . eine große Änderungsposition in mehrere kleine Änderungspositionen unterteilt werden und umgekehrt . Das kann z . B . vorteilhaft sein, um in Bereichen der Nukleotidsequenz , die Aminosäure-n-Tupel codieren, die selten oder gar nicht im Genom des Zielorganismus oder der Zielorganismen oder Viren vorkommen bzw . in den Teilen davon, auf kleinere n mit sichererer Statistik zurückzugrei fen . Beispielsweise kann es vorteilhaft sein, einen Äbschnitt der Nukleotidsequenz mit drei Codons durch zwei überlappende Änderungspositionen mit n = 2 zu optimieren als durch eine Änderungsposition mit n = 3 , wenn das zugehörige Aminosäure-3- Tupel nur selten oder, im Extremfall , gar nicht vorkommt . Ein weiterer Vorteil ist , dass das erfindungsgemäße Verfahren Nukleotidabfolgen, die für die Expression in dem Zielorganismus schädlich sind, wie z . B . Restriktionsschnittstellen, durch die Verwendung größerer n mit großer Wahrscheinlichkeit ausschließt . Da solche Sequenzmotive in der Regel keine Grundlage im eigenen Genom des Zielorganismus haben, d . h . die relative Codon-n- Tupel-Häuf igkeit im Genom des Zielorganismus oder der Zielorganismen geht gegen Null , führt das erfindungsgemäße Verfahren impli zit zu deren systematischem Ausschluss . Solche schädlichen Sequenzen werden z . B . bis zu einer Länge von einschließlich 3n-2 bereits bei einem n größer gleich 3 automatisch aus der optimierten Nukleotidsequenz ausgeschlossen .
In bevorzugten Aus führungs formen wird das Ersetzen der Basentripletts durch die synonymen Basentripletts in mehreren Iterationsschritten durch ein computergestütztes Optimierungsverfahren durchgeführt . Auf diese Weise ist es insbesondere möglich, Nukleotidsequenzen mit einer Viel zahl von einander überlappenden Änderungspositionen sukzessive zu optimieren . In einem Iterationsschritt kann in allen Änderungspositionen das mindestens eine der n Basentripletts durch ein synonymes Basentriplett ersetzt werden oder nur in einem Teil der Änderungspositionen . Vorzugsweise wird in j edem Iterationsschritt nur in einem Teil der Änderungspositionen das mindestens eine der n Basentripletts durch ein synonymes Basentriplett ersetzt . Bevorzugt wird zumindest in einem Teil der Iterationsschritte , besonders bevorzugt im überwiegenden Teil oder j edem der Iterationsschritte j eweils nur ein Basentriplett durch ein synonymes Basentriplett ersetzt . Das Basentriplett kann dabei von einer Änderungsposition oder mehreren sich überschneidenden Änderungspositionen umfasst sein . Das Ersetzen der Basentripletts durch die synonymen Basentripletts kann beispielsweise so oft iteriert werden, bis eines der bereits oben genannten Zielkriterien erreicht wird, beispielsweise also die relativen Codon-n-Tupel-Häuf igkeiten der zweiten Codon-n-Tupel einen größtmöglichen Mindestwert , einen größtmöglichen Mittelwert , insbesondere einen größtmöglichen gewichteten Mittelwert , oder einen Höchstwert erreichen oder in den oben definierten Maßen an diese Werte heranreicht .
Es versteht sich, dass das Verfahren in diesen Aus führungs formen auch einen oder mehrere Iterationsschritte umfassen kann, die von dem j eweiligen Zielkriterium wegführen, insbesondere indem die relative Häufigkeit des zweiten Codon-n-Tupels in einer oder mehreren der Änderungspositionen gegenüber dem ersten Codon-n- Tupel zumindest zwischenzeitlich durch einen Iterationsschritt erniedrigt wird, um lokale Maxima von Mindestwert bzw . Mittelwert überwinden zu können, die dem Erreichen des Zielkriteriums entgegenstehen . Es ist daher auch vorgesehen, dass in einer oder mehreren der Änderungspositionen das mindestens eine der n Basentripletts bis zum Erreichen des Zielkriteriums auch mehrfach durch unterschiedliche synonyme Basentripletts ersetzt werden kann . Insbesondere ist eine Festlegung einer Änderungsposition auf ein bestimmtes zweites Codon-n-Tupel nach Durchführung eines Iterationsschrittes insoweit nicht vorgesehen .
Vorzugsweise umfasst das computergestützte Optimierungsverfahren ein Approximationsverfahren, insbesondere ein simuliertes Abkühlungsverfahren, auch als „Simulated Annealing" bezeichnet . Diese Verfahren haben sich zum Auf finden einer Näherungslösung für eine bezüglich der relativen Codon-n-Tupel-Häuf igkeiten für den Zielorganismus optimalen Nukleotidsequenz als besonders geeignet und vorteilhaft erwiesen, insbesondere wenn längere Nukleotidsequenzen, z . B . mit 30 Codons oder mehr, mit einer Viel zahl überlappender Änderungspositionen aufgrund ihrer Komplexität das vollständige Überprüfen von allen möglichen synonymen Basentripletts und mathematische Optimierungsverfahren ausschließen . Selbstverständlich sind aber auch andere heuristische Approximationsverfahren wie z . B . ein Sintflutalgorithmus oder ein genetischer Algorithmus möglich . Weitere geeignete Approximationsverfahren sind dem Fachmann bekannt . Darüber hinaus sind auch andere computergestützte Optimierungsverfahren wie z . B . künstliche Intelligenz (KI ) - basierte Anwendungen denkbar .
In bevorzugten Aus führungs formen des Verfahrens umfassen die Änderungspositionen zusammen mindestens 1 % , mindestens 5% , mindestens 10% , mindestens 20% , mindestens 30% , mindestens 40% oder mindestens 50% der Basentripletts der Nukleotidsequenz , die eine Aminosäure der vorgegebenen Aminosäuresequenz codieren . Vorzugsweise umfassen die Änderungspositionen zusammen mindestens 60% , mindestens 70% oder mindestens 80% , besonders bevorzugt mindestens 90% oder mindestens 95% der Basentripletts der Nukleotidsequenz , die eine Aminosäure der vorgegebenen Aminosäuresequenz codieren . Auf diese Weise gewährleistet das erfindungsgemäße Verfahren eine besonders zuverlässige Optimierung der Nukleotidsequenz für die Expression in dem Zielorganismus . Wie oben erwähnt können Änderungspositionen auch Basentripletts enthalten, die nicht durch ein synonymes Basentriplett ersetzt werden, d . h . es ist nicht erforderlich, dass j edes von den Änderungspositionen umfasste Basentriplett durch ein synonymes Basentriplett ersetzt wird .
Vorzugsweise werden die synonymen Basentripletts so gewählt , dass die relativen Codon-n-Tupel-Häuf igkeiten der zweiten Codon- n-Tupel in mindestens 10% , mindestens 15% , mindestens 20% , mindestens 25% , mindestens 30% oder mindestens 35% , vorzugsweise in mindestens 40% oder mindestens 45% der Änderungspositionen, bevorzugt in mindestens 50% , mindestens 55% , mindestens 60% , mindestens 65% oder mindestens 70% der Änderungspositionen, besonders bevorzugt in mindestens 75% , mindestens 80% , mindestens 85% oder mindestens 90% der Änderungspositionen eine höhere relative Codon-n-Tupel-Häuf igkeit aufweisen als die j eweiligen ersten Codon-n-Tupel .
So , wie der Begri f f hier verwendet wird, schließt „mindestens ein Zielorganismus" die Möglichkeit mit ein, dass die Nukleotidsequenz für die Expression der vorgegebenen Aminosäuresequenz in einer Mehrzahl von verschiedenen Zielorganismen gleichzeitig optimiert wird . Das erfindungsgemäße Verfahren sieht dafür z . B . vor, dass sich die relative Codon-n- Tupel-Häuf igkeit aus der Menge von Ereignissen eines Codon-n- Tupels bezogen auf die Menge von Ereignissen des entsprechenden Aminosäure-n-Tupels in den Genomen oder den Teilen davon der Mehrzahl der verschiedenen Zielorganismen ergibt . Auf diese Weise kann mithil fe des erfindungsgemäßen Verfahrens eine optimierte Nukleotidsequenz bereitgestellt werden, die sich besser für die heterologe Expression in verschiedenen
Expressionssystemen eignet. Dies ist mit herkömmlichen Methoden, die z. B. auf Codon Usage oder Codon Adaptation Index basieren, nicht möglich.
Der mindestens eine Zielorganismus kann grundsätzlich eine vorbestimmte Wirtszelle oder ein beliebiger vorbestimmter Organismus sein, die bzw. der für die Expression der vorgegebenen Aminosäuresequenz geeignet ist. Bei der Wirtszelle kann es sich um eine prokaryotische oder eine eukaryotische Wirtszelle handeln. Bei der Wirtszelle kann es sich um eine Wirtszelle handeln, die für die Kultur in flüssigen oder festen Medien geeignet ist. Alternativ kann es sich bei der Wirtszelle um eine Zelle handeln, die Teil eines multizellulären Gewebes oder eines multizellulären Organismus wie einer, insbesondere transgenen, Pflanze, eines Tieres oder eines Menschen ist.
Die Wirtszelle kann mikrobiell oder nicht-mikrobiell sein. Eine mikrobielle Wirtszelle kann eine Bakterien-, Hefe- oder Pilzzelle sein. Geeignete bakterielle Wirtszellen sind sowohl Gram-positive als auch Gram-negative Bakterien. Beispiele für geeignete bakterielle Wirtszellen sind Bakterien aus den Gattungen Bacillus , Actinomycetis, Escherichia, Streptomyces sowie Milchsäurebakterien wie Lactobacillus , Streptococcus , Lactococcus , Oenococcus , Leuconostoc, Pediococcus , Carnobacterium, Propionibacterium, Enterococcus und Bifidobacterium. Besonders bevorzugt sind Bacillus subtilis, Bacillus amyloliquefaciens, Bacillus liehen! formis, Escherichia coli, Streptomyces coelicolor, Streptomyces clavuligerus , Lactobacillus plantarum und Lactococcus lactis, insbesondere Escherichia coli. Alternativ kann die Wirtszelle auch ein eukaryontischer Mikroorganismus wie eine Hefe oder ein, insbesondere f ilamentöser , Pilz sein. Bevorzugte Hefen als Wirtszellen gehören zu den Gattungen Saccharomyces , Kluyveromyces, Candida, Pichia, Schizosaccharomyces , Hansenula , Kloeckera , Schwanniomyces , und Yarrowia. Besonders bevorzugte Debaromyces- Wirtszellen sind Saccharomyces cerevisiae und Kluyveromyces lactis .
Gemäß einer weiteren bevorzugten Aus führungs form ist die Wirtszelle der vorliegenden Erfindung eine Zelle eines filamentösen Pilzes. Filamentöse Pilze umfassen alle fadenförmigen Formen der Unterabteilung Eumycota und Oomycota. Filamentöse Pilze zeichnen sich durch eine Myzelwand aus, die aus Chitin, Cellulose, Glucan, Chitosan, Mannan und anderen komplexen Polysacchariden besteht. Das vegetative Wachstum erfolgt durch Hyphenstreckung und der Kohlenstoff abbau ist obligatorisch aerob. Zu den filamentösen Pilzen, deren Stämme als Wirtszellen in der vorliegenden Erfindung verwendet werden können, gehören unter anderem Stämme der Gattungen Acremonium, Aspergillus , Aureobasidi um, Cryptococcus , Filibasidium, Fusarium Humicola, Magnaporthe, Mucor, Myceliophthora, Neocallimastix, Neurospora, Paecilomyces , Penicillium, Piromyces, Schizophyllum, Chrysosporium, Talaromyces , Thermoascus , Thielavia, Tolypocladium und Trichoderma . Bevorzugte Arten f ilamentöser Pilze sind ausgewählt aus der Gruppe bestehend aus Aspergillus niger, Aspergillus oryzae, Aspergillus sojae, Trichoderma reesei und Penicillium chrysogenum. Beispiele für geeignete Wirtsstämme sind dem Fachmann bekannt.
Geeignete nicht-mikrobielle Wirtszellen sind beispielsweise
Säugetierwirtszellen wie Hamsterzellen (z. B. Chinese Hamster
Ovary (CHO) -Zellen; Baby Hamster Kidney (BHK) -Zellen) , Maus zellen, Af fenzellen oder menschliche Zellen oder Zelllinien wie HeLa oder HEK293 ; Insektenzellen wie Drosophila-Zellen oder Lepidoptera-Zelllinien Hi5 , S f21 ; Pflanzenzellen wie z . B .
Zellen von Tabak, Tomate , Kartof fel , Raps , Kohl , Erbse , Wei zen, Mais , Reis , Taxus-Arten wie Taxus brevi folia, Arabidopsis-Arten wie Arabidopsi s thaliana, und Nicotiana-Arten wie Ni cotiana tabacum . Außerdem sind nicht-pathogene Leishmanien für die Proteinexpression geeignet . Solche nicht-mikrobiellen Zellen eignen sich besonders für die Herstellung von Säugetier- oder Humanproteinen zur Verwendung in der Säugetier- oder Humantherapie .
Die vorgegebene Aminosäuresequenz ist vorzugsweise ein Protein oder ein Teil davon, das insbesondere natürlicherweise ein eukaryotisches Protein ist . Das erfindungsgemäße Verfahren hat sich als besonders vorteilhaft für die Expression eukaryotischer Proteine , beispielsweise eines Insekten- , Pflanzen- oder Säugerproteins , in bakteriellen, insbesondere prokaryotischen, Expressionssystemen wie beispielsweise Escheri chia coli erwiesen .
In Verfahrensvarianten, in denen die Nukleotidsequenz für die Expression der vorgegebenen Aminosäuresequenz in einer Mehrzahl von verschiedenen Zielorganismen gleichzeitig optimiert wird, ist es möglich, dass die verschiedenen Zielorganismen sehr unterschiedliche Genomgrößen aufweisen, wobei große Genome in der Regel Proteome mit einer größeren Anzahl von Aminosäure-n- Tupeln codieren als kleinere Genome . Das kann dazu führen, dass die relativen Codon-n-Tupel-Häuf igkeiten überproportional durch große Genome beeinflusst werden und somit die Optimierung der Nukleotidsequenz zwangsläufig eine Expression in Zielorganismen mit großen Genomen stärker begünstigt als in Zielorganismen mit kleinen Genomen . Für solche Fälle sieht das erfindungsgemäße Verfahren vor, dass die relative Codon-n-Tupel Häufigkeit eine genomabhängige Wichtung enthält , die beispielsweise so konfiguriert ist , dass ein Größenunterschied in den Genomen oder den Teilen davon, insbesondere ein unterschiedlicher Umfang der codierenden Bereiche , der verschiedenen Zielorganismen zumindest teilweise kompensiert wird . Auf diese Weise wird gewährleistet , dass sich die erfindungsgemäß optimierte Nukleotidsequenz besser für die Expression in den verschiedenen Zielorganismen eignet .
Überraschenderweise hat sich gezeigt , dass das erfindungsgemäße Verfahren nicht nur in der Lage ist , die mengenmäßige Proteinausbeute im heterologen Expressionssystem gegenüber herkömmlichen Optimierungsverfahren deutlich zu verbessern, sondern insbesondere auch den Anteil löslichen Proteins in der Ausbeute signi fikant zu steigern . Hierin liegt ein besonderer Vorteil des erfindungsgemäßen Verfahrens , da in der Regel die gelöste Form eines Proteins den nativen, biochemisch aktiven Zustand darstellt , der vor allem bei Hochwertproteinen für wissenschaftliche , medi zinisch-pharmazeutische und biotechnologische Zwecke von zentraler Bedeutung ist . Ein besonderes Kennzeichen des erfindungsgemäßen Verfahrens ist somit , dass nach der Optimierung der Nukleotidsequenz die in dem mindestens einen Zielorganismus exprimierte Aminosäuresequenz eine größere Löslichkeit aufweist und/oder zu einem größeren Anteil in gelöster Form vorliegt als vor der Optimierung .
Wie sich bereits aus der obigen Beschreibung ergibt , kann die Optimierung der Nukleotidsequenz für die Expression in dem mindestens einen Zielorganismus alternativ oder zusätzlich zur Optimierung anhand des Genoms des Zielorganismus oder Teilen davon auch anhand von Genomen oder Teilen davon von zur Infektion des mindestens einen Zielorganismus befähigten Viren erfolgen . Insbesondere können die Viren Bakteriophagen umfassen . Hierfür ist es wesentlich, dass die Optimierung anhand einer Mehrzahl oder Viel zahl von Virengenomen bzw . Teilen davon erfolgt , da ein einzelnes Virengenom bzw . Virentranskriptom in der Regel nicht den erforderlichen Umfang und somit nicht die nötige statistische Signi fikanz für eine wirksame Optimierung der Nukleotidsequenz anhand der erfindungsgemäßen relativen Codon-n-Tupel Häufigkeit hat . Die Erfinder fassen daher die Genome bzw . Transkriptome verschiedener Viren zu einer Art „Supergenom" bzw . „Supertranskriptom" zusammen, das der Ermittlung der relativen Codon-n-Tupel-Häuf igkeit zugrunde gelegt wird . Vorzugsweise umfasst das Verfahren in diesen
Aus führungs formen mindestens zehn, mindestens 20 , mindestens 30 , mindestens 40 , mindestens 50 , mindestens 100 , mindestens 150 oder mindestens 200 Genome verschiedener Viren oder entsprechende Teile davon .
Die Erfinder machen sich hierbei die Erkenntnis zu Nutze , dass die Genome von Viren bzw . Phagen bereits von Natur aus auf eine Proteinexpression im Hochdurchsatz in dem infi zierten Zielorganismus optimiert sind . In diesem Zusammenhang haben die Erfinder als besonderen Vorteil erkannt , dass Viren- bzw . Phagengenome oft eine reduzierte Basenkomplexität aufweisen, die dazu führt , dass eine mRNA, die von einer erfindungsgemäß optimierten Nukleotidsequenz transkribiert wird, kaum oder keine Sekundärstrukturen ausbildet . Dadurch ist das erfindungsgemäße Optimierungsverfahren anderen Verfahren, die sich arti fi ziellen Algorithmen zur mRNA-Sekundärstrukturoptimierung bedienen, in der Praxis deutlich überlegen . Es hat sich gezeigt , dass sich mithil fe des erfindungsgemäßen Verfahrens selbst die Expressionsrate von Aminosäuresequenzen, die sich auch ohne Optimierung schon mit sehr guter Löslichkeit im heterologen System exprimieren lassen, durch die erfindungsgemäße Optimierung anhand der Virengenome noch einmal deutlich steigern lässt .
Schließlich kann das Verfahren Schritte umfassen, die dazu dienen, innerhalb der Nukleotidsequenz vorhandene und/oder durch das Ersetzen von Basentripletts in den Änderungspositionen zufällig erzeugte Nukleotidfolgen und/oder Motive zu reduzieren oder aus zuschließen, welche die Expression in dem Zielorganismus nachteilig beeinflussen können . In einigen Aus führungs formen des Verfahrens werden solche ungünstigen Nukleotidfolgen und/oder Motive zumindest teilweise aus der Nukleotidsequenz entfernt . Nicht-beschränkende Beispiele für ungünstige Nukleotidfolgen und/oder Motive sind cis-wirkende mRNA-destabilisierende Motive , RNase-Spleißstellen, Ribosomen-Bindungsstellen, repetitive Elemente und Erkennungssequenzen von Restriktionsenzymen . Des Weiteren können z . B . der GC-Gehalt und die mRNA- Sekundärstruktur der transkribierten Nukleotidsequenz berücksichtigt werden, um die Nukleotidsequenz zusätzlich für die Expression in dem Zielorganismus weiter zu verbessern . Wie bereits oben ausgeführt wurde , besteht ein besonderer Vorteil j edoch darin, dass Nukleotidabfolgen, die für die Expression in dem Zielorganismus schädlich sind, durch das erfindungsgemäße Verfahren zum Großteil bereits inhärent ausgeschlossen werden, insbesondere durch die Länge der Codon-n-Tupel mit n größer gleich 3 . Auf diese Weise kann in bestimmten Aus führungs formen ein zusätzlicher Schritt wie z . B . Optimierung der mRNA- Sekundärstruktur oder des GC-Gehaltes , Entfernung von mRNA- destabilisierenden Motiven, Ribosomen-Bindungsstellen, repetitiver Elemente und/oder Erkennungssequenzen von Restriktionsenzymen von dem Verfahren ausgeschlossen werden .
Gegenstand der vorliegenden Erfindung ist weiterhin eine Verwendung einer gemäß dem vorbeschriebenen Verfahren optimierten Nukleotidsequenz zur Herstellung einer synthetischen DNA und/oder zur Proteinexpression in einem Zielorganismus .
Dementsprechend ist ein weiterer Gegenstand der vorliegenden Erfindung ein, insbeondere isoliertes , Nukleinsäuremolekül , das eine optimierte Nukleotidsequenz umfasst , die durch eines der hier beschriebenen Verfahren erhalten wurde . Vorzugsweise handelt es sich bei der Nukleinsäure um DNA. In weiteren Aus führungs formen wird ein Vektor bereitgestellt , der das , insbesondere isolierte , Nukleinsäuremolekül umfasst . Erfindungsgemäß optimierte Nukleinsäuremoleküle lassen sich anhand eines Sequenzvergleichs deutlich von herkömmlich optimierten Sequenzen unterscheiden . Diesbezüglich wird auch auf die nachfolgenden Vergleichsbeispiele verwiesen .
Ein weiterer Gegenstand der Erfindung ist eine rekombinante Wirts zelle , die das oben erwähnte , insbesondere isolierte , Nukleinsäuremolekül oder den oben erwähnten Vektor enthält .
Dementsprechend betri f ft die vorliegende Erfindung auch ein Verfahren zur Expression eines , insbesondere rekombinanten, Proteins in einem Zielorganismus , welches die Bereitstellung einer gemäß dem obigen Verfahren optimierten Nukleotidsequenz , welche das Protein codiert , umfasst . Weiterhin kann das Verfahren einen oder mehrere der folgenden Schritte umfassen : Synthetisieren eines Nukleinsäuremoleküls , welches die optimierte Nukleinsäuresequenz umfasst ; Einbringen des Nukleinsäuremoleküls in den Zielorganismus ; und Kultivieren des Zielorganismus unter Bedingungen, welche die Expression des Proteins aus der optimierten Nukleinsäuresequenz ermöglichen . Vorzugsweise wird die Expression zumindest teilweise bei einer Temperatur kleiner gleich 30 ° C, kleiner gleich 25 ° C oder kleiner gleich 20 ° C durchgeführt . Es hat sich gezeigt , dass erfindungsgemäß optimierte Nukleotidsequenzen eine heterologe Proteinexpression bei relativ niedrigen Temperaturen gegenüber herkömmlich optimierten Nukleotidsequenzen deutlich begünstigen . Diesbezüglich wird auch auf die nachfolgenden Aus führungsbeispiele verwiesen . Auf diese Weise eignet sich das erfindungsgemäße Verfahren besonders für die Expression empfindlicher Hochwertproteine und führt gleichzeitig durch Energieeinsparungspotenzial zu mehr Nachhaltigkeit .
Ein weiterer Gegenstand der vorliegenden Erfindung ist ein Computerprogramm mit Programmcodemitteln . Die Programmcodemittel des Computerprogramms sind hierbei zur Durchführung eines Verfahrens gemäß vorstehender Beschreibung eingerichtet , wenn das Computerprogramm auf einem Rechner ausgeführt wird . Das Computerprogramm kann eine Schnittstelle zu einer DNA- und/oder RNA-Synthesevorrichtung umfassen .
Gegenstand der vorliegenden Erfindung ist ebenfalls ein computerlesbares Speichermedium, auf dem das vorgenannte Computerprogramm in computerlesbarer Form gespeichert ist .
Ein weiterer Gegenstand der Erfindung ist schließlich eine Vorrichtung zur Optimierung und/oder Herstellung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in mindestens einem Zielorganismus . Hierbei weist die Vorrichtung eine Recheneinrichtung auf , die zur Durchführung eines der oben genannten Verfahren eingerichtet ist . Die Vorrichtung kann insbesondere ein DNA- und/oder RNA- Synthesegerät , auch als „DNA/RNA-Synthesi zer" bezeichnet , sein .
Im Übrigen versteht es sich, dass sich die bevorzugten und vorteilhaften Aus führungs formen des erfindungsgemäßen Verfahrens , soweit anwendbar, auch auf die anderen Gegenstände der vorliegenden Erfindung beziehen können. Merkmale, die vorstehend und im Folgenden im Zusammenhang mit dem erfindungsgemäßen Verfahren offenbart sind, können sich daher auch auf die weiteren Gegenstände der Erfindung beziehen und umgekehrt. Die Verwendung des Begriffs „bzw." steht im Zweifel für eine „und/oder"-Beziehung .
Kurze Beschreibung der Sequenzen
SEQ ID NO:1 Nukleotidsequenz der I. sakaiensis PETase (Wildtypsequenz) codierend für die Aminosäuren (AS) 28-290;
SEQ ID NO: 2 Synthetisch hergestellte Nukleotidsequenz der I. sakaiensis PETase (codierend für AS 28-290) mit doppeltem Strep-Tag am C-Terminus nach herkömmlicher Optimierung für die Expression in E. coli gemäß Stand der Technik (Referenz) ;
SEQ ID NO: 3 Synthetisch hergestellte Nukleotidsequenz der I. sakaiensis PETase (codierend für AS 28-290) mit doppeltem Strep-Tag am C-Terminus nach erfindungsgemäßer Optimierung der Sequenz für die Expression in E. coli mit n = 2;
SEQ ID NO: 4 Synthetisch hergestellte Nukleotidsequenz der I. sakaiensis PETase (codierend für AS 28-290) mit doppeltem Strep-Tag am C-Terminus nach erfindungsgemäßer Optimierung der Sequenz für die Expression in E. coli mit n = 3;
SEQ ID NO: 5 Nukleotidsequenz der A. thaliana OTP86-DYW Domäne (AS 826-960) (Wildtypsequenz) ; SEQ ID NO: 6 Synthetisch hergestellte Nukleotidsequenz der A. thaliana OTP86-DYW Domäne (AS 826-960) mit doppeltem Strep-Tag und Tobacco etch virus (TEV)- Schnittstelle am N-Terminus nach herkömmlicher Optimierung für die Expression in E. coli gemäß Stand der Technik (Referenz) ;
SEQ ID NO: 7 Synthetisch hergestellte Nukleotidsequenz der A. thaliana OTP86-DYW Domäne (AS 826-960) mit doppeltem Strep-Tag und Tobacco etch virus (TEV)- Schnittstelle am N-Terminus nach erfindungsgemäßer Optimierung für die Expression in E. coli mit n = 3;
SEQ ID NO: 8 Synthetisch hergestellte Nukleotidsequenz der A. thaliana OTP86-DYW Domäne (AS 826-960) mit doppeltem Strep-Tag und Tobacco etch virus (TEV)- Schnittstelle am N-Terminus nach erfindungsgemäßer Optimierung für die Expression in E. coli anhand von 226 Phagengenomen mit n = 3;
SEQ ID NO: 9 Proteinsequenz von Citrin (codierend für AS 1-239) als vorgegebene Aminosäuresequenz für die Expression in H. sapiens ;
SEQ ID NO: 10 Synthetisch hergestellte Nukleotidsequenz von Citrin (codierend für AS 1-239) mit FLAG-Tag und doppeltem Strep-Tag am N-Terminus nach herkömmlicher Optimierung für die Expression in H. sapiens gemäß Stand der Technik (Referenz) , 5'- flankiert von einer Kozak-Sequenz (GCCACC) ; SEQ ID NO: 11 Synthetisch hergestellte Nukleotidsequenz von Citrin (codierend für AS 1-239) mit FLAG-Tag und doppeltem Strep-Tag am N-Terminus nach erfindungsgemäßer Optimierung der Sequenz für die Expression in H. sapiens mit n = 3, 5' -flankiert von einer Kozak-Sequenz (GCCACC) ;
SEQ ID NO: 12 Nukleotidsequenz (Wildtyp) des H. sapiens STING1 ER exit protein 1 („STEEP1") codierend für die AS 1-222;
SEQ ID NO: 13 Synthetisch hergestellte Nukleotidsequenz von H. sapiens STEEP1 (codierend für AS 1-222) mit FLAG- Tag und doppeltem Strep-Tag am N-Terminus nach herkömmlicher Optimierung für die Expression in H. sapiens gemäß Stand der Technik (Referenz) , 5'- flankiert von einer Kozak-Sequenz (GCCACC) ;
SEQ ID NO: 14 Synthetisch hergestellte Nukleotidsequenz von H. sapiens STEEP1 (codierend für AS 1-222) mit FLAG- Tag und doppeltem Strep-Tag am N-Terminus nach erfindungsgemäßer Optimierung der Sequenz für die Expression in H. sapiens mit n = 3, 5' -flankiert von einer Kozak-Sequenz (GCCACC) ;
SEQ ID NO: 15 Nukleotidsequenz (Wildtyp) des H. sapiens nitric oxide synthase-interacting protein (NOSIP) codierend für die AS 1-304;
SEQ ID NO: 16 Synthetisch hergestellte Nukleotidsequenz von H. sapiens NOSIP (codierend für AS 1-304) mit FLAG- Tag und doppeltem Strep-Tag am N-Terminus nach herkömmlicher Optimierung mittels Codon Adaptation Index und mRNA-Sekundärstrukturoptimierung für die Expression in H. sapiens gemäß Stand der Technik (Referenz) , 5' -flankiert von einer Kozak-Sequenz (GCCACC) ;
SEQ ID NO: 17 Synthetisch hergestellte Nukleotidsequenz von H. sapiens NOSIP (codierend für AS 1-304) mit FLAG- Tag und doppeltem Strep-Tag am N-Terminus nach herkömmlicher Optimierung gemäß WO 2020/024917 Al für die Expression in Homo sapiens gemäß Stand der Technik (Referenz) , 5' -flankiert von einer Kozak- Sequenz (GCCACC) ;
SEQ ID NO: 18 Synthetisch hergestellte Nukleotidsequenz von H. sapiens NOSIP (codierend für AS 1-304) mit FLAG- Tag und doppeltem Strep-Tag am N-Terminus nach erfindungsgemäßer Optimierung der Sequenz für die Expression in H. sapiens mit n = 3, 5' -flankiert von einer Kozak-Sequenz (GCCACC) ;
SEQ ID NO: 19 Proteinsequenz von EqFP611 (AS 1-231) als vorgegebene Aminosäuresequenz für die Expression in S. elongatus ;
SEQ ID NO: 20 Synthetisch hergestellte Nukleotidsequenz von EqFP611 (codierend für AS 1-231) mit doppeltem Strep-Tag am N-terminus nach herkömmlicher Optimierung für die Expression in S. elongatus gemäß Stand der Technik (Referenz) , 5' -flankiert von einer Restriktionsschnittstelle Ndel und 3'- flankiert von einem Transkriptionsterminator sowie einer Kpnl Restriktionsschnittstelle; SEQ ID NO: 21 Synthetisch hergestellte Nukleotidsequenz von EqFP611 (codierend für AS 1-231) mit doppeltem Strep-Tag am N-terminus nach erfindungsgemäßer Optimierung für die Expression in S. elongatus mit n=3, 5' -flankiert von einer Restriktionsschnittstelle Ndel und 3 '-flankiert von einem Transkriptionsterminator sowie einer Kpnl Restriktionsschnittstelle.
Kurze Beschreibung der Figuren
Die Erfindung wird im Folgenden anhand von Ausführungsbeispielen unter Bezugnahme auf die beigefügten Figuren näher erläutert. Keinesfalls soll die Erfindung auf die Ausführungsbeispiele beschränkt sein. Es zeigen:
Fig. 1 ein Flussdiagramm mit einem schematischen Ablauf einer Aus führungs form des erfindungsgemäßen Verfahrens ;
Fig. 2 SDS-PAGE (A) und quantitative Auswertung (B) der heterologen Expression von Ideonella sakaiensis PETase in Escherichia coli bei 20 °C;
Fig. 3 SDS-PAGE (A) und quantitative Auswertung (B) der heterologen Expression von Ideonella sakaiensis PETase in Escherichia coli bei 30 °C;
Fig. 4 eine grafische Darstellung der relativen
Häufigkeit der ersten und zweiten Codon-3-Tupel in einem Ausschnitt der Wildtypsequenz (A) bzw. der erfindungsgemäß optimierten Nukleotidsequenz (B) von Arabidopsis thaliana OTP86-DYW; Fig. 5 SDS-PAGE (A) und quantitative Auswertung (B) der heterologen Expression von Arabidopsis thaiiana OTP86-DYW in Escherichia coli bei 17 °C;
Fig. 6 Western-Blot (A) und quantitative Auswertung des
Western Blots (B) sowie der Fluoreszenz (C) der heterologen Expression von Citrin in HeLa Zellen;
Fig. 7 Western-Blot (A) und quantitative Auswertung des
Western Blots (B) sowie der Fluoreszenz (C) der heterologen Expression von Citrin in HEK293 Zellen;
Fig. 8 Western-Blot (A) und quantitative Auswertung (B) der Expression von H. sapiens STEEP1 in HeLa Zellen;
Fig. 9 Western-Blot (A) und quantitative Auswertung (B) der Expression von H. sapiens STEEP1 in HEK293 Zellen;
Fig. 10 Western-Blot (A) und quantitative Auswertung (B) der Expression von H. sapiens NOSIP in HeLa Zellen mit SEQ ID NO : 16 (Referenz) und SEQ ID NO: 18;
Fig. 11 Western-Blot (A) und quantitative Auswertung (B) der Expression von H. sapiens NOSIP in HeLa Zellen mit SEQ ID NO: 17 (Referenz) und SEQ ID NO: 18;
Fig. 12 Western-Blot (A) und quantitative Auswertung (B) der Expression von H. sapiens NOSIP in HEK293 Zellen mit SEQ ID NO: 16 (Referenz) und SEQ ID NO : 18.
Detaillierte Beschreibung von Ausführungsbeispielen
Die Erfindung wird im Folgenden anhand von Ausführungsbeispielen unter Bezugnahme auf die beigefügten Figuren näher erläutert. Keinesfalls soll die Erfindung auf die Ausführungsbeispiele beschränkt sein.
Vergleichsbeispiel 1: Heterologe Expression von Ideonella sakaiensis PET-Hydrolase (PETase) in Escherichia coli
In einem ersten Vergleichsversuch wurde die Nukleotidsequenz der PETase von I. sakaiensis, die für die Aminosäurepositionen 28- 290 (Molekulargewicht 27,9 kDa) codiert (SEQ ID NO:1) , für die heterologe Expression in E. coli nach dem erfindungsgemäßen Verfahren und nach dem Verfahren gemäß WO 2020/024917 Al als Referenz optimiert.
Für die Expression der PETase in E. coli als Zielorganismus wurden drei pET28a Expressionsplasmide von der Firma Genscript bezogen, welche die Aminosäuresequenz der PETase mit einem doppelten Strep-Tag am C-Terminus unter einem induzierbaren T7- Promotor codieren. N-terminal wurde die Aminosäuresequenz mit Met (Startcodon) und den Aminosäuren Ala und Ser ergänzt. Jeweils eines der Plasmide enthielt die PETase-codierende Nukleotidsequenz mit doppeltem Strep-Tag nach Optimierung gemäß dem Verfahren aus WO 2020/024917 Al (SEQ ID NO: 2) durch den Optimierungsservice des Herstellers, nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 2 (SEQ ID NO: 3) und nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 3 (SEQ ID NO:4) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-n-Tupel-Häuf igkeit die für Proteine codierenden Teile des E. coli Genoms zugrunde gelegt wurden .
Fig . 1 zeigt in diesem Zusammenhang einen schematischen Ablauf einer beispielhaften Durchführung des erfindungsgemäßen Verfahrens 100 in einer computerimplementierten Aus führungs form zur Optimierung der PETase aus I. sakai ensi s . Das Feld 102 repräsentiert hierbei die Eingabe der zu optimierenden Nukleotidsequenz in den Computer . Selbstverständlich ist es auch möglich, eine Aminosäuresequenz einzugeben, die anschließend in eine zu optimierende Nukleotidsequenz übersetzt wird . Hierbei wurde im vorliegenden Beispiel die gesamte codierende Sequenz durchgehend in Änderungspositionen, d . h . mit j e einem Codon Versatz zwischen benachbarten Änderungspositionen, unterteilt . Auf diese Weise resultierten bezogen auf die Gesamtzahl N der Aminosäuren der vorgegebenen Aminosäuresequenz N-2 Codon-3-Tupel bzw . N- l Codon-2-Tupel . Die Änderungspositionen sind in diesem Aus führungsbeispiel somit mit der Eingabe der zu optimierenden Nukleotidsequenz festgelegt .
In Feld 104 wurde mithil fe einer DNA-Sequenzdatenbank eine Liste der proteincodierenden Gene von E. coli erstellt . Eine geeignete DNA-Sequenzdatenbank ist z . B . GenBank (Nucleic Acids Research 41 , 2013 , D36-42 ) . Eine geeignete Grundlage für die Verknüpfung von Sequenzdaten mit genetischen und funktionellen Informationen bildet die Reference Sequence (RefSeq) Datenbank ( The NCBI Handbook, 2nd edition, Chapter 18 : The Reference Sequence (RefSeq) Database , Bethesda (MD) , National Center for Biotechnology Information, USA, 2013 ) . Auf dieser Grundlage wurde anschließend die absolute Häufigkeit j edes kombinatorisch möglichen Codon-n-Tupels sowie die absolute Häufigkeit j edes kombinatorisch möglichen Aminosäure-n-Tupels innerhalb der proteincodierenden Gene ermittelt , wobei n in einer
Aus führungs form n = 2 und in einer Aus führungs form n = 3 war .
Mithil fe dieser Informationen wurde in Feld 106 für j edes kombinatorisch mögliche Codon-n-Tupel der Quotient aus seiner absoluten Häufigkeit und der absoluten Häufigkeit des entsprechenden Aminosäure-n-Tupels , für das es codiert , bestimmt und in das weitere Verfahren einbezogen .
Als optionaler Schritt wurden in Feld 108 unerwünschte Nukleotidsequenzen, wie zum Beispiel die TATA-box „TATAA" oder die ribosomale Bindestelle „AGGAGG" von denen dem Fachmann bekannt ist , dass sie die Expression in E. coli beeinträchtigen können, eingegeben . Weitere unerwünschte Sequenzmotive waren AAAAAA, TTTTT , AGGAGGT , TATAAA, ATCTGTT , GGAGGT und GGTGGT .
Mithil fe eines computergestützten Optimierungsverfahrens unter Verwendung eines „Simulated Annealing"-Algorithmus wurden anschließend in Feld 110 die Basentripletts in den Änderungspositionen der Wildtypsequenz in einer Viel zahl von Interaktionsschritten 112 sukzessive ersetzt , bis die relative Codon-n-Tupel Häufigkeit sämtlicher Codon-n-Tupel in der Nukleotidsequenz einen größtmöglichen gewichteten Mittelwert bei gleichzeitiger Minimierung der Anzahl unerwünschter Nukleotidsequenzen erreichte . Lediglich das Startcodon wurde von der Optimierung ausgeschlossen, wobei es aber grundsätzlich möglich ist , auch das Startcodon und/oder Stopcodon in die Optimierung mit einzubeziehen .
Die Gewichtung W eines Codon-n-Tupels mit der relativen Häufigkeit P erfolgte mit W = - 1 /P für P größer 0 , 0001 und W = - 10 . 000 für P kleiner gleich 0 , 0001 . Um den gewichteten Mittelwert Fw zu erhalten, wurden die W sämtlicher Codon-n-Tupel addiert und dann durch ihre Anzahl L- (n-l) geteilt, wobei L die Anzahl der in die Optimierung einbezogenen Codons in der Nukleotidsequenz ist (hier L = 864) . Die Wichtung W = -1/P ist degressiv und wurde aufgrund der sehr hohen Werte für sehr kleine P durch -10.000 nach unten begrenzt.
Der gewichtete Mittelwert wurde im vorliegenden Beispiel zusätzlich mit einem Ausdruck für das Vorkommen unerwünschter Sequenzmotive verrechnet. Für jedes unerwünschte Sequenzmotiv wurde ein Wert FE ermittelt, welcher der Anzahl des unerwünschten Sequenzmotivs in der zu optimierenden Nukleotidsequenz multipliziert mit -1 entspricht. Zusätzlich kann der Wert FE mit einem individuellen Wert r gewichtet werden, wobei im vorliegenden Beispiel r = 0,035 für die Aus führungs form mit n = 2 und r = 0,058 für die Aus führungs form mit n = 3 gewählt wurde.
Zur Optimierung der Nukleotidsequenz wurde somit mithilfe des „Simulated Annealing"-Algorithmus nach dem Höchstwert des gewichteten Mittelwerts anhand der Funktion F = Fw + r • FE gesucht, sodass Fw durch die Optimierung einen größtmöglichen Wert annimmt und gleichzeitig die geringstmögliche Anzahl von unerwünschten Sequenzen am Ende der Optimierung in der Nukleotidsequenz enthalten ist.
Nach der Optimierung betrug der gewichtete Mittelwert in der erfindungsgemäßen Aus führungs form mit n = 2 (SEQ ID NO: 3) Fw = -5,1. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-2-Tupel-Häuf igkeiten im Wildtyp (SEQ ID NO:1) Fw = -13,2 und für die Referenzsequenz gemäß WO 2020/024917 Al (SEQ ID NO:2) Fw = -7,3. Der gewichtete Mittelwert in der Aus führungs form mit n = 3 betrug nach der erfindungsgemäßen Optimierung (SEQ ID NO: 4) Fw = -10,4. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten im Wildtyp (SEQ ID NO:1) Fw = -526,8 und in der Referenzsequenz gemäß WO 2020/024917 Al (SEQ ID NO:2) Fw =-336,4.
Nachdem das Zielkriterium erreicht wurde, erfolgte in Feld 114 die Ausgabe der optimierten Nukleotidsequenzen SEQ ID NO: 3 und SEQ ID NO: 4, die anschließend entsprechend synthetisiert wurden.
Es ist aus dem Sequenzprotoll unmittelbar zu erkennen, dass sich die erfindungsgemäß optimierte Nukleotidsequenz von der Wildtypsequenz bereits auf Nukleotidebene deutlich unterscheidet. So hat die Wildtypsequenz (SEQ ID NO:1) nur 82,3% identische Nukleotide mit der gemäß dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 2 optimierten Sequenz (SEQ ID NO: 3) bzw. nur 82,9% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 (SEQ ID NO: 4) . Ein ebenfalls sehr deutlicher Unterschied besteht darüber hinaus auch zwischen den nach dem erfindungsgemäßen Verfahren optimierten Nukleotidsequenzen und der nach dem Stand der Technik optimierten Sequenz. Die Sequenz, die gemäß WO 2020/024917 Al als Referenz optimiert wurde (SEQ ID NO:2) , besitzt nur 89,2% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 2 (SEQ ID NO: 3) und nur 84,7% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 (SEQ ID NO: 4) . Diese großen Unterschiede sind angesichts der vorgegebenen Aminosäuresequenz aus fachmännischer Sicht überraschend und zeigen, dass das erfindungsgemäße Optimierungsverfahren zu einem völlig anderen Ergebnis führt als das Verfahren gemäß dem aktuellen Stand der Technik . Als Expressionssystem wurde der E. coli Stamm BL21 verwendet
(New England Biolabs GmbH, Frankfurt am Main, Deutschland) . Dazu wurden jeweils drei verschiedene Aliquote des Expressionswirtes mit einem der Expressionsplasmide durch Elektroporation mit 0,1 pg DNA transformiert und auf eine LB-Agar Platte mit 100 mg/mL Kanamycin ausgestrichen. Die Platten wurden über Nacht bei 37 °C inkubiert. Aus mehreren Kolonien von jeweils einer Platte wurden Vorkulturen in 50 mL LB-Medium mit 100 mg/mL Kanamycin angesetzt und über Nacht bei 37 °C im Schüttler bei 180 U/min inkubiert.
Die Expressionskulturen wurden aus jeweils 1 mL Vorkultur und 99 mL TB Medium angesetzt. Die Expression der rekombinanten PETase in den Kulturen wurden bei einer OD600 von 0, 6 durch Zugabe von IPTG in einer Endkonzentration von 1 mM induziert. Die Expression erfolgte in einer Variante bei 20 °C für 14 Stunden und in einer weiteren Variante bei 30 °C für fünf Stunden.
Vor der Zellernte wurde die OD600 der Expressionskulturen bestimmt und jeweils die gleiche Zellmenge von jeder der Kulturen geerntet, um die Proteinausbeuten anhand der Zellmasse zu normalisieren. Die Zellpellets wurden in 10 mL Puffer A (20 mM Tris-Cl, pH 7.5, 150 mM NaCl, 1 mM DTT) gelöst und mithilfe von Ultraschall aufgeschlossen. Das Zelllysat wurde anschließend bei 20.000 g für eine Stunde zentrifugiert, um die unlöslichen Zellbestandteile als Pellet abzutrennen.
Der Überstand mit der löslichen Fraktion wurde in einem Eppendorf-Gefäß mit 200 pL in Puffer A äquilibrierten Streptactin-Beads (IBA Lifesciences, Göttingen, Deutschland) vermischt. Die Beads wurden im Eppendorf gefäß durch Zentrifugation und Entfernen des Überstandes zweimal mit 1 mL Puffer A gewaschen. Die gebundenen Proteine wurden mit 200 pL Puffer A mit 10 mM Desthiobiotin eluiert. Die Identität des Proteins wurde durch SDS- Polyacrylamidgelelektrophorese (SDS-PAGE) analytisch verifiziert. Die Proteinmenge in den SDS-PAGE-Gelbanden wurde mithilfe der Image J-Software (National Institutes of Health, USA) quantifiziert. Zusätzlich erfolgte eine Bestimmung der Proteinkonzentration in den jeweiligen Überständen mithilfe des Bradford Assays (Thermo Fisher Scientific, Bremen, Deutschland) nach Herstellerangaben durchgeführt.
Die Ergebnisse sind in Fig. 2 und Fig. 3 gezeigt. Fig. 2A zeigt eine Abbildung der SDS-PAGE-Analyse von der Expression bei 20 °C. Bahn 1 enthält einen Größenmarker, Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 2 (Referenz) , Bahn 3 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 3 und Bahn 4 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 4. Die PETase wurde von allen drei Plasmiden ausweislich der Bande bei 30,4 kDa, die dem Molekulargewicht des Proteins einschließlich des doppelten Strep-Tags entspricht, erfolgreich exprimiert. Es ist jedoch bereits anhand der Bandenstärke deutlich erkennbar, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 3, wobei für die Optimierung n = 2 gewählt wurde, zu einer signifikant gesteigerten Proteinausbeute im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO: 2 führte. Das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 4, wobei für die Optimierung n = 3 gewählt wurde, führte insgesamt zur höchsten Ausbeute an rekombinanter PETase.
In dem in Fig. 2B gezeigten Säulendiagramm ist die relative Proteinausbeute an löslicher PETase in Abhängigkeit von der jeweils verwendeten Nukleotidsequenz dargestellt, wobei die quantitativ ermittelte Proteinmenge jeweils auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO: 2 normiert wurde. Die schraffierten Säulen zeigen das Ergebnis der Quantifizierung anhand der SDS-PAGE, die weißen Säulen zeigen das Ergebnis der Quantifizierung durch den Bradf ord-Assay . Die Quantifizierung ergab, dass die erfindungsgemäße Optimierung der PETase- Nukleotidsequenz mit n = 2 die Ausbeute an löslichem Protein gegenüber der Referenzoptimierung verdoppelte, während die erfindungsgemäße Optimierung mit n = 3 die Proteinausbeute sogar etwa versechsfachte.
Fig. 3A zeigt eine Abbildung der SDS-PAGE-Analyse von der Expression bei 30 °C. Bahn 1 enthält einen Größenmarker, Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 2 (Referenz) und Bahn 3 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 4. Die PETase wurde auch hier von beiden Plasmiden ausweislich der Bande bei 30,4 kDa erfolgreich exprimiert. Anhand der Bandenstärke ist zu erkennen, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 4 zu einer höheren Proteinausbeute führte als das Plasmid mit der Referenzsequenz SEQ ID NO: 2.
In Fig. 3B ist wiederum die relative Proteinausbeute an löslicher PETase in Abhängigkeit von der jeweils verwendeten Nukleotidsequenz dargestellt, wobei die quantitativ ermittelte Proteinmenge auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO: 2 normiert wurde. Die schraffierten Säulen zeigen das Ergebnis der Quantifizierung anhand der SDS-PAGE, die weißen Säulen zeigen das Ergebnis der Quantifizierung durch den Bradf ord-Assay . Die quantitative Analyse belegt eine mehr als verdoppelte Expression der PETase mithilfe der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 4 im Vergleich zur gemäß WO 2020/024917 Al optimierten Sequenz. Eine derart signi fikante Verbesserung der heterologen Expressionsrate eines Proteins mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz im Vergleich zum aktuellen Stand der Technik ist für den Fachmann nicht zu erwarten gewesen . Hierbei überrascht , dass bereits der niedrigste vorgesehene Parameter n = 2 eine fast 200%ige Steigerung der Expressionsrate gegenüber dem Stand der Technik bewirkte und damit die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber den etablierten Konzepten nachdrücklich belegt .
Vergleichsbeispiel 2 : Heterologe Expression von Arabidopsi s thaliana OTP86-DYW in Escheri chia coli
In einem weiteren Vergleichsversuch wurde die Nukleotidsequenz der OTP86-DYW Domäne in den Aminosäurepositionen 826- 960 von A. thaliana ( SEQ ID NO : 5 ) für die heterologe Expression in E. coli nach dem erfindungsgemäßen Verfahren und nach dem Verfahren gemäß WO 2020/ 024917 Al als Referenz optimiert . Es handelt sich bei der OTP86-DYW Domäne um ein empfindliches Pflanzenprotein, das bekanntermaßen schwierig im heterologen System zu exprimieren ist .
Für die Expression der OTP86-DYW Domäne in E. coli als Zielorganismus wurden drei pET41 Expressionsplasmide kloniert , welche die Aminosäuresequenz 826- 960 der OTP86-DYW Domäne mit einem doppelten Strep-Tag und einer TEV-Protease Spaltstelle als Insert unter einem induzierbaren T7-Promotor enthielten . Am N- Terminus der Aminosäuresequenz wurde außerdem ein Met ( Startcodon) und ein Gly ergänzt . Die Inserts wurden von der Firma Genscript bezogen . Jeweils eines der Plasmide enthielt die OTP86-DYW-codierende Nukleotidsequenz nach Optimierung gemäß dem Verfahren aus WO 2020/024917 Al (SEQ ID NO: 6) durch den Optimierungsservice des Herstellers, nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit dem Parameter n = 3 (SEQ ID NO:7) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-3-Tupel-Häuf igkeit der codierende Teil des E. coli Genoms zugrunde gelegt wurde, und nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 3 (SEQ ID NO: 8) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-3-Tupel- Häufigkeit der codierende Teil der Genome der folgenden zur Infektion von E. coli befähigten Viren bzw. Phagen zugrunde gelegt wurde:
Enterobacteria phage 13a, Enterobacteria phage 285P, Enterobacteria phage 933W, Enterobacteria phage 9g, Enterobacteria phage BA14, Enterobacteria phage BP-4795, Enterobacteria phage Bp7, Enterobacteria phage EcoDSl, Enterobacteria phage G4, Enterobacteria phage GA, Enterobacteria phage GEC-3S, Enterobacteria phage HK106, Enterobacteria phage HK140, Enterobacteria phage HK225, Enterobacteria phage ID2 Moscow/ ID/2001 , Enterobacteria phage IME08, Enterobacteria phage IME10, Enterobacteria phage Ifl, Enterobacteria phage Ike, Enterobacteria phage J8-65, Enterobacteria phage JS10, Enterobacteria phage JenKl, Enterobacteria phage JenPl, Enterobacteria phage JenP2, Enterobacteria phage K1F, Enterobacteria phage M, Enterobacteria phage MS2, Enterobacteria phage MX1, Enterobacteria phage P4, Enterobacteria phage P88, Enterobacteria phage PRD1, Enterobacteria phage Phil, Enterobacteria phage RB27, Enterobacteria phage RB49, Enterobacteria phage RB51, Enterobacteria phage RB68, Enterobacteria phage RB69, Enterobacteria phage SP, Enterobacteria phage ST104, Enterobacteria phage SflOl, Enterobacteria phage Sfl, Enterobacteria phage SfV, Enterobacteria phage St-1, Enterobacteria phage T3, Enterobacteria phage T7, Enterobacteria phage UAB_Phi20, Enterobacteria phage UAB_Phi78, Enterobacteria phage VT2-Sakai, Enterobacteria phage VT2phi_272, Enterobacteria phage WA13, Enterobacteria phage YYZ-2008, Enterobacteria phage alpha3, Enterobacteria phage cdtl, Enterobacteria phage fd, Enterobacteria phage fiAA91-ss, Enterobacteria phage mEpO43 c-1, Enterobacteria phage mEp235, Enterobacteria phage mEp237, Enterobacteria phage mEp460, Enterobacteria phage phi80, Enterobacteria phage phi92, Enterobacteria phage phiEcoM-GJl, Enterobacteria phage phiP27, Enterobacteria phage vB_EcoM_VR5, Enterobacteria phage vB_EcoP_ACG-C91 , Enterobacteria phage vB_EcoS_NBD2 , Enterobacteria phage vB_EcoS_Roguel , Enterobacteria phage vB_KleM-RaK2 , Escherichia phage 121Q, Escherichia phage 172-1, Escherichia phage 4MG, Escherichia phage 64795_ecl, Escherichia phage ADB-2, Escherichia phage APCEcOl, Escherichia phage ARI, Escherichia phage Av-05, Escherichia phage Bp4, Escherichia phage CAjan, Escherichia phage CICC 80001, Escherichia phage D108, Escherichia phage EB49, Escherichia phage EC6, Escherichia phage ECBP1, Escherichia phage ECBP2, Escherichia phage ECBP5, Escherichia phage ECML-117, Escherichia phage ECML-134, Escherichia phage ECML-4, Escherichia phage EK99P-1, Escherichia phage Envy, Escherichia phage FFH2, Escherichia phage FV3, Escherichia phage Gluttony, Escherichia phage HK446, Escherichia phage HK542, Escherichia phage HK544, Escherichia phage HK578, Escherichia phage HK629, Escherichia phage HK630, Escherichia phage HK633, Escherichia phage HK639, Escherichia phage HK75, Escherichia phage HX01, Escherichia phage HY01, Escherichia phage HY02, Escherichia phage HY03, Escherichia phage IME11, Escherichia phage JES2013, Escherichia phage JH2, Escherichia phage JS98, Escherichia phage JSE, Escherichia phage Kl-dep(l) , Escherichia phage Kl-dep(4) , Escherichia phage KBNP1711, Escherichia phage LM33_P1, Escherichia phage Lwl, Escherichia phage MX01, Escherichia phage Min27, Escherichia phage NJ01, Escherichia phage P13374, Escherichia phage P483, Escherichia phage P694, Escherichia phage PA2, Escherichia phage PBECO 4, Escherichia phage PE3-1, Escherichia phage Phaxl, Escherichia phage Pollock, Escherichia phage QL01, Escherichia phage RB3, Escherichia phage SUSP1, Escherichia phage SUSP2, Escherichia phage Seurat, Escherichia phage Stx2 II, Escherichia phage TL-2011b, Escherichia phage TL-2011C, Escherichia phage UFV-AREG1, Escherichia phage V5, Escherichia phage WG01, Escherichia phage YD-2008.S, Escherichia phage e4/lc, Escherichia phage ime09, Escherichia phage mEp234, Escherichia phage mEpXl, Escherichia phage mEpX2, Escherichia phage phAPEC8, Escherichia phage phil91, Escherichia phage phiK, Escherichia phage phiKT, Escherichia phage phiVIO, Escherichia phage prol47, Escherichia phage pro483, Escherichia phage slurOl, Escherichia phage slur02, Escherichia phage slur05, Escherichia phage slurl4, Escherichia phage slurl6, Escherichia phage vB_EcoM-UFV13, Escherichia phage vB_EcoM-VpaEl , Escherichia phage vB_EcoM-ep3, Escherichia phage vB_EcoM_112, Escherichia phage vB_EcoM_ACG- C40, Escherichia phage vB_EcoM_AY0145A, Escherichia phage vB_EcoM_Alf 5, Escherichia phage vB_EcoM_EC01230-10, Escherichia phage vB_EcoM_JS09, Escherichia phage vB_EcoM_PhAPEC2 , Escherichia phage vB_EcoM_VR20 , Escherichia phage vB_EcoM_VR25, Escherichia phage vB_EcoM_VR26, Escherichia phage vB_EcoM_VR7, Escherichia phage vB_EcoP_24B, Escherichia phage vB_EcoP_G7C, Escherichia phage vB_EcoP_GA2A, Escherichia phage vB_EcoP_PhAPEC5, Escherichia phage vB_EcoP_PhAPEC7 , Escherichia phage vB_EcoP_SUl 0 , Escherichia phage vB_EcoS_AHP42 , Escherichia phage vB_EcoS_AHS24 , Escherichia phage vB_EcoS_AKS96, Escherichia phage vB_EcoS_FFHl , Escherichia phage vB_Eco_ACG- M12, Escherichia phage wV7, Escherichia phage wV8, Escherichia virus 186, Escherichia virus AKFV33, Escherichia virus CBA120, Escherichia virus DT57C, Escherichia virus EPS7, Escherichia virus HK022, Escherichia virus HK97, Escherichia virus 122, Escherichia virus JL1, Escherichia virus Kl-5, Escherichia virus K1E, Escherichia virus Lambda, Escherichia virus M13, Escherichia virus Mu, Escherichia virus N15, Escherichia virus N4, Escherichia virus Pl, Escherichia virus P2, Escherichia virus RB16, Escherichia virus RB32, Escherichia virus Rtp, Escherichia virus SSL2009a, Escherichia virus Tl, Escherichia virus T4, Escherichia virus T5, Escherichia virus TLS, Escherichia virus Wphi, Escherichia virus phiEco32, Escherichia virus phiX174. Die Virengenome wurden aus der Ref seq-Datenbank am 31. Mai 2019 abgerufen.
Im Übrigen erfolgte die Versuchsdurchführung für die erfindungsgemäße Sequenzoptimierung im Wesentlichen wie in Vergleichsbeispiel 1 beschrieben. Für den Fall der Optimierung auf Basis der Phagengenome, welche kumulativ eine deutlich geringere Größe als das Genom von E. coli besitzen, wurden die relativen Codon-3-Tupel-Häuf igkeiten P als Mittelpunkte des Clopper-Pearson-Vertrauensintervalls mit einem Konfidenzniveau von 95% berechnet. Weiterhin waren die unerwünschten Sequenzmotive in diesem Beispiel AAAAAA, TTTTT, AGGAGGT, TATAAA, ATCTGTT, GGAGGT, GGTGGT, CCATGG und AAGCTT, deren jeweilige Anzahl für die Optimierung auf Basis des E. coli Genoms sowie auf Basis der Phagengenome mit r = 0,06 gewichtet wurde. Die Anzahl L der in die Optimierung einbezogenen Codons in der Nukleotidsequenz ist in diesem Beispiel 501, da das Startcodon und das darauf folgende Glycincodon nicht in die Optimierung einbezogen wurden. Die Expression wurde bei 17 °C durchgeführt, wobei der Puffer A kein DTT enthielt.
Nach der Optimierung betrug der gewichtete Mittelwert in der erfindungsgemäßen Aus führungs form auf Basis des E. coli Genoms mit n = 3 (SEQ ID NO: 7) Fw = -7,1. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten im Wildtyp (SEQ ID NO: 5) bezogen auf das E. coli Genom Fw = -2533.5 und für die Referenzsequenz gemäß WO 2020/024917 Al (SEQ ID NO: 6) Fw = -451,4. Der gewichtete Mittelwert in der Aus führungs form auf Basis der Genome der zur Infektion von E. coli befähigten Viren bzw. Phagen mit n = 3 betrug nach der erfindungsgemäßen Optimierung (SEQ ID NO: 8) Fw = -9,2. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten im Wildtyp (SEQ ID NO: 5) auf Basis der Viren- bzw. Phagengenome Fw = -56,8 und für die Referenzsequenz gemäß WO 2020/024917 Al (SEQ ID NO: 6) Fw = -37,2.
Das Sequenzprotokoll verdeutlicht auch hier, dass bereits auf Nukleotidebene erhebliche Unterschiede zwischen der Nukleotidsequenz vom Wildtyp und den Nukleotidsequenzen, die gemäß dem erfindungsgemäßen Verfahren optimiert wurden, bestehen. So hat die Wildtypsequenz (SEQ ID NO: 5) nur 72,7% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Ausführung mit n = 3 (SEQ ID NO:7) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-3-Tupel-Häuf igkeit der codierende Teil des E. coli Genoms zugrunde gelegt wurde, und nur 76,9% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Ausführung mit n = 3 (SEQ ID NO: 8) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-3-Tupel- Häufigkeit der codierende Teil der Genome der zur Infektion von E. coli befähigten Viren bzw. Phagen zugrunde gelegt wurde.
Ein sehr deutlicher Unterschied besteht darüber hinaus wiederum auch zwischen den nach dem erfindungsgemäßen Verfahren optimierten Nukleotidsequenzen und der nach dem Stand der Technik optimierten Sequenz. Die Sequenz, die nach dem Stand der Technik gemäß WO 2020/024917 Al als Referenz optimiert wurde (SEQ ID NO: 6) , besitzt nur 85,2% identische Nukleotide mit der optimierten Sequenz gemäß dem erfindungsgemäßen Verfahren anhand des E. coli Genoms (SEQ ID NO: 7) und nur 74, 6% identische Nukleotide mit der optimierten Sequenz gemäß dem erfindungsgemäßen Verfahren anhand der Genome der zur Infektion von E. coli befähigten Viren bzw. Phagen (SEQ ID NO: 8) .
Fig. 4 zeigt die relative Häufigkeit der ersten Codon-3-Tupel in der Wildtypsequenz SEQ ID NO: 5 (A) und die relative Häufigkeit der zweiten Codon-3-Tupel in der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 7 (B) von OTP86-DYW für den Sequenzabschnitt, der im Sequenzprotokoll jeweils den Nukleotidpositionen 211-330 entspricht. Der gezeigte Sequenzabschnitt enthält die Codons Nummer 71 bis einschließlich Nummer 110 von OTP86-DYW. Jeweils drei benachbarte Codons bilden eine Änderungsposition mit einem Codon-3-Tupel , wobei der gezeigte Sequenzabschnitt durchgehend in 38 Änderungspositionen bzw. Codon-3-Tupel unterteilt wurde, die hier als ni bis n38 bezeichnet sind. Zwischen aufeinanderfolgenden Änderungspositionen liegt jeweils ein Versatz von einem Codon. In den Diagrammen ist jedem Codon-3-Tupel (x-Achse) durch einen horizontalen Strich die entsprechende relative Häufigkeit in Prozent (y-Achse) zugeordnet, mit der das jeweilige Codon-3- Tupel das entsprechende Aminosäure-3-Tupel in den proteincodierenden Genen von E. coli codiert. Die vertikalen Striche zeigen jeweils die Spanne der relativen Häufigkeiten sämtlicher für eine bestimmte Änderungsposition in Betracht kommender Codon-3-Tupel , die für das entsprechende Aminosäure-n- Tupel der Änderungsposition codieren.
Es ist ersichtlich, dass durch das erfindungsgemäße Verfahren eine deutliche Erhöhung der relativen Codon-3-Tupel-Häuf igkeit in einem Großteil der gezeigten Änderungspositionen stattfand . Im Ergebnis wurde in j eder der gezeigten Änderungspositionen bis auf Position n3s j eweils mindestens eines der Basentripletts durch ein synonymes Basentriplett ersetzt ; mehrheitlich wurden in den Änderungspositionen j eweils gleich zwei oder drei Basentripletts durch ein synonymes Basentriplett ersetzt , um die relative Häufigkeit der zweiten Codon-3-Tupel optimal zu erhöhen . Es ist ebenfalls erkennbar, dass nur in einem Teil der Änderungspositionen das zweite Codon-3-Tupel j eweils dem Codon- 3-Tupel mit der größten relativen Häufigkeit in E. coli entspricht . Ferner wurde z . B . in der Änderungsposition n33 ein zweites Codon-3-Tupel gebildet , das eine geringere relative Häufigkeit als das ursprüngliche erste Codon-3-Tupel aufweist , um dadurch die relativen Häufigkeiten der kritischeren ersten Codon-3-Tupel in den anderen Änderungspositionen erhöhen zu können . Auf diese Weise konnte ein größtmöglicher gewichteter Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten erreicht werden .
Die Ergebnisse der zugehörigen heterologen Expression in E. coli sind in Fig . 5 gezeigt . Fig . 5A zeigt eine Abbildung der SDS- PAGE -Analyse von der Expression bei 17 ° C . Bahn 1 enthält einen Größenmarker, Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO : 6 (Referenz ) , Bahn 3 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO : 7 und Bahn 4 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO : 8 . Die OTP86-DYW Domäne wurde von allen drei Plasmiden ausweislich der Bande bei 19 , 5 kDa erfolgreich exprimiert . Ein Vergleich der Bandenstärken lässt bereits erkennen, dass die Plasmide mit den erfindungsgemäß optimierten Nukleotidsequenzen SEQ ID NO : 7 und SEQ ID NO : 8 zu deutlich höheren Proteinausbeuten an rekombinanter OTP86-DYW Domäne führen als das Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO : 6 .
In dem in Fig . 5B gezeigten Säulendiagramm ist die relative Proteinausbeute an löslicher OTP86-DYW Domäne in Abhängigkeit von der j eweils verwendeten Nukleotidsequenz dargestellt , wobei die quantitativ ermittelte Proteinmenge j eweils auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO : 6 normiert wurde . Die schraf fierten Säulen zeigen das Ergebnis der Quanti fi zierung anhand der SDS-PAGE , die weißen Säulen zeigen das Ergebnis der Quanti fi zierung durch photometrische UV- Absorptionsmessung bei 260 und 280 nm (Nanodrop ) . Die Quanti fi zierung bestätigte , dass die erfindungsgemäße Optimierung der Nukleotidsequenz unter Zugrundelegung des E. coli Transkriptoms mit dem Parameter n = 3 nahezu die drei fache Ausbeute an löslichem Protein gegenüber der Referenzoptimierung ergab, während die erfindungsgemäße Optimierung unter Zugrundelegung der Viren- bzw . Phagengenome mit dem Parameter n = 3 die Proteinausbeute nahezu verdoppelte .
Eine derart signi fikante Verbesserung der heterologen Expressionsrate eines Proteins mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz im Vergleich zum aktuellen Stand der Technik ist für den Fachmann wiederum nicht zu erwarten gewesen .
Vergleichsbeispiel 3 : Heterologe Expression von Citrin in H. sapi ens (HeLa ) Zellkultur
In einem weiteren Vergleichsversuch wurde die Nukleotidsequenz des fluores zierenden Proteins Citrin ( SEQ ID NO : 9 ) für die heterologe Expression in humanen HeLa Zellen als Zielorganismus nach dem erfindungsgemäßen Verfahren und nach einem herkömmlichen, auf dem Codon Adaptation Index und lokaler mRNA Sekundärstrukturoptimierung basierenden Verfahren als Referenz optimiert . Citrin ist eine Variante des grün fluores zierenden Proteins ( GFP ) aus Aquaeoria vi ctoria und wird häufig für Reporter-Assays und in der Fluores zenzmikroskopie verwendet .
Für die Expression von Citrin in HeLa Zellen wurden zwei pTwist CMV Expressionsplasmide von der Firma Twist Bioscience ( San Francisco , CA, USA) bezogen, welche die Aminosäuresequenz von Citrin mit einem FLAG-Tag gefolgt von einem doppelten Strep-Tag am N-Terminus unter einem konstitutiven Cytomegalovirus-Promoter codieren . N-terminal wurde die Aminosäuresequenz mit Met ( Startcodon) und der Aminosäure Ala ergänzt . Vor dem Startcodon wurde eine Kozak-Sequenz eingefügt . Eines der Plasmide enthielt die Citrin-codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach Optimierung durch das Verfahren des Herstellers ( SEQ ID NO : 10 ) als Referenz . Das andere Plasmid enthielt die Citrin-codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 3 ( SEQ ID NO : 11 ) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-n-Tupel-Häuf igkeit die für Proteine codierenden Teile des H. sapi ens Genoms zugrunde gelegt wurden .
Im Übrigen erfolgte die Versuchsdurchführung für die erfindungsgemäße Sequenzoptimierung im Wesentlichen wie in Vergleichsbeispiel 1 beschrieben . Analog zur Optimierung für E. coli als Wirt wurden für H. sapi ens als optionaler Schritt in Feld 108 die unerwünschten Sequenzmotive wie z . B . die TATA-Box TATAAA, von denen dem Fachmann bekannt ist , dass sie die Expression in H. sapi ens beeinträchtigen können, eingegeben . Weitere unerwünschte Sequenzmotive waren ATTTA, GCCACC, GCCGCC, AATAAA und ATTAAA, deren j eweilige Anzahl mit r = 0 , 62 gewichtet wurde. Die Anzahl L der in die Optimierung einbezogenen Codons in der Nukleotidsequenz ist in diesem Beispiel 819, die Kozak Sequenz am 5 '-Ende wurde nicht optimiert.
Es ist aus dem Sequenzprotoll unmittelbar zu erkennen, dass sich die erfindungsgemäß optimierte Nukleotidsequenz (SEQ ID NO: 11) von der nach dem Stand der Technik optimierten Sequenz (SEQ ID NO: 10) bereits auf Nukleotidebene deutlich unterscheidet. So hat die gemäß dem Stand der Technik optimierte Sequenz (SEQ ID NO: 10) nur 81,4% identische Nukleotide mit der gemäß dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 optimierten Sequenz (SEQ ID NO: 11) . Diese großen Unterschiede sind angesichts der vorgegebenen Aminosäuresequenz aus fachmännischer Sicht überraschend und zeigen, dass das erfindungsgemäße Optimierungsverfahren auch für eine Optimierung in Säugerzellen, hier Homo sapiens , zu einem völlig anderen Ergebnis führt als das Verfahren gemäß dem aktuellen Stand der Technik .
Nach der Optimierung betrug der gewichtete Mittelwert in der erfindungsgemäßen Aus führungs form mit n = 3 (SEQ ID NO: 11) Fw = -9, 6. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten für die Referenzsequenz (SEQ ID NO: 10) von Fw = -41,8.
Für die Expression von Citrin wurden HeLa-Zellen 24 Stunden vor der Transfektion in 6-Well-Platten mit DMEM High glucose Medium (Biowest SAS, Nuaille, Frankreich) mit 10% FCS (Biochrom AG - Berlin, Deutschland) und 1% Penicillin/Streptomycin (Biowest) übertragen. Die Transf ektionen wurden mit 2 pg Plasmid und Rotifect (Carl Roth GmbH, Karlsruhe, Deutschland) nach Herstellerangaben durchgeführt. 70 Stunden nach der Transfektion wurde das Medium entfernt, die Zellen wurden mit 1 mL eisgekühlter phosphatgepufferter Salzlösung (PBS) gewaschen und in RIPA Lyse Puffer resuspendiert . Die Lysate wurden mit 6-fach SDS Ladepuffer versetzt und auf einem 15% SDS Polyacrylamidgel nach Größe auf getrennt. Die Proteinproben auf dem Gel wurden anschließend mittels Western-Blotting auf eine Nitrozellulosemembran übertragen. Die unspezifischen Bindestellen der Membran wurden mit 2% BSA geblockt und die Membran wurde mit den Primärantikörpern gegen das FLAG-getaggte exprimierte Zielprotein oder das Housekeeping Gen GAPDH (Ladekontrolle) über Nacht inkubiert. Die Membran wurde mit TBS Tween gewaschen und mit dem Meerrettichperoxidase (HRP) gekoppeltem Sekundärantikörper gegen Kaninchen (FLAG) oder Maus (GAPDH) inkubiert. Die Proteine wurden mit dem ECL-Kit (Pierce, Waltham, MA, USA) visualisiert und die Banden mit ImageQuantTL (Cytiva, Marlborough, MA, USA) quantifiziert. Zur vergleichenden Auswertung der Proteinexpression wurde die Bandenstärke von Citrin in das jeweilige Verhältnis zur Bandenstärke der Ladekontrolle GAPDH gesetzt, um auf diese Weise die aufgetragene Proteinmenge in Bezug auf die Zellmenge zu normalisieren.
Weiterhin wurden die Zellysate für zwei Minuten bei 13.000 g zentrifugiert und die Fluoreszenz von Citrin im Überstand in einem Tecan Spark Plate Reader bei einer Anregungswellenlänge von 516 nm und einer Emissionswellenlänge von 529 nm in Triplikaten gemessen. Die Intensität der Fluoreszenzen wurde wiederum in Relation zu der jeweiligen Bandenintensität der Ladekontrollen (GAPDH) gesetzt, um den unterschiedlichen Zelldichten der Kulturen Rechnung zu tragen.
Die Ergebnisse sind in Fig. 6 gezeigt. Fig. 6A zeigt eine Abbildung des Western Blots, gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG getaggte Citrin sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH. Bahn 1 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 10 (Referenz) , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 11, die erfindungsgemäß optimiert wurde. Citrin wurde von beiden Plasmiden ausweislich der durch den spezifischen HRP- gekoppelten Sekundärantikörper gefärbten Banden erfolgreich exprimiert. Es ist jedoch bereits anhand der Bandenstärke deutlich erkennbar, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 11 zu einer signifikant gesteigerten Proteinausbeute im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO: 10 führte.
In dem in Fig. 6B gezeigten Säulendiagramm ist die relative Proteinausbeute an Citrin in Abhängigkeit von der jeweils verwendeten Nukleotidsequenz dargestellt, wobei die quantitativ ermittelte Proteinmenge jeweils mithilfe der Ladekontrolle GAPDH als interner Standard hinsichtlich der Zellmenge normalisiert und auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO: 10 normiert wurde. Die schraffierten Säulen zeigen das Ergebnis der Quantifizierung anhand der Bandenintensität des Western Blots. Die Quantifizierung ergab, dass die erfindungsgemäße Optimierung der Citrin-Nukleotidsequenz mit n = 3 die Proteinausbeute gegenüber der herkömmlich optimierten Sequenz mehr als verdreifachte.
In dem in Fig. 6C gezeigten Säulendiagramm ist die relative Citrin-Fluoreszenz in Abhängigkeit von der jeweils verwendeten Nukleotidsequenz gezeigt. Die Citrin-Fluoreszenz ist hierbei ein Maß für den Anteil an gelöstem, funktionalem Protein. Die Fluoreszenz wurde wie für Fig. 6B beschrieben gegen die Zellmenge normalisiert und auf die Fluoreszenz aus dem Referenzversuch mit SEQ ID NO: 10 normiert. Die Quantifizierung der Fluoreszenz ergab, dass die erfindungsgemäße Optimierung der Citrin-Nukleotidsequenz mit n = 3 die Ausbeute an gelöstem, funktionalem Protein etwa um den Faktor 4 , 7 steigerte . In Zusammenschau mit dem Ergebnis des Western Blots wird somit deutlich, dass die erfindungsgemäße Optimierung der Nukleotidsequenzen des fluores zierenden Proteins Citrin zu deutlich mehr ( 51 % ) löslichem Protein führte als die herkömmliche Optimierung .
Eine derart signi fikante Verbesserung der heterologen Expressionsrate eines löslichen Proteins in Säugerzellkultur mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz im Vergleich zum aktuellen Stand der Technik ist für den Fachmann nicht zu erwarten gewesen . Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber etablierten Konzepten für eukaryotische Expressionssysteme deutlich belegt .
Vergleichsbeispiel 4 : Heterologe Expression von Citrin in H. sapi ens (HEK293 ) Zellkultur
In einem weiteren Vergleichsversuch wurden die beiden in Vergleichsbeispiel 3 verwendeten optimierten Nukleotidsequenzen von Citrin in HEK293 Zellen exprimiert . Im Übrigen erfolgte die Versuchsdurchführung im Wesentlichen wie in Vergleichsbeispiel 3 beschrieben .
Die Ergebnisse sind in Fig . 7 gezeigt . Fig . 7A zeigt eine Abbildung des Western Blots , gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG getaggte Citrin sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH . Bahn 1 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO : 10 (Referenz ) , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 11, die erfindungsgemäß optimiert wurde. Citrin wurde von beiden Plasmiden ausweislich der durch den spezifischen HRP- gekoppelten Sekundärantikörper gefärbten Banden auch in HEK293 Zellen erfolgreich exprimiert. Es ist bereits anhand der Bandenstärke deutlich erkennbar, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO: 11 zu einer signifikant gesteigerten Proteinausbeute im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO : 10 führte .
In dem in Fig. 7B gezeigten Säulendiagramm ist die relative Proteinausbeute an Citrin in Abhängigkeit von der jeweils verwendeten Nukleotidsequenz dargestellt, wobei die quantitativ ermittelte Proteinmenge jeweils mithilfe der Ladekontrolle GAPDH als interner Standard hinsichtlich der Zellmenge normalisiert und auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO: 10 normiert wurde. Die schraffierten Säulen zeigen das Ergebnis der Quantifizierung anhand der Bandenintensität des Western Blots. Die Quantifizierung ergab, dass die erfindungsgemäße Optimierung der Citrin-Nukleotidsequenz mit n = 3 die Proteinausbeute um etwa 75% steigerte.
In dem in Fig. 7C gezeigten Säulendiagramm ist die relative Citrin-Fluoreszenz in Abhängigkeit von der jeweils verwendeten Nukleotidsequenz gezeigt. Die Citrin-Fluoreszenz ist hierbei ein Maß für den Anteil an gelöstem, funktionalem Protein. Die Fluoreszenz wurde wie für Fig. 7B beschrieben gegen die Zellmenge normalisiert und auf die Fluoreszenz aus dem Referenzversuch mit SEQ ID NO: 10 normiert. Die schraffierten Säulen zeigen das Ergebnis der Quantifizierung anhand der Citrin-Fluoreszenz, welche funktionales und lösliches Protein wiedergibt. Die Quantifizierung ergab, dass die erfindungsgemäße Optimierung der Citrin-Nukleotidsequenz mit n = 3 die lösliche Proteinausbeute etwa um den Faktor 2 , 3 steigerte . In Zusammenschau mit dem Ergebnis des Western Blots wird somit deutlich, dass die erfindungsgemäße Optimierung der Nukleotidsequenzen des fluores zierenden Proteins Citrin zu deutlich mehr ( 32 % ) löslichem Protein führte als die herkömmliche Optimierung .
Eine derart signi fikante Verbesserung der heterologen Expressionsrate in HEK293 Zellen mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz bestätigt das Ergebnis aus Vergleichsbeispiel 3 in einem weiteren Zielorganismus und impli ziert eine universelle Anwendbarkeit des erfindungsgemäßen Verfahrens in Säugerzellkultur . Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber etablierten Konzepten für eukaryotische Expressionssysteme evident .
Vergleichsbeispiel 5 : Expression von H. sapi ens STING1 ER exit protein 1 ( STEEP1 ) in Heia Zellkultur
In einem weiteren Vergleichsversuch wurde die Nukleotidsequenz des H. sapi ens Proteins STEEP1 für die Expression in HeLa Zellen nach dem erfindungsgemäßen Verfahren und in konventioneller Weise gemäß Vergleichsbeispiel 3 als Referenz optimiert . STEEP1 ist ein humanes Protein, das in der Membran des endoplasmatischen Retikulums gefunden wurde . Mutationen in STEEP1 sind für mehrere Krankheitsbilder verantwortlich .
Proteine aus H. sapi ens lassen sich im Allgemeinen schwer in einem Wirtssystem exprimieren .
Für die Expression von STEEP1 in HeLa Zellen als Zielorganismus wurden zwei pTwist CMV Expressionsplasmide von der Firma Twist Bioscience bezogen, welche die Aminosäuresequenz von STEEP1 mit einem FLAG-Tag gefolgt von einem doppelten Strep-Tag am N-
Terminus unter einem konstitutiven Cytomegalovirus-Promotor codieren . N-terminal wurde die Aminosäuresequenz mit Met ( Startcodon) und der Aminosäure Ala ergänzt . Vor dem Startcodon wurde eine Kozak-Sequenz eingefügt . Eines der Plasmide enthielt die STEEPl-codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach konventioneller Optimierung durch den Hersteller ( SEQ ID NO : 13 ) . Das andere Plasmid enthielt die STEEPl- codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 3 ( SEQ ID NO : 14 ) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-n-Tupel-Häuf igkeit die für Proteine codierenden Teile des H. sapi ens Genoms zugrunde gelegt wurden .
Im Übrigen erfolgte die Versuchsdurchführung für die erfindungsgemäße Sequenzoptimierung im Wesentlichen wie in Vergleichsbeispiel 3 beschrieben, ausgehend von der STEEP1 Wildtyp-Sequenz aus H. sapi ens ( SEQ ID NO : 12 ) und unter Berücksichtigung der in Vergleichsbeispiel 3 genannten unerwünschten Sequenzen, deren j eweilige Anzahl mit r = 0 , 60 gewichtet wurde . Die Anzahl L der in die Optimierung einbezogenen Codons in der Nukleotidsequenz ist in diesem Beispiel 762 , die Kozak Sequenz am 5 ' -Ende wurde nicht optimiert .
Das Sequenzprotokoll zeigt erhebliche Unterschiede zwischen der Nukleotidsequenz vom Wildtyp ( SEQ ID NO : 12 ) und der Nukleotidsequenz , die gemäß dem erfindungsgemäßen Verfahren optimiert wurden ( SEQ ID NO : 14 ) . So hat die Wildtypsequenz nur 81 , 6% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Aus führung mit n = 3 . Es ist weiterhin aus dem Sequenzprotoll unmittelbar zu entnehmen, dass sich die erfindungsgemäß optimierte Nukleotidsequenz (SEQ ID NO: 14) von der gemäß dem Stand der Technik optimierten Sequenz (SEQ ID NO: 13) auf Nukleotidebene ebenfalls deutlich unterscheidet. So hat die nach dem Stand der Technik optimierte Sequenz (SEQ ID NO: 13) nur 77,3% identische Nukleotide mit der gemäß dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 optimierten Sequenz (SEQ ID NO: 14) . Diese großen Unterschiede sind angesichts der vorgegebenen Aminosäuresequenz aus fachmännischer Sicht überraschend und zeigen, dass das erfindungsgemäße Optimierungsverfahren auch für eine Optimierung in Säugerzellen, hier Homo sapiens , zu einem völlig anderen Ergebnis führt als das Verfahren gemäß dem aktuellen Stand der Technik.
Nach der Optimierung betrug der gewichtete Mittelwert in der erfindungsgemäßen Aus führungs form mit n = 3 (SEQ ID NO: 14) Fw = -9,8. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten im Wildtyp (SEQ ID NO: 12) von Fw = -36,9 und für die Referenzsequenz (SEQ ID NO: 13) von Fw = -87,1.
Die Durchführung der Expressionsversuche erfolgte ebenfalls im Wesentlichen wie in Vergleichsbeispiel 3 beschrieben. Die Ergebnisse sind in Fig. 8 gezeigt. Fig. 8A zeigt eine Abbildung des Western Blots, gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG getaggte STEEP1 sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH. Bahn 1 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 13 (Referenz) , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der erfindungsgemäß optimierten SEQ ID NO: 14. STEEP1 wurde von beiden Plasmiden ausweislich der durch den spezifischen HRP-gekoppelten Sekundärantikörper gefärbten Banden erfolgreich exprimiert . Es ist j edoch bereits anhand der Bandenstärke deutlich erkennbar, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO : 14 zu einer signi fikant gesteigerten Proteinausbeute im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO : 13 führte .
In dem in Fig . 8B gezeigten Säulendiagramm ist die relative Proteinausbeute an STEEP1 in Abhängigkeit von der j eweils verwendeten Nukleotidsequenz dargestellt , wobei die quantitativ ermittelte Proteinmenge wie vorhergehend beschrieben mithil fe der Ladekontrolle auf die Zellmenge normalisiert und auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO : 13 bezogen wurde . Die schraf fierten Säulen zeigen das Ergebnis der Quanti fi zierung anhand der Bandenintensität des Western Blots . Die Quanti fi zierung ergab, dass die erfindungsgemäße Optimierung der STEEPl-Nukleotidsequenz mit n = 3 die Proteinausbeute um mehr als 75% gegenüber der herkömmlichen Optimierung steigerte .
Eine derart signi fikante Verbesserung der Expressionsrate eines membranständigen Humanproteins mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz im Vergleich zum aktuellen Stand der Technik ist für den Fachmann nicht zu erwarten gewesen . Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber etablierten Konzepten für eukaryotische Expressionssysteme deutlich belegt .
Vergleichsbeispiel 6 : Expression von H. sapi ens STING1 ER exit protein 1 ( STEEP1 ) in HEK293 Zellkultur
In einem weiteren Vergleichsversuch wurden die beiden in
Vergleichsbeispiel 5 verwendeten optimierten Nukleotidsequenzen von STEEP1 in HEK293 Zellen exprimiert . Im Übrigen erfolgte die Versuchsdurchführung im Wesentlichen wie in Vergleichsbeispiel 5 beschrieben .
Die Ergebnisse sind in Fig . 9 gezeigt . Fig . 9A zeigt eine Abbildung des Western Blots , gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG-getaggte STEEP1 sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH . Bahn 1 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO : 13 (Referenz ) , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten erfindungsgemäß optimierten SEQ ID NO : 14 . STEEP1 wurde von beiden Plasmiden ausweislich der durch den spezi fischen HRP- gekoppelten Sekundärantikörper gefärbten Banden auch in HEK293 Zellen erfolgreich exprimiert . Es ist bereits anhand der Bandenstärke erkennbar, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO : 14 zu einer signi fikant gesteigerten Proteinausbeute im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO : 13 führte .
In dem in Fig . 9B gezeigten Säulendiagramm ist die relative Proteinausbeute an STEEP1 in Abhängigkeit von der j eweils verwendeten Nukleotidsequenz dargestellt , wobei die quantitativ ermittelte Proteinmenge wie vorhergehend beschrieben mithil fe der Ladekontrolle auf die Zellmenge normalisiert und auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO : 13 bezogen wurde . Die schraf fierten Säulen zeigen das Ergebnis der Quanti fi zierung anhand der Bandenintensität des Western Blots . Die Quanti fi zierung ergab, dass die erfindungsgemäße Optimierung der STEEPl-Nukleotidsequenz mit n = 3 die Proteinausbeute um 22 % gegenüber der Expression der herkömmlich optimierten Sequenz steigerte . Diese Ergebnisse bestätigen eine signi fikante Verbesserung der Expressionsrate von STEEP1 in HEK293 Zellen mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz und untermauern die universelle Anwendbarkeit des erfindungsgemäßen Verfahrens für die Proteinexpression in Säugerzellen . Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber etablierten Konzepten für eukaryotische Expressionssysteme erneut belegt .
Vergleichsbeispiel 7 : Expression von H. sapi ens Nitric oxide synthase-interacting protein (NOS IP ) in Heia Zellkultur
In einem weiteren Vergleichsversuch zu eukaryotischen Expressionssystemen wurde die Nukleotidsequenz des H. sapi ens Proteins NOS IP für die Expression in HeLa nach dem erfindungsgemäßen Verfahren und nach dem Stand der Technik als Referenz optimiert . Die Referenzoptimierungen erfolgten in einer Variante gemäß Vergleichsbeispiel 3 und in einer zweiten Variante gemäß WO 2020/ 024917 Al . NOS IP moduliert die Aktivität und Lokalisation der Nitritoxid-Synthase und reguliert so die Nitritoxidproduktion, was entscheidend für die Entwicklung des menschlichen Hirns , des Auges und des Gesichts ist .
Für die Expression von NOS IP in HeLa Zellen als Zielorganismus wurden drei pTwist CMV Expressionsplasmide von der Firma Twist Bioscience bezogen, welche die Aminosäuresequenz von NOS IP mit einem FLAG-Tag gefolgt von einem doppelten Strep-Tag am N- Terminus unter einem konstitutiven Cytomegalovirus-Promotor codieren . N-terminal wurde die Aminosäuresequenz mit Met ( Startcodon) und der Aminosäure Ala ergänzt . Vor dem Startcodon wurde eine Kozak-Sequenz eingefügt . Eines der Plasmide enthielt die NOS IP-codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach Optimierung gemäß dem Stand der Technik durch den Optimierungsservice des Herstellers als Referenz (SEQ ID NO: 16) . Das zweite Plasmid enthielt die NOSIP-codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach Optimierung gemäß WO 2020/024917 Al als weitere Referenz (SEQ ID NO: 17) . Das dritte Plasmid enthielt die NOSIP-codierende Nukleotidsequenz mit FLAG- und doppeltem Strep-Tag nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 3 (SEQ ID NO: 18) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-n-Tupel-Häuf igkeit die für Proteine codierenden Teile des H. sapiens Genoms zugrunde gelegt wurden.
Im Übrigen erfolgte die Versuchsdurchführung für die erfindungsgemäße Sequenzoptimierung im Wesentlichen wie in Vergleichsbeispiel 3 beschrieben, ausgehend von der NOSIP Wildtyp-Sequenz aus H. sapiens (SEQ ID NO: 15) unter Berücksichtigung der in Vergleichsbeispiel 3 genannten unerwünschten Sequenzen, deren jeweilige Anzahl mit r = 0, 64 gewichtet wurde. Die Anzahl L der in die Optimierung einbezogenen Codons in der Nukleotidsequenz ist in diesem Beispiel 1008, die Kozak Sequenz am 5 '-Ende wurde nicht optimiert .
Das Sequenzprotokoll verdeutlicht auch hier, dass bereits auf Nukleotidebene erhebliche Unterschiede zwischen der Nukleotidsequenz vom Wildtyp und der Nukleotidsequenz, die gemäß dem erfindungsgemäßen Verfahren optimiert wurde, bestehen. So weist die Wildtypsequenz (SEQ ID NO: 15) nur 86,0% identische Nukleotide mit der optimierten Sequenz aus dem erfindungsgemäßen Verfahren in der Ausführung mit n = 3 (SEQ ID NO: 18) auf.
Es ist weiterhin aus dem Sequenzprotoll zu erkennen, dass sich die erfindungsgemäß optimierte Nukleotidsequenz (SEQ ID NO: 18) auch von den gemäß dem Stand der Technik optimierten Sequenzen (SEQ ID NO: 16, SEQ ID NO: 17) auf Nukleotidebene deutlich unterscheidet. So hat die nach dem Stand der Technik optimierte Sequenz (SEQ ID NO: 16) nur 76,3% identische Nukleotide mit der gemäß dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 optimierten Sequenz (SEQ ID NO: 18) . Die nach dem Stand der Technik gemäß WO 2020/024917 Al optimierte Sequenz (SEQ ID NO: 17) weist nur 85,2% identische Nukleotide mit der gemäß dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 optimierten Sequenz (SEQ ID NO: 18) auf. Diese großen Unterschiede zeigen erneut, dass das erfindungsgemäße Optimierungsverfahren auch für eine Optimierung in Säugerzellen, hier Homo sapiens , zu einem völlig anderen Ergebnis führt als das Verfahren gemäß dem aktuellen Stand der Technik.
Nach der Optimierung betrug der gewichtete Mittelwert in der erfindungsgemäßen Aus führungs form mit n = 3 (SEQ ID NO: 18) Fw = -13,1. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten im Wildtyp (SEQ ID NO: 15) Fw = -39,1, für die Referenzsequenz SEQ ID NO: 16 Fw = -148,0 und für die Referenzsequenz SEQ ID NO: 17 Fw = -36,3.
Im Übrigen erfolgte die Durchführung der Expressionsversuche im Wesentlichen wie in Vergleichsbeispiel 3 beschrieben. Die Ergebnisse sind in Fig. 10 und Fig. 11 gezeigt.
Fig. 10 zeigt den Vergleich zwischen SEQ ID NO: 16 und SEQ ID NO: 18. Fig. 10A zeigt eine Abbildung des Western Blots, gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG getaggte NOSIP sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH. Bahn 1 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO: 16 (Referenz ) , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der eingefügten SEQ ID NO : 18 , die erfindungsgemäß optimiert wurde . NOS IP wurde von beiden Plasmiden ausweislich der durch den spezi fischen HRP-gekoppelten Sekundärantikörper gefärbten Banden erfolgreich exprimiert , j edoch zeigt die Bandenstärke eine erheblich bessere Proteinausbeute durch die Expression der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO : 18 im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO : 16 .
In dem in Fig . 10B gezeigten Säulendiagramm ist die relative Proteinausbeute an NOS IP in Abhängigkeit von der j eweils verwendeten Nukleotidsequenz dargestellt , wobei die quantitativ ermittelte Proteinmenge wie vorhergehend beschrieben mithil fe der Ladekontrolle GAPDH zunächst auf die Zellmenge normalisiert und anschließend auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO : 16 bezogen wurde . Die schraf fierten Säulen zeigen das Ergebnis der Quanti fi zierung anhand der Bandenintensität des Western Blots . Die Quanti fi zierung ergab, dass durch die erfindungsgemäße Optimierung der NOS IP-Nukleotidsequenz mit n = 3 die Proteinausbeute gegenüber der herkömmlichen Optimierung um den Faktor 31 erhöht werden konnte .
Eine derart signi fikante Verbesserung der Expressionsrate eines membranständigen Humanproteins mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz im Vergleich zum aktuellen Stand der Technik ist für den Fachmann bei Weitem nicht zu erwarten gewesen . Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber etablierten Konzepten für eukaryotische Expressionssysteme abermals deutlich belegt . Fig . 11 zeigt den Vergleich zwischen SEQ ID NO : 17 und SEQ ID NO : 18 . Fig . 11A zeigt eine Abbildung des Western Blots , gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG getaggte NOS IP sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH . Bahn 1 enthält das Expressionsprodukt des Plasmids mit der gemäß WO 2020/ 024917 Al optimierten Referenzsequenz SEQ ID NO : 17 , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der erfindungsgemäß optimierten Sequenz SEQ ID NO : 18 . NOS IP wurde von beiden Plasmiden ausweislich der durch den spezi fischen HRP-gekoppelten Sekundärantikörper gefärbten Banden erfolgreich exprimiert . Es ist bereits anhand der Bandenstärke erkennbar, dass das Plasmid mit der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO : 18 zu einer gesteigerten Proteinausbeute im Vergleich zum Plasmid mit der herkömmlich optimierten Nukleotidsequenz SEQ ID NO : 17 führte .
In dem in Fig . 11B gezeigten Säulendiagramm ist die relative Proteinausbeute an NOS IP in Abhängigkeit von der j eweils verwendeten Nukleotidsequenz dargestellt , wobei die quantitativ ermittelte Proteinmenge wie vorhergehend beschrieben mithil fe der Ladekontrolle GAPDH zunächst auf die Zellmenge normalisiert und anschließend auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO : 17 bezogen wurde . Die schraf fierten Säulen zeigen das Ergebnis der Quanti fi zierung anhand der Bandenintensität des Western Blots . Die Quanti fi zierung ergab, dass die erfindungsgemäße Optimierung der NOS IP-Nukleotidsequenz mit n = 3 die Proteinausbeute um mehr als 60% steigerte .
Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber der technischen Lehre des aktuellen Standes der Technik, hier WO 2020/ 024917 Al , auch für eukaryotische Expressionssysteme belegt . Vergleichsbeispiel 8 : Expression von NOS IP in HEK293 Zellkultur
In einem weiteren Vergleichsversuch wurden die beiden in Vergleichsbeispiel 7 verwendeten optimierten Nukleotidsequenzen von NOS IP SEQ ID NO : 16 (Referenz ) und SEQ ID NO : 18 in HEK293 Zellen exprimiert . Im Übrigen erfolgte die Versuchsdurchführung im Wesentlichen wie in Vergleichsbeispiel 7 beschrieben .
Die Ergebnisse sind in Fig . 12 gezeigt . Fig . 12A zeigt eine Abbildung des Western Blots , gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für das FLAG getaggte NOS IP sowie gefärbt mit dem HRP-gekoppeltem Sekundärantikörper für die Ladekontrolle GAPDH . Bahn 1 enthält das Expressionsprodukt des Plasmids mit der konventionell optimierten SEQ ID NO : 16 (Referenz ) , Bahn 2 enthält das Expressionsprodukt des Plasmids mit der erfindungsgemäß optimierten SEQ ID NO : 18 . NOS IP ließ sich mit beiden Plasmiden ausweislich der durch den spezi fischen HRP- gekoppelten Sekundärantikörper gefärbten Banden auch in HEK293 Zellen erfolgreich exprimieren, wobei die Bandenstärke eine deutlich bessere Expression der erfindungsgemäß optimierten Nukleotidsequenz SEQ ID NO : 18 zeigt .
In dem in Fig . 12B gezeigten Säulendiagramm ist die relative Proteinausbeute an NOS IP in Abhängigkeit von der j eweils verwendeten Nukleotidsequenz dargestellt , wobei die quantitativ ermittelte Proteinmenge wie vorhergehend beschrieben mithil fe der Ladekontrolle GAPDH zunächst auf die Zellmenge normalisiert und anschließend auf die Proteinmenge aus dem Referenzversuch mit SEQ ID NO : 16 bezogen wurde . Die schraf fierten Säulen zeigen das Ergebnis der Quanti fi zierung anhand der Bandenintensität des Western Blots . Die Quanti fi zierung ergab, dass die erfindungsgemäße Optimierung der NOS IP-Nukleotidsequenz mit n = 3 die Proteinausbeute auch im HEK293 Expressionssystem gegenüber der herkömmlichen Sequenzoptimierung um etwa das Vierfache steigerte .
Auch hier ist wie im Falle von Vergleichsversuchen 4 und 6 eine signi fikante Verbesserung der Expressionsrate in HEK293 Zellen mithil fe des erfindungsgemäßen Verfahrens zur Optimierung der proteincodierenden Nukleotidsequenz bestätigt . Eine universelle Anwendbarkeit des erfindungsgemäßen Verfahrens in Säugerzellkultur ist dadurch gegeben . Damit ist die Überlegenheit des erfindungsgemäßen Optimierungsverfahrens gegenüber etablierten Optimierungskonzepten für eukaryotische Expressionssysteme erneut bestätigt .
Vergleichsbeispiel 9 : Heterologe Expression von eqFP611 im Cyanobakterium Synechococcus el onga tus
In einem weiteren Vergleichsversuch wurden die Nukleotidsequenzen des fluores zierenden Proteins eqFP611 für die heterologe Expression in S . el onga tus nach dem erfindungsgemäßen Verfahren und nach dem Verfahren gemäß WO 2020/ 024917 Al als Referenz optimiert . eqFP611 ist ein rot fluores zierendes Protein (RFP ) aus Entacmaea quadri col or und wird häufig für Reporter- Assays und in der Fluores zenzmikroskopie verwendet .
Für die Expression von eqFP611 in S . el onga tus als Zielorganismus wurden zwei pSyn- 6 Expressionsplasmide ( Thermo Fisher, Waltham, MA, USA) von der Firma Genscript bezogen, welche die Aminosäuresequenz von eqFP611 mit einem doppelten Strep-Tag am N-Terminus unter einem konstitutivem psbAl Promotor codiert . Eines der Plasmide enthielt die eqFP611-codierende Nukleotidsequenz mit doppeltem Strep-Tag nach Optimierung gemäß WO 2020/ 024917 Al ( SEQ ID NO : 20 ) . Das andere Plasmid enthielt die eqFP611-codierende Nukleotidsequenz mit doppeltem Strep-Tag nach Optimierung gemäß dem erfindungsgemäßen Verfahren mit n = 3 (SEQ ID NO:21) , wobei für die erfindungsgemäße Bestimmung der relativen Codon-n-Tupel-Häuf igkeit die für Proteine codierenden Teile des S. elongatus Genoms zugrunde gelegt wurden.
Das Optimierungsverfahren erfolgte wie in Vergleichsbeispiel 1 beschrieben. Analog zur Optimierung für E. coli als Wirt wurden für S. elongatus als optionaler Schritt in Feld 108 die unerwünschten Sequenzmotive wie z. B. die ribosomale Bindestelle AGGAGG, von denen dem Fachmann bekannt ist, dass sie die Expression in S. elongatus beeinträchtigen können, eingegeben. Weitere unerwünschte Sequenzmotive waren GGGGGG, CGCGCG, ATTTA, CATATG, GGTACC und GTCGAC. Die Anzahl der unerwünschten Sequenzmotive wurde mit r = 0, 62 gewichtet. Die Anzahl L der in die Optimierung einbezogenen Codons in der Nukleotidsequenz ist in diesem Beispiel 768, die Terminatorsequenz und die terminalen Restriktionsschnittstellen wurden nicht optimiert.
Das Sequenzprotokoll zeigt, dass sich die für die heterologe Expression von eqFP611 in S. elongatus erfindungsgemäß optimierte Nukleotidsequenz (SEQ ID NO: 21) von der gemäß dem Stand der Technik optimierten Sequenz (SEQ ID NO: 20) auf Nukleotidebene deutlich unterscheidet. So hat die nach dem Stand der Technik optimierte Sequenz (SEQ ID NO: 20) nur 89,8% identische Nukleotide mit der gemäß dem erfindungsgemäßen Verfahren in der Aus führungs form mit n = 3 optimierten Sequenz (SEQ ID NO: 21) . Diese großen Unterschiede sind angesichts der vorgegebenen Aminosäuresequenz aus fachmännischer Sicht überraschend und zeigen, dass das erfindungsgemäße Optimierungsverfahren auch für eine Optimierung in Cyanobakterien, hier S. elongatus, zu einem völlig anderen Ergebnis führt als das Optimierungsverfahren gemäß dem aktuellen Stand der Technik.
Nach der Optimierung betrug der gewichtete Mittelwert in der erfindungsgemäßen Aus führungs form mit n = 3 (SEQ ID NO: 21) Fw = -8,7. Eine analoge Vergleichsberechnung ergab einen gewichteten Mittelwert der relativen Codon-3-Tupel-Häuf igkeiten für die Referenzsequenz gemäß WO 2020/024917 Al (SEQ ID NO:20) von Fw = -496, 2.
Für die Expression von eqFP611 in S. elongatus wurde das Herstellerprotokoll des „GeneArt algal protein expression system" (Thermo Fisher) befolgt. Die Weiterbehandlung der cyanobakteriellen Biomasse erfolgt wie in Vergleichsbeispiel 1 für E. coli beschrieben. Das exprimierte eqFP611 Protein wird über Streptactin gereinigt und durch SDS-PAGE quantifiziert. Zusätzlich werden Fraktionen der eqFP611-Zellysate für zwei Minuten bei 13.000 g zentrifugiert und die eqFP611-Fluoreszenz im Überstand in einem Tecan Spark Plate Reader bei einer Anregungswellenlänge von 559 nm und einer Emissionswellenlänge von 611 nm in Triplikaten gemessen.
Als Ergebnis dieses Versuches ist auch für Cyanobakterien eine ähnlich hohe Steigerung der löslichen Proteinausbeute durch das erfindungsgemäße Verfahren zu erwarten, wie bereits in den Vergleichsbeispielen 1-8 für bakterielle und eukaryotische Expressionssysteme beschrieben.
Die Erfindung ist nicht durch die Beschreibung anhand der Ausführungsbeispiele auf diese beschränkt. Vielmehr umfasst die Erfindung jedes neue Merkmal sowie jede Kombination von Merkmalen, was insbesondere jede Kombination von Merkmalen in den Patentansprüchen und der Beschreibung beinhaltet, auch wenn dieses Merkmal oder diese Kombination von Merkmalen selbst nicht expli zit in den Patentansprüchen, der Beschreibung oder den Aus führungsbeispielen angegeben ist .

Claims

Patentansprüche
1 . Ein Verfahren zur Optimierung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in mindestens einem Zielorganismus , wobei die Nukleotidsequenz eine Viel zahl von Basentripletts umfasst und an mindestens einer Änderungsposition der Nukleotidsequenz ein Basentriplett , das eine Aminosäure der vorgegebenen Aminosäuresequenz codiert , durch ein synonymes Basentriplett , das dieselbe Aminosäure der vorgegebenen Aminosäuresequenz codiert , ersetzt wird, um die Nukleotidsequenz für die Expression in dem mindestens einen Zielorganismus zu optimieren, dadurch gekennzeichnet , dass die mindestens eine Änderungsposition eine direkte Aufeinanderfolge von n Basentripletts umfasst , die ein erstes Codon-n-Tupel bildet und einen Sequenzabschnitt von n Aminosäuren der vorgegebenen Aminosäuresequenz codiert , der ein Aminosäure-n-Tupel bildet , das mit einer vorbestimmten Menge von Aminosäure-n-Tupel- Ereignissen im Genom oder eines Teils davon des mindestens einen Zielorganismus und/oder in Genomen oder Teilen davon von zur Infektion des mindestens einen Zielorganismus befähigten Viren codiert wird, und mindestens eines der n Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt wird, das so gewählt ist , dass ein zweites Codon-n-Tupel resultiert , das bezogen auf die Menge von Aminosäure-n-Tupel- Ereignissen eine höhere relative Codon-n-Tupel-Häuf igkeit in dem Genom oder des Teils davon des mindestens einen Zielorganismus und/oder in den Genomen oder der Teile davon der zur Infektion des mindestens einen Zielorganismus befähigten Viren aufweist als das erste Codon-n-Tupel , wobei n eine natürliche Zahl größer gleich zwei und kleiner gleich einer Gesamtzahl N der Aminosäuren der vorgegebenen Aminosäuresequenz ist. Das Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass n kleiner gleich 50, kleiner gleich 40, kleiner gleich 30, kleiner gleich 20 oder kleiner gleich 10 ist. Das Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass n ausgewählt ist aus der Gruppe bestehend aus n = 2, n = 3, n = 4, n = 5 und beliebigen Kombinationen davon. Das Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Menge von Aminosäure-n-Tupel- Ereignissen anhand von mehreren proteincodierenden Genen und/oder Proteinen des mindestens einen Zielorganismus und/oder der zur Infektion des mindestens einen Zielorganismus befähigten Viren bestimmt wird und/oder sich daraus ergibt. Das Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die relative Codon-n-Tupel-Häuf igkeit anhand einer Menge von Ereignissen des jeweils ersten und/oder zweiten Codon-n-Tupels in mehreren proteincodierenden Genen des mindestens einen Zielorganismus und/oder der zur Infektion des mindestens einen Zielorganismus befähigten Viren, der die Menge von Aminosäure-n-Tupel-Ereignissen zugrunde gelegt wird, bestimmt wird und/oder sich daraus ergibt. Das Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die folgenden Schritte umfasst sind: a ) Bestimmen der mindestens einen Änderungsposition; b ) Ersetzen des mindestens einen Basentripletts der mindestens einen Änderungsposition durch das synonyme Basentriplett ; c ) Ermitteln der relativen Codon-n-Tupel-Häuf igkeit des resultierenden zweiten Codon-n-Tupels . Das Verfahren nach einem der Ansprüche 1 bis 6 , dadurch gekennzeichnet , dass die mindestens eine Änderungsposition eine Viel zahl von Änderungspositionen ist , wobei in j eder der Änderungspositionen mindestens eines der n Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt wird, wobei die synonymen Basentripletts so gewählt sind, dass zumindest ein Teil der resultierenden zweiten Codon-n-Tupel eine höhere relative Codon-n-Tupel-Häuf igkeit aufweist als die j eweiligen ersten Codon-n-Tupel . Das Verfahren nach Anspruch 7 , dadurch gekennzeichnet , dass in der Änderungsposition mit dem ersten Codon-n-Tupel , das die geringste relative Codon-n-Tupel-Häuf igkeit aufweist , mindestens eines der n Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt wird, das so gewählt ist , dass das resultierende zweite Codon-n-Tupel eine höhere relative Codon-n-Tupel-Häuf igkeit als das erste Codon-n-Tupel aufweist . Das Verfahren nach einem der Ansprüche 7 oder 8 , dadurch gekennzeichnet , dass sich die direkten Aufeinanderfolgen der n Basentripletts von mindestens zwei Änderungspositionen überschneiden, wobei das Basentriplett , das durch das synonyme Basentriplett ersetzt wird, von beiden Änderungspositionen gleichzeitig umfasst ist . Das Verfahren nach Anspruch 9 , dadurch gekennzeichnet , dass das synonyme Basentriplett so gewählt ist , dass in einer der beiden Änderungspositionen das resultierende zweite Codon-n- Tupel eine geringere relative Codon-n-Tupel-Häuf igkeit und in der anderen der beiden Änderungspositionen das resultierende zweite Codon-n-Tupel eine höhere relative Codon-n-Tupel- Häufigkeit als das j eweilige erste Codon-n-Tupel aufweist . Das Verfahren nach einem der Ansprüche 7 bis 10 , dadurch gekennzeichnet , dass die relative Codon-n-Tupel-Häuf igkeit der ersten Codon-n-Tupel und die relative Codon-n-Tupel- Häufigkeit der zweiten Codon-n-Tupel in den Änderungspositionen j eweils ein globales Minimum aufweist , wobei das globale Minimum der zweiten Codon-n-Tupel größer ist als das globale Minimum der ersten Codon-n-Tupel . Das Verfahren nach einem der Ansprüche 7 bis 11 , dadurch gekennzeichnet , dass die synonymen Basentripletts so gewählt werden, dass die relative Codon-n-Tupel-Häuf igkeit der zweiten Codon-n-Tupel einen größtmöglichen Mindestwert erreicht oder nicht mehr als 50% unterhalb des größtmöglichen Mindestwertes liegt . Das Verfahren nach einem der Ansprüche 7 bis 12 , dadurch gekennzeichnet , dass die synonymen Basentripletts so gewählt werden, dass ein Mittelwert aus den relativen Codon-n-Tupel- Häufigkeiten der zweiten Codon-n-Tupel einen Höchstwert erreicht oder nicht mehr als 50% unterhalb des erreichbaren Höchstwertes liegt . Das Verfahren nach Anspruch 13 , dadurch gekennzeichnet , dass der Mittelwert eine degressive Wichtung der relativen Codon- n-Tupel-Häuf igkeiten enthält , die so konfiguriert ist , dass eine hohe relative Codon-n-Tupel-Häuf igkeit im Vergleich zu einer niedrigeren relativen Codon-n-Tupel-Häuf igkeit einen betragsmäßig unterproportionalen Einfluss auf den Mittelwert hat . Das Verfahren nach einem der Ansprüche 7 bis 14 , dadurch gekennzeichnet , dass sich mindestens zwei der Änderungspositionen in der Zahl n unterscheiden oder n für mindestens zwei der Änderungspositionen unterschiedlich gewählt wird . Das Verfahren nach einem der Ansprüche 7 bis 15 , dadurch gekennzeichnet , dass das Ersetzen der Basentripletts durch die synonymen Basentripletts in mehreren Iterationsschritten durch ein computergestütztes Optimierungsverfahren durchgeführt wird . Das Verfahren nach Anspruch 16 , dadurch gekennzeichnet , dass das computergestützte Optimierungsverfahren ein Approximationsverfahren und/oder simuliertes Abkühlungsverfahren ( Simulated Annealing) umfasst . Das Verfahren nach einem der Ansprüche 7 bis 17 , dadurch gekennzeichnet , dass die Änderungspositionen zusammen mindestens 50% der Basentripletts der Nukleotidsequenz umfassen, die eine Aminosäure der vorgegebenen Aminosäuresequenz codieren . Das Verfahren nach einem der Ansprüche 1 bis 18 , dadurch gekennzeichnet , dass der mindestens eine Zielorganismus eine Mehrzahl von verschiedenen Zielorganismen ist , wobei die relative Codon-n-Tupel-Häuf igkeit eine genomabhängige Wichtung enthält , die so konfiguriert ist , dass ein Größenunterschied in den Genomen oder den Teilen davon der verschiedenen Zielorganismen zumindest teilweise kompensiert wird . Das Verfahren nach einem der Ansprüche 1 bis 19 , dadurch gekennzeichnet , dass nach der Optimierung der Nukleotidsequenz die in dem mindestens einen Zielorganismus exprimierte Aminosäuresequenz eine größere Löslichkeit aufweist und/oder zu einem größeren Anteil in gelöster Form vorliegt als vor der Optimierung . Ein Verfahren zur Optimierung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in mindestens einem Zielorganismus , wobei die Nukleotidsequenz eine Viel zahl von Basentripletts umfasst und an mindestens einer Änderungsposition der Nukleotidsequenz ein Basentriplett , das eine Aminosäure der vorgegebenen Aminosäuresequenz codiert , durch ein synonymes Basentriplett , das dieselbe Aminosäure der vorgegebenen Aminosäuresequenz codiert , ersetzt wird, um die Nukleotidsequenz für die Expression in dem mindestens einen Zielorganismus zu optimieren, dadurch gekennzeichnet , dass die mindestens eine Änderungsposition eine direkte Aufeinanderfolge von n Basentripletts umfasst , die ein erstes Codon-n-Tupel bildet und einen Sequenzabschnitt von n Aminosäuren der vorgegebenen Aminosäuresequenz codiert , der ein Aminosäure-n-Tupel bildet , und mindestens eines der n Basentripletts der direkten Aufeinanderfolge durch ein synonymes Basentriplett ersetzt wird, welches anhand einer Schätz funktion so ausgewählt wird, dass ein zweites Codon-n-Tupel resultiert , welches das Aminosäure-n-Tupel mit einer größeren Wahrscheinlichkeit im Genom oder eines Teils davon des mindestens einen Zielorganismus und/oder in Genomen oder Teilen davon von zur Infektion des mindestens einen Zielorganismus befähigten Viren codiert als das erste Codon-n-Tupel , wobei n eine natürliche Zahl größer gleich zwei und kleiner gleich einer Gesamtzahl N der Aminosäuren der vorgegebenen Aminosäuresequenz ist . Eine Verwendung einer gemäß dem Verfahren nach einem der Ansprüche 1 bis 21 optimierten Nukleotidsequenz zur Herstellung einer synthetischen DNA und/oder zur Proteinexpression in mindestens einem Zielorganismus . Ein Computerprogramm mit Programmcodemitteln, dadurch gekennzeichnet , dass die Programmcodemittel zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 21 eingerichtet sind, wenn das Computerprogramm auf einem Rechner ausgeführt wird . Ein computerlesbares Speichermedium mit einem in computerlesbarer Form gespeicherten Computerprogramm nach Anspruch 23 . Eine Vorrichtung zur Optimierung und/oder Herstellung einer Nukleotidsequenz für die Expression einer vorgegebenen Aminosäuresequenz in mindestens einem Zielorganismus , mit einer Recheneinrichtung, die zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 21 eingerichtet ist . Ein Verfahren zur Herstellung eines Proteins , umfassend
Bereitstellen einer Nukleotidsequenz , die gemäß einem
Verfahren nach einem der Ansprüche 1 bis 21 für die Expression des Proteins in mindestens einem Zielorganismus optimiert wurde ,
Exprimieren des Proteins in dem mindestens einen Zielorganismus .
27 . Ein Nukleinsäuremolekül , das eine Nukleotidsequenz umfasst , die durch ein Verfahren nach einem der Ansprüche 1 bis 21 erhalten wurde . 28 . Ein Vektor, der ein Nukleinsäuremolekül nach Anspruch 27 umfasst .
29 . Eine rekombinante Wirts zelle , die ein Nukleinsäuremolekül nach Anspruch 27 oder einen Vektor nach Anspruch 28 enthält .
PCT/EP2023/070275 2022-07-22 2023-07-21 Verfahren zur optimierung einer nukleotidsequenz durch austausch synonymer codons für die expression einer aminosäuresequenz in einem zielorganismus WO2024018050A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102022118459.5 2022-07-22
DE102022118459.5A DE102022118459A1 (de) 2022-07-22 2022-07-22 Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus

Publications (1)

Publication Number Publication Date
WO2024018050A1 true WO2024018050A1 (de) 2024-01-25

Family

ID=87554859

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2023/070275 WO2024018050A1 (de) 2022-07-22 2023-07-21 Verfahren zur optimierung einer nukleotidsequenz durch austausch synonymer codons für die expression einer aminosäuresequenz in einem zielorganismus

Country Status (2)

Country Link
DE (1) DE102022118459A1 (de)
WO (1) WO2024018050A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022118459A1 (de) 2022-07-22 2024-01-25 Proteolutions UG (haftungsbeschränkt) Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059556A2 (de) 2002-12-23 2004-07-15 Geneart Gmbh Verfaren und vorrichtung zum optimieren einer nucleotidsequenz zur expression eines proteins
WO2007130650A2 (en) 2006-05-04 2007-11-15 The Regents Of The University Of California Methods for calculating codon pair-based translational kinetics values, and methods for generating polypeptide-encoding nucleotide sequences from such values
WO2008000632A1 (en) 2006-06-29 2008-01-03 Dsm Ip Assets B.V. A method for achieving improved polypeptide expression
WO2018104385A1 (en) 2016-12-07 2018-06-14 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Codon optimization
WO2020024917A1 (en) 2018-07-30 2020-02-06 Nanjingjinsirui Science & Technology Biology Corp. Codon optimization
DE102022118459A1 (de) 2022-07-22 2024-01-25 Proteolutions UG (haftungsbeschränkt) Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059556A2 (de) 2002-12-23 2004-07-15 Geneart Gmbh Verfaren und vorrichtung zum optimieren einer nucleotidsequenz zur expression eines proteins
WO2007130650A2 (en) 2006-05-04 2007-11-15 The Regents Of The University Of California Methods for calculating codon pair-based translational kinetics values, and methods for generating polypeptide-encoding nucleotide sequences from such values
WO2008000632A1 (en) 2006-06-29 2008-01-03 Dsm Ip Assets B.V. A method for achieving improved polypeptide expression
WO2018104385A1 (en) 2016-12-07 2018-06-14 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Codon optimization
WO2020024917A1 (en) 2018-07-30 2020-02-06 Nanjingjinsirui Science & Technology Biology Corp. Codon optimization
DE102022118459A1 (de) 2022-07-22 2024-01-25 Proteolutions UG (haftungsbeschränkt) Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"The NCBI Handbook", 2013, NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION, article "The Reference Sequence (RefSeq) Database"
HUANG YIDE ET AL: "Codon pair optimization (CPO): a software tool for synthetic gene design based on codon pair bias to improve the expression of recombinant proteins in Pichia pastoris", MICROBIAL CELL FACTORIES, vol. 20, no. 1, 4 November 2021 (2021-11-04), XP093088925, Retrieved from the Internet <URL:https://link.springer.com/article/10.1186/s12934-021-01696-y/fulltext.html> DOI: 10.1186/s12934-021-01696-y *
NUCLEIC ACIDS RESEARCH, vol. 41, 2013, pages D36 - 42
TRAN TUAN-ANH ET AL: "Novel methods to optimize gene and statistic test for evaluation - an application for", BMC BIOINFORMATICS, BIOMED CENTRAL LTD, LONDON, UK, vol. 18, no. 1, 10 February 2017 (2017-02-10), pages 1 - 10, XP021239588, DOI: 10.1186/S12859-017-1517-Z *

Also Published As

Publication number Publication date
DE102022118459A1 (de) 2024-01-25
DE102022118459A9 (de) 2024-03-28

Similar Documents

Publication Publication Date Title
AT501955B1 (de) Mutierte aox1-promotoren
EP3321365B1 (de) Neue aus pflanzen stammende cis-regulatorische elemente für die entwicklung pathogen-responsiver chimärer promotoren
EP1891220B1 (de) Autoaktiviertes resistenzprotein
EP0616035A2 (de) Transgener Pathogen-resistenter Organismus
WO2024018050A1 (de) Verfahren zur optimierung einer nukleotidsequenz durch austausch synonymer codons für die expression einer aminosäuresequenz in einem zielorganismus
EP1040193B1 (de) Promotor aus ashbya gossypii
CH640268A5 (en) Process for the preparation of filamentous hybrid phages, novel hybrid phages and their use
DE10252245A1 (de) Verfahren zur Expression und Sekretion von Proteinen mittels der nicht-konventionellen Hefe Zygosaccharomyces bailii
EP1504103B1 (de) Promotoren mit veränderter transkriptionseffizienz aus der methylotrophen hefe hansenula polymorpha
DE69435058T2 (de) Multicloning-vektor, expressionsvektor und herstellung von fremdproteinen unter verwendung des expressionsvektors
EP1918379A1 (de) Expressionsvektoren zur multiplen Gen-Integration und Überexpression von homologen und heterologen Proteinen in Hefen der Gattung Arxula
EP1570062B1 (de) Optimierte proteinsynthese
DE10205091B4 (de) Verfahren zur Vorhersage der Expressionseffizienz in zellfreien Expressionssystemen
DE10022334A1 (de) Proteinproduktion in der Hefe Arxula
EP1235906B1 (de) Verfahren zur mutagenese von nukleotidsequenzen aus pflanzen, algen, oder pilzen
WO2002053758A2 (de) Verfahren zum herstellen von heterologen proteinen in einem homothallischen pilz der familie sordariaceae
EP1084231A1 (de) Transformierte zell-linien, die heterologe g-protein-gekoppelte rezeptoren exprimieren
WO2023006995A1 (de) Collinolacton-biosynthese und herstellung
WO2001005976A1 (de) Mutiertes ribosomales protein l3
DE19839567A1 (de) Organismen zur extrazellulären Herstellung von Riboflavin
WO2004076672A2 (de) Neuer dominanter selektionsmarker zur transformation von pilzen
DE102015107846A1 (de) Synthetische Organellen in Hefe
WO1996017068A2 (de) Pathogenresistente pflanzen und verfahren zu ihrer herstellung
DE10123857A1 (de) Verfahren zum Herstellen von heterologen Proteinen in einem homothallischen Pilz der Familie Sordariaceae
DD261503A3 (de) Verfahren zur Herstellung von Hefe-Vektoren des Yep-Typs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23750552

Country of ref document: EP

Kind code of ref document: A1