WO2023170844A1 - 機械学習によるライブラリーの作製方法 - Google Patents

機械学習によるライブラリーの作製方法 Download PDF

Info

Publication number
WO2023170844A1
WO2023170844A1 PCT/JP2022/010438 JP2022010438W WO2023170844A1 WO 2023170844 A1 WO2023170844 A1 WO 2023170844A1 JP 2022010438 W JP2022010438 W JP 2022010438W WO 2023170844 A1 WO2023170844 A1 WO 2023170844A1
Authority
WO
WIPO (PCT)
Prior art keywords
sublibrary
target
library
sequence
binding
Prior art date
Application number
PCT/JP2022/010438
Other languages
English (en)
French (fr)
Inventor
光央 梅津
光 中澤
智之 伊藤
早矢 河田
羽美 西
倫史 亀田
裕 齋藤
トゥイズオン グエン
遥一 来見田
宏治 津田
Original Assignee
国立大学法人東北大学
国立研究開発法人産業技術総合研究所
国立大学法人 東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東北大学, 国立研究開発法人産業技術総合研究所, 国立大学法人 東京大学 filed Critical 国立大学法人東北大学
Priority to PCT/JP2022/010438 priority Critical patent/WO2023170844A1/ja
Publication of WO2023170844A1 publication Critical patent/WO2023170844A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA

Definitions

  • the present invention relates to a method for producing a nucleic acid library using machine learning. More specifically, the present invention relates to a method for producing a nucleic acid library containing a large number of nucleic acids encoding a target protein by using more appropriate data as machine learning data.
  • Non-patent Document 1 data sets that directly or indirectly link amino acid sequences to functions and physical property values.
  • a direct linkage data set the functions and physical property values of each mutant are measured for each mutant, and these functional and physical property values are linked to the array of the corresponding mutant (for example, Non-Patent Document 1).
  • indirect linked datasets functional and physical property values are not directly measured, and data sets are created using the number of amino acid sequence reads obtained through deep sequence analysis as a substitute for functional and physical property values (Non-patent Documents 2 and 3). ).
  • Direct linking between amino acid sequences and functional/physical property values has the potential to become a high-quality data set for machine learning, but it is difficult to create large-scale data sets, and it is difficult to create large-scale data sets. The size remains, and the arrays that can be searched are also limited.
  • the data quality of indirect linkage is lower than that of direct linkage datasets, it can take advantage of the large size of amino acid sequence data obtained by deep sequence analysis. Therefore, when the position and number of mutated residues or the number of amino acids that occur are limited, a direct linking dataset is applied, and an indirect linking dataset is applied to discover antibody lead molecules using molecular presentation methods. There are many things to do.
  • Biopanning from a molecular library using the phage display method is an effective method for obtaining target-binding antibody fragments and antibody-like molecules from a large group of about 10 mutants.
  • NGS next-generation sequencer
  • machine learning was performed by estimating that sequences with a high abundance (high enrichment) in the library after selection are sequences with high binding strength. An operation to do this has been reported (Patent Document 1).
  • machine learning was carried out using data of a population after E. coli infection ((v) in Figure 1A) or after phage amplification ((vi) in Figure 1A) in the phage display method (Non-patent Document 2). .
  • Non-patent document 4 Non-patent document 4
  • An object of the present invention is to provide a library containing nucleic acids encoding a protein of interest.
  • the objective is to provide a method for obtaining a library containing target functional molecules even from biopanning operations in which clear positive mutants have not been obtained.
  • the estimated binding strength to the target was calculated using the sequence data of the sublibraries at various stages, and the correlation with the actual value of the mutant was evaluated.
  • the sublibrary data from the target-binding sequence elution step ((iv) in Figure 1A)
  • estimated binding strengths that are highly correlated with actual values can be obtained even if the enrichment of sequences is smaller than that caused by biased selection.
  • a method for producing a nucleic acid library comprising: 1) preparing a first library consisting of mutants in which mutations are randomly introduced into a nucleic acid sequence encoding a protein that binds to a target or that is desired to bind, by a phage display method; 2) performing biopanning on the first library and obtaining data to be used for machine learning from the obtained sublibrary; and 3) performing machine learning using the data to perform machine learning prediction.
  • the data used for the machine learning includes the sequences of the mutant population included in the sublibrary in the target binding sequence elution operation step, the estimated binding strength to the target, and the targets of some mutants included in the mutant population. said method, comprising an actual value of binding to.
  • the data used for machine learning is processed in the following steps: i) obtaining data on sequences and their frequency of occurrence for the sublibrary in the target binding sequence elution step and the sublibrary in one or more steps different from the above step; ii) calculating a score indicating the estimated binding strength to the target from the frequency of appearance; iii) The method according to [1], which is obtained by the step of determining the score, the measured value of binding to the target, and the sequence data giving them as data to be used for machine learning.
  • the one or more different steps are selected from the group consisting of a non-specific binding sequence removal step, a target binding sequence selection step, an E. coli infection step, and a selected sequence amplification step in the same round.
  • the score is calculated using the ratio of the frequency of occurrence of the sublibrary in the target binding sequence elution step and the sublibrary in the nonspecific binding sequence removal step in the same round, or in different rounds.
  • the present invention (1) uses a sublibrary at the target binding sequence elution step as a phage population at the appropriate stage; (2) targets a larger sequence space rather than just the top sequences predicted by machine learning. (3) The second library can be realized at a low cost by using the phage display method again.
  • the present invention it is possible to construct a library containing more nucleic acids encoding a protein of interest. Thereby, the functions of industrially useful proteins such as antibodies and enzymes can be efficiently improved.
  • A An example of biopanning.
  • B Biopanning of Examples 1 and 2 Amino acid sequence of 2u2f protein Polyclonal phage ELISA using amplified phage after each round Binding evaluation was performed using undiluted, 5-fold diluted, and 25-fold diluted samples from a polyclonal phage amount of 5.0 ⁇ 10 11 cfu. Each sample was detected using anti-M13 phage-HRP antibody.
  • C6 mutant Purification of C6 mutant by size exclusion chromatography (arrow indicates monomer fraction)
  • B Binding evaluation of C6 mutant by ELISA (black): Galectin via NeutrAvidin Binding signal to wells immobilized with -3 (gray): Binding signal to wells with only NeutrAvidin immobilized (no Galectin-3)
  • each axis shows the logarithm of the abundance rate of the mutant in the sublibrary of interest.
  • A Change in the abundance rate of amplified phages from round 1 to round 2 (left), from round 2 to round 3 (middle), and from round 3 to round 4 (right)
  • B 2 (left), 3 (middle), 4 (right) Change in abundance rate from input (amplified phage from previous round) to output (eluted phage) in round 4 (right)
  • F x,n Presence rate in sublibrary n of xth round (number of unique sequence reads/total number of reads of sublibrary) Changes in amino acid frequency at each residue position in rounds 2 and 3
  • Amino acid frequency (-1.0-1.0) log 2 (Amino acid frequency in eluted phage (2nd)/Amino acid frequency in amplified phage (1st)) Frequency of amino acid occurrence at each residue position in the top 10,000 sequences predicted by machine learning Cluster
  • the present invention relates to a method for producing a nucleic acid library using a phage display method.
  • Initial Library a library consisting of mutants in which mutations are randomly introduced into a protein that "binds to a target or is desired to bind" is prepared by a phage display method.
  • this initially prepared library is referred to as an "initial library” or “first library” to distinguish it from a library after enrichment by machine learning.
  • “Initial library” and “first library” are used interchangeably herein.
  • the "protein that binds or is desired to bind to a target” is not particularly limited, but is preferably a functional protein whose properties require improvement, such as an antibody, an antibody-like molecule, or an enzyme.
  • Antibodies also include low-molecular-weight antibodies such as VHH antibodies, and antibody fragments such as Fab, F(ab') 2 , scFv, diabody, and minibody.
  • Antibody-like molecules refer to compounds that, like antibodies, exert their functions by specifically binding to antigens, but are structurally unrelated to antibodies, and are also called antibody mimetics.
  • Antibody-like molecules include, for example, affibodies, affimers, affitins, alphabodies, anticalins, avimers, phinomers, monobodies, DARPins, nanoCLAMPs, and the like.
  • mutant introduction site select a site that affects the property to be optimized.
  • "Affecting properties” means that properties are changed or improved by changing (substitution, deletion, insertion) of amino acids at the relevant site, especially by amino acid substitution.
  • the mutation introduction site is selected from residues including the complementarity determining region (CDR) region, which is the antigen recognition site, and its surroundings, and the CDR is defined by Chothia, AbM, Kabat, Contact, etc. It will be done.
  • CDR complementarity determining region
  • reported mutagenesis sites can be selected, and mutations can be introduced based on the degree of exposure to the surface and the frequency of amino acid appearance at each residue position in naturally occurring homologous proteins. You can also select parts.
  • Consensus engineering is a design based on consensus (consensus design or consensus-based engineering), in which the sequence of a protein is modified so that it approaches the consensus sequence obtained from the alignment of a large number of proteins of a specific family. It is an approach to increase protein stability (Porebski and Buckle, “Consensus protein design” Protein Engineering, Design & Selection, 2016, 29(7):245-251, Steipe B., et al., J. Mol. Biol , 1994, 240(3):188-192, etc.).
  • the amino acid residues of the starting protein are The frequency of occurrence of amino acids at each residue position is calculated using multiple sequence alignment methods (ClustalW, MAFFT, etc.) for a group of amino acid sequences of proteins that belong to the same family as the sequence, and the most frequently conserved amino acid residues are determined as a consensus. Residue. Then, each amino acid residue position in the starting protein is mutated to a consensus residue.
  • sequence alignment methods ClustalW, MAFFT, etc.
  • each amino acid residue position in the starting protein is mutated to a consensus residue.
  • the identification of alignments of immunoglobulin (Ig) variable region fragments is based on the assumption that the variety of mutations observed in germline families results from the elimination of mutations that cause structural instability. The amino acids most frequently observed at a position are considered the most favorable amino acids for thermodynamic stability.
  • protein functions can be modified using only the amino acid sequence, without the need for knowledge of crystal structures or complex in silico calculations.
  • amino acids that do not use consensus residues are simply substituted with consensus residues, structural stability may decrease, or even if structural stability is improved, other functions (e.g., enzymatic activity and antigen binding activity) are often decreased. Therefore, it is important to select the relevant residue position and the amino acid to appear at that position.
  • Mutations can be introduced using overlap extension PCR methods using primers with degenerate codons, error prone PCR methods, random primer methods, inverse PCR methods, DNA shuffling, staggered PCR methods, Kunkel methods, quick change methods, etc. Techniques known in the art can be used. Commercially available mutation introduction kits can also be used.
  • the size of the library is not particularly limited, and is appropriately determined depending on the number of mutation introduction sites. Since there are 20 types of natural amino acids, for example, if there are 3 residues to introduce mutations, the size will be 20 3 or approximately 8,000, and if there are 4 residues, the size will be 20 4 or approximately 160,000.
  • the method of the present invention can be suitably used when the mutation introduction site is seven or more residues, especially when changing the function of binding to a target.
  • Biopanning is an operation to concentrate target proteins through selection using specific binding to a target (see Figure 1A). For example, if the target protein is an antibody or antibody-like molecule, biopanning is performed for binding to an antigen, and for an enzyme, biopanning is performed for binding to a substrate.
  • sequences whose abundance in the library becomes high (highly enriched) by biopanning have a strong binding ability to the target. Therefore, for the mutant population (sublibrary) included in each stage of biopanning, we analyzed the sequences (amino acid sequences and nucleic acid sequences) and their frequency of occurrence (number of reads for a certain mutant/total number of reads in the sublibrary). The enrichment degree of each sequence is determined by analysis, and this is taken as the "estimated binding strength" to the target. The "estimated connection strength" is scored for use in machine learning.
  • the “steps" of biopanning include, for example, the removal of non-specific binding sequences, the selection of target binding sequences, the elution of target binding sequences, and the infection of E. coli in each round of biopanning. , and the step of amplifying selected sequences.
  • the data used for machine learning in the present invention includes the sequence of the mutant population included in the sublibrary in the target binding sequence elution step, the estimated binding strength to the target, and the actual value of binding to the target.
  • Data used for machine learning is obtained, for example, through the following steps. i) Data on the sequences of mutant populations included in each stage and their frequency of occurrence for the target binding sequence elution operation stage of biopanning ((iv) in Figure 1A) and one or more stages different from the above stage. The process of obtaining ii) calculating a score indicating the estimated binding strength to the target from the frequency of appearance (for example, normalizing to a value between 0 and 1); iii) determining the score, the measured value of binding to the target, and the sequence data giving them as data to be used for machine learning.
  • the number of sequences to be analyzed using variants in each sublibrary is not particularly limited as long as it can provide meaningful learning data to artificial intelligence.
  • the number of sequences in the initial library input to the selection operation is preferably 109 sequences, but it may be 100,000 or more sequences.
  • the number of biopanning rounds is not particularly limited, and is appropriately set depending on the number of target mutants and the affinity with the target.
  • biopanning is carried out for 2 or more rounds, preferably 3 or more rounds, 4 or more rounds, generally 2 to 6 rounds, especially 2 to 4 rounds.
  • the one or more different steps may be different steps from the target binding sequence elution operation step in the same round, steps in a different round, or both.
  • the step is one or more steps different from the target binding sequence elution step in the same round.
  • the one or more different steps include a non-specific binding sequence removal step, a target binding sequence selection step, an E. coli infection step, and a selected sequence amplification step in the same round. or from the group consisting of a non-specific binding sequence removal operation step, a target binding sequence selection operation step, a target binding sequence elution operation step, an E. coli infection operation step, and a selected sequence amplification operation step in different rounds. and/or both.
  • the one or more different steps are preferably a non-specific binding sequence removal step and/or a selected sequence amplification step, and more preferably a non-specific binding sequence removal step.
  • the score is a normalized score calculated using, for example, the ratio of the frequency of appearance of the sublibrary in the target binding sequence elution step and the sublibrary in the nonspecific binding sequence removal step or selected sequence amplification step. It is a standardized number. More specifically, the score is calculated using the ratio of the frequency of occurrence of the sublibrary from the target binding sequence elution step and the sublibrary from the nonspecific binding sequence removal step in the same round. Alternatively, it is a normalized/standardized value calculated using the ratio of the frequency of appearance of the sublibrary in the target binding sequence elution step and the sublibrary in the selected sequence amplification step in different rounds.
  • the score is calculated using sublibrary data from the second, third, fourth, or fifth round, preferably from the second to fourth rounds.
  • F x,n (i) represents the abundance rate (number of unique sequence reads/total number of reads of the sublibrary) of the variant i in the sublibrary n of the x-th round.
  • n 4: sublibrary from phage after target binding sequence elution step
  • n 5: sublibrary from E. coli after phage infection
  • Which function to select as the function fx(i) can be determined by calculating the numerical value to be associated with the array using each function and according to its AUC (Area Under the Curve) value.
  • AUC Average Under the Curve
  • an appropriate function can be selected from among functions that give an AUC value of 0.5 or more, 0.6 or more, or 0.7 or more.
  • the above score may be further normalized if necessary.
  • the logarithm of the value of "estimated binding strength” is used as the enrichment rate (ER(i)), and the larger the value of ER(i) is, the better the normalization is.
  • nScore(i) is calculated in order to
  • the score value is converted to an appropriate numerical value according to the processing means used. For example, in the case of COMBO, the score is converted from -1 to 0 and used for machine learning.
  • binding to a target is not particularly limited.
  • observed binding to target is determined by ELISA.
  • Binding to a target can be an indicator of functions such as affinity (binding activity), target specificity, substrate specificity, and catalytic activity. Depending on the measurement conditions, it can also serve as an indicator of structural stability, thermal stability, pH stability, aggregation, salt stability, pressure stability, reduction stability, and modifier stability.
  • Machine Learning is performed using scores selected based on actual measured values of several variants and their sequence information as training data for machine learning. That is, artificial intelligence is made to learn the score values obtained for some of the variants in the library and the sequence information of the corresponding variants, predicts the scores of all the variants in the library, and ranks them. For example, Bayesian optimization is preferable as machine learning.
  • Amino acid sequence information is input by converting characters into numbers (numeric vectors).
  • Such methods can use methods known in the art, such as T-scale, Z-scale, ST-scale, BLOSUM, FASGAI, MSWHIM, ProtFP, ProtFP-Feature, VHSE, Aromaphilicity, PSSM (van Westen et al., J Cheminform. 2013; 5: 41).
  • “Bayesian optimization” is a hyperparameter tuning method, that is, a machine learning method that finds the optimal value (maximum or minimum value) of an unknown function (black box function). Each candidate point is represented by a numerical vector called a descriptor.
  • a machine learning model is trained using the data for the candidate points evaluated so far, and the trained model is used to calculate the predicted value and prediction variance of the model function for the remaining candidate points. .
  • a score depending on the predicted value/prediction variance is calculated, and the candidate point with the highest score is determined as the next evaluation point and the function evaluation is performed. The new data obtained here is added to the teacher data.
  • Second library Using machine learning using data from some of the variants, artificial intelligence predicts the score values of all variants in the library and ranks them. By selecting suitable mutants based on the prediction results, it is possible to create a library that is more enriched in the protein of interest than the initial library. This enriched library is referred to herein as the "second library.”
  • the library may be concentrated two or more times. That is, a second library can be created from the initial library, and then a third library can be created using the second library as the initial library. By repeating this process, concentration can be achieved any number of times.
  • concentration can be achieved any number of times.
  • the "two or more characteristics" used for the first concentration and the characteristics used for the second and subsequent concentration may be the same or different. From the second time onwards, two or more characteristics may be concentrated, or one characteristic may be concentrated.
  • the second library contains sequences that are not predicted by machine learning by designing degenerate codons.
  • the unpredicted sequence is preferably a sequence similar to a sequence predicted by machine learning.
  • Example 1 Creation of functions of antibody-like molecules
  • Antibodies and antibody-like molecules with specific molecule recognition ability are selected using an integrated genotype-phenotype system such as biopanning from a molecular library using the phage display method. It can be obtained by However, it is often impossible to obtain mutants with appropriate desired functions and physical properties.
  • NGS next-generation sequencers
  • NGS analysis for the purpose of creating antibody-like molecules, we will use NGS analysis to develop a machine learning process that can obtain target functional molecules even from biopanning operations where mutants with appropriate functions and physical properties have not been obtained.
  • Create training data by selecting appropriate sub-libraries from the library, and construct a second library that includes sequences not predicted by machine learning from the population of sequences predicted by machine learning to have appropriate functions and physical properties. A mutant was obtained.
  • a protein in which the 48th cysteine of the Protein Data Bank No. 2u2f protein (SEQ ID NO: 1) was replaced with alanine was used as a scaffold protein for an antibody-like molecule.
  • SEQ ID NO: 1 The 48th cysteine of the Protein Data Bank No. 2u2f protein
  • Figure 2 loop2: 66th to 72nd (MQLGDKK: SEQ ID NO: 3)
  • Figure 1B To achieve this molecular recognition of 2u2f, we performed biopanning targeting Galectin-3, one of the cancer markers ( Figure 1B).
  • Galectin-3 is a member of the Galectin family that recognizes ⁇ -galactoside-containing sugar chains, and is a molecule that is attracting attention not only as a biomarker for heart failure and cancer, but also as a new drug target.
  • the M13 phage display method was used for the selection operation.
  • the selection procedure we first created an M13 phage library displaying the 2u2f mutant.
  • one cycle consists of selecting and amplifying phages displaying mutants that exhibit target-binding properties
  • several hundred types of phages were isolated from the resulting phage group.
  • the functions of promising mutants with target-binding properties were measured even when they were separated from phages, and their potential for use as antibody-like molecules was evaluated.
  • a biopanning operation was performed using the prepared phage library ( Figure 1B).
  • a selection operation for target-binding phage was performed.
  • negative selection was performed using 5.0 ⁇ 10 11 cfu of phages to remove phages that nonspecifically adsorbed to magnetic particles on which target molecules were not immobilized ((ii) in Figure 1B), and then the remaining phages were removed.
  • the phage solution prepared was mixed with magnetic particles on which the target Galectin-3 was immobilized, the phages that did not bind to the particles were washed and removed ((iii) in Figure 1B), and the bound phages were eluted.
  • a sublibrary "eluted phage” was obtained by performing positive selection for recovery ((iv) in Figure 1B).
  • the eluted phages were infected with E. coli strain TG-1 and grown overnight on an agar medium containing ampicillin and glucose to obtain a sublibrary "infected E. coli” ((v) in Figure 1B).
  • infected E. coli was cultured in a liquid medium and superinfected with a helper phage to produce and amplify phages, yielding a sublibrary "amplified phage" ((vi) in Figure 1B).
  • the "amplification phage" the above was repeated for a total of 4 rounds.
  • the C6 mutant gene inserted into the phagemid vector was transferred to the pET vector, and the prepared plasmid was used to transform Escherichia coli BL21 (DE3) strain. After culturing, immobilized metal ion affinity chromatography (IMAC) and Purification was performed by size exclusion chromatography (SEC). As a result, unlike wild-type 2u2f without mutations, it was expressed in various association states ( Figure 4A), and the fraction forming monomers was detected by ELISA. When evaluated, it bound not only to the target molecule Galectin-3 but also to NeutrAvidin, which is used as an anchor to immobilize Galectin-3 on the plate, and had no target specificity ( Figure 4B).
  • NGS Next generation sequencing analysis
  • Illumia's MiSeq was used for NGS analysis.
  • the analysis used 2 x 250 paired-end analysis, which analyzes the sequence of 250 bases from both the 3' and 5' ends of the target DNA. After the nucleotide sequence data output after the analysis was completed, bases with poor analysis accuracy were removed (quality trimming), and then the nucleotide sequences analyzed from the 3' and 5' ends were joined together (paired end merging). Then, we translated the sequence of the decoding data from the start codon and removed sequences in which one or more residues were substituted, deleted, or inserted in the framework other than the mutated loop region. A number of read sequences of 2 were obtained.
  • NGS analysis the number of analyzed sequences is called the number of reads, and a unique sequence that is not duplicated among the sequence groups output from NGS is called a unique sequence.
  • the number of reads for each unique sequence is compared between rounds or operations, the larger the increase, the stronger the sequence enrichment is occurring.
  • the abundance rate of each unique sequence was compared between the sublibraries.
  • the abundance rate of each unique sequence in each sublibrary (number of unique sequence reads/total number of reads in the sublibrary) was calculated, and one round using the infected E. coli sublibrary was used for enrichment analysis between rounds.
  • We compared the abundance rates from round 2, from round 2 to round 3, and from round 3 to round 4 ( Figure 6A). As a result, most of the mutants showed no change in the abundance rate between rounds and were distributed around the straight line of y x. Therefore, we compared the output after the E. coli infection operation stage between rounds.
  • step 2 Creation of indirect sequence-function association training data As a result of step 2, it was found that variants were enriched from amplified phages to eluted phages in the 2nd and 3rd rounds. Enrichment in the biopanning procedure means that more molecules are binding to the antigen than other variants, so the more enriched variant has a higher binding strength than other variants, and the amplified phage The rate of increase in abundance from phage to eluted phage can be regarded as binding affinity. It can also be considered that variants that show enrichment in different rounds are more likely to bind to the target.
  • Prediction space a group of sequences (prediction space) whose functional values are to be predicted.
  • Prediction space L1 ⁇ L2 ⁇ ⁇ L11 It can be expressed as. Since the 2u2f mutant library used in this study has 11 mutation locations, the sequence space when all 20 types of amino acids appear at all locations is 2.0 ⁇ 10 14 . In this study, we limited the number of amino acids that appear at each residue position and designed a prediction space with a size of approximately 10 9 .
  • the enrichment of amino acids at each residue position was used to limit the amino acids that appear in the prediction space.
  • Amino acids at each residue position whose appearance frequency increased through the biopanning operation in step 1 are likely to be involved in binding at that position, and conversely, amino acids whose appearance frequency decreased through the selection operation are likely to be involved in binding. or may inhibit binding. Therefore, the change rate of amino acid appearance frequency from amplified phage (1st round) to eluted phage (2nd round) and from amplified phage (2nd round) to eluted phage (3rd round), which was suggested to enrich variants with binding affinity. was calculated (Figure 8).
  • Cluster 1 to 9 in descending order of the number of sequences contained within the cluster.
  • Figure 10A Looking at the rank distribution of amino acid sequences included in each cluster, we find that among Clusters 1 to 9, Clusters 1, 3, 4, and 6 contain sequences that rank in the top 1,000 predicted by machine learning, and as a whole have a low machine learning predicted rank. It was found that the proportion of high-intensity mutants was high (Fig. 10B).
  • codon design was performed from the following viewpoints. (i) Amino acids proposed by the prediction system (occurrence frequency of 5% or more) must appear (ii) Avoid unnecessary amino acids as much as possible (iii) Avoid TAA/TGA stop codons, but avoid TAG stop codons as much as possible
  • mutants expressed in small-scale culture using a 96 deep well plate were evaluated to see if they were expressed as monomers using Blue Native PAGE (BN-PAGE), and the selection was narrowed down to 12 species, which were further cultured on a 500 mL scale.
  • BN-PAGE Blue Native PAGE
  • 11 types of mutants were obtained as monomers.
  • the 1E2, 1H2, 3B5, and 4H5 mutants were superior to Galectin-3. It showed a strong bond (Fig. 13).
  • the 1E2, 1H2, 3B5, 4H5 variants are not included in the top 10,000 machine learning predictions, with 4 residues in the 1E2 variant, 3 residues in the 1H2 variant, 2 residues in the 3B5 variant, Two residues in the 4H5 mutant were amino acids that did not appear in the prediction space in machine learning (Table 6, each amino acid sequence is shown in SEQ ID NOs: 6 to 13). In addition, two residues in the 3B5 variant and one residue in the 4H5 variant were included in the machine learning prediction space, but did not appear in Cluster 3 and Cluster 4 after clustering. . From this result, by including sequences similar to the top sequences predicted by machine learning in the second library, it was possible to obtain mutants with the desired functions and physical properties.
  • Phage library preparation and biopanning procedure Using the anti- ⁇ -lactamase camel antibody fragment cAbBCII-10 VHH (PDB ID: 3DWT (SEQ ID NO: 14)) as a scaffold protein, the three CDRs defined by AbM were inserted into the mutation sites ( 39 residues) ( Figure 16), and as in Example 1, PCR was performed using primers that were randomized to have the same amino acid frequency as the CDRs appearing in the human non-immune antibody library (Naive library). I did it. The obtained gene fragment was inserted into a pUC vector with the M13 phage pIII protein added to the C-terminus. E. coli TG-1 strain was transformed by electroporation using the obtained plasmid, and an 8.6 ⁇ 10 7 scale M13 phage library was created using this transformant.
  • PDB ID: 3DWT SEQ ID NO: 14
  • polyclonal phage ELISA was performed using the initial library and amplified phage after each round, and binding to Galectin-3 was evaluated. As a result, the signal increased as the rounds were repeated (Fig. 17), suggesting that mutants with affinity for the target were being selected by the biopanning operation.
  • mutants exhibiting target binding properties 180 clones were isolated from E. coli infected after 4 rounds, monoclonal phages were prepared using a 96 deep well plate, and binding was evaluated by phage ELISA. As a result, five mutants were obtained (7B, 11E, 11D, 4H, 12G) that showed a signal more than three times higher than the wild-type VHH-displaying phage. Therefore, we attempted to prepare these five mutants as monomeric proteins separated from phages.
  • mutant genes inserted into the phagemid vectors of the five mutants that showed positive binding were transferred to the pRA5 vector, and the prepared plasmids were used to transform Escherichia coli BL21 (DE3) strain. After culture, IMAC and purification by SEC. For comparison, we also attempted to produce monomeric proteins of two mutants (6G, 6F) that showed negative binding to Galectin-3 in ELISA. As a result, only the 12G mutant was slightly eluted by SEC at the same monomer position as the wild type VHH, but the yield was less than 1/20 of the wild type (FIG. 18A).
  • the 12G variant prepared as a monomer showed specific binding to the target Galectin-3 in ELISA ( Figure 18B), but when the secondary structure of the purified protein was evaluated by CD spectroscopy, It was found that the structure was significantly changed compared to wild-type VHH, and the three-dimensional structure did not maintain the native structure (FIG. 18C).
  • NGS Next generation sequencing analysis
  • NGS analysis was performed on the sub-libraries (i) to (vi) in FIG. 1B using Illumia's MiSeq, and the sequences shown in Table 10 were obtained for each sub-library.
  • Figure 19 we calculated the proportion of each unique sequence among the sequences read by NGS and compared it between sublibraries.
  • Figure 19 As a result, as in Example 1, it was found that the distribution change occurred more greatly during the E. coli infection and amplification operation than the distribution change due to the selection operation. This indicates that it is necessary to remove the influence of distribution changes due to amplification operations when linking functional information.
  • coli BL21(DE3) 180 clones transformed with the generated plasmid were cultured on a small scale in a 96 deep well plate, and the expressed mutants were analyzed by ELISA method. The binding to Galectin-3 was evaluated using this method. Then, we selected two mutants (2G, 6C) that specifically bound to Galectin-3, cultured them on a 500 mL scale, and purified them by IMAC and SEC. Both mutants appeared as monomers. (Fig. 21A), and the CD spectrum showed that it formed a secondary structure similar to that of the wild type (Fig. 21B). Both mutants, the 6C mutant, bound approximately 20 times more strongly to the target Galectin-3 than the 738 mutant, as determined by ELISA evaluation ( Figure 22).
  • optimized proteins such as antibodies and enzymes that have high industrial utility value can be efficiently obtained.
  • modification aimed at improving the function of the protein can be easily carried out.
  • Sequence number 4 synthetic peptide C6 Loop 1 Sequence number 5: synthetic peptide C6 Loop 2 Sequence number 6: synthetic peptide 1E2 Loop 1 Sequence number 7: synthetic peptide 1E2 Loop 2 Sequence number 8: synthetic peptide 1H2 Loop 1 Sequence number 9: synthetic peptide 1H2 Loop 2 Sequence number 10: synthetic peptide 3B5 Loop 1 Sequence number 11: synthetic peptide 3B5 Loop 2 Sequence number 12: synthetic peptide 4H5 Loop 1 Sequence number 13: synthetic peptide 4H5 Loop 2 SEQ ID NO: 14: cAbBCII-10 VHH Sequence number 15: CDR3 of 12G mutant Sequence number 16: CDR3 of 738 mutant

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本発明は、核酸ライブラリーの作製方法であって、 1)ファージディスプレイ法により、標的に結合するまたは結合させたいタンパク質をコードする核酸配列にランダムに変異を導入した変異体から構成される第1のライブラリーを準備する工程、2)前記第1のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する工程、及び、3)前記データを用いて機械学習を実施し、機械学習予測に基づき第1のライブラリーから第2のライブラリーを取得する工程、を含み、前記機械学習に使用するデータが、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び前記変異体集団に含まれる一部の変異体の標的への結合の実測値を含む、方法に関する。

Description

機械学習によるライブラリーの作製方法
 本発明は、機械学習による核酸ライブラリーの作製方法に関する。より詳細には、機械学習データとしてより適切なデータを用いることで、目的とするタンパク質をコードする核酸を多く含む核酸ライブラリーの作製方法に関する。
 抗体や酵素などの機能性タンパク質を改変し、その機能を向上させるニーズは広く存在する。最近では、機械学習を用いることで、タンパク質の機能改変をより効率的に行う研究が進められている。これらの研究では、ある程度の規模で変異体ライブラリーを作製し、変異体のアミノ酸配列と機能を実験的に測定して、これを紐づけされたデータがシーケンスから機能を予測する機械学習モデルを構築するための教師データとして使用する。そして、構築された機械学習モデルを使用することにより、機能が向上すると予測される変異体を予測する。
 機械学習のデータセットに関しては、アミノ酸配列と機能・物性値との直接または間接的な紐づけデータセットの2つのタイプが適用されている。直接的紐づけデータセットでは、各変異体の機能・物性値が変異体ごとに測定され、それら機能・物性値は対応する変異体の配列に紐づけされる(非特許文献1など)。一方、間接的紐づけデータセットでは、機能・物性値は直接測定されず、ディープシークエンス解析によるアミノ酸配列のリード数などを機能・物性値の代替としてデータセットを作成する(非特許文献2及び3)。
 アミノ酸配列と機能・物性値の間の直接的紐づけは、機械学習用の高品質のデータセットになる可能性があるが、大規模なデータセットの作成は難しく、数十から数百程度のサイズにとどまり、探索できる配列も制限される。一方、間接的紐づけのデータ品質は直接的紐づけデータセットよりも低いが、ディープシーケンス分析により取得できる大きなサイズのアミノ酸配列データを利用できる。そのため、変異残基の位置およびその数や出現アミノ酸が限られている場合には直接的紐づけデータセットを適用し、分子提示法による抗体のリード分子発見には間接的紐づけデータセットを適用することが多い。
 ファージディスプレイ法による分子ライブラリーからのバイオパニング(図1A参照)は、1010程度の大規模な変異体群から標的結合を示す抗体断片や抗体様分子を取得する有効な方法であり、近年では、次世代シーケンサー(NGS)による配列解析の結果から、選択操作後のライブラリー中の存在率が高くなる(濃縮度が高い)配列を結合力が高い配列であると推定して機械学習を実施する操作が報告されている(特許文献1)。既報では、ファージディスプレイ法における大腸菌感染後(図1A中(v))もしくはファージ増幅後(図1A中(vi))の集団のデータを用いて機械学習が実施されている(非特許文献2)。しかし、現実には、機能(標的結合性)が大きく向上した変異体を含むファージ集団を取得できないことも多い。また、濃縮度は標的結合性以外にファージの大腸菌への感染及び増幅過程によっても変化するバイアス選択が存在するため、濃縮度が高くなった配列が必ずしも目的機能を向上したものとは限らない(非特許文献4)。
 機械学習予測の結果からある一定の上位提案配列を作製する場合、その配列多様性から配列の遺伝子を各々合成する必要があり、評価する配列数にはコスト的な制限が掛かってしまうため、教師データの精度によっては目的機能をもつ配列を取得できないという問題もある。そのため、従来の方法では第2のライブラリーの規模は小さい。
US2019/0065677
Saito et al., "Machine-Learning-Guided Mutagenesis for Directed Evolution of Fluorescent Proteins" ACS Synth Biol. 2018;7(9):2014-2022 Liu et al., "Antibody complementarity determining region design using high-capacity machine learning" Bioinformatics, 2020;36(7):2126-2133 Saka et al., "Antibody design using LSTM based deep generative model from phage display library for affinity maturation" Scientific Reports, 2021;11(1):5852 Ito et al., "Application of next-generation sequencing analysis in the directed evolution for creating antibody mimic" 65th Annual Meeting of the Biophysical Society. 2021.2.25. (Boston, MA, USA)
 本発明の課題は、目的とするタンパク質をコードする核酸を含むライブラリーを提供することにある。とくに、明確な陽性変異体が得られていないバイオパニング操作からでも目的機能分子を含むライブラリーを取得するための手法の提供にある。
 さまざまな段階のサブライブラリーの配列データを用いて標的への推定結合強度を算出し、変異体の実測値との相関性を評価した。そして、標的結合配列溶出段階(図1A中(iv))のサブライブラリーのデータを使用することで、標的結合に起因する選択圧による配列の濃縮が、ファージの大腸菌への感染及び増幅過程でのバイアス選択でおこる配列の濃縮よりも小さくても、実測値と相関性が高い推定結合強度が得られることを見出した。さらに、間接的紐づけデータセットから機械学習が予測した配列集団に縮退コドン設計を組み合わせて、機械学習が予測した配列に類似な配列も含む二次ライブラリーを構築することで、目的とするタンパク質をより多く含み、かつ安価にライブラリーが構築できることを見出した。
 すなわち、本発明は以下の[1]~[11]に関する。
[1] 核酸ライブラリーの作製方法であって、
1)ファージディスプレイ法により、標的に結合するまたは結合させたいタンパク質をコードする核酸配列にランダムに変異を導入した変異体から構成される第1のライブラリーを準備する工程、
2)前記第1のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する工程、及び
3)前記データを用いて機械学習を実施し、機械学習予測に基づき第1のライブラリーから第2のライブラリーを取得する工程、を含み、
 前記機械学習に使用するデータが、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び前記変異体集団に含まれる一部の変異体の標的への結合の実測値を含む、前記方法。
[2] 機械学習に使用するデータが、以下の工程:
i)標的結合配列溶出操作段階のサブライブラリーと、前記段階とは異なる1又は2以上の段階のサブライブラリーについて、配列とその出現頻度のデータを取得する工程、
ii)前記出現頻度から標的への推定結合強度を示すスコアとして算出する工程、
iii)前記スコア、標的への結合の実測値、及びそれらを与える配列データを機械学習に使用するデータとして決定する工程、により取得される、[1]に記載の方法。
[3] 異なる1又は2以上の段階が、同じラウンドにおける、非特異的結合配列除去操作段階、標的結合配列選択操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、異なるラウンドにおける非特異的結合配列除去操作段階、標的結合配列選択操作段階、標的結合配列溶出操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、その両方である、、[2]に記載の方法。
[4] スコアが、標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階又は選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、[2]に記載の方法。
[5] スコアが、同じラウンドの標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階のサブライブラリーとの出現頻度の比率を用いて算出されるか、又は、異なるラウンドの標的結合配列溶出操作段階のサブライブラリーと、選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、[2]に記載の方法。
[6] 2~4ラウンドのサブライブラリーのデータを使用してスコアが算出される、[2]に記載の方法。
[7] スコアが下記式1)~6)から選ばれるいずれかの式にしたがって算出される、[2]に記載の方法。
Figure JPOXMLDOC01-appb-M000002
 ここで、Fx,n(i)は、変異体iのx回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を表す。
 nは、
n=1: 第1のライブラリー
n=2: 非特異的結合ファージ除去操作で除去されたファージからのサブライブラリー
n=3: 標的結合配列溶出段階で除去されたファージからのサブライブラリー
n=4: 標的結合配列溶出段階後のファージからのサブライブラリー
n=5: ファージ感染後大腸菌からのサブライブラリー
n=6: 増幅後ファージからのサブライブラリー
[8] 標的への結合の実測値が、ELISAによる測定値である、[1]~[7]のいずれかに記載の方法。
[9] 工程3において、縮退コドンの設計により、機械学習が予測していない配列を第2のライブラリーに含ませるようにする、[1]~[8]のいずれかに記載の方法。
[10] 標的に結合するまたは結合させたいタンパク質が抗体、抗体様分子、又は酵素である、[1]~[9]のいずれかに記載の方法。
[11] 最適化されたタンパク質の作製方法であって、
[1]~[10]のいずれかに記載の方法にしたがって第2のライブラリーを取得する工程、
 前記第2のライブラリーをスクリーニングし、最適化されたタンパク質をコードする核酸配列を決定する工程、及び、
 前記核酸配列に基づき最適化されたタンパク質を作製する工程、を含む前記方法。
 本発明は、(1)適切な段階のファージ集団として標的結合配列溶出操作段階のサブライブラリーを用いる;(2)機械学習が予測した上位配列のみを含むのではなくより多くの配列空間を対象にした第2のライブラリーを作製する;(3)第2のライブラリーとして再びファージ提示法を用いることによって低価格で実現できる、と言う特徴を有する。
 本発明によれば、目的とするタンパク質をコードする核酸をより多く含むライブラリーを構築することができる。これにより、抗体や酵素などの産業上有用なタンパク質の機能の向上を効率的に行うことができる。
A:バイオパニングの一例。B:実施例1・2のバイオパニング 2u2fタンパク質のアミノ酸配列 各ラウンド後の増幅ファージを用いたポリクローナルファージELISA 使用するポリクローナルファージの量を5.0×1011 cfuから希釈無, 5倍希釈, 25倍希釈したサンプルを用いて結合評価を行った。 各サンプルは抗M13 phage-HRP抗体により検出。 C6 変異体の物性および機能評価(A) C6変異体のサイズ排除クロマトグラフィーによる精製(矢印は単量体画分)(B) ELISAによるC6変異体の結合評価  (黒): NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル  (灰): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし)(C) C6変異体(灰)および野生型2u2f(黒)のCDスペクトル測定 各サブライブラリーでのユニーク配列が占めるリード数の割合 各ユニーク配列におけるサブライブラリー間の存在率変化  図中の斜めの直線はy=xの基準線を示す。また各軸は着目したサブライブラリー中における変異体の存在率を対数でとった値を示す。(A):増幅ファージの1ラウンドから2ラウンド(左), 2ラウンドから3ラウンド(中), 3ラウンドから4ラウンドに(右)かけての存在率変化(B):2(左), 3(中), 4(右)ラウンドにおけるインプット(前ラウンドの増幅ファージ)からアウトプット(溶出ファージ)にかけての存在率変化 スコア値の算出 Fx,n: x回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数) 2および3ラウンドでの各残基位置におけるアミノ酸出現頻度の変化 アミノ酸出現頻度(-1.0-1.0)=log2(溶出ファージ(2nd)のアミノ酸出現頻度/増幅ファージ(1st)のアミノ酸出現頻度) 機械学習予測上位10,000配列の各残基位置におけるアミノ酸出現頻度 機械学習予測上位10,000配列のクラスタリング結果 (A) 各クラスターの配列数およびアミノ酸出現頻度(B) 各クラスターに含まれる配列の順位分布(矢印:上位1000配列を含むクラスター)。 設計したライブラリーの各残基位置におけるアミノ酸出現頻度(左:機械学習で予測された配列、右:設計したライブラリー) 各ラウンド後の増幅ファージを用いたポリクローナルファージELISA 各グラフ左から5.0 x 1011 cfu、1.0 x 1011 cfu、2.0 x 1010 cfu(Target: Gal-3 (+))、5.0 x 1011 cfu、1.0 x 1011 cfu、2.0 x 1010 cfu(Target: Gal-3 (-))(Gal-3 (+)):NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(Gal-3 (-)): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし) 有望変異体12種のELISAによる結合評価(Gal-3 (+)):NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(Gal-3 (-)): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし) 1E2, 1H2, 3B5, 4H5変異体のEC50測定結果 野生型2u2f, 1H2, 1E2, 3B5, 4H5のCDスペクトル測定 cAbBCII-10のアミノ酸配列と変異導入箇所(枠線:AbMの定義におけるCDR) ポリクロ―ナルファージELISA結果 各グラフ左から、5.0 x 1010 cfu、1.7 x 1010 cfu、5.6 x 10cfu、1.9 x 109 cfu、6.2 x 108 cfu、2.1 x 108 cfu、6.9 x 107 cfu(A):NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(B): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし) 野生型VHH(上)と12G変異体(下)のSEC(A) 矢印:モノマー, ELISA(B)(黒:標的分子あり、灰:標的分子なし), CDスペクトル(C)結果(黒:野生型VHH、灰:12G) 生体外選択操作過程における変異体群分布変化(左端:イニシャルファージ、各ラウンド左から、ネガティブファージ、洗浄ファージ、溶出ファージ、感染大腸菌、増幅ファージ) 野生型VHH(上)と738変異体(下)のSEC(A) 矢印:モノマー, ELISA(B)(黒:標的分子あり、灰:標的分子なし), CDスペクトル(C)結果(黒:野生型VHH、灰:738) 2G, 6C変異体のSEC(A), CDスペクトル(B)結果(上から、WT、738、6C、2G) 2G, 6C変異体のELISA結果(A):NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(B): NeutrAvidinのみを固定化したウェルへの結合シグナル (Galectin-3なし)(C): BSAを固定化したウェルへの結合シグナル (Galectin-3なし)(D): Galectin-3を固定化したウェルに対して2G, 6C変異体の濃度を変化させたELISA結果
 本発明は、ファージディスプレイ法による核酸ライブラリーの作製方法に関する。
1.初期ライブラリー(第1のライブラリー)の作製
 まず、ファージディスプレイ法により、「標的に結合するまたは結合させたい」タンパク質についてランダムに変異を導入した変異体からなるライブラリーを準備する。本明細書においては、この最初に準備されるライブラリーを、機械学習による濃縮後のライブラリーと区別するために、「初期ライブラリー」又は「第1のライブラリー」と呼ぶ。「初期ライブラリー」と「第1のライブラリー」は、本明細書においては互換的に使用される。
 「標的に結合するまたは結合させたいタンパク質」は特に限定されないが、抗体・抗体様分子又は酵素など、特性の改善を必要とする機能性タンパク質が好ましい。抗体には、VHH抗体などの低分子抗体、Fab、F(ab')2、scFv、diabody、minibodyなどの抗体断片も含まれる。抗体様分子とは、抗体と同様に抗原と特異的に結合することで機能を発揮するが、抗体とは構造的に関連しない化合物を意味し、抗体ミメティックともよばれる。抗体様分子には、例えば、アフィボディ、アフィマー、アフィチン、アルファボディ、アンチカリン、アビマー、ファイノマー、モノボディ、DARPins、nanoCLAMPなどが含まれる。
 変異を導入する部位(「変異導入部位」)としては、最適化の対象となる特性に影響を与える部位を選択する。「特性に影響を与える」とは、当該部位のアミノ酸の変更(置換・欠失・挿入)、特にアミノ酸置換によって、特性が変化・向上することを意味する。
 変異導入部位の選択は、例えば、抗体の場合は、抗原認識部位である相補性決定領域(CDR)領域およびその周辺を含む残基であり、CDRはChothia, AbM, Kabat, Contactなどで定義づけられる。非抗体タンパク質の抗体様分子については、報告されている変異導入部位を選択することができ、また、表面への露出度や自然界に存在する相同タンパク質における各残基位置におけるアミノ酸出現頻度から変異導入部位を選択することもできる。
 また、結合機能を損なわずに構造安定性を向上させる選択圧をかける場合は、変異導入部位の選択をコンセンサス工学に基づいて実施することができる。「コンセンサス工学」とは、コンセンサスに基づく設計(consensus designあるいはconsensus-based engineering)であり、特定のファミリーの多数のタンパク質のアライメントから得られるコンセンサス配列に近づけるようにタンパク質の配列を改変することにより、タンパク質の安定性を高めるアプローチである(Porebski and Buckle, “Consensus protein design” Protein Engineering, Design & Selection, 2016, 29(7):245-251、Steipe B., et al.,  J. Mol. Biol, 1994, 240(3):188-192など)。
 具体的に言えば、酵素の機能改変(酵素の熱安定性の向上等)の場合、自然界で多く選択されているアミノ酸残基は酵素の機能向上に寄与するとの仮定に基づき、出発タンパク質のアミノ酸配列と同じファミリーに属するタンパク質のアミノ酸配列群をマルチプルシークエンスアライメント法(ClustalWやMAFFTなど)によって各残基位置でのアミノ酸の出現頻度を計算し、最も高頻度に保存されているアミノ酸残基をコンセンサス残基とする。そして、出発タンパク質の各アミノ酸残基位置をコンセンサス残基に変異させていく。一方、抗体に関しては、生殖細胞系列ファミリーで観察される様々な突然変異は構造的不安定化を引き起こす突然変異の排除に起因するという仮定に基づき、免疫グロブリン(Ig)可変領域断片のアライメントの特定位置で最も頻繁に観察されるアミノ酸は熱力学的安定性にとって最も好ましいアミノ酸と考える。
 コンセンサス工学を利用すれば、結晶構造の知識や複雑なインシリコ計算も必要とせず、アミノ酸配列だけでタンパク質の機能改変が実施できる。しかし、コンセンサス残基を使っていないアミノ酸を単純にコンセンサス残基に置換していくと、構造的安定性は逆に低下したり、構造的安定性は向上しても別の機能(例えば酵素活性や抗原結合活性)は低下することが多い。そのため、該当する残基位置とその場所へ出現させるアミノ酸の選択が重要になる。
 変異の導入は、縮退コドンをもつプライマーを使ったオーバーラップエクステンションPCR法をはじめ、エラープローンPCR法、ランダムプライマー法、インバースPCR法、DNAシャフリング、Staggered PCR法、Kunkel法、クイックチェンジ法など、当該分野で公知の手法を用いることができる。市販の変異導入キットも利用することができる。
 ライブラリーのサイズは特に限定されず、変異導入部位の数に応じて適宜決定される。天然のアミノ酸は20種類あるため、例えば、変異導入部位が3残基であれば、203で約8000、4残基であれば204で約160000のサイズとなる。本発明の手法は、とくに標的への結合性の機能を変化させる場合、変異導入部位が7残基以上である場合に好適に利用しうる。
2.機械学習用データの取得
 次に、第1のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する。
 「バイオパニング」とは、標的への特異的結合を利用した選択による目的タンパク質の濃縮操作である(図1A参照)。例えば、目的タンパク質が抗体・抗体様分子の場合には抗原への結合、酵素の場合には基質への結合についてバイオパニングを実施する。
 ライブラリーに含まれる集団において、バイオパニングによってライブラリー中の存在率が高くなる(濃縮度の高い)配列は標的への結合力が強いことが想定される。そこで、バイオパニングの各段階に含まれる変異体集団(サブライブラリー)について、配列(アミノ酸配列及び核酸配列)とその出現頻度(ある変異体のリード数/サブライブラリー中の全リード数)を解析して、各配列の濃縮度を求め、これを標的への「推定結合強度」とする。「推定結合強度」は、機械学習に使用するためにスコア化する。
 前述のとおり、従来の方法では、選択されたファージを大腸菌に感染させた後(図1A中(v))もしくはファージを増幅させた後(図1A中(vi))の集団のデータ(濃縮度)が機械学習に使用されていた。しかし、大腸菌感染・ファージ増幅後の集団の出現頻度にはバイアスがかかり、実測値を反映しない。発明者らは、バイオパニングの様々な段階のサブライブラリーに含まれる変異体集団の配列と出現頻度を解析し、推定結合強度をさまざまな算出式によりスコア化して実測値との相関を比較した。その結果、標的結合配列の溶出操作後(iv)の集団のデータが実測値との相関が高いことを見出した。この標的結合配列の溶出操作後の濃縮度が、大腸菌感染・ファージ増幅後の集団の濃縮度よりも低くなることはバイオパニングではよく起こることであり、その場合、大腸菌感染・ファージ増幅でおこるバイアス変化に標的結合の濃縮度が埋もれてしまい、選択操作による濃縮が観測されない。
 バイオパニングの「段階」とは、例えば、バイオパニングの各ラウンドにおける、非特異的結合配列の除去操作段階、標的結合配列の選択操作段階、標的結合配列の溶出操作段階、大腸菌への感染操作段階、及び選択配列の増幅操作段階などである。
 本発明において機械学習に使用するデータは、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び、標的への結合の実測値を含む
 機械学習に使用するデータは、例えば、以下の工程により取得される。
i)バイオパニングの標的結合配列溶出操作段階(図1A中(iv))と、前記段階とは異なる1又は2以上の段階について、各段階に含まれる変異体集団の配列とその出現頻度のデータを取得する工程、
ii)前記出現頻度から標的への推定結合強度を示すスコアとして算出する(例えば、0~1の数値に正規化する)工程、
iii)前記スコア、標的への結合の実測値、及びそれらを与える配列データを機械学習に使用するデータとして決定する工程。
 各サブライブラリー中の変異体で解析する配列数は、人工知能に意味のある学習データを提供できれば特に限定されない。選択操作に投入する初期ライブラリーの配列数(例えば、109配列)が好ましいが、100,000配列以上でも構わない。
 本発明において、バイオパニングのラウンド数は特に限定されず、対象とする変異体の数や標的との親和性によって適宜設定される。一般的には、バイオパニングは2ラウンド以上、好ましくは3ラウンド以上、4ラウンド以上、一般的には2~6ラウンド、とくに2~4ラウンド実施される。
 異なる1又は2以上の段階は、同じラウンドにおける標的結合配列溶出操作段階とは異なる段階、異なるラウンドにおける段階、あるいはその両方のいずれであってもよい。好ましくは、同じラウンドにおける標的結合配列溶出操作段階とは異なる1又は2以上の段階である。
 具体的には、異なる1又は2以上の段階としては、同じラウンドにおける、非特異的結合配列除去操作段階、標的結合配列選択操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、異なるラウンドにおける非特異的結合配列除去操作段階、標的結合配列選択操作段階、標的結合配列溶出操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、又はその両方が挙げられる。異なる1又は2以上の段階としては、非特異的結合配列除去操作段階及び/又は選択配列増幅操作段階が好ましく、非特異的結合配列除去操作段階がより好ましい。
 スコアは、例えば、標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階又は選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される正規化・標準化された数値である。より具体的に言えば、スコアは、同じラウンドの標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階のサブライブラリーとの出現頻度の比率を用いて算出されるか、又は、異なるラウンドの標的結合配列溶出操作段階のサブライブラリーと、選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される正規化・標準化された数値である。
 スコアは、2ラウンド目、3ラウンド目、4ラウンド目、又は5ラウンド目、好ましくは2ラウンド目~4ラウンド目のサブライブラリーのデータを使用して算出する。
 スコアは、例えば、下記式1)~6)のいずれかに基づいて算出される。
Figure JPOXMLDOC01-appb-M000003
 
 式中、Fx,n(i)は、変異体iのx回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を表す。
 nは、
n=1: 初期ライブラリー(第1のライブラリー)
n=2: 非特異的結合ファージ除去操作で除去されたファージからのサブライブラリー
n=3: 標的結合配列溶出段階で除去されたファージからのサブライブラリー
n=4: 標的結合配列溶出段階後のファージからのサブライブラリー
n=5: ファージ感染後大腸菌からのサブライブラリー
n=6: 増幅後ファージからのサブライブラリー
 関数fx(i)としていずれを選ぶかは、各関数を用いて配列と紐づけする数値を算出し、そのAUC(Area Under the Curve)値にしたがって決定できる。例えば、AUC値として、0.5以上、0.6以上、0.7以上を与える関数から、適当なものを選択することができる。
 上記スコアは、必要に応じてさらに正規化してもよい。例えば、後述する実施例1及び2のように、「推定結合強度」の値の対数を濃縮度Enrichment Rate (ER(i)) として、ER(i)の値が大きいものがよりいいものとして正規化させるため、nScore(i)を求めている。
Figure JPOXMLDOC01-appb-M000004
 後述する機械学習にあたって、スコアの値は使用する処理手段にしたがい適当な数値に変換される。例えば、COMBOの場合であれば、スコアは-1~0に変換されて機械学習に供される。
 標的への結合の実測値は、特に限定されない。好ましくは、標的への結合の実測値はELISAによって測定される。標的への結合は、親和性(結合活性)、標的特異性、基質特異性、触媒活性などの機能の指標となり得る。また、測定条件によっては、構造安定性、熱安定性、pH安定性、凝集性、塩安定性、圧力安定性、還元安定性、変性剤安定性の指標ともなり得る。
3.機械学習
 本発明では、いくつかの変異体の実測値に基づいて選択されたスコアと、その配列情報を機械学習の教師データとして使用し、機械学習を行う。すなわち、ライブラリーの一部の変異体について取得したスコア値と対応する変異体の配列情報を人工知能に学習させ、ライブラリーの全変異体のスコアを予測し、ランク付けを行う。機械学習としては、例えば、ベイズ最適化が好ましい。
 アミノ酸配列情報は、文字から数値(数値ベクトル)に変換して入力する。そのような方法は、当該分野で公知の方法を使用することができ、例えば、T-scale、Z-scale、ST-scale、BLOSUM、FASGAI、MSWHIM、ProtFP、ProtFP-Feature、VHSE 、Aromaphilicity、PSSMなどを使用することができる(van Westen et al., J Cheminform. 2013; 5: 41)。
 「ベイズ最適化」とは、ハイパーパラメーターチューニング手法、すなわち、形の分からない関数(ブラックボックス関数)の最適値(最大値あるいは最小値)を求める機械学習手法の一つである。各候補点は、記述子と呼ばれる数値ベクトルで表現される。各反復では、これまでに評価された候補点のデータを用いて機械学習モデルが学習され、その学習済みのモデルを用いて、残りの候補点のモデル関数の予測値および予測分散が計算される。さらに、その予測値・予測分散に依存するスコアを計算し、最もスコアが大きい候補点を、次の評価点と定め関数評価を行う。ここで得た新たなデータは、教師データに加えられる。
 「ベイズ最適化」には、公知のソフトウェアを利用することができる。例えば、2DMAT(https://www.pasums.issp.u-tokyo.ac.jp/2dmat/)COMmon Bayesian Optimization Library (COMBO)(Ueno et al., Mater. Discov., 4, 18-21 (2016), https://tomoki-yamashita.github.io/CrySPY_doc/)、CrySPY(https://tomoki-yamashita.github.io/CrySPY_doc/)、PHYSBO (optimization tools for PHYsics based on Bayesian Optimization)(https://www.pasums.issp.u-tokyo.ac.jp/physbo/)などが知られているが、これらに限定されない。なかでも、COMBOが好ましい。
4.第2のライブラリーの作製
 一部の変異体のデータを用いた機械学習により、人工知能はライブラリーの全変異体のスコア値を予測し、そのランク付けを行う。予測結果に基づき、好適な変異体を選択することで、初期ライブラリーよりも目的とするタンパク質が濃縮されたライブラリーを作製することができる。この濃縮されたライブラリーを、本明細書においては「第2のライブラリー」と呼ぶ。
 必要に応じて、ライブラリーの濃縮は2回以上濃縮を行ってもよい。すなわち、初期ライブラリーから第2のライブラリーを作製し、次に第2のライブラリーを初期ライブラリーとして第3のライブラリーを作製できる。この過程を繰り返すことで、濃縮は何回でも可能である。最初の濃縮に使用する「2以上の特性」と、2回目以降の濃縮に使用する特性は同じであっても、異なっていてもよい。2回目以降は、2以上の特性について濃縮してもよいし、1つの特性について濃縮してもよい。
 第2のライブラリーには、縮退コドンの設計により、機械学習が予測していない配列を含ませるようにすることが好ましい。ここで、予測していない配列は、機械学習が予測した配列と類似の配列であることが好ましい。
5.最適化されたタンパク質の作製
 機械学習を通じた機能予測により、第2、第3以降のライブラリーから、2以上の特性について最適化された変異体を選択することができる。予測された変異体は、実際に発現させ、その特性を評価・確認して最良のものを選択してもよい。産業上の利用を考慮する場合、一般的に変異導入部位の数は少ない方が好ましい。したがって、最終的には機能の向上と導入する変異の数を考慮して、最適なタンパク質(変異体)を決定することになる。
 以下、実施例により本発明について具体的に説明するが、本発明はこれらの実施例に限定されるものではない。
[実施例1]抗体様分子の機能創出
 特定の分子認識能をもつ抗体や抗体様分子は、ファージディスプレイ法による分子ライブラリーからのバイオパニングなどの遺伝子型-表現型一体システムを用いた選択操作により取得できる。しかし、目的機能・物性を適切にもつ変異体を取得することができないことも多い。近年では次世代シークエンサー(NGS)を用いて、濃縮度の高い配列の変異体を高機能変異体と見立てた間接的配列-機能紐づけデータを作成し機械学習を行って、目的機能分子を取得する試みがあるが、選択操作で特定変異体が適切な濃縮を示さず教師データすら得られないことも多い。本実施例では、抗体様分子の創出を目的として、適切な機能・物性をもつ変異体が得られていないバイオパニング操作からでも目的機能分子を取得できるような機械学習プロセスの開発として、NGS解析からの適切なサブライブラリー選択による教師データの作成と、機械学習が予測した配列集団から機械学習が予測していない配列も含んだ第2のライブラリーを構築し、適切な機能・物性をもつ変異体を取得した。
 Protein Data Bank番号2u2fのタンパク質(配列番号1)の48番目のシステインをアラニンに置換したタンパク質を抗体様分子の足場タンパク質として用い、変異箇所は2u2fタンパク質の2つのループ領域(loop1:11~14番目(NYLN:配列番号2),loop2:66~72番目(MQLGDKK:配列番号3))として実施した(図2)。この2u2fの分子認識化を行うため、がんマーカーの一つであるGalectin-3を標的としてバイオパニング操作を行った(図1B)。Galectin-3はβ-ガラクトシド含有糖鎖を認識するGalectinファミリーの一種で、心不全やがんのバイオマーカーとしてだけでなく、新規創薬標的としても注目されている分子である。選択操作にはM13ファージ提示法を利用した。選択操作ではまず2u2f変異体を提示したM13ファージライブラリーを作製した。次に、標的結合性を示す変異体を提示したファージを選択・増幅することを1サイクルとするバイオパニング操作を数回行った後、得られたファージ群から数百種類のファージを単離して標的結合性を持つものを取得した。さらに、ここで標的結合性を持つ有望な変異体はファージから切り離した状態でもその機能を測定し、抗体様分子としての利用可能性を評価した。
1. ファージライブラリー作製とバイオパニング操作
 2u2fの2つのループ領域(loop1, 2)をヒトの非免疫抗体ライブラリー(Naiveライブラリー)に出現するCDRと同じアミノ酸出現頻度になるようランダム化するプライマーを用いてPCRを行った(Kruziki et al., “A 45-Amino-Acid Scaffold Mined from the PDB for High-Affinity Ligand Engineering,” Chemistry & Biology, 22, 946-956 (2015))。得られた遺伝子断片を、M13ファージのpIIIタンパク質をC末端に付加する形でpUCベクターに挿入した。得られたプラスミドを用いて大腸菌TG-1株をエレクトロポレーションにて形質転換して、この形質転換体を用いて1.0×109規模のM13ファージライブラリーを作製した。
 作製したファージライブラリーを用いてバイオパニング操作を行った(図1B)。まず、標的結合ファージの選択操作を行った。選択操作では、5.0×1011 cfuのファージを用いて標的分子を固定化していない磁性粒子へ非特異的に吸着するファージを除去(図1B中(ii))するネガティブセレクションを行った後、残ったファージ溶液を用いて標的であるGalectin-3を固定化した磁性粒子と混合し、これに結合しなかったファージを洗浄して除去(図1B中(iii))、結合したファージを溶出して回収するポジティブセレクションを行うことでサブライブラリー「溶出ファージ」を得た(図1B中(iv))。次に、溶出ファージを大腸菌TG-1株に感染させ、アンピシリンとグルコースを含む寒天培地上で一晩生育させることでサブライブラリー「感染大腸菌」を得た(図1B中(v))。さらに、感染大腸菌を液体培地中で培養し、ヘルパーファージを重感染させることでファージを生産・増幅させ、サブライブラリー「増幅ファージ」を得た(図1B中(vi))。再び、「増幅ファージ」を用いて、上記を繰り返すことを、全4ラウンド行った。
 選択操作後、標的結合性の変異体が選択されているかを評価するため、初期ライブラリーと各ラウンド後の増幅ファージを用いてポリクローナルファージELISAを行い、Galectin-3への結合評価を行った。その結果、ラウンドを重ねるにつれてシグナルの上昇を示し、バイオパニング操作によって標的に親和性をもつ変異体が選択されてきていることが示唆された(図3)。
 そこで、標的結合性を示す変異体を取得するため、3ラウンドおよび4ラウンド後の感染大腸菌から186変異体ずつ96ディープウェルプレートを用いてモノクロ―ナルファージを調製し、ファージELISAによる結合評価を行った。その結果、野生型2u2fを提示したファージよりも高いシグナルを示し、遺伝子配列でフレームシフトを起こしていない変異体が52サンプル得られた。この52種の変異体の中で、複数のウェルに出現していたC6変異体(表1)について、ファージから切り離したタンパク質としての調製を試みた。
Figure JPOXMLDOC01-appb-T000005
 ファージミドベクターに挿入されていたC6変異体遺伝子をpETベクターに移し替え、作製したプラスミドを用いて大腸菌BL21(DE3)株を形質転換して、培養後、固定化金属イオンアフィニティークロマトグラフィー(IMAC)およびサイズ排除クロマトグラフィー(SEC)による精製を行った。その結果、変異を入れていない状態の野生型2u2fと異なり、様々な会合状態をもつ状態で発現しており(図4A)、その中で単量体を形成している画分についてELISAによる結合評価をしたところ、標的分子であるGalectin-3だけでなくGalectin-3をプレートに固定化するアンカーとして使用しているNeutrAvidinにも結合し、標的特異性を持たなかった(図4B)。さらに円偏光二色性(CD)スペクトル測定にて精製タンパク質の二次構造を評価したところ、野生型の2u2fと比較して構造が大きく変化しており、立体構造は天然構造を維持していないことが分かった(図4C)。これらより、2u2fを足場タンパク質としてバイオパニング操作を行った結果、標的に親和性がある変異体は選択されていったが、標的特異的な変異体を単離することはできなかった。
2. 次世代シーケンシング解析(NGS) 
(1)1.の(2)で行ったバイオパニング操作において選択されたファージ集団もしくは大腸菌集団からDNAを抽出した。「初期ファージライブラリー」のほかに「溶出ファージ」、「感染大腸菌」、「増幅ファージ」などのサブライブラリーを含む図1B中の(i)~(vi)を回収し、各々のサブライブラリー中の2u2f変異体配列断片をPCRにより増幅させ、アガロースゲル電気泳動を用いて精製し、NGS解析を行った。
 NGS解析にはIllumia社のMiSeqを用いた。解析には、対象DNAの3’端と5’端の両方から250塩基分の配列を解析する2×250ペアエンド解析を用いた。解析終了後に出力された塩基配列データは解析精度の悪い塩基を除去(クオリティートリミング)した後、3’端と5’端方向から解析した塩基配列をつなぎ合わせた(ペアエンドマージ)。そして、解読データの配列を開始コドンから翻訳し、変異をかけたループ領域以外のフレームワーク部分に1残基以上の置換・欠損・挿入が見られる配列を除去した結果、各サブライブラリーについて表2のリード配列数を取得した。
Figure JPOXMLDOC01-appb-T000006
 機械学習用の教師データに効果的なサブライブラリーを決めるため、NGS解析で得た配列群を用いて、変異体の濃縮が起こったラウンドおよび操作の特定を行った。NGS解析において、解析された配列の数をリード数とよび、NGSから出力された配列群の中で重複しない固有の配列をユニーク配列とよぶ。そして、各ユニーク配列のリード数をラウンドもしくは操作間で比較した時の増加幅が大きいほど、配列濃縮が強く起こっていることを示す。
 配列濃縮が起こったラウンドおよび操作を観察するため、NGSに読まれた配列の中で、各ユニーク配列が占める割合を計算し、それをサブライブラリー間で比較した(図5)。その結果、増幅ファージ(1ラウンド)から溶出ファージ(2ラウンド)、そして増幅ファージ(2ラウンド)から溶出ファージ(3ラウンド)にかけて、特定の変異体の濃縮が見られた。これらのサブライブラリーの比較は、それぞれ選択操作におけるインプットからアウトプットの直接的な比較を意味しており、2ラウンドと3ラウンドにおいて結合親和性による選択操作がうまく機能したことを示唆している。しかし、1ラウンドの溶出ファージから感染大腸菌にかけても特定変異体の大きな濃縮が見られ、2、3、4の各ラウンド内での溶出ファージから感染大腸菌にかけては逆に分布の分散が見られた。このことから、大腸菌への感染操作段階(v)では標的への結合親和性以外のバイアスがかかっているといえる。
 続いて、バイオパニング操作で起こった各変異体の濃縮度を解析するため、各ユニーク配列の存在率をサブライブラリー間で比較した。まず各サブライブラリー中における各ユニーク配列の存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を計算し、ラウンド間での濃縮度解析として感染大腸菌サブライブラリーを用いた1ラウンドから2ラウンド、2ラウンドから3ラウンド、3ラウンドから4ラウンドにかけての存在率を比較した(図6A)。その結果、ほとんどの変異体がラウンド間での存在率変化を示さず、y=xの直線付近に分布されていたことから、大腸菌への感染操作段階後のアウトプットをラウンド間で比較しても変異体の濃縮を観察できないといえる。一方、増幅ファージ(1ラウンド)から溶出ファージ(2ラウンド)、増幅ファージ(2ラウンド)から溶出ファージ(3ラウンド)、増幅ファージ(3ラウンド)から溶出ファージ(4ラウンド)、すなわち2、3、4ラウンドにおけるバイオパニング操作のインプットからアウトプットにかけての存在率を比較したところ、インプットからアウトプットにかけて存在率が上昇し、y=xの直線より上にシフトした変異体が多く存在していた(図6B)。このことから、前ラウンドのインプットと当該ラウンドのアウトプットを用いてラウンド間を比較することで各変異体の濃縮を観察できるようになることが示唆された。
3. 間接的な配列―機能紐づけ教師データの作成
 2の結果、2ラウンドおよび3ラウンドにおける増幅ファージから溶出ファージにかけて変異体が濃縮を示すことが分かった。バイオパニング操作において濃縮するとは、他の変異体よりも多くの分子が抗原に結合していることを表しているため、より濃縮した変異体は他の変異体よりも結合力が高く、増幅ファージから溶出ファージにかけての存在率の上昇率を結合親和性と見立てられる。また、異なるラウンドで濃縮を示した変異体はより標的に結合する確実性が高いとも考えることができる。
 次に、1.のモノクロ―ナルファージファージELISAの結果から選ばれた52サンプルのうち、C6変異体を含くむ6変異体および、同じモノクロ―ナルファージファージELISAの結果から標的に結合しないと判断された11サンプルを抽出し、それらのモノクロ―ナルファージファージELISAの結果を利用して、図7にある式を用いて配列と紐づけするスコア値を算出し、AUC(Area Under the Curve)値を比較した(表3)。その結果、投入ファージ(前ラウンドの増幅ファージ)に対する溶出ファージで算出した方がAUC値は高く、特に、式2-2, 2-4, 2-5, 2-6はAUC値が0.7を超えていた。今回は、AUC値が0.7を超えていたものの中で、式2-4を使用した。
Figure JPOXMLDOC01-appb-T000007
 2.及び3の結果を踏まえて変異体i の濃縮度Enrichment Rate (ER(i)) を定義した。
Figure JPOXMLDOC01-appb-M000008
Fx,n(i)は変異体i のサブライブラリー n 中における存在率を表す。そして、ER(i)が負の値ならば0、0以上の値であればER(i)をそのまま返すReLU関数(ReLU(y) = max(0, y))に代入した値を、最高値が1になるように設定した定数aを用いて規格化した。この関数を用いて増幅ファージ(1ラウンド)、溶出ファージ(2ラウンド)、増幅ファージ(2ラウンド)、溶出ファージ(3ラウンド)のサブライブラリーすべてに出現する変異体の正規化したスコア値を計算し、間接的な配列-機能紐づけデータを取得した。
4. 機械学習による予測システムの作製
 上記データを教師データとして使用し、未知変異体に対してアミノ酸配列からその機能評価値を予測する機械学習をおこなった。予測システムは、高速なベイズ最適化ソフトウェアであるCOMBOを使用して作製した(前掲Ueno et al., 2016など)。変異体の配列データは、既報にしたがい1残基あたり1~10次元ベクトルで表現する指標もしくはその組み合わせのなかで適切なものを用いて表現した(前掲van Westen et al., 2013)。
 次に、機能値を予測する対象となる配列群 (予測空間) を定義した。予測空間の規模は残基位置nに出現するアミノ酸の種類数をLn (n=1~11)をとすれば、
  予測空間=L1 × L2 × ・・・L11
と表すことができる。本研究で使用した2u2f変異体ライブラリーは変異箇所が11箇所であるため、全箇所で20種類全てのアミノ酸が出現する場合の配列空間は2.0×1014である。本研究では、各残基位置に出現するアミノ酸の数を制限し、規模が109程度になるように予測空間を設計した。
 予測空間に出現するアミノ酸の限定には、各残基位置におけるアミノ酸の濃縮度を利用した。1.のバイオパニング操作によって出現頻度が上昇した各残基位置のアミノ酸は、その位置において結合に関与する可能性があるものであり、逆に選択操作により出現頻度が減少したアミノ酸は結合に関与しないもしくは結合を阻害する可能性があるものである。そこで、結合親和性を持つ変異体の濃縮が示唆されていた増幅ファージ(1ラウンド)から溶出ファージ(2ラウンド)、増幅ファージ(2ラウンド)から溶出ファージ(3ラウンド)にかけてのアミノ酸出現頻度変化率を計算した(図8)。ここで、サブライブラリーnに着目した時の残基位置mにおけるあるアミノ酸kの出現頻度は、
Figure JPOXMLDOC01-appb-M000009
のように計算した。両ラウンドで出現頻度が上昇していたアミノ酸を選定した結果、各残基位置に出現するアミノ酸を予測空間の規模を9.2×108にまで絞ることができた(表4)。
Figure JPOXMLDOC01-appb-T000010
5.予測システムによる有望変異体の絞り込み
 構築した予測システムにより、11残基位置(図2中11~14,66~72)に特定のアミノ酸(表4)が出現する配列空間に含まれる全変異体の予測値を計算し、予測された上位10,000配列を有望変異体とした(図9)。
6. 第2のライブラリーの設計
 5.の機械学習予測上位10,000配列を含む第2のライブラリーを作製しファージディスプレイによるバイオパニングを行うために、機械学習予測上位10,000配列に対して、類似した配列同士をグループ化した。グループ分けにはBasic Local Alignment Search Tool (BLAST)(Crooks et al., WebLogo: A sequence logo generator, Genome Research, 14, 1188-1190 (2004))を用いて上位10,000配列すべてのペアワイズアライメントを行い、配列の類似度であるe-valueが0.1以下であったものを類似した配列とみなした。この時、アライメントには配列のずれ(ギャップ)が入らない設定で行った。その結果、機械学習上位10,000は大きく9つのクラスターに分類されたので、各クラスターを、クラスター内に含まれる配列数の大きい順にCluster 1~9と命名した(図10A)。そして、各クラスターに含まれるアミノ酸配列の順位分布をみると、Cluster1~9の中でもCluster1, 3, 4, 6は予測上位1,000にランクインする配列を含んでおり、全体的に機械学習予測ランクの高い変異体の割合が高いことが分かった (図10B)。
 そこで、機械学習予測ランクの高い変異体を含むCluster 1, 3, 4, 6に含まれる配列を含むファージライブラリー遺伝子群の設計は、縮退コドンを用いて行った。各Clusterにおいて、Cluster中の配列集団から各残基位置でのアミノ酸出現頻度を計算し、出現頻度が5%以上の残基は出現する2u2f変異体遺伝子群が作製できる縮退コドンを設計した。具体的には、出現させるアミノ酸の決定後、以下の観点からコドン設計を行った。
(i)予測システムにより提案されたアミノ酸(出現頻度5%以上)は必ず出現させる
(ii)できるだけ余計なアミノ酸は出現させない
(iii)TAA・TGAの終止コドンは出現させないが、TAG終止コドンは可能な限り出現しないようにする
 その結果、各残基位置において出現するアミノ酸を出現させつつ、できるだけ余分なアミノ酸を排除したコドンをクラスターごとに設計できた一方、機械学習予測に含まれない配列も存在しており、設計したライブラリーに含まれる目的の変異体の割合はCluster 1, 3, 4, 6においてそれぞれ0.82%, 0.33%, 1.18%, 0.18%であった(図11、表5)。機械学習により予測された配列の割合は小さいものの、予測配列に類似の配列を含むライブラリーを用いることで予測配列をさらに最適化した変異体を取得できる可能性があると考え、このコドン設計を基にM13ファージライブラリーを調製した。
Figure JPOXMLDOC01-appb-T000011
7. ファージライブラリーの作製と2回目のバイオパニング
 縮退コドン設計を行ったプライマーを用いて第2のライブラリーを作製し、2u2f変異体を提示するM13ファージライブラリーを108規模で調製した。この規模は、各ライブラリーの配列空間の100倍以上であるため、機械学習による予測されたクラスター配列だけでなく、各ライブラリーに含まれる全ての変異体を含むファージライブラリーを調製できているといえる。
 次に、作製した第2のファージライブラリーを用いてバイオパニング操作を行い、各ラウンドにおける増幅ファージ群を用いてポリクローナルファージELISAを行ったところ、全てのClusterにおいてラウンドを重ねるごとのシグナル上昇を示していた (図12) 。この時、Cluster 6はNeutrAvidinをのみを固定化したウェルにも結合を示す変異体も濃縮していたが、その他のCluster 1, 3, 4のポリクローナルファージは特異的な結合を示した。
 そこで、各ライブラリーの3ラウンド後の変異体群から88クローンずつ単離して、標的Galectin-3に特異的に結合する変異体のスクリーニングをモノクローナルファージELISAで行ったところ、Galectin-3へ特異的結合を示す変異体が、Cluster1から20種類、Cluster 3からは14種類、Cluster4からは20種類、Cluster6からは9種類の合計63変異体が得られた。ここで、由来するクラスターの番号を先頭に、取得した96ウェルプレートのウェル番号を各変異体の名前とした。例えば、Cluster 1から取得し、E2ウェルで培養した変異体は「1E2」となる。これら得られた63種の変異体から候補分子を絞るために、まず選出した変異体遺伝子をファージミドベクターからタンパク質発現用のpET22bベクターに移し替えた。そして、96ディープウェルプレートによる小スケール培養で発現した変異体をBlue Native PAGE (BN-PAGE)によって単量体として発現しているか評価して12種に絞り、さらに500 mLスケールでの培養を行い、可溶性画分からIMACおよびSECで精製を行うことで、11種類の変異体を単量体として取得した。この取得した変異体に対して、ELISA法を用いて作製した変異体がGalectin-3に対して結合を示すかどうかを評価したところ、1E2, 1H2, 3B5, 4H5変異体がGalectin-3に対する優位な結合を示した(図13)。
 次に、標的Galectin-3に対して特異的な結合を示した4種の変異体に関して、その親和性を定量するため、1.5 μMから2倍ずつ希釈した系列を8点作製し、ELISAによる結合測定からEC50値を計算した。その結果、1E2, 1H2, 3B5, 4H5変異体のEC50はそれぞれ92.5 nM, 79.9 nM, 277.4 nM, 200.8 nMであった(図14)。さらに、これらの変異体が二次構造を形成しているかどうかを評価するため、CDスペクトル測定を行った。その結果、ウェット実験のみで取得したC6変異体がランダムコイル構造をとっている(図4C)一方で、今回取得した特に1H2および4H5変異体は野生型2u2fに近い二次構造をとっていることが分かった(図15)。これより、予測システムからの結果を利用して設計された第2のライブラリーから、ウェット実験だけでは見つけられなかった、立体構造を維持しつつ標的への特異性を示す変異体を取得できた。
 1E2, 1H2, 3B5, 4H5変異体は機械学習予測上位10,000には含まれておらず、1E2変異体中の4残基、1H2変異体中の3残基、3B5変異体中の2残基、そして4H5変異体中の2残基は機械学習における予測空間には出現しないアミノ酸であった(表6、各アミノ酸配列は配列番号6~13に示す)。また、3B5変異体中の2残基、4H5変異体中の1残基は機械学習の予測空間には含まれているが、クラスタリング後のCluster 3、Cluster 4中には出現しないものであった。この結果より、機械学習予測上位配列に類似の配列も第2のライブラリーに含ませることによって、目的機能・物性をもつ変異体を取得できた。
Figure JPOXMLDOC01-appb-T000012
[実施例2]バイオパニング法から同定した弱結合性分子の機能向上
 ファージディスプレイ法による分子ライブラリーからのバイオパニングなどの遺伝子型―表現型一体システムでは、必ずしも目的機能・物性を適切にもつ変異体を取得することができない。近年では次世代シークエンサー(NGS)を用いて、濃縮度の高い配列の変異体を高機能変異体と見立てた間接的配列―機能紐づけデータを作成し機械学習を行って、目的機能分子を取得する試みがあるが、選択操作で特定変異体が適切な濃縮を示さず教師データすら得られないことも多い。本実施例では、ラクダ重鎖抗体重鎖可変領域断片 VHHの機能創出として、バイオパニングで得られた不十分な機能と物性をもつ変異体を配列骨格として、NGS解析結果を教師データした機械学習を含む情報処理によって機能と物性が改善する機械学習プロセスを開発した。
1. ファージライブラリー作製とバイオパニング操作
 抗β-ラクタマーゼラクダ抗体断片cAbBCII-10 VHH (PDB ID: 3DWT(配列番号14))を足場タンパク質として、AbMにより定義された3つのCDRを変異導入箇所(39残基)に選定し (図16)、実施例1と同様にヒトの非免疫抗体ライブラリー(Naiveライブラリー)に出現するCDRと同じアミノ酸出現頻度になるようランダム化するプライマーを用いてPCRを行った。得られた遺伝子断片を、M13ファージのpIIIタンパク質をC末端に付加する形でpUCベクターに挿入した。得られたプラスミドを用いて大腸菌TG-1株をエレクトロポレーションにて形質転換して、この形質転換体を用いて8.6×107規模のM13ファージライブラリーを作製した。
 作製したファージライブラリーを用いて実施例1と同様なバイオパニング操作を行い、1~4ラウンドにおける「溶出ファージ」、「感染大腸菌」「増幅ファージ」などのサブライブラリー(図1B中(i)~(vi))を取得した。
 選択操作後、標的結合性の変異体が選択されているかを評価するため、初期ライブラリーと各ラウンド後の増幅ファージを用いてポリクローナルファージELISAを行い、Galectin-3への結合評価を行った。その結果、ラウンドを重ねるにつれてシグナルの上昇を示し(図17)、バイオパニング操作によって標的に親和性をもつ変異体が選択されてきていることが示唆された。
 そこで、標的結合性を示す変異体を取得するため、4ラウンド後の感染大腸菌から180クローンを単離し、96ディープウェルプレートを用いてモノクロ―ナルファージを調製し、ファージELISAによる結合評価を行った。その結果、野生型VHHを提示したファージよりも3倍以上高いシグナルを示した変異体が5種得られた(7B, 11E, 11D, 4H, 12G)。そこで、この5種の変異体について、ファージから切り離した単量体タンパク質としての調製を試みた。
 結合陽性を示した5種の変異体のファージミドベクターに挿入されていた変異体遺伝子をpRA5ベクターに移し替え、作製したプラスミドを用いて大腸菌BL21(DE3)株を形質転換して、培養後、IMACおよびSECによる精製を行った。また、比較対象として、Galectin-3への結合ELISAにおいて結合陰性を示した2種の変異体(6G, 6F)についても、単量体タンパク質としての作製も試みた。その結果、12G変異体のみがSECにて野生型VHHと同様な単量体の位置で若干溶出されたが、その収量は野生型の1/20以下であった(図18A)。この単量体として調製された12G変異体はELISAにおいて、標的Galectin-3に特異的な結合性を示したが(図18B)、CDスペクトル測定にて精製タンパク質の二次構造を評価したところ、野生型VHHと比較して構造が大きく変化しており、立体構造は天然構造を維持していないことが分かった(図18C)。
2. 次世代シーケンシング解析(NGS) 
 実施例1と同様にIllumia社のMiSeqを用いて、図1B中の(i)~(vi)のサブライブラリーについてNGS解析を行い、各サブライブラリーについて表10の配列を取得した。そして、実施例1と同様に配列濃縮が起こったラウンドおよび操作を観察するため、NGSに読まれた配列の中で、各ユニーク配列が占める割合を計算し、それをサブライブラリー間で比較した(図19)。その結果、実施例1と同様に、選択操作による分布変化以上に、大腸菌感染・増幅操作時に大きく分布変化が生じていることが分かった。これより、機能情報の紐づけには増幅操作による分布変化の影響を除く必要があると示された。その結果、選択操作による分布変化以上に、溶出ファージから感染大腸菌に大きく分布変化が生じていることが分かり、機能情報の紐づけには増幅操作による分布変化の影響を除く必要があることが示された。
Figure JPOXMLDOC01-appb-T000013
3. 間接的な配列―機能紐づけ教師データの作成
 続いて、バイオパニング操作で起こった各変異体の濃縮度を解析するため、上記で取得した結合陽性変異体5種類と結合陰性変異体2種類のモノクロ―ナルファージファージELISAの結果を利用して図7にある式を用いて配列と紐づけするスコア値を算出し、AUC値を比較した(表8)。
Figure JPOXMLDOC01-appb-T000014
 その結果、ネガティブセレクションで除去したファージに対する溶出ファージで算出した算出した方がAUC値は高く、特に、式1-3, 1-6はAUC値が0.7を超えていた。今回は、AUC値が0.7を超えていたものの中で、式1-3を使用した。
 4ラウンドの「溶出ファージ」を「ネガティブ選択ファージ」で除した式が最も結合陽性変異体と結合陰性変異体を判別できることが分かった。
 上記結果を踏まえて、変異体i の濃縮度Enrichment Rate (ER(i)) を定義した。
Figure JPOXMLDOC01-appb-M000015
4. クラスタリング解析を利用した変異体群からの新規結合陽性変異体の探索
 4thラウンド後の変異体群のNGSデータから、相同性配列検索プログラムBLASTを用いて12GのCDRに類似したアミノ酸配列を有する変異体を探索したところ、 BLAST探索時の期待値E-valueが10以下という閾値でのクラスタリング解析で、12G類似変異体を38種見つけることができた。
 そこで次に、12G類似変異体38種のうち、3rdおよび4thラウンドの「溶出ファージ」サブライブラリー中においてファージ存在率比が1以上の変異体に限定してタンパク質調製を行った。その結果、1つの類似変異体(738, 表12)は凝集体形成なしに単量体タンパク質として調製され(図20A)、ELISAによる結合評価では、標的分子に対して結合陽性を示した(図20B)。そして、CDスペクトル測定による二次構造評価では、野生型VHHに近い二次構造を保持していることが分かった(図20C)。
Figure JPOXMLDOC01-appb-T000016
5. 機械学習による予測システムの作製
 3.で作製した教師データを利用し、結合陽性変異体738の結合力向上に寄与する残基位置を機械学習により予測した。予測システムは、実施例1と同様にCOMBOを使用して作製し、変異体の配列データも実施例1と同様に1残基あたり1~10次元ベクトルで表現する指標もしくはその組み合わせのなかで適切なものを用いて表現した。
 次に、機能値を予測する対象となる配列群 (予測空間) を、738変異体のCDR3に位置する19箇所のアミノ酸配列に最大4残基変異を導入した変異体が要素となる配列空間(19C3×204=6.2×108)を対象として予測空間を設計した。
6. 予測システムによる第2のライブラリーの設計
 構築した予測システムにより、CDR3中の19残基が表現する配列空間に含まれる全変異体の予測値を計算した。そして、予測された上位1,000配列中で多く変異が入っていたCDR3中の4残基位置(35, 37, 38, 39)を、第2のライブラリーのための変異導入箇所と決定した(表13)。
Figure JPOXMLDOC01-appb-T000017
 決定した4箇所の変異導入残基位置に出現させるアミノ酸を、予測システムが予測した上位10,000配列中10配列以上で登場するアミノ酸が出現する第2のライブラリー遺伝子群の設計について縮退コドンを用いて行ったところ、残基位置39のみ対象外のアミノ酸(R)が含まれるのみで設計することができ、配列空間規模が648(9×4×2×9)を表現する縮退コドンをもつプライマーを用いて、738変異体を鋳型としてPCRを行って第2のライブラリーを作製した。作製した第2のライブラリーの遺伝子断片をpRA5ベクターへ挿入し、作製したプラスミドで形質転換した大腸菌BL21(DE3) 180クローンを96ディープウェルプレートで小スケール培養し、発現した変異体をELISA法を用いてGalectin-3に対しての結合評価を行った。そして、Galectin-3に対して特異的に結合した変異体を2種(2G, 6C)選択し、500 mLスケールでの培養し、IMACおよびSECで精製したところ、両変異体とも単量体として調製することができ(図21A)、かつCDスペクトルでも野生型と類似した二次構造を形成していることが分かった(図21B)。そして、両変異体6C 変異体は、ELISA評価より、738変異体よりも標的Galectin-3へ20倍程度強く結合した(図22)。
 本発明によれば、抗体や酵素などの産業上の利用価値が高いタンパク質について、最適化されたタンパク質を効率よく取得できる。これにより、当該タンパク質の機能向上を目的とした改変が容易に実施できる。
 本明細書中で引用した全ての刊行物、特許及び特許出願をそのまま参考として本明細書中にとり入れるものとする。
配列番号4:synthetic peptide C6 Loop 1
配列番号5:synthetic peptide C6 Loop 2
配列番号6:synthetic peptide 1E2 Loop 1
配列番号7:synthetic peptide 1E2 Loop 2 
配列番号8:synthetic peptide 1H2 Loop 1
配列番号9:synthetic peptide 1H2 Loop 2
配列番号10:synthetic peptide 3B5 Loop 1
配列番号11:synthetic peptide 3B5 Loop 2
配列番号12:synthetic peptide 4H5 Loop 1
配列番号13:synthetic peptide 4H5 Loop 2
配列番号14:cAbBCII-10 VHH
配列番号15:CDR3 of 12G mutant
配列番号16:CDR3 of 738 mutant

Claims (11)

  1.  核酸ライブラリーの作製方法であって、
    1)ファージディスプレイ法により、標的に結合するまたは結合させたいタンパク質をコードする核酸配列にランダムに変異を導入した変異体から構成される第1のライブラリーを準備する工程、
    2)前記第1のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する工程、及び
    3)前記データを用いて機械学習を実施し、機械学習予測に基づき第1のライブラリーから第2のライブラリーを取得する工程、を含み、
     前記機械学習に使用するデータが、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び前記変異体集団に含まれる一部の変異体の標的への結合の実測値を含む、前記方法。
  2.  機械学習に使用するデータが、以下の工程:
    i)標的結合配列溶出操作段階のサブライブラリーと、前記段階とは異なる1又は2以上の段階のサブライブラリーについて、配列とその出現頻度のデータを取得する工程、
    ii)前記出現頻度から標的への推定結合強度を示すスコアとして算出する工程、
    iii)前記スコア、標的への結合の実測値、及びそれらを与える配列データを機械学習に使用するデータとして決定する工程、により取得される、請求項1に記載の方法。
  3.  異なる1又は2以上の段階が、同じラウンドにおける、非特異的結合配列除去操作段階、標的結合配列選択操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、異なるラウンドにおける非特異的結合配列除去操作段階、標的結合配列選択操作段階、標的結合配列溶出操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、又はその両方である、請求項2に記載の方法。
  4.  スコアが、標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階又は選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、請求項2に記載の方法。
  5.  スコアが、同じラウンドの標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階のサブライブラリーとの出現頻度の比率を用いて算出されるか、又は、異なるラウンドの標的結合配列溶出操作段階のサブライブラリーと、選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、請求項2に記載の方法。
  6.  2~4ラウンドのサブライブラリーのデータを使用してスコアが算出される、請求項2に記載の方法。
  7.  スコアが下記式1)~6)から選ばれるいずれかの式にしたがって算出される、請求項2に記載の方法。
    Figure JPOXMLDOC01-appb-M000001
     ここで、Fx,n(i)は、変異体iのx回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を表す。
     nは、
    n=1: 第1のライブラリー
    n=2: 非特異的結合ファージ除去操作で除去されたファージからのサブライブラリー
    n=3: 標的結合配列溶出段階で除去されたファージからのサブライブラリー
    n=4: 標的結合配列溶出段階後のファージからのサブライブラリー
    n=5: ファージ感染後大腸菌からのサブライブラリー
    n=6: 増幅後ファージからのサブライブラリー
  8.  標的への結合の実測値が、ELISAによる測定値である、請求項1~7のいずれか1項に記載の方法。
  9.  工程3において、縮退コドンの設計により、機械学習が予測していない配列を第2のライブラリーに含ませるようにする、請求項1~8のいずれか1項に記載の方法。
  10.  標的に結合するまたは結合させたいタンパク質が抗体、抗体様分子、又は酵素である、請求項1~9のいずれか1項に記載の方法。
  11.  最適化されたタンパク質の作製方法であって、
    請求項1~10のいずれか1項に記載の方法にしたがって第2のライブラリーを取得する工程、
     前記第2のライブラリーをスクリーニングし、最適化されたタンパク質をコードする核酸配列を決定する工程、及び、
     前記核酸配列に基づき最適化されたタンパク質を作製する工程、を含む前記方法。

     
PCT/JP2022/010438 2022-03-10 2022-03-10 機械学習によるライブラリーの作製方法 WO2023170844A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/010438 WO2023170844A1 (ja) 2022-03-10 2022-03-10 機械学習によるライブラリーの作製方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/010438 WO2023170844A1 (ja) 2022-03-10 2022-03-10 機械学習によるライブラリーの作製方法

Publications (1)

Publication Number Publication Date
WO2023170844A1 true WO2023170844A1 (ja) 2023-09-14

Family

ID=87936412

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/010438 WO2023170844A1 (ja) 2022-03-10 2022-03-10 機械学習によるライブラリーの作製方法

Country Status (1)

Country Link
WO (1) WO2023170844A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065677A1 (en) * 2017-01-13 2019-02-28 Massachusetts Institute Of Technology Machine learning based antibody design

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065677A1 (en) * 2017-01-13 2019-02-28 Massachusetts Institute Of Technology Machine learning based antibody design

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ITO TOMOYUKI, HAFUMI NISHI, THUY DUONG NGUYEN, YUTAKA SAITO, TOMOSHI KAMEDA, HIKARU NAKAZAWA, KOJI TSUD, MITSUO UMETSU: "422-Pos Application of next-generation sequencing analysis in the directed evolution for creating antibody mimic. ", 65TH ANNUAL MEETING OF THE BIOPHYSICAL SOCIETY, 23 February 2021 (2021-02-23), pages 87a, XP093089572, Retrieved from the Internet <URL:https://www.cell.com/biophysj/pdf/S0006-3495(20)31640-4.pdf> [retrieved on 20231008] *
LIU GE, ZENG HAOYANG, MUELLER JONAS, CARTER BRANDON, WANG ZIHENG, SCHILZ JONAS, HORNY GERALDINE, BIRNBAUM MICHAEL E, EWERT STEFAN,: "Antibody complementarity determining region design using high-capacity machine learning", BIOINFORMATICS, OXFORD UNIVERSITY PRESS , SURREY, GB, vol. 36, no. 7, 1 April 2020 (2020-04-01), GB , pages 2126 - 2133, XP055905402, ISSN: 1367-4803, DOI: 10.1093/bioinformatics/btz895 *
SAKA KOICHIRO, KAKUZAKI TARO, METSUGI SHOICHI, KASHIWAGI DAIKI, YOSHIDA KENJI, WADA MANABU, TSUNODA HIROYUKI, TERAMOTO REIJI: "Antibody design using LSTM based deep generative model from phage display library for affinity maturation", SCIENTIFIC REPORTS, vol. 11, no. 1, 1 December 2021 (2021-12-01), pages 5852, XP055876990, DOI: 10.1038/s41598-021-85274-7 *

Similar Documents

Publication Publication Date Title
Paoli et al. Biosynthetic potential of the global ocean microbiome
US10253313B2 (en) Universal fibronectin type III bottom-side binding domain libraries
Janin et al. Protein–protein interaction and quaternary structure
JP2022543234A (ja) 機械学習支援ポリペプチド設計
CN114585918A (zh) 中尺度工程化肽和选择方法
JP2022530941A (ja) 収束抗体特異性配列パターンの識別
EP3650465A1 (en) Novel populations of polypeptides having a triple-helical structure
Porebski et al. Rapid discovery of high-affinity antibodies via massively parallel sequencing, ribosome display and affinity screening
WO2023170844A1 (ja) 機械学習によるライブラリーの作製方法
KR20160052562A (ko) 항체 안정성의 개선 방법
US20160125124A1 (en) Obtaining an Improved Therapeutic Ligand
US20210284695A1 (en) Folded and protease-resistant polypeptides
Oksanen et al. Genotyped functional screening of soluble Fab clones enables in-depth analysis of mutation effects
Shanehsazzadeh et al. In vitro validated antibody design against multiple therapeutic antigens using generative inverse folding
WO2024122449A1 (ja) 機械学習による抗体設計法
JP6665274B2 (ja) 標的分子に結合するポリペプチドの決定方法及び決定システム
WO2023048294A1 (ja) 機械学習によるタンパク質設計法
CN115458048B (zh) 基于序列编解码的抗体人源化方法
Chinery et al. Baselining the Buzz. Trastuzumab-HER2 Affinity, and Beyond!
Minot Data efficient machine learning-guided protein engineering
Hutchinson et al. Enhancement of antibody thermostability and affinity by computational design in the absence of antigen
WO2024051106A1 (zh) 一种抗IL4i1纳米抗体的制备及其应用
JP2024075076A (ja) 新規変異導入方法による進化ライブラリの作成およびそのライブラリを用いたペプチドスクリーニング方法
Hall-Beauvais et al. De novo designed proteins: a study in engineering novel folds and functions
Martins et al. Variational Autoencoders and Evolutionary Algorithms for Targeted Novel Enzyme Design

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22930825

Country of ref document: EP

Kind code of ref document: A1