WO2023170844A1

WO2023170844A1 - 機械学習によるライブラリーの作製方法

Info

Publication number: WO2023170844A1
Application number: PCT/JP2022/010438
Authority: WO
Inventors: 光央梅津; 光中澤; 智之伊藤; 早矢河田; 羽美西; 倫史亀田; 裕齋藤; トゥイズオングエン; 遥一来見田; 宏治津田
Original assignee: 国立大学法人東北大学; 国立研究開発法人産業技術総合研究所; 国立大学法人東京大学
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2023-09-14

Abstract

本発明は、核酸ライブラリーの作製方法であって、１）ファージディスプレイ法により、標的に結合するまたは結合させたいタンパク質をコードする核酸配列にランダムに変異を導入した変異体から構成される第１のライブラリーを準備する工程、２）前記第１のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する工程、及び、３）前記データを用いて機械学習を実施し、機械学習予測に基づき第１のライブラリーから第２のライブラリーを取得する工程、を含み、前記機械学習に使用するデータが、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び前記変異体集団に含まれる一部の変異体の標的への結合の実測値を含む、方法に関する。

Description

機械学習によるライブラリーの作製方法

　本発明は、機械学習による核酸ライブラリーの作製方法に関する。より詳細には、機械学習データとしてより適切なデータを用いることで、目的とするタンパク質をコードする核酸を多く含む核酸ライブラリーの作製方法に関する。

　抗体や酵素などの機能性タンパク質を改変し、その機能を向上させるニーズは広く存在する。最近では、機械学習を用いることで、タンパク質の機能改変をより効率的に行う研究が進められている。これらの研究では、ある程度の規模で変異体ライブラリーを作製し、変異体のアミノ酸配列と機能を実験的に測定して、これを紐づけされたデータがシーケンスから機能を予測する機械学習モデルを構築するための教師データとして使用する。そして、構築された機械学習モデルを使用することにより、機能が向上すると予測される変異体を予測する。

　機械学習のデータセットに関しては、アミノ酸配列と機能・物性値との直接または間接的な紐づけデータセットの２つのタイプが適用されている。直接的紐づけデータセットでは、各変異体の機能・物性値が変異体ごとに測定され、それら機能・物性値は対応する変異体の配列に紐づけされる（非特許文献１など）。一方、間接的紐づけデータセットでは、機能・物性値は直接測定されず、ディープシークエンス解析によるアミノ酸配列のリード数などを機能・物性値の代替としてデータセットを作成する（非特許文献２及び３）。

　アミノ酸配列と機能・物性値の間の直接的紐づけは、機械学習用の高品質のデータセットになる可能性があるが、大規模なデータセットの作成は難しく、数十から数百程度のサイズにとどまり、探索できる配列も制限される。一方、間接的紐づけのデータ品質は直接的紐づけデータセットよりも低いが、ディープシーケンス分析により取得できる大きなサイズのアミノ酸配列データを利用できる。そのため、変異残基の位置およびその数や出現アミノ酸が限られている場合には直接的紐づけデータセットを適用し、分子提示法による抗体のリード分子発見には間接的紐づけデータセットを適用することが多い。

　ファージディスプレイ法による分子ライブラリーからのバイオパニング（図１A参照）は、10¹⁰程度の大規模な変異体群から標的結合を示す抗体断片や抗体様分子を取得する有効な方法であり、近年では、次世代シーケンサー（NGS）による配列解析の結果から、選択操作後のライブラリー中の存在率が高くなる（濃縮度が高い）配列を結合力が高い配列であると推定して機械学習を実施する操作が報告されている（特許文献１）。既報では、ファージディスプレイ法における大腸菌感染後（図1A中(v)）もしくはファージ増幅後（図1A中(vi)）の集団のデータを用いて機械学習が実施されている（非特許文献２）。しかし、現実には、機能(標的結合性)が大きく向上した変異体を含むファージ集団を取得できないことも多い。また、濃縮度は標的結合性以外にファージの大腸菌への感染及び増幅過程によっても変化するバイアス選択が存在するため、濃縮度が高くなった配列が必ずしも目的機能を向上したものとは限らない（非特許文献４）。

　機械学習予測の結果からある一定の上位提案配列を作製する場合、その配列多様性から配列の遺伝子を各々合成する必要があり、評価する配列数にはコスト的な制限が掛かってしまうため、教師データの精度によっては目的機能をもつ配列を取得できないという問題もある。そのため、従来の方法では第2のライブラリーの規模は小さい。

ＵＳ２０１９／００６５６７７

Saito et al., "Machine-Learning-Guided Mutagenesis for Directed Evolution of Fluorescent Proteins" ACS Synth Biol. 2018;7(9):2014-2022 Liu et al., "Antibody complementarity determining region design using high-capacity machine learning" Bioinformatics, 2020;36(7):2126-2133 Saka et al., "Antibody design using LSTM based deep generative model from phage display library for affinity maturation" Scientific Reports, 2021;11(1):5852 Ito et al., "Application of next-generation sequencing analysis in the directed evolution for creating antibody mimic" 65th Annual Meeting of the Biophysical Society. 2021.2.25. (Boston, MA, USA)

　本発明の課題は、目的とするタンパク質をコードする核酸を含むライブラリーを提供することにある。とくに、明確な陽性変異体が得られていないバイオパニング操作からでも目的機能分子を含むライブラリーを取得するための手法の提供にある。

　さまざまな段階のサブライブラリーの配列データを用いて標的への推定結合強度を算出し、変異体の実測値との相関性を評価した。そして、標的結合配列溶出段階（図１A中(iv)）のサブライブラリーのデータを使用することで、標的結合に起因する選択圧による配列の濃縮が、ファージの大腸菌への感染及び増幅過程でのバイアス選択でおこる配列の濃縮よりも小さくても、実測値と相関性が高い推定結合強度が得られることを見出した。さらに、間接的紐づけデータセットから機械学習が予測した配列集団に縮退コドン設計を組み合わせて、機械学習が予測した配列に類似な配列も含む二次ライブラリーを構築することで、目的とするタンパク質をより多く含み、かつ安価にライブラリーが構築できることを見出した。

　すなわち、本発明は以下の［１］～［１１］に関する。
［１］　核酸ライブラリーの作製方法であって、
１）ファージディスプレイ法により、標的に結合するまたは結合させたいタンパク質をコードする核酸配列にランダムに変異を導入した変異体から構成される第１のライブラリーを準備する工程、
２）前記第１のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する工程、及び
３）前記データを用いて機械学習を実施し、機械学習予測に基づき第１のライブラリーから第２のライブラリーを取得する工程、を含み、
　前記機械学習に使用するデータが、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び前記変異体集団に含まれる一部の変異体の標的への結合の実測値を含む、前記方法。
［２］　機械学習に使用するデータが、以下の工程：
i）標的結合配列溶出操作段階のサブライブラリーと、前記段階とは異なる１又は２以上の段階のサブライブラリーについて、配列とその出現頻度のデータを取得する工程、
ii）前記出現頻度から標的への推定結合強度を示すスコアとして算出する工程、
iii）前記スコア、標的への結合の実測値、及びそれらを与える配列データを機械学習に使用するデータとして決定する工程、により取得される、［１］に記載の方法。
［３］　異なる１又は２以上の段階が、同じラウンドにおける、非特異的結合配列除去操作段階、標的結合配列選択操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、異なるラウンドにおける非特異的結合配列除去操作段階、標的結合配列選択操作段階、標的結合配列溶出操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、その両方である、、［２］に記載の方法。
［４］　スコアが、標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階又は選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、［２］に記載の方法。
［５］　スコアが、同じラウンドの標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階のサブライブラリーとの出現頻度の比率を用いて算出されるか、又は、異なるラウンドの標的結合配列溶出操作段階のサブライブラリーと、選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、［２］に記載の方法。
［６］　２～４ラウンドのサブライブラリーのデータを使用してスコアが算出される、［２］に記載の方法。
［７］　スコアが下記式1)～6)から選ばれるいずれかの式にしたがって算出される、［２］に記載の方法。

　ここで、F_x,n(i)は、変異体iのx回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を表す。
　nは、
n=1: 第１のライブラリー
n=2: 非特異的結合ファージ除去操作で除去されたファージからのサブライブラリー
n=3: 標的結合配列溶出段階で除去されたファージからのサブライブラリー
n=4: 標的結合配列溶出段階後のファージからのサブライブラリー
n=5: ファージ感染後大腸菌からのサブライブラリー
n=6: 増幅後ファージからのサブライブラリー
［８］　標的への結合の実測値が、ELISAによる測定値である、［１］～［７］のいずれかに記載の方法。
［９］　工程３において、縮退コドンの設計により、機械学習が予測していない配列を第２のライブラリーに含ませるようにする、［１］～［８］のいずれかに記載の方法。
［１０］　標的に結合するまたは結合させたいタンパク質が抗体、抗体様分子、又は酵素である、［１］～［９］のいずれかに記載の方法。
［１１］　最適化されたタンパク質の作製方法であって、
［１］～［１０］のいずれかに記載の方法にしたがって第２のライブラリーを取得する工程、
　前記第２のライブラリーをスクリーニングし、最適化されたタンパク質をコードする核酸配列を決定する工程、及び、
　前記核酸配列に基づき最適化されたタンパク質を作製する工程、を含む前記方法。

　本発明は、(1)適切な段階のファージ集団として標的結合配列溶出操作段階のサブライブラリーを用いる；(2)機械学習が予測した上位配列のみを含むのではなくより多くの配列空間を対象にした第2のライブラリーを作製する；(3)第2のライブラリーとして再びファージ提示法を用いることによって低価格で実現できる、と言う特徴を有する。

　本発明によれば、目的とするタンパク質をコードする核酸をより多く含むライブラリーを構築することができる。これにより、抗体や酵素などの産業上有用なタンパク質の機能の向上を効率的に行うことができる。

A:バイオパニングの一例。B:実施例１・２のバイオパニング 2u2fタンパク質のアミノ酸配列各ラウンド後の増幅ファージを用いたポリクローナルファージELISA　使用するポリクローナルファージの量を5.0×10¹¹ cfuから希釈無, 5倍希釈, 25倍希釈したサンプルを用いて結合評価を行った。各サンプルは抗M13 phage-HRP抗体により検出。 C6 変異体の物性および機能評価(A) C6変異体のサイズ排除クロマトグラフィーによる精製（矢印は単量体画分）(B) ELISAによるC6変異体の結合評価　　(黒): NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル　　(灰): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし)(C) C6変異体(灰)および野生型2u2f(黒)のCDスペクトル測定各サブライブラリーでのユニーク配列が占めるリード数の割合各ユニーク配列におけるサブライブラリー間の存在率変化　図中の斜めの直線はy=xの基準線を示す。また各軸は着目したサブライブラリー中における変異体の存在率を対数でとった値を示す。(A)：増幅ファージの1ラウンドから2ラウンド(左), 2ラウンドから3ラウンド(中), 3ラウンドから4ラウンドに(右)かけての存在率変化(B)：2(左), 3(中), 4(右)ラウンドにおけるインプット(前ラウンドの増幅ファージ)からアウトプット(溶出ファージ)にかけての存在率変化スコア値の算出　F_x,n: x回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数) 2および3ラウンドでの各残基位置におけるアミノ酸出現頻度の変化　アミノ酸出現頻度（-1.0-1.0）＝log₂(溶出ファージ(2nd)のアミノ酸出現頻度／増幅ファージ(1st)のアミノ酸出現頻度) 機械学習予測上位10,000配列の各残基位置におけるアミノ酸出現頻度機械学習予測上位10,000配列のクラスタリング結果 (A) 各クラスターの配列数およびアミノ酸出現頻度(B) 各クラスターに含まれる配列の順位分布（矢印：上位1000配列を含むクラスター）。設計したライブラリーの各残基位置におけるアミノ酸出現頻度（左：機械学習で予測された配列、右：設計したライブラリー）各ラウンド後の増幅ファージを用いたポリクローナルファージELISA　各グラフ左から5.0 x 10¹¹ cfu、1.0 x 10¹¹ cfu、2.0 x 10¹⁰ cfu（Target: Gal-3 (+)）、5.0 x 10¹¹ cfu、1.0 x 10¹¹ cfu、2.0 x 10¹⁰ cfu（Target: Gal-3 (-)）(Gal-3 (+))：NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(Gal-3 (-)): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし) 有望変異体12種のELISAによる結合評価(Gal-3 (+))：NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(Gal-3 (-)): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし) 1E2, 1H2, 3B5, 4H5変異体のEC₅₀測定結果野生型2u2f, 1H2, 1E2, 3B5, 4H5のCDスペクトル測定 cAbBCII-10のアミノ酸配列と変異導入箇所(枠線:AbMの定義におけるCDR) ポリクロ―ナルファージELISA結果　各グラフ左から、5.0 x 10¹⁰ cfu、1.7 x 10¹⁰ cfu、5.6 x 10⁹cfu、1.9 x 10⁹ cfu、6.2 x 10⁸ cfu、2.1 x 10⁸ cfu、6.9 x 10⁷ cfu(A)：NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(B): NeutrAvidinをのみを固定化したウェルへの結合シグナル (Galectin-3なし) 野生型VHH（上）と12G変異体（下）のSEC(A)　矢印：モノマー, ELISA(B)（黒：標的分子あり、灰：標的分子なし）, CDスペクトル(C)結果（黒：野生型VHH、灰：12G）生体外選択操作過程における変異体群分布変化（左端：イニシャルファージ、各ラウンド左から、ネガティブファージ、洗浄ファージ、溶出ファージ、感染大腸菌、増幅ファージ）野生型VHH（上）と738変異体（下）のSEC(A)　矢印：モノマー, ELISA(B)（黒：標的分子あり、灰：標的分子なし）, CDスペクトル(C)結果（黒：野生型VHH、灰：738） 2G, 6C変異体のSEC(A), CDスペクトル(B)結果（上から、WT、738、6C、2G） 2G, 6C変異体のELISA結果(A)：NeutrAvidinを介してGalectin-3を固定化したウェルへの結合シグナル(B): NeutrAvidinのみを固定化したウェルへの結合シグナル (Galectin-3なし)(C): BSAを固定化したウェルへの結合シグナル (Galectin-3なし)(D): Galectin-3を固定化したウェルに対して2G, 6C変異体の濃度を変化させたELISA結果

　本発明は、ファージディスプレイ法による核酸ライブラリーの作製方法に関する。

１．初期ライブラリー（第１のライブラリー）の作製
　まず、ファージディスプレイ法により、「標的に結合するまたは結合させたい」タンパク質についてランダムに変異を導入した変異体からなるライブラリーを準備する。本明細書においては、この最初に準備されるライブラリーを、機械学習による濃縮後のライブラリーと区別するために、「初期ライブラリー」又は「第1のライブラリー」と呼ぶ。「初期ライブラリー」と「第1のライブラリー」は、本明細書においては互換的に使用される。

　「標的に結合するまたは結合させたいタンパク質」は特に限定されないが、抗体・抗体様分子又は酵素など、特性の改善を必要とする機能性タンパク質が好ましい。抗体には、VHH抗体などの低分子抗体、Fab、F(ab')²、scFv、diabody、minibodyなどの抗体断片も含まれる。抗体様分子とは、抗体と同様に抗原と特異的に結合することで機能を発揮するが、抗体とは構造的に関連しない化合物を意味し、抗体ミメティックともよばれる。抗体様分子には、例えば、アフィボディ、アフィマー、アフィチン、アルファボディ、アンチカリン、アビマー、ファイノマー、モノボディ、DARPins、nanoCLAMPなどが含まれる。

　変異を導入する部位（「変異導入部位」）としては、最適化の対象となる特性に影響を与える部位を選択する。「特性に影響を与える」とは、当該部位のアミノ酸の変更（置換・欠失・挿入）、特にアミノ酸置換によって、特性が変化・向上することを意味する。

　変異導入部位の選択は、例えば、抗体の場合は、抗原認識部位である相補性決定領域(CDR)領域およびその周辺を含む残基であり、CDRはChothia, AbM, Kabat, Contactなどで定義づけられる。非抗体タンパク質の抗体様分子については、報告されている変異導入部位を選択することができ、また、表面への露出度や自然界に存在する相同タンパク質における各残基位置におけるアミノ酸出現頻度から変異導入部位を選択することもできる。

　また、結合機能を損なわずに構造安定性を向上させる選択圧をかける場合は、変異導入部位の選択をコンセンサス工学に基づいて実施することができる。「コンセンサス工学」とは、コンセンサスに基づく設計（consensus designあるいはconsensus-based engineering）であり、特定のファミリーの多数のタンパク質のアライメントから得られるコンセンサス配列に近づけるようにタンパク質の配列を改変することにより、タンパク質の安定性を高めるアプローチである（Porebski and Buckle, “Consensus protein design” Protein Engineering, Design & Selection, 2016, 29(7):245-251、Steipe B., et al., J. Mol. Biol, 1994, 240(3):188-192など）。

　具体的に言えば、酵素の機能改変（酵素の熱安定性の向上等）の場合、自然界で多く選択されているアミノ酸残基は酵素の機能向上に寄与するとの仮定に基づき、出発タンパク質のアミノ酸配列と同じファミリーに属するタンパク質のアミノ酸配列群をマルチプルシークエンスアライメント法（ClustalWやMAFFTなど）によって各残基位置でのアミノ酸の出現頻度を計算し、最も高頻度に保存されているアミノ酸残基をコンセンサス残基とする。そして、出発タンパク質の各アミノ酸残基位置をコンセンサス残基に変異させていく。一方、抗体に関しては、生殖細胞系列ファミリーで観察される様々な突然変異は構造的不安定化を引き起こす突然変異の排除に起因するという仮定に基づき、免疫グロブリン（Ig）可変領域断片のアライメントの特定位置で最も頻繁に観察されるアミノ酸は熱力学的安定性にとって最も好ましいアミノ酸と考える。

　コンセンサス工学を利用すれば、結晶構造の知識や複雑なインシリコ計算も必要とせず、アミノ酸配列だけでタンパク質の機能改変が実施できる。しかし、コンセンサス残基を使っていないアミノ酸を単純にコンセンサス残基に置換していくと、構造的安定性は逆に低下したり、構造的安定性は向上しても別の機能(例えば酵素活性や抗原結合活性)は低下することが多い。そのため、該当する残基位置とその場所へ出現させるアミノ酸の選択が重要になる。

　変異の導入は、縮退コドンをもつプライマーを使ったオーバーラップエクステンションPCR法をはじめ、エラープローンPCR法、ランダムプライマー法、インバースPCR法、DNAシャフリング、Staggered PCR法、Kunkel法、クイックチェンジ法など、当該分野で公知の手法を用いることができる。市販の変異導入キットも利用することができる。

　ライブラリーのサイズは特に限定されず、変異導入部位の数に応じて適宜決定される。天然のアミノ酸は20種類あるため、例えば、変異導入部位が3残基であれば、20³で約8000、4残基であれば20⁴で約160000のサイズとなる。本発明の手法は、とくに標的への結合性の機能を変化させる場合、変異導入部位が7残基以上である場合に好適に利用しうる。

２．機械学習用データの取得
　次に、第１のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する。

　「バイオパニング」とは、標的への特異的結合を利用した選択による目的タンパク質の濃縮操作である（図１A参照）。例えば、目的タンパク質が抗体・抗体様分子の場合には抗原への結合、酵素の場合には基質への結合についてバイオパニングを実施する。

　ライブラリーに含まれる集団において、バイオパニングによってライブラリー中の存在率が高くなる(濃縮度の高い)配列は標的への結合力が強いことが想定される。そこで、バイオパニングの各段階に含まれる変異体集団（サブライブラリー）について、配列（アミノ酸配列及び核酸配列）とその出現頻度（ある変異体のリード数／サブライブラリー中の全リード数）を解析して、各配列の濃縮度を求め、これを標的への「推定結合強度」とする。「推定結合強度」は、機械学習に使用するためにスコア化する。

　前述のとおり、従来の方法では、選択されたファージを大腸菌に感染させた後（図１A中(v)）もしくはファージを増幅させた後（図１A中(vi)）の集団のデータ（濃縮度）が機械学習に使用されていた。しかし、大腸菌感染・ファージ増幅後の集団の出現頻度にはバイアスがかかり、実測値を反映しない。発明者らは、バイオパニングの様々な段階のサブライブラリーに含まれる変異体集団の配列と出現頻度を解析し、推定結合強度をさまざまな算出式によりスコア化して実測値との相関を比較した。その結果、標的結合配列の溶出操作後(iv)の集団のデータが実測値との相関が高いことを見出した。この標的結合配列の溶出操作後の濃縮度が、大腸菌感染・ファージ増幅後の集団の濃縮度よりも低くなることはバイオパニングではよく起こることであり、その場合、大腸菌感染・ファージ増幅でおこるバイアス変化に標的結合の濃縮度が埋もれてしまい、選択操作による濃縮が観測されない。

　バイオパニングの「段階」とは、例えば、バイオパニングの各ラウンドにおける、非特異的結合配列の除去操作段階、標的結合配列の選択操作段階、標的結合配列の溶出操作段階、大腸菌への感染操作段階、及び選択配列の増幅操作段階などである。

　本発明において機械学習に使用するデータは、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び、標的への結合の実測値を含む

　機械学習に使用するデータは、例えば、以下の工程により取得される。
i）バイオパニングの標的結合配列溶出操作段階（図１A中(iv)）と、前記段階とは異なる１又は２以上の段階について、各段階に含まれる変異体集団の配列とその出現頻度のデータを取得する工程、
ii）前記出現頻度から標的への推定結合強度を示すスコアとして算出する（例えば、０～１の数値に正規化する）工程、
iii）前記スコア、標的への結合の実測値、及びそれらを与える配列データを機械学習に使用するデータとして決定する工程。

　各サブライブラリー中の変異体で解析する配列数は、人工知能に意味のある学習データを提供できれば特に限定されない。選択操作に投入する初期ライブラリーの配列数(例えば、10⁹配列)が好ましいが、100,000配列以上でも構わない。

　本発明において、バイオパニングのラウンド数は特に限定されず、対象とする変異体の数や標的との親和性によって適宜設定される。一般的には、バイオパニングは２ラウンド以上、好ましくは３ラウンド以上、４ラウンド以上、一般的には２～６ラウンド、とくに２～４ラウンド実施される。

　異なる１又は２以上の段階は、同じラウンドにおける標的結合配列溶出操作段階とは異なる段階、異なるラウンドにおける段階、あるいはその両方のいずれであってもよい。好ましくは、同じラウンドにおける標的結合配列溶出操作段階とは異なる１又は２以上の段階である。

　具体的には、異なる１又は２以上の段階としては、同じラウンドにおける、非特異的結合配列除去操作段階、標的結合配列選択操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、異なるラウンドにおける非特異的結合配列除去操作段階、標的結合配列選択操作段階、標的結合配列溶出操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、又はその両方が挙げられる。異なる１又は２以上の段階としては、非特異的結合配列除去操作段階及び／又は選択配列増幅操作段階が好ましく、非特異的結合配列除去操作段階がより好ましい。

　スコアは、例えば、標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階又は選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される正規化・標準化された数値である。より具体的に言えば、スコアは、同じラウンドの標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階のサブライブラリーとの出現頻度の比率を用いて算出されるか、又は、異なるラウンドの標的結合配列溶出操作段階のサブライブラリーと、選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される正規化・標準化された数値である。

　スコアは、２ラウンド目、３ラウンド目、４ラウンド目、又は５ラウンド目、好ましくは２ラウンド目～４ラウンド目のサブライブラリーのデータを使用して算出する。

　スコアは、例えば、下記式1）～6)のいずれかに基づいて算出される。

　式中、F_x,n(i)は、変異体iのx回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を表す。
　nは、
n=1: 初期ライブラリー（第１のライブラリー）
n=2: 非特異的結合ファージ除去操作で除去されたファージからのサブライブラリー
n=3: 標的結合配列溶出段階で除去されたファージからのサブライブラリー
n=4: 標的結合配列溶出段階後のファージからのサブライブラリー
n=5: ファージ感染後大腸菌からのサブライブラリー
n=6: 増幅後ファージからのサブライブラリー

　関数fx(i)としていずれを選ぶかは、各関数を用いて配列と紐づけする数値を算出し、そのAUC（Area Under the Curve）値にしたがって決定できる。例えば、AUC値として、0.5以上、0.6以上、0.7以上を与える関数から、適当なものを選択することができる。

　上記スコアは、必要に応じてさらに正規化してもよい。例えば、後述する実施例１及び２のように、「推定結合強度」の値の対数を濃縮度Enrichment Rate (ER(i)) として、ER(i)の値が大きいものがよりいいものとして正規化させるため、nScore(i)を求めている。

　後述する機械学習にあたって、スコアの値は使用する処理手段にしたがい適当な数値に変換される。例えば、COMBOの場合であれば、スコアは－１～０に変換されて機械学習に供される。

　標的への結合の実測値は、特に限定されない。好ましくは、標的への結合の実測値はELISAによって測定される。標的への結合は、親和性（結合活性）、標的特異性、基質特異性、触媒活性などの機能の指標となり得る。また、測定条件によっては、構造安定性、熱安定性、pH安定性、凝集性、塩安定性、圧力安定性、還元安定性、変性剤安定性の指標ともなり得る。

３．機械学習
　本発明では、いくつかの変異体の実測値に基づいて選択されたスコアと、その配列情報を機械学習の教師データとして使用し、機械学習を行う。すなわち、ライブラリーの一部の変異体について取得したスコア値と対応する変異体の配列情報を人工知能に学習させ、ライブラリーの全変異体のスコアを予測し、ランク付けを行う。機械学習としては、例えば、ベイズ最適化が好ましい。

　アミノ酸配列情報は、文字から数値（数値ベクトル）に変換して入力する。そのような方法は、当該分野で公知の方法を使用することができ、例えば、T-scale、Z-scale、ST-scale、BLOSUM、FASGAI、MSWHIM、ProtFP、ProtFP-Feature、VHSE 、Aromaphilicity、PSSMなどを使用することができる（van Westen et al., J Cheminform. 2013; 5: 41）。

　「ベイズ最適化」とは、ハイパーパラメーターチューニング手法、すなわち、形の分からない関数（ブラックボックス関数）の最適値（最大値あるいは最小値）を求める機械学習手法の一つである。各候補点は、記述子と呼ばれる数値ベクトルで表現される。各反復では、これまでに評価された候補点のデータを用いて機械学習モデルが学習され、その学習済みのモデルを用いて、残りの候補点のモデル関数の予測値および予測分散が計算される。さらに、その予測値・予測分散に依存するスコアを計算し、最もスコアが大きい候補点を、次の評価点と定め関数評価を行う。ここで得た新たなデータは、教師データに加えられる。

　「ベイズ最適化」には、公知のソフトウェアを利用することができる。例えば、2DMAT（https://www.pasums.issp.u-tokyo.ac.jp/2dmat/）COMmon Bayesian Optimization Library (COMBO)（Ueno et al., Mater. Discov., 4, 18-21 (2016), https://tomoki-yamashita.github.io/CrySPY_doc/）、CrySPY（https://tomoki-yamashita.github.io/CrySPY_doc/）、PHYSBO (optimization tools for PHYsics based on Bayesian Optimization)（https://www.pasums.issp.u-tokyo.ac.jp/physbo/）などが知られているが、これらに限定されない。なかでも、COMBOが好ましい。

４．第２のライブラリーの作製
　一部の変異体のデータを用いた機械学習により、人工知能はライブラリーの全変異体のスコア値を予測し、そのランク付けを行う。予測結果に基づき、好適な変異体を選択することで、初期ライブラリーよりも目的とするタンパク質が濃縮されたライブラリーを作製することができる。この濃縮されたライブラリーを、本明細書においては「第２のライブラリー」と呼ぶ。

　必要に応じて、ライブラリーの濃縮は２回以上濃縮を行ってもよい。すなわち、初期ライブラリーから第２のライブラリーを作製し、次に第２のライブラリーを初期ライブラリーとして第３のライブラリーを作製できる。この過程を繰り返すことで、濃縮は何回でも可能である。最初の濃縮に使用する「２以上の特性」と、２回目以降の濃縮に使用する特性は同じであっても、異なっていてもよい。２回目以降は、２以上の特性について濃縮してもよいし、１つの特性について濃縮してもよい。

　第２のライブラリーには、縮退コドンの設計により、機械学習が予測していない配列を含ませるようにすることが好ましい。ここで、予測していない配列は、機械学習が予測した配列と類似の配列であることが好ましい。

５．最適化されたタンパク質の作製
　機械学習を通じた機能予測により、第２、第３以降のライブラリーから、２以上の特性について最適化された変異体を選択することができる。予測された変異体は、実際に発現させ、その特性を評価・確認して最良のものを選択してもよい。産業上の利用を考慮する場合、一般的に変異導入部位の数は少ない方が好ましい。したがって、最終的には機能の向上と導入する変異の数を考慮して、最適なタンパク質（変異体）を決定することになる。

　以下、実施例により本発明について具体的に説明するが、本発明はこれらの実施例に限定されるものではない。

［実施例１］抗体様分子の機能創出
　特定の分子認識能をもつ抗体や抗体様分子は、ファージディスプレイ法による分子ライブラリーからのバイオパニングなどの遺伝子型－表現型一体システムを用いた選択操作により取得できる。しかし、目的機能・物性を適切にもつ変異体を取得することができないことも多い。近年では次世代シークエンサー(NGS)を用いて、濃縮度の高い配列の変異体を高機能変異体と見立てた間接的配列－機能紐づけデータを作成し機械学習を行って、目的機能分子を取得する試みがあるが、選択操作で特定変異体が適切な濃縮を示さず教師データすら得られないことも多い。本実施例では、抗体様分子の創出を目的として、適切な機能・物性をもつ変異体が得られていないバイオパニング操作からでも目的機能分子を取得できるような機械学習プロセスの開発として、NGS解析からの適切なサブライブラリー選択による教師データの作成と、機械学習が予測した配列集団から機械学習が予測していない配列も含んだ第２のライブラリーを構築し、適切な機能・物性をもつ変異体を取得した。

　Protein Data Bank番号2u2fのタンパク質（配列番号1）の48番目のシステインをアラニンに置換したタンパク質を抗体様分子の足場タンパク質として用い、変異箇所は2u2fタンパク質の2つのループ領域（loop1：11～14番目(NYLN：配列番号2)，loop2：66～72番目(MQLGDKK：配列番号3)）として実施した（図２）。この2u2fの分子認識化を行うため、がんマーカーの一つであるGalectin-3を標的としてバイオパニング操作を行った(図１B)。Galectin-3はβ-ガラクトシド含有糖鎖を認識するGalectinファミリーの一種で、心不全やがんのバイオマーカーとしてだけでなく、新規創薬標的としても注目されている分子である。選択操作にはM13ファージ提示法を利用した。選択操作ではまず2u2f変異体を提示したM13ファージライブラリーを作製した。次に、標的結合性を示す変異体を提示したファージを選択・増幅することを1サイクルとするバイオパニング操作を数回行った後、得られたファージ群から数百種類のファージを単離して標的結合性を持つものを取得した。さらに、ここで標的結合性を持つ有望な変異体はファージから切り離した状態でもその機能を測定し、抗体様分子としての利用可能性を評価した。

1. ファージライブラリー作製とバイオパニング操作
　2u2fの2つのループ領域(loop1, 2)をヒトの非免疫抗体ライブラリー(Naiveライブラリー)に出現するCDRと同じアミノ酸出現頻度になるようランダム化するプライマーを用いてPCRを行った（Kruziki et al., “A 45-Amino-Acid Scaffold Mined from the PDB for High-Affinity Ligand Engineering,” Chemistry & Biology, 22, 946-956 (2015)）。得られた遺伝子断片を、M13ファージのpIIIタンパク質をC末端に付加する形でpUCベクターに挿入した。得られたプラスミドを用いて大腸菌TG-1株をエレクトロポレーションにて形質転換して、この形質転換体を用いて1.0×10⁹規模のM13ファージライブラリーを作製した。

　作製したファージライブラリーを用いてバイオパニング操作を行った（図１B）。まず、標的結合ファージの選択操作を行った。選択操作では、5.0×10¹¹ cfuのファージを用いて標的分子を固定化していない磁性粒子へ非特異的に吸着するファージを除去（図１B中(ii)）するネガティブセレクションを行った後、残ったファージ溶液を用いて標的であるGalectin-3を固定化した磁性粒子と混合し、これに結合しなかったファージを洗浄して除去（図１B中(iii)）、結合したファージを溶出して回収するポジティブセレクションを行うことでサブライブラリー「溶出ファージ」を得た（図１B中(iv)）。次に、溶出ファージを大腸菌TG-1株に感染させ、アンピシリンとグルコースを含む寒天培地上で一晩生育させることでサブライブラリー「感染大腸菌」を得た（図１B中(v)）。さらに、感染大腸菌を液体培地中で培養し、ヘルパーファージを重感染させることでファージを生産・増幅させ、サブライブラリー「増幅ファージ」を得た（図１B中(vi)）。再び、「増幅ファージ」を用いて、上記を繰り返すことを、全4ラウンド行った。

　選択操作後、標的結合性の変異体が選択されているかを評価するため、初期ライブラリーと各ラウンド後の増幅ファージを用いてポリクローナルファージELISAを行い、Galectin-3への結合評価を行った。その結果、ラウンドを重ねるにつれてシグナルの上昇を示し、バイオパニング操作によって標的に親和性をもつ変異体が選択されてきていることが示唆された(図３)。

　そこで、標的結合性を示す変異体を取得するため、3ラウンドおよび4ラウンド後の感染大腸菌から186変異体ずつ96ディープウェルプレートを用いてモノクロ―ナルファージを調製し、ファージELISAによる結合評価を行った。その結果、野生型2u2fを提示したファージよりも高いシグナルを示し、遺伝子配列でフレームシフトを起こしていない変異体が52サンプル得られた。この52種の変異体の中で、複数のウェルに出現していたC6変異体(表１)について、ファージから切り離したタンパク質としての調製を試みた。

　ファージミドベクターに挿入されていたC6変異体遺伝子をpETベクターに移し替え、作製したプラスミドを用いて大腸菌BL21(DE3)株を形質転換して、培養後、固定化金属イオンアフィニティークロマトグラフィー(IMAC)およびサイズ排除クロマトグラフィー（SEC）による精製を行った。その結果、変異を入れていない状態の野生型2u2fと異なり、様々な会合状態をもつ状態で発現しており(図４A)、その中で単量体を形成している画分についてELISAによる結合評価をしたところ、標的分子であるGalectin-3だけでなくGalectin-3をプレートに固定化するアンカーとして使用しているNeutrAvidinにも結合し、標的特異性を持たなかった(図４B)。さらに円偏光二色性（CD）スペクトル測定にて精製タンパク質の二次構造を評価したところ、野生型の2u2fと比較して構造が大きく変化しており、立体構造は天然構造を維持していないことが分かった(図４C)。これらより、2u2fを足場タンパク質としてバイオパニング操作を行った結果、標的に親和性がある変異体は選択されていったが、標的特異的な変異体を単離することはできなかった。

2. 次世代シーケンシング解析(NGS)
(1)1.の(2)で行ったバイオパニング操作において選択されたファージ集団もしくは大腸菌集団からDNAを抽出した。「初期ファージライブラリー」のほかに「溶出ファージ」、「感染大腸菌」、「増幅ファージ」などのサブライブラリーを含む図1B中の(i)～(vi)を回収し、各々のサブライブラリー中の2u2f変異体配列断片をPCRにより増幅させ、アガロースゲル電気泳動を用いて精製し、NGS解析を行った。

　NGS解析にはIllumia社のMiSeqを用いた。解析には、対象DNAの3’端と5’端の両方から250塩基分の配列を解析する2×250ペアエンド解析を用いた。解析終了後に出力された塩基配列データは解析精度の悪い塩基を除去(クオリティートリミング)した後、3’端と5’端方向から解析した塩基配列をつなぎ合わせた(ペアエンドマージ)。そして、解読データの配列を開始コドンから翻訳し、変異をかけたループ領域以外のフレームワーク部分に1残基以上の置換・欠損・挿入が見られる配列を除去した結果、各サブライブラリーについて表２のリード配列数を取得した。

　機械学習用の教師データに効果的なサブライブラリーを決めるため、NGS解析で得た配列群を用いて、変異体の濃縮が起こったラウンドおよび操作の特定を行った。NGS解析において、解析された配列の数をリード数とよび、NGSから出力された配列群の中で重複しない固有の配列をユニーク配列とよぶ。そして、各ユニーク配列のリード数をラウンドもしくは操作間で比較した時の増加幅が大きいほど、配列濃縮が強く起こっていることを示す。

　配列濃縮が起こったラウンドおよび操作を観察するため、NGSに読まれた配列の中で、各ユニーク配列が占める割合を計算し、それをサブライブラリー間で比較した(図５)。その結果、増幅ファージ(１ラウンド)から溶出ファージ(２ラウンド)、そして増幅ファージ(２ラウンド)から溶出ファージ(３ラウンド)にかけて、特定の変異体の濃縮が見られた。これらのサブライブラリーの比較は、それぞれ選択操作におけるインプットからアウトプットの直接的な比較を意味しており、２ラウンドと３ラウンドにおいて結合親和性による選択操作がうまく機能したことを示唆している。しかし、１ラウンドの溶出ファージから感染大腸菌にかけても特定変異体の大きな濃縮が見られ、２、３、４の各ラウンド内での溶出ファージから感染大腸菌にかけては逆に分布の分散が見られた。このことから、大腸菌への感染操作段階(v)では標的への結合親和性以外のバイアスがかかっているといえる。

　続いて、バイオパニング操作で起こった各変異体の濃縮度を解析するため、各ユニーク配列の存在率をサブライブラリー間で比較した。まず各サブライブラリー中における各ユニーク配列の存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を計算し、ラウンド間での濃縮度解析として感染大腸菌サブライブラリーを用いた１ラウンドから２ラウンド、２ラウンドから３ラウンド、３ラウンドから４ラウンドにかけての存在率を比較した(図６A)。その結果、ほとんどの変異体がラウンド間での存在率変化を示さず、y=xの直線付近に分布されていたことから、大腸菌への感染操作段階後のアウトプットをラウンド間で比較しても変異体の濃縮を観察できないといえる。一方、増幅ファージ(1ラウンド)から溶出ファージ(２ラウンド)、増幅ファージ(２ラウンド)から溶出ファージ(３ラウンド)、増幅ファージ(３ラウンド)から溶出ファージ(４ラウンド)、すなわち２、３、４ラウンドにおけるバイオパニング操作のインプットからアウトプットにかけての存在率を比較したところ、インプットからアウトプットにかけて存在率が上昇し、y=xの直線より上にシフトした変異体が多く存在していた(図６B)。このことから、前ラウンドのインプットと当該ラウンドのアウトプットを用いてラウンド間を比較することで各変異体の濃縮を観察できるようになることが示唆された。

3. 間接的な配列―機能紐づけ教師データの作成
　2の結果、２ラウンドおよび３ラウンドにおける増幅ファージから溶出ファージにかけて変異体が濃縮を示すことが分かった。バイオパニング操作において濃縮するとは、他の変異体よりも多くの分子が抗原に結合していることを表しているため、より濃縮した変異体は他の変異体よりも結合力が高く、増幅ファージから溶出ファージにかけての存在率の上昇率を結合親和性と見立てられる。また、異なるラウンドで濃縮を示した変異体はより標的に結合する確実性が高いとも考えることができる。

　次に、1.のモノクロ―ナルファージファージELISAの結果から選ばれた52サンプルのうち、C6変異体を含くむ6変異体および、同じモノクロ―ナルファージファージELISAの結果から標的に結合しないと判断された11サンプルを抽出し、それらのモノクロ―ナルファージファージELISAの結果を利用して、図７にある式を用いて配列と紐づけするスコア値を算出し、AUC（Area Under the Curve）値を比較した(表３)。その結果、投入ファージ(前ラウンドの増幅ファージ)に対する溶出ファージで算出した方がAUC値は高く、特に、式2-2, 2-4, 2-5, 2-6はAUC値が0.7を超えていた。今回は、AUC値が0.7を超えていたものの中で、式2-4を使用した。

　2.及び3の結果を踏まえて変異体i の濃縮度Enrichment Rate (ER(i)) を定義した。

F_x,n(i)は変異体i のサブライブラリー n 中における存在率を表す。そして、ER(i)が負の値ならば0、0以上の値であればER(i)をそのまま返すReLU関数(ReLU(y) = max(0, y))に代入した値を、最高値が1になるように設定した定数aを用いて規格化した。この関数を用いて増幅ファージ(１ラウンド)、溶出ファージ(２ラウンド)、増幅ファージ(２ラウンド)、溶出ファージ(３ラウンド)のサブライブラリーすべてに出現する変異体の正規化したスコア値を計算し、間接的な配列－機能紐づけデータを取得した。

4. 機械学習による予測システムの作製
　上記データを教師データとして使用し、未知変異体に対してアミノ酸配列からその機能評価値を予測する機械学習をおこなった。予測システムは、高速なベイズ最適化ソフトウェアであるCOMBOを使用して作製した（前掲Ueno et al., 2016など）。変異体の配列データは、既報にしたがい1残基あたり1～10次元ベクトルで表現する指標もしくはその組み合わせのなかで適切なものを用いて表現した（前掲van Westen et al., 2013）。

　次に、機能値を予測する対象となる配列群 (予測空間) を定義した。予測空間の規模は残基位置nに出現するアミノ酸の種類数をLn (n=1～11)をとすれば、
　　予測空間=L1 × L2 × ・・・L11
と表すことができる。本研究で使用した2u2f変異体ライブラリーは変異箇所が11箇所であるため、全箇所で20種類全てのアミノ酸が出現する場合の配列空間は2.0×10¹⁴である。本研究では、各残基位置に出現するアミノ酸の数を制限し、規模が10⁹程度になるように予測空間を設計した。

　予測空間に出現するアミノ酸の限定には、各残基位置におけるアミノ酸の濃縮度を利用した。1.のバイオパニング操作によって出現頻度が上昇した各残基位置のアミノ酸は、その位置において結合に関与する可能性があるものであり、逆に選択操作により出現頻度が減少したアミノ酸は結合に関与しないもしくは結合を阻害する可能性があるものである。そこで、結合親和性を持つ変異体の濃縮が示唆されていた増幅ファージ(１ラウンド)から溶出ファージ(２ラウンド)、増幅ファージ(２ラウンド)から溶出ファージ(３ラウンド)にかけてのアミノ酸出現頻度変化率を計算した(図８)。ここで、サブライブラリーnに着目した時の残基位置mにおけるあるアミノ酸kの出現頻度は、

のように計算した。両ラウンドで出現頻度が上昇していたアミノ酸を選定した結果、各残基位置に出現するアミノ酸を予測空間の規模を9.2×10⁸にまで絞ることができた(表４)。

5.予測システムによる有望変異体の絞り込み
　構築した予測システムにより、11残基位置(図２中11～14，66～72)に特定のアミノ酸(表４)が出現する配列空間に含まれる全変異体の予測値を計算し、予測された上位10,000配列を有望変異体とした(図９)。

6. 第２のライブラリーの設計
　5.の機械学習予測上位10,000配列を含む第２のライブラリーを作製しファージディスプレイによるバイオパニングを行うために、機械学習予測上位10,000配列に対して、類似した配列同士をグループ化した。グループ分けにはBasic Local Alignment Search Tool (BLAST)（Crooks et al., WebLogo: A sequence logo generator, Genome Research, 14, 1188-1190 (2004)）を用いて上位10,000配列すべてのペアワイズアライメントを行い、配列の類似度であるe-valueが0.1以下であったものを類似した配列とみなした。この時、アライメントには配列のずれ(ギャップ)が入らない設定で行った。その結果、機械学習上位10,000は大きく9つのクラスターに分類されたので、各クラスターを、クラスター内に含まれる配列数の大きい順にCluster 1～9と命名した(図１０A)。そして、各クラスターに含まれるアミノ酸配列の順位分布をみると、Cluster1～9の中でもCluster1, 3, 4, 6は予測上位1,000にランクインする配列を含んでおり、全体的に機械学習予測ランクの高い変異体の割合が高いことが分かった (図１０B)。

　そこで、機械学習予測ランクの高い変異体を含むCluster 1, 3, 4, 6に含まれる配列を含むファージライブラリー遺伝子群の設計は、縮退コドンを用いて行った。各Clusterにおいて、Cluster中の配列集団から各残基位置でのアミノ酸出現頻度を計算し、出現頻度が5％以上の残基は出現する2u2f変異体遺伝子群が作製できる縮退コドンを設計した。具体的には、出現させるアミノ酸の決定後、以下の観点からコドン設計を行った。
(i)予測システムにより提案されたアミノ酸(出現頻度5%以上)は必ず出現させる
(ii)できるだけ余計なアミノ酸は出現させない
(iii)TAA・TGAの終止コドンは出現させないが、TAG終止コドンは可能な限り出現しないようにする

　その結果、各残基位置において出現するアミノ酸を出現させつつ、できるだけ余分なアミノ酸を排除したコドンをクラスターごとに設計できた一方、機械学習予測に含まれない配列も存在しており、設計したライブラリーに含まれる目的の変異体の割合はCluster 1, 3, 4, 6においてそれぞれ0.82%, 0.33%, 1.18%, 0.18%であった（図１１、表５）。機械学習により予測された配列の割合は小さいものの、予測配列に類似の配列を含むライブラリーを用いることで予測配列をさらに最適化した変異体を取得できる可能性があると考え、このコドン設計を基にM13ファージライブラリーを調製した。

7. ファージライブラリーの作製と2回目のバイオパニング
　縮退コドン設計を行ったプライマーを用いて第２のライブラリーを作製し、2u2f変異体を提示するM13ファージライブラリーを10⁸規模で調製した。この規模は、各ライブラリーの配列空間の100倍以上であるため、機械学習による予測されたクラスター配列だけでなく、各ライブラリーに含まれる全ての変異体を含むファージライブラリーを調製できているといえる。

　次に、作製した第２のファージライブラリーを用いてバイオパニング操作を行い、各ラウンドにおける増幅ファージ群を用いてポリクローナルファージELISAを行ったところ、全てのClusterにおいてラウンドを重ねるごとのシグナル上昇を示していた (図１２) 。この時、Cluster 6はNeutrAvidinをのみを固定化したウェルにも結合を示す変異体も濃縮していたが、その他のCluster 1, 3, 4のポリクローナルファージは特異的な結合を示した。

　そこで、各ライブラリーの３ラウンド後の変異体群から88クローンずつ単離して、標的Galectin-3に特異的に結合する変異体のスクリーニングをモノクローナルファージELISAで行ったところ、Galectin-3へ特異的結合を示す変異体が、Cluster1から20種類、Cluster 3からは14種類、Cluster4からは20種類、Cluster6からは9種類の合計63変異体が得られた。ここで、由来するクラスターの番号を先頭に、取得した96ウェルプレートのウェル番号を各変異体の名前とした。例えば、Cluster 1から取得し、E2ウェルで培養した変異体は「1E2」となる。これら得られた63種の変異体から候補分子を絞るために、まず選出した変異体遺伝子をファージミドベクターからタンパク質発現用のpET22bベクターに移し替えた。そして、96ディープウェルプレートによる小スケール培養で発現した変異体をBlue Native PAGE (BN-PAGE)によって単量体として発現しているか評価して12種に絞り、さらに500 mLスケールでの培養を行い、可溶性画分からIMACおよびSECで精製を行うことで、11種類の変異体を単量体として取得した。この取得した変異体に対して、ELISA法を用いて作製した変異体がGalectin-3に対して結合を示すかどうかを評価したところ、1E2, 1H2, 3B5, 4H5変異体がGalectin-3に対する優位な結合を示した(図１３)。

　次に、標的Galectin-3に対して特異的な結合を示した4種の変異体に関して、その親和性を定量するため、1.5 μMから2倍ずつ希釈した系列を8点作製し、ELISAによる結合測定からEC50値を計算した。その結果、1E2, 1H2, 3B5, 4H5変異体のEC₅₀はそれぞれ92.5 nM, 79.9 nM, 277.4 nM, 200.8 nMであった(図１４)。さらに、これらの変異体が二次構造を形成しているかどうかを評価するため、CDスペクトル測定を行った。その結果、ウェット実験のみで取得したC6変異体がランダムコイル構造をとっている（図４C）一方で、今回取得した特に1H2および4H5変異体は野生型2u2fに近い二次構造をとっていることが分かった(図１５)。これより、予測システムからの結果を利用して設計された第2のライブラリーから、ウェット実験だけでは見つけられなかった、立体構造を維持しつつ標的への特異性を示す変異体を取得できた。

　1E2, 1H2, 3B5, 4H5変異体は機械学習予測上位10,000には含まれておらず、1E2変異体中の4残基、1H2変異体中の3残基、3B5変異体中の2残基、そして4H5変異体中の2残基は機械学習における予測空間には出現しないアミノ酸であった(表６、各アミノ酸配列は配列番号6～13に示す)。また、3B5変異体中の2残基、4H5変異体中の1残基は機械学習の予測空間には含まれているが、クラスタリング後のCluster 3、Cluster 4中には出現しないものであった。この結果より、機械学習予測上位配列に類似の配列も第２のライブラリーに含ませることによって、目的機能・物性をもつ変異体を取得できた。

［実施例２］バイオパニング法から同定した弱結合性分子の機能向上
　ファージディスプレイ法による分子ライブラリーからのバイオパニングなどの遺伝子型―表現型一体システムでは、必ずしも目的機能・物性を適切にもつ変異体を取得することができない。近年では次世代シークエンサー(NGS)を用いて、濃縮度の高い配列の変異体を高機能変異体と見立てた間接的配列―機能紐づけデータを作成し機械学習を行って、目的機能分子を取得する試みがあるが、選択操作で特定変異体が適切な濃縮を示さず教師データすら得られないことも多い。本実施例では、ラクダ重鎖抗体重鎖可変領域断片 VHHの機能創出として、バイオパニングで得られた不十分な機能と物性をもつ変異体を配列骨格として、NGS解析結果を教師データした機械学習を含む情報処理によって機能と物性が改善する機械学習プロセスを開発した。

1. ファージライブラリー作製とバイオパニング操作
　抗β-ラクタマーゼラクダ抗体断片cAbBCII-10 VHH (PDB ID: 3DWT（配列番号14）)を足場タンパク質として、AbMにより定義された3つのCDRを変異導入箇所（39残基）に選定し (図１６)、実施例１と同様にヒトの非免疫抗体ライブラリー(Naiveライブラリー)に出現するCDRと同じアミノ酸出現頻度になるようランダム化するプライマーを用いてPCRを行った。得られた遺伝子断片を、M13ファージのpIIIタンパク質をC末端に付加する形でpUCベクターに挿入した。得られたプラスミドを用いて大腸菌TG-1株をエレクトロポレーションにて形質転換して、この形質転換体を用いて8.6×10⁷規模のM13ファージライブラリーを作製した。

　作製したファージライブラリーを用いて実施例１と同様なバイオパニング操作を行い、１～４ラウンドにおける「溶出ファージ」、「感染大腸菌」「増幅ファージ」などのサブライブラリー（図1B中(i)～(vi)）を取得した。

　選択操作後、標的結合性の変異体が選択されているかを評価するため、初期ライブラリーと各ラウンド後の増幅ファージを用いてポリクローナルファージELISAを行い、Galectin-3への結合評価を行った。その結果、ラウンドを重ねるにつれてシグナルの上昇を示し（図１７）、バイオパニング操作によって標的に親和性をもつ変異体が選択されてきていることが示唆された。

　そこで、標的結合性を示す変異体を取得するため、４ラウンド後の感染大腸菌から180クローンを単離し、96ディープウェルプレートを用いてモノクロ―ナルファージを調製し、ファージELISAによる結合評価を行った。その結果、野生型VHHを提示したファージよりも3倍以上高いシグナルを示した変異体が5種得られた（7B, 11E, 11D, 4H, 12G）。そこで、この5種の変異体について、ファージから切り離した単量体タンパク質としての調製を試みた。

　結合陽性を示した5種の変異体のファージミドベクターに挿入されていた変異体遺伝子をpRA5ベクターに移し替え、作製したプラスミドを用いて大腸菌BL21(DE3)株を形質転換して、培養後、IMACおよびSECによる精製を行った。また、比較対象として、Galectin-3への結合ELISAにおいて結合陰性を示した2種の変異体(6G, 6F)についても、単量体タンパク質としての作製も試みた。その結果、12G変異体のみがSECにて野生型VHHと同様な単量体の位置で若干溶出されたが、その収量は野生型の1/20以下であった（図１８A）。この単量体として調製された12G変異体はELISAにおいて、標的Galectin-3に特異的な結合性を示したが（図１８B）、CDスペクトル測定にて精製タンパク質の二次構造を評価したところ、野生型VHHと比較して構造が大きく変化しており、立体構造は天然構造を維持していないことが分かった（図１８C）。

2. 次世代シーケンシング解析(NGS)
　実施例１と同様にIllumia社のMiSeqを用いて、図1B中の(i)～(vi)のサブライブラリーについてNGS解析を行い、各サブライブラリーについて表１０の配列を取得した。そして、実施例１と同様に配列濃縮が起こったラウンドおよび操作を観察するため、NGSに読まれた配列の中で、各ユニーク配列が占める割合を計算し、それをサブライブラリー間で比較した(図１９)。その結果、実施例1と同様に、選択操作による分布変化以上に、大腸菌感染・増幅操作時に大きく分布変化が生じていることが分かった。これより、機能情報の紐づけには増幅操作による分布変化の影響を除く必要があると示された。その結果、選択操作による分布変化以上に、溶出ファージから感染大腸菌に大きく分布変化が生じていることが分かり、機能情報の紐づけには増幅操作による分布変化の影響を除く必要があることが示された。

3. 間接的な配列―機能紐づけ教師データの作成
　続いて、バイオパニング操作で起こった各変異体の濃縮度を解析するため、上記で取得した結合陽性変異体5種類と結合陰性変異体2種類のモノクロ―ナルファージファージELISAの結果を利用して図７にある式を用いて配列と紐づけするスコア値を算出し、AUC値を比較した（表８）。

　その結果、ネガティブセレクションで除去したファージに対する溶出ファージで算出した算出した方がAUC値は高く、特に、式1-3, 1-6はAUC値が0.7を超えていた。今回は、AUC値が0.7を超えていたものの中で、式1-3を使用した。

　４ラウンドの「溶出ファージ」を「ネガティブ選択ファージ」で除した式が最も結合陽性変異体と結合陰性変異体を判別できることが分かった。

　上記結果を踏まえて、変異体i の濃縮度Enrichment Rate (ER(i)) を定義した。

4. クラスタリング解析を利用した変異体群からの新規結合陽性変異体の探索
　4^thラウンド後の変異体群のNGSデータから、相同性配列検索プログラムBLASTを用いて12GのCDRに類似したアミノ酸配列を有する変異体を探索したところ、 BLAST探索時の期待値E-valueが10以下という閾値でのクラスタリング解析で、12G類似変異体を38種見つけることができた。

　そこで次に、12G類似変異体38種のうち、3rdおよび4thラウンドの「溶出ファージ」サブライブラリー中においてファージ存在率比が1以上の変異体に限定してタンパク質調製を行った。その結果、1つの類似変異体(738, 表１２)は凝集体形成なしに単量体タンパク質として調製され(図２０A)、ELISAによる結合評価では、標的分子に対して結合陽性を示した(図２０B)。そして、CDスペクトル測定による二次構造評価では、野生型VHHに近い二次構造を保持していることが分かった(図２０C)。

5. 機械学習による予測システムの作製
　3.で作製した教師データを利用し、結合陽性変異体738の結合力向上に寄与する残基位置を機械学習により予測した。予測システムは、実施例１と同様にCOMBOを使用して作製し、変異体の配列データも実施例１と同様に1残基あたり1～10次元ベクトルで表現する指標もしくはその組み合わせのなかで適切なものを用いて表現した。

　次に、機能値を予測する対象となる配列群 (予測空間) を、738変異体のCDR3に位置する19箇所のアミノ酸配列に最大4残基変異を導入した変異体が要素となる配列空間(₁₉C₃×20⁴=6.2×10⁸)を対象として予測空間を設計した。

6. 予測システムによる第２のライブラリーの設計
　構築した予測システムにより、CDR3中の19残基が表現する配列空間に含まれる全変異体の予測値を計算した。そして、予測された上位1,000配列中で多く変異が入っていたCDR3中の4残基位置(35, 37, 38, 39)を、第２のライブラリーのための変異導入箇所と決定した(表１３)。

　決定した4箇所の変異導入残基位置に出現させるアミノ酸を、予測システムが予測した上位10,000配列中10配列以上で登場するアミノ酸が出現する第２のライブラリー遺伝子群の設計について縮退コドンを用いて行ったところ、残基位置39のみ対象外のアミノ酸(R)が含まれるのみで設計することができ、配列空間規模が648（9×4×2×9）を表現する縮退コドンをもつプライマーを用いて、738変異体を鋳型としてPCRを行って第２のライブラリーを作製した。作製した第２のライブラリーの遺伝子断片をpRA5ベクターへ挿入し、作製したプラスミドで形質転換した大腸菌BL21(DE3) 180クローンを96ディープウェルプレートで小スケール培養し、発現した変異体をELISA法を用いてGalectin-3に対しての結合評価を行った。そして、Galectin-3に対して特異的に結合した変異体を2種(2G, 6C)選択し、500 mLスケールでの培養し、IMACおよびSECで精製したところ、両変異体とも単量体として調製することができ(図２１A)、かつCDスペクトルでも野生型と類似した二次構造を形成していることが分かった(図２１B)。そして、両変異体6C 変異体は、ELISA評価より、738変異体よりも標的Galectin-3へ20倍程度強く結合した(図２２)。

　本発明によれば、抗体や酵素などの産業上の利用価値が高いタンパク質について、最適化されたタンパク質を効率よく取得できる。これにより、当該タンパク質の機能向上を目的とした改変が容易に実施できる。

　本明細書中で引用した全ての刊行物、特許及び特許出願をそのまま参考として本明細書中にとり入れるものとする。

配列番号4：synthetic peptide C6 Loop 1
配列番号5：synthetic peptide C6 Loop 2
配列番号6：synthetic peptide 1E2 Loop 1
配列番号7：synthetic peptide 1E2 Loop 2
配列番号8：synthetic peptide 1H2 Loop 1
配列番号9：synthetic peptide 1H2 Loop 2
配列番号10：synthetic peptide 3B5 Loop 1
配列番号11：synthetic peptide 3B5 Loop 2
配列番号12：synthetic peptide 4H5 Loop 1
配列番号13：synthetic peptide 4H5 Loop 2
配列番号14：cAbBCII-10 VHH
配列番号15：CDR3 of 12G mutant
配列番号16：CDR3 of 738 mutant

Claims

　核酸ライブラリーの作製方法であって、
１）ファージディスプレイ法により、標的に結合するまたは結合させたいタンパク質をコードする核酸配列にランダムに変異を導入した変異体から構成される第１のライブラリーを準備する工程、
２）前記第１のライブラリーについてバイオパニングを実施し、得られたサブライブラリーから機械学習に使用するデータを取得する工程、及び
３）前記データを用いて機械学習を実施し、機械学習予測に基づき第１のライブラリーから第２のライブラリーを取得する工程、を含み、
　前記機械学習に使用するデータが、標的結合配列溶出操作段階のサブライブラリーに含まれる変異体集団の配列、標的への推定結合強度、及び前記変異体集団に含まれる一部の変異体の標的への結合の実測値を含む、前記方法。
　機械学習に使用するデータが、以下の工程：
i）標的結合配列溶出操作段階のサブライブラリーと、前記段階とは異なる１又は２以上の段階のサブライブラリーについて、配列とその出現頻度のデータを取得する工程、
ii）前記出現頻度から標的への推定結合強度を示すスコアとして算出する工程、
iii）前記スコア、標的への結合の実測値、及びそれらを与える配列データを機械学習に使用するデータとして決定する工程、により取得される、請求項１に記載の方法。
　異なる１又は２以上の段階が、同じラウンドにおける、非特異的結合配列除去操作段階、標的結合配列選択操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、異なるラウンドにおける非特異的結合配列除去操作段階、標的結合配列選択操作段階、標的結合配列溶出操作段階、大腸菌への感染操作段階、及び選択配列増幅操作段階からなる群より選ばれる段階か、又はその両方である、請求項２に記載の方法。
　スコアが、標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階又は選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、請求項２に記載の方法。
　スコアが、同じラウンドの標的結合配列溶出操作段階のサブライブラリーと、非特異的結合配列除去操作段階のサブライブラリーとの出現頻度の比率を用いて算出されるか、又は、異なるラウンドの標的結合配列溶出操作段階のサブライブラリーと、選択配列増幅操作段階のサブライブラリーとの出現頻度の比率を用いて算出される、請求項２に記載の方法。
　２～４ラウンドのサブライブラリーのデータを使用してスコアが算出される、請求項２に記載の方法。
　スコアが下記式1)～6)から選ばれるいずれかの式にしたがって算出される、請求項２に記載の方法。

　ここで、F_x,n(i)は、変異体iのx回目のラウンドのサブライブラリーn中における存在率(ユニーク配列のリード数/サブライブラリーの全リード数)を表す。
　nは、
n=1: 第１のライブラリー
n=2: 非特異的結合ファージ除去操作で除去されたファージからのサブライブラリー
n=3: 標的結合配列溶出段階で除去されたファージからのサブライブラリー
n=4: 標的結合配列溶出段階後のファージからのサブライブラリー
n=5: ファージ感染後大腸菌からのサブライブラリー
n=6: 増幅後ファージからのサブライブラリー
　標的への結合の実測値が、ELISAによる測定値である、請求項１～７のいずれか１項に記載の方法。
　工程３において、縮退コドンの設計により、機械学習が予測していない配列を第２のライブラリーに含ませるようにする、請求項１～８のいずれか１項に記載の方法。
　標的に結合するまたは結合させたいタンパク質が抗体、抗体様分子、又は酵素である、請求項１～９のいずれか１項に記載の方法。
　最適化されたタンパク質の作製方法であって、
請求項１～１０のいずれか1項に記載の方法にしたがって第２のライブラリーを取得する工程、
　前記第２のライブラリーをスクリーニングし、最適化されたタンパク質をコードする核酸配列を決定する工程、及び、
　前記核酸配列に基づき最適化されたタンパク質を作製する工程、を含む前記方法。