m 書 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、 装置、 およびこの方法 の処理を実行するプログラムを記憶する記憶媒体 技術分野
本発明は、 産業上有用な多重変異蛋白質アミノ酸配列の最適化解を算出する方 法、 多重変異蛋白質アミノ酸配列の最適化解を算出する装置、 および多重変異蛋 白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを載せた記憶 媒体に関する。 特に、 産業上有用な酵素またはシグナル伝達蛋白質の熱安定性、 化学安定性、 基質化学選択性、 基質立体選択性、 至適 p H値のいずれかまたはそ れらの組み合わせを改変する方法および装置ならびにそのような方法を記述する プログラムを載せた記憶媒体に関する。 本発明はまた、 多重変異蛋白質アミノ酸 配列の最適化解の算出を実行するコンピュータ ·プログラムおよびこのコンビュ 一夕 ·プログラムを載せた伝送媒体に関する。 本発明はさらに、 多重変異蛋白質 アミノ酸配列の最適化解を算出する方法を利用したサービスの提供に関する。 背景技術
所望の構造および機能を有する蛋白質を自由に設計し、 作製することは、 分子 生物学の主要な目的の一つである。 従来、 このような改変蛋白質の分子設計は、 天然蛋白質のァミノ酸配列を、 遺伝子改変または合成化学によって改変すること によって、 蛋白質の改変体を得、 その蛋白質の改変体の生物学的機能 (例えば、 酵素活性) および物理化学的性質 (例えば、 熱安定性) などをもとの天然蛋白質 と比較することによって分析することにより、 行われてきている。 既知の蛋白質を雛形として所望の特性をもつ変異蛋白質を設計する情報科学的 方法も開発されている。 その中でも、 蛋白質分子原子座標を直接取り扱う設計方 法は特に設計の信頼性が高い。 その代表例としては、 解候補となるすべての多重
変異蛋白質のアミノ酸配列について、 それら各々の変異蛋白質分子原子座標を算 出した上でそれら各々の変異蛋白質の特性を算出し、 その結果をもつて所望の特 性を有する変異蛋白質を選択するという方法がある。 上記方法において、 ある 1つの解候補のみを考慮する場合、 すなわちある 1つ の変異蛋白質分子の原子座標を高速に算出する方法としては、 野生型蛋白質高次 構造を雛形としてデッドエンド排除 (d e a d e n d e 1 i m i n a t i o n ) 法またはデッドエンド排除アルゴリズムを用いた最適化方法を適用すること により、 変異蛋白質分子原子座標を良い精度で算出する方法が知られている。
(発明が解決しょうとする課題)
多重変異蛋白質の最適解を求める際に、 解候補となるすべての多重変異蛋白質 の原子座標を算出することは、 解候補数が膨大な数となるため現実的には困難で ある。 例えば、 変異対象となる蛋白質のアミノ酸配列中の任意の 1 0残基につい て、 それらアミノ酸各々をすベて 2 0種類の天然型アミノ酸に置換した解候補を 考えた場合、 それらアミノ酸配列の組み合わせは 2 0の 1 0乗 (2 0 lfl) 個とい う膨大な組み合わせ数となり、 実用的な計算時間で多重変異蛋白質の原子座標お よび蛋白質特性を算出することは難しい。 上記した膨大な数となる解候補の一部分のみを考慮するだけであれば、 実用的 な計算時間で多重蛋白質の原子座標および蛋白質特性を算出することが可能であ る。 しかしながら、 解候補の一部分のみを無作為に抽出し、 その一部分のみの中 から最適解を選択したとしても、 全体の解候補の最適解である保証はまったくな い。 本発明の目的は、 上記した課題を解決するために、 計算精度を低下させること
なく、 かつ実用的な計算時間をもつて多重変異蛋白質ァミノ酸配列の最適化解を 算出する方法、 多重変異蛋白質アミノ酸配列の最適化解を算出する装置、 多重変 異蛋白質アミノ酸配列の最適化解の算出を実行するプログラム、 および多重変異 蛋白質アミノ酸配列の最適化解を算出する方法を載せた記録媒体を提供すること にある。 本発明はまた、 多重変異蛋白質アミノ酸配列の最適化解の算出を実行す るコンピュータ ·プログラムおよびこのコンピュータ ·プログラムを載せた伝送 媒体に関する。 本発明はさらに、 多重変異蛋白質アミノ酸配列の最適化解を算出 する方法を利用したサービスの提供に関する。 発明の開示
(発明の要旨)
本発明の方法は、 遺伝的アルゴリズム (Ge ne t i c A l go r i t hm :以下、 GAともいう) による最適化方法を多重変異蛋白質のアミノ酸配列の最 適化に適用し、 得られた解候補である個々の多重変異蛋白質の立体構造原子座標 の最適化に、 デッドエンド排除 (d e a d e nd e l im i n a t i on) (DEE) アルゴリズムを方法適用することにより、 上記目的が達成される。
1つの局面において、 本発明は多重変異蛋白質アミノ酸配列の最適化解を算出 する方法であって、 多重変異蛋白質集団のメンバーに対して、 雛形蛋白質集団の 立体構造データに基づいて、 上記メンバ一の各々のアミノ酸配列のアミノ酸側鎖 立体構造座標をデッドエンド排除 (De a d End E l imi n a t i on ) アルゴリズムを用いて探索すること、 および上記メンバーの構造エネルギー極 小化計算を実行することによって、 最適な多重変異蛋白質の立体構造座標を算出 するステップと、 上記最適な多重変異蛋白質の立体構造座標から特性値を算出す るステップと、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して 、 上記特性値を最適化するメンバーを算出するステップとを包含する、 方法に関
する。 1つの実施態様において、 上記最適な多重変異蛋白質の立体構造座標を算 出するステップは、 雛形蛋白質の立体構造型をおおむね保持する束縛条件下で行 われ得る。 好ましく局面において、 本発明は、 多重変異蛋白質アミノ酸配列の最適化解を 算出する方法であって、
( a ) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造デー 夕を入力するステップと、
( b) 上記雛型蛋白質集団の配列データおよび立体構造デ一夕に基づいて、 上 記雛形蛋白質集団の各メンバ一の特性値を算出するステップと、
( c ) 上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特 性値を入力するステップと、
( d ) 上記計算パラメ一夕、 所望の特性値および上記雛形蛋白質集団の各メン バーの立体構造データおよび特性値に基づいて、 上記雛形蛋白質集団に遺伝的ァ ルゴリズムを適用して、 多重変異蛋白質集団を生成するステップと、
( e ) 上記多重変異蛋白質集団の各メンバ一のアミノ酸残基のアミノ酸側鎖に 対してデッドエンド排除アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最 適化し、 次いで、 エネルギー極小化計算を実行するステップと、
( f ) エネルギー極小化された上記多重変異蛋白質集団の各メンバ一の立体構 造データおよび特性値を算出するステップと、
( g ) 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質集団の各メン パーの立体構造データおよび特性値、 ならびに上記多重変異蛋白質集団の各メン バーの立体構造データおよび特性値に基づいて、 ステップ (h ) 〜 (j ) を実行 する否か決定するステップと、
( h ) ( g ) で実行すると決定される場合に、 上記計算パラメータ、 所望の特 性値および上記雛形蛋白質集団の特性値、 ならびにこれまでに生成されたすベて
の多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛形蛋白質集団に 遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集団を生成するステップ と、
( i ) 上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸 側鎖に対してデッドエンド排除 (D e a d E n d E l i m i n a t i o n ) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次いで、 ェネル ギ一極小化計算を実行するステップと、
( j ) エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバ一の 立体構造データおよび特性値を算出するステップと、
( k ) 上記計算パラメータ、 上記所望の特性値、 上記雛形蛋白質集団の各メン バーの特性値、 およびこれまでに生成されたすベての多重変異蛋白質集団の各メ ンバーの特性値に基づいて、 ステップ (h ) 〜 (j ) を実行する否か決定するス テツプと、
( 1 ) 上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成された すべての多重変異蛋白質集団の各メンバーの特性値から、 上記所望の特性値を有 するメンバーを選択するステップと、
(m) 上記選択されたメンバーの配列データおよび特性値を出力するステップ とを包含する、 方法に関する。 1つの実施態様において、 上記雛形蛋白質集団の 配列データがアミノ酸配列および Zまたは核酸配列であり得る。 別の実施態様に おいて、 上記雛形蛋白質集団の立体構造データは、 原子座標データ、 分子トポロ ジーデータおよび分子力場定数からなる群より選択される少なくとも 1つのデー 夕を含み得る。 さらに別の実施態様において、 上記雛形蛋白質集団は 1のメンバ 一を含み得る。 別の実施態様において、 上記雛形蛋白質集団が 2以上のメンバー を含み得る。 別の実施態様において、 上記特性値または上記所望の特性値は、 経 験的分子力学ポテンシャル、 半経験的量子力学ポテンシャル、 非経験的量子力学 ポテンシャル、 電磁気学ポテンシャル、 溶媒和ポテンシャルおよび構造ェントロ
ピーからなる群より選択される少なくとも 1つのデータを含み得る。 別の実施態 様において、 上記計算パラメ一夕は、 遺伝的アルゴリズムの計算パラメ一夕であ り得る。 別の実施態様において、 上記計算パラメ一夕は、 ステップ (g ) におい てなされる判断の基準となる特性値を含み得る。 別の実施態様において、 上記計 算パラメータが、 変異されるアミノ酸位置を特定する情報を含み得る。 別の実施 態様において、 上記デッドエンド排除アルゴリズムは、 1以上のアミノ酸残基に 関して適用され得る。 他の実施態様において、 上記デッドエンド排除アルゴリズ ムは、 すべてのアミノ酸残基に関して適用され得る。 別の実施態様において、 改 変される蛋白質の特性は、 熱安定性、 化学安定性、 基質化学選択性、 基質立体選 択性および至適 p H値から選択され得る。 別の実施態様において、 上記アミノ酸 配列は、 天然アミノ酸、 化学改変アミノ酸、 非天然アミノ酸からなる群より選択 される少なくとも 1つの群から構成され得る。 別の実施態様において、 上記多重 変異蛋白質集団の各メンバーは、 複数の同種分子、 複数の異種分子、 またはそれ らの組み合わせから構成される少なくとも 1つの蛋白質を含む分子複合体であり 得る。 本発明の別の局面において、 本発明は、 多重変異蛋白質アミノ酸配列の最適化 解を算出する装置であって、 多重変異蛋白質集団のメンバーに対して、 雛形蛋白 質集団の立体構造データに基づいて、 上記メンバーの各々のァミノ酸配列のァミ ノ酸側鎖立体構造座標をデッドエンド排除 (D e a d E n d E l i m i n a t i o n ) アルゴリズムを用いて探索すること、 および上記メンバーの構造エネ ルギー極小化計算を実行することによって、 最適な多重変異蛋白質の立体構造座 標を算出する手段と、 上記最適な多重変異蛋白質の立体構造座標から特性値を算 出する手段と、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して 、 上記特性値を最適化するメンバーを算出する手段とを包含する、 装置に関する 。 1つの実施態様において、 上記最適な多重変異蛋白質の立体構造座標を算出す
る手段は、 雛形蛋白質の立体構造型をおおむね保持する束縛条件下で行われ得る
本発明の別の好ましい局面において、 本発明は、 多重変異蛋白質アミノ酸配列 の最適化解を算出する装置であって、
(1) 入力部と、
(2) 計算部と、
(3) 出力部とを備え、
ここで、 上記入力部は、
(a) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造デー 夕を入力する手段と
(b) 上記アルゴリズムを実行する際に用いる計算パラメ一夕および所望の特 性値を入力する手段と
を含み、
上記計算部は、
(c) 上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、 上 記雛形蛋白質集団の各メンパーの特性値を算出する手段と、
(d) 上記計算パラメータ、 所望の特性値および上記雛形蛋白質集団の立体構 造データおよび特性値、 ならびにこれまでに生成されたすベての多重変異蛋白質 集団の特性値に基づいて、 上記雛形蛋白質集団に遺伝的アルゴリズムを適用して 、 多重変異蛋白質集団を生成する手段と、
( e ) 上記多重変異蛋白質集団の各メンバーのァミノ酸残基のアミノ酸側鎖に 対してデッドエンド排除 (De ad End E l imi n a t i on) ァルゴ リズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次いで、 エネルギー極 小化計算を実行する手段と、
(f ) エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構
造デ一夕および特性値を算出し、 そして上記算出された立体構造データおよび特 性値を格納する手段と、
( g ) 上記計算パラメ一夕、 上記雛形蛋白質集団の各メンバーの特性値および 上記多重変異蛋白質集団の各メンバーの特性値に基づいて、 (d ) 〜 (f ) の手 段において行われる集団生成ステップを反復するかを決定する手段と、
( i ) 上記雛形蛋白質集団の各メンバーの特性値および上記多重変異蛋白質集 団の各メンバーの特性値から、 上記所望の特性値を有するメンバーを選択する手 段とを含み、 上記出力部は、 上記選択されたメンバーの配列データおよび特性値 を出力する手段を含む、 装置に関する。
1つの実施態様において、 上記雛形蛋白質集団の配列データはアミノ酸配列お よび Zまたは核酸配列であり得る。 別の実施態様において、 上記雛形蛋白質集団 の立体構造デ一夕は、 原子座標データ、 分子トポロジーデータおよび分子カ場定 数からなる群より選択される少なくとも 1つのデータを含み得る。 別の実施態様 において、 上記雛形蛋白質集団は 1のメンバ一を含み得る。 別の実施態様におい て、 上記雛形蛋白質集団は 2以上のメンバ一を含み得る。 別の実施態様において 、 上記特性値または上記所望の特性値は、 経験的分子力学ポテンシャル、 半経験 的量子力学ポテンシャル、 非経験的量子力学ポテンシャル、 電磁気学ポテンシャ ル、 溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少な くとも 1つのデータを含み得る。 別の実施態様において、 上記計算パラメ一夕が 、 遺伝的アルゴリズムの計算パラメ一夕であり得る。 別の実施態様において、 上 記計算パラメ一夕が、 手段 (g ) においてなされる判断の基準となる特性値を含 み得る。 別の実施態様において、 上記計算パラメ一夕が、 変異されるアミノ酸位 置を特定する情報を含み得る。 別の実施態様において、 上記デッドエンド排除ァ ルゴリズムは、 1以上のアミノ酸残基に関して適用され得る。 別の実施態様にお いて、 上記デッドエンド排除アルゴリズムは、 すべてのアミノ酸残基に関して適
用され得る。 別の実施態様において、 改変される蛋白質の特性は、 熱安定性、 化 学安定性、 基質化学選択性、 基質立体選択性および至適 p H値から選択され得る 。 別の実施態様において、 上記アミノ酸配列は、 天然アミノ酸、 化学改変アミノ 酸、 非天然アミノ酸からなる群より選択される少なくとも 1つの群から構成され 得る。 別の実施態様において、 上記多重変異蛋白質集団の各メンバーは、 複数の 同種分子、 複数の異種分子、 またはそれらの組み合わせから構成される少なくと も 1つの蛋白質を含む分子複合体であり得る。 別の実施態様において、 データ格 納部をさらに備え得る。 本発明の別の局面において、 本発明は、 入力されたデ一夕に基づいて、 多重変 異蛋白質ァミノ酸配列の最適化解を算出する方法を実行するプログラムを記録し たコンピュータ読み取り可能な記録媒体であって、 上記方法は、 多重変異蛋白質 集団のメンバ一に対して、 雛形蛋白質集団の立体構造データに基づいて、 上記メ ンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除 ( D e a d E n d E 1 i m i n a t i o n ) アルゴリズムを用いて探索するこ と、 および上記メンバーの構造エネルギー極小化計算を実行することによって、 最適な多重変異蛋白質の立体構造座標を算出するステップと、
上記最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、 上記特性値 を最適化するメンバーを算出するステップと
を包含する、 記憶媒体に関する。 本発明の別の好ましい局面において, 本発明は、 入力されたデータに基づいて 、 多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラム を記録したコンピュータ読み取り可能な記録媒体に関する。
上記方法は、 (a ) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の
立体構造データを入力するステップと、
(b) 上記雛型蛋白質集団の配列デ一夕および立体構造データに基づいて、 上 記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
(c) 上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特 性値を入力するステップと、
(d) 上記計算パラメータ、 所望の特性値および上記雛形蛋白質集団の各メン バーの立体構造データおよび特性値に基づいて、 上記雛形蛋白質集団に遺伝的ァ ルゴリズムを適用して、 多重変異蛋白質集団を生成するステップと、
(e) 上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に 対してデッドエンド排除アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最 適化し、 次いで、 エネルギー極小化計算を実行するステップと、
( f ) エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構 造データおよび特性値を算出するステップと、
(g) 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質集団の各メン バーの立体構造データおよび特性値、 ならびに上記多重変異蛋白質集団の各メン バーの立体構造データおよび特性値に基づいて、 ステップ (h) 〜 (j) を実行 する否か決定するステップと、
(h) (g) で実行すると決定される場合に、 上記計算パラメ一夕、 所望の特 性値および上記雛形蛋白質集団の特性値、 ならびにこれまでに生成されたすベて の多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛形蛋白質集団に 遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集団を生成するステップ と、
( i) 上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸 側鎖に対してデッドエンド排除 (D e a d End E l imi n a t i on) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次いで、 ェネル ギ一極小化計算を実行するステップと、
( j ) エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバ一の 立体構造データおよび特性値を算出するステップと、
( k ) 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質集団の各メン バーの特性値、 およびこれまでに生成されたすベての多重変異蛋白質集団の各メ ンパーの特性値に基づいて、 ステップ (h) 〜 U ) を実行する否か決定するス テツプこ、
( 1 ) 上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成された すべての多重変異蛋白質集団の各メンバーの特性値から、 上記所望の特性値を有 するメンバ一を選択するステップと、
(m) 上記選択されたメンバーの配列データおよび特性値を出力するステップ と
を包含する。 本発明の別の局面において、 本発明は、 入力されたデータに基づいて、 多重変 異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを伝送す る伝送媒体であって、 上記方法は、 多重変異蛋白質集団のメンバーに対して、 雛 形蛋白質集団の立体構造データに基づいて、 上記メンバーの各々のァミノ酸配列 のアミノ酸側鎖立体構造座標をデッドエンド排除 (D e a d E n d E 1 i m i n a t i o n ) アルゴリズムを用いて探索すること、 および上記メンバーの構 造エネルギー極小化計算を実行することによって、 最適な多重変異蛋白質の立体 構造座標を算出するステツプと、
上記最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、 上記特性値 を最適化するメンパーを算出するステツプと
を包含する、 伝送媒体に関する。
本発明の別の好ましい局面において, 本発明は、 入力されたデータに基づいて 、 多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラム を伝送する伝送媒体に関する。
上記方法は、 (a ) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の 立体構造データを入力するステップと、
( b ) 上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、 上 記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
( c ) 上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特 性値を入力するステップと、
( d ) 上記計算パラメ一夕、 所望の特性値および上記雛形蛋白質集団の各メン パーの立体構造データおよび特性値に基づいて、 上記雛形蛋白質集団に遺伝的ァ ルゴリズムを適用して、 多重変異蛋白質集団を生成するステツプと、
( e ) 上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に 対してデッドエンド排除アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最 適化し、 次いで、 エネルギー極小化計算を実行するステップと、
( f ) エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構 造データおよび特性値を算出するステップと、
( g ) 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質集団の各メン パーの立体構造デ一夕および特性値、 ならびに上記多重変異蛋白質集団の各メン バーの立体構造データおよび特性値に基づいて、 ステップ (h ) 〜 (j ) を実行 する否か決定するステップと、
( h ) ( g ) で実行すると決定される場合に、 上記計算パラメ一夕、 所望の特 性値および上記雛形蛋白質集団の特性値、 ならびにこれまでに生成されたすベて の多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛形蛋白質集団に 遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集団を生成するステップ と、
( i ) 上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸 側鎖に対してデッドエンド排除 (De a d End E l imi na t i on) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次いで、 ェネル ギー極小化計算を実行するステップと、
(j) エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの 立体構造データおよび特性値を算出するステップと、
(k) 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質集団の各メン バーの特性値、 およびこれまでに生成されたすベての多重変異蛋白質集団の各メ ンパーの特性値に基づいて、 ステップ (h) ~ (j) を実行する否か決定するス テツプと、
( 1 ) 上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成された すべての多重変異蛋白質集団の各メンバーの特性値から、 上記所望の特性値を有 するメンバーを選択するステップと、
(m) 上記選択されたメンバーの配列データおよび特性値を出力するステップ と
を包含する。 本発明の別の局面において、 本発明は、 入力されたデータに基づいて、 多重変 異蛋白質アミノ酸配列の最適化解を算出する方法をコンピュータに実行させるプ ログラムに関する。
このプログラムは、 コンピュータに
多重変異蛋白質集団のメンバーに対して、 雛形蛋白質集団の立体構造データに 基づいて、 上記メンバ一の各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデ ッドエンド排除 (De ad End E 1 i m i n a t i o n) アルゴリズムを 用いて探索すること、 および上記メンバ一の構造エネルギー極小化計算を実行す ることによって、 最適な多重変異蛋白質の立体構造座標を算出する手順と、
上記最適な多重変異蛋白質の立体構造座標から特性値を算出する手順と、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、 上記特性値 を最適化するメンパーを算出する手順と
を実行させる。 本発明の別の好ましい局面において, 本発明は、 入力されたデータに基づいて 、 多重変異蛋白質アミノ酸配列の最適化解を算出する方法をコンピュータに実行 させるためのプログラムに関する。
詳細には、 本発明のプログラムは、 コンピュータに
( a ) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造デー 夕が入力された後に、 上記雛型蛋白質集団の配列データおよび立体構造データに 基づいて、 上記雛形蛋白質集団の各メンバ一の特性値を算出する手順と、
( b) 上記アルゴリズムを実行する際に用いる計算パラメ一夕および所望の特 性値が入力された後に、 上記計算パラメ一夕、 所望の特性値および上記雛形蛋白 質集団の各メンバーの立体構造データおよび特性値に基づいて、 上記雛形蛋白質 集団に遺伝的アルゴリズムを適用して、 多重変異蛋白質集団を生成する手順と、
( c ) 上記多重変異蛋白質集団の各メンパーのアミノ酸残基のアミノ酸側鎖に 対してデッドエンド排除アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最 適化し、 次いで、 エネルギー極小化計算を実行する手順と、
( d ) エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構 造データおよび特性値を算出する手順と、
( e ) 上記計算パラメータ、 上記所望の特性値、 上記雛形蛋白質集団の各メン パーの立体構造データおよび特性値、 ならびに上記多重変異蛋白質集団の各メン パーの立体構造データおよび特性値に基づいて、 ステップ (h ) 〜 (j ) を実行 する否か決定する手順と、
( f ) 上記手順において実行すると決定される場合に、 上記計算パラメータ、
所望の特性値および上記雛形蛋白質集団の特性値、 ならびにこれまでに生成され たすベての多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛形蛋白 質集団に遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集団を生成する 手順と、
(g) 上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸 側鎖に対してデッドエンド排除 (De a d End E l imi n a t i on) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次いで、 ェネル ギー極小化計算を実行する手順と、
(h) エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの 立体構造データおよび特性値を算出する手順と、
(i) 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質集団の各メン バーの特性値、 およびこれまでに生成されたすベての多重変異蛋白質集団の各メ ンバーの特性値に基づいて、 手順 (f) 〜 (h) を実行する否か決定する手順と ( j ) 上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成された すべての多重変異蛋白質集団の各メンバーの特性値から、 上記所望の特性値を有 するメンバーを選択する手順と、
(k) 上記選択されたメンバーの配列データおよび特性値を出力する手順と を実行させる。 本発明はさらに、 ネットワークを介して、 入力されたデータに基づいて、 多重 変異蛋白質アミノ酸配列の最適化解を算出するサービスを提供する方法に関する この方法は、
雛型蛋白質集団の立体構造データ、 アミノ酸配列データおよび計算パラメータ が、 サーバーに入力されるステップと、
サーバーが、 多重変異蛋白質集団のメンバーに対して、 雛形蛋白質集団の立体 構造データに基づいて、 上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体 構造座標をデッドエンド排除 (De ad End E l im i n a t i on) ァ ルゴリズムを用いて探索すること、 および上記メンパーの構造エネルギー極小化 計算を実行することによって、 最適な多重変異蛋白質の立体構造座標を算出する ステップと、
サーバーが、 上記最適な多重変異蛋白質の立体構造座標から特性値を算出する ステップと、
サーバ一が、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して 、 上記特性値を最適化するメンバーを算出するステップと
を包含する。 本発明の別の好ましい局面において, 本発明は、 ネットワークを介して、 入力 されたデータに基づいて、 多重変異蛋白質アミノ酸配列の最適化解を算出するサ —ビスを提供する方法に関する。
この方法は、
(a) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造デ一 夕がネッ卜ワークを介して入力されるステップと、
(b) サーバーが、 上記雛型蛋白質集団の配列データおよび立体構造デ一夕に 基づいて、 上記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
(c) 上記アルゴリズムを実行する際に用いる計算パラメ一夕および所望の特 性値がネットワークを介して入力されるステップと、
(d) サーバーが、 上記計算パラメ一夕、 所望の特性値および上記雛形蛋白質 集団の各メンバーの立体構造データおよび特性値に基づいて、 上記雛形蛋白質集 団に遺伝的アルゴリズムを適用して、 多重変異蛋白質集団を生成するステップと
(e) サーバーが、 上記多重変異蛋白質集団の各メンバーのアミノ酸残基のァ ミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、 上記アミノ酸側 鎖の位置を最適化し、 次いで、 エネルギー極小化計算を実行するステップと、
(f) サ一パーが、 エネルギー極小化された上記多重変異蛋白質集団の各メン パーの立体構造データおよび特性値を算出するステップと、
(g) サーバーが、 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質 集団の各メンバーの立体構造データおよび特性値、 ならびに上記多重変異蛋白質 集団の各メンバーの立体構造データおよび特性値に基づいて、 ステップ (h) 〜
( j ) を実行する否か決定するステップと、
(h) サーバーが (g) で実行すると決定する場合に、 該サーバーが上記計算 パラメ一夕、 所望の特性値および上記雛形蛋白質集団の特性値、 ならびにこれま でに生成されたすベての多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集 団を生成するステップと、
( i) サーバーが、 上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残 基のアミノ酸側鎖に対してデッドエンド排除 (De a d End E l imi n a t i on) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次 いで、 エネルギー極小化計算を実行するステップと、
( j ) サーバーが、 エネルギー極小化された上記新たな多重変異蛋白質集団の 各メンバーの立体構造データおよび特性値を算出するステップと、
(k) サーバーが、 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質 集団の各メンパーの特性値、 およびこれまでに生成されたすベての多重変異蛋白 質集団の各メンバーの特性値に基づいて、 ステップ (h) 〜 (j ) を実行する否 か決定するステップと、
( 1 ) サーバーが、 上記雛形蛋白質集団の各メンバーの特性値およびこれまで に生成されたすベての多重変異蛋白質集団の各メンバーの特性値から、 上記所望
の特性値を有するメンバーを選択するステップと、
(m) サーバーが、 上記選択されたメンバーの配列データおよび特性値を出力 するステップと
を包含する。 図面の簡単な説明
図 1は、 遺伝的アルゴリズムを用いた変異蛋白質設計方法のフローチヤ一卜で ある。
図 2は、 変異蛋白質配列制御部の詳細構成例である。
図 3は、 変異蛋白質立体構造最適化装置および変異蛋白質特性値算出部の詳細 構成例である。
図 4は、 本発明の実装構成例である。
図 5 Aは、 実施例の結果説明図である。
図 5 Bは、 実施例の結果説明図の続きである。
図 6は、 本発明を実行するコンピュータ 5 0 0の構成例である。 発明を実施するための最良の形態
以下、 本発明を詳細に説明する。 本発明は、 遺伝的アルゴリズムを遺伝子変異の生成に適用し、 生成された変異 体の座標最適化に D E Eを用いることによって達成された。
「遺伝的アルゴリズム (G A) 」 とは、 進化において中心課題である環境への 適応現象を、 遺伝的な情報処理として捉えた最適化のためのアルゴリズムであり 、 総合進化理論体系の中の分子的プロセスである。 すなわち、 遺伝的ァルゴリズ ムは、 生物にみられる目標の認識、 環境との相互作用、 記憶保存の性質を複合的
に組み合わせたときに生じる自己組織化という学習に基づいた、 適応のためのァ ルゴリズムであって、 その情報の基盤を遺伝においたものである (米沢保雄 (Y . . Y o n e z a w a ) ( 1 9 9 3 ) 、 遺伝的アルゴリズム一進化理論の情報科学 、 森北出版) 。 生物は、 その生存本能に基づいて、 生き残るために達成すべき 「目標」 を 「認 識 J する。 「目標の認識」 のために、 生物は、 進化の過程における淘汰 (すなわ ち、 削除) の基準および判定に有用な情報を利用し得る。 生物はまた、 生き残る ための環境を予測する場合に、 自らが 「環境との相互作用」 を行い得、 その結果 、 生物は有効であった条件などを、 「記憶保存」 し得る。 この結果、 生物は、 「 学習および適応」 という活動を行い得る。 学習および適応において、 生物の示す 最大の特性である、 高度な 「自己組織化」 現象が達成される。
(遺伝的アルゴリズムの具体的な説明)
以下、 遺伝的アルゴリズムの基本的スキームを説明する。 遺伝的アルゴリズムは、 生物が利用する有性生殖および自然選択という 2つの プロセスを利用する。 生物は、 有性生殖において、 精子と卵子との受精に代表さ れるように、 相同染色体において対合を起こす。 次いで、 染色体の任意の地点で 交叉が起き、 遺伝子の交換すなわち遺伝子組換えが起きる。 遺伝子組換えは、 突 然変異よりも有効かつ効率的な情報の多様化を達成する。 自然選択において、 有 性生殖などによって多様化した個体群のいずれを残して次世代の生存生物すなわ ち適応生物とするかが決定される。 遺伝的アルゴリズムの特徴として、 従来のァ ルゴリズムとは異なり、 局所解に落ち込む危険性が大幅に回避されることが挙げ られる。
遺伝的アルゴリズムの基本スキームを説明する。 遺伝的アルゴリズムは全体と して、 大別して次の 8つのプロセスを含む。
(1) 遺伝子型の決定処理
(2) 集団発生処理
(3) 個体の評価処理
(4) 淘汰 (削除) 処理
(5) 増殖処理
(6) 交叉 (組換え) 処理
(7) 突然変異処理
(8) 群評価処理。
(2) で生成した集団を (3) および (4) によって淘汰し、 (5) 〜 (7) によって多様化し、 得られた解を (8) で評価してその結果に応じて (3) 〜 ( 7) (本明細書において 1 「世代」 と呼ぶ) を繰り返すという新個体生成および 世代交代が遺伝的アルゴリズムの基本的スキームである。 このように遺伝的アル ゴリズムは、 課題となる事象の集団 (最適解領域;単一解ではなく複数の解の区 域) を人工的に進化 (すなわち、 最適適応) させて、 集団全体として真の最適値 へ近づける。 ここで、 (4) 〜 (7) の処理は、 1つ以上が省略されていてもよ い。 次いで、 遺伝的アルゴリズムの各処理について解説する。
(1) 遺伝子型の決定処理
この処理では、 遺伝子型を決定する処理を行う。 事象またはシステムのモデル 化 (すなわち、 事象の構成要素への分解、 定義、 および要素関係の定義) および
モデルの記号表現であるので、 D N Aおよびアミノ酸で記述することができる。 代表的には二進数表現 (ビット) 、 数値、 文字などが挙げられるがこれらに限定 されない。 事象のモデル化がこのような記号表現に不向きであれば、 そのような 事象は G Aに適合しない。
( 2 ) 集団発生処理
多様性の生成処理を行う。 基本的には、 小さな違いを有する個体を多数発生さ せる。 ランダム法およびルール法がある。 ランダム法は、 初期値が乱数発生に基 づく。 他方、 ルール法では、 初期値は一定基準に基づく。
この処理では、 設定されている環境に適応度が高いものから低いものへのラン キングを行う。 蛋白質についての評価パラメ一夕としては、 例えば、 経験的分子 力学ポテンシャル、 半経験的量子力学ポテンシャル、 非経験的量子力学ポテンシ ャル、 電磁気学的ポテンシャル、 溶媒和ポテンシャル、 構造エントロピー、 p I (等電点) などが挙げられるがこれらに限定されない。 これらの評価パラメータ は、 蛋白質の生化学的性質と直接または間接の関連を有し得る。
( 4 ) 淘汰 (削除) 処理
淘汰処理とは、 (3 ) の評価関数での評価値に基づいて、 次期世代に残す個体 を選別する処理である。 従って、 ここでは、 評価関数での評価に従って個体が削 除される。 淘汰は、 その削除の様式によって大きく 3つに分類される。
( a ) ランダム方式 (ルーレット方式) :個体を、 適応度の数値による足切り 的選択を最初に行い、 その範囲内でランダムに選択する方式;
( b ) 適応度順位方式 (ランキング方式) :適応度の数値による足切り的選択
ではなく、 所属する個体群での、 適応度順に並べた場合の順位によって選択確率 を決めており、 その確率に基づいて選択する方式;および
( C ) 高適応度抜粋方式 (エリート保存方式) :所属する群の中で、 適応度が 最大の個体を無条件で選択する方式。
( 5 ) 増殖処理
この処理において、 (4 ) での淘汰処理によって減少した個体数を増殖処理す る。 増殖処理は、 予め決定した様式に従って、 淘汰後の個体総数から一定の割合 で個体を抽出して増殖処理することによって行われる。 この処理によって、 集団 全体の適応度の平均値が上昇する、 増殖処理は、 例えば、 評価値の高い個体を優 先的に増殖させる処理、 または残留した個体の割合に比例させて増殖させる処理 などが挙げられる。
( 6 ) 交叉 (組換え) 処理
交叉処理とは、 遺伝子組換えでの交叉事象に倣い、 ある個体の特定の記号群を 別の個体の対応する記号群と交換する処理をいう。 淘汰処理のみの処理では、 そ の集団における最高の評価値を超える評価値を有する個体は生じないが、 本処理 によって、 新たな高評価値を有する個体が生成する可能性がある。 交叉には大きく分けて、 1点交又法、 多点交叉法、 一様交叉法、 順位交叉法、 循環交叉法、 部分的交叉法などがある。
( 7 ) 突然変異処理
突然変異処理とは、 個体の特定部位を一定の確率で変化させる処理をいう。 変 化種は、 全ての天然型アミノ酸 (2 0種類) であっても、 特定のアミノ酸種から 選択される群でもよい。 また、 変化種は、 非天然型アミノ酸または修飾されたァ
ミノ酸を含み得る。 淘汰または交叉の処理では、 生じる最高値は初期値に拘束さ れる。 突然変異によって、 初期値に依存しない高適合度の個体を生成することが できる。 突然変異には、 その様式によって、 転座方式、 重複方式、 逆位方式、 挿 入方式、 欠失方式などがある。
(8) 生物集団の評価処理
この処理において、 上記の処理によって得られた個体集団を、 一定の特性パラ メ一夕によって評価処理する。 ここで、 上記のプロセスを反復するか否かの収量 条件が判定される。 このような処理を、 何世代かのルーチンで繰り返すことにより、 遺伝的ァルゴ リズムが達成される。
(デッドエンド排除法 (DEE) )
デッドエンド排除法 (De ad End E 1 i m i n a t i o n) は、 蛋白 質においてアミノ酸の側鎖構造の最適値すなわち全体極小化エネルギー構造 (g 1 o b a 1 mi n imum e ne r gy c on f o rma t i on ; GM EC) を予測する方法である (De sme t、 J. ら (1992) 、 356、 5 39— 542 ; De sme t、 J. ら (1994) 、 The P r o t e i n Fo l d i ng P r o b l em and Te r t i a r y S t r u c t u r e P r e d i c t i on、 Me r zら編、 B i r kh a e u s e r Bo s t on, 307— 337) 。 側鎖をいくつかの回転異性体 (r o t ame r) で 近似すれば、 仮定された主鎖構造の位置での側鎖構造の予測は異性体の組合せの 問題となる。 例えば、 100アミノ酸残基からなる蛋白質の場合、 各残基あたり 3個の異性体があると仮定すれば、 31QGの組合せが考えられる。 ここで、 ある 残基の 1つの異性体について、 他の残基の側鎖の異性体の構造に拘らず、 全体の
エネルギーを非常に不利にすることがわかる場合、 その特定の残基の異性体を有 する構造の可能性はすべて評価対象から省略され得る。 この判断を厳密に行うの がデッドエンド理論 (d e a d e nd t h e o r e m) である。 この方法に よって、 多くの蛋白質で、 主鎖構造が与えられた時点で最適な側鎖構造を決定し 得る。 デッドエンド理論の実際を以下説明する。 蛋白質結晶構造に関する統計学的分析によって、 その蛋白質のアミノ酸側鎖は 、 その炭素鎖のねじれが一般に、 ゴ一シュ (+ ) 型 (+60° ) 、 ゴ一シュ (一 ) 型 (― 60° ) 、 およびトランス型 (180° ) の主として 3つの立体配座を とることが明らかになつてきた。 さらに、 種々のアミノ酸の中でも、 ベンゼン環 を有するトリブトファンまたはチロシンは 90° に近い χ2角度をとり、 ヒスチ ジンおよびトリブトファンは + 90° または— 90° の立体配座をとることも明 らかになつておる。 一般に、 側鎖が長いアミノ酸ほど、 とり得る立体配座の種類 すなわち回転異性体 (r o t ame r) は多くなり、 例えば、 リジンでは 51種 類、 アルギニンでは 55種類ほどの立体配座が可能であると考えられている (D e sme tら (1992) 前出) 。 このように想定された種々の回転異性体について、 ポテンシャルエネルギー関 数すなわち評価関数を生成する。 この関数は、 代表的に、 結合の強さに関する項 、 結合角に関する項、 結合のねじれに関する周期関数、 非結合原子対についての レナ一ドージヨーンズポテンシャル、 水素結合についてのポテンシャル、 および 電荷についてのクーロン関数を含む。 このような評価関数を用いて、 回転異性体 のエネルギーを算出し、 以下使用する。
デッドエンド排除アルゴリズムにおいては、 所定のセッ卜の回転可能な側鎖の
GMECを算出することが目的である。 このアルゴリズムは、 テンプレートと呼 ばれる固定された参照構造を用いて、 考えられ得る種々の回転異性体を含む構造 を比較する。 テンプレートには、 (1) 主鎖の原子、 (2) C/3原子、 (3) 可 能性のあるリガンド (例えば、 水分子、 金属イオン、 基質、 ヘム基など) 、 (4 ) 相互作用する蛋白質 (例えば、 マルチマ一を形成する場合の他のサブュニット ) 、 (5) モデリングの際に必要でない側鎖が含まれる。 ある残基の側鎖 iの特定の回転異性体 i こついて、 別の回転異性体 i tが存在 する場合、 以下のように計算してその回転異性体 を考慮から消去するか否か を決定する。 ここで、 ある残基の側鎖の回転異性体について、 評価関数を用いて その側鎖に独特の自己エネルギーを算出する。 さらに、 テンプレートの固定原子 とこの側鎖原子との相互作用エネルギーを算出し、 この 2つのエネルギーの和を その回転異性体の 「固有エネルギー」 (E ( ) ; はある残基の特定の回転 異性体) という。 次いで、 この回転異性体上の原子と、 別の回転異性体上の原子 との相互作用エネルギーの和を全ての残基について積分し、 この値を 「非結合対 相互作用エネルギー」 (∑jE (irjs) ; j sは iとは異なる残基の特定の回 転異性体) という。 非結合対相互作用エネルギーの各残基についての最小値の積 分を 「最小非結合対相互作用エネルギー」 (∑jm i nsE ( i r j s) ) といい、 非結合対相互作用エネルギーの各残基についての最大値の積分を 「最大非結合対 相互作用エネルギー」 (∑jmaxsE ( i r j ,) ) という。 ここで、 以下の関係:
E(l
r) +∑
E(i
t) +∑ jmax
sE(i
t;j
s) ,
ここで i≠ j
すなわち、 ある回転異性体 i rの固有エネルギーおよび最小非結合対相互作用 エネルギーの和が、 別の回転異性体 i tの固有エネルギーおよび最大非結合対相 互作用エネルギーの和よりも大きい場合は、 回転異性体 i rは、 GMECにはな らないため、 回転異性体 irを GMEC算出計算から省略する。 この計算を順次 各回転異性体について行うことにより、 GMECに適合しない回転異性体をすベ て省略し、 GMEC算出計算を行う。 計算には不必要な候補を効率的に省略できるので、 DEEアルゴリズムを適用 すれば、 GMEC計算を大幅に短縮し得る。
(エネルギー極小化計算)
次にエネルギー極小化計算について説明する。 エネルギー極小化法とは、 蛋白質構造などの系の安定構造を算出する方法であ る。 エネルギー極小化法では、 出発構造からさほど遠くない局所的な安定構造を 求める。 エネルギー極小化法においては、 まず初期座標を与える。 次に、 この座標をェ ネルギ一が低下すると期待される方向に少しずつ変化させて次の座標を得る。 こ のステップを繰り返し、 構造変化、 エネルギー変化および力が充分小さくなつた ときにこの繰り返しを停止して、 極小構造を得る (現代化学増刊 13 「新薬のリ ードジェネレーション」 13章、 分子動力学設計システム、 東京化学同人を参照 のこと) 。 代表的には、 ベクトル表現で、
n+l
と表され、 ここで、 〜付きの rは、 nまたは n+ 1ステップにおける座標であり 、 <5は座標の変化を表す。 δを得るためには、 代表的には、 最大降下法、 共役勾配法、 Newt on— R a p h s o n法 (NR法) および適応基底 New t on-Ra ph s o n法 (A BNR法) がある。 最大降下法は、 <5に対してボテンシャルエネルギーの勾配をとる。
«5 =— kn (VnE)
極小点から遠く離れた場所では効率よくエネルギーが低下するが、 極小点に近 づくと、 収束が遅くなる傾向がある。 knは、 線上探索で使用するパラメ一ター である。 共役勾配法では、 次のステップの座標を得るのにエネルギーの勾配に加え、 前 回の勾配も利用する。 一般的に、 収束は最大降下法より優れているといわれる。
n十 1 =τ„+ δ
ここで、 (5=— kn (VnE) 、 αは、 単純な線上探索で最適値が決められるパ ラメ—夕一である。
NR法では、 <5 nの評価に対して一次微分 (勾配) に加えて、 二次微分行列 ( 曲率) を利用する。
この方法は、 極小点付近の収束は極めて早いが、 力の定数の行列とその逆行列 の計算時間がかかりすぎるという欠点を有している。 また、 大きな記憶容量も必 要である。 従って、 巨大分子に適用するのは困難である。
NR法が基底ベクトルを完全空間で解くのに対して、 ABNR法は、 副空間で 解くという簡易法であり、 巨大分子に適用し得る。 前回までのステップにおいて 最も大きな動きがあった部分を取り込むように、 nステップ目の基底べクトルは 、 過去 p+ 1ステップの位置ベクトルから形成される。
Γ η== Γ n-i+ f n-p-1
Γ n = Γ n-i+ -p
Γ n= Γ n一 i+ Γ n-2
通常 Pは、 4〜10の値が採用される。 二次微分行列は、 減少した基底べクト ルおよび一次微分べクトルから形成され、 行列の大きさは大幅に減少するので、 計算時間も記憶容量も少なくてすむ。 ABNR法は、 一次微分法における計算の 速さ、 および NR法の二次微分定法のうち、 重要なもののみを取り込むという利 点を有している。 初回の p+ 1回ステップは、 最大降下法で計算され、 続いて A BNR法が適用される。
(定義)
以下、 本明細書において使用される主な用語の一部を定義する。 「雛形蛋白質集団」 とは、 本明細書において遺伝的アルゴリズムにおいて使用 される場合、 計算の基礎となる蛋白質の集団をいう。 雛形蛋白質集団は、 少なく とも 1つの蛋白質を含み、 代表的には 2以上の蛋白質 (すなわちメンバー) を含 み、 好ましくは、 4以上の蛋白質を含み、 より好ましくは同定されている同一の 蛋白質スーパ一ファミリーに属する数の蛋白質を含むが、 これらに限定されない 。 「多重変異蛋白質集団」 とは、 本発明の方法によって多重の変異が導入された 蛋白質の集団をいう。 多重変異蛋白質集団は、 複数の同種分子、 複数の異種分子
、 またはそれらの組み合わせから構成され得る。 好ましくは、 複数の同種分子か ら構成される。 また、 好ましくは、 複数の異種分子から構成される。 また、 好ま しくは、 複数の同種分子と複数の異種分子との組み合わせから構成される。 前記 多重変異蛋白質集団の各メンバーは、 複数の同種分子、 複数の異種分子、 または それらの組み合わせから構成される少なくとも 1つの蛋白質を含む分子複合体で あり得る。 変異とは、 蛋白質のアミノ酸 ffi列が変更されることをいい、 蛋白質の アミノ酸配列に、 アミノ酸の置換、 欠失、 挿入が導入されるか、 またはあるアミ ノ酸が修飾されることを含み得る。 本明細書においては、 多重変異とは、 通常複 数の変異をいうが、 変異は 1つでもあり得る。 雛形蛋白質集団または多重変異蛋 白質集団の 「メンバー」 とは、 それぞれの集団に属する蛋白質メンバ一をいう。 蛋白質の 「配列データ」 とは、 その蛋白質のアミノ酸配列データまたは、 その アミノ酸配列をコードする核酸配列データをいう。 核酸配列は、 公知の配列また はァミノ酸配列から推定される配列であり得る。 蛋白質の 「立体構造データ」 とは、 その蛋白質の三次元構造に関するデータを いう。 蛋白質の立体構造データには、 代表的に、 原子座標データ、 分子トポロジ 一、 分子力場定数が挙げられる。 原子座標データは、 代表的に、 X線結晶構造解 析または NM R構造解析から得られたデータであり、 このような原子座標データ は、 新規に X線結晶構造解析または NM R構造解析を行って得られ得るか、 また は公知のデータベース (例えば、 プロテイン ·デ一夕 .パンク (P D B) ) から 入手し得る。 原子座標データはまた、 モデリングまたは計算によって作成された データであり得る。 本明細書において、 「立体構造型」 または 「フォールド」 と は、 蛋白質内部の二次構造の三次元空間上の配置の仕方またはトポロジーをいう 。 本発明の方法は、 好ましくは雛形蛋白質の立体構造型をおおむね保持する束縛 条件下で実行され得る。
分子トポロジーは、 市販もしくはフリーゥ.エアのツールプログラムを用いて算 出し得るが、 自作プログラムを用いてもよい。 また、 市販の分子力場計算プログ ラム (例えば、 P R E S T O、 蛋白工学研究所株式会社、 に付属の p r e p a r プログラム) に付属の分子トポロジー計算プログラムを使用し得る。 分子力場定数 (または分子力場ポテンシャル) もまた、 市販もしくはフリーゥ エアのツールプログラムを用いて算出し得るが、 自作データを用いてもよい。 ま た、 市販の分子力場計算プログラム (例えば、 AM B E R、 O x f o r d M o 1 e c u 1 a r ) に付属の分子力場定数データを使用し得る。 蛋白質の 「特性値」 とは、 蛋白質の物理化学的性質をいう。 特性値は、 配列デ 一夕および Zまたは立体構造データから計算され得る。 蛋白質の特性値には、 代 表的に、 経験的分子力学ポテンシャル、 半経験的量子力学ポテンシャル、 非経験 的量子力学ポテンシャル、 電磁気学ポテンシャル、 溶媒和ポテンシャルおよび構 造エントロピーが挙げられるが、 これらに限定されない。 蛋白質の特性値は、 蛋 白質の生化学的特性に関する値でもあり得る。 蛋白質の特性値は、 酵素またはシ グナル伝達蛋白質のような蛋白質またはポリペプチドの熱安定性、 化学安定性、 酵素の基質化学選択性または基質立体選択性、 至適 p Hなどの生化学的特性と直 接または間接的な関連を有し得る。 これらの直接的な関連または間接的な関連に ついては、 当業者は容易に認識し得る。 従って、 当業者は、 自己の目的に従って 「所望の特性値」 を設定し、 計算パラメ一夕を決定し得る。 ここで、 所望の特性 値は、 本明細書において、 ある蛋白質についての特性値を変更させる際の目標値 をいう。 本明細書において、 「計算パラメータ」 とは、 本発明の方法を実行する際に必
要となるパラメ一夕をいう。 計算パラメータには、 代表的に遺伝的アルゴリズム の計算パラメ一夕である。 このような計算パラメータには、 集団数、 集団中の個 体数、 世代数、 淘汰率、 増殖率、 交叉率、 もしくは変異率のいずれか 1つ、 また はそれらの組み合わせを変化させることに関するパラメ一夕が含まれる。 ここで 、 「世代数」 とは、 遺伝的アルゴリズムを適用する数をいう。 また、 計算パラメ —夕には、 遺伝的アルゴリズムの反復についての判断の基準となる特性値もまた 含まれる。 計算パラメ一夕には、 変異されるアミノ酸位置を特定する情報も挙げ られる。 さらに、 計算パラメ一夕には、 世代数 Nに関する計算パラメ一夕が含ま れ、 ここで、 Nは、 N— 1回目までに算出された蛋白質の特性値の最適値と、 N 回目で算出された特性値の最適値とが初めて等価になる回数である。 このように 、 計算パラメータは、 変異の対象となる蛋白質の生化学的特性と、 直接または間 接的に関連し得、 従って、 これらの計算パラメータを適切に操作することによつ て、 所望の生化学的特性を有するか、 またた所望の生化学的特性に近い特性を有 する蛋白質を生成し得る。 本発明は、 一つの局面において、 多重変異蛋白質の最適化解を算出する方法に 関する。 本発明の多重変異蛋白質アミノ酸配列の最適化解を算出する方法は、 多重変異 蛋白質集団のメンバーに対して、 雛形蛋白質集団の立体構造データに基づいて、 該メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排 除アルゴリズムを用いて探索すること、 および該メンバーの構造エネルギー極小 化計算を実行することによって、 最適な多重変異蛋白質の立体構造座標を算出す るステップと、 該最適な多重変異蛋白質の立体構造座標から特性値を算出するス テツプと、 該多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、 該特 性値を最適化するメンバーを算出するステップとを包含する。
図 1は、 多重変異蛋白質の最適化解を算出する方法を示す例示的なフローチヤ ートである。 図 1に示される方法の処理は、 コンピュータ 500によって実行さ れ得る。 図 6は、 本発明の多重変異蛋白質の最適化解を算出する方法の処理を実行する コンピュータ 500の構成例を示す。 コンピュータ 500は、 入力部 501と、 CPU502と、 出力部 503と、 メモリ 504と、 バス 505とを備える。 入力部 501と、 CPU502と、 出 力部 503と、 メモリ 504とは、 バス 505によって相互に接続されている。 入力部 501と出力部 503とは入出力装置 506に接続されている。 以下、 コンピュータ 500によって実行される多重変異蛋白質の最適化解を算 出する方法の処理の概略を説明する。 図 1に示される本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法 の処理を表現するプログラム (以下、 最適化プログラム) は、 例えば、 メモリ 5 02に格納されている。 あるいは、 最適化プログラムは、 フロッピーディスク、 MO、 CD-ROM, DVD— ROMのような任意のタイプの記録媒体に記録さ れ得る。 そのような記録媒体に記録された最適化プログラムは、 出入力装置 50 6 (例えば、 ディスクドライブ) を介してコンピュータ 500のメモリ 504に ロードされる。 CPU 502が最適化プログラムを実行することによって、 コン ピュー夕 500は、 本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方 法の処理を実行する装置として機能する。
入力部 501を介して、 雛形蛋白質集団の配列データおよび雛形蛋白質集団の 立体構造データおよび計算パラメ一夕を入力する。
CPU 502は、 入力部 501で入力された情報をもとに、 雛形蛋白質集団の 各メンバーの特性値を算出し、 メモリ 504に特性値データを格納する。 次いで 、 CPU 502は、 計算パラメ一夕、 所望の特性値および雛形蛋白質集団の立体 構造および特性値に基づいて、 雛形蛋白質集団に遺伝的アルゴリズムを適用して 、 多重変異蛋白質集団を生成する。 その後、 CPU 502は、 多重変異蛋白質集 団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除 (De a d End E 1 i m i n a t i o n) アルゴリズムを適用して、 アミノ酸側 鎖の位置を最適化し、 エネルギー極小化計算を実行する。 次いで、 CPU502 は、 エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造デー 夕および特性値を算出し、 この算出された立体構造デー夕および特性値をメモリ 504に格納し得る。 次に、 CPU502は、 計算パラメータ、 雛形蛋白質集団の各メンバーの特性 値および多重変異蛋白質集団の各メンパーの特性値に基づいて、 再度上記アルゴ リズムを反復するか決定する。 上記アルゴリズムが反復されると決定した場合に は、 CPU502はさらに、 上記アルゴリズムを反復し得る。 反復する場合は、 CPU 502は、 計算パラメ一夕、 所望の特性値および雛形 蛋白質集団の特性値のほかに、 これまでに算出された特性も考慮して、 雛形蛋白 質集団に遺伝的アルゴリズムを適用し、 多重変異蛋白質集団を生成し、 その後の 処理を続ける。
CPU 502が反復を中止する判断を下した場合、 CPU 502は、 メモリ 5
04に格納されている雛形蛋白質集団の各メンパーの特性値および多重変異蛋白 質集団の各メンバーの特性値から、 所望の特性値を有するメンバ一を選択する。 その後、 出力部 503は、 CPU 502が選択したメンバ一の配列デ一夕およ び特性値を出力する。 出力されたデ一夕は、 入出力装置 506から出力され得る
以下、 本発明の方法の詳細を、 図 1を参照しながら説明する。 本発明の方法は、 多重変異蛋白質の最適化解を算出する方法であって、 代表的 には、 以下のステップ (10) 〜 (50) を包含する。 各ステップは、 入力部 5 01、 CPU502または出力部 503 (図 6) によって実行される。 ステップ 10 :入力部 501に、 雛型蛋白質集団の配列データおよびこの雛型 蛋白質集団の立体構造データが入力される。 このステップでは、 本発明の方法において基本データと使用される雛型蛋白質 集団の配列データおよびその立体構造データを入力する。 入力されたデータは、 メモリ 504に格納され得る。 配列データは、 アミノ酸配列または核酸配列であ り得る。 アミノ酸配列は、 修飾基 (たとえば、 糖鎖、 脂肪酸、 硫酸基など) で修 飾されていてもよい。 アミノ酸配列に使用されるアミノ酸は、 天然アミノ酸、 非 天然アミノ酸のいずれかまたはその両方であり得る。 アミノ酸配列または核酸配 列のデータは、 公知のデータベース (Swi s s P r o t、 Ge nBan kなど ) から入手し得るか、 または当該分野で周知の技術 (例えば、 サンガー法、 エド マン法など) を用いて新たに決定し得る。 入力される立体構造データは、 例えば 、 原子座標データなどであり得る。 原子座標は、 例えば、 X線構造解析などによ
る実験デ一夕、 もしくは、 モデリングまたは計算などによって作成された座標デ 一夕であり得る。 立体構造デ一夕はまた、 例えば、 公知のデータベース (例えば
、 P D Bなど) から入手し得る。 ステップ 1 2 : C P U 5 0 2は、 上記雛型蛋白質集団の配列データおよび立体 構造データに基づいて、 該雛形蛋白質集団の各メンバ一の特性値を算出する。 算 出されたデータは、 メモリ 5 0 4に格納され得る。 ステップ 1 0で入力されたデ 一夕に基づいて、 本発明の方法において用いる特性値の計算を行う。 特性値は、 最適値を決定する際の決定要因である。 本発明で使用され得る特性値には、 例え ば、 経験的分子力学ポテンシャル、 半経験的量子力学ポテンシャル、 非経験的量 子力学ポテンシャル、 電磁気学ポテンシャル、 溶媒和ポテンシャルおよび構造ェ ントロピーが挙げられる。 ステップ 1 4:入力部 5 0 1において、 下記のアルゴリズムを実行する際に用 いる計算パラメ一夕および所望の特性値が入力される。 このステップにおいて、 本発明の方法においてアルゴリズムを実施する際の計 算パラメ一夕などが入力される。 入力されたデ一夕は、 メモリ 5 0 4に格納され 得る。 入力され得る計算パラメータには、 遺伝的アルゴリズムのパラメ一夕、 例 えば、 世代数、 変異率、 淘汰率、 淘汰方法、 交叉率、 交叉方法のようなパラメ一 夕が挙げられる。 計算パラメ一夕は、 選択基準となる特性値であり得る。 計算パ ラメ一夕はまた、 世代間の評価であり得、 例えば、 第 N— 1世代までの最適値と 第 N世代までの最適値が一致した場合に計算を終了するという条件であり得る。 所望の特性値とは、 本発明の方法によって入手することを目的とする多重変異 体蛋白質についての任意の特性値である。 所望の特性値には、 経験的分子力学ポ
テンシャル、 半経験的量子力学ポテンシャル、 非経験的量子力学ポテンシャル、 電磁気学ポテンシャル、 溶媒和ポテンシャルおよび構造エントロピーなどが挙げ られる。 所望の特性値は、 蛋白質の生化学的特性値でもあり得る。 あるいは、 所 望の特性値は、 蛋白質の生化学的特性値と直接または間接的に関連し得る。 従つ て、 所望の特性値は、 蛋白質の生化学的特性の変異の様式に応じて変更させ得る
当業者が、 計算パラメータを、 所望の特性値に応じて、 適切に設定し得ること は明らかである。 ステップ 2 0 : C P U 5 0 2は、 上記計算パラメ一夕、 所望の特性値および上 記雛形蛋白質集団の特性値に基づいて、 上記雛形蛋白質集団に遺伝的ァルゴリズ ムを適用して、 多重変異蛋白質集団を生成する。 このステップにおいて遺伝的アルゴリズムを雛形蛋白質集団に適用する。 遺伝 的アルゴリズムは、 上記に記載したように、 入力された集団に対して、 各個体の 評価処理、 淘汰処理、 増殖処理、 交叉処理、 突然変異処理、 および群評価処理を 行う。 淘汰処理、 増殖処理、 交叉処理および突然変異処理は、 すべて行ってもよ く、 1以上の処理を行わなくてもよい。 ステップ 2 0は第 1回目の遺伝的ァルゴ リズムの適用であり、 入力された雛形蛋白質集団に対して遺伝的アルゴリズムが 適用される。 必要に応じて、 遺伝的アルゴリズムが局所解に陥らないように、 こ の 1回目の遺伝的アルゴリズムの突然変異率 (例えば、 5 0 %、 7 5 %、 1 0 0 %など) を高くし、 多様性を充分担保することが好ましい。 このステップで生成 されたデータは、 メモリ 5 0 4に格納され得る。 ステップ 2 2 : C P U 5 0 2は、 上記多重変異蛋白質集団の各メンバーのアミ
ノ酸残基のアミノ酸側鎖に対してデッドエンド排除 (D e a d E n d E l i m i n a t i o n ) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化 し、 次いで、 エネルギー極小化計算を実行する。 このステップでは、 ステップ 2 0で生成した多重変異蛋白質集団の各メンバー のアミノ酸配列の各アミノ酸残基について、 デッドエンド排除アルゴリズムによ りそれらの原子座標を最適化し、 エネルギー最小化計算を行う。 デッドエンド排 除アルゴリズムにおいては、 全てのアミノ酸残基について処理を行ってもよく、 変異されていないアミノ酸残基の一部またはすベてを固定して処理を行ってもよ い。 好ましくは、 変異したアミノ酸残基およびそれらの近傍の変異されていない アミノ酸残基に対して処理を行う。 この不テツプで生成されたデータは、 メモリ 5 0 4に格納され得るか、 または出力部 5 0 3から出力され得る。 ここで、 出力 されるデータは、 例えば、 蛋白質を構成する原子各々を一意的に示す名称、 およ びそれらの原子の構造座標であり得る。 ステップ 2 4 : C P U 5 0 2は、 エネルギー極小化された上記多重変異蛋白質 集団の各メンバーの立体構造データおよび特性値を算出する。 このステップにおいて、 エネルギー極小化計算を行った上記の蛋白質集団の立 体構造データは上記に記載した周知方法などにより計算され、 そしてステップ 1 2で行ったのと同様な方法で特性値が算出される。 算出されたデータは、 解候補 であり、 必要に応じて格納部に格納され得る。 このステップで生成されたデータ は、 メモリ 5 0 4に格納され得る。 ステップ 3 0 : C P U 5 0 2は、 上記計算パラメ一夕、 上記所望の特性値、 上 記雛形蛋白質集団の各メンバーの特性値、 および上記多重変異蛋白質集団の各メ
ンパーの特性値に基づいて、 以下のステップ 2 1、 2 3および 2 5を実行する否 か決定する。 ステップ 2 0、 2 2および 2 4において算出された多重変異蛋白質集団の特性 値を評価して、 所望の特性値が得られた否か、 または入力された遺伝的アルゴリ ズムの計算パラメータのいずれかに基づいて、 再度の遺伝的アルゴリズムを適用 するかを決定する。 このステップでの判定は、 回数で決定してもよく、 この場合 、 例えば、 N (ここで、 Nは、 N— 1回目までに算出された蛋白質の特性値の最 適値と、 N回目で算出された特性値の最適値とが初めて等価になる回数である) 回目で反復を停止させ得る。 ステップ 2 1、 2 3および 2 5を実行しないと決定 した場合は、 ステップ 4 0に進む。 ステップ 2 1 :ステップ 3 0で実行すると決定された場合、 または下記のステ ップ 3 1において反復すると決定された場合、 C P U 5 0 2は、 上記計算パラメ 一夕、 所望の特性値および上記雛形蛋白質集団の特性値、 ならびにこれまでに生 成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛 形蛋白質集団に遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集団を生 成する。 このステップで生成されたデータは、 メモリ 5 0 4に格納され得る。 このステップにおいて遺伝的アルゴリズムを、 雛形蛋白質集団および上記で生 成された多重変異蛋白質集団を含む集団に適用する。 遺伝的アルゴリズムは、 上 記に記載したように、 入力された集団に対して、 各個体の評価処理、 淘汰処理、 増殖処理、 交叉処理、 突然変異処理、 および群評価処理を行う。 淘汰処理、 増殖 処理、 交叉処理および突然変異処理は、 すべて行ってもよく、 1以上の処理を行 わなくてもよい。 このステップは、 2回目以降の遺伝的アルゴリズムの適用ステ ップである。 2回目以降の遺伝的アルゴリズムにおいて遺伝的アルゴリズムが適
用される集団は、 雛形蛋白質集団に含まれる蛋白質メンバーの他に、 これまでの 遺伝的アルゴリズムによって生成した多重変異蛋白質集団の蛋白質メンバーも存 在し得る。 必要に応じて、 遺伝的アルゴリズムが局所解に陥らないように、 突然 変異率 (例えば、 50%、 75%または 100%など) を高くし、 多様性を充分 担保してもよい。 このステップで生成されたデータは、 メモリ 504に格納され 得る。 ステップ 23 : CPU 502は、 上記新たな多重変異蛋白質集団の各メンバ一 のアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除 (De a d End E l imi n a t i on) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を 最適化し、 次いで、 エネルギー極小化計算を実行する。 このステップで生成され たデータは、 メモリ 504に格納され得る。 このステップにおいて、 ステップ 21で生成した多重変異蛋白質集団の各メン バーのアミノ酸配列の各アミノ酸残基について、 デッドエンド排除アルゴリズム により最適化し、 エネルギー極小化計算が行われる。 なお、 すでに極小化計算が なされた蛋白質メンバ一については、 この極小化計算が省略され得る。 デッドェ ンド排除アルゴリズムにおいては、 全てのアミノ酸残基について処理を行っても よく、 変異されていないアミノ酸残基を固定して処理を行ってもよい。 ステップ 25 ; CPU 502は、 エネルギー極小化された上記新たな多重変異 蛋白質集団の各メンバーの立体構造データおよび特性値を算出する。 このステップにおいて、 ステップ 23においてエネルギー極小化計算を行った 上記の蛋白質集団の立体構造データを当該分野で周知の方法により計算し、 そし て蛋白質集団の各蛋白質メンバーの特性値を、 ステップ 12で行ったのと同様な
方法で算出する。 算出されたデータは、 解候補であり、 メモリ 5 0 4に格納され 得る。 ステップ 3 1 : C P U 5 0 2は、 上記計算パラメ一夕、 上記所望の特性値、 上 記雛形蛋白質集団の各メンバーの特性値、 およびこれまでに生成されたすベての 多重変異蛋白質集団の各メンバーの特性値に基づいて、 さらにステップ 2 1、 2 3および 2 5を実行する否か決定する。 このステップでの判定は、 回数で決定し てもよく、 この場合、 例えば、 N (ここで、 Nは、 N— 1回目までに算出された 蛋白質の特性値の最適値と、 N回目で算出された特性値の最適値とが初めて等価 になる回数である) 回目で反復を停止させ得る。 ステップ 2 1、 2 3および 2 5 を実行しないと決定した場合は、 ステップ 4 0に進む。 ステップ 4 0 : C P U 5 0 2は、 上記雛形蛋白質集団の各メンバーの特性値お よびこれまでに生成されたすベての多重変異蛋白質集団の各メンバ一の特性値か ら、 上記所望の特性値を有するメンバ一を選択する。 多重変異蛋白質集団の生成が終了した後、 このステップにおいて、 これまでに 得られた各蛋白質メンバーの特性値を比較し、 所望の特性値を有する蛋白質メン バーを選択する。 選択されるメンバ一は、 メモリ 5 0 4に格納されているデータ から選択され得る。 選択する数は、 1つでも、 複数でもよく、 例えば、 少なくと も 5、 1 0、 2 0 , 5 0、 1 0 0または 2 0 0個選択し得る。 場合によっては、 雛形蛋白質集団のメンバ一から所望の特性値を有するものが選ばれ得るが、 通常 は多重変異蛋白質集団からのメンバ一が所望の特性値を有する。 所望の特性値を 有する個体は、 必ずしも集団内での存在比は高くならないことに注意する。 ステップ 5 0 :出力部 5 0 3は、 上記選択されたメンバーの配列デ一夕および
特性値を出力する。 このステップにおいて、 ステップ 4 0で選択された所望の特 性値を有する蛋白質メンバ一の配列データおよび特性値を出力する。 出力形式は 、 どんな形式でもよいが、 例えば、 特性値を階級付けし、 最適値からランク付け してリスト形式で出力し得る。 出力されるデ一夕は、 紙にプリントアウトされて もよく、 記憶媒体 (例えば、 磁気記憶装置 (例えば、 ハードディスク、 フロッピ 一ディスクなど) 、 光学記憶装置 (例えば、 MOディスクなど) ) に格納されて もよい。 なお、 図 6に示される例では、 多重変異蛋白質の最適化解を算出する装置に含 まれる各部が、 ソフトウェアによって実現されている。 従って、 本発明はまた、 本発明の方法をコンピュータに実行させるプログラムに関する。 そのようなコン ピュー夕 ·プログラムは、 当該分野で周知の技術を用いて作成され得る。 当然な がら、 多重変異蛋白質の最適化解を算出する装置に含まれる各部の機能をハード ウェア (回路) によって実現することも可能である。 次に、 本発明に適用される遺伝的アルゴリズムを説明する。 図 2は、 GAにおけるある 1世代のスキームを示す。 現世代の多重変異蛋白質 アミノ酸配列集団 (2 0 1 ) に対して G Aプロセスを実行する。 本発明における G Aプロセスは、 対応する現世代の多重変異蛋白質特性値データベース (2 0 3 ) より得た蛋白質特性値および淘汰率により淘汰を実行するプロセス (2 0 2 ) 、 集団中の個体数変化および増殖率により増殖を実行するプロセス (2 0 4 ) 、 交叉率により交叉を実行するプロセス (2 0 6 ) 、 突然変異率により突然変異を 実行するプロセス (2 0 8 ) の組み合わせにより実行される。 これらのプロセス を順次実行し、 次世代の多重変異蛋白質アミノ酸配列集団 (2 1 0 ) を得る。 プ ロセス (2 0 2 ) 〜 (2 0 8 ) の実行順序は図 2と異なっていてもよく、 いずれ
かのプロセスを実行しなくともよい。 プロセス (2 0 2 ) 〜 (2 0 8 ) において 使用される G Aの変数、 すなわち集団中の個体数、 世代数、 淘汰率、 増殖率、 交 叉率および突然変異率は各世代および各集団ごとに変更することができ、 かつ変 異が許容されるアミノ酸種を限定することができる。 以下、 本発明において適用されるデッドエンド排除 (D E E) アルゴリズムを 、 説明する。 図 3は、 G Aにおけるある 1世代に対して、 その世代に含まれる変異蛋白質集 団各々の立体構造原子座標を算出し、 ついで各々の蛋白質特性値を算出するプロ セスを示す。 まず、 現世代の多重変異蛋白質アミノ酸配列集団 (2 0 1 ) から、 順次あるひとつの多重変異蛋白質アミノ酸配列 (2 2 0 ) を選択する。 そのアミ ノ酸配列情報を用いて、 仮の変異蛋白質アミノ酸原子座標を、 雛形となる蛋白質 立体構造原子座標 (1 0 1 ) にスーパーインポーズする (2 2 2 ) 。 この仮の原 子座標に対して、 デッドエンド排除アルゴリズムを適用した操作を実行し、 変異 蛋白質のアミノ酸側鎖原子座標を部分最適化する (2 2 4 ) 。 さらにエネルギー 極小化計算を実行し、 変異蛋白質のアミノ酸側鎖原子座標を全体最適化し (2 2 6 ) 、 最適化された多重変異蛋白質原子座標 (2 2 8 ) を得る。 プロセス (2 2 2 ) 〜 (2 2 6 ) を順次実行し、 現世代の多重蛋白質原子座標集団 (2 3 0 ) を 得る。 これらの蛋白質原子座標を用いて、 各々の蛋白質特性値を算出し (2 4 0 ) 、 現世代の多重変異蛋白質特性値データベース (2 4 2 ) を作成する。 この特 性値データベースを G Aにおける計算パラメ一夕として用い得る。 一般に、 蛋白質アミノ酸配列が多重変異する場合、 各々のアミノ酸変異が蛋白 質の特性に与える影響はほぼ相加的であり、 まれに特定の複数アミノ酸変異が非 相加的に影響を与えることが知られている。 したがって、 所望の特性をもつ変異
蛋白質を効率よく設計するためには、 所望の特性を変異蛋白質に相加的に与える 各々のァミノ酸変異を組み合わせていくプロセスと、 非相加的な複数ァミノ酸変 異を同時に考慮するプロセスとを組み合わせた方法が必要となる。 広域的最適化 方法である G Aはその探索特性により、 上記した相加的なアミノ酸変異と非相加 的な複数アミノ酸変異とを同時に考慮して、 多重変異蛋白質のアミノ酸配列を最 適化することができる。
G Aを適用することにより、 解候補である多重変異蛋白質アミノ酸配列のすべ てに対して対応する蛋白質立体構造原子座標および蛋白質特性値を算出すること なく、 解候補の一部に対してのみ対応する蛋白質立体構造原子座標および蛋白質 特性値を算出することにより最適解を算出し得、 かつ計算精度を低下させること なく、 計算時間を大幅に短縮することができる。 本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法において、 解候 補である多重変異蛋白質アミノ酸配列に対して、 雛形となる蛋白質高次構造をお おむね保持するという束縛条件下において、 変異蛋白質のアミノ酸側鎖立体構造 に対して D E E計算を実行し、 ついでエネルギー極小化計算を適用することによ り、 多重変異蛋白質の立体構造原子座標を良い精度で算出し得る。 解候補である 多重変異蛋白質の立体構造原子座標は未知であることが多く、 また新たに実験的 に原子座標を決定することは多くの資源を消費するので、 前記方法により、 すべ ての候補について計算することなく原子座標が精度良く算出できることは有用で ある。 得られた多重変異蛋白質の立体構造原子座標を用いることにより、 有用な蛋白 質の特性値を精度よく算出することができる。 多重変異蛋白質のアミノ酸配列の みから得られる蛋白質の特性値は通常限られたものであり、 また精度の高い特性
値が得られない場合が多い。 立体構造原子座標を用いることにより、 例えば変異 蛋白質の分子力学ポテンシャルまたは量子力学ポテンシャルを算出し、 変異蛋白 質が熱変性する過程での自由エネルギー変化量を算出することができる。 この変 化量は蛋白質の熱的安定性や化学的安定性、 さらには蛋白質と他分子とが会合す る過程での結合の強さを算出することができる。
G Aにおけるアミノ酸配列の変異において、 集団数、 集団中の個体数、 世代数 、 淘汰率、 増殖率、 交叉率、 突然変異率を変化させることにより、 所望の設計パ ラメ一夕に応じた多重変異蛋白質アミノ酸配列の最適化を行なうことができる。 例えば集団中の個体数と交叉率や突然変異率を適切に設定することにより、 雛形 となる蛋白質のアミノ酸配列と、 解候補とする多重変異型アミノ酸配列との差異 の大小を制御することが可能であり、 雛型に近い変異型または雛型から遠い変異 型への最適化を選択的に行なうことができる。 G Aにおけるアミノ酸配列の変異において、 各々のアミノ酸の変異が許容され るアミノ酸種を限定することにより、 所望の設計諸元に応じた多重変異蛋白質ァ ミノ酸配列の最適化を行なうことができる。 例えば特定のアミノ酸変異部位につ いて、 そのアミノ酸種を塩基性アミノ酸種または酸性アミノ酸種等に限定するこ とにより、 多重変異蛋白質の静電的特性を雛形蛋白質と変えることなく、 変異蛋 白質の熱安定性を最適化することができる。
(伝送媒体)
本発明はまた、 本発明のプログラムを伝送する伝送媒体を提供する。 本明細書 において、 「伝送」 とは、 データをある場所から別のところへ移すことをいい、 「伝送媒体」 とは、 プログラム、 データ (例えば、 通報、 番組など) などの情報 を、 有線や無線などの方法で送る媒体をいう。 そのような伝送媒体は、 当業者に
周知である。 このような伝送媒体としては、 光ファイバ、 ケーブル、 無線回線の ような通信媒体が挙げられる。 このような通信媒体は、 L A N、 インターネット 、 イントラネット、 ェクストラネットのような WA N、 無線通信ネットワークの ようなコンピュータネットワークシステムの構築において使用される。 そのよう なネットワークは、 放送網および通信網を包含する。 本発明の伝送媒体は、 上記 のようなネットワークにおいて本発明のプログラムが伝送されることによって本 発明の効果を達成する。 このような効果は、 従来のプログラムを伝送する伝送媒 体によっては達成することが不可能であった。 従って、 本発明の伝送媒体は、 従 来の伝送媒体に比して、 予測されなかった格別の効果を達成する。
(ビジネス関連方法)
本発明はまた、 本発明の方法を利用したサービスを提供する方法に関する。 詳 細には、 本発明は、 ネットワークを介して、 入力されたデータに基づいて、 多重 変異蛋白質アミノ酸配列の最適化解を算出するサービスを提供する方法に関する
本発明の方法を利用したサ一ビスを提供する方法は、 上記のような伝送媒体を 介して行われ得る。 従って、 本発明の方法を利用したサービスを提供する方法は 、 顧客との専用線を通じてサービスを提供すること、 インタ一ネットを介して広 く顧客にサービスを提供することなどを包含する。 このようなサービスは、 電子 メールを通じてまたはウェブ (WWW) 上で提供され得る。 サービスを提供する 際には、 暗号を使用してもよい。
本発明はまた、 サービス提供者側にサーバ一を設けるごとで、 以下のようにコ ンピュー夕上の処理として実現し得る。 従って、 本発明の方法は、
雛型蛋白質集団の立体構造データ、 アミノ酸配列データおよび計算パラメータ が、 ネットワークを介するかまたは他の手段によって、 サーバーに入力されるス テツブと、
サーバ一が、 多重変異蛋白質集団のメンバ一に対して、 雛形蛋白質集団の立体 構造データに基づいて、 上記メンバ一の各々のアミノ酸配列のアミノ酸側鎖立体 構造座標をデッドエンド排除アルゴリズムを用いて探索すること、 および上記メ ンパーの構造エネルギー極小化計算を実行することによつて、 最適な多重変異蛋 白質の立体構造座標を算出するステップと、
サ一パーが、 上記最適な多重変異蛋白質の立体構造座標から特性値を算出する ステップと、
サーバ一が、 上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して 、 上記特性値を最適化するメンバーを算出するステップと
を包含し得る。 インタ一ネッ卜上などの提供者が有するサーバーに本発明において利用される 情報またはデータ (例えば、 雛型蛋白質集団の配列データ、 上記雛型蛋白質集団 の立体構造データ、 アルゴリズムを実行する際に用いる計算パラメ一夕および所 望の特性値など) は、 インタ一ネットなどを介してサービスを受ける者によって 入力され得る。 そのようなサーバーは、 入力されたデータを記憶するデ一夕べ一 スを備え得る。 入力されたデータは、 揮発性メモリまたは不揮発性メモリに記憶 され得る。 このサーバーは、 本発明のプログラムを含み得る。 そのようなプログ ラムは、 サーバ一に設置され得るハードディスクなどの記録媒体において記録さ れ得る。 そのようなプログラムはまた、 フロッピーディスク、 M O、 C D - R O M、 D V D— R OMのような任意のタイプの記録媒体に記録され得る。 そのよう な記録媒体に記録された本発明のプログラムは、 例えば、 図 6における入出力装 置 5 0 6 (例えば、 ディスクドライブ) を介してコンピュータ 5 0 0のメモリ 5
0 4にロードされる。 C P U 5 0 2が最適化プログラムを実行することによって 、 コンピュータ 5 0 0は、 本発明の多重変異蛋白質アミノ酸配列の最適解を算出 する方法の処理を実行するサーバーとして機能する。 次いで、 このようなサーバーは、 ネットワークノードを介してインターネット のようなネットワークに接続され得る。 ネットワークに接続されたサーバーによ つて、 本発明は、 ネットワークを介して入力されたデータに基づいて、 多重変異 蛋白質アミノ酸配列の最適化解を算出するサービスを提供する方法を実現し得る
本発明の別の好ましい実施態様において、 本発明の方法は、
( a ) 雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造デー 夕がネッ卜ワークを介して入力されるステップと、
( b ) サーバーが、 上記雛型蛋白質集団の配列データおよび立体構造データに 基づいて、 上記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
• ( c ) 上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特 性値がネットワークを介して入力されるステップと、
( d ) サーバ一が、 上記計算パラメータ、 所望の特性値および上記雛形蛋白質 集団の各メンバーの立体構造データおよび特性値に基づいて、 上記雛形蛋白質集 団に遺伝的アルゴリズムを適用して、 多重変異蛋白質集団を生成するステップと
( e ) サーバーが、 上記多重変異蛋白質集団の各メンバーのアミノ酸残基のァ ミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、 上記アミノ酸側 鎖の位置を最適化し、 次いで、 エネルギー極小化計算を実行するステップと、
( f ) サーバーが、 エネルギー極小化された上記多重変異蛋白質集団の各メン バーの立体構造データおよび特性値を算出するステップと、
(g) サーバ一が、 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質 集団の各メンバーの立体構造データおよび特性値、 ならびに上記多重変異蛋白質 集団の各メンバーの立体構造デ一夕および特性値に基づいて、 ステップ (h) 〜 (j) を実行する否か決定するステップと、
(h) サーバ一が (g) で実行すると決定する場合に、 該サーバ一が上記計算 パラメ一夕、 所望の特性値および上記雛形蛋白質集団の特性値、 ならびにこれま でに生成されたすベての多重変異蛋白質集団の各メンバーの特性値に基づいて、 上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、 新たな多重変異蛋白質集 団を生成するステップと、
(i) サーバーが、 上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残 基のアミノ酸側鎖に対してデッドエンド排除 (De ad End E l imi n a t i on) アルゴリズムを適用して、 上記アミノ酸側鎖の位置を最適化し、 次 いで、 エネルギー極小化計算を実行するステップと、
( j ) サーバーが、 エネルギー極小化された上記新たな多重変異蛋白質集団の 各メンバ一の立体構造データおよび特性値を算出するステップと、
(k) サーバーが、 上記計算パラメ一夕、 上記所望の特性値、 上記雛形蛋白質 集団の各メンバーの特性値、 およびこれまでに生成されたすベての多重変異蛋白 質集団の各メンバーの特性値に基づいて、 ステップ (h) 〜 (j) を実行する否 か決定するステップと、
(1) サーバーが、 上記雛形蛋白質集団の各メンバーの特性値およびこれまで に生成されたすベての多重変異蛋白質集団の各メンバーの特性値から、 上記所望 の特性値を有するメンバーを選択するステップと、
(m) サーバーが、 上記選択されたメンバーの配列データおよび特性値を出力 するステップと
を包含する。
以下に、 本発明を例証するために、 実施例を記載するが、 当業者は、 このよう な実施例は、 本発明の説明の目的めみに提供され、 本発明の範囲もしくは趣旨を 減縮する目的で提供されているのではないことを理解する。 このように、 本発明 は、 添付の請求の範囲によってのみ規定される。 従って、 当業者は、 添付の請求 の範囲内で、 下記の実施例を参酌して、 任意の改変を施して本発明を実施し得る
実 施 例
D N A転写制御因子である λ—リプレッサ一蛋白質の耐熱性向上設計を試みた 実施例を以下に示す。 大腸菌の野生型 λ—リブレッサー蛋白質の立体構造原子座 標はプロテイン ·データ ·パンク (P r o t e i n D a t a B a n k ) に登 録公開されており (登録番号 1 L M B) 、 この原子座標を雛形蛋白質として用い た。 野生型 λ—リブレッサー蛋白質のパリン— 3 6位、 メチォニン一 4 0位および パリン一 4 7位アミノ酸残基はいわゆる疎水性コア部分に位置しており、 これら 3残基を多重変異させることにより、 野生型よりも耐熱性に優れた変異型 λ—リ プレッサ一蛋白質を設計できることが期待された。 実際の多重突然変異計算にあたっては、 本発明のアルゴリズムを実装した計算 機プログラム s h r i k e (鐘淵化学工業から入手可能) を用い、 上記耐熱性向 上設計を実施した。 この実装構成例を図 4に示す。
G Aプロセスにおける計算パラメータとしては、 計算実施回数つまり集団数を 2、 変異蛋白質集団のメンバー数つまり個体数を 1 0 0、 世代数を 4 0、 突然変 異率を初回のみ 1 0 0 %および次回以降を 2 0 %、 淘汰率すなわち生残率を 7 0
%、 、 交叉率を 20%とし、 増殖率は個体数不変とした。 変異蛋白質立体構造最 適化プロセスにおける所望の特性値としては、 AMBER分子力場ポテンシャル および溶媒和ポテンシャルを用いた。 蛋白質特性算出プロセスにおける特性値と しては、 AMBER分子力場ポテンシャルおよび溶媒和ポテンシャルを用いて 蛋白質全構造エネルギーを算出し、 そのエネルギー値を蛋白質の特性値として用 いた。 多重変異蛋白質集団の相異なる 2つのメンバーの該構造エネルギー値の差 を、 それら 2つの変異蛋白質の熱安定性の指標とした。 アミノ酸変異種の制約は 、 天然型アミノ酸 20種類のいずれへも変異可能であるという条件を用いた。 GAプロセスにおいて算出されたすベての多重変異蛋白質アミノ酸配列につい て、 算出された上記構造エネルギー値を指標として整理し、 設計結果とした。 そ の結果のうち上位 120種の多重変異蛋白質について、 それらの 36位、 40位 および 47位の変異型アミノ酸配列をアミノ酸 1文字コードを用いて図 5 Aおよ び図 5 Bに示すとともに、 それらの蛋白質特性値すなわち上記構造エネルギー差 の値もまた図 5 Aおよび図 5 Bに示す。 図 5 Aおよび図 5 Bに示した計算および設計結果と、 合成された該変異蛋白質 の実験結果のうちでデ一夕入手が可能なものとの比較を以下に示す。 すなわち、 文献 J ou r n a l o f Mo l e c u l a r B i o l o y (199 1) vo l . 219 359— 376頁に記載の実験結果によれば、 図 5 Aお よび図 5 B中の順位 7位である L e u— 36、 Le u— 40、 l i e— 47変異 蛋白質および順位 44位である I l e— 36、 Me t— 40、 Va l— 47変異 蛋白質は、 図 5 Aおよび図 5 B中の順位 107位である V a 1—36、 Me t - 40、 V a 1— 47野生型蛋白質よりも高い耐熱性を備えていることが示されて いる。
【表 1】
この結果をもって、 本発明による変異蛋白質設計手段を用いることにより、 目 的特性値を最適にする変異蛋白質設計案を、 精度を低下させることなく選択でき ることが示された。 本実施例において結果として出力された変異蛋白質のアミノ酸の総数は、 5 1 6であった。 また、 本実施例に要した計算時間は、 計算機として S G I社 O r i g i n 2 0 0を用いて 3 . 6時間であった。 一方、 本発明で示された G Aプロセ スを適用せずに考えられるすべてのァミノ酸配列の組み合わせを計算した場合、 すなわち変異箇所 3箇所各々について 2 0種類の天然型アミノ酸変異 (すなわち 、 合計 8 0 0 0個) を行なった場合、 上記計算機を用いて 3 1 . 4時間の計算時 間を要した。 本発明の方法での出力結果のうち上位 2 0 0個と、 従来技術の方法での出力結 果のうち上位 2 0 0個とを比較すると、 1 9 8個が重複していた。 したがって、 上位 2 0 0個を算出することに関する計算精度について、 9 9 %の計算精度を有
することが明らかになった。 このように、 本発明の方法を用いると、 計算精度を低下させずに、 時間を約 1 / 10に短縮することが可能である。
この結果をもって、 本発明による変異蛋白質設計手段を用いることにより、 目的 特性値を最適にする変異蛋白質設計案を、 短時間で選択できることが示される。 さらに、 本発明の方法は、 DEEアルゴリズムのみを用いた蛋白質設計技術 (M a l ak au s k a s, S. ら (1998) 、 Na t u r e S t r u e t u a 1 B i o l ogy, 5, 470-475) では達成されなかった、 自然界での 分子進化に近い最適解を得ることができるという従来では予測不可能であった効 果が達成された。
(発明の効果)
変異蛋白質について自然条件に適合した最適解を、 迅速かつ精度を落とさずに 求めることができる。
(産業上の利用可能性)
本発明により、 組み合わせの数が膨大である多重変異蛋白質集団の中から、 特 性値に基づいて最適解を、 精度を低下させることなく短時間で選択することが達 成される。 特に、 産業上有用な酵素またはシグナル伝達蛋白質の熱安定性、 化学 安定性、 基質化学選択性、 基質立体選択性、 至適 pH値のいずれかまたはそれら の組み合わせを改変する方法および装置ならびにそのような方法を記述するプロ グラムを載せた記憶媒体が提供される。