明 細 書
相互作用部位予測装置、相互作用部位予測方法、プログラム、および記 録媒体
技術分野
[0001] 本発明は、相互作用部位予測装置、相互作用部位予測方法、プログラム、および 記録媒体に関し、特に、タンパク質の相互作用部位を予測する相互作用部位予測 装置、相互作用部位予測方法、プログラム、および記録媒体に関するものである。本 発明により提供されるタンパク質-タンパク質複合体の結合状態の解析結果は、医農 薬品の設計や、タンパク質機能解析において有用である。
背景技術
[0002] (1)タンパク質-タンパク質ドッキング構造予測につ!/、て
タンパク質の機能は、タンパク質の相互作用として捉えることができる。その一つとし て、タンパク質-タンパク質ドッキング解析が行われているが、巨大分子同士の計算と なるため、計算規模が非常に大きくなり、その本格的利用がまだ行われていないとい う問題点がある。
[0003] (2)タンパク質複合体のホモロジ一モデリング法につ!、て
立体構造が既知のタンパク質に関する情報を利用し、立体構造が未知の目的タン ノ ク質とのァライメントを得て、このァライメント情報に基づいて目的タンパク質の立体 構造をコンピュータを用いて作成することが可能であり、この手法は通常、ホモロジ一 モデリング (homology modeling)と呼ばれて!/、る。この方法を用いて、複数鎖タン パク質やタンパク質複合体の立体構造を構築する場合、実際には、相対配置が、用 いた立体構造が既知のタンパク質と異なるのにもかかわらず、用いた立体構造が既 知のタンパク質と同じ相対配置に立体構造を構築してしまうという問題点がある。
[0004] (3)複数鎖タンパク質のァライメント評価につ!、て
ホモロジ一モデリングにおいて、重要な情報であるァライメント情報は、立体構造既 知のタンパク質立体構造のアミノ酸配列情報に対して、ホモロジ一検索を行うことで 取得するのが一般的である。このホモロジ一検索とァライメントを行うためには、 FAS
TA (例えば、非特許文献 1参照。)や PSI-BLAST (例えば、非特許文献 2参照。 ) 等のコンピューターソフトを使用する事ができる。
[0005] ホモロジ一検索を行うと、一般的に各ァライメントについてホモロジ一と e値を得るこ とができる。ホモロジ一は残基一致度(%)である。 e値 (Expected Value)は、デー タベースにおいて全く偶然に同じスコアになる配列の数の期待値、すなわちそのァラ ィメントのスコアがどの程度まれであるのかを示す指標であり、小さければ小さいほど 似た配列は他に見つかりにくぐ偶然には見つ力りにくいことを表わしている。求めた ァライメントスコアが偶然出てしまう確率を P— valueとすると、データベース中でこのス コアの配列が偶然にホモロジ一検索により探索される配列数は、 DB— size X p— valu e ( = E— value)で求められる。ホモロジ一モデリングにおいて、ァライメントの評価は、 このホモロジ一と E— valueで行うのが主流である。
[0006] タンパク質複合体についてァライメントを作成する場合も同様に、ホモロジ一と E-v alueでァライメントの評価を行っており、複合体としての評価を行って 、るわけではな い、という問題点がある。
[0007] 非特許文献 1 : Pearson WR, Methods Enzymol, 266, 277-258, 199 6
非特許文献 2: Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Ara vund L and Altschul SF, Bioinform atics, 12 , 1000—1011, 19 99
発明の開示
発明が解決しょうとする課題
[0008] 本発明者等は、タンパク質 タンパク質ドッキング構造を予測する方法について検 討を行った。タンパク質-タンパク質ドッキング構造予測は、巨大分子同士の計算とな るため、その計算規模が巨大になる問題点がある。本発明が解決しょうとする課題は 、上記の状況を鑑みて、医薬品などの開発に特に重要な鍵となる、タンパク質複合体 の相互作用を、高速かつ簡便に評価する方法を提供することにある。また、そのため の前処理として、タンパク質表面の表現方法と、相互作用部位になりやすい傾向を 数値化する方法考案することで、タンパク質の相互作用部位を予測する方法を提供
することにちある。
[0009] また、複数鎖タンパク質の立体構造をホモロジ一モデリング法を用いて構築する場 合、 目的タンパク質の相対配置が用いた立体構造が既知のタンパク質と異なるのに もかかわらず、そのまま、用いた既知のタンパク質と同じ相対配置に立体構造を構築 してしまうという問題点がある。本発明が解決しょうとする課題は、上記の状況を鑑み て、医薬品などの開発に特に重要な鍵となる、複数鎖を有する任意のタンパク質に ついてホモロジ一モデリングを行った結果を、より精度良く最適化する方法を提供す ることにある。また、そのための前処理として、ホモロジ一モデリング後の立体構造モ デル表面の表現方法と、相互作用部位になりやす 、傾向を数値化する方法考案す ることで、立体構造モデルの相互作用部位を予測する方法を提供することにもある。
[0010] また、ァライメントプログラムの類似度の指標となるホモロジ一や、 e— valueは、参照 タンパク質のアミノ酸配列と、検索を行ったデータベースに依存した数値であり、複合 体としての評価を行っているわけではない。したがって、正しく複合体として評価はし ていない問題点が生じる。本発明の課題は上記の状況を鑑みて、タンパク質複合体 データベースにより、ァライメントからホモロジ一モデリングを行うことで作成されるタン パク質複合体の立体構造の形成しやすさの指標も含めた、ァライメントの評価を精度 良く行う方法を提供することにある。
課題を解決するための手段
[0011] 本発明者等は、タンパク質 タンパク質相互作用を解析することを目的とした方法を 検討した結果、相互作用部位予測装置、相互作用部位予測方法、プログラム、およ び記録媒体を開発した。ここで、以下に記した規定値または式は、それぞれ変更可 能な値または関数であり、本発明の範囲を制限するものではない。
[0012] このような目的を達成するために、本発明にかかる相互作用部位予測装置は、タン パク質の相互作用部位の予測を行う相互作用部位予測装置であって、複数のタンパ ク質ータンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の 原子半径の和力も所定の範囲に表面の原子が存在する座標である、表面グリッドを 発生させる表面グリッド点発生手段と、上記表面グリッド発生手段にて発生させた各
表面グリッドついて、他のチェーンの表面原子半径に重なっているか否力判定し、接 触部位グリッドを選択する接触部位グリッド選択手段と、アミノ酸残基のパターン毎に
、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択手段にて上 記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデ ータベースを作成する接触部位グリッドデータベース作成手段と、相互作用部位予 測の対象となる対象タンパク質構造データに対して、上記表面グリッドを発生させる 対象タンパク質表面グリッド発生手段と、上記対象タンパク質表面グリッド発生手段に て発生させた上記対象タンパク質の各表面グリッドにつ!/、て、上記接触部位グリッド データベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて上 記対象タンパク質の相互作用部位を予測する相互作用部位予測手段と、を備えたこ とを特徴とする。
また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記相互作用部位予測手段は、以下の数式 1を用いて、上 記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相 互作用部位を予測すること、を特徴とする。
ScO 二
(数式 1において、 iは 注目する接触アミノ残基パターンである。 Cは、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(C -Con)の数値は、非接触部位でのカウント数である。
[0014] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置にぉ 、て、上記相互作用部位予測手段にて予測された上記相互作用 部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タン ノ^質の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段、を さらに備えたことを特徴とする。
[0015] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記ドッキング状態探索手段は、複数のタンパク質-タンパク 質複合体立体構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン 間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触相対 配置座標データベースを作成する接触相対配置座標データベース作成手段と、上 記接触相対配置座標データベース作成手段にて作成された上記接触相対配置座 標データベースに登録された各相対配置座標データの任意の原子間の距離分布を 求め、距離分布データベースを作成する距離分布データベース作成手段と、上記距 離分布データベース作成手段にて作成された上記距離分布データベースを用いて 、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングス コア判定手段と、をさらに備えたことを特徴とする。
[0016] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記ドッキングスコア判定手段は、以下の数式 2に基づいて、 上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、を 特徴とする。
[数 2]
Count ,
Sum; ≥ 0.05のとき f 、
SCO log
Y Total n
Sumi j < 0.05のとさ
SCO. 7. 二 0
, J . . . (数式 2 )
(数式 2において、
[数 3]
Count y:接触面における &ゾの組み合わせが距離 に現れた個数 画
S丽', , Count ,、 :接触面における ί &ゾの組み合わせの総数 [数 5]
Total, =ァ &"7 :接触面に来た ζ·の個数 である。 )
[0017] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記ドッキング状態探索手段は、上記対象タンパク質と上記 結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状態 を探索する相対位置変化手段、をさらに備えたことを特徴とする。
[0018] また、本発明は相互作用部位予測方法に関するものであり、本発明にかかる相互 作用部位予測方法は、タンパク質の相互作用部位の予測を行う相互作用部位予測
方法であって、複数のタンパク質 タンパク質複合体立体構造データに対して、タン パク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素 の所定の半径とタンパク質の原子半径の和力 所定の範囲に表面の原子が存在す る座標である、表面グリッドを発生させる表面グリッド点発生ステップと、上記表面ダリ ッド発生ステップにて発生させた各表面グリッドついて、他のチェーンの表面原子半 径に重なって 、る力否か判定し、接触部位グリッドを選択する接触部位グリッド選択 ステップと、アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と 、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数と を対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデ ータベース作成ステップと、相互作用部位予測の対象となる対象タンパク質構造デ ータに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発生ステツ プと、上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク 質の各表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照して接触判 定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部 位を予測する相互作用部位予測ステップと、を含むことを特徴とする。
また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記相互作用部位予測ステップは、以下の数式 1を用いて、 上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の 相互作用部位を予測すること、を特徴とする。
Scot =
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C
;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
[0020] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法にお!、て、上記相互作用部位予測ステップにて予測された上記相互作 用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タ ンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索ステツ プ、をさらに含むことを特徴とする。
[0021] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記ドッキング状態探索ステップは、複数のタンパク質-タン パク質複合体立体構造データ対して、各タンパク質 タンパク質複合体の異なるチェ ーン間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触 相対配置座標データベースを作成する接触相対配置座標データベース作成ステツ プと、上記接触相対配置座標データベース作成ステップにて作成された上記接触相 対配置座標データベースに登録された各相対配置座標データの任意の原子間の距 離分布を求め、距離分布データベースを作成する距離分布データベース作成ステツ プと、上記距離分布データベース作成ステップにて作成された上記距離分布データ ベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索 するドッキングスコア判定ステップと、をさらに含むことを特徴とする。
[0022] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記ドッキングスコア判定ステップは、以下の数式 2に基づい て、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること 、を特徴とする。
[数 7]
Sum- > 0.05のとき
< 0.05のとき
SCO. , = 0
J . . . (数式 2 )
(数式 2において、
[数 8]
Count y d:接触面における f &ゾの組み合わせが距離 に現れた個数 [数 9]
Siunt l = ^€01 11, i:接触面における; &ゾの組み合わせの総数 [数 10]
Total iニ :接触面に来た ί·の個数 である。 )
[0023] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記ドッキング状態探索ステップは、上記対象タンパク質と上 記結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状 態を探索する相対位置変化ステップ、をさらに含むことを特徴とする。
[0024] また、本発明はプログラムに関するものであり、本発明に力かるプログラムは、タン パク質の相互作用部位の予測を行う相互作用部位予測方法をコンピュータに実行さ
せるプログラムであって、複数のタンパク質 タンパク質複合体立体構造データに対 して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイン トから炭素の所定の半径とタンパク質の原子半径の和力も所定の範囲に表面の原子 が存在する座標である、表面グリッドを発生させる表面グリッド点発生ステップと、上 記表面グリッド発生ステップにて発生させた各表面グリッドつ 、て、他のチェーンの表 面原子半径に重なって 、る力否か判定し、接触部位グリッドを選択する接触部位ダリ ッド選択ステップと、アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされ た個数と、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされ た個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位 グリッドデータベース作成ステップと、相互作用部位予測の対象となる対象タンパク 質構造データに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発 生ステップと、上記対象タンパク質表面グリッド発生ステップにて発生させた上記対 象タンパク質の各表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照し て接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相 互作用部位を予測する相互作用部位予測ステップと、を含む相互作用部位予測方 法をコンピュータに実行させることを特徴とする。
また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記 相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコアを求め、 当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測すること ゝを特徴とする。
[数 11]
Sco, =
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C
;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
[0026] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記 相互作用部位予測ステップにて予測された上記相互作用部位に対応する上記表面 グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくるよ うなドッキング状態を探索するドッキング状態探索ステップ、をさらに含むことを特徴と する。
[0027] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ド ッキング状態探索ステップは、複数のタンパク質 タンパク質複合体立体構造データ 対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触して 、るアミノ酸 残基対について、相対配置座標データを求め、接触相対配置座標データベースを 作成する接触相対配置座標データベース作成ステップと、上記接触相対配置座標 データベース作成ステップにて作成された上記接触相対配置座標データベースに 登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布デ ータベースを作成する距離分布データベース作成ステップと、上記距離分布データ ベース作成ステップにて作成された上記距離分布データベースを用いて、ドッキング 状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定ス テツプと、をさらに含むことを特徴とする。
[0028] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ド ッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状態判定ス コアを求めることにより、ドッキング状態を探索すること、を特徴とする。
Counti d
Sum; ≥ 0.05のとき
,j
5顯 ゾ < 0.05のとき
SCO. , 二 0
'ゾ . . . (数式 2 )
(数式 2において、
[数 13]
Count ,?J <1:接触面における ζ· &ゾの組み合わせが距離^に現れた個数 [数 14]
Sum' , = Y Count :接触面における f &ゾの組み合わせの総数 [数 15]
Total 二 ":接触面に来たの個数 である。 )
[0029] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ド ッキング状態探索ステップは、上記対象タンパク質と上記結合タンパク質の相対位置 を変化させることにより、最適化された上記ドッキング状態を探索する相対位置変化 ステップ、をさらに含むことを特徴とする。
[0030] また、本発明は記録媒体に関するものであり、本発明に力かるコンピュータ読み取り 可能な記録媒体は、上記に記載のプログラムを記録したことを特徴とする。
発明の効果
[0031] 本発明によれば、以下のような効果を期待できる。
[0032] 本発明により、タンパク質-タンパク質、薬物相互作用部位が分力もないものに対し て、その部位の推定をより効率的かつ高速に行うことが可能である。また、その部分 を中心にドラッグデザインを行えば、何らかの効果を示す薬物の開発に効果を期待 できる。また、タンパク質機能解析においても、活性部位の推定などの効果を期待で きる。
[0033] また、本発明により、アミノ酸配列からコンピュータープログラムなどで予測されたタ ンパク質立体構造に対して、相互作用部位の推定をより効率的かつ高速に行うこと が可能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示 す薬物の開発に効果を期待できる。また、タンパク質機能解析において、活性部位 の推定などの効果を期待できる。
[0034] また、本発明により、タンパク質複合体の結合状態を正確に予測することで、正確 なタンパク質複合体の構築を行うことに効果を期待できる。また、様々なタンパク質複 合体に対するドラッグデザインや、機能解析などにおいて非常に重要な役割を果た す効果が期待できる。
[0035] また、本発明により、特にホモロジ一モデリングなどのタンパク質複合体の立体構造 予測の結果に対して、相対配置の最適化を行うことで、正確なタンパク質複合体構 造の構築を行うことに効果を期待できる。本発明により、立体構造が未知の様々なタ ンパク質複合体に対するドラッグデザインや、機能解析などにおいて、効率よく精度 良く解析を行うという効果が期待できる。
[0036] また、本発明により、タンパク質複合体のァライメントが多数存在する場合、効率よく 生物学的に重要かつ信頼性のあるァライメントを選び出すことが可能である。このよう に複数鎖のタンパク質立体構造解析を効率よく行う本発明は、タンパク質に作用する ドラッグデザイン、スクリーニングといった創薬の分野で、大規模なタンパク質複合体 のホモロジ一モデリングを効率よく高速に精度良く解析を行うという効果を期待できる
図面の簡単な説明
[図 1]図 1は、本発明における「接触」の定義を示す図である。
[図 2]図 2は、本発明における「表面グリッド点」の定義を示す図である。
[図 3]図 3は、本発明における「接触部位グリッド点」の定義を示す図である。
[図 4]図 4は、本発明でのアミノ酸側鎖の 3次元相対配置データベースのうち、 PHE—
PHEの 3次元相対配置のデータを視覚化したものを示す図である。
[図 5]図 5は、タンパク質 タンパク質相互作用データベースでのデータベース作成方 法の一例を示すフローチャートである。
[図 6]図 6は、相互作用部位予測方法の一例を示すフローチャートである。
[図 7]図 7は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッ キング)でのフローチャートである。
[図 8]図 8は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッ キング)での相対位置変化を示す図である。
[図 9]図 9は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッ キング)で使用されている、乱数を使用した相対位置探索の工程の一例を示すフロ 一チャートである。
[図 10]図 10は、本発明における水素結合の定義を示す図である。
[図 11]図 11は、複数鎖タンパク質のホモロジ一モデリングを行うに際して、データべ 一スとァライメントファイルを用いて、相互作用状態の予測工程の一例を示すフロー チャートである。
[図 12]図 12は、 ALAと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るデータベースの一例を示す図である。
[図 13]図 13は、図 12をグラフで示す図である。
[図 14]図 14は、 ALAと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 15]図 15は、 ARGと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 16]図 16は、 ASNと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 17]図 17は、 ASPと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 18]図 18は、 CYSと接触していたアミノ酸残基について、 C o;間距離における分 布を表して 、るグラフの一例を示す図である。
[図 19]図 19は、 GLNと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 20]図 20は、 GLUと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 21]図 21は、 GLYと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 22]図 22は、 HISと接触していたアミノ酸残基について、 C o;間距離における分布 を表して!/、るグラフの一例を示す図である。
[図 23]図 23は、 ILEと接触していたアミノ酸残基について、 Cひ間距離における分布 を表して!/、るグラフの一例を示す図である。
[図 24]図 24は、 LEUと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 25]図 25は、 LYSと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 26]図 26は、 METと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 27]図 27は、 ΡΗΕと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 28]図 28は、 PROと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 29]図 29は、 SERと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 30]図 30は、 THRと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 31]図 31は、 TRPと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 32]図 32は、 TYRと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 33]図 33は、 VALと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 34]図 34は、アミノ酸対の親和性マトリクスの一例を示す図である。
[図 35]図 35は、アミノ酸残基の種類、タンパク質表面に現れた個数、接触部位に現 れた個数データベースの一例を示す図である。
[図 36]図 36は、実施例 2での、「PDB ID : 1JK3、 Batimastat」の相互作用部位予 測の結果のグリッド点を 3次元で示す図である。
[図 37]図 37は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖を 3次元で示す図である。
[図 38]図 38は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖および I鎖を 3次元で示す図である。
[図 39]図 39は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖を、相互作用部位で拡大して 3次元で示す図で ある。
[図 40]図 40は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖および I鎖を、相互作用部位で拡大して 3次元で 示す図である。
[図 41]図 41は、実施例 2での、「PDB 10 : 1<3?1^」の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖を 3次元で示す図である。
[図 42]図 42は、実施例 2での、「PDB ID : 1<3?1^」の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖および B鎖を 3次元で示す図である。
[図 43]図 43は、実施例 2での、「PDB ID : 1<3?1^」の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖を、相互作用部位で拡大して 3次元で示す図で ある。
[図 44]図 44は、実施例 2での、「PDB ID: 1<3? の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖を、相互作用部位で拡大して 3次元で示す図で ある。
[図 45]図 45は、実施例 3での、 SARS proteaseのホモロジ一モデリングの結果のタ ンパク質立体構造モデルに対して、相互作用部位予測の結果のグリッド点を相互作 用部位で拡大して 3次元で示す図である。
[図 46]図 46は、実施例 3での、 SARS proteaseのホモロジ一モデリングの結果のタ ンパク質立体構造モデルに対して、相互作用部位予測の結果のグリッド点を、相互 作用部位で拡大して 3次元で示す図である。
[図 47]図 47は、実施例 4での、検証を行った PDB IDそれぞれに対する最もスコア がよ力つた候補構造と正解構造との RMSD、候補構造の内で最も RMSDが小さか つたものの RMSDとその順位を示す図である。
[図 48]図 48は、実施例 4のドッキングの結果の-一例を示す図である。
[図 49]図 49は、実施例 4のドッキングの結果の-一例を示す図である。
[図 50]図 50は、実施例 4のドッキングの結果の-一例を示す図である。
[図 51]図 51は、実施例 4のドッキングの結果の-一例を示す図である。
[図 52]図 52は、実施例 4のドッキングの結果の-一例を示す図である。
[図 53]図 53は、実施例 4のドッキングの結果の-一例を示す図である。
[図 54]図 54は、実施例 4のドッキングの結果の-一例を示す図である。
[図 55]図 55は、実施例 4のドッキングの結果の-一例を示す図である。
[図 56]図 56は、実施例 4のドッキングの結果の-一例を示す図である。
[図 57]図 57は、実施例 4のドッキングの結果の-一例を示す図である。
[図 58]図 58は、実施例 4のドッキングの結果の-一例を示す図である。
[図 59]図 59は、実施例 4のドッキングの結果の-一例を示す図である。
[図 60]図 60は、実施例 5「立体構造未知のタンパク質複合体のホモロジ一モデリング の結果を最適化(SARS protease ダイマー構造)」での、 SARS proteaseのホ モロジ一モデリングの結果の一例を示す図である。
[図 61]図 61は、実施例 5での、 SARS proteaseのホモロジ一モデリングの結果を最
適化したものの一例を示す図である。
[図 62]図 62は、 X線結晶構造解析による SARS proteaseの構造「PDB ID : 1Q2 W」とホモロジ一モデリングの結果の構造を A鎖で重ね合わせたものの一例を示す図 である。
[図 63]図 63は、 X線結晶構造解析による SARS proteaseの構造「PDB ID : 1Q2 W」とホモロジ一モデリングの結果の構造を最適化した構造を A鎖で重ね合わせたも のの一例を示す図である。
[図 64]図 64は、実施例 6での、 tissue plasminogen activatoのアミノ酸配列デー タを示す図である。
[図 65]図 65は、実施例 6での、参照タンパク質が 1BHTのァライメントファイルの一例 を示す図である。
[図 66]図 66は、実施例 6での、参照タンパク質が lORFのァライメントファイルの一例 を示す図である。
[図 67]図 67は、実施例 7での、論文記載の bZIPの実験データを、その相互作用の 強さに応じて色分けして示す図である。
[図 68]図 68は、実施例 7におけるァライメント評価のスコアについて、参照タンパク質 のスコアと目的タンパク質のスコアの比を0 /0で分けて、その数値の大きさに応じて色 分けして示す図である。
[図 69]図 69は、実施例 7におけるある実験値が得られている配列の組み合わせにつ いて、その実験値が得られた配列の組み合わせのうち、何%がどのような予測値をと つたかをグラフで示す図である。
[図 70]図 70は、実施例 7において、様々な閾値における「Z> 2. 5」で相互作用あり、 「Z< 1. 0」で相互作用なしという実験結果、という違いを正しく予測できるかの検証 結果を示す図である。
[図 71]図 71は、本発明の基本原理に関する概念図である。
[図 72]図 72は、本発明が適用される本システムの構成の一例を示すブロック図であ る。
[図 73]図 73は、本発明が適用される本システムのドッキング状態探索部 102fの構成
の一例を示すブロック図である。
[図 74]図 74は、実施例 8におけるドッキング結果の一例を示す図である ( 符号の説明
100 相互作用部位予測装置
102 制御部
102a 表面グリッド点発生部
102b 接触部位グリッド選択部
102c 接触部位グリッドデータベース作成部
102d 対象タンパク質表面グリッド発生部
102e 相互作用部位予測部
102f ドッキング状態探索部
102fl 接触相対配置座標データベース作成部 102f2 距離分布データベース作成部
102f3 ドッキングスコア半 lj定咅
102f4 相対位置変化部
104 通信制御インターフェース部
106 記憶部
106a 表面グリッド点ファイル
106b 接触部位グリッドデータベース
106c 対象タンパク質表面グリッドファイル 106d 相互作用部位予測結果ファイル
106e ドッキング状態探索結果ファイル
106f 接触相対配置座標データベース
106g 距離分布データベース
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
発明を実施するための最良の形態
[0039] 以下に、本発明にかかる相互作用部位予測装置、相互作用部位予測方法、プログ ラム、および記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この 実施の形態により本発明が限定されるものではない。
[0040] 本明細書において使用される用語は、特に明記しない限り次の意味を有する。
「接触」とは、異なるタンパク同士において、それぞれの側鎖の原子間距離力も原 子半径を引 ヽた距離が 1 A以下の場合、接触して ヽる状態を意味する(図 1参照)。
「表面グリッド」とは、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、その それぞれポイントから炭素の所定の原子半径 (例えば 1. 7A)とタンパク質の原子半 径の和から所定の範囲(例えば + 1 Aの範囲)に表面の原子が存在する座標を意味 する(図 2参照)。
「接触部位グリッド」とは、表面グリッドの中で、他の chainの表面原子半径 (例えば 半径 1. 7A)と、表面グリッドの仮想炭素の原子半径 (例えば 1. 7A)が重なっている ものを意味する(図 3参照)。
「座標」とは、三次元空間上での立体構造を記述するものである。それは空間上の ある点を原点とする互いに垂直な 3方向の相対的な距離であり、 3つの数値力 なる ベクトノレ量である。
「目的タンパク質 (ターゲット)」とは、その立体構造の詳細が X線結晶解析や NMR 解析等により完全な立体構造が決定されておらず、ホモロジ一モデリングなどの手法 により立体構造構築の対象となる任意のタンパク質を意味する。このタンパク質には 、部分構造は解析されているが完全な立体構造が得られていないものや、単数鎖の 立体構造は得られて!/、るが、複数鎖の立体構造は得られて!/、な!、ものも含まれる。 本発明において、 X線結晶解析には、 X線のみならず電子線および中性子解析等も 含まれる。
「参照タンパク質 (リファレンス)」とは、その立体構造の詳細が X線結晶解析や NM R解析等により既に決定されており、目的タンパク質の立体構造を規定する原子座標 を構築するために参照するタンパク質を意味する。
「ァライメント」とは、 2種類以上のタンパク質についてアミノ酸配列の対応関係をつ けることを意味する。
[0041] [本発明の基本原理]
ここでは、本発明の基本原理について、図 71を参照して説明する。図 71は、本発 明の基本原理を示す概念図である。
[0042] まず、本発明は、複数のタンパク質 タンパク質複合体立体構造データに対して、 タンパク座標表面の Xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから 炭素の所定の半径とタンパク質の原子半径の和力 所定の範囲に表面の原子が存 在する座標である、表面グリッドを発生させる (ステップ S— 1)。
[0043] そして、ステップ S—1にお!/、て発生させた各表面グリッドつ 、て、他のチェーンの表 面原子半径に重なっている力否か判定し、接触部位グリッドを選択する (ステップ S—
2)。
[0044] そして、アミノ酸残基のパターン毎に、表面グリッドとしてカウントされた個数と、ステ ップ S— 2により接触グリッドとしてカウントされた個数とを対応付けて格納した接触部 位グリッドデータベースを作成する(ステップ S— 3)。
[0045] そして、相互作用部位予測の対象となる対象タンパク質構造データに対して、表面グ リツドを発生させる (ステップ S-4)。
[0046] そして、ステップ S-4にて発生させた対象タンパク質の各表面グリッドにつ 、て、接 触部位グリッドデータベースを参照して接触判定スコアを求め、接触判定スコアに基 づ 、て対象タンパク質の相互作用部位を予測する (ステップ S— 5)。
[0047] ここで、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコア に基づ!/、て、上記対象タンパク質の相互作用部位を予測してもよ!/、。
[数 16]
、 L^onk
ん =0
∑{Ck -Conk
(数式 1
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
[0048] そして、ステップ S— 5にて予測された相互作用部位に対応する表面グリッドに対し て、対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態 を探索する (ステップ S— 6)。
[0049] ここで、ドッキング状態を探索は、以下の 1)接触相対配置座標データベースと、 2) 距離分布データベースを予め作成しておき、当該距離分布データベースを用いてス コアを算出することにより行ってもよい。
1)接触相対配置座標データベース
複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパ ク質複合体の異なるチェーン間で接触して 、るアミノ酸残基対にっ 、て、相対配置 座標データを求め、接触相対配置座標データベースを作成する。
2)距離分布データベース
接触相対配置座標データベースに登録された各相対配置座標データの任意の原 子間の距離分布を求め、距離分布データベースを作成する。
[0050] そして、距離分布データベースを用いて、以下の数式 2に基づ!/、て、上記ドッキン グ状態判定スコアを求めることにより、ドッキング状態を探索してもよい。
[数 17]
Count }
Sum; ≥ 0.05のとき
Sum: < 0.05のとき
SCO. . 二 0
l,J . . . (数式 2 )
(数式 2において、
[数 18]
Count t 接触面における ゾの組み合わせが距離^こ現れた個数 [数 19]
Sum,
:
:接触面における ί &ゾ'の組み合わせの総数 [数 20]
Total, 二
[0051] また、ドッキング状態の探索は、対象タンパク質と結合タンパク質の相対位置を変化 させることにより、より最適化されたドッキング状態を探索することができる。
[0052] [システム構成]
ここでは、本発明が適用される本システムの構成について、図 72を参照して詳細に 説明する。図 72は、本発明が適用される本システムの構成の一例を示すブロック図 であり、該構成のうち本発明に関係する部分のみを概念的に示している。
[0053] 図 72に示すように、本システムは、概略的に、タンパク質の相互作用部位の予測を 行う相互作用部位予測装置 100と、外部データベースや各種の外部プログラムなど を提供する外部システム 200とを、ネットワーク 300を介して通信可能に接続して構 成されている。
[0054] ネットワーク 300は、相互作用部位予測装置 100と外部システム 200とを相互に接 続する機能を有し、例えばインターネットや LANなどである。
[0055] 外部システム 200は、ネットワーク 300を介して、相互作用部位予測装置 100と相 互に接続され、利用者に対してタンパク質立体構造データなどに関する外部データ ベースや各種の外部プログラムを実行するウェブサイトを提供する機能を有する。こ こで、外部システム 200は、 WEBサーバや ASPサーバ等として構成してもよぐその ハードウェア構成は、一般に巿販されるワークステーション、パーソナルコンピュータ 等の情報処理装置およびその付属装置により構成してもよい。また、外部システム 20 0の各機能は、外部システム 200のハードウェア構成中の CPU、ディスク装置、メモリ 装置、入力装置、出力装置、通信制御装置等、およびそれらを制御するプログラム 等により実現される。
[0056] 相互作用部位予測装置 100は、概略的に、相互作用部位予測装置 100の全体を 統括的に制御する CPU等の制御部 102と、通信回線等に接続されるルータ等の通 信装置(図示せず)に接続される通信制御インターフェース部 104と、各種のデータ ベースやファイルなどを格納する記憶部 106と、入力装置 112や出力装置 114に接 続される入出力制御インターフェース部 108と、を備えて構成されており、これら各部 は任意の通信路を介して通信可能に接続されている。さらに、相互作用部位予測装 置 100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介 して、ネットワーク 300に通信可能に接続されている。
[0057] 記憶部 106に格納される各種のデータベースやテーブルやファイル(表面グリッド 点ファイル 106a—距離分布データベース 106g)は、固定ディスク装置等のストレー ジ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータべ ースゃウェブページ用ファイルなどを格納する。
[0058] これら記憶部 106の各構成要素のうち、表面グリッド点ファイル 106aは、後述する
表面グリッド点発生部 102aにより発生された表面グリッド点を格納する表面グリッド点 格納手段である。接触部位グリッドデータベース 106bは、後述する接触部位グリッド データベース作成部 102cにより作成された接触部位グリッドデータベースを格納す る接触部位グリッドデータベース格納手段である。対象タンパク質表面グリッドフアイ ル 106cは、後述する対象タンパク質表面グリッド発生部 102dにより発生された対象 タンパク質の表面グリッドを格納する対象タンパク質表面グリッド格納手段である。相 互作用部位予測結果ファイル 106dは、後述する相互作用部位予測部 102eにより 予測された相互作用部位の予測結果を格納する相互作用部位予測結果格納手段 である。ドッキング状態探索結果ファイル 106eは、後述するドッキング状態探索部 10 2fにより探索されたドッキング状態の結果を格納するドッキング状態探索結果格納手 段である。接触相対配置座標データベース 106fは、後述する接触相対配置座標デ ータベース作成部 102flにより作成された接触相対配置座標データベースを格納す る接触相対配置座標データベース格納手段である。距離分布データベース 106gは 、後述する距離分布データベース作成部 102f2により作成された距離分布データべ ースを格納する距離分布データベース格納手段である。
[0059] 通信制御インターフェース部 104は、相互作用部位予測装置 100とネットワーク 30 0 (またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御 インターフェース部 104は、他の端末と通信回線を介してデータを通信する機能を有 する。
[0060] 入出力制御インターフェース部 108は、入力装置 112や出力装置 114の制御を行 う。ここで、出力装置 114としては、モニタ (家庭用テレビを含む)の他、スピーカ等を 用いることができる(なお、以下においては出力装置 114をモニタとして記載する場 合がある。 ) oまた、入力装置 112としては、キーボードやマウス、マイクなどを用いる ことができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現す る。
[0061] 制御部 102は、 OS (Operating System)等の制御プログラム、および所要デー タを格納するための内部メモリを有し、これらのプログラム等により種々の処理を実行 するための情報処理を行う。制御部 102は、機能概念的に、表面グリッド点発生部 1
02aと、接触部位グリッド選択部 102bと、接触部位グリッドデータベース作成部 102c と、対象タンパク質表面グリッド発生部 102dと、相互作用部位予測部 102eと、ドツキ ング状態探索部 102fと、を含んで構成されている。
[0062] これら制御部 102の各構成要素のうち、表面グリッド点発生部 102aは、複数のタン パク質 タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質 の原子半径の和から所定の範囲に表面の原子が存在する座標である、表面グリッド を発生させる表面グリッド点発生手段である。接触部位グリッド選択部 102bは、表面 グリッド発生部 102aにて発生させた各表面グリッドついて、他のチェーンの表面原子 半径に重なって ヽるカゝ否か判定し、接触部位グリッドを選択する接触部位グリッド選 択手段である。
[0063] 接触部位グリッドデータベース作成部 102cは、アミノ酸残基のパターン毎に、表面 グリッドとしてカウントされた個数と、接触部位グリッド選択部 102bにて接触グリッドと してカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成 する接触部位グリッドデータベース作成手段である。対象タンパク質表面グリッド発生 部 102dは、相互作用部位予測の対象となる対象タンパク質構造データに対して、表 面グリッドを発生させる対象タンパク質表面グリッド発生手段である。相互作用部位予 測部 102eは、対象タンパク質表面グリッド発生部 102dにて発生させた対象タンパク 質の各表面グリッドにつ 、て、接触部位グリッドデータベースを参照して接触判定ス コアを求め、当該接触判定スコアに基づいて対象タンパク質の相互作用部位を予測 する相互作用部位予測手段である。
[0064] ドッキング状態探索部 102fは、相互作用部位予測部 102eにて予測された相互作 用部位に対応する表面グリッドに対して、対象タンパク質と結合する結合タンパク質 の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段である。こ こで、ドッキング状態探索部 102fは、図 73に示すように、接触相対配置座標データ ベース作成部 102flと、距離分布データベース作成部 102f 2と、ドッキングスコア判 定部 102f3と、相対位置変化部 102f4と、をさらに含んで構成されている。接触相対 配置座標データベース作成部 102flは、複数のタンパク質-タンパク質複合体立体
構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触して いるアミノ酸残基対について、相対配置座標データを求め、接触相対配置座標デー タベースを作成する接触相対配置座標データベース作成手段である。距離分布デ ータベース作成部 102f2は、接触相対配置座標データベース作成部 102flにて作 成された接触相対配置座標データベースに登録された各相対配置座標データの任 意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データ ベース作成手段である。ドッキングスコア判定部 102f3は、距離分布データベース作 成部 102f2にて作成された距離分布データベースを用いて、ドッキング状態判定ス コアを求めることにより、ドッキング状態を探索するドッキングスコア判定手段である。 相対位置変化部 102f4は、対象タンパク質と結合タンパク質の相対位置を変化させ ることにより、最適化されたドッキング状態を探索する相対位置変化手段である。
[0065] なお、これら各部によって行われる処理の詳細については、後述する。
[0066] [システムの処理]
ここでは、上述のように構成された本実施の形態における本システムの処理の一例 について、図を参照して詳細に説明する。
[0067] I.タンパク質 タンパク質相互作用データベース
相互作用部位予測装置 100を用いて、制御部 102の処理により、タンパク質-タン パク質複合体立体構造が既知のタンパク質相互作用状態についてデータベースィ匕 を全自動で行い、 3種類のデータベース (接触部位グリッドデータベース、距離分布 データベースおよび接触相対配置座標データベース)を作成する。ここで、本実施形 態では、タンパク質 タンパク質複合体立体構造として、 PQS (Protein Quaternar y Structure file server : http : / / pqs. ebi. ac. uk/ HenricK K, Thor nton JM. Related Articles, Links PQS : a protein quaternary stru cture file server. Trends Biochem Sci. 1998 Sep ; 23 (9): 358—61 . )データベースを使用する力 任意のタンパク質 タンパク質複合体立体構造デー タベース PDB (Protein Data Bank: Protein Data Bank http: / / www. r csb. orgZpdbZ)や、自分で作成した特定のタンパク質ファミリーの構造を集めた 構造データベースなどを使用してもよい。以下、それぞれのデータベース作成手順
を説明する。
[0068] 1-1.接触相対配置座標データベース (アミノ酸残基対の種類と、 3次元相対位置の データベース)(図 5に示す符号 (2)参照)
ドッキング状態探索部 102fは、接触相対配置座標データベース作成部 102flの 処理により、入力したタンパク質 タンパク質複合体立体構造データに対して、「接触 」の定義に当てはまる、異なるチェーン間の接触しているアミノ酸残基対について、相 対配置座標を求める。換言すると、基準となるアミノ酸側鎖に対して、 xyz座標系で、 接触している側鎖が相対的にどの位置にあるのかをデータ化する。
[0069] なお、アミノ酸側鎖はどれも同じ構造を持っているわけではないので、具体的には、 アミノ酸側鎖の原子のうち構造や物性や機能において重要な 3原子を選定し、選定 した 3原子で構成される平面を基準にして xyz座標系を定める。ここで、選定する 3原 子は任意であるため、側鎖に限った接触相対配置座標データベースではなぐタン パク質主鎖にぉ 、ての接触相対配置座標データベースを作成してもよ ヽ。図 4は、 接触相対配置座標データベース(3次元相対位置のデータベース)のデータを視覚 化したものである。なお、図 4では PHE— PHEの相対配置を表している。
以上の処理を PQSデータベースの 11785個のモデルにつ!、て行!、、接触相対配 置座標データベースを作成する。
[0070] 1-2.距離分布データベース (アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原 子など)の距離分布データベース)(図 5に示す符号 (3)参照)
ドッキング状態探索部 102fは、距離分布データベース作成部 102f 2の処理により 、作成された接触相対配置座標データベースのデータから任意の原子間につ 、て の距離分布を求め、距離分布データベースを作成する。なお、距離分布データべ一 ス (特定原子間距離データベース)は、 C a -C a間の距離の分布を表しており、アミ ノ酸対の種類と、 C a -C a間の距離のカテゴリのどの部分に多く存在しているかを示 している。また、距離カテゴリは 1A間隔である。ここで、任意の原子間についての距 離を求めるので、 C jS -C jS間、 C a— C γ間、 Ν— Ν間等での距離分布データベース を作成してもよい。
[0071] 1-3.接触部位グリッドデータベース (アミノ酸残基の種類、タンパク質表面に現れた
個数、接触部位に現れた個数データベース)(図 5に示す符号(1)参照)
相互作用部位予測装置 100は、表面グリッド点発生部 102aの処理により、複数鎖 タンパク質立体構造にっ 、て、それぞれのタンパク分子に対して表面グリッドをタン パク質 -タンパク質複合体立体構造データに対して発生させる。つぎに、相互作用部 位予測装置 100は、接触部位グリッド選択部 102bや接触部位グリッドデータベース 作成部 102cの処理により、接触している残基ごとに表面グリッドの個数を数える。な お、複数の残基に同時に接触している表面グリッドについても、その種類ごとに個数 を数える。ただし、例えば、 CYS、 ALA、 GLYに接触している表面グリッド、および A LA、 CYS、 GLYに接触している表面グリッドについては、同一のパターンのカテゴリ として個数を数える。また、例えば、 LYSと LYSの 2残基に同時に接触している表面 グリッドについては、「LYS 'LYS」のパターンのカテゴリとして個数を数えることで、接 触している個数も考慮する。さらに、その表面グリッドが接触部位に現れていた場合 は、そのパターンの接触部位についても加算する。
II.上述したデータベースを用いて、任意のタンパク質の相互作用部位を予測する方 法 (図 6参照)
相互作用部位予測装置 100は、制御部 102の処理により、作成された接触部位グ リツドデータベースを用いて接触部位予測を行う。具体的には、まず、相互作用部位 予測装置 100は、対象タンパク質表面グリッド点発生部 102cの処理により、入力され たタンパク質立体構造データに対して表面グリッドを発生させる(図 6に示す符号(1) 参照)。つぎに、相互作用部位予測装置 100は、相互作用部位予測部 102eの処理 により、表面グリッドそれぞれについての接触しているアミノ酸残基のデータから、そ の表面グリッドそれぞれにつ 、て、接触部位グリッドデータベースを参照して検索を 行う(図 6に示す符号 (2)参照)。つぎに、相互作用部位予測装置 100は、相互作用 部位予測部 102eの処理により、この検索によって得られたデータ力も数式 1に従つ てスコアを計算し、計算されたスコアに基づいて相互作用部位を予測する(図 6に示 す符号 (3)参照)。なお、計算されたスコアはその表面グリッドから接触部位への来易 さを数値で表して 、るので、スコアが高 、表面グリッドが集まって 、る部分を接触部 位として予測してもよい。
[数 21]
(数式 l )
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数である。 Conは、接触部位でのパターン iの力 ゥント数であり、その差である(C; Con)の数値は、非接触部位でのカウント数である o )
[0073] そして、相互作用部位予測装置 100は、制御部 102の処理により、出力情報として 、各表面グリッドの座標とスコアを PDBファイル形式で出力する(図 6に示す符号(3) 参照)。なお、予め設定した閾値以上のデータの座標とスコアを PDB形式で出力して ちょい。
[0074] III.上述した IIの処理を行い、立体構造未知のタンパク質の相互作用部位を予測す る方法
まず、立体構造未知のタンパク質のアミノ酸配列に対して、ホモロジ一モデリングな どを行い、その立体構造を予測する。つぎに、ホモロジ一モデリングなどで予測され た立体構造に対して、上述した Πと同様の処理を行い、相互作用部位を予測する。
[0075] IV.結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッキング) 図 7は、結合状態未知である複数鎖タンパク質の結合状態を探索する工程の一例 を示すフローチャートである。
[0076] まず、相互作用部位予測装置 100は、制御部 102の処理により、上述した IIの処理 を行うことにより、入力したタンパク質立体構造データカゝら接触部位予測を行う(図 6 に示す符号(2)やステップ SA— 1、ステップ SA— 2参照)。
[0077] つぎに、相互作用部位予測装置 100は、ドッキング状態探索部 102fの処理により 、ステップ SA— 2にて予測されたグリッドデータについて、接触傾向が高いと予測され た表面グリッドが、接触部位にくるようなドッキング状態を探索する (ステップ SA— 3)。 ここで、すべての相対配置を検索する全検索法は膨大な時間が力かるため、乱数を 使用して検索を行う方法を使用してもよい(図 9参照)。また、相対位置変化部 102f4 で行われる相対位置の変化の方法は、具体的には、例えば、自由度 5の角度変化( xyz軸回転方向と、一方のタンパク分子の重心を原点とした相対位置関係 xy軸方向 )および距離である。図 8は、 2分子のタンパク質分子構造のうち一方を受容体タンパ クとしもう一方をリガンドタンパクとした場合に、受容体タンパクの重心からリガンドタン パクの重心を見る位置での、リガンドタンパク質の相対位置変化を示している。なお、 図 8において、リガンドタンパクの重心と受容体タンパクの重心とを結んだ直線力 軸 方向となる。
[0078] ここで、ステップ S A— 3にお 、て、乱数を使用して相対位置を決定し、ドッキング状 態を探索する工程について、図 9を参照して説明する。図 9は、乱数を使用して相対 位置を決定し探索する工程の一例をフローチャートにしたものである。
[0079] まず、ドッキング状態探索部 102fは、乱数を発生させてスタート地点を決め、同時 に、スタート地点のスコアを求める(ステップ SB— 1)。なお、当該スコアは、表面グリツ ドのうち接触部位に存在しているものを対象とする数式 1のスコアの総和である。ここ で、スタート地点はあらゆる場所に決定することが可能である力 およその接触部位 が判明している場合には、範囲を指定してもよい。これにより、計算時間の短縮と精 度の向上を図ることができる。
[0080] つぎに、ドッキング状態探索部 102fは、相対位置変化部 102f4の処理により、スタ ート地点から、 5つの自由度を持つ角度について、それぞれ士 N度の範囲内で乱数 を発生させて相対位置を決定する (ステップ SB-2)。
[0081] つぎに、ドッキング状態探索部 102fは、ドッキングスコア判定部 102f3の処理により 、その状態のスコアを計算し (ステップ SB— 3)、計算したスコアが移動前のスコアより 改善された力どうかを調べる (ステップ SB-4)。
[0082] ここで、スコアが改善された場合 (ステップ SB— 4: Yes)、その場所を新たなスタート
地点として (ステップ SD— 5)、その場所から士 N度の範囲内で再び乱数を発生させ て相対位置を再び決定し (ステップ SB— 2)、スコアの改善が見られるかを再び探索 する(ステップ SB-3およびステップ SB-4)。スコアが改善されて!、な!/、場合 (ステツ プ SB— 4 : No)、内部変数 mをインクリメントし (ステップ SB— 6)、インクリメントして mが 指定した回数 M以下であるか否かを判定し (ステップ SB— 7)、 m以下である場合 (ス テツプ SB—7 :Yes)にはステップ SB— 2に戻り、 m以下でない場合 (ステップ SB—7 :N o)にはステップ SB— 8へ進む。つまり、指定した回数 Mに達するまで、乱数を発生さ せてはスコアが改善されたかを繰り返し調べる。
[0083] つぎに、ドッキング状態探索部 102fは、改善が見られない回数 mが M回以上にな つた場合 (ステップ SB— 7 : No)、乱数の幅 Nが 1より大きければ (ステップ SB—8 :Yes )、乱数の幅 Nの値を 1減らし (ステップ SB— 9)、さらに mを 0に初期化して (ステップ S B— 10)、再びステップ SB— 2に戻る。そして、乱数の幅 Nが 1以下になるまで上述し た処理を繰り返し、ローカルミニマムに達するまで行う。
[0084] つぎに、ドッキング状態探索部 102fは、乱数の幅 Nが 1以下の場合 (ステップ SB— 8 : No)、ローカルミニマムに達したと見なして、その相対位置情報とスコアをリストに 加える(ステップ SB-11)。
[0085] つぎに、ドッキング状態探索部 102fは、リスト内の候補構造の個数が指定個数 p未 満であるか否かを判定し、 p未満であれば (ステップ SB— 12 : Yes)、ステップ SB— 1に 戻り、上述した処理を繰り返す。また、指定個数 pに達すれば (ステップ SB— 12 : No) 、処理を終了する。これにて、ドッキング状態を探索する方法について説明を終了す る。
[0086] 再び図 7に戻り、相互作用部位予測装置 100は、制御部 102の処理により、上記の 処理により候補構造のリストを作成した後、すべての候補構造に対して、クラスタリン グを行う(ステップ SA— 4)。なお、具体的には、例えば、クラスタリングされたクラスタ 一内でスコアが最も良いものを候補構造とする。
[0087] つぎに、ドッキング状態探索部 102fは、ドッキングスコア判定部 102f3の処理により 、距離分布データベースを使用した構造の評価と、主鎖水素結合の個数を判定する (ステップ SA— 5)。ここで、距離分布データベース(populationデータベース)を使
用したスコアの計算は、数式 2に基づいて行ってもよい,
[数 22]
C ountノ-"
Sum, ≥ 0.05のとさ
-く 0.05のとき
SCOl , 二 0
•J . . . (数式 2 )
(数式 2において、
[数 23]
Count ! :接舢 における ゾの組み合わせが距離 Jに現れた個数 [数 24]
Sumi t = Y Count i j d:接触面における ι· &ゾの組み合わせの総数 [数 25]
Total, 二 " /:接触面に来た1'の個数 である。 )
ここで、ステップ SA— 5におレ、て、水素結合の判定は、厳密な水素結合判定ではな ぐ水素結合になりうる可能性があるものまで考慮する目的から、厳密な水素結合の 定義とは異なるものを水素結合としてもよい。また、 PDB形式のファイルにおいて、 N についた Hがない場合がほとんどであるため、水素はプログラムにより擬似的なもの
を計算して付加してもよい。なお、本実施形態において、水素結合の定義は「z CO
N> 90° かつ ZCOH> 90° かつ O N間距離く 3. 9 A」とする(図 10参照)。
[0089] また、水素結合個数、距離分布データベース(populationデータベース)によるス コア、接触部位予測グリッドによるスコアの 3つを合計して下記のトータルスコア(total score)としてもよい。ここで、本実施形態において、下記のトータルスコアにおいて、 係数 aを 1000、 bを 10000と設定する。ただし、この係数は任意であり、条件によって 変更する。
[数 26] totalscore =—接触部位予測 grid score + a x population score - b x水秦ォ 合個银
[0090] つぎに、相互作用部位予測装置 100は、制御部 102の処理により、トータルスコア 順に、候補構造を並べ替えて、候補構造のランキングとして出力をする (ステップ S A 6)。
[0091] V.立体構造未知の複数鎖タンパク質の結合状態を探索する方法
まず、相互作用部位予測装置 100は、立体構造未知のタ複数鎖タンパク質のァミノ 酸配列に対して、ホモロジ一モデリングなどを行い、その立体構造を予測する。次に 、相互作用部位予測装置 100は、ホモロジ一モデリングなどで予測された複数鎖タン ノ^質の立体構造に対して、上述した IVと同様の処理を行い、相対配置の最適化を 行う。
[0092] VI.複数鎖タンパク質のホモロジ一モデリングを行うに際して、上述した IIにおけるデ ータベースとァライメントファイルを用いて、相互作用状態の予測を行う方法
図 11は、複数鎖タンパク質のホモロジ一モデリングを行うに際して、上述した IIにお けるデータベースとァライメントファイルを用いて、相互作用状態の予測を行う工程の 一例を示すフローチャートである。
[0093] まず、入力したァライメントファイルに記述されている参照タンパク質の PDB IDの 立体構造データ(PDB形式ファイル)を取得し、その構造データから異なるチェーン 間で接触して 、るアミノ酸残基を判定する (ステップ SC-1)。
[0094] つ!、で、ァライメントファイル内の参照タンパク質のアミノ酸配列データにっ 、て、接
触して!/ヽるアミノ酸残基対の対応関係を定める (ステップ SC— 2)。
[0095] っ 、で、ステップ SC— 2にて得られた対応関係を、ァライメントファイル内の目的タン パク質のアミノ酸配列データにつ!ヽて、接触して!/ヽるアミノ酸残基対の対応関係を定 める (ステップ SC-3)。つまり、参照タンパク質で接触しているアミノ酸残基の情報か ら、その同じ位置にァライメントされたアミノ酸残基も同様に接触しているものとしてい る。これにより、 目的タンパク質の立体構造の情報が無い場合でも、アミノ酸残基の接 触の推定を迅速に行うことができる。
[0096] つ!、で、ステップ SC— 2およびステップ SC— 3にて得られた目的タンパク質および参 照タンパク質の両方について、アミノ酸残基対の接触の情報をアミノ酸残基対の親和 性について記述されたスコアマトリックスに照合させて、その和をスコアとする (ステツ プ SC— 4)。ここで、このスコアの関数は数式 4の通りである。なお、数式 4のスコアは 一つのアミノ酸対のスコアにっ 、てであり、実際に接触して 、る個数分のこのスコア の和が、そのアミノ酸配列のスコアである。
[数 27]
SCO I., J =
[数 28]
Counte d:接触面における ゾの組み合わせが距離 に現れた個数
[数 29]
Sum, , ^ ^ Count^ ,:接触面における ζ· &ゾの組み合わせの総数 [数 30]
Total Sum :接触面に来た の個数
[0097] っ 、で、参照タンパク質(リファレンス)と、 目的タンパク質 (ターゲット)のアミノ酸配 列(シーケンス)それぞれにつ 、てスコアが計算され、それを比較する (ステップ SC- 5)。これにより、 目的タンパク質のアミノ酸配列の評価をすることができる。ここで、参 照タンパク質が、実験的に結合していると分力つているタンパク質の立体構造情報な らば、参照タンパク質のスコアに近ければ近いほど(「目的タンパク質複合体のスコア Z参照タンパク質複合体のスコア」の数値が高 ヽほど)、 目的タンパク質のァライメン トが、結合しやす 、正 ヽァライメントになって!/ヽると評価することができる。
[0098] 以上、本実施形態によれば、タンパク質-タンパク質相互作用を解析する。具体的 には以下の(1)一 (6)の方法を実行する。
(1)複数鎖タンパク質の立体構造データから、タンパク質相互作用状態をデータべ ース化する。
(2) (1)のデータベースを用いて、任意のタンパク質-タンパク質間及び、タンパク質 -低分子化合物間の相互作用部位を予測する。
(3)立体構造未知のタンパク質立体構造に対して、ホモロジ一モデリングを行った結 果、出力されたタンパク質立体構造に対して、(1)のデータベースを用いて、その相 互作用部位を予測する。
(4)結合状態未知である複数鎖タンパク質の各々のタンパク質分子間の結合状態を 探索する。
(5)立体構造未知のタンパク質複合体(目的タンパク質複合体)に対して、立体構造 既知のタンパク質複合体 (参照タンパク質複合体)の情報を使用し、ホモロジーモデ リングを行った結果、出力されたタンパク質複合体立体構造に対して、その結合状態 を (4)と同様の方法で最適化する。
(6)複数鎖タンパク質のホモロジ一モデリングを行うに際して、(1)で記述されたデー タベースを利用して得られた (4)で利用した相互作用の式と、ァライメントファイルを 用いて、相互作用状態の予測を行う。
[0099] また、本実施形態によれば、タンパク質 タンパク質複合体立体構造が既知のタン ノ ク質相互作用状態についてデータベース化を全自動で行う。具体的には、以下の (1)一(3)の処理を行う。
( 1)大量の複数鎖タンパク質の立体構造座標ファイルを準備する。
(2)それぞれの複数鎖タンパク質立体構造座標ファイルにつ 、て、以下の(ァ)一 (ィ )の処理を行う。
(ァ)異なる鎖間での接触状態を、それぞれのアミノ酸残基に注目し、距離、相対座 標のデータを得る。
(ィ)複数鎖タンパク質の表面に仮想原子 (例えば炭素等)のグリッド点を発生させ て、その仮想原子が接触したアミノ酸残基の種類ごとに、その接触個数を得る。さら に複数鎖タンパク質の接触部位にある仮想原子のグリッド点のデータを得る。
(3)得られた大量のデータを、アミノ酸の種類ごとに分けてデータベース化する。デ ータの内容は、以下の(ァ)一(ゥ)の 3種類である。
(ァ)アミノ酸残基対の種類と、三次元相対位置のデータ。
(ィ)アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など)の距離分布。
(ゥ)アミノ酸残基の種類と、タンパク質表面に現れた個数。接触部位に現れた個数 また、本実施形態によれば、タンパク質 タンパク質複合体立体構造が未知である タンパク質の相互作用部位の予測を、全自動で行う。具体的には、以下の(1)一(4) の処理を全自動で行う。
( 1)タンパク質表面に仮想原子のグリッド点を発生させる。
(2)アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数を データとして含むデータベースから、グリッド点の状態 (接触パターン)に適合するデ ータを検索する。
(3)データ検索の結果得られた数値から下記数式のスコア Scoを計算する。
[数 31]
、
Sco- : log
[数 32] 接触部位におけるパタ—ン ^が現れた割合
/T¾ Μ^ 非接触部位におけるパターンが現れた割合
スコアが良い場合、 正の値をとる。 この数式のスコア Scoにおいて、注目する接触パターンを iとする。 Cは、パターン i に対するデータベース内での表面グリッド数である。。。 は、接触部位でのパターン iのカウント数であり、その差である(C -Con )の数値は、非接触部位でのカウント数 である。
(4) 3次元座標にグリッド点の座標と、接触部位予測値 (Sco )を記載する。なお、予 測値が高 、ほど接触部位である可能性が高 、グリッド点である。
また、本実施形態によれば、立体構造が未知であるタンパク質の相互作用部位の 予測を、そのタンパク質の立体構造予測を行った後に、全自動で行う。具体的には、 以下の(1)一 (5)の処理を全自動で行う。
(1)立体構造未知のタンパク質のアミノ酸配列から、コンピュータープログラムなどを 用いて立体構造を予測し、立体構造を得る。
(2) (1)で得られたタンパク質立体構造の表面に仮想原子のグリッド点を発生させる
(3)アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数を データとして含むデータベースから、グリッド点の状態 (接触パターン)に適合するデ
ータを検索する。
(4)データ検索の結果得られた数値から下記数式のスコア SCOiを計算する c
[数 33]
( f ヽ
Con!
n
∑Conk
人- =o
^co, 二 log
Cj一こ, (9/7,
∑{Ck -Conk )
人. =0
[数 34] 接触部位におけるパターン ίが現れた割合 对¾の対象は I
'、非接触部位におけるパターン! 'が現れた割合 . スコアが良い場合、 正の値をとる。 この数式のスコア Scoにおいて、注目する接触パターンを iとする。 Cは、パターン i に対するデータベース内での表面グリッド数である。 Conは、接触部位でのパターン iのカウト数であり、その差である(C -Con)の数値は、非接触部位でのカウント数で める。
(5) 3次元座標にグリッド点の座標と、接触部位予測値 (Sco)を記載する。なお、予 測値が高 、ほど接触部位である可能性が高 、グリッド点である。
また、本実施形態によれば、タンパク質 タンパク質複合体立体構造の結合状態未 知である複数鎖タンパク質の結合状態を探索する方法に使用したスコア関数におい て、以下に示す数式に従って、アミノ酸残基対の種類と、任意の原子間(例えば C a など)の距離分布のデータベースを使用する。
[数 35]
County.,,:接触 Eにおける i &ゾの組み合わせが距離 に現れた個数
[数 36]
Sum, . = Count; :接触面における &ゾの組み合わせの総数
[数 37]
Total, 匪,, :接触面に来たの個数
[数 38]
Count ι . ι, d
Sum; ≥ 0.05のと き
ゾ
County d
Sum; '· く 0.05のと き
SCO 1., j . = 0
[数 39] ί実際にァミノ酸残基 ζ·と ·が接触した個数 アミノ酸残基/とゾが接触する期待値
スコアが良い場合、 負の値をとる。 また、本実施形態によれば、結合状態未知である複数鎖タンパク質の結合状態の 探索を行う。具体的には、以下の(1)一(4)で示した処理を行う。
(1)結合状態未知のタンパク質 2つについて、それぞれに接触部位予測のコンビュ 一タープログラムを使った処理を行う。
(2)結合状態未知のタンパク質二つの相対位置を変化させ、接触部位予測をよく満 たす相対配置を検索する。接触部位予測されたグリッドが実際に接触部位に現れた 場合に、そのグリッドのパターン iでのスコア(Scoi)を加算する方法でスコア順に並べ 替えたデータを得る。
(3) (2)で得られたデータについて、タンパク質二つの相対配置の近いもの同士をク ラスタリングする。クラスタリングされたグループ内の最も良いスコアをもつ相対配置を 代表として採用する。
(4)クラスタリングされた代表のスコアを比較して、上位 100位に対し、水素結合個数 、上記で記載されたスコアの加算を行い、相対配置候補の順番を並べ替え、上位の ものを候補構造とする。
また、本実施形態によれば、立体構造および結合状態未知である複数鎖タンパク 質の結合状態の探索を全自動で行う。具体的には、以下の(1)一(5)で示した処理 を行う。
(1)立体構造および結合状態未知のタンパク質複合体について、そのアミノ酸配列 力 コンピュータープログラムなどを用いて立体構造予測を行 、、タンパク質複合体 立体構造を得る。
(2) (1)で得られたタンパク質複合体立体構造について、それぞれに接触部位予測 のコンピュータープログラムを使った処理を行う。
(3)結合状態未知のタンパク質二つの相対位置を変化させ、接触部位予測をよく満 たす相対配置を検索する。接触部位予測されたグリッドが実際に接触部位に現れた 場合に、そのグリッドのパターン iでのスコア(Scoi)を加算する方法でスコア順に並べ 替えたデータを得る。
(4) (3)で得られたデータについて、タンパク質二つの相対配置の近いもの同士をク ラスタリングする。クラスタリングされたグループ内の最も良いスコアをもつ相対配置を 代表として採用する。
(5)クラスタリングされた代表のスコアを比較して、上位 100位に対し、水素結合個数 、上記で記載されたスコアの加算を行い、相対配置候補の順番を並べ替え、上位の ものを候補構造とする。
また、本実施形態によれば、立体構造既知のタンパク質複合体を参照して立体構 造が未知の目的タンパク質複合体のホモロジ一モデリングを行うに際して、モデリン グ前に上記のデータベースとァライメントファイルを用いて、相互作用状態の予測を 行う。具体的には、以下の(1)一(4)で示した処理を行う。
( 1)参照タンパク質複合体の結合状態について、上記と類似のスコアの計算を用い る。スコアの計算は、実際に側鎖が接触しているアミノ酸対のみを、下記数式の関数 を使用してスコアを加算する。
[数 40] 場合 i, jが接触している時 0 二— log
ノ
[数 41]
C ti i d:接触面における f &ノの組み合わせが距離 に現れた個数
[数 42]
Sum t Count j ii:接触面における ί' &ゾの組み合わせの総数
[数 43]
Total, 二 S« :接触面に来た ί·の個数
(2)目的タンパク質複合体のアミノ酸配列に従って、ァライメントを参照して、(1)で計 算したアミノ酸対を目的タンパク質複合体のアミノ酸対に置き換え、スコアの再計算を 行う。
(3) ( 1)で得られたスコアと(2)で得られたスコアとの比を出力する。複合体として存 在するために、比の値が大きいほうが望ましい。
2; 一で得られた目的タンハク質複^^のスコア)
, ( 1 ) で得られた参照タンパク質複合体のスコア.リ
(4) (3)で得られた比の値を検証例などカゝら算出された任意の比の値を使用して、自 然界に存在するかどうかを判定することで、目的の複数鎖タンパク質複合体のホモ口 ジーモデリングを実際にすべきかどうかを決定する。
[0106] また、本実施形態によれば、実験により解析されたタンパク質立体構造、及びコン ピュータープログラムにより予測されたタンパク質立体構造などの、任意の単数を含 む複数鎖のタンパク質立体構造が与えられた場合において、該当タンパク質の立体 構造力 誘導適合を反映したパラメーターおよび構造変化した立体構造座標を例え ば基準振動計算方法や分子動力学計算方法によりあらかじめ算出し、当該パラメ一 ターおよび構造変化した立体構造座標を用いて該当タンパク質と別のタンパク質が 結合した場合の相互作用関数を定義し、上記の方法を用いて算出されたタンパク質 複合体の結合状態を評価する。
[0107] また、本実施形態によれば、 3種類のデータベースを作成する。具体的には、ァミノ 酸残基対の種類と、 3次元相対位置のデータをあらわす接触相対配置座標データべ ースを作成する。また、アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など) の距離分布のデータベースを作成する。さらに、アミノ酸残基の種類と、タンパク質表 面に現れた個数、接触部位に現れた個数のデータベースである接触部位グリッドデ ータベースを作成する。これにより、タンパク質複合体立体構造データベースから作 成されるデータベースは、タンパク質 タンパク質相互作用に関与して ヽるアミノ酸残 基の側鎖の 3次元相対配置を記述することで、アミノ酸側鎖の接触部位での相対配 置の傾向を解析することができる。また、接触部位に現れているアミノ酸残基の傾向 を記述することで、タンパク質立体構造の 3次元座標での接触部位予測におけるスコ ァ関数に利用することができる。また、あるアミノ酸側鎖が、どのようなアミノ酸側鎖と 接触しやすいかを統計的に解析して数値化することで、スコア関数に利用することが できる。ここで、タンパク質複合体データベースとして、例えば PDBや PQSなどの既
存のデータベースを用いてもよぐ自分で作成した特定のタンパク質ファミリーの構造 を集めた構造データベースを用いてもょ 、。
[0108] また、本実施形態によれば、タンパク質 タンパク質複合体立体構造が未知である タンパク質の相互作用部位の予測を行うことを目的として、タンパク質立体構造の表 面にグリッド点を計算し、作成したデータベースを用いてスコア計算し、接触傾向をグ リツド点それぞれについて求める。これにより、入力されたタンパク質立体構造の表面 におかれた 3次元座標上のグリッド点それぞれにスコアが計算されるので、接触部位 になる残基ではなく空間座標を調べることができるため、接触アミノ酸残基のみを予 測する手法に比べ、より詳細なデータを作成することができる。
[0109] また、本実施形態によれば、結合状態未知である複数鎖タンパク質の結合状態の 探索を、上記のスコア関数や、接触部位予測の結果、水素結合個数の計算結果を 利用して行う。これにより、結合状態未知のタンパク質複合体の結合状態を、上記の スコア関数や、接触部位予測の結果、水素結合個数において、よい条件で結合して いる状態を探索することができる。また、タンパク質の全原子について、上記のスコア 関数の計算や、接触部位の予測、水素結合個数の計算を行う方法に比べ、計算コス トが低いため、高速に計算を行うことができる。
[0110] また、本実施形態によれば、個々のタンパク質立体構造が未知であり、タンパク質- タンパク質複合体立体構造も未知であるタンパク質の相互作用部位の予測を行うこと を目的として、ホモロジ一モデリングを行い、その結果の立体構造の表面にグリッド点 を計算し、上記のデータベースを用いてスコアを計算し、接触傾向をグリッド点それ ぞれについて求める。なお、ホモロジ一モデリング後の処理は上記と同じである。
[0111] また、本実施形態によれば、立体構造および結合状態未知である複数鎖タンパク 質の結合状態の探索を全自動で行う。なお、複数鎖タンパク質のホモロジーモデリン グ後、上記と同様の方法により結合状態の探索を行う。
[0112] また、本実施形態によれば、立体構造既知のタンパク質複合体を参照して立体構 造が未知の目的複数鎖タンパク質のホモロジ一モデリングを行うに際して、モデリン グ前に上記のデータベースとァライメントファイルを用いて、相互作用状態の予測を 行い、かつ評価を行う。なお、配列ァライメントの作成には、各種既存のコンピュータ
一ソフトウェアである FASTAや IMPARA、 ClustalW, HMMER、 BIOCESなどの ァライメント出力結果を用いて複数の各アミノ酸配列末尾 (C末端)の次にアミノ酸記 号以外の区切り文字 (例えば「U」等)を付加することで、各鎖間の境界を示すフォー マットを用いてもよい。
[0113] また、配列ァライメントが記された入力ファイル形式としては、特に制限は無いが、 例えば、 目的タンパク質を参照タンパク質とァライメントを行った場合、一般式として 下記内容を採用してもよい。
[0114] 具体的には、 1行目は〉の後に、 目的タンパク質の IDを記載する。 2行目は目的タ ンパク質のアミノ酸配列を各タンパク質鎖 (ポリペプチド鎖等)の末端残基の次に区切 り文字をカ卩えて、すべてのタンパク質鎖について改行なしに記載する。 3行目は〉の 後に参照タンパク質の IDを記載する。 4行目は参照タンパク質のアミノ酸配列を、各 タンパク質鎖 (ポリペプチド鎖等)の末端残基の次に区切り文字を加えて、すべてのタ ンパク質鎖について改行なしに記載する。ここで、 2行目と 4行目のアミノ酸配列の並 ベ方については、前期の如く得られるァライメントを利用し、同一番目の区切り文字 の位置は 2行目と 4行目で常に一致させるのが好ましい。
[0115] これを例示すると以下のとおりである。
> (目的タンパク質の ID);
(第一鎖の配列)(区切り文字)(第一鎖の配列)(区切り文字) · · · ·(区切り文字)(第 M鎖の配列)
> (参照タンパク質の ID)
(第一鎖の配列)(区切り文字)(第一鎖の配列)(区切り文字) · · · ·(区切り文字)(第 M鎖の配列)
なお、括弧は見易くするためのものであり、実際には記載せず、連続した文字列に するのが望ましい。
[0116] また、本実施形態によれば、入力されたァライメントファイルに記載された参照タン パク質の IDから、参照タンパク質立体構造情報をアミノ酸複合体立体構造データべ ース (PDB等)力も取得し、異なるタンパク質間で接触して 、るアミノ酸残基の対応関 係の情報を取得する。なお、参照タンパク質のアミノ酸側鎖の接触判定が正確に行
われるようにするために、使用するアミノ酸複合体立体構造データベースは、実験的 にタンパク質複合体を形成するタンパク質につ ヽて、 X線構造解析などの手法により
、実験的にその立体構造情報が得られているものが望ましい。そして、得られた接触 しているアミノ酸残基の対応関係の情報から、 目的タンパク質の接触しているアミノ酸 残基の対応関係の情報を作成する。こうして得られた、参照タンパク質と目的タンパ ク質の異なるタンパク質鎖間での側鎖の接触情報を、上記のデータベースの検索を 行い、スコアを上記のスコア関数を使用することで、入力された複数鎖タンパク質の ァライメント評価を行う。
[0117] また、本実施形態によれば、 目的タンパク質をアミノ酸残基の接触を、参照タンパク 質のアミノ酸残基の接触状態から予測するという特徴がある。また、ァライメントの評 価を、ァライメントファイルから、ホモロジ一モデリングなどの手法によって、 目的タン ノ ク質の立体構造が得られていない場合でも、簡便かつ迅速に計算を行うことができ る。また、評価の方法として、 目的タンパク質のスコアと、参照タンパク質のスコアを同 時に出力するため、絶対的な評価と、相対的な評価を行うことができる。参照タンパク 質構造データが、実験によって得られたデータであるならば、参照タンパク質のスコ ァがタンパク質複合体を形成するかの基準となり、参照タンパク質のスコアと目的タン ノ ク質のスコアの比が、 目的タンパク質が複合体を形成するかどうかの基準とすること が可能である。
[0118] 以下に、相互作用部位予測装置 100を用いた実施例を説明する。なお、下記の実 施例は、本発明の具体的な認識を得る一助と見るべきであり、本発明の範囲を何ら 制限するものではない。
実施例 1
[0119] (データベース作成の例)
本実施例 1では、上述した実施形態の Iに記載された方法に従い、 PQSデータべ ースを使用して、下記の(1)一 (3)に示すデータベースを作成した。
[0120] (1)上述した実施形態の I 1における接触相対配置座標データベース(3次元相対 位置のデータベース)の作成例
図 4では、 PHE—PHEの相対配置が 3次元で図示されて!、る。
[0121] (2)上述した実施形態の I 2における距離分布データベースの作成例
ALAと接触していたアミノ酸残基について、 Cひ間距離における分布を表している データベースの一例を図 12に示した。図 12において、一番左の項目はアミノ酸対の 糸且み合わせであり、次に、 1 Aごとの距離のカテゴリに、 PQSデータベース内でその 距離の Cひ間距離を持っていた個数を表している。図 12をグラフ化したものが図 13 である。また、他のアミノ酸残基についてもグラフ化したものが図 14一図 33である。
[0122] また、このデータを下に、上述した実施形態の VIで使用した数式 4の SCOを、アミ ノ酸 20種類 X 20種類のマトリクスで図示した(図 34)。図 34において、色が濃いほど SCOのスコアが低!、(親和性が高 、)ことを表して!/、る。
i,j
[0123] (3)上述した実施形態の I 3における接触部位グリッドデータベースの作成例
PQSデータベース力 作成した接触部位グリッドデータベースの一例を図 35に示 した。図 35において、左から順に、接触パターン (数式 1の i)、接触部位グリッドの個 数 (数式 1の Con)、表面グリッドの個数 (数式 1の C )、である。
実施例 2
[0124] (相互作用部位予測の例)
本実施例 2では、 Protein Data Bankに IDが lJK3 (Lang, R. , Kocourek, A. , Braun, M. , Tschesche, H. , Huber, R. , Bode, W. , M askos, K. : Substrate Specificity Determinants of Human Macroph age Elastase (Mmp— 12) Based on the 1. 1 A Crystal Structure J . Mol. Biol. 312 pp. 731 (2001) )として登録されているタンパク質立体構 造情報に対して、上述した実施形態の Πに記載された方法に従い、タンパク質相互 作用部位の予測を行った。 1JK3は、 Batimastatと呼ばれる薬剤が結合した状態の マトリックスメタプロテアーゼ— 12 (以下 MMP— 12と略す)のタンパク質である。
[0125] ここで、 Batimastatが結合するサイトが不明であると仮定し、上述した実施形態で 説明した方法に従って、相互作用部位、すなわち Batimastatが結合するサイトの予 測を行った。まず、上述した実施形態の Iにおけるデータベースを使って、上述した 実施形態の Πに記載された方法に従い、相互作用部位予測を行った。立体構造モ デルに対して、その表面に表面グリッドを xyz座標に対して 1. OA間隔で発生させた
。次に、その表面グリッドすべてに対して、アミノ酸残基の種類'タンパク質表面に現 れた個数'接触部位に現れた個数のスコアを、データベース検索により付けた。スコ ァは数式 1に従った。そのスコアが 10. 0以上であった表面グリッド点のみにおいて P DB形式で出力して視覚化したもののうち、相互作用部位周辺を拡大したものが図 3 6である。なお、図 36では、 Batimastatも同時に表示している。図 36のグリッド点そ れぞれにつ 、てスコアがっ 、ており、そのスコアが高 、ほど相互作用部位になり易!ヽ t 、う情報を持って 、ることになる。
[0126] また、同様の処理により、 Protein Data Bankに IDが 2PTC (Marquart, M.
, Walter, J. , Deisenhofer, J. , Bode, W. , Huber, R. : The G eometry of the Reactive Site and of the Peptide Groups in Tryps in, Trypsinogen and its Complexes with Inhibitors Acta Crystallog r. , Sect. B 39 pp. 480 (1983) ) , lQPR (Sharma, V. , Grubmeyer, C. , Sacchettini, J. C. : Crystal structure of quinolinic acid ph osphoribosyltransf erase from Mmycobacterium tuberculosis: a poten tial TB drug target. Structure 6 pp. 1587 (1998) )として登録されて V、る複数鎖タンパク質につ 、て、上述した実施形態の IIに記載された方法に従 、、 それぞれタンパク質相互作用部位の予測を行った。
[0127] 図 37は 2PTCの E鎖に対して、相互作用部位予測を行った結果である。灰色のダリ ッド点力 相互作用部位として予測されたスコアが高力つたものである。白いタンパク 質分子は 2PTCの E鎖である。次に、図 37において 2PTCの I鎖も同時に表示した図 が図 38である。黒いタンパク質分子が 2PTCの I鎖である。
[0128] 図 39は図 37の一部を別の角度から拡大したものである。図 40は、図 39において 2 PTCの I鎖(黒)も同時に表示した図である。これらの図を見ると、予測されたグリッド 点に、実際に相互作用があることがわかる。同様に、 1QPRの相互作用部位予測の 結果を図 41に示す。白いタンパク質分子は 1QPRの A鎖である。図 42は、 1QPRの A鎖と相互作用部位予測の結果を示した図であり、 B鎖 (黒)を同時に表示したもの である。図 43および図 44は、 1QPRを別の角度で拡大表示したものである。
[0129] 本実施例 2のように、相互作用部位を予測することで、タンパク質-タンパク質、薬
物相互作用部位が分力 ないものに対して、その部位の推定を高速に行うことが可 能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示す 薬物の開発に効果を期待できる。
実施例 3
[0130] (立体構造未知のタンパク質複合体のホモロジ一モデリングの結果にっ 、て相互作 用部位予測を行う例)
本実施例 3では、上述した実施形態の IIIに記載された方法に従い、まず米疾病対 策センター(CDC)等により公表された SARS Proteaseの解読されたゲノム配列か ら、治療薬に有効な SARSウィルスのタンパク質である Proteinaseの立体構造をホ モロジ一モデリング法で予測した。次に、予測された Proteaseのタンパク質立体構造 に対して、相互作用部位を予測した。
[0131] 本実施例 3における SARS Proteaseの活性部位は、ホモロジ一モデリングにお いて参照タンパク質として使用した PDB IDが lLVO (Anand, K. , Palm, G . J. , Mesters, J. R. , Siddell, S. G. , Ziebuhr, J. , Hilgenfel d, R. : Structure of Coronavirus Main Proteinase Reveals Combm ation of a Chymotrypsin Fold with an Extra Alpha— Helical Domai n Embo J. 21 pp. 3213 (2002) )と同じである。
[0132] 本実施例 3にお 、て、この活性部位が未知であると仮定して、相互作用部位予測を 行った。その予測結果で活性部位を拡大表示した図が図 45である。灰色のグリッド 点が、相互作用部位として予測されたスコアが高力 たものである。白いタンパク質 分子はホモロジ一モデリングにより構築された Proteaseのタンパク質立体構造である 。 1HPG (Nienaber, V. L. , Breddam, K. , Birktoft, J. J. : A glu tamic acid specific serine protease utilizes a novel histidine triad i n substrate binding. Biochemistry 32 pp. 11469 (1993) )を、ホモ口 ジーモデリングによって予測された SARSの Proteaseのタンパク質立体構造の活性 部位と重ね合わせ、そのリガンドを同時に表示した図が図 46である。相互作用部位 に、予測されたグリッドが存在していることから、相互作用部位の予測が精度よく行わ れていることがわ力る。
[0133] 本実施例 3のように、立体構造未知のタンパク質に対して相互作用部位予測を行う ことは、今後、 SARSのウィルスの Proteinaseに対するドラッグデザインや機能解析 などと!/、つた分野にぉ 、て非常に重要な役割を果たすものと思われる。
実施例 4
[0134] (結合状態未知のタンパク質複合体について、結合状態を探索する例)
本実施例 4では、様々な複数鎖タンパク質について、上述した実施形態の IVに記 載された方法に従い、結合状態を探索した。本実施例 4では、結合状態が実験的に 解析されて ヽる構造を使用して ヽるが、結合状態未知と仮定して ヽる。
[0135] まず、上述した実施形態の IIに記載された方法に従 、、接触部位予測を行った。そ れぞれのタンパク質立体構造モデルに対して、その表面に表面グリッドを xyz座標に 対して 1A間隔で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基 の種類 ·タンパク質表面に現れた個数 ·接触部位に現れた個数のスコアをデータべ ース検索により付けた。スコアは数式 1に従った。相互作用部位が分力つているものと して、正解相対配置から ± 30度範囲内(ただし、 Z軸方向は 360度回転)に、「候補 構造個数を 400個」および「400回スコア変化が無力つた場合に乱数移動範囲を 1度 減らす」と 、う条件で検索を行った。
[0136] 次に、候補構造 400個について、 ± 5度の範囲内でのクラスタリングを行った。クラ スター内の最もスコアがよいものについて、水素結合個数および上述した実施形態 の I 2におけるデータベース検索による数式 2を使用したスコアを計算し、数式 3のス コアで並べ替えた。数式 3の係数 aおよび bはそれぞれ、 a= 1000、 b = 10000にし た。
[0137] 結果、最もスコアがょカゝつた候補構造と正解構造との RMSD、および候補構造の 内で最も RMSDが小さかったものの RMSDとその順位を示した図が図 47である。そ れぞれの PDBについて最も RMSDが良かったものについて、一方のタンパク鎖に 重ね合わせて示した図が図 48—図 59である。黒いタンパク質分子が正解構造であ り、白いタンパク質分子がドッキングを行った結果出力された候補構造のうち、最も R MSD値が低かったものである。
[0138] これらを見て分力るとおり、タンパク質複合体の結合状態を精度良く予測することが
できた。本実施例 4のドッキングにより、タンパク質の結合状態を正確に予測すること で、正確なタンパク質複合体の構築を行うことができた。そのことは、様々なタンパク 質複合体に対するドラッグデザインや機能解析などにおいて非常に重要な役割を果 たすものと思われる。
実施例 5
[0139] (立体構造未知のタンパク質複合体のホモロジ一モデリングの結果を最適化(SARS proteaseタィマー構造) )
本実施例 5では、まず米疾病対策センター(CDC)等により公表された SARS Pro teaseの解読されたゲノム配列から、治療薬に有効な SARSウィルスのタンパク質で ある Proteinaseの複合体の立体構造を複数鎖ホモロジ一モデリング法により予測し た結果について、その相対配置の最適化を行った。
[0140] 複数鎖ホモロジ一モデリング法による立体構造は、参照タンパク質の相対配置に依 存して、 目的タンパク質の相対配置が決定している。参照タンパク質と目的タンパク 質とアミノ酸配列の差異が、相対配置の差異に影響することが考えられており、 目的 タンパク質と参照タンパク質の相対配置が異なる可能性が高い。本実施例 5では、 目 的タンパク質の相対配置をより最適化し、安定な構造を求めることを目的とした。
[0141] 上述した実施形態の IIおよび IVに記載された方法に従って、以下で説明する手順 で、結合部位を特定し、その情報を最もよく満たす相対配置ランクを求め、データべ ース検索と水素結合の個数によるスコアを計算し、最終候補構造を決定した。
[0142] 用いた SARSウィルス Proteaseのアミノ酸配列を元にァライメントを行い、ホモロジ 一モデリング法を用いて立体構造を構築した結果を図 60に示す。
[0143] まず、上述した実施形態の IIに記載された方法に従 、、接触部位予測を行った。図 60の立体構造モデルに対して、その表面に表面グリッドを xyz座標に対して 2A間隔 で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基の種類'タンパク 質表面に現れた個数 ·接触部位に現れた個数のスコアをデータベース検索により付 けた。スコアは数式 1に従った。次に、図 60のホモロジ一モデリングの結果を初期座 標とし、相対位置変化を ± 15度に絞り、「候補構造個数を 200個」、「乱数移動範囲 を ± 5度 (ただし、 Z軸方向は 360度回転)」および「400回スコア変化が無力つた場
合に乱数移動範囲を 1度減らす」 、う条件で検索を行った。
[0144] 次に、候補構造 200個について、 ± 5度の範囲内でのクラスタリングを行った。クラ スター内の最もスコアがよいものについて、水素結合個数および上述した実施形態 の I 2のデータベース検索により数式 2を使用したスコアを計算し、数式 3のスコアで 並べ替えた。数式 3の係数 aおよび bはそれぞれ、 a = 250, b = 2500にした。結果、 最もスコアがよ力つた候補構造は、図 61に示した構造であった。
[0145] 次に、 X線結晶構造解析により実験的に求められた SARSウィルスの Protease (P DB ID : 1Q2W, Bonanno, J. B. , Fowler, R. , Gupta, S. , Hen die, J. , Lorimer, D. , Romero, R. , Sauder, M. , Wei, C. L . , Liu, E. T. , Burley, S. K. , Harris, T. : X— Ray Crystal St ructure of the Sars Coronavirus Main Protease)との比較検ih 行つた 。相対位置の検証比較は、 CA原子に対する根平均二乗平均 (RMSD値)の数値を 用いた。 RMSD値は小さいほど、 1Q2Wとの誤差力 S小さいことを示している。
[0146] ホモロジ一モデリング法により構築されたモデル構造と、実験により求められた X線 構造解析による立体構造モデル 1Q2Wを、 A鎖について重ね合わせを行った。この 重ね合わせは、 A鎖の重ねあわせによる A鎖間の RMSDが最小になるようにしたも のである。図 62において、色が濃い方は立体構造モデル 1Q2Wであり、薄い方はホ モロジ一モデリング法により構築されたモデル構造である。
[0147] 次に、 A鎖を重ね合わせた状態で B鎖間の RMSD値を求めた。結果、 RMSDは 4 . 688であった。
[0148] 同様に、立体構造モデル 1Q2Wと、相対位置の最適化を行ったモデル構造につ いても、 A鎖同士で重ねあわせを行い、 B鎖間の RMSD値を求めた。図 63において 、色が濃い方が立体構造モデル 1Q2Wであり、薄い方は最適化を行った結果のモ デル構造である。結果、 RMSDは 3. 645であった。このことから RMSDの改善が見 られている。
[0149] 以上の結果、ホモロジ一モデリング法により構築された SARSウィルスの Protease 構造を最適化することができた。
[0150] 新型肺炎である重症急性呼吸器症候群 SARSはアジアを中心とした地域で猛威を
振るつており、多くの製薬メーカーや研究所などにおいて SARSに対抗するためのヮ クチン開発や治療薬開発が進められている。本実施例 5のドッキングにより、相対配 置の最適化を行うことで、正確な Proteinaseダイマー構造の構築を行うことができる 。そのことは、 SARSのウィルスの Proteinaseに対するドラッグデザインや機能解析 などにおいて非常に重要な役割を果たすものと思われる。
実施例 6
[0151] (タンパク質複合体ホモロジ一モデリングの為のァライメントファイルの評価 その 1) 本実施例 6では、図 64に示した tissue plasminogen activatoのアミノ酸配列デ ~~タ (BAA0088丄. tissue plasminogen activator [Homo sapiens] . Ita gaki, Y. , Yasuda, H. , Morinaga, T. , Mitsuda, S. and Higashio, K . Purification and characterization of tissue plasminogen activator secreted by human embryonic lung diploid fibroolasts, IMR— 90 c ells. Agric. Biol. Chem. 55 (5) , 1225—1232 (1991) )をァライメント プログラム RPS— BLASTで PDBデータベースに対して検索し、ァライメントを作成し た。条件は「E— value≤0. 001」である。
[0152] 次に、その結果力も検出された参照タンパク質についての情報を PQSデータべ一 ス(http : ZZpqs. ebi. ac. ukZ)から調べ、ホモ(すべての鎖が同じアミノ酸配列 であること)何量体であるかの情報から、複数鎖タンパク質を表す配列ァライメントを 作成した。本実施例 6において、 BAA00881のタンパク質立体構造を構築するにあ たり、参照タンパク質のァライメント情報が 33個検出された。これらすべてについて立 体構造モデルの構築を行うには、非常に多くの計算時間と検証を必要とする。
[0153] 本実施例 6では、その組み合わせのァライメントファイルについて、生物学的に有用 であり複合体を形成すると思われるァライメントファイルを選別して順位付けするため に、上述した実施形態の VIに記載された方法に従い、評価を行った。 33個のァライ メントファイルうち、図 65と図 66にその内容の一部を一例として示した。
[0154] 本実施例 6において、それぞれのァライメントファイルに対して、まず、参照タンパク 質について、アミノ酸側鎖が異なる鎖間で接触しているものを判定し、その対応関係 を調べた。次に、その対応関係の情報から、ァライメントファイルで目的タンパク質の
アミノ酸配列での同じ位置に存在するアミノ酸残基も、同様に接触しているものとし、 その対応関係を決定した。
[0155] 次に、その対応関係それぞれについて、データベース検索を行いスコアを計算した
。このときのスコアは数式 4の関数を用いて計算した。図 65に示すァライメントに対す るスコアは 7. 8253であり、参照タンパク質とのスコア比は 97. 908%であった。
[0156] 一方、図 66に示すァライメントに対するスコアは、 1. 0628であり、参照タンパク質と のスコア比は 40. 780%であった。
[0157] この 2例を比較するならば、図 65のァライメントは、図 66のァライメントと比較して、 参照タンパク質の接触部位スコアに非常に近 ヽ数値を表しており、接触部位のスコ ァが高いことから、複数鎖タンパク質のホモロジ一モデリングを行うのに適したァラィメ ントであるといえる。
[0158] 現在、様々な生物種の遺伝子の解析が行われており、そのタンパク質立体構造の 解析は近年その重要度を増して 、る。中でも複数鎖のタンパク質のホモロジーモデリ ング法は、そのタンパク質の立体構造を高速に大量に調べる上で、実験的手法 (X線 結晶解析等)に比べて、高速、簡便であり、その精度も実験結果と比較しても勝るとも 劣らな 、精度であることから非常に重要な技術となって 、る。
[0159] 本実施例 6のように、ァライメントが多数存在する場合、効率よく生物学的に重要か つ信頼性のあるァライメントを選び出す技術は、複数鎖のタンパク質立体構造解析を 効率よく行う上で非常に有効であるといえる。このことから、本発明は、タンパク質に 作用するドラッグデザインやスクリーニングといった創薬の分野で重要な役割を果た すものと思われる。
実施例 7
[0160] (タンパク質複合体ホモロジ一モデリングの為のァライメントファイルの評価 その 2) 本実施例 7では、上述した実施形態の VIに記載された方法を使用して、実際に実 験的にタンパク質複合体の相互作用の強さを求めて、あるアミノ酸配列に対して検証 を行った。実験的に相互作用の強さが求められているため、予測値との比較を行い、 その精度を検証するのが目的である。
[0161] 実験のデータは、論文「John R. S. Newman * and Amy E. Keating
. Comprehensive Identification of Human bZIP Interactions with Coiled— Coil Arrays. Science. 2003 Jun 27 ; 300 (5628): 2097—10 1. Epub 2003 Jun 12.」から得た。検証方法は以下の通りである。
[0162] Stepl :検証に使用したアミノ酸配列は、上記の論文に記載されている 62個を使用 した。それらのアミノ酸配列に対してそれぞれ、ァライメントプログラム PSI— BLASTを 使用して PDBデータベースに対して検索を行い、ァライメントを作成した。プロフアイ ル作成には NRデータベースを使用した。条件は、「eialueく 0. 01」、 「homology < 20%」、「目的タンパク質アミノ酸配列の 50%以上をァライメントしている。」である。
[0163] Step2:あるアミノ酸配列 Aとあるアミノ酸配列 Bの複合体のァライメントを作成するた めに、まず、配列 Aを使用して PSI— BLASTを行った結果と配列 Bを使用して PSI— BLASTを行った結果の 2つに注目した。配列 Aの PSI— BLASTの結果において、 e valueが上位のものから順に、検出された PDB IDが配列 Bの PSI— BLASTの結 果でも現れており、かつそのタンパク質鎖の名前が異なるものであるか調べた。この 条件に適合するものがあった場合に、それらでタンパク質複合体のァライメントフアイ ルを作成し、それを A— Bと 、う組み合わせの複合体におけるァライメントとした。
[0164] Step3 : Step2と同様に、配列 Bの PSI— BLASTの結果において、 e— valueが上位 のものから順に、検出された PDB IDが配列 Aの PSI— BLASTの結果でも現れてお り、かつそのタンパク質鎖の名前が異なるものである力調べ、この条件に適合するも のがあった場合には、それらでタンパク質複合体のァライメントファイルを作成した。
[0165] Step4 :タンパク質複合体のァライメントファイルから、参照タンパク質のスコア、 目的 タンパク質のスコア、参照タンパク質のスコアを計算し、 目的タンパク質のスコアの比( %)を予測値として出力した。
[0166] Step5 : Step4で計算されたスコア比および論文に記載の相互作用の強さについて 、その相関関係を調べた。
[0167] この検証法のポイントは、実験で使用した複合体のアミノ酸配列に対して、 X線結晶 構造解析が行われている PDBの配列をァライメントすることで、実験で使用した配列 のどのアミノ酸残基力 Sタンパク質-タンパク質相互作用部位に来て、どのアミノ酸残基 と接触しているかを推測していることである。その推測を元に、 X線結晶構造解析の
構造データ(PDBファイル)のスコアよりどれほど小さくなつたの力、どれほど相互作 用が弱まったの力、を推測しているのである。以下、実験データの比較について述べ る。
[0168] 図 67は、 bZIPの実験データを、その相互作用の強さに応じて色分けした図である 。相互作用の強さのカテゴリは 7段階であり、「1 :Zスコア > 20」、「2 :Z> 10」、「3 :Z > 5」、「4 :Z> 2. 5」、「5 :Z> 1. 5」、「6 :Z< 1. 0」、「7 :no assignment」である。 Zスコアは、下記の式「Zscore」により計算される。なお、「Z> 2. 5」の場合には相互 作用ありと判定され、「Z< 1. 0」の場合には相互作用なしと判定される。
[数 45] signal - mean
ム score =
estimated standard deviation
[0169] 図 67において、縦横の項目は、配列の名称と種であり、縦と横の項目が交差して いる部分がその二つのアミノ酸配列を持つタンパク質複合体の相互作用の強さを色 で表している。例えば、縦の Aという配列と、横の Bという配列の交点にある色が黒色 だった場合、 Aのアミノ酸配列を持つタンパク質と Bのアミノ酸配列を持つタンパク質 力 非常に強い相互作用を示すということを表している。色が濃いものほど、相互作 用が強 、ものであることを示して 、る。
[0170] 同様の表示形式で、図 68は、上述した実施形態の VIに記載された方法に従って 計算されたァライメント評価のスコアについて、参照タンパク質のスコアと目的タンパ ク質のスコアの比を%で分けて、その数値の大きさに応じて色分けしたものである。 各所にデータの無い空白部分がある力 その部分のァライメントが得られな力つた場 所であるためにデータが無いのである。図 67と図 68を比較すると分かる通り、二つの 図には相関が見られることが分かる。
[0171] 次に、図 69は、ある実験値が得られている配列の組み合わせにおいて、その実験 値が得られた配列の組み合わせのうち、何%がどのような予測値をとつたかをグラフ で示した図ある。実際に予測を行う際に重要なのは、「Z> 2. 5」で相互作用あり、「Z < 1. 0」で相互作用なしという実験結果、という違いを正しく予測できるかということで
ある。
[0172] 従って、これらを正しく予測するスコア比の閾値(%)を設定するために、様々な閾 値でどのように変化するかを図 70で検証した。図 70を見ると、閾値 50%では、相互 作用をしない「Z< 1. 0」の項で、その 74%がスコア比 50%未満に存在し、一方、相 互作用ありの「Z> 2. 5」の項で、その 34%がスコア比 50%未満に存在していた。つ まり、本実施例 7では、相互作用の有無を 50%の閾値で判定する予測方法が有効で あると思われる。
実施例 8
[0173] (単数鎖のタンパク質立体構造が与えられた場合の、該当タンパク質と別のタンパク 質との複合体の結合状態の評価)
実験により解析されたタンパク質の立体構造およびコンピュータプログラムにより予 測されたタンパク質の立体構造などの任意の数鎖を含むタンパク質の立体構造が与 えられた場合、基準振動計算方法や分子動力学計算方法により、当該タンパク質の 立体構造から、誘導適合を反映したゆらぎパラメータおよび構造変化を算出し、それ ら算出結果を用いて当該タンパク質と別のタンパク質が結合した複合体の立体構造 を予測した。
[0174] タンパク質複合体の立体構造出題データには、 CAPRI (Critital Assessment of PRedicted Interactions)の Target 18を用いた。 CAPRIはタンパク質の単 体立体構造力も複合体の立体構造を予測する国際コンテストで、 Target 18はその Round 5での出題である。タンパク質複合体の予測データはホームページ(http : ZZcapri. ebi. ac. uk/round5/round5. html)力らダウンロードした (現在は データのロードはできない)。このデータを用いて、 Aspergillus niger Xylanase- Triticum Aestivum Xylanase Inhibitor Iの複合体の立体構造を予測した。
[0175] Xylanase側の立体構造主題データは、 Xylanaseの 4量体の X線結晶解析データ として、 PDBに登録されて!、る (PDB ID: 1UKR)。 Xylanase側の結合部位を予測 する際、 Xylanaseは Inhibitorとの相互作用で誘導適合することが考えられる。そこ で、国際公開第 2002Z057854 (WO 2002,057854)号パンフレット(PCTZJ P2002/000286,「誘導適合を含めたタンパク質の立体構造構築方法およびその
利用」)に記載の方法を適用した。
[0176] すなわち、 Xylanaseのまわりに発生させた水分子について、タンパク質の中で MS ASの値が 30%以上のアミノ酸残基により形成される 3. 5A以内の表面に存在する 水分子をベンゼンで置換した。しかし、ベンゼン同士が 1. 5A以内になる場合は、水 分子のベンゼンへの置換は行わない。次に、 Xylanaseとベンゼンを含む系の周囲 に水分子を充分発生させ、分子力学計算による擬似水溶液中での系の最適化を 10 0ステップ行った。その計算にはタンパク質 C α原子の xyz座標に 300kcalZmolZ Aの拘束をかけた。続いて、 Xylanase単体での基準振動解析計算を行い、それら 二面体角の揺らぎデータに基づいて、 Xylanase主鎖に二面体角の拘束をかけた擬 似水溶液中での分子動力学計算を 200ps (ピコ秒)間行った。その際、二面体角の 拘束値の最大を lOOkcalZmolZRadianに設定した。計算では 10psごとのスナツ プショット、すなわち 20個の Xylanaseの立体構造が求まる力 それらスナップショット について閾値を 6 Aとしたベンゼンのクラスタリングイ匕を行い、クラスター数が最も多 V、スナップショットを Xylanase Inhibitorとの複合体を予測する構造として採用した 。また、 Xylanase Inhibitorについても Xylanaseと同じ方法で相互作用結合部位 を検索したが、 Xylanase Inhibitorの出題立体構造が Xylanaseとの複合体から得 られた X線結晶解析データであるので、 Inhibitorの xyz座標を完全に固定し、ベン ゼンだけをフリーにした擬似水溶液中での分子動力学計算を行った。
[0177] Xylanaseとベンゼンの系では、クラスタ一は楕円球と表現でき、座標の固有値問 題を解くことにより、ベンゼンクラスターの長短方向が求められる。また、 Xylanase I nhibitorとベンゼンの系でも同様である。 Xylanaseと Xylanase Inhibitorのべンゼ ンクラスターそれぞれは、直交した右手系の座標軸としてフィッティングすることがで きる。 2つの右手座標系でのフィッティングは 24通りになるので、 Xylanaseのべンゼ ンクラスター 3個と Inhibitorのクラスター 6個とのすべてのフィッティングで Xylanase -Xylanase Inhibitorの初期複合体立体構造を 432 (3 X 6 X 24)通り発生させた。 このうち、 Xylanaseと Xylanase Inhibitorの分子間衝突が少ない 20の複合体を候 補とした。
[0178] これら 20個の Xvlanase— Xylanase Inhibitor複合体予測データに対して、相互
作用部位の予測方法 (プログラム)を用いて、タンパク質双方の相対配置を変化させ
、ドッキング状態判定スコアを参考にして Xylanase— Xylanase Inhibitor複合体予 測座標データを求めた。それら立体構造予測結果と、 CAPRI Round5の締め切り 後に公開された Xylanase— Xylanase Inhibitor複合体の X線結晶解析データ(P DB ID: 1T6G)につ!/、て、 Xylanase部分(下側)を RMSフィットしたときの Xylanas e Inhibitor (上側)の立体配置の一つを図 74に示す。図 74に示すように、 Xylanas eのドッキング部位が正確に予測されていることがわかる。
産業上の利用可能性
[0179] 以上のように、本発明にかかる相互作用部位予測装置、相互作用部位予測方法、 プログラム、および記録媒体は、より真に近いタンパク質 -タンパク質複合体立体構 造を予測したり、相互作用部位を予測したりする。従って、本発明は、医農薬分子の 設計に極めて有用である。また、本発明は、タンパク質 タンパク質複合体立体構造 をについて大量にホモロジ一モデリングを行う際に、きわめて有効である。
[0180] また、本発明は、医農薬の分子設計などを中心に、生物情報の解析を行う分野 (バ ィォインフォマテイクス)において、極めて有用であると考えられる。そして、本発明は 、産業上多くの分野、特に医薬品、食品、化粧品、医療、構造解析、機能解析などの 分野で広く実施することができ、故に極めて有用である。