WO2005081166A1

WO2005081166A1 - 相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体

Info

Publication number: WO2005081166A1
Application number: PCT/JP2005/003047
Authority: WO
Inventors: Hideaki Umeyama; Mayuko Shitaka; Genki Terashi
Original assignee: In-Silico Sciences, Inc.
Priority date: 2004-02-24
Filing date: 2005-02-24
Publication date: 2005-09-01
Also published as: JPWO2005081166A1; JP4751822B2

Abstract

　本発明は、タンパク質−タンパク質相互作用を研究するため相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体を提供することを目的とする。本発明は、タンパク質−タンパク質複合体立体構造既知である情報から、タンパク質−タンパク質相互作用を解析できるようにするため、三次元情報や統計情報を含んだデータベースを作成する。また、本発明は、当該データベースを用いることで、タンパク質−タンパク質複合体立体構造が未知のタンパク質の相互作用部位予測や、立体構造が未知のタンパク質の相互作用部位予測、タンパク質−タンパク質複合体立体構造の相対位置予測を精度よく行い、複数鎖タンパク質立体構造のホモロジーモデリングの結果の最適化や、ホモロジーモデリングの為のタンパク質−タンパク質複合体立体のアライメントの評価を精度よく行う。

Description

明細書

相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体

技術分野

[0001] 本発明は、相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体に関し、特に、タンパク質の相互作用部位を予測する相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体に関するものである。本発明により提供されるタンパク質-タンパク質複合体の結合状態の解析結果は、医農薬品の設計や、タンパク質機能解析において有用である。

背景技術

[0002] (1)タンパク質-タンパク質ドッキング構造予測につ!/、て

タンパク質の機能は、タンパク質の相互作用として捉えることができる。その一つとして、タンパク質-タンパク質ドッキング解析が行われているが、巨大分子同士の計算となるため、計算規模が非常に大きくなり、その本格的利用がまだ行われていないという問題点がある。

[0003] (2)タンパク質複合体のホモロジ一モデリング法につ!、て

立体構造が既知のタンパク質に関する情報を利用し、立体構造が未知の目的タンノク質とのァライメントを得て、このァライメント情報に基づいて目的タンパク質の立体構造をコンピュータを用いて作成することが可能であり、この手法は通常、ホモロジ一モデリング (homology modeling)と呼ばれて!/、る。この方法を用いて、複数鎖タンパク質やタンパク質複合体の立体構造を構築する場合、実際には、相対配置が、用いた立体構造が既知のタンパク質と異なるのにもかかわらず、用いた立体構造が既知のタンパク質と同じ相対配置に立体構造を構築してしまうという問題点がある。

[0004] (3)複数鎖タンパク質のァライメント評価につ！、て

ホモロジ一モデリングにおいて、重要な情報であるァライメント情報は、立体構造既知のタンパク質立体構造のアミノ酸配列情報に対して、ホモロジ一検索を行うことで取得するのが一般的である。このホモロジ一検索とァライメントを行うためには、 FAS TA (例えば、非特許文献 1参照。）や PSI-BLAST (例えば、非特許文献 2参照。 ) 等のコンピューターソフトを使用する事ができる。

[0005] ホモロジ一検索を行うと、一般的に各ァライメントについてホモロジ一と e値を得ることができる。ホモロジ一は残基一致度（％)である。 e値 (Expected Value)は、データベースにおいて全く偶然に同じスコアになる配列の数の期待値、すなわちそのァラィメントのスコアがどの程度まれであるのかを示す指標であり、小さければ小さいほど似た配列は他に見つかりにくぐ偶然には見つ力りにくいことを表わしている。求めたァライメントスコアが偶然出てしまう確率を P— valueとすると、データベース中でこのスコアの配列が偶然にホモロジ一検索により探索される配列数は、 DB— size X p— valu e ( = E— value)で求められる。ホモロジ一モデリングにおいて、ァライメントの評価は、このホモロジ一と E— valueで行うのが主流である。

[0006] タンパク質複合体についてァライメントを作成する場合も同様に、ホモロジ一と E-v alueでァライメントの評価を行っており、複合体としての評価を行って、るわけではない、という問題点がある。

[0007] 非特許文献 1 : Pearson WR, Methods Enzymol, 266, 277-258, 199 6

非特許文献 2： Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Ara vund L and Altschul SF, Bioinform atics, 12 , 1000—1011, 19 99

発明の開示

発明が解決しょうとする課題

[0008] 本発明者等は、タンパク質タンパク質ドッキング構造を予測する方法について検討を行った。タンパク質-タンパク質ドッキング構造予測は、巨大分子同士の計算となるため、その計算規模が巨大になる問題点がある。本発明が解決しょうとする課題は、上記の状況を鑑みて、医薬品などの開発に特に重要な鍵となる、タンパク質複合体の相互作用を、高速かつ簡便に評価する方法を提供することにある。また、そのための前処理として、タンパク質表面の表現方法と、相互作用部位になりやすい傾向を数値化する方法考案することで、タンパク質の相互作用部位を予測する方法を提供することにちある。

[0009] また、複数鎖タンパク質の立体構造をホモロジ一モデリング法を用いて構築する場合、目的タンパク質の相対配置が用いた立体構造が既知のタンパク質と異なるのにもかかわらず、そのまま、用いた既知のタンパク質と同じ相対配置に立体構造を構築してしまうという問題点がある。本発明が解決しょうとする課題は、上記の状況を鑑みて、医薬品などの開発に特に重要な鍵となる、複数鎖を有する任意のタンパク質についてホモロジ一モデリングを行った結果を、より精度良く最適化する方法を提供することにある。また、そのための前処理として、ホモロジ一モデリング後の立体構造モデル表面の表現方法と、相互作用部位になりやす、傾向を数値化する方法考案することで、立体構造モデルの相互作用部位を予測する方法を提供することにもある。

[0010] また、ァライメントプログラムの類似度の指標となるホモロジ一や、 e— valueは、参照タンパク質のアミノ酸配列と、検索を行ったデータベースに依存した数値であり、複合体としての評価を行っているわけではない。したがって、正しく複合体として評価はしていない問題点が生じる。本発明の課題は上記の状況を鑑みて、タンパク質複合体データベースにより、ァライメントからホモロジ一モデリングを行うことで作成されるタンパク質複合体の立体構造の形成しやすさの指標も含めた、ァライメントの評価を精度良く行う方法を提供することにある。

課題を解決するための手段

[0011] 本発明者等は、タンパク質タンパク質相互作用を解析することを目的とした方法を検討した結果、相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体を開発した。ここで、以下に記した規定値または式は、それぞれ変更可能な値または関数であり、本発明の範囲を制限するものではない。

[0012] このような目的を達成するために、本発明にかかる相互作用部位予測装置は、タンパク質の相互作用部位の予測を行う相互作用部位予測装置であって、複数のタンパク質ータンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和力も所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる表面グリッド点発生手段と、上記表面グリッド発生手段にて発生させた各表面グリッドついて、他のチェーンの表面原子半径に重なっているか否力判定し、接触部位グリッドを選択する接触部位グリッド選択手段と、アミノ酸残基のパターン毎に

、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択手段にて上記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータベース作成手段と、相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発生手段と、上記対象タンパク質表面グリッド発生手段にて発生させた上記対象タンパク質の各表面グリッドにつ!/、て、上記接触部位グリッドデータベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測する相互作用部位予測手段と、を備えたことを特徴とする。

また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部位予測装置において、上記相互作用部位予測手段は、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測すること、を特徴とする。

ScO 二

(数式 1において、 iは注目する接触アミノ残基パターンである。 Cは、パターン iに対するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウント数であり、その差である（C -Con)の数値は、非接触部位でのカウント数である。 [0014] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部位予測装置にぉ、て、上記相互作用部位予測手段にて予測された上記相互作用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タンノ^質の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段、をさらに備えたことを特徴とする。

[0015] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部位予測装置において、上記ドッキング状態探索手段は、複数のタンパク質-タンパク質複合体立体構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成手段と、上記接触相対配置座標データベース作成手段にて作成された上記接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成手段と、上記距離分布データベース作成手段にて作成された上記距離分布データベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定手段と、をさらに備えたことを特徴とする。

[0016] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部位予測装置において、上記ドッキングスコア判定手段は、以下の数式 2に基づいて、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、を特徴とする。

[数 2]

Count ，

Sum; ≥ 0.05のとき f 、

SCO log

Y Total _n

ノ

Sum_i j < 0.05のとさ

SCO. ₇. 二 0

^{, J} . . . (数式 2 )

(数式 2において、

[数 3]

Count y：接触面における &ゾの組み合わせが距離に現れた個数画

S丽', , Count ,、：接触面における ί &ゾの組み合わせの総数 [数 5]

Total, =ァ &"7 ：接触面に来た ζ·の個数である。 )

[0017] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部位予測装置において、上記ドッキング状態探索手段は、上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状態を探索する相対位置変化手段、をさらに備えたことを特徴とする。

[0018] また、本発明は相互作用部位予測方法に関するものであり、本発明にかかる相互作用部位予測方法は、タンパク質の相互作用部位の予測を行う相互作用部位予測方法であって、複数のタンパク質タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和力所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる表面グリッド点発生ステップと、上記表面ダリッド発生ステップにて発生させた各表面グリッドついて、他のチェーンの表面原子半径に重なって、る力否か判定し、接触部位グリッドを選択する接触部位グリッド選択ステップと、アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータベース作成ステップと、相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発生ステツプと、上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク質の各表面グリッドにつ、て、上記接触部位グリッドデータベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測する相互作用部位予測ステップと、を含むことを特徴とする。

また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部位予測方法において、上記相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測すること、を特徴とする。

Sco_t =

(数式 1において、 iは、注目する接触アミノ残基パターンである。 C_;は、パターン iに対するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウント数であり、その差である（Ci—Con)の数値は、非接触部位でのカウント数である。 )

[0020] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部位予測方法にお!、て、上記相互作用部位予測ステップにて予測された上記相互作用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索ステツプ、をさらに含むことを特徴とする。

[0021] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部位予測方法において、上記ドッキング状態探索ステップは、複数のタンパク質-タンパク質複合体立体構造データ対して、各タンパク質タンパク質複合体の異なるチェーン間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成ステツプと、上記接触相対配置座標データベース作成ステップにて作成された上記接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成ステツプと、上記距離分布データベース作成ステップにて作成された上記距離分布データベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定ステップと、をさらに含むことを特徴とする。

[0022] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部位予測方法において、上記ドッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、を特徴とする。

[数 7] Sum- > 0.05のとき

< 0.05のとき

SCO. , = 0

J . . . (数式 2 )

(数式 2において、

[数 8]

Count y _d：接触面における f &ゾの組み合わせが距離に現れた個数 [数 9]

Siun_{t l} = ^€01 11, _i：接触面における； &ゾの組み合わせの総数 [数 10]

Total iニ：接触面に来た ί·の個数である。 )

[0023] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部位予測方法において、上記ドッキング状態探索ステップは、上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状態を探索する相対位置変化ステップ、をさらに含むことを特徴とする。

[0024] また、本発明はプログラムに関するものであり、本発明に力かるプログラムは、タンパク質の相互作用部位の予測を行う相互作用部位予測方法をコンピュータに実行させるプログラムであって、複数のタンパク質タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和力も所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる表面グリッド点発生ステップと、上記表面グリッド発生ステップにて発生させた各表面グリッドつ、て、他のチェーンの表面原子半径に重なって、る力否か判定し、接触部位グリッドを選択する接触部位ダリッド選択ステップと、アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータベース作成ステップと、相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発生ステップと、上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク質の各表面グリッドにつ、て、上記接触部位グリッドデータベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測する相互作用部位予測ステップと、を含む相互作用部位予測方法をコンピュータに実行させることを特徴とする。

また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測することゝを特徴とする。

[数 11]

Sco, =

[0026] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記相互作用部位予測ステップにて予測された上記相互作用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索ステップ、をさらに含むことを特徴とする。

[0027] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ドッキング状態探索ステップは、複数のタンパク質タンパク質複合体立体構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触して、るアミノ酸残基対について、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成ステップと、上記接触相対配置座標データベース作成ステップにて作成された上記接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成ステップと、上記距離分布データベース作成ステップにて作成された上記距離分布データベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定ステツプと、をさらに含むことを特徴とする。

[0028] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ドッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、を特徴とする。 Count_{i d}

Sum; ≥ 0.05のとき

，j

5顯ゾ < 0.05のとき

SCO. , 二 0

'ゾ . . . （数式 2 )

(数式 2において、

[数 13]

Count ,_{?J <1}：接触面における _ζ· &ゾの組み合わせが距離^に現れた個数 [数 14]

Sum' , = Y Count ：接触面における f &ゾの組み合わせの総数 [数 15]

Total 二 "：接触面に来たの個数である。 )

[0029] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ドッキング状態探索ステップは、上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状態を探索する相対位置変化ステップ、をさらに含むことを特徴とする。

[0030] また、本発明は記録媒体に関するものであり、本発明に力かるコンピュータ読み取り可能な記録媒体は、上記に記載のプログラムを記録したことを特徴とする。発明の効果

[0031] 本発明によれば、以下のような効果を期待できる。

[0032] 本発明により、タンパク質-タンパク質、薬物相互作用部位が分力もないものに対して、その部位の推定をより効率的かつ高速に行うことが可能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示す薬物の開発に効果を期待できる。また、タンパク質機能解析においても、活性部位の推定などの効果を期待できる。

[0033] また、本発明により、アミノ酸配列からコンピュータープログラムなどで予測されたタンパク質立体構造に対して、相互作用部位の推定をより効率的かつ高速に行うことが可能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示す薬物の開発に効果を期待できる。また、タンパク質機能解析において、活性部位の推定などの効果を期待できる。

[0034] また、本発明により、タンパク質複合体の結合状態を正確に予測することで、正確なタンパク質複合体の構築を行うことに効果を期待できる。また、様々なタンパク質複合体に対するドラッグデザインや、機能解析などにおいて非常に重要な役割を果たす効果が期待できる。

[0035] また、本発明により、特にホモロジ一モデリングなどのタンパク質複合体の立体構造予測の結果に対して、相対配置の最適化を行うことで、正確なタンパク質複合体構造の構築を行うことに効果を期待できる。本発明により、立体構造が未知の様々なタンパク質複合体に対するドラッグデザインや、機能解析などにおいて、効率よく精度良く解析を行うという効果が期待できる。

[0036] また、本発明により、タンパク質複合体のァライメントが多数存在する場合、効率よく生物学的に重要かつ信頼性のあるァライメントを選び出すことが可能である。このように複数鎖のタンパク質立体構造解析を効率よく行う本発明は、タンパク質に作用するドラッグデザイン、スクリーニングといった創薬の分野で、大規模なタンパク質複合体のホモロジ一モデリングを効率よく高速に精度良く解析を行うという効果を期待できる

図面の簡単な説明 [図 1]図 1は、本発明における「接触」の定義を示す図である。

[図 2]図 2は、本発明における「表面グリッド点」の定義を示す図である。

[図 3]図 3は、本発明における「接触部位グリッド点」の定義を示す図である。

[図 4]図 4は、本発明でのアミノ酸側鎖の 3次元相対配置データベースのうち、 PHE—

PHEの 3次元相対配置のデータを視覚化したものを示す図である。

[図 5]図 5は、タンパク質タンパク質相互作用データベースでのデータベース作成方法の一例を示すフローチャートである。

[図 6]図 6は、相互作用部位予測方法の一例を示すフローチャートである。

[図 7]図 7は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッキング）でのフローチャートである。

[図 8]図 8は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッキング)での相対位置変化を示す図である。

[図 9]図 9は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッキング)で使用されている、乱数を使用した相対位置探索の工程の一例を示すフロ一チャートである。

[図 10]図 10は、本発明における水素結合の定義を示す図である。

[図 11]図 11は、複数鎖タンパク質のホモロジ一モデリングを行うに際して、データべ一スとァライメントファイルを用いて、相互作用状態の予測工程の一例を示すフローチャートである。

[図 12]図 12は、 ALAと接触していたアミノ酸残基について、 C α間距離における分布を表して、るデータベースの一例を示す図である。

[図 13]図 13は、図 12をグラフで示す図である。

[図 14]図 14は、 ALAと接触していたアミノ酸残基について、 C α間距離における分布を表して、るグラフの一例を示す図である。

[図 15]図 15は、 ARGと接触していたアミノ酸残基について、 C α間距離における分布を表して、るグラフの一例を示す図である。

[図 16]図 16は、 ASNと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。 [図 17]図 17は、 ASPと接触していたアミノ酸残基について、 C a間距離における分布を表して、るグラフの一例を示す図である。

[図 18]図 18は、 CYSと接触していたアミノ酸残基について、 C o;間距離における分布を表して、るグラフの一例を示す図である。

[図 19]図 19は、 GLNと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 20]図 20は、 GLUと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 21]図 21は、 GLYと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 22]図 22は、 HISと接触していたアミノ酸残基について、 C o;間距離における分布を表して!/、るグラフの一例を示す図である。

[図 23]図 23は、 ILEと接触していたアミノ酸残基について、 Cひ間距離における分布を表して!/、るグラフの一例を示す図である。

[図 24]図 24は、 LEUと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 25]図 25は、 LYSと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 26]図 26は、 METと接触していたアミノ酸残基について、 C α間距離における分布を表して、るグラフの一例を示す図である。

[図 27]図 27は、 ΡΗΕと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 28]図 28は、 PROと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 29]図 29は、 SERと接触していたアミノ酸残基について、 C α間距離における分布を表して、るグラフの一例を示す図である。

[図 30]図 30は、 THRと接触していたアミノ酸残基について、 C a間距離における分布を表して、るグラフの一例を示す図である。 [図 31]図 31は、 TRPと接触していたアミノ酸残基について、 Cひ間距離における分布を表して、るグラフの一例を示す図である。

[図 32]図 32は、 TYRと接触していたアミノ酸残基について、 C a間距離における分布を表して、るグラフの一例を示す図である。

[図 33]図 33は、 VALと接触していたアミノ酸残基について、 C a間距離における分布を表して、るグラフの一例を示す図である。

[図 34]図 34は、アミノ酸対の親和性マトリクスの一例を示す図である。

[図 35]図 35は、アミノ酸残基の種類、タンパク質表面に現れた個数、接触部位に現れた個数データベースの一例を示す図である。

[図 36]図 36は、実施例 2での、「PDB ID : 1JK3、 Batimastat」の相互作用部位予測の結果のグリッド点を 3次元で示す図である。

[図 37]図 37は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予測の結果のグリッド点と 2PTCの E鎖を 3次元で示す図である。

[図 38]図 38は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予測の結果のグリッド点と 2PTCの E鎖および I鎖を 3次元で示す図である。

[図 39]図 39は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予測の結果のグリッド点と 2PTCの E鎖を、相互作用部位で拡大して 3次元で示す図である。

[図 40]図 40は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予測の結果のグリッド点と 2PTCの E鎖および I鎖を、相互作用部位で拡大して 3次元で示す図である。

[図 41]図 41は、実施例 2での、「PDB 10 : 1<3?1^」の八鎖に対する相互作用部位予測の結果のグリッド点と 1QPRの A鎖を 3次元で示す図である。

[図 42]図 42は、実施例 2での、「PDB ID : 1<3?1^」の八鎖に対する相互作用部位予測の結果のグリッド点と 1QPRの A鎖および B鎖を 3次元で示す図である。

[図 43]図 43は、実施例 2での、「PDB ID : 1<3?1^」の八鎖に対する相互作用部位予測の結果のグリッド点と 1QPRの A鎖を、相互作用部位で拡大して 3次元で示す図である。 [図 44]図 44は、実施例 2での、「PDB ID: 1<3? の八鎖に対する相互作用部位予測の結果のグリッド点と 1QPRの A鎖を、相互作用部位で拡大して 3次元で示す図である。

[図 45]図 45は、実施例 3での、 SARS proteaseのホモロジ一モデリングの結果のタンパク質立体構造モデルに対して、相互作用部位予測の結果のグリッド点を相互作用部位で拡大して 3次元で示す図である。

[図 46]図 46は、実施例 3での、 SARS proteaseのホモロジ一モデリングの結果のタンパク質立体構造モデルに対して、相互作用部位予測の結果のグリッド点を、相互作用部位で拡大して 3次元で示す図である。

[図 47]図 47は、実施例 4での、検証を行った PDB IDそれぞれに対する最もスコアがよ力つた候補構造と正解構造との RMSD、候補構造の内で最も RMSDが小さかつたものの RMSDとその順位を示す図である。

[図 48]図 48は、実施例 4のドッキングの結果の-一例を示す図である。

[図 49]図 49は、実施例 4のドッキングの結果の-一例を示す図である。

[図 50]図 50は、実施例 4のドッキングの結果の-一例を示す図である。

[図 51]図 51は、実施例 4のドッキングの結果の-一例を示す図である。

[図 52]図 52は、実施例 4のドッキングの結果の-一例を示す図である。

[図 53]図 53は、実施例 4のドッキングの結果の-一例を示す図である。

[図 54]図 54は、実施例 4のドッキングの結果の-一例を示す図である。

[図 55]図 55は、実施例 4のドッキングの結果の-一例を示す図である。

[図 56]図 56は、実施例 4のドッキングの結果の-一例を示す図である。

[図 57]図 57は、実施例 4のドッキングの結果の-一例を示す図である。

[図 58]図 58は、実施例 4のドッキングの結果の-一例を示す図である。

[図 59]図 59は、実施例 4のドッキングの結果の-一例を示す図である。

[図 60]図 60は、実施例 5「立体構造未知のタンパク質複合体のホモロジ一モデリングの結果を最適化（SARS protease ダイマー構造）」での、 SARS proteaseのホモロジ一モデリングの結果の一例を示す図である。

[図 61]図 61は、実施例 5での、 SARS proteaseのホモロジ一モデリングの結果を最適化したものの一例を示す図である。

[図 62]図 62は、 X線結晶構造解析による SARS proteaseの構造「PDB ID : 1Q2 W」とホモロジ一モデリングの結果の構造を A鎖で重ね合わせたものの一例を示す図である。

[図 63]図 63は、 X線結晶構造解析による SARS proteaseの構造「PDB ID : 1Q2 W」とホモロジ一モデリングの結果の構造を最適化した構造を A鎖で重ね合わせたものの一例を示す図である。

[図 64]図 64は、実施例 6での、 tissue plasminogen activatoのアミノ酸配列データを示す図である。

[図 65]図 65は、実施例 6での、参照タンパク質が 1BHTのァライメントファイルの一例を示す図である。

[図 66]図 66は、実施例 6での、参照タンパク質が lORFのァライメントファイルの一例を示す図である。

[図 67]図 67は、実施例 7での、論文記載の bZIPの実験データを、その相互作用の強さに応じて色分けして示す図である。

[図 68]図 68は、実施例 7におけるァライメント評価のスコアについて、参照タンパク質のスコアと目的タンパク質のスコアの比を⁰ /₀で分けて、その数値の大きさに応じて色分けして示す図である。

[図 69]図 69は、実施例 7におけるある実験値が得られている配列の組み合わせについて、その実験値が得られた配列の組み合わせのうち、何％がどのような予測値をとつたかをグラフで示す図である。

[図 70]図 70は、実施例 7において、様々な閾値における「Z> 2. 5」で相互作用あり、「Z< 1. 0」で相互作用なしという実験結果、という違いを正しく予測できるかの検証結果を示す図である。

[図 71]図 71は、本発明の基本原理に関する概念図である。

[図 72]図 72は、本発明が適用される本システムの構成の一例を示すブロック図である。

[図 73]図 73は、本発明が適用される本システムのドッキング状態探索部 102fの構成の一例を示すブロック図である。

[図 74]図 74は、実施例 8におけるドッキング結果の一例を示す図である ( 符号の説明

100 相互作用部位予測装置

102 制御部

102a 表面グリッド点発生部

102b 接触部位グリッド選択部

102c 接触部位グリッドデータベース作成部

102d 対象タンパク質表面グリッド発生部

102e 相互作用部位予測部

102f ドッキング状態探索部

102fl 接触相対配置座標データベース作成部 102f2 距離分布データベース作成部

102f3 ドッキングスコア半 lj定咅

102f4 相対位置変化部

104 通信制御インターフェース部

106 記憶部

106a 表面グリッド点ファイル

106b 接触部位グリッドデータベース

106c 対象タンパク質表面グリッドファイル 106d 相互作用部位予測結果ファイル

106e ドッキング状態探索結果ファイル

106f 接触相対配置座標データベース

106g 距離分布データベース

108 入出力制御インターフェース部

112 入力装置

114 出力装置

200 外部システム 300 ネットワーク

発明を実施するための最良の形態

[0039] 以下に、本発明にかかる相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。

[0040] 本明細書において使用される用語は、特に明記しない限り次の意味を有する。

「接触」とは、異なるタンパク同士において、それぞれの側鎖の原子間距離力も原子半径を引ヽた距離が 1 A以下の場合、接触してヽる状態を意味する（図 1参照)。

「表面グリッド」とは、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の原子半径 (例えば 1. 7A)とタンパク質の原子半径の和から所定の範囲（例えば + 1 Aの範囲）に表面の原子が存在する座標を意味する（図 2参照)。

「接触部位グリッド」とは、表面グリッドの中で、他の chainの表面原子半径 (例えば半径 1. 7A)と、表面グリッドの仮想炭素の原子半径 (例えば 1. 7A)が重なっているものを意味する（図 3参照)。

「座標」とは、三次元空間上での立体構造を記述するものである。それは空間上のある点を原点とする互いに垂直な 3方向の相対的な距離であり、 3つの数値力なるベクトノレ量である。

「目的タンパク質 (ターゲット)」とは、その立体構造の詳細が X線結晶解析や NMR 解析等により完全な立体構造が決定されておらず、ホモロジ一モデリングなどの手法により立体構造構築の対象となる任意のタンパク質を意味する。このタンパク質には、部分構造は解析されているが完全な立体構造が得られていないものや、単数鎖の立体構造は得られて!/、るが、複数鎖の立体構造は得られて!/、な!、ものも含まれる。本発明において、 X線結晶解析には、 X線のみならず電子線および中性子解析等も含まれる。

「参照タンパク質 (リファレンス）」とは、その立体構造の詳細が X線結晶解析や NM R解析等により既に決定されており、目的タンパク質の立体構造を規定する原子座標を構築するために参照するタンパク質を意味する。「ァライメント」とは、 2種類以上のタンパク質についてアミノ酸配列の対応関係をつけることを意味する。

[0041] [本発明の基本原理]

ここでは、本発明の基本原理について、図 71を参照して説明する。図 71は、本発明の基本原理を示す概念図である。

[0042] まず、本発明は、複数のタンパク質タンパク質複合体立体構造データに対して、タンパク座標表面の _Xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和力所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる (ステップ S— 1)。

[0043] そして、ステップ S—1にお!/、て発生させた各表面グリッドつ、て、他のチェーンの表面原子半径に重なっている力否か判定し、接触部位グリッドを選択する (ステップ S—

2)。

[0044] そして、アミノ酸残基のパターン毎に、表面グリッドとしてカウントされた個数と、ステップ S— 2により接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する（ステップ S— 3)。

[0045] そして、相互作用部位予測の対象となる対象タンパク質構造データに対して、表面グリツドを発生させる (ステップ S-4)。

[0046] そして、ステップ S-4にて発生させた対象タンパク質の各表面グリッドにつ、て、接触部位グリッドデータベースを参照して接触判定スコアを求め、接触判定スコアに基づ、て対象タンパク質の相互作用部位を予測する (ステップ S— 5)。

[0047] ここで、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコアに基づ!/、て、上記対象タンパク質の相互作用部位を予測してもよ!/、。

[数 16] 、 L^on_k

ん =0

Sco. 二 log

∑{C_k -Con_k

(数式 1

[0048] そして、ステップ S— 5にて予測された相互作用部位に対応する表面グリッドに対して、対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態を探索する (ステップ S— 6)。

[0049] ここで、ドッキング状態を探索は、以下の 1)接触相対配置座標データベースと、 2) 距離分布データベースを予め作成しておき、当該距離分布データベースを用いてスコアを算出することにより行ってもよい。

1)接触相対配置座標データベース

複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパク質複合体の異なるチェーン間で接触して、るアミノ酸残基対にっ、て、相対配置座標データを求め、接触相対配置座標データベースを作成する。

2)距離分布データベース

接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する。

[0050] そして、距離分布データベースを用いて、以下の数式 2に基づ!/、て、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索してもよい。

[数 17] Count }

Sum; ≥ 0.05のとき

SCO _j = -

Sum: < 0.05のとき

SCO. . 二 0

l,^J . . . (数式 2 )

(数式 2において、

[数 18]

Count _t 接触面におけるゾの組み合わせが距離^こ現れた個数 [数 19]

Sum, _:

：接触面における ί &ゾ'の組み合わせの総数 [数 20]

Total, 二

：接触面に来た ζ·の個数である。 )

[0051] また、ドッキング状態の探索は、対象タンパク質と結合タンパク質の相対位置を変化させることにより、より最適化されたドッキング状態を探索することができる。

[0052] [システム構成]

ここでは、本発明が適用される本システムの構成について、図 72を参照して詳細に説明する。図 72は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。 [0053] 図 72に示すように、本システムは、概略的に、タンパク質の相互作用部位の予測を行う相互作用部位予測装置 100と、外部データベースや各種の外部プログラムなどを提供する外部システム 200とを、ネットワーク 300を介して通信可能に接続して構成されている。

[0054] ネットワーク 300は、相互作用部位予測装置 100と外部システム 200とを相互に接続する機能を有し、例えばインターネットや LANなどである。

[0055] 外部システム 200は、ネットワーク 300を介して、相互作用部位予測装置 100と相互に接続され、利用者に対してタンパク質立体構造データなどに関する外部データベースや各種の外部プログラムを実行するウェブサイトを提供する機能を有する。ここで、外部システム 200は、 WEBサーバや ASPサーバ等として構成してもよぐそのハードウェア構成は、一般に巿販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム 20 0の各機能は、外部システム 200のハードウェア構成中の CPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等、およびそれらを制御するプログラム等により実現される。

[0056] 相互作用部位予測装置 100は、概略的に、相互作用部位予測装置 100の全体を統括的に制御する CPU等の制御部 102と、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部 104と、各種のデータベースやファイルなどを格納する記憶部 106と、入力装置 112や出力装置 114に接続される入出力制御インターフェース部 108と、を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、相互作用部位予測装置 100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク 300に通信可能に接続されている。

[0057] 記憶部 106に格納される各種のデータベースやテーブルやファイル（表面グリッド点ファイル 106a—距離分布データベース 106g)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータべースゃウェブページ用ファイルなどを格納する。

[0058] これら記憶部 106の各構成要素のうち、表面グリッド点ファイル 106aは、後述する表面グリッド点発生部 102aにより発生された表面グリッド点を格納する表面グリッド点格納手段である。接触部位グリッドデータベース 106bは、後述する接触部位グリッドデータベース作成部 102cにより作成された接触部位グリッドデータベースを格納する接触部位グリッドデータベース格納手段である。対象タンパク質表面グリッドフアイル 106cは、後述する対象タンパク質表面グリッド発生部 102dにより発生された対象タンパク質の表面グリッドを格納する対象タンパク質表面グリッド格納手段である。相互作用部位予測結果ファイル 106dは、後述する相互作用部位予測部 102eにより予測された相互作用部位の予測結果を格納する相互作用部位予測結果格納手段である。ドッキング状態探索結果ファイル 106eは、後述するドッキング状態探索部 10 2fにより探索されたドッキング状態の結果を格納するドッキング状態探索結果格納手段である。接触相対配置座標データベース 106fは、後述する接触相対配置座標データベース作成部 102flにより作成された接触相対配置座標データベースを格納する接触相対配置座標データベース格納手段である。距離分布データベース 106gは、後述する距離分布データベース作成部 102f2により作成された距離分布データべースを格納する距離分布データベース格納手段である。

[0059] 通信制御インターフェース部 104は、相互作用部位予測装置 100とネットワーク 30 0 (またはルータ等の通信装置）との間における通信制御を行う。すなわち、通信制御インターフェース部 104は、他の端末と通信回線を介してデータを通信する機能を有する。

[0060] 入出力制御インターフェース部 108は、入力装置 112や出力装置 114の制御を行う。ここで、出力装置 114としては、モニタ (家庭用テレビを含む）の他、スピーカ等を用いることができる（なお、以下においては出力装置 114をモニタとして記載する場合がある。 ) oまた、入力装置 112としては、キーボードやマウス、マイクなどを用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。

[0061] 制御部 102は、 OS (Operating System)等の制御プログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により種々の処理を実行するための情報処理を行う。制御部 102は、機能概念的に、表面グリッド点発生部 1 02aと、接触部位グリッド選択部 102bと、接触部位グリッドデータベース作成部 102c と、対象タンパク質表面グリッド発生部 102dと、相互作用部位予測部 102eと、ドツキング状態探索部 102fと、を含んで構成されている。

[0062] これら制御部 102の各構成要素のうち、表面グリッド点発生部 102aは、複数のタンパク質タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和から所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる表面グリッド点発生手段である。接触部位グリッド選択部 102bは、表面グリッド発生部 102aにて発生させた各表面グリッドついて、他のチェーンの表面原子半径に重なってヽるカゝ否か判定し、接触部位グリッドを選択する接触部位グリッド選択手段である。

[0063] 接触部位グリッドデータベース作成部 102cは、アミノ酸残基のパターン毎に、表面グリッドとしてカウントされた個数と、接触部位グリッド選択部 102bにて接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータベース作成手段である。対象タンパク質表面グリッド発生部 102dは、相互作用部位予測の対象となる対象タンパク質構造データに対して、表面グリッドを発生させる対象タンパク質表面グリッド発生手段である。相互作用部位予測部 102eは、対象タンパク質表面グリッド発生部 102dにて発生させた対象タンパク質の各表面グリッドにつ、て、接触部位グリッドデータベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて対象タンパク質の相互作用部位を予測する相互作用部位予測手段である。

[0064] ドッキング状態探索部 102fは、相互作用部位予測部 102eにて予測された相互作用部位に対応する表面グリッドに対して、対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段である。ここで、ドッキング状態探索部 102fは、図 73に示すように、接触相対配置座標データベース作成部 102flと、距離分布データベース作成部 102f 2と、ドッキングスコア判定部 102f3と、相対位置変化部 102f4と、をさらに含んで構成されている。接触相対配置座標データベース作成部 102flは、複数のタンパク質-タンパク質複合体立体構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成手段である。距離分布データベース作成部 102f2は、接触相対配置座標データベース作成部 102flにて作成された接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成手段である。ドッキングスコア判定部 102f3は、距離分布データベース作成部 102f2にて作成された距離分布データベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定手段である。相対位置変化部 102f4は、対象タンパク質と結合タンパク質の相対位置を変化させることにより、最適化されたドッキング状態を探索する相対位置変化手段である。

[0065] なお、これら各部によって行われる処理の詳細については、後述する。

[0066] [システムの処理]

ここでは、上述のように構成された本実施の形態における本システムの処理の一例について、図を参照して詳細に説明する。

[0067] I.タンパク質タンパク質相互作用データベース

相互作用部位予測装置 100を用いて、制御部 102の処理により、タンパク質-タンパク質複合体立体構造が既知のタンパク質相互作用状態についてデータベースィ匕を全自動で行い、 3種類のデータベース (接触部位グリッドデータベース、距離分布データベースおよび接触相対配置座標データベース）を作成する。ここで、本実施形態では、タンパク質タンパク質複合体立体構造として、 PQS (Protein Quaternar y Structure file server : http : / / pqs. ebi. ac. uk/ HenricK K, Thor nton JM. Related Articles, Links PQS : a protein quaternary stru cture file server. Trends Biochem Sci. 1998 Sep ; 23 (9)： 358—61 . )データベースを使用する力任意のタンパク質タンパク質複合体立体構造データベース PDB (Protein Data Bank： Protein Data Bank http： / / www. r csb. orgZpdbZ)や、自分で作成した特定のタンパク質ファミリーの構造を集めた構造データベースなどを使用してもよい。以下、それぞれのデータベース作成手順を説明する。

[0068] 1-1.接触相対配置座標データベース (アミノ酸残基対の種類と、 3次元相対位置のデータベース）（図 5に示す符号 (2)参照）

ドッキング状態探索部 102fは、接触相対配置座標データベース作成部 102flの処理により、入力したタンパク質タンパク質複合体立体構造データに対して、「接触」の定義に当てはまる、異なるチェーン間の接触しているアミノ酸残基対について、相対配置座標を求める。換言すると、基準となるアミノ酸側鎖に対して、 xyz座標系で、接触している側鎖が相対的にどの位置にあるのかをデータ化する。

[0069] なお、アミノ酸側鎖はどれも同じ構造を持っているわけではないので、具体的には、アミノ酸側鎖の原子のうち構造や物性や機能において重要な 3原子を選定し、選定した 3原子で構成される平面を基準にして xyz座標系を定める。ここで、選定する 3原子は任意であるため、側鎖に限った接触相対配置座標データベースではなぐタンパク質主鎖にぉ、ての接触相対配置座標データベースを作成してもよヽ。図 4は、接触相対配置座標データベース（3次元相対位置のデータベース）のデータを視覚化したものである。なお、図 4では PHE— PHEの相対配置を表している。

以上の処理を PQSデータベースの 11785個のモデルにつ!、て行!、、接触相対配置座標データベースを作成する。

[0070] 1-2.距離分布データベース (アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など)の距離分布データベース）（図 5に示す符号 (3)参照）

ドッキング状態探索部 102fは、距離分布データベース作成部 102f 2の処理により、作成された接触相対配置座標データベースのデータから任意の原子間につ、ての距離分布を求め、距離分布データベースを作成する。なお、距離分布データべ一ス (特定原子間距離データベース）は、 C a -C a間の距離の分布を表しており、アミノ酸対の種類と、 C a -C a間の距離のカテゴリのどの部分に多く存在しているかを示している。また、距離カテゴリは 1A間隔である。ここで、任意の原子間についての距離を求めるので、 C jS -C jS間、 C a— C γ間、 Ν— Ν間等での距離分布データベースを作成してもよい。

[0071] 1-3.接触部位グリッドデータベース (アミノ酸残基の種類、タンパク質表面に現れた個数、接触部位に現れた個数データベース）（図 5に示す符号（1)参照）

相互作用部位予測装置 100は、表面グリッド点発生部 102aの処理により、複数鎖タンパク質立体構造にっ、て、それぞれのタンパク分子に対して表面グリッドをタンパク質 -タンパク質複合体立体構造データに対して発生させる。つぎに、相互作用部位予測装置 100は、接触部位グリッド選択部 102bや接触部位グリッドデータベース作成部 102cの処理により、接触している残基ごとに表面グリッドの個数を数える。なお、複数の残基に同時に接触している表面グリッドについても、その種類ごとに個数を数える。ただし、例えば、 CYS、 ALA、 GLYに接触している表面グリッド、および A LA、 CYS、 GLYに接触している表面グリッドについては、同一のパターンのカテゴリとして個数を数える。また、例えば、 LYSと LYSの 2残基に同時に接触している表面グリッドについては、「LYS 'LYS」のパターンのカテゴリとして個数を数えることで、接触している個数も考慮する。さらに、その表面グリッドが接触部位に現れていた場合は、そのパターンの接触部位についても加算する。

II.上述したデータベースを用いて、任意のタンパク質の相互作用部位を予測する方法 (図 6参照）

相互作用部位予測装置 100は、制御部 102の処理により、作成された接触部位グリツドデータベースを用いて接触部位予測を行う。具体的には、まず、相互作用部位予測装置 100は、対象タンパク質表面グリッド点発生部 102cの処理により、入力されたタンパク質立体構造データに対して表面グリッドを発生させる（図 6に示す符号（1) 参照)。つぎに、相互作用部位予測装置 100は、相互作用部位予測部 102eの処理により、表面グリッドそれぞれについての接触しているアミノ酸残基のデータから、その表面グリッドそれぞれにつ、て、接触部位グリッドデータベースを参照して検索を行う（図 6に示す符号 (2)参照)。つぎに、相互作用部位予測装置 100は、相互作用部位予測部 102eの処理により、この検索によって得られたデータ力も数式 1に従つてスコアを計算し、計算されたスコアに基づいて相互作用部位を予測する（図 6に示す符号 (3)参照)。なお、計算されたスコアはその表面グリッドから接触部位への来易さを数値で表して、るので、スコアが高、表面グリッドが集まって、る部分を接触部位として予測してもよい。 [数 21]

Sco_; 二

(数式 l )

(数式 1において、 iは、注目する接触アミノ残基パターンである。 C_;は、パターン iに対するデータベース内での表面グリッド数である。 Conは、接触部位でのパターン iの力ゥント数であり、その差である（C_; Con)の数値は、非接触部位でのカウント数である o )

[0073] そして、相互作用部位予測装置 100は、制御部 102の処理により、出力情報として、各表面グリッドの座標とスコアを PDBファイル形式で出力する（図 6に示す符号（3) 参照)。なお、予め設定した閾値以上のデータの座標とスコアを PDB形式で出力してちょい。

[0074] III.上述した IIの処理を行い、立体構造未知のタンパク質の相互作用部位を予測する方法

まず、立体構造未知のタンパク質のアミノ酸配列に対して、ホモロジ一モデリングなどを行い、その立体構造を予測する。つぎに、ホモロジ一モデリングなどで予測された立体構造に対して、上述した Πと同様の処理を行い、相互作用部位を予測する。

[0075] IV.結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッキング）図 7は、結合状態未知である複数鎖タンパク質の結合状態を探索する工程の一例を示すフローチャートである。

[0076] まず、相互作用部位予測装置 100は、制御部 102の処理により、上述した IIの処理を行うことにより、入力したタンパク質立体構造データカゝら接触部位予測を行う（図 6 に示す符号（2)やステップ SA— 1、ステップ SA— 2参照)。 [0077] つぎに、相互作用部位予測装置 100は、ドッキング状態探索部 102fの処理により、ステップ SA— 2にて予測されたグリッドデータについて、接触傾向が高いと予測された表面グリッドが、接触部位にくるようなドッキング状態を探索する (ステップ SA— 3)。ここで、すべての相対配置を検索する全検索法は膨大な時間が力かるため、乱数を使用して検索を行う方法を使用してもよい（図 9参照)。また、相対位置変化部 102f4 で行われる相対位置の変化の方法は、具体的には、例えば、自由度 5の角度変化（ xyz軸回転方向と、一方のタンパク分子の重心を原点とした相対位置関係 xy軸方向 )および距離である。図 8は、 2分子のタンパク質分子構造のうち一方を受容体タンパクとしもう一方をリガンドタンパクとした場合に、受容体タンパクの重心からリガンドタンパクの重心を見る位置での、リガンドタンパク質の相対位置変化を示している。なお、図 8において、リガンドタンパクの重心と受容体タンパクの重心とを結んだ直線力軸方向となる。

[0078] ここで、ステップ S A— 3にお、て、乱数を使用して相対位置を決定し、ドッキング状態を探索する工程について、図 9を参照して説明する。図 9は、乱数を使用して相対位置を決定し探索する工程の一例をフローチャートにしたものである。

[0079] まず、ドッキング状態探索部 102fは、乱数を発生させてスタート地点を決め、同時に、スタート地点のスコアを求める（ステップ SB— 1)。なお、当該スコアは、表面グリツドのうち接触部位に存在しているものを対象とする数式 1のスコアの総和である。ここで、スタート地点はあらゆる場所に決定することが可能である力およその接触部位が判明している場合には、範囲を指定してもよい。これにより、計算時間の短縮と精度の向上を図ることができる。

[0080] つぎに、ドッキング状態探索部 102fは、相対位置変化部 102f4の処理により、スタート地点から、 5つの自由度を持つ角度について、それぞれ士 N度の範囲内で乱数を発生させて相対位置を決定する (ステップ SB-2)。

[0081] つぎに、ドッキング状態探索部 102fは、ドッキングスコア判定部 102f3の処理により、その状態のスコアを計算し (ステップ SB— 3)、計算したスコアが移動前のスコアより改善された力どうかを調べる (ステップ SB-4)。

[0082] ここで、スコアが改善された場合 (ステップ SB— 4： Yes)、その場所を新たなスタート地点として (ステップ SD— 5)、その場所から士 N度の範囲内で再び乱数を発生させて相対位置を再び決定し (ステップ SB— 2)、スコアの改善が見られるかを再び探索する（ステップ SB-3およびステップ SB-4)。スコアが改善されて!、な!/、場合 (ステツプ SB— 4 : No)、内部変数 mをインクリメントし (ステップ SB— 6)、インクリメントして mが指定した回数 M以下であるか否かを判定し (ステップ SB— 7)、 m以下である場合 (ステツプ SB—7 :Yes)にはステップ SB— 2に戻り、 m以下でない場合 (ステップ SB—7 :N o)にはステップ SB— 8へ進む。つまり、指定した回数 Mに達するまで、乱数を発生させてはスコアが改善されたかを繰り返し調べる。

[0083] つぎに、ドッキング状態探索部 102fは、改善が見られない回数 mが M回以上になつた場合 (ステップ SB— 7 : No)、乱数の幅 Nが 1より大きければ (ステップ SB—8 :Yes )、乱数の幅 Nの値を 1減らし (ステップ SB— 9)、さらに mを 0に初期化して (ステップ S B— 10)、再びステップ SB— 2に戻る。そして、乱数の幅 Nが 1以下になるまで上述した処理を繰り返し、ローカルミニマムに達するまで行う。

[0084] つぎに、ドッキング状態探索部 102fは、乱数の幅 Nが 1以下の場合 (ステップ SB— 8 : No)、ローカルミニマムに達したと見なして、その相対位置情報とスコアをリストに加える（ステップ SB-11)。

[0085] つぎに、ドッキング状態探索部 102fは、リスト内の候補構造の個数が指定個数 p未満であるか否かを判定し、 p未満であれば (ステップ SB— 12 : Yes)、ステップ SB— 1に戻り、上述した処理を繰り返す。また、指定個数 pに達すれば (ステップ SB— 12 : No) 、処理を終了する。これにて、ドッキング状態を探索する方法について説明を終了する。

[0086] 再び図 7に戻り、相互作用部位予測装置 100は、制御部 102の処理により、上記の処理により候補構造のリストを作成した後、すべての候補構造に対して、クラスタリングを行う（ステップ SA— 4)。なお、具体的には、例えば、クラスタリングされたクラスタ一内でスコアが最も良いものを候補構造とする。

[0087] つぎに、ドッキング状態探索部 102fは、ドッキングスコア判定部 102f3の処理により、距離分布データベースを使用した構造の評価と、主鎖水素結合の個数を判定する (ステップ SA— 5)。ここで、距離分布データベース（populationデータベース）を使用したスコアの計算は、数式 2に基づいて行ってもよい,

[数 22]

C ountノ-"

Sum, ≥ 0.05のとさ

-く 0.05のとき

SCO_l , 二 0

•^J . . . (数式 2 )

(数式 2において、

[数 23]

Count _! ：接舢におけるゾの組み合わせが距離 Jに現れた個数 [数 24]

Sum_{i t} = Y Count _{i j d}：接触面における ι· &ゾの組み合わせの総数 [数 25]

Total, 二 " /：接触面に来た¹'の個数である。 )

ここで、ステップ SA— 5におレ、て、水素結合の判定は、厳密な水素結合判定ではなぐ水素結合になりうる可能性があるものまで考慮する目的から、厳密な水素結合の定義とは異なるものを水素結合としてもよい。また、 PDB形式のファイルにおいて、 N についた Hがない場合がほとんどであるため、水素はプログラムにより擬似的なものを計算して付加してもよい。なお、本実施形態において、水素結合の定義は「z CO

N> 90° かつ ZCOH> 90° かつ O N間距離く 3. 9 A」とする（図 10参照）。

[0089] また、水素結合個数、距離分布データベース（populationデータベース）によるスコア、接触部位予測グリッドによるスコアの 3つを合計して下記のトータルスコア（total score)としてもよい。ここで、本実施形態において、下記のトータルスコアにおいて、係数 aを 1000、 bを 10000と設定する。ただし、この係数は任意であり、条件によって変更する。

[数 26] totalscore =—接触部位予測 grid score + a x population score - b x水秦ォ合個银

[0090] つぎに、相互作用部位予測装置 100は、制御部 102の処理により、トータルスコア順に、候補構造を並べ替えて、候補構造のランキングとして出力をする (ステップ S A 6)。

[0091] V.立体構造未知の複数鎖タンパク質の結合状態を探索する方法

まず、相互作用部位予測装置 100は、立体構造未知のタ複数鎖タンパク質のァミノ酸配列に対して、ホモロジ一モデリングなどを行い、その立体構造を予測する。次に、相互作用部位予測装置 100は、ホモロジ一モデリングなどで予測された複数鎖タンノ^質の立体構造に対して、上述した IVと同様の処理を行い、相対配置の最適化を行う。

[0092] VI.複数鎖タンパク質のホモロジ一モデリングを行うに際して、上述した IIにおけるデータベースとァライメントファイルを用いて、相互作用状態の予測を行う方法

図 11は、複数鎖タンパク質のホモロジ一モデリングを行うに際して、上述した IIにおけるデータベースとァライメントファイルを用いて、相互作用状態の予測を行う工程の一例を示すフローチャートである。

[0093] まず、入力したァライメントファイルに記述されている参照タンパク質の PDB IDの立体構造データ（PDB形式ファイル)を取得し、その構造データから異なるチェーン間で接触して、るアミノ酸残基を判定する (ステップ SC-1)。

[0094] つ!、で、ァライメントファイル内の参照タンパク質のアミノ酸配列データにっ、て、接触して!/ヽるアミノ酸残基対の対応関係を定める (ステップ SC— 2)。

[0095] っ、で、ステップ SC— 2にて得られた対応関係を、ァライメントファイル内の目的タンパク質のアミノ酸配列データにつ!ヽて、接触して!/ヽるアミノ酸残基対の対応関係を定める (ステップ SC-3)。つまり、参照タンパク質で接触しているアミノ酸残基の情報から、その同じ位置にァライメントされたアミノ酸残基も同様に接触しているものとしている。これにより、目的タンパク質の立体構造の情報が無い場合でも、アミノ酸残基の接触の推定を迅速に行うことができる。

[0096] つ!、で、ステップ SC— 2およびステップ SC— 3にて得られた目的タンパク質および参照タンパク質の両方について、アミノ酸残基対の接触の情報をアミノ酸残基対の親和性について記述されたスコアマトリックスに照合させて、その和をスコアとする (ステツプ SC— 4)。ここで、このスコアの関数は数式 4の通りである。なお、数式 4のスコアは一つのアミノ酸対のスコアにっ、てであり、実際に接触して、る個数分のこのスコアの和が、そのアミノ酸配列のスコアである。

[数 27]

SCO I., J =

(数式 4

[数 28]

Counte d：接触面におけるゾの組み合わせが距離に現れた個数

[数 29]

Sum, , ^ ^ Count^ ,：接触面における ζ· &ゾの組み合わせの総数 [数 30]

Total Sum ：接触面に来たの個数 [0097] っ、で、参照タンパク質（リファレンス）と、目的タンパク質 (ターゲット）のアミノ酸配列（シーケンス)それぞれにつ、てスコアが計算され、それを比較する (ステップ SC- 5)。これにより、目的タンパク質のアミノ酸配列の評価をすることができる。ここで、参照タンパク質が、実験的に結合していると分力つているタンパク質の立体構造情報ならば、参照タンパク質のスコアに近ければ近いほど（「目的タンパク質複合体のスコア Z参照タンパク質複合体のスコア」の数値が高ヽほど）、目的タンパク質のァライメントが、結合しやす、正ヽァライメントになって!/ヽると評価することができる。

[0098] 以上、本実施形態によれば、タンパク質-タンパク質相互作用を解析する。具体的には以下の（1)一 (6)の方法を実行する。

(1)複数鎖タンパク質の立体構造データから、タンパク質相互作用状態をデータべース化する。

(2) (1)のデータベースを用いて、任意のタンパク質-タンパク質間及び、タンパク質 -低分子化合物間の相互作用部位を予測する。

(3)立体構造未知のタンパク質立体構造に対して、ホモロジ一モデリングを行った結果、出力されたタンパク質立体構造に対して、（1)のデータベースを用いて、その相互作用部位を予測する。

(4)結合状態未知である複数鎖タンパク質の各々のタンパク質分子間の結合状態を探索する。

(5)立体構造未知のタンパク質複合体（目的タンパク質複合体)に対して、立体構造既知のタンパク質複合体 (参照タンパク質複合体)の情報を使用し、ホモロジーモデリングを行った結果、出力されたタンパク質複合体立体構造に対して、その結合状態を (4)と同様の方法で最適化する。

(6)複数鎖タンパク質のホモロジ一モデリングを行うに際して、（1)で記述されたデータベースを利用して得られた (4)で利用した相互作用の式と、ァライメントファイルを用いて、相互作用状態の予測を行う。

[0099] また、本実施形態によれば、タンパク質タンパク質複合体立体構造が既知のタンノク質相互作用状態についてデータベース化を全自動で行う。具体的には、以下の (1)一（3)の処理を行う。 ( 1)大量の複数鎖タンパク質の立体構造座標ファイルを準備する。

(2)それぞれの複数鎖タンパク質立体構造座標ファイルにつ、て、以下の（ァ)一 (ィ )の処理を行う。

(ァ)異なる鎖間での接触状態を、それぞれのアミノ酸残基に注目し、距離、相対座標のデータを得る。

(ィ)複数鎖タンパク質の表面に仮想原子 (例えば炭素等)のグリッド点を発生させて、その仮想原子が接触したアミノ酸残基の種類ごとに、その接触個数を得る。さらに複数鎖タンパク質の接触部位にある仮想原子のグリッド点のデータを得る。

(3)得られた大量のデータを、アミノ酸の種類ごとに分けてデータベース化する。データの内容は、以下の（ァ）一（ゥ）の 3種類である。

(ァ)アミノ酸残基対の種類と、三次元相対位置のデータ。

(ィ)アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など)の距離分布。

(ゥ)アミノ酸残基の種類と、タンパク質表面に現れた個数。接触部位に現れた個数また、本実施形態によれば、タンパク質タンパク質複合体立体構造が未知であるタンパク質の相互作用部位の予測を、全自動で行う。具体的には、以下の（1)一（4) の処理を全自動で行う。

( 1)タンパク質表面に仮想原子のグリッド点を発生させる。

(2)アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数をデータとして含むデータベースから、グリッド点の状態 (接触パターン）に適合するデータを検索する。

(3)データ検索の結果得られた数値から下記数式のスコア Scoを計算する。

[数 31] 、

Sco- ： log

[数 32] 接触部位におけるパタ—ン ^が現れた割合

/^{T¾ Μ}^ 非接触部位におけるパターンが現れた割合

スコアが良い場合、正の値をとる。この数式のスコア Scoにおいて、注目する接触パターンを iとする。 Cは、パターン i に対するデータベース内での表面グリッド数である。。。は、接触部位でのパターン iのカウント数であり、その差である（C -Con )の数値は、非接触部位でのカウント数である。

(4) 3次元座標にグリッド点の座標と、接触部位予測値 (Sco )を記載する。なお、予測値が高、ほど接触部位である可能性が高、グリッド点である。

また、本実施形態によれば、立体構造が未知であるタンパク質の相互作用部位の予測を、そのタンパク質の立体構造予測を行った後に、全自動で行う。具体的には、以下の（1)一 (5)の処理を全自動で行う。

(1)立体構造未知のタンパク質のアミノ酸配列から、コンピュータープログラムなどを用いて立体構造を予測し、立体構造を得る。

(2) (1)で得られたタンパク質立体構造の表面に仮想原子のグリッド点を発生させる

(3)アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数をデータとして含むデータベースから、グリッド点の状態 (接触パターン）に適合するデータを検索する。

(4)データ検索の結果得られた数値から下記数式のスコア S_COiを計算する _c

[数 33]

( f ヽ

Con!

n

∑Con_k

人- =o

^co, 二 log

Cj一こ， (9/7,

∑{C_k -Con_k )

人. =0

[数 34] 接触部位におけるパターン ίが現れた割合对¾の対象は I

'、非接触部位におけるパターン! 'が現れた割合 . スコアが良い場合、正の値をとる。この数式のスコア Scoにおいて、注目する接触パターンを iとする。 Cは、パターン i に対するデータベース内での表面グリッド数である。 Conは、接触部位でのパターン iのカウト数であり、その差である（C -Con)の数値は、非接触部位でのカウント数でめる。

(5) 3次元座標にグリッド点の座標と、接触部位予測値 (Sco)を記載する。なお、予測値が高、ほど接触部位である可能性が高、グリッド点である。

また、本実施形態によれば、タンパク質タンパク質複合体立体構造の結合状態未知である複数鎖タンパク質の結合状態を探索する方法に使用したスコア関数において、以下に示す数式に従って、アミノ酸残基対の種類と、任意の原子間（例えば C a など）の距離分布のデータベースを使用する。

[数 35]

County.,,：接触 Eにおける i &ゾの組み合わせが距離に現れた個数 [数 36]

Sum, . = Count；：接触面における &ゾの組み合わせの総数

[数 37]

Total, 匪,, ：接触面に来たの個数

[数 38]

Count ι . ι, d

Sum; ≥ 0.05のとき

ゾ

County _d

Sum; '· く 0.05のとき

SCO ¹.， j . = 0

[数 39] ί実際にァミノ酸残基 ζ·と ·が接触した個数アミノ酸残基/とゾが接触する期待値

スコアが良い場合、負の値をとる。また、本実施形態によれば、結合状態未知である複数鎖タンパク質の結合状態の探索を行う。具体的には、以下の（1)一（4)で示した処理を行う。

(1)結合状態未知のタンパク質 2つについて、それぞれに接触部位予測のコンビュ一タープログラムを使った処理を行う。 (2)結合状態未知のタンパク質二つの相対位置を変化させ、接触部位予測をよく満たす相対配置を検索する。接触部位予測されたグリッドが実際に接触部位に現れた場合に、そのグリッドのパターン iでのスコア（Scoi)を加算する方法でスコア順に並べ替えたデータを得る。

(3) (2)で得られたデータについて、タンパク質二つの相対配置の近いもの同士をクラスタリングする。クラスタリングされたグループ内の最も良いスコアをもつ相対配置を代表として採用する。

(4)クラスタリングされた代表のスコアを比較して、上位 100位に対し、水素結合個数、上記で記載されたスコアの加算を行い、相対配置候補の順番を並べ替え、上位のものを候補構造とする。

また、本実施形態によれば、立体構造および結合状態未知である複数鎖タンパク質の結合状態の探索を全自動で行う。具体的には、以下の（1)一（5)で示した処理を行う。

(1)立体構造および結合状態未知のタンパク質複合体について、そのアミノ酸配列力コンピュータープログラムなどを用いて立体構造予測を行、、タンパク質複合体立体構造を得る。

(2) (1)で得られたタンパク質複合体立体構造について、それぞれに接触部位予測のコンピュータープログラムを使った処理を行う。

(3)結合状態未知のタンパク質二つの相対位置を変化させ、接触部位予測をよく満たす相対配置を検索する。接触部位予測されたグリッドが実際に接触部位に現れた場合に、そのグリッドのパターン iでのスコア（Scoi)を加算する方法でスコア順に並べ替えたデータを得る。

(4) (3)で得られたデータについて、タンパク質二つの相対配置の近いもの同士をクラスタリングする。クラスタリングされたグループ内の最も良いスコアをもつ相対配置を代表として採用する。

(5)クラスタリングされた代表のスコアを比較して、上位 100位に対し、水素結合個数、上記で記載されたスコアの加算を行い、相対配置候補の順番を並べ替え、上位のものを候補構造とする。また、本実施形態によれば、立体構造既知のタンパク質複合体を参照して立体構造が未知の目的タンパク質複合体のホモロジ一モデリングを行うに際して、モデリング前に上記のデータベースとァライメントファイルを用いて、相互作用状態の予測を行う。具体的には、以下の（1)一（4)で示した処理を行う。

( 1)参照タンパク質複合体の結合状態について、上記と類似のスコアの計算を用いる。スコアの計算は、実際に側鎖が接触しているアミノ酸対のみを、下記数式の関数を使用してスコアを加算する。

[数 40] 場合 i, jが接触している時 0 二— log

ノ

[数 41]

C ti i _d：接触面における f &ノの組み合わせが距離に現れた個数

[数 42]

Sum _t Count _{j ii}：接触面における ί' &ゾの組み合わせの総数

[数 43]

Total, 二 S« ：接触面に来た ί·の個数

(2)目的タンパク質複合体のアミノ酸配列に従って、ァライメントを参照して、（1)で計算したアミノ酸対を目的タンパク質複合体のアミノ酸対に置き換え、スコアの再計算を行う。

(3) ( 1)で得られたスコアと（2)で得られたスコアとの比を出力する。複合体として存在するために、比の値が大きいほうが望ましい。 2；一で得られた目的タンハク質複^^のスコア)

, ( 1 ) で得られた参照タンパク質複合体のスコア.リ

(4) (3)で得られた比の値を検証例などカゝら算出された任意の比の値を使用して、自然界に存在するかどうかを判定することで、目的の複数鎖タンパク質複合体のホモ口ジーモデリングを実際にすべきかどうかを決定する。

[0106] また、本実施形態によれば、実験により解析されたタンパク質立体構造、及びコンピュータープログラムにより予測されたタンパク質立体構造などの、任意の単数を含む複数鎖のタンパク質立体構造が与えられた場合において、該当タンパク質の立体構造力誘導適合を反映したパラメーターおよび構造変化した立体構造座標を例えば基準振動計算方法や分子動力学計算方法によりあらかじめ算出し、当該パラメ一ターおよび構造変化した立体構造座標を用いて該当タンパク質と別のタンパク質が結合した場合の相互作用関数を定義し、上記の方法を用いて算出されたタンパク質複合体の結合状態を評価する。

[0107] また、本実施形態によれば、 3種類のデータベースを作成する。具体的には、ァミノ酸残基対の種類と、 3次元相対位置のデータをあらわす接触相対配置座標データべースを作成する。また、アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など) の距離分布のデータベースを作成する。さらに、アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数のデータベースである接触部位グリッドデータベースを作成する。これにより、タンパク質複合体立体構造データベースから作成されるデータベースは、タンパク質タンパク質相互作用に関与してヽるアミノ酸残基の側鎖の 3次元相対配置を記述することで、アミノ酸側鎖の接触部位での相対配置の傾向を解析することができる。また、接触部位に現れているアミノ酸残基の傾向を記述することで、タンパク質立体構造の 3次元座標での接触部位予測におけるスコァ関数に利用することができる。また、あるアミノ酸側鎖が、どのようなアミノ酸側鎖と接触しやすいかを統計的に解析して数値化することで、スコア関数に利用することができる。ここで、タンパク質複合体データベースとして、例えば PDBや PQSなどの既存のデータベースを用いてもよぐ自分で作成した特定のタンパク質ファミリーの構造を集めた構造データベースを用いてもょ、。

[0108] また、本実施形態によれば、タンパク質タンパク質複合体立体構造が未知であるタンパク質の相互作用部位の予測を行うことを目的として、タンパク質立体構造の表面にグリッド点を計算し、作成したデータベースを用いてスコア計算し、接触傾向をグリツド点それぞれについて求める。これにより、入力されたタンパク質立体構造の表面におかれた 3次元座標上のグリッド点それぞれにスコアが計算されるので、接触部位になる残基ではなく空間座標を調べることができるため、接触アミノ酸残基のみを予測する手法に比べ、より詳細なデータを作成することができる。

[0109] また、本実施形態によれば、結合状態未知である複数鎖タンパク質の結合状態の探索を、上記のスコア関数や、接触部位予測の結果、水素結合個数の計算結果を利用して行う。これにより、結合状態未知のタンパク質複合体の結合状態を、上記のスコア関数や、接触部位予測の結果、水素結合個数において、よい条件で結合している状態を探索することができる。また、タンパク質の全原子について、上記のスコア関数の計算や、接触部位の予測、水素結合個数の計算を行う方法に比べ、計算コストが低いため、高速に計算を行うことができる。

[0110] また、本実施形態によれば、個々のタンパク質立体構造が未知であり、タンパク質- タンパク質複合体立体構造も未知であるタンパク質の相互作用部位の予測を行うことを目的として、ホモロジ一モデリングを行い、その結果の立体構造の表面にグリッド点を計算し、上記のデータベースを用いてスコアを計算し、接触傾向をグリッド点それぞれについて求める。なお、ホモロジ一モデリング後の処理は上記と同じである。

[0111] また、本実施形態によれば、立体構造および結合状態未知である複数鎖タンパク質の結合状態の探索を全自動で行う。なお、複数鎖タンパク質のホモロジーモデリング後、上記と同様の方法により結合状態の探索を行う。

[0112] また、本実施形態によれば、立体構造既知のタンパク質複合体を参照して立体構造が未知の目的複数鎖タンパク質のホモロジ一モデリングを行うに際して、モデリング前に上記のデータベースとァライメントファイルを用いて、相互作用状態の予測を行い、かつ評価を行う。なお、配列ァライメントの作成には、各種既存のコンピュータ一ソフトウェアである FASTAや IMPARA、 ClustalW, HMMER、 BIOCESなどのァライメント出力結果を用いて複数の各アミノ酸配列末尾 (C末端)の次にアミノ酸記号以外の区切り文字 (例えば「U」等)を付加することで、各鎖間の境界を示すフォーマットを用いてもよい。

[0113] また、配列ァライメントが記された入力ファイル形式としては、特に制限は無いが、例えば、目的タンパク質を参照タンパク質とァライメントを行った場合、一般式として下記内容を採用してもよい。

[0114] 具体的には、 1行目は〉の後に、目的タンパク質の IDを記載する。 2行目は目的タンパク質のアミノ酸配列を各タンパク質鎖 (ポリペプチド鎖等)の末端残基の次に区切り文字をカ卩えて、すべてのタンパク質鎖について改行なしに記載する。 3行目は〉の後に参照タンパク質の IDを記載する。 4行目は参照タンパク質のアミノ酸配列を、各タンパク質鎖 (ポリペプチド鎖等）の末端残基の次に区切り文字を加えて、すべてのタンパク質鎖について改行なしに記載する。ここで、 2行目と 4行目のアミノ酸配列の並ベ方については、前期の如く得られるァライメントを利用し、同一番目の区切り文字の位置は 2行目と 4行目で常に一致させるのが好ましい。

[0115] これを例示すると以下のとおりである。

> (目的タンパク質の ID)；

(第一鎖の配列）（区切り文字）（第一鎖の配列）（区切り文字） · · · ·（区切り文字）（第 M鎖の配列）

> (参照タンパク質の ID)

なお、括弧は見易くするためのものであり、実際には記載せず、連続した文字列にするのが望ましい。

[0116] また、本実施形態によれば、入力されたァライメントファイルに記載された参照タンパク質の IDから、参照タンパク質立体構造情報をアミノ酸複合体立体構造データべース (PDB等)力も取得し、異なるタンパク質間で接触して、るアミノ酸残基の対応関係の情報を取得する。なお、参照タンパク質のアミノ酸側鎖の接触判定が正確に行われるようにするために、使用するアミノ酸複合体立体構造データベースは、実験的にタンパク質複合体を形成するタンパク質につヽて、 X線構造解析などの手法により

、実験的にその立体構造情報が得られているものが望ましい。そして、得られた接触しているアミノ酸残基の対応関係の情報から、目的タンパク質の接触しているアミノ酸残基の対応関係の情報を作成する。こうして得られた、参照タンパク質と目的タンパク質の異なるタンパク質鎖間での側鎖の接触情報を、上記のデータベースの検索を行い、スコアを上記のスコア関数を使用することで、入力された複数鎖タンパク質のァライメント評価を行う。

[0117] また、本実施形態によれば、目的タンパク質をアミノ酸残基の接触を、参照タンパク質のアミノ酸残基の接触状態から予測するという特徴がある。また、ァライメントの評価を、ァライメントファイルから、ホモロジ一モデリングなどの手法によって、目的タンノク質の立体構造が得られていない場合でも、簡便かつ迅速に計算を行うことができる。また、評価の方法として、目的タンパク質のスコアと、参照タンパク質のスコアを同時に出力するため、絶対的な評価と、相対的な評価を行うことができる。参照タンパク質構造データが、実験によって得られたデータであるならば、参照タンパク質のスコァがタンパク質複合体を形成するかの基準となり、参照タンパク質のスコアと目的タンノク質のスコアの比が、目的タンパク質が複合体を形成するかどうかの基準とすることが可能である。

[0118] 以下に、相互作用部位予測装置 100を用いた実施例を説明する。なお、下記の実施例は、本発明の具体的な認識を得る一助と見るべきであり、本発明の範囲を何ら制限するものではない。

実施例 1

[0119] (データベース作成の例）

本実施例 1では、上述した実施形態の Iに記載された方法に従い、 PQSデータべースを使用して、下記の（1)一 (3)に示すデータベースを作成した。

[0120] (1)上述した実施形態の I 1における接触相対配置座標データベース（3次元相対位置のデータベース）の作成例

図 4では、 PHE—PHEの相対配置が 3次元で図示されて!、る。 [0121] (2)上述した実施形態の I 2における距離分布データベースの作成例

ALAと接触していたアミノ酸残基について、 Cひ間距離における分布を表しているデータベースの一例を図 12に示した。図 12において、一番左の項目はアミノ酸対の糸且み合わせであり、次に、 1 Aごとの距離のカテゴリに、 PQSデータベース内でその距離の Cひ間距離を持っていた個数を表している。図 12をグラフ化したものが図 13 である。また、他のアミノ酸残基についてもグラフ化したものが図 14一図 33である。

[0122] また、このデータを下に、上述した実施形態の VIで使用した数式 4の SCOを、アミノ酸 20種類 X 20種類のマトリクスで図示した（図 34)。図 34において、色が濃いほど SCOのスコアが低!、（親和性が高、）ことを表して！/、る。

i，j

[0123] (3)上述した実施形態の I 3における接触部位グリッドデータベースの作成例

PQSデータベース力作成した接触部位グリッドデータベースの一例を図 35に示した。図 35において、左から順に、接触パターン (数式 1の i)、接触部位グリッドの個数 (数式 1の Con)、表面グリッドの個数 (数式 1の C )、である。

実施例 2

[0124] (相互作用部位予測の例）

本実施例 2では、 Protein Data Bankに IDが lJK3 (Lang, R. , Kocourek, A. , Braun, M. , Tschesche, H. , Huber, R. , Bode, W. , M askos, K. ： Substrate Specificity Determinants of Human Macroph age Elastase (Mmp— 12) Based on the 1. 1 A Crystal Structure J . Mol. Biol. 312 pp. 731 (2001) )として登録されているタンパク質立体構造情報に対して、上述した実施形態の Πに記載された方法に従い、タンパク質相互作用部位の予測を行った。 1JK3は、 Batimastatと呼ばれる薬剤が結合した状態のマトリックスメタプロテアーゼ— 12 (以下 MMP— 12と略す）のタンパク質である。

[0125] ここで、 Batimastatが結合するサイトが不明であると仮定し、上述した実施形態で説明した方法に従って、相互作用部位、すなわち Batimastatが結合するサイトの予測を行った。まず、上述した実施形態の Iにおけるデータベースを使って、上述した実施形態の Πに記載された方法に従い、相互作用部位予測を行った。立体構造モデルに対して、その表面に表面グリッドを xyz座標に対して 1. OA間隔で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基の種類'タンパク質表面に現れた個数'接触部位に現れた個数のスコアを、データベース検索により付けた。スコァは数式 1に従った。そのスコアが 10. 0以上であった表面グリッド点のみにおいて P DB形式で出力して視覚化したもののうち、相互作用部位周辺を拡大したものが図 3 6である。なお、図 36では、 Batimastatも同時に表示している。図 36のグリッド点それぞれにつ、てスコアがっ、ており、そのスコアが高、ほど相互作用部位になり易!ヽ t 、う情報を持って、ることになる。

[0126] また、同様の処理により、 Protein Data Bankに IDが 2PTC (Marquart, M.

, Walter, J. , Deisenhofer, J. , Bode, W. , Huber, R. ： The G eometry of the Reactive Site and of the Peptide Groups in Tryps in, Trypsinogen and its Complexes with Inhibitors Acta Crystallog r. , Sect. B 39 pp. 480 (1983) ) , lQPR (Sharma, V. , Grubmeyer, C. , Sacchettini, J. C. ： Crystal structure of quinolinic acid ph osphoribosyltransf erase from Mmycobacterium tuberculosis： a poten tial TB drug target. Structure 6 pp. 1587 (1998) )として登録されて V、る複数鎖タンパク質につ、て、上述した実施形態の IIに記載された方法に従、、それぞれタンパク質相互作用部位の予測を行った。

[0127] 図 37は 2PTCの E鎖に対して、相互作用部位予測を行った結果である。灰色のダリッド点力相互作用部位として予測されたスコアが高力つたものである。白いタンパク質分子は 2PTCの E鎖である。次に、図 37において 2PTCの I鎖も同時に表示した図が図 38である。黒いタンパク質分子が 2PTCの I鎖である。

[0128] 図 39は図 37の一部を別の角度から拡大したものである。図 40は、図 39において 2 PTCの I鎖（黒)も同時に表示した図である。これらの図を見ると、予測されたグリッド点に、実際に相互作用があることがわかる。同様に、 1QPRの相互作用部位予測の結果を図 41に示す。白いタンパク質分子は 1QPRの A鎖である。図 42は、 1QPRの A鎖と相互作用部位予測の結果を示した図であり、 B鎖 (黒)を同時に表示したものである。図 43および図 44は、 1QPRを別の角度で拡大表示したものである。

[0129] 本実施例 2のように、相互作用部位を予測することで、タンパク質-タンパク質、薬物相互作用部位が分力ないものに対して、その部位の推定を高速に行うことが可能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示す薬物の開発に効果を期待できる。

実施例 3

[0130] (立体構造未知のタンパク質複合体のホモロジ一モデリングの結果にっ、て相互作用部位予測を行う例）

本実施例 3では、上述した実施形態の IIIに記載された方法に従い、まず米疾病対策センター（CDC)等により公表された SARS Proteaseの解読されたゲノム配列から、治療薬に有効な SARSウィルスのタンパク質である Proteinaseの立体構造をホモロジ一モデリング法で予測した。次に、予測された Proteaseのタンパク質立体構造に対して、相互作用部位を予測した。

[0131] 本実施例 3における SARS Proteaseの活性部位は、ホモロジ一モデリングにおいて参照タンパク質として使用した PDB IDが lLVO (Anand, K. , Palm, G . J. , Mesters, J. R. , Siddell, S. G. , Ziebuhr, J. , Hilgenfel d, R. ： Structure of Coronavirus Main Proteinase Reveals Combm ation of a Chymotrypsin Fold with an Extra Alpha— Helical Domai n Embo J. 21 pp. 3213 (2002) )と同じである。

[0132] 本実施例 3にお、て、この活性部位が未知であると仮定して、相互作用部位予測を行った。その予測結果で活性部位を拡大表示した図が図 45である。灰色のグリッド点が、相互作用部位として予測されたスコアが高力たものである。白いタンパク質分子はホモロジ一モデリングにより構築された Proteaseのタンパク質立体構造である。 1HPG (Nienaber, V. L. , Breddam, K. , Birktoft, J. J. ： A glu tamic acid specific serine protease utilizes a novel histidine triad i n substrate binding. Biochemistry 32 pp. 11469 (1993) )を、ホモ口ジーモデリングによって予測された SARSの Proteaseのタンパク質立体構造の活性部位と重ね合わせ、そのリガンドを同時に表示した図が図 46である。相互作用部位に、予測されたグリッドが存在していることから、相互作用部位の予測が精度よく行われていることがわ力る。 [0133] 本実施例 3のように、立体構造未知のタンパク質に対して相互作用部位予測を行うことは、今後、 SARSのウィルスの Proteinaseに対するドラッグデザインや機能解析などと!/、つた分野にぉ、て非常に重要な役割を果たすものと思われる。

実施例 4

[0134] (結合状態未知のタンパク質複合体について、結合状態を探索する例）

本実施例 4では、様々な複数鎖タンパク質について、上述した実施形態の IVに記載された方法に従い、結合状態を探索した。本実施例 4では、結合状態が実験的に解析されてヽる構造を使用してヽるが、結合状態未知と仮定してヽる。

[0135] まず、上述した実施形態の IIに記載された方法に従、、接触部位予測を行った。それぞれのタンパク質立体構造モデルに対して、その表面に表面グリッドを xyz座標に対して 1A間隔で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基の種類 ·タンパク質表面に現れた個数 ·接触部位に現れた個数のスコアをデータべース検索により付けた。スコアは数式 1に従った。相互作用部位が分力つているものとして、正解相対配置から ± 30度範囲内（ただし、 Z軸方向は 360度回転）に、「候補構造個数を 400個」および「400回スコア変化が無力つた場合に乱数移動範囲を 1度減らす」と、う条件で検索を行った。

[0136] 次に、候補構造 400個について、 ± 5度の範囲内でのクラスタリングを行った。クラスター内の最もスコアがよいものについて、水素結合個数および上述した実施形態の I 2におけるデータベース検索による数式 2を使用したスコアを計算し、数式 3のスコアで並べ替えた。数式 3の係数 aおよび bはそれぞれ、 a= 1000、 b = 10000にした。

[0137] 結果、最もスコアがょカゝつた候補構造と正解構造との RMSD、および候補構造の内で最も RMSDが小さかったものの RMSDとその順位を示した図が図 47である。それぞれの PDBについて最も RMSDが良かったものについて、一方のタンパク鎖に重ね合わせて示した図が図 48—図 59である。黒いタンパク質分子が正解構造であり、白いタンパク質分子がドッキングを行った結果出力された候補構造のうち、最も R MSD値が低かったものである。

[0138] これらを見て分力るとおり、タンパク質複合体の結合状態を精度良く予測することができた。本実施例 4のドッキングにより、タンパク質の結合状態を正確に予測することで、正確なタンパク質複合体の構築を行うことができた。そのことは、様々なタンパク質複合体に対するドラッグデザインや機能解析などにおいて非常に重要な役割を果たすものと思われる。

実施例 5

[0139] (立体構造未知のタンパク質複合体のホモロジ一モデリングの結果を最適化（SARS proteaseタィマー構造) )

本実施例 5では、まず米疾病対策センター（CDC)等により公表された SARS Pro teaseの解読されたゲノム配列から、治療薬に有効な SARSウィルスのタンパク質である Proteinaseの複合体の立体構造を複数鎖ホモロジ一モデリング法により予測した結果について、その相対配置の最適化を行った。

[0140] 複数鎖ホモロジ一モデリング法による立体構造は、参照タンパク質の相対配置に依存して、目的タンパク質の相対配置が決定している。参照タンパク質と目的タンパク質とアミノ酸配列の差異が、相対配置の差異に影響することが考えられており、目的タンパク質と参照タンパク質の相対配置が異なる可能性が高い。本実施例 5では、目的タンパク質の相対配置をより最適化し、安定な構造を求めることを目的とした。

[0141] 上述した実施形態の IIおよび IVに記載された方法に従って、以下で説明する手順で、結合部位を特定し、その情報を最もよく満たす相対配置ランクを求め、データべース検索と水素結合の個数によるスコアを計算し、最終候補構造を決定した。

[0142] 用いた SARSウィルス Proteaseのアミノ酸配列を元にァライメントを行い、ホモロジ一モデリング法を用いて立体構造を構築した結果を図 60に示す。

[0143] まず、上述した実施形態の IIに記載された方法に従、、接触部位予測を行った。図 60の立体構造モデルに対して、その表面に表面グリッドを xyz座標に対して 2A間隔で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基の種類'タンパク質表面に現れた個数 ·接触部位に現れた個数のスコアをデータベース検索により付けた。スコアは数式 1に従った。次に、図 60のホモロジ一モデリングの結果を初期座標とし、相対位置変化を ± 15度に絞り、「候補構造個数を 200個」、「乱数移動範囲を ± 5度 (ただし、 Z軸方向は 360度回転)」および「400回スコア変化が無力つた場合に乱数移動範囲を 1度減らす」、う条件で検索を行った。

[0144] 次に、候補構造 200個について、 ± 5度の範囲内でのクラスタリングを行った。クラスター内の最もスコアがよいものについて、水素結合個数および上述した実施形態の I 2のデータベース検索により数式 2を使用したスコアを計算し、数式 3のスコアで並べ替えた。数式 3の係数 aおよび bはそれぞれ、 a = 250, b = 2500にした。結果、最もスコアがよ力つた候補構造は、図 61に示した構造であった。

[0145] 次に、 X線結晶構造解析により実験的に求められた SARSウィルスの Protease (P DB ID : 1Q2W, Bonanno, J. B. , Fowler, R. , Gupta, S. , Hen die, J. , Lorimer, D. , Romero, R. , Sauder, M. , Wei, C. L . , Liu, E. T. , Burley, S. K. , Harris, T. ： X— Ray Crystal St ructure of the Sars Coronavirus Main Protease)との比較検ih 行つた。相対位置の検証比較は、 CA原子に対する根平均二乗平均 (RMSD値)の数値を用いた。 RMSD値は小さいほど、 1Q2Wとの誤差力 S小さいことを示している。

[0146] ホモロジ一モデリング法により構築されたモデル構造と、実験により求められた X線構造解析による立体構造モデル 1Q2Wを、 A鎖について重ね合わせを行った。この重ね合わせは、 A鎖の重ねあわせによる A鎖間の RMSDが最小になるようにしたものである。図 62において、色が濃い方は立体構造モデル 1Q2Wであり、薄い方はホモロジ一モデリング法により構築されたモデル構造である。

[0147] 次に、 A鎖を重ね合わせた状態で B鎖間の RMSD値を求めた。結果、 RMSDは 4 . 688であった。

[0148] 同様に、立体構造モデル 1Q2Wと、相対位置の最適化を行ったモデル構造についても、 A鎖同士で重ねあわせを行い、 B鎖間の RMSD値を求めた。図 63において、色が濃い方が立体構造モデル 1Q2Wであり、薄い方は最適化を行った結果のモデル構造である。結果、 RMSDは 3. 645であった。このことから RMSDの改善が見られている。

[0149] 以上の結果、ホモロジ一モデリング法により構築された SARSウィルスの Protease 構造を最適化することができた。

[0150] 新型肺炎である重症急性呼吸器症候群 SARSはアジアを中心とした地域で猛威を振るつており、多くの製薬メーカーや研究所などにおいて SARSに対抗するためのヮクチン開発や治療薬開発が進められている。本実施例 5のドッキングにより、相対配置の最適化を行うことで、正確な Proteinaseダイマー構造の構築を行うことができる。そのことは、 SARSのウィルスの Proteinaseに対するドラッグデザインや機能解析などにおいて非常に重要な役割を果たすものと思われる。

実施例 6

[0151] (タンパク質複合体ホモロジ一モデリングの為のァライメントファイルの評価その 1) 本実施例 6では、図 64に示した tissue plasminogen activatoのアミノ酸配列デ ~~タ (BAA0088丄. tissue plasminogen activator [Homo sapiens] . Ita gaki, Y. , Yasuda, H. , Morinaga, T. , Mitsuda, S. and Higashio, K . Purification and characterization of tissue plasminogen activator secreted by human embryonic lung diploid fibroolasts, IMR— 90 c ells. Agric. Biol. Chem. 55 (5) , 1225—1232 (1991) )をァライメントプログラム RPS— BLASTで PDBデータベースに対して検索し、ァライメントを作成した。条件は「E— value≤0. 001」である。

[0152] 次に、その結果力も検出された参照タンパク質についての情報を PQSデータべ一ス（http : ZZpqs. ebi. ac. ukZ)から調べ、ホモ（すべての鎖が同じアミノ酸配列であること)何量体であるかの情報から、複数鎖タンパク質を表す配列ァライメントを作成した。本実施例 6において、 BAA00881のタンパク質立体構造を構築するにあたり、参照タンパク質のァライメント情報が 33個検出された。これらすべてについて立体構造モデルの構築を行うには、非常に多くの計算時間と検証を必要とする。

[0153] 本実施例 6では、その組み合わせのァライメントファイルについて、生物学的に有用であり複合体を形成すると思われるァライメントファイルを選別して順位付けするために、上述した実施形態の VIに記載された方法に従い、評価を行った。 33個のァライメントファイルうち、図 65と図 66にその内容の一部を一例として示した。

[0154] 本実施例 6において、それぞれのァライメントファイルに対して、まず、参照タンパク質について、アミノ酸側鎖が異なる鎖間で接触しているものを判定し、その対応関係を調べた。次に、その対応関係の情報から、ァライメントファイルで目的タンパク質のアミノ酸配列での同じ位置に存在するアミノ酸残基も、同様に接触しているものとし、その対応関係を決定した。

[0155] 次に、その対応関係それぞれについて、データベース検索を行いスコアを計算した

。このときのスコアは数式 4の関数を用いて計算した。図 65に示すァライメントに対するスコアは 7. 8253であり、参照タンパク質とのスコア比は 97. 908%であった。

[0156] 一方、図 66に示すァライメントに対するスコアは、 1. 0628であり、参照タンパク質とのスコア比は 40. 780%であった。

[0157] この 2例を比較するならば、図 65のァライメントは、図 66のァライメントと比較して、参照タンパク質の接触部位スコアに非常に近ヽ数値を表しており、接触部位のスコァが高いことから、複数鎖タンパク質のホモロジ一モデリングを行うのに適したァラィメントであるといえる。

[0158] 現在、様々な生物種の遺伝子の解析が行われており、そのタンパク質立体構造の解析は近年その重要度を増して、る。中でも複数鎖のタンパク質のホモロジーモデリング法は、そのタンパク質の立体構造を高速に大量に調べる上で、実験的手法 (X線結晶解析等）に比べて、高速、簡便であり、その精度も実験結果と比較しても勝るとも劣らな、精度であることから非常に重要な技術となって、る。

[0159] 本実施例 6のように、ァライメントが多数存在する場合、効率よく生物学的に重要かつ信頼性のあるァライメントを選び出す技術は、複数鎖のタンパク質立体構造解析を効率よく行う上で非常に有効であるといえる。このことから、本発明は、タンパク質に作用するドラッグデザインやスクリーニングといった創薬の分野で重要な役割を果たすものと思われる。

実施例 7

[0160] (タンパク質複合体ホモロジ一モデリングの為のァライメントファイルの評価その 2) 本実施例 7では、上述した実施形態の VIに記載された方法を使用して、実際に実験的にタンパク質複合体の相互作用の強さを求めて、あるアミノ酸配列に対して検証を行った。実験的に相互作用の強さが求められているため、予測値との比較を行い、その精度を検証するのが目的である。

[0161] 実験のデータは、論文「John R. S. Newman * and Amy E. Keating . Comprehensive Identification of Human bZIP Interactions with Coiled— Coil Arrays. Science. 2003 Jun 27 ; 300 (5628)： 2097—10 1. Epub 2003 Jun 12.」から得た。検証方法は以下の通りである。

[0162] Stepl :検証に使用したアミノ酸配列は、上記の論文に記載されている 62個を使用した。それらのアミノ酸配列に対してそれぞれ、ァライメントプログラム PSI— BLASTを使用して PDBデータベースに対して検索を行い、ァライメントを作成した。プロフアイル作成には NRデータベースを使用した。条件は、「eialueく 0. 01」、「homology < 20%」、「目的タンパク質アミノ酸配列の 50%以上をァライメントしている。」である。

[0163] Step2：あるアミノ酸配列 Aとあるアミノ酸配列 Bの複合体のァライメントを作成するために、まず、配列 Aを使用して PSI— BLASTを行った結果と配列 Bを使用して PSI— BLASTを行った結果の 2つに注目した。配列 Aの PSI— BLASTの結果において、 e valueが上位のものから順に、検出された PDB IDが配列 Bの PSI— BLASTの結果でも現れており、かつそのタンパク質鎖の名前が異なるものであるか調べた。この条件に適合するものがあった場合に、それらでタンパク質複合体のァライメントフアイルを作成し、それを A— Bと、う組み合わせの複合体におけるァライメントとした。

[0164] Step3 : Step2と同様に、配列 Bの PSI— BLASTの結果において、 e— valueが上位のものから順に、検出された PDB IDが配列 Aの PSI— BLASTの結果でも現れており、かつそのタンパク質鎖の名前が異なるものである力調べ、この条件に適合するものがあった場合には、それらでタンパク質複合体のァライメントファイルを作成した。

[0165] Step4 :タンパク質複合体のァライメントファイルから、参照タンパク質のスコア、目的タンパク質のスコア、参照タンパク質のスコアを計算し、目的タンパク質のスコアの比（ %)を予測値として出力した。

[0166] Step5 : Step4で計算されたスコア比および論文に記載の相互作用の強さについて、その相関関係を調べた。

[0167] この検証法のポイントは、実験で使用した複合体のアミノ酸配列に対して、 X線結晶構造解析が行われている PDBの配列をァライメントすることで、実験で使用した配列のどのアミノ酸残基力 Sタンパク質-タンパク質相互作用部位に来て、どのアミノ酸残基と接触しているかを推測していることである。その推測を元に、 X線結晶構造解析の構造データ（PDBファイル）のスコアよりどれほど小さくなつたの力、どれほど相互作用が弱まったの力、を推測しているのである。以下、実験データの比較について述べる。

[0168] 図 67は、 bZIPの実験データを、その相互作用の強さに応じて色分けした図である。相互作用の強さのカテゴリは 7段階であり、「1 :Zスコア > 20」、「2 :Z> 10」、「3 :Z > 5」、「4 :Z> 2. 5」、「5 :Z> 1. 5」、「6 :Z< 1. 0」、「7 :no assignment」である。 Zスコアは、下記の式「Zscore」により計算される。なお、「Z> 2. 5」の場合には相互作用ありと判定され、「Z< 1. 0」の場合には相互作用なしと判定される。

[数 45] signal - mean

ム score =

estimated standard deviation

[0169] 図 67において、縦横の項目は、配列の名称と種であり、縦と横の項目が交差している部分がその二つのアミノ酸配列を持つタンパク質複合体の相互作用の強さを色で表している。例えば、縦の Aという配列と、横の Bという配列の交点にある色が黒色だった場合、 Aのアミノ酸配列を持つタンパク質と Bのアミノ酸配列を持つタンパク質力非常に強い相互作用を示すということを表している。色が濃いものほど、相互作用が強、ものであることを示して、る。

[0170] 同様の表示形式で、図 68は、上述した実施形態の VIに記載された方法に従って計算されたァライメント評価のスコアについて、参照タンパク質のスコアと目的タンパク質のスコアの比を％で分けて、その数値の大きさに応じて色分けしたものである。各所にデータの無い空白部分がある力その部分のァライメントが得られな力つた場所であるためにデータが無いのである。図 67と図 68を比較すると分かる通り、二つの図には相関が見られることが分かる。

[0171] 次に、図 69は、ある実験値が得られている配列の組み合わせにおいて、その実験値が得られた配列の組み合わせのうち、何％がどのような予測値をとつたかをグラフで示した図ある。実際に予測を行う際に重要なのは、「Z> 2. 5」で相互作用あり、「Z < 1. 0」で相互作用なしという実験結果、という違いを正しく予測できるかということである。

[0172] 従って、これらを正しく予測するスコア比の閾値（％)を設定するために、様々な閾値でどのように変化するかを図 70で検証した。図 70を見ると、閾値 50%では、相互作用をしない「Z< 1. 0」の項で、その 74%がスコア比 50%未満に存在し、一方、相互作用ありの「Z> 2. 5」の項で、その 34%がスコア比 50%未満に存在していた。つまり、本実施例 7では、相互作用の有無を 50%の閾値で判定する予測方法が有効であると思われる。

実施例 8

[0173] (単数鎖のタンパク質立体構造が与えられた場合の、該当タンパク質と別のタンパク質との複合体の結合状態の評価）

実験により解析されたタンパク質の立体構造およびコンピュータプログラムにより予測されたタンパク質の立体構造などの任意の数鎖を含むタンパク質の立体構造が与えられた場合、基準振動計算方法や分子動力学計算方法により、当該タンパク質の立体構造から、誘導適合を反映したゆらぎパラメータおよび構造変化を算出し、それら算出結果を用いて当該タンパク質と別のタンパク質が結合した複合体の立体構造を予測した。

[0174] タンパク質複合体の立体構造出題データには、 CAPRI (Critital Assessment of PRedicted Interactions)の Target 18を用いた。 CAPRIはタンパク質の単体立体構造力も複合体の立体構造を予測する国際コンテストで、 Target 18はその Round 5での出題である。タンパク質複合体の予測データはホームページ（http : ZZcapri. ebi. ac. uk/round5/round5. html)力らダウンロードした (現在はデータのロードはできない）。このデータを用いて、 Aspergillus niger Xylanase- Triticum Aestivum Xylanase Inhibitor Iの複合体の立体構造を予測した。

[0175] Xylanase側の立体構造主題データは、 Xylanaseの 4量体の X線結晶解析データとして、 PDBに登録されて!、る (PDB ID： 1UKR)。 Xylanase側の結合部位を予測する際、 Xylanaseは Inhibitorとの相互作用で誘導適合することが考えられる。そこで、国際公開第 2002Z057854 (WO 2002,057854)号パンフレット（PCTZJ P2002/000286,「誘導適合を含めたタンパク質の立体構造構築方法およびその利用」）に記載の方法を適用した。

[0176] すなわち、 Xylanaseのまわりに発生させた水分子について、タンパク質の中で MS ASの値が 30%以上のアミノ酸残基により形成される 3. 5A以内の表面に存在する水分子をベンゼンで置換した。しかし、ベンゼン同士が 1. 5A以内になる場合は、水分子のベンゼンへの置換は行わない。次に、 Xylanaseとベンゼンを含む系の周囲に水分子を充分発生させ、分子力学計算による擬似水溶液中での系の最適化を 10 0ステップ行った。その計算にはタンパク質 C α原子の xyz座標に 300kcalZmolZ Aの拘束をかけた。続いて、 Xylanase単体での基準振動解析計算を行い、それら二面体角の揺らぎデータに基づいて、 Xylanase主鎖に二面体角の拘束をかけた擬似水溶液中での分子動力学計算を 200ps (ピコ秒)間行った。その際、二面体角の拘束値の最大を lOOkcalZmolZRadianに設定した。計算では 10psごとのスナツプショット、すなわち 20個の Xylanaseの立体構造が求まる力それらスナップショットについて閾値を 6 Aとしたベンゼンのクラスタリングイ匕を行い、クラスター数が最も多 V、スナップショットを Xylanase Inhibitorとの複合体を予測する構造として採用した。また、 Xylanase Inhibitorについても Xylanaseと同じ方法で相互作用結合部位を検索したが、 Xylanase Inhibitorの出題立体構造が Xylanaseとの複合体から得られた X線結晶解析データであるので、 Inhibitorの xyz座標を完全に固定し、ベンゼンだけをフリーにした擬似水溶液中での分子動力学計算を行った。

[0177] Xylanaseとベンゼンの系では、クラスタ一は楕円球と表現でき、座標の固有値問題を解くことにより、ベンゼンクラスターの長短方向が求められる。また、 Xylanase I nhibitorとベンゼンの系でも同様である。 Xylanaseと Xylanase Inhibitorのべンゼンクラスターそれぞれは、直交した右手系の座標軸としてフィッティングすることができる。 2つの右手座標系でのフィッティングは 24通りになるので、 Xylanaseのべンゼンクラスター 3個と Inhibitorのクラスター 6個とのすべてのフィッティングで Xylanase -Xylanase Inhibitorの初期複合体立体構造を 432 (3 X 6 X 24)通り発生させた。このうち、 Xylanaseと Xylanase Inhibitorの分子間衝突が少ない 20の複合体を候補とした。

[0178] これら 20個の Xvlanase— Xylanase Inhibitor複合体予測データに対して、相互作用部位の予測方法 (プログラム)を用いて、タンパク質双方の相対配置を変化させ

、ドッキング状態判定スコアを参考にして Xylanase— Xylanase Inhibitor複合体予測座標データを求めた。それら立体構造予測結果と、 CAPRI Round5の締め切り後に公開された Xylanase— Xylanase Inhibitor複合体の X線結晶解析データ（P DB ID： 1T6G)につ!/、て、 Xylanase部分（下側）を RMSフィットしたときの Xylanas e Inhibitor (上側）の立体配置の一つを図 74に示す。図 74に示すように、 Xylanas eのドッキング部位が正確に予測されていることがわかる。

産業上の利用可能性

[0179] 以上のように、本発明にかかる相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体は、より真に近いタンパク質 -タンパク質複合体立体構造を予測したり、相互作用部位を予測したりする。従って、本発明は、医農薬分子の設計に極めて有用である。また、本発明は、タンパク質タンパク質複合体立体構造をについて大量にホモロジ一モデリングを行う際に、きわめて有効である。

[0180] また、本発明は、医農薬の分子設計などを中心に、生物情報の解析を行う分野 (バィォインフォマテイクス）において、極めて有用であると考えられる。そして、本発明は、産業上多くの分野、特に医薬品、食品、化粧品、医療、構造解析、機能解析などの分野で広く実施することができ、故に極めて有用である。

Claims

請求の範囲

[1] タンパク質の相互作用部位の予測を行う相互作用部位予測装置であって、

複数のタンパク質タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和力所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる表面グリッド点発生手段と、

上記表面グリッド発生手段にて発生させた各表面グリッドついて、他のチェーンの表面原子半径に重なって、る力否か判定し、接触部位グリッドを選択する接触部位グリッド選択手段と、

アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択手段にて上記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータベース作成手段と、

相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面ダリッドを発生させる対象タンパク質表面グリッド発生手段と、

上記対象タンパク質表面グリッド発生手段にて発生させた上記対象タンパク質の各表面グリッドにつ、て、上記接触部位グリッドデータベースを参照して接触判定スコァを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測する相互作用部位予測手段と、

を備えたことを特徴とする相互作用部位予測装置。

[2] 請求項 1に記載の相互作用部位予測装置にお!、て、

上記相互作用部位予測手段は、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測すること、

[数 1]

(数式 1 )

を特徴とする相互作用部位予測装置。

[3] 請求項 1または請求項 2に記載の相互作用部位予測装置にぉ、て、

上記相互作用部位予測手段にて予測された上記相互作用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段、

をさらに備えたことを特徴とする相互作用部位予測装置。

[4] 請求項 3に記載の相互作用部位予測装置にお、て、

上記ドッキング状態探索手段は、

複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパク質複合体の異なるチェーン間で接触して、るアミノ酸残基対にっ、て、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成手段と、上記接触相対配置座標データベース作成手段にて作成された上記接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成手段と、上記距離分布データベース作成手段にて作成された上記距離分布データベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定手段と、

をさらに備えたことを特徴とする相互作用部位予測装置。

[5] 請求項 4に記載の相互作用部位予測装置にお、て、

上記ドッキングスコア判定手段は、以下の数式 2に基づいて、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、

[数 2]

Count,

，j- ' ≥ 0.05のとき

SCO _j

= Sum^_: ：く 0.05のとき

SCO. , = 0

J ' ' · (数式 2 )

(数式 2において、

[数 3]

Count _i ：接触面における ί & _ /の組み合わせが距離 Jに現れた個数 [数 4]

Sum, County：接触面における !· & の組み合わせの総数

[数 5]

Total ( = Υ &/7₇^：接触面に来たの個数である。 )

を特徴とする相互作用部位予測装置。

[6] 請求項 5に記載の相互作用部位予測装置にお、て、

上記ドッキング状態探索手段は、

上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状態を探索する相対位置変化手段、

をさらに備えたことを特徴とする相互作用部位予測装置。

[7] タンパク質の相互作用部位の予測を行う相互作用部位予測方法であって、

複数のタンパク質タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の原子半径の和力所定の範囲に表面の原子が存在する座標である、表面グリッドを発生させる表面グリッド点発生ステップと、

上記表面グリッド発生ステップにて発生させた各表面グリッドつ、て、他のチェーンの表面原子半径に重なってヽるカゝ否カゝ判定し、接触部位グリッドを選択する接触部位グリッド選択ステップと、

アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータべ一ス作成ステップと、

相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面ダリッドを発生させる対象タンパク質表面グリッド発生ステップと、

上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク質の各表面グリッドにつ、て、上記接触部位グリッドデータベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測する相互作用部位予測ステップと、

を含むことを特徴とする相互作用部位予測方法。

[8] 請求項 7に記載の相互作用部位予測方法にお、て、

上記相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測すること、

[数 6]

Sco. 二

(数式 l )

を特徴とする相互作用部位予測方法。

[9] 請求項 7または請求項 8に記載の相互作用部位予測方法にお、て、

上記相互作用部位予測ステップにて予測された上記相互作用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索ステップ、

をさらに含むことを特徴とする相互作用部位予測方法。

[10] 請求項 9に記載の相互作用部位予測方法にぉ、て、

上記ドッキング状態探索ステップは、

複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパク質複合体の異なるチェーン間で接触して、るアミノ酸残基対にっ、て、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成ステップと、上記接触相対配置座標データベース作成ステップにて作成された上記接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成ステップと、

上記距離分布データベース作成ステップにて作成された上記距離分布データべ一スを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコァ判定ステップと、

をさらに含むことを特徴とする相互作用部位予測方法。

[11] 請求項 10に記載の相互作用部位予測方法において、

上記ドッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、

[数 7] し OWlt _:

Sum; > 0.05のとき f ヽ

Sum;

5CO,_y = -log

T Total _n

V

ノ um < 0.05のとき

i:，J

SCO, . = 0

J . . . (数式 2 )

(数式 2において、

[数 8]

County：接触面における z' &ゾの組み合わせが距離に現れた個数 [数 9]

Sum^ = Y Count, j _d：接触面における! ' &ゾの組み合わせの総数 [数 10]

Total i = &i ₍ ：接触面に来た/の個数である。 )

を特徴とする相互作用部位予測方法。

[12] 請求項 11に記載の相互作用部位予測方法にぉ、て、

上記ドッキング状態探索ステップは、

上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適ィ匕された上記ドッキング状態を探索する相対位置変化ステップ、

をさらに含むことを特徴とする相互作用部位予測方法。

[13] タンパク質の相互作用部位の予測を行う相互作用部位予測方法をコンピュータに実行させるプログラムであって、

を含む相互作用部位予測方法をコンピュータに実行させることを特徴とするプログラム。

[14] 請求項 13に記載のプログラムにおいて、

[数 11]

Sco. -

(数式 1 )

(数式 1において、 iは、注目する接触アミノ残基パターンである。 Cは、パターン iに対するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウント数であり、その差である（C -Con)の数値は、非接触部位でのカウント数である。 )

を特徴とするプログラム。

[15] 請求項 13または請求項 14に記載のプログラムにおいて、

をさらに含むことを特徴とするプログラム。

[16] 請求項 15に記載のプログラムにおいて、

上記ドッキング状態探索ステップは、複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパク質複合体の異なるチェーン間で接触して、るアミノ酸残基対にっ、て、相対配置座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標データベース作成ステップと、上記接触相対配置座標データベース作成ステップにて作成された上記接触相対配置座標データベースに登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データベース作成ステップと、

をさらに含むことを特徴とするプログラム。

請求項 16に記載のプログラムにおいて、

[数 12]

05のとき

(数式 2 )

(数式 2において、 [数 13]

Count , _{j d}：接触面における &ゾの組み合わせが距離^に現れた個数 [数 14]

Sum. , t,.._{! d}：接触面における! · &ゾの組み合わせの総数 [数 15]

Total _t 0，"" ：接触面に来た fの個数である。 )

を特徴とするプログラム。

[18] 請求項 17に記載のプログラムにおいて、

上記ドッキング状態探索ステップは、

をさらに含むことを特徴とするプログラム。

[19] 請求項 13から 18のいずれ力 1つに記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。