WO2003056461A1

WO2003056461A1 - Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes

Info

Publication number: WO2003056461A1
Application number: PCT/JP2002/013832
Authority: WO
Inventors: Seiji Saito
Original assignee: Celestar Lexico-Sciences, Inc.
Priority date: 2001-12-27
Filing date: 2002-12-27
Publication date: 2003-07-10
Also published as: JP4084040B2; JP2003196575A; EP1460559A4; US20050026217A1; EP1460559A1

Description

明細書蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体技術分野

本発明は、蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体に関し、特に、配列と構造の相関により蛋白質の立体構造を予測する蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体に関する。背景技術

蛋白質の立体構造は、配列情報から一意に決まると言われている。つまり、配列空間と構造空間との間には何らかの相関があるということである。ここで、配列空間と構造空間（ネイティブ構造の空間）の大きさを比較してみると、配列空間の方が大きいと言える。なぜなら、進化的に見ると、配列が多少変化したとしても構造はあまり変化しているようには見えないからである。このことを換言すると、構造の方が配列よりも進化的に保守性が強いとも言える。

また、近年の進化的に良く似た蛋白質の構造解析によって、似たような配列をもつ蛋白質は、似たような全体構造をもっということが明らかになつてきた。全体は部分の組み合わせから作られていると考えると、蛋白質の全体構造に対して成り立つであろう上記のような経験則が、蛋白質の一部を切り出した部分に関してもある程度成り立つのではないかと考えることができる。

実際に、蛋白質の似たような部分配列は似たような部分構造となるという部分配列と部分構造とに相関のあるものが存在している。最近の研究では、部分配列と部分構造との相関を利用して、部分配列から全体構造を組み立てるという試みが試されてきている。

例えば、 K i m T . S i m o n s等「A s s e m b l y o f P r o t e i n Te r t i a r y S t r u c t u r e s f r om F r a g m e n t s w i t h S i m i l a r Lo c a l S e q u e n c e s u s i n g S i mu l a t e d Ann e a l i n g a n d B a y e s i a n S c o r i n g Fun c t i o n s」 J. Mo l . B i o l . (1997) 26 8, 209 p-225 p (以下「文献 1」という）や、 Ch r i s t o p h e r By s t r o f f 等「P r e d e c t i o n o f Lo c a l S t r u c t u r e i n P r o t e i n s U s i n g a L i b r a r y o f S e q u e n c e— S t r u c t u r e Mo t i f sJ J. Mo l . B i o l . (1998) 281, 565 p-577 p (以下「文献 2」という）により開示された研究においては、部分配列に対応する構造をクラスタリングすることにより、広大な構造（f o l d i n g) 空間を狭めることが可能となり、フォールデイング ·シミュレーションの計算時間の短縮にも繋がっている。

ここで、文献 1には、 l o c a lな配列によって l o c a l構造は特定の偏つた構造に制限されるので構造空間は小さくなること、その構造は配列上近い蛋白質の構造に類似していること、配列のプロフアイルをマルチプルァラインメントにより求め、問合せ（q u e r y) 配列との距離の近さを求めることなどが開示されている。

また、文献 2には、断片構造と配列の相関がある場合には、断片の配列傾向から限られた数の構造の候補がとりだせること、構造に関しては二つの構造指標を用いてクラスタリングを行い、また、配列については f r e q u e n c y p r o f i 1 eの距離を使って計算し、クラスター作成は配列が似ているものの中から構造が似てレ、るものを探してクラスタ一化することにより実際に配列一構造断片のクラスターを作成することが開示されている。

従来技術による構造クラスタ一作成過程を第 1図および第 2図を用いて説明する。ここで、第 1図は、従来技術により配列をプロファイルで表現した場合の一例を示す図であり、第 2図は、従来技術による構造クラスター作成イメージを示す図である。まず、配列をプロファイルで表現する。ここで、第 1図（a ) に示すように、配列（A G G E D ) に対応するアミノ酸に「1」を設定することにより、プロフアイルを作成する。また、例えば配列（A G G E D) と（AD G D D) がーつのクラスターを構成しているときには、このクラスターのプロファイルを第 1図（ b ) のように作成する。すなわち、クラスター内に属する配列に関して、ある位置に存在するアミノ酸の頻度を設定することにより、プロファイルを作成する。プロファイルで比較することにより、配列一つとクラスター間の類似度が計算でさる。

そして、配列プロファイルの似ているものが同じクラスター（第 2図の（a ) における 1から 5 ) に入るように、配列空間においてクラスタリングする（第 2 図の（a ) ) 。すなわち、配列プロファイルの類似度を計算して、配列全体の類似度を計算することにより、等方向的なクラスターが作成される。

そして、その配列が構造空間においてどの点に対応するかの相関を見て（第 2 図の（b ) では、クラスター 1について構造空間との相関をとつている）、配列 —構造間の相関が大きいものをクラスター化する（第 2図の（c ) ) 。すなわち、第 2図（b ) の配列空間のクラスターに含まれる一つ一つの配列について、構造空間の点が近いもの（構造が似ているもの）を抽出し、構造が似ていないものは捨てる。このように作成されたクラスターと、捨てられた配列とを用いて、処理を繰返すことにより、構造クラスターを作成する。

しかしながら、これらの従来の手法においては、配列プロファイルを用いた静的な配列と構造との相関クラスターを作っているが、実際には配列空間と構造空間との相関は複雑な多様体を形成していると思われ、プロファイルといういわば空間上で等方向的な相関の取り方では不十分であるという問題点を有していた。また、全体構造は部分構造から作られるとはいえ、当然のことながら部分的に相関の大きいもの、小さいもの、または、相関が見えないものなどがあるはずであり、従来の手法においては、それらの定量化も不十分であるという問題点を有していた。従って、本発明は、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算することのできる、蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することを目的としている。発明の開示

本発明にかかる蛋白質構造予測装置は、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索手段と、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度を、上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成手段と、利用者に問合せ配列を入力させる問合せ配列入力手段と、上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段と、上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索手段と、上記確信度マトリックス作成手段にて作成した上記確信度マトリックスと、上記問合せ断片配列類似性検索手段の検索結果とに基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、上記断片構造確率計算手段にて計算された上記確率に基づいて、上記問合せ配列の上記断片構造を予測する断片配列構造予測手段とを備えたことを特徴とする。

この装置によれば、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、作成した確信度マトリッタスと検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に基づいて、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる。

また、蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は以前からあるが、本装置ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（q u e r y ) 配列が与えられた後に動的に配列相関クラスターを作ることができる。

また、本装置は、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスタ一の大きさ、相関の度合い等）レ、くつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。

つぎの発明にかかる蛋白質構造予測装置は、上記に記載の蛋白質構造予測装置において、上記断片配列類似性検索手段により上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラスタ一情報を、上記断片配列と上記構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成する構造クラスタ一情報マトリックス作成手段とをさらに備え、上記確信度マトリックス作成手段は、上記類似性マトリックス作成手段にて作成した上記類似性マトリックスと、上記構造クラスター情報マトリックス作成手段にて作成した上記構造クラスター情報マトリッタスとに基づいて、上記確信度マトリックスを作成することを特徴とする。これは確信度マトリッタスの作成の一例を一層具体的に示すものである。この装置によれば、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成し、作成した類似性マトリックスと構造クラスター情報マトリッタスとに基づいて、確信度マトリックスを作成するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。

つぎの発明にかかる蛋白質構造予測装置は、上記に記載の蛋白質構造予測装置において、最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化手段をさらに備えたことを特徴とする。この装置によれば、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。

また、本発明は蛋白質構造予測方法に関するものであり、本発明にかかる蛋白質構造予測方法は、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスタ一を作成する断片構造クラスタ一作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索ステップと、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度を、上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリツクス作成ステップと、利用者に問合せ配列を入力させる問合せ配列入力ステップと、上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、上記断片構造確率計算ステップにて計算された上記確率に基づいて、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップとを含むことを特徴とする。この方法によれば、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、作成した確信度マトリックスと検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に基づいて、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合いに応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる。

また、蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は以前からあるが、本方法ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（q u e r y ) 配列が与えられた後に動的に配列相関クラスターを作ることができる。

また、本方法は、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）レ、くつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。

つぎの発明にかかる蛋白質構造予測方法は、上記に記載の蛋白質構造予測方法において、上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリツクス作成ステップと、上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラスタ一情報を、上記断片配列と上記構造クラスタ一の行列で表示した構造クラスタ一情報マトリックスを作成する構造クラスター情報マトリツクス作成ステップとをさらに含み、上記確信度マトリツタス作成ステツプは、上記類似性マトリックス作成ステップにて作成した上記類似性マトリックスと、上記構造クラスター情報マトリックス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、上記確信度マトリツクスを作成することを特徴とする。

これは確信度マトリッタスの作成の一例を一層具体的に示すものである。この方法によれば、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成し、作成した類似性マトリックスと構造クラスタ一情報マトリックスとに基づレ、て、確信度マトリックスを作成するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。

つぎの発明にかかる蛋白質構造予測方法は、上記に記載の蛋白質構造予測方法において、最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化ステップをさらに含むことを特徴とする。

この方法によれば、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。

また、本発明はプログラムに関するものであり、本発明にかかるプログラムは、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索ステップと、上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度を、上記断片配列と上記構造クラスタ一との行列で表示する確信度マトリックスを作成する確信度マトリツタス作成ステップと、利用者に問合せ配列を入力させる問合せ配列入力ステップと、上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、上記断片構造確率計算ステップにて計算された上記確率に基づいて、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステツプとを含む蛋白質構造予測プログラムをコンビユータに実行させることを特徴とする。

このプログラムによれば、蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスタ—を作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。そして、利用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、作成した確信度マトリックスと検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に基づいて、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる。

また、蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は以前からあるが、本プログラムではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（q u e r y ) 配列が与えられた後に動的に配列相関クラスターを作ることができる。

また、本プログラムは、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）いくつも作り、それぞれのデータセットからの構造予測結果を統合して構造を計算することができるようになる。

つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラスター情報を、上記断片配列と上記構造クラスターの行列で表示した構造クラスター情報マトリックスを作成する構造クラスター情報マトリックス作成ステップとをさらに含み、上記確信度マトリックス作成ステップは、上記類似性マトリックス作成ステップにて作成した上記類似性マトリックスと、上記構造クラスタ一情報マトリックス作成ステップにて作成した上記構造クラスタ一情報マトリックスとに基づいて、上記確信度マトリックスを作成することを特徴とする。

これは確信度マトリックスの作成の一例を一層具体的に示すものである。このプログラムによれば、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成し、作成した類似性マトリックスと構造クラスタ一情報マトリックスとに基づいて、確信度マトリックスを作成するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。

つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化ステップをさらに含むことを特徴とする。

このプログラムによれば、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができるようになる。

また、本発明は記録媒体に関するものであり、本発明にかかる記録媒体は、上記に記載されたプログラムを記録したことを特徴とする。

この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、上記に記載されたプログラムをコンビュ —タを利用して実現することができ、これら各プログラムと同様の効果を得ることができる。図面の簡単な説明

第 1図は、従来技術により配列をプロファイルで表現した場合の一例を示す図であり、第 2図は、従来技術による構造クラスタ一作成イメージを示す図であり、第 3図は、本発明の基本原理を示す概念図であり、第 4図は、本発明が適用される本システムの構成の一例を示すブロック図であり、第 5図は、本実施形態における本システムの断片構造予測処理の一例を示すフローチヤ一トであり、第 6図は、断片構造クラスター作成部 1 0 2 aが蛋白質構造データベース 1 0 6 aから断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図であり、第 7図は、断片構造クラスター作成部 1 0 2 aが作成する断片配列の断片構造クラスターの一例を示す図であり、第 8図は、階層的クラスター手法を用いて断片構造クラスターを作成する場合の一例を示す図であり、第 9図は、断片配列 Aについて、その類似の断片配列（D、 F、 G、 S、 I等）と、類似度スコア（5 0、 3 0、 2 8、 2 5、 2 0等）と、その断片配列が属する断片構造クラスター（α、ひ、 J3、 α、 γ等）を検索した場合を示す概念図であり、第 1 0図は、類似性マトリックス 1 0 6 bに格納される情報の一例を示す図であり、第 1 1図は、構造クラスター情報マトリックス 1 0 6 cに格納される情報の一例を示す図であり、第 1 2図は、確信度マトリツクス作成部 1 0 2 eが類似性マトリックス 1 0 6 b および構造クラスタ一情報マトリックス 1 0 6 cに基づいて確信度マトリックス 1 0 6 dを作成することを示す概念図であり、第 1 3図は、問合せ配列（問合せ断片配列） Xについて類似性検索を行い、その検索結果に確信度マトリックス 1 0 6 dを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図であり、第 1 4図は、断片配列構造予測部 1 0 2 jによる断片構造予測の一例を示す概念図であり、第 1 5図は、本実施形態における本システムの全体構造予測処理の一例を示すフローチャートである。発明を実施するための最良の形態以下に、本発明にかかる蛋白質構造予測装置、蛋白質構造予測方法、プロダラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

[本発明の概要〕

以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。第 3図は本発明の基本原理を示す概念図である。

本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、相関の複雑な多様体を表現し、相関の大きさの度合い（確信度）をも計算することができる、部分配列から部分構造への相関の新しい計算手法を提案する。

本発明は、まず様々なデータセットから様々な大きさの構造クラスターを作り、その中から配列の類似性データを取り出す。そして、利用者から問合せ（q u e r y ) 配列が与えられた後に、様々な部分配列への分割に対して様々な大きさの構造クラスターを用いて、疑似的に動的な配列から構造への相関クラスターを作成して、部分配列との相関の大きさを計算する。その相関クラスターから、部分構造の予測を行う。

本発明におけるクラスター作成過程を以下に説明する。まず、本発明は、配列断片の構造分類を行う。すなわち、既知の蛋白質構造データベースなどに格納された配列情報および構造情報に基づいて、典型的な断片構造を抽出し、それらの断片構造を分類する。

そして、第 3図（a ) に示すように、ある断片配列の配列空間における周辺がどのような構造をとつているかをみる。そして、第 3図（b ) に示すように、それぞれの断片配列の周りでどのような典型構造が得られるかをみることにより、配列一構造間の仮想的なクラスターを作成することができる。すなわち、本発明は、ある配列 Aの周りに存在するこの配列に似ている配列が、構造空間上でどの構造クラスターに属するか（どのような似方をしていれば、どの構造クラスターに属するか）を計算し、この配列の周りに仮想的なクラスターを作成する。そして、本発明は、ある未知構造配列断片 Xが与えられたとき、これが配列 Aに似ている、配列 Cに似ているなどの情報を取得し、これらの情報に基づいて仮想クラスターを組み合わせて、最終的に配列がどの構造クラスターに属するかを予測する。

本発明の全体構造の予測は、次の手順で行う。まず、得られた部分構造の候補から、相関の強さの度合い（確信度）を比較し、相関の強く、部分配列の長い部分構造を用いて行う。相関の弱い部分構造も、確率と共にデータとして保持しておく。そして、保持したデータを用いて、これを次の構造の候補として構造を変化させていくことによりフォールデイング ' シミュレーション（f o l d i n g s i m u l a t i o n ) を行う。そして、構造のトポロジーが完成したら全原子系での構造精密化（最適化）を行う。

[システム構成]

まず、本システムの構成について説明する。第 4図は、本発明が適用される本システムの構成の一例を示すプロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、蛋白質構造予測装置 1 0 0と、蛋白質構造情報等に関する外部データベースゃホモロジ一検索等の外部プログラム等を提供する外部システム 2 0 0とを、ネットワーク 3 0 0を介して通信可能に接続して構成されている。

第 4図においてネットワーク 3 0 0は、蛋白質構造予測装置 1 0 0と外部システム 2 0 0とを相互に接続する機能を有し、例えば、インターネット等である。第 4図において外部システム 2 0 0は、ネットワーク 3 0 0を介して、蛋白質構造予測装置 1 0 0と相互に接続され、利用者に対して蛋白質構造情報等に関する外部データベースゃホモロジ一検索等の外部分析プログラムを実行するウェブサイトを提供する機能を有する。

ここで、外部システム 2 0 0は、 WE Bサーバや A S Pサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、ノ、。一ソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよレ、。また、外部システム 2 0 0の各機能は、外部システム 2 0 0のハードウェア構成中の C P U、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。

第 4図において蛋白質構造予測装置 1 0 0は、概略的に、蛋白質構造予測装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部 1 0 4、入力装置 1 1 2や出力装置 1 1 4に接続される入出力制御インタ一フエース部 1 0 8、および、各種のデータベースやテーブル（蛋白質構造データべ一ス 1 0 6 a〜確信度マトリックス 1 0 6 d ) を格納する記憶部 1 0 6を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この蛋白質構造予測装置 1 0 0は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク 3 0 0に通信可能に接続されている。

記憶部 1 0 6に格納される各種のデータベースやテーブル（蛋白質構造データベース 1 0 6 a〜確信度マトリックス 1 0 6 d ) は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースゃゥェブベージ用フアイル等を格納する。これら記憶部 1 0 6の各構成要素のうち、蛋白質構造データベース 1 0 6 aは、ァミノ酸配列情報（ 1次構造）と立体構造情報とを対応付けて記録した蛋白質構造情報を格納したデータベースである。蛋白質構造データベース 1 0 6 aは、配列冗長性を排除したものであるものが好ましい。蛋白質構造データベース 1 0 6 aは、インターネットを経由してアクセスする外部の蛋白質構造データベース（例えば、 P D B— S E L E C T等）であってもよく、また、これらのデータべ一スをコピーしたり、オリジナルの蛋白質構造を格納したり、さらに独自のァノテーシヨン情報等を付カ卩したりして作成したインハウスデータベースであってもよい。

また、類似性マトリックス 1 0 6 bは、断片配列に関する類似性検索結果に関する情報等を格納するマトリックステーブルである。また、構造クラスター情報マトリックス 1 0 6 cは、断片配列がどの断片構造クラスタ一に属しているかを示す情報等を格納するマトリックステーブルである。また、確信度マトリックス 1 0 6 dは、ある断片配列が他の断片配列に似ているという情報が得られたとき、その断片配列が断片構造に属する確信度（確率）を表す情報等を格納するマトリックステーブルである。

また、第 4図において、制御部 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部 1 0 2は、機能概念的に、断片構造クラスター作成部 1 0 2 a、断片配列類似性検索部 1 0 2 b、類似性マトリツクス作成部 1 0 2 c、構造クラスター情報マトリックス作成部 1 0 2 d、確信度マトリックス作成部 1 0 2 e、問合せ配列入力部 1 0 2 f 、問合せ断片配列作成部 1 0 2 g、問合せ断片配列類似性検索部 1 0 2 h、断片構造確率計算部 1 0 2 i、断片配列構造予測部 1 0 2 j、および、全体構造最適化部 1 0 2 kを備えて構成されている。

このうち、断片構造クラスター作成部 1 0 2 aは、蛋白質の配列情報および立体構造情報に基づレ、て、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段である。また、断片配列類似性検索部 1 0 2 bは、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行う断片配列類似性検索手段である。また、類似性マトリックス作成部 1 0 2 cは、断片配列類似性検索手段により断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段である。

また、構造クラスタ一情報マトリックス作成部 1 0 2 dは、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と上記構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成する構造クラスター情報マトリックス作成手段である。また、確信度マトリックス作成部 1 0 2 eは、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成手段である。

また、問合せ配列入力部 1 0 2 f は、利用者に問合せ配列を入力させる問合せ配列入力手段である。また、問合せ断片配列作成部 1 0 2 gは、問合せ配列入力手段にて入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段である。また、問合せ断片配列類似性検索部 1 0 2 h は、問合せ断片配列作成手段にて作成された問合せ断片配列について、断片配列と配列類似性検索を行う問合せ断片配列類似性検索手段である。また、断片構造確率計算部 1 0 2 iは、確信度マトリックス作成手段にて作成した確信度マトリックスと、問合せ断片配列類似性検索手段の検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算する断片構造確率計算手段である。また、断片配列構造予測部 1 0 2 jは、断片構造確率計算手段にて計算された確率に基づいて、問合せ配列の断片構造を予測する断片配列構造予測手段である。また、全体構造最適化部 1 0 2 kは、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化手段である。なお、これら各部によって行なわれる処理の詳細については、後述する。

[システムの処理]

次に、このように構成された本実施の形態における本システムの処理の一例について、以下に第 5図〜第 1 5図を参照して詳細に説明する。

[断片構造予測処理]

次に、断片構造予測処理の詳細について第 5図〜第 1 4図を参照して説明する。第 5図は、本実施の形態における本システムの断片構造予測処理の一例を示すフローチャートである。

まず、蛋白質構造予測装置 1 0 0は、断片構造クラスター作成部 1 0 2 aの処理により、蛋白質構造データベース 1 0 6 aにアクセスして、蛋白質の配列情報 (例えば、アミノ酸配列情報など）および立体構造情報を取得し、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを生成する（ステップ S A- 1 ) 。ここで、第 6図は、断片構造クラスター作成部 1 0 2 aが蛋白質構造データベース 1 0 6 aから断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図である。第 6図に示すように、断片構造クラスター作成部 1 0 2 aは、所定の長さの断片配列（第 6図においては 7アミノ酸残基）毎に配列を分割し、その断片配列が取る断片構造と対応付けて記憶部 1 0 6に格納する。ここで、断片の長さは、 7残基に限らず、様々な長さで断片構造を分割することができる。

ついで、蛋白質構造予測装置 1 0 0は、断片構造クラスター作成部 1 0 2 aの処理により、断片構造の類似度に基づいて断片構造クラスターを作成する（ステップ S A— 2 ) 。ここで、第 7図は、断片構造クラスター作成部 1 0 2 aが作成する断片配列の断片構造クラスターの一例を示す図である。第 7図に示すように、断片構造クラスター作成部 1 0 2 aは、断片構造の類似度（例えば、 r m s dや d m eなど）を類似度の指標として、自己組織化マップ（S OM ; s e 1 f o r g a n i z e d m a p ) , k—平均法（k— m e a n s ) 、階層的クラスタリングなどの既知のクラスタリング手法を用いてクラスター化する。

また、第 8図は、階層的クラスター手法を用いて断片構造クラスターを作成する場合の一例を示す図である。第 8図に示すように、断片構造クラスター作成部 1 0 2 aは、全ての断片構造の距離を計算し、一番距離の近いものを順次まとめていくことによりクラスター化を行っている。ここで、クラスタ一間の距離は、例えば、それぞれのクラスターに属するもの全ての距離を計算して平均をとる等により計算する。

ついで、蛋白質構造予測装置 1 0 0は、断片配列類似性検索部 1 0 2 bの処理により、全ての断片配列について配列空間上における周囲の断片配列と b 1 a s _t検索等の既存の配列類似性検索手法により、類似の断片配列、類似度スコア、その断片配列が属する断片構造クラスターを取得する（ステップ S A—3 ) 。ここで、第 9図は、断片配列 Aについて、その類似の断片配列（D、 F、 G、 S、 I等）と、類似度スコア（5 0、 3 0、 2 8、 2 5、 2 0等）と、その断片配列が属する断片構造クラスター（α、 /3、 α、 γ等）を検索した場合を示す概念図である。

っレ、で、蛋白質構造予測装置 1 0 0は、類似性マトリツクス作成部 1 0 2 cの処理により、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似 1"生マトリックス 1 0 6 bを作成する（ステップ S A— 4 ) 。ここで、第 1 0図は、類似性マトリックス 1 0 6 bに格納される情報の一例を示す図である。第 1 0図に示すように、類似性マトリックス 1 0 6 bには、各断片配列に関して類似性検索を実行した結果を格納する。

ついで、蛋白質構造予測装置 1 0 0は、構造クラスター情報マトリックス作成部 1 0 2 dの処理により、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報マトリックス 1 0 6 cを作成する（ステップ S A— 5 ) 。第 1 1図は、構造クラスター情報マトリックス 1 0 6 cに格納される情報の一例を示す図である。第 1 1図に示すように、断片配列が属する断片構造クラスターに「1」の構造クラスター情報が設定されている。

ついで、蛋白質構造予測装置 1 0 0は、確信度マトリックス作成部 1 0 2 eの処理により、ある断片配列が他の断片配列と類似しているという情報が得られたときに、その断片配列が他の断片配列の構造クラスターに属する確率である確信度を示す確信度マトリックス 1 0 6 dを作成する（ステップ S A— 6 ) 。ここで、第 1 2図は、確信度マトリツクス作成部 1 0 2 eが類似性マトリックス 1 0 6 b および構造クラスター情報マトリックス 1 0 6 cに基づいて確信度マトリックス 1 0 6 dを作成することを示す概念図である。第 1 2図に示すように、確信度マトリックス作成部 1 0 2 eは、規格化した類似性マトリックス 1 0 6 bと構造クラスター情報マトリックス 1 0 6 cの積をとることにより確信度マトリックス 1 0 6 dを作成する。

ついで、蛋白質構造予測装置 1 0 0は、問合せ配列入力部 1 0 2 f の処理により、利用者に問合せ（q u e r y) 配列を入力させる（ステップ SA—7) 。この配列の入力は、外部のアミノ酸配列を格納したデータベースから所望の配列を利用者に選択させることにより入力してもよく、また、所望の配列を利用者が直接入力してもよい。

ついで、蛋白質構造予測装置 100は、問合せ断片配列作成部 102 gの処理により、問合せ配列について所定の長さの断片配列（例えば 7アミノ酸残基）に分割し、その断片配列（問合せ断片配列）を記憶部 106に格納する（ステップ SA-8) 。ここで、断片の長さは、 7残基に限らず、様々な長さで断片構造を分割してもよい。

ついで、蛋白質構造予測装置 100は、問合せ断片配列類似性検索部 102 h の処理により、問合せ配列の各断片配列（問合せ断片配列）について配列類似性を検索し（ステップ S A— 9) 、その検索結果に基づいて、断片構造確率計算部 102 iの処理により、断片配列が属する断片構造の確率を計算する（ステップ SA— 10) 。ここで、第 13図は、問合せ配列（問合せ断片配列） Xについて類似性検索を行い、その検索結果に確信度マトリックス 106 dを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図である。第 1 3図に示すように、問合せ配列 Xの規格化された類似度べクトルに確信度マトリックス 1 06 dを掛け合わせることにより、問合せ配列 Xが各断片構造クラスターに属する確率（確信度）を計算することができる。

ついで、蛋白質構造予測装置 100は、断片配列構造予測部 102 jの処理により、この計算された確率（確信度）に基づいて問合せ配列の断片構造を予測する（ステップ SA— 1 1) 。ここで、第 14図は、断片配列構造予測部 102 j による断片構造予測の一例を示す概念図である。第 14図に示すように、断片配列構造予測部 102 jは、問合せ配列 Xの類似配列の属する構造グラスターの確信度に従ってソートすることにより、その問合せ断片配列 Xが断片構造ひに属すると予想する。これにて、断片構造予測処理が終了する。

[全体構造予測処理] 次に、全体構造予測処理の詳細について第 15図を参照して説明する。第 15 図は、本実施形態における本システムの全体構造予測処理の一例を示すフローチヤートである。

まず、利用者が問合せ（qu e r y) 配列を入力する（ステップ SB— 1) 。そして、蛋白質構造予測装置 100は、問合せ断片配列作成部 102 gの処理により、問合せ（qu e r y) 配列を所定の長さの断片配列に分割する（ステツプ SB— 2) 。ここで、異なる長さで分割した複数のパターンの断片配列を作成する（第 15図では 2つのパターンを作成している）。

そして、蛋白質構造予測装置 100は、上述の方法により、断片構造を予測する（ステップ SB— 3) 。

そして、蛋白質構造予測装置 100は、断片配列構造予測部 102 jの処理により、最大の確信度を持つ断片構造により初期の全体構造を作成する（ステップ SB— 4) 。

そして、蛋白質構造予測装置 100は、全体構造最適化部 102 kの処理により、統計的ポテンシャル法や、 MC法や、シミュレ一テッド 'アニーリング（S A) などを用いて、全体構造について最適化を行う（ステップ SB— 5) 。ここで、最適化の一例を以下に説明する。

(1) 全体構造のエネルギー値（E。_ld) を計算する。

(2) 継ぎ目の部分については、ランダムに二面角を動かし、動かした後のエネルギー値（E_new) を計算し、動かした二面角が次のステップで採用される確率

P を、

(ここで、 ΔΕ= E_new - E。_ld) により計算する。

(3) 断片構造については、予測された断片構造の中からランダムに選んで構造を入れ替え、入れ替えた後の確信度（P _ne；) のエネルギー値（E _ne；) を計算し、入れ替えた後の断片構造が次のステップで採用される確率 /0 を、

P = P new e X p ( - β E _n / P _old e x p 、—/3 E _old) により計算する。

そして、（1 ) 力、ら ( 3 ) を繰返すことにより最適化を行う。これにて、全体構造予測処理が終了する。

[他の実施の形態]

さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。

例えば、蛋白質構造予測装置 1 0 0がスタンドアローンの形態で処理を行う場合を一例に説明したが、蛋白質構造予測装置 1 0 0とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよレ、。

また、実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

また、蛋白質構造予測装置 1 0 0に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、蛋白質構造予測装置 1 0 0の各部（各装置）が備える処理機能、特に制御部にて行なわれる各処理機能については、その全部または任意の一部を、 C PU (C e n t r a l P r o c e s s i n g U n i t ) および当該 C P Uにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤ一ドロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて蛋白質構造予測装置 10 0に機械的に読み取られる。すなわち、 ROMまたは HDなどの記憶部 106などには、 OS (Op e r a t i n g Sy s t em) と協働して CPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、 RAMにロードされることによって実行され、 CPU と協働して制御部を構成する。

し力しながら、このコンピュータプログラムは、蛋白質構造予測装置 100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、 ROM、 E PROM, EEPROM、 CD-ROM, MO、 D VD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵される ROM、 RAM, HD等の任意の「固定用の物理媒体」、あるいは、 LAN、 WAN, インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。

また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わなレ、。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールゃライブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t e m) に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

また、ネットワーク 300は、蛋白質構造予測装置 100と外部システム 20 0とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、 LAN (有線無線の双方を含む）や、 VANや、パソコン通信網や、公衆電話網（アナログデジタルの双方を含む）や、専用回線網（アナログデジタルの双方を含む）や、 CATV網や、 IMT2000方式、 GSM方式または P DCZPDC— P方式等の携帯回線交換網携帯バケツト交換網や、無線呼出網や、 B 1 u e t o o t h等の局所無線網や、 PHS網や、 CS、 BSまたは I S DB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線 ·無線を問わず任意のネットヮ一クを介して、各種データを送受信することができる。

記憶部 106に格納される各種のデータベース等（蛋白質構造データベース 1 06 a〜確信度マトリックス 106 d) は、 RAM、 ROM等のメモリ装置、ノヽードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテ一ブルやフアイルゃデ一タベースゃゥヱブベージ用フアイル等を格納する。また、蛋白質構造予測装置 100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタゃモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよレ、。

さらに、蛋白質構造予測装置 100の分散 ·統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散 ·統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部を C G I (Co mm o n Ga t ewa y I n t e r l a c e; ¾r用レヽて実現してもよい。

以上詳細に説明したように、本発明によれば、蛋白質の配列情報および立体構造情報に基づレ、て、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスタ一を作成し、断片配列について配列空間上における周囲の断片配列と配列類似性検索を行い、断片配列の類似配列が断片構造クラスターに属する確率である確信度を、断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。そして、禾 IJ用者に問合せ配列を入力させ、入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成し、作成された問合せ断片配列について、断片配列と配列類似性検索を行い、作成した確信度マトリックスと検索結果とに基づいて、問合せ断片配列が断片構造クラスターに属する確率を計算し、計算された確率に基づいて、問合せ配列の断片構造を予測するので、相関の複雑な多様体や相関の確信度をも表現可能なように、部分配列から部分構造の相関を計算し、その部分構造を予測することができるようになる。すなわち、本発明は、構造を計算する際、相関の度合に応じて複数の構造候補の確率（確信度）を与えて持たせておく（確信度の関数を構造変化の確率として用いる）ことができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。

また、蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は以前からあるが、本装置ではまず部分構造のクラスターを作り、構造配列相関多様体の複雑な形を考慮して、問合せ（q u e r y ) 配列が与えられた後に動的に配列相関クラスターを作ることができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、構造クラスターを違う観点から（例えば、断片配列の長さ、断片構造の解像度、構造クラスターの大きさ、相関の度合い等）いくつも作り、それぞれのデータセッ卜からの構造予測結果を統合して構造を計算することができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、断片配列と構造クラスターの行列で表示した構造クラスター情報マトリックスを作成し、作成した類似性マトリックスと構造クラスタ一情報マトリックスとに基づいて、確信度マトリックスを作成するので、行列演算手法を用いて類似性検索結果に基づいて簡易かつ精緻に確信度を計算することができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。

さらに、本発明によれば、最大の確信度を持つ断片構造にて決定された初期全体構造について所定の最適化を行うので、まず、初期構造を作成する際に様々な可能な断片配列に分割しそれらの最適な予測結果を統合することができるようになる。また、初期構造をさらに最適化を行うことにより、全体構造予測の精度をさらに上げることができる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体を提供することができる。産業上の利用可能性

以上のように、本発明にかかる蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体は、蛋白質の立体構造予測、蛋白質の相互用部位の解析、および、解析結果を用いた創薬等に用いることができる。

Claims

請求の範囲

1 . 蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索手段と、

上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度を、上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成手段と、

利用者に問合せ配列を入力させる問合せ配列入力手段と、

上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成手段と、

上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索手段と、

上記確信度マトリックス作成手段にて作成した上記確信度マトリックスと、上記問合せ断片配列類似性検索手段の検索結果とに基づレ、て、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、上記断片構造確率計算手段にて計算された上記確率に基づいて、上記問合せ配列の上記断片構造を予測する断片配列構造予測手段と、

を備えたことを特徴とする蛋白質構造予測装置。

2 . 上記断片配列類似性検索手段により上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、

上記断片配列がどの上記断片構造クラスタ一に属しているかを示す構造クラスタ一情報を、上記断片配列と上記構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成する構造クラスター情報マトリックス作成手段と、をさらに備え、

上記確信度マトリックス作成手段は、上記類似性マトリックス作成手段にて作成した上記類似性マトリッタスと、上記構造クラスター情報マトリックス作成手段にて作成した上記構造クラスター情報マトリックスとに基づいて、上記確信度マトリックスを作成する、

ことを特徴とする請求の範囲第 1項に記載の蛋白質構造予測装置。

3 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化手段、

をさらに備えたことを特徴とする請求の範囲第 1項または第 2項に記載の蛋白質構造予測装置。

4 . 蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索ステップと、

上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度を、上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成ステップと、

利用者に問合せ配列を入力させる問合せ配列入力ステップと、

上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、

上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステツプと、上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、

上記断片構造確率計算ステップにて計算された上記確率に基づいて、上記問合せ配列の上記断片構造を予測する断片配列構造予測ステップと、

を含むことを特徴とする蛋白質構造予測方法。

5 . 上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、

上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラスター情報を、上記断片配列と上記構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成する構造クラスター情報マトリックス作成ステップと、をさらに含み、

上記確信度マトリックス作成ステップは、上記類似性マトリックス作成ステップにて作成した上記類似性マトリックスと、上記構造クラスタ一情報マトリックス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、上記確信度マトリックスを作成する、

ことを特徴とする請求の範囲第 4項に記載の蛋白質構造予測方法。

6 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化ステップ、

をさらに含むことを特徴とする請求の範囲第 4項または第 5項に記載の蛋白質構造予測方法。

7 . 蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索ステップと、

上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステップと、上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、上記問合せ断片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、

を含む蛋白質構造予測方法をコンピュータに実行させることを特徴とするプログラム。

8 . 上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、

上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラスタ一情報を、上記断片配列と上記構造クラスターの行列で表示した構造クラスタ —情報マトリックスを作成する構造クラスター情報マトリックス作成ステップと、をさらに含み、上記確信度マトリックス作成ステップは、上記類似性マトリツクス作成ステップにて作成した上記類似性マトリックスと、上記構造クラスタ一情報マトリックス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、上記確信度マトリックスを作成する、

ことを特徴とする請求の範囲第 7項に記載のプロダラム。

9 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化ステップ、

をさらに含むことを特徴とする請求の範囲第 7項または第 8項に記載のプログラム。

1 0 . 蛋白質の配列情報および立体構造情報に基づいて、配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、当該断片構造の類似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、

上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行う断片配列類似性検索ステップと、

上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度を、上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリックス作成ステツプと、

を含む蛋白質構造予測方法をコンピュータに実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。

1 1 . 上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索をした結果を、断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、

上記確信度マトリックス作成ステップは、上記類似性マトリックス作成ステツプにて作成した上記類似性マトリックスと、上記構造クラスタ一情報マトリックス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、上記確信度マトリックスを作成するプログラムを記録したことを特徴とする請求の範囲第 1 0項に記載のコンピュータ読み取り可能な記録媒体。

1 2 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適化を行う全体構造最適化ステップ、

をさらに含むプログラムを記録したことを特徴とする請求の範囲第 1 0項または第 1 1項に記載のコンピュータ読み取り可能な記録媒体。