WO2005027013A1

WO2005027013A1 - タンパク質の膜貫通領域の数または位置の予測装置

Info

Publication number: WO2005027013A1
Application number: PCT/JP2004/012967
Authority: WO
Inventors: Takashi Matsumoto; Daigo Muramatsu; Shinichiro Hashimoto; Takahide Tsunashima; Takashi Kaburagi; Masahiro Sasaki
Original assignee: Takashi Matsumoto; Daigo Muramatsu; Shinichiro Hashimoto; Takahide Tsunashima; Takashi Kaburagi; Masahiro Sasaki
Priority date: 2003-09-12
Filing date: 2004-09-07
Publication date: 2005-03-24
Also published as: JP2005108183A

Abstract

　与えられたアミノ酸残基データから、そのアミノ酸が細胞膜を貫通する膜貫通領域の数または位置を予測する。受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段１０４と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段１０２と、隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段１０６と、膜貫通領域の数またはその位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する算出手段１０８とを備える予測装置１。

Description

明細書

タンパク質の膜貫通領域の数または位置の予測装置

技術分野

[0001] 本発明は、タンパク質の膜貫通領域の数または位置あるいはその両方の予測に関する。具体的には、タンパク質の膜貫通領域の数および Zまたは位置を予測するための装置、方法及びコンピュータプログラムに関する。

背景技術

[0002] 直線状のアミノ酸配列力なるタンパク質は、それ自体の性質とそれを取り巻く液体などの周囲の環境に応じてバラエティーに富んだ立体構造を示す。そして、そのような立体構造がタンパク質の機能に大きな影響を与える。細胞膜を貫通するいわゆる膜タンパク質の構造予測の問題の重要性は、例えば、非特許文献 1、 2、 4一 6に詳細に記載されている。

[0003] 一般に、タンパク質の立体的構造の予測をするための方法は二通りある。一つは、各アミノ酸の物理ィ匕学的性質に基づいてタンパク質の立体構造を構築しょうとするものである。この際、トレーニングの概念は通常含まれない。もう一つは、既知構造についてのデータセット^^めて、特徴を抽出し、機械学習のアルゴリズムを用いることにより予測するものである。一般のタンパク質構造の予測にまつわる問題の多くにおいて、とりわけタンパク質の膜貫通の場合においては、予測精度の改善が必要である。

[0004] なお、非特許文献 3には、隠れマルコフモデルを用いた膜貫通領域数の予測が開示されている力モデルの状態がオープンループ構造ではないために、各モデルにおいて膜貫通領域数は固定されていない。また、用いられるデータ列も各アミノ酸残基のハイド口パシーと電荷に関するもので有り得ることは開示されていない。

非特許文献 1 : T. Hirokawa, S. Boon- Chieng, and S. Mitaku, 'SOSUI: classification and secondary structure prediction system for membrane proteins," Bioinformatics, vol. 14, pp. 378-379, 1998.

非特許文献 2 : Y. Inoue, Y. Sugiyama, M. Ikeda, and T. bhimizu, "Classification of Eukaryotic 7- tms Transmembrane Proteins by Binary Topology Patterns，〃 Genome Informatics, vol. 12, pp. 336—337， 2001.

非特言午文献 3 : A. Krogh, B. Larsson, G. von Heijne, and E. Sonnhammer, "

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes J. Mol. Biol, vol. 305， pp. 567-580， 2001.

非特 §午文献 4 : S. Moller, E. Kriventseva, and Apweiler, "A collection of well characterized integral membrane proteins, eioinformatics, vol. 16， pp. 1159—1160， 2000.

特 §午文献 5 :J. Kyte, and R. F. Doolittle, 'A simple method for displaying the hydropathic character of a protein, ^r/ J. Mol. Biol., vol. 157, pp. 105-132， 1972. 特 §午文献 6 : B. Rost, R. Casadio, P. Fariselli, and C. Sander, "Transmembrane helices predicted at 95% accuracy", Protein Science, col.4, pp.521- 533， 1995. 発明の開示

発明が解決しょうとする課題

[0005] 本発明は、タンパク質構造予測における一般的な問題ではなぐ限定された問題を解決しょうとするものである。本発明においては、アミノ酸配列が水溶性タンパクや膜タンパクである場合の予測も行なうが、与えられたアミノ酸配列は膜タンパクであるものとする。本発明の目的は、与えられたアミノ酸残基の配列に対して、膜貫通領域の数および膜貫通領域の位置を予測することにある。

[0006] 例えば、与えられた残基配列が七つの膜貫通領域を有するタンパク質に由来するものである力を予測することには大いに興味がある (非特許文献 2参照)。本願発明者の知る限り、これらの問題は簡単ではない。というのは、膜貫通タンパク質において X線結晶解析法は用いにくぐ構造が知られた膜貫通タンパク質が非常に少ないことがーつの理由であってより正確な予測法が求められている。

課題を解決するための手段

[0007] 本発明は、膜貫通領域の数または位置あるいはそれらの両方を予測するための新しいアルゴリズムを提供する。このアルゴリズムは、アミノ酸残基の位置の関数として表現される確率動的システムに関連したノヽイド口パシーインデックスおよび電荷からなる二次元のトラジェクトリー（軌跡）を利用するものである。

[0008] 本発明の一つの態様は、コンピュータソフトウェアを用いて実現される専用装置としてのタンパク質の膜貫通領域の数および zまたは予測手段である。本発明では、受け付けたタンパク質のアミノ酸残基配列に対応するハイド口パシーデータ列と電荷データ列とを得るデータ抽出手段と、求められたハイド口パシーデータ列と電荷データ列を記憶するデータ記憶手段と、該ハイド口パシーデータ列と電荷データ列とに基づいて前記タンパク質の膜貫通領域の数または位置を予測するための、アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルにっ、て、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段と、テスト配列であるアミノ酸残基配列に対するハイド口パシーデータ列と電荷データ列とをデータ記憶手段力も受け付けて、前記モデルパラメータに基づいて、膜貫通領域の数および Zまたは位置を変更しながら前記テスト配列に対応するハイドロバシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算出する算出手段とを備えてなる、タンパク質の膜貫通領域の数または位置の予測装置が提供される。

[0009] ここで、ハイド口パシーデータとは、ハイド口パシーインデックスのデータである。ハイドロパシーインデックスとは、各アミノ酸に対して決まる疎水性の程度をあらわす指数である。本発明では、タンパク質に含まれるアミノ酸残基のそれぞれに対応するァミノ酸のハイド口パシーインデックスを用いる。

[0010] 電荷データとは、各アミノ酸残基に対応するアミノ酸の荷電状態を表わすデータである。データ記憶手段やモデル記憶手段は、コンピュータ等において論理的に識別可能な電子ファイル等の記憶手段である。記憶手段の具体的な態様は、揮発性記憶手段 (RAMなど)や不揮発性記憶手段 (ハードディスク、不揮発性メモリーチップなど)、内部記憶装置や外部記憶装置等の様々な態様を用いることができ、特にハ一ドウエア仕様を問うものではない。モデル記憶手段は、該隠れマルコフモデルを定めるためのトレーニングされたモデルパラメータを保持する。

[0011] 本発明によれば、該ハイド口パシーデータ列と電荷データ列とに基づいて前記タンノク質の膜貫通領域の数を算出するために隠れマルコフモデルを用いる。この隠れマルコフモデルはアミノ酸残基配列の膜貫通領域とループ領域とをそれぞれ表現する部分を有している。

[0012] データ抽出手段や算出手段とは、ソフトウェアによる情報処理を、コンピュータハードウエアを用いて実現する機能手段である。このうち、データ抽出手段とは、受け付けたタンパク質の残基配列に対応するハイド口パシーデータ列と電荷データ列とを抽出する機能を有する。このとき、例えば、各アミノ酸についてそれぞれハイド口パシーィンデッタスや電荷を与える変換テーブル手段を参照することができる。この場合、変換テーブル手段は、 20種あるアミノ酸のそれぞれにつ、て上記のハイド口パシーインデッタスと電荷とを与える変換規則を保持するルックアップテーブルである。

[0013] 算出手段とは、膜貫通領域の数および Zまたは位置を変更しながら前記テスト配列に対応するノ、イド口パシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する機能を有している。これにより、与えられたアミノ酸残基に対して膜貫通領域の最も適切な数または位置を算出することができる。

[0014] また、本発明では、前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列として膜貫通領域の数および Zまたは位置が既知であるアミノ酸残基配列におけるハイド口パシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および Zまたは位置とに基づいて学習を実行し、該学習の結果として得られたモデルパラメータを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えていることも好適である。

[0015] 本発明における学習手段は、トレーニングのための配列（トレーニング配列）によつて隠れマルコフモデルの具体的なモデルパラメータを最適化する。

[0016] 前記隠れマルコフモデルは、前記タンパク質の膜貫通領域を表現する少なくとも一つの第 1種のサブモデルと、前記タンパク質のループ領域を表現する少なくとも一つの第 2種のサブモデルとを含むとともに、前記第 1種のサブモデルと前記第 2種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルとすることも好適である。

[0017] 本発明における隠れマルコフモデルは、少なくとも 2種の構造が異なるサブモデル ( 第 1種および第 2種のサブモデル)を有しているものとしてもよい。なお、同じ種類のサブモデルであっても、トポロジカルな構造が同じではある力具体的なモデルパラメータは異なる（出力確率と、遷移確率の違いなど)ものも含む。オープンループ結合は、サブモデル間の遷移が一方向に限定されてサブモデル間をループする遷移をもたない構造であり、膜貫通領域の数が変動しない利点を有する。

[0018] 前記モデルパラメータは、前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれにつ!/、て、フロアリングおよびスムージングを施して設定されるハイド口パシーインデックス出力確率を定める第 1群のパラメータと、前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第 2群のパラメータと、前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率とを含むものとすることも好適である。

[0019] 本発明においては、フロアリングやスムージングという手法が用いられる。フロアリングは、計算され確率値がゼロになることを防ぐ為に導入される手法であり、パラメータ (状態遷移確率、出力確率)の最小値をある量だけ増加させてこの不都合を回避する手法である。また、スムージングは、ある規則に基づいて計算中の値を滑らかにして、非本質的なデータの振れが計算結果に影響することを防止する手法である。

[0020] 前記第 1種のサブモデルは、それぞれが自己ループを有し、互いに left-to-right型に結合された複数の状態を有し、前記第 2種のサブモデルは、自己ループを有する単一の状態を有するものとすることも好適である。

[0021] 本発明では、テスト配列についての膜貫通領域の数または位置を予測する方法であって、テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けたタンパク質のアミノ酸残基配列に対するハイド口パシーデータ列と電荷データ列とを得る抽出ステップと、該テスト配列にっ、ての前記ハイド口パシーデータ列と前記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニングして得られてヽる隠れマルコフモデルのモデルパラメータに基づ、て、膜貫通領域の数および zまたは位置を変更しながら前記テスト配列に対応するハイド口パシーデータ列および電荷データ列を与える確率を算出するステップと、前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および zまたは位置を出力する算出ステップとを含む方法が提供される。

[0022] 本発明では、トレーニング配列として既知のタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けられたトレーニング配列に関するノ、イド口パシーデータおよび電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および Zまたは位置とに基づ、て学習を実行する学習ステップと、該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する格納ステップとを前記算出ステップに先立って実行する方法が提供される。

[0023] また、本発明では、コンピュータを、上記いずれかに記載の装置として動作させるための、コンピュータプログラムや、コンピュータに、上記いずれかに記載の方法を実行させるための、コンピュータプログラムが提供される。

発明の効果

[0024] 本発明では、予備的な実験結果にっ、ても示される。膜貫通領域の数にっ、ての予測精度は 94%であり、膜貫通領域の位置についての予測精度は 96. 09%である。この結果は詳細なチューニングをしていない段階のものであり、十分に期待してよいものである。

図面の簡単な説明

[0025] [図 1]図 1は、本発明の実施の形態に係る膜貫通領域数予測装置の構成を示すプロックダイヤグラムである。

[図 2]図 2は、本発明の実施の形態に係るモデルパラメータを算出する方法を示すフローチャートである。

[図 3]図 3は、本発明の実施の形態に係る膜貫通領域数予測方法を示すフローチヤートである。

[図 4]図 4は、本発明の実施の形態において、トレーニング配列の一例における、アミノ酸残基からも止められる K Dインデックス（ノヽイド口パシーインデックスの一例）と電荷のトラジヱクトリーである。 [図 5]図 5の（a)は、本発明で用いられる隠れマルコフモデルの全体モデル構造を示す説明図である。図 5の (b)は、膜貫通領域のサブモデルを示す説明図である。図 5 の（c)は、ループ領域のサブモデルを示す図である。

[図 6]図 6は、膜貫通領域の位置についての予測性能の評価の基準を説明する説明図である。（a)は膜貫通領域の同定結果を予測できた場合 (TP)、（b)は膜貫通領域の同定結果を予測できな、場合 (FN)、 (c)は、膜貫通領域でな!、位置を膜貫通領域と予測した場合 (FP)である。

[図 7]図 7は、 4種のタンパク質における膜貫通領域の位置を予測した結果を、同定結果と対比させて示す説明図である。

符号の説明

[0026] 1 予測装置

102 データ記憶手段

104 データ抽出手段

106 モデル記憶手段

108 算出手段

110 学習手段

発明を実施するための最良の形態

[0027] [1.ァノレゴリズム]

本発明では、タンパク質の基礎的な構造は与えられたものとして、以下の二次元のベクトルシーケンスを検討する。ここに、 tはアミノ酸残基に付す番号であり、位置を表わす。 Tはアミノ酸残基の総数である。

[数 1]

{O_t - (0) = hydropathv index, Of =charge)}_t ^T _=x

[0028] タンパク質を構成するアミノ酸は 20種有り、通常 20文字のシンボルにより表現される力このシーケンスは、 20文字のシンボルの代わりとして、アミノ酸に関連した数値の並びを表わすものである。そして、本願発明においては各アミノ酸についてのハイドロパシーインデックス（ハイド口パシーを表わす数値）のデータと電荷のデータとの二次元の広がりを有する空間が、アミノ酸残基の列（すなわちタンパク質の一次構造

)の周りに広がることになる。この問題に見られる配列（アミノ酸の配列）の性質を考慮する一つの方法は、現実のアミノ酸残基の配列に対応する概念として補助配列（ auxiliary sequence) {Q }を考慮することである。この補助配列 {Q }は、一次元のパラ

t t

メータ tによって示される内部確率動的システム (inner stochastic dynamical system)の「トラジェクトリー」であり、この補助配列をブラウン運動世のような自己相関のないアミノ酸残基の配列であると考えることにより Oはこの補助配列の不確定性を伴った出力

t

とみなせる。（つまりあるアミノ酸残基 iの隣にもう一つのアミノ酸残基 jがある確率を考える事ができる）。このとき、同時確率分布は、

[数 2]

Ρ{{0) = ν ，0(² = , {β = } I w,H)

= nP(O ,O \Q_t ,w, )P{Q,₊x ie„w,H) (a | _W,H)

により与えられる。ここに、 Hは基礎となっているモデル構造を示している。数 2の式の第 1および第 2の方程式は、一般形であり、最後の方程式が本発明で用いられる隠れマルコフモデルである。 _aは状態状態 jへの遷移確率、 b ¹は状態 iがノヽイド口

ij ikl

パシーインデックス v ¹を与える出力確率、 b ²は状態 iが電荷 V ²を与える出力確

kl ik2 k2

率、 π .は状態 iの初期の確率である。ハイド口パシーインデックスは実数である力有限数のインデックスの値、例えば、 Kyte-Doolittleインデックスについては 17の値を取ることに注意を要する (非特許文献 5)。同様に、電荷も有限数の値（ + 1、 0、—1)だけを取り得る。

[数 3]

O) = {v^ }, k = 1,....， K Of = [v_k ² ₂ }, k₂ = …， K₂ 図 4は、ある膜貫通タンパク質の Κ Dインデックスと電荷との典型的なトラジェクトリ一を表わしている。図 4は、アミノ酸残基位置を横軸に選び、各残基について、 K D インデックスの値と電荷の値をプロットし、さらに、膜貫通領域を示したものである。用いたタンパク質は、 ACP02912であり、膜貫通領域の数 (m)は 5である。このデータは、 ftpサイト (ftp://ftp.ebi.ac.UK/databases/testsets/transmembrane)力らダウン口 ~~ ドしたものである。 20シンボルの代わりにこれらの物理化学的インデックスを考慮したことにより、主な結果として、異なるアミノ酸の間の「近さ」（nearness)が考慮可能となる。即ち、ハイド口パシーインデックスの値が似ている二つのアミノ酸は、この特別な距離 (metric)に関して互いに近いものと考える事ができる。このことにより、オーバーフィッティングの問題（ローカルミニマムに入ってしまいグローバルミニマムを見出すことができない問題)を回避するための「スム一ジング Zフロアリング」を実行することが可能となる。

[0030] 数 2の式によって記述される方式は、内部動的システムが無限数の状態を有する非線形の時系列予測問題について、あるいは手書き文字の認識問題、内部動的システムが有限数の状態を有するオンラインサイン認証問題にっ、て、うまく行くことがある。これらの 3つの分野では、インデックスパラメータ tに相当するのは時間であるが、タンパク質の基本配列においては、 tはアミノ酸残基の連続番号という空間位置を示している。数 2においては、内部確率動的システムが一次であり、観測機構が（内在する確率について）内部動的システムに対して独立であることが仮定されているが、このような制限を外した一般ィ匕は可能である。

[0031] [1. 1 モデル構造]

モデルの構造 Hは数 2の式を良好に適用するのに重要である。数 2の式は、 HMM (隠れマルコフモデル）と呼ばれる非常に一般的なパラダイムを示して、るものであり、この広いパラダイムの中で採用されるモデル構造と得られるデータセットは、ある予測問題に固有の目的を考慮して、慎重に定める必要がある。膜タンパクの可能なかぎり多数の性質を考慮することによってできるだけ詳細にモデル構造をデザインしたいと考えても、構造の知られた膜タンパクの数は非常に限られており、詳細なモデルの多くのパラメータの微妙なチューニングを行なうことは不可能である。これは、データフイツティング対単純さのジレンマ（オッカムの剃刀: Ockham's razor)の現れである [0032] 本発明で提案されるモデルは、以下のように構成される。ここで、 mは膜貫通領域の数を表わす。

(i) mの各値に対して H (n)が構成され、 η= 1、 · · ·、 nとする。 nは後に定義される

m m m

(ii)各モデル H (n)は、ループ領域のサブモデル Η λ (n)(u= 1、 · · ·、 m+ 1)と、膜

m m u

貫通領域のサブモデル H v (n) ( v = 1、 · · ·、 m)との交互の結合からなるオーブ

m

ンループ構造を有して、る（図 5 (a) )。

(iii)膜貫通領域のサブモデル H μ V (η)は、単純な left-to-rightのトポロジーを有し

m

、自己ループを持つ τ個の状態が存在して、図 5 (b)に示されるように組み込まれている。ては、全トレーニングデータセットが与えられたとき、膜貫通領域の残基長の平均値として定義される。

(iv)ループ領域のサブモデル Η λ (η)は自己ループをもつ単一状態のみを有する

m u

(図 5 (c) )。

(V)出力 Oの第 1の成分は、 Kyte-Doolittleインデックス（ノヽイド口パシーインデックス

t

の一種)であり、第 2の成分は、各アミノ酸残基に関して定められている電荷である。

[0033] [1. 2 学習]

mの各値について提供されるモデル H (n)は、 2m+ 1個のサブモデルと m ( τ +1)

m

+1個の状態とを有している。

画

を特定の mについてのトレーニングデータセットとする。ここで、 I O^m I は m個の膜貫通領域につ、て得られるデータセットの数である。この提案されたアルゴリズムは一つのデータセットから一つのモデルを構築しようと試みるものであるため、（i)における nは I ΟΊと等しくなる。

m

[0034] [ステップ 1 :K Dインデックス出力確率]

[b ¹の学習]

ikl

ステプ 1. 1 (7ロアング). U μ v (n)の各状態 qについて、 i (1=1、 · · · τ )に関して一様に

m ί 1

[数 5]

と設定する。 H λ (η)の状態 qについて、

m u l

[数 6]

とする。

ここで、 n({KD }、 k； v )： =膜貫通領域 H μ V (η)内にある、 Κ Dインデック t 1 m

スが kである残基の数、 n({KD }、 k ； λ V )： =ループ領域 Η λ (η)内にある、 Κ-

1 t 1 m u

Dインデックスが kである残基の数、 13 と 13 はハイパーパラメータである。

1 u λ

ステップ 1.2 (スムージング）

[数 7]

ここで、 σはハイパーパラメータである _c

類似のスムージングが

[数 8] についても実行される。

[0036] 本アルゴリズムにおいては、出力確率は個々のサブモデル内において同じである。

たとベイズ推論（T. Matsumoto, Y. Nakajima, M. Saito, J. Sugi, and H. Hamagishi, Reconstructions and predictions of nonlinear dynamical systems: A Hierarchical Bayesian Approach," IEEE Trans, signal Processing, vol. 49, pp. 2138-2155, 2001) が可能ではあっても、本発明のおいては、ハイパーパラメータを経験的に選択することによって、オーバーフィッティングの問題を回避することができる。もし、 2つのアミノ酸の間の近さを定義していなかったなら、ステップ 1. 2が不可能であっただろうということに注目すべきである。さらに、 20種のうち 4つのアミノ酸 (ASP, ASN, GLU, GL N)が同じ K-Dインデックス (-3. 5)を有する点にも注目すべきである。

[0037] [ステップ 2 :電荷出力確率]

[b ²の学習]

ik

U μ V (η)の各状態 qについて、 i (1= 1、 · · · τ )に関して一様に

m 1

[数 9]

； n({Charge_t},k₂^' _v) + r_M

2^v '― yXn({Charge_t},k₂ ; jU_v ) + γ_μ)

2 と設定する。 Η λ (η)の状態 qについて、

m u

[数 10]

とする。ここで、

n( {Charge }、 k ; μ v ) : =膜貫通領域 H μ v (n)内にある、電荷が kである残 t 2 m 2 基の数、

n( {Charge }、 k； λ v )： =ループ領域 Η λ (η)内にある、電荷が kである残基 t 2 m u 2

の数、

T と γ λはハイパーパラメータである。

[0038] ヒスチジンでは、自身の ρΗに依存する二つの電荷値をとることができる。以下の実施例においては、このヒスチジンの電荷は + 1であると仮定する。将来の検討課題として、二つの異なる値の存在を正しく考慮する可能性が検討されなくてはならない。ヒスチジンの数が実験で用いたデータセット中には少ないので、この暫定的な仮定は、予測性能には大きな影響は有しないようである。

[0039] [ステップ 3 :状態遷移確率]

与えられた残基配列について、以下の分解を考える。

[数 11]

い"/^"¹ *) ハ^ ^ +；/ ^^ ) _{nm_k ^ Ίλι ( ) (w* )+1λ₂ (^mk )

\^Ut > t=\ ， tし, =;^ ( \^Ut ^x (m_k)^_n {m_k )+\ ，

，

(m_k )+η_μ{ (m_k )+ηχ₂ (m_k )+ ........+1

[a^の学習]

H λ (n)の状態 qについて、

m u i

[数 12]

'卜 l/ (m_k), j = i

0, otherwise とする。 H μ v (n)の各状態 qについて、

m i

0， otherwise とする。ここで、 α v (m )はチューンされるべきパラメータである。

1 k

この実施の形態にぉ、て以下の知見が得られて、る。

(i) mのある値を考えると、各サブモデル H μ V (η)は同じ状態の数と同じトポロジー m

を有している。このため、 aは全ての nについて同じ値となるが、本発明の学習ルールにおいては、各データセットが異なる数の K Dインデックスと電荷を有するために、「出力確率」は異なるだろう。したがって、 n =mとなり、つまり、各データセットがーつ m k

のモデルを生成する。

(ii)上記定式ィ匕において、二つの出力確率

[数 14]

{ }、 {¾ }

1S 簡単のために、独立であると仮定されている（現実にはそうではない)。

(iii)いくつかの理由により、 Baum-Welch法を使わない選択をした。第 1に、その方法はローカルミ-マムに影響されやすいためである。第 2には、本発明の最初の試行パラメータの値の合理性をテストして、ここに提案する構造が正、か確認するためである。勿論、学習過程はいろいろなやり方で改善されなくてはならない。

(iv) Kyte-Doolittleインデックスより優れたハイド口パシーインデックスが存在する力もしれない。実際、 80もの異なるハイド口パシーインデックスが提案されており、本発明は原理的にはいずれのインデックスも使用できるものである。

(V)本発明の方式における各モデルは、膜貫通領域の数 mの固定した値を有してヽること、および、個々のサブモデル内の各状態に関連している自己ループを除き、各モデルが完全にオープンループである点に注目するべきである。これに対し、非特許文献 3では、サブモデルの間の遷移が許容されており、このために mが固定されていない。

[0041] [1. 3 予測計算]

D ： = {O } ^Ttestをテスト配列とする。予測段階では、 mと、関連した状態配列 {Q }と test t t=l t は共に不明である。モデル H (n)が与えられると、各状態 qは特有のサブモデル H m 1 m

/ζ ν (η)あるいは Η λ (η)に関連していることに注目しなくてはならない。

m u

[0042] [mの予測]

膜貫通領域の数 mは、以下により予測される。

[数 15] m：二 arg max (P(D_tesl \ w, (n))

- arg max

に、

[数 16]

n ：= arg max (P(D_test |

w := { は学習されたパラメータベクトル

である。

[0043] [膜貫通領域の予測]

[数 17]

となるとき、 O ^testに関連したアミノ酸が V番目の膜貫通領域 H β Vにあると予測される。ここで、 t=lについては、 Q *: =qであり、 t>lについては、

1 1

[数 18]

Q := argmaxRfe,…… ,0 ' | Q, = , A¾( )

である（このとき、 Q * = q)₍

t-i j

また、

[数 19]

となるとき、 O ^teStに関連したアミノ酸が U番目の膜貫通領域 Η λ にあると予測される。

t m u

[0044] ここで、以下の点を注記する。

(i)

[数 20] p(o;^l:i,…… ,OriG = ，¾ ( ) 力パラメータ wとモデル Hが固定されているときに状態 Qが qiにある尤度であること

t

に注目する必要がある。このことは、一様な事前確率 P (H (n) )にお、て方程式を

m

[数 21]

， ,¾ ( ）

∞ Ρ(Ο':Ι,……，OriG = ( ) と表記するために用いることができる。

(ii)つまり、数 21の式の左辺は、テストの第 1の配列力 t+l、t+2、 ...、Tについて与えられたときの状態 Qが qとなる確率となる。

t i

(iii)数 18の式力膜貫通領域の予測の唯一の方法というわけではない。

[0045] [2 実験] [2. 1 データセット]

一般のタンパク質構造の予測問題における非常に困難な課題の一つ、そして、特に、膜タンパク質構造予測における大きな課題は、適切な実験のためのデータセットを得るのが難しい点にある。以下に示す本発明の実験のアミノ酸配列は、非特許文献 4【こ ci載れた ftpサイト (ftp:/ 1 ftp.ebi.ac.uk/ databases/ testsets/ transmembraneノ力もダウンロードされたものである。このダウンロードしたアミノ酸配列のうちから、以下の明確な同定結果のあるものを本発明の実験に用いた： DOMAIN CYTOPLASMIC, DOMAIN MATRIX, DOMAIN EXTRACELLULAR, DOMAIN INTERMEMBRANE, DOMAIN PERIPLASMIC, TRANSMEM。ここで、 CYTOPLASMIC, MATRIX, EXTRACELLULAR, INTERMEMBRANE、 PERIPLASMICをループセグメントとして解釈し、 TRANSMEMを膜貫通セグメントとして解釈した。

[0046] 注意を要する重要な問題がある。予測実験を行なうと、当然、最良の既存のァルゴリズムやツールと予測性能を比較したくなる。これを行なうためには、既存のツールのトレーニングにいずれのデータセットが用いられ、あるいは、用いられていないかを知らなくてはならない。本発明者等の現在の状況では、そのようなデータセットを特定することは、不可能ではないかもしれないが非常に困難である。

[0047] 上記 ftpサイトには、 4つの異なるデータセットの分類 A、 B、 C、 Dがある。この分類は、タンパク質構造の信頼性の程度に応じたものである。 A, B, Cに分類されたデータセットの構造は、信頼性の程度は違うが、ほぼ十分に良好に解析されたものである。このため、 A, B, Cにあるデータセットについて、全てとは言わないが、その多くが既に既存のツールのトレーニングに用いられたものではないかと考えられる。このことは、 A, B, Cのデータセットをトレーニングデータセットとして用いることは適当ではある力異なるアルゴリズムの性能の比較のためのテストデータセットとして使用することは適当ではないことを暗に意味している。他の研究者によって開発された既存の予測ツールにつ!、て、新し!/、トレーニングを新し!/、トレーニングデータセットを用いて実行することは、不可能ではないが、非常に困難である。これを改善するために、上記サイトにあるファイル A, B, Cにあるデータセットをトレーニングのために用い、フアイル Dにあるデータセットをテストに使用した。ファイル Dにあるデータセットのうち、既存のツールのトレーニングに用いられたものは少ないであろうから、異なるツール (本発明のものも含む）は、ほぼ対等の立場といえるだろう。こうすることで、当然、 Dのテストデータセットは信頼性が乏しくなるというデメリットがある。このジレンマは、異なるタンパク質構造予測アルゴリズムを比較する際の重要な課題となり続けるだろう。

[0048] [2. 2 実験結果 1 :膜貫通領域の数]

表 1は、データセットの詳細、つまり、 A, B, C, Dに含まれるデータセットの数、膜貫通領域の数を示している。表 2の第 1列は本発明の方法による結果を示している。 50個のテストデータセットのうち、本発明のアルゴリズムは 47個を正確に予測した（9 4%)。分類ミスをした 3つのタンパク質は P02725 (m= l)、 P32897 (m=4)、 P02 912 (m= 5)である。

[表 1]

[0049] 表 2の 2nd以降の列は、本発明のアルゴリズムが予測に失敗した様子を示している。もし、数 15によって与えられる本発明の予測

[数 22]

が正確な値と異なっており、それに対応する尤度が 2番目に大きなものであるときには、この表の 2ndに記載される。テストデータには、 3番目以下になるものは一つも見られない。このことは、本発明の予測方法はほぼ正しぐかつ、より詳細なチューニングによって改善され得ることを示唆していると言える。

[表 2]

[0050] 比較のため、膜貫通構造予測の分野において最もよく参照される 2つの論文である TMHMM (非特許文献 3)、および SOSUI (非特許文献 1)に対して、分類 Dの配列をテストした。前者は 47個（94%)を正確に予測し、後者は 38個（76%)を正確に予測した。これらのアルゴリズムは必要であれば、他の変数も予測する能力がある。

[0051] [2. 3 実験結果 2 :膜貫通領域の位置]

次に、膜貫通領域の位置を予測する場合について説明する。他と比較して重要なノラメータは、各幕貫通領域にある状態の数てである。幾つかの予備実験により、て = 21を選択した。

[0052] 表 1にあるように膜貫通領域の数は合計 230である。性能評価の判定基準は、非特許文献 4に従った。性能の判定基準を定めるには、以下を考える。

(i)真のポジティブの予測（TP; True Positive Predictions)： TPは二つの条件を満たさなければならない。まず、少なくとも 9つの残基を、基準となる同定結果 (annotation) における膜貫通領域の残基と共有しなくてはならない。さらに、予測された膜貫通領域が、基準の同定結果に対して対応付けできなくてはならない。図 6aは、この概念を表わす概念図であり、「T」は膜貫通領域にあるアミノ酸を示し、「一」は、ループ領域にあるアミノ酸を示す。

(ii)偽のネガティブの予測（FN; False Negative Predictions)： FNは、予測できなかつた膜貫通領域であり、図 6bにより示されるものである。

(iii)偽のポジティブの予測（FP; False Positive Predictions)： FPは、基準となるタンノ^質のテスト集合には、膜貫通領域として存在しないところに予測された膜貫通領域を示す。これは、図 6cにより示される。

[0053] 性能の基準は、

[数 23] 正確さ (%) l - ^{FN + FP})x 100(%)

TP + FN J により定義される。これは、非特許文献 4において用いられていると本願発明者が予測して、るものであるが、そこには式は明示されてヽな、。

われわれのアルゴリズムの性能は

TP=224,FN=6,FP=3,正確さ（％) = 96.09 (%)

である。

[0054] 図 7は、予測結果の例を示す。図 7の (a)—（c)は、上記定義に従って、全ての膜貫通領域が正しぐ「真のポジティブ」と予測された例である力図 7の（d)は、偽のネガティブという予測を一つ含み、他は全て正しいと予測されたものである。他の予測ァルゴリズムとの正確な対比は、用いられたデータセットが異なるために難しい。 2000 年までの様々な予測アルゴリズムの性能の比較が非特許文献 4に記載されて、る。

[0055] [3. 予測装置]

上記の隠れマルコフモデルによる予測アルゴリズムを組み込んだタンパク質の膜貫通領域の数または位置を予測する専用装置について説明する。

図 1は、本発明の予測装置 1の各構成要素を表わすブロックダイヤグラムである。データ記憶手段 102は、 20種あるアミノ酸の種類に応じて、ハイド口パシーデータと電荷データを保持する変換テーブル 102aを記憶して、ても良ヽ。この変換テーブルの内容を表 3に記載する。

[表 3] アミノ酸 K—Dインデックス電荷

G 1 y - 0. 4 0

A 1 a 1. 8 0

S e r 一 0. 8 0

P r o - 1. 6 0

V a 1 4. 2 0

T h r - 0. 7 0

C y s 2. 5 0

I 1 e 4. 5 0

L e u 3. 8 0

A s n 一 3. 5 0

A s p - 3. 5 ― 1

し y s — 3. 9 1

G 1 n - 3. 5 0

G 1 u - 3. 5 一 1

Me t 1. 9 0

H i s - 3. 2 0

P h e 2. 8 0

A r g 一 4. 5 1

T y r - 1. 3 0

T r p 一 0. 9 0 表 3ではハイド口パシーインデックスの代表として、 K一 Dインデックスを記載して!/、る。アミノ酸残基の配列を受け取ると、データ抽出手段 104は、受け取ったアミノ酸残基のそれぞれのアミノ酸に対応するハイド口パシーインデックスのデータ列と、電荷のデ一タ列を出力し、必要に応じてデータ記憶手段 102に格納する。あるいは、アミノ酸残基のデータをそのままデータ記憶手段 102に格納し、変換テーブル 102aと併せてノ、イド口パシーインデックスのデータ列と電荷のデータ列が得られるように構成されていても良い。

モデル記憶手段 106は、数 16の式で示されるモデルパラメータデータを格納している。そして、算出手段 108は、データ抽出手段 104からハイド口パシーインデックスのデータ列と電荷のデータ列とに応じて、モデルパラメータを用いて数 15の計算を実行することにより、膜貫通領域数

[数 24] m を算出したり、各アミノ酸残基について数 17— 19の判定を行なって膜貫通領域にあるかどうかを判定し、膜貫通領域の位置を定めたりする。図示しないが、算出手段 10 8には、数 15、数 17— 19の計算を実行するための手段 (加算される各項の確率を計算する確率計算手段、その確率計算手段の出力を記憶する記憶手段、その記憶手段の内容を加算する加算手段等の必要な手段)が実装されて!、る。

[0057] 算出手段 108の出力は、適当な出力手段（図示しない）により、膜貫通領域予測装置 1の外部へ出力されたり、あるいは、表示装置（図示しない）に表示されたり、記憶手段（図示しない）に記憶されたりすることができる。

[0058] 本発明の本発明の予測装置 1には、さらに、隠れマルコフモデル学習手段 110が備えられていても良い。この学習手段 110は、内部には HMM (隠れマルコフモデル )を保持している。本態様の HMMは、上記の [1. 1 モデル構造]によって説明したモデルである。また、学習手段 110には、学習するためのデータとして、トレーニング配列のデータ（トレーニング配列のアミノ酸残基力データ抽出手段によって出力されたノ、イド口パシーデータ列と電荷データ列、トレーニング配列にっ、て予め実験的に得られている膜貫通領域の数 m、各アミノ酸残基が膜貫通領域にあるか、ループ領域にあるかの同定結果）が与えられる。

[0059] この学習方法は、上記アルゴリズムの説明では Baum-Welch法を行なわな!/、と説明しているが、これは検討段階における事情である。したがって、本発明においては、 Baum-Welch法による学習を利用しても良い。これ以外には、 Viterbi法による学習など、 HMMの学習法として知られる任意の学習法を用いることができる。例えば、 Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅にモデルの精度を改善することができる。

[0060] 学習手段 110は、図示しないが、これらの学習を実行するための手段を有している。具体的には、トレーニング配列の実際の膜貫通領域の数 mや同定結果を保持する記憶手段、モデルパラメータを保持する記憶手段、モデルパラメータを更新して学習中のモデルからハイド口パシーデータ列と電荷データ列を抽出する手段、そして、そのデータ列をトレーニング配列の実際のハイド口パシーデータ列と電荷データ列と比較する比較手段などが含まれて、る。 [0061] 図 2により、本発明の実施の形態におけるモデルパラメータの算出方法について説明する。トレーニング配列として、アミノ酸残基や膜貫通領域の数あるいは位置（同定結果）が実験により明ら力となっている多数のタンパク質のアミノ酸残基配列を用いる。データ抽出手段 104により、このトレーニング配列のアミノ酸残基配列のそれぞれ力もハイド口パシーデータ列と電荷データ列を抽出する（S202)。

[0062] 次に、トレーニング配列についてのハイド口パシーデータ列と電荷データ列と、膜貫通領域の数および Zまたは位置とから、モデルの学習を実行する。例えば、モデルノラメータを調整して、膜貫通領域の数を有する隠れマルコフモデル力トレーニング配列のハイド口パシーデータ列と電荷データ列をできるだけ高、確率 (尤度)で出力するようにすることにより、トレーニングを実行する（S204)。この学習は、学習手段 110が行なう。さらに、学習手段 110は、そのようにして得られたモデルパラメータをモデル記憶手段 106に格納する（S206)。

[0063] 図 3により、本発明の実施の形態における膜貫通領域の数または位置の算出方法について、膜貫通領域の数を求める場合について説明する。まず、データ抽出手段 104がテスト配列 (膜貫通領域が未知の配列）のアミノ酸残基配列を受け付けると、データ記憶手段 102からハイド口パシーデータ列と電荷データ列を得る（S302)。算出手段 108は、膜貫通領域の数を変えながら (S304、 S308)、そのときの膜貫通領域の数におけるモデルパラメータを用いて、受け付けたノヽイド口パシーデータ列と電荷データ列が得られる確率を算出する（S306)。これにより、様々な膜貫通領域の数における確率が算出されるので、その確率が最も高い値を示す膜貫通領域の数を出力する（S310)。これにより、学習済みのモデルを用いて、ハイド口パシーインデックスと電荷とによって膜貫通領域の数を算出することが可能となる。膜貫通領域の数を求める代わりに膜貫通領域の位置を求める場合には、算出手段 108の代わりに膜貫通領域の位置を算出する手段を用い、 S304、 S308では膜貫通領域の位置を変更する。

[0064] なお、膜貫通領域の数の学習を実行した後、その結果を生かして膜貫通領域の位置を予測することもできる。このためには、例えば、膜貫通領域の数を予測して得られたモデルパラメータを初期のモデルパラメータとして学習を行なうことができる。 [4. 考察]

提案されたアルゴリズムは、第 1歩に過ぎず、詳細なチューニングをしていない段階のものであるため、先に記載した実験結果からは、本発明の方法は十分に期待してよいものであるといえる。ただし、このアルゴリズムには幾つかの改良が可能である。

(i) a , b の予測を、例えば、 Dirichlet事前確率を組み込んだベイズ手法を取り入れ ij ik

ることにより、大幅に改善することができる。

(ii)関連するハイパーパラメータは、固定されるのではなぐ調整されてもよい。この場合には、モンテカルロ法が用いられてもよい。

(iii)電荷トラジェクトリーがこの問題についてより重要である可能性がある場合、サイドネス（内部または外部）が予測可能である。

(iv)例えば、膜貫通領域とループ領域との境界領域を取り入れることなどによって、より詳細な構造が考慮されてもよい。

(V)改良のために、他の物理ィ匕学的な量も考慮できるであろう。

(vi) 3次元構造の予測も、成功すれば有用である。

Claims

請求の範囲

[1] 受け付けたタンパク質のアミノ酸残基配列に対応するハイド口パシーデータ列と電荷データ列を記憶するデータ記憶手段と、

アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルにっ、て、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段と、

テスト配列であるアミノ酸残基配列に対するハイド口パシーデータ列と電荷データ列とをデータ記憶手段から受け付けて、前記モデル記憶手段から得た前記モデルパラメータに基づいて、膜貫通領域の数および Zまたは位置を変更しながら前記テスト配列に対応するノ、イド口パシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算出する算出手段と

を備えてなる、タンパク質の膜貫通領域の数および Zまたは位置の予測装置。

[2] 前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列としての膜貫通領域の数および Zまたは位置が既知であるアミノ酸残基配列におけるハイド口パシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および Z または位置とに基づ、て学習を実行し、該学習の結果として得られたモデルパラメ一タを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えている、請求項 1に記載の予測装置。

[3] 前記隠れマルコフモデルは、

前記タンパク質の膜貫通領域を表現する少なくとも一つの第 1種のサブモデルと、前記タンパク質のループ領域を表現する少なくとも一つの第 2種のサブモデルとを含むとともに、前記第 1種のサブモデルと前記第 2種のサブモデルとが交互にォープンループ結合した隠れマルコフモデルである、請求項 1または 2に記載の予測

[4] 前記モデルパラメータは、

前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれにつ、て、フロアリングおよびスムージングを施して設定されるハイド口パシーインデックス出力確率を定める第 1群のパラメータと、

前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれについてフロァリングを施して設定される、電荷出力確率を定める第 2群のパラメータと、

前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率と

を含むものである、請求項 3に記載の予測装置。

[5] 前記第 1種のサブモデルは、それぞれが自己ループを有し、互いに left-to-right型に結合された複数の状態を有し、

前記第 2種のサブモデルは、自己ループを有する単一の状態を有する、請求項 3 に記載の予測装置。

[6] テスト配列についての膜貫通領域の数および Zまたは位置を予測する方法であつて、

テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けたテスト配列に対応するハイド口パシーデータ列と電荷データ列とを得る抽出ステップと、

該テスト配列についての前記ハイド口パシーデータ列と前記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニングして得られている隠れマルコフモデルのモデルパラメータに基づ、て、膜貫通領域の数および zまたは位置を変更しながら前記テスト配列に対応するハイド口パシーデータ列および電荷デ一タ列を与える確率を算出するステップと、

前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および zまたは位置を出力する算出ステップと

を含む方法。

[7] トレーニング配列としてその特性が既知のタンパク質のアミノ酸残基配列を受け付けるステップと、

受け付けられたトレーニング配列に関するハイド口パシーデータおよび電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および zまたは位置とに基づいて学習を実行する学習ステップと、

該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する格納ステップと

を前記算出ステップに先立って実行する請求項 6に記載の方法。

[8] 前記隠れマルコフモデルは、

前記タンパク質の膜貫通領域を表現する少なくとも一つの第 1種のサブモデルと、前記タンパク質のループ領域を表現する少なくとも一つの第 2種のサブモデルとを含むとともに、前記第 1種のサブモデルと前記第 2種のサブモデルとが交互にォープンループ結合した隠れマルコフモデルである、請求項 6または 7に記載の方法。

[9] 前記モデルパラメータは、

を含むものである、請求項 8に記載の方法。

[10] 前記第 1種のサブモデルは、それぞれが自己ループを有し、互いに left-to-right型に結合された複数の状態を有し、

前記第 2種のサブモデルは、自己ループを有する単一の状態を有する、請求項 9 に記載の方法。

[11] コンピュータを、請求項 1一 5のいずれかに記載の装置として動作させるための、コンピュータプログラム。

[12] コンピュータに、請求項 6— 10のいずれかに記載の方法を実行させるための、コンピュータプログラム _n