WO2006004182A1

WO2006004182A1 - 配列予測システム

Info

Publication number: WO2006004182A1
Application number: PCT/JP2005/012542
Authority: WO
Inventors: Tomoya Miyakawa
Original assignee: Nec Corporation
Priority date: 2004-07-07
Filing date: 2005-07-07
Publication date: 2006-01-12
Also published as: JPWO2006004182A1; WO2006004182A9; US20090144209A1

Abstract

　　生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置１２６と、記憶装置１２６からＮ個のデータセットを選択する選択部としてのデータ制御部１２８と、このデータセットから異なる複数のデータサブセットを生成する生成部１０２と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部１０４と、を含む。

Description

明細書

配列予測システム

技術分野

[0001] 本発明は、配列予測システムに関し、特に特定の物性を備えるペプチドの配列を予測するための配列予測システムおよび配列予測データベースに関する。また、本発明は、この配列予測を支援する配列予測支援システムに関する。さらに、本発明は、配列予測システムを動作させるための配列予測プログラムおよび方法に関する。また、本発明は、配列予測支援システムを動作させるための配列予測支援プロダラムおよび方法に関する。

背景技術

[0002] C型肝炎ウィルス (HCV)などのウィルスに感染すると、自然免疫によるウィルス排除反応が起こり、次いで、特異的免疫応答が誘導され、ウィルスの排除反応が起こる。

[0003] 特異的免疫応答では、体液中のウィルスが中和抗体により排除され、細胞内のウイルスが細胞傷害性 T細胞 (CTL)により排除される。すなわち、 CTLは、感染細胞表面の HLAクラス I分子に提示された、 8〜： L 1のアミノ酸力なるウィルス抗原（CTLェピトープ)を特異的に認識し、感染細胞を傷害することによりウィルスを排除する。したがって、このようなウィルスに特異的な CTLェピトープを同定することは、ウィルスに対する治療ワクチンを作成する上で重要である。

[0004] このような CTLェピトープを同定するために、 BIMAS、 SYFPEITHIなどのデータベースカもェピトープ予測を行って、予測結果に応じて実際に HLA分子と結合するか否かの実験を行って、実際に結合するものを CTLェピトープとして同定していた。

[0005] BIMAS、 SYFPEITHIなどのデータベースを用いた方法では、 HLA分子と結合すると判断されたペプチドが実際には結合しないことが多ぐ予測通りに CLTェピトープを同定することが困難であった。

[0006] 非特許文献 1には、より少な!/ヽ実験で HLA分子と結合するペプチドを同定するために、より正確に HLA分子と結合するペプチドを同定する方法にっ、て記載されている。非特許文献 1 : Udaka, K., et al, 'Empirical Evaluation of a Dynamic ExperimentDesig n Method for Prediction of MHC Class I- Binging Peptides', The Journal oflmmunolo gy, 169, p5744-5753, 2002

発明の開示

[0007] ところで、非特許文献 1では、コンピュータから任意に選出されたペプチド配列に関して、所定の物性、例えば上記のような HLA分子との結合能を有する力否かの判定を行うことが開示されており、実際に選出されたペプチド配列が所定の物性を有するか否かは、実験を行うことで確認をしていた。非特許文献 1には、選出されたペプチド配列が、高い確率で実際に所定の物性を有することが実験により確認された旨記載されてヽる（5749頁右欄第 2段落)。

[0008] し力しながら、非特許文献 1に記載された技術を、ある特定のターゲット、例えばウイルス抗原に絞って、実験によらずに、予測されたペプチド配列がウィルス抗原として機能するのに必要な特定の物性を有する力否力を定量的に判別し、有すると判別された配列のみを選出するといつた目的では、そのまま適用することができず、まだ不十分であった。

[0009] 一方で、ペプチド配列と同様に、転写因子結合部位 DNA配列予測、 RNAi (RNA interference)配列予測、 RNAァプタマ一配列予測などにつ!、ても、精度よ、配列予測が期待されている。

[0010] そこで、本発明は上述した実情に鑑みてなされたものであり、ある所定の物性を有する生体高分子配列のみを実験によらないで選出することが可能な配列予測システムおよび配列予測データベース、配列予測支援システム、配列予測プログラムおよび配列予測支援プログラムならびに配列予測方法および配列予測支援方法を提供することを目的としている。

[0011] 本発明に係る配列予測システムは、上述の課題を解決するために、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

前記データベース力 N個のデータセットを選択する選択部と、

前記データセットから異なる複数のデータサブセットを生成する生成部と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、

前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と

前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、所定の生体高分子の全配列を受け付ける配列入力受付部と、

前記配列入力受付部にて受け付けた全配列力予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。

このような構成により、選択部によりデータベース力も N個のデータセットが取り出され、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。

[0013] この配列予測システムにおいて、学習部は、配列入力受付後にあっては、属性値推定部として機能するように構成してもよ、。

[0014] すなわち、一つのコンピュータシステムにて、データベースの内容の更新時には、生成部からの複数のデータサブセットのそれぞれにつ、て生成された仮説を適用して、任意に作成された第 2のデータセットの各生体高分子配列に対して属性値を導出する一方で、属性値予測時には、更新済みのデータベースに含まれるデータセットから生成された法則を適用して、各生体高分子配列候補に対して属性値を推定値として算出するよう〖こすることができる。

[0015] この配列予測システムにお、て、配列候補抽出部では、配列入力受付部で受け付けた全配列の先頭から、 p個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補を q個のモノマー単位ずつ下流側にずらしながら P個のモノマー取出単位ごとに抽出してもよい。

[0016] また、配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件を満たす予測が不要な生体高分子配列を、属性値推定部に送る前に排除してもよい。

このような構成により、生体高分子配列候補力不要な配列を属性値の予測前に排除することができ、無用な推定演算を低減することができる。

[0017] また、この配列予測システムにおいて、質問点抽出部では、分散が大きい方力も一定の範囲にある生体高分子配列が質問点として抽出されてもよぐあるいは分散が所定の値よりも大きい生体高分子配列が質問点として抽出されてもよい。

このような構成により、学習部力導出される仮説がある程度収束するまで質問点を抽出し続けられるようになる。

[0018] これらの配列予測システムにおいて、属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさらに設けてもよい。

このような構成により、推定された属性値が所定の条件を満たす生体高分子配列を予測配列として抽出することが可能になる。

[0019] また、本発明に係る配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

所定の生体高分子の全配列を受け付ける配列入力受付部と、

[0020] このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。

[0021] 本発明に係る配列予測データベースは、前述の記載の配列予測システムにより得られる属性値と、生体高分子配列とを有する。

[0022] 本発明に係る配列予測支援システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

前記データセットから異なる複数のデータサブセットを生成する生成部と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第

2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、

前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む。

[0023] このような構成により、選択部によりデータベース力 N個のデータセットが取り出され、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新され、配列予測を支援するデータベースが構築される。

[0024] 本発明に係る配列予測プログラムは、コンピュータ装置を、

生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、所定の生体高分子の全配列を受け付ける配列入力受付部と、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。

[0025] このような構成により、選択部によりデータベース力 N個のデータセットが取り出され、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。

[0026] 本発明に係る配列予測プログラムは、コンピュータ装置を、

前記配列入力受付部にて受け付けた全配列力予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。

[0027] このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。

[0028] 本発明に係る配列予測支援プログラムは、コンピュータ装置を、

前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。

[0029] このような構成により、選択部によりデータベース力 N個のデータセットが取り出され、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機能するようになる。

本発明に係る配列予測方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、

前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列力なる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、

前記第 2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、

算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、

前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と所定の生体高分子の全配列を受け付けて、この受け付けた全配列力予測の対象となる生体高分子配列候補を抽出する配列候補抽出段階と、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む。

[0031] 本発明に係る配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、

前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む。

[0032] また、本発明に係る配列予測システム、配列予測支援システム、配列予測プロダラム、配列予測支援プログラムおよび配列予測方法は、下記の態様を含む。

[0033] 前記配列予測システムの一態様は、第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第 2の所定数のデータに基づいてペプチド配列および物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベース力第 4の所定数のデータを取り出して、各学習部に第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のぺプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド

、て真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したぺプチド配列候補の物性を推定する物性推定部と、を含む。

[0034] このような構成により、ランダムリサンプリング部よりデータベース力第 4の所定数のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつたデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する。

[0035] この配列予測システムにお、て、配列候補抽出部では、配列入力受付部で受け付けた全アミノ酸配列の先頭から、第 5の所定数のアミノ酸力なるペプチド取出単位にて抽出し、以降のペプチド配列候補を第 6の所定数のアミノ酸ずつ下流側にずらしながら前記ペプチド取出単位ごとにペプチド配列を抽出してもよい。さらに、抽出された配列候補の中力所定の条件を満たす予測が不要なペプチド配列を、前記学習部に送る前に排除することもできる。

[0036] このような構成により、受け付けたタンパク質の全ァミノ配列力もペプチド配列候補を抽出して、この抽出されたペプチド配列候補のうち、不要なペプチド配列を物性の予測前に取り出しておくことで、無用な推定演算の必要がなくなる。

[0037] 前記の配列予測システムにおいて、質問点抽出部では、分散が大きい方力も第 7 の所定数の範囲にあるペプチド配列が質問点として抽出されてもよぐあるいは分散が所定の値よりも大きいペプチド配列が質問点として抽出されてもよい。

[0038] このような構成により、各学習部力導出された仮説がある程度収束するまで質問点が抽出し続けられるようになる。

[0039] 前記の配列予測システムにお!/、て、仮説補正部は、質問点抽出部で抽出されたぺプチド配列にっ、て物性の真データを要求するデータ要求部と、当該要求された真データを受け付けるデータ受付部と、受け付けた真データを、抽出されたペプチド配列に対応づけてデータ制御部に送るデータ追加部と、を含んで、てもよ、。

[0040] このような構成により、質問点であるペプチド配列について、データ要求部から、真データを、例えば外部に実験依頼をしたり、外部データベースに情報を求めたりすることが可能になる。データ受付部では、この真データに対応するデータを受け付けて、データ追加部ではこの受け付けた真データを、データ要求の対象となったペプチド配列に対応づけてデータベースに追加するようにデータ制御部に送る。

[0041] 前記の配列予測システムにお、て、物性推定部にて推定された各ペプチド配列候補の物性のうち、推定所定の条件を満たす物性を有するペプチド配列候補を抽出する配列抽出部をさらに設けてもよい。

[0042] このような構成により、物性推定部では、所定の物性を有するペプチド配列候補が、所定のタンパク質に対して所定の物性を示すものとして抽出することができる。

[0043] また、前述した配列予測システムにより予測されるペプチド配列より、このペプチド配列をコードする核酸の塩基配列を予測することを特徴としている。

[0044] これにより、前述した配列予測システムにより予測されるペプチド配列から所定のタンパク質に対して所定の物性を有する配列候補をコードする核酸の塩基配列を予測することがでさるよう〖こなる。

[0045] 前記配列予測支援システムの一態様は、第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第 2の所定数のデータに基づ、てペプチド配列および物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベース力第 4の所定数のデータを取り出して、各学習部に第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるぺプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む。

[0046] このような構成により、ランダムリサンプリング部よりデータベース力第 4の所定数のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつたデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新され、配列予測を支援するデータベースが構築される。

[0047] 前記配列予測プログラムの一態様は、コンピュータ装置を、第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第 2の所定数のデータに基づいてペプチド配列および物性から、第 3の所定数のペプチド配列にっ、て求めてなる仮説を導出する複数の学習部と、データベース力第 4の所定数のデータを取り出して、各学習部に第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された前記真データを受け付けて、抽出されたペプチド配列にっ、て真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列力予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する物性推定部と、を含む配列予測システムとして機能させるものである。

[0048] このような構成により、ランダムリサンプリング部よりデータベース力第 4の所定数のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつたデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。

前記配列予測支援プログラムの一態様は、コンピュータ装置を、第 1の所定数のァミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第 2の所定数の前記データに基づいてペプチド配列および物性から、第 3の所定数のペプチド配列にっ、て求めてなる仮説を導出する複数の学習部と、データベース力第 4の所定数のデータを取り出して、各学習部に第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部カゝら抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。

[0050] このような構成により、ランダムリサンプリング部よりデータベース力第 4の所定数のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつたデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機會するようになる。

[0051] また、前記配列予測システムの他の態様は、第 1の所定数のアミノ酸力もなるぺプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベース力第 4の所定数のデータをランダムに取り出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデータに基づ、てペプチド配列および物性から、第 3の所定数のペプチド配列につ!、て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定する物性推定出力部と、を含む。

[0052] この配列予測システムにおいて、物性推定出力部にて推定された各ペプチド配列候補の物性のうち、所定の条件を満たす物性を有するペプチド配列候補を抽出する配列抽出部をさらに設けてもよい。

[0053] また、前記配列予測支援システムの他の態様は、第 1の所定数のアミノ酸力もなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベース力第 4の所定数のデータをランダムに取り出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデータに基づ、てペプチド配列および物性から、第 3の所定数のペプチド配列にっヽて求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列にっ、て真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む。

[0054] 前記配列予測プログラムの一態様は、コンピュータ装置を、第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベース力第 4の所定数のデータをランダムに取り出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデータに基づ、てペプチド配列および物性から、第 3の所定数のペプチド配列につ 1、て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該べプチド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システムとして機能させるものである。

前記配列予測支援プログラムの一態様は、コンピュータ装置を、第 1の所定数のァミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベース力第 4の所定数のデータをランダムに取り出して、第 4の所定数のデータの中力ランダムに送られる第 2の所定数のデータに基づ、てペプチド配列および物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のぺプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列につ、て真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。

[0056] また、前記配列予測方法の一態様は、第 1の所定数のアミノ酸力もなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング部により第 4の所定数のデータを取り出して、複数の学習部のそれぞれに第 4の所定数のデータの中から第 2の所定数のデータをランダムに供給するランダムリサンプリング段階と、各学習部において、第 2 の所定数のデータに基づ、てペプチド配列および物性から、第 3の所定数のぺプチド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学習部の仮説力それぞれ抽出する着目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と、要求された前記真データを受け付けて、抽出されたペプチド配列にっ、て真データに基づく物性を対応づける処理を行つて、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、前記データベースに蓄積するデータ更新段階と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配列力予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出段階と、各学習部で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定段階と、を含む。

[0057] また、以下のような配列予測支援方法も本発明の態様に含まれる。すなわち、第 1 の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング部により第 4の所定数のデータを取り出して、複数の学習部のそれぞれに第 4の所定数のデータの中から第 2の所定数のデータをランダムに供給するランダムリサンプリング段階と、各学習部において、第 2の所定数のデータに基づいてペプチド配列および物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と

、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、データベースに蓄積するデータ更新段階と、を含む配列予測支援方法である。

[0058] 本発明によれば、ある所定の物性を有する生体高分子配列のみを、実験によらないで選出することが可能になる。

図面の簡単な説明

[0059] 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

[0060] [図 1]本発明の第一の実施形態に係る配列予測システムの概要を示すブロック図である。

[図 2]記憶装置で蓄積されるデータセットの一例を示す図である。

[図 3]学習部にて算出される確率パラメータに基づいて集計される仮想ペプチド配列の各並び位置における各アミノ酸の存在確率の一例を示す図である。

[図 4]学習部が出力する仮説の一例を示す図である。

[図 5]質問点抽出のためのデータの一例を模式的に示す図である。

[図 6]不要なペプチド配列を排除するように配列候補抽出部を構成した一例を示す。

[図 7]本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図である。

[図 8]図 7の仮説比較部の機能を説明する機能ブロック図を示す。

[図 9]真データの要求をユーザにではなぐ外部のデータベースに行う場合を示す図である。 [図 10]第一の実施形態に係る配列予測支援方法の動作について説明するフローチヤートである。

[図 11]配列予測支援システムにより構築されたデータベースあるいは既存のデータベースを用いた配列予測システムの動作を示すフローチャートである。

[図 12]第二の実施形態に係る配列予測支援方法の動作について説明するフローチヤートである。

[図 13]第二の実施形態に係る配列予測支援システムにより構築されたデータベースを用いた配列予測システムの動作を示すフローチャートである。

発明を実施するための最良の形態

[0061] 以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

[0062] 図 1は、本発明の第一の実施形態に係る配列予測システムの概要を示すブロック図である。

この配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置 126と、記憶装置 126から N個のデータセットを選択する選択部としてのデータ制御部 128と、このデータセットから異なる複数のデータサブセットを生成する生成部 102と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部 104と、第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 118と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置 126に蓄積するデータ制御部 128と、所定の生体高分子の全配列を受け付ける配列入力受付部 130と、配列入力受付部 130にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部 131と、配列入力受付後に記憶装置 126の全データセットから法則を生成するとともに、生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部としての学習部 104と、を含む。

[0063] 図 1において、記憶装置 126では、生体高分子配列としてのペプチド配列と、このペプチド配列の属性値とを含むデータセットを蓄積するデータベースである。このデータセットは、例えば文献などにより明ら力となっている既知のデータ（「公知データ」という）、あるいは後述するデータ制御部 128を通じてデータ受付部 122から送られるデータにより構成される。

[0064] 図 2は、記憶装置 126で蓄積されるデータセットの一例を示す図である。

図 2に示したように、このデータセットは、所定数のアミノ酸力もなるペプチド配列と、このペプチド配列の属性値、例えば所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原 (HLA: human leukocyte antigen)複合体への結合定数 (-logKd)とを含む。また、ペプチド配列のアミノ酸の数は、 HLAクラス I分子を対象とする場合には 8〜： L 1の固定された値、例えば 9であり、また HLAクラス II分子を対象とする場合には 20以下の固定された値とすることができる。

[0065] なお、本実施形態では、生体高分子配列として結合対象を抗原提示分子である H LAとするペプチドの配列の例に挙げて説明する力他の生理活性を有する生体高分子配列、例えばペプチドをリガンドとする Gタンパク質共役型受容体をターゲットとするペプチド配列であってもよ、し、前述したような所定のペプチド配列をコードする核酸 (DNAなど）の塩基配列などであってもよい。また、所定の生理活性を有する生体高分子としては、ペプチド配列の他に、所定数のヌクレオチドからなり、所定の塩基配列を有する DNA、 RNAなども挙げられる。

[0066] また、生体高分子配列の属性値としては、所定の物質に対する結合能の指標となる物性が挙げられ、この物性としては、例えば結合ターゲットに対する結合定数の他に、結合に関係する物性、例えば疎水性度 (または親水性度)などであってもよい。

[0067] 図 1に戻り、データ制御部 128は、 N個のデータセットを選択する選択部として機能し、選択された N個のデータセットは生成部 102に送られる。また、データ制御部 128 では、後述するように、データ受付部 122より送られる追加のデータセットを記憶装置 126に送ることにより、記憶装置 126のデータ内容の更新が行われる。 [0068] また、データ制御部 128では、後述する配列入力受付部 130より所定の生体高分子配の全配列の入力があったときには、記憶装置 126に蓄積されたデータセットから全データセットが取り出され、属性値推定部としての学習部 104に送られる。

[0069] 生成部 102は、データ制御部 128より送られる N個のデータセットから、ランダムにサンプリングして、任意の m個（N>m)のデータからなるデータサブセットを生成して、各データサブセットを学習部 104に送る。

[0070] ここでは、例えばデータ制御部 128より 100個のデータセットが送られたときに、例えば 100個のうち 50個のデータセットをランダムにサンプリングして、 50個のデータセットからなる一のデータサブセットが生成され、 100個のうち一のデータサブセットとは別の 50個のデータセットをサンプリングして、二のデータサブセットを生成する。このようにして、複数、例えば 50組のデータサブセットを生成する。なお、各データサブセットは、同一の個数のデータセットであってもよいし、それぞれ異なる個数のデータセットであってもよい。

[0071] 学習部 104では、生成部 102よりデータサブセットが送られたときは、それぞれのデータサブセットに対して後述する仮説が生成され、データ制御部 128からデータセットが送られたときは、後述する候補ペプチド配列に対する属性値、例えば図 2の結合定数を推定するための法則が生成される。

[0072] なお、この学習部 104は、複数の演算部を備えて、各演算部にて複数のデータサブセットに関する処理をパラレルに行うように構成されていてもよいし、一つの演算部を備えて、データサブセットごとに処理をシリアルに行うように構成されて、てもよ、。

[0073] いずれの場合においても、例えば特許第 3094860号公報に記載の隠れマルコフモデル学習システムの手順にしたがって演算処理がなされる。

[0074] 生成部 102より、例えば 50個のデータサブセットが送られた場合は、各データサブセットに対して確率計算を行い、この計算結果がパラメータ記憶装置 140に蓄積される。このパラメータ記憶装置 140に蓄積される確率パラメータは、所定数、例えば 9個のアミノ酸力なるペプチド配列に関する仮説の場合、各アミノ酸の並び順における各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなるものである。 [0075] ここで、各並び位置での各アミノ酸の存在確率および各並び位置の前後の遷移確率により、例えば図 3に示したような仮想ペプチド配列の各並び位置における各ァミノ酸の存在確率が仮説として算出される。図 3においては、上段に 1番目または 9番目のアミノ酸としてメチォニン（M)が 29%の確率で、イソロイシン (I)が 16%の確率で、ノリン (V)が 12%の確率で入る結果が示されている。残りの 43%は、残りのアミノ酸の存在確率の合計であると算出される。図 3の下段では、左から順に右に向力つて 8 個のアミノ酸の並び位置が示される。これによれば、一番左のトレォニン (T)が 1番目である確率は 1%、 2番目である確率は 22%となっている。このようにして、右に向かつて存在確率が示され、上位 1位〜 3位までのアミノ酸が各並び位置の上側に示されている。すなわち、パラメータ記憶装置 140には、このようなパラメータ力も構成される仮説を集計するのに使用される各確率パラメータが蓄積されるようになっている。

[0076] また、ペプチド配列の確率計算と結合定数の関係は、非特許文献 1で示されて!/、る力その概略は以下の通りである。

特定のペプチド Oに対する結合定数 Kaの対数値 logKaは、以下の式で示される。 LKa = L C

O/H

または、

LKa = L - (L — LKa，）

O/H O/H'

ここで、 L は、与えられた HMM (Hidden Markov Model)におけるペプチド配列 O

O/H

の存在確率を示す。

また、 logKdすなわち式中の Cは、 C=L —LKa'で与えられる。

Ο/Η'

ここで、 LKa'は、計算に用いた全てのペプチドの logKaの平均値を示す。 H'は、存在確率が均一な場合の reference HMMを示す。

[0077] また、学習部 104では、データ制御部 128で取り出されるデータセットとは独立の生体高分子配列からなる第 2のデータセットにそれぞれ前記仮説を適用して、この第 2 のデータセットにかかる生体高分子配列の属性値が導出され、質問点抽出部 118に送られる。この第 2のデータセットには、例えば 10万個のペプチド配列が含まれ、この第 2のデータセットに対して、複数のデータサブセット由来の仮説がそれぞれ適用されて、 10万個のペプチド配列および各配列の属性値力もなる第 2のデータセットが、データサブセットの数だけ生成される。なお、第 2のデータセットにかかるペプチド配列は、生成部 102からデータサブセットが送られるたびに設定される変動的なセットであってもよいし、このシステムを利用する者により任意に入力または選択されるセットであってもよい。また、所定のデータテーブルに含まれるものであってもよい。

[0078] 一方、データ制御部 128からデータセットが送られた場合は、属性値推定部として作用する。すなわち、前記と同様の演算が行われ得られる確率パラメータに基づいて法則が生成される。仮説を生成する場合とは異なり、一通りの法則が生成される。後述する配列候補抽出部 131から送られる各候補ペプチド配列に対して、当該法則が適用されて得られた推定値が得られ、この推定値が該当する候補ペプチド配列の属性値として関連づけられて、ペプチドデータベース 138に送られる。

[0079] 質問点抽出部 118では、第 2のデータセットの各々のペプチド配列について属性値の分散を求める演算処理がなされる。

[0080] 図 4は、この演算処理の結果の一例を示す。

図 4において、 oriとは学習部 104において計算の出発点となる属性値の仮スコアとしての結合定数を示し、ここでは全ペプチド配列について初期値として 0. 0000が当てられる。また、 meanとは第 2のデータセットの各々の特定のペプチド配列ごとに導出された予測スコアの平均値を表し、同行の maxは同予測スコアの最大を、同行の min は同予測スコアの最小を、同行の sdは同予測スコアの標準偏差を、また同行の varは同予測スコアの分散値を表す。

[0081] 続いて、質問点抽出部 118では、この分散の大きい方力も順に取り出す。図 5は、データセット中での順位付けを模式的に示す。また、このデータセットのうち、一定の範囲、例えば分散の大きい方から上位 50番目までにある生体高分子配列としてのぺプチド配列が質問点として抽出され、この抽出されたペプチド配列がデータ要求部 1 20に送られる。あるいは、分散が所定の値よりも大きいペプチド配列力質問点として抽出されるようにしてもよ!、。

[0082] データ要求部 120では、質問点抽出部 118にて抽出された質問点に係るペプチド配列について、真の属性値を示すデータ、例えば実験により求める測定データや外部データベースに蓄積されている文献等のデータを要求する。データ受付部 122では、データ要求部 120による要求にしたがいユーザにより入力された測定データ、または後述するように所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータを真の属性値を示すデータとしてデータ制御部 128に送る。

[0083] データ制御部 128では、データ受付部 122より送られるデータと、前記質問点となつて、たペプチド配列とを対応づけて、このペプチド配列とこのデータにかかる属性値とを含む追加のデータセットが生成され、記憶装置 126に送られる。前述したように、この追加のデータセットは、記憶装置 126にて蓄積されて、次回以降の仮説導出の際のデータの候補となる。

[0084] 配列入力受付部 130では、予測が所望されるペプチド配列の候補を特定するための所定のタンパク質の全アミノ酸配列に関する情報、例えばェピトープの同定を所望する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の入力を受け付けて、受け付けたデータは配列候補抽出部 131に送られる。この入力は、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよ、。

[0085] ここで、ウィルス抗原以外の標的タンパク質としては、感染症に関与する細菌、バタテリアなど、例えば結核菌、 0— 157菌、サルモネラ菌、緑膿菌、ピロリ菌、黄色ブドゥ菌、マラリア菌、ボッリアヌス菌など；アレルギー疾患、例えば I型糖尿病、シユーグレン症候群、花粉症、アトピー、喘息、リウマチ、膠原病、自己免疫疾患、臓器移植の拒絶反応抑制などにかかわるタンパク質；がん免疫にかかわるタンパク質、例えばがん抗原；アルッノ、イマ一症にかかわるタンパク質、例えば原因タンパク質であるべ一タアミロイドなどにも適用可能である。

[0086] 配列候補抽出部 131では、配列入力受付部 130にて受け付けた情報である所定のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を抽出し、抽出されたペプチド配列候補は学習部 104に送られる。

[0087] また、配列候補抽出部 131で抽出されたペプチド配列では、現実的に使用できない配列が含まれることがある。このような不要なペプチド配列を、人の手を借りないで自動的に排除するようにしてもょ、。

[0088] 図 6は、不要なペプチド配列を排除するように配列候補抽出部 131を構成した一例を示す。

配列候補抽出部 131では、配列入力受付部 130から送られる所定のタンパク質の全アミノ酸配列力 P個のモノマー単位として、例えば 8〜11、特に 9個のアミノ酸からなるペプチド取出単位にて、ペプチド配列候補を取り出す候補取出部 150と、取り出されたペプチド配列候補の中力所定の条件を満たす予測が不要なペプチド配列を排除する不要配列排除部 152とが設けられている。

[0089] 候補取出部 150では、配列入力受付部 130で受け付けた全アミノ酸配列の先頭から、前記ペプチド取出単位にてペプチド配列を抽出し、以降のペプチド配列候補を、 q個のモノマー単位ずつ、例えば 1つのアミノ酸ずつ下流側にずらしながら前記ぺプチド取出単位ごとに抽出するようになっている。

[0090] また、不要配列排除部 152では、取り出されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列、例えば不要なペプチド配列に関するデータを蓄積する不要配列データベース 154を参照して特定されるペプチド配列を不要なものとして、学習部 104に送る前に予測候補力も排除するようになっており、残りのペプチド配列候補が学習部 104に送られるようになつている。ここで、不要なぺプチド配列は、例えば水溶性が低、ペプチド配列などが挙げられる。

[0091] 例えば、配列入力受付部 130で受け付けたェピトープの同定を所望するウィルス抗原、例えば C型肝炎ウィルスの CTLェピトープの同定を行う場合に、 C型肝炎ウィルスの抗原タンパク質の全アミノ酸配列力ェピトープとして作用するペプチド配列の候補が抽出されるようになっている。例えば、 C型肝炎ウィルスの抗原は、特定のタンパク質として免疫誘導を行うヒト白血球抗原（HLA: human leukocyte antigen)クラス I 分子に提示された 8〜11のアミノ酸より形成され、 CTLがこの部分を認識して、 C型肝炎ウィルスを障害することが知られている。したがって、 C型肝炎ウィルス抗原の全アミノ酸配列の先頭から取り出す P個のモノマー取出単位として 8〜： L 1アミノ酸単位で取り出し、続いて先頭より q個のモノマー単位、例えば 1アミノ酸ずらした二番目のアミノ酸から出発して前述のように 8〜： L 1アミノ酸の単位で取り出す、というように、先頭のアミノ酸を 1アミノ酸ずつ下流側にずらしながらペプチド取出単位ごとに取り出され、この取り出されたペプチド配列を属性値の推定が所望される候補ペプチド配列として抽出される。

[0092] また、例えば、クラス II分子を認識するェピトープの同定を行うことも可能であり、この場合には、 p個のモノマー単位を 20以下、すなわちペプチド取出単位が 20以下のアミノ酸になるようにして、同様にペプチド配列を抽出して、この取り出されたペプチド配列が属性値の推定が所望される候補ペプチド配列となる。

[0093] このような構成により、受け付けたタンパク質の全アミノ酸配列力も候補ペプチド配列を抽出して、この抽出されたペプチド配列のうち、不要なペプチド配列を物性の予測前に取り出しておくことで、学習部 104における無用な推定演算の必要がなくなる

[0094] なお、不要配列データベース 154は、記憶装置 126の一部であってもよい。この場合、図 2に示したようなデータの一部に、例えば疎水性度のような物性に関するデータち追カロしてちょい。

[0095] また、不要配列データベース 154に蓄積するデータには、他社のライセンスが必要なペプチド配列に関する情報を含ませて、このようなペプチド配列を排除するように構成することにより、例えば新薬の開発に必要なペプチド配列候補の抽出という目的に、本実施形態を用いることができるようになる。

[0096] ペプチドデータベース 138では、学習部 104にて推定された属性値、例えば HLA クラス I分子への結合定数と、この結合定数を有するペプチド配列との組合せ力なるデータセットが蓄積される。

[0097] 条件入力受付部 134では、前記ペプチドデータベース 138から所定の物性を有するペプチド配列を抽出するためのキーワードとなる属性値、例えば結合定数の入力が受け付けられる。この入力は、配列入力受付部 130と同様に、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットヮークを接続して、このネットワークを介してなされてもょ、。

[0098] ここで、抽出するペプチド配列の用途に応じて要求される条件 (属性値)の入力を受け付ける。例えば、 C型肝炎の治療剤としてペプチド配列を用いる場合には、所定のタンパク質である HLAクラス I分子に対する結合定数が 6より上のものをキーワードとして受け付けるようにする。 [0099] 配列抽出部 136では、条件入力受付部 134で受け付けた条件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたペプチド配列を予測結果として出力する。

[0100] ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に 1〜数個のァミノ酸置換を行って得られる新規のペプチド配列の物性を調べた、ときには、配列入力受付部 130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、そのペプチド配列のうち、いくつのアミノ酸を置換するのかを示す置換数の情報とを入力することで、学習部 104にて推定段階の演算を行って、この演算結果に基づいて新規のペプチド配列の属性値の推定を行うことができる。

[0101] なお、学習部 104に出力させる仮説として、仮説導出用の第 2のデータセットにか力るペプチド配列とこれに対する属性値、すなわち結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由来の 9アミノ酸の一覧を出力させることでェピトープの直接の予測計算とすることができる。また、属性値を導出するペプチド配列の数として 10万個という個数に限らず、例えば 9アミノ酸力なるペプチド配列の属性値について予測するに際して、全ぺプチド配列組合せである 20⁹個につ、て出力させることで、ペプチド配列の全組合せにつ、ての予測ができるようになる。

[0102] 図 7は、本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図である。

この配列予測システムは、第 1の所定数のアミノ酸力なるペプチド配列と、このべプチド配列のペプチドの所定の生理活性の指標となる物性とを含むデータを格納するデータベースである記憶装置 126と、第 2の所定数の前記データに基づいて前記ペプチド配列および前記物性から、第 3の所定数のペプチド配列にっ、て求めてなる仮説を導出する複数の学習部 112,および，記憶装置 126から第 4の所定数のデータを取り出して、前記各学習部 112に前記第 2の所定数のデータずつランダムに供給するランダムリサンプリング部 110より構成される仮説導出部と、各学習部 112で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部 16 0 (図 8)、設定された前記所定のペプチド配列により特定される物性を各学習部 112 の前記仮説からそれぞれ抽出する着目物性抽出部 162 (図 8)、および、各学習部 1 12から抽出された前記物性の分散を評価する分散評価部 164 (図 8)力もなる仮説比較部 114,および，評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部 118より構成される質問点配列抽出部と、要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部を構成するデータ要求部 120,データ受付部 122,および，データ追加部 124 と、前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、記憶装置 126に蓄積するデータ制御部 128と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部 130,および，配列入力受付部 130にて受け付けた前記全アミノ酸配列力も予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部 112に送る配列候補抽出部 131,および，各学習部 112で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定部 132より構成される物性推定出力部と、を含む

[0103] 図 7において、記憶装置 126では、第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含む、文献などにより明らかとなつて、る既知のデータ（「公知データ」 t\、う）力もなるデータセットを蓄積するデータベースである。また、後述するように、データ制御部 128を通じて送られる追カロデータにより更新することができる。

[0104] 図 2は、記憶装置 126で蓄積されるデータセットの一例を示す図である。

図 2に示したように、このデータセットは、公知データおよび真のデータとしての追カロデータにより示される、第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原（HLA: human leukocyte antigen)複合体への結合定数 (-logKd)とを含む。また、第 1の所定数であるアミノ酸の数は、 HLAクラス I分子を対象とする場合には 8〜： L 1の固定された値、例えば 9であり、また HLAクラス II分子を対象とする場合には 20以下の固定された値である。 [0105] なお、本実施形態では、求めるペプチド配列として結合対象を抗原提示分子である HLAとするペプチドの配列の例を示した力他に生理活性物質、例えばペプチドをリガンドとする Gタンパク質共役型受容体をターゲットとするペプチド配列であってもよ、し、前述したような所定のペプチド配列をコードする核酸 (DNAなど）の塩基配列などであってもよい。

[0106] また、所定の物質に対する結合能の指標となる物性としては、結合ターゲットに対する結合定数の他に、結合に関係する物性、例えば疎水性度 (または親水性度)などであってもよい。

[0107] 図 7に戻り、データ制御部 128では、後述するランダムリサンプリング部 110によりリサンプルされたデータに基づいて各学習部 112にて導出され、必要に応じて後述するデータ追加部 124にて追加される真データを含む追加データを、記憶装置 126に送り、記憶装置 126に蓄積されるデータセットを更新する。

[0108] ランダムリサンプル部 110は、データ制御部 128から送られる第 4の所定数のデータの中から第 2の所定数のデータをランダムにリサンプルし、データを各学習部 112 に供給する。

[0109] このようにデータ制御部 128とランダムリサンプリング部 110とが連動して、各学習部 112に同数の異なったデータ (サンプル）がランダムに供給されるようになる。例えば、記憶装置 126から第 4の所定数としての 100のデータを取り出して、各学習部 11 2に第 2の所定数としての 50のデータを供給する場合に、全学習部 112に同じデータを送るのではなくて、 100から 50のデータをランダムにリサンプリングして取り出し、取り出したデータをひとつの学習部 112に送り、また別の 50のデータをランダムにリサンプリングして取り出し、取り出したデータを他のひとつの学習部 112に送り、最終的には全学習部に異なった 50のデータが供給される。これにより、各学習部 112から同一の仮説が導出されないようにすることができる。このようにして、多くても数百程度の実測値 (文献値）があれば、本システムによる予測を行うことができるようになる。

[0110] 学習部 112では、学習段階と、推定段階とでその目的に応じた処理を行うようになつている。入力されるデータがデータ制御部 128からランダムリランプリング部 110を通じて送られるものであるときには、データ制御部 128より学習段階の演算を行うよう制御信号 contを各学習部 112に送るようになっており、学習部 112では、この制御信号 contが入力されると学習段階の演算を行う。一方で、後述する配列入力受付部 13 0から送られるデータに基づいたデータが送られるときは、推定段階の演算を行う。

[0111] 学習段階および推定段階のいずれにおいても、例えば特許第 3094860号公報に記載の隠れマルコフモデル学習システムの手順にしたがって、入力されるデータを用いて、複数の学習部、例えば 50の学習部にて確率計算を行い、この計算結果をパラメータ記憶装置 140に蓄積する。このパラメータ記憶装置 140に蓄積される確率ノラメータは、第 1の所定数、例えば 9個のアミノ酸力もなるペプチド配列の並び順における各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなるちのである。

[0112] そこで学習段階では、パラメータ記憶装置 140で蓄積された確率パラメータに応じて集計して、前述した図 3に示したような仮想ペプチド配列の各並び位置における各アミノ酸の存在確率が得られるようになって、る。

[0113] そこで、予め設定された所定の個数の組合せのデータを得るために、第 3の所定数、例えば 10万個のペプチド配列について、図 3に示したような集計結果に基づき、結合定数に相当する予測スコアを算出して仮説データが得られる。この仮説データは、仮説比較部 114に送られる。また、記憶装置 126にて仮説データを用いて、記憶装置 126のデータセットを更新する場合には、この仮説データをデータ制御部 128に送るようにしてもよい。なお、この第 3の所定数のペプチド配列セットは、学習段階の計算が始まるたびに設定される変動的なセットであってもよ、し、このシステムを利用する者により任意に入力または選択されるセットであってもよい。

[0114] 一方、推定段階における演算は、学習段階での演算とほぼ同じように行われ、各学習部 112で得られた各ペプチド配列に対応する結合定数のスコア力仮説比較部 1 14ではなくて、後述する物性推定部 132に送られる。

[0115] また、パラメータ記憶装置 140に蓄積される確率パラメータは、学習段階では、データがランダムリサンプリングされるたびに上書きされる形になっており、推定段階では最後に蓄積されて残ってヽる確率パラメータを用いて、スコアが算出されるようになつている。 [0116] ここで、図 8は、仮説比較部 114の機能を説明する機能ブロック図を示す。

仮説比較部 114は、着目配列設定部 160と、着目物性抽出部 162と、分散評価部 164とから構成される。

[0117] 着目配列設定部 160では、各学習部 112から導出される仮説がどの程度収束して V、るかを判別するための比較対象となるペプチド配列を設定する。この設定されるべプチド配列は、各仮説を構成するデータのペプチド配列として挙げられて、るもののひとつである。着目物性抽出部 162では、着目配列設定部 160で設定されたべプチド配列により特定される物性を仮説データの中から抽出する。分散評価部 164では、着目物性抽出部 162で抽出された物性の分散を算出して、例えば前述した図 4に示したようなデータセットが得られる。得られた分散は、質問点抽出部 118に送られる。

[0118] 質問点抽出部 118では、仮説比較部 114で得られた分散の大きい方力も順に取り出す。図 5は、データセット中での順位付けを模式的に示す。また、このデータセットのうち、分散の大きい方力も第 7の所定数の範囲である上位 50番目までが質問点として抽出され、この抽出されたペプチド配列がデータ要求部 120に送られる。あるいは、分散が所定の値よりも大きい分散を与えたペプチド配列が、真データを要求する対象となるペプチド配列、すなわち質問点として抽出されるようにしてもよい。

[0119] データ要求部 120では、質問点抽出部 118にて抽出された質問点に係るペプチド配列について、真データ、例えば実験により求める測定データや外部データベースに蓄積されている文献等データを要求し、データ受付部 122では、データ要求部 12 0による要求にしたがったユーザによる入力にしたがった測定データ、後述するように所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータを真データとしてデータ追加部 124に送る。

[0120] データ追加部 124では、データ受付部 122より送られる真データを一度取り込んで、前記質問点となっていたペプチド配列と対応づけ、このペプチド配列とこの物性とを含む追加データを生成する処理を行、、この追加データがデータ制御部 128に送られる。

[0121] 配列入力受付部 130では、予測が所望されるペプチド配列の候補を特定するための所定のタンパク質の全アミノ酸配列に関する情報、例えばェピトープの同定を所望する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の入力を受け付けて、受け付けたデータは配列候補抽出部 131に送られる。この入力は、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよ、。

[0122] ここで、前述したようなウィルス抗原以外の標的タンパク質を配列入力受付の対象としてちよい。

[0123] 配列候補抽出部 131では、配列入力受付部 130にて受け付けた情報である所定のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を抽出し、抽出されたペプチド配列候補は各学習部 112に送られる。

[0124] また、配列候補抽出部 131で抽出されたペプチド配列では、現実的に使用できない配列が含まれることがある。前述したように、配列候補抽出部 131を構成して、このような不要なペプチド配列を、人の手を借りな、で自動的に排除するようにしてもょ、

[0125] 物性推定部 132では、配列候補抽出部 131で抽出され、必要に応じて不要なぺプチド配列が排除された後のペプチド配列候補にしたがって、学習部 112の推定段階での演算により得られた結果にしたがって、各ペプチド配列の物性を推定する。この演算結果は、例えば前述した図 5に示したようなデータセットで得られ、物性推定部 1 32では、各ペプチド配列について例えば平均値をもって、当該ペプチド配列の、所定のタンパク質、例えば標的タンパク質への結合定数であると推定して、この推定が全てのペプチド配列候補につ、て行われて、ペプチド配列と推定物性との組合せがペプチドデータベース 138に送られる。

[0126] ペプチドデータベース 138では、物性推定部 132にて推定された物性、例えば HL Aクラス I分子への結合定数と、この物性を有するペプチド配列との組合せ力なるデータセットが得られる。

[0127] 条件入力受付部 134では、前記ペプチドデータベース 138から所定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば結合定数の入力が受け付けられる。この入力は、配列入力受付部 130と同様に、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットヮークを接続して、このネットワークを介してなされてちょい。

[0128] ここで、抽出するペプチド配列の用途に応じて要求される条件 (物性)の入力を受け付ける。例えば、 C型肝炎の治療剤としてペプチド配列を用いる場合には、所定のタンパク質である HLAクラス I分子に対する結合定数が 6より上のものをキーワードとして受け付けるようにする。

[0129] 配列抽出部 136では、条件入力受付部 134で受け付けた条件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたペプチド配列を予測結果として出力する。

[0130] ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に 1〜数個のァミノ酸置換を行って得られる新規のペプチド配列の物性を調べた、ときには、配列入力受付部 130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、そのペプチド配列のうち、いくつのアミノ酸を置換するのかの第 8の所定数の情報とを入力することで、各学習部 112にて推定段階の演算を行って、この演算結果に基づ V、て物性推定部 132にお、て新規のペプチド配列の物性の推定を行うことができる

[0131] 図 9は、真データの要求をユーザにではなぐ外部のデータベースに対して行う場合を示す図である。ここでは、図 7に示した配列予測システムに適用した例を示すが、図 1に示した配列予測システムに適用することもできる。

図 9に示したように、データ要求部 120の要求にしたがってネットワーク 160を介してデータベース制御部 162にペプチド配列が送られて、データベース制御部 162ではこのペプチド配列の実測値を実測値データベース 164を参照して検索し、この実測値が得られたら、文献等データとしてネットワーク 160を通じてデータ受付部 122 に送る。このようにすることで、人の手を借りないで自動的に真データを求めることがでさるよう〖こなる。

[0132] 図 10は、本発明に係る配列予測支援方法の実施形態に係る配列予測支援システムに動作について説明するフローチャートである。なお、本実施形態の配列予測支援システムは、図 1に示した第一の実施形態に力かる配列予測システムに含まれており、以下の説明では図 1の中の符号を適宜引用する。 [0133] この配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階であるステップ S1と、学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列力もなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階であるステップ S2と、第 2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階であるステップ S3と、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階であるステップ S4と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、データベースに蓄積するデータ更新段階であるステップ S5と、を含む。

[0134] ステップ S1では、データ制御部 128により、データベースとしての記憶装置から生体高分子の配列と、この配列の生体高分子が備える属性値とからなるデータセット N 個が選択され、さらに生成部 102にてこれら N個のデータセットから異なる複数のデータサブセットが生成され、学習部 104に供給される。

[0135] ステップ S2では、前述したように、学習部 104にてそれぞれのデータサブセットに対して生成された仮説を、第 2のデータセットにかかる生体高分子配列 (ペプチド配列）に適用して、各ペプチド配列の属性値が導出される。

[0136] ステップ S3では、前述したように、質問点抽出部 118にて、各生体高分子配列の属性値の分散が算出される。ステップ S4では、引き続き、質問点抽出部 118にて、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。

[0137] ステップ S5では、抽出された質問点に対する属性値をデータ受付部 122にて受け付けて、データ制御部 128ではこの受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置 126に送り蓄積し、記憶装置 126の内容が更新される。以上により、配列予測を支援するデータベースが構築される。

[0138] また、図示しないが、ステップ S1〜S5を、例えばステップ S3で得られる分散の最大値が所定値よりも小さくなるまで、適宜繰り返してもよぐこの場合、配列予測支援データベースの内容の信頼性がより向上することになる。

[0139] 図 11は、図 1に示した第一の実施形態に力かる配列予測支援システムにより構築されたデータベース、あるいは既存のデータベースを用いた配列予測システムの動作を示すフローチャートである。

[0140] 図 11によれば、ステップ S110では、配列入力受付部 130にて所定の生体高分子、例えばタンパク質の全配列を受け付けて、配列候補抽出部 118によりこの受け付けた全配列力予測の対象となる生体高分子配列、この場合ペプチド配列候補が抽出され、学習部 104に送られる。ステップ S111では、配列入力受付後に、データ制御部 128にて記憶装置 128の全データセットが取り出されて、学習部 104に送られる。学習部 104では、この全データセットから法則を生成するとともに、前記の生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値が推定される。

[0141] このようにして、構築されたデータベースあるいは既存のデータベースより、特定の生体高分子配列に対する属性値の推定を行うことが可能になる。

[0142] さらに、ステップ S112を設けて、学習部 104にて推定された属性値をペプチドデータベース 138に送り、該当するペプチド配列と関連づけて蓄積することで、ペプチド配列と属性値とでなるデータセットのデータベース化が可能になる。このデータセットは、ペプチド配列に限らず、 DNA、 RNAなどの生体高分子配列のいずれについても属性値と併せてデータベース化が可能になる。

[0143] さらに、ステップ S 113〜ステップ S 114を設けて、ステップ S 113では、条件入力受付部 134にて、ペプチドデータベース 138から所定の属性値を有するペプチド配列を抽出するためのキーワード、例えば属性値が特定のタンパク質に対する結合定数よりも大きいなどの条件の入力を受け付ける。

[0144] ステップ S114では、配列抽出部 136にて、条件入力受付部 134で受け付けた条件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたぺプチド配列を予測結果として出力する。

[0145] これにより、所定の属性値を有するペプチド配列力所定の物質に結合するェピトープを示すことが期待されるものとして抽出することができる。

[0146] 図 12は、図 7に示した第二の実施形態に力かる配列予測システムに含まれる配列予測支援システムの動作にっ、て説明するフローチャートである。以下の説明では図 7の中の符号を適宜引用する。

[0147] ステップ S10では、データ制御部 128により記憶装置 126からデータが取り出され、ランダムリサンプリング 110を通じて各学習部 112に異なったデータ力ランダムにリサンプリングされる。

[0148] ステップ S20では、各学習部 112にて、供給されたデータを分析して一定の仮説、すなわちペプチド配列と所定の物性とから、第 3の所定数である 10万個のペプチド配列について求めたスコアを含むデータセットが導出される。

[0149] ステップ S30では、着目配列設定部 160にて、各学習部 112で導出された仮説同士を比較するための所定のペプチド配列が設定される。ステップ S40では、着目物性抽出部 162にて、この設定された所定のペプチド配列および物性を各学習部 112 の仮説からそれぞれ抽出する。ステップ S50では、分散評価部 164にて、各学習部 1 12から抽出された物性の分散が評価される。

[0150] ステップ S60では、質問点抽出部 118にて、仮説比較部 114の分散評価部 164にて評価された分散の大き、方力順に取り出される。このようにして得られるデータセットを、図 5に模式的に示す。

[0151] ステップ S70では、ステップ S60で得られたデータセットのうち、前述のように上位 5 0番目までが質問点として抽出され、この抽出されたペプチド配列が、仮説の物性に対する真データを要求する対象となるペプチド配列として抽出される。

[0152] ステップ S80では、データ要求部 120にて真データを要求し、データ受付部 122にてこの要求された真データを受け付けて、データ追加部 124にてステップ S70で抽出された配列について仮説の物性を受け付けた真データで定義して追加データが得られる。

[0153] ステップ S90では、データ追加部 124で得られた追加データ力データ制御部 128 を通じて記憶装置 126に送られて、記憶装置 126のデータが更新される。

[0154] ステップ S100では、次の学習を行うか否かが判別される。この判別結果が YES、すなわち次の学習が行われる場合、ステップ S10に戻り、ランダムリサンプリング 110 により各学習部 112に学習用のデータがランダムに供給されるようになる。また、判別結果力NO、すなわち次の学習が行われない場合、配列予測支援動作は終了する。

[0155] なお、この学習回数は、予め所定回数だけと決めておいてもよいし、終了ごとに次の学習を行うか否かを判断してもよい。

[0156] 以上により、配列予測を支援するデータベースが構築される。

なお、ステップ S60および S70において、仮説データの分散の大きい順にペプチド配列を並び替えて、上位から所定の個数、例えば 50個までを質問点として抽出する力わりに、例えば評価された分散が所定値以上であるペプチド配列を質問点として抽出されるようにしてちょい。

[0157] 図 13は、第二の実施形態に力かる配列予測支援システムにより構築されたデータベースを用いた配列予測システムの動作を示すフローチャートである。

[0158] ステップ S200では、配列入力受付部 130にて、所定の物質例えば抗原提示分子に対する標的タンパク質であるウィルス抗原の全アミノ酸配列を受け付け、ステップ S 210では、受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出し、学習部 112にて推定段階の演算を行って、その演算結果から物性推定部にて、ペプチド配列候補のウィルス抗原に対する結合定数が推定され、ステップ S220では、ペプチドデータベース 138にこの全てのペプチド配列候補と所定の物性とのデータセットが生成され、蓄積される。

[0159] ステップ S230では、条件入力受付部 134にて、ペプチドデータベース 138から所定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば所定のタンパク質に対する結合定数の入力を受け付ける。

[0160] ステップ S240では、配列抽出部 136にて、条件入力受付部 134で受け付けた条件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたぺプチド配列を予測結果として出力する。

[0161] これにより、所定の物性を有するペプチド配列が、所定の物質に結合するェピトープを示すことが期待されるものとして抽出することができる。

[0162] なお、複数の学習部 112に出力させる仮説として、第 3の所定数のペプチド配列とこれに対する結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タンノク質、例えばウィルス抗原のアミノ酸配列由来の 9アミノ酸の一覧を出力させることでェピトープの予測計算とすることができ、また第 3の所定数として 10万個という個数に限らず、第 5の所定数を 9としたときの全ペプチド配列の 20⁹個について出力させることで全ペプチド配列にっ、ての予測ができるようになる。

[0163] また、本実施形態では、特定の標的タンパク質のェピトープを構成するペプチド配列を予測する例を説明したが、最初に学習部 112に入力する物性として免疫誘導能、例えば標的に結合することで誘導される T細胞の増殖数などを生理活性を示す指標として、このような免疫誘導能を有するペプチド配列を予測することができる。

[0164] また、ペプチドをリガンドとすることが想定されるものの、具体的なペプチドリガンドが同定されていない Gタンパク質共役型受容体（orphan G-protein coupled receptor : o rphan-GPCR)のリガンド最適化を目的とするアツセィ系予測、具体的にはペプチド投与に伴う培養細胞のカルシウム濃度上昇や細胞内 cAMP (細胞内生体分子）上昇などの数値を生理活性を示す指標として、このアツセィ系に最適なペプチド配列を予測することちでさる。

[0165] また、生理活性ペプチド、あるいはペプチド力も構成される生理活性ホルモンの血中濃度上昇を生理活性の指標として、このペプチド配列を予測することもできる。

[0166] また、 DNA配列予測に本実施形態を適用することが可能である。例えば、遺伝子が発現する場合、 DNA上の遺伝子配列の上流に遺伝子発現を制御する転写因子が結合する必要があり、この転写因子の結合部位 DNA塩基配列には一定のモチーフあるいは法則があることが知られている。そこで、特定の遺伝子発現に関与するプ口モータに結合する転写因子の配列の候補を予測することで、特定の遺伝子発現系において遺伝子発現と転写因子結合部位の DNA配列パターンとの間に法則を見つけること可能になり、遺伝子発現の制御や転写因子結合の制御なども可能になる

[0167] RNAi配列予測にも、本実施形態を適用することが可能である。例えば、特定の 10 〜20塩基程度の二本鎖の小分子 RNA塩基配列（siRNA)力補助的な因子の共存下で配列相同性を持った mRNAと結合して切断することにより、その上流'下流の遺伝子産物生成を阻害することが知られている。そこで、特定の遺伝子発現に関与する mRNAに結合する siRNAの配列の候補を予測することで、特定の生理活性と R NAi配列との関連性を予測することが可能になり、近年医薬品候補物質としても研究開発が盛んな RNAiの配列デザインも可能になる。

[0168] RNAァプタマ一配列予測にも、本実施形態を適用することが可能である。 RNAァプタマーとは、通常 20塩基以上の RNA鎖であり、配列内部の相補的塩基間で結合して特定の安定した立体構造を有し、この構造特性を利用して標的タンパク質などの特定の機能部位に結合し、その機能を制御する物質である。そこで、標的タンパク質の機能部位に結合する構造を有する RNA塩基配列の候補を予測することで、特定の生理活性と RNAアブタマ一配列との関連性を予測することが可能になり、近年医薬候補物質としても研究開発が盛んな RNAアブタマ一の配列デザインも可能になる

[0169] 本発明は、汎用のコンピュータ装置を、以上の配列予測システムあるいは配列予測支援システムとして機能させるプログラムも提供する。

[0170] 以上のように、本実施形態によれば、ある所定の物性を有するペプチド配列または核酸の塩基配列などの生体高分子配列のみを、実験によらな、で選出することが可會になる。

[0171] 以上の配列予測システムまたは配列予測支援システムの各構成の動作をプロダラムで表現することも可能であり、このようなプログラムを用いることで、汎用コンピュータ装置を、前記配列予測システムまたは配列予測支援システムとして動作させることが可會になる。

[0172] また、質問点抽出部 118にて、学習部 112における次の学習段階での演算候補から不要なペプチド配列を排除するために、例えば図 7に示したような不要配列排除部および必要に応じて不要配列データベースのような構成を設けてもよい。このようにすることで、不要なペプチド配列について真データを要求することがなくなる。

Claims

請求の範囲

[1] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、

を含む配列予測システム。

[2] 請求項 1に記載の配列予測システムにお、て、

前記学習部は、配列入力受付後にあっては、属性値推定部として機能することを特徴とする配列予測システム。

[3] 請求項 1に記載の配列予測システムにお、て、

前記配列候補抽出部では、前記配列入力受付部で受け付けた全配列の先頭から、 p個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補を q個のモノマー単位ずつ下流側にずらしながら p個のモノマー取出単位ごとに抽出することを特徴とする配列予測システム。 [4] 請求項 1に記載の配列予測システムにお、て、

前記配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件を満たす予測が不要な生体高分子配列を、前記属性値推定部に送る前に排除することを特徴とする配列予測システム。

[5] 請求項 1に記載の配列予測システムにお、て、

前記質問点抽出部では、前記分散が大きい方から一定の範囲にある生体高分子配列が質問点として抽出されることを特徴とする配列予測システム。

[6] 請求項 1に記載の配列予測システムにお、て、

前記質問点抽出部では、前記分散が所定の値よりも大きい生体高分子配列が質問点として抽出されることを特徴とする配列予測システム。

[7] 請求項 1〜6のいずれかに記載の配列予測システムにおいて、

前記属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさらに設けた配列予測システム。

[8] 請求項 1〜7のいずれかに記載の配列予測システムにおいて、

前記生体高分子配列が、ペプチドのアミノ酸配列、核酸塩基配列のいずれかであることを特徴とする配列予測システム。

[9] 請求項 8に記載の配列予測システムにお、て、

前記属性値は、ペプチドまたは核酸と所定の生体高分子との結合定数であることを特徴とする配列予測システム。

[10] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システム。

[11] 請求項 1に記載の配列予測システムにより得られる属性値と、生体高分子配列とを有する配列予測データベース。

[12] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システム。

[13] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、

2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、を含む配列予測支援システム。

[14] 第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、

第 2の所定数の前記データに基づ、て前記ペプチド配列および前記物性から、第

3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、前記データベース力第 4の所定数のデータを取り出して、前記各学習部に前記第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、前記各学習部で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、

設定された前記所定のペプチド配列により特定される物性を前記各学習部の前記仮説からそれぞれ抽出する着目物性抽出部と、

前記各学習部から抽出された前記物性の分散を評価する分散評価部と、評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、

要求された前記真データを受け付けて、抽出された前記ペプチド配列にっ、て前記真データに基づく物性を対応づける処理を行うデータ更新部と、

前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、前記データベースに蓄積するデータ制御部と、

所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、

前記配列入力受付部にて受け付けた前記全アミノ酸配列力予測の対象となるぺプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を前記学習部に送る配列候補抽出部と、

前記各学習部で得られた結果から、前記抽出した前記ペプチド配列候補の物性を推定する物性推定部と、を含む配列予測システム。

第 1の所定数のアミノ酸力なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、

前記データベース力第 4の所定数のデータをランダムに取り出して、第 4の所定数のデータの中力ランダムに送られる第 2の所定数のデータに基づいて前記ぺプチド配列および前記物性から、第 3の所定数のペプチド配列にっ、て求めてなる仮説を導出する複数の仮説導出部と、

前記各仮説導出部で導出された前記仮説に含まれる所定のペプチド配列を設定し、この設定された前記所定のペプチド配列により特定される物性を前記各仮説導出部の前記仮説力それぞれ抽出し、この抽出された前記物性の分散を評価し、評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、

所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ぺプチド配列候補を前記仮説導出部に送って、出力された結果から、前記抽出した前記ペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システム。コンピュータ装置を、

前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、所定の生体高分子の全配列を受け付ける配列入力受付部と、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配列予測プログラム。

[17] コンピュータ装置を、

[18] コンピュータ装置を、

前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させる配列予測支援プログラム。

[19] 生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータべースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、

前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列力もなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、

配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む配列予測方法。

生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータべースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、

算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む配列予測支援方法。