JPWO2006004182A1

JPWO2006004182A1 - 配列予測システム

Info

Publication number: JPWO2006004182A1
Application number: JP2006528959A
Authority: JP
Inventors: 知也宮川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-07-07
Filing date: 2005-07-07
Publication date: 2008-04-24
Also published as: WO2006004182A9; WO2006004182A1; US20090144209A1

Abstract

生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置１２６と、記憶装置１２６からＮ個のデータセットを選択する選択部としてのデータ制御部１２８と、このデータセットから異なる複数のデータサブセットを生成する生成部１０２と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部１０４と、を含む。

Description

本発明は、配列予測システムに関し、特に特定の物性を備えるペプチドの配列を予測するための配列予測システムおよび配列予測データベースに関する。また、本発明は、この配列予測を支援する配列予測支援システムに関する。さらに、本発明は、配列予測システムを動作させるための配列予測プログラムおよび方法に関する。また、本発明は、配列予測支援システムを動作させるための配列予測支援プログラムおよび方法に関する。

Ｃ型肝炎ウィルス（ＨＣＶ）などのウィルスに感染すると、自然免疫によるウィルス排除反応が起こり、次いで、特異的免疫応答が誘導され、ウィルスの排除反応が起こる。

特異的免疫応答では、体液中のウィルスが中和抗体により排除され、細胞内のウィルスが細胞傷害性Ｔ細胞（ＣＴＬ）により排除される。すなわち、ＣＴＬは、感染細胞表面のＨＬＡクラスＩ分子に提示された、８〜１１のアミノ酸からなるウィルス抗原（ＣＴＬエピトープ）を特異的に認識し、感染細胞を傷害することによりウィルスを排除する。したがって、このようなウィルスに特異的なＣＴＬエピトープを同定することは、ウィルスに対する治療ワクチンを作成する上で重要である。

このようなＣＴＬエピトープを同定するために、ＢＩＭＡＳ、ＳＹＦＰＥＩＴＨＩなどのデータベースからエピトープ予測を行って、予測結果に応じて実際にＨＬＡ分子と結合するか否かの実験を行って、実際に結合するものをＣＴＬエピトープとして同定していた。

ＢＩＭＡＳ、ＳＹＦＰＥＩＴＨＩなどのデータベースを用いた方法では、ＨＬＡ分子と結合すると判断されたペプチドが実際には結合しないことが多く、予測通りにＣＬＴエピトープを同定することが困難であった。

非特許文献１には、より少ない実験でＨＬＡ分子と結合するペプチドを同定するために、より正確にＨＬＡ分子と結合するペプチドを同定する方法について記載されている。
Udaka, K., et al, 'Empirical Evaluation of a Dynamic ExperimentDesign Method for Prediction of MHC Class I-Binging Peptides', The Journal ofImmunology, 169, p5744-5753, 2002

ところで、非特許文献１では、コンピュータから任意に選出されたペプチド配列に関して、所定の物性、例えば上記のようなＨＬＡ分子との結合能を有するか否かの判定を行うことが開示されており、実際に選出されたペプチド配列が所定の物性を有するか否かは、実験を行うことで確認をしていた。非特許文献１には、選出されたペプチド配列が、高い確率で実際に所定の物性を有することが実験により確認された旨記載されている（５７４９頁右欄第２段落）。

しかしながら、非特許文献１に記載された技術を、ある特定のターゲット、例えばウィルス抗原に絞って、実験によらずに、予測されたペプチド配列がウィルス抗原として機能するのに必要な特定の物性を有するか否かを定量的に判別し、有すると判別された配列のみを選出するといった目的では、そのまま適用することができず、まだ不十分であった。

一方で、ペプチド配列と同様に、転写因子結合部位ＤＮＡ配列予測、ＲＮＡｉ（ＲＮＡ interference）配列予測、ＲＮＡアプタマー配列予測などについても、精度よい配列予測が期待されている。

そこで、本発明は上述した実情に鑑みてなされたものであり、ある所定の物性を有する生体高分子配列のみを実験によらないで選出することが可能な配列予測システムおよび配列予測データベース、配列予測支援システム、配列予測プログラムおよび配列予測支援プログラムならびに配列予測方法および配列予測支援方法を提供することを目的としている。

本発明に係る配列予測システムは、上述の課題を解決するために、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。

このような構成により、選択部によりデータベースからＮ個のデータセットが取り出され、生成部によりこのＮ個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第２のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第２のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。

この配列予測システムにおいて、学習部は、配列入力受付後にあっては、属性値推定部として機能するように構成してもよい。

すなわち、一つのコンピュータシステムにて、データベースの内容の更新時には、生成部からの複数のデータサブセットのそれぞれについて生成された仮説を適用して、任意に作成された第２のデータセットの各生体高分子配列に対して属性値を導出する一方で、属性値予測時には、更新済みのデータベースに含まれるデータセットから生成された法則を適用して、各生体高分子配列候補に対して属性値を推定値として算出するようにすることができる。

この配列予測システムにおいて、配列候補抽出部では、配列入力受付部で受け付けた全配列の先頭から、ｐ個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補をｑ個のモノマー単位ずつ下流側にずらしながらｐ個のモノマー取出単位ごとに抽出してもよい。

また、配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件を満たす予測が不要な生体高分子配列を、属性値推定部に送る前に排除してもよい。
このような構成により、生体高分子配列候補から不要な配列を属性値の予測前に排除することができ、無用な推定演算を低減することができる。

また、この配列予測システムにおいて、質問点抽出部では、分散が大きい方から一定の範囲にある生体高分子配列が質問点として抽出されてもよく、あるいは分散が所定の値よりも大きい生体高分子配列が質問点として抽出されてもよい。
このような構成により、学習部から導出される仮説がある程度収束するまで質問点を抽出し続けられるようになる。

これらの配列予測システムにおいて、属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさらに設けてもよい。
このような構成により、推定された属性値が所定の条件を満たす生体高分子配列を予測配列として抽出することが可能になる。

また、本発明に係る配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。

このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。

本発明に係る配列予測データベースは、前述の記載の配列予測システムにより得られる属性値と、生体高分子配列とを有する。

本発明に係る配列予測支援システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
を含む。

このような構成により、選択部によりデータベースからＮ個のデータセットが取り出され、生成部によりこのＮ個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第２のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第２のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新され、配列予測を支援するデータベースが構築される。

本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。

このような構成により、選択部によりデータベースからＮ個のデータセットが取り出され、生成部によりこのＮ個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第２のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第２のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。

本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。

このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。

本発明に係る配列予測支援プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。

このような構成により、選択部によりデータベースからＮ個のデータセットが取り出され、生成部によりこのＮ個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第２のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第２のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機能するようになる。

本発明に係る配列予測方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、Ｎ個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、
所定の生体高分子の全配列を受け付けて、この受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む。

本発明に係る配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、Ｎ個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む。

また、本発明に係る配列予測システム、配列予測支援システム、配列予測プログラム、配列予測支援プログラムおよび配列予測方法は、下記の態様を含む。

前記配列予測システムの一態様は、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第４の所定数のデータを取り出して、各学習部に第２の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する物性推定部と、を含む。

このような構成により、ランダムリサンプリング部よりデータベースから第４の所定数のデータが第４の所定数よりは小さい数である第２の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第１の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第３の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する。

この配列予測システムにおいて、配列候補抽出部では、配列入力受付部で受け付けた全アミノ酸配列の先頭から、第５の所定数のアミノ酸からなるペプチド取出単位にて抽出し、以降のペプチド配列候補を第６の所定数のアミノ酸ずつ下流側にずらしながら前記ペプチド取出単位ごとにペプチド配列を抽出してもよい。さらに、抽出された配列候補の中から所定の条件を満たす予測が不要なペプチド配列を、前記学習部に送る前に排除することもできる。

このような構成により、受け付けたタンパク質の全アミノ配列からペプチド配列候補を抽出して、この抽出されたペプチド配列候補のうち、不要なペプチド配列を物性の予測前に取り出しておくことで、無用な推定演算の必要がなくなる。

前記の配列予測システムにおいて、質問点抽出部では、分散が大きい方から第７の所定数の範囲にあるペプチド配列が質問点として抽出されてもよく、あるいは分散が所定の値よりも大きいペプチド配列が質問点として抽出されてもよい。

このような構成により、各学習部から導出された仮説がある程度収束するまで質問点が抽出し続けられるようになる。

前記の配列予測システムにおいて、仮説補正部は、質問点抽出部で抽出されたペプチド配列について物性の真データを要求するデータ要求部と、当該要求された真データを受け付けるデータ受付部と、受け付けた真データを、抽出されたペプチド配列に対応づけてデータ制御部に送るデータ追加部と、を含んでいてもよい。

このような構成により、質問点であるペプチド配列について、データ要求部から、真データを、例えば外部に実験依頼をしたり、外部データベースに情報を求めたりすることが可能になる。データ受付部では、この真データに対応するデータを受け付けて、データ追加部ではこの受け付けた真データを、データ要求の対象となったペプチド配列に対応づけてデータベースに追加するようにデータ制御部に送る。

前記の配列予測システムにおいて、物性推定部にて推定された各ペプチド配列候補の物性のうち、推定所定の条件を満たす物性を有するペプチド配列候補を抽出する配列抽出部をさらに設けてもよい。

このような構成により、物性推定部では、所定の物性を有するペプチド配列候補が、所定のタンパク質に対して所定の物性を示すものとして抽出することができる。

また、前述した配列予測システムにより予測されるペプチド配列より、このペプチド配列をコードする核酸の塩基配列を予測することを特徴としている。

これにより、前述した配列予測システムにより予測されるペプチド配列から所定のタンパク質に対して所定の物性を有する配列候補をコードする核酸の塩基配列を予測することができるようになる。

前記配列予測支援システムの一態様は、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第４の所定数のデータを取り出して、各学習部に第２の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む。

このような構成により、ランダムリサンプリング部よりデータベースから第４の所定数のデータが第４の所定数よりは小さい数である第２の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第１の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第３の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新され、配列予測を支援するデータベースが構築される。

前記配列予測プログラムの一態様は、コンピュータ装置を、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第４の所定数のデータを取り出して、各学習部に第２の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された前記真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する物性推定部と、を含む配列予測システムとして機能させるものである。

このような構成により、ランダムリサンプリング部よりデータベースから第４の所定数のデータが第４の所定数よりは小さい数である第２の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第１の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第３の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。

前記配列予測支援プログラムの一態様は、コンピュータ装置を、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第２の所定数の前記データに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第４の所定数のデータを取り出して、各学習部に第２の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。

このような構成により、ランダムリサンプリング部よりデータベースから第４の所定数のデータが第４の所定数よりは小さい数である第２の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第１の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第３の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機能するようになる。

また、前記配列予測システムの他の態様は、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第４の所定数のデータをランダムに取り出して、第４の所定数のデータの中からランダムに送られる第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定する物性推定出力部と、を含む。

この配列予測システムにおいて、物性推定出力部にて推定された各ペプチド配列候補の物性のうち、所定の条件を満たす物性を有するペプチド配列候補を抽出する配列抽出部をさらに設けてもよい。

また、前記配列予測支援システムの他の態様は、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第４の所定数のデータをランダムに取り出して、第４の所定数のデータの中からランダムに送られる第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む。

前記配列予測プログラムの一態様は、コンピュータ装置を、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第４の所定数のデータをランダムに取り出して、第４の所定数のデータの中からランダムに送られる第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システムとして機能させるものである。

前記配列予測支援プログラムの一態様は、コンピュータ装置を、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第４の所定数のデータをランダムに取り出して、第４の所定数のデータの中からランダムに送られる第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。

また、前記配列予測方法の一態様は、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング部により第４の所定数のデータを取り出して、複数の学習部のそれぞれに第４の所定数のデータの中から第２の所定数のデータをランダムに供給するランダムリサンプリング段階と、各学習部において、第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と、要求された前記真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、前記データベースに蓄積するデータ更新段階と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出段階と、各学習部で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定段階と、を含む。

また、以下のような配列予測支援方法も本発明の態様に含まれる。すなわち、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング部により第４の所定数のデータを取り出して、複数の学習部のそれぞれに第４の所定数のデータの中から第２の所定数のデータをランダムに供給するランダムリサンプリング段階と、各学習部において、第２の所定数のデータに基づいてペプチド配列および物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、データベースに蓄積するデータ更新段階と、を含む配列予測支援方法である。

本発明によれば、ある所定の物性を有する生体高分子配列のみを、実験によらないで選出することが可能になる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の第一の実施形態に係る配列予測システムの概要を示すブロック図である。記憶装置で蓄積されるデータセットの一例を示す図である。学習部にて算出される確率パラメータに基づいて集計される仮想ペプチド配列の各並び位置における各アミノ酸の存在確率の一例を示す図である。学習部が出力する仮説の一例を示す図である。質問点抽出のためのデータの一例を模式的に示す図である。不要なペプチド配列を排除するように配列候補抽出部を構成した一例を示す。本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図である。図７の仮説比較部の機能を説明する機能ブロック図を示す。真データの要求をユーザにではなく、外部のデータベースに行う場合を示す図である。第一の実施形態に係る配列予測支援方法の動作について説明するフローチャートである。配列予測支援システムにより構築されたデータベースあるいは既存のデータベースを用いた配列予測システムの動作を示すフローチャートである。第二の実施形態に係る配列予測支援方法の動作について説明するフローチャートである。第二の実施形態に係る配列予測支援システムにより構築されたデータベースを用いた配列予測システムの動作を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

図１は、本発明の第一の実施形態に係る配列予測システムの概要を示すブロック図である。
この配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置１２６と、記憶装置１２６からＮ個のデータセットを選択する選択部としてのデータ制御部１２８と、このデータセットから異なる複数のデータサブセットを生成する生成部１０２と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部１０４と、第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部１１８と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置１２６に蓄積するデータ制御部１２８と、所定の生体高分子の全配列を受け付ける配列入力受付部１３０と、配列入力受付部１３０にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部１３１と、配列入力受付後に記憶装置１２６の全データセットから法則を生成するとともに、生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部としての学習部１０４と、を含む。

図１において、記憶装置１２６では、生体高分子配列としてのペプチド配列と、このペプチド配列の属性値とを含むデータセットを蓄積するデータベースである。このデータセットは、例えば文献などにより明らかとなっている既知のデータ（「公知データ」という）、あるいは後述するデータ制御部１２８を通じてデータ受付部１２２から送られるデータにより構成される。

図２は、記憶装置１２６で蓄積されるデータセットの一例を示す図である。
図２に示したように、このデータセットは、所定数のアミノ酸からなるペプチド配列と、このペプチド配列の属性値、例えば所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原（ＨＬＡ：human leukocyte antigen）複合体への結合定数（-logKd）とを含む。また、ペプチド配列のアミノ酸の数は、ＨＬＡクラスＩ分子を対象とする場合には８〜１１の固定された値、例えば９であり、またＨＬＡクラスＩＩ分子を対象とする場合には２０以下の固定された値とすることができる。

なお、本実施形態では、生体高分子配列として結合対象を抗原提示分子であるＨＬＡとするペプチドの配列の例に挙げて説明するが、他の生理活性を有する生体高分子配列、例えばペプチドをリガンドとするＧタンパク質共役型受容体をターゲットとするペプチド配列であってもよいし、前述したような所定のペプチド配列をコードする核酸（ＤＮＡなど）の塩基配列などであってもよい。また、所定の生理活性を有する生体高分子としては、ペプチド配列の他に、所定数のヌクレオチドからなり、所定の塩基配列を有するＤＮＡ、ＲＮＡなども挙げられる。

また、生体高分子配列の属性値としては、所定の物質に対する結合能の指標となる物性が挙げられ、この物性としては、例えば結合ターゲットに対する結合定数の他に、結合に関係する物性、例えば疎水性度（または親水性度）などであってもよい。

図１に戻り、データ制御部１２８は、Ｎ個のデータセットを選択する選択部として機能し、選択されたＮ個のデータセットは生成部１０２に送られる。また、データ制御部１２８では、後述するように、データ受付部１２２より送られる追加のデータセットを記憶装置１２６に送ることにより、記憶装置１２６のデータ内容の更新が行われる。

また、データ制御部１２８では、後述する配列入力受付部１３０より所定の生体高分子配の全配列の入力があったときには、記憶装置１２６に蓄積されたデータセットから全データセットが取り出され、属性値推定部としての学習部１０４に送られる。

生成部１０２は、データ制御部１２８より送られるＮ個のデータセットから、ランダムにサンプリングして、任意のｍ個（Ｎ＞ｍ）のデータからなるデータサブセットを生成して、各データサブセットを学習部１０４に送る。

ここでは、例えばデータ制御部１２８より１００個のデータセットが送られたときに、例えば１００個のうち５０個のデータセットをランダムにサンプリングして、５０個のデータセットからなる一のデータサブセットが生成され、１００個のうち一のデータサブセットとは別の５０個のデータセットをサンプリングして、二のデータサブセットを生成する。このようにして、複数、例えば５０組のデータサブセットを生成する。なお、各データサブセットは、同一の個数のデータセットであってもよいし、それぞれ異なる個数のデータセットであってもよい。

学習部１０４では、生成部１０２よりデータサブセットが送られたときは、それぞれのデータサブセットに対して後述する仮説が生成され、データ制御部１２８からデータセットが送られたときは、後述する候補ペプチド配列に対する属性値、例えば図２の結合定数を推定するための法則が生成される。

なお、この学習部１０４は、複数の演算部を備えて、各演算部にて複数のデータサブセットに関する処理をパラレルに行うように構成されていてもよいし、一つの演算部を備えて、データサブセットごとに処理をシリアルに行うように構成されていてもよい。

いずれの場合においても、例えば特許第３０９４８６０号公報に記載の隠れマルコフモデル学習システムの手順にしたがって演算処理がなされる。

生成部１０２より、例えば５０個のデータサブセットが送られた場合は、各データサブセットに対して確率計算を行い、この計算結果がパラメータ記憶装置１４０に蓄積される。このパラメータ記憶装置１４０に蓄積される確率パラメータは、所定数、例えば９個のアミノ酸からなるペプチド配列に関する仮説の場合、各アミノ酸の並び順における各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなるものである。

ここで、各並び位置での各アミノ酸の存在確率および各並び位置の前後の遷移確率により、例えば図３に示したような仮想ペプチド配列の各並び位置における各アミノ酸の存在確率が仮説として算出される。図３においては、上段に１番目または９番目のアミノ酸としてメチオニン（Ｍ）が２９％の確率で、イソロイシン（Ｉ）が１６％の確率で、バリン（Ｖ）が１２％の確率で入る結果が示されている。残りの４３％は、残りのアミノ酸の存在確率の合計であると算出される。図３の下段では、左から順に右に向かって８個のアミノ酸の並び位置が示される。これによれば、一番左のトレオニン（Ｔ）が１番目である確率は１％、２番目である確率は２２％となっている。このようにして、右に向かって存在確率が示され、上位１位〜３位までのアミノ酸が各並び位置の上側に示されている。すなわち、パラメータ記憶装置１４０には、このようなパラメータから構成される仮説を集計するのに使用される各確率パラメータが蓄積されるようになっている。

また、ペプチド配列の確率計算と結合定数の関係は、非特許文献１で示されているが、その概略は以下の通りである。
特定のペプチドＯに対する結合定数Ｋaの対数値logKaは、以下の式で示される。
ＬＫa＝Ｌ_O/H−Ｃ
または、
ＬＫa＝Ｌ_O/H− (Ｌ_O/H’−ＬＫa’)
ここで、Ｌ_O/Hは、与えられたＨＭＭ（Hidden Markov Model）におけるペプチド配列Ｏの存在確率を示す。
また、logKdすなわち式中のＣは、Ｃ＝Ｌ_O/H’−ＬＫa’で与えられる。
ここで、ＬＫa’は、計算に用いた全てのペプチドのlogKaの平均値を示す。
Ｈ’は、存在確率が均一な場合のreference ＨＭＭを示す。

また、学習部１０４では、データ制御部１２８で取り出されるデータセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ前記仮説を適用して、この第２のデータセットにかかる生体高分子配列の属性値が導出され、質問点抽出部１１８に送られる。この第２のデータセットには、例えば１０万個のペプチド配列が含まれ、この第２のデータセットに対して、複数のデータサブセット由来の仮説がそれぞれ適用されて、１０万個のペプチド配列および各配列の属性値からなる第２のデータセットが、データサブセットの数だけ生成される。なお、第２のデータセットにかかるペプチド配列は、生成部１０２からデータサブセットが送られるたびに設定される変動的なセットであってもよいし、このシステムを利用する者により任意に入力または選択されるセットであってもよい。また、所定のデータテーブルに含まれるものであってもよい。

一方、データ制御部１２８からデータセットが送られた場合は、属性値推定部として作用する。すなわち、前記と同様の演算が行われ得られる確率パラメータに基づいて法則が生成される。仮説を生成する場合とは異なり、一通りの法則が生成される。後述する配列候補抽出部１３１から送られる各候補ペプチド配列に対して、当該法則が適用されて得られた推定値が得られ、この推定値が該当する候補ペプチド配列の属性値として関連づけられて、ペプチドデータベース１３８に送られる。

質問点抽出部１１８では、第２のデータセットの各々のペプチド配列について属性値の分散を求める演算処理がなされる。

図４は、この演算処理の結果の一例を示す。
図４において、oriとは学習部１０４において計算の出発点となる属性値の仮スコアとしての結合定数を示し、ここでは全ペプチド配列について初期値として０．００００が当てられる。また、meanとは第２のデータセットの各々の特定のペプチド配列ごとに導出された予測スコアの平均値を表し、同行のmaxは同予測スコアの最大を、同行のminは同予測スコアの最小を、同行のsdは同予測スコアの標準偏差を、また同行のvarは同予測スコアの分散値を表す。

続いて、質問点抽出部１１８では、この分散の大きい方から順に取り出す。図５は、データセット中での順位付けを模式的に示す。また、このデータセットのうち、一定の範囲、例えば分散の大きい方から上位５０番目までにある生体高分子配列としてのペプチド配列が質問点として抽出され、この抽出されたペプチド配列がデータ要求部１２０に送られる。あるいは、分散が所定の値よりも大きいペプチド配列が、質問点として抽出されるようにしてもよい。

データ要求部１２０では、質問点抽出部１１８にて抽出された質問点に係るペプチド配列について、真の属性値を示すデータ、例えば実験により求める測定データや外部データベースに蓄積されている文献等のデータを要求する。データ受付部１２２では、データ要求部１２０による要求にしたがいユーザにより入力された測定データ、または後述するように所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータを真の属性値を示すデータとしてデータ制御部１２８に送る。

データ制御部１２８では、データ受付部１２２より送られるデータと、前記質問点となっていたペプチド配列とを対応づけて、このペプチド配列とこのデータにかかる属性値とを含む追加のデータセットが生成され、記憶装置１２６に送られる。前述したように、この追加のデータセットは、記憶装置１２６にて蓄積されて、次回以降の仮説導出の際のデータの候補となる。

配列入力受付部１３０では、予測が所望されるペプチド配列の候補を特定するための所定のタンパク質の全アミノ酸配列に関する情報、例えばエピトープの同定を所望する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の入力を受け付けて、受け付けたデータは配列候補抽出部１３１に送られる。この入力は、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。

ここで、ウィルス抗原以外の標的タンパク質としては、感染症に関与する細菌、バクテリアなど、例えば結核菌、Ｏ−１５７菌、サルモネラ菌、緑膿菌、ピロリ菌、黄色ブドウ菌、マラリア菌、ボツリアヌス菌など；アレルギー疾患、例えばＩ型糖尿病、シューグレン症候群、花粉症、アトピー、喘息、リウマチ、膠原病、自己免疫疾患、臓器移植の拒絶反応抑制などにかかわるタンパク質；がん免疫にかかわるタンパク質、例えばがん抗原；アルツハイマー症にかかわるタンパク質、例えば原因タンパク質であるベータアミロイドなどにも適用可能である。

配列候補抽出部１３１では、配列入力受付部１３０にて受け付けた情報である所定のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を抽出し、抽出されたペプチド配列候補は学習部１０４に送られる。

また、配列候補抽出部１３１で抽出されたペプチド配列では、現実的に使用できない配列が含まれることがある。このような不要なペプチド配列を、人の手を借りないで自動的に排除するようにしてもよい。

図６は、不要なペプチド配列を排除するように配列候補抽出部１３１を構成した一例を示す。
配列候補抽出部１３１では、配列入力受付部１３０から送られる所定のタンパク質の全アミノ酸配列からｐ個のモノマー単位として、例えば８〜１１、特に９個のアミノ酸からなるペプチド取出単位にて、ペプチド配列候補を取り出す候補取出部１５０と、取り出されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列を排除する不要配列排除部１５２とが設けられている。

候補取出部１５０では、配列入力受付部１３０で受け付けた全アミノ酸配列の先頭から、前記ペプチド取出単位にてペプチド配列を抽出し、以降のペプチド配列候補を、ｑ個のモノマー単位ずつ、例えば１つのアミノ酸ずつ下流側にずらしながら前記ペプチド取出単位ごとに抽出するようになっている。

また、不要配列排除部１５２では、取り出されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列、例えば不要なペプチド配列に関するデータを蓄積する不要配列データベース１５４を参照して特定されるペプチド配列を不要なものとして、学習部１０４に送る前に予測候補から排除するようになっており、残りのペプチド配列候補が学習部１０４に送られるようになっている。ここで、不要なペプチド配列は、例えば水溶性が低いペプチド配列などが挙げられる。

例えば、配列入力受付部１３０で受け付けたエピトープの同定を所望するウィルス抗原、例えばＣ型肝炎ウィルスのＣＴＬエピトープの同定を行う場合に、Ｃ型肝炎ウィルスの抗原タンパク質の全アミノ酸配列からエピトープとして作用するペプチド配列の候補が抽出されるようになっている。例えば、Ｃ型肝炎ウィルスの抗原は、特定のタンパク質として免疫誘導を行うヒト白血球抗原（ＨＬＡ：human leukocyte antigen）クラスＩ分子に提示された８〜１１のアミノ酸より形成され、ＣＴＬがこの部分を認識して、Ｃ型肝炎ウィルスを障害することが知られている。したがって、Ｃ型肝炎ウィルス抗原の全アミノ酸配列の先頭から取り出すｐ個のモノマー取出単位として８〜１１アミノ酸単位で取り出し、続いて先頭よりｑ個のモノマー単位、例えば１アミノ酸ずらした二番目のアミノ酸から出発して前述のように８〜１１アミノ酸の単位で取り出す、というように、先頭のアミノ酸を１アミノ酸ずつ下流側にずらしながらペプチド取出単位ごとに取り出され、この取り出されたペプチド配列を属性値の推定が所望される候補ペプチド配列として抽出される。

また、例えば、クラスＩＩ分子を認識するエピトープの同定を行うことも可能であり、この場合には、ｐ個のモノマー単位を２０以下、すなわちペプチド取出単位が２０以下のアミノ酸になるようにして、同様にペプチド配列を抽出して、この取り出されたペプチド配列が属性値の推定が所望される候補ペプチド配列となる。

このような構成により、受け付けたタンパク質の全アミノ酸配列から候補ペプチド配列を抽出して、この抽出されたペプチド配列のうち、不要なペプチド配列を物性の予測前に取り出しておくことで、学習部１０４における無用な推定演算の必要がなくなる。

なお、不要配列データベース１５４は、記憶装置１２６の一部であってもよい。この場合、図２に示したようなデータの一部に、例えば疎水性度のような物性に関するデータも追加してもよい。

また、不要配列データベース１５４に蓄積するデータには、他社のライセンスが必要なペプチド配列に関する情報を含ませて、このようなペプチド配列を排除するように構成することにより、例えば新薬の開発に必要なペプチド配列候補の抽出という目的に、本実施形態を用いることができるようになる。

ペプチドデータベース１３８では、学習部１０４にて推定された属性値、例えばＨＬＡクラスＩ分子への結合定数と、この結合定数を有するペプチド配列との組合せからなるデータセットが蓄積される。

条件入力受付部１３４では、前記ペプチドデータベース１３８から所定の物性を有するペプチド配列を抽出するためのキーワードとなる属性値、例えば結合定数の入力が受け付けられる。この入力は、配列入力受付部１３０と同様に、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。

ここで、抽出するペプチド配列の用途に応じて要求される条件（属性値）の入力を受け付ける。例えば、Ｃ型肝炎の治療剤としてペプチド配列を用いる場合には、所定のタンパク質であるＨＬＡクラスＩ分子に対する結合定数が６より上のものをキーワードとして受け付けるようにする。

配列抽出部１３６では、条件入力受付部１３４で受け付けた条件を満たすペプチド配列をペプチドデータベース１３８から抽出して、抽出されたペプチド配列を予測結果として出力する。

ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に１〜数個のアミノ酸置換を行って得られる新規のペプチド配列の物性を調べたいときには、配列入力受付部１３０にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、そのペプチド配列のうち、いくつのアミノ酸を置換するのかを示す置換数の情報とを入力することで、学習部１０４にて推定段階の演算を行って、この演算結果に基づいて新規のペプチド配列の属性値の推定を行うことができる。

なお、学習部１０４に出力させる仮説として、仮説導出用の第２のデータセットにかかるペプチド配列とこれに対する属性値、すなわち結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由来の９アミノ酸の一覧を出力させることでエピトープの直接の予測計算とすることができる。また、属性値を導出するペプチド配列の数として１０万個という個数に限らず、例えば９アミノ酸からなるペプチド配列の属性値について予測するに際して、全ペプチド配列組合せである２０⁹個について出力させることで、ペプチド配列の全組合せについての予測ができるようになる。

図７は、本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図である。
この配列予測システムは、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列のペプチドの所定の生理活性の指標となる物性とを含むデータを格納するデータベースである記憶装置１２６と、第２の所定数の前記データに基づいて前記ペプチド配列および前記物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部１１２，および，記憶装置１２６から第４の所定数のデータを取り出して、前記各学習部１１２に前記第２の所定数のデータずつランダムに供給するランダムリサンプリング部１１０より構成される仮説導出部と、各学習部１１２で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部１６０（図８）、設定された前記所定のペプチド配列により特定される物性を各学習部１１２の前記仮説からそれぞれ抽出する着目物性抽出部１６２（図８）、および、各学習部１１２から抽出された前記物性の分散を評価する分散評価部１６４（図８）からなる仮説比較部１１４，および，評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部１１８より構成される質問点配列抽出部と、要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部を構成するデータ要求部１２０，データ受付部１２２，および，データ追加部１２４と、前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、記憶装置１２６に蓄積するデータ制御部１２８と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部１３０，および，配列入力受付部１３０にて受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部１１２に送る配列候補抽出部１３１，および，各学習部１１２で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定部１３２より構成される物性推定出力部と、を含む。

図７において、記憶装置１２６では、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含む、文献などにより明らかとなっている既知のデータ（「公知データ」という）からなるデータセットを蓄積するデータベースである。また、後述するように、データ制御部１２８を通じて送られる追加データにより更新することができる。

図２は、記憶装置１２６で蓄積されるデータセットの一例を示す図である。
図２に示したように、このデータセットは、公知データおよび真のデータとしての追加データにより示される、第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原（ＨＬＡ：human leukocyte antigen）複合体への結合定数（-logKd）とを含む。また、第１の所定数であるアミノ酸の数は、ＨＬＡクラスＩ分子を対象とする場合には８〜１１の固定された値、例えば９であり、またＨＬＡクラスＩＩ分子を対象とする場合には２０以下の固定された値である。

なお、本実施形態では、求めるペプチド配列として結合対象を抗原提示分子であるＨＬＡとするペプチドの配列の例を示したが、他に生理活性物質、例えばペプチドをリガンドとするＧタンパク質共役型受容体をターゲットとするペプチド配列であってもよいし、前述したような所定のペプチド配列をコードする核酸（ＤＮＡなど）の塩基配列などであってもよい。

また、所定の物質に対する結合能の指標となる物性としては、結合ターゲットに対する結合定数の他に、結合に関係する物性、例えば疎水性度（または親水性度）などであってもよい。

図７に戻り、データ制御部１２８では、後述するランダムリサンプリング部１１０によりリサンプルされたデータに基づいて各学習部１１２にて導出され、必要に応じて後述するデータ追加部１２４にて追加される真データを含む追加データを、記憶装置１２６に送り、記憶装置１２６に蓄積されるデータセットを更新する。

ランダムリサンプル部１１０は、データ制御部１２８から送られる第４の所定数のデータの中から第２の所定数のデータをランダムにリサンプルし、データを各学習部１１２に供給する。

このようにデータ制御部１２８とランダムリサンプリング部１１０とが連動して、各学習部１１２に同数の異なったデータ（サンプル）がランダムに供給されるようになる。例えば、記憶装置１２６から第４の所定数としての１００のデータを取り出して、各学習部１１２に第２の所定数としての５０のデータを供給する場合に、全学習部１１２に同じデータを送るのではなくて、１００から５０のデータをランダムにリサンプリングして取り出し、取り出したデータをひとつの学習部１１２に送り、また別の５０のデータをランダムにリサンプリングして取り出し、取り出したデータを他のひとつの学習部１１２に送り、最終的には全学習部に異なった５０のデータが供給される。これにより、各学習部１１２から同一の仮説が導出されないようにすることができる。このようにして、多くても数百程度の実測値（文献値）があれば、本システムによる予測を行うことができるようになる。

学習部１１２では、学習段階と、推定段階とでその目的に応じた処理を行うようになっている。入力されるデータがデータ制御部１２８からランダムリランプリング部１１０を通じて送られるものであるときには、データ制御部１２８より学習段階の演算を行うよう制御信号contを各学習部１１２に送るようになっており、学習部１１２では、この制御信号contが入力されると学習段階の演算を行う。一方で、後述する配列入力受付部１３０から送られるデータに基づいたデータが送られるときは、推定段階の演算を行う。

学習段階および推定段階のいずれにおいても、例えば特許第３０９４８６０号公報に記載の隠れマルコフモデル学習システムの手順にしたがって、入力されるデータを用いて、複数の学習部、例えば５０の学習部にて確率計算を行い、この計算結果をパラメータ記憶装置１４０に蓄積する。このパラメータ記憶装置１４０に蓄積される確率パラメータは、第１の所定数、例えば９個のアミノ酸からなるペプチド配列の並び順における各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなるものである。

そこで学習段階では、パラメータ記憶装置１４０で蓄積された確率パラメータに応じて集計して、前述した図３に示したような仮想ペプチド配列の各並び位置における各アミノ酸の存在確率が得られるようになっている。

そこで、予め設定された所定の個数の組合せのデータを得るために、第３の所定数、例えば１０万個のペプチド配列について、図３に示したような集計結果に基づき、結合定数に相当する予測スコアを算出して仮説データが得られる。この仮説データは、仮説比較部１１４に送られる。また、記憶装置１２６にて仮説データを用いて、記憶装置１２６のデータセットを更新する場合には、この仮説データをデータ制御部１２８に送るようにしてもよい。なお、この第３の所定数のペプチド配列セットは、学習段階の計算が始まるたびに設定される変動的なセットであってもよいし、このシステムを利用する者により任意に入力または選択されるセットであってもよい。

一方、推定段階における演算は、学習段階での演算とほぼ同じように行われ、各学習部１１２で得られた各ペプチド配列に対応する結合定数のスコアが、仮説比較部１１４ではなくて、後述する物性推定部１３２に送られる。

また、パラメータ記憶装置１４０に蓄積される確率パラメータは、学習段階では、データがランダムリサンプリングされるたびに上書きされる形になっており、推定段階では最後に蓄積されて残っている確率パラメータを用いて、スコアが算出されるようになっている。

ここで、図８は、仮説比較部１１４の機能を説明する機能ブロック図を示す。
仮説比較部１１４は、着目配列設定部１６０と、着目物性抽出部１６２と、分散評価部１６４とから構成される。

着目配列設定部１６０では、各学習部１１２から導出される仮説がどの程度収束しているかを判別するための比較対象となるペプチド配列を設定する。この設定されるペプチド配列は、各仮説を構成するデータのペプチド配列として挙げられているもののひとつである。着目物性抽出部１６２では、着目配列設定部１６０で設定されたペプチド配列により特定される物性を仮説データの中から抽出する。分散評価部１６４では、着目物性抽出部１６２で抽出された物性の分散を算出して、例えば前述した図４に示したようなデータセットが得られる。得られた分散は、質問点抽出部１１８に送られる。

質問点抽出部１１８では、仮説比較部１１４で得られた分散の大きい方から順に取り出す。図５は、データセット中での順位付けを模式的に示す。また、このデータセットのうち、分散の大きい方から第７の所定数の範囲である上位５０番目までが質問点として抽出され、この抽出されたペプチド配列がデータ要求部１２０に送られる。あるいは、分散が所定の値よりも大きい分散を与えたペプチド配列が、真データを要求する対象となるペプチド配列、すなわち質問点として抽出されるようにしてもよい。

データ要求部１２０では、質問点抽出部１１８にて抽出された質問点に係るペプチド配列について、真データ、例えば実験により求める測定データや外部データベースに蓄積されている文献等データを要求し、データ受付部１２２では、データ要求部１２０による要求にしたがったユーザによる入力にしたがった測定データ、後述するように所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータを真データとしてデータ追加部１２４に送る。

データ追加部１２４では、データ受付部１２２より送られる真データを一度取り込んで、前記質問点となっていたペプチド配列と対応づけ、このペプチド配列とこの物性とを含む追加データを生成する処理を行い、この追加データがデータ制御部１２８に送られる。

ここで、前述したようなウィルス抗原以外の標的タンパク質を配列入力受付の対象としてもよい。

配列候補抽出部１３１では、配列入力受付部１３０にて受け付けた情報である所定のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を抽出し、抽出されたペプチド配列候補は各学習部１１２に送られる。

また、配列候補抽出部１３１で抽出されたペプチド配列では、現実的に使用できない配列が含まれることがある。前述したように、配列候補抽出部１３１を構成して、このような不要なペプチド配列を、人の手を借りないで自動的に排除するようにしてもよい。

物性推定部１３２では、配列候補抽出部１３１で抽出され、必要に応じて不要なペプチド配列が排除された後のペプチド配列候補にしたがって、学習部１１２の推定段階での演算により得られた結果にしたがって、各ペプチド配列の物性を推定する。この演算結果は、例えば前述した図５に示したようなデータセットで得られ、物性推定部１３２では、各ペプチド配列について例えば平均値をもって、当該ペプチド配列の、所定のタンパク質、例えば標的タンパク質への結合定数であると推定して、この推定が全てのペプチド配列候補について行われて、ペプチド配列と推定物性との組合せがペプチドデータベース１３８に送られる。

ペプチドデータベース１３８では、物性推定部１３２にて推定された物性、例えばＨＬＡクラスＩ分子への結合定数と、この物性を有するペプチド配列との組合せからなるデータセットが得られる。

条件入力受付部１３４では、前記ペプチドデータベース１３８から所定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば結合定数の入力が受け付けられる。この入力は、配列入力受付部１３０と同様に、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。

ここで、抽出するペプチド配列の用途に応じて要求される条件（物性）の入力を受け付ける。例えば、Ｃ型肝炎の治療剤としてペプチド配列を用いる場合には、所定のタンパク質であるＨＬＡクラスＩ分子に対する結合定数が６より上のものをキーワードとして受け付けるようにする。

ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に１〜数個のアミノ酸置換を行って得られる新規のペプチド配列の物性を調べたいときには、配列入力受付部１３０にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、そのペプチド配列のうち、いくつのアミノ酸を置換するのかの第８の所定数の情報とを入力することで、各学習部１１２にて推定段階の演算を行って、この演算結果に基づいて物性推定部１３２において新規のペプチド配列の物性の推定を行うことができる。

図９は、真データの要求をユーザにではなく、外部のデータベースに対して行う場合を示す図である。ここでは、図７に示した配列予測システムに適用した例を示すが、図１に示した配列予測システムに適用することもできる。
図９に示したように、データ要求部１２０の要求にしたがってネットワーク１６０を介してデータベース制御部１６２にペプチド配列が送られて、データベース制御部１６２ではこのペプチド配列の実測値を実測値データベース１６４を参照して検索し、この実測値が得られたら、文献等データとしてネットワーク１６０を通じてデータ受付部１２２に送る。このようにすることで、人の手を借りないで自動的に真データを求めることができるようになる。

図１０は、本発明に係る配列予測支援方法の実施形態に係る配列予測支援システムに動作について説明するフローチャートである。なお、本実施形態の配列予測支援システムは、図１に示した第一の実施形態にかかる配列予測システムに含まれており、以下の説明では図１の中の符号を適宜引用する。

この配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、Ｎ個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階であるステップＳ１と、学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階であるステップＳ２と、第２のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階であるステップＳ３と、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階であるステップＳ４と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、データベースに蓄積するデータ更新段階であるステップＳ５と、を含む。

ステップＳ１では、データ制御部１２８により、データベースとしての記憶装置から生体高分子の配列と、この配列の生体高分子が備える属性値とからなるデータセットＮ個が選択され、さらに生成部１０２にてこれらＮ個のデータセットから異なる複数のデータサブセットが生成され、学習部１０４に供給される。

ステップＳ２では、前述したように、学習部１０４にてそれぞれのデータサブセットに対して生成された仮説を、第２のデータセットにかかる生体高分子配列（ペプチド配列）に適用して、各ペプチド配列の属性値が導出される。

ステップＳ３では、前述したように、質問点抽出部１１８にて、各生体高分子配列の属性値の分散が算出される。ステップＳ４では、引き続き、質問点抽出部１１８にて、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。

ステップＳ５では、抽出された質問点に対する属性値をデータ受付部１２２にて受け付けて、データ制御部１２８ではこの受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置１２６に送り蓄積し、記憶装置１２６の内容が更新される。以上により、配列予測を支援するデータベースが構築される。

また、図示しないが、ステップＳ１〜Ｓ５を、例えばステップＳ３で得られる分散の最大値が所定値よりも小さくなるまで、適宜繰り返してもよく、この場合、配列予測支援データベースの内容の信頼性がより向上することになる。

図１１は、図１に示した第一の実施形態にかかる配列予測支援システムにより構築されたデータベース、あるいは既存のデータベースを用いた配列予測システムの動作を示すフローチャートである。

図１１によれば、ステップＳ１１０では、配列入力受付部１３０にて所定の生体高分子、例えばタンパク質の全配列を受け付けて、配列候補抽出部１１８によりこの受け付けた全配列から予測の対象となる生体高分子配列、この場合ペプチド配列候補が抽出され、学習部１０４に送られる。ステップＳ１１１では、配列入力受付後に、データ制御部１２８にて記憶装置１２８の全データセットが取り出されて、学習部１０４に送られる。学習部１０４では、この全データセットから法則を生成するとともに、前記の生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値が推定される。

このようにして、構築されたデータベースあるいは既存のデータベースより、特定の生体高分子配列に対する属性値の推定を行うことが可能になる。

さらに、ステップＳ１１２を設けて、学習部１０４にて推定された属性値をペプチドデータベース１３８に送り、該当するペプチド配列と関連づけて蓄積することで、ペプチド配列と属性値とでなるデータセットのデータベース化が可能になる。このデータセットは、ペプチド配列に限らず、ＤＮＡ、ＲＮＡなどの生体高分子配列のいずれについても属性値と併せてデータベース化が可能になる。

さらに、ステップＳ１１３〜ステップＳ１１４を設けて、ステップＳ１１３では、条件入力受付部１３４にて、ペプチドデータベース１３８から所定の属性値を有するペプチド配列を抽出するためのキーワード、例えば属性値が特定のタンパク質に対する結合定数よりも大きいなどの条件の入力を受け付ける。

ステップＳ１１４では、配列抽出部１３６にて、条件入力受付部１３４で受け付けた条件を満たすペプチド配列をペプチドデータベース１３８から抽出して、抽出されたペプチド配列を予測結果として出力する。

これにより、所定の属性値を有するペプチド配列が、所定の物質に結合するエピトープを示すことが期待されるものとして抽出することができる。

図１２は、図７に示した第二の実施形態にかかる配列予測システムに含まれる配列予測支援システムの動作について説明するフローチャートである。以下の説明では図７の中の符号を適宜引用する。

ステップＳ１０では、データ制御部１２８により記憶装置１２６からデータが取り出され、ランダムリサンプリング１１０を通じて各学習部１１２に異なったデータが、ランダムにリサンプリングされる。

ステップＳ２０では、各学習部１１２にて、供給されたデータを分析して一定の仮説、すなわちペプチド配列と所定の物性とから、第３の所定数である１０万個のペプチド配列について求めたスコアを含むデータセットが導出される。

ステップＳ３０では、着目配列設定部１６０にて、各学習部１１２で導出された仮説同士を比較するための所定のペプチド配列が設定される。ステップＳ４０では、着目物性抽出部１６２にて、この設定された所定のペプチド配列および物性を各学習部１１２の仮説からそれぞれ抽出する。ステップＳ５０では、分散評価部１６４にて、各学習部１１２から抽出された物性の分散が評価される。

ステップＳ６０では、質問点抽出部１１８にて、仮説比較部１１４の分散評価部１６４にて評価された分散の大きい方から順に取り出される。このようにして得られるデータセットを、図５に模式的に示す。

ステップＳ７０では、ステップＳ６０で得られたデータセットのうち、前述のように上位５０番目までが質問点として抽出され、この抽出されたペプチド配列が、仮説の物性に対する真データを要求する対象となるペプチド配列として抽出される。

ステップＳ８０では、データ要求部１２０にて真データを要求し、データ受付部１２２にてこの要求された真データを受け付けて、データ追加部１２４にてステップＳ７０で抽出された配列について仮説の物性を受け付けた真データで定義して追加データが得られる。

ステップＳ９０では、データ追加部１２４で得られた追加データが、データ制御部１２８を通じて記憶装置１２６に送られて、記憶装置１２６のデータが更新される。

ステップＳ１００では、次の学習を行うか否かが判別される。この判別結果がＹＥＳ、すなわち次の学習が行われる場合、ステップＳ１０に戻り、ランダムリサンプリング１１０により各学習部１１２に学習用のデータがランダムに供給されるようになる。また、判別結果がＮＯ、すなわち次の学習が行われない場合、配列予測支援動作は終了する。

なお、この学習回数は、予め所定回数だけと決めておいてもよいし、終了ごとに次の学習を行うか否かを判断してもよい。

以上により、配列予測を支援するデータベースが構築される。
なお、ステップＳ６０およびＳ７０において、仮説データの分散の大きい順にペプチド配列を並び替えて、上位から所定の個数、例えば５０個までを質問点として抽出するかわりに、例えば評価された分散が所定値以上であるペプチド配列を質問点として抽出されるようにしてもよい。

図１３は、第二の実施形態にかかる配列予測支援システムにより構築されたデータベースを用いた配列予測システムの動作を示すフローチャートである。

ステップＳ２００では、配列入力受付部１３０にて、所定の物質例えば抗原提示分子に対する標的タンパク質であるウィルス抗原の全アミノ酸配列を受け付け、ステップＳ２１０では、受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出し、学習部１１２にて推定段階の演算を行って、その演算結果から物性推定部にて、ペプチド配列候補のウィルス抗原に対する結合定数が推定され、ステップＳ２２０では、ペプチドデータベース１３８にこの全てのペプチド配列候補と所定の物性とのデータセットが生成され、蓄積される。

ステップＳ２３０では、条件入力受付部１３４にて、ペプチドデータベース１３８から所定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば所定のタンパク質に対する結合定数の入力を受け付ける。

ステップＳ２４０では、配列抽出部１３６にて、条件入力受付部１３４で受け付けた条件を満たすペプチド配列をペプチドデータベース１３８から抽出して、抽出されたペプチド配列を予測結果として出力する。

これにより、所定の物性を有するペプチド配列が、所定の物質に結合するエピトープを示すことが期待されるものとして抽出することができる。

なお、複数の学習部１１２に出力させる仮説として、第３の所定数のペプチド配列とこれに対する結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由来の９アミノ酸の一覧を出力させることでエピトープの予測計算とすることができ、また第３の所定数として１０万個という個数に限らず、第５の所定数を９としたときの全ペプチド配列の２０⁹個について出力させることで全ペプチド配列についての予測ができるようになる。

また、本実施形態では、特定の標的タンパク質のエピトープを構成するペプチド配列を予測する例を説明したが、最初に学習部１１２に入力する物性として免疫誘導能、例えば標的に結合することで誘導されるＴ細胞の増殖数などを生理活性を示す指標として、このような免疫誘導能を有するペプチド配列を予測することができる。

また、ペプチドをリガンドとすることが想定されるものの、具体的なペプチドリガンドが同定されていないＧタンパク質共役型受容体（orphan G-protein coupled receptor：orphan-GPCR）のリガンド最適化を目的とするアッセイ系予測、具体的にはペプチド投与に伴う培養細胞のカルシウム濃度上昇や細胞内cAMP（細胞内生体分子）上昇などの数値を生理活性を示す指標として、このアッセイ系に最適なペプチド配列を予測することもできる。

また、生理活性ペプチド、あるいはペプチドから構成される生理活性ホルモンの血中濃度上昇を生理活性の指標として、このペプチド配列を予測することもできる。

また、ＤＮＡ配列予測に本実施形態を適用することが可能である。例えば、遺伝子が発現する場合、ＤＮＡ上の遺伝子配列の上流に遺伝子発現を制御する転写因子が結合する必要があり、この転写因子の結合部位ＤＮＡ塩基配列には一定のモチーフあるいは法則があることが知られている。そこで、特定の遺伝子発現に関与するプロモータに結合する転写因子の配列の候補を予測することで、特定の遺伝子発現系において遺伝子発現と転写因子結合部位のＤＮＡ配列パターンとの間に法則を見つけること可能になり、遺伝子発現の制御や転写因子結合の制御なども可能になる。

ＲＮＡｉ配列予測にも、本実施形態を適用することが可能である。例えば、特定の１０〜２０塩基程度の二本鎖の小分子ＲＮＡ塩基配列（ｓｉＲＮＡ）が、補助的な因子の共存下で配列相同性を持ったｍＲＮＡと結合して切断することにより、その上流・下流の遺伝子産物生成を阻害することが知られている。そこで、特定の遺伝子発現に関与するｍＲＮＡに結合するｓｉＲＮＡの配列の候補を予測することで、特定の生理活性とＲＮＡｉ配列との関連性を予測することが可能になり、近年医薬品候補物質としても研究開発が盛んなＲＮＡｉの配列デザインも可能になる。

ＲＮＡアプタマー配列予測にも、本実施形態を適用することが可能である。ＲＮＡアプタマーとは、通常２０塩基以上のＲＮＡ鎖であり、配列内部の相補的塩基間で結合して特定の安定した立体構造を有し、この構造特性を利用して標的タンパク質などの特定の機能部位に結合し、その機能を制御する物質である。そこで、標的タンパク質の機能部位に結合する構造を有するＲＮＡ塩基配列の候補を予測することで、特定の生理活性とＲＮＡアプタマー配列との関連性を予測することが可能になり、近年医薬候補物質としても研究開発が盛んなＲＮＡアプタマーの配列デザインも可能になる。

本発明は、汎用のコンピュータ装置を、以上の配列予測システムあるいは配列予測支援システムとして機能させるプログラムも提供する。

以上のように、本実施形態によれば、ある所定の物性を有するペプチド配列または核酸の塩基配列などの生体高分子配列のみを、実験によらないで選出することが可能になる。

以上の配列予測システムまたは配列予測支援システムの各構成の動作をプログラムで表現することも可能であり、このようなプログラムを用いることで、汎用コンピュータ装置を、前記配列予測システムまたは配列予測支援システムとして動作させることが可能になる。

また、質問点抽出部１１８にて、学習部１１２における次の学習段階での演算候補から不要なペプチド配列を排除するために、例えば図７に示したような不要配列排除部および必要に応じて不要配列データベースのような構成を設けてもよい。このようにすることで、不要なペプチド配列について真データを要求することがなくなる。

Claims

生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、
を含む配列予測システム。
請求項１に記載の配列予測システムにおいて、
前記学習部は、配列入力受付後にあっては、属性値推定部として機能することを特徴とする配列予測システム。
請求項１に記載の配列予測システムにおいて、
前記配列候補抽出部では、前記配列入力受付部で受け付けた全配列の先頭から、ｐ個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補をｑ個のモノマー単位ずつ下流側にずらしながらｐ個のモノマー取出単位ごとに抽出することを特徴とする配列予測システム。
請求項１に記載の配列予測システムにおいて、
前記配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件を満たす予測が不要な生体高分子配列を、前記属性値推定部に送る前に排除することを特徴とする配列予測システム。
請求項１に記載の配列予測システムにおいて、
前記質問点抽出部では、前記分散が大きい方から一定の範囲にある生体高分子配列が質問点として抽出されることを特徴とする配列予測システム。
請求項１に記載の配列予測システムにおいて、
前記質問点抽出部では、前記分散が所定の値よりも大きい生体高分子配列が質問点として抽出されることを特徴とする配列予測システム。
請求項１〜６のいずれかに記載の配列予測システムにおいて、
前記属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさらに設けた配列予測システム。
請求項１〜７のいずれかに記載の配列予測システムにおいて、
前記生体高分子配列が、ペプチドのアミノ酸配列、核酸塩基配列のいずれかであることを特徴とする配列予測システム。
請求項８に記載の配列予測システムにおいて、
前記属性値は、ペプチドまたは核酸と所定の生体高分子との結合定数であることを特徴とする配列予測システム。
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、
を含む配列予測システム。
請求項１に記載の配列予測システムにより得られる属性値と、生体高分子配列とを有する配列予測データベース。
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
を含む配列予測支援システム。
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
を含む配列予測支援システム。
第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、
第２の所定数の前記データに基づいて前記ペプチド配列および前記物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、
前記データベースから第４の所定数のデータを取り出して、前記各学習部に前記第２の所定数のデータずつランダムに供給するランダムリサンプリング部と、
前記各学習部で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、
設定された前記所定のペプチド配列により特定される物性を前記各学習部の前記仮説からそれぞれ抽出する着目物性抽出部と、
前記各学習部から抽出された前記物性の分散を評価する分散評価部と、
評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を前記学習部に送る配列候補抽出部と、
前記各学習部で得られた結果から、前記抽出した前記ペプチド配列候補の物性を推定する物性推定部と、を含む配列予測システム。
第１の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、
前記データベースから第４の所定数のデータをランダムに取り出して、第４の所定数のデータの中からランダムに送られる第２の所定数のデータに基づいて前記ペプチド配列および前記物性から、第３の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、
前記各仮説導出部で導出された前記仮説に含まれる所定のペプチド配列を設定し、この設定された前記所定のペプチド配列により特定される物性を前記各仮説導出部の前記仮説からそれぞれ抽出し、この抽出された前記物性の分散を評価し、評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を前記仮説導出部に送って、出力された結果から、前記抽出した前記ペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システム。
コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配列予測プログラム。
コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配列予測プログラム。
コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからＮ個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させる配列予測支援プログラム。
生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、Ｎ個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、
所定の生体高分子の全配列を受け付けて、この受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む配列予測方法。
生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、Ｎ個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第２のデータセットにそれぞれ仮説を適用して、第２のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第２のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む配列予測支援方法。