JPWO2006004182A1 - 配列予測システム - Google Patents
配列予測システム Download PDFInfo
- Publication number
- JPWO2006004182A1 JPWO2006004182A1 JP2006528959A JP2006528959A JPWO2006004182A1 JP WO2006004182 A1 JPWO2006004182 A1 JP WO2006004182A1 JP 2006528959 A JP2006528959 A JP 2006528959A JP 2006528959 A JP2006528959 A JP 2006528959A JP WO2006004182 A1 JPWO2006004182 A1 JP WO2006004182A1
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- data
- biopolymer
- unit
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置126と、記憶装置126からN個のデータセットを選択する選択部としてのデータ制御部128と、このデータセットから異なる複数のデータサブセットを生成する生成部102と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部104と、を含む。
Description
本発明は、配列予測システムに関し、特に特定の物性を備えるペプチドの配列を予測するための配列予測システムおよび配列予測データベースに関する。また、本発明は、この配列予測を支援する配列予測支援システムに関する。さらに、本発明は、配列予測システムを動作させるための配列予測プログラムおよび方法に関する。また、本発明は、配列予測支援システムを動作させるための配列予測支援プログラムおよび方法に関する。
C型肝炎ウィルス(HCV)などのウィルスに感染すると、自然免疫によるウィルス排除反応が起こり、次いで、特異的免疫応答が誘導され、ウィルスの排除反応が起こる。
特異的免疫応答では、体液中のウィルスが中和抗体により排除され、細胞内のウィルスが細胞傷害性T細胞(CTL)により排除される。すなわち、CTLは、感染細胞表面のHLAクラスI分子に提示された、8〜11のアミノ酸からなるウィルス抗原(CTLエピトープ)を特異的に認識し、感染細胞を傷害することによりウィルスを排除する。したがって、このようなウィルスに特異的なCTLエピトープを同定することは、ウィルスに対する治療ワクチンを作成する上で重要である。
このようなCTLエピトープを同定するために、BIMAS、SYFPEITHIなどのデータベースからエピトープ予測を行って、予測結果に応じて実際にHLA分子と結合するか否かの実験を行って、実際に結合するものをCTLエピトープとして同定していた。
BIMAS、SYFPEITHIなどのデータベースを用いた方法では、HLA分子と結合すると判断されたペプチドが実際には結合しないことが多く、予測通りにCLTエピトープを同定することが困難であった。
非特許文献1には、より少ない実験でHLA分子と結合するペプチドを同定するために、より正確にHLA分子と結合するペプチドを同定する方法について記載されている。
Udaka, K., et al, 'Empirical Evaluation of a Dynamic ExperimentDesign Method for Prediction of MHC Class I-Binging Peptides', The Journal ofImmunology, 169, p5744-5753, 2002
Udaka, K., et al, 'Empirical Evaluation of a Dynamic ExperimentDesign Method for Prediction of MHC Class I-Binging Peptides', The Journal ofImmunology, 169, p5744-5753, 2002
ところで、非特許文献1では、コンピュータから任意に選出されたペプチド配列に関して、所定の物性、例えば上記のようなHLA分子との結合能を有するか否かの判定を行うことが開示されており、実際に選出されたペプチド配列が所定の物性を有するか否かは、実験を行うことで確認をしていた。非特許文献1には、選出されたペプチド配列が、高い確率で実際に所定の物性を有することが実験により確認された旨記載されている(5749頁右欄第2段落)。
しかしながら、非特許文献1に記載された技術を、ある特定のターゲット、例えばウィルス抗原に絞って、実験によらずに、予測されたペプチド配列がウィルス抗原として機能するのに必要な特定の物性を有するか否かを定量的に判別し、有すると判別された配列のみを選出するといった目的では、そのまま適用することができず、まだ不十分であった。
一方で、ペプチド配列と同様に、転写因子結合部位DNA配列予測、RNAi(RNA interference)配列予測、RNAアプタマー配列予測などについても、精度よい配列予測が期待されている。
そこで、本発明は上述した実情に鑑みてなされたものであり、ある所定の物性を有する生体高分子配列のみを実験によらないで選出することが可能な配列予測システムおよび配列予測データベース、配列予測支援システム、配列予測プログラムおよび配列予測支援プログラムならびに配列予測方法および配列予測支援方法を提供することを目的としている。
本発明に係る配列予測システムは、上述の課題を解決するために、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。
このような構成により、選択部によりデータベースからN個のデータセットが取り出され、生成部によりこのN個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。
この配列予測システムにおいて、学習部は、配列入力受付後にあっては、属性値推定部として機能するように構成してもよい。
すなわち、一つのコンピュータシステムにて、データベースの内容の更新時には、生成部からの複数のデータサブセットのそれぞれについて生成された仮説を適用して、任意に作成された第2のデータセットの各生体高分子配列に対して属性値を導出する一方で、属性値予測時には、更新済みのデータベースに含まれるデータセットから生成された法則を適用して、各生体高分子配列候補に対して属性値を推定値として算出するようにすることができる。
この配列予測システムにおいて、配列候補抽出部では、配列入力受付部で受け付けた全配列の先頭から、p個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補をq個のモノマー単位ずつ下流側にずらしながらp個のモノマー取出単位ごとに抽出してもよい。
また、配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件を満たす予測が不要な生体高分子配列を、属性値推定部に送る前に排除してもよい。
このような構成により、生体高分子配列候補から不要な配列を属性値の予測前に排除することができ、無用な推定演算を低減することができる。
このような構成により、生体高分子配列候補から不要な配列を属性値の予測前に排除することができ、無用な推定演算を低減することができる。
また、この配列予測システムにおいて、質問点抽出部では、分散が大きい方から一定の範囲にある生体高分子配列が質問点として抽出されてもよく、あるいは分散が所定の値よりも大きい生体高分子配列が質問点として抽出されてもよい。
このような構成により、学習部から導出される仮説がある程度収束するまで質問点を抽出し続けられるようになる。
このような構成により、学習部から導出される仮説がある程度収束するまで質問点を抽出し続けられるようになる。
これらの配列予測システムにおいて、属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさらに設けてもよい。
このような構成により、推定された属性値が所定の条件を満たす生体高分子配列を予測配列として抽出することが可能になる。
このような構成により、推定された属性値が所定の条件を満たす生体高分子配列を予測配列として抽出することが可能になる。
また、本発明に係る配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む。
このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。
本発明に係る配列予測データベースは、前述の記載の配列予測システムにより得られる属性値と、生体高分子配列とを有する。
本発明に係る配列予測支援システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
を含む。
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
を含む。
このような構成により、選択部によりデータベースからN個のデータセットが取り出され、生成部によりこのN個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新され、配列予測を支援するデータベースが構築される。
本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。
このような構成により、選択部によりデータベースからN個のデータセットが取り出され、生成部によりこのN個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。
本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるものである。
このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。
本発明に係る配列予測支援プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。
このような構成により、選択部によりデータベースからN個のデータセットが取り出され、生成部によりこのN個のデータセットから異なる複数のデータサブセットが生成される。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮説を生成し、第2のデータセットの生体高分子配列に対して仮説を適用して属性値が導出される。なお、生体高分子配列および導出属性値を有する第2のデータセットは、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることになる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機能するようになる。
本発明に係る配列予測方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、
所定の生体高分子の全配列を受け付けて、この受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む。
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、
所定の生体高分子の全配列を受け付けて、この受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む。
本発明に係る配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む。
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む。
また、本発明に係る配列予測システム、配列予測支援システム、配列予測プログラム、配列予測支援プログラムおよび配列予測方法は、下記の態様を含む。
前記配列予測システムの一態様は、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第4の所定数のデータを取り出して、各学習部に第2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する物性推定部と、を含む。
このような構成により、ランダムリサンプリング部よりデータベースから第4の所定数のデータが第4の所定数よりは小さい数である第2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する。
この配列予測システムにおいて、配列候補抽出部では、配列入力受付部で受け付けた全アミノ酸配列の先頭から、第5の所定数のアミノ酸からなるペプチド取出単位にて抽出し、以降のペプチド配列候補を第6の所定数のアミノ酸ずつ下流側にずらしながら前記ペプチド取出単位ごとにペプチド配列を抽出してもよい。さらに、抽出された配列候補の中から所定の条件を満たす予測が不要なペプチド配列を、前記学習部に送る前に排除することもできる。
このような構成により、受け付けたタンパク質の全アミノ配列からペプチド配列候補を抽出して、この抽出されたペプチド配列候補のうち、不要なペプチド配列を物性の予測前に取り出しておくことで、無用な推定演算の必要がなくなる。
前記の配列予測システムにおいて、質問点抽出部では、分散が大きい方から第7の所定数の範囲にあるペプチド配列が質問点として抽出されてもよく、あるいは分散が所定の値よりも大きいペプチド配列が質問点として抽出されてもよい。
このような構成により、各学習部から導出された仮説がある程度収束するまで質問点が抽出し続けられるようになる。
前記の配列予測システムにおいて、仮説補正部は、質問点抽出部で抽出されたペプチド配列について物性の真データを要求するデータ要求部と、当該要求された真データを受け付けるデータ受付部と、受け付けた真データを、抽出されたペプチド配列に対応づけてデータ制御部に送るデータ追加部と、を含んでいてもよい。
このような構成により、質問点であるペプチド配列について、データ要求部から、真データを、例えば外部に実験依頼をしたり、外部データベースに情報を求めたりすることが可能になる。データ受付部では、この真データに対応するデータを受け付けて、データ追加部ではこの受け付けた真データを、データ要求の対象となったペプチド配列に対応づけてデータベースに追加するようにデータ制御部に送る。
前記の配列予測システムにおいて、物性推定部にて推定された各ペプチド配列候補の物性のうち、推定所定の条件を満たす物性を有するペプチド配列候補を抽出する配列抽出部をさらに設けてもよい。
このような構成により、物性推定部では、所定の物性を有するペプチド配列候補が、所定のタンパク質に対して所定の物性を示すものとして抽出することができる。
また、前述した配列予測システムにより予測されるペプチド配列より、このペプチド配列をコードする核酸の塩基配列を予測することを特徴としている。
これにより、前述した配列予測システムにより予測されるペプチド配列から所定のタンパク質に対して所定の物性を有する配列候補をコードする核酸の塩基配列を予測することができるようになる。
前記配列予測支援システムの一態様は、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第4の所定数のデータを取り出して、各学習部に第2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む。
このような構成により、ランダムリサンプリング部よりデータベースから第4の所定数のデータが第4の所定数よりは小さい数である第2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新され、配列予測を支援するデータベースが構築される。
前記配列予測プログラムの一態様は、コンピュータ装置を、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第4の所定数のデータを取り出して、各学習部に第2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された前記真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する物性推定部と、を含む配列予測システムとして機能させるものである。
このような構成により、ランダムリサンプリング部よりデータベースから第4の所定数のデータが第4の所定数よりは小さい数である第2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能するようになる。
前記配列予測支援プログラムの一態様は、コンピュータ装置を、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、第2の所定数の前記データに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、データベースから第4の所定数のデータを取り出して、各学習部に第2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。
このような構成により、ランダムリサンプリング部よりデータベースから第4の所定数のデータが第4の所定数よりは小さい数である第2の所定数のデータずつランダムにリサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なったデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、すなわち第1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第3の所定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目配列設定部では、各学習部で導出された仮説同士を比較するための所定のペプチド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さらに、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデータを追加してデータベースの内容が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機能するようになる。
また、前記配列予測システムの他の態様は、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第4の所定数のデータをランダムに取り出して、第4の所定数のデータの中からランダムに送られる第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定する物性推定出力部と、を含む。
この配列予測システムにおいて、物性推定出力部にて推定された各ペプチド配列候補の物性のうち、所定の条件を満たす物性を有するペプチド配列候補を抽出する配列抽出部をさらに設けてもよい。
また、前記配列予測支援システムの他の態様は、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第4の所定数のデータをランダムに取り出して、第4の所定数のデータの中からランダムに送られる第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む。
前記配列予測プログラムの一態様は、コンピュータ装置を、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第4の所定数のデータをランダムに取り出して、第4の所定数のデータの中からランダムに送られる第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システムとして機能させるものである。
前記配列予測支援プログラムの一態様は、コンピュータ装置を、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、データベースから第4の所定数のデータをランダムに取り出して、第4の所定数のデータの中からランダムに送られる第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させるものである。
また、前記配列予測方法の一態様は、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング部により第4の所定数のデータを取り出して、複数の学習部のそれぞれに第4の所定数のデータの中から第2の所定数のデータをランダムに供給するランダムリサンプリング段階と、各学習部において、第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と、要求された前記真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、前記データベースに蓄積するデータ更新段階と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出段階と、各学習部で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定段階と、を含む。
また、以下のような配列予測支援方法も本発明の態様に含まれる。すなわち、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング部により第4の所定数のデータを取り出して、複数の学習部のそれぞれに第4の所定数のデータの中から第2の所定数のデータをランダムに供給するランダムリサンプリング段階と、各学習部において、第2の所定数のデータに基づいてペプチド配列および物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と、要求された真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、データベースに蓄積するデータ更新段階と、を含む配列予測支援方法である。
本発明によれば、ある所定の物性を有する生体高分子配列のみを、実験によらないで選出することが可能になる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は、本発明の第一の実施形態に係る配列予測システムの概要を示すブロック図である。
この配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置126と、記憶装置126からN個のデータセットを選択する選択部としてのデータ制御部128と、このデータセットから異なる複数のデータサブセットを生成する生成部102と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部104と、第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部118と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置126に蓄積するデータ制御部128と、所定の生体高分子の全配列を受け付ける配列入力受付部130と、配列入力受付部130にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部131と、配列入力受付後に記憶装置126の全データセットから法則を生成するとともに、生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部としての学習部104と、を含む。
この配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置126と、記憶装置126からN個のデータセットを選択する選択部としてのデータ制御部128と、このデータセットから異なる複数のデータサブセットを生成する生成部102と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部104と、第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部118と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置126に蓄積するデータ制御部128と、所定の生体高分子の全配列を受け付ける配列入力受付部130と、配列入力受付部130にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部131と、配列入力受付後に記憶装置126の全データセットから法則を生成するとともに、生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部としての学習部104と、を含む。
図1において、記憶装置126では、生体高分子配列としてのペプチド配列と、このペプチド配列の属性値とを含むデータセットを蓄積するデータベースである。このデータセットは、例えば文献などにより明らかとなっている既知のデータ(「公知データ」という)、あるいは後述するデータ制御部128を通じてデータ受付部122から送られるデータにより構成される。
図2は、記憶装置126で蓄積されるデータセットの一例を示す図である。
図2に示したように、このデータセットは、所定数のアミノ酸からなるペプチド配列と、このペプチド配列の属性値、例えば所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原(HLA:human leukocyte antigen)複合体への結合定数(-logKd)とを含む。また、ペプチド配列のアミノ酸の数は、HLAクラスI分子を対象とする場合には8〜11の固定された値、例えば9であり、またHLAクラスII分子を対象とする場合には20以下の固定された値とすることができる。
図2に示したように、このデータセットは、所定数のアミノ酸からなるペプチド配列と、このペプチド配列の属性値、例えば所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原(HLA:human leukocyte antigen)複合体への結合定数(-logKd)とを含む。また、ペプチド配列のアミノ酸の数は、HLAクラスI分子を対象とする場合には8〜11の固定された値、例えば9であり、またHLAクラスII分子を対象とする場合には20以下の固定された値とすることができる。
なお、本実施形態では、生体高分子配列として結合対象を抗原提示分子であるHLAとするペプチドの配列の例に挙げて説明するが、他の生理活性を有する生体高分子配列、例えばペプチドをリガンドとするGタンパク質共役型受容体をターゲットとするペプチド配列であってもよいし、前述したような所定のペプチド配列をコードする核酸(DNAなど)の塩基配列などであってもよい。また、所定の生理活性を有する生体高分子としては、ペプチド配列の他に、所定数のヌクレオチドからなり、所定の塩基配列を有するDNA、RNAなども挙げられる。
また、生体高分子配列の属性値としては、所定の物質に対する結合能の指標となる物性が挙げられ、この物性としては、例えば結合ターゲットに対する結合定数の他に、結合に関係する物性、例えば疎水性度(または親水性度)などであってもよい。
図1に戻り、データ制御部128は、N個のデータセットを選択する選択部として機能し、選択されたN個のデータセットは生成部102に送られる。また、データ制御部128では、後述するように、データ受付部122より送られる追加のデータセットを記憶装置126に送ることにより、記憶装置126のデータ内容の更新が行われる。
また、データ制御部128では、後述する配列入力受付部130より所定の生体高分子配の全配列の入力があったときには、記憶装置126に蓄積されたデータセットから全データセットが取り出され、属性値推定部としての学習部104に送られる。
生成部102は、データ制御部128より送られるN個のデータセットから、ランダムにサンプリングして、任意のm個(N>m)のデータからなるデータサブセットを生成して、各データサブセットを学習部104に送る。
ここでは、例えばデータ制御部128より100個のデータセットが送られたときに、例えば100個のうち50個のデータセットをランダムにサンプリングして、50個のデータセットからなる一のデータサブセットが生成され、100個のうち一のデータサブセットとは別の50個のデータセットをサンプリングして、二のデータサブセットを生成する。このようにして、複数、例えば50組のデータサブセットを生成する。なお、各データサブセットは、同一の個数のデータセットであってもよいし、それぞれ異なる個数のデータセットであってもよい。
学習部104では、生成部102よりデータサブセットが送られたときは、それぞれのデータサブセットに対して後述する仮説が生成され、データ制御部128からデータセットが送られたときは、後述する候補ペプチド配列に対する属性値、例えば図2の結合定数を推定するための法則が生成される。
なお、この学習部104は、複数の演算部を備えて、各演算部にて複数のデータサブセットに関する処理をパラレルに行うように構成されていてもよいし、一つの演算部を備えて、データサブセットごとに処理をシリアルに行うように構成されていてもよい。
いずれの場合においても、例えば特許第3094860号公報に記載の隠れマルコフモデル学習システムの手順にしたがって演算処理がなされる。
生成部102より、例えば50個のデータサブセットが送られた場合は、各データサブセットに対して確率計算を行い、この計算結果がパラメータ記憶装置140に蓄積される。このパラメータ記憶装置140に蓄積される確率パラメータは、所定数、例えば9個のアミノ酸からなるペプチド配列に関する仮説の場合、各アミノ酸の並び順における各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなるものである。
ここで、各並び位置での各アミノ酸の存在確率および各並び位置の前後の遷移確率により、例えば図3に示したような仮想ペプチド配列の各並び位置における各アミノ酸の存在確率が仮説として算出される。図3においては、上段に1番目または9番目のアミノ酸としてメチオニン(M)が29%の確率で、イソロイシン(I)が16%の確率で、バリン(V)が12%の確率で入る結果が示されている。残りの43%は、残りのアミノ酸の存在確率の合計であると算出される。図3の下段では、左から順に右に向かって8個のアミノ酸の並び位置が示される。これによれば、一番左のトレオニン(T)が1番目である確率は1%、2番目である確率は22%となっている。このようにして、右に向かって存在確率が示され、上位1位〜3位までのアミノ酸が各並び位置の上側に示されている。すなわち、パラメータ記憶装置140には、このようなパラメータから構成される仮説を集計するのに使用される各確率パラメータが蓄積されるようになっている。
また、ペプチド配列の確率計算と結合定数の関係は、非特許文献1で示されているが、その概略は以下の通りである。
特定のペプチドOに対する結合定数Kaの対数値logKaは、以下の式で示される。
LKa=LO/H−C
または、
LKa=LO/H− (LO/H’−LKa’)
ここで、LO/Hは、与えられたHMM(Hidden Markov Model)におけるペプチド配列Oの存在確率を示す。
また、logKdすなわち式中のCは、C=LO/H’−LKa’で与えられる。
ここで、LKa’は、計算に用いた全てのペプチドのlogKaの平均値を示す。
H’は、存在確率が均一な場合のreference HMMを示す。
特定のペプチドOに対する結合定数Kaの対数値logKaは、以下の式で示される。
LKa=LO/H−C
または、
LKa=LO/H− (LO/H’−LKa’)
ここで、LO/Hは、与えられたHMM(Hidden Markov Model)におけるペプチド配列Oの存在確率を示す。
また、logKdすなわち式中のCは、C=LO/H’−LKa’で与えられる。
ここで、LKa’は、計算に用いた全てのペプチドのlogKaの平均値を示す。
H’は、存在確率が均一な場合のreference HMMを示す。
また、学習部104では、データ制御部128で取り出されるデータセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ前記仮説を適用して、この第2のデータセットにかかる生体高分子配列の属性値が導出され、質問点抽出部118に送られる。この第2のデータセットには、例えば10万個のペプチド配列が含まれ、この第2のデータセットに対して、複数のデータサブセット由来の仮説がそれぞれ適用されて、10万個のペプチド配列および各配列の属性値からなる第2のデータセットが、データサブセットの数だけ生成される。なお、第2のデータセットにかかるペプチド配列は、生成部102からデータサブセットが送られるたびに設定される変動的なセットであってもよいし、このシステムを利用する者により任意に入力または選択されるセットであってもよい。また、所定のデータテーブルに含まれるものであってもよい。
一方、データ制御部128からデータセットが送られた場合は、属性値推定部として作用する。すなわち、前記と同様の演算が行われ得られる確率パラメータに基づいて法則が生成される。仮説を生成する場合とは異なり、一通りの法則が生成される。後述する配列候補抽出部131から送られる各候補ペプチド配列に対して、当該法則が適用されて得られた推定値が得られ、この推定値が該当する候補ペプチド配列の属性値として関連づけられて、ペプチドデータベース138に送られる。
質問点抽出部118では、第2のデータセットの各々のペプチド配列について属性値の分散を求める演算処理がなされる。
図4は、この演算処理の結果の一例を示す。
図4において、oriとは学習部104において計算の出発点となる属性値の仮スコアとしての結合定数を示し、ここでは全ペプチド配列について初期値として0.0000が当てられる。また、meanとは第2のデータセットの各々の特定のペプチド配列ごとに導出された予測スコアの平均値を表し、同行のmaxは同予測スコアの最大を、同行のminは同予測スコアの最小を、同行のsdは同予測スコアの標準偏差を、また同行のvarは同予測スコアの分散値を表す。
図4において、oriとは学習部104において計算の出発点となる属性値の仮スコアとしての結合定数を示し、ここでは全ペプチド配列について初期値として0.0000が当てられる。また、meanとは第2のデータセットの各々の特定のペプチド配列ごとに導出された予測スコアの平均値を表し、同行のmaxは同予測スコアの最大を、同行のminは同予測スコアの最小を、同行のsdは同予測スコアの標準偏差を、また同行のvarは同予測スコアの分散値を表す。
続いて、質問点抽出部118では、この分散の大きい方から順に取り出す。図5は、データセット中での順位付けを模式的に示す。また、このデータセットのうち、一定の範囲、例えば分散の大きい方から上位50番目までにある生体高分子配列としてのペプチド配列が質問点として抽出され、この抽出されたペプチド配列がデータ要求部120に送られる。あるいは、分散が所定の値よりも大きいペプチド配列が、質問点として抽出されるようにしてもよい。
データ要求部120では、質問点抽出部118にて抽出された質問点に係るペプチド配列について、真の属性値を示すデータ、例えば実験により求める測定データや外部データベースに蓄積されている文献等のデータを要求する。データ受付部122では、データ要求部120による要求にしたがいユーザにより入力された測定データ、または後述するように所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータを真の属性値を示すデータとしてデータ制御部128に送る。
データ制御部128では、データ受付部122より送られるデータと、前記質問点となっていたペプチド配列とを対応づけて、このペプチド配列とこのデータにかかる属性値とを含む追加のデータセットが生成され、記憶装置126に送られる。前述したように、この追加のデータセットは、記憶装置126にて蓄積されて、次回以降の仮説導出の際のデータの候補となる。
配列入力受付部130では、予測が所望されるペプチド配列の候補を特定するための所定のタンパク質の全アミノ酸配列に関する情報、例えばエピトープの同定を所望する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の入力を受け付けて、受け付けたデータは配列候補抽出部131に送られる。この入力は、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。
ここで、ウィルス抗原以外の標的タンパク質としては、感染症に関与する細菌、バクテリアなど、例えば結核菌、O−157菌、サルモネラ菌、緑膿菌、ピロリ菌、黄色ブドウ菌、マラリア菌、ボツリアヌス菌など;アレルギー疾患、例えばI型糖尿病、シューグレン症候群、花粉症、アトピー、喘息、リウマチ、膠原病、自己免疫疾患、臓器移植の拒絶反応抑制などにかかわるタンパク質;がん免疫にかかわるタンパク質、例えばがん抗原;アルツハイマー症にかかわるタンパク質、例えば原因タンパク質であるベータアミロイドなどにも適用可能である。
配列候補抽出部131では、配列入力受付部130にて受け付けた情報である所定のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を抽出し、抽出されたペプチド配列候補は学習部104に送られる。
また、配列候補抽出部131で抽出されたペプチド配列では、現実的に使用できない配列が含まれることがある。このような不要なペプチド配列を、人の手を借りないで自動的に排除するようにしてもよい。
図6は、不要なペプチド配列を排除するように配列候補抽出部131を構成した一例を示す。
配列候補抽出部131では、配列入力受付部130から送られる所定のタンパク質の全アミノ酸配列からp個のモノマー単位として、例えば8〜11、特に9個のアミノ酸からなるペプチド取出単位にて、ペプチド配列候補を取り出す候補取出部150と、取り出されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列を排除する不要配列排除部152とが設けられている。
配列候補抽出部131では、配列入力受付部130から送られる所定のタンパク質の全アミノ酸配列からp個のモノマー単位として、例えば8〜11、特に9個のアミノ酸からなるペプチド取出単位にて、ペプチド配列候補を取り出す候補取出部150と、取り出されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列を排除する不要配列排除部152とが設けられている。
候補取出部150では、配列入力受付部130で受け付けた全アミノ酸配列の先頭から、前記ペプチド取出単位にてペプチド配列を抽出し、以降のペプチド配列候補を、q個のモノマー単位ずつ、例えば1つのアミノ酸ずつ下流側にずらしながら前記ペプチド取出単位ごとに抽出するようになっている。
また、不要配列排除部152では、取り出されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列、例えば不要なペプチド配列に関するデータを蓄積する不要配列データベース154を参照して特定されるペプチド配列を不要なものとして、学習部104に送る前に予測候補から排除するようになっており、残りのペプチド配列候補が学習部104に送られるようになっている。ここで、不要なペプチド配列は、例えば水溶性が低いペプチド配列などが挙げられる。
例えば、配列入力受付部130で受け付けたエピトープの同定を所望するウィルス抗原、例えばC型肝炎ウィルスのCTLエピトープの同定を行う場合に、C型肝炎ウィルスの抗原タンパク質の全アミノ酸配列からエピトープとして作用するペプチド配列の候補が抽出されるようになっている。例えば、C型肝炎ウィルスの抗原は、特定のタンパク質として免疫誘導を行うヒト白血球抗原(HLA:human leukocyte antigen)クラスI分子に提示された8〜11のアミノ酸より形成され、CTLがこの部分を認識して、C型肝炎ウィルスを障害することが知られている。したがって、C型肝炎ウィルス抗原の全アミノ酸配列の先頭から取り出すp個のモノマー取出単位として8〜11アミノ酸単位で取り出し、続いて先頭よりq個のモノマー単位、例えば1アミノ酸ずらした二番目のアミノ酸から出発して前述のように8〜11アミノ酸の単位で取り出す、というように、先頭のアミノ酸を1アミノ酸ずつ下流側にずらしながらペプチド取出単位ごとに取り出され、この取り出されたペプチド配列を属性値の推定が所望される候補ペプチド配列として抽出される。
また、例えば、クラスII分子を認識するエピトープの同定を行うことも可能であり、この場合には、p個のモノマー単位を20以下、すなわちペプチド取出単位が20以下のアミノ酸になるようにして、同様にペプチド配列を抽出して、この取り出されたペプチド配列が属性値の推定が所望される候補ペプチド配列となる。
このような構成により、受け付けたタンパク質の全アミノ酸配列から候補ペプチド配列を抽出して、この抽出されたペプチド配列のうち、不要なペプチド配列を物性の予測前に取り出しておくことで、学習部104における無用な推定演算の必要がなくなる。
なお、不要配列データベース154は、記憶装置126の一部であってもよい。この場合、図2に示したようなデータの一部に、例えば疎水性度のような物性に関するデータも追加してもよい。
また、不要配列データベース154に蓄積するデータには、他社のライセンスが必要なペプチド配列に関する情報を含ませて、このようなペプチド配列を排除するように構成することにより、例えば新薬の開発に必要なペプチド配列候補の抽出という目的に、本実施形態を用いることができるようになる。
ペプチドデータベース138では、学習部104にて推定された属性値、例えばHLAクラスI分子への結合定数と、この結合定数を有するペプチド配列との組合せからなるデータセットが蓄積される。
条件入力受付部134では、前記ペプチドデータベース138から所定の物性を有するペプチド配列を抽出するためのキーワードとなる属性値、例えば結合定数の入力が受け付けられる。この入力は、配列入力受付部130と同様に、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。
ここで、抽出するペプチド配列の用途に応じて要求される条件(属性値)の入力を受け付ける。例えば、C型肝炎の治療剤としてペプチド配列を用いる場合には、所定のタンパク質であるHLAクラスI分子に対する結合定数が6より上のものをキーワードとして受け付けるようにする。
配列抽出部136では、条件入力受付部134で受け付けた条件を満たすペプチド配列をペプチドデータベース138から抽出して、抽出されたペプチド配列を予測結果として出力する。
ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に1〜数個のアミノ酸置換を行って得られる新規のペプチド配列の物性を調べたいときには、配列入力受付部130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、そのペプチド配列のうち、いくつのアミノ酸を置換するのかを示す置換数の情報とを入力することで、学習部104にて推定段階の演算を行って、この演算結果に基づいて新規のペプチド配列の属性値の推定を行うことができる。
なお、学習部104に出力させる仮説として、仮説導出用の第2のデータセットにかかるペプチド配列とこれに対する属性値、すなわち結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由来の9アミノ酸の一覧を出力させることでエピトープの直接の予測計算とすることができる。また、属性値を導出するペプチド配列の数として10万個という個数に限らず、例えば9アミノ酸からなるペプチド配列の属性値について予測するに際して、全ペプチド配列組合せである209個について出力させることで、ペプチド配列の全組合せについての予測ができるようになる。
図7は、本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図である。
この配列予測システムは、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列のペプチドの所定の生理活性の指標となる物性とを含むデータを格納するデータベースである記憶装置126と、第2の所定数の前記データに基づいて前記ペプチド配列および前記物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部112,および,記憶装置126から第4の所定数のデータを取り出して、前記各学習部112に前記第2の所定数のデータずつランダムに供給するランダムリサンプリング部110より構成される仮説導出部と、各学習部112で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部160(図8)、設定された前記所定のペプチド配列により特定される物性を各学習部112の前記仮説からそれぞれ抽出する着目物性抽出部162(図8)、および、各学習部112から抽出された前記物性の分散を評価する分散評価部164(図8)からなる仮説比較部114,および,評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部118より構成される質問点配列抽出部と、要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部を構成するデータ要求部120,データ受付部122,および,データ追加部124と、前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、記憶装置126に蓄積するデータ制御部128と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部130,および,配列入力受付部130にて受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部112に送る配列候補抽出部131,および,各学習部112で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定部132より構成される物性推定出力部と、を含む。
この配列予測システムは、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列のペプチドの所定の生理活性の指標となる物性とを含むデータを格納するデータベースである記憶装置126と、第2の所定数の前記データに基づいて前記ペプチド配列および前記物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部112,および,記憶装置126から第4の所定数のデータを取り出して、前記各学習部112に前記第2の所定数のデータずつランダムに供給するランダムリサンプリング部110より構成される仮説導出部と、各学習部112で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部160(図8)、設定された前記所定のペプチド配列により特定される物性を各学習部112の前記仮説からそれぞれ抽出する着目物性抽出部162(図8)、および、各学習部112から抽出された前記物性の分散を評価する分散評価部164(図8)からなる仮説比較部114,および,評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部118より構成される質問点配列抽出部と、要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部を構成するデータ要求部120,データ受付部122,および,データ追加部124と、前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、記憶装置126に蓄積するデータ制御部128と、所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部130,および,配列入力受付部130にて受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部112に送る配列候補抽出部131,および,各学習部112で得られた結果から、抽出した前記ペプチド配列候補の物性を推定する物性推定部132より構成される物性推定出力部と、を含む。
図7において、記憶装置126では、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含む、文献などにより明らかとなっている既知のデータ(「公知データ」という)からなるデータセットを蓄積するデータベースである。また、後述するように、データ制御部128を通じて送られる追加データにより更新することができる。
図2は、記憶装置126で蓄積されるデータセットの一例を示す図である。
図2に示したように、このデータセットは、公知データおよび真のデータとしての追加データにより示される、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原(HLA:human leukocyte antigen)複合体への結合定数(-logKd)とを含む。また、第1の所定数であるアミノ酸の数は、HLAクラスI分子を対象とする場合には8〜11の固定された値、例えば9であり、またHLAクラスII分子を対象とする場合には20以下の固定された値である。
図2に示したように、このデータセットは、公知データおよび真のデータとしての追加データにより示される、第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原提示分子であるヒト白血球抗原(HLA:human leukocyte antigen)複合体への結合定数(-logKd)とを含む。また、第1の所定数であるアミノ酸の数は、HLAクラスI分子を対象とする場合には8〜11の固定された値、例えば9であり、またHLAクラスII分子を対象とする場合には20以下の固定された値である。
なお、本実施形態では、求めるペプチド配列として結合対象を抗原提示分子であるHLAとするペプチドの配列の例を示したが、他に生理活性物質、例えばペプチドをリガンドとするGタンパク質共役型受容体をターゲットとするペプチド配列であってもよいし、前述したような所定のペプチド配列をコードする核酸(DNAなど)の塩基配列などであってもよい。
また、所定の物質に対する結合能の指標となる物性としては、結合ターゲットに対する結合定数の他に、結合に関係する物性、例えば疎水性度(または親水性度)などであってもよい。
図7に戻り、データ制御部128では、後述するランダムリサンプリング部110によりリサンプルされたデータに基づいて各学習部112にて導出され、必要に応じて後述するデータ追加部124にて追加される真データを含む追加データを、記憶装置126に送り、記憶装置126に蓄積されるデータセットを更新する。
ランダムリサンプル部110は、データ制御部128から送られる第4の所定数のデータの中から第2の所定数のデータをランダムにリサンプルし、データを各学習部112に供給する。
このようにデータ制御部128とランダムリサンプリング部110とが連動して、各学習部112に同数の異なったデータ(サンプル)がランダムに供給されるようになる。例えば、記憶装置126から第4の所定数としての100のデータを取り出して、各学習部112に第2の所定数としての50のデータを供給する場合に、全学習部112に同じデータを送るのではなくて、100から50のデータをランダムにリサンプリングして取り出し、取り出したデータをひとつの学習部112に送り、また別の50のデータをランダムにリサンプリングして取り出し、取り出したデータを他のひとつの学習部112に送り、最終的には全学習部に異なった50のデータが供給される。これにより、各学習部112から同一の仮説が導出されないようにすることができる。このようにして、多くても数百程度の実測値(文献値)があれば、本システムによる予測を行うことができるようになる。
学習部112では、学習段階と、推定段階とでその目的に応じた処理を行うようになっている。入力されるデータがデータ制御部128からランダムリランプリング部110を通じて送られるものであるときには、データ制御部128より学習段階の演算を行うよう制御信号contを各学習部112に送るようになっており、学習部112では、この制御信号contが入力されると学習段階の演算を行う。一方で、後述する配列入力受付部130から送られるデータに基づいたデータが送られるときは、推定段階の演算を行う。
学習段階および推定段階のいずれにおいても、例えば特許第3094860号公報に記載の隠れマルコフモデル学習システムの手順にしたがって、入力されるデータを用いて、複数の学習部、例えば50の学習部にて確率計算を行い、この計算結果をパラメータ記憶装置140に蓄積する。このパラメータ記憶装置140に蓄積される確率パラメータは、第1の所定数、例えば9個のアミノ酸からなるペプチド配列の並び順における各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなるものである。
そこで学習段階では、パラメータ記憶装置140で蓄積された確率パラメータに応じて集計して、前述した図3に示したような仮想ペプチド配列の各並び位置における各アミノ酸の存在確率が得られるようになっている。
そこで、予め設定された所定の個数の組合せのデータを得るために、第3の所定数、例えば10万個のペプチド配列について、図3に示したような集計結果に基づき、結合定数に相当する予測スコアを算出して仮説データが得られる。この仮説データは、仮説比較部114に送られる。また、記憶装置126にて仮説データを用いて、記憶装置126のデータセットを更新する場合には、この仮説データをデータ制御部128に送るようにしてもよい。なお、この第3の所定数のペプチド配列セットは、学習段階の計算が始まるたびに設定される変動的なセットであってもよいし、このシステムを利用する者により任意に入力または選択されるセットであってもよい。
一方、推定段階における演算は、学習段階での演算とほぼ同じように行われ、各学習部112で得られた各ペプチド配列に対応する結合定数のスコアが、仮説比較部114ではなくて、後述する物性推定部132に送られる。
また、パラメータ記憶装置140に蓄積される確率パラメータは、学習段階では、データがランダムリサンプリングされるたびに上書きされる形になっており、推定段階では最後に蓄積されて残っている確率パラメータを用いて、スコアが算出されるようになっている。
ここで、図8は、仮説比較部114の機能を説明する機能ブロック図を示す。
仮説比較部114は、着目配列設定部160と、着目物性抽出部162と、分散評価部164とから構成される。
仮説比較部114は、着目配列設定部160と、着目物性抽出部162と、分散評価部164とから構成される。
着目配列設定部160では、各学習部112から導出される仮説がどの程度収束しているかを判別するための比較対象となるペプチド配列を設定する。この設定されるペプチド配列は、各仮説を構成するデータのペプチド配列として挙げられているもののひとつである。着目物性抽出部162では、着目配列設定部160で設定されたペプチド配列により特定される物性を仮説データの中から抽出する。分散評価部164では、着目物性抽出部162で抽出された物性の分散を算出して、例えば前述した図4に示したようなデータセットが得られる。得られた分散は、質問点抽出部118に送られる。
質問点抽出部118では、仮説比較部114で得られた分散の大きい方から順に取り出す。図5は、データセット中での順位付けを模式的に示す。また、このデータセットのうち、分散の大きい方から第7の所定数の範囲である上位50番目までが質問点として抽出され、この抽出されたペプチド配列がデータ要求部120に送られる。あるいは、分散が所定の値よりも大きい分散を与えたペプチド配列が、真データを要求する対象となるペプチド配列、すなわち質問点として抽出されるようにしてもよい。
データ要求部120では、質問点抽出部118にて抽出された質問点に係るペプチド配列について、真データ、例えば実験により求める測定データや外部データベースに蓄積されている文献等データを要求し、データ受付部122では、データ要求部120による要求にしたがったユーザによる入力にしたがった測定データ、後述するように所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータを真データとしてデータ追加部124に送る。
データ追加部124では、データ受付部122より送られる真データを一度取り込んで、前記質問点となっていたペプチド配列と対応づけ、このペプチド配列とこの物性とを含む追加データを生成する処理を行い、この追加データがデータ制御部128に送られる。
配列入力受付部130では、予測が所望されるペプチド配列の候補を特定するための所定のタンパク質の全アミノ酸配列に関する情報、例えばエピトープの同定を所望する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の入力を受け付けて、受け付けたデータは配列候補抽出部131に送られる。この入力は、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。
ここで、前述したようなウィルス抗原以外の標的タンパク質を配列入力受付の対象としてもよい。
配列候補抽出部131では、配列入力受付部130にて受け付けた情報である所定のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を抽出し、抽出されたペプチド配列候補は各学習部112に送られる。
また、配列候補抽出部131で抽出されたペプチド配列では、現実的に使用できない配列が含まれることがある。前述したように、配列候補抽出部131を構成して、このような不要なペプチド配列を、人の手を借りないで自動的に排除するようにしてもよい。
物性推定部132では、配列候補抽出部131で抽出され、必要に応じて不要なペプチド配列が排除された後のペプチド配列候補にしたがって、学習部112の推定段階での演算により得られた結果にしたがって、各ペプチド配列の物性を推定する。この演算結果は、例えば前述した図5に示したようなデータセットで得られ、物性推定部132では、各ペプチド配列について例えば平均値をもって、当該ペプチド配列の、所定のタンパク質、例えば標的タンパク質への結合定数であると推定して、この推定が全てのペプチド配列候補について行われて、ペプチド配列と推定物性との組合せがペプチドデータベース138に送られる。
ペプチドデータベース138では、物性推定部132にて推定された物性、例えばHLAクラスI分子への結合定数と、この物性を有するペプチド配列との組合せからなるデータセットが得られる。
条件入力受付部134では、前記ペプチドデータベース138から所定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば結合定数の入力が受け付けられる。この入力は、配列入力受付部130と同様に、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットワークを接続して、このネットワークを介してなされてもよい。
ここで、抽出するペプチド配列の用途に応じて要求される条件(物性)の入力を受け付ける。例えば、C型肝炎の治療剤としてペプチド配列を用いる場合には、所定のタンパク質であるHLAクラスI分子に対する結合定数が6より上のものをキーワードとして受け付けるようにする。
配列抽出部136では、条件入力受付部134で受け付けた条件を満たすペプチド配列をペプチドデータベース138から抽出して、抽出されたペプチド配列を予測結果として出力する。
ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に1〜数個のアミノ酸置換を行って得られる新規のペプチド配列の物性を調べたいときには、配列入力受付部130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、そのペプチド配列のうち、いくつのアミノ酸を置換するのかの第8の所定数の情報とを入力することで、各学習部112にて推定段階の演算を行って、この演算結果に基づいて物性推定部132において新規のペプチド配列の物性の推定を行うことができる。
図9は、真データの要求をユーザにではなく、外部のデータベースに対して行う場合を示す図である。ここでは、図7に示した配列予測システムに適用した例を示すが、図1に示した配列予測システムに適用することもできる。
図9に示したように、データ要求部120の要求にしたがってネットワーク160を介してデータベース制御部162にペプチド配列が送られて、データベース制御部162ではこのペプチド配列の実測値を実測値データベース164を参照して検索し、この実測値が得られたら、文献等データとしてネットワーク160を通じてデータ受付部122に送る。このようにすることで、人の手を借りないで自動的に真データを求めることができるようになる。
図9に示したように、データ要求部120の要求にしたがってネットワーク160を介してデータベース制御部162にペプチド配列が送られて、データベース制御部162ではこのペプチド配列の実測値を実測値データベース164を参照して検索し、この実測値が得られたら、文献等データとしてネットワーク160を通じてデータ受付部122に送る。このようにすることで、人の手を借りないで自動的に真データを求めることができるようになる。
図10は、本発明に係る配列予測支援方法の実施形態に係る配列予測支援システムに動作について説明するフローチャートである。なお、本実施形態の配列予測支援システムは、図1に示した第一の実施形態にかかる配列予測システムに含まれており、以下の説明では図1の中の符号を適宜引用する。
この配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階であるステップS1と、学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階であるステップS2と、第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階であるステップS3と、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階であるステップS4と、この質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、データベースに蓄積するデータ更新段階であるステップS5と、を含む。
ステップS1では、データ制御部128により、データベースとしての記憶装置から生体高分子の配列と、この配列の生体高分子が備える属性値とからなるデータセットN個が選択され、さらに生成部102にてこれらN個のデータセットから異なる複数のデータサブセットが生成され、学習部104に供給される。
ステップS2では、前述したように、学習部104にてそれぞれのデータサブセットに対して生成された仮説を、第2のデータセットにかかる生体高分子配列(ペプチド配列)に適用して、各ペプチド配列の属性値が導出される。
ステップS3では、前述したように、質問点抽出部118にて、各生体高分子配列の属性値の分散が算出される。ステップS4では、引き続き、質問点抽出部118にて、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列が質問点として抽出される。
ステップS5では、抽出された質問点に対する属性値をデータ受付部122にて受け付けて、データ制御部128ではこの受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、記憶装置126に送り蓄積し、記憶装置126の内容が更新される。以上により、配列予測を支援するデータベースが構築される。
また、図示しないが、ステップS1〜S5を、例えばステップS3で得られる分散の最大値が所定値よりも小さくなるまで、適宜繰り返してもよく、この場合、配列予測支援データベースの内容の信頼性がより向上することになる。
図11は、図1に示した第一の実施形態にかかる配列予測支援システムにより構築されたデータベース、あるいは既存のデータベースを用いた配列予測システムの動作を示すフローチャートである。
図11によれば、ステップS110では、配列入力受付部130にて所定の生体高分子、例えばタンパク質の全配列を受け付けて、配列候補抽出部118によりこの受け付けた全配列から予測の対象となる生体高分子配列、この場合ペプチド配列候補が抽出され、学習部104に送られる。ステップS111では、配列入力受付後に、データ制御部128にて記憶装置128の全データセットが取り出されて、学習部104に送られる。学習部104では、この全データセットから法則を生成するとともに、前記の生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値が推定される。
このようにして、構築されたデータベースあるいは既存のデータベースより、特定の生体高分子配列に対する属性値の推定を行うことが可能になる。
さらに、ステップS112を設けて、学習部104にて推定された属性値をペプチドデータベース138に送り、該当するペプチド配列と関連づけて蓄積することで、ペプチド配列と属性値とでなるデータセットのデータベース化が可能になる。このデータセットは、ペプチド配列に限らず、DNA、RNAなどの生体高分子配列のいずれについても属性値と併せてデータベース化が可能になる。
さらに、ステップS113〜ステップS114を設けて、ステップS113では、条件入力受付部134にて、ペプチドデータベース138から所定の属性値を有するペプチド配列を抽出するためのキーワード、例えば属性値が特定のタンパク質に対する結合定数よりも大きいなどの条件の入力を受け付ける。
ステップS114では、配列抽出部136にて、条件入力受付部134で受け付けた条件を満たすペプチド配列をペプチドデータベース138から抽出して、抽出されたペプチド配列を予測結果として出力する。
これにより、所定の属性値を有するペプチド配列が、所定の物質に結合するエピトープを示すことが期待されるものとして抽出することができる。
図12は、図7に示した第二の実施形態にかかる配列予測システムに含まれる配列予測支援システムの動作について説明するフローチャートである。以下の説明では図7の中の符号を適宜引用する。
ステップS10では、データ制御部128により記憶装置126からデータが取り出され、ランダムリサンプリング110を通じて各学習部112に異なったデータが、ランダムにリサンプリングされる。
ステップS20では、各学習部112にて、供給されたデータを分析して一定の仮説、すなわちペプチド配列と所定の物性とから、第3の所定数である10万個のペプチド配列について求めたスコアを含むデータセットが導出される。
ステップS30では、着目配列設定部160にて、各学習部112で導出された仮説同士を比較するための所定のペプチド配列が設定される。ステップS40では、着目物性抽出部162にて、この設定された所定のペプチド配列および物性を各学習部112の仮説からそれぞれ抽出する。ステップS50では、分散評価部164にて、各学習部112から抽出された物性の分散が評価される。
ステップS60では、質問点抽出部118にて、仮説比較部114の分散評価部164にて評価された分散の大きい方から順に取り出される。このようにして得られるデータセットを、図5に模式的に示す。
ステップS70では、ステップS60で得られたデータセットのうち、前述のように上位50番目までが質問点として抽出され、この抽出されたペプチド配列が、仮説の物性に対する真データを要求する対象となるペプチド配列として抽出される。
ステップS80では、データ要求部120にて真データを要求し、データ受付部122にてこの要求された真データを受け付けて、データ追加部124にてステップS70で抽出された配列について仮説の物性を受け付けた真データで定義して追加データが得られる。
ステップS90では、データ追加部124で得られた追加データが、データ制御部128を通じて記憶装置126に送られて、記憶装置126のデータが更新される。
ステップS100では、次の学習を行うか否かが判別される。この判別結果がYES、すなわち次の学習が行われる場合、ステップS10に戻り、ランダムリサンプリング110により各学習部112に学習用のデータがランダムに供給されるようになる。また、判別結果がNO、すなわち次の学習が行われない場合、配列予測支援動作は終了する。
なお、この学習回数は、予め所定回数だけと決めておいてもよいし、終了ごとに次の学習を行うか否かを判断してもよい。
以上により、配列予測を支援するデータベースが構築される。
なお、ステップS60およびS70において、仮説データの分散の大きい順にペプチド配列を並び替えて、上位から所定の個数、例えば50個までを質問点として抽出するかわりに、例えば評価された分散が所定値以上であるペプチド配列を質問点として抽出されるようにしてもよい。
なお、ステップS60およびS70において、仮説データの分散の大きい順にペプチド配列を並び替えて、上位から所定の個数、例えば50個までを質問点として抽出するかわりに、例えば評価された分散が所定値以上であるペプチド配列を質問点として抽出されるようにしてもよい。
図13は、第二の実施形態にかかる配列予測支援システムにより構築されたデータベースを用いた配列予測システムの動作を示すフローチャートである。
ステップS200では、配列入力受付部130にて、所定の物質例えば抗原提示分子に対する標的タンパク質であるウィルス抗原の全アミノ酸配列を受け付け、ステップS210では、受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出し、学習部112にて推定段階の演算を行って、その演算結果から物性推定部にて、ペプチド配列候補のウィルス抗原に対する結合定数が推定され、ステップS220では、ペプチドデータベース138にこの全てのペプチド配列候補と所定の物性とのデータセットが生成され、蓄積される。
ステップS230では、条件入力受付部134にて、ペプチドデータベース138から所定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば所定のタンパク質に対する結合定数の入力を受け付ける。
ステップS240では、配列抽出部136にて、条件入力受付部134で受け付けた条件を満たすペプチド配列をペプチドデータベース138から抽出して、抽出されたペプチド配列を予測結果として出力する。
これにより、所定の物性を有するペプチド配列が、所定の物質に結合するエピトープを示すことが期待されるものとして抽出することができる。
なお、複数の学習部112に出力させる仮説として、第3の所定数のペプチド配列とこれに対する結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由来の9アミノ酸の一覧を出力させることでエピトープの予測計算とすることができ、また第3の所定数として10万個という個数に限らず、第5の所定数を9としたときの全ペプチド配列の209個について出力させることで全ペプチド配列についての予測ができるようになる。
また、本実施形態では、特定の標的タンパク質のエピトープを構成するペプチド配列を予測する例を説明したが、最初に学習部112に入力する物性として免疫誘導能、例えば標的に結合することで誘導されるT細胞の増殖数などを生理活性を示す指標として、このような免疫誘導能を有するペプチド配列を予測することができる。
また、ペプチドをリガンドとすることが想定されるものの、具体的なペプチドリガンドが同定されていないGタンパク質共役型受容体(orphan G-protein coupled receptor:orphan-GPCR)のリガンド最適化を目的とするアッセイ系予測、具体的にはペプチド投与に伴う培養細胞のカルシウム濃度上昇や細胞内cAMP(細胞内生体分子)上昇などの数値を生理活性を示す指標として、このアッセイ系に最適なペプチド配列を予測することもできる。
また、生理活性ペプチド、あるいはペプチドから構成される生理活性ホルモンの血中濃度上昇を生理活性の指標として、このペプチド配列を予測することもできる。
また、DNA配列予測に本実施形態を適用することが可能である。例えば、遺伝子が発現する場合、DNA上の遺伝子配列の上流に遺伝子発現を制御する転写因子が結合する必要があり、この転写因子の結合部位DNA塩基配列には一定のモチーフあるいは法則があることが知られている。そこで、特定の遺伝子発現に関与するプロモータに結合する転写因子の配列の候補を予測することで、特定の遺伝子発現系において遺伝子発現と転写因子結合部位のDNA配列パターンとの間に法則を見つけること可能になり、遺伝子発現の制御や転写因子結合の制御なども可能になる。
RNAi配列予測にも、本実施形態を適用することが可能である。例えば、特定の10〜20塩基程度の二本鎖の小分子RNA塩基配列(siRNA)が、補助的な因子の共存下で配列相同性を持ったmRNAと結合して切断することにより、その上流・下流の遺伝子産物生成を阻害することが知られている。そこで、特定の遺伝子発現に関与するmRNAに結合するsiRNAの配列の候補を予測することで、特定の生理活性とRNAi配列との関連性を予測することが可能になり、近年医薬品候補物質としても研究開発が盛んなRNAiの配列デザインも可能になる。
RNAアプタマー配列予測にも、本実施形態を適用することが可能である。RNAアプタマーとは、通常20塩基以上のRNA鎖であり、配列内部の相補的塩基間で結合して特定の安定した立体構造を有し、この構造特性を利用して標的タンパク質などの特定の機能部位に結合し、その機能を制御する物質である。そこで、標的タンパク質の機能部位に結合する構造を有するRNA塩基配列の候補を予測することで、特定の生理活性とRNAアプタマー配列との関連性を予測することが可能になり、近年医薬候補物質としても研究開発が盛んなRNAアプタマーの配列デザインも可能になる。
本発明は、汎用のコンピュータ装置を、以上の配列予測システムあるいは配列予測支援システムとして機能させるプログラムも提供する。
以上のように、本実施形態によれば、ある所定の物性を有するペプチド配列または核酸の塩基配列などの生体高分子配列のみを、実験によらないで選出することが可能になる。
以上の配列予測システムまたは配列予測支援システムの各構成の動作をプログラムで表現することも可能であり、このようなプログラムを用いることで、汎用コンピュータ装置を、前記配列予測システムまたは配列予測支援システムとして動作させることが可能になる。
また、質問点抽出部118にて、学習部112における次の学習段階での演算候補から不要なペプチド配列を排除するために、例えば図7に示したような不要配列排除部および必要に応じて不要配列データベースのような構成を設けてもよい。このようにすることで、不要なペプチド配列について真データを要求することがなくなる。
Claims (20)
- 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、
を含む配列予測システム。 - 請求項1に記載の配列予測システムにおいて、
前記学習部は、配列入力受付後にあっては、属性値推定部として機能することを特徴とする配列予測システム。 - 請求項1に記載の配列予測システムにおいて、
前記配列候補抽出部では、前記配列入力受付部で受け付けた全配列の先頭から、p個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補をq個のモノマー単位ずつ下流側にずらしながらp個のモノマー取出単位ごとに抽出することを特徴とする配列予測システム。 - 請求項1に記載の配列予測システムにおいて、
前記配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件を満たす予測が不要な生体高分子配列を、前記属性値推定部に送る前に排除することを特徴とする配列予測システム。 - 請求項1に記載の配列予測システムにおいて、
前記質問点抽出部では、前記分散が大きい方から一定の範囲にある生体高分子配列が質問点として抽出されることを特徴とする配列予測システム。 - 請求項1に記載の配列予測システムにおいて、
前記質問点抽出部では、前記分散が所定の値よりも大きい生体高分子配列が質問点として抽出されることを特徴とする配列予測システム。 - 請求項1〜6のいずれかに記載の配列予測システムにおいて、
前記属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさらに設けた配列予測システム。 - 請求項1〜7のいずれかに記載の配列予測システムにおいて、
前記生体高分子配列が、ペプチドのアミノ酸配列、核酸塩基配列のいずれかであることを特徴とする配列予測システム。 - 請求項8に記載の配列予測システムにおいて、
前記属性値は、ペプチドまたは核酸と所定の生体高分子との結合定数であることを特徴とする配列予測システム。 - 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、
を含む配列予測システム。 - 請求項1に記載の配列予測システムにより得られる属性値と、生体高分子配列とを有する配列予測データベース。
- 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
を含む配列予測支援システム。 - 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
を含む配列予測支援システム。 - 第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、
第2の所定数の前記データに基づいて前記ペプチド配列および前記物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、
前記データベースから第4の所定数のデータを取り出して、前記各学習部に前記第2の所定数のデータずつランダムに供給するランダムリサンプリング部と、
前記各学習部で導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、
設定された前記所定のペプチド配列により特定される物性を前記各学習部の前記仮説からそれぞれ抽出する着目物性抽出部と、
前記各学習部から抽出された前記物性の分散を評価する分散評価部と、
評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を前記学習部に送る配列候補抽出部と、
前記各学習部で得られた結果から、前記抽出した前記ペプチド配列候補の物性を推定する物性推定部と、を含む配列予測システム。 - 第1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納するデータベースと、
前記データベースから第4の所定数のデータをランダムに取り出して、第4の所定数のデータの中からランダムに送られる第2の所定数のデータに基づいて前記ペプチド配列および前記物性から、第3の所定数のペプチド配列について求めてなる仮説を導出する複数の仮説導出部と、
前記各仮説導出部で導出された前記仮説に含まれる所定のペプチド配列を設定し、この設定された前記所定のペプチド配列により特定される物性を前記各仮説導出部の前記仮説からそれぞれ抽出し、この抽出された前記物性の分散を評価し、評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を前記仮説導出部に送って、出力された結果から、前記抽出した前記ペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システム。 - コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配列予測プログラム。 - コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配列予測プログラム。 - コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースからN個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、
それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、を含む配列予測支援システムとして機能させる配列予測支援プログラム。 - 生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、
所定の生体高分子の全配列を受け付けて、この受け付けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値を推定する属性値推定段階と、を含む配列予測方法。 - 生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータベースから、N個のデータセットを選択し、さらに当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する仮説導出段階と、
前記第2のデータセット中の各生体高分子配列について属性値の分散を算出する分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と、を含む配列予測支援方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004201116 | 2004-07-07 | ||
JP2004201116 | 2004-07-07 | ||
PCT/JP2005/012542 WO2006004182A1 (ja) | 2004-07-07 | 2005-07-07 | 配列予測システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2006004182A1 true JPWO2006004182A1 (ja) | 2008-04-24 |
Family
ID=35782982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006528959A Pending JPWO2006004182A1 (ja) | 2004-07-07 | 2005-07-07 | 配列予測システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090144209A1 (ja) |
JP (1) | JPWO2006004182A1 (ja) |
WO (1) | WO2006004182A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2491940B1 (en) | 2006-02-17 | 2017-06-07 | Nec Corporation | Method for inducing cytotoxic T-cells, cytotoxic T-cell inducer, and pharmaceutical composition and vaccine employing same |
WO2007105794A1 (ja) * | 2006-03-15 | 2007-09-20 | Nec Corporation | 分子構造予測システム、方法及びプログラム |
JP4841396B2 (ja) * | 2006-10-18 | 2011-12-21 | Necソフト株式会社 | 塩基配列の同定装置、核酸分子の二次構造取得装置、塩基配列の同定方法、核酸分子の二次構造取得方法、プログラム及び記録媒体 |
EP2444410A3 (en) * | 2007-02-28 | 2012-08-08 | The Govt. Of U.S.A. As Represented By The Secretary Of The Department Of Health And Human Services | Brachyury polypeptides and methods for use |
US20100255020A1 (en) * | 2007-11-20 | 2010-10-07 | Nec Corporation | Method for inducing cytotoxic t-cells, cytotoxic t-cell inducers, and pharmaceutical compositions and vaccines employing them |
JP2010115177A (ja) * | 2008-11-14 | 2010-05-27 | Nec Soft Ltd | 分解耐性を有するrnaアプタマー分子の修飾ヌクレオチド配列の選択方法 |
EP2387780A4 (en) * | 2009-01-14 | 2015-03-04 | Johanna Craig | INTEGRATED OFFICE SOFTWARE FOR VIRUS DATA MANAGEMENT |
WO2012005898A2 (en) * | 2010-06-15 | 2012-01-12 | Alnylam Pharmaceuticals, Inc. | Chinese hamster ovary (cho) cell transcriptome, corresponding sirnas and uses thereof |
US9609074B2 (en) * | 2014-06-18 | 2017-03-28 | Adobe Systems Incorporated | Performing predictive analysis on usage analytics |
US10537626B2 (en) | 2014-10-07 | 2020-01-21 | Cytlimic Inc. | HSP70-derived peptide, pharmaceutical composition for treating or preventing cancer using same, immunity inducer, and method for producing antigen presenting cell |
WO2016143814A1 (ja) | 2015-03-09 | 2016-09-15 | 日本電気株式会社 | Muc1由来のペプチド、これを用いた癌の治療又は予防のための医薬組成物、免疫誘導剤、及び抗原提示細胞の製造方法 |
JP7259596B2 (ja) * | 2019-07-01 | 2023-04-18 | 富士通株式会社 | 予測プログラム、予測方法および予測装置 |
-
2005
- 2005-07-07 US US11/571,822 patent/US20090144209A1/en not_active Abandoned
- 2005-07-07 WO PCT/JP2005/012542 patent/WO2006004182A1/ja active Application Filing
- 2005-07-07 JP JP2006528959A patent/JPWO2006004182A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2006004182A1 (ja) | 2006-01-12 |
WO2006004182A9 (ja) | 2006-03-09 |
US20090144209A1 (en) | 2009-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2006004182A1 (ja) | 配列予測システム | |
US10055539B2 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
Pei et al. | PROMALS3D: multiple protein sequence alignment enhanced with evolutionary and three-dimensional structural information | |
Roshan et al. | Probalign: multiple sequence alignment using partition function posterior probabilities | |
Ding et al. | Ab initio RNA folding by discrete molecular dynamics: from structure prediction to folding mechanisms | |
JP6313757B2 (ja) | 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 | |
US20120158391A1 (en) | Pathway recognition algorithm using data integration on genomic models (PAGADIGM) | |
Armstrong et al. | SCORER 2.0: an algorithm for distinguishing parallel dimeric and trimeric coiled-coil sequences | |
US20220005608A1 (en) | Method of predicting disease, gene or protein related to queried entity and prediction system built by using the same | |
Meher et al. | Prediction of donor splice sites using random forest with a new sequence encoding approach | |
AU2014340461A1 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
JP7357023B2 (ja) | 非コード-コード遺伝子共発現ネットワークを生成する方法及びシステム | |
Yang et al. | Prediction of aptamer–protein interacting pairs based on sparse autoencoder feature extraction and an ensemble classifier | |
Li et al. | LinearTurboFold: linear-time global prediction of conserved structures for RNA homologs with applications to SARS-CoV-2 | |
Lee et al. | Design and prediction of aptamers assisted by in silico methods | |
Wei et al. | RNAG: a new Gibbs sampler for predicting RNA secondary structure for unaligned sequences | |
US11126695B2 (en) | Polymer design device, polymer design method, and non-transitory recording medium | |
JP5773406B2 (ja) | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム | |
Bogojeska et al. | Hierarchical Bayes model for predicting effectiveness of HIV combination therapies | |
Xiao et al. | RNA-targeted small-molecule drug discoveries: a machine-learning perspective | |
Li et al. | ctP 2 ISP: Protein–Protein Interaction Sites Prediction Using Convolution and Transformer With Data Augmentation | |
Wu et al. | PredictFP2: a new computational model to predict fusion peptide domain in all retroviruses | |
Sokouti et al. | GPCRTOP v. 1.0: One-step web server for both predicting helical transmembrane segments and identifying G protein-coupled receptors | |
Sanaboyana et al. | Improving signal and transit peptide predictions using AlphaFold2-predicted protein structures | |
Höchsmann et al. | Thermodynamic matchers: strengthening the significance of RNA folding energies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091006 |