JPWO2008007630A1 - 蛋白質探索方法及び装置 - Google Patents

蛋白質探索方法及び装置 Download PDF

Info

Publication number
JPWO2008007630A1
JPWO2008007630A1 JP2008524780A JP2008524780A JPWO2008007630A1 JP WO2008007630 A1 JPWO2008007630 A1 JP WO2008007630A1 JP 2008524780 A JP2008524780 A JP 2008524780A JP 2008524780 A JP2008524780 A JP 2008524780A JP WO2008007630 A1 JPWO2008007630 A1 JP WO2008007630A1
Authority
JP
Japan
Prior art keywords
protein
data
information
target protein
expression level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008524780A
Other languages
English (en)
Inventor
礼仁 寺本
礼仁 寺本
宏貴 皆川
宏貴 皆川
上條 憲一
憲一 上條
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008007630A1 publication Critical patent/JPWO2008007630A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • G01N27/44756Apparatus specially adapted therefor
    • G01N27/44773Multi-stage electrophoresis, e.g. two-dimensional electrophoresis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法は、プロファイリングデータでの蛋白質発現量と情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、情報と関連する蛋白質を目標蛋白質として決定することと、評価データにより目標蛋白質の性能を評価することと、を有する。

Description

本発明は、臨床情報等の情報と直接あるいは間接的に関連する蛋白質を探索する方法及び装置に関する。
近年、質量分析法や2次元電気泳動法などを用いたプロテオーム解析と呼ばれる蛋白質の網羅的解析技術の向上により、蛋白質の機能解析や疾患診断に有用なマーカー蛋白質などの探索が活発に行われている。プロテオーム解析とは、一般には、生体組織などに由来したサンプルから、そのサンプル中に存在する多種類の蛋白質などを成分に分離し、分離した各成分をそれぞれを同定する解析のことを指す。
プロテオーム解析の具体的な手法の一例を挙げれば、サンプル調製後、2次元電気泳動を行って蛋白質を分離し、2次元電気泳動で得られたゲルを染色することによって可視化される各スポットを抜き出し、さらに酵素処理などを行って得た抽出物に対して質量分析(MS)を行うことにより、サンプル中にどのような蛋白質が含まれていたかを推定する、というものがある。可視化されたスポットは、それぞれ、分離された各蛋白質に相当するものである。プロテオーム解析の手法としては、ここで述べた2次元電気泳動と質量分析とを組み合わせた方法のほかに、適切な試料前処理を行った上で、2次元電気泳動と質量分析のいずれか一方のみを行う方法もある。さらには、他の蛋白質同定手法を用いる方法もある。
プロテオーム解析でよく用いられる2次元電気泳動の手法としては、2D−DIGE(蛍光標識2次元ディファレンスゲル電気泳動;2−Dimensional Fluorescence Difference Gel Electrophoresis)がある。2D−DIGEは、蛋白質の発現、修飾情報のプロファイリングを行う技術であり、サンプル間の蛋白質の定量的な比較を行うのに適している。また、プロテオーム解析でよく用いられる質量分析の手法としては、SELDI(表面エンハンス型レーザー脱離イオン化;Surface−enhanced laser desorption/ionization)チップを用いる方法がある。SELDIチップを用いる質量分析は、蛋白質のプロファイリングを行うのに適した技術であり、この手法を用いて、質量スペクトルからサンプル間の蛋白質の定量的な比較が行われている。
ところで、ヒトを含む動物において、疾患に罹患している個体から得られるサンプルと正常な個体から得られるサンプルでとでは、特定の蛋白質の発現量について有意の差がある場合があることが知られている。
そこで、疾患の診断に、個体から得られた蛋白質の定量を行うことが有効である。また、このような診断等を行うために、疾患ごとに、どのような蛋白質において正常な個体と罹患した個体との間で発現量の有意の差があるかを突き止めることが重要である。そのように正常な個体と罹患した個体との間で発現量に有意の差が生じうるものをマーカー蛋白質と呼ぶ。マーカー蛋白質の探索においては、病態や治療履歴などの臨床情報と蛋白質の発現量との関係を調べ、統計的な処理を行って、臨床情報に対して有意な関連性を示す蛋白質を探索することになる。
罹患した個体からのサンプルと正常な個体からのサンプルとの間の蛋白質の定量的な比較を行う方法の例として、John M. Lukらによる方法がある[B1](非特許文献1)。Lukらの方法では、2次元電気泳動法によって得られた蛋白質発現量を、ANOVA(分散分析;analysis of variance)やt検定で用いられる統計検定量を指標として、比較する。Lukらは、この方法を用いて、統計検定量の上位3個の蛋白質のみに着目して、肝癌における癌部と非癌部の分類性能の評価と、既存のマーカー蛋白質や臨床情報との相関関係の評価を行っている。
本発明に隣接する技術のものであるが、特開2003−38377号公報[A1](特許文献1)には、RNA(リボ核酸)干渉現象などを用いた遺伝子発現制御において用いられる機能性核酸配列を設計する方法が開示されている。この方法では、mRNA(メッセンジャーRNA)である標的遺伝子の配列からオリゴヌクレオチドを抽出してその配列を設計候補配列の入力データとし、既知の訓練配列と設計候補配列とからカーネル法により特徴抽出を行い、さらに教師あり学習を行うことによって、標的遺伝子に対して有効な機能性核酸配列を予測する。訓練配列は、遺伝子発現制御において既に有効とされているオリゴヌクレオチドの配列である。結局、特開2003−38377公報に開示のものは、既知の機能性核酸配列との比較によって設計候補配列から機能性核酸配列を予測するものであり、したがって、核酸配列をアミノ酸配列に置き換えたとしても、臨床情報などの情報に基づいてマーカー蛋白質を探索する目的では、使用することができない。
本発明に関連する技術として、WO2002/047007 [A2](特許文献2)には、遺伝的疾患の分類及び予測のために、機械学習を用いることを開示している。
O. Troyanskayaらは、近傍法に基づく欠損値補完法を開示している[B2](非特許文献2)。同様に特開2004−126857号公報[A3]は、遺伝子発現データにおける欠損値をk−最近傍法を用いて推定することを開示している。
機械学習における手法の一つである確率勾配ブースティング法は、勾配ブースティング法を発展させたものである。確率勾配ブースティング法については文献[B3](非特許文献3)に、勾配ブースティング法については文献[B4](非特許文献4)に記載されている。確率勾配ブースティング法、勾配ブースティング法は、いずれもアンサンブル学習の1つであるが、アンサンブル学習の代表的な方式としては、文献[B5](非特許文献5)に記載されたブースティングと、文献[B6](非特許文献6)に記載されたバギングが知られている。アンサンブル学習の下位学習機械としては、決定木・回帰木を用いる場合が多く、これらについては、文献[B7](非特許文献7)に記載されている。
以下、本明細書中で引用した参考文献を列挙する。
[A1] 特開2003−38377号公報 [A2] WO2002/047007(特表2004−524604号公報) [A3] 特開2004−126857号公報 [B1] John M. Luk et al.: "Proteomic profiling of hepatocellular carcinoma in Chinese cohort reveals heat−shock proteins (Hsp27, Hsp70, GRP78) up−regulation and their associated prognostic values," Proteomics, 2006, 6, 1049−1057 [B2] O. Troyanskaya, M. Cantor, G. Sherlock, P. Brown, T. Hastie, R. Tibshirani, D. Botstein, and R. B. Altman: "Missing value estimation methods for DNA microarrays," Bioinformatics, 2001, 17, 520−525 [B3] J. Friedman: "Stochastic gradient boosting," Computational Statistics and Data Analysis, 2002, 367−378 [B4] J. Friedman: "Greedy Function Approximation: A Gradient Boosting Machine," The Annals of Statistics, 2001, 1189−1232 [B5] Y. Freund, R. E. Schapire: "A decision−theoretic generalization of on−line learning and an application to boosting," Journal of Computer and System Sciences, 1997, 23−27 [B6] Leo Breiman: "Bagging Predictors," Machine Learning, 1996, 123−140 [B7] Andreas Buja and Yung−Seop Lee: "Data mining criteria for tree−based regression and classification," Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, Pages: 27−36, 2001
Lukらの方法[B1]のような、罹患した個体からのサンプルと正常な個体からのサンプルとの間の蛋白質の定量的な比較を行う方法では、マーカー蛋白質の探索という観点からは、以下に示すような解決すべき課題がある。
まず、群間での各蛋白質の発現量と臨床情報等との関連性を独立に検定して、臨床情報等との関連性の有無を判断しているため、検定統計量には閾値依存性が見られることになるが、その閾値の設定根拠の合理性は極めて乏しい。また、個々の蛋白質ごとに独立して統計的な検定を行うため、複数の蛋白質の発現量が臨床情報等と関連している場合には、有効ではない。一般に、病態や薬効のメカニズムには多数の生体分子が複雑に関与することが知られているため、上述した手法は、マーカー蛋白質の探索方法として適切とは言えない。
2次元電気泳動法を用いる場合には、実験において再現性の低下が不可避であることやノイズ混入があること、さらには、電気泳動イメージを画像として取り込んで処理する際の画像処理技術の限界により、各サンプル間における同一蛋白質に相当するスポットの対応関係を得ることは困難である。したがって、群間で比較可能な蛋白質の網羅性が著しく低下する可能性がある。その上、2次元電気泳動法により蛋白質を展開した段階に観測されるスポットや、質量分析法によって計測された質量スペクトルの段階に観測されるピークに相当する蛋白質が具体的に何であるかは、不明である。そのため、スポットやピークに相当するアミノ酸配列の同定を行って蛋白質の素性を明らかにする必要があるが、この作業には膨大な時間と労力を要する。
またプロテオーム解析により、蛋白質発現プロファイリングデータとして、1つのサンプルから多数の蛋白質についてのそれぞれの発現量のデータが得られるが、データの欠損も起こりうる。データの欠損とは、いくつかの蛋白質についてその蛋白質がサンプル中に実際には含まれているはずであるにもかかわらず、発現量のデータが得られないことをいう。このような欠損は、例えば、測定における分解能の不足や、画像処理上の限界、電気泳動イメージにおけるノイズやゴミの付着などの理由によって起こり得る。マーカー蛋白質探索における網羅性を向上するためには、このようなデータの欠損も考慮する必要があり、場合によっては、欠損値の補完を行う必要がある。
本発明の目的は、上述した問題点を鑑み、2次元電気泳動などによって得られた蛋白質の発現データなどの情報から、マーカー蛋白質など、生物学的に重要な蛋白質を目標蛋白質として探索することができる新しい解析手法を提供することにある。
本発明の別の目的は、上述した問題点を鑑み、2次元電気泳動などによって得られた蛋白質の発現データなどの情報から、マーカー蛋白質など、生物学的に重要な蛋白質を目標蛋白質として探索することができる新しい解析装置を提供することにある。
本発明の蛋白質探索方法は、プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法であって、プロファイリングデータでの蛋白質発現量と情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、情報と関連する蛋白質を目標蛋白質として決定し、評価データにより目標蛋白質の性能を評価する。
本発明の第1の蛋白質探索装置は、プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、蛋白質発現データ及び情報から教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、決定された目標蛋白質の発現量と情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、予測モデルを記憶する予測モデル記憶手段と、予測モデルの性能を評価するためのデータを記憶する評価データ記憶手段と、評価データによって予測モデルを評価する予測モデル検証手段と、を有する。
本発明の第2の蛋白質探索装置は、プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、蛋白質発現データを目標蛋白質探索に用いる訓練データと検証データとに分割するデータ分割手段と、訓練データを記憶する訓練データ記憶手段と、検証データを記憶する検証データ記憶手段と、訓練データ及び情報とから教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、決定された目標蛋白質の発現量と情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、予測モデルを記憶する予測モデル記憶手段と、検証データによって予測モデルを評価する予測モデル検証手段と、を有する。
本発明によれば、一例として、例えば臨床情報などの情報に対して複数の蛋白質の発現量が関連する場合であっても、マーカー蛋白質などの目標蛋白質の探索が可能になり、また、目標蛋白質かどうかを判断する閾値も合理的に決定できるようになる。
第1の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。 図1に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチャートである。 欠損値補完の処理手順の一例を示すフローチャートである。 確率勾配ブースティング法の処理手順の一例を示すフローチャートである。 第2の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。 図5に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチャートである。 第3の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。 図7に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチャートである。
符号の説明
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
21 欠損値補完部
22 データ分割部
23 マーカー蛋白質探索部
24 予測モデル学習部
25 検証部
31 データ記憶部
32 訓練データ記憶部
33 検証データ記憶部
34 パラメータ記憶部
35 マーカー蛋白質記憶部
36 予測モデル記憶部
37 評価データ記憶部
次に、本発明の実施形態を説明する。以下では、情報と直接あるいは間接的に関連する蛋白質である目標蛋白質として、臨床情報と直接あるいは間接的に関連するマーカー蛋白質を網羅的に探索する場合を例に挙げて説明する。ここでは、プロテオーム解析によって得られる蛋白質の発現量に対するアンサンブル学習を用いることによって、マーカー蛋白質を網羅的に探索する。
図1は、第1の実施形態のマーカー蛋白質探索装置の構成を示している。このマーカー蛋白質探索装置は、2次元電気泳動などによって得られた蛋白質の発現データから、生物学的に重要な蛋白質すなわちマーカー蛋白質として探索するものである。
図示されるマーカー蛋白質探索装置は、大別すると、キーボードやポインティングデバイスなどの入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、表示装置やプリンタなどの出力装置4と、から構成されている。
データ処理装置2は、欠損している蛋白質の発現量の値を補完する欠損値補完部21と、全データを訓練データと検証データとに分割するデータ分割部22と、訓練データからマーカー蛋白質を探索するマーカー蛋白質探索部23と、マーカー蛋白質の発現量と臨床情報等とを用いて、予測モデルを学習する予測モデル学習部24と、検証データによって予測モデルの分類性能を評価する検証部25と、を備えている。ここで欠損値補完部21は欠損値補完手段とも呼ばれ、データ分割部22はデータ分割手段とも呼ばれ、マーカー蛋白質探索部23は目標蛋白質探索手段とも呼ばれ、予測モデル学習部24は予測モデル学習手段とも呼ばれ、検証部25は予測モデル検証手段とも呼ばれる。
記憶装置3は、蛋白質発現量と臨床情報等とを格納するデータ記憶部31と、データ分割部22によって分割された訓練データを格納する訓練データ記憶部32と、データ分割部22によって分割された検証データを格納する検証データ記憶部33と、マーカー蛋白質探索部23でのマーカー蛋白質探索に用いる学習パラメータを格納するパラメータ記憶部34と、探索されたマーカー蛋白質情報及び臨床情報を格納するマーカー蛋白質記憶部35と、訓練データにおいてマーカー蛋白質と臨床情報とを用いて学習された予測モデルを格納する予測モデル記憶部36と、を備えている。ここで、データ記憶部31はデータ記憶手段とも呼ばれ、訓練データ記憶部32は訓練データ記憶手段とも呼ばれ、検証データ記憶部33は検証データ記憶手段とも呼ばれ、マーカー蛋白質記憶部35は目標蛋白質記憶手段とも呼ばれ、予測モデル記憶部36は予測モデル記憶部とも呼ばれる。
次に、図1に示したマーカー蛋白質探索装置を用いたマーカー蛋白質の探索について説明する。図2は、ここでのマーカー蛋白質の探索の処理手順の一例を示すフローチャートである。
マーカー蛋白質探索装置に対しては、入力装置1によって実行指示が与えられ、ステップA1において、入力装置1を介し、データ記憶部31に蛋白質の発現量が入力される。入力された発現量は、データ記憶部31に格納される。ここでの蛋白質の発現量は、例えば、プロテオーム解析によって取得された蛋白質発現プロファイリングデータから得られるものである。プロテオーム解析の手法としては、例えば、二次元電気泳動及び/または質量分析を用いる方法が利用できる。また、蛋白質の発現量の代わりに、あるいは蛋白質の発現量と併用して、蛋白質のリン酸化などの化学修飾や糖鎖修飾といった蛋白質の状態を反映した情報を用いることができる。蛋白質の発現量に対応する臨床情報も入力装置1及びデータ処理装置2を介して、データ記憶部31に格納される。蛋白質の発現量は、プロテオーム解析によってあるサンプルを解析したときに得られるものであるが、蛋白質の発現量に対応する臨床情報は、そのサンプルを提供した個体に関する情報のことである。いわゆる臨床数値に関する情報や病態に関する情報、薬効に関する情報、サンプル採取後にその個体がどれだけ生存したかの生存時間に関する情報などを含めて臨床情報と呼んでいる。
次に、ステップA2において、欠損値補完部21により、蛋白質発現量の欠損値補完が行われ、欠損値補完がなされた蛋白質発現量は、データ記憶部31に記憶される。
ここで、図3を参照して、k−近傍法による具体的な欠損値補完の方法について、説明する。
まず、ステップB1において、データ記憶部31から、欠損値補完を行う前の蛋白質の発現量が欠損値補完部21に入力される。欠損値補完部21は、ステップB2において、あらかじめ定められた割合で、発現量が欠損しているM個の蛋白質を選択し、ステップB3において、欠損値補完に用いる蛋白質数Kを設定する。その後、ステップB4において、m=1としてmを初期化し、ステップB5において、欠損していないサンプルにおける発現量を用いて、ユークリッド距離を計算し、近傍にある蛋白質K個を探索し、ステップB6において、距離に応じた重み付き平均により、欠損量を補完する。重み付き平均は、重みをw、蛋白質発現量をxとすると、
Figure 2008007630
により、求められる。その後、ステップB7において、mに1を加算し、ステップB8において、mがMに達したかどうかを判断する。ここでm<Mであれば、ステップB5に戻り、m=Mであれば、処理を終了する。その結果、ステップB4,B5に示す処理が、発現量が欠損しているM個の蛋白質の各々に対して行われることになる。
欠損値の補完が行われると、次に、データ分割部22は、データ記憶部31から、欠損値補完後の全サンプルの蛋白質発現データを受け取り、ステップA3において、マーカー蛋白質を探索し、これらの蛋白質発現データを、予測モデルを学習するのに用いる訓練データと、訓練データから学習した予測モデルの性能を評価するための検証データとに分割する。訓練データは訓練データ記憶部32に格納され、検証データは検証データ記憶部33に格納される。
次に、マーカー蛋白質探索部23は、ステップA4において、訓練データ記憶部32から訓練データの蛋白質発現量と対応する臨床情報を受け取り、パラメータ記憶部34から確率勾配ブースティング法の学習に用いるパラメータを受け取り、下位学習機械を回帰木とした場合の確率ブースティング法のパラメータを設定する。そしてそのようにパラメータを設定した後、マーカー蛋白質探索部23は、教師あり学習によって、各蛋白質のマーカー蛋白質の指標となる重要度を算出する。重要度の算出では、ステップA5において、蛋白質発現量を属性とし、臨床情報を教師あり学習における目的関数として、確率ブースティング法により学習を行う。確率ブースティング法の学習過程において、ステップA6に示すように、属性に対する重要度を算出する。そして、ステップA7において、重要度に基づいて、属性を選択する。その後、重要度が与えられた蛋白質の発現量は、臨床情報とともにマーカー蛋白質記憶部35に記憶される。
以下、図4を参照して、確率勾配ブースティング法による重要度の算出方法について、具体的に説明する。
まず、ステップC1において、訓練データ記憶部32からマーカー蛋白質探索部23に、蛋白質の発現量と臨床情報との組の集合Dが入力される。組の数、すなわち注目している蛋白質について発現量を得たサンプルの数はNである。
D={(x,y),…,(x,y)} (2)
ここで、xは蛋白質発現量、yは臨床情報である。臨床情報には、疾患や正常、病態の悪性度、生存時間などがある。次に、ステップC2において、臨床情報の種類に適した損失関数L、学習の反復回数M、リサンプリング数s、縮小パラメータνを設定する。損失関数Lは、判別関数をF(x)とすると、疾患や正常のようなクラスを識別するような分類問題では、
L=log(1+exp(−2yF(x))) (3)
を用いることができる。また、回帰問題においては、
L=(y−F(x)) (4)
あるいは
L=|y−F(x)| (5)
を用いることができる。
すなわち、臨床情報が離散値である場合には、損失関数として例えば対数関数を用いることができ、臨床情報が連続値である場合には、損失関数として、例えば、真の値と予測値との差の二乗または真の値と予測値の差の絶対値を用いることができる。さらに、臨床情報が生存時間の場合には、損失関数として、Cox比例ハザードモデルを利用するようにしてもよい。
設定可能なリサンプリング数sと縮小パラメータνの大きさの範囲は、
1≪s≦N (6),
0<ν≦1 (7)
である。ここで、リサンプリング数sと縮小パラメータνは、元のデータに対する過学習を回避するために導入している。
次に、ステップC3において、判別関数F、反復回数mを以下のように初期化する。
=0 (8),
m=1 (9).
ステップC4において、下位学習機械である回帰木により、学習するデータ数nを以下のように初期化する。
n=1 (10).
ステップC5において、損失関数Lの勾配を以下の式により計算する。
Figure 2008007630
ステップC5に引き続くステップC6においてnに1を加算し、ステップC7においてnがNに達したかどうかを判定して、n<NであればステップC5に戻ることにより、ステップC5における損失関数の勾配の算出の操作を、nがNになるまで続ける。
ステップC7においてn=Nとなったら、次に、ステップS8において、データのリサンプリングをs回行い、複製データ集合を生成し、ステップC9において、複製データと損失関数の勾配の組の集合Rを回帰木Tにより学習する。
Figure 2008007630
ステップC10において、判別関数を次のように更新する。
(T(x),…,T(x))=Fm−1(T(x),…,Tm−1(x))+νT(x) (13)
ステップC10の後、ステップC11において、Mに1を加算し、ステップC12において、mがMに達したかどうかを判断して、m<MであればステップC4に戻ることにより、ステップC5からステップC10までの操作を、mがMになるまで続ける。
蛋白質pの重要度Vは、上記の確率勾配ブースティング法の回帰木の学習過程において、以下の式で計算する。
Figure 2008007630
ここで、V(T)はm番目の回帰木を学習する際の重要度であり、以下の式で定義される。
Figure 2008007630
ここで、Jはm番目の回帰木の非終端ノードの数、I[t=p]はノードtにおいて、分岐する蛋白質がpのとき、1となる指示変数、δtはノードtで分割する際の平均二乗誤差の改善量である。すなわち、学習過程の全ての回帰木で分岐変数にならなかった蛋白質は、その重要度が0になるため、臨床情報の変数に対して全く寄与しておらず、臨床情報等と関連性がないことを意味する。
本実施形態では、注目した蛋白質の重要度の算出法として、ここで説明した確率勾配ブースティング法だけでなく、他の方法、例えば、ブースティング、バギングなどのアンサンブル学習も用いることが可能である。ただし、データ数が少数の場合は、確率勾配ブースティング法を用いることが望ましい。
以上のようにして、マーカー蛋白質探索部23において、訓練データから各蛋白質のマーカー蛋白質としての指標となる重要度が算出されたら、次に、ステップA8において、予測モデル学習部24は、訓練データ記憶部32から訓練データの蛋白質発現量と臨床情報とを受け取り、マーカー蛋白質記憶部35から蛋白質の発現量を受け取って、サポートベクターマシンなどの教師あり学習、あるいはクラスタリングなどの教師なし学習により、予測モデルを学習する。学習後の予測モデルは、予測モデル記憶部36に記憶される。
その後、ステップA9において、検証部25が、予測モデル記憶部36から予測モデルを受け取り、検証データ記憶部33から検証データを受け取って、検証データの臨床情報に対して、予測を行う。予測結果は、出力装置4から出力される。
以上説明した第1の実施形態のマーカー蛋白質探索装置では、欠損している蛋白質の発現量を補完することによって、より多くの蛋白質の中から臨床情報と関連する蛋白質を探索できるため、これまで発見されていなかったマーカー蛋白質を発見できる可能性が高まる効果がある。
図5は、第2の実施形態のマーカー蛋白質探索装置の構成を示している。図5に示すマーカー蛋白質探索装置は、サンプルにおける蛋白質の発現量が全て測定できる場合、あるいは発現量を測定可能な蛋白質のみを解析対象とする場合に適合したものであり、図1に示した第1の実施形態のマーカー蛋白質探索装置と比較すると、欠損値補完部を備えていない点で相違する。図6は、図5に示した装置におけるマーカー蛋白質探索処理の一例を示すフローチャートであり、図2に示した第1の実施形態における処理と比べると、欠損値を補完する処理が設けられていない点のみで相違する。図5に示した装置は、発現量における欠損値の補完を行わない点以外は、図1に示した装置と同様にしてマーカー蛋白質の探索処理を実行する。
図7は、第3の実施形態のマーカー蛋白質探索装置の構成を示している。図7に示すマーカー蛋白質探索装置は、発現量プロファイルデータを訓練データと検証データとに分割することなく、全データを用いてマーカー蛋白質の探索を行い、別途準備された評価データによって、マーカー蛋白質による予測性能を評価するものである。図7に示す装置は、図5に示す装置と比較すると、データ分割部、訓練データ記憶部及び検証データ記憶部を備えず、その代わりに記憶装置3内に評価データ記憶部37が設けられている。ここでは、目標蛋白質探索手段とも呼ばれるマーカー蛋白質探索部23は、データ記憶部31内に格納された蛋白質発現データ及び臨床情報から、教師あり学習を用いてマーカー蛋白質を決定する。評価データ記憶部37は、評価データ記憶手段とも呼ばれるものであって、予測モデルの性能を評価するために用いられる評価データを記憶する。
図8は、図7に示した装置におけるマーカー蛋白質探索処理の一例を示すフローチャートである。入力装置1によって実行指示が与えられ、ステップA1において、入力装置1を介し、データ記憶部31に蛋白質の発現量と対応する臨床情報とが入力され、データ記憶部31に格納される。次に、マーカー蛋白質探索部23は、ステップA4において、データ記憶部31から訓練データの蛋白質発現量と対応する臨床情報を受け取り、パラメータ記憶部34から確率勾配ブースティング法の学習に用いるパラメータを受け取り、下位学習機械を回帰木とした場合の確率ブースティング法のパラメータを設定する。そしてそのようにパラメータを設定した後、マーカー蛋白質探索部23は、各蛋白質のマーカー蛋白質の指標となる重要度を算出する。重要度の算出では、ステップA5において、蛋白質発現量を属性とし、臨床情報を目的関数として、確率ブースティング法により学習を行う。確率ブースティング法の学習過程において、ステップA6に示すように、属性に対する重要度を算出する。
次に、マーカー蛋白質探索部23は、ステップA7において、重要度に基づいて、属性を選択する。その後、重要度が与えられた蛋白質の発現量は、マーカー蛋白質記憶部35に記憶される。その後、ステップA8において、予測モデル学習部24は、データ記憶部31から蛋白質発現量と臨床情報とを受け取り、マーカー蛋白質記憶部35から蛋白質の発現量を受け取って、サポートベクターマシンなどの教師あり学習、あるいはクラスタリングなどの教師なし学習により、予測モデルを学習する。学習後の予測モデルは、予測モデル記憶部36に記憶される。続いて、ステップA10において、検証部25が、予測モデル記憶部36から予測モデルを受け取り、評価データ記憶部37から評価データを受け取って、評価データの臨床情報に対して、予測を行う。予測結果は、出力装置4から出力される。
なお、第3の実施形態においても、第1の実施形態と同様に、欠損値補完部21を設けて欠損値の補完を行う構成とすることも可能である。
上述した各実施形態のマーカー蛋白質探索方法は、それを実現するための計算機プログラムを、パーソナルコンピュータやワークステーションなどの計算機に読み込ませ、そのプログラムを実行させることによっても実現できる。マーカー蛋白質探索を行うためのプログラムは、磁気テープやCD−ROMなどの記録媒体によって、あるいはネットワークを介して、計算機に読み込まれる。このような計算機は、一般に、CPU(中央処理装置)と、プログラムやデータを格納するための外部記憶装置と、主メモリと、キーボードやマウスなどの入力装置と、CRT(陰極線管)や液晶表示装置(LCD)などの表示装置あるいは出力装置と、磁気テープやCD−ROM等の記録媒体を読み取る読み取り装置と、ネットワークに接続するための通信インタフェースと、から構成されている。外部記憶装置としては、例えば、ハードディスク装置が用いられる。
この計算機では、マーカー蛋白質探索を実行するためのプログラムを格納した記録媒体を読み取り装置に装着し記録媒体からプログラムを読み出して外部記憶装置に格納し、外部記憶装置に格納されたプログラムをCPUが実行することにより、あるいは、ネットワークを介してプログラムを外部記憶装置にダウンロードし、外部記憶装置に格納されたプログラムをCPUが実行することにより、上述したマーカー蛋白質探索方法が実行される。
上述した各実施形態によれば、複数の蛋白質の発現量が臨床情報と関連する場合であっても、目標蛋白質としてのマーカー蛋白質の探索が可能になり、また、マーカー蛋白質かどうかを判断する閾値も合理的に決定できるようになる。また、質量分析器などによるアミノ酸配列決定により同定すべきマーカー蛋白質を効率的に決定することが可能になり、蛋白質同定に要する時間と労力を大幅に削減することができる。欠損値補完を行うことにより、群間で比較可能な蛋白質の網羅性が高まり、より多くの生物学的知見を得ることができる。
別の実施形態の蛋白質探索方法では、プロファイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割する段階をさらに設け、決定する段階において、訓練データでの蛋白質発現量と臨床情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、臨床情報と関連する蛋白質を目標蛋白質として決定し、評価する段階において、評価データとして検証データを用いるようにしてもよい。また、さらに別の実施形態では、蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する段階をさらに有していてもよい。
本発明のさらに別の目的は、確率勾配ブースティング法により、閾値を設定することなく、複数の蛋白質の発現量と臨床情報等の関連性を探索可能にし、かつ、蛋白質発現量の欠損値補完を行い、群間で比較可能な蛋白質の網羅性を高めることができる、蛋白質の探索方法を提供することにある。
本発明のまたさらに別の目的は、確率勾配ブースティング法により、閾値を設定することなく、複数の蛋白質の発現量と臨床情報等の関連性を探索可能にし、かつ、蛋白質発現量の欠損値補完を行い、群間で比較可能な蛋白質の網羅性を高めることができる、蛋白質の探索装置を提供することにある。
この出願は、2006年7月14日に出願された日本国特許出願:特願2006−194065を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以下、本発明を実施した一例の結果を説明する。
肝臓における肝癌の癌部のサンプルと非癌部のサンプルとに対して、蛍光標識2次元ディファレンスゲル電気泳動法により、プロテオーム解析を実施した。このプロテオーム解析の結果を用いて、第1の実施形態において説明した手順を用いて、蛋白質の探索を行った。その結果、欠損値補完を行なわない場合に解析可能な蛋白質数は101個であったが、20%の欠損値を補完した場合は、658個となり、6倍以上の数の蛋白質が解析可能となり、網羅性が飛躍的に向上した。また、確率勾配ブースティング法により、癌部と非癌部とを分類するのに有効なマーカー蛋白質を探索したところ、欠損値補完を行なわない場合は25個、20%の欠損値を補完した場合は42個を自動的に検出できた。
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解し得る様々な変更をすることができる。

Claims (19)

  1. プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法であって、
    前記プロファイリングデータでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定し、
    評価データにより前記目標蛋白質の性能を評価する、
    蛋白質探索方法。
  2. 前記プロファイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割することをさらに備え、
    前記情報と関連する蛋白質を前記目標蛋白質として決定する際に、前記訓練データでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を前記目標蛋白質として決定し、
    前記目標蛋白質の性能を評価する際に、前記評価データとして前記検証データを用いる、
    請求項1に記載の方法。
  3. 前記蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する段階をさらに有する、請求項1または2に記載の方法。
  4. 蛋白質発現量の欠損値をk−近傍法により補完する、請求項3に記載の方法。
  5. 前記重要度は、アンサンブル学習の下位学習機械の決定木あるいは回帰木による学習過程に生成される分岐変数と目的変数に対する改善度とを利用して計算される、請求項1乃至4のいずれか1項に記載の方法。
  6. 前記重要度は、ブースティング、バギング、勾配ブースティング法及び確率勾配ブースティング法のうちの1つを用いて計算される、請求項1乃至5のいずれか1項に記載の方法。
  7. 前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項1乃至6のいずれか1項に記載の方法。
  8. 前記臨床情報が離散値である場合に、前記教師あり学習における損失関数として対数関数を用いる、請求項7に記載の方法。
  9. 前記臨床情報が連続値である場合に、損失関数として、真の値と予測値との差の二乗または真の値と予測値の差の絶対値を用いる、請求項7に記載の方法。
  10. 前記臨床情報が生存時間の場合に、損失関数にCox比例ハザードモデルを利用する、請求項7に記載の方法。
  11. 前記プロテオーム解析は、質量分析法及び/または2次元電気泳動法によって行われる、請求項1乃至10のいずれか1項に記載の方法。
  12. プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、
    プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、
    前記蛋白質発現データ及び前記情報から教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、
    前記決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、
    前記決定された目標蛋白質の発現量と前記情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、
    前記予測モデルを記憶する予測モデル記憶手段と、
    前記予測モデルの性能を評価するためのデータを記憶する評価データ記憶手段と、
    前記評価データによって前記予測モデルを評価する予測モデル検証手段と、
    を有する蛋白質探索装置。
  13. プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、
    プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、
    前記蛋白質発現データを目標蛋白質探索に用いる訓練データと検証データとに分割するデータ分割手段と、
    前記訓練データを記憶する訓練データ記憶手段と、
    前記検証データを記憶する検証データ記憶手段と、
    前記訓練データ及び前記情報とから教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、
    前記決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、
    前記決定された目標蛋白質の発現量と前記情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、
    前記予測モデルを記憶する予測モデル記憶手段と、
    前記検証データによって前記予測モデルを評価する予測モデル検証手段と、
    を有する蛋白質探索装置。
  14. さらに、前記目標蛋白質の発現量の欠損値を他の蛋白質の発現量を用いて補完する欠損値補完手段をさらに有する、請求項12または13に記載の装置。
  15. 前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項12乃至14のいずれか1項に記載の装置。
  16. コンピュータが読み取り可能な記録媒体であって、
    プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記プロファイリングデータでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定する処理と、評価データにより前記目標蛋白質の性能を評価する処理と、を実行させるプログラムを格納した記録媒体。
  17. コンピュータが読み取り可能な記録媒体であって、
    プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、臨床情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記プロファイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割する処理と、前記訓練データでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定する処理と、前記検証データにより前記目標蛋白質の性能を評価する処理と、を実行させるプログラムを格納した記録媒体。
  18. 前記プログラムは、前記コンピュータに、前記蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する処理をさらに実行させるものである、請求項16または17に記載の記録媒体。
  19. 前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項16乃至18のいずれか1項に記載の記録媒体。
JP2008524780A 2006-07-14 2007-07-09 蛋白質探索方法及び装置 Pending JPWO2008007630A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006194065 2006-07-14
JP2006194065 2006-07-14
PCT/JP2007/063640 WO2008007630A1 (fr) 2006-07-14 2007-07-09 Méthode et appareil de recherche de protéine

Publications (1)

Publication Number Publication Date
JPWO2008007630A1 true JPWO2008007630A1 (ja) 2009-12-10

Family

ID=38923190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008524780A Pending JPWO2008007630A1 (ja) 2006-07-14 2007-07-09 蛋白質探索方法及び装置

Country Status (4)

Country Link
US (1) US20090319450A1 (ja)
JP (1) JPWO2008007630A1 (ja)
CN (1) CN101517579A (ja)
WO (1) WO2008007630A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110906A (zh) * 2019-04-19 2019-08-09 电子科技大学 一种基于Efron近似优化的生存风险建模方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298674B (zh) * 2010-06-25 2014-03-26 清华大学 基于蛋白质网络的药物靶标确定和/或药物功能确定方法
EP3471103A1 (en) * 2012-10-09 2019-04-17 Five3 Genomics, LLC Systems and methods for learning and identification of regulatory interactions in biological pathways
US9626654B2 (en) * 2015-06-30 2017-04-18 Linkedin Corporation Learning a ranking model using interactions of a user with a jobs list
CN107622801A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 疾病概率的检测方法和装置
JP7065422B2 (ja) * 2017-07-21 2022-05-12 パナソニックIpマネジメント株式会社 表示制御装置、表示制御方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000052802A (ko) * 1996-10-25 2000-08-25 모세 라르센 페터 생물학적 샘플내의 상승 조절 및 하강 조절된 단백질의 특성화를위한 프로테옴 분석
AU2002228000A1 (en) * 2000-12-07 2002-06-18 Europroteome Ag Expert system for classification and prediction of genetic diseases

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110906A (zh) * 2019-04-19 2019-08-09 电子科技大学 一种基于Efron近似优化的生存风险建模方法
CN110110906B (zh) * 2019-04-19 2023-04-07 电子科技大学 一种基于Efron近似优化的生存风险建模方法

Also Published As

Publication number Publication date
WO2008007630A1 (fr) 2008-01-17
CN101517579A (zh) 2009-08-26
US20090319450A1 (en) 2009-12-24

Similar Documents

Publication Publication Date Title
US11488688B2 (en) Methods and systems for detecting sequence variants
US20210280272A1 (en) Methods and systems for quantifying sequence alignment
Basith et al. iGHBP: computational identification of growth hormone binding proteins from sequences using extremely randomised tree
US20190272891A1 (en) Methods and systems for genotyping genetic samples
CN105849279B (zh) 用于识别疾病诱导的突变的方法和系统
JP5464503B2 (ja) 医療分析システム
Liang et al. Polygenic transcriptome risk scores (PTRS) can improve portability of polygenic risk scores across ancestries
Su et al. Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications
US20160110496A1 (en) Methods for Classifying Samples Based on Network Modularity
JP2016540275A (ja) 配列変異体を検出するための方法およびシステム
CN110326051B (zh) 用于识别生物样本中的表达区别要素的方法和分析系统
Bolón-Canedo et al. Challenges and future trends for microarray analysis
JPWO2008007630A1 (ja) 蛋白質探索方法及び装置
Ouyang et al. TRACE: transcription factor footprinting using chromatin accessibility data and DNA sequence
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
Mursalim et al. BiCaps-DBP: Predicting DNA-binding proteins from protein sequences using Bi-LSTM and a 1D-capsule network
JP2023530719A (ja) 表面提示ペプチドを予測するための機械学習技術
Nepomuceno-Chamorro et al. Prognostic transcriptional association networks: a new supervised approach based on regression trees
KR20210044400A (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
Rasche et al. ARH: predicting splice variants from genome-wide data with modified entropy
Vishwakarma et al. A weight function method for selection of proteins to predict an outcome using protein expression data
US20070271223A1 (en) Method and implementation of reliable consensus feature selection in biomedical discovery
Kumar et al. Bioinformatics in drug design and delivery
Berrar et al. Introduction to genomic and proteomic data analysis
JPWO2002048915A1 (ja) 遺伝子間の関連を検出する方法