JPWO2008007630A1

JPWO2008007630A1 - 蛋白質探索方法及び装置

Info

Publication number: JPWO2008007630A1
Application number: JP2008524780A
Authority: JP
Inventors: 礼仁寺本; 宏貴皆川; 上條　憲一; 憲一上條
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-07-14
Filing date: 2007-07-09
Publication date: 2009-12-10
Also published as: WO2008007630A1; CN101517579A; US20090319450A1

Abstract

プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法は、プロファイリングデータでの蛋白質発現量と情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、情報と関連する蛋白質を目標蛋白質として決定することと、評価データにより目標蛋白質の性能を評価することと、を有する。

Description

本発明は、臨床情報等の情報と直接あるいは間接的に関連する蛋白質を探索する方法及び装置に関する。

近年、質量分析法や２次元電気泳動法などを用いたプロテオーム解析と呼ばれる蛋白質の網羅的解析技術の向上により、蛋白質の機能解析や疾患診断に有用なマーカー蛋白質などの探索が活発に行われている。プロテオーム解析とは、一般には、生体組織などに由来したサンプルから、そのサンプル中に存在する多種類の蛋白質などを成分に分離し、分離した各成分をそれぞれを同定する解析のことを指す。

プロテオーム解析の具体的な手法の一例を挙げれば、サンプル調製後、２次元電気泳動を行って蛋白質を分離し、２次元電気泳動で得られたゲルを染色することによって可視化される各スポットを抜き出し、さらに酵素処理などを行って得た抽出物に対して質量分析（ＭＳ）を行うことにより、サンプル中にどのような蛋白質が含まれていたかを推定する、というものがある。可視化されたスポットは、それぞれ、分離された各蛋白質に相当するものである。プロテオーム解析の手法としては、ここで述べた２次元電気泳動と質量分析とを組み合わせた方法のほかに、適切な試料前処理を行った上で、２次元電気泳動と質量分析のいずれか一方のみを行う方法もある。さらには、他の蛋白質同定手法を用いる方法もある。

プロテオーム解析でよく用いられる２次元電気泳動の手法としては、２Ｄ−ＤＩＧＥ（蛍光標識２次元ディファレンスゲル電気泳動；２−ＤｉｍｅｎｓｉｏｎａｌＦｌｕｏｒｅｓｃｅｎｃｅＤｉｆｆｅｒｅｎｃｅＧｅｌＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓ）がある。２Ｄ−ＤＩＧＥは、蛋白質の発現、修飾情報のプロファイリングを行う技術であり、サンプル間の蛋白質の定量的な比較を行うのに適している。また、プロテオーム解析でよく用いられる質量分析の手法としては、ＳＥＬＤＩ（表面エンハンス型レーザー脱離イオン化；Ｓｕｒｆａｃｅ−ｅｎｈａｎｃｅｄｌａｓｅｒｄｅｓｏｒｐｔｉｏｎ／ｉｏｎｉｚａｔｉｏｎ）チップを用いる方法がある。ＳＥＬＤＩチップを用いる質量分析は、蛋白質のプロファイリングを行うのに適した技術であり、この手法を用いて、質量スペクトルからサンプル間の蛋白質の定量的な比較が行われている。

ところで、ヒトを含む動物において、疾患に罹患している個体から得られるサンプルと正常な個体から得られるサンプルでとでは、特定の蛋白質の発現量について有意の差がある場合があることが知られている。

そこで、疾患の診断に、個体から得られた蛋白質の定量を行うことが有効である。また、このような診断等を行うために、疾患ごとに、どのような蛋白質において正常な個体と罹患した個体との間で発現量の有意の差があるかを突き止めることが重要である。そのように正常な個体と罹患した個体との間で発現量に有意の差が生じうるものをマーカー蛋白質と呼ぶ。マーカー蛋白質の探索においては、病態や治療履歴などの臨床情報と蛋白質の発現量との関係を調べ、統計的な処理を行って、臨床情報に対して有意な関連性を示す蛋白質を探索することになる。

罹患した個体からのサンプルと正常な個体からのサンプルとの間の蛋白質の定量的な比較を行う方法の例として、ＪｏｈｎＭ．Ｌｕｋらによる方法がある［Ｂ１］（非特許文献１）。Ｌｕｋらの方法では、２次元電気泳動法によって得られた蛋白質発現量を、ＡＮＯＶＡ（分散分析；ａｎａｌｙｓｉｓｏｆｖａｒｉａｎｃｅ）やｔ検定で用いられる統計検定量を指標として、比較する。Ｌｕｋらは、この方法を用いて、統計検定量の上位３個の蛋白質のみに着目して、肝癌における癌部と非癌部の分類性能の評価と、既存のマーカー蛋白質や臨床情報との相関関係の評価を行っている。

本発明に隣接する技術のものであるが、特開２００３−３８３７７号公報［Ａ１］（特許文献１）には、ＲＮＡ（リボ核酸）干渉現象などを用いた遺伝子発現制御において用いられる機能性核酸配列を設計する方法が開示されている。この方法では、ｍＲＮＡ（メッセンジャーＲＮＡ）である標的遺伝子の配列からオリゴヌクレオチドを抽出してその配列を設計候補配列の入力データとし、既知の訓練配列と設計候補配列とからカーネル法により特徴抽出を行い、さらに教師あり学習を行うことによって、標的遺伝子に対して有効な機能性核酸配列を予測する。訓練配列は、遺伝子発現制御において既に有効とされているオリゴヌクレオチドの配列である。結局、特開２００３−３８３７７公報に開示のものは、既知の機能性核酸配列との比較によって設計候補配列から機能性核酸配列を予測するものであり、したがって、核酸配列をアミノ酸配列に置き換えたとしても、臨床情報などの情報に基づいてマーカー蛋白質を探索する目的では、使用することができない。

本発明に関連する技術として、ＷＯ２００２／０４７００７［Ａ２］（特許文献２）には、遺伝的疾患の分類及び予測のために、機械学習を用いることを開示している。

Ｏ．Ｔｒｏｙａｎｓｋａｙａらは、近傍法に基づく欠損値補完法を開示している［Ｂ２］（非特許文献２）。同様に特開２００４−１２６８５７号公報［Ａ３］は、遺伝子発現データにおける欠損値をｋ−最近傍法を用いて推定することを開示している。

機械学習における手法の一つである確率勾配ブースティング法は、勾配ブースティング法を発展させたものである。確率勾配ブースティング法については文献［Ｂ３］（非特許文献３）に、勾配ブースティング法については文献［Ｂ４］（非特許文献４）に記載されている。確率勾配ブースティング法、勾配ブースティング法は、いずれもアンサンブル学習の１つであるが、アンサンブル学習の代表的な方式としては、文献［Ｂ５］（非特許文献５）に記載されたブースティングと、文献［Ｂ６］（非特許文献６）に記載されたバギングが知られている。アンサンブル学習の下位学習機械としては、決定木・回帰木を用いる場合が多く、これらについては、文献［Ｂ７］（非特許文献７）に記載されている。

以下、本明細書中で引用した参考文献を列挙する。
［Ａ１］特開２００３−３８３７７号公報［Ａ２］ＷＯ２００２／０４７００７（特表２００４−５２４６０４号公報）［Ａ３］特開２００４−１２６８５７号公報［Ｂ１］ＪｏｈｎＭ．Ｌｕｋｅｔａｌ．： "ＰｒｏｔｅｏｍｉｃｐｒｏｆｉｌｉｎｇｏｆｈｅｐａｔｏｃｅｌｌｕｌａｒｃａｒｃｉｎｏｍａｉｎＣｈｉｎｅｓｅｃｏｈｏｒｔｒｅｖｅａｌｓｈｅａｔ−ｓｈｏｃｋｐｒｏｔｅｉｎｓ（Ｈｓｐ２７，Ｈｓｐ７０，ＧＲＰ７８）ｕｐ−ｒｅｇｕｌａｔｉｏｎａｎｄｔｈｅｉｒａｓｓｏｃｉａｔｅｄｐｒｏｇｎｏｓｔｉｃｖａｌｕｅｓ，" Ｐｒｏｔｅｏｍｉｃｓ，２００６，６，１０４９−１０５７［Ｂ２］Ｏ．Ｔｒｏｙａｎｓｋａｙａ，Ｍ．Ｃａｎｔｏｒ，Ｇ．Ｓｈｅｒｌｏｃｋ，Ｐ．Ｂｒｏｗｎ，Ｔ．Ｈａｓｔｉｅ，Ｒ．Ｔｉｂｓｈｉｒａｎｉ，Ｄ．Ｂｏｔｓｔｅｉｎ，ａｎｄＲ．Ｂ．Ａｌｔｍａｎ： "ＭｉｓｓｉｎｇｖａｌｕｅｅｓｔｉｍａｔｉｏｎｍｅｔｈｏｄｓｆｏｒＤＮＡｍｉｃｒｏａｒｒａｙｓ，" Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００１，１７，５２０−５２５［Ｂ３］Ｊ．Ｆｒｉｅｄｍａｎ： "Ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｂｏｏｓｔｉｎｇ，" ＣｏｍｐｕｔａｔｉｏｎａｌＳｔａｔｉｓｔｉｃｓａｎｄＤａｔａＡｎａｌｙｓｉｓ，２００２，３６７−３７８［Ｂ４］Ｊ．Ｆｒｉｅｄｍａｎ： "ＧｒｅｅｄｙＦｕｎｃｔｉｏｎＡｐｐｒｏｘｉｍａｔｉｏｎ：ＡＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＭａｃｈｉｎｅ，" ＴｈｅＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ，２００１，１１８９−１２３２［Ｂ５］Ｙ．Ｆｒｅｕｎｄ，Ｒ．Ｅ．Ｓｃｈａｐｉｒｅ： "Ａｄｅｃｉｓｉｏｎ−ｔｈｅｏｒｅｔｉｃｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｏｎ−ｌｉｎｅｌｅａｒｎｉｎｇａｎｄａｎａｐｐｌｉｃａｔｉｏｎｔｏｂｏｏｓｔｉｎｇ，" ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍＳｃｉｅｎｃｅｓ，１９９７，２３−２７［Ｂ６］ＬｅｏＢｒｅｉｍａｎ： "ＢａｇｇｉｎｇＰｒｅｄｉｃｔｏｒｓ，" ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，１９９６，１２３−１４０［Ｂ７］ＡｎｄｒｅａｓＢｕｊａａｎｄＹｕｎｇ−ＳｅｏｐＬｅｅ： "Ｄａｔａｍｉｎｉｎｇｃｒｉｔｅｒｉａｆｏｒｔｒｅｅ−ｂａｓｅｄｒｅｇｒｅｓｓｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ，" ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｅｖｅｎｔｈＡＣＭＳＩＧＫＤＤｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ，Ｐａｇｅｓ：２７−３６，２００１

Ｌｕｋらの方法［Ｂ１］のような、罹患した個体からのサンプルと正常な個体からのサンプルとの間の蛋白質の定量的な比較を行う方法では、マーカー蛋白質の探索という観点からは、以下に示すような解決すべき課題がある。

まず、群間での各蛋白質の発現量と臨床情報等との関連性を独立に検定して、臨床情報等との関連性の有無を判断しているため、検定統計量には閾値依存性が見られることになるが、その閾値の設定根拠の合理性は極めて乏しい。また、個々の蛋白質ごとに独立して統計的な検定を行うため、複数の蛋白質の発現量が臨床情報等と関連している場合には、有効ではない。一般に、病態や薬効のメカニズムには多数の生体分子が複雑に関与することが知られているため、上述した手法は、マーカー蛋白質の探索方法として適切とは言えない。

２次元電気泳動法を用いる場合には、実験において再現性の低下が不可避であることやノイズ混入があること、さらには、電気泳動イメージを画像として取り込んで処理する際の画像処理技術の限界により、各サンプル間における同一蛋白質に相当するスポットの対応関係を得ることは困難である。したがって、群間で比較可能な蛋白質の網羅性が著しく低下する可能性がある。その上、２次元電気泳動法により蛋白質を展開した段階に観測されるスポットや、質量分析法によって計測された質量スペクトルの段階に観測されるピークに相当する蛋白質が具体的に何であるかは、不明である。そのため、スポットやピークに相当するアミノ酸配列の同定を行って蛋白質の素性を明らかにする必要があるが、この作業には膨大な時間と労力を要する。

またプロテオーム解析により、蛋白質発現プロファイリングデータとして、１つのサンプルから多数の蛋白質についてのそれぞれの発現量のデータが得られるが、データの欠損も起こりうる。データの欠損とは、いくつかの蛋白質についてその蛋白質がサンプル中に実際には含まれているはずであるにもかかわらず、発現量のデータが得られないことをいう。このような欠損は、例えば、測定における分解能の不足や、画像処理上の限界、電気泳動イメージにおけるノイズやゴミの付着などの理由によって起こり得る。マーカー蛋白質探索における網羅性を向上するためには、このようなデータの欠損も考慮する必要があり、場合によっては、欠損値の補完を行う必要がある。

本発明の目的は、上述した問題点を鑑み、２次元電気泳動などによって得られた蛋白質の発現データなどの情報から、マーカー蛋白質など、生物学的に重要な蛋白質を目標蛋白質として探索することができる新しい解析手法を提供することにある。

本発明の別の目的は、上述した問題点を鑑み、２次元電気泳動などによって得られた蛋白質の発現データなどの情報から、マーカー蛋白質など、生物学的に重要な蛋白質を目標蛋白質として探索することができる新しい解析装置を提供することにある。

本発明の蛋白質探索方法は、プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法であって、プロファイリングデータでの蛋白質発現量と情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、情報と関連する蛋白質を目標蛋白質として決定し、評価データにより目標蛋白質の性能を評価する。

本発明の第１の蛋白質探索装置は、プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、蛋白質発現データ及び情報から教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、決定された目標蛋白質の発現量と情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、予測モデルを記憶する予測モデル記憶手段と、予測モデルの性能を評価するためのデータを記憶する評価データ記憶手段と、評価データによって予測モデルを評価する予測モデル検証手段と、を有する。

本発明の第２の蛋白質探索装置は、プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、蛋白質発現データを目標蛋白質探索に用いる訓練データと検証データとに分割するデータ分割手段と、訓練データを記憶する訓練データ記憶手段と、検証データを記憶する検証データ記憶手段と、訓練データ及び情報とから教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、決定された目標蛋白質の発現量と情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、予測モデルを記憶する予測モデル記憶手段と、検証データによって予測モデルを評価する予測モデル検証手段と、を有する。

本発明によれば、一例として、例えば臨床情報などの情報に対して複数の蛋白質の発現量が関連する場合であっても、マーカー蛋白質などの目標蛋白質の探索が可能になり、また、目標蛋白質かどうかを判断する閾値も合理的に決定できるようになる。

第１の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。図１に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチャートである。欠損値補完の処理手順の一例を示すフローチャートである。確率勾配ブースティング法の処理手順の一例を示すフローチャートである。第２の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。図５に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチャートである。第３の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。図７に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチャートである。

符号の説明

１入力装置
２データ処理装置
３記憶装置
４出力装置
２１欠損値補完部
２２データ分割部
２３マーカー蛋白質探索部
２４予測モデル学習部
２５検証部
３１データ記憶部
３２訓練データ記憶部
３３検証データ記憶部
３４パラメータ記憶部
３５マーカー蛋白質記憶部
３６予測モデル記憶部
３７評価データ記憶部

次に、本発明の実施形態を説明する。以下では、情報と直接あるいは間接的に関連する蛋白質である目標蛋白質として、臨床情報と直接あるいは間接的に関連するマーカー蛋白質を網羅的に探索する場合を例に挙げて説明する。ここでは、プロテオーム解析によって得られる蛋白質の発現量に対するアンサンブル学習を用いることによって、マーカー蛋白質を網羅的に探索する。

図１は、第１の実施形態のマーカー蛋白質探索装置の構成を示している。このマーカー蛋白質探索装置は、２次元電気泳動などによって得られた蛋白質の発現データから、生物学的に重要な蛋白質すなわちマーカー蛋白質として探索するものである。

図示されるマーカー蛋白質探索装置は、大別すると、キーボードやポインティングデバイスなどの入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、表示装置やプリンタなどの出力装置４と、から構成されている。

データ処理装置２は、欠損している蛋白質の発現量の値を補完する欠損値補完部２１と、全データを訓練データと検証データとに分割するデータ分割部２２と、訓練データからマーカー蛋白質を探索するマーカー蛋白質探索部２３と、マーカー蛋白質の発現量と臨床情報等とを用いて、予測モデルを学習する予測モデル学習部２４と、検証データによって予測モデルの分類性能を評価する検証部２５と、を備えている。ここで欠損値補完部２１は欠損値補完手段とも呼ばれ、データ分割部２２はデータ分割手段とも呼ばれ、マーカー蛋白質探索部２３は目標蛋白質探索手段とも呼ばれ、予測モデル学習部２４は予測モデル学習手段とも呼ばれ、検証部２５は予測モデル検証手段とも呼ばれる。

記憶装置３は、蛋白質発現量と臨床情報等とを格納するデータ記憶部３１と、データ分割部２２によって分割された訓練データを格納する訓練データ記憶部３２と、データ分割部２２によって分割された検証データを格納する検証データ記憶部３３と、マーカー蛋白質探索部２３でのマーカー蛋白質探索に用いる学習パラメータを格納するパラメータ記憶部３４と、探索されたマーカー蛋白質情報及び臨床情報を格納するマーカー蛋白質記憶部３５と、訓練データにおいてマーカー蛋白質と臨床情報とを用いて学習された予測モデルを格納する予測モデル記憶部３６と、を備えている。ここで、データ記憶部３１はデータ記憶手段とも呼ばれ、訓練データ記憶部３２は訓練データ記憶手段とも呼ばれ、検証データ記憶部３３は検証データ記憶手段とも呼ばれ、マーカー蛋白質記憶部３５は目標蛋白質記憶手段とも呼ばれ、予測モデル記憶部３６は予測モデル記憶部とも呼ばれる。

次に、図１に示したマーカー蛋白質探索装置を用いたマーカー蛋白質の探索について説明する。図２は、ここでのマーカー蛋白質の探索の処理手順の一例を示すフローチャートである。

マーカー蛋白質探索装置に対しては、入力装置１によって実行指示が与えられ、ステップＡ１において、入力装置１を介し、データ記憶部３１に蛋白質の発現量が入力される。入力された発現量は、データ記憶部３１に格納される。ここでの蛋白質の発現量は、例えば、プロテオーム解析によって取得された蛋白質発現プロファイリングデータから得られるものである。プロテオーム解析の手法としては、例えば、二次元電気泳動及び／または質量分析を用いる方法が利用できる。また、蛋白質の発現量の代わりに、あるいは蛋白質の発現量と併用して、蛋白質のリン酸化などの化学修飾や糖鎖修飾といった蛋白質の状態を反映した情報を用いることができる。蛋白質の発現量に対応する臨床情報も入力装置１及びデータ処理装置２を介して、データ記憶部３１に格納される。蛋白質の発現量は、プロテオーム解析によってあるサンプルを解析したときに得られるものであるが、蛋白質の発現量に対応する臨床情報は、そのサンプルを提供した個体に関する情報のことである。いわゆる臨床数値に関する情報や病態に関する情報、薬効に関する情報、サンプル採取後にその個体がどれだけ生存したかの生存時間に関する情報などを含めて臨床情報と呼んでいる。

次に、ステップＡ２において、欠損値補完部２１により、蛋白質発現量の欠損値補完が行われ、欠損値補完がなされた蛋白質発現量は、データ記憶部３１に記憶される。

ここで、図３を参照して、ｋ−近傍法による具体的な欠損値補完の方法について、説明する。

まず、ステップＢ１において、データ記憶部３１から、欠損値補完を行う前の蛋白質の発現量が欠損値補完部２１に入力される。欠損値補完部２１は、ステップＢ２において、あらかじめ定められた割合で、発現量が欠損しているＭ個の蛋白質を選択し、ステップＢ３において、欠損値補完に用いる蛋白質数Ｋを設定する。その後、ステップＢ４において、ｍ＝１としてｍを初期化し、ステップＢ５において、欠損していないサンプルにおける発現量を用いて、ユークリッド距離を計算し、近傍にある蛋白質Ｋ個を探索し、ステップＢ６において、距離に応じた重み付き平均により、欠損量を補完する。重み付き平均は、重みをｗ_ｉ、蛋白質発現量をｘ_ｉとすると、

により、求められる。その後、ステップＢ７において、ｍに１を加算し、ステップＢ８において、ｍがＭに達したかどうかを判断する。ここでｍ＜Ｍであれば、ステップＢ５に戻り、ｍ＝Ｍであれば、処理を終了する。その結果、ステップＢ４，Ｂ５に示す処理が、発現量が欠損しているＭ個の蛋白質の各々に対して行われることになる。

欠損値の補完が行われると、次に、データ分割部２２は、データ記憶部３１から、欠損値補完後の全サンプルの蛋白質発現データを受け取り、ステップＡ３において、マーカー蛋白質を探索し、これらの蛋白質発現データを、予測モデルを学習するのに用いる訓練データと、訓練データから学習した予測モデルの性能を評価するための検証データとに分割する。訓練データは訓練データ記憶部３２に格納され、検証データは検証データ記憶部３３に格納される。

次に、マーカー蛋白質探索部２３は、ステップＡ４において、訓練データ記憶部３２から訓練データの蛋白質発現量と対応する臨床情報を受け取り、パラメータ記憶部３４から確率勾配ブースティング法の学習に用いるパラメータを受け取り、下位学習機械を回帰木とした場合の確率ブースティング法のパラメータを設定する。そしてそのようにパラメータを設定した後、マーカー蛋白質探索部２３は、教師あり学習によって、各蛋白質のマーカー蛋白質の指標となる重要度を算出する。重要度の算出では、ステップＡ５において、蛋白質発現量を属性とし、臨床情報を教師あり学習における目的関数として、確率ブースティング法により学習を行う。確率ブースティング法の学習過程において、ステップＡ６に示すように、属性に対する重要度を算出する。そして、ステップＡ７において、重要度に基づいて、属性を選択する。その後、重要度が与えられた蛋白質の発現量は、臨床情報とともにマーカー蛋白質記憶部３５に記憶される。

以下、図４を参照して、確率勾配ブースティング法による重要度の算出方法について、具体的に説明する。

まず、ステップＣ１において、訓練データ記憶部３２からマーカー蛋白質探索部２３に、蛋白質の発現量と臨床情報との組の集合Ｄが入力される。組の数、すなわち注目している蛋白質について発現量を得たサンプルの数はＮである。

Ｄ＝｛（ｘ_１，ｙ_１），…，（ｘ_Ｎ，ｙ_Ｎ）｝（２）
ここで、ｘは蛋白質発現量、ｙは臨床情報である。臨床情報には、疾患や正常、病態の悪性度、生存時間などがある。次に、ステップＣ２において、臨床情報の種類に適した損失関数Ｌ、学習の反復回数Ｍ、リサンプリング数ｓ、縮小パラメータνを設定する。損失関数Ｌは、判別関数をＦ（ｘ）とすると、疾患や正常のようなクラスを識別するような分類問題では、
Ｌ＝ｌｏｇ（１＋ｅｘｐ（−２ｙＦ（ｘ）））（３）
を用いることができる。また、回帰問題においては、
Ｌ＝（ｙ−Ｆ（ｘ））^２（４）
あるいは
Ｌ＝｜ｙ−Ｆ（ｘ）｜（５）
を用いることができる。

すなわち、臨床情報が離散値である場合には、損失関数として例えば対数関数を用いることができ、臨床情報が連続値である場合には、損失関数として、例えば、真の値と予測値との差の二乗または真の値と予測値の差の絶対値を用いることができる。さらに、臨床情報が生存時間の場合には、損失関数として、Ｃｏｘ比例ハザードモデルを利用するようにしてもよい。

設定可能なリサンプリング数ｓと縮小パラメータνの大きさの範囲は、
１≪ｓ≦Ｎ（６），
０＜ν≦１（７）
である。ここで、リサンプリング数ｓと縮小パラメータνは、元のデータに対する過学習を回避するために導入している。

次に、ステップＣ３において、判別関数Ｆ_０、反復回数ｍを以下のように初期化する。

Ｆ_０＝０（８），
ｍ＝１（９）．
ステップＣ４において、下位学習機械である回帰木により、学習するデータ数ｎを以下のように初期化する。

ｎ＝１（１０）．
ステップＣ５において、損失関数Ｌの勾配を以下の式により計算する。

ステップＣ５に引き続くステップＣ６においてｎに１を加算し、ステップＣ７においてｎがＮに達したかどうかを判定して、ｎ＜ＮであればステップＣ５に戻ることにより、ステップＣ５における損失関数の勾配の算出の操作を、ｎがＮになるまで続ける。

ステップＣ７においてｎ＝Ｎとなったら、次に、ステップＳ８において、データのリサンプリングをｓ回行い、複製データ集合を生成し、ステップＣ９において、複製データと損失関数の勾配の組の集合Ｒを回帰木Ｔ_ｍにより学習する。

ステップＣ１０において、判別関数を次のように更新する。

Ｆ_ｍ（Ｔ_１（ｘ），…，Ｔ_ｍ（ｘ））＝Ｆ_ｍ−１（Ｔ_１（ｘ），…，Ｔ_ｍ−１（ｘ））＋νＴ_ｍ（ｘ）（１３）
ステップＣ１０の後、ステップＣ１１において、Ｍに１を加算し、ステップＣ１２において、ｍがＭに達したかどうかを判断して、ｍ＜ＭであればステップＣ４に戻ることにより、ステップＣ５からステップＣ１０までの操作を、ｍがＭになるまで続ける。

蛋白質ｐの重要度Ｖ_ｐは、上記の確率勾配ブースティング法の回帰木の学習過程において、以下の式で計算する。

ここで、Ｖ_ｐ（Ｔ_ｍ）はｍ番目の回帰木を学習する際の重要度であり、以下の式で定義される。

ここで、Ｊ_ｍはｍ番目の回帰木の非終端ノードの数、Ｉ［ｔ＝ｐ］はノードｔにおいて、分岐する蛋白質がｐのとき、１となる指示変数、δｔ^２はノードｔで分割する際の平均二乗誤差の改善量である。すなわち、学習過程の全ての回帰木で分岐変数にならなかった蛋白質は、その重要度が０になるため、臨床情報の変数に対して全く寄与しておらず、臨床情報等と関連性がないことを意味する。

本実施形態では、注目した蛋白質の重要度の算出法として、ここで説明した確率勾配ブースティング法だけでなく、他の方法、例えば、ブースティング、バギングなどのアンサンブル学習も用いることが可能である。ただし、データ数が少数の場合は、確率勾配ブースティング法を用いることが望ましい。

以上のようにして、マーカー蛋白質探索部２３において、訓練データから各蛋白質のマーカー蛋白質としての指標となる重要度が算出されたら、次に、ステップＡ８において、予測モデル学習部２４は、訓練データ記憶部３２から訓練データの蛋白質発現量と臨床情報とを受け取り、マーカー蛋白質記憶部３５から蛋白質の発現量を受け取って、サポートベクターマシンなどの教師あり学習、あるいはクラスタリングなどの教師なし学習により、予測モデルを学習する。学習後の予測モデルは、予測モデル記憶部３６に記憶される。

その後、ステップＡ９において、検証部２５が、予測モデル記憶部３６から予測モデルを受け取り、検証データ記憶部３３から検証データを受け取って、検証データの臨床情報に対して、予測を行う。予測結果は、出力装置４から出力される。

以上説明した第１の実施形態のマーカー蛋白質探索装置では、欠損している蛋白質の発現量を補完することによって、より多くの蛋白質の中から臨床情報と関連する蛋白質を探索できるため、これまで発見されていなかったマーカー蛋白質を発見できる可能性が高まる効果がある。

図５は、第２の実施形態のマーカー蛋白質探索装置の構成を示している。図５に示すマーカー蛋白質探索装置は、サンプルにおける蛋白質の発現量が全て測定できる場合、あるいは発現量を測定可能な蛋白質のみを解析対象とする場合に適合したものであり、図１に示した第１の実施形態のマーカー蛋白質探索装置と比較すると、欠損値補完部を備えていない点で相違する。図６は、図５に示した装置におけるマーカー蛋白質探索処理の一例を示すフローチャートであり、図２に示した第１の実施形態における処理と比べると、欠損値を補完する処理が設けられていない点のみで相違する。図５に示した装置は、発現量における欠損値の補完を行わない点以外は、図１に示した装置と同様にしてマーカー蛋白質の探索処理を実行する。

図７は、第３の実施形態のマーカー蛋白質探索装置の構成を示している。図７に示すマーカー蛋白質探索装置は、発現量プロファイルデータを訓練データと検証データとに分割することなく、全データを用いてマーカー蛋白質の探索を行い、別途準備された評価データによって、マーカー蛋白質による予測性能を評価するものである。図７に示す装置は、図５に示す装置と比較すると、データ分割部、訓練データ記憶部及び検証データ記憶部を備えず、その代わりに記憶装置３内に評価データ記憶部３７が設けられている。ここでは、目標蛋白質探索手段とも呼ばれるマーカー蛋白質探索部２３は、データ記憶部３１内に格納された蛋白質発現データ及び臨床情報から、教師あり学習を用いてマーカー蛋白質を決定する。評価データ記憶部３７は、評価データ記憶手段とも呼ばれるものであって、予測モデルの性能を評価するために用いられる評価データを記憶する。

図８は、図７に示した装置におけるマーカー蛋白質探索処理の一例を示すフローチャートである。入力装置１によって実行指示が与えられ、ステップＡ１において、入力装置１を介し、データ記憶部３１に蛋白質の発現量と対応する臨床情報とが入力され、データ記憶部３１に格納される。次に、マーカー蛋白質探索部２３は、ステップＡ４において、データ記憶部３１から訓練データの蛋白質発現量と対応する臨床情報を受け取り、パラメータ記憶部３４から確率勾配ブースティング法の学習に用いるパラメータを受け取り、下位学習機械を回帰木とした場合の確率ブースティング法のパラメータを設定する。そしてそのようにパラメータを設定した後、マーカー蛋白質探索部２３は、各蛋白質のマーカー蛋白質の指標となる重要度を算出する。重要度の算出では、ステップＡ５において、蛋白質発現量を属性とし、臨床情報を目的関数として、確率ブースティング法により学習を行う。確率ブースティング法の学習過程において、ステップＡ６に示すように、属性に対する重要度を算出する。

次に、マーカー蛋白質探索部２３は、ステップＡ７において、重要度に基づいて、属性を選択する。その後、重要度が与えられた蛋白質の発現量は、マーカー蛋白質記憶部３５に記憶される。その後、ステップＡ８において、予測モデル学習部２４は、データ記憶部３１から蛋白質発現量と臨床情報とを受け取り、マーカー蛋白質記憶部３５から蛋白質の発現量を受け取って、サポートベクターマシンなどの教師あり学習、あるいはクラスタリングなどの教師なし学習により、予測モデルを学習する。学習後の予測モデルは、予測モデル記憶部３６に記憶される。続いて、ステップＡ１０において、検証部２５が、予測モデル記憶部３６から予測モデルを受け取り、評価データ記憶部３７から評価データを受け取って、評価データの臨床情報に対して、予測を行う。予測結果は、出力装置４から出力される。

なお、第３の実施形態においても、第１の実施形態と同様に、欠損値補完部２１を設けて欠損値の補完を行う構成とすることも可能である。

上述した各実施形態のマーカー蛋白質探索方法は、それを実現するための計算機プログラムを、パーソナルコンピュータやワークステーションなどの計算機に読み込ませ、そのプログラムを実行させることによっても実現できる。マーカー蛋白質探索を行うためのプログラムは、磁気テープやＣＤ−ＲＯＭなどの記録媒体によって、あるいはネットワークを介して、計算機に読み込まれる。このような計算機は、一般に、ＣＰＵ（中央処理装置）と、プログラムやデータを格納するための外部記憶装置と、主メモリと、キーボードやマウスなどの入力装置と、ＣＲＴ（陰極線管）や液晶表示装置（ＬＣＤ）などの表示装置あるいは出力装置と、磁気テープやＣＤ−ＲＯＭ等の記録媒体を読み取る読み取り装置と、ネットワークに接続するための通信インタフェースと、から構成されている。外部記憶装置としては、例えば、ハードディスク装置が用いられる。

この計算機では、マーカー蛋白質探索を実行するためのプログラムを格納した記録媒体を読み取り装置に装着し記録媒体からプログラムを読み出して外部記憶装置に格納し、外部記憶装置に格納されたプログラムをＣＰＵが実行することにより、あるいは、ネットワークを介してプログラムを外部記憶装置にダウンロードし、外部記憶装置に格納されたプログラムをＣＰＵが実行することにより、上述したマーカー蛋白質探索方法が実行される。

上述した各実施形態によれば、複数の蛋白質の発現量が臨床情報と関連する場合であっても、目標蛋白質としてのマーカー蛋白質の探索が可能になり、また、マーカー蛋白質かどうかを判断する閾値も合理的に決定できるようになる。また、質量分析器などによるアミノ酸配列決定により同定すべきマーカー蛋白質を効率的に決定することが可能になり、蛋白質同定に要する時間と労力を大幅に削減することができる。欠損値補完を行うことにより、群間で比較可能な蛋白質の網羅性が高まり、より多くの生物学的知見を得ることができる。

別の実施形態の蛋白質探索方法では、プロファイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割する段階をさらに設け、決定する段階において、訓練データでの蛋白質発現量と臨床情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、臨床情報と関連する蛋白質を目標蛋白質として決定し、評価する段階において、評価データとして検証データを用いるようにしてもよい。また、さらに別の実施形態では、蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する段階をさらに有していてもよい。

本発明のさらに別の目的は、確率勾配ブースティング法により、閾値を設定することなく、複数の蛋白質の発現量と臨床情報等の関連性を探索可能にし、かつ、蛋白質発現量の欠損値補完を行い、群間で比較可能な蛋白質の網羅性を高めることができる、蛋白質の探索方法を提供することにある。

本発明のまたさらに別の目的は、確率勾配ブースティング法により、閾値を設定することなく、複数の蛋白質の発現量と臨床情報等の関連性を探索可能にし、かつ、蛋白質発現量の欠損値補完を行い、群間で比較可能な蛋白質の網羅性を高めることができる、蛋白質の探索装置を提供することにある。

この出願は、２００６年７月１４日に出願された日本国特許出願：特願２００６−１９４０６５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以下、本発明を実施した一例の結果を説明する。

肝臓における肝癌の癌部のサンプルと非癌部のサンプルとに対して、蛍光標識２次元ディファレンスゲル電気泳動法により、プロテオーム解析を実施した。このプロテオーム解析の結果を用いて、第１の実施形態において説明した手順を用いて、蛋白質の探索を行った。その結果、欠損値補完を行なわない場合に解析可能な蛋白質数は１０１個であったが、２０％の欠損値を補完した場合は、６５８個となり、６倍以上の数の蛋白質が解析可能となり、網羅性が飛躍的に向上した。また、確率勾配ブースティング法により、癌部と非癌部とを分類するのに有効なマーカー蛋白質を探索したところ、欠損値補完を行なわない場合は２５個、２０％の欠損値を補完した場合は４２個を自動的に検出できた。

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解し得る様々な変更をすることができる。

Claims

プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法であって、
前記プロファイリングデータでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定し、
評価データにより前記目標蛋白質の性能を評価する、
蛋白質探索方法。
前記プロファイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割することをさらに備え、
前記情報と関連する蛋白質を前記目標蛋白質として決定する際に、前記訓練データでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を前記目標蛋白質として決定し、
前記目標蛋白質の性能を評価する際に、前記評価データとして前記検証データを用いる、
請求項１に記載の方法。
前記蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する段階をさらに有する、請求項１または２に記載の方法。
蛋白質発現量の欠損値をｋ−近傍法により補完する、請求項３に記載の方法。
前記重要度は、アンサンブル学習の下位学習機械の決定木あるいは回帰木による学習過程に生成される分岐変数と目的変数に対する改善度とを利用して計算される、請求項１乃至４のいずれか１項に記載の方法。
前記重要度は、ブースティング、バギング、勾配ブースティング法及び確率勾配ブースティング法のうちの１つを用いて計算される、請求項１乃至５のいずれか１項に記載の方法。
前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項１乃至６のいずれか１項に記載の方法。
前記臨床情報が離散値である場合に、前記教師あり学習における損失関数として対数関数を用いる、請求項７に記載の方法。
前記臨床情報が連続値である場合に、損失関数として、真の値と予測値との差の二乗または真の値と予測値の差の絶対値を用いる、請求項７に記載の方法。
前記臨床情報が生存時間の場合に、損失関数にＣｏｘ比例ハザードモデルを利用する、請求項７に記載の方法。
前記プロテオーム解析は、質量分析法及び／または２次元電気泳動法によって行われる、請求項１乃至１０のいずれか１項に記載の方法。
プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、
プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、
前記蛋白質発現データ及び前記情報から教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、
前記決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、
前記決定された目標蛋白質の発現量と前記情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、
前記予測モデルを記憶する予測モデル記憶手段と、
前記予測モデルの性能を評価するためのデータを記憶する評価データ記憶手段と、
前記評価データによって前記予測モデルを評価する予測モデル検証手段と、
を有する蛋白質探索装置。
プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、
プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、
前記蛋白質発現データを目標蛋白質探索に用いる訓練データと検証データとに分割するデータ分割手段と、
前記訓練データを記憶する訓練データ記憶手段と、
前記検証データを記憶する検証データ記憶手段と、
前記訓練データ及び前記情報とから教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、
前記決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、
前記決定された目標蛋白質の発現量と前記情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、
前記予測モデルを記憶する予測モデル記憶手段と、
前記検証データによって前記予測モデルを評価する予測モデル検証手段と、
を有する蛋白質探索装置。
さらに、前記目標蛋白質の発現量の欠損値を他の蛋白質の発現量を用いて補完する欠損値補完手段をさらに有する、請求項１２または１３に記載の装置。
前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項１２乃至１４のいずれか１項に記載の装置。
コンピュータが読み取り可能な記録媒体であって、
プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記プロファイリングデータでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定する処理と、評価データにより前記目標蛋白質の性能を評価する処理と、を実行させるプログラムを格納した記録媒体。
コンピュータが読み取り可能な記録媒体であって、
プロテオーム解析によって取得された蛋白質発現プロファイリングデータに基づいて、臨床情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記プロファイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割する処理と、前記訓練データでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定する処理と、前記検証データにより前記目標蛋白質の性能を評価する処理と、を実行させるプログラムを格納した記録媒体。
前記プログラムは、前記コンピュータに、前記蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する処理をさらに実行させるものである、請求項１６または１７に記載の記録媒体。
前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項１６乃至１８のいずれか１項に記載の記録媒体。