WO2008007630A1

WO2008007630A1 - Méthode et appareil de recherche de protéine

Info

Publication number: WO2008007630A1
Application number: PCT/JP2007/063640
Authority: WO
Inventors: Reiji Teramoto; Hirotaka Minagawa; Kenichi Kamijo
Original assignee: Nec Corporation
Priority date: 2006-07-14
Filing date: 2007-07-09
Publication date: 2008-01-17
Also published as: CN101517579A; JPWO2008007630A1; US20090319450A1

Description

明細書

蛋白質探索方法及び装置

技術分野

[0001] 本発明は、臨床情報等の情報と直接あるいは間接的に関連する蛋白質を探索する方法及び装置に関する。

背景技術

[0002] 近年、質量分析法や 2次元電気泳動法などを用いたプロテオーム解析と呼ばれる蛋白質の網羅的解析技術の向上により、蛋白質の機能解析や疾患診断に有用なマ一力一蛋白質などの探索が活発に行われている。プロテオーム解析とは、一般には、生体組織などに由来したサンプルから、そのサンプル中に存在する多種類の蛋白質などを成分に分離し、分離した各成分をそれぞれを同定する解析のことを指す。

[0003] プロテオーム解析の具体的な手法の一例を挙げれば、サンプル調製後、 2次元電気泳動を行って蛋白質を分離し、 2次元電気泳動で得られたゲルを染色することによつて可視化される各スポットを抜き出し、さらに酵素処理などを行って得た抽出物に対して質量分析 (MS)を行うことにより、サンプル中にどのような蛋白質が含まれて!/ヽたかを推定する、というものがある。可視化されたスポットは、それぞれ、分離された各蛋白質に相当するものである。プロテオーム解析の手法としては、ここで述べた 2次元電気泳動と質量分析とを組み合わせた方法のほかに、適切な試料前処理を行つた上で、 2次元電気泳動と質量分析のいずれか一方のみを行う方法もある。さらには、他の蛋白質同定手法を用いる方法もある。

[0004] プロテオーム解析でよく用いられる 2次元電気泳動の手法としては、 2D— DIGE ( 蛍光標識 2次元ディファレンスゲル電気泳動； 2— Dimensional Fluorescence D ifference Gel Electrophoresis)がある。 2D— DIGEは、蛋白質の発現、修飾情報のプロフアイリングを行う技術であり、サンプル間の蛋白質の定量的な比較を行うのに適している。また、プロテオーム解析でよく用いられる質量分析の手法としては、 SELDI (表面ェンハンス型レーザー脱離イオン化； Surface— enhanced laser d esorption/ionization)チップを用いる方法がある。 SELDIチップを用いる質量分析は、蛋白質のプロフアイリングを行うのに適した技術であり、この手法を用いて、質量スペクトル力サンプル間の蛋白質の定量的な比較が行われて、る。

[0005] ところで、ヒトを含む動物にお!、て、疾患に罹患してヽる個体から得られるサンプルと正常な個体力得られるサンプルでとでは、特定の蛋白質の発現量について有意の差がある場合があることが知られて、る。

[0006] そこで、疾患の診断に、個体力得られた蛋白質の定量を行うことが有効である。また、このような診断等を行うために、疾患ごとに、どのような蛋白質において正常な個体と罹患した個体との間で発現量の有意の差があるかを突き止めることが重要である。そのように正常な個体と罹患した個体との間で発現量に有意の差が生じうるものをマーカー蛋白質と呼ぶ。マーカー蛋白質の探索においては、病態や治療履歴などの臨床情報と蛋白質の発現量との関係を調べ、統計的な処理を行って、臨床情報に対して有意な関連性を示す蛋白質を探索することになる。

[0007] 罹患した個体からのサンプルと正常な個体からのサンプルとの間の蛋白質の定量的な比較を行う方法の例として、 John M. Lukらによる方法がある [B1] (非特許文献 1)。 Lukらの方法では、 2次元電気泳動法によって得られた蛋白質発現量を、 ANOVA (分散分析； analysis of variance)や t検定で用いられる統計検定量を指標として、比較する。 Lukらは、この方法を用いて、統計検定量の上位 3個の蛋白質のみに着目して、肝癌における癌部と非癌部の分類性能の評価と、既存のマーカ一蛋白質や臨床情報との相関関係の評価を行っている。

[0008] 本発明に隣接する技術のものである力特開 2003— 38377号公報 [A1] (特許文献 1)には、 RNA (リボ核酸)干渉現象などを用いた遺伝子発現制御において用いられる機能性核酸配列を設計する方法が開示されている。この方法では、 mRNA (メッセンジャー RNA)である標的遺伝子の配列からオリゴヌクレオチドを抽出してその配列を設計候補配列の入力データとし、既知の訓練配列と設計候補配列とからカーネル法により特徴抽出を行い、さらに教師あり学習を行うことによって、標的遺伝子に対して有効な機能性核酸配列を予測する。訓練配列は、遺伝子発現制御において既に有効とされているオリゴヌクレオチドの配列である。結局、特開 2003— 38377公報に開示のものは、既知の機能性核酸配列との比較によって設計候補配列から機能性核酸配列を予測するものであり、したがって、核酸配列をアミノ酸配列に置き換えたとしても、臨床情報などの情報に基づいてマーカー蛋白質を探索する目的では、使用することができない。

[0009] 本発明に関連する技術として、 WO2002Z047007 [A2] (特許文献 2)には、遺伝的疾患の分類及び予測のために、機械学習を用いることを開示している。

[0010] O. Troyanskayaらは、近傍法に基づく欠損値補完法を開示している [B2] (非特許文献 2)。同様に特開 2004— 126857号公報 [A3]は、遺伝子発現データにおける欠損値を k—最近傍法を用いて推定することを開示して、る。

[0011] 機械学習における手法の一つである確率勾配ブースティング法は、勾配ブースティング法を発展させたものである。確率勾配ブースティング法については文献 [B3] (非特許文献 3)に、勾配ブースティング法については文献 [B4] (非特許文献 4)に記載されている。確率勾配ブースティング法、勾配ブースティング法は、いずれもアンサンブル学習の 1つである力アンサンブル学習の代表的な方式としては、文献 [B5] (非特許文献 5)に記載されたブースティングと、文献 [B6] (非特許文献 6)に記載されたパギングが知られている。アンサンブル学習の下位学習機械としては、決定木'回帰木を用いる場合が多ぐこれらについては、文献 [B7] (非特許文献 7)に記載されている。

[0012] 以下、本明細書中で引用した参考文献を列挙する。

特許文献 1 : [A1] 特開 2003— 38377号公報

特許文献 2 : [A2] WO2002Z〇47007 (特表 2004— 524604号公報）特許文献 3 : [A3] 特開 2004— 126857号公報

非特許文献 1 : [B1] John M. Luk et al. ： "Proteomic profiling of he patocellular carcinoma in Cnmese cohort reveals heat— shock prote ins (Hsp27, Hsp70, GRP78) up— regulation and their associated prognostic values, " Proteomics, 2006, 6, 1049— 1057

非特許文献 2 : [B2] O. Troyanskaya, M. Cantor, G. Sherlock, P.

Brown, T. Hastie, R. Tib shir ani, D. Botstein, and R. B. Al tman: "Missing value estimation methods for DNA microarrays, Bioinformatics, 2001, 17, 520— 525

非特言午文献 3 : [B3] J. Friedman： "Stochastic gradient boosting, Co mputational Statistics and Data Analysis, 2002, 367— 378 非特許文献 4: [B4] J. Friedman: "Greedy Function Approximation： A Gradient Boosting Machine,，， The Annals of Statistics, 2001, 1189- 1232

非特許文献 5 : [B5] Y. Freund, R. E. Schapire : "A decision— theor etic generalization of on— line learning and an application to boost ing,，， Journal of Computer and System Sciences, 1997, 23— 27 非特言午文献 6 : [B6] Leo Breiman： "Bagging Predictors,，， Machine Lea rning, 1996, 123— 140

非特許文献 7 : [B7] Andreas Buja and Yung— Seop Lee : "Data minin g criteria for tree— based regression and classification, Proceeding s of the seventh ACM SIGKDD international conference on Know ledge discovery and data mining, Pages： 27— 36， 2001

発明の開示

発明が解決しょうとする課題

[0013] Lukらの方法 [B1]のような、罹患した個体からのサンプルと正常な個体からのサンプルとの間の蛋白質の定量的な比較を行う方法では、マーカー蛋白質の探索という観点からは、以下に示すような解決すべき課題がある。

[0014] まず、群間での各蛋白質の発現量と臨床情報等との関連性を独立に検定して、臨床情報等との関連性の有無を判断しているため、検定統計量には閾値依存性が見られることになるが、その閾値の設定根拠の合理性は極めて乏しい。また、個々の蛋白質ごとに独立して統計的な検定を行うため、複数の蛋白質の発現量が臨床情報等と関連している場合には、有効ではない。一般に、病態や薬効のメカニズムには多数の生体分子が複雑に関与することが知られているため、上述した手法は、マーカー蛋白質の探索方法として適切とは言えない。

[0015] 2次元電気泳動法を用いる場合には、実験において再現性の低下が不可避であることやノイズ混入があること、さら〖こは、電気泳動イメージを画像として取り込んで処理する際の画像処理技術の限界により、各サンプル間における同一蛋白質に相当するスポットの対応関係を得ることは困難である。したがって、群間で比較可能な蛋白質の網羅性が著しく低下する可能性がある。その上、 2次元電気泳動法により蛋白質を展開した段階に観測されるスポットや、質量分析法によって計測された質量スぺタトルの段階に観測されるピークに相当する蛋白質が具体的に何であるかは、不明である。そのため、スポットやピークに相当するアミノ酸配列の同定を行って蛋白質の素性を明らかにする必要があるが、この作業には膨大な時間と労力を要する。

[0016] またプロテオーム解析により、蛋白質発現プロフアイリングデータとして、 1つのサンプルから多数の蛋白質についてのそれぞれの発現量のデータが得られる力データの欠損も起こりうる。データの欠損とは、いくつかの蛋白質についてその蛋白質がサンプル中に実際には含まれているはずであるにもかかわらず、発現量のデータが得られないことをいう。このような欠損は、例えば、測定における分解能の不足や、画像処理上の限界、電気泳動イメージにおけるノイズやゴミの付着などの理由によって起こり得る。マーカー蛋白質探索における網羅性を向上するためには、このようなデータの欠損も考慮する必要があり、場合によっては、欠損値の補完を行う必要がある。

[0017] 本発明の目的は、上述した問題点を鑑み、 2次元電気泳動などによって得られた蛋白質の発現データなどの情報から、マーカー蛋白質など、生物学的に重要な蛋白質を目標蛋白質として探索することができる新し、解析手法を提供することにある。

[0018] 本発明の別の目的は、上述した問題点を鑑み、 2次元電気泳動などによって得られた蛋白質の発現データなどの情報から、マーカー蛋白質など、生物学的に重要な蛋白質を目標蛋白質として探索することができる新、解析装置を提供することにある。

課題を解決するための手段

[0019] 本発明の蛋白質探索方法は、プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法であって、プロフアイリングデータでの蛋白質発現量と情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、情報と関連する蛋白質を目標蛋白質として決定し、評価データにより目標蛋白質の性能を評価する。

[0020] 本発明の第 1の蛋白質探索装置は、プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づ!/、て、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、蛋白質発現データ及び情報から教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、決定された目標蛋白質の発現量と情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、予測モデルを記憶する予測モデル記憶手段と、予測モデルの性能を評価するためのデータを記憶する評価データ記憶手段と、評価データによって予測モデルを評価する予測モデル検証手段と、を有する。

[0021] 本発明の第 2の蛋白質探索装置は、プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づ!/、て、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、蛋白質発現データを目標蛋白質探索に用いる訓練データと検証データとに分割するデータ分割手段と、訓練データを記憶する訓練データ記憶手段と、検証データを記憶する検証データ記憶手段と、訓練データ及び情報とから教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、決定された目標蛋白質の発現量と情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、予測モデルを記憶する予測モデル記憶手段と、検証データによって予測モデルを評価する予測モデル検証手段と、を有する。

[0022] 本発明によれば、一例として、例えば臨床情報などの情報に対して複数の蛋白質の発現量が関連する場合であっても、マーカー蛋白質などの目標蛋白質の探索が可能になり、また、目標蛋白質力どうかを判断する閾値も合理的に決定できるようになる。

図面の簡単な説明 [図 1]第 1の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。

[図 2]図 1に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチヤートである。

[図 3]欠損値補完の処理手順の一例を示すフローチャートである。

[図 4]確率勾配ブースティング法の処理手順の一例を示すフローチャートである。

[図 5]第 2の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。

[図 6]図 5に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチヤートである。

[図 7]第 3の実施形態のマーカー蛋白質探索装置の構成を示すブロック図である。

[図 8]図 7に示したマーカー蛋白質探索装置での処理手順の一例を示すフローチヤートである。

符号の説明

1 入力装置

2 データ処理装置

3 記憶装置

4 出力装置

21 欠損値補完部

22 データ分割部

23 マーカー蛋白質探索部

24 予測モデル学習部

25 検証部

31 データ記憶部

32 訓練データ記憶部

33 検証データ記憶部

34 パラメータ記憶部

35 マーカー蛋白質記憶部

36 予測モデル記憶部

37 評価データ記憶部発明を実施するための最良の形態

[0025] 次に、本発明の実施形態を説明する。以下では、情報と直接あるいは間接的に関連する蛋白質である目標蛋白質として、臨床情報と直接あるいは間接的に関連するマーカー蛋白質を網羅的に探索する場合を例に挙げて説明する。ここでは、プロテオーム解析によって得られる蛋白質の発現量に対するアンサンブル学習を用いることによって、マーカー蛋白質を網羅的に探索する。

[0026] 図 1は、第 1の実施形態のマーカー蛋白質探索装置の構成を示している。このマーカー蛋白質探索装置は、 2次元電気泳動などによって得られた蛋白質の発現データから、生物学的に重要な蛋白質すなわちマーカー蛋白質として探索するものである。

[0027] 図示されるマーカー蛋白質探索装置は、大別すると、キーボードやポインティングデバイスなどの入力装置 1と、プログラム制御により動作するデータ処理装置 2と、情報を記憶する記憶装置 3と、表示装置やプリンタなどの出力装置 4と、から構成されている。

[0028] データ処理装置 2は、欠損している蛋白質の発現量の値を補完する欠損値補完部 21と、全データを訓練データと検証データとに分割するデータ分割部 22と、訓練データからマーカー蛋白質を探索するマーカー蛋白質探索部 23と、マーカー蛋白質の発現量と臨床情報等とを用いて、予測モデルを学習する予測モデル学習部 24と、検証データによって予測モデルの分類性能を評価する検証部 25と、を備えて!/、る。ここで欠損値補完部 21は欠損値補完手段とも呼ばれ、データ分割部 22はデータ分割手段とも呼ばれ、マーカー蛋白質探索部 23は目標蛋白質探索手段とも呼ばれ、予測モデル学習部 24は予測モデル学習手段とも呼ばれ、検証部 25は予測モデル検証手段とも呼ばれる。

[0029] 記憶装置 3は、蛋白質発現量と臨床情報等とを格納するデータ記憶部 31と、データ分割部 22によって分割された訓練データを格納する訓練データ記憶部 32と、データ分割部 22によって分割された検証データを格納する検証データ記憶部 33と、マ一力一蛋白質探索部 23でのマーカー蛋白質探索に用いる学習パラメータを格納するパラメータ記憶部 34と、探索されたマーカー蛋白質情報及び臨床情報を格納するマーカー蛋白質記憶部 35と、訓練データにおいてマーカー蛋白質と臨床情報とを用いて学習された予測モデルを格納する予測モデル記憶部 36と、を備えている。ここで、データ記憶部 31はデータ記憶手段とも呼ばれ、訓練データ記憶部 32は訓練データ記憶手段とも呼ばれ、検証データ記憶部 33は検証データ記憶手段とも呼ばれ、マーカー蛋白質記憶部 35は目標蛋白質記憶手段とも呼ばれ、予測モデル記憶部 36は予測モデル記憶部とも呼ばれる。

[0030] 次に、図 1に示したマーカー蛋白質探索装置を用いたマーカー蛋白質の探索について説明する。図 2は、ここでのマーカー蛋白質の探索の処理手順の一例を示すフローチャートである。

[0031] マーカー蛋白質探索装置に対しては、入力装置 1によって実行指示が与えられ、ステツプ A1において、入力装置 1を介し、データ記憶部 31に蛋白質の発現量が入力される。入力された発現量は、データ記憶部 31に格納される。ここでの蛋白質の発現量は、例えば、プロテオーム解析によって取得された蛋白質発現プロフアイリングデータ力も得られるものである。プロテオーム解析の手法としては、例えば、二次元電気泳動及び Zまたは質量分析を用いる方法が利用できる。また、蛋白質の発現量の代わりに、あるいは蛋白質の発現量と併用して、蛋白質のリン酸ィ匕などの化学修飾や糖鎖修飾といった蛋白質の状態を反映した情報を用いることができる。蛋白質の発現量に対応する臨床情報も入力装置 1及びデータ処理装置 2を介して、データ記憶部 31に格納される。蛋白質の発現量は、プロテオーム解析によってあるサンプルを解析したときに得られるものであるが、蛋白質の発現量に対応する臨床情報は、そのサンプルを提供した個体に関する情報のことである。いわゆる臨床数値に関する情報や病態に関する情報、薬効に関する情報、サンプル採取後にその個体がどれだけ生存したかの生存時間に関する情報などを含めて臨床情報と呼んでいる。

[0032] 次に、ステップ A2において、欠損値補完部 21により、蛋白質発現量の欠損値補完が行われ、欠損値補完がなされた蛋白質発現量は、データ記憶部 31に記憶される。

[0033] ここで、図 3を参照して、 k 近傍法による具体的な欠損値補完の方法について、説明する。

[0034] まず、ステップ B1において、データ記憶部 31から、欠損値補完を行う前の蛋白質の発現量が欠損値補完部 21に入力される。欠損値補完部 21は、ステップ B2において、あら力じめ定められた割合で、発現量が欠損している M個の蛋白質を選択し、ステツプ B3において、欠損値補完に用いる蛋白質数 Kを設定する。その後、ステップ B 4において、 m= lとして mを初期化し、ステップ B5において、欠損していないサンプルにおける発現量を用いて、ユークリッド距離を計算し、近傍にある蛋白質 K個を探索し、ステップ B6において、距離に応じた重み付き平均により、欠損量を補完する。重み付き平均は、重みを、蛋白質発現量を Xとすると、

[0035] [数 1]

κ ）

!=1 により、求められる。その後、ステップ B7において、 mに 1をカ卩算し、ステップ B8において、 mが Mに達したかどうかを判断する。ここで m< Mであれば、ステップ B5に戻り、 m=Mであれば、処理を終了する。その結果、ステップ B4, B5に示す処理が、発現量が欠損している M個の蛋白質の各々に対して行われることになる。

[0036] 欠損値の補完が行われると、次に、データ分割部 22は、データ記憶部 31から、欠損値補完後の全サンプルの蛋白質発現データを受け取り、ステップ A3において、マ一力一蛋白質を探索し、これらの蛋白質発現データを、予測モデルを学習するのに用いる訓練データと、訓練データ力も学習した予測モデルの性能を評価するための検証データとに分割する。訓練データは訓練データ記憶部 32に格納され、検証データは検証データ記憶部 33に格納される。

[0037] 次に、マーカー蛋白質探索部 23は、ステップ A4において、訓練データ記憶部 32 力訓練データの蛋白質発現量と対応する臨床情報を受け取り、パラメータ記憶部 3 4力も確率勾配ブースティング法の学習に用いるパラメータを受け取り、下位学習機械を回帰木とした場合の確率ブースティング法のパラメータを設定する。そしてそのようにパラメータを設定した後、マーカー蛋白質探索部 23は、教師あり学習によって、各蛋白質のマーカー蛋白質の指標となる重要度を算出する。重要度の算出では、ステップ A5において、蛋白質発現量を属性とし、臨床情報を教師あり学習における目的関数として、確率ブースティング法により学習を行う。確率ブースティング法の学習過程において、ステップ A6に示すように、属性に対する重要度を算出する。そして、ステップ A7において、重要度に基づいて、属性を選択する。その後、重要度が与えられた蛋白質の発現量は、臨床情報とともにマーカー蛋白質記憶部 35に記憶される。

[0038] 以下、図 4を参照して、確率勾配ブースティング法による重要度の算出方法について、具体的に説明する。

[0039] まず、ステップ C1において、訓練データ記憶部 32からマーカー蛋白質探索部 23 に、蛋白質の発現量と臨床情報との組の集合 Dが入力される。組の数、すなわち注目している蛋白質について発現量を得たサンプルの数は Nである。

[0040] D= { (x , y ) , · ··, (x , y ) } (2)

1 1 Ν Ν

ここで、 χは蛋白質発現量、 yは臨床情報である。臨床情報には、疾患や正常、病態の悪性度、生存時間などがある。次に、ステップ C2において、臨床情報の種類に適した損失関数 L、学習の反復回数 M、リサンプリング数 s、縮小パラメータ Vを設定する。損失関数 Lは、判別関数を F (x)とすると、疾患や正常のようなクラスを識別するような分類問題では、

L = log (l + exp (- 2yF (x) ) ) (3)

を用いることができる。また、回帰問題においては、

L= (y-F (x) ) ² (4)

あるいは

L= I y-F (x) I (5)

を用いることができる。

[0041] すなわち、臨床情報が離散値である場合には、損失関数として例えば対数関数を用いることができ、臨床情報が連続値である場合には、損失関数として、例えば、真の値と予測値との差の二乗または真の値と予測値の差の絶対値を用いることができる。さらに、臨床情報が生存時間の場合には、損失関数として、 Cox比例ハザードモデルを利用するようにしてもょ、。

[0042] 設定可能なリサンプリング数 sと縮小パラメータ Vの大きさの範囲は、 Ks≤N (6),

0< v≤1 (7)

である。ここで、リサンプリング数 Sと縮小パラメータ Vは、元のデータに対する過学習を回避するために導入してヽる。

[0043] 次に、ステップ C3において、判別関数 F、反復回数 mを以下のように初期化する。

0

[0044] F =0 (8),

ステップ C4において、下位学習機械である回帰木により、学習するデータ数 nを以下のように初期化する。

[0045] n=l (10).

ステップ C5において、損失関数 Lの勾配を以下の式により計算する。

[0046] [数 2]

ステップ C5に引き続くステップ C6にお!/、て nに 1を加算し、ステップ C7にお!/、て n が Nに達したかどうかを判定して、 n<Nであればステップ C5に戻ることにより、ステツプ C5における損失関数の勾配の算出の操作を、 nが Nになるまで続ける。

[0047] ステップ C7において n=Nとなったら、次に、ステップ S8において、データのリサンプリングを s回行い、複製データ集合を生成し、ステップ C9において、複製データと損失関数の勾配の組の集合 Rを回帰木 T により学習する。

[0048] [数 3]

= {( ， ),···,（， )} (12) ステップ C10において、判別関数を次のように更新する。

[0049] F (T (x), ···, T (x))=F (T (χ), ···, Τ (χ)) + νΤ (χ) (13) m l m m— 1 1 m— 1 m

ステップ CIOの後、ステップ CI 1において、 Mに 1をカ卩算し、ステップ C12において、 mが Mに達したかどうかを判断して、 m<Mであればステップ C4に戻ることにより、ステップ C5からステップ C 10までの操作を、 mが Mになるまで続ける。 [0050] 蛋白質 pの重要度 Vは、上記の確率勾配ブースティング法の回帰木の学習過程に

P

おいて、以下の式で計算する。

[0051] 画

ここで、 V (T )は111番目の回帰木を学習する際の重要度であり、以下の式で定義 p m

される。

[0052] [数 5]

ここで、 J は m番目の回帰木の非終端ノードの数、 I [t=p]はノード tにおいて、分岐する蛋白質力 ¾のとき、 1となる指示変数、 δ t²はノード tで分割する際の平均二乗誤差の改善量である。すなわち、学習過程の全ての回帰木で分岐変数にならなかつた蛋白質は、その重要度が 0になるため、臨床情報の変数に対して全く寄与しておらず、臨床情報等と関連性がないことを意味する。

[0053] 本実施形態では、注目した蛋白質の重要度の算出法として、ここで説明した確率勾配ブースティング法だけでなぐ他の方法、例えば、ブースティング、パギングなどのアンサンブル学習も用いることが可能である。ただし、データ数が少数の場合は、確率勾配ブースティング法を用いることが望ま、。

[0054] 以上のようにして、マーカー蛋白質探索部 23において、訓練データ力も各蛋白質のマーカー蛋白質としての指標となる重要度が算出されたら、次に、ステップ A8において、予測モデル学習部 24は、訓練データ記憶部 32から訓練データの蛋白質発現量と臨床情報とを受け取り、マーカー蛋白質記憶部 35から蛋白質の発現量を受け取つて、サポートベクターマシンなどの教師あり学習、あるいはクラスタリングなどの教師なし学習により、予測モデルを学習する。学習後の予測モデルは、予測モデル記憶部 36に記憶される。

[0055] その後、ステップ A9にお、て、検証部 25が、予測モデル記憶部 36から予測モデルを受け取り、検証データ記憶部 33から検証データを受け取って、検証データの臨床情報に対して、予測を行う。予測結果は、出力装置 4から出力される。

[0056] 以上説明した第 1の実施形態のマーカー蛋白質探索装置では、欠損している蛋白質の発現量を補完することによって、より多くの蛋白質の中から臨床情報と関連する蛋白質を探索できるため、これまで発見されていなかったマーカー蛋白質を発見できる可能性が高まる効果がある。

[0057] 図 5は、第 2の実施形態のマーカー蛋白質探索装置の構成を示している。図 5に示すマーカー蛋白質探索装置は、サンプルにおける蛋白質の発現量が全て測定できる場合、あるいは発現量を測定可能な蛋白質のみを解析対象とする場合に適合したものであり、図 1に示した第 1の実施形態のマーカー蛋白質探索装置と比較すると、欠損値補完部を備えていない点で相違する。図 6は、図 5に示した装置におけるマーカー蛋白質探索処理の一例を示すフローチャートであり、図 2に示した第 1の実施形態における処理と比べると、欠損値を補完する処理が設けられて、な、点のみで相違する。図 5に示した装置は、発現量における欠損値の補完を行わない点以外は、図 1に示した装置と同様にしてマーカー蛋白質の探索処理を実行する。

[0058] 図 7は、第 3の実施形態のマーカー蛋白質探索装置の構成を示している。図 7に示すマーカー蛋白質探索装置は、発現量プロファイルデータを訓練データと検証データとに分割することなぐ全データを用いてマーカー蛋白質の探索を行い、別途準備された評価データによって、マーカー蛋白質による予測性能を評価するものである。図 7に示す装置は、図 5に示す装置と比較すると、データ分割部、訓練データ記憶部及び検証データ記憶部を備えず、その代わりに記憶装置 3内に評価データ記憶部 3 7が設けられている。ここでは、目標蛋白質探索手段とも呼ばれるマーカー蛋白質探索部 23は、データ記憶部 31内に格納された蛋白質発現データ及び臨床情報から、教師あり学習を用いてマーカー蛋白質を決定する。評価データ記憶部 37は、評価データ記憶手段とも呼ばれるものであって、予測モデルの性能を評価するために用 Vヽられる評価データを記憶する。

[0059] 図 8は、図 7に示した装置におけるマーカー蛋白質探索処理の一例を示すフローチャートである。入力装置 1によって実行指示が与えられ、ステップ A1において、入力装置 1を介し、データ記憶部 31に蛋白質の発現量と対応する臨床情報とが入力され、データ記憶部 31に格納される。次に、マーカー蛋白質探索部 23は、ステップ A4 において、データ記憶部 31から訓練データの蛋白質発現量と対応する臨床情報を受け取り、パラメータ記憶部 34から確率勾配ブースティング法の学習に用いるパラメータを受け取り、下位学習機械を回帰木とした場合の確率ブースティング法のパラメータを設定する。そしてそのようにパラメータを設定した後、マーカー蛋白質探索部 2 3は、各蛋白質のマーカー蛋白質の指標となる重要度を算出する。重要度の算出では、ステップ A5にお、て、蛋白質発現量を属性とし、臨床情報を目的関数として、確率ブースティング法により学習を行う。確率ブースティング法の学習過程において、ステツプ A6に示すように、属性に対する重要度を算出する。

[0060] 次に、マーカー蛋白質探索部 23は、ステップ A7において、重要度に基づいて、属性を選択する。その後、重要度が与えられた蛋白質の発現量は、マーカー蛋白質記憶部 35に記憶される。その後、ステップ A8において、予測モデル学習部 24は、データ記憶部 31から蛋白質発現量と臨床情報とを受け取り、マーカー蛋白質記憶部 3 5から蛋白質の発現量を受け取って、サポートベクターマシンなどの教師あり学習、あるいはクラスタリングなどの教師なし学習により、予測モデルを学習する。学習後の予測モデルは、予測モデル記憶部 36に記憶される。続いて、ステップ A10において、検証部 25が、予測モデル記憶部 36から予測モデルを受け取り、評価データ記憶部 37から評価データを受け取って、評価データの臨床情報に対して、予測を行う。予測結果は、出力装置 4から出力される。

[0061] なお、第 3の実施形態においても、第 1の実施形態と同様に、欠損値補完部 21を設けて欠損値の補完を行う構成とすることも可能である。

[0062] 上述した各実施形態のマーカー蛋白質探索方法は、それを実現するための計算機プログラムを、パーソナルコンピュータやワークステーションなどの計算機に読み込ませ、そのプログラムを実行させることによつても実現できる。マーカー蛋白質探索を行うためのプログラムは、磁気テープや CD—ROMなどの記録媒体によって、あるいはネットワークを介して、計算機に読み込まれる。このような計算機は、一般に、 CPU (中央処理装置）と、プログラムやデータを格納するための外部記憶装置と、主メモリと、キーボードやマウスなどの入力装置と、 CRT (陰極線管)や液晶表示装置 (LCD) などの表示装置あるいは出力装置と、磁気テープや CD— ROM等の記録媒体を読み取る読み取り装置と、ネットワークに接続するための通信インタフェースと、力構成されている。外部記憶装置としては、例えば、ハードディスク装置が用いられる。

[0063] この計算機では、マーカー蛋白質探索を実行するためのプログラムを格納した記録媒体を読み取り装置に装着し記録媒体力プログラムを読み出して外部記憶装置に格納し、外部記憶装置に格納されたプログラムを CPUが実行することにより、あるいは、ネットワークを介してプログラムを外部記憶装置にダウンロードし、外部記憶装置に格納されたプログラムを CPUが実行することにより、上述したマーカー蛋白質探索方法が実行される。

[0064] 上述した各実施形態によれば、複数の蛋白質の発現量が臨床情報と関連する場合であっても、目標蛋白質としてのマーカー蛋白質の探索が可能になり、また、マーカー蛋白質かどうかを判断する閾値も合理的に決定できるようになる。また、質量分析器などによるアミノ酸配列決定により同定すべきマーカー蛋白質を効率的に決定することが可能になり、蛋白質同定に要する時間と労力を大幅に削減することができる。欠損値補完を行うことにより、群間で比較可能な蛋白質の網羅性が高まり、より多くの生物学的知見を得ることができる。

[0065] 別の実施形態の蛋白質探索方法では、プロフアイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割する段階をさらに設け、決定する段階において、訓練データでの蛋白質発現量と臨床情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、臨床情報と関連する蛋白質を目標蛋白質として決定し、評価する段階において、評価データとして検証データを用いるようにしてもよい。また、さらに別の実施形態では、蛋白質発現量の欠損値を他の蛋白質の発現量を用 V、て補完する段階をさらに有して、てもよ!/、。

[0066] 本発明のさらに別の目的は、確率勾配ブースティング法により、閾値を設定することなぐ複数の蛋白質の発現量と臨床情報等の関連性を探索可能にし、かつ、蛋白質発現量の欠損値補完を行い、群間で比較可能な蛋白質の網羅性を高めることができる、蛋白質の探索方法を提供することにある。

[0067] 本発明のまたさらに別の目的は、確率勾配ブースティング法により、閾値を設定することなぐ複数の蛋白質の発現量と臨床情報等の関連性を探索可能にし、かつ、蛋白質発現量の欠損値補完を行い、群間で比較可能な蛋白質の網羅性を高めることができる、蛋白質の探索装置を提供することにある。

[0068] この出願は、 2006年 7月 14日に出願された日本国特許出願：特願 2006— 1940 65を基礎とする優先権を主張し、その開示の全てをここに取り込む。

実施例

[0069] 以下、本発明を実施した一例の結果を説明する。

[0070] 肝臓における肝癌の癌部のサンプルと非癌部のサンプルとに対して、蛍光標識 2 次元ディファレンスゲル電気泳動法により、プロテオーム解析を実施した。このプロテオーム解析の結果を用いて、第 1の実施形態において説明した手順を用いて、蛋白質の探索を行った。その結果、欠損値補完を行なわない場合に解析可能な蛋白質数は 101個であった力 20%の欠損値を補完した場合は、 658個となり、 6倍以上の数の蛋白質が解析可能となり、網羅性が飛躍的に向上した。また、確率勾配ブースティング法により、癌部と非癌部とを分類するのに有効なマーカー蛋白質を探索したところ、欠損値補完を行なわない場合は 25個、 20%の欠損値を補完した場合は 42 個を自動的に検出できた。

[0071] 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解し得る様々な変更をすることができる。

Claims

請求の範囲

[1] プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づいて、情報と直接ある!/、は間接的に関連する蛋白質を目標蛋白質として探索する蛋白質探索方法であって、

前記プロフアイリングデータでの蛋白質発現量と前記情報とから教師あり学習を用

V、て得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定し、

評価データにより前記目標蛋白質の性能を評価する、

蛋白質探索方法。

[2] 前記プロフアイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割することをさらに備え、

前記情報と関連する蛋白質を前記目標蛋白質として決定する際に、前記訓練データでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を前記目標蛋白質として決定し、

前記目標蛋白質の性能を評価する際に、前記評価データとして前記検証データを用いる、

請求項 1に記載の方法。

[3] 前記蛋白質発現量の欠損値を他の蛋白質の発現量を用いて補完する段階をさらに有する、請求項 1または 2に記載の方法。

[4] 蛋白質発現量の欠損値を k 近傍法により補完する、請求項 3に記載の方法。

[5] 前記重要度は、アンサンブル学習の下位学習機械の決定木あるいは回帰木による学習過程に生成される分岐変数と目的変数に対する改善度とを利用して計算される

、請求項 1乃至 4のいずれか 1項に記載の方法。

[6] 前記重要度は、ブースティング、パギング、勾配ブースティング法及び確率勾配ブースティング法のうちの 1つを用いて計算される、請求項 1乃至 5のいずれ力 1項に記載の方法。

[7] 前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項 1 乃至 6の、ずれか 1項に記載の方法。

[8] 前記臨床情報が離散値である場合に、前記教師あり学習における損失関数として対数関数を用いる、請求項 7に記載の方法。

[9] 前記臨床情報が連続値である場合に、損失関数として、真の値と予測値との差の二乗または真の値と予測値の差の絶対値を用いる、請求項 7に記載の方法。

[10] 前記臨床情報が生存時間の場合に、損失関数に Cox比例ハザードモデルを利用する、請求項 7に記載の方法。

[11] 前記プロテオーム解析は、質量分析法及び Zまたは 2次元電気泳動法によって行われる、請求項 1乃至 10のいずれ力 1項に記載の方法。

[12] プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、

前記蛋白質発現データ及び前記情報から教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、

前記決定された目標蛋白質の発現量を記憶する目標蛋白質記憶手段と、前記決定された目標蛋白質の発現量と前記情報とを用いて予測モデルを学習する目標蛋白質による予測モデル学習手段と、

前記予測モデルを記憶する予測モデル記憶手段と、

前記予測モデルの性能を評価するためのデータを記憶する評価データ記憶手段と前記評価データによって前記予測モデルを評価する予測モデル検証手段と、を有する蛋白質探索装置。

[13] プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づいて、情報と関連する蛋白質を目標蛋白質として探索する蛋白質探索装置であって、プロテオーム解析によって取得された蛋白質発現データと情報を記憶するデータ記憶手段と、

前記蛋白質発現データを目標蛋白質探索に用いる訓練データと検証データとに分割するデータ分割手段と、前記訓練データを記憶する訓練データ記憶手段と、

前記検証データを記憶する検証データ記憶手段と、

前記訓練データ及び前記情報とから教師あり学習を用いて目標蛋白質を決定する目標蛋白質探索手段と、

前記予測モデルを記憶する予測モデル記憶手段と、

前記検証データによって前記予測モデルを評価する予測モデル検証手段と、を有する蛋白質探索装置。

[14] さらに、前記目標蛋白質の発現量の欠損値を他の蛋白質の発現量を用いて補完する欠損値補完手段をさらに有する、請求項 12または 13に記載の装置。

[15] 前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項 1 2乃至 14のいずれ力 1項に記載の装置。

[16] コンピュータが読み取り可能な記録媒体であって、

プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づいて、情報と直接あるいは間接的に関連する蛋白質を目標蛋白質として探索する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記プロフアイリングデータでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定する処理と、評価データにより前記目標蛋白質の性能を評価する処理と、を実行させるプログラムを格納した記録媒体。

[17] コンピュータが読み取り可能な記録媒体であって、

プロテオーム解析によって取得された蛋白質発現プロフアイリングデータに基づいて、臨床情報と直接ある、は間接的に関連する蛋白質を目標蛋白質として探索する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記プロフアイリングデータを目標蛋白質探索に用いる訓練データと検証データとに分割する処理と、前記訓練データでの蛋白質発現量と前記情報とから教師あり学習を用いて得られる蛋白質の重要度に基づき、前記情報と関連する蛋白質を目標蛋白質として決定する処理と、前記検証データにより前記目標蛋白質の性能を評価する処理と、を実行させるプログラムを格納した記録媒体。

[18] 前記プログラムは、前記コンピュータに、前記蛋白質発現量の欠損値を他の蛋白質の発現量を用、て補完する処理をさらに実行させるものである、請求項 16または 1 7に記載の記録媒体。

[19] 前記情報は臨床情報であり、前記目標蛋白質はマーカー蛋白質である、請求項 1 6乃至 18のいずれ力 1項に記載の記録媒体。