WO2006013925A1

WO2006013925A1 - 同位体比によるペプチドを構成するアミノ酸配列の検定

Info

Publication number: WO2006013925A1
Application number: PCT/JP2005/014303
Authority: WO
Inventors: Yasushi Ishihama; Takatoshi Kawai
Original assignee: Eisai R & D Management Co., Ltd.
Priority date: 2004-08-04
Filing date: 2005-08-04
Publication date: 2006-02-09
Also published as: EP1775581A1; EP1775581A4; US20090012714A1; JPWO2006013925A1; JP4614960B2

Abstract

　本発明の課題は、MSを用いてペプチドのアミノ酸配列を決定し同定する際に、同定エンジンから出力される候補リスト中のアミノ酸配列の妥当性を評価するための付加的な情報をMSから得ることである。本発明は、ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定する方法であって、（１）前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出する工程と、（２）前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する工程と、（３）前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、推定されたアミノ酸配列の妥当性を評価する工程と、を含む、推定されたアミノ酸配列の検定方法を提供する。

Description

同位体比によるペプチドを構成するアミノ酸配列の検定

技術分野

[0001] 本発明は、ペプチドの質量分析力も推定されたアミノ酸配列の妥当性を評価する検定方法に係り、より詳細には、ペプチドの同位体比の理論値と、ペプチドの同位体比の測定値とを比較して、推定されたアミノ酸配列の妥当性を評価する検定方法、検定装置および前記方法を実行するプログラム、並びに該プログラムを格納した記録媒体に関する。

背景技術

[0002] 近年、遺伝子の塩基配列が網羅的に解析され、蛋白質及び核酸のデータベースが拡充されたことにより、ペプチド配列が完全に決定できなくても、部分的な質量分析 (以下、単に「MS」ともいう。）の解析情報を基に、データベースからマッチするぺプチド配列を探し出すことが可能となった。

[0003] このデータベース検索法には大別して 2つの方法がある。 1つはペプチドマスフィンガープリンティング法 (PMF法、たとえば、非特許文献 1参照）である。タンパク質をトリプシン消化などの切断特異性が明らかな方法での処理の後、そのペプチド群の質量を MSで測定し、一方、データベース中のタンパク質についても in silicoで同様の処理を行い、測定データと理論データとの一致度を検索することにより、タンパク質の同定を行うものである。この方法の問題点は、その真のタンパク質を偽ヒットタンパク質群から見分けるためにはある程度の数のペプチドが必要なことである。また、 PMF法では、一般的には混合物の場合は適用が困難であるし、検索の特異性を高めるためには測定されるペプチド質量に高い精度が要求される。さらに、 PMF法では、ぺプチド質量が変わってしまう翻訳後修飾には、基本的には対応できないなどの問題点がある。

[0004] もう一つの方法は、タンデムマススペクトルを用いる方法である。 MSに導入されたぺプチドは MSの内部での衝突解離によりフラグメント化されるが、その際に得られるスベクトル（MSMSスペクトル、タンデムマススペクトル、フラグメントスペクトル、または CI Dスペクトル)力ペプチドのアミノ酸配列の部分情報が得られるので、データベース中のタンパク質力も得られる情報を検索することにより同定を行うものである（たとえば、非特許文献 2ないし 4参照)。本方法では 1つのペプチドだけでも十分に検索特異性があるので混合物での測定や網羅的解析に向いている。また、その特異性の高さ力ゲノムに対して直接検索をすることも可能であるし、翻訳後修飾にも対応可能である。

[0005] し力しながら、前述のいずれの方法でも哺乳類の組織や細胞といった非常に多種類の蛋白質が存在する場合、検索エンジン力も出力されるタンパク質リストから、偽ヒットを完全に取り除くのは容易ではなぐ同定のためのクライテリアを工夫しても 10〜3 0%程度の偽ヒットタンパク質が常に混在しており、ペプチド同定のための付カ卩的な情報が求められている。

[0006] さらに、データベースを用いずに MSMSスペクトルやペプチドシークェンサ一から得られる情報だけ力配列を決定する de novoシークェンシングにおいても、付加的な情報は、決定された配列の妥当性を検定するのに大きな役割を果たすことが期待される。

[0007] 非特許文献 1 : M. Mann, P. Hojrup, P. Roepstorif, Biol Mass Spectrom 2 2 (1993) 338.

非特許文献 2 : J.K. Eng, A.L. McCormack, I. Yates, John R.， Journal of the American Society for Mass Spectrometry 5 (1994) 976.

非特許文献 3 : M. Mann, M. Wilm, Anal Chem 66 (1994) 4390. 非特許文献 4 : D.N. Perkins, D.J. Pappin, D.M. Creasy, J.S. Cottrell, Electrophoresis 20 (1999) 3551.

発明の開示

発明が解決しょうとする課題

[0008] そこで、本発明は上記の事情に鑑み、 MSを用いてペプチドのアミノ酸配列を決定し同定する際に、同定エンジンから出力される候補リスト中のアミノ酸配列が正しいか否かを検定するための、付加的な情報を MSから得ることを本発明の目的とする。課題を解決するための手段 [0009] 本発明者らは、 MSから得られる付加的な情報のうち、ペプチドの同位体比に着目した。ペプチドを構成する元素の同位体比は、地球上では普遍的に一定である。同定エンジンから出力されるアミノ酸配列から、当該ペプチドを構成する元素の組成比が計算でき、元素の組成比力各元素の同位体比を基にペプチドの同位体比が計算できる。もし計算された同位体比が、 MSにより実測された同位体比と一致すれば、出力されたアミノ酸配列は正しいことが評価されると考えた。

[0010] 本発明の第一の態様では、ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定する方法であって、 (1)前記推定したァミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出する工程と、（2)前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する工程と、（3)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、推定されたアミノ酸配列の妥当性を評価する工程と、を含む推定されたァミノ酸配列の検定方法を提供する。

[0011] 本発明に係る検定方法の好ましい態様によれば、（4)前記妥当性の評価に基づき、前記推定されたアミノ酸配列が正しいか否かを判断する工程を、あるいは、前記妥当性を反映したパラメータの値に基づいて、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する工程をさらに含む。

[0012] 本発明に係る検定方法の好ま、態様によれば、前記選択工程は、前記パラメ一タが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列から選択する。

[0013] また、本発明の第二の態様では、質量分析装置と、演算部を有するコンピュータとを備え、前記質量分析装置にて得られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたァミノ酸配列を検定する装置であって、前記演算部は、前記ペプチドの質量情報及び/ 又はペプチドの修飾情報を受けた後に、 (a)前記推定したアミノ酸配列及び/又はぺプチドの修飾情報から、ペプチドの同位体比の理論値を算出する算出手段と、 (b) 前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する測定手段と、（c)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、前記演算部が推定したアミノ酸配列の妥当性を評価する評価手段と、を備える検定装置を提供する。

[0014] 本発明に係る検定装置の好ましい態様によれば、（d)前記妥当性の評価に基づき、前記演算部は前記推定されたアミノ酸配列が正ヽか否かを判断する判断手段をさらに備える、あるいは、前記推定されたアミノ酸配列の妥当性を反映したパラメータの値を計算される計算手段をさらに備え、前記パラメータに基づいて、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する。

[0015] 本発明に係る検定装置の好まヽ態様によれば、前記選択は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列力も選択する。

[0016] さらに、本発明の第三の態様では、ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾情報を受けるコンピュータに、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定させるためのプログラムであって、（i)コンピュータが備える演算部へ前記ペプチドの質量情報及び/又はペプチドの修飾情報を入力する工程と、（ii)前記演算部が、前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出するェ程と、（m)前記演算部が、前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する工程と、（iv)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、前記演算部が推定したアミノ酸配列の妥当性を評価するェ程とを実行するプログラムを提供する。

[0017] 本発明に係るプログラムの好ましい態様によれば、（V)前記妥当性の評価に基づき

、前記演算部が前記推定されたアミノ酸配列が正しいか否かを判断する工程を、あるいは、前記推定されたアミノ酸配列の妥当性を反映したパラメータの値に基づいて、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する工程を、さらに含む。

[0018] 本発明に係るプログラムの好ま U、態様によれば、前記選択は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列力も選択する。

[0019] さらにまた、本発明の第四の態様では、前述の第三の態様によるプログラムを格納したコンピュータ読み取り可能な記録媒体を提供する。 [0020] なお、本発明に係るプログラムは、本発明による検定方法の各工程をコンピュータにて実行させるものである力 CD-ROM,磁気ディスク、半導体メモリなどの各種記録媒体を通じてコンピュータにインストールまたはダウンロードすることが可能である。

[0021] また、本発明で用いる用語「ペプチドの質量情報」とは、質量分析により得られるぺプチドの M/Zの値を含む、質量分析により得られる情報をいう。さらに、本発明で用いる用語「ペプチドの修飾情報」とは、生体内で、あるいはペプチド調製中にペプチドに加えられる修飾に関する情報をいうが、無修飾のペプチド情報をも含む。生体内で加えられる修飾には、リン酸化、糖鎖の付加、脂肪酸の付加等が挙げられ、ペプチド調製中に加えられる修飾には、酵素消化、還元、ァセチルイ匕等が挙げられる。さらにまた、本発明で用いる用語「ペプチドの質量情報を、ペプチドに関するデータベースと検索することにより推定されたアミノ酸配列」とは、 PMF法や MSMS処理により推定されるアミノ酸配列をいう。ここで、「ペプチドに関するデータベース」には、タンパ質データベースまたは核酸データベースを指し、タンパク質データベースとしては NCBInr データベース等が、核酸データベースとしては、 GenBankデータベース等が挙げられる。また、「推定されるアミノ酸配列」には、修飾されたアミノ酸、たとえばリン酸化、糖鎖の付加、脂肪酸の付加等がされたアミノ酸が含まれて!/、てもよ、。

発明の効果

[0022] 本発明により、 MSにより得られた質量情報あるいはアミノ酸配列情報を基に、データベース検索を行って推定されたアミノ酸配列が正しいか否かを評価するにあたり、

MSスペクトルの同位体比と、う付カ卩的な情報を用い、その推定アミノ酸配列の妥当性の検定方法を提供することができる。

発明を実施するための最良の形態

[0023] 以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、さまざまな形態で実施することができる。

[0024] 本発明により検定されるアミノ酸配列は、 PMF法により得られたペプチドの質量情報力データベースを検索する方法 (非特許文献 1)、及びタンデムマススペクトルから得られたペプチドのアミノ酸配列情報力データベースを検索する方法 (非特許文献 2〜4)により推定されたアミノ酸配列である。

[0025] なお、 MSによる測定の結果力得られたデータを用いてペプチドを同定する方法は、得られたデータを市販のソフトフェア、たとえば、 SonarMSMS (Genomic solution 社）およびデータベース、たとえば、 NCBInr (http://www.ncbi.nlm.nih.gov/) , IPU Sport等のデータベースを使用することにより解析し、自動同定が可能である。 MSによる測定データを用いて、ペプチドのアミノ酸配列を推定することは当業者にとって容易である（Nat Genet. 1998: 20, 46-50; J Cell Biol. 1998: 141, 967-977; J

Cell Biol. 2000: 148, 635—651; Nature. 2002: 415, 141-147; Nature. 2002 ： 415, 180-183; Curr Opin Cell Biol. 2003: 15, 199-205;

Curr Opin Cell Biol. 2003: 7, 21- 27参照）。

[0026] 以下に、推定されるアミノ酸配列を検定する方法につ！ヽて、詳しく記載する。

1.推定されるペプチド配列から、ペプチドの同位体比を計算する工程

ペプチドの構成元素は、アミノ酸の構成元素より容易に計算される。ペプチドの同位体比は、構成元素より安定同位体天然存在比とその質量数を基に算出できる (J.A . Yergey, Int. J. Mass Spectrom. Ion Phys. 52 (1983) 337.)。 ¾, ¹²C, 1³C, ¹⁴N, ¹⁵N, ¹⁶0, ¹⁷0, ¹⁸0, ³²S, ³³S, ³⁴S, ³⁶Sの天然存在比を用いると、全ての構成元素が最も軽い質量数の元素である 1番目の同位体ピークの構成比は、下記式 1の X°の係数として、構成元素のうちの一つが質量数の多い同位体と置き換わつた 2番目の同位体ピークの構成比は、下記式の X¹の係数として、以下、 n個が質量数の多い同位体と置き換わった n+1番目の同位体ピークの構成比は、下記式の Xⁿの係数として計算される。なお、各元素の天然存在比は、たとえば、 J.A. Yergey, Int. J.

Mass Spectrom. Ion Phys. 52 (1983) 337.の Table 3 (347頁）に記載されている (表 1参照)。

[0027] [表 1] π* 質量数同位体比

C 12 0.98900

13 0.01 100

Η 1 0.99985

2 0.00015

Ν 14 0.99630

15 0.00370

0 16 0.99762

17 0.00038

18 0.00200

S 32 0.95020

33 0.00750

34 0.04210

36 0.00020

[0028] [数 1]

(Ρ_{1 Η}+ΧΡ )'、。

2Η )^ΝΗ (Ρ 12C+X' 13C) (Pl 4NTズ Pl5N 160 ' 「17。τズ ^Γ 180

33S 36、式 1

Hの数： N_H Nの数：N_N Sの数： N s

32

の存在比: P_1H ¹⁴Nの存在比: P_14N Sの存在比： P_32S

2Hの存在比： P_2H ¹⁵Nの存在比： P_15N ³³sの存在比： P_33S

3⁴sの存在比: P_34S

Cの数： N_c 0の数： N₀

3⁶sの存在比: P_36S

'²Cの存在比: P_12C '⁶0の存在比: P₁₆₀

'³Cの存在比: P_13C '⁷0の存在比: P₁₇₀

1⁸0の存在比: P,₈₀

[0029] 具体的には、 1番目の同位体ピークの構成比及び 2番目の同位体ピークの構成比は、下記の通り、式 1の X^X¹の係数として算出できる。

[0030] [数 2] 1番目の同位体ピークの構成比

— p p _{c p N} pN₀ r

1H 12C 14N "^160

2番目の同位体ピークの構成比

N_H-1 N_c N_N

p^N。 N_s N_H N_c- 1 ^N。

= NHPIH 「2H P 12C Pl4N ド 160 P32S + NQPIH P 12C p13C P^N14^N p

N 160 P 32S

N_H N_N- 1 N_N o-1 N_s

+ N_NP_{T H} P 1^N2^CC 14N Pl5N P1^N6°0 p3^N2^sS I O P^I^NH^H P^N12^CC P 14N Pl60 Pl70 P32S p N_N p^N。 N_s-1

+ Ν₅Ρ Η^Η p1^N2^cC 14N 160 P32S P33S

[0031] 同様に、 3番目の同位体ピークの構成比も、式 1の X²の係数として算出することができ、それ以下の構成比も χ³·χ⁴· · ·として同様に算出することができる。また、リン (Ρ)、その他の元素を含むペプチドについても、式 1に Ρ、その他元素の項を付け加えることにより同様に計算できる。場合によっては、特定のアミノ酸を安定同位体で標識することも許される。この場合には、標識されたアミノ酸について、安定同位体天然存在比に代えて標識アミノ酸の同位体存在比を用いて、ペプチドの同位体比を計算する。標識は培養液に安定同位体標識アミノ酸を加えて代謝的に標識しても、ペプチドを安定同位体標識化合物により化学的に修飾してもよい。

[0032] 2.ペプチドの同位体比を測定する工程

ペプチドの同位体比の測定値は、ペプチドの MSスペクトルから測定される。 MSからは、図 1に示すようなスペクトルが得られる力最初の質量最小のピークが全ての構成元素が最も軽い質量数の元素で構成されるペプチドであり、 2番目のピークが構成元素のうちの一つが、質量数が 1つ多い同位体と置き換わったペプチドである。同位体比は、それぞれのピークの最大値 (ピークの高さ）又はピーク面積力得ることができる。場合によっては、 MSスペクトルの測定値力も誤差を取り除く操作をすることも許される。たとえば、 LCMSなどのように、同一ペプチドのスペクトルがクロマトグラフィーの溶出時間に従って経時的に複数得られている場合、対応するピークの高さ又は面積を平均化して同位体比測定値とすることも許される。また、各ピーク高さ (面積)の差をとることにより、ノックグラウンドの影響を除き、その後、比を取ってもよい。このような操作は、液体クロマトグラフィーのピーク力も定量値を得る際に通常行われるものであって、それら方法を MSスペクトルのピークに対して応用することも許される。

[0033] 3.同位体比の理論値と測定値を比較し、アミノ酸配列の妥当性を評価する工程前記 1.から得られた理論値と前記 2.で得られる測定値を比較して、推定されたァミノ酸配列が正しいか否かを評価する。同位体比の測定値と理論値を標準化し、その値が揃って、れば推定されたアミノ酸配列が正、と判断され、揃って、なければ誤っていると判断される。標準化の方法としては、たとえば、 1番目のピークに対する比率をとる方法、最も高いピークに対する比率をとる方法、または全体を 1とした時の存在比率として表す方法が挙げられる。また、上記標準化した値をグラフとして表示し、揃っていれば推定されたアミノ酸配列が正しいと判断され、揃っていなければ誤つていると判断してもよい。たとえば、後述する実施例の図 2及び 3は正しい配列と判断され、他方、後述する実施例の図 4は誤った配列であると判断される。

[0034] 本発明にお、て、推定されたアミノ酸配列が正、か否かの評価は、得られた理論値と測定値に統計的な処理を施して判断することが望まし、。統計的な処理としては、特に限定されないが、理論値に対して測定値を直線回帰する方法等が挙げられる。直線回帰は、たとえば、 Microsoft Excelの LINEST関数により計算できる。理論値と測定値を示す点が回帰直線に近ければ正、配列であると判断され、離れてヽれば誤っていると判断される。また、理論値と測定値の間の相関係数が高ければ、好ましくは 0.98以上、更に好ましくは 0.99以上であれば推定されたアミノ酸配列が正しいと判断され、低ければ、好ましくは 0.98以下であれば誤っていると判断される。統計的な手段は上記方法に限られず、たとえば、標準化した理論値と測定値の間の誤差を %二乗検定するなどの方法により検定を行ってもよい。

[0035] これらの検定の結果は、アミノ酸配列を推定するときの正しさの指標、たとえば、データベース検索エンジン (たとえば、マスコット）のスコアの同定判定の閾値などと共に総合的に判断して、推定されたアミノ酸配列が一つの場合には、その推定アミノ酸配列が妥当なものであるか、また、推定されたアミノ酸配列が複数ある場合には、当該推定されたアミノ酸配列から 1又は複数の妥当なアミノ酸配列の選択が正しいか否かの評価を行うことができる。また、データベース中のアミノ酸配列に対して同位体比による評価を行!ヽ、候補アミノ酸配列を推定するためのパラメータとして使用することも可能である。

[0036] 本発明に係る検定方法について説明する。図 5は、質量分析装置による質量分析後、本発明に係る検定方法のスキームを示す。本発明に係る検定方法は、まず、ぺプチドの質量分析の結果であるペプチドの質量情報及び Z又はペプチドの修飾情報や推定された 1又は複数のアミノ酸配列が入力される（図 5の工程 S11参照)。この場合、入力される側は、後述する本発明に係る検定装置を構成する解析装置である。そして、このアミノ酸配列は、前述のように各種のデータベースを検索することにより推定されることは当業者には容易に理解できる。このアミノ酸配列から、ペプチドを構成する構成元素とその元素の数が判明する。

[0037] 次いで、工程 S12にて、推定されたアミノ酸配列の情報及び/又はペプチドの修飾情報、特にアミノ酸の構成元素に関する情報に基づいて、前述のペプチドの同位体比を計算する方法力ペプチドの同位体比の理論値を算出する。一方、工程 S 13では、実際に測定されたペプチドの質量情報力ペプチドの同位体比の測定値を求める。

[0038] 以上のように、同位体比の理論値および測定値の値から、力かる値の差異を評価する（工程 S14参照)。この場合、差異を評価する基準としては、直線回帰における相関係数や％二乗検定等のパラメータを基準とすることができる。そして、その評価基準の結果から、所定の基準値に照らして、工程 S 15にて推定されたアミノ酸配列が正しいか否かを判断する。この判断の際、前述の統計的処理を行うこともできる。

[0039] 具体的には、統計的処理の結果から、アミノ酸配列の妥当性を反映したパラメータ、たとえば、相関係数や回帰直線の相関係数の値力判断することができる。推定されたアミノ酸配列が一つのとき、前記パラメータの値が所定の値以上である場合、当該推定が妥当であると判断される。一方、前記パラメータの値が所定の値以下である場合には、当該推定は正しくないと判断される。この所定の値は予め設定することにより、推定されたアミノ酸配列の妥当性の評価 ·判断を容易に行うことができる。

[0040] さらに、推定されたアミノ酸配列が複数あるとき、前記アミノ酸配列の妥当性を反映したパラメータの値が所定の値以上である、 1又は複数のアミノ酸配列を、前記推定されたアミノ酸配列力も選択することができる。このようにして、推定されたアミノ酸配列が 1又は複数ある場合、その妥当性を反映したパラメータの値から、推定アミノ酸配列の正誤を評価することが可能となる。

[0041] 図 6は、本発明による検定方法に係るプログラムを、コンピュータにて実行させる検定装置の機能ブロック図を示す。なお、図 6では、本発明に関連する部分のみを概念的に示し、マイクロコンピュータ力も構成される。

[0042] 本発明に係る検定装置 10は、概略的には、質量分析装置 20と、その質量分析装置 20にて得られた質量分析に関するデータを処理'カ卩ェする解析装置 30とを備える。そして、検定装置 10は、ネットワーク 50を介して通信可能も接続した、アミノ酸配列決定用の外部分析プログラム (不図示)を提供する外部装置 40を、さらに備える。なお、図 5に示すネットワーク 50は、解析装置 30と外部装置 40とを相互に接続する機能を有し、たとえば、インターネット等である。本発明にて用いられる質量分析装置 2 0は、特に限定されるものではなぐ市販の質量分析装置であればよい。そして、前記質量分析装置 20は、それ自体に該装置にて測定して得られた結果を保存するデータ保存部 25を備えていてもよい。また、本発明に用いられる質量分析装置 20は、それ自体に装置を制御する制御部や入出力部を備えるものであってもよぐさらに、ネットワーク 50を通じて外部装置 40と接続していてもよい。図 5に例示する外部装置 40は、ネットワーク 50を介して、質量分析に関する情報を解析する解析装置 30と相互に接続され、利用者に対してアミノ酸配列情報等に関する外部データベースゃホモロジ一検索等の外部分析プログラムを実行するウエッブサイトを提供する機能を具有する。

[0043] ここで、外部装置 40は、 WEBサーバや ASPサーバ等として構成してもよく、そのハ一ドウエア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置及びその付属装置により構成してもよい。また、外部装置 40の各機能は、外部装置部のハードウア構成中の CPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。本発明では、前記外部装置部として NCBInr等のデータベースを利用することができる。

[0044] 図 6に示す解析装置 30は、概略的には、質量分析装置 20の全体を統括的に制御する CPU等の演算部 60、通信回線等に接続されるルータ等の通信装置 (不図示）に接続される通信制御インターフェース部 70、質量分析装置 20、およびディスプレィゃプリンタ一等の出力装置 90に接続される入出力制御インターフェース部 80、および各種のデータベースを格納する記憶部 100を備えて構成される。各部は任意の通信路を介して通信可能に接続される。さら〖こ、本発明による解析装置 30は、ルータ等の通信装置及び専用線等の有線又は無線の通信回線を介して、ネットワークに通信可能に接続されている。記憶部 100に格納される各種のデータベース (質量分析データやアミノ酸配列データ等）は、固定ディスク装置等のストレージ手段であり、ファイルやデータ等を格納する。前記記憶部 100の各構成要素のうち、質量分析データは、質量分析装置 20にて得られたペプチドの質量情報等である。また、アミノ酸配列データは、質量分析装置にて得られた質量分析スぺ外ルの解析結果としてのアミノ酸配列データや、インターネットを経由してアクセス可能な外部のアミノ酸配列データであってもよい。さらに、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自の識別番号を付与し作成したインハウスデータであつてもよい。

[0045] 演算部 60は、本発明に係る解析方法を実行するプログラムを格納し、前記解析装置 30を、ひいては検定装置 10の全体を制御する装置である。前記演算部 60は、 O S (operating system)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリ（不図示）を有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。なお、本発明に係る検定方法を実行するプログラムは、前記記憶部 100に格納されて、てもよ、。

[0046] 図 7は、本発明に係る検定方法を実行するプログラムを、概念的に表すフローチヤートである。工程 S21にて、演算部 60は、質量分析装置 20にて得られたペプチドの質量情報及び Z又は修飾情報、あるいはかかる情報を、ペプチドに関するデータべースと検索することにより推定された、 1又は複数のアミノ酸配列、たとえば、通信制御インターフェース部を介したインターネット 50を通じて、外部のデータベース、たとえば、 NCBInrデータベースと照合させながら、 MS/MS処理により推定されたアミノ酸配列に関する情報を取得する。そして、必要に応じて、この取得した質量分析データを記憶部 100に保存するが、その際に、後述する解析の便宜のため、データ検索を容易にするように、各質量分析データに、スキャン番号等の識別番号を付与してもよい。一方で、本発明に係る検定装置 10の演算部 60が、質量分析装置 20にて得られたペプチドの質量情報及び/又修飾情報を取得した後、演算部 60にて、外部のデータベースと照合させながら、 MS/MS処理により推定されたアミノ酸配列に関する情報を取得してもよい。

[0047] 工程 S22に示すように、取得した推定アミノ酸配列及び/又はペプチドの修飾情報力当該ペプチドの同位体比の理論値を算出する。この理論値とは、ペプチドのアミノ酸配列からペプチドの構成元素が求まり、この構成元素より安定同位体天然存在比とその質量数力も算出される値である。他方、工程 S23において、前記ペプチドの質量情報から、ペプチドの同位体比の実際に測定された測定値を求める。

[0048] 次いで、工程 S24において前記理論値と前記測定値との差異を求め、当該差異の値から、ペプチドの推定されたアミノ酸配列の妥当性を評価する（工程 S25参照)。この妥当性の評価は、得られた理論値と測定値に統計的な処理を施して判断することが望ましい。統計的な処理としては、理論値に対して測定値を直線回帰する方法等が挙げられる。そして、推定されたアミノ酸配列が一つの場合には、この理論値と測定値が略一致したとき、たとえば、妥当性を反映したパラメータである、直線回帰における相関係数の値が 0.98以上のとき、より好ましくは 0.99以上のときは、推定されたァミノ酸は正、配列であると判明する。

[0049] 一方、推定されたアミノ酸配列が複数ある場合、推定アミノ酸配列が正、か否かの判断は、前記パラメータの値が所定の値以上である 1又は複数のアミノ酸配列を、推定されたアミノ酸配列力選択することにより行うことができる。

[0050] そして、推定アミノ酸配列が正、か否かの判断は、妥当性を反映したパラメータ、好ましくは直線回帰における相関係数の値が所望の値以上である、 0、 1又は複数のアミノ酸配列を推定されたアミノ酸配列から選択することにより行うことができる。ここで、 0とは推定アミノ酸配列中に正、と判断されたアミノ酸配列は含まれて、なかったことを意味する。また、前記パラメータが直線回帰における相関係数の場合、所望の値として、 0. 98以上の値、好ましくは 0. 99以上の値を設定することができる。 [0051] その後、必要に応じ、演算部で解析されたパラメータの値等のデータをディスプレイ若しくはプリンタ一等の出力装置 90に表示若しくは印字することができる。

[0052] 図 8は、本発明に用いる演算部 60の詳細な構成を示す機能ブロック図である。前述のように、図 7で説明した本発明に係る検定方法を実行するための演算部 60は、質量分析装置 20にて得られたペプチドの質量情報を、入出力制御インターフェース部 80を通じて受け取る。本発明の演算部 60は、算出手段 62と、測定手段 64と、評価手段 66と、判断手段 69又は計算手段 68とを備える。前記算出手段 62は、外部のデータベースにて推定されたアミノ酸配列及び z又はペプチドの修飾情報から、ぺプチドの同位体比の理論値を算出する。一方、前記測定手段 64は質量分析装置 20 からのペプチドの質量情報からペプチドの同位体比の測定値を測定する。そして、前記算出手段 62と前記測定手段 64にて得られた同位体比の理論値および測定値を基づいて、前記評価手段 66では理論値と測定値の差異を見積もる。この評価手段 66では、理論値と測定値との乖離を見積もるものである。この乖離は、推定されたァミノ酸配列の妥当性を反映したパラメータにより見積もることができる。そして、前記評価手段 66は、このパラメータの値を計算する計算手段 68を備え、推定アミノ酸配列の妥当性を評価する。

[0053] さらに、計算手段 68における結果を踏まえ、判断手段 69では、推定されたアミノ酸配列が正しいか否かの判断を行う。これは、同位体比の理論値と測定値の間の乖離の値から、統計的に有意な差がない場合には推定されたアミノ酸配列は正しいと判断される一方で、統計的に有意な差がある場合には推定されたアミノ酸配列は正しくないと判断される。具体的には、計算手段 68の結果であるパラメータの値から、同位体比の理論値と測定値との間に乖離が観測された場合には、たとえば、ノラメータの所定の値として、直線回帰における相関係数の値が 0.98以下の場合、推定されたァミノ酸配列は正しくな、と判断できる。

[0054] 本発明に用いる演算部 60は、解析装置 30に配置された構成で説明した力必要に応じて、質量分析装置 20に配置された構成でも、本発明に係る検定方法を実施することはでさる。

実施例 [0055] 本発明を以下の実施例によってさらに詳細に説明するが、本発明の範囲はこれらに限定されるものではない。本発明の記載に基づき、種々の変更、修飾が当業者には可能であり、これらの変更、修飾も本発明に包含される。

[0056] 以下に、 MSから得られたアミノ酸配列情報を基にデータベース検索を行、、推定されたアミノ酸配列を同位体の存在比により検定した具体例を示す。

[0057] サンプルとして、マウスの^ | を摘出し凍結保存した。テフロン ^Rホモジナイザーにてホモジナイズし、 500 X g 5分間の遠心分離により未破壊の細胞、核などを除去した。次に、その上清を 100,000 X g 1時間の遠心分離することにより可溶性画分を調製した。タンパク質量を測定したところ、 3.12mg/mLであった。これを分画したサンプルとした。

[0058] 続!、て、各分画したサンプルにっき 2mLずつ（lmLチューブ 2本ずつ）にっき以下の操作を行った。尿素（Bio- Rad社 Cat. No. 161- 0731)を加えて 8Mとし、 lmLあたり 3mgのデイチオスレィトール（和光純薬 Cat. No. 045-08974: DTT)をカ卩えた 0.5M Tris緩衝液 (pH 8.3, Sigma社製） 500 Lを各分画したサンプルに加え、 37度で 3時間インキュベーションしてタンパク質中のシスティン残基を還元した。その後、尿素を加えて 8Mとし、 8mgのアクリルアミド (Bio- Rad社製 Cat. No. 161- 0107)をカ卩えた 0.5M Tris緩衝液 (pH 8.3) 500 Lを、各分画したサンプルカ卩えて室温で 3時間インキュベーシヨンしてシスティン残基をアルキル化した。そこに 8mgの DTTを加えることで過剰のアクリルアミドを失活させた。分子量 1万カットの透析チューブ SnakeSkin (ピアス社、 Cat. No. 68100)を使い、 1000倍量の 10mMの炭酸水素アンモ-ゥム緩衝液により、 4°Cにて、 1昼夜透析して還元アルキル化試薬を除去し、当該分画したサンプルを SpeedVacにて凍結乾燥した。

[0059] この各分画したサンプルを 8Mの尿素を含む 0.2%ベータ 'ォクチルダルコシド水溶液 200 Lで再溶解し、 50mMの炭酸水素アンモ-ゥムで 5倍に希釈し、計 lmLとした。タンパク質量 0.3mgに対して 100 Lのトリプシン（プロメガ社製、 Cat. No. V5111)を加えて 37°Cにて 24時間消化を行った。消化したサンプルに 50 Lのアンモニア水と 0. 5mLの超純水をカ卩えて 2万 Gで 1分間遠心し、上清をァ-オン交換カラム（Minト Q PC 3.2/3: Amersham Biosciences Cat. No. 17—0686—01)に注入した。 HPLC条件は、流速が毎分 0.2mL、 UV検出波長が 235nm & 280nmとした。移動相 Aが 25mMのアンモニアに 5 %ァセトニトリル、移動相 Bが 1Mの酢酸アンモ-ゥムで pH 8.6に 5% ァセトニトリルとし、グラディエントは、最初 5分間が 100%移動相 Aで、その後 40分かけて移動相濃度を直線的に 40%まで増加させ、その後 15分間で移動相 Bを 100%として 5分間流した。 1分毎に分画し、カラム力も溶出してくるフラクションを、 TFAを加えることにより酸性とした。 27分力も 30分までの分画試料を選び、あら力じめァセトニトリルで洗浄後 0.1% TFA水でコンディショニングしておいた StageTip C18(自家製、 J. Rappsilber, Y. Ishihama, Μ. Mann, Anal Chem 75 (2003) 663)にアプライし、続いて 5%ァセトニトリルを含む 0.1% TFA水 20 しで3回洗浄、5 しの70%ァセト二トリルを含む 0.1% TFA 水で溶出することにより脱塩した。 Speedvacで溶媒を揮発させ、 5 μ Lの 5%ァセトニトリルを含む 0.1% TFA水で再溶解した。

次に、この HPLCにより分離したサンプルを LC (C18 column) /MS (Applied

Biosystems/MDS-Sciex QSTAR Pulsar i)で測定を行った。このときの条件は、 H PLC側としては C18シリカゲル（ReproSn-Pur 120 C18-AQ, 3 m)を充填した自家製のエレクトロスプレ^——体型カラム（Y. Ishihama, J. Rappsilber, J.S. Andersen, M. Mann, J Chromatogr A 979 (2002) 233.) 0.1 x 150mmに移動相 Aとして 0 .5%酢酸水、移動相 Bとして 80%ァセトニトリルを含む 0.5%酢酸水を用いて、初期 B 濃度を 5%として、最初の 5分間で移動相 Bを直線的に 10%、次の 60分間で直線的に 30%、その後 5分間で直線的に 100%とし、その後移動相 Bを 100%にして 10分間維持、その後移動相 Bを 5%として 30分後に次のサンプルを注入した。装置には島津製作所の LC-10Aシリーズの ROMをミクロ対応として、また、ミキシングチャンバ一としては付属の島津製作所製を外してパルコ社の Tコネクターを採用した。流速としては、 Flow-splitting方式を採用し、カラムには約毎分 200〜400nLの流速となるように調整した。サンプルを CTC社のオートサンプラー PALによって 3 μ L注入し、サンプルを一度インジェクターのサンプルループに注入した後に分析カラムに送り込んだ。 Protana 社製 XYZステージを装備した Applied Biosystems/MDS-Sciex社の QSTAR Pulsar i に日京テクノス社に特注したカラムホルダーを装着し、エレクトロスプレ一一体型カラムの位置を任意に調整できるようにした。 ESI電圧として 2.4kVをカラムのポンプ側のパルコ社製金属コネクターを通して印加した。測定は、 Information dependent acqui sitionモードで、 1秒間の Surveyスキャンの後、最大 4つの MSMSスキャン（各 1.5秒）を行った。 MSMS modeから Survey scan へのスィッチは 1スペクトルとした。

[0061] 得られたデータについては、 Mascot (Matrixscience社)および NCBInrデータべ一ス用いてタンパク質の自動同定を行った。出力された結果の中から、表 1に記載する 3つのペプチドを選択して同位体比による検定を行った。

[0062] [表 2]

Mascot

No. 推定アミノ酸配列 Observed

由来タンパク質 Peptide

score m/z mass

1 AFVHWYVGEGM EGEFSEAR tubulin alpha 63 777. 3087 2329. 0109 ribosomal protein,

2 ILDSVGIEADDDR 93 709. 3246 1416. 6732 large P2

similar to hypothetical

3 AAGQEDDK + Oxidation 22 490. 6823 979. 3916

} protein MGC35338

[0063] マスコットスコアの同定判定の閾値（95 %)は 37であるので、 No.l及び 2のペプチドは正しく同定されており、 No.3のペプチドは正しく同定されていないと考えられる。これら 3つのペプチドの分子式より、同位体比の理論値を QSTARの測定ソフトウェアである Analyst QS (Applied Biosystems/MDS- Sciex)の付属機能（Tools/Calculators/ Isotope Distribution)を用いて算出した。また、同位体比の測定値を Analyst QSのピークインテグレーション機能を用いて各同位体のピーク高さ（強度)及び面積を求め、理論値と比較した。 No.1〜3のペプチドについての結果を、それぞれ、図 2〜4に示した。

[0064] マスコットスコア力も正しく同定されていると考えられる No.l及び 2のペプチドでは、同位体比の理論値と測定値が良く一致するのに対し、正しく同定されていないと考えられる No. 3のペプチドでは、理論値と測定値の乖離が見られた。

[0065] 同位体比の理論値及び測定値（ピーク高さ及びピーク面積）を Microsoft Excelの LINEST関数を用いて直線回帰した。正しく同定されてヽると考えられる No.l及び 2のペプチドでは、相関係数 (R²)が 0.99以上と高い相関を示したのに対し、正しく同定されていないと考えられる No.3のペプチドでは相関係数が 0.97となり、理論値と測定値の間で相関を取ることにより、推定アミノ酸配列の妥当性を検定できることが明らかとなった。

[0066] 次に、同位体比の実測値を用いて、データベース中の全ペプチドの同位体比と比較し、候補ペプチド群を選択する場合の実施例について説明する。図 2のスペクトルが得られた場合について、同位体比の実測値をデータベース中の当該分子量の全ペプチドの同位体比と比較し、候補ペプチド群を選択した。図 2スペクトル中のぺプチド同位体のピーク間の m/zの差より、荷電数は 3であり、従ってペプチドの質量数の実 S!J値は 2328.9である。 International protein index (IPI) database

(ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/ipi.MOUSE.fasta.gz)の July 1, 2004 versionの MOUSEタンパク質（40,981個）を用いて in silicoでトリプシン消化し、得られたペプチド力 5残基以上で配列がユニークなものは 753,926個であった。図 2から得られた同位体比（実測値)を、このペプチド群の同位体比 (理論値）に対し回帰し、その時の回帰直線の相関係数を算出した。図 9は、質量数が近傍 (2328.9

- lDa、 2328.9Da、 2328.9 + IDa)のペプチド群についての結果を示す。

[0067] 相関係数のクライテリアは測定装置、条件によって変動するが、推定されたアミノ酸配列の妥当性を反映したパラメータである係数を 0.99以上とした場合には、質量数から選ばれた候補ペプチド 360個から、同位体比により 160個に絞り込まれた。この絞り込まれた配列に、図 9中にで示されたマスコットにより正しい配列として選ばれた候補配列が含まれて、たことが判明した。

[0068] 同様に、図 4のスペクトルが得られた場合、上記と同様、同位体比の実測値を

753,926個のペプチドの理論同位体比に対して回帰分析し、その回帰直線の相関係数を調べた。図 10は、ペプチドの質量数 939.39の近傍（プラスマイナス IDa)についてのデータを示す。マスコットによる候補配列は、図 10中にて△で示した。相関係数のクライテリアを 0.99以上とした場合、候補ペプチドは 1203個から 362個に絞り込むことが可能であり、マスコットにより誤っているとされた配列は、候補ペプチド群から除外することが可能であった（図 10参照)。

[0069] ペプチドがトリプシン消化により生成したペプチドであると!/、う情報を基に、同位体比から候補ペプチドを絞り込むこと、つまり、推定されたアミノ酸配列から複数のァミノ酸配列を選択することが可能であり、絞り込まれた配列はマスコットによる正誤判定と矛盾しないものであった。同位体比は、候補ペプチドの絞り込みの新たなパラメータとして使用可能であると考えられる。

産業上の利用可能性

[0070] 本発明によれば、プロテオーム技術においてペプチドを同定するにあたり、 MSにより得られた質量情報あるいはアミノ酸配列情報を基に、データベース検索を行って推定されたアミノ酸配列が正、か否かの評価を、 MSスペクトル力得られる同位体比という付加的な情報を用いることが可能となり、ペプチドの同定をより精度高く行うことができるようになった。

図面の簡単な説明

[0071] [図 1]代表的なペプチドの質量分析スペクトルの一例を示す。

[図 2]本発明の一の実施例における、ペプチドの MSスペクトルからの同位体比の測定値および推定されたアミノ酸配列から計算される理論値と、その測定値および理論値との相関関係を示す図である。 (A)は MSスペクトルのピーク高さにおける関係を示し、（B)は測定値および理論値との相関関係を示す。

[図 3]本発明の別の実施例における、ペプチドの MSスペクトルからの同位体比の測定値および推定されたアミノ酸配列から計算される理論値と、その測定値および理論値との相関関係を示す図である。 (A)は MSスペクトルのピーク高さにおける関係を示し、（B)は測定値および理論値との相関関係を示す

[図 4]本発明のさらに別の実施例における、ペプチドの MSスペクトルからの同位体比の測定値および推定されたアミノ酸配列から計算される理論値と、その測定値および理論値との相関関係を示す図である。 (A)は MSスペクトルのピーク高さにおける関係を示し、 (B)は測定値および理論値との相関関係を示す

[図 5]図 5は、質量分析装置による質量分析後、本発明に係る検定方法のスキームを示す。

[図 6]図 6は、本発明による検定方法に係るプログラムを、コンピュータにて実行させる検定装置の機能ブロック図を示す。

[図 7]図 7は、本発明に係る検定方法を実行するプログラムを、概念的に表すフローチャートである。 [図 8]図 8は、本発明に用いる演算部の詳細な構成を示す機能ブロック図である。

[図 9]図 9は、本発明の実施例において、質量数が近傍（2328.9- lDa、 2328.9Da、 23 28.9 + IDa)のペプチド群についての相関係数の結果を示す。

[図 10]図 10は、本発明の実施例において、ペプチドの質量数 939.39の近傍 (プラスマイナス IDa)についての相関係数の結果を示す。

Claims

請求の範囲 [1] ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定する方法であって、

(1) 前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出する工程と、

(2) 前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定するェ程と、

(3) 前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、推定されたアミノ酸配列の妥当性を評価する工程と、

を含む、推定されたアミノ酸配列の検定方法。

[2] (4)前記妥当性の評価に基づき、前記推定されたアミノ酸配列が正、か否かを判断する工程を、あるいは、前記妥当性を反映したパラメータの値に基づいて、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する工程を、さらに含む請求項 1に記載の検定方法。

[3] 前記選択工程は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列から選択する、請求項 2に記載の検定方法。

[4] 質量分析装置と、演算部を有するコンピュータとを備え、前記質量分析装置にて得られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定する装置であって

前記演算部は、前記ペプチドの質量情報及び/又はペプチドの修飾情報を受けた後に、

(a)前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出する算出手段と、

(b)前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する測定手段と、

(c)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、前記演算部が推定したアミノ酸配列の妥当性を評価する評価手段と、を備える検定装置。

[5] (d)前記妥当性の評価に基づき、前記演算部は前記推定されたアミノ酸配列が正しいか否かを判断する判断手段をさらに備える、あるいは、前記推定されたアミノ酸配列の妥当性を反映したパラメータの値を計算される計算手段をさらに備え、前記パラメータに基づいて、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する、請求項 5に記載の検定装置。

[6] 前記選択は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列から選択する、請求項 5に記載の検定装置。

[7] ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾情報を受けるコンピュータに、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定させるためのプログラムであって、

(i)コンピュータが備える演算部へ前記ペプチドの質量情報及び/又はペプチドの修飾情報を入力する工程と、

(ii)前記演算部が、前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出する工程と、

(iii)前記演算部が、前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する工程と、

(iv)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、前記演算部が推定したアミノ酸配列の妥当性を評価する工程と、

を実行するプログラム。

[8] (V)前記妥当性の評価に基づき、前記演算部が前記推定されたアミノ酸配列が正しいか否かを判断する工程を、あるいは、前記推定されたアミノ酸配列の妥当性を反映したパラメータの値に基づ、て、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する工程を、さらに含む請求項 7に記載のプログラム。

[9] 前記選択は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列から選択する、請求項 8に記載のプログラム。

[10] 請求項 7ないし 9のうち何れか一項に記載のプログラムを格納したコンピュータ読み取り可能な記録媒体。