WO2004090526A1

WO2004090526A1 - 試料解析方法及び試料解析プログラム

Info

Publication number: WO2004090526A1
Application number: PCT/JP2004/004621
Authority: WO
Inventors: Atsushi Ogiwara; Takao Kawakami; Toshihide Nishimura
Original assignee: Medical Proteoscope Co., Ltd.
Priority date: 2003-03-31
Filing date: 2004-03-31
Publication date: 2004-10-21
Also published as: EP1626274A4; US20060194329A1; CA2521108A1; JP4185933B2; JP2008241721A; EP1626274A1; JPWO2004090526A1

Abstract

試料に含まれる成分を分析するに際して、優れた分析能を達成することができる試料解析方法及び試料解析プログラムを提供する。　本発明に係る試料解析方法は、試料の分析の結果として得られた多次元データにおける、少なくとも1次元のパラメータを補正する工程aと、上記工程aにより得られる補正後のデータを複数の試料について比較する工程bとを含む。

Description

明細書試料解析方法及び試料解析プログラム技術分野

本発明は、試料の分析の結果として得られた多次元データを用いた試料解析方法及ぴ試料解析プログラムに関する。背景技術

例えば、液体クロマトグラフィー（以下 LC と略記する）と質量分析（以下 MS と略記する）を連結した液体クロマトグラフィー質量分析（以下 LC— MSと略記する）の結果として、横軸に質量 Z電荷比（以下 m/zと略記する）、縦軸にイオン強度をとつたグラフとして 2次元上にスぺクトルデータを得ることができる。ここで、 LCの役割は、 MSの処理能力に適応させるために、試料を単に分画することにある。

すなわち、 LCによって分画された試料を MSで分析することによって、上述したような 2次元のスぺクトルデータを得ることができ、試料中の成分分析を行うことができる。ところが、 LCの役割を単に分画に限定することにより、従来の LC 一 MSでは、検体中から検出 ·識別できるタンパク質の種類が網羅的でなく、分析能 ·解析能が低いといった問題がある。

一方で、ク口マトグラフィーを単に分画だけでなく試料の特性を現す情報として利用する目的で、複数のクロマトグラフィー結果を比較できるようにするために、時間軸を補正して重ね合わせる（align)方法がいくつか提案されている。その代表的なものとして、 Dynamic Time Warping (以下、 DTW と略記する）および Correlation Optimized Warping ( (以下、 COWと略記する）がある。いずれも動的計画法アルゴリズムに基づいた 1つの実装形態として、それぞれユークリッド距離、あるいは相関を 2つのクロマトグラフィ一の距離もしくは類似性の指標とするものである (V. Pravdova, B. Walczak, D. L. Massart, A comparison of two algorithms for warping of analytical signals ， Anal. Chim. Acta 456 : 77-92 (2002) )。しかしながら、これらの方法は、クロマトグラフィーの時間軸と信号強度との 2次元で表されるクロマトグラムに適用されるものであるため、多次元データにおける少なくとも 1次元のパラメータを補正するものではない。

さらに、このような重ね合わせ方法は、比較対象となるクロマトグラムあるレ、はスぺクト口グラムがある程度類似していることが前提となる。実際、 DTW にせよ COWにせよ、比較対象のプロファイル間における距離の最小化あるいは相関の最大化を目指した重ねあわせを行うため、比較対象のプロフアイルの共通性が乏しい場合には適切な重ねあわせが得られない可能性が十分にある。このように高い共通性を前提とした方法は、例えば、実際の疾患病態解析や薬剤応答性解析のように、多くの因子の変動が予想され、しかもそれぞれの変動量が微細で、個体差や測定誤差などに紛れそうな場合には不適切である。

そこで、本発明は、上述したような実状に鑑み、試料に含まれる成分を分析するに際して、優れた分析能を達成することができる試料解析方法及び試料解析プログラムを提供することを目的とする。発明の開示

上述した目的を達成した本発明は以下を包含する。

( 1 ) 試料の分析の結果として得られた多次元データにおける、少なくとも 1 次元のパラメータを補正する工程 aと、上記工程 aにより得られる捕正後のデータを複数の試料について比較する工程 bとを含む試料解析方法。

本試料解析方法において、多次元データとしては、クロマトグラフィー質量分析の結果として得られる、質量/電荷比を示すパラメータと、イオン強度を示すパラメータと、保持時間を示すパラメータとからなる 3次元データを挙げることができる。また、このとき、工程 aでは保持時間を示すパラメータを補正することが好ましい。

また、ここで、補正対象のパラメータを除いたパラメータに関するプロフアイルを参照プロファイルと定義し、複数の試料間で複数の参照プロファイルに関する配置類似性の尺度となる評価関数を与えることができる。この場合、工程 aでは、当該評価関数の値を最適化する最適解搮索問題として各プロファイルの配置を求めることができる。

このとき、評価関数は、以下の①〜⑤からなる群から選ばれる 1以上の項で定義されることが好ましい。

①補正対象のパラメータに関するプロファイル間の類似性及び/又は距離に関する項

②参照プロファイルに関するプロファイル間の類似性及び/又は距離に関する項

③比較対象となるプロファイル間でのデータ点の一致の程度に関する項

④比較対象となるプロファイル間でのデータ点の不一致の程度に関する項

⑤比較対象となるプロファイル間での標準物質由来シグナルの一致又は不一致の程度に関する項

⑥比較操作を繰り返す際に、過去の比較における一致の程度に関する項

また、工程 aでは、補正対象のパラメータについて最適解探索問題として評価関数の値を最適化する際に動的計画法のアルゴリズムを用いることができる。この動的計画法のアルゴリズムでは、補正の対象となるパラメータに含まれるデータ点の最適な対応関係を、スコアを算出して評価する際に、標準物質に由来するデータ点に関する対応関係については、当該スコアを良くする設定とすることが好ましい。さらに、この場合、標準物質に由来するデータ点に関する対応関係については、必ず指定された点で対応することを拘束条件とすることが好ましい。上記（1 ) に係る試料解析方法は、特に上記工程 aにおいて、あらかじめ添加された標準物質に由来する情報を用いることによって、解析の精度をより向上できるとともに、補正処理の能力をも向上させる。本発明に係る試料解析方法のなかでも、このような特 [を備える方法を internal standard guided optimal profile alignment (z-OPAL) 法と命名する。

また、上述した本発明に係る試料解析方法は、各種データを入力する機能を有する入力手段、プログラムに従って演算処理を実行する機能を有する演算処理手段、当該演算処理の結果等を表示する機能を有する表示手段を備えるコンビユータに実行させるためのプログラムとして実現することができる。

一方、本発明に係る試料解析方法は、異なった種類の試料の間で量の異なる物質を検出 ·同定することができる。具体的には、複数の試料において多次元データとして、クロマトグラフィー質量分析の結果として得られる質量/電荷比を示すパラメータと、イオン強度を示すパラメータと、保持時間を示すパラメータとからなる 3次元データを測定し、複数の試料間で 3次元データを比較し、イオン強度が有意に異なるシグナルを検出 ·同定することができる。これらのシグナルの特性、即ち、質量ノ電荷比および保持時間に十分近接した特性を持つシグナルを生じさせた物質に対して、更なる解析を施すことで、当該物質を同定することが可能である。

さらに、検出 ·同定工程を、例えば疾患由来試料と、健常者あるいは健常組織由来試料とに適用することにより、疾患群と健常群で有意に異なる存在量を示す物質を検出 '同定することができる。これによつて同定された物質は、バイオマ一力一として利用することができる。バイオマーカー検出'同定結果を利用して、疾患の診断や治療法の選択へ利用することが可能である。

さらにまた、検出 ·同定工程を、例えば特定の治療法あるいは薬物への応答性の差異、あるいは副作用の差異を示す患者集団由来の試料へ適用することで、治療法 Z薬剤応答性あるいは副作用のマーカーとなる物質の検出 ·同定へ利用可能である。

本明細書は本願の優先権の基礎である日本国特許出願 2003-95732 号の明細書及び/又は図面に記載される内容を包含する。図面の簡単な説明

図 1は、本発明に係る試料解析方法及ぴ試料解析プログラムにより取得された 3次元のスぺクトルデータの一例を示す図である。

図 2は、 3次元データの一例を示す図である。

図 3は、図 2に示した 3次元データとの対応関係を検索するために設定したもう一つの 3次元データの一例を示す図である。

図 4は、図 2に示した 3次元データと図 3に示した 3次元データとの最適な対応配置を示した図である。

図 5は、図 2に示した 3次元データと図 3に示した 3次元データとの最適な対応配置を検索する際の概念を示す図である。図 6は、図 5に示した最適配置探索において、標準物質由来の情報を利用して経路を限定すると、探索空間のうちの灰色部分はもはや探索する必要がないことを示した図である。

図 7は、標準物質由来の情報をより多く利用して経路の拘束条件を増やすと、探索不要な空間が増えて、探索効率がいっそう向上することを示した図である。図 8は、本発明に係る試料解析プログラムによって、同一種類の 5つの測定結果で時間軸上摇らいでいる波形を、 1 つに重ね合わせてシグナルを足し合わせた結果を示した図である。

図 9は、本発明に係る試料解析プログラムによって、異なる 7種類の試料測定から得られたプロファイルを時間軸をそろえて重ね合わせることにより、時点ごとに異なった試料間での相互比較が行えるようになったことを示した図である。図 10は、本発明に係る試料解析プログラムによって、異なった 2種類の試料間の差スぺクトルを計算して示した図である。

図 11は、本発明に係る試料解析プログラムによって、試料群間に有意な量的変動があるシグナルとして選別されたものを示した図である。

図 12は、本発明に係る試料解析プログラムを、実際の臨床検体を用いたマーカ一探索に応用し、異なった病理診断結果によるグルービングに応じてシグナルを分類できることを示した図である。

図 13は、図 12に示した結果に対し、さらに統計検定を行うことで、異なった病理診断結果に応じて量的に変化しているシグナルを拾い出したものを示した図である。

図 14は、図 13に示した結果の各シグナルに対し、さらに MSZMSによる蛋白質同定との関連付けを行つた結果を示した図である。

図 15は、図 14に示したような形で既知の蛋白質と関連付けられたもののうち、特に癌の転移に関連することが知られている蛋白について、本発明に係る試料解析システムで見出された結果の一部を示した表である。発明を実施するための形態

以下、図面を参照して本発明を詳細に説明する。試料の調整

本発明に係る試料解析方法では、先ず、解析対象の試料を採取する。解析対象の試料としては、特に限定されないが、例えば、動物個体由来の臓器の組織切片や血漿 ·リンパ液などの体液成分、植物の緑葉や花弁などの器官、環境中の土壌 · 水成分などがあげられる。これらの試料に含まれる分析対象物質としては、特に以下に限定されないが、例えば、有機化合物、無機化合物、有機金属化合物、金属イオン、ペプチド、蛋白質、金属蛋白質、リン酸化を含む翻訳後修飾を受けたペプチド、リン酸化を含む翻訳後修飾を受けた蛋白質、核酸、糖質、脂質などがあげられるが、特に望ましくはペプチド、蛋白質、金属蛋白質、翻訳後修飾を受けたペプチドもしくは蛋白質である。

また、採取した試料は、分析の目的及び採取した試料の特性に合わせて、必要であれば各種処理を施すことが好ましい。例えば、（ァ）タンパク質群の分離あるいは分画、（ィ）タンパク質群の酵素的及ぴ Z又は化学的切断、（ゥ）切断によつて生じたペプチド混合物の分離あるいは分画、および（ェ）標準物質の添加、の全ての要素あるいは一部の要素の組み合わせて行う分析前調製を施すことが好ましレ、。

より具体的に'、「（ァ）タンパク質群の分離あるいは分画」は、一次元のドデシル硫酸ナトリゥム（SDS) 電気泳動法、二次元電気泳動法、キヤピラリー電気泳動法、イオン交換クロマトグラフィー、ゲルろ過クロマトグラフィー、順相クロマトグラフィー、逆相クロマトグラフィー、ァフィユティークロマトグラフィー、或いはこれらの組み合わせによる多次元分離 ·分画等によって行うことができる。また、「（ィ）タンパク質群の酵素的及び/又は化学的切断」は、トリプシン消ィ匕、キモトリブシン消化、 Lys- C消化、 Asp- N消化、 Glu- C消化、臭化シアン分解或いはこれらの組み合わせによる切断等によつて行うことができる。

さらに、「（ゥ）切断によって生じたペプチド混合物の分離あるいは分画」は、一次元のドデシル硫酸ナトリゥム（SDS) 電気泳動法、二次元電気泳動法、キヤピラリー電気泳動法、イオン交換クロマトグラフィー、ゲルろ過クロマトグラフィ一、順相クロマトグラフィー、逆相クロマトグラフィー、ァフィ二ティークロマトゲラフィー或いはこれらの組み合わせによる多次元分離 ·分画等によって行うことができる。

さらにまた、「（ェ）標準物質の添加」において標準物質は、選択したイオン化法にてイオン化できるものであって、測定の L C保持時間の範囲内に溶出するものであって、溶出時間および分子ィオン強度の再現性が高いものを選択することが好ましい。このような好ましい標準物質としては、例えば、有機化合物、無機化合物、有機金属化合物、金属イオン、ペプチド、蛋白質、金属蛋白質、リン酸化を含む翻訳後修飾を受けたぺプチド、リン酸化を含む翻訳後修飾を含む蛋白質、核酸、糖質、脂質など、より好ましくは、ペプチド ·蛋白質で市販品、天然に存在する物質あるいは合成された物質を挙げることができる。

以上、（ァ）〜（ェ）に示した分析前における各種処理は、例えば、「ァ、ェ、ィ、ゥの順」、「ェ、ィ、ゥの順」、「ィ、ェ、ゥの順」、「ェ、ァの順」、「ェ、ィの順」「ィ、ェの順」又は「ェのみ」で行うことができる。

2 . 試料分析

次に、試料を分析することによって、試料に関する多次元データを取得する。具体的には、試料を LC-MSにより分析し、 m/"^ イオン強度及び保持時間からなる多次元データを測定する。ここで、 LC一 MSにより分析するとは、試料をクロマトグラフィ一の原理に従って分離又は分画し、その後、分離又は分画された試料に含まれる成分を質量分析の原理で測定することを意味する。なお、保持時間は、試料をクロマトグラフィーの原理に従って分離又は分画する際の時間として測定される。また、 mZz及ぴイオン強度は、質量分析の結果として測定される。

また、クロマトグラフィーの原理としては、特に限定されないが、逆相クロマトグラフィー、キヤピラリー電気泳動、ァフィ二ティークロマトグラフィー、クロマトフオーカシング、等電点フォーカシング、ゲルろ過クロマトグラフィ一等の各種クロマトグラフィーの原理を適用することができる。特に、本明細書において LCと表記する場合、液体クロマトグラフィーのみを意味するのではなく、広く一般的なクロマトグラフィーを意味する。

LC -MSにおけるクロマトグラフィーでは、再現性の高い溶出プロファイルが得られること、分離能が高いこと、適当なイオン化のインターフェースを介して MS に直接分子イオンを導入することが可能であることが好ましい。

より具体的に、液体クロマトグラフィーにおける好ましい条件としては次の通りである。試料中のぺプチド群を分析対称とする場合には、水 ·ァセトニトリル溶液に低濃度の蟻酸などの強酸を含む溶離液を用いた C18カラムによる逆相液体クロマトグラフィーが好ましい。また蛋白質群を分析対称とする場合には、水 - ァセトニトリル溶液に低濃度の蟻酸などの強酸を含む溶離液を用いた C4 カラムによる逆相液体クロマトグラフィ一が好ましい。

質量分析は、特に限定されないが、磁場型質量分析計、飛行時間型質量分析計、四重極質量分析計、イオントラップ質量分析計、フーリエ変換質量分析計またはこれらのハイブリッド及びタンデム質量分析計等により行うことができる。より好ましくは、エレクトロスプレーイオン化またはナノエレクトロスプレーイオン化と結合できる磁場型質量分析計、飛行時間型質量分析計、四重極質量分析計、イオントラップ質量分析計、フーリエ変換質量分析計またはこれらのハイプリッド若しくはタンデム質量分析計を用いて質量分析を行うことが好ましい。

LC-MS における質量分析では、再現性の高い質量スペクトルが得られること、 500ppm以下の高い質量精度を有すること、一定範囲の mZzの分子イオンに対して衝突誘起解離（CID) をかけ、当該分子イオンのフラグメントイオンの質量スぺクトルが得られることが好ましい。

このように、試料を LC一 MSにより分析し、 m/z、イオン強度及び保持時間を測定することによって、試料の分析結果を 3次元データとして取得することができる。なお、 LC一 MSによる分析は、保持時間に関するデータ、 mZzに関するシグナル及びイオン強度に関するデータを、入力手段を介してコンピュータに入力し、詳細を後述するアルゴリズムに従って演算処理手段によって処理を行うことにより図 1に示すような 3次元データとして取得することができる。本アルゴリズムは、コンピュータソフトウェアに搭載することができる。当該ソフトウェアをコンピュータにィンストールすることによって、 CPU等の演算処理手段により本ァルゴリズムをコンピュータ上で実現することができる。従って、図 1に示すような 3次元データは、コンピュータの表示装置に表示することができる。

従前の LC一 MSによる解析方法においては、単に試料の分画のために LCを行つているため、保持時間は解析対象パラメータとして使われておらず、試料の分析結果として横軸に m/z、縦軸にイオン強度をとった 2次元データが解析対象となりうるに過ぎなかった。これに対して本発明に係る解析方法によれば、試料の分析結果を 3次元空間上にプロットされるプロファイルとして取得することができるため、試料の分析能を飛躍的に向上させることがでぎる。具体的には、本発明に係る解析方法によれば、保持時間を示す軸の方向に広がりを持った多数のスぺクトルの重ね合わせとしてデータを取得でき、従前の解析方法と比較してより多数の成分に関して、スぺクトルに基づく同定を行うことができる。このため、例えば、複数の試料について得られた多次元データを比較することで各試料の成分分析をより厳密に行うことができる。

3 . データ解析

次に、本発明に係る解析方法においては、以上のように測定した保持時間を、演算処理手段の制御のもとに本発明に係るアルゴリズムによって補正することもできる。ここで、一般に保持時間は、 LCにおける移動相の組成、流速、カラム温度等のファクターが時間的に微小な変化を生じることから、非線形的に変動することが多い。したがって、本発明に係る解析方法で取得された 3次元データに関しても、複数の試料について解析を行った場合に試料間の保持時間を示す軸が非線形的に変動していることが考えられる。そこで、本発明に係るアルゴリズムにおいては、保持時間の補正（以下、時間軸補正とも言う）を行う。

伹し、本発明に係るアルゴリズムが対象とする時間軸補正は、従前の方法で DTW アルゴリズム等によるクロマトグラムの時間軸捕正のような、保持時間一信号強度の 2次元空間で表現される単一次元プロファイルの補正ではない。本発明が対象とするデータは、時間軸に対して補正されるべきプロファイルが少なくとも 2 次元以上の多次元で表現されるものである。

以下、当該アルゴリズムについて説明するが、当該アルゴリズムは保持時間の補正に限定されず、多次元のパラメータが得られた場合に少なくとも 1次元のパラメータを捕正する場合に広く適用することができる。言い換えると、当該アルゴリズムは、試料の分析の結果として得られた多次元のパラメータ（例えば 3次元のパラメータ）における、少なくとも 1次元のパラメータを補正する際に適用することができる。従って、以下の説明においては、 + ₉次元の測定データを取得した場合のアルゴリズムについて説明する。

先ず、補正対象とするパラメータを含む；?次元の測定値を (_X1 ... )とし、補正の際に参照する g次元の測定値を (y ... y )とすると、データの集合（プロフアイル） zは _ζ = (_χ ... _χ y ... _v )となる。ここで、 x及び yは、データ点の個数 Nの次元を持つ列べクトルである。

なお、データ点とは、上記プロファイル行列（Z ) の 1つの行を構成する + 9 次元のベクトルであり、測定対象の 1つの要素について、測定パラメータと値の組を表している。特に、 " e {l，... , N} 番目のデータ点を

= - x_p(n) y_x (n) ■■■ ^(" のようにも表す。

また、補正の基準となる測定値を^ = … x_p(*s) (* … y_q(*s)) とする。ここで、 sは I D S は基準点の数）を意味する。また、 Z( )は、いずれも各基準点のとる値が推定可能な範囲に収まらなくてはならない。

さらに、本アルゴリズムにおいてネ霜正を行うためには 2つ以上のプロファイルデータ Z⁽¹)

… y > … y ²⁾ )が必要となる。

以上のような定義の下で、本アルゴリズムにおいては先ず、個のパラメータ軸 … x_pそれぞれにおいて取りうる値を量子化する。但し、量子化プロセスは、計算精度と計算時間との兼ね合いで行うものであり、値のとりうる場合の数が十分計算可能な範囲にあるならば、必ずしもこの段階で行わなくてもよい。次いで、個のパラメータ軸： ^ … x_pそれぞれにおいて x「>及び^ ²⁾ (但し i e {l,... , p} ) の各データ点を、順列を保って対応付けを行う。なお、一般に、 Z⁽¹⁾ 及び Z⁽²⁾に含まれるデータ点の個数は異なりうるので、全てのデータ点が 1 対 1 に対応するわけではなく、対応する相手のないデータ点も含むことに留意する。このとき、例えば、以下のような評価関数を用いてプロファイル全体での対応付けの評価得点 Eを算出する。なおこの評価得点は、類似性を表す尺度として、大きいほどよい「得点」として定義することも、逆に距離を表す尺度として、小さければよい「失点」として定義することも可能である。以下では失点としての定義で説明する，

ここで x;:は、 i番目のデータ点における r番目のパラメータの値を表し、 N N₂ はそれぞれ 1番目と 2番目のプロファイルにおけるデータ点の総数である。また、上記評価関数において関数/は、対応する点の類似度合いの距離を与える関数で、例えば以下のような関数を挙げることができる。

ここで上記式（I)における、右辺第 1項目は補正すベきパラメータこおいて当該パラメータの測度における差異の程度に応じたペナルティ、第 2項目は合わせるべき測定パラメータが補正後どれだけずれたかを当該パラメータ測度上の距離に応じたペナルティ、第 3項目はパラメータ補正によって 2つの点が全てのパラメータにおいて一致したことのボーナスとして与えられるスコア、逆に第 4項目は補正対象パラメータ軸上での 2つの点が一致しなかったことによるペナルティスコアに相当する。また第 5項目は、後述するように、標準物質によるシグナルの一致をボーナスとして評価するための項である。

また、上記式（I) における、 α、 β σ及ぴ πは、それぞれを含む項における係数であり、適宜設定できる値である。一例としては、 αを 1. 0 とし、 ]3を 0. 1 とし、パラメータ補正によって点が一致した場合には σを 0とし、一致しなかつた場合には πを 100とすることができる。

なお、関数 ',ゾ）は、着目するパラメータ rの値が/,ゾによって指定されるデータ点において対応した場合は 1、しなかった場合は 0を与える関数、逆に ( ,_/)は対応した場合が 0、非対応の場合が 1となる関数である。

上記式（I)において、第 2項目は、補正対称のパラメータを除いたパラメータに関するプロファイル（参照プロファイル）について、試料間での配置類似性の尺度を示している。

また、ここでは 2点の不一致によるペナルティを与える式として、対応 ·非対応によって定数となる例を示したが、所定の関数によって算出される値であっても良い。例えば、隣接するデータ点が対応するか否か、対応しないデータ点が出現した列の長さ等を考慮した関数によって第 4項目を算出することができる。また、上記式（I)において、ノルム ||χ||は一般的なベタトル空間上の距離を表し、必ずしもユークリッド距離に限定するものではない。さらに | - Iのように 2 点間の値の差を計算する際に、対応する点がない場合は、値を 0 (または適当な欠損値の代替値）に置き換えて計算するものとする。

なお、本発明において評価関数は、上記式（I)に示す関数に限定されるものではない。例えば、このようなデータ点 ·,_ )間の補正対象パラメータ或いは参照パラメータの距離の線形結合だけではなく、両者の距離に応じた任意の関数、更には直前若しくはそれまでに連続して対応したデータ点列におけるパラメータ間の距離も勘案した関数を定義することも可能である。また、評価関数としては、上記式（I)に限定されず、試料間において参照プロフアイの配置類似性の尺度となるような関数を定義することも可能である。

あるいは、ここでは失点としての例を示したが、上記式（I)における右辺各項の符号を逆転させた上で、距離の部分を相関などに置き換えることにより、逆に類似性を表す指標として、大きければ大きいほどよい得点としての評価関数を定義することも容易に可能であり、そのような評価関数も本アルゴリズムに適用することができる。

上記式（I)の第 5項で例示したように、対応する点が標準物質由来の基準点か否かで、例えば次のような特別な得点を与えるものとする。即ち、対応するデータ点がいずれも標準物質由来のものであった場合は、 ^>',ゾ）= として、はるかに大きな得点を設定することで、評価関数（この場合は距離即ち失点としての定義）が大きな負の値をとりうることで結果的にこのような対応関係が望ましいことを定義する。さらに、一方が標準物質由来であるのに他方がそうでない場合は、逆に 6 / ，ブ) = - としてはるかに大きな距離となるように定義することも可能である。

以上で説明した評価関数を最適化するアルゴリズムによって、上記「2 . 試料分析」で取得した 3次元データに関して、保持時間を示すパラメータの補正を行うことができる。上記「2 . 試料分析」で取得した 3次元データに関して、最適化アルゴリズムを適用する場合、以下の（a) 〜（d) の手順に従って説明することができる。

(a) 保持時間補正の概念

保持時間を補正する操作は、 mZz、イオン強度及び補正時間からなる単一の三次元パラメータ集合体を対象とするのではなく、 2 つの三次元パラメータ集合体の比較によって実現される。三次元パラメータ集合体は、図 2に示すように、 m Zzと保持時間とをそれぞれ行と列にとった行列において、 m/z及び保持時間が対応する位置の行列要素にイオン強度が入るような形で表される。保持時間を捕正する対象の三次元パラメータ集合体をそれぞれ z⁽¹⁾及ぴ z⁽²⁾とすると、保持時間の補正操作は、 Z⁽¹⁾及び Z⁽²⁾における 2つの行列で、保持時間軸に相当する列の対応関係を決める操作（以下、「対応配置の検索」と呼ぶ）に他ならない。例えば、図 2に示す行列を Z⁽¹⁾の行列とし、図 3に示す行列を Z⁽²⁾の行列とすると、図 4のような配置が望ましい対応配置（重ね合わせ配置）である。

(b) 2つの 3次元データにおけるパラメータ集合体間の対応配置の探索図 4に示すような対応配置を探索するためには、可能なすべての保持時間の対応付けを考える。この際、配置の対応関係の良し悪しを評価するスコアを定義し、配置毎にスコアを計算し、その中でもっともスコアがよいものを採用することで目的とする最適な対応配置を得ることができる。図 5は、図 2と図 3に示した三次元パラメータ集合体 Z⁽¹⁾及ぴ Z⁽²⁾に関して、保持時間の可能なすべての対応付けを示したものである。横方向に z⁽¹⁾の保持時間、縦方向に z⁽²⁾の保持時間が記されているが、（ィ） z⁽¹⁾及び z⁽²⁾でそれぞれ対応する保持時間のある場合が斜線、（口） z⁽¹⁾の所定の保持時間に対して z⁽²⁾の方に対応するものがない場合が横線、（ハ） z⁽²⁾の所定の保持時間に対して z⁽¹⁾の方に対応するものがない場合が縦線で示されている。 Z⁽¹⁾及ぴ Z⁽²⁾の全体的な保持時間の対応付けは、図 5の格子の最左上角から最右下角にいたる経路を、これら斜線 ·横線 ·縦線をなぞることで求めることに相当する。但し、一度下がったり右に進んだら、進んだ点から逆に上や左に戻るような経路は許されない。なお、図 5において太線で示された経路は、図 4 の対応対置に相当する。 (c) 保持時間対応配置の良否を判断するためのスコア

保持時間に関する対応配置の良否を判断するスコアは、例えば、次のようにして定義することができる。

iL最左上点におけるスコア、すなわちまだ対応関係がまったく決まっていない点でのスコアを 0とする。

ii) 前述の (ィ）（口）及び (ハ）のうちいずれかの場合をとることにより、対応関係が 1段階進んだ場合は、その直前のスコアに対して、（ィ）（口）及ぴ（ハ）毎に決められたスコアを加算することで、新たな対応関係の点におけるスコアとなる。例えば、以下のように (ィ) (口）及び（ハ）毎にスコアを設定することができる。

(ィ）の場合（図 5において斜線方向に進む場合）：

この場合、所定の保持時間に関して、 Z⁽¹⁾及ぴ Z⁽²⁾が互いに対応付けられるわけである。したがって、この場合、加算されるスコアとしては、 raZzパラメータとィオン強度パラメータが z⁽¹⁾及ぴ z⁽²⁾間でどれだけ類似或ヽは離れてレ、るかを反映した値を設定することができる。以下の説明では類似度としてスコアを定義した場合について説明する。例えば、 Z⁽¹⁾において所定の mZzの元でイオン強度が検出されているのに Z⁽²⁾には同 mZzの元でイオン強度が検出されなかったケース、あるいはその逆のケースであれば、一定の値（ペナルティスコア）を減じるようにスコアを設定することができる。また、所定の mZz において Z⁽¹⁾及ぴ Z⁽²⁾それぞれにイオン強度が得られている場合、例えば両イオン強度の差の絶対値に所定の係数を乗じて算出される値（ペナルティスコア）を減じるようにスコアを設定することができる。さらに、スコアとしては、両イオン強度の違いが大きければ大きいほど、得点が小さくなるような関数で算出されるものであっても良い。一方、 z⁽¹⁾及び z⁽²⁾における保持時間のずれもスコアに反映させることもできる。例えば、 Z⁽¹⁾及び Z⁽²⁾における保持時間の差の絶対値に所定の係数を乗じて算出された値（ペナルティスコア）を減じるようにスコアを設定することができる。スコアとしては、及ぴ Z⁽²⁾における保持時間の違いが大きければ大きいほど、得点が小さくなるような関数で算出されるものであっても良い。

なお、標準物質由来のシグナルが Z⁽¹⁾及び Z⁽²⁾で対応する場合には、後述する計算方法の工夫に加えて、スコア算定上も特別な措置を施すことが好ましい。特に、これらの点が z⁽¹⁾及ぴ z⁽²⁾間で一致することは強く求められるので、 z⁽¹⁾及び z⁽²⁾ともに標準物質由来シグナルとして対応付けられる場合には大きな得点を、逆に一方だけしか標準物質由来シグナルが見つからない場合には大きな失点を与える。

(口）及ぴ（ハ）の場合（図 5において縦又は横方向に進む場合）：

この場合、所定の保持時間に関して、及び Z⁽²⁾において対応する保持時間を見出せなかったわけである。したがって、この場合、所定の値（ペナルティスコァ）を減じるようなスコアを設定する。

i i i) このようにして図 5の格子の最左上角から最右下角にいたるまで、段階的にスコアを求めてゆき、最後に最右下角までいたった時点でのスコアが、得られた対応配置に対応するスコアになる。

(d) 保持時間に関する最適な対応配置を求める手順

基本的には、可能なすべての対応配置を列挙し、それぞれについてスコアを計算し、その中で最大のスコアを示す対応配置を選択すればよいわけであるが、上述したように、スコアは漸化式で与えられるため、「動的計画法」に適している問題である。すなわち、 3次元データ Z⁽¹⁾に含まれる J'番目の保持時間と Z⁽²⁾に含まれる番目の保持時間の対応関係を考える際には、（ィ） Z⁽¹⁾に含まれるー 1番目及び Z⁽²⁾に含まれる J一 1 番目に次いで Z⁽¹⁾及ぴ Z⁽²⁾両者ともに対応付けられる場合、（口） Z⁽¹⁾に含まれる J'一 1番目及ぴ Z⁽²⁾に含まれる j番目に次いで Z⁽¹⁾の保持時間に対応する Z⁽²⁾のパラメータがない場合、（ハ） Z⁽¹⁾に含まれる i番目と Z⁽²⁾ に含まれる '一 1番目に次いで z⁽²⁾の保持時間に対応する z⁽¹⁾のパラメータがない場合、の 3通りを考えることとなる。いずれの場合も 1段階前の状態におけるスコアがわかっていれば Z⁽¹⁾及び Z⁽²⁾の（ム J) 番目のスコアを算出することが可能となる。

そこで (ィ） (口）及び (ハ）の 3通りのうち、最もよいスコアを与えた場合のスコアとそこに至るまでの経路のみを記録しておき、このステップを図 5に示した格子の最左上角の出発点から最右下角のゴールに達するまで続ける。そして、記録した経路を最右下角から出発点まで、逆にたどることにより、最適経路、すなわち Z⁽¹⁾及ぴ Z⁽²⁾における保持時間に関して、最適な対応配置を求めることがでさる。

以上、（a)〜（d)の手順として説明した手法は、動的計画法に基づいた最適解探索手法と言い換えることができるが、本発明において適用可能なアルゴリズムは動的計画法に限定されるものではない。すなわち、目的の評価関数を最適化するより一般的な探索問題と捉えることで、他の最適探索アルゴリズムを用いて実装することも可能である。このようなアルゴリズムとしては、例えば A *アルゴリズム、遺伝的アルゴリズム（G A)、シミュレ一テッドアニーリング（S A)、最急降下法等による非線形計画法等によって実装することもできる。

( 〜（d)の手順として説明した手法は、いわゆる動的計画法に基づく手法であり、動的計画法に基づいている点では、 D TW法や C O W法と類似する部分がある。しかしながら、 D TWや C OWは、評価関数の形や計算手法もユークリッド距離あるいは相関を評価関数として、時系列データ点列そのままあるいは一定間隔の時間区切りでセグメント化した上での区間ごとの比較として、さらに 2つのプロファイルの時刻 0を出発点とし、それぞれのプロファイルの終了時刻をゴールとする同じ大域的制約条件の下に探索を実施する方式に限定されたものである。さらに、 D TWや C OWを用いる手法は、基本的に 2次元データとして表される時系列プロファイル、即ち時間軸とシグナル強度軸で表されるようなデータセットに対し、時間軸の非線形伸縮を行うことによって強度のプロファイルを重ね合わせるものである。

したがって、 D T Wや C OWを用いる手法では、（1 ) 特定の軸について特定の値をとる 1つないし複数個の切断面を用いて、あるいは、（2 ) 特定の軸に沿って全ての値を集約することによって、重ねあわせ操作を行わせることは、これらの方法の自然な拡張として容易に考えられる。例えば、 D T Wや C OWを用いる手法では、 LC- MS 分析で得られた保持時間、 mZ z、イオン強度からなる 3次元データについても、いくつか特定の m/ zに限定することにより、あるいは、全ィオンクロマトグラム（T I C ) のように保持時間軸に沿って全てのイオン強度を足し合わせることによって、時間軸補正が可能である。

しかしながら、（a)〜（d)の手順として説明した手法では、 D TWや C〇Wを拡張した方法とは異なり、補正対象の次元（保持時間軸）を除いた多次元プロファィルはそのままの形で直接比較することで、補正対象の次元を伸縮させることで、多次元プロファイルの重ねあわせを実現している。 D TWや C OWを拡張した方法では、 ( 1 ) 特定の切片に限った手法をとると、精度を保ちつつプロフアイル全体を重ね合わせるのと同じ結果が得られる保証がないこと、特定の切片を選択するための汎用性のある有効な手段がないこと、そのような保障なしに限定した重ね合わせ処理を行うことで、結果が恣意的になりうる危険があること、（2 ) T I Cのように情報を集約することで、せっかく次元を多くしてより分解能を向上させているメリットが得られなくなってしまう、といった問題がある。これに対して、（a)〜（の手順として説明した手法では、上記（1 ) 及び（2 ) の問題が全くなく、高精度にプロファイルの重ね合わせが可能となり、且つ、多次元データという高分解能を維持したままプロフアイルの重ね合わせが可能となる。

4 . データ解析における標準物質の役割

また、本発明に係る試料測定方法においては、以下に述べるような標準物質由来の情報を、本アルゴリズムを用いた計算手法に取り入れることで高い精度及ぴ計算効率を達成することができる。

上記「2 . 試料の分析」に先立って又は「2 . 試料の分析」の途中で標準物質を入れることにより、測定及び解析の過程で生じる可能性のあるバイアスを補正すると同時に、これらの情報を用いることによって、上述した最適な対応配置、すなわち、プロファイル同士の重ねあわせをより正確にかつより効率的に行うことが可能となる。すなわち、標準物質を用いることによって以下のメリットを得ることができる。

( 1 ) あらかじめ既知の量の標準物質を入れることで、全体のシグナル強度を捕正し、定量的な比較が可能となること

( 2 ) いくつかの標準物質を、補正すべきパラメータ（時間軸等）を合わせる際のランドマークとして使用できること

( 3 ) プロファイル重ねあわせにおいて、ある程度のプロファイル形状の共通性を与えることにより、重ねあわせが容易になること

これらメリットを上記「3 . データの解析」において最大限発揮させるベく、計算手法を以下のように改変することができる。すなわち、上述したァルゴリズムにおいて、標準物質に由来するシグナルのピーク部分を必ず通らなくてはいけない点として扱うように改変することができる。より詳しく説明すると、上述したアルゴリズムによる最適解探索では、図 ₅に示したような格子状の探索空間上で、左上の出発点から右下の到着点に至る最適経路（太線）を探索するものであるが、いまここで仮に縦列上の保持時間 1 5の点と、横の行で保持時間 1 3の点がそれぞれ標準物質由来であつたと仮定すると、解となりうる経路は必ずこの点を通らなければいけないというように拘束条件を設ける。そして、このような拘束条件を設定することによって、列 1 5と行 1 3を通る線で区分される探索空間のうちの左下と右上の部分空間を通る経路は排除されるため、探索しなければいけない空間を削減することができる（図 6 )。

このように、標準物質由来のシグナルについて拘束条件を設定するようにアルゴリズムを改変することによって、本発明に係る試料解析プログラムは、プロフアイル同士の重ねあわせをより正確に行うことができるとともに、処理の能率を大幅に向上させることができる。

さらに、標準物質由来のシグナルの数が増えるにつれて、検索空間はより限定されることになるため、プロファイル同士の重ねあわせ精度はより向上するとともに、より能率向上が期待できる。実際、図 7に示すように、丸印で示した点を標準物質由来シグナルの一致点として拘束条件を設定すると、灰色でマスクした領域は探索空間から削除される。《種類の標準物質由来シグナルで時間軸が《 +1 個に分割されたとすると、最良のケースとして分割が等間隔で行われたならば、探索空間は最大 1まで減少する。なお、標準物質由来のシグナルを拘束条件に n + \ 設定する場合、標準物質由来シグナルが均等に広く分布するように標準物質を選択することで、探索空間削減効果を最も発揮することができる。

なお、探索空間を限定して探索効率を上げるためのアルゴリズムに対する改変方法としては、図 5に示した探索空間の左上の出発点から右下の到達点に至る対角線の前後に、所定の幅を持った空間に限定するといつた拘束条件も考え得る。しかしながら、この場合、どの程度限定すれば良いのかといった確実な前提知識は一般に得られない虞がある。さらに、この場合、出発点や到達点が比較すべき多次元データ毎に大きくずれた場合には、求めるべき最適経路が限定された空間からはみ出す虞がある。例えば、クロマトグラフィーの溶出開始時刻は、大きく変動しうるので、この時刻を確実に観測できなければ、上記対角線の前後に所定の幅を持った空間に探索を限定する方法は適切とは言いがたい。

それに比べて、標準物質由来のシグナルを拘束条件に設定するようにアルゴリズムを改変する方法では、検体内部に添加した標準物質の出現した時点を揃えており、標準物質に由来するシグナルは最も確証のある参照点となる。その上、探索空間は最大^ "近くまで減らせるため、確実性及び効率性の両面から見ても優

n + 1 れているといえる。

さらに、標準物質由来シグナルで限定される 1つないしいくつかの部分空間に限って最適経路探索を行うことで、部分的な最適プロファイル重ね合わせを求めることができる。この際に、前述の評価関数の値を、プロファイル重ね合わせの程度の指標とすることで、プロファイル同士の類似性（あるいは距離）を測ることができる。多くの場合、主要なシグナルは限られた時間領域に集中的に現れるため、部分空間に限って最適経路探索を行って評価関数の値を求めることで、プ口ファイル同士、さらにはそれらのプロファイルを生じさせた試料同士の類似性 (あるいは距離）を効率よく求めることができる。

数多くの試料由来のプロファイルを重ね合わせて平均プロファイルを求めなければいけない場合や、あらかじめ試料の属性に関する情報が十分に得られていない場合は、まず部分空間に限って最適経路探索を行って試料間の類似性（または距離）を求めておき、その順番で逐次プロファイル重ねあわせを行い、あるいは試料同士のグルーピングを行うことが可能である。殊に、プロファイルの重ね合わせ処理を行う場合は、重ね合わせる順番に依存して結果が変化しうるので、できるだけ近いものから重ね合わせることが望ましいが、そのような処理を行う際にこの手法は有効である。

5 . データ解析後の処理 2つの多次元データについて、最適な重ね合わせが得られたならば、補正されたパラメータについて、新たな補正後の値を生成する。特に、クロマトグラムの保持時間を補正した場合は、捕正後の保持時間を求める。補正後の保持時間を求める方法としては、重ね合わせる 2つの多次元データのうち一方を参照用データとし、他方の多次元データにおける保持時間を当該参照用データにおける保持時間に一致させる方法（非対称型）と、重ね合わせる 2つの多次元データの両方を補正する方法（対称型）とを挙げることができる。特に対称型で補正後の保持時間を求めることが好ましい。

補正後の保持時間を求めて非対称型で 2つの多次元データを重ね合わせる場合には、参照用データの保持時間軸にあわせるべく、一致した点に関しては参照用データの保持時間をそのまま用い、参照データの対応する点が得られなかつた場合は、その前後で一致した点を用いて内挿によって補正後の保持時間を決めることができる。

しかしながら、非対称型で 2つの多次元データを重ね合わせるには、いずれの多次元データを参照用とすべきかが予め決まっている必要がある。例えば、標準物質のみを含むブランクを参照用データとすることも考えられるが、この場合は最初に重ね合わせに用いられた多次元データのプロフアイルの影響がかなり大きくなる可能性が高い。

これに対して、補正後の保持時間を求めて対称型で 2つの多次元データを重ね合わせる場合には、 2つの多次元データ間で対応する点が得られたところについては、それぞれの保持時間の算術平均とする。 2つの多次元データのいずれか一方だけのデータ点しか得られなかった場合は、その前後の最も近い対応点の補正後の保持時間の組から、内挿によって補正後の保持時間を得る。内揷による捕正が不可能な場合は、最も近くにある対応した点の補正後の保持時間をベースにして、データセット全体での平均時間スケールを係数とした外挿によって補正後の保持時間を得ることが可能である。

なお、この場合、前述のようにあらかじめ全ての多次元データ間の類似性 (距離）を事前に計算した上で、近いものから順次重ね合わせても良い。 6 . 出力処理

上記「5 .データ解析後の処理」で得られたプロファイルの出力方法としては、以下の ( 1 ) 及び ( 2 ) を挙げることができる。

( 1 ) 対応する点が得られなかった箇所も含めて、全て出力する。

( 2 ) 対応する点に限って出力する。

いずれの出力方法を選択するかは、本発明に係る試料解析方法の使用目的に応じて適宜選択することができる。例えば、測定誤差を相殺するため同一試料を複数回に亘つて測定した結果から平均を求めることを目的とする場合、又はきわめて類似した条件での複数試料の測定から代表的なプロファイルを得たい場合には上記（2 ) の出力方法が有効である。上記（2 ) の出力方法によれば、出力されるプロファイルは共通部分に限られるため、データの大きさを軽減して処理効率を上げることができる。

また、例えば異なった試料群の群間差を検出する場合には、上記（1 ) の出力方法を使用しなくてはならない。上記（1 ) の出力方法では、データの大きさは一般に増大するが、情報の損失は起こらない。

また、上記（1 ) の出力方法を選択する場合、さらに共通するプロファイルに重きを置いた重ね合わせを行うこともできる。この場合、以前の重ね合わせプロセスで対応する点に対して新たな点を対応させる場合は、評価関数のスコアを良くするような新たな項を当該評価関数に設けて、できるだけ同じ点に重なるように調整することも可能である。すなわち、例えば、上記式（I) で与えられる評価関数の最後に - , )のような新たな項を付与した新たな評価関数を用いて評価得点を算出する。そして、このような評価関数を用いる場合、以前の重ね合わせ点に対して対応が取れた場合には ·，_/)を 1、それ以外は 0とする。

一方、本発明に係る試料解析プログラムの出力は次のような形式となっている。 ·重ね合わせ処理で新たに得られた点の情報

•対応する入力データセット 1 (一方の多次元データ) の点の情報

•対応する入力データセット 2 (他方の多次元データ) の点の情報

出力は、これらの情報が重ね合わせ処理の結果として得られたデータ点の数だけ繰り返された形をとる。但し、対応する点がない場合には、それぞれ入力データセット 1あるいは 2の情報は存在しない。このように、出力には、対応する入力データセットの点の情報も含まれることにより、後述する例のように、最終的に得られた、重ね合わせプロファイルの各点が、元の多次元データのどれに由来するかを求めることが可能となる。なお、以上の情報の他にも必要であれば付加的情報をつけて出力することも可能である。

このようにして得られた重ね合わせ後のプロファイルについて、必要に応じてさらにいくつかのパラメータに関して集約あるいは量子化処理を行つてもよい。例えば、特に上記（1 ) のように全ての点を出力した場合は、時間軸分解能が求めるレベル以上に詳細になりすぎることもある。この場合は時間軸上きわめて近接した点同士はさらに集約して 1つにした方が、後の処理上得策である。集約された点の強度は、集約前の個々の点の強度の加算で置き換えることができる。同様にして、 m/ _Z軸においても必要分解能以上に近接した点は集約することができる。但しこの操作は重ね合わせ処理を行う都度実行してもよいし、必要な重ね合わせをまず行ってから、最後に 1回だけ行ってもよい。

7 . イオン化強度の規格化と標準物質

本発明に係る試料解析方法においては、測定したイオン強度について、上記「 3 . データ解析」に先立って規格化を行うことが好ましい。以下にイオン強度の規格化について説明するが、イオン強度の規格化手法は何ら限定されるものではない。具体的には、先ず、 LC一 MS分析に結果として得られた RAWファイルを、例えば Xcalibur™のユーティリティソフトウエアを用いてテキストファイルに変換する。次に、 C言語および Perl言語で作成されたプログラムにより、以下の一連のデータ処理を適用する。

(1) ノイズレベルのデータを除去するため、イオン強度が所定の値（例えば、 10² 以下）以下のシグナルを除去する。

(2) 必要ならば、処理時間の節約のためにデータ点を集約する。具体的に、例えば、 m/zは 1刻みに、保持時間は 0. 2刻みになるよう、元データの mZz値および保持時間の値を丸め、同じ値を持つ（mZz、保持時間）のデータ点は加算集計する。 (3)あらかじめ調べた ni/z値と保持時間から標準物質由来のシグナルを同定し、そのイオン強度値をもって測定値全体を除算することで規格化する。この際、 1 つないし複数の標準物質由来の複数のシグナルの平均値などの代表値を標準物質イオン強度値として用いる方法、予備実験などでシグナルの安定性を事前に検討したうえでもっとも安定なシグナルの値を用いる方法、などがある。

より具体的に、例えばニヮトリ卵白リゾチームを標準物質とした場合、 mZz値 715近傍及び 877近傍のシグナルを標準シグナルとすることができる。サンプルの測定データに対しては、 m/zについては前後 ± 1の範囲で、保持時間に関しては ra/z 715 (715 ± 1) のシグナルについては早期溶出シグナル群より、 m/z 877

(877± 1) のシグナルについては後期溶出シグナル群より探索することで、標準物質由来シグナルを探索することができる。なお、得られた値に 10⁷を乗じることで、標準物質由来のシグナル強度を 10⁷に捕正するといつた更なる補正を行つまた、ペプチドそのもの、例えばペプチド T (Ala- Ser - Thr - Thr- Asn- Tyr - Thr) および j3力ソモルフィン Ί (Tyr- Pro - Phe- Pro - Gly- Pro- lie)を標準物質として用いた場合、それぞれ mZz値 859近傍及ぴ 791近傍のシグナルを標準シグナルとすることができる。前者のぺプチドは比較的親水性であり、後者は疎水性である。本解析方法で保持時間による分離のために用いられている逆相クロマトグラフィ一では、前者の保持時間の値は低く、後者のそれはより高い。大部分のサンプル由来のぺプチドの保持時間はこの 2種類のぺプチドの保持時間の間にある。サンプルの測定データに対しては、 mノ zについては前後 ± 1の範囲で、保持時間に関してはあらかじめ標準物質のみを測定して得られたクロマトグラムからおおよその値を見積もつてから、その前後一定の範囲で探索することで、標準物質由来シグナルを見出すことができる。

本解析方法において標準物質としてべプチドを用いる場合、当該ぺプチド以外の物質 (例えば、夾雑物）を含まないことがシグナルノィズの検出を最小限に抑えるために重要である。したがって、天然物から抽出 ·精製して得られるものよりも、化学的に合成されたペプチド分子の方が、望ましい。また、ペプチド分子の性質については、あらかじめ設定された測定条件下で構造が安定なことゃ不溶ィ匕しないことが重要である。ぺプチド分子を構成するアミノ酸残基については、メチォニン、トリブトファン、ヒスチジンなど容易に酸化されうるアミノ酸残基を含まないこと、および塩基性の官能基を 2つ以上含まないことが望ましい。とくに後者については、測定手段の MSで原理的に多価イオンを生じるエレクトロスプレ一^ オン化法を用いた場合、ひとつの標準物質から価数の異なる複数のィォンシダナルが検出されることを避けるためである。

標準物質として蛋白質から加水分解あるいは化学的切断によって生じるぺプチド断片を用いる場合、当該蛋白質に由来するぺプチドイオンシグナルのうちで標準物質として採用したもの以外のぺプチドイオンシグナルの強度は出来る限り低いことが望ましい。

以上（1)〜（3) によって、測定されたイオン強度値を規格化することができ、複数の試料間におけるイオン強度の量的な比較を行うことができる。なお、測定されたイオン強度値の規格化は、上述した保持時間の補正に先立って行われるベきである。

8 . 試料間の比較分折

本発明に係る試料解析方法によって mZz、規格化されたイオン強度及び補正した保持時間からなる 3次元デ'ータを用いて、試料中に含まれるタンパク質群等の各種成分分析をコンピュータ上で行うことができる。具体的に、成分分析としては、（a) 加算の方法、（b) 減算の方法を挙げることができる。

a . 加算の方法

上述したように、本発明に係る試料解析方法によって取得された複数の 3次元データにおいては、保持時間のパラメータをそれぞれ適切に補正しているため、データ点間の対応関係を正確に取ることができる。したがって、複数の 3次元データにおいて、データ点同士の規格化されたィオン強度値同士を足し合わせることができる。

b . 減算の方法

「a. 加算の方法」と同様に、本発明に係る試料解析方法によって取得された複数の 3次元データにおいてはデータ点間の対応関係を正確に取ることができるため、データ点同士の規格化されたイオン強度値の差を求めることができる。

このように、本発明に係る試料解析方法によって取得された複数の 3次元データについて、加算或いは減算することができるため、以下のような、成分分析のアプローチをコンピュータ上で実現することができる。

(1) 実験データを集計する際への応用：

1 つのサンプル由来の試料を、測定の便宜上、複数の分画に分割して測定した場合であっても、当該複数の分画それぞれから取得された 3次元データにおいては、データ点間の対応関係を正確に取ることができる。したがって、上述した加算の方法に従って、全ての 3次元データを足し合わせることができる。これにより元のサンプル全体に含まれる成分の解析等を行うことが可能となる。

なお、このような集計を行う際には、複数の分画全てに！:つて足し合わせ、全体で 1つのプロファイルにまとめる方法のほかに、あらかじめ指示された個数により、近接する数個のプロファイル毎に集約する方法もある。この場合、全体が" 個に分画され、そのうち近接する w個ずつを集約した場合は"-《 +1個のプロフアイルが得られることになるが、その場合は得られたプロファイルについては、対応する分画同士以外はそれぞれ別個に扱って以下の操作を行うことになる。いずれにせよ、多次元分画法で複数の分画を得た場合も、そのおのおのが完全に重なりなくなることはまれで、多くの場合複数分画に亘るキヤリ一オーバーがありうるので、このような集計操作は必要である。

(2) 複数のサンプルの測定結果の代表値を求める際への応用：

異なるサンプルに由来する複数の試料について測定した場合であっても、本発明に係る解析方法によれば、取得された複数の 3次元データ間において、データ点間の対応関係を正確に取ることができる。したがって、上述した加算の方法に従って、全ての 3次元データを足し合わせることができる。そして、得られた 3 次元データの総和をサンプル数で除算することで相加平均を求めることができる。なお、必要に応じて、各サンプルに重みを設定し、当該重みを反映させた重みつき平均を算出することもできる。

これによれば、例えば、同じ範暗に属すると考えられる複数のサンプルについて、当該範暗の代表値を求めることができる。 (3) 2つのサンプル間での測定結果の差分を求める際への応用：例えば、同一のサンプル由来であるが状態の異なるときに採取した試料について測定した場合であっても、取得された 2つの 3次元データ間において、データ点間の対応関係を正確に取ることができる。したがって、上述した減算の方法に従つて、 2つの 3次元データ間の差分を求めることができる。これにより、状態の変化に起因する試料中の成分変化を解析することができる。

また、例えば、上述した（1) に準じて、複数のサンプルを含む 2群についてそれぞれ相加平均等の代表値を求めた上で、これら 2群の代表値の差を求めることができる。得られた差については、統計的な検定などによって有意性を検討することで、各群に特異的な成分を同定することができる。

以上の（1) 〜（3) に示す成分分析アプローチは、本発明に係る試料解析方法によって得られた複数の 3次元スぺクトルデータを格納したデータベースを用いても良いし、当該データベースに格納されたデータと現実に得られたデータとを用いて行っても良い。いずれの場合であっても、上述した（1) 〜（3) に示す成分分析アプローチは、コンピュータを用いて容易に実現することができる。

このようにして、本発明に係る試料解析方法によって得られた、例えば群特異的シグナル成分については、得られたシグナル領域に範囲を限定したタンデム MS 分析などにより、当該シグナルが由来する蛋白質群を同定することができる。すなわち、本発明に係る試料解析方法においては、試料を LC一 MSにより分析したときに、特定の mZz値を持つペプチド分子イオンが検出された場合、当該イオンの

CIDスぺクトルを測定することができる。

そして、得られた CIDスぺクトルをコンピュータに入力し、データベース検索ソフトウヱァを用いて蛋白質一次構造データベース、ゲノム配列データベースや cDNA配列データベースから得られる蛋白質配列に対して検索する。このデータべース検索によって有意なヒットスコアを示した場合には、データベースに登録されたタンパク質或いはアミノ酸配列等の情報を得ることができ、得られた CIDスぺクトルに対して当該情報を関連付けることができる。

例えば、上述した（3) の成分分析アプローチにおいて、各群に特異的な成分として同定されたシグナルに関する CIDスぺクトルを測定することで、当該シグナルが示すタンパク質群を同定することができる。〔実施例〕

以下、実施例を用いて本発明をより詳細に説明するが、本発明の技術的範囲は以下の実施例に限定されるものではない。

〔実施例 1〕

実施例 1では、アミノ酸酉己列が既に知られているタンパク質のプロテアーゼ消化物を混合して得られるペプチド試料を LC - MSによって測定し、この測定によつて得られた保持時間、 ra/z値およびイオン強度からなる三次元プロフアイルに対して本発明に係るアルゴリズムを適用し、測定されたペプチド試料を定量的に特性づけた。また、実施例 1では、比較定量のためのモデル実験としてアミノ酸配列が既に知られているタンパク質のプロテアーゼ消化物を混合したペプチド試料数種を各々 LC一 MSによって測定し、本発明の試料解析方法を適用して各三次元プ口ファイルを比較することによって、各ぺプチド試料に含まれるタンパク質の種類の違いが検出されることを示した。

ぺプチド試料の調製

以下に列挙する 24種類のタンパク質のトリプシン消化物を、本実施例におけるペプチド試料として調製した。（1) ゥシキモトリプシノーゲン、（2) ゥシカタラーゼ、（3) ゥシカルボニックアンヒドラーゼ、（4) ゥシアポトランスフェリン、 (5) ゥシカルボキシぺプチダーゼ A、 (6) ゥシ血清アルブミン、（7) ゥマシトクロム (8) ブタガンマ免疫グロブリン、（9) ゥシヘモグロビン、（10) ゥマミオグロビン、（11) ゥシベータラクトグロブリン、（12) ゥシデォキシリポヌクレアーゼ、（13) ゥサギダリセルアルデヒド 3 リン酸デヒドロゲナーゼ、（14) トリコンアルブミン、 ( 15) セィヨウヮサビペルォキシダーゼ、 (16) 枯草菌ァルファアミラーゼ、 (17) ゥマグルタチオン S—トランスフェラーゼ、 (18) ゥシグルタミン酸デヒドロゲナーゼ、一. (19) ゥシラクトペルォキシダーゼ、 (20) コウジ力ビアミロダルコシダーゼ、 (21) ゥサギホスホリラーゼ8、 (22) ゥシベータガラクトシダーゼ、 (23) ゥサギ乳酸デヒドロゲナーゼ、（24) ニヮトリ卵白リゾチ一ム。これらの消化物は Michrom BioResources社より購入した。これら 24種類の各タンパク質のトリプシン消化物を以下に示すように混合し、合計 3種類（A群〜 C群）のペプチド試料を用意した。

A群：（1)、（2)、 (7) 〜（24) の 20種類のタンパク質のトリプシン消化物。 A 群を特徴付けるタンパク質は (1) 及ぴ (2) である。 B群： (3)、 (4)、 (7) 〜 (24) の 20種類のタンパク質のトリプシン消化物。 B群を特徴付けるタンパク質は（3) 及ぴ（4) である。 C群：（5) 〜（24) の 20種類の蛋白質のトリプシン消化物。 C 群を特徴付ける蛋白質は（5) 及ぴ（6) である。各群のサンプルは 3つずつ調製した。

LC-MS角军析

各ペプチド試料の三次元プロファイルを得るために、以下に示す装置と操作によってペプチド試料を分析しに (Kawakami, T. et al, Jpn. J. Electrophoresis 44： 185-190 (2000))。まず、減圧濃縮したペプチド試料を、トリフルォロ酢酸、ァセトニトリルおよび水の混合比が 0. 1:2:98の溶媒 45μ 1に溶解した。これを溶解液とする。

次に、 CTC Analytics 社製のオートサンプラー PAL LC- 1™を用い、 Michrom BioResources社製の MAGIC MS™ C18キヤビラリーカラム（内径 0.2mm、長さ 50ram、粒径 5μ πι、孔径 200オングストローム）に溶解液 20 を導入した。ペプチドの溶出は MAGIC 2002™ HPLCシステム（Michrom BioResources社）を用いて行った。このときの HPLC移動相 Aは蟻酸、ァセトニトリル及び水を 0. 1:2:98の容積比で混合した溶媒であり、対して移動相 Bの混合比は 0. 1 :90 :10であった。そして移動相 Bの濃度を 5%から 85%まで直線勾配で上げ、ぺプチド断片を連続的に溶出した。このときの流速は約 1 μ 1/minとした。 LCの溶出液は、 New Objective社製の PicoChip™ニードル（内径 20 m) を介し、 LCQ™イオントラップ型質量分析計 (ThermoQuest社）のイオン源に直接導入した。 NanoESIニードルの位置は加熱キャピラリーとの距離を微調整できるようになつている。また、スプレー電圧は二一ドルではなく、溶離液に直接荷電するようにした。嘖霧のためにガスは使用せず、スプレー電流は 3.0mA とした。これを各群 3回ずつ行うことによって、各試料に対応する三次元パラメータの集合体、 3群計 9通りを得た。このデータセットをそれぞれ Al、 A2、 A3 (A群）、 Bl、 B2、 B3 (B群）、 Cl、 C2、 C3 (C群）とした。三次元パラメータ集合体を含むファイルは Xcal ibur™のユーティリティソフトウェアを用いてテキストファイルに変換した。 C言語及ぴ Perl言語で作成されたプログラムにより、以下の①〜⑤のデータ処理を実行した。

①ノイズレベルのデータを除去するため、イオン強度が 10²以下のシグナルを除去した。

②処理時間の節約のためにデータ点を集約した。具体的には、 mZzは 1刻みに、保持時間は 0. 2刻みになるよう、元データの m/z値および保持時間の値を丸め、同じ値を持つ πιΖζと保持時間の 2つ組みで指定されるデータ点は加算集計した。

③標準物質であるニヮトリ卵白リゾチーム由来のシグナルを同定した。すなわち、予備実験で実測した標準物質の mZz値および保持時間の値の前後ある範囲内で、最も高いイオン強度を与えるデータ点を探し、次いでそのデータ点を中心に、ィオン強度値が単調減少しかつ 0より大きな範囲にあるデータ点を拾い、これらを標準物質由来のシグナルによるデータ点であると見なした。標準物質由来のシグナルの総イオン強度値としては、標準物質由来シグナルと見なされたデータ点のイオン強度の総和をもって当てた。具体的には、ニヮトリ卵白リゾチーム由来の m/z値が 715近傍及び 877近傍のシグナルを標準シグナルとし、サンプルの測定データからこれらの標準物質由来シグナルを探索する際には、 m/_Zについては前後土 1の範囲で、保持時間に関しては mZz 715のシグナルについては 6〜16分の範囲で、 mZz 877のシグナルについては 13〜23分の範囲で探索した。

④得られた標準物質由来シグナルの総イオン強度値をもって、各シグナルのィォン強度を除算し、得られた値に 10⁷を乗じることで、標準物質由来のシグナル強度を 10⁷に補正した。

⑤便宜上、 mZz 715 のシグナルと mZz 877 のシグナルのピーク位置がそれぞれ保持時間に関して 10分、 20分となるよう、保持時間軸を線型変換した。

次に、 A、 B及び C群それぞれ 3例ずつあるサンプルから得られた三次元プロフアイルの代表点を求めた。すなわち上述したように、同じ群に属するサンプルを集約した。 m/zおよび保持時間の重なる点のイオン強度は加算して集計した。また本例で使用したスコアは高いほどよいとする得点として計算し、算出式の係数は次の通り。イオン強度差については、それぞれの常用対数の差の絶対値に対して係数一 1 をかけたものを使用した。保持時間の差については、差の絶対値に対して係数一 1000をかけたものを使用した。また各群間で対応するデータ点のシグナルがともに標準物質由来であった場合の加算点は 50000点とした。一方の群において対応する保持時間の点がなかった場合の失点は 5000点とした。本実施例ではこれらを単純に加算してスコアとした。

次いで、上述したように、 A— B群間、 B— C群聞及び C一 A群間で差を求めた。得られた差の有意性は t検定によって有意水準 0. 1 %の両側検定で検討した。その結果、保持時間を捕正した三次元データを比較することによって、 A、 B及び Cの各群から以下に列挙する mZz値を持つぺプチド分子イオンが各群に特異的なシグナルとして検出された。

A群： 495, 524, 546, 560, 671, 696， 779， 845, 871, 908， 962等。

B群： 451， 464, 509, 513， 546, 555, 583， 585， 626, 635, 649, 653， 701 , 720, 723， 740, 741, 753, 768, 789， 819, 821， 847, 873, 886， 922, 928， 952， 966， 973, 978， 1057， 1230等。

C群： 636,— 670， 674, 679， 683, 718， 734， 735, 770, 824, 870, 918等。

また、本実施例では、特異的なシグナルとして検出されたペプチド分子イオンの CIDスぺクトルを得るため、各試科を LC一 MSZMS分析にかけた。分析条件は以下に示す操作以外は、上述した通りとした。すなわち、 LC一 MSZMS分析に際しては、イオントラップ型質量分析計の測定条件を変更し、上に列挙した m/z値を持っぺプチド分子イオンが検出された場合に当該イオンの CIDを必ず行うように測定条件を設定して試料の測定を行った。

その結果、各ペプチド分子イオンから得られた CID スぺクトルを、 Matrix Science 社のデータベース検索ソフトウェアである MASCOT™を用いて、 SWISS— PR0T蛋白質配列データベースに対して検索したところ、各群において特異的なタンパク質由来ペプチドとして添加した各群 2種類（すなわち、 A群においては上記 (1) 及び (2) のタンパク質、 B群においては (3) 及び (4) のタンパク質、 C 群においては（5) 及ぴ（6) のタンパク質）、合計 6種類はいずれも有意なヒットスコアをもって同定された。このことから、本実施例で行った試料解析方法の妥当性が示された。〔実施例 2〕

実施例 2では、所定の濃度組成の蛋白質混合物中に、濃度を変化させた別の蛋白質標品を混合して得られた試料をプロテアーゼ消化し、 LC- MS によって測定することで得られた保持時間、 m/ z値、イオン強度からなる 3次元データに対して本発明に係る方法を適用し、異なる濃度の試料の測定で得られた 3次元データ同士を比較することで、定量的に変動するシグナルを検出した。これによつて、本手法で定量的に変化する物質を検出できることを示したものである。

試料とその調製

以下に列挙する 6種類のタンパク質のトリプシン消化物を、本実施例におけるペプチド試料として調製した。（1) ゥシカタラーゼ、（2) ゥシベータラタトグロブリン、（3) ゥシラクトペルォキシダーゼ、（4) ゥマグルタチオン S—トランスフェラーゼ、（5) セィヨウヮサビペルォキシダーゼ、（6) ゥシ血清ァノレブミン。これらのタンパク質はシグマ社より購入した。

これらのタンパク質は水溶液中でブタトリブシン（プロメガ社より購入）と反応させることにより、トリプシン消化物とした。

これら 6種類の各タンパク質のトリプシン消化物を以下に示すように混合し、合計 7種類のぺプチド試料を用意した。

①：（1) 〜（5) はそれぞれがー測定当り 500フェムトモル、（6)は 0フェムトモル。

②：（1) ' (5) はそれぞれがー測定当り 500フェムトモル、（6)は 10フェムトモル。

③：（1) (5) はそれぞれが一測定当り 500フェムトモル、（6)は 50フヱムトモル。

④：（1) (5) はそれぞれがー測定当り 500フエムトモル、（6)は 100フェムトモル。

⑤：（1) (5) はそれぞれがー測定当り 500フエムトモル、 (6)は 500フェムトモル。

⑥：（1) (5) はそれぞれがー測定当り 500 フェムトモル、（6)は 1 ピコモル。

⑦：（1) (5) はそれぞれがー測定当り 500フェムトモル、（6)は 5 ピコモル。各群のサンプルは ₅測定分ずつ調整した。上記各試料に対し、さらにぺプチド Tおよび ]3カソモルフイン 7をそれぞれ 10 ピコモルおよび 1ピコモルずつ標準物質として混入した。

LC-MS解析

各ぺプチド試料の三次元データを得るために、以下に示す装置と操作によってぺプチ卜試料分析した (Kawakarai , T. et al , Jpn. J. Electrophoresi s 44： 185-190 (2000) ) ₀ まず、減圧濃縮したペプチド試料を、トリフルォロ酢酸、ァセトニトリル及び水の混合比が 0. 1 : 2 : 98の溶媒 45 _μ 1に溶解した。これを溶解液とする。

次に、 CTC Analytics 社製のオートサンプラー PAL LC - 1¹ "を用い、 Michrom BioResources社製の MAGIC MS™ C18キヤビラリーカラム（内径 0. 2mm、長さ 50mm、粒径 5 ^ ιη、孔径 200オングストローム）に溶解液 20 1を導入した。ペプチドの溶出は MAGIC 2002™ HPLCシステム（Michrom BioResources社）を用いて行った。このときの HPLC移動相 Aは蟻酸、ァセトニトリル及び水を 0. 1 : 2 : 98の容積比で混合した溶媒であり、対して移動相 Bの混合比は 0. 1 : 90 : 10であった。そして移動相 Bの濃度を 5%から 85%まで直線勾配で上げ、ぺプチド断片を連続的に溶出した。このときの流速は約 1 μ 1/minとした。 LCの溶出液は、 New Objective社製の Pi coChip™ニードル（内径 20 μ ηι) を介し、 LCQ™イオントラップ型質量分析計 (ThermoQuest社）のイオン源に直接導入した。 NanoESI ニードルの位置は加熱キャピラリーとの距離を微調整できるようになつている。スプレー電圧はニードルではなく、溶離液に直接荷電するようにした。噴霧のためにガスは使用せず、スプレー電流は 3. 0mAとした。また、質量分析計でのスキャン回数を細かく取るために Turbo Scan方法を適用した。この測定を各群 5回ずつ行うことによって、各試料に対応する三次元パラメータの集合体、 7群計 35通りを得た。図 1に得られたプロフアイルの例を示す。

データ処理

三次元データを含むファイルは Xcal ibur™のユーティリティソフトウェアを用いてテキストファイルに変換した。 C、 C++言語及ぴ Perl言語で作成されたプログラムにより、以下の①〜⑦のデータ処理を実行した。 ①ノイズレベルのデータを除去するため、イオン強度が 10²以下のシグナルを除去した。

②標準物質であるペプチド Tおよび ]3カソモルフイン 7由来のシグナルを同定した。すなわち、予備実験で実測した標準物質の ra/z値および保持時間の値の前後ある範囲内で、最も高いイオン強度を与えるデータ点を探し、その周囲で規定の範囲内にあるシグナルについて、さらにその点を頂点とするガウス分布で近似される強度範囲内に収まるシグナルを拾い上げ、それらを全て標準物質由来シグナノレとみなした。より具体的には、 m/ zは 858. 9 および 791. 0 を中心に前後 ± 2 を限度とし、また保持時間は 9および 25分を中心に前後 ± 6を限度として、上述の手順により探索した。従って使用した標準物質由来シグナルは mZ z 858. 9，保持時間 9分、および m/ z 791. 0，保持時間 25分近傍に存在する 2つである。なお、イオン強度補正を行う際には標準物質由来シグナル強度を全て足し合わせ、その値が 10⁹となるように規格化した。また時間軸補正の際の動的計画法探索空間上の拘束点としては、上述 2つの標準物質シグナルのうち、それぞれ強度ピークを与える 1点ずつの計 2点を選定した。

③ BSAの濃度を変えた 7種類の試料それぞれにっき、 5回の測定結果得られたプロフアイルを平均化するため、本発明によるプロフアイル重ね合わせプログラムを用い、 7 群の試料それぞれについての代表プロファイルを求めた。重ね合わせの際の評価関数のパラメータは以下のとおり：

上記（I) において、時間軸上の差（絶対値）のペナルティひ =1. 0、シグナル強度の差のペナルティ 0 =0. 1 (但しシグナル強度さは常用対数に変換後の差の絶対値とした）、点の一致に対するボーナス点 σ =0、不一致点に対するペナルティ π =100、標準物質由来シグナルに対する一致のボーナス点 Θ ( Ϊ, j ) S_m : 1000。また重ね合わせプロファイルの出カオプションは、一致点のみとした。

図 8に、 BSA濃度が 500 フヱムトモルの試料⑤の 5回の測定結果から得られたプロファイルのうち、 m/z 620. 0 近傍、残留時間 15から 19分の間のクロマトグラムを示す。時間軸上少しずつずれた灰色の 5本の波形が、重ね合わせ処理前の

5回の測定結果であり、実線がこれら 5つに重ね合わせ処理を施してすべてのシグナルを足し合わせた結果である。図に示したように時間軸上の揺らぎが補正されて 1つの大きなピークとして扱えるようになった。

④次に、群間で有意に変動しているシグナルを拾い出すため、前述のプロセスで得た 7群の代表プロファイルを、さらに重ね合わせ処理によってァライメントをとり、最終的に 1つの集約プロフアイルを得た。このときの評価関数のパラメ一タは以下のとおり：

上記式（I)において、時間軸上の差（絶対値）のペナルティ α =1. 0、シグナル強度の差のペナルティ β =₀. 1 (但しシグナル強度を常用対数に変換後の差の絶対値とした）、点の一致に対するボ一ナス点 σ =0、不一致点に対するペナルティ π =100、標準物質由来シグナルに対する一致のボーナス点 0 ( i, J ) = S_m = 1000。また重ね合わせプロファイルの出力オプションは、不一致を含む全ての点とした。

⑤試料間の相互比較に必要十分な分解能を保ちつつデータ点を集約するため、 m Zz範囲 ± 0. 75 (絶対範囲 ± 2)、保持時間範囲 ± 1. 25 (絶対範囲 ± 4) の範囲内にある点について、次の条件を満たしている点については 1つに集約した。即ち、シグナル強度の高い順に前述範囲内の全てのデータ点をチェックし、これらがピ一クシグナルを頂点とするガウス分布で近似される範囲内に入ると判定されたものについてはそれらを集約した。

図 9に、 BSA濃度が異なる 7種類の試料ごとの、時間軸補正おょぴ集約後のプ口ファイルの例を示す。図では特定の mZz値（この例では 752)で切った断面を、時間軸に沿って強度をプロットしたクロマトグラムとして示している。 17分およぴ 19分近傍の集約シグナルは、 BSA濃度が最も高い 06 の試料（図中、 "DS : Spl 06 - Ave" として示す。 BSA 5ピコモル）が最も高いピークを示し、順次 Spl 05、 Spl 04，…と続いているため、これらは BSA由来のシグナルと判定できる。一方、 25分近傍の緩やかなピークはどの試料でも同様に出ているため、 BSA以外の共通物質あるいはバックグラウンド由来と判定できる。

⑥前述の集約プロファイルを出発点として、順次⑤，④，③のプロセスを逆にたどることにより、最終的に得られた集約プロフアイル上の点が、測定結果の 7群 X 5 測定のいずれに由来するかをたどることができる。集約プロフアイル上の各点について、測定結果データに戻ることで、群ごとのプロファイルや群間の差プロフアイルを得ることができる。図 1 0に BSA濃度が 500フヱムトモルの試料⑤と、 0 フエムトモルの試料①との差プロファイルを示す。 mZz—保持時間平面より上に伸ぴている線は試料⑤で、逆に下に伸びている線は試料①で強く観測されたシグナルである。

⑦ BSA を入れていない試料①から得られた集約プロファイルを基準とし（基準プ口ファイル）、残りの②から⑦までの BSA濃度が異なる 6種類の試料から得られた集約プロファイルそれぞれに関して（対象プロファイル）、次のような条件を満たすデータ点を求めた。即ち、（1 ) 対象プロファイル上の点は、 5回の測定すベてよりデータが得られていること。 ( 2 )集約した対象プロフアイル上の点のシグナル強度は 10⁶以上であること。（3 ) 対象プロファイル上の各点について、基準プ口ファイル上の対応する点の強度を引いた差が 0以上であること。（4 )対象プロファイルの各点について、基準プロファイル上の対応する点とのシグナル強度の差が 10000未満であるという帰無仮説が、片側 t検定結果によつて有意水準 0. 5% で棄却されること。

上記の条件で選別されたシグナルを、試料⑤の場合について図 1 1に示す。ここでは 127個のシグナルが前述条件に合致したものとして残った。プロットマークの大きさは、試料⑤のプロファイルにおけるシグナル強度を表す。このうち、プロットマーク〇のものは、後述するプロセスで BSAシグナルと対応付けられたもの、 Xのものはそうでなかったものを示している。

これら 127個のシグナルについて、別途行った BSA消化物の MS/MS実験とつき合せたところ、このうち 103個が BSA由来シグナルと一致した。即ち、検出された 127個のシグナルのうちの少なくとも 81 %が真に求めたいものであったといる。

同様にして、他の BSA濃度の試料から検出されたシグナルについて、前述の同じ条件で選別されたシグナルを BSA由来シグナルと付き合わせたところ、対象プ口ファイル②から⑦について、それぞれ 65、 64、 75、 81 (既述）、 76、 48%のシグナルが BSA由来シグナルと判定された。なお最後の⑦試料（BSA濃度 5 ピコモル) の正答率が落ちているが、これは高濃度 BSAに由来する強度の強いシグナルが多数存在することによるプロファイルの閾値が変わったことで、偽陽性シグナルが増大したことに起因すると考えられる。実際、他の濃度の試料とほぼ同程度の数のシグナルが選ばれるよう、選定条件の（2 ) を 3 X 10⁶に調整すると、正答率は 75%になった。

なお、本発明に係る工夫の 1つに、動的計画法の探索空間節減があるが、その効果を CPU時間の実測によつて評価したところ、試料⑤の 5つの測定結果を重ね合わせる場合を例とすると、 CPU時間の比にして 43〜45%の削減効果が得られた。ここでは 2種類の標準物質由来シグナルを用いているので、もし完全に均等にシグナルが分布していれば lZ 3の時間短縮が期待できるが、実際多くのシグナルは 2つの標準物質シグナルの間に存在するので、探索空間の分割は不均等である。このことを勘案すると、 45%程度の削減はおよそ期待通りであり、実用上も十分効果があると考えられる。

以上により、本発明に係る試料解析方法が、試料中で量的に変化するシグナルを実用上有用な確度で検出できることを示し、また本発明における計算手法のェ夫が有用であることを示した。〔実施例 3〕

実施例 3では、実際の患者由来組織サンプルを用いて、いくつかの病態群間で有意に変動している蛋白質由来シグナルを求め、それを元にさらに M S ZM S解析を行ってそのうちのいくつかの蛋白質を同定することにより、本方法の有効性、特にバイオマーカーの探索等にも有効であることを示したものである。

具体的には、肺の腺癌を対象として、外科的に切除された組織を用い、組織より後述する手法で蛋白質を抽出し、測定した。得られたプロファイルを、後日病理診断によってリンパ節転移ありと判定された群となしと判定された群にわけ、両群間で有意に変動しているシグナルを拾い出し、それらについて M S ZM S解析を行って蛋白質を同定した。試料は、 36名の異なった肺癌患者より、外科的に切除された肺の組織片を用いた。病理診断により、これらの患者は腫瘍径の大きな群と小さな群、および所属リンパ節への転移が認められる群と認められない群の合計 4群に分けられる。腫瘍径小でリンパ節転移なしの群には 10例、腫瘍径大でリンパ節転移なしの群には 11例、腫瘍径小でリンパ節転移ありの群には 12例、腫瘍径大でリンパ節転移ありの群には 3例にそれぞれ分類された。

試料調製および蛋白質分画

ドデシル硫酸ナトリウム (SDS) -ポリアクリ /レアミドゲル電気泳動（PAGE)用の試料緩衝液中にて各組織片を破枠した。試料緩衝液の組成は以下のとおりである。 62. 5mM トリス-塩酸（pH6. 8)、 2%w/v SDS、 5%v/v 2 -メルカプトェタノール、 10%v/v グリセリン、 0. 0025°/。w/vブロモフエノールブルー。この懸濁液を室温にて 30分間振とうしたのち、上清と沈殿に遠心分離した。上清の蛋白質の濃度を Lowry法の変法によって測定した。蛋白質 100 g分の試料上清に対して同じ組成の試科緩衝液を加え、総液量を 50 しにした。この溶液に対して 1M トリス水溶液を加え、 pHを 8. 8にした。システィン残基の還元アルキル化のため、 2 Lの 400mMジチォトレイトールを力 Bえ、 60°Cにて 30分間保温した。つぎに 10 Lの 400mMョードアセトアミド溶液を加え、室温 ·暗条件下で 60分間放置した。約 5 μ ίの 1. 0N塩酸を加え、 pHを 6. 8に戻した。この溶液を Laemmliの SDS - PAGEにかけた。このときに用いたポリアクリルアミドゲルは不連続の緩衝液系、すなわち上部の濃縮ゲノレ (pH6. 8)と下部の分離ゲル（pH8. 8)から成った。ポリアクリルアミドゲルの濃度は各々 4%と 12· 5%であり、全体の大きさは幅 14cm、高さ 14cm、および厚さ lmm であった。電気泳動時の電流は一定の 10mAであった。色素プロモフヱノールの泳動フロントが濃縮ゲルと分離ゲルの界面から分離ゲルの 48扁まで達したところで泳動を停止した。ポリアクリルアミドゲルを 40%メタノール、 10%酢酸水溶液中で振とうし、ポリアクリルアミドゲル内で分離されている蛋白質を固定した。このあと、ポリアクリルァミドゲルを水で 2回洗浄した。洗浄したポリアクリルミドゲルを試料当たり 24個のゲル片に切り出し分画した。すなわち、泳動方向に対して垂直の向きに 2mmの等幅で梯子状に切り出し、各切片をさらに一辺約 lmm のサイコロ状に分割した。

標準蛋白質の調製

内部標準蛋白質はゲル中に固定された状態で各試料ゲル分画に加えた。最初に

12. 5%のァクリルァミド、 0. 1 %SDS、 375mM トリス塩酸（ρΗ8· 8)よりなる水溶液に対して卵白リゾチーム水溶液を混合し、さらに Λ/，Λ/,Λ/',Λ/ '-テトラメチルエチレンジァミンと過硫酸アンモニゥムを加えてガラス板にはさまれた 1mm幅の間でァクリルアミドを重合した。この内部標準蛋白質を含むゲルを直径 1.5讓の円形に繰り抜いた。ゲル切片当たり 2.5pmolの卵白リゾチームが含まれるように、重合前の水溶液の蛋白質濃度をあらかじめ計算しておいた。

プロテアーゼ消化

上に示した一定量の標準蛋白質を含むゲルの繰り抜き切片を各試料ゲル分画に 1 個ずつ加えた。つぎに各分画ごとにゲル片を十分量の水で洗浄してからァセト二トリルで脱水した。ゲル片に残った水とァセトニトリルを減圧留去してからトリプシン水溶液をゲル片全部が浸かる程度に加え氷中で 45分間放置した。ゲル中に染み込まなかった水溶液を除き、 50mM重炭酸アンモニゥム水溶液をゲル片全部が浸かる程度に加え、 37°Cにて 16時間保温し消化反応を行った。ゲル片に含まれるペプチド断片の抽出は 25mM重炭酸アンモニゥム /50%ァセトニトリル水溶液で 1 回、続いて 5%蟻酸/ 50%ァセトニトリル水溶液で 2回行い、抽出溶液は 1個の容器にまとめて減圧濃縮した。

LC-MS解析

各ぺプチド試料の三次元プロファイルを得るために、以下に示す装置と操作によってぺフチド試料を分ネ; Tした (Kawakami, T. et al, Jpn. J. Electrophoresis 44： 185-190 (2000))。まず、減圧濃縮したペプチド試料を、トリフルォロ酢酸、ァセトニトリル及ぴ水の混合比が 0.1:2:98の溶媒 45μ 1に溶解した。これを溶解液とする。

次に、 CTC Analytics 社製のオートサンプラー PAL LC- ^Μを用い、 Michrom

BioResources社製の MAGICMS™ C18キヤピラリーカラム（内径 0.2mm、長さ 50mm、粒径 5μπι、孔径 200オングストローム）に溶解液 20 μ 1を導入した。ペプチドの溶出は MAGIC 2002™ HPLCシステム（Michrom BioResources社）を用いて行った。このときの HPLC移動相 Aは蟻酸、ァセトニトリル及び水を 0.1:2:98の容積比で混合した溶媒であり、対して移動相 Bの混合比は 0.1:90:10であった。そして移動相 Bの濃度を 5%から 85%まで直線勾配で上げ、ぺプチド断片を連続的に溶出した。このときの流速は約 1 μ 1/minとした。 LCの溶出液は、 New Objective社製の PicoChip™ニードル（内径 20 im) を介し、 LCQ™イオントラップ型質量分析計 (ThermoQuest社）のイオン源に直接導入した。 anoESIニードルの位置は加熱キャピラリーとの距離を微調整できるようになつている。スプレー電圧はニードルではなく、溶離液に直接荷電するようにした。噴霧のためにガスは使用せず、スプレー電流は 3· 0mAとした。

データ処理

得られた LC- MSプロファイルデータは、 36サンプル X 24バンド分の、合計 864 個である。これらのプロファイルデータについて、 Xcal ibur™のユーティリティソフトウエアを用いてテキストファイルに変換した後、 C、 C++言語及び Perl言語で作成されたプログラムにより、以下のような手順で解析を行った。

②処理時間の節約のために、 mZzと保持時間を量子化することでデータ点を集約した。具体的には、保持時間が約 1刻みになるよう、シグナル強度が大きなものから順次、時間差 1を最大限度に近傍を探し、単調減少する範囲までを 1つのシグナルとしてまとめられる範囲とした。また mZzは 1刻みになるよう、元データの m/z値の値を丸め、前述の時間範囲内で raZzが同じ値を持つデータ点は加算集計した。

③標準物質であるニヮトリ卵白リゾチーム由来のシグナルを同定した。すなわち、予備実験で実測した標準物質の mZz値および保持時間の値の前後ある範囲内で、最も高いイオン強度を与えるデータ点を探し、次いでそのデータ点を中心に、ィオン強度値が単調減少しかつ 0より大きな範囲にあるデータ点を拾い、これらを標準物質由来のシグナルによるデータ点であると見なした。標準物質由来のシグナルの総イオン強度値としては、標準物質由来シグナルと見なされたデータ点のイオン強度の総和をもって当てた。具体的には、ニヮトリ卵白リゾチーム由来の m/z値が 715近傍及び 877近傍のシグナルを標準シグナルとし、サンプルの測定データからこれらの標準物質由来シグナルを探索する際には、 m/zについては前後 ± 1 の範囲で、保持時間に関しては m/z 715 のシグナルについては 10分 ± 5 分の範囲で、 m/z 877のシグナルについては 18分 ± 5分の範囲で探索した。但し、得られた標準物質由来シグナルの絶対強度、全シグナル中での相対強度、および 2 種類の標準物質由来シグナルの強度比のいずれかが他のものに比べてかけ離れているものについては、個別にプロファイルのプロットを確認のうえ、標準物質由来シグナルと考えられるシグナル群のピークが探索時のパラメータの中心点に来るように調整した上で取り直した。得られた標準物質由来シグナルの総ィオン強度値をもって、各シグナルのイオン強度を除算し、得られた値に 10⁷を乗じることで、標準物質由来のシグナル強度を 10⁷に補正した。さらに、便宜上、 111/^ 715 のシグナルと ηι ζ 877のシグナルのピーク位置がそれぞれ保持時間に関して 10 分、 20分となるよう、保持時間軸を線型変換した。

④ SDS- PAGEによって分画した 24バンド分のプロファイルについて、ノくンド間にまたがって存在する蛋白質の定量性を保証するため、全バンドについて重ね合わせたプロファイルをもって、各試料のプロファイルとして扱った。具体的には、本発明に係る試料解析プログラムの、プロファイル重ね合わせ機能を用い、隣接バンド間のプロファイルを逐次重ね合わせて加算集計した。即ち、まずはバンド

1+2, 2+3, 3+4, … ， 23+24 のように、共通パンドを有する形で隣接パンドを重ねあわせ、次段階では 1+2と 2+3から： Γ3の重ね合わせ得るという形で、常に最低 1バンドは重なるようにして重ねてゆくと、 6段階の重ね合わせ操作により、最終的には 1~17と 9〜24の重ね合わせによって、全バンドの重ね合わせを得た。なお、重複して重ね合わせたパンドに関しては、最終段階で重複回数を除算することで定量性を保つよう調整した。

重ね合わせの際のパラメータは以下のとおり：

上記式（I) において、時間軸上の差（絶対値）のペナルティ α =1. 0、シグナル強度の差のペナルティ i3 =1. 0 (但しシグナル強度を常用対数に変換後の差の絶対値とした）、点の一致に対するボーナス点 σ =100、不一致点に対するペナルティ π =10、標準物質由来シグナルに対する一致のボーナス点 Θ ( i, J ) = S_m 1000。また重ね合わせプロファイルの出カオプションは、不一致を含む全ての点とした。さらに重ね合わせの処理が終わるごとに、保持時間と m/zがそれぞれ分解能 1. 0 および 1. 0となるようデータ点の集約操作を行つた。

⑤リンパ節転移のある群とない群を特徴付ける蛋白質を探すため、前述の試料の

4 種類の分類に従って、まずは群内でプロファイル同士を重ね合わせて集約プロファイルを得、次いで群間について同様にプロファイル重ね合わせ操作を行った。このときの重ね合わせ処理の際のパラメータは、前述のバンド間重ね合わせ処理と同じとした。また重ね合わせ順序については、群内については事前に総当りで行っておいた同一パラメ一タの下での重ね合わせ処理の評価関数スコアをもとに、近いものから順次重ね合わせた。群間については、まずリンパ節転移のある群内の腫瘍径の違いの 2群と、リンパ節転移のない群内での腫瘍径の違いの 2群を重ねた後、最終的にリンパ節転移のある群とない群を重ねた。

図 1 2に最終的な重ね合わせプロファイルについて、リンパ節転移陽性群に表れたシグナルを上方向に、陰性群に存在したシグナルを下方向にプロットしたものを示す。

⑥前述の重ね合わせた順序を逆にたどることで、重ね合わせの出発点となっている 36検体 X 24バンドの元データにたどれるようにし、最終的な全てを重ね合わせたプロファイル上の各点について、元データとの対応を取れるようにした。

⑦最終的な集約プロファイル上の各点について、リンパ節転移ありの検体由来のデータと、なしの検体由来のデータをそれぞれ集計し、これら両群の平均値の差について両側 t検定を行い、両群間の平均値の差と検定による p値を得た。

図 1 3に、上記検定で p値が 0. 005未満となった点を、図 1 2と同様のプロットで示す。この段階で 5, 889個のシグナルが得られた。

⑧上述のようにして選別されたシグナルについて、このシグナルの情報をもとにターゲット MSZMSを行い、あるいは別途行った MS/MS解析から、蛋白質同定ソフト MASCOT™を用いて、シグナルが由来するところの蛋白質同定を行った。図 1 4に、この同定によって蛋白質情報と関連付けることができたシグナルを示す。約半数の 2， 753個のシグナルについて、何らかの既知蛋白と関連付けることができた。

最後に、上述の既知蛋白質と関連付けられたものの中から、癌の転移に何らかのかかわりを持つといわれている蛋白質の一部をリストにして示す（図 1 5 )。このように、癌転移に関わると考えられる蛋白質が有効に発見しうることを示せた。以上より、本発明に係る試料解析システムおよびプログラムが、実際の臨床検体を用いた解析に有効であり、殊に病理的 ·臨床的な差異を蛋白質の量的な差異に結び付けて検出することができ、またその結果を利用して有効に蛋白質同定に繋げられることから、バイオマーカーの探索や新規診断方法の開発にも有用であることを示したものである。本明細書で引用した全ての刊行物、特許および特許出願をそのまま参考として本明細書に取り入れるものとする。 ' 産業上の利用の可能性

以上、詳細に説明したように、本発明に係る試料解析方法及び試料解析プログラムによれば、試料に含まれる成分を分析するに際して、優れた分析能を達成することができる。したがって、本発明によれば、分析対象の試料中に含まれる多数の成分を網羅的に解析する場合に非常に有効且つ有益な試料分析方法及び試料分析プログラムを提供することができる。

特に本発明に係る試料解析方法及び試料解析プログラムによれば、実際の臨床検体を用いて、何らかの疾患の病態の違いに関係する物質を採索する目的にたいへん有効であり、これによりバイオマーカーの探索や診断法の開発ができるという点でも有用性はきわめて大である。

Claims

請求の範囲

1 . 試料の分析の結果として得られた多次元データにおける、少なくとも 1 次元のパラメータを補正する工程 aと、

上記工程 aにより得られる補正後のデータを、複数の試料について比較するェ程 bとを含む試料解析方法。

2 . 上記多次元データは、クロマトグラフィ一質量分析の結果として得られる、質量/電荷比を示すパラメータと、イオン強度を示すパラメータと、保持時間を示すパラメータとからなる 3次元データであり、上記工程 aでは保持時間を示すパラメータを補正することを特徴とする請求の範囲第 1項記載の試料解析方法。

3 . 上記工程 aでは、補正対象のパラメータを除いたパラメータに関するプ口ファイルを参照プロファイルとし、複数の試料間で複数の参照プロファイルに関する配置類似性の尺度となる評価関数を用いて、当該評価関数の値を最適化する最適解探索問題として各プロファイルの配置を求めることを特徴とする請求の範囲第 1項記載の試料解析方法。

4 . 上記評価関数は、以下の①〜⑤からなる群から選ばれる 1以上の項で定義されることを特徴とする請求の範囲第 3項記載の試料解析方法。

②参照プロファイルに関するプロフアイル間の類似性及び/又は距離に関する項

5 . 上記工程 aでは、上記捕正対象のパラメータについて最適解探索問題として上記評価関数の値を最適化する際に動的計画法のアルゴリズムを用いることを特徴とする請求の範囲第 3項記載の試料解析方法。

6 . 上記動的計画法のアルゴリズムでは、補正の対象となるパラメータに含まれるデータ点の最適な対応関係を、スコアを算出して評価する際に、標準物質に由来するデータ点に関する対応関係については、当該スコアを良くする設定とすることを特徴とする請求の範囲第 5項記載の試料解析方法。

7 . 上記動的計画法のアルゴリズムでは、補正対象のパラメータに含まれる 5 データ点の最適な対応関係を、スコアを算出して評価する際に、標準物質に由来するデータ点に関する対応関係については、必ず指定された点で対応することを拘束条件とすることを特徴とする請求の範囲第 5項記載の試料解析方法。

8 . 上記試料は、蛋白質群及び/又はペプチド群を含むことを特徴とする請求の範囲第 1項記載の試料解析方法。

0 9 . 上記複数の試料は、標準物質を含むことを特徴とする請求の範囲第 1項記載の試料解析方法。

1 0 上記標準物質は、ぺプチド T (Ala-Ser-Thr-Thr-Asn-Tyr-Thr)、 βカソモノレフィン 7 (Tyr- Pro - Phe - Pro-Gly - Pro- lie)及びこれらの構造類似体からなる群から選ばれる少なくとも 1種以上のぺプチドであることを特徴とする請求の範囲

L5 第 9項記載の試料解析方法。

1 1 . 上記標準物質をゲル内に固定した状態で上記試料に添加することを特徴とする請求の範囲第 9項記載の試料解析方法。

1 2 . 試料の分析の結果として得られた多次元データを入力する手順 aと、入力された多次元データのうち少なくとも 1次元のパラメータについてデータ

0 を捕正する手順 bと、

上記手順 bで補正した後のデータを含む多次元データを、複数の試料について比較する手順 cとをコンピュータに実行させる試料解析プログラム。

1 3 . 上記多次元スペクトルデータは、クロマトグラフィー質量分析の結果として得られる、質量/電荷比を示すパラメータと、イオン強度を示すパラメ一

5 タと、保持時間を示すパラメータとからなる 3次元データであり、上記手順 bでは保持時間を示すパラメータについてデータを補正することを特徴とする請求の範囲第 1 2項記載の試料解析プログラム。

1 4 . 上記手順 bでは、捕正対象のパラメータを除いたパラメータに関するプロファイルを参照プロファイルとし、複数の試料間で複数の参照プロファイルに関する配置類似性の尺度となる評価関数を用いて、当該評価関数の値を最適化する最適解探索問題として各プロファイルの配置を求めることを特徴とする請求の範囲第 1 2項記載の試料解析プログラム。

1 5 . 上記評価関数は、以下の①〜⑤からなる群から選ばれる 1以上の項で 5 定義されることを特徴とする請求の範囲第 1 4項記載の試料解析プログラム。

①補正対象のパラメータに関するプロフアイル間の類似性及び/又は距離に関する項

②参照プロフアイルに関するプロフアイル間の類似性及び/又は距離に関する項

0 ④比較対象となるプロファイル間でのデータ点の不一致の程度に関する項

1 6 . 上記手順 aでは、上記補正対象のパラメータについて最適解探索問題 -5 として上記評価関数の値を最適化する際に動的計画法のアルゴリズムを用いることを特徴とする請求の範囲第 1 4項記載の試料解析プログラム。

1 7 . 上記動的計画法のアルゴリズムでは、補正の対象となるパラメータに含まれるデータ点の最適な対応関係を、スコアを算出して評価する際に、標準物質に由来するデータ点に関する対応関係については、当該スコアを良くする設定

0 とすることを特徴とする請求の範囲第 1 6項記載の試料解析プログラム。

1 8 . 上記動的計画法のアルゴリズムでは、補正対象のパラメータに含まれるデータ点の最適な対応関係を、スコアを算出して評価する際に、標準物質に由来するデータ点に関する対応関係については、必ず指定された点で対応することを拘束条件とすることを特徴とする請求の範囲第 1 6項記載の試料解析プロダラ

5 ム。

1 9 . 上記試料は、蛋白質群及び Z又はペプチド群を含み、当該蛋白質群及び/又はぺプチド群に由来する多次元データを解析することを特徴とする請求の範囲第 1 2項記載の試料解析プログラム。

2 0 . 上記複数の試料は、標準物質を含み、上記手順 bではこれら標準物質に由来する多次元データ及び上記試料に含まれる成分に由来する多次元データを用いることを特徴とする請求の範囲第 1 2項記載の試料解析プログラム。

2 1 . 上記標準物質は、ぺプチド T (Ala-Ser-Thr-Thr-Asn-Tyr-Thr) βカソモルフイン 7 (Tyr-Pro-Phe-Pro-Gl y-Pro-Π e)及びこれらの構造類似体からなる群から選ばれる少なくとも 1種以上のぺプチドであることを特徴とする請求の範囲第 2 0項記載の試料解析プログラム。

2 2 . 上記標準物質をゲル内に固定した状態で上記試料に添加することを特徴とする請求の範囲第 2 0項記載の試料解析プログラム。