WO2018020652A1

WO2018020652A1 - 質量分析データ解析装置及び解析方法

Info

Publication number: WO2018020652A1
Application number: PCT/JP2016/072278
Authority: WO
Inventors: 秀明出水; 梶原　茂樹
Original assignee: 株式会社島津製作所
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2018-02-01
Also published as: US20190267222A1; CN109791124B; JPWO2018020652A1; JP6743892B2; CN109791124A; US11521842B2; EP3508842A1; EP3508842A4

Abstract

被検者から採取した試料に対するマススペクトルデータを用いた機械学習により癌判定を行う際に、並行して実施される腫瘍マーカ検査による判定との独立性を確保して、相互的な診断の信頼性を高めることを目的とする。腫瘍マーカ等、他の検査で利用される物質由来のイオンのm/z値を着目m/z値DB（３１）に記憶させておき、スペクトル情報フィルタリング部（２２）は癌の有無でクラス分けされた多数のマススペクトルから着目m/z値DB（３１）に格納されているm/z値の信号強度を削除する。学習処理部（２３）はその削除後のデータを学習データとして学習結果情報を求め、学習結果DB（３２）に保存する。判定対象の目的試料に対するマススペクトルデータについても同様に所定のm/z値の信号強度を削除したうえで、判定処理部（２４）は学習結果DB（３２）に保存された学習結果情報に基づいて癌の有無のいずれかのクラスへの分類を判定する。

Description

質量分析データ解析装置及び解析方法

　本発明は、質量分析装置で得られたデータを解析するデータ解析装置及び解析方法に関し、さらに詳しくは、特定の疾病についての診断や検査、農水産物等の産地の真偽判定、偽薬や偽札等の判定など、様々な分野における試料の検査及び判定に有用な質量分析データ解析装置及び解析方法に関する。

　近年の質量分析技術の急速な進展に伴い、被検者から採取した生体試料（血液、尿、唾液、或いは生体組織の一部など）を質量分析することで得られたデータに対してデータ解析を行うことで癌などの特定の疾病の診断を行う試みがなされている。例えば本出願人らによる特許文献１には、生体試料に対して質量分析を行うことで収集されたマススペクトルデータに統計的機械学習の一手法であるｄＰＬＲＭ（dual Penalized Logistic Regression Machine）を適用して癌の判定を行うことが記載されている。このように一般的な多変量解析を用いるのではなく統計的機械学習の手法を用いることで、膨大な量の複雑なデータの中からごく微細な差異を抽出することが可能となり、そうした差異に基づいて癌／非癌の判定の精度を高めることができる。

　こうした統計的機械学習は、上述したような疾病の診断のほか、音声認識、文字認識、顔認識などの画像認識、様々な製品の真贋判定など、様々な分野で利用されている、又は利用されつつある。こうした統計的機械学習のアルゴリズムには大別して教師あり学習と教師なし学習とがあるが、教師あり学習が一般的である。教師ありの機械学習では一般に、予め与えられた、複数のクラスに分類されている多数のデータを学習データとして上記複数のクラスの境界を学習しておき、新規のデータについていずれのクラスに分類されるのかを学習結果に基づいて判定するようにしている。例えば特許文献１に記載の装置では、複数のクラスとは癌患者のクラスと健常者（又は非癌患者）のクラスである。以下の説明では、教師ありの機械学習を単に機械学習という。

　上記のような機械学習では、判定対象である新規のデータが多数の学習データのいずれかと全く同じであれば、パターンのマッチングは簡単であって且つ正確である。しかしながら、殆どの場合、データ取得の際には統計的なエラーやノイズなどが存在するし、試料が生体由来の試料である場合には試料自体の個体差が比較的大きいため、一つのクラスの中でもデータにかなりの揺らぎがある場合がある。そのため、複数のクラスを隔てる境界がデータの揺らぎの影響を受けないようにするためには、十分な数及び幅の揺らぎの情報が学習データに含まれるようにする必要がある。一般に機械学習では、こうしたデータの揺らぎの影響を受けないように、学習データの数や学習データを取得する被検体のばらつきの範囲などが考慮される。また、機械学習では、通常、学習データを取得する際のデータ取得条件と判定対象であるデータを取得する際のデータ取得条件とを同じにすることが前提となっているため、データ取得時にできるだけ同じ条件で測定を行うようにしている。

　ところで、癌などの重篤な疾病や疾患のスクリーニングや臨床診断では、当然のことながら、高い正確性や信頼性が求められる。そのため、上述したような質量分析と機械学習とを組み合わせた手法のほか、腫瘍マーカなどのマーカ検査、Ｘ線画像診断、ＭＲＩなどの画像診断等、複数の診断手法による判定結果を医師等が総合的に判断して結論を下すのが一般的である。このように複数の判定結果に基づいて最終的な判断がなされる場合、その複数の判定結果がそれぞれ異なる要素によるものであること、つまりは判定結果の独立性が高いことが望ましい。何故なら、例えば或る二つの異なる手法で検査や判定を行う場合でも、その検査や判定の対象の要素が同じであれば、一つの手法で以て癌である可能性が高いと判断されたときに、必然的に他の一つの手法でも同じように癌である可能性が高いと判断される筈であり、実質的に二つの異なる手法で判定をしたことにならないためである。

　例えば、質量分析装置で得られたマススペクトルを利用した機械学習により癌と非癌との差異を抽出して癌／非癌の判定を行う場合、癌を特徴付けるマーカ分子由来のイオンの量の変化も学習結果に含まれる可能性が高い。そのため、こうした学習結果に基づく癌の判定とそれらマーカ分子をターゲットとする腫瘍マーカ検査とは互いに独立であるとはいえず、これらを組み合わせた診断の正確性や信頼性の確保が難しいという問題がある。

　また、以下のような様々な要因によって、被検体の個体差によるデータの揺らぎの範囲を大幅に超える変動が学習時と判定時とで生じてしまう場合や、或いは、学習データと判定対象のデータとのデータ取得条件を揃えることが難しい場合があり、それが判定の正確性を低下させる一因となっている。

　（１）通常、癌の治療の過程で癌患者には様々な種類の抗癌剤等の薬剤が投与されるが、学習データに現れるこうした治療に由来する生体組織の変化が、癌由来の組織変化であると誤って学習してしまう可能性がある。
　（２）（１）とは逆に、学習データに含まれない新規の抗癌剤が投与された患者から得られたデータを学習結果に基づいて判定する場合、マススペクトル上で、癌、非癌による差異が生じている質量電荷比の付近に偶然、新規の抗癌剤由来のピークが存在していると、これを癌・非癌由来の組織変化であると誤って判定してしまう可能性がある。同様に、癌・非癌の判定のためのデータに、学習データに含まれない混入物や夾雑物由来のピークが存在していると、これを癌・非癌由来の組織変化であると誤って判定してしまう可能性がある。また、判定対象である試料には内部標準物質を添加する場合があるが、内部標準物質由来のピークも癌・非癌由来の組織変化であると誤って判定してしまう可能性がある。
　（３）癌患者由来及び健常者由来の生体試料は病院などの医療機関で採取され測定されるのが一般的であるが、そうした機関毎に同様の手順や品質で試料の採取・測定を行うことは困難である。そのため、そうした機関毎のばらつきが特定の質量電荷比における信号強度の差異となって現れ、これを癌・非癌の差異であると誤って判定してしまう可能性がある。

　上述したように、判定対象データの取得時に学習データの取得時とはデータ取得条件が異なる場合や、学習データの取得時から判定対象データの取得時までの間に被検体の個体差による揺らぎの範囲を大幅に超えるような変動が被検体に生じた場合には、本来、学習データを採り直し、新たに得られた学習データを用いて機械学習をやり直すことが望ましい。しかしながら、目的に適合する多数の生体試料を再度採取して測定することは非常に手間と時間が掛かる作業であり、多くの場合、それは実質的に不可能である。

　また上記のような問題は特に試料が生体由来の試料であることに起因する要素が大きいものの、同様の又は類似した問題は疾病の診断等以外の分野でも起こり得る。

特開２０１４－４４１１０号公報

　本発明は上記課題を解決するためになされたものであり、その第１の目的は、機械学習以外の他の判定手法にも利用される情報が学習データに含まれている場合であっても、機械学習による判定と上記機械学習以外の他の判定手法による判定とを互いに高い独立性を以て行うことができ、それによって判定の正確性や信頼性を確保することができる質量分析データ解析装置及び解析方法を提供することである。

　また、本発明の第２の目的は、学習データの取得時と判定対象データの取得時とでデータ取得条件が異なる場合や、複数のクラスへの分類に寄与する着目している差異とは別の妨害となり得る変化が学習データの取得時から判定対象データの取得時までの間に生じた場合であっても、そうしたデータ取得条件の相違や変化の影響を受けることなく、且つ、学習データの再度の取得を行うことなく、機械学習により正確な判定を行うことができる質量分析データ解析装置及び解析方法を提供することである。

　上記第１及び第２の目的を達成するために成された本発明に係る質量分析データ解析方法は、複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報を用いて、目的試料に対し質量分析を行うことで得られたマススペクトルデータに基づき該目的試料をクラス分けする質量分析データ解析方法であって、
　a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリングステップと、
　b)前記学習データフィルタリングステップで処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行ステップと、
　c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリングステップと同等の処理を実行する目的データフィルタリングステップと、
　d)前記目的データフィルタリングステップで処理されたあとのマススペクトルデータに基づき、前記学習実行ステップにおいて記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行ステップと、
　を有することを特徴としている。

　また上記第１及び第２の目的を達成するために成された本発明に係る第１の態様の質量分析データ解析装置は、上記本発明に係る質量分析データ解析方法を具現化する一つの装置であり、複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
　a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリング部と、
　b)前記学習データフィルタリング部で処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行部と、
　c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリング部と同等の処理を実行する目的データフィルタリング部と、
　d)前記目的データフィルタリング部で処理されたあとのマススペクトルデータに基づき前記学習実行部において記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
　を備えることを特徴としている。

　本発明に係る質量分析データ解析方法及び解析装置において、マススペクトルデータは一般的なシングルタイプの質量分析装置で得られるマススペクトルデータのほか、トリプル四重極型質量分析装置、Ｑ－ＴＯＦ型質量分析装置、ＴＯＦ－ＴＯＦ型質量分析装置、イオントラップ質量分析装置、イオントラップ飛行時間型質量分析装置などで得られるｎが２以上のＭＳⁿスペクトルデータも含む。

　また、本発明に係る質量分析データ解析方法及び解析装置において、機械学習は教師あり機械学習であればそのアルゴリズムを特に問わないが、例えば、特許文献１に記載された、ｄＰＬＲＭなどベイズ推定を利用した手法、サポートベクターマシーン（ＳＶＭ）を利用した手法、ニューラルネットワークを利用した手法、などを用いることができる。

　本発明に係る質量分析データ解析方法及び解析装置では、複数のクラスのいずれに属するのかが既知である試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータが学習データとして与えられる。例えば或る被検者が癌である可能性があるか否かを判定することが解析の目的である場合、クラスは「癌」と「非癌」の二つのみである。クラスの数はここでは限定されないが、クラスの数によって利用可能な機械学習のアルゴリズムは相違する。通常、クラスのラベル付けがなされた学習データが与えられると、該学習データを用いた機械学習を実行することで学習結果情報が作成されるが、本発明に係る質量分析データ解析方法では、まず、学習データフィルタリングステップにおいて、学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する、つまりはゼロにするか、又は、その重み付けを修正する、つまりは信号強度を所定割合で減少又は増加させる。

　例えばＭＳⁿ分析でない通常の質量分析により得られたマススペクトルに現れる複数のピークは一般に、それぞれ試料に含まれる異なる化合物由来のピークである。したがって、マススペクトルにおいて特定の質量電荷比における信号強度情報を削除する又はその信号強度を減じるということは、その特定の化合物に関する含有結果が学習結果情報に反映されないようにする又は学習結果情報に反映されにくくすることを意味する。そこで、例えば、上述したように癌診断に際して腫瘍マーカ検査などの他の診断法を併用する場合であってそれぞれの判定の独立性を保ちたい場合には、その腫瘍マーカである化合物由来のイオンの質量電荷比を信号強度情報の削除や信号強度低減の対象の質量電荷比とすればよい。

　また例えば、患者に投与される抗癌剤などの薬剤の影響を除きたい場合には、治療に使用される可能性のある抗癌剤等の薬剤由来のイオンの質量電荷比を信号強度情報の削除や信号強度低減の対象の質量電荷比とすればよい。また、試料の採取や測定の実行の過程で試料に混じる可能性のある様々な化合物（夾雑物）の影響を除きたい場合には、想定されるそれら夾雑物由来のイオンの質量電荷比を信号強度情報の削除や信号強度低減の対象の質量電荷比とすればよい。こうした夾雑物としては例えば、試料を一時的に保存する容器の原材料やそれに含まれる可塑剤、該容器の製造時に使用される離型剤などの添加物などが想定される。また、質量分析装置の較正時に使用される標準試料、カラムなどを用いて試料を前処理する場合にはカラムの充填剤や移動相、その添加剤なども夾雑物として想定される。さらにまた、学習データとされる多数のマススペクトルデータが異なる装置で得られたものである場合には、装置の器差によって検出感度に大きな差異が生じる質量電荷比範囲を信号強度情報の削除や信号強度低減の対象の質量電荷比範囲としてもよい。

　また、上述したような種々の化合物由来のイオンの質量電荷比や質量電荷比範囲における信号強度情報を削除したり信号強度を減じたりする際に、その化合物そのものの分子イオンのみならず、その化合物に由来する又はその化合物の影響を受ける様々な種類のイオンについても信号強度情報の削除や信号強度の低減の対象とするとよい。
　具体的には、着目する化合物の１価イオン及び多価イオンのほか、アルカリ金属やハロゲン、水、各種化学修飾基などが付加したり脱離したりしたイオンなども併せて信号強度情報の削除や信号強度の低減の対象とするとよい。また、同位体の影響も含めて、信号強度情報の削除や信号強度の低減の対象とする質量電荷比を算出することが好ましい。さらに、また、腫瘍マーカ等の着目する化合物そのものに由来するイオンのみならず、その化合物から派生する他の化合物、例えば代謝物や代謝時に影響を受ける生体内の別の化合物などに由来するイオンも信号強度情報の削除や信号強度の低減の対象とすることができる。

　学習実行ステップでは、上述したように学習データフィルタリングステップで一部のスペクトル情報が削除される等の処理が行われた後のマススペクトルデータを学習データとし、所定の機械学習を実行して学習結果情報を作成する。この学習結果情報は未知試料が複数のクラスのいずれに属するのかを判定するための情報である。そして、得られた学習結果情報を例えばフィルタリング処理で除去した質量電荷比情報等と対応付けるようにデータベース化して、記憶装置等に記憶しておく。したがって、この学習結果情報には、例えば上述したようにスペクトル情報が除去された特定の化合物の含有結果は反映されない。

　目的試料がいずれのクラスに分類されるのかを判定する際に、該目的試料に対して質量分析を実行することでマススペクトルデータが得られると、目的データフィルタリングステップにおいて、そのマススペクトルデータに対し上記学習データフィルタリングステップで実行されたのと同等の処理が実行される。それによって、判定対象データにおいても、上述したような特定の化合物由来のイオンの質量電荷比や質量電荷比範囲における信号強度情報が削除されたりその信号強度が低減されたりする。そして、判定実行ステップでは、目的試料についてのその処理後のマススペクトルデータに基づき、上述したように記憶されている学習結果情報を用いて目的試料が複数のクラスのいずれかに分類されるかが判定される。即ち、或る被検者から採取された目的試料が「癌」のクラスに分類されれば、該被検者は癌である可能性があると判定されることになる。

　上述したように、学習データに基づく学習時つまりは学習結果情報の作成時、及び、判定対象データの判定時のいずれにおいても、特定の化合物の有無の影響が除かれるため、その特定の化合物の有無の影響を除いたクラス分けの判定が行える。そのため、例えば上述したように腫瘍マーカである化合物由来のイオンの質量電荷比を信号強度情報の削除や信号強度の低減の対象の質量電荷比とした場合には、腫瘍マーカである化合物が目的試料中に含まれるか否かとは無関係に、その目的試料に対するマススペクトルデータに基づいて該目的試料のクラス分けが行われる。したがって、そのクラス分けの判定、即ち癌である可能性の判定と、腫瘍マーカ検査における判定との独立性が高くなり、それら複数の判定の組み合わせによって、より信頼性の高い診断が可能となる。

　上述したように、試料の採取条件、前処理の条件、測定条件など、様々な要因によって様々な化合物が試料に混じる可能性があるものの、それら全てについてのスペクトル情報をマススペクトルデータから削除してしまうと、本来観測したい一又は複数の化合物のスペクトル情報も同時に削除されてしまう可能性が高くなる。そのため、実際の試料の採取条件、前処理の条件、測定条件などに応じて、削除したい化合物のみ、或いは不所望に混合する可能性の高い化合物のみに絞って、その化合物由来のイオンのスペクトル情報をマススペクトルデータから削除することが望ましい。

　また上述したように、本発明に係る質量分析データ解析方法において、学習時及び判定時にマススペクトルデータから信号強度情報が除去される又はその信号強度が低減される質量電荷比は、この解析方法による判定自体に悪影響を及ぼす可能性がある化合物由来のイオンの質量電荷比である場合と、この解析方法による判定自体には影響を及ぼさないものの判定結果に反映されるのを避けたい化合物由来のイオンの質量電荷比である場合とがある。

　即ち、本発明に係る質量分析データ解析方法の一態様は、
　当該解析方法とは異なる他の手法による判定結果との併用によって前記目的試料が前記複数のクラスのいずれに分類されるのかを結論付ける質量分析データ解析方法であり、
　前記他の手法における測定又は検査の対象である一又は複数の化合物由来のイオンの質量電荷比又は質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とするものとすることができる。

　具体的には例えば、前記他の手法は特定の化合物をマーカとして測定又は検査を行う手法、例えば上述したような腫瘍マーカ検査法や脂質マーカ検査法などであり、該マーカである化合物、及び／又はその代謝物、及び／又はその代謝時に影響を受ける生体内分子に由来するイオンの質量電荷比又は質量電荷比範囲、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすればよい。

　また本発明に係る質量分析データ解析方法の他の態様は、
　学習データに基づく学習時と目的試料の判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される一又は複数の化合物由来のイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とするものとすることができる。

　具体的には例えば、前記試料は生体由来の試料であり、該生体に投与される又はその可能性のある薬剤、その代謝物、その代謝時に影響を受ける生体内分子、試料に残留する可能性のある標準物質、試料の採取、前処理、若しくは測定の過程で混入する可能性のある化合物のうちの一又は複数の化合物に由来するイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすればよい。

　なお、学習時と判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される前記一又は複数の化合物由来のイオンの質量電荷比は、統計解析処理により抽出されたものであってもよい。

　また上記本発明に係る第１の態様の質量分析データ解析装置は、与えられた学習データに対して所定の条件に従ってスペクトル情報を削除したりその重み付けを変更したりするフィルタリング部と、処理後の学習データに基づく機械学習を実行する学習実行部と、を備えていたが、目的試料の判定を行うためには、フィルタリング処理後の学習データに基づく学習結果情報が利用可能でありさえすればよい。

　そこで本発明に係る第２の態様の質量分析データ解析装置は、上記本発明に係る質量分析データ解析方法を具現化する一つの装置であり、複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとして所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
　a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正するフィルタリング処理がなされたあとのデータを学習データとして、前記機械学習を実行することで作成された学習結果情報を記憶しておく学習結果情報記憶部と、
　b)目的試料に対して得られたマススペクトルデータについて前記学習結果情報を作成する際に学習データに対して行われた前記フィルタリング処理を実行する目的データフィルタリング部と、
　c)前記目的データフィルタリング部でフィルタリング処理されたあとのマススペクトルデータに基づき、前記学習結果情報記憶部に記憶されている前記学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
　を備えることを特徴としている。

　上記学習結果情報記憶部は当該解析装置を構成するハードウェアの一部であってもよいが、学習結果情報にアクセスし該情報を利用できさえすればよいから、例えばインターネット等を通してアクセス可能であるコンピュータネットワーク上に学習結果情報記憶部が存在していてもよい。

　本発明に係る質量分析データ解析方法及び解析装置によれば、学習データとして予め収集した膨大な量のマススペクトルデータから、不所望のスペクトル情報やピーク情報を削除して、つまりはそうしたスペクトル情報やピーク情報の影響を排除して、目的試料のクラス分けを行うことができる。それにより、例えば、腫瘍マーカ検査で利用される腫瘍マーカについての情報を学習時及び判定時に除去することで、腫瘍マーカ検査に対して独立性の高い判定結果を得ることができる。その結果、より的確な情報を医師等に与えることができ、より信頼性の高い診断が可能となる。

　また、治療薬などの影響がある場合、内部標準試料を目的試料に添加したい場合、試料の採取や測定に利用される各種化合物が試料に混入する可能性がある場合など、学習データの収集時と判定対象のデータの採取時とでその取得条件等が異なる場合であっても、それにより影響を受ける質量電荷比や質量電荷比範囲におけるスペクトル情報を除外することによって、すでに収集した大量の学習データを利用しながら目的試料を適切にクラス分けすることが可能となる。もちろん、学習データ取得上の又は判定対象データの取得上の各種問題があとから発覚した場合であっても、その影響を解析して影響を受ける質量電荷比又は質量電荷比範囲のスペクトル情報を除外することで良好な判定を行うことができるので、貴重なデータを無駄にすることなく活用することができる。

　また、学習データのために膨大な量のマススペクトルデータを収集するには多大な時間と手間を要するが、例えば様々な種類のマーカの影響を除いた判定をそれぞれ行いたい場合に、そのマーカに応じて学習条件及び判定条件を変えればよく、膨大な量のマススペクトルデータを再度収集する必要はない。そのため、学習データのためのマススペクトルデータを収集する時間や手間を節約することができる。

　また、学習データの量が膨大である場合、学習データに基づく機械学習のために数時間から数十時間もの計算時間を要することが多い。これに対し、除外すべき又は重み付けを変えるべき質量電荷比や質量電荷比範囲の候補を予めリストアップしておき、その候補のそれぞれに対応した機械学習を実施して学習結果情報を求めて記憶しておくことで、目的試料の判定時には適宜の学習結果情報を選択して該情報を用いた判定を実施しさえすればよい。これによって、目的試料の判定を迅速に行うことができる。

本発明の一実施例による癌診断支援装置の概略構成図。本実施例の癌診断支援装置における学習データに基づく学習時の動作説明図。本実施例の癌診断支援装置における目的試料の判定時の動作説明図。

　本発明に係る質量分析データ解析方法を実行する質量分析データ解析装置を用いた癌診断支援装置の一実施例について、添付図面を参照して説明する。
　図１は本実施例の癌診断支援装置の概略構成図、図２は本実施例の癌診断支援装置における学習時の動作説明図、図３は本実施例の癌診断支援装置における目的試料の判定時の動作説明図である。

　本実施例の癌診断支援装置は、試料に対して質量分析を実行してマススペクトルデータを取得する質量分析装置１と、該質量分析装置１で得られたマススペクトルデータを用いた解析処理を実行するデータ解析部２と、解析処理の際に使用する各種データを収録したデータベース（ＤＢ）が格納される記憶部３と、解析処理の際に必要な情報等をユーザが入力するための入力部４と、解析結果等が表示される表示部５と、を備える。

　データ解析部２は機能ブロックとして、スペクトルデータ収集部２０と、着目m/z情報受付部２１と、スペクトル情報フィルタリング部２２と、学習処理部２３と、判定処理部２４と、判定結果出力部２５と、を含む。また、記憶部３には、マススペクトルデータベース３０と、着目m/z値データベース３１と、学習結果データベース３２と、が格納される。

　データ解析部２の実体はパーソナルコンピュータ又はそれよりも高性能なコンピュータであり、該コンピュータに予めインストールされた専用のデータ解析ソフトウェアをコンピュータ上で動作させることで、それぞれの機能を実現させるようにすることができる。また、データ解析部２の機能は複数のコンピュータに分担させるようにすることもできる。具体的には、後述する学習機能と目的試料の判定機能とを別のコンピュータに割り当てることもできる。通常、機械学習における学習の際の計算量は判定の際に比べてかなり多くなるため、学習を実行するコンピュータとして高性能のコンピュータを用い、判定を実行するコンピュータは一般的なパーソナルコンピュータを用いると、効率的な処理が可能である。また、記憶部３はコンピュータに内蔵された又は接続されたハードウェアによるものでなくてよく、例えばインターネット等を介してアクセス可能であるコンピュータシステム上に存在する、つまりはクラウドコンピューティングにおける記憶装置などを利用してもよい。

　質量分析装置１は例えば微小な生体組織切片、血液、尿、唾液等の生体由来の試料に対するマススペクトル（ＭＳⁿスペクトルを含む）データを取得可能であれば、そのイオン化法や質量分離法を問わないが、例えば、特許文献１に記載されているようなＰＥＳＩイオン源を搭載した四重極型質量分析装置又は飛行時間型質量分析装置を用いることができる。

　本実施例の癌診断支援装置における特徴的な動作を図２及び図３を参照して説明する。
　この癌診断支援装置において、被検者が癌である可能性が高いか否かを判定するためには、学習結果データベース３２を予め構築して記憶部３に格納しておく必要がある。学習結果データベース３２を構築するためには、クラス毎にラベル付けされた学習用データが必要である。ここでは、クラスとして「癌である」クラスと「癌でない（非癌）」クラスの二つを考える。ただし、例えば同じ生体組織の癌でも異なる型が存在する場合には、癌であるクラスを癌の型に応じた複数のクラスに分けてもよい。例えば、腎細胞癌は、淡明細胞型、顆粒細胞型などの型に分類できることが知られており、それら型をそれぞれ別のクラスとすることができる。

　クラス毎にラベル付けされた学習用データを与えるために、例えば病理診断等によって癌に罹患していることが判明している多数の癌患者からそれぞれ採取された多数の生体試料と、癌でないことが判明している多数の健常者から採取された多数の生体試料とを、質量分析装置１で一つずつ質量分析することでマススペクトルデータを収集する。これにより、例えば「癌である」クラスのラベル付けがされた多数のマススペクトルデータと、「癌でない」クラスのラベル付けがされた多数のマススペクトルデータとが得られる（図２（ａ）参照）。

　データ解析部２においてスペクトルデータ収集部２０は質量分析装置１からマススペクトルデータを受け取り、マススペクトルに対しピーク検出を行うことで得られるピーク情報（質量電荷比及び信号強度）をベクトル化したベクトルデータ（又は行列データ）を求め、それをクラス毎に分けて、つまりはラベル付けして、記憶部３のマススペクトルデータベース３０に格納する。
　なお、マススペクトルデータベース３０に格納されるマススペクトルに基づくベクトルデータは、１台の質量分析装置１で得られたマススペクトルデータに基づくものである必要はなく、複数の質量分析装置（好ましくは同種の質量分析装置）で得られたマススペクトルデータに基づくものであってもよい。

　一般に、試料に対して得られるマススペクトルには試料に含まれる複数の化合物にそれぞれ対応するピークが観測される。しかしながら、その全てが機械学習により目的試料のクラス分けを行う際に有用であるとは限らない。
　例えば、多くの場合、癌患者には癌治療のために抗癌剤等の薬剤が投与されるが、使用される薬剤の種類や組み合わせは多様であり、そうした薬剤、その代謝物、さらにはその代謝時に変化が生じる可能性がある生体内物質に由来するイオンのスペクトル情報が、目的試料の正確なクラス分けに悪影響を及ぼす可能性がある。また、試料の採取、前処理、或いは測定などの際に用いられる容器や器具自体の素材、それらに用いられる添加剤等の化合物は試料に混じるおそれがあるが、そうした化合物（広い意味での夾雑物）に由来するイオンのスペクトル情報も目的試料の正確なクラス分けに悪影響を及ぼす可能性がある。そのため、上記薬剤に由来するイオンや上記夾雑物に由来するイオンに関するスペクトル情報が学習結果に含まれないようにすることが望ましい。

　また、例えば腫瘍マーカ検査法に利用される化合物（マーカ分子）やその代謝物等の含有量に関する情報が学習結果に含まれると、その学習結果に基づく判定と腫瘍マーカ検査における判定との相関性がかなり高くなり、それら判定が互いに十分に独立であるとはいえなくなる。そのため、併用される複数の判定の独立性を確保するためには、他の診断法・検査法でターゲットとなる化合物に関する情報が学習結果に含まれないようにする必要がある。

　そこで本実施例の癌診断支援装置では、学習時に着目している、つまりはマススペクトルデータから除外したい（信号強度値をゼロにしたい）又はその信号強度の重み付けを低下させたい質量電荷比又は質量電荷比範囲を予め着目m/z値データベース３１に登録しておく。後述するように着目する化合物の種類は非常に多いため、ここでは、着目する複数の化合物由来の質量電荷比値又は質量電荷比範囲をセットにして着目m/z値データベース３１に登録しておき、ユーザがそのグループを一又は複数、入力部４から指定し、さらにそのグループに含まれる質量電荷比におけるスペクトル情報（つまりは信号強度情報）を除去するのか、その重み付けを変更するのか、重み付けを変更するのであれば重み付けをどの程度にするのか等を指定することができるようにしている。

　図２に示す例では、着目m/z値データベース３１に登録しておくグループとして、腫瘍マーカを除外するセットＡ、脂質マーカを除外するセットＢ、抗癌剤を除外するセットＣ、ポリマーを除外するセットＤが用意されている。「セットＡ」には、肝臓癌用の腫瘍マーカとして広く利用されているα-FP、乳癌スクリーニング用の腫瘍マーカとして広く利用されているCA15-3などに由来するイオンの質量電荷比値を含む。「セットＢ」には、リボ蛋白などに由来するイオンの質量電荷比値を含む。「セットＣ」には、フォリン酸、フルオロウラシル、オキサリプラチンなどの代表的な抗癌剤に由来するイオンの質量電荷比値を含む。「セットＤ」には、試料に接触する可能性がある測定用器具などに含まれる塩化ビニル、塩化ビニリデン、ジフェニルカーボネートなどの高分子化合物やその熱分解物に由来するイオンの質量電荷比値を含む。

　上記着目m/z値データベース３１は本装置のハードウェアやソフトウェアを提供するメーカが予め構築しておくようにしてもよいし、ユーザ自身が作成するようにしてもよい。また、予め基本となる着目m/z値データベース３１をメーカが作成しておき、ユーザが適宜、このデータベース３１を修正したり情報を追加又は削除したりすることができるようにしてもよい。なお、着目m/z値データベース３１に収録することが考えられる化合物の具体例についてはあとで詳述する。

　上述したようにユーザが入力部４から着目m/z値データベース３１中のグループ（又は特定の一つの化合物等）を指定すると、着目m/z情報受付部２１はその指定に対応する情報を着目m/z値データベース３１から読み出してスペクトル情報フィルタリング部２２に設定する。例えばユーザが「セットＡ」及び「セットＤ」の二つのグループを除外すべきスペクトル情報として指定したものとすると、着目m/z情報受付部２１は着目m/z値データベース３１中の「セットＡ」及び「セットＤ」の二つのグループに含まれる質量電荷比値情報を全て読み出して来てスペクトル情報フィルタリング部２２に設定する。

　スペクトル情報フィルタリング部２２は、マススペクトルデータベース３０からマススペクトルデータに対応するピーク情報を示すデータ（例えば上記ベクトルデータ）を順に読み出し、着目m/z情報受付部２１により設定された質量電荷比又は質量電荷比範囲に対応する信号強度情報を削除する（強度値をゼロにする）又はその質量電荷比又は質量電荷比範囲に対応する信号強度情報の重みを下げるように例えば１未満である所定の係数を乗じて強度を減じる。即ち、ここでは、クラスラベルが付された全てのマススペクトルデータについて、特定の質量電荷比又は質量電荷比範囲におけるスペクトル情報を削除したりその強度値を下げたりするフィルタリング処理を実行する（図２（ｂ）参照）。これによって、得られたマススペクトル上に例えば「セットＡ」に含まれる腫瘍マーカ由来のピークが存在していた場合でも、該ピークは実質的に除去されることになる。例えば「セットＡ」及び「セットＤ」に含まれる質量電荷比又は質量電荷比のスペクトル情報が各マススペクトルデータに基づくベクトルデータから除外されることで、フィルタリング処理済みのデータ群ａが得られる（図２（ｃ）参照）。

　そのあと学習処理部２３は、上記フィルタリング処理後のデータ（例えば上記データ群ａ）を読み込み、これを学習データとして機械学習を実施して学習結果αを求める（図２（ｄ）、（ｅ）参照）。そして、得られた学習結果αを学習結果データベース３２に格納する（図２（ｆ）参照）。機械学習のアルゴリズムとしてｄＰＬＲＭを用いる場合には、予測確率を与える最適化されたｄＰＬＲＭパラメータが学習結果情報である。そのアルゴリズムについては特許文献１等に記載された周知の技術であるので、ここでは詳細は省略する。もちろん、機械学習のアルゴリズムとしてｄＰＬＲＭ以外の手法を用いる場合でも、その手法に応じた学習結果情報を得ることができる。

　上述したように、学習処理部２３で扱う学習データには、上記フィルタリング処理によって実質的に除去されたスペクトル情報が含まれないから、学習結果データベース３２に格納される学習結果情報には上記フィルタリング処理で実質的に除去されたスペクトル情報は反映されない。即ち、上記例の場合、「セットＡ」に含まれる腫瘍マーカ由来のイオンの質量電荷比における信号強度情報、及び、「セットＣ」に含まれる抗癌剤由来のイオンの質量電荷比における信号強度情報は、いずれも学習結果情報に反映されなくなる。

　本実施例の癌診断支援装置では、着目m/z値データベース３１に収録されている除外対象のグループの指定や、そのグループに含まれる質量電荷比又は質量電荷比範囲を適宜変更することによって、マススペクトルデータベース３０に格納されている、全く同じベクトルデータを利用しながら、それぞれ異なる学習結果情報を作成して学習結果データベース３２に格納しておくことができる。
　例えば除外対象として「セットＡ」及び｛セットＣ」を指定することで学習結果αが得られたが、これと共に、全くフィルタリング処理を行わずにマススペクトルデータベース３０に格納されているベクトルデータをそのまま学習データとして利用することで作成した学習結果β、「セットＤ」のグループに含まれる化合物由来のイオンを除去した学習データを用いて作成した学習結果γなどを、学習結果データベース３２に格納しておくことができる。即ち、全く同じマススペクトルデータに基づき、ユーザの必要性に応じて、癌診断に利用可能な様々なパターンの学習結果情報を予め学習結果データベース３２に用意しておくことができる。除外対象のグループに含める質量電荷比の組み合わせを変えることによって、非常に多くの種類の学習結果情報を用意しておくことができる。

　被検者から採取された生体試料について癌判定を実施する際には、その目的試料を質量分析装置１で質量分析することによりマススペクトルデータを取得する。スペクトルデータ収集部２０はその実測のマススペクトルデータを読み込み、ピーク情報を収集してそれをベクトル化してベクトルデータを求める（図３（ａ）参照）。

　またユーザは、例えばマススペクトルデータから除外したい質量電荷比のグループ等を入力部４から指定する。着目m/z情報受付部２１はこの指定を受けて除外すべき質量電荷比又は質量電荷比値をスペクトル情報フィルタリング部２２に設定する。これは学習時と同じである。スペクトル情報フィルタリング部２２は、目的試料に対するマススペクトルデータから求まった上記ベクトルデータから、着目m/z情報受付部２１により設定された質量電荷比又は質量電荷比範囲に対応するスペクトル情報を削除する又はその強度値の重みを下げるように例えば１未満である所定の係数を乗じて強度を減じる。これにより、フィルタリング処理済みのデータが得られる。（図３（ｂ）、（ｃ）参照）。

　判定処理部２４は指定されたグループ等が除去された学習データに基づく学習結果情報を学習結果データベース３２から読み出す。即ち、学習時のフィルタリング処理の条件が判定時と同じである学習結果情報を取得する。そして、その学習結果情報を用いて上記フィルタリング処理後のデータが「癌である」又は「癌でない」クラスに属する確率を算出し、いずれのクラスに属するのかを判定する（図３（ｄ）参照）。判定結果出力部２５はその判定結果を所定の形式で表示部５の画面上に表示する。例えば、癌である又は癌でない確率をグラフィカルに表示することができる（図３（ｅ）参照）。

　上述したように本実施例の癌診断支援装置では、例えば学習データを利用した学習結果情報の作成時に腫瘍マーカ由来のイオンのスペクトル情報を学習データから除外し、目的試料に対して得られたデータについても同じ腫瘍マーカ由来のイオンのスペクトル情報を除外したうえで癌判定を実行する。そのため、腫瘍マーカの含有量はその癌判定の結果に影響を及ぼさない。それにより、本実施例の癌診断支援装置による判定と、これとは別に行われる腫瘍マーカ検査による判定とは、十分に高い独立性が確保されることになり、それら複数の判定結果に基づいて信頼性の高い癌の診断を行うことができる。

　本実施例の癌診断支援装置において、癌判定のためにマススペクトルデータから除外することが望ましい物質（化合物）の例を以下に列挙する。

　［１］他の癌の診断法や検査法に使用される又はそのターゲットであるため、それぞれの判定の独立性を確保するために、本装置での学習時及び判定時に除外することが望ましい物質：
　癌の診断や検査にごく一般的に使用される腫瘍マーカとして、α-FP、CA15-3、CA27-29、CA19-9、CA-125、CEA、SCC、CYFRA、ProGRP、などがある。これら腫瘍マーカの分子由来のイオンやその代謝物由来のイオンのスペクトル情報はマススペクトルデータから除外することが望ましい。また、上記以外に、腫瘍マーカとして使用されている、又は使用可能であると言われている物質としては、カルシトニン、カルレチニン、癌胎児性抗原（CEA）、CD34、CD99、CD117、クロモグラニン、クロモソーム 3,7,17,9p21、シトケラチン、デスミン、EMA、GFAP、GCFP-15、HMB-45、hCG、イムノグロブリン、インヒビン、ケラチン、リンパ球マーカ、MART-1、Myo D1、MSA、ニューロフィラメント、NSE、PLAP、前立腺特異抗原、PTPRC（CD45）、S100タンパク質、SMA、シナプトフィジン、チログロブリン、チロイド、転写因子-1、腫瘍 M2-PK、ビメンチン、などがある。これらについても上記腫瘍マーカと同様に、必要に応じてマススペクトルデータから除外するとよい。

　［２］学習時と判定時とで測定条件等の差異となり得るため、学習時及び判定時に除外することが望ましい物質
　［２－１］癌等の疾患診断を行う場合、疾患の治療というバイアスによって学習時と判定時とで測定条件の差異となり得る物質がある。例えば癌治療においては、以下のような物質（抗癌剤）が単体又は複数併用で以てしばしば用いられるため、これら物質自体及びその代謝物由来のイオンなどのスペクトル情報を必要に応じてマススペクトルデータから除外することが望ましい。
　・フォリン酸（ロイコボリン）　＜化学式：C₂₀H₂₃N₇O₇、分子量：473.44＞
　・フルオロウラシル（5-FU)　＜化学式：C₄H₃FN₂O₂、分子量：130.077＞
　・テガフール　＜化学式：C₈H₉FN₂O₃、分子量：200.16＞
　・ウラシル　＜化学式：C₄H₄N₂O₂、分子量：112.09＞
　・ギメラシル　＜化学式：C₅H₄ClNO₂、分子量：145.54＞
　・オテラシルカリウム　＜化学式：C₄H₂KN₃O₄、分子量：195.17＞
　・FdUMP　＜化学式：C₉H₁₂FN₂O₈P、分子量：326.172345＞
　・フルシトシン　＜化学式：C₄H₄FN₃O、分子量：129.09＞
　・ドキシフルリジン（5-DFUR）　＜化学式：C₉H₁₁FN₂O₅、分子量：246.19＞
　・カペシタビン　＜化学式：C₁₅H₂₂FN₃O₆、分子量：359.35＞
　・レバミゾール　＜化学式：C₁₁H₁₂N₂S、分子量：204.292＞
　・レボホリナート　＜化学式：C₂₀H₂₁N₇O₇.Ca、分子量：473.44＋Ca＞
　・シスプラチン　＜化学式：Cl₂H₆N₂Pt、分子量：300.05＞
　・ビンブラスチン　＜化学式：C₄₆H₅₈N_4OO₉、分子量：810.975（＋SO₄硫酸塩）＞
　・シアノコバラミン　＜化学式：C₆₃H₈₈CoN₁₄O₁₄P、分子量：1355.38＞
　・ドキソルビシン（アドリアシン）　＜化学式：C₂₇H₂₉NO₁₁、分子量：543.52（579.98（塩酸塩））＞
　・ドキソルビシン　＜化学式：C₂₇H₂₉NO₁₁、分子量：543.52＞
　・エピルビシン　＜化学式：C₂₇H₂₉NO₁₁、分子量：543.519（579.98（塩酸塩））＞
　・ペメトレキセド　＜化学式：C₂₀H₂₁N₅O₆、分子量：427.41／化学式：C₂0H₁₅N₅Na₂0₆・7 H₂0、分子量：597.49＞
　・メトトレキサート　＜化学式：C₂₀H₂₂N₈O₅、分子量：454.44＞
　・アロプリノール　＜化学式：C₅H₄N₄O、分子量：136.112＞
　・テモゾロミド　＜化学式：C₆H₆N₆O₂、分子量：194.151＞
　・ブレオマイシン　＜化学式：C₅₅H₈₄N₁₇O₂₁S₃、分子量：1415.551＞
　・ミスラマイシン　＜化学式：C₅₂H₇₆O₂₄、分子量：1085.15＞
　・マイトマイシンC　＜化学式：C₁₅H₁₈N₄O₅、分子量：334.327＞
　・エトポシド　＜化学式：C₂₉H₃₂O₁₃、分子量：588.557＞
　・イリノテカン　＜化学式：C₃₃H₃₈N₄O₆、分子量：586.678（677.185（塩酸塩））＞
　・カンプトテシン　＜化学式：C₂₀H₁₆N₂O₄、分子量：348.352＞
　・シクロホスファミド　＜化学式：C₇H₁₅Cl₂N₂O₂P・H₂O、分子量：279.10＞
　・イホスファミド　＜化学式：C₇H₁₅Cl₂N₂O₂P、分子量：261.1＞
　・チオテパ　＜化学式：C₆H₁₂N₃PS、分子量：189.2＞
　・ブスルファン　＜化学式：C₆H₁₄O₆S₂、分子量：246.304＞
　・ニムスチン　＜化学式：C₉H₁₃ClN₆O₂、分子量：272.69＞
　・塩酸ニムスチン　＜化学式：C₉H₁₄Cl₂N₆O₂、分子量：309.15＞
　・ラニムスチン　＜化学式：C₁₀H₁₈ClN₃O₇、分子量：327.71＞
　・カルムスチン　＜化学式：C₅H₉Cl₂N₃O₂、分子量：214.05＞
　・ロムスチン　＜化学式：C₉H₁₆ClN₃O₂、分子量：233.695＞
　・ストレプトゾシン　＜化学式：C₈H₁₅N₃O₇、分子量：265.221＞
　・セムスチン　＜化学式：C₁₀H₁₈ClN₃O₂、分子量：247.72＞
　・ダカルバジン　＜化学式：C₆H₁₀N₆O、分子量：182.18＞
　・メスナ　＜化学式：C₂H₅NaO₃S₂、分子量：164.181＞
　・ビンクリスチン　＜化学式：C₄₆H₅₆N₄O₁₀、分子量：824.958＞
　・クロラムブシル　＜化学式：C₁₄H₁₉Cl₂NO₂、分子量：304.212＞
　・メルファラン　＜化学式：C₁₃H₁₈Cl₂N₂O₂、分子量：305.2＞
　＜ナイトロジェンマスタード系＞
　・N,N-ビス(2-クロロエチル)エチルアミン(HN-1)　＜化学式：CH₃CH₂N(CH₂CH₂Cl)₂、分子量：170.08＞
　・N,N-ビス(2-クロロエチル)メチルアミン(HN-2、メクロレタミン)　＜化学式：CH₃N(CH₂CH₂Cl)₂、分子量：156.054＞
　・トリス(2-クロロエチル)アミン(HN-3)　化学式：(CH₂CH₂Cl)₃N　分子量：204.52＞
　・ドセタキセル　＜化学式：C₄₃H₅₃NO₁₄、分子量：807.879＞
　・パクリタキセル　＜化学式：C₄₇H₅₁NO₁₄、分子量：853.906＞
　・ゲムシタビン　＜化学式：C₉H₁₁F₂N₃O₄、分子量：263.198＞
　・シタラビン　＜化学式：C₉H₁₃N₃O₅、分子量：243.22＞
　・ダウノルビシン　＜化学式：C₂₇H₂₉NO₁₀、分子量：527.52（563.99（塩酸塩））＞
　・ミトキサントロン　＜化学式：C₂₂H₂₈N₄O₆、分子量：444.481＞
　・ゾスキダル　＜化学式：C₃₂H₃₁F₂N₃O₂、分子量：527.61＞
　・アクチノマイシン　＜化学式：C₆₂H₈₆N₁₂O₁₆、分子量：1255.42＞
　・プレドニゾロン　＜化学式：C₂₁H₂₈O₅、分子量：360.45＞
　・アスパラギナーゼ　＜化学式：C₁₃₇₇H₂₂₀₈N₃₈₂O₄₄₂S₁₇、分子量：31731.9＞
　・メルカプトプリン　＜化学式：C₅H₄N₄S、分子量：152.177＞
　・オキサリプラチン（L-OHP）　＜化学式：C₈H₁₄N₂O₄Pt、分子量：397.2858＞
　・カルボプラチン（CBDCA）　＜化学式：C₆H₁₂N₂O₄Pt、分子量：371.249＞
　・レバミゾール　＜化学式：C₁₁H₁₂N₂S　分子量：204.292＞
　・ベバシズマブ　＜化学式：C₁₀₃₄H₁₅₉₁N₂₇₃O₃₃₈S₆（C₂₂₃₅H₃₄₁₃N₅₈₅O₆₇₈S₁₆）、分子量：149 kDa＞
　・セツキシマブ　＜化学式：C₆₄₈₄H₁₀₀₄₂N₁₇₃₂0₂₀₂₃S₃₆、分子量：145781.6＞
　・パニツムマブ　＜化学式：C₆₃₉₈H₉₈₇₈N₁₆₉₄O₂₀₁₆S₄₈、分子量：147 kDa＞

　［２－２］測定時等に夾雑物として試料に混入する可能性があり、そのために学習時と判定時とで測定条件の差異となり得る物質がある。これは例えば、試料を収容する容器やサンプルプレート等の測定用器具などの材料である高分子化合物の熱分解物、精製が不十分である等の理由で残存する原材料単量体又は二量体、三量体などであり、代表的な高分子化合物（ポリマー）として、塩化ビニル、塩化ビニリデン、塩化カルボニル、ジフェニルカーボネート、ビスフェノールA/PTBT（p-t-ブチルフェノール）、フェノール、スチレン、及びこれらいずれかの二量体、三量体、などが知られている。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。

　［２－３］上記測定用器具などの材料に含まれる可塑剤による汚染の影響も考えられる。代表的な可塑剤としては、フタル酸エステル類、フタル酸ジオクチル、フタル酸ジイソノニル、フタル酸ジイソデシル、フタル酸ジブチル、アジピン酸エステル類、アジピン酸ジオクチル・アジピン酸ジイソノニル、トリメット酸エステル類、トリメット酸トリオクチル、ポリエステル類、燐酸エステル類、燐酸トリクレシル、クエン酸エステル、ATBC（Acetyl tributyl citrate）、アセチルクエン酸トリブチル、エポキシ化植物油、ESBO（Epoxidized soybean-oil）、エポキシ化大豆油、ELSO（Epoxidized linseed-oil）、エポキシ化亜麻仁油、セバシン酸エステル、アアゼライン酸エステル、マレイン酸エステル、安息香酸エステル、などが知られている。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。

　［２－４］上記測定用器具などの製造過程で用いられる離型剤やその変性物による汚染の影響も考えられる。代表的な離型剤としては、植物油、シリコーン系、フッ素樹脂系などが知られている。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。

　［２－５］質量分析装置の較正などに用いられる標準物質や試薬又はそれに添加されている物質による汚染の影響も考えられる。こうした物質としては例えば、ポリエチレングリコール、NaTFA、NaI CsI、パパベリン、p-ニトロフェノール、レセルピン、アンジオテンシン、ブラジキニンなどがある。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。

　［２－６］試料の前処理に用いられる物質や試料成分分離に用いられるカラム溶出物などの残存物による汚染の影響も考えられる。これら物質としては、クロロホルム、アセトニトリル、シロキサンなどがある。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。

　［２－７］夾雑物ではないが、マススペクトルの中で装置の性能が変動したり低下したりし易い質量電荷比範囲、例えば測定可能範囲の上限付近及び下限付近のデータは学習時と判定時とで測定条件に差異が生じ易い。そこで、例えば測定可能範囲の上限付近及び下限付近の所定の質量電荷比領域に含まれるイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。

　上記のような様々な要因によるスペクトル情報をマススペクトルデータから実質的に除外する際には、ユーザは例えば以下のような手法のいずれかによって影響を低減すべきスペクトル情報を予測し、その予測に基づいて実質的に除去するスペクトル情報（質量電荷比値など）を指定するとよい。

　［Ａ］実試料に対する実測、標準試料等に対する実測、或いは、ブランク試料（溶媒のみの試料）に対する実測などにより、影響を低減すべきスペクトル情報が含まれるマススペクトルを取得し、そのマススペクトルを解析することによって、影響を低減すべきスペクトル情報を求める。この場合には、実際にマススペクトルに混入していることが確認できる又は混入の可能性が高いことが確認できるスペクトル情報を実質的に除去することになる。

　上記解析には例えば主成分分析（ＰＣＡ）、部分最小二乗（ＰＬＳ）などの周知の多変量解析の手法を利用することができる。例えば、詳細な代謝物が判明していない場合であっても、既知の質量電荷比と相関性の高いピークを多変量解析手法により抽出し、それを除去すべきものとして指定することができる。このような相関は代謝により消費・生成される物質に限らず、或るピークの存在に伴うサプレッションなどのイオン化への影響によるスペクトルパターンの変化についても抽出できるので、内部標準試料の添加や汚染物質の影響についても同様の解析を用いることができる。同様に、装置の器差や測定を実施した機関の差などと相関の高いピークを多変量解析により抽出し、そうしたピークは系統誤差の影響を受け易いピークと考えて、それを除去すべきものとして指定することもできる。

　［Ｂ］本装置による判定と併せて実施される腫瘍マーカ検査に利用される腫瘍マーカが既知である場合、或いは、癌患者等に投与された抗癌剤等が既知である場合など、影響を除去する必要がある一又は複数の物質が特定されている場合には、その物質又はその代謝物が一価若しくは多価にイオン化する際に、一つ又は複数の、電子の付加又は脱離、水素の付加又は脱離、Na、K、Rb、Cs、Fr等のアルカリ金属の付加又は脱離、その他の金属の付加又は脱離、F、Cl、Br、I、At等のハロゲン元素の付加又は脱離、水和、脱水、硫酸基、酢酸基、硝酸基などの各種化学修飾基の付加又は脱離などが生じたイオンの質量電荷比を同位体の影響を含めて計算する。そして、その計算により求まった質量電荷比に対応するスペクトル情報を除外すべきものとする。

　［Ｃ］試料に含まれる又は混入している物質自体又はその代謝物の一部である化学修飾基や金属の付加などによって元々試料に含まれる他の物質が一価又は多価にイオン化する際に変異することを想定し、その他の物質に、一つ又は複数の、Na、K、Rb、Cs、Fr等のアルカリ金属の付加、その他の金属の付加、F、Cl、Br、I、At等のハロゲン元素の付加、水和、硫酸基、酢酸基、硝酸基などの各種化学修飾基の付加などが生じたイオンの質量電荷比を同位体の影響を含めて計算する。そして、その計算により求まった質量電荷比に対応するスペクトル情報を除外すべきものとする。

　［Ｄ］試料に含まれる又は混入している物質自体又はその代謝物の影響で、元々試料に含まれる他の物質が一価又は多価にイオン化する際に、その一部が脱離することにより変異することを想定し、その他の物質から、一つ又は複数の、Na、K、Rb、Cs、Fr等のアルカリ金属の脱離、その他の金属の脱離、F、Cl、Br、I、At等のハロゲン元素の脱離、脱水、硫酸基、酢酸基、硝酸基などの各種化学修飾基の脱離などが生じたイオンの質量電荷比を同位体の影響を含めて計算する。そして、その計算により求まった質量電荷比に対応するスペクトル情報を除外すべきものとする。

　［Ｅ］実質的に除去したい物質由来のイオンが決まっている場合に、そのイオンについて同位体の影響及び装置による質量ズレの影響を考慮し、除外したいイオンの質量電荷比を中心とするその前後の所定幅の質量電荷比範囲全体のスペクトル情報を除外すべきものとする。

　［Ｆ］スペクトル情報の除外の必要性を検討する際に、その除外あり及びなしでの判定結果への影響を予め評価し、除外による評価についての所望の改善が確認できるスペクトル情報のみ除外すべきものとする。

　なお、除去すべきスペクトル情報を決定する際には、上記［Ａ］～［Ｆ］の手法を適宜組み合わせてもよい。本来は除去しなくてもよい、つまりは判定結果に影響を与えないスペクトル情報を除去してしまうと、偶然、それに質量電荷比が重なっている重要なスペクトル情報も除去されてしまい判定の精度が低下することがあり得るが、除去するスペクトル情報を本当に除去すべきものに限定することで、判定の精度を確保し易くなる。

　また、単に特定の質量電荷比や質量電荷比範囲に対応するスペクトル情報を除外するだけでなく、特定の一つ若しくは複数の質量電荷比又は質量電荷比範囲について重み付け、つまりは信号強度値の相対的な大きさを変更することを可能としておくことで、重みを下げるのではなく逆に重みを上げて特定のマーカ関連の質量電荷比を重視する判定を行うこともできる。これによって、例えば、新たなマーカ分子が見いだされた場合やあとで混入が疑われる物質が見つかった場合に、そうした物質由来のイオンのスペクトル情報に対する重みを意図的に上げることによって既存のデータベース内の影響の評価が可能となる。

　なお、上記実施例は本発明に係る質量分析データ解析装置を癌診断支援装置に利用したものであるが、本発明に係る質量分析データ解析装置は、癌などの特定の疾病や疾患の診断や判定に限らず、未知の試料が複数のクラスのいずれかに分類されるのかを判定するための様々な装置や分野に利用することができる。

　例えば、農産物、海産物、畜産物などの産品が特定の産地由来のものであるか否かの検査、高価な産品が安価な類似品（偽物）でないかどうかの検査を行う際に利用可能である。また、医薬品や紙幣などの工業製品についての真贋判定、工業製品の良品・不良品の判定、さらには、ゴミや廃棄物の分別などにも利用可能である。

　また、上記実施例は本発明の一例にすぎず、上記記載以外の点について本発明の趣旨の範囲で適宜変形、修正、追加を行っても本願特許請求の範囲に包含されることは明らかである。

１…質量分析装置
２…データ解析部
２０…スペクトルデータ収集部
２１…着目m/z情報受付部
２２…スペクトル情報フィルタリング部
２３…学習処理部
２４…判定処理部
２５…判定結果出力部
３…記憶部
３０…マススペクトルデータベース
３１…着目m/z値データベース
３２…学習結果データベース
４…入力部
５…表示部

Claims

　複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報を用いて、目的試料に対し質量分析を行うことで得られたマススペクトルデータに基づき該目的試料をクラス分けする質量分析データ解析方法であって、
　a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリングステップと、
　b)前記学習データフィルタリングステップで処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行ステップと、
　c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリングステップと同等の処理を実行する目的データフィルタリングステップと、
　d)前記目的データフィルタリングステップで処理されたあとのマススペクトルデータに基づき、前記学習実行ステップにおいて記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行ステップと、
　を有することを特徴とする質量分析データ解析方法。
　請求項１に記載の質量分析データ解析方法であって、
　当該解析方法とは異なる他の手法による判定結果との併用によって前記目的試料が前記複数のクラスのいずれに分類されるのかを結論付ける質量分析データ解析方法であり、
　前記他の手法における測定又は検査の対象である一又は複数の化合物由来のイオンの質量電荷比又は質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
　請求項２に記載の質量分析データ解析方法であって、
　前記他の手法は特定の化合物をマーカとして測定又は検査を行う手法であり、該マーカである化合物、及び／又はその代謝物、及び／又はその代謝時に影響を受ける生体内分子に由来するイオンの質量電荷比又は質量電荷比範囲、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
　請求項１に記載の質量分析データ解析方法であって、
　学習データに基づく学習時と目的試料の判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される一又は複数の化合物由来のイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
　請求項４に記載の質量分析データ解析方法であって、
　前記試料は生体由来の試料であり、該生体に投与される又はその可能性のある薬剤、その代謝物、その代謝時に影響を受ける生体内分子、試料に残留する可能性のある標準物質、試料の採取、前処理、若しくは測定の過程で混入する可能性のある化合物のうちの一又は複数の化合物に由来するイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
　請求項４に記載の質量分析データ解析方法であって、
　学習時と判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される前記一又は複数の化合物由来のイオンの質量電荷比は、統計解析処理により抽出されたものであることを特徴とする質量分析データ解析方法。
　複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
　a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリング部と、
　b)前記学習データフィルタリング部で処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行部と、
　c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリング部と同等の処理を実行する目的データフィルタリング部と、
　d)前記目的データフィルタリング部で処理されたあとのマススペクトルデータに基づき前記学習実行部において記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
　を備えることを特徴とする質量分析データ解析装置。
　複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとして所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
　a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正するフィルタリング処理がなされたあとのデータを学習データとして、前記機械学習を実行することで作成された学習結果情報を記憶しておく学習結果情報記憶部と、
　b)目的試料に対して得られたマススペクトルデータについて前記学習結果情報を作成する際に学習データに対して行われた前記フィルタリング処理を実行する目的データフィルタリング部と、
　c)前記目的データフィルタリング部でフィルタリング処理されたあとのマススペクトルデータに基づき、前記学習結果情報記憶部に記憶されている前記学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
　を備えることを特徴とする質量分析データ解析装置。