WO2020044435A1

WO2020044435A1 - データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法

Info

Publication number: WO2020044435A1
Application number: PCT/JP2018/031742
Authority: WO
Inventors: 藤田　雄一郎; 陽野田
Original assignee: 株式会社島津製作所
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-03-05
Also published as: US20210319364A1; JPWO2020044435A1; JP7255597B2

Abstract

解析対象のデータを解析パラメータを用いて解析プログラム３３で解析する方法であって、複数の学習用パラメータセットを作成するステップＳ２と、複数の参照データについて前記複数の学習用パラメータセットを用いて解析プログラムによる解析を実行して解析に適した学習用パラメータセットを決定するステップＳ４と、前記複数の学習用パラメータセットのそれぞれに解析に適しているとされた参照データのグループである参照データ群を対応付けるステップＳ７と、未解析データを入力するステップＳ９と、該未解析データと各参照測定データ群の共通性と各参照データ群に対応付けられた学習用パラメータセットから1乃至複数の解析パラメータのそれぞれの値を求めることにより実解析用パラメータセットを決定するステップＳ１１と、実解析用パラメータセットを用いて解析プログラムにより未解析データの解析を実行するステップＳ１２とを含む。

Description

データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法

　本発明は、分析装置を用いて試料を測定することにより得られた測定データをはじめとする各種のデータを解析プログラムにより解析する際に用いられる技術に関する。

　試料に含まれる目的化合物を同定したり定量したりするために、クロマトグラフと質量分析装置を組み合わせたクロマトグラフ質量分析装置が広く用いられている。クロマトグラフ質量分析装置ではクロマトグラフのカラムに試料を導入し、保持時間（Retention Time, RT）の違いにより試料に含まれる複数の物質を分離し質量分析装置（Mass Spectrometry, MS）に導入する。クロマトグラフで分離された物質が質量分析装置に導入される時間間隔は、質量分析装置におけるスキャン測定の速度（質量走査速度）に応じて決められる。質量分析装置に導入された物質はイオン化された後、質量電荷比（m/z）に応じて分離され検出される。これにより、保持時間（RT）と質量電荷比（m/z）の二軸に対してイオンの検出強度をプロットした三次元データが得られる。この三次元データにおいて、各質量電荷比におけるイオンの検出強度（信号強度）は、その質量電荷比を有するイオンを生成する物質の、試料中の含有量を反映している。

　この三次元データの保持時間（RT）軸の各点において質量電荷比（m/z）軸の方向の信号強度を積算することによりトータルイオンカレント（Total Ion Current, TIC）が得られる。そして、トータルイオンカレントを保持時間軸に沿ってプロットすることによりトータルイオンカレントクロマトグラム（Total Ion Current chromatogram, TICC）が得られる。

　試料に含まれる各物質がクロマトグラフのカラムで互いに十分に分離されていれば、TICCの波形（TICC波形）には、その物質の保持時間の位置に単峰性の釣鐘型のピークが現れる。その保持時間におけるマススペクトルから物質を同定することで、その保持時間に溶出した物質が何であるかを特定することができる。物質の同定は、同定対象のマススペクトルと、データベース（Data Base, DB）に保存されている既知物質の実測マススペクトルもしくは理論マススペクトルとを比較することにより行われる。その比較項目は、マスピークが存在する質量電荷比（m/z）値、そのマスピークの強度などである。マススペクトルの一致度（スコア）により、物質の同定結果がどの程度の信頼性を有するかを定量的に評価することができる。また、TICC波形上のピークの面積や高さから、クロマトグラフにより分離された各試料の量を推定することができる。

　しかし、保持時間が同じあるいは近い複数の物質が試料に含まれていると、それらの物質の保持時間やその前後の時間にクロマトグラフから溶出する溶出物に複数の物質が混在してしまう。すると、当該保持時間やその前後の時間におけるマススペクトルには複数の物質に由来するマスピークが混在し、それらのマスピークを積算することにより得られるTICC波形のピークも複数の物質に由来するピークが重畳したものになる。通常は、TICC波形に現れる単峰性のピークのピークトップの保持時間に何らかの物質が溶出したと考えるが、重畳ピークになっていると、ピークの形がいびつであったり、大きい単峰性ピークに小さい単峰性ピークが埋もれてしまっていたり、あるいはピークが多峰性になってしまったりする。こうした場合、クロマトグラフからの溶出物に単一の物質しか含まれていない場合に得られるはずの単峰性のピークのピークトップにあたる保持時間を正しく求めることができない。また、測定データにノイズが含まれていたり、信号強度にベースライン成分が含まれていたりすると、状況はより複雑になり、試料に少量しか含まれていない物質に由来する小さなTICCピークの保持時間を求めることがより困難になる。

　そこで、信号処理や統計処理等によって重畳ピークを分離し、一つのマススペクトルに単一の物質に由来するマスピーク群しか含まれないようにTICCピークを純化するピーク分離（Peak Deconvolution）を行う。こうしてTICCピークを純化すると、測定データのTICC波形にどのようなTICCピークが重畳していたのかを推定することができる。多くの場合、ピーク分離を実行するために専用の解析プログラムが用いられる。ガスクロマトグアフィー／質量分析（GC/MS）で得られた測定データ（GCMSデータ）のピークを純化するために用いられる代表的な解析プログラムとして、アメリカ国立標準技術研究所（National Institute of Standards and Technology, NIST）から提供されているAMDIS（Automated Mass Spectral Deconvolution and Identification System）が知られている（非特許文献１参照）。AMDISでは、ピークを純化するために6つの解析パラメータ（ピーク幅、除外質量電荷比、近傍ピークの数、ピーク間隔、ピーク検出感度、及びモデル適合度）が用いられる。これらの解析パラメータにはそれぞれ初期値が用意されており、多くの場合、解析にはその初期値がそのまま用いられる。

特開2007-41234号公報

"Automated Mass Spectral Deconvolution & Identification System",[online],The National Institute of Standards and Technology (NIST) ,[平成30年6月22日検索],インターネット<URL:https://chemdata.nist.gov/mass-spc/amdis/explanation.html> "Mass++",[online],株式会社島津製作所,[平成30年6月22日検索],インターネットURL:https://www.shimadzu.co.jp/aboutus/ms_r/masspp.html 岡谷貴之著「深層学習（機械学習プロフェッショナルシリーズ）」講談社、2015年4月

　AMDISにおける解析パラメータの初期値は様々なGCMSデータに対して汎用的に用いることを想定して設定された値であり、GCMSデータの状態（重畳ピークの形状、質量走査速度、ノイズの状態等）によっては、必ずしも適切なものであるとは限らない。すなわち、解析対象のGCMSデータのピーク分離に初期値をそのまま用いても十分にピークを分離することができない場合がある。こうした場合には、使用者が各解析パラメータの値を初期値から変更してピークを分離し、解析者が妥当であると考える結果が得られるまで、例えば十分な信頼性でもって物質が同定される、つまり十分に高いスコアが得られるまでパラメータ調整を行う。この際に、解析者は自らが培ってきた勘や経験でもってパラメータ調整を行うため、解析の結果が使用者の能力や感覚に依存したものとなる、つまり解析者の熟練度によって得られる結果にばらつきが生じる、という問題があった。また、パラメータ調整を繰り返す必要があることから解析作業に手間と時間がかかるという問題があった。

　ここでは従来技術の一例として、GCMSデータをAMDISにより解析する場合を説明したが、他の分析装置を用いた試料の測定により得られた測定データ等の様々なデータを、何らかの解析パラメータを用いて解析する際に上記同様の問題があった。

　本発明が解決しようとする課題は、分析装置を用いて試料を測定することにより得られた測定データなどの各種のデータを解析パラメータを用いて解析する際に、簡便に適切な解析結果を得ることができる技術を提供することである。

　上記課題を解決するために成された本発明の第１の態様は、解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する方法であって、
　前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
　複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
　前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
　未解析データを入力する未解析データ入力ステップと、
　所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定ステップと、
　前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析ステップと
　を含むことを特徴とする。

　本発明に係るデータの解析方法では、まず、データの解析に使用する1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する。そして、複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する。これは、例えば、複数の参照データのそれぞれについて、作成した複数の学習用パラメータセットのそれぞれを用いて解析プログラムによる解析を実行することにより得られた解析結果に対する妥当性を表す評価値を求め、その評価値が最も高いものを最適な学習用パラメータセットとすることにより行うことができる。あるいは、評価値が予め決められた基準値以上であるものを解析に適した学習用パラメータセットとしてもよい。前者の場合は参照データのそれぞれについて、その解析に適した1つの学習用パラメータセットが決定され、後者の場合は1乃至複数の学習用パラメータセットが決定される。

　続いて、複数の学習用パラメータセットのそれぞれについて、学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を作成する。これにより解析に適した学習用パラメータセットが共通する参照データがグループ化され、未解析データの解析に用いるパラメータセットを決める元となる情報が得られる。先の学習用パラメータセット決定ステップにおいて、1つの参照データについて解析に適したパラメータセットを複数決定した場合、その参照データが複数の参照データ群に含まれるようにしてもよい。

　次に、未解析データを入力する。そして、所定の基準により未解析データと参照データ群の共通性に基づいて、前記1乃至複数の解析パラメータのそれぞれについて未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する。この所定の基準は解析対象データの種類によって異なるが、例えば解析対象データがGCMSデータのTICC波形である場合、未解析データのピークに近い形状のピークを有する参照データから構成される参照データ群を、共通性が高い参照データ群とすることができる。

　実解析用パラメータセット決定ステップは、例えば、未解析データと最も高い共通性を持つ参照データ群を決定し、該参照データ群に対応する学習用パラメータセットをそのまま実解析用パラメータセットとすることにより行うことができる。このように、複数の学習用パラメータセットに付されたパラメータセット番号の中の1つを予測する場合は、最も共通性が高い参照データ群に対応付けられているパラメータセット番号を選択する。これは前記1乃至複数のパラメータの組を1つの「パラメータセット」として扱い、どのパラメータセットで解析すべきかを考える場合である。これは機械学習の用語でいえば「識別」のアプローチである。

　また、実解析用パラメータセット決定ステップを行う別の方法として、参照データ群（各参照データ群は1つの参照データのみで構成されてもよい）に各解析パラメータの値を直接対応付け、未解析データの解析で用いるべき各解析パラメータの値を推定するというアプローチも考えられる。これは機械学習の用語でいれば「回帰」のアプローチである。回帰の場合、ある1つの解析パラメータについて、学習用パラメータセットにその値が2つ（例えば5と10）しか含まれていない場合であっても、未解析データと各参照データ群（あるいは各参照データ）との共通性（例えばTICC波形の類似性）に基づく回帰分析を行い、前記2つの値のいずれでもない中間的な値（例えば7）を未解析データの解析に最適な解析パラメータの値として求めることができる。こうした回帰分析は、1乃至複数の解析パラメータについて個別に行うこともでき、あるいは1乃至複数の解析パラメータについて一括して（即ちパラメータセット単位で）行うこともできる。最後に、上記の回帰分析により求めた1乃至複数の解析パラメータの値で構成された実解析用パラメータセットを用いて解析プログラムにより未解析データの解析を実行する。

　このように、本発明に係るデータ解析方法では、未解析データの解析に先立ち、複数の参照データを用いた解析により、解析に適した学習用パラメータセットが共通する1乃至複数の参照データを参照データ群としてグループ化しておく。そして、未解析データと参照データ群の共通性に基づいて、該参照データ群に対応づけられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求め、それらを実解析用パラメータセットとして決定する。そのため、使用者が自ら解析パラメータの値を設定する必要がなく、また未解析データの解析に適したパラメータセットが一義的に決まるため、簡便に適切な解析結果を得ることができる。また、使用者の熟練度によって得られる結果にばらつきが生じることもない。

　上記課題を解決するために成された本発明の第２の態様は、解析対象のデータを所定の解析プログラムにより解析する際に使用する1乃至複数の解析パラメータの値を決定するために用いられる学習モデルを作成する方法であって、
　前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
　複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
　前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
　前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップと
　を有することを特徴とする。

　本発明の第２の態様であるデータ解析用学習モデルの作成方法では、第１の態様のデータ解析方法と同様の学習用パラメータ作成ステップ、学習用パラメータセット決定ステップ、及び参照データ群作成ステップを行うことにより作成される、複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する。近年、機械学習の様々な手法が提案されており（例えば特許文献１）、前記機械学習には、例えばディープラーニング（Deep Learning）、そのディープラーニングの一形態である畳み込みニューラルネットワーク（Convolution Neural Network, CNN）、サポートベクターマシン（Support Vector Machine, SVM）、アダブースト（AdaBoost）を用いることができる。こうして作成した学習モデルは、本発明の第１の態様であるデータ解析方法の実解析用パラメータセット決定ステップにおいて好適に用いることができる。

　さらに、上記課題を解決するために成された本発明の第３の態様は、解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する装置であって、
　前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
　複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定部と、
　前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定部により当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
　未解析データを入力する未解析データ入力部と、
　所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定部と、
　前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析実行部と
　を備えることを特徴とする。

　分析装置を用いた試料を測定することにより得られた測定データなどの各種データを解析パラメータを用いて解析する際に、本発明に係るデータ解析方法、データ解析装置、あるいはデータ解析用の学習モデル作成方法を用いることにより、簡便に適切な解析結果を得ることができる。

本発明に係るデータ解析装置の一実施例である制御・処理装置をガスクロマトグラフ質量分析装置と組み合わせた分析システムの要部構成図。本発明に係るデータ解析方法の一実施例に関するフローチャート。ガスクロマトグラフ質量分析装置を用いた試料の測定により得られる三次元データのヒートマップの例(a)、及びトータルイオンカレントクロマトグラムの例(b)。 AMDISで用いられる解析パラメータの説明。本実施例において用いられる学習用パラメータセットの一部。本実施例において複数の学習用パラメータセットを用いた分割参照データの解析結果を表すヒストグラム。本実施例において用いた3種類の学習用パラメータセットのそれぞれについて、その学習用パラメータセットが解析に最適であったピークを重ね描きしたもの。機械学習により作成した学習モデルの評価に用いたデータの構成。本実施例における機械学習において用いた畳み込みニュートラルネットワークの構造を説明する図。本実施例において最も正答率が高くなった、畳み込みニュートラルネットワークのハイパーパラメータ及びネットワーク構成。本実施例の学習モデルにより最適なパラメータセットを選択する解析処理を5分割交差検証により評価した際の正答率。未解析データから分割未解析データを取り出す処理を説明する図。本発明に係るデータ解析方法及び解析装置の概念図。本発明に係るデータ解析装置の変形例のブロック図。

　本発明に係るデータ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法の実施例について、以下、図面を参照して説明する。

　本実施例における解析対象のデータは、ガスクロマトグラフ質量分析装置を用いた測定により取得された三次元のGCMSデータである。また、本実施例では、解析プログラムとしてAMDISを使用し、GCMSデータから得られるトータルイオンカレントクロマトグラムの波形（TICC波形）のピークを分離することにより純化したマススペクトルを、物質データベース（物質DB）に予め保存されている各種の既知の物質のマススペクトルと照合して、試料に含まれる物質を同定するとともに、その一致度を表す評価値（スコア）を算出する。このスコアは、その値が高いほど物質同定の信頼性が高いことを表す。

　図１は本実施例のデータ解析装置を含む分析システムの要部構成図、図２は本実施例のデータ解析方法に関するフローチャートである。本実施例の分析システムは、ガスクロマトグラフ質量分析装置１と制御・処理装置３を備えている。

　ガスクロマトグラフ質量分析装置１は、ガスクロマトグラフ１０と質量分析計２０から構成される。ガスクロマトグラフ１０では、オートサンプラ１４に予めセットされた液体試料が順次、インジェクタ１３に送られ、インジェクタ１３から試料気化室１２に注入される。また、試料気化室１２にはヘリウム等のキャリアガスが供給される。試料気化室１２は加熱されており、インジェクタ１３から注入された液体試料は気化してキャリアガスの流れに乗り、カラムオーブン１１に収容されたキャピラリカラム１５に送り込まれる。試料ガスに含まれる各種の化合物はキャピラリカラム１５を通過する間に時間方向に分離され、質量分析計２０に順次導入される。

　質量分析計２０は図示しない真空ポンプにより真空排気される真空チャンバ２３を備えており、その内部にはイオン源２１、レンズ電極２２、四重極マスフィルタ２４、及びイオン検出器２５が配設されている。ガスクロマトグラフ１０から導入された試料ガス中の物質は順次、イオン源２１に導入される。イオン源２１は例えばEI（電子イオン化）源であり、イオン化室２１１に導入された試料ガスにフィラメント２１２で生成された熱電子が照射されることによってイオンが生成される。イオン源２１で生成されたイオンは、レンズ電極２２により収束され四重極マスフィルタ２４で質量電荷比に応じて分離されたあと、イオン検出器２５で検出される。イオン検出器２５からの出力信号は制御・処理装置３が有する記憶部３１に保存される。

　制御・処理装置３は、ガスクロマトグラフ質量分析装置１の各部を制御する分析制御部としての機能と、該ガスクロマトグラフ質量分析装置１等を用いた測定により得られたデータを処理する機能を有している。後者が本発明に係るデータ解析装置に対応する。制御・処理装置３は記憶部３１と物質データベース（物質DB）３２を備えており、また所定の解析プログラム（本実施例ではAMDIS）３３が予めインストールされている。物質データベース３２は、解析プログラム３３によるデータの解析において試料に含まれる物質を同定するために用いられるデータベースであり、多数の既知の物質のそれぞれについて物質名、化学式、理論保持時間、マススペクトル等の情報が対応付けられて保存されている。

　制御・処理装置３は、さらに、機能ブロックとして、参照データ取得部４１、パラメータセット作成部４２、パラメータセット決定部４３、参照データ分割部４４、学習モデル作成部４５、未解析データ入力受付部４６、未解析データ分割部４７、実解析用パラメータ決定部４８、実解析実行部４９、解析結果出力部５０、学習モデル更新部５１を備えている。制御・処理装置３の実体はコンピュータであり、これらの機能ブロックは、制御・処理装置３に予めインストールされたデータ解析用プログラム４０をプロセッサで実行することにより具現化される。また、制御・処理装置３にはマウスやキーボード等の入力部６と表示部７が接続されている。

　次に、本実施例においてGCMSデータを解析する手順を、図２のフローチャートを参照して、実際の解析例とともに説明する。なお、図２のフローチャートにおけるステップＳ１～ステップＳ８は本発明に係る学習モデルの作成方法の一実施形態の手順である。

　使用者が入力部６を通じた操作により参照データの取得を指示すると、参照データ取得部４１は、ガスクロマトグラフ質量分析装置１の各部を動作させ、使用者が予めオートサンプラ１４にセットした試料を順にガスクロマトグラフ質量分析装置１に導入し、各試料を測定する。各試料の測定により得られたGCMSデータは順次、制御・処理装置３の記憶部３１に保存される。ここでは実際に試料を測定することにより参照データを取得する場合を説明したが、使用者による指示に従って、参照データ取得部４１が事前に取得された参照データを記憶部３１から読み出すようにしてもよい。こうして複数の参照データが取得される（ステップＳ１）。

　本実施例では、504種類の既知の物質のうちの一部又は全部を含む生体試料を32種類作製し、それぞれについてガスクロマトグラフ質量分析装置１を用いて測定を実行することにより32個のGCMSデータを取得した。これら504種類の既知物質については、いずれも保持時間とマススペクトルの情報が物質データベース３２に保存されている。また、測定時間は、試料注入後4～24分の間とし、この時間内に質量電荷比範囲80～500において24000scanの測定を行った。

　図３(a)に、GCMSデータの一例を示す。これは、保持時間（RT）と質量電荷比（m/z）を二軸とするグラフのピーク強度をlog₁₀スケールに変換して、その値を寒色～暖色の差で表現したもの（ただし図３(a)ではモノクロ表示）である。また、このGCMSデータから作成したTICC波形の一部（40scan分のデータ）を図３(b)に示す。本実施例のように多数の物質を含む試料の場合、保持時間が同じあるいは近い複数の物質が含まれていることが多く、それらの物質の保持時間やその前後の時間にクロマトグラフから溶出する溶出物には複数の物質が混在する。その結果、それらの物質の保持時間やその前後の時間におけるマススペクトルに複数の物質に由来するマスピークが混在することになり、それらのマスピークを積算することにより得られるTICC波形のピークも、図３(b)に示すように複数の物質に由来するピークが重畳したもの（重畳ピーク）となる。

　使用者が入力部６を通じた操作により学習用パラメータセットの作成を指示すると、学習用パラメータセット作成部４２は、予め制御・処理装置３にインストールされている解析プログラム４０を実行し、パラメータを設定する画面を表示部７に表示する。本実施例の解析プログラムはAMDISである。AMDISでは、Component width, Omit m/z, Adjacent peak subtraction, Resolution, Sensitivity, Shape requirementという6つの解析パラメータが用いられる。図４に各パラメータの内容を示す。本実施例では、初期値（Parameter Set Number: 0）を基準としてAdjacent peak subtractionをTwoからOneに下げる、ResolutionをHighからMediumに下げるなどして45種類のパラメータセットを作成した。図５にその一部（初期値及び10種類のパラメータセット）を示す。ここでは、参照データの取得後に、学習用パラメータセットを作成する順で説明したが、両者の実行順は逆であってもよく、また両者を並行して行ってもよい。また、使用者による指示に従って、学習用パラメータセット作成部４２が事前に作成された学習用パラメータセットを記憶部３１から読み出すようにしてもよい。こうして複数の学習用パラメータセットが作成される（ステップＳ２）。

　参照データが取得され、また学習用パラメータセットが作成されると、学習用パラメータセット決定部４３は、32個のGCMSデータのそれぞれについて、45種類の学習用パラメータセットを個別に用いてAMDISによる解析を実行する（ステップＳ３）。具体的には、GCMSデータと学習用パラメータセットの組ごとに、そのGCMSデータに含まれるTICC波形のピークを純化し、各ピークに対応するマススペクトルを物質データベース３２に保存されているマススペクトルと照合することにより各ピークに対応する物質を同定する。さらに、マススペクトルの一致度から評価値（スコア）を求める。AMDISでは同定、物質の同定の信頼度を表す1～100のスコアが求められる。本実施例では、スコアが60以上であればピークを同定完了とし、スコアが60未満のピークは未同定とした。同定を完了したピークについては、同定された物質名、保持時間、解析に用いたパラメータセット番号、及びスコアが対応付けられ記憶部３１に保存される。

　学習用パラメータセット決定部４３は、次に、32個のGCMSデータのピークのそれぞれについて、同定に最適な学習用パラメータセットを決定する（ステップＳ４）。同じ保持時間のピークが複数の学習用パラメータセットを用いた解析により同定された場合には、それら複数の学習用パラメータセットのうち、最もスコアが高い解析結果が得られた学習用パラメータセットをそのピークの同定に最適な学習用パラメータセットとする。また、最高スコアが複数ある場合は、学習用パラメータセットの番号が小さい方を最適な学習用パラメータとする。こうした処理を全てのピーク（物質が同定されたピーク）について行い、最適な学習用パラメータセットを決定する。ただし、ピークの保持時間と、同定された物質の理論保持時間の差が0.25分よりも大きい場合には、スコアに関わらず誤同定とし、次にスコアが大きく保持時間の差が0.25分以下である学習用パラメータセットをそのピークの同定に最適な学習用パラメータセットとした。

　本実施例では、最高スコアが複数存在する場合に学習用パラメータセットの番号が小さい方を最適な学習用パラメータセットとしたが、学習用パラメータセットの番号が大きい方を最適な学習用パラメータセットとしてもよく、あるいは両方を最適な学習用パラメータセットとしてもよい。

　全てのピークについて最適な学習用パラメータセットが決まると、参照データ分割部４４は、各ピークについて保持時間（ピークトップ）を中心とする40scan分のデータを抽出（参照データを分割）する（ステップＳ５）。本実施例では、これにより1806個のデータ（分割参照データ）を得た。図６にこれら1806個のデータと最適な学習用パラメータセットの関係（各学習用パラメータセットに対応付けられた分割参照データの数を示すヒストグラム）を示す。

　本実施例では、解析パラメータの初期値が最適な学習用パラメータセットであるとされた分割参照データが667個、それ以外の学習用パラメータセットが最適な解析パラメータセットであるとされた分割参照データが1,139個となった。このように、多くの場合、解析パラメータの初期値が最適ではないデータが一定の割合で存在している。

　次に、学習モデル作成部４５が、45種類の学習用パラメータセットの中から、対応付けられている分割参照データの数が200個以上である3つの学習用パラメータセット（0, 1, 12）を、実解析に使用する実解析用パラメータセットの候補として選択し、それぞれに対応付けられた分割参照データとともに抽出する。ここで1つの学習用パラメータセットに対応付けられた1乃至複数の分割参照データのグループが1つの参照データ群を構成する。即ち、本実施例の学習モデル作成部４５は、本発明に係る参照データ群作成部としての機能を有している。こうして作成されたデータが後述する機械学習で使用される学習データとなる（ステップＳ６）。200個よりも少ない数の分割参照データが対応付けられた学習用パラメータセットを抽出することも可能であるが、対応付けられている分割参照データの数が少なすぎると、それらに共通する特徴的な部分（例えばピークの形状）を機械学習で特定することが困難である。本実施例に限らず機械学習解析のためにはデータ数がいくつ必要であるかは、解析対象のデータの種類や解析の内容などによって異なるが、一般に、この段階で抽出する学習用パラメータセットには、少なくとも数10～100程度の（分割）参照データが対応付けられていることが望ましい。

　図７は、3つの学習用パラメータセットのそれぞれについて、その学習用パラメータセットに対応付けられた分割参照データのTICC波形（40scan分のデータを、その最高強度で規格化したもの）を重ね描きしたものである。図７(a)はパラメータセット0（初期値）、図７(b)はパラメータセット1、図７(c)はパラメータセット12のものである。図７(a)～(c)に含まれているTICC波形のピーク形状を相互に目視で比較するのみでは、各グループ（参照データ群）に特徴的なピークの形状を見出すことが困難である。また、多くのピークは中央にピークトップが現れているが、一見すると中央にピークが存在する事が分からないものも含まれている。AMDISのような解析プログラムを用いることで、視覚的には抽出する事が困難なピークも抽出されていることが分かる。

　次に、学習モデル作成部４５は、3つの学習用パラメータセット0, 1, 12のそれぞれに対応付けられた、合計1,092個の分割参照データ（パラメータセット0：667個、パラメータセット1：212個、パラメータセット12：213個）を学習データとする機械学習によって学習モデルを作成する（ステップＳ７）。本実施例では畳み込みニューラルネットワーク（Convolution Neural Network, CNN）を用いて学習モデルを構築した。また、その学習モデルを評価する方法として5分割交差検証（Cross Validation, CV）法を用いた。5分割CV法とは、CV番号1～4のデータを用いて学習モデルを構築し、CV番号0のデータに適用してCV番号0のデータに対する正答率を算出する、次にCV番号0, 2～4のデータを用いて学習モデルを構築し、CV番号1のデータに適用してCV番号1のデータに対する正答率を算出する、という処理を順に行って求めた5つの正答率の平均値をモデルの性能とするものである。こうした交差検証法では、「モデル構築に用いたデータ」と「構築モデルの評価に用いるデータ」が異なるため、未知データに対する予測性能を評価する手法といえる。本実施例では、図８に示すように分割参照データを5つのデータ（CV番号0～4）に分割した。

　本実施例における上記学習モデルは、入力されたデータの特徴に応じた結果を出力する一種の識別器と捉えることができる。本実施例ではCNNを用いたが、その他、CNN以外のディープラーニング、サポートベクターマシン（Support Vector Machine, SVM）、アダブースト（AdaBoost）などを用いて学習モデルを構築することもできる。

　図９は、本実施例において学習モデルの作成に用いたCNNのネットワークの概略構成図である。本実施例では一次元の畳み込みを行った。そして、この学習モデルを元に、最もCV正答率が高くなるハイパーパラメータ及びネットワーク構成（例えば非特許文献３）を決定した（ステップＳ８）。その結果を図１０に示す。図１１に示すとおり、このハイパーパラメータとネットワーク構成により得られた正答率の平均値は88.1%であった。言い換えると、未知データ（含有物質が不明である試料のGCMSデータからピークが存在する部分を抽出した、分割未解析データ）に対して、最適なパラメータセットを約90％の確率で予測できる予測モデルが構築された。

　本実施例では、上記のとおり、学習データとして1,092個の分割参照データを用いている。このうち、AMDISの解析パラメータの初期値（パラメータセット0）が最適なパラメータセットであるものは667個、つまり学習データのうちの61.1%であった。これに対し、本実施例で作成した学習モデルでは88.1%の正答率が得られている。これらの比較から、本実施例の学習モデルを用いることにより、データの解析に最適なパラメータセットを選択して最も高い精度で試料に含まれる物質を同定することができる可能性が従来よりも高まったといえる。

　学習モデル作成部４５により学習モデルが作成されると、未解析データ入力受付部４６は、解析対象のデータを入力させる画面を表示部７に表示する。使用者は、参照データの取得時と同様に、オートサンプラ１４にセットした試料をガスクロマトグラフ質量分析装置１により測定し、取得したGCMSデータを未解析データとして入力する。あるいは、既に測定済みのデータを解析する場合には、予め記憶部３１に保存しておいた未解析データを読み出して入力する。本実施例の未解析データは、参照データと同様に、試料注入後4～24分の間に質量電荷比範囲80～500を24000scanして得たGCMSデータである。こうして解析対象のデータが未解析データとして入力される（ステップＳ９）。なお、未解析データの測定条件は、必ずしも参照データの測定条件と同じでなくてもよい。

　未解析データが入力されると、未解析データ分割部４７は、図１２に示すように、入力された未解析データの保持時間が短い側から例えば10scan分ずつ、取り出し開始位置をずらしながら40scan分のデータを取り出していく。これにより、未解析データから2397個の分割未解析データが作成される（ステップＳ１０）。

　分割未解析データが得られると、実解析用パラメータ決定部４８は、分割未解析データを1つずつ、未知データとして学習モデルに入力し、パラメータセット0, 1, 12の中からその分割未解析データの解析に最も適したパラメータセットを出力させる。学習モデルは、分割未解析データに含まれるピークの特徴と最も高い共通性を有する参照データ群を決定し、その参照データ群に対応する実解析用パラメータセットを決定する（ステップＳ１１）。

　通常、1つの未解析データから生成された全ての分割未解析データにピークが含まれているわけではなく、その一部にのみピークが存在する。ピークを含まない分割未解析データについては、そのデータと共通する特徴を有する参照データ群が存在しないため、最適なパラメータセットも存在しない。従って、こうした分割未解析データに対しては解析対象（ピーク）なしと判定し、解析対象（ピーク）が存在する分割未解析データについてのみ最適なパラメータセットを選択する。

　実解析実行部４９は、学習モデルにより選択されたパラメータセットを用いてAMDISによる解析を行ってピークを純化し、各ピークに対応する物質を同定してスコアを求める（ステップＳ１２）。実解析実行部４９によりピークに対応する物質の同定が完了すると、解析結果出力部５０は、同定された物質の名称、保持時間、及びスコアを表示部７に表示（出力）する（ステップＳ１３）。これらの情報と併せて、ピークの同定に用いたパラメータセットの番号を出力するようにしてもよい。また、ステップＳ１２において、同定されたピークの保持時間と同定された物質の理論保持時間が所定の時間（例えば0.25分）以上異なる場合に、その同定結果を廃棄する（あるいは注意喚起する表示を加える）ような構成を付加することもできる。これにより、マススペクトルの偶然の一致によって誤同定される可能性を排除し、同定精度をより高くすることができる。

　本実施例におけるデータ解析方法及び装置の主たる目的は、上述した未解析データの解析であるが、本実施例のデータ解析装置は、さらに学習モデル更新部５１を備えている。

　実解析実行部４９により解析された未解析データ（以下、これを「解析済データ」と呼ぶ。）が所定数（例えば30個）蓄積されると、学習モデル更新部５１は、それらの解析済データを先に説明した参照データに設定する。こうして参照データが設定されると、上述したステップＳ１～Ｓ８と同様の処理が順に行われる。そして、5分割CV法における正答率が最も高くなるように学習モデルのハイパーパラメータとネットワーク構成が再調整され、学習モデルが更新される。このように、解析済データを順次、参照データとして用いることにより、より多様なデータに対応可能となるように学習モデルを更新することができる。ここでは、所定数の解析済データが蓄積される毎に学習モデル更新部５１により学習モデルを更新する構成としたが、解析済データが発生する毎に学習モデルを更新（再構成）するようにしてもよい。ここでは新たに追加された解析済データのみを参照データとして機械学習を実行するオンライン学習（逐次学習）により学習モデルを更新する場合を例に説明したが、既に機械学習に使用した参照データと解析済データの両方を用いたバッチ学習により学習モデルを更新してもよい。

　図１３は、本実施例のデータ解析方法及び解析装置の概念を模式的に示したものである。図１３に示すように、本実施例では、機械学習により、入力されたデータxの特徴に応じた結果f(x)を出力する識別器としての学習モデル（予測モデルf(x)）を予め作成しておく。解析対象のGCMSデータを入力するとそのGCMSデータから分割未解析データが作成され、さらに該分割未解析データから作成されたトータルイオンカレントクロマトグラムの波形データが学習モデルに入力され、最適なパラメータセットが出力される。そして、これを解析パラメータとしてAMDISによるピーク純化（ピーク分離等）とそのピークに対応する物質の同定が行われ、それらの結果（同定物質名と同定スコア）が出力される。

　本実施例のデータ解析方法やデータ解析装置では、機械学習によって作成された学習モデルによって、学習用パラメータセットのうちの1つが解析対象のデータに最も適したパラメータセット（実解析用パラメータセット）として選択され、その実解析用パラメータセットを用いてAMDISによる解析が行われる。そのため、使用者が自ら解析パラメータの値を変更する必要がなく、簡便に高い確率で最適な解析結果を得ることができる。また、使用者の熟練度によって解析結果に差が生じることもない。さらに、解析済データが所定数蓄積される毎に学習モデルが更新されていくため、常に高い精度で多様なデータを解析する事ができる。

　次に、本発明に係るデータ解析装置の変形例を説明する。上記実施例のデータ解析装置（制御・処理装置３）では、学習モデルの作成とデータの解析の両方を行ったが、変形例のデータ解析装置では、予め作成された学習モデルを用いてデータを解析する。

　図１４は、本発明に係るデータ解析装置の変形例である制御・処理装置３aのブロック図である。上記実施例の制御・処理装置３と共通する構成要素には同一の符号を付し、適宜説明を省略する。上記実施例と同様に、変形例の制御・処理装置３aの実体もパーソナルコンピュータであり、解析用プログラム４０aを実行することにより図１４に記載の各機能ブロックが具現化される。

　この制御・処理装置３aには、解析プログラム（上記実施例ではAMDIS）に対応する学習モデル（CNN）３４が予めインストールされており、学習モデル３４を構築する際に用いられた学習用パラメータセットが記憶部３１aに保存されているという点で上記実施例の制御・処理装置３と異なる。この学習モデル３４は、上記実施例で説明したステップＳ１～Ｓ８を実行することにより作成された学習モデル３４を移植したものであり、変形例の制御・処理装置３aとして構成されたパーソナルコンピュータの出荷前の段階でインストールされる。

　従って、変形例の制御・処理装置３aの使用者は、上記実施例のＳ１～Ｓ８を自ら実行することなく、ステップＳ９～Ｓ１３のみを実行することにより学習モデルを用いてデータを解析することができる。

　変形例の制御・処理装置３aも上記実施例と同様に学習モデル更新部５１aを備えており、上記実施例と同様に、所定数の解析済データが蓄積される毎に学習モデル更新部５０aにより学習モデル３４のパラメータ及びネットワーク構成が適宜に更新される。なお、上記実施例ではバッチ学習とオンライン学習のいずれかにより学習モデルの更新を行ったが、変形例の制御・処理装置３aではオンライン学習によって学習モデルが更新される。

　上記実施例は一例であって、本発明の趣旨に沿って適宜に変更することができる。
　上記実施例では、学習用パラメータセット決定部４３が、各ピークについて最適な学習用パラメータセットを決定する構成としたが、予め決められた値以上のスコア（評価値）が得られた学習用パラメータセットの全てを、解析に適したパラメータセットとしてもよい。あるいは、同じ保持時間のピークについて得られた最高スコアに対して一定の割合（例えば90%）以上のスコアが得られた学習用パラメータセット全てを解析に適したパラメータセットとすることもできる。これらの場合には、同一のピークデータ（分割参照データ）が複数の解析パラメータに対応付けられることになる。

　また、上記実施例では、未解析データ全体から分割未解析データを作成して学習モデルに入力する構成としたが、未解析データから予めピーク（解析対象）が存在する部分を抽出しておき、その部分のみから分割未解析データを作成するようにしてもよい。例えば、解析パラメータの初期値をそのまま用いてAMDISにより未解析データを解析してピークを抽出したり、あるいは別のピーク検出用のソフトウェアを用いて未解析データからピークが存在する部分を特定したりするようにしてもよい。さらには、ピークが存在すると考えられる範囲を使用者が自ら特定するようにしてもよい。

　さらに、上記実施例では、1乃至複数の解析パラメータの値の組を1つの学習用パラメータセットとし、複数の学習用パラメータの中から未解析データの解析に最も適したものを実解析用パラメータセットとした。つまり、予め用意された複数の学習用パラメータセットに対応するパラメータセット番号というカテゴリーの1つを予測する場合を例に説明した。これは機械学習の用語でいえば「識別」のアプローチである。

　これに対し「回帰」のアプローチにより実解析用パラメータセットを決定することもできる。具体的には、参照データ群（各参照データ群は1つの参照データのみで構成されてもよい）に各解析パラメータの値を直接対応付け、未解析データの解析で用いるべき各解析パラメータの値を直接推定するというアプローチである。このアプローチでは、ある1つの解析パラメータについて、学習用パラメータセットに値が2つ（例えば5と10）しか含まれていない場合であっても、未解析データと各参照データ群（あるいは各参照データ）との共通性（例えばTICC波形の類似性）に基づく回帰分析を行い、前記2つの値のいずれでもない中間的な値（例えば7）を未解析データの解析に最適な解析パラメータの値として求めることができる。こうした回帰分析は、1乃至複数の解析パラメータのそれぞれについて個別に行うこともでき、あるいは1乃至複数の解析パラメータについて一括で（即ちパラメータセット単位で）行うこともできる。

　上記実施例では、ガスクロマトグラフ質量分析装置を用いた試料の測定により得られた三次元データをデータとして試料に含まれる物質を同定する場合を説明したが、本発明に係るデータ解析方法、データ解析装置、及び学習モデルの作成方法は、様々なデータの解析に広く用いることができる。

　例えば、試料の質量分析データを解析するソフトウェアの1つにMass++がある（非特許文献２参照）。Mass++は、ペプチドやタンパク質を含む試料を液体クロマトグラフ質量分析装置（MALDIを含む）により測定することにより得られたLCMSデータを読み込んで、クロマトグラムやマススペクトルのスムージング、ベースライン除去、ピーク検出などの処理を行い、マススペクトルのピークリストを作成してデータベース検索サーバ（Mascotサーバ）に送信してペプチドを同定し、同定されたペプチドから予測されるタンパク質を同定するという解析を行うことが可能なソフトウェアである。AMDISと同様に、Mass++でも同定されたペプチドやタンパク質の同定の信頼度を表すスコア（信頼度スコア）が求められる。

　Mass++を用いてLCMSデータからマススペクトルのリストを作成する際には各種の解析パラメータが用いられる。また、作成したピークリストに対応する物質の同定にも各種の解析パラメータが用いられる。従来、これらの解析パラメータの初期値をそのまま使用して解析を行うか、使用者が自らの経験に基づいて解析パラメータを変更する必要があったが、本発明を適用することにより、簡便に最適な同定結果を得ることができる。

　また、クロマトグラフや質量分析装置以外の分析装置、例えばフーリエ変換赤外分光光度計等の分光測定装置を用いた試料の測定により得られた分光スペクトルデータを所定の解析プログラムにより解析することにより試料に含まれる物質を同定する等の解析にも本発明を適用することができる。さらに、核磁気共鳴装置（NMR）、近赤外光脳機能イメージング装置（NIRS）等により得られたデータの解析にも用いることができる。さらに、過去の株価の変動データを元に、直近の株価の変動データから未来の株価の変動データを予測する等の解析にも用いることが可能である。即ち、最適な解析パラメータを用いて解析を行うことにより評価値が高くなる（例えば、与えられた問題に対する正答率が高くなる、目的物質の純度が上がる、消費電力が少なくなる、収益が大きくなる）ことを定義可能である限りにおいて、種々のデータ解析に本発明を適用することができる。

　上記実施例では、参照データ（及び解析済データ）の全てについて複数の学習用パラメータセットを用いた網羅的な解析を実行し、全てのピークについて最適なパラメータセットが事前に分かっている学習データのみを用いる、いわゆる教師あり学習を行うことにより学習モデルを作成したが、こうした参照データに加えて、最適なパラメータセットが不明であるピークのデータを追加した学習データを用いる半教師あり学習により学習モデルを作成することもできる。

　上記実施例及び変形例では、機械学習の手法としてバッチ学習とオンライン学習を用いる場合を説明したが、その他、転移学習（学習モデルが作成されたドメインと異なるドメインに属する学習データを用いて学習モデルを追加で学習するもの）や強化学習（入力に対する出力を明示的に示す教師が存在しない代わりに、一連の行動に対する結果の良し悪しの評価としての報酬が与えられるものであり、行動と結果の情報を更新しながら試行錯誤により報酬が最大化する行動を学習するもの）など、様々な手法を用いることができる。

　例えば、変形例の制御・処理装置３aであるパーソナルコンピュータの製造者が、その会社で培養したクローンの細胞の良否の判定を行うためのＣＮＮ３４をインストールしており、これを購入した者が、クローン細胞の良否の判定に加えて未分化維持培養の細胞の良否の判定にも用いるといった場合が考えられる。つまり、ＣＮＮ３４が作成された環境とは別の環境で取得されるデータの解析に用いられる場合、学習モデル更新部５１aは、クローン細胞の良否の判定用に作成されたＣＮＮ３４を別の環境で取得されたデータにより更新することになる。このような転移学習が行われる場合でも、上記実施例や変形例で説明した構成を用いることが可能である。また、光学顕微鏡により試料を撮像した画像データからノイズを除去して試料の特徴的な構造を検出する解析を行うために作成された学習モデルを、イメージング質量分析装置を用いた試料の質量分析により取得したデータからノイズを除去して試料の特徴的な構造を検出する等の解析に適用する場合にも転移学習が行われる。

　また、質量分析装置の電圧や温度などの制御パラメータを変化させるという行動について、測定の結果得られるピークの強度を報酬として、その報酬を最大化するように制御パラメータを調整する行動を学習するような場合にも、本発明に係る方法及び装置を用いることができる。

１…ガスクロマトグラフ質量分析装置
１０…ガスクロマトグラフ部
１１…カラムオーブン
１２…試料気化室
１３…インジェクタ
１４…オートサンプラ
１５…キャピラリカラム
２０…質量分析部
２１…イオン源
２１１…イオン化室
２１２…フィラメント
２２…レンズ電極
２３…四重極マスフィルタ
２３…真空チャンバ
２４…イオン検出器
３、３a…制御・処理装置
３１、３１a…記憶部
３２…物質データベース
３３…解析プログラム
３４…ＣＮＮ
４０、４０a…データ解析用プログラム
４１…参照データ取得部
４２…学習用パラメータセット作成部
４３…学習用パラメータセット決定部
４４…参照データ分割部
４５…学習モデル作成部
４６…未解析データ入力受付部
４７…未解析データ分割部
４８…実解析用パラメータセット決定部
４９…実解析実行部
５０…解析結果出力部
５１、５１a…学習モデル更新部
６…入力部
７…表示部

Claims

　解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する方法であって、
　前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
　複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
　前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
　未解析のデータである未解析データを入力する未解析データ入力ステップと、
　所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定ステップと、
　前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析ステップと
　を有することを特徴とするデータ解析方法。
　さらに、
　前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップ
を有し、
　前記パラメータ選択ステップにおいて、前記学習モデルを用いてパラメータセットを決定する
　ことを特徴とする請求項１に記載のデータ解析方法。
　前記機械学習が、ディープラーニング、サポートベクターマシン、アダブーストを用いたものであることを特徴とする請求項２に記載のデータ解析方法。
　さらに、
　前記未解析データを前記参照データとして前記学習用パラメータセット決定ステップを実行することにより前記解析に適した学習用パラメータセットを決定し、該解析に適した学習用パラメータセットに前記未解析データを対応付けたものを学習データとして前記機械学習を行う学習モデル更新ステップ
　を有することを特徴とする請求項２に記載のデータ解析方法。
　前記参照データ及び前記未解析データが、マスクロマトグラム、トータルイオンカレントクロマトグラム、マススペクトル、分光スペクトル、又は画像データであることを特徴とする請求項１に記載のデータ解析方法。
　前記パラメータセット決定ステップにおいて、前記参照データを分割した分割参照データの一部又は全部について前記解析に適したパラメータセットを決定し、
　前記参照データ群作成ステップにおいて、前記分割参照データをグループ化することにより前記参照データ群を作成する
　ことを特徴とする請求項１に記載のデータ解析方法。
　前記解析プログラムが、前記未解析データに含まれる1乃至複数のピークのデータを抽出し、既知の物質に関するデータベースと照合することによって該1乃至複数のピークに対応する物質を同定するものであることを特徴とする請求項６に記載のデータ解析方法。
　前記未解析データに含まれる1乃至複数のピークのデータのそれぞれについて、同定された物質について前記データベースに保存されているデータとの一致度を求めることを特徴とする請求項７に記載のデータ解析方法。
　前記最適パラメータ決定ステップにおける前記所定の基準が、前記一致度が最も高いものを最適な学習用パラメータセットとすることである請求項８に記載のデータ解析方法。
　分析装置を用いて解析対象の試料を測定することにより得られたデータを所定の基準で分割することにより複数の分割未解析データを作成し、
　前記未解析データ入力ステップにおいて前記複数の分割未解析データの一部又は全部を前記未解析データとして入力する
　ことを特徴とする請求項６に記載のデータ解析方法。
　前記分割未解析データが、1乃至複数のピークのデータである
　ことを特徴とする請求項１０に記載の測定データ解析方法。
　前記実解析用パラメータセット決定ステップにおいて、予め決められた基準以上の高い共通性を有する参照データ群が存在する場合にのみ、前記実解析用パラメータセットを決定することを特徴とする請求項１に記載の測定データ解析方法。
　解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する装置であって、
　前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
　複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定部と、
　前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定部により当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
　未解析測定データを入力する未解析データ入力部と、
　所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定部と、
　前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析実行部と
　を備えることを特徴とする測定データ解析装置。
　解析対象のデータを所定の解析プログラムにより解析する際に使用する1乃至複数の解析パラメータの値を決定するために用いられる学習モデルを作成する方法であって、
　前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
　複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
　前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
　前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップと
　を備えることを特徴とするデータ解析用の学習モデル作成方法。