WO2018131274A1

WO2018131274A1 - データ解析装置及びデータ解析用プログラム

Info

Publication number: WO2018131274A1
Application number: PCT/JP2017/040441
Authority: WO
Inventors: 賢志山田; 是嗣緒方; 廣人田村; 晃代加藤
Original assignee: 株式会社島津製作所; 学校法人名城大学
Priority date: 2017-01-16
Filing date: 2017-11-09
Publication date: 2018-07-19
Also published as: EP3570020B1; JP6741278B2; JPWO2018131274A1; EP3570020A4; CN110192106B; EP3570020A1; US20190369128A1; CN110192106A; US11435370B2

Abstract

サンプルグループ化部２４は微生物由来のサンプルを各サンプルの菌種・菌株を示す先験情報に従ってグループ分けし、差異解析部２７がグループ分け結果に基づいて作成されたピークマトリクスを用いて差異解析を行う。一方、操作者が微生物の薬剤耐性に関連したグループ再編条件を入力すると、サンプルグループ再編／再編解除部２５は予め登録されたグループ毎の薬剤耐性を示す別の先験情報を利用して、すでにグルーピングされているグループの選択や統合を行いグループを再編する。差異解析部２７はグループ再編結果に基づいて新たに作成されたピークマトリクスを用いて差異解析を行う。これにより、グループ再編条件を変更するのに伴い、異なる薬剤耐性に関連する差異解析結果を順次取得することができる。

Description

データ解析装置及びデータ解析用プログラム

　本発明は、サンプルに対する機器分析により得られたデータを解析処理するデータ解析装置及びそのためのコンピュータプログラムに関し、さらに詳しくは、複数のサンプルグループの間での差異解析を行うデータ解析装置及びデータ解析用プログラムに関する。

　近年、特定の疾病や疾患の早期診断や治療効果の確認などのために、質量分析法を利用したバイオマーカーの解析の研究が進められ、一部は実用に供されている。例えば複数の健常者から採取した血液、尿等の生体試料には全く又は殆ど存在せず、ガンなどの特定の疾患を罹患している複数の患者から採取した血液、尿等の生体試料に明確に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。一般にこうしたバイオマーカーの探索は、二又はそれ以上の複数のグループ（例えば健常者グループと患者グループ）にそれぞれ由来する多数のサンプルを質量分析装置により測定し、それにより得られたデータについてグループ間での差異解析を行うことで行われる。

　バイオマーカー（又はより一般的なマーカー）を探索することを目的とした従来の一般的な質量分析データの差異解析の手順は以下のとおりである。ここでは、グループの総数をＮ_G、サンプルの総数をＮ_Sであるとする。
　［ステップＡ１］多数（Ｎ_S個）のサンプルに対するマススペクトルをそれぞれ取得し、各マススペクトルにおいて所定のアルゴリズムに従ってピーク検出を行う。そして、マススペクトル毎に、検出されたピークの質量電荷比（m/z）値と信号強度値とをまとめたピークリストを作成する。作成されるピークリストの総数はサンプルの総数と同じＮ_Sである。

　［ステップＡ２］与えられた多数のサンプルは先験情報（事前情報）により、Ｎ_G個のグループに分類可能である。そこで、上記ステップＡ１で得られたピークリストをＮ_G個のグループに分けたうえで、各ピークリストを列ベクトルと考え、同じ質量電荷比に対する信号強度値が同一行となるように、信号強度値を配置した行列（ピークマトリクス）Ｍ_Pを作成する。或る一つのマススペクトルにおいて検出されたピークの質量電荷比に他のマススペクトルではピークが存在しない（ピークリスト中に対応するピークがない）場合には、他のマススペクトルにおけるそのピークの信号強度値をゼロとすればよい。なお、上記先験情報は例えばサンプルの由来を示す情報であり、サンプルが健常者とガン患者のいずれから採取されたものであるかを示す情報などである。

　図３（ａ）はピークマトリクスの概念図である。ここでは、ピークマトリクスの横方向（行方向）にサンプル情報（例えばサンプル番号）、縦方向（列方向）に質量電荷比値をとり、行列の各要素が信号強度値である。このとき、ピークマトリクスＭ_Pの列数はサンプル数Ｎ_Sに等しく、ピークマトリクスＭ_Pの行数は、サンプル全体を通して検出されたピークの総数（質量電荷比値が同一である重複を省く）Ｎ_Pに等しい。

　［ステップＡ３］ステップＡ２で作成されたピークマトリクスＭ_Pの各行に対し、グループ間の差異の有無を調べるために単変量解析（一般にはｔ検定、Ｕ検定、分散分析（ANOVA＝ANalysis Of VAriance）等の統計的仮説検定）を実施し、観察された差異の統計的信頼性を示すｐ値（p-value）を行毎に計算する。
　［ステップＡ４］各行のｐ値を予め定めた有意水準α（例えばｔ検定ではα＝０．０５がしばしば用いられる）と比較することにより、グループ間で有意差のある行つまりはピーク（又は質量電荷比）を抽出する。この抽出されたピークに対応する成分がマーカー候補である。

　上記例で挙げた健常者グループと患者グループというサンプルのグループ分けは明確であるが、実際の差異解析の対象であるサンプルでは、グループの分け方が一つに固定されていないものも多い。また、同じ多数のサンプルに対し、異なる種類の先験情報に基づく様々なグループ分けそれぞれについて差異解析によるマーカーを探索したいという要望も強い。

　例えば、近年、質量分析を利用して微生物の菌種や菌株を識別したり同定したりする技術が注目を集めている（特許文献１、非特許文献１参照）。質量分析を利用した微生物同定においては、同一の菌種や菌株である複数のサンプルを一つのグループに割り当て、異なるグループ間、つまりは異なる菌種や菌株間で差異があるマススペクトルピークを差異解析を用いて探索する処理が一般に行われる。一方で、菌種や菌株が相違しても類似した性質や特性を有することがある。例えば、異なる菌種・菌株に対し特定の薬剤（抗生剤）が特に効果的である、或いは逆に、異なる菌種・菌株が特定の薬剤に対して耐性を有する、といった共通の特性を有することがよくある。そうした場合、上述したように異なる菌種や菌株の差異をもたらすマーカーを調べるのみならず、特定の一つの又は複数の薬剤に対して耐性を有するサンプルのグループと耐性を有さないサンプルのグループとの差異をもたらすマーカーを、薬剤毎に調べたいといった要望がある。

　このような差異解析を行う場合、従来のデータ解析装置では、グループ分けの基準（つまりはグループ分けに利用される先験情報の種類）が変更される度に、各サンプルが新たな基準の下でどのグループに属するのかを操作者（ユーザー）が一々入力する必要があった。サンプル数が多い場合、そうした作業は非常に煩雑で解析効率を下げるのみならず、入力ミスによる不適切な解析の一因にもなっていた。

特開２０１３－８５５１７号公報

堀田（Y. Hotta)、ほか４名、「クラシフィケイション・オブ・ザ・ジーナス・バシラス・ベースド・オン・マルディ-トフ・マス・アナリシス・オブ・リボゾーマ・プロテインズ・コーデッド・イン・エス10・アンド・エスピーシー・オペロンズ（Classification of the Genus Bacillus Based on MALDI-TOF MS Analysis of Ribosomal Proteins Coded in S10 and spc Operons）」、ジャーナル・オブ・アグリカルチュラル・アンド・フード・ケミストリー（Journal of Agricultural and Food Chemistry）、2011年、Vol.59、No.10、pp.5222-5230

　本発明は上記課題を解決するためになされたものであり、その目的とするところは、複数のサンプルグループを識別するマーカーを見つけるために各サンプルに対して得られたデータに基づく差異解析を行う際に、操作者が着目する性質や特性等に基づきグループ分けの基準を適宜変更しながら、その変更後の基準の下での新たなグループ間での差異解析を簡便に且つ効率良く行うことができるデータ解析装置及びデータ解析用プログラムを提供することである。

　上記課題を解決するために成された本発明に係るデータ解析装置は、
　a)複数のサンプルのそれぞれについて、クロマトグラム又はマススペクトルを表すデータを取得するデータ取得部と、
　b)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定部と、
　c)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる先験情報選択部と、
　d)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化部と、
　e)前記グループ化部によりグルーピングされた複数のグループのそれぞれに含まれる、前記データ取得部により取得されたデータを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析部と、
　を備え、前記条件選択部を用いた操作者による選択操作に応じて、前記グループ化部におけるグルーピング及び前記差異解析部における差異解析を実行することを特徴としている。

　また上記課題を解決するために成された本発明に係るデータ解析用プログラムは、複数のサンプルのそれぞれについて取得されたクロマトグラム又はマススペクトルを表すデータに基づいて、該複数のサンプルがグルーピングされる複数のグループ間の差異解析を行うために、該複数のサンプルに対するデータを処理するべくコンピュータ上で動作するデータ解析用プログラムであって、
　a)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定ステップと、
　b)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる条件選択ステップと、
　c)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化ステップと、
　d)前記グループ化ステップにおいてグルーピングされた複数のグループのそれぞれに含まれる前記データを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析ステップと、
　を有し、前記条件選択ステップにおける操作者による選択操作に応じて、前記グループ化ステップにおけるグルーピング及び前記差異解析ステップにおける差異解析をコンピュータに実行させることを特徴としている。

　本発明に係るデータ解析装置及びデータ解析用プログラムにおいて解析対象であるデータは、質量分析により収集されるマススペクトルデータ（ｎが２以上のＭＳⁿスペクトルデータを含む）、又は、ガスクロマトグラフ分析や液体クロマトグラフ分析により収集されるクロマトグラムデータである。

　本発明に係るデータ解析装置において、データ取得部は、複数のサンプルのそれぞれについてのクロマトグラムデータ又はマススペクトルデータを例えば外部の記憶装置から読み込むことで取得する。また先験情報設定部は、複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を自動的に外部から読み込むことで取得する又は操作者等の手動での入力に応じて設定する。先験情報には各サンプルの素性や由来等を示す情報を含むようにすることができる。条件選択部は、上述したように予め設定された一又は複数種の先験情報の中で、操作者が着目する一つの先験情報に基づくグループ分けの条件を該操作者に選択させる。具体的には、例えば或る一つの先験情報に基づく差グループ分け条件の選択肢又はそれに相当する情報を表示部の画面上に提示し、そのうちの一つを操作者が入力部により選択指示できるようにすればよい。

　条件選択部を通して操作者がグループ分け条件の選択を行うと、その選択操作に応じてグループ化部は、選択されたグループ分け条件に基づいて、解析対象である複数のサンプルを複数のグループにグルーピングする。そして、差異解析部は、上述したようにグルーピングされた複数のグループにそれぞれ含まれるサンプルに対応するデータを用いて、グループ間におけるクロマトグラム又はマススペクトルのピークの差異解析を実行する。そして差異解析結果を表示部の画面上に表示する。差異解析の手法は特に限定されないが、例えば分散分析（ANOVA）などの統計的仮説検定を用いるとよい。差異解析によってグループ間の差異をもたらすピークをデータの中から抽出することができ、そのピークに対応する質量電荷比、保持時間、或いは成分をグループを識別するためのマーカーとすることができる。

　本発明に係るデータ解析装置の好ましい一実施形態として、前記グループ化部は、各サンプルについての第１の先験情報に基づいて前記複数のサンプルを三以上であるＮ個のグループにグルーピングするものであり、
　f)前記グループ化部によりグルーピングされたＮ個の各グループについての又は各グループに含まれるサンプルについての第２の先験情報を利用したグループの再編条件を操作者が指示するためのグループ再編条件指示部と、
　g)前記グループ再編条件指示部を通して指示されたグループ再編条件に基づき、前記グループ化部によりグルーピングされたＮ個のグループの中から一以上のグループを選択するとともに必要に応じて統合することで、Ｎ＞ＭであるＭ個のグループを作成するグループ再編部と、
　をさらに備え、前記差異解析部は、前記グループ化部によりグルーピングされたＮ個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとともに、前記グループ再編部により作成されたＭ個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとよい。

　この実施態様の構成では、グループ化部は、解析対象である複数のサンプルを各サンプルに与えられている第１の先験情報に基づいて三以上であるＮ個のグループにグルーピングする。通常、第１の先験情報は多数のサンプルを最小限の大きさのグループに分類するための情報である。

　典型的には、第１の先験情報は各サンプルの素性や由来等を示す情報であり、それは各サンプルに付与されるサンプル名やサンプル識別番号などの中に含ませるようにすることができる。それにより、操作者が各サンプルのサンプル名やサンプル識別番号等から第１の先験情報を把握し、各サンプルがどのグループに割り当てられるのかを手動で指示することができる。この場合、グループ化部は、そうした指示に従って複数のサンプルをＮ個のグループにグルーピングすればよい。また、各サンプルのサンプル名やサンプル識別番号等に第１の先験情報が含まれていれば、サンプル名やサンプル識別番号等に基づくサンプルの自動振り分けも可能である。この場合、グループ化部は、サンプル名やサンプル識別番号等を判別して、その判別結果に基づき複数のサンプルをＮ個のグループに自動的にグルーピングすればよい。なお、グルーピング結果、つまりは各グループに割り当てられているサンプルの情報は、操作者が確認できるように、表示部の画面上に表示されるようにするとよい。

　操作者がグループ化部でグルーピングされた各グループの中で或る特定の性質が類似しているグループを一つに集約したうえで新たなグループ間の差異解析を行いたい場合、操作者はグループ再編条件指示部により、上記特定の性質を有することを示す第２の先験情報が付されているグループを選択するようにグループ再編条件を指示する。すると、グループ再編部は、指示されたグループ再編条件に基づき、例えば上記Ｎ個のグループに付与されている第２の先験情報を利用して上記特定の性質を有する複数のグループを選択してそれらを一つにまとめるとともに、それ以外のグループを一つにまとめることで、グループを再編する。操作者がグループ再編条件指示部を通して指示するグループ再編条件を変更すると、グループ再編部はそれに応じて選択したり統合したりするグループの組合せを変更する。なお、グルーピング結果と同様に、グループ再編結果、つまりは再編後の各グループに割り当てられているサンプルの情報も、表示部の画面上に表示されるようにするとよい。

　この構成では差異解析部は、上述したように再編されたＭ個のグループについても、各グループにそれぞれ含まれるサンプルに対応するデータを用いて、グループ間の差異解析を実行する。これは、上述したＮ個のグループに基づく差異解析とは異なる基準でグルーピングされたＭ個のグループに基づく差異解析であり、その新たな基準の下でのグループ間の差異をもたらす新たなピークつまりはマーカーを、データの中から抽出することができる。上述したように操作者がグループ再編条件指示部を通して指示するグループ再編条件を変更する毎に、差異解析部が新たに再編されたグループに基づく差異解析を実行することで、異なる性質にそれぞれ関連するマーカーを次々に探索することが可能となる。

　なお、本発明に係るデータ解析装置では、グループ再編条件指示部においてグループ再編条件の取り消しを指示することを可能としておき、その取り消しを指示することで、当初のグループ分けに戻して、新たな別のグループ再編条件を指示できるようにするとよい。

　本発明に係るデータ解析装置において、データがマススペクトルデータである場合、
　h)マススペクトルデータからピークを検出し、各ピークの質量電荷比毎の信号強度値をまとめたピークリストを作成するピーク検出部と、
　i)前記複数のサンプルに対する前記ピークリストと前記グループ化部によるグルーピング結果又は前記グループ再編部によるグループ再編結果とに基づき、ピークの質量電荷比値を行方向に、グループ毎に分けたサンプルを識別する情報を列方向に割り当て、信号強度値を要素としたピークマトリクスを作成するピークマトリクス作成部と、
　をさらに備え、前記差異解析部は前記ピークマトリクスに対し差異解析を行う構成とすることができる。

　上記ピークマトリクスにおいて行と列とは便宜的に定められたものであり、行と列とを入れ替えることができることは明らかである。即ち、上記構成において「行」を「列」に置き換えても実質的に同じであることは明らかである。

　上記構成において、ピークマトリクス作成部は、各サンプルに対応するマススペクトルデータが与えられると、各マススペクトルからそれぞれ所定の基準に従ってピークを検出する。所定の基準は特に限定されず、一般に用いられているピーク検出方法を用いることができる。例えば、マススペクトル上で観測されるピーク状の信号のうち、信号強度が所定値以上であるものをピークとして検出し、信号強度が所定値未満であるものはノイズであるとみなせばよい。そうしてマススペクトル毎に検出したピークの信号強度値と質量電荷比値を取得し、質量電荷比値を行方向に、サンプルを識別する情報を列方向に割り当て、信号強度値を要素としたピークマトリクスを作成する。このとき、列方向のサンプルの並びは、グループ分け結果又はグループ再編結果を利用してグループ毎にまとめるようにする。ピークマトリクスにおける一つの行は、或る一つの質量電荷比における全てのサンプルに対する信号強度値である。

　差異解析部は上記ピークマトリクスに対して分散分析等による差異解析を行う。この場合、差異解析部では、差異解析において有意差がある行又は列に対応するピーク又は質量電荷比を抽出することができる。このピーク又は質量電荷比に対応する物質がグループを識別するためのマーカーとなる。

　本発明に係るデータ解析装置では解析対象のサンプルに制約はないが、好ましい一態様として、解析対象のサンプルは微生物であり、前記第１の先験情報は微生物の菌種及び／又は菌株を示す情報であるものとするとよい。

　また、この場合、前記第２の先験情報は例えば、各種の薬剤（抗生剤や抗菌剤）に対する耐性の有無、又は薬剤の最小発育阻止濃度（ＭＩＣ）若しくは臨床的に定められた閾値を示す情報とすることができる。

　この態様によれば、微生物の菌種や菌株を識別するマーカーとなる物質を見いだすことができるとともに、特定の一つの薬剤に対し耐性を有する、或いは特定の複数の薬剤に対し耐性（いわゆる多剤耐性）を有する性質を有する微生物を識別するマーカーとなる物質やマーカーとして有用であると推測される物質を見いだすことが可能となる。

　本発明に係るデータ解析装置及びデータ解析用プログラムによれば、操作者が着目する性質や特性に基づいて適宜にグループ分けの基準を変更しながら、その変更後の基準の下での新たなグループ間での差異解析を簡便に且つ効率良く行うことできる。それにより、そうした性質や特性と関連が深いマーカーとなる物質を効率良く見つけ出すことが可能となる。

本発明に係るデータ解析装置を用いた質量分析システムの一実施例の概略構成図。本実施例の質量分析システムにおける差異解析の処理手順を示すフローチャート。ピークマトリクスの概念図（ａ）及びピークマトリクスの一例を示す図（ｂ）。本実施例の質量分析システムにおけるグループ分け指示設定画面を示す図。本実施例の質量分析システムにおけるグループ分け結果表示画面を示す図。本実施例の質量分析システムにおけるグループ再編指示設定画面を示す図。本実施例の質量分析システムにおけるグループの再編例を示す図。

　以下、本発明に係るデータ解析装置を用いた質量分析システムの一実施例について、添付図面を参照して説明する。

　図１は本実施例の質量分析システムの概略構成図である。
　本実施例の質量分析システムは、サンプルに対する質量分析を実行して所定の質量電荷比m/z範囲に亘る信号強度データつまりはマススペクトルデータを取得する質量分析装置本体１と、該質量分析装置本体１で収集されたマススペクトルデータを解析処理して差異解析を実施するデータ解析部２と、操作者（ユーザー）が何らかの入力や指示を行うための入力部３と、操作者による入力や指示のために利用される画面や解析結果が表示される表示部４と、を備える。

　質量分析装置本体１はその方式や構成を問わない。例えば、高い質量分解能、高い検出感度で以てマススペクトルデータを収集可能であるマトリスク支援レーザ脱離イオン化飛行時間型質量分析装置（ＭＡＬＤＩ－ＴＯＦＭＳ）などを用いることができる。

　データ解析部２は、後述する特徴的なデータ解析処理を遂行するために、データ格納部２０、グループ分け指示受付部２１、グループ再編指示受付部２２、ピーク検出部２３、サンプルグループ化部２４と、サンプルグループ再編／再編解除部２５と、ピークマトリクス作成部２６、差異解析部２７、及び、表示処理部２８、を機能ブロックとして備える。

　なお、一般に、データ解析部２の実体はパーソナルコンピュータ又はより高性能なコンピュータである。また、そうしたコンピュータにインストールされた専用のデータ処理ソフトウェアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化されるようにすることができる。その場合、上記入力部３はコンピュータのキーボードやマウス等のポインティングデバイスであり、表示部４はモニタである。また、こうした構成では、コンピュータにインストールされたデータ処理ソフトウェアの全て又は一部が本発明に係るデータ解析用プログラムに相当する。

　本実施例の質量分析システムにおいて、微生物（細菌、ウイルス等）の薬剤（抗生剤、抗菌剤等）耐性を識別するためのマーカーを差異解析を利用して探索する場合を例に挙げて、操作者による作業とデータ解析部２で実行される処理について図２を参照しつつ説明する。

　本実施例の質量分析システムでは、質量分析装置本体１において所定のサンプルに対し質量分析が実行されることで得られた所定の質量電荷比範囲のマススペクトルデータが逐次、データ解析部２に送られる。データ解析部２では、サンプル名等のサンプル識別情報がマススペクトルデータに付与され、サンプル毎に異なるデータファイルとしてデータ格納部２０に格納される。但し、図１に示している或る特定の質量分析装置本体１により得られたマススペクトルのみならず、他の任意の質量分析装置において同様に得られたマススペクトルデータもデータ格納部２０に格納することが可能である。即ち、データ解析部２において解析対象である多数のサンプルに対するマススペクトルデータは、１台の質量分析装置で得られたデータでもよいし、異なる複数の質量分析装置で得られたデータでもよい。

　全てのサンプルには、予め（通常、質量分析に先立って）サンプル名が付与されており、そのサンプル名には微生物の菌種又は菌株の種類を示す情報が含まれる。即ち、サンプル名は「Sample 01-1」、「Sample 01-2」、…と定められ、その「Sample」以下の２桁の数字が菌種又は菌株の区別を示している。したがって、例えば「Sample 01-1」と「Sample 01-2」とは同じ菌種（又は菌株）の異なるサンプルであり、「Sample 02-1」と「Sample 02-1」とは異なる菌種（又は菌株）の異なるサンプルである。ここでは、この菌種又は菌株の種類が第１の先験情報であり、サンプル名自体が第１の先験情報ともいえる。このサンプル名は各サンプルに対応するデータファイル中にそれぞれ格納されるか、或いはデータファイルと対応付けられた別のファイルにまとめて格納される。

　ここでは、それぞれが微生物である多数のサンプルに対して得られたマススペクトルデータが、サンプル名とともにそれぞれ一つのデータファイルとしてデータ格納部２０に格納されているものとする。

　操作者が入力部３から処理対象のデータを一括指定したうえで処理の実行を指示すると、これを受けてピーク検出部２３は、指定されたデータファイルをデータ格納部２０から順次読み出して取得する（ステップＳ１）。これにより、サンプル毎のマススペクトルデータと該サンプルの先験情報とが共に得られる。ピーク検出部２３は、個々のマススペクトルデータに対し所定の基準に従ってマススペクトル上のピークを検出し、検出された各ピークの位置（質量電荷比m/z値）と信号強度値とを求める。ピーク検出アルゴリズムは従来から知られている一般的な手法を用いることができ、例えばピーク状波形の信号強度が予め定めておいた閾値を超えるものをピークとして検出すればよい。そして、マススペクトル毎つまりはサンプル毎に、検出されたピーク（通常は複数）の質量電荷比値と信号強度値との組を集めたピークリストを作成する（ステップＳ２）。

　次に、操作者は、グループ分け指示受付部２１により表示部４に表示される所定の画面を見ながら入力部３を操作し、多数のサンプルを先験情報の一つであるサンプル名に従って菌種や菌株毎のグループに分類するよう指示する（ステップＳ３）。サンプルグループ化部２４は指示に従って多数のサンプルをグルーピングし、各グループに割り当てられるサンプルを決定する。そして、表示処理部２８はそのグループ分け結果を表示部４の画面上に表示する（ステップＳ４）。

　ここでは具体的に次の手順でグループ分けの指示とそれに基づくグルーピングを実行する。
　即ち、操作者が入力部３で所定の操作を行うと、グループ分け指示受付部２１は図４に示すようなグループ分け指示設定画面１００を表示部４の画面上に表示する。このグループ分け指示設定画面１００には、グループの一覧を示すグループリスト１０１と、該グループリスト１０１中で選択されている一つのグループに割り当てられるサンプルのサンプル名及びデータファイル名の一覧を示すサンプルリスト１０４と、が配置されている。ここでは、各グループを識別するグループ名を「Group01」、「Group02」、…としている。グループリスト１０１中のグループは、「Add Group」ボタン１０２をクリック操作することで増やすことができ、「Remove Groups」ボタン１０３をクリック操作することで減らす（削除する）ことができる。また、選択されている一つのグループに割り当てられるサンプルも、「Add Peak List」ボタン１０５をクリック操作することで追加することができ、「Remove Peak Lists」ボタン１０６をクリック操作することで削除することができる。

　本例では、上述したように、サンプル名中の２桁の数字が菌種・菌株を示す第１の先験情報である。そこで、操作者はこのサンプル名中の数字を用いて、つまりは第１の先験情報を用いて、一つのグループに同じ菌種・菌株であるサンプルが割り当てられるように、グループと各グループに属するサンプルを設定する。図４に示す例では、グループ名が「Group01」である一つのグループに、サンプル名が「Sample 01-1」、「Sample 01-2」、…、「Sample 01-8」である同じ菌種・菌株の微生物を含む８個のサンプルが割り当てられている。図４に例示したのと同様にして、全てのグループについてそれぞれ割り当てられるサンプルを入力設定する。そうした入力作業が終了したならば、操作者が「ＯＫ」ボタン１０７をクリックすると、グループとサンプルの割り当ての指示が確定する。サンプルグループ化部２４はそのグループ分けの指示に従って、確定したグループ名と複数のサンプルのサンプル名との対応付けを行うことで、複数のサンプルをグルーピングする。

　操作者が入力部３で所定の操作を行うと、表示処理部２８は図５（ａ）に示すように各グループに含まれるサンプルの情報（ここではサンプル名）を表示部４の画面上に表示する。これにより、操作者は各グループへのサンプルの割当てが適切かどうかを視覚的に確認することができる。もし、サンプルの割当てに誤りや変更がある場合には、ステップＳ３に戻ってサンプルの割当てを修正すればよい。

　なお、当然のことながら、ピークリストが作成された全てのサンプルがいずれかのグループに入るように設定する必要はなく、解析対象から除きたいサンプルについてはグループに割り当てなくてよい。したがって、例えばサンプル名が「Sample 06-1」、「Sample 06-2」、…であるサンプルに対応するデータファイルがデータ格納部２０に存在したとしても、これらサンプルの菌種・菌株のみを含むグループ「Group06」が必ずしも作成されるとは限らない。また、例えばサンプル名が「Sample 06-1」であるサンプルに対応するデータファイルがデータ格納部２０に存在しており、サンプル名が「Sample 06-2」、…であるサンプルが割り当てられているグループ「Group06」が存在したとしても、該グループ「Group06」にサンプル「Sample 06-1」が含まれるとは限らない。

　なお、上記説明ではグループの追加、削除も操作者が行うようにしているが、例えば各サンプルに付されているサンプル名やそれ以外の識別番号などを利用し、予め決められた条件に従って自動的にグルーピングを実行してもよい。例えば上記例では、サンプル名の「Sample」以下の２桁の数字が同じ菌種又は同じ菌株の微生物であることを意味しているから、この数字を自動的に識別して各サンプルを複数のグループに振り分けるような処理を実行してもよい。もちろん、そうして自動的にグルーピングが実施されたあとに、操作者が不要なグループを削除したりグループに含まれる不要なサンプルを削除したりできるようにしてもよい。

　次いでピークマトリクス作成部２６は、ステップＳ４において得られたグループ分け結果に従ってステップＳ２において作成された全ての又は一部のピークリストを整理し、ピークマトリクスを作成する（ステップＳ５）。

　具体的には、図３（ａ）に示したように、各サンプルに対応するピークリストに挙げられているピークの質量電荷比値を縦方向（列方向）に並べる一方、サンプルを横方向（行方向）に並べ、信号強度値を要素としてピークマトリクスを作成する。このとき、行方向のサンプルの並びはグループ毎にまとめるようにする。したがって、後述するようにグルーピングが変更されると、ピークマトリクスにおける行方向のサンプルの並びが変更されることになる。或るサンプルにおいてピークが存在し他のサンプルではピークが存在しない質量電荷比値の行において、その「他のピーク」に該当する要素は存在しないから、その要素である信号強度値はゼロとすればよい。

　表示処理部２８はこうして作成されたピークマトリスクを表示部４の画面上に表示し、操作者に提示する（ステップＳ６）。図３（ｂ）はこうして作成されるピークマトリクスの一例である。

　差異解析部２７は作成された上記ピークマトリクスを受け取り、該ピークマトリクスを用いて所定のアルゴリズムに従った差異解析を実行する（ステップＳ７）。差異解析の手法は特に限定されないが、グループの数が三以上である場合には、統計的仮説検定として多群検定に適したANOVAを用いればよい。ANOVAでもｔ検定等と同様にｐ値を求めることができる。こうした差異解析によって、行毎に算出されるｐ値に基づいてその行がグループ間で有意な差を示す行であるか否かの判定結果を得ることができる。

　表示処理部２８は上記差異解析結果を表示部４の画面上に表示する（ステップＳ８）。差異解析結果では、グループ間で有意差があるマトリクス行つまりピークを特定して表示することで、そのピークの質量電荷比をマーカー候補として操作者に提示することができる。第１の先験情報に基づく当初のグループ分けでは、各グループはそれぞれ同じ菌種又は菌株由来のサンプルを含むから、異なる菌種又は菌株を識別するために有用なマーカーが差異解析結果として求まることになる。

　微生物の菌種や菌株が異なっていても、つまり上記グループ分けされた異なるグループに属するサンプルであっても、同じ一又は複数の薬剤に対し耐性を有していることがある。そのため、多剤耐性の研究等においては、菌種や菌株を跨って一又は複数の薬剤に対し耐性を有する微生物のグループとそうでない（耐性を有さない）微生物のグループとを識別するマーカーを見つけることが重要である。こうしたマーカーを探索したい場合には、引き続き次のような解析を実施する。

　上記のような薬剤耐性に関連した新たなグループ分けを行うためには、菌種・菌株毎にどのような薬剤に対して耐性を有しているかという、上記第１の先験情報とは異なる第２の先験情報が利用される。ここでは、グループ毎に、薬剤名が「Drug01」、「Drug02」、…である各薬剤に対し耐性を有しているか否かの情報が第２の先験情報として予めデータ解析部２に入力され、データ格納部２０に格納されるものとする。なお、こうした情報は、操作者が入力部３から手動で入力するようにしてもよいし、そうした情報が記載されたデータファイルを読み込むことで自動的にデータ格納部２０に格納されるようにしてもよい。

　操作者が、第２の先験情報である薬剤への耐性に基づくグループ分けを行うべく入力部３で所定の操作を行うと、グループ再編指示受付部２２は図６に示すようなグループ再編指示設定画面２００を表示部４の画面上に表示する。このグループ再編指示設定画面２００には、再編後のグループの一覧を示す再編後グループリスト２０１と、再編前の各グループと各薬剤に対する耐性の有無を一覧で示す薬剤耐性評価リスト２０２と、が配置されている。このグループ再編指示設定画面２００を新規に開いたときには薬剤耐性評価リスト２０２は空欄であり、操作者が第２の先験情報が格納されている所定のデータファイルを指定したうえで「Load Resist.」ボタン２０４をクリック操作することで、そのデータファイルの内容が読み込まれ図６に示すような薬剤耐性評価リスト２０２が表示される。ここでは、「Drug01」、「Drug02」、…等の各薬剤に対し耐性がある場合に「＋」、耐性がない場合に「－」で示されている。図６の例では、例えばグループ「Group01」は、薬剤名が「Drug01」、「Drug02」、「Drug03」及び「Drug04」である４種の薬剤に対し耐性があり、薬剤名が「Drug05」である薬剤に対しては耐性がない。

　操作者はグループ再編指示設定画面２００において薬剤耐性評価リスト２０２を見ながら、再編後のグループを適宜に追加又は削除し、その再編後の各グループにおける各薬剤への耐性の有無をグループ再編条件として設定する（ステップＳ９）。再編後グループリスト２０１中の再編後グループは、「Add Group」ボタン２０５をクリック操作することで追加することができ、「Remove Groups」ボタン２０６をクリック操作することで削除することができる。図６では、「Rearrange Group(1)」、「Rearrange Group(2)」との名称の二つの再編後グループが設定されている。また、再編後グループ「Rearrange Group(1)」については薬剤「Drug01」への耐性有り（「＋」記号）、再編後グループ「Rearrange Group(2)」については薬剤「Drug01」への耐性無し（「－」記号）がグループ再編条件として設定されている。グループ再編条件は、再編後グループリスト２０１中の各欄中をクリック操作することで設定することができる。

　上述のようにして再編後グループを含むグループ再編条件を設定し終えたならば、操作者が「ＯＫ」ボタン２０７をクリックするとグループ再編条件が確定する。なお、一旦、確定させたグループ再編条件を全て解除したい場合には、「Reset Rearrangement」チェックボックス２０３にチェックを入れて「ＯＫ」ボタン２０７をクリックすればよい。それにより、再編後グループリスト２０１中に設定されている全てのグループ再編条件がリセットされるから、グループ再編条件を設定し直せばよい。

　グループ再編条件が設定された状態で「ＯＫ」ボタン２０７がクリックされると、サンプルグループ再編／再編解除部２５は確定しているグループ再編条件に従ってグループを選択するとともに、一つの再編後グループに複数の再編前グループが対応する場合にはその複数の再編前グループを統合することで、再編後グループとそれに含まれるサンプルを確定する（ステップＳ１０）。例えば、四つの再編前グループにそれぞれ対応する薬剤耐性が図７（ａ）で示すようになっているものとする。ここでは薬剤は「D01」、「D02」、…と略している。いま、再編後グループ「RG(1)」、「RG(2)」、「RG(3)」の各薬剤耐性が図７（ｂ）に示すように設定されているとすると、再編後グループ「RG(1)」に対しては薬剤「D01」に耐性を有するグループ「G1」、「G2」の二つが選択されて統合される。また、再編後グループ「RG(2)」に対しては薬剤「D01」に耐性を有さないグループ「G3」、「G4」の二つが選択されて統合される。さらに、再編後グループ「RG(3)」に対しては、薬剤「D03」、「D04」のいずれかに耐性を有するグループ「G1」、「G2」、「G3」の三つが選択されて統合される。

　操作者が入力部３で所定の操作を行うと、表示処理部２８は図５（ｂ）に示すように再編後のグループに含まれるサンプルの情報（ここではサンプル名）を表示部４の画面上に表示する。これにより、操作者は各再編後グループへのサンプルの割当てが適切かどうかを視覚的に確認することができる。

　次いでステップＳ１０からＳ５へと戻り、ピークマトリクス作成部２６は、再編後のグループ分け結果に従って全ての又は一部のピークリストを整理し、ピークマトリクスを作成し直す。そして、ステップＳ６～Ｓ８の処理が再び実行される。即ち、差異解析部２７は新たに作成されたピークマトリスクを用いて差異解析を実行し、その差異解析結果が表示部４の画面上に表示される。上述したように、グルーピングが変更されるとピークマトリスクが変更され、ピークマトリクスが変わると当然、差異解析結果は異なるものとなる。

　上述したように操作者がグループ再編条件を次々と変更しつつ差異解析を実施すると、それぞれのグループ再編条件に対応した差異解析結果、つまりはそれぞれのグループ再編条件の下でグルーピングされたグループを識別するマーカーについての情報が得られる。したがって、操作者が着目する一又は複数の薬剤についての耐性の有無の組合せをグループ再編条件として設定することで、そうした薬剤耐性についての詳細な情報を取得することができる。

　なお、上記例では、各薬剤に対する耐性を有り無しの二値で表現していたが、薬剤の最小発育阻止濃度（ＭＩＣ）又は臨床的に定められた閾値などの数値（つまりは多値）で表現し、グループ再編条件では、例えば或る薬剤についてＭＩＣがＴ以上であるグループなど、より細かい条件を設定できるようにしてもよい。

　また、グループ再編条件は薬剤耐性に基づくものに限らず、微生物の菌種・菌株毎の様々な性質や特性を利用したグループ再編条件とすることができる。もちろん、そのグループ再編条件に応じて、必要とされる先験情報が異なることは言うまでもない。

　また、本発明に係るデータ解析装置ではサンプルが微生物に限らないことも明らかであり、差異解析が有用である様々な種類のサンプルに本発明を適用することが可能である。さらにまた、上記実施例では、処理対象のデータがマススペクトルデータであるが、サンプルに対しＧＣやＬＣで得られたクロマトグラムデータに本発明を適用可能であることも明らかである。

　また、上記記載以外に、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。

１…質量分析装置本体
２…データ解析部
２０…データ格納部
２１…指示受付部
２２…グループ再編指示受付部
２３…ピーク検出部
２４…サンプルグループ化部
２５…サンプルグループ再編／再編解除部
２６…ピークマトリクス作成部
２７…差異解析部
２８…表示処理部
３…入力部
４…表示部
１００…グループ分け指示設定画面
１０１…グループリスト
１０２、２０５…「Add Group」ボタン
１０３、２０６…「Remove Groups」ボタン
１０４…サンプルリスト
１０５…「Add Peak List」ボタン
１０６…「Remove Peak Lists」ボタン
１０７、２０７…「ＯＫ」ボタン
２００…グループ再編指示設定画面
２０１…再編後グループリスト
２０２…薬剤耐性評価リスト
２０３…「Reset Rearrangement」チェックボックス
２０４…「Load Resist.」ボタン

Claims

　a)複数のサンプルのそれぞれについて、クロマトグラム又はマススペクトルを表すデータを取得するデータ取得部と、
　b)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定部と、
　c)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる条件選択部と、
　d)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化部と、
　e)前記グループ化部によりグルーピングされた複数のグループのそれぞれに含まれる、前記データ取得部により取得されたデータを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析部と、
　を備え、前記条件選択部を用いた操作者による選択操作に応じて、前記グループ化部におけるグルーピング及び前記差異解析部における差異解析を実行することを特徴とするデータ解析装置。
　請求項１に記載のデータ解析装置であって、
　前記グループ化部は、各サンプルについての第１の先験情報に基づいて前記複数のサンプルを三以上であるＮ個のグループにグルーピングするものであり、
　f)前記グループ化部によりグルーピングされたＮ個の各グループについての又は各グループに含まれるサンプルについての第２の先験情報を利用したグループの再編条件を操作者が指示するためのグループ再編条件指示部と、
　g)前記グループ再編条件指示部を通して指示されたグループ再編条件に基づき、前記グループ化部によりグルーピングされたＮ個のグループの中から一以上のグループを選択するとともに必要に応じて統合することで、Ｎ＞ＭであるＭ個のグループを作成するグループ再編部と、
　をさらに備え、前記差異解析部は、前記グループ化部によりグルーピングされたＮ個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとともに、前記グループ再編部により作成されたＭ個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行することを特徴とするデータ解析装置。
　請求項２に記載のデータ解析装置であって、
　前記データはマススペクトルを表すデータであり、
　h)マススペクトルデータからピークを検出し、各ピークの質量電荷比毎の信号強度値をまとめたピークリストを作成するピーク検出部と、
　i)前記複数のサンプルに対する前記ピークリストと前記グループ化部によるグルーピング結果又は前記グループ再編部によるグループ再編結果とに基づき、ピークの質量電荷比値を行方向に、グループ毎に分けたサンプルを識別する情報を列方向に割り当て、信号強度値を要素としたピークマトリクスを作成するピークマトリクス作成部と、
　をさらに備え、前記差異解析部は前記ピークマトリクスに対し差異解析を行うことを特徴とするデータ解析装置。
　請求項３に記載のデータ解析装置であって、
　前記差異解析部は、差異解析において有意差がある行又は列に対応するピーク又は質量電荷比を抽出することを特徴とするデータ解析装置。
　請求項２に記載のデータ解析装置であって、
　解析対象のサンプルは微生物であり、前記第１の先験情報は微生物の菌種及び／又は菌株を示す情報であることを特徴とするデータ解析装置。
　請求項５に記載のデータ解析装置であって、
　前記第２の先験情報は、薬剤に対する耐性の有無、又は薬剤の最小発育阻止濃度若しくは臨床的に定められた閾値を示す情報であることを特徴とするデータ解析装置。
　複数のサンプルのそれぞれについて取得されたクロマトグラム又はマススペクトルを表すデータに基づいて、該複数のサンプルがグルーピングされる複数のグループ間の差異解析を行うために、該複数のサンプルに対するデータを処理するべくコンピュータ上で動作するデータ解析用プログラムであって、
　a)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定ステップと、
　b)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる条件選択ステップと、
　c)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化ステップと、
　d)前記グループ化ステップにおいてグルーピングされた複数のグループのそれぞれに含まれる前記データを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析ステップと、
　を有し、前記条件選択ステップにおける操作者による選択操作に応じて、前記グループ化ステップにおけるグルーピング及び前記差異解析ステップにおける差異解析をコンピュータに実行させることを特徴とするデータ解析用プログラム。
　請求項７に記載のデータ解析用プログラムであって、
　前記グループ化ステップは、各サンプルについての第１の先験情報に基づいて前記複数のサンプルを三以上であるＮ個のグループにグルーピングするものであり、
　f)前記グループ化ステップにおいてグルーピングされたＮ個の各グループについての又は各グループに含まれるサンプルについての第２の先験情報を利用したグループの再編条件を操作者が指示するためのグループ再編条件指示ステップと、
　g)前記グループ再編条件指示ステップを通して指示されたグループ再編条件に基づき、前記グループ化ステップにおいてグルーピングされたＮ個のグループの中から一以上のグループを選択するとともに必要に応じて統合することで、Ｎ＞ＭであるＭ個のグループを作成するグループ再編ステップと、
　をさらに有し、前記差異解析ステップでは、前記グループ化ステップにおいてグルーピングされたＮ個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとともに、前記グループ再編ステップにおいて作成されたＭ個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行することを特徴とするデータ解析用プログラム。