JPWO2017090566A1

JPWO2017090566A1 - データ解析装置、方法及びプログラム

Info

Publication number: JPWO2017090566A1
Application number: JP2017548241A
Authority: JP
Inventors: 山本　博之; 博之山本
Original assignee: HUMAN METABOLOME TECHNOLOGIES, INC.
Current assignee: HUMAN METABOLOME TECHNOLOGIES, INC.
Priority date: 2015-11-26
Filing date: 2016-11-21
Publication date: 2018-02-08
Anticipated expiration: 2036-11-21
Also published as: KR20180082472A; SG11201804355UA; EP3382610A1; CN108369666A; EP3382610A4; JP6286111B2; WO2017090566A1; US20180357205A1

Abstract

データ解析装置は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析装置である。データ解析装置（５０）は、記憶部（５２）と、制御部（５１）とを備える。記憶部は、統計サンプル毎に複数のデータ項目を管理する統計データ（Ｘ）、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報（Ｙ）を記録する。制御部は、統計データ及び群情報に基づく所定の演算処理を行う。制御部は、統計データに基づいて、行列要素が複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列（Ｋ）を計算する。制御部は、カーネル行列と群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、複数の統計サンプルに対するスコアを算出する。

Description

本発明は、統計的手法でデータ解析を行うデータ解析装置、方法及びプログラムに関する。

統計データ解析において、教師あり次元削減法の１種の部分的最小二乗法（ＰＬＳ：Partial Least Squares）は、例えば生体内の代謝物を包括的に解析するメタボロミクスなどの多変量解析に用いられている。ＰＬＳは視覚化や回帰、判別モデルの構築など、様々な目的で用いられており、近年、ＰＬＳを改良した手法が提案されている（例えば、特許文献１）。

特許文献１は、ＰＬＳにＯＳＣ（Orthogonal Signal Correction）法を適用した手法であるＯＰＬＳ（直交型部分的最小二乗法）を開示している。特許文献１のＯＰＬＳによると、ＰＬＳで入力のデータセットＸから変数Ｙを予測するモデルにおいて、Ｘ中の系統的変動を、Ｙに直交している（無相関の）変動と、Ｙを予測可能な変動とに分離する。これにより、データセットＸに含まれる多数の統計サンプルによる変動のうちでＹと無相関の変動がフィルタされ、Ｙの予測精度を損なうことなくより解釈し易いモデルを得ることができる。

米国特許出願公開第２００３／０２０００４０号明細書

Ｔ．Ｏｏｇａ，ｅｔａｌ．， "Ｍｅｔａｂｏｌｏｍｉｃａｎａｔｏｍｙｏｆａｎａｎｉｍａｌｍｏｄｅｌｒｅｖｅａｌｉｎｇｈｏｍｅｏｓｔａｔｉｃｉｍｂａｌａｎｃｅｓｉｎｄｙｓｌｉｐｉｄａｅｍｉａ"，Ｍｏｌ．Ｂｉｏｓｙｓｔ，７（４）．Ｈ．Ｙａｍａｍｏｔｏ， "ＰＬＳ−ＲＯＧ：Ｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｗｉｔｈｒａｎｋｏｒｄｅｒｏｆｇｒｏｕｐｓ"，ＣＯＢＲＡＰｒｅｐｒｉｎｔＳｅｒｉｅｓ，ＷｏｒｋｉｎｇＰａｐｅｒ１００，Ｏｃｔｏｂｅｒ２０１２．Ｃ．Ｕｒｂａｎｉａｋ，ｅｔａｌ．， "Ｅｆｆｅｃｔｏｆｃｈｅｍｏｔｈｅｒａｐｙｏｎｔｈｅｍｉｃｒｏｂｉｏｔａａｎｄｍｅｔａｂｏｌｏｍｅｏｆｈｕｍａｎｍｉｌｋ"，ａｃａｓｅｒｅｐｏｒｔ，Ｍｉｃｒｏｂｉｏｍｅ，２０１４．ＬｏｚｕｐｏｎｅＣ，ｅｔａｌ．， "ＵｎｉＦｒａｃ：ａｎｅｗｐｈｙｌｏｇｅｎｅｔｉｃｍｅｔｈｏｄｆｏｒｃｏｍｐａｒｉｎｇｍｉｃｒｏｂｉａｌｃｏｍｍｕｎｉｔｉｅｓ"，ＡｐｐｌＥｎｖｉｒｏｎＭｉｃｒｏｂｉｏｌ２００５．

近年、メタボロミクスでは、代謝物のデータを採取した複数の個体（統計サンプル）が、血統や投薬の状態により幾つかの群に分かれている場合に、群間の特定の順序に応じて変動する代謝物の変動パターンに関する研究が報告されている（非特許文献１）。

本発明の目的は、統計サンプル間の群の順序を考慮しながら多様なデータ解析を可能にするデータ解析装置、方法及びプログラムを提供することである。

本発明に係るデータ解析装置は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う。データ解析装置は、記憶部と、制御部とを備える。記憶部は、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報を記録する。制御部は、統計データ及び群情報に基づく所定の演算処理を行う。制御部は、統計データに基づいて、行列要素が複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算する。制御部は、カーネル行列と群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、複数の統計サンプルに対するスコアを算出する。

本発明に係るデータ解析装置によると、群情報に基づきスコアに群の順序を反映させながら、カーネル行列によって種々の統計データの統合解析や非線形解析を行える。このため、統計サンプル間の群の順序を考慮しながら多様なデータ解析を可能にすることができる。

実施形態１に係るデータ解析方法の概要を説明するための図肝臓サンプルに対するメタボロームデータを例示する図心臓サンプルに対するメタボロームデータを例示する図脳サンプルに対するメタボロームデータを例示する図血漿サンプルに対するメタボロームデータを例示する図実施形態１に係るデータ解析装置の構成を示すブロック図データ解析装置によるデータ解析処理を示すフローチャートデータ解析処理を説明するための図データ解析処理のカーネルＰＬＳ−ＲＯＧ演算処理を示すフローチャートカーネルＰＬＳ−ＲＯＧ演算処理を説明するための図データ解析処理による解析データを例示する図データ解析処理による表示例を示す図データ解析処理による解析結果を説明するための図カーネルＰＬＳによる解析結果を例示する図カーネルＰＬＳ−ＲＯＧによる解析結果を例示する図

以下、添付の図面を参照して本発明に係るデータ解析装置、方法及びプログラムの実施の形態を説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。

（実施形態１）
１．概要
本発明の実施形態１に係るデータ解析方法による統計解析の概要について、図１〜５を参照して説明する。図１は、本実施形態に係るデータ解析方法の概要を説明するための図である。以下では、メタボロミクスに対する本データ解析方法の適用例を説明する。

メタボロミクスは、生体内の低分子の代謝物（分子量がおよそ１０００以下の化合物）を包括的に解析する研究分野である。図１（ａ）では、解析対象の統計サンプル（個体）がウサギの例を示している。メタボロミクスでは、動物の組織や微生物の細胞、人間の血液や尿などの生体サンプル（試料）を種々の分析装置で測定し、サンプルに含まれる代謝物の濃度を解析する。測定された種々の代謝物の濃度の値が記録されるメタボロームデータは、例えば下記のようなｎ行ｐ列のデータ行列Ｘの形式で表される。

ここで、ｎはサンプルサイズ（個体数）であり、ｐは測定された代謝物の数（測定項目数）である。上式（１）は、１行当たりに、行番号に対応する個体で測定されたｐ個の代謝物の測定データ（統計データ）を記録している。図２〜５に、データ行列Ｘの例を示す。

図２〜５は、９個体のウサギからそれぞれ肝臓・心臓・脳・血漿サンプルを分析し、それぞれの代謝物を測定したメタボロームデータの例である。図２は、肝臓サンプルのデータ行列Ｘ_（Ｌ）を示す。図３は、心臓サンプルのデータ行列Ｘ_（Ｈ）を示す。図４は、脳サンプルのデータ行列Ｘ_（Ｂ）を示す。図５は、血漿サンプルのデータ行列Ｘ_（Ｐ）を示す。なお、図中の「’」は行列の転置を意味する（以下同様）。

図２〜５に例示するメタボロームデータは、９個体それぞれの肝臓・心臓・脳・血漿サンプルについて、キャピラリー電気泳動−飛行時間型質量分析計を用いて測定された。例えば、図２の「サンプル１」の列のデータは、９個体中１番目のウサギの肝臓の代謝物を測定した測定データｘ_１ ^（Ｌ）を示す。図示を省略しているが、各生体サンプルで検出された代謝物数は、それぞれ肝臓で１７０、心臓で１６１、脳で１５９、血漿で１２９であった。

上記の例のように、メタボロームデータには、数百から数千の代謝物の測定データが含まれている。このため、メタボロームデータ上の各サンプルの挙動（例えば正常マウスと疾患モデルマウスとが解析対象の場合に、それらの肝臓サンプルのメタボロームデータにどのような違いが生じるか）を視覚的に表現することは困難である。そこで、多変量解析によって多変量に基づくスコアを生成し、スコアの散布図を用いてサンプルの挙動を視覚的に表現する。この散布図を用いて、図１（ｂ）に示すように、サンプル間の関連性(例えば、正常マウスと疾患モデルマウスという２群間の違い等)を確認すること等が行われる。

ここで、図１〜５に示す例では、サンプル番号１〜３番目の個体が野生型のウサギであり、４〜９番目の個体がＷＨＨＬウサギ（高脂血症モデルウサギ）であった。また、４〜９番目中で、３〜６番目のＷＨＨＬウサギにはスタチンが投与されており、７〜９番目のＷＨＨＬウサギにはスタチンが未投与であった。このため、本例では、１〜３番目の個体と、４〜６番目の個体と、７〜９番目の個体とのそれぞれの集まりである３つの群がある。

以上のような場合に、３つの群が所定の順序に並ぶようなスコアが得られれば、その順序に関連する生物学的考察やその検証等のために有益である。また、各個体から得られるメタボロームデータは、図２〜５に示すように、生体サンプルの種類別にデータ管理されるが、これらのデータを統合的に解析することが要求される場合もある。本発明は、以上の要求に鑑みて、個体間の群の順序を考慮しながら多様なデータ解析を可能にするデータ解析方法を提供する。以下、本実施形態にかかるデータ解析方法の理論について説明する。

２．理論
まず、メタボロミクスの多変量解析に関する一般論について説明する。メタボロームデータの多変量解析では、主成分分析とＰＬＳとが一般的に用いられている。ＰＬＳは、メタボロームデータに加えて、群の情報を併用することで、群間が精度良く分かれたスコアを得やすい。また、群の情報を用いて解析する古典的な多変量解析手法には、例えば正準相関分析があるが、この手法はデータ中の変数（測定項目）の数（ｐ）がサンプルサイズ（ｎ）よりも大きい場合（ｐ≫ｎ）、そのデータに適用することが困難である。これに対して、ＰＬＳはｐ≫ｎの場合にも適用可能である。

ＰＬＳを用いることで、群間が分かれたスコアを得ることは可能である。ここで、例えば薬剤の濃度と関連した変動に興味がある場合や、官能評価において美味しさの指標と関連する代謝物に注目する場合等には、群間に所定の順序が想定される。しかし、ＰＬＳでは群の順序の情報がスコアに表れず、期待される結果が得られないことがある。そこで、本発明者は、ＰＬＳを応用したＰＬＳ−ＲＯＧ(Rank Order of Groups)という手法を提案した（非特許文献２参照）。ＰＬＳ−ＲＯＧを用いると、群に順序があるスコアを得られる。また、ＰＬＳ−ＲＯＧにより、スコアと関連する代謝物を、統計的仮説検定を用いて選択することもできる。

また、メタボロミクスでは、１つの個体から複数種類のメタボロームデータが取得されることがある。例えば、特定の薬剤が動物に投与された際、複数の臓器の代謝に影響を及ぼす可能性がある。このような場合、同一個体から複数の臓器、血漿、尿のサンプル（試料）が採取され、それぞれメタボロームデータが取得される。また、メタボロームデータ以外のデータ、例えば遺伝子発現量やタンパク量が、同一個体からメタボロームデータと同時に測定されることも多い。これらの同一個体から得られる複数の測定データを統合し、多変量解析を用いて共通のスコアを計算することで、複数の臓器で共通して変動する代謝物や、同一個体で共通して変動する代謝物と遺伝子を特定することが可能となる。

以上の多変量解析において、個体間の群の順序を反映させながら別種の測定データを統合できれば、例えば群の順序に応じて個体中で共通して変動する代謝物等の特定やそれらの因果関係など、より多様なデータ解析が期待される。そこで、本発明者は、上記のＰＬＳ−ＲＯＧにカーネル法の概念を導入することで、群間の順序を考慮しながら各種の測定データの統合解析や非線形データ解析など、多様な解析を可能にする手法「カーネルＰＬＳ−ＲＯＧ（カーネル順序型部分的最小二乗法）」を考案した。以下、ＰＬＳ−ＲＯＧ及びカーネルＰＬＳ−ＲＯＧについて説明する。

２−１．ＰＬＳ−ＲＯＧについて
ＰＬＳ−ＲＯＧは、ｎ行ｐ列のデータ行列Ｘ（式（１））と、ｎ行ｇ列のダミー行列Ｙと、説明変数ｔ及び目的変数ｓ（それぞれｎ次元ベクトル）とを用いて定式化できる。ここで、ｎはサンプルサイズであり、ｐは測定項目（データ項目）数であり、ｇは群の数である。ダミー行列Ｙは、群の順序を示す群情報を設定するための行列である（図８（ｂ）参照）。説明変数ｔと目的変数ｓとは、合成変数（ｔ，ｓ）を構成する。

また、説明変数ｔとデータ行列Ｘとの間には重みベクトルｗ_ｘ（ｐ次元ベクトル）を用いて、目的変数ｓとダミー行列Ｙとの間には重みベクトルｗ_ｙ（ｇ次元ベクトル）を用いて、それぞれ以下の関係が設定される。
ｔ＝Ｘｗ_ｘ（２）
ｓ＝Ｙｗ_ｙ（３）

上記のＸ，Ｙ，ｔ，ｓを用いて、ＰＬＳ−ＲＯＧは以下の最適化問題（特定の重みベクトルｗ_ｘ，ｗ_ｙを求めること）として定式化される。

上式において、ｃｏｖ（ｔ，ｓ）は説明変数ｔと目的変数ｓとの共分散であり、κは個体間の群の順序によるペナルティを示すパラメータ定数である。また、行列Ｐは、各群に含まれる個体数（サンプル数）ｎ_１，ｎ_２，…，ｎ_ｇに応じたウェイトを示すｇ行ｎ列の行列であり、行列Ｄは、群間のスムージングを行うための（ｇ−１）行ｇ列の行列である。行列Ｐ，Ｄの具体形を下記に示す。

上式（４）〜（６）によると、ＰＬＳ−ＲＯＧは、式（５），（６）が表す条件下において共分散ｃｏｖ（ｔ，ｓ）を最適化する最適化問題を構成する。条件式（５）は、重みベクトルｗ_ｘの大きさを１に設定する条件を表す。条件式（６）は、左辺第２項の罰則項によって定数κ分、重みベクトルｗ_ｙの大きさを１からずらす条件を表す。式（６）の左辺第２項は、ダミー行列Ｙによる群の順序に応じたペナルティを与える罰則項である。

ＰＬＳ−ＲＯＧによるスコアは、最適化問題で求めたｗ_ｘ，ｗ_ｙと式（２），（３）により対応する合成変数（ｔ，ｓ）で計算される。ＰＬＳ−ＲＯＧでは、条件式（６）の罰則項により、ダミー行列Ｙで設定される群の順序をスコアに反映させることができる。

２−２．カーネルＰＬＳ−ＲＯＧについて
以下、本実施形態に係る統計データの解析手法であるカーネルＰＬＳ−ＲＯＧについて説明する。

２−２−１．カーネルＰＬＳ−ＲＯＧの定式化
まず、カーネルＰＬＳ−ＲＯＧの定式化について説明する。ＰＬＳ−ＲＯＧを定式化した式（２）〜（６）の中で、式（２）に代えて、下記の式（９）を採用する。これと共に、ｎ行ｎ列のカーネル行列Ｋ及びｎ次元ベクトルα_ｘを導入する（式（１０），（１１））。
ｔ＝Φｗ_ｘ（９）
ｗ_ｘ＝Φ’α_ｘ（１０）
Ｋ＝ΦΦ’ （１１）

上式において、Φは、データ行列Ｘに対応する行列（写像）である。なお、Φの具体的な行列表示（ｎ行ｐ列）は特に与えられなくてもよい。カーネル行列Ｋは、データ行列Ｘにおけるサンプル毎の測定データｘ_ｉ（ｐ次元ベクトル）の内の２つを引数とするカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）を行列要素として構成される行列である。カーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）は、ｘ_ｉ，ｘ_ｊをΦで写した特徴空間における内積を表す関数であり、１対の測定データｘ_ｉ，ｘ_ｊに基づき算出可能な具体形を有する。カーネル行列Ｋ及びカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）の詳細については後述する。ベクトルα_ｘは、重みベクトルｗ_ｘの代わりに用いられるベクトルである。

上式（９）〜（１１）により、説明変数ｔは、ｗ_ｘ及びΦを用いることなく、ベクトルα_ｘ及びカーネル行列Ｋを用いて次式のように表すことができる。
ｔ＝Ｋα_ｘ（１２）

また、式（５）は、式（１０）に基づき、ベクトルα_ｘ及びカーネル行列Ｋを用いて次式のように表される。
α_ｘ’Ｋα_ｘ＝１（１３）

上式（１３）は、ベクトルα_ｘ同士のカーネル行列Ｋを介した内積を１とする条件を表す。これにより、カーネルＰＬＳ−ＲＯＧは、ＰＬＳ−ＲＯＧを定式化した式（４）〜（６）に対して、式（５）に代えて式（１３）の条件が課された最適化問題を構成する。カーネルＰＬＳ−ＲＯＧは、Φの具体形を用いることなく、重みベクトルｗ_ｘを消去して、式（４），（６），（１３）により記述される。

また、以上のように定式化されたカーネルＰＬＳ−ＲＯＧは、ラグランジュ乗数法を用いることにより、下記のラグランジュ関数Ｊの最適化問題として記述できる（λ_ｘ，λ_ｙはパラメータ）。

上記の関数Ｊをα_ｘとｗ_ｙとでそれぞれ偏微分し、得られた２つの方程式を整理することにより、カーネルＰＬＳ−ＲＯＧは、最終的に、次式の一般化固有値問題（固有値λ及び固有ベクトルα_ｘ，ｗ_ｙを求めること）に帰着する。

上式（１５），（１６）で算出される固有値λ及び固有ベクトルα_ｘ，ｗ_ｙにおいて、ゼロでない固有値λは（ｇ−１）個である。本実施形態では、各固有値λの固有ベクトルα_ｘを式（１２）に代入することによって得られる説明変数ｔの値をスコアとする。

上式（１５），（１６）は、本実施形態に係るデータ解析装置５０（図１（ｂ）参照）によって、カーネルＰＬＳ−ＲＯＧ（式（６），（１３）の条件下のＰＬＳ）の演算を行うための演算式として使用される。データ解析装置５０については、後述する。

２−２−２．カーネル行列について
以下、カーネル行列及びカーネル関数の詳細について説明する。

カーネル行列Ｋの（ｉ，ｊ）要素は、データ行列Ｘにおけるｉ，ｊ番目のサンプルの測定データｘ_ｉ，ｘ_ｊに関するカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）で表される。カーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）の具体形は、種々のものを用いることができる。例えば、カーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）として、下記の線形カーネルｋ_Ｌ（ｘ_ｉ，ｘ_ｊ）（式（１７））や、多項式カーネルｋ_Ｐ（ｘ_ｉ，ｘ_ｊ）（式（１８））、ガウシアンカーネルｋ_Ｇ（ｘ_ｉ，ｘ_ｊ）（式（１９））を用いることができる。

上式（１８）におけるｍは任意の実数であり、ｑは任意の自然数であり、上式（１９）におけるσは正の実数である。式（１８），（１９）などの非線形カーネルに基づきカーネル行列Ｋを構成することにより、群の順序を考慮しながら非線形のデータ解析を行うことが可能になる。

さらに、複数の臓器や生体液由来のメタボロームデータ（図２〜５参照）のように、個体毎に複数種類の測定データｘ_ｉ ^（Ｌ），ｘ_ｉ ^（Ｈ），ｘ_ｉ ^（Ｂ），ｘ_ｉ ^（Ｐ）が取得された場合、種類別に管理される測定データの統合解析に用いるためのカーネル行列Ｋを、以下のように構成できる。

個体毎にＮ種類の測定データが取得された場合、各種類のデータ行列Ｘ_（１），Ｘ_（２），…，Ｘ_（Ｎ）では、種類毎の測定項目が記録され、列方向が一致していない。この場合に、各種の測定データｘ_ｉ ^（１），ｘ_ｉ ^（２），…，ｘ_ｉ ^（Ｎ）についてそれぞれ上記のようにカーネル関数に基づくカーネル行列を計算すると、種類別のカーネル行列Ｋ_（１），Ｋ_（２），…，Ｋ_（Ｎ）は、全てｎ行ｎ列となる。統合解析のためのカーネル行列Ｋは、全種のカーネル行列Ｋ_（１），Ｋ_（２），…，Ｋ_（Ｎ）の所定の平均で構成される。所定の平均は、相加平均であってもよいし、適宜重み付けを選択した加重平均や、行列要素毎の相乗平均であってもよい。

以上のように構成されるカーネルＰＬＳ−ＲＯＧの理論は、コンピュータによって、複数の統計サンプルの測定データを示すデータ行列Ｘに基づきカーネル行列Ｋを計算し、カーネル行列Ｋと統計サンプル間の群の順序に関する群情報に基づき式（１５），（１６）等の演算を行うことで実現できる。これにより、コンピュータ上で統計サンプル間の群の順序を考慮したスコアを得られ、プロット表示で視覚化したり、複数種類のデータ行列Ｘ_（１），Ｘ_（２），…，Ｘ_（Ｎ）間の統合解析を行ったりすることができる。以下、カーネルＰＬＳ−ＲＯＧを実現するデータ解析装置、方法及びプログラムについて説明する。

３．データ解析装置、方法及びプログラム
３−１．構成
本実施形態に係るデータ解析装置５０の構成について、図６を用いて説明する。図６は、データ解析装置５０の構成を示すブロック図である。

データ解析装置５０は、複数の統計サンプルの測定データを示すデータ行列Ｘに基づき、カーネルＰＬＳ−ＲＯＧ（式（６），（１３）の条件下のＰＬＳ）による演算を行ってスコア（ｔ）を算出し、スコアのプロット画像等を表示する（図１（ｂ）参照）。データ解析装置５０は、例えばＰＣ（パーソナルコンピュータ）などの情報処理装置で構成される。データ解析装置５０は、図６に示すように、制御部５１と、記憶部５２と、操作部５３と、表示部５４と、機器インタフェース５５と、ネットワークインタフェース５６とを備える。

制御部５１は、例えばソフトウェアと協働して所定の機能を実現するＣＰＵ、ＭＰＵで構成され、データ解析装置５０の全体動作を制御する。制御部５１は、記憶部５２に格納されたデータやプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。例えば、制御部５１は、上述のカーネルＰＬＳ−ＲＯＧによるデータ解析が実現されるデータ解析処理を実行する。データ解析処理を実行するためのプログラムは、パッケージソフトウェアであってもよい。また、制御部５１は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路であってもよい。制御部５１は、ＣＰＵ，ＭＰＵ，マイコン、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣ等の種々の半導体集積回路で構成されてもよい。

記憶部５２は、データ解析装置５０の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体であり、例えばハードディスク（ＨＤＤ）や半導体記憶装置（ＳＳＤ）を備える。また、記憶部５２は、例えば、ＤＲＡＭやＳＲＡＭ等の半導体デバイスを備えてもよく、データを一時的に記憶するとともに制御部５１の作業エリアとしても機能する。例えば、記憶部５２は、カーネルＰＬＳ−ＲＯＧの演算式（式（１５），（１６），）、（統計サンプル毎の複数測定項目の測定データを示す）データ行列Ｘや（統計サンプル間の群の順序に関する群情報を示す）ダミー行列Ｙ、カーネル行列Ｋなどを格納する。データ行列Ｘについては、統計サンプル毎にＮ種類の測定データが取得された場合、記憶部５２は、種類別のデータ行列Ｘ_（１），Ｘ_（２），…，Ｘ_（Ｎ）で各種の測定データを管理する。

操作部５３は、ユーザが操作を行うユーザインタフェースである。操作部５３は、例えば、キーボード、タッチパッド、タッチパネル、ボタン、スイッチ、及びこれらの組み合わせで構成される。操作部５３は、ユーザによって入力される諸情報を取得する取得部の一例である。

表示部５４は、例えば、液晶ディスプレイや有機ＥＬディスプレイで構成される。表示部５４は、例えば操作部５３から入力された情報など、種々の情報を表示する。

機器インタフェース５５は、データ解析装置５０に他の機器を接続するための回路（モジュール）である。機器インタフェース５５は、所定の通信規格にしたがい通信を行う。所定の規格には、ＵＳＢ、ＨＤＭＩ（登録商標）、ＩＥＥＥ１３９５、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が含まれる。

ネットワークインタフェース５６は、無線または有線の通信回線を介してデータ解析装置５０をネットワークに接続するための回路（モジュール）である。ネットワークインタフェース５６は所定の通信規格に準拠した通信を行う。所定の通信規格には、ＩＥＥＥ８０２．３，ＩＥＥＥ８０２．１１ａ／１１ｂ／１１ｇ／１１ａｃ等の通信規格が含まれる。

３−２．動作
本実施形態に係るデータ解析装置５０の動作について、図７〜１１を用いて説明する。図７は、データ解析装置５０によるデータ解析処理を示すフローチャートである。図８は、データ解析処理を説明するための図である。図９は、データ解析処理におけるカーネルＰＬＳ−ＲＯＧ演算処理を示すフローチャートである。図１０は、カーネルＰＬＳ−ＲＯＧ演算処理を説明するための図である。図１１は、データ解析処理による解析データを例示する図である。

図７，９に示すフローチャートは、データ解析装置５０の制御部５１によって実行される。以下では、９個体のウサギが３つの群を成し、各個体からそれぞれ肝臓、心臓、脳、血漿の４種類の生体サンプルに対するメタボロームデータを得た場合（図１〜５参照）のデータ解析装置５０の動作例を説明する。

また、以下の動作例では、記憶部５２に、あらかじめ肝臓、心臓、脳、血漿の種類毎のメタボロームデータを示す各種のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）（図２〜５参照）、及び個体間の群の順序に関する群情報を示すダミー行列Ｙが格納されていることとする。

図７のフローチャートにおいて、まず、制御部５１は、記憶部５２から各種のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）を取得する（Ｓ１）。図８（ａ）は、各種のデータ行列Ｘ_（Ｌ）の一例を示す。図８（ａ）に例示するように、データ行列Ｘ_（Ｌ）の各行は、行毎に各個体の特定の生体サンプルの代謝物を測定した測定データｘ^（Ｌ） _ｉを記録している。

図７に戻り、次に、制御部５１は、記憶部５２からダミー行列Ｙを取得する（Ｓ２）。ダミー行列Ｙは、例えば、ユーザによってメタボロームデータの入力時等に設定される。図８（ｂ）に、ダミー行列Ｙの一例を示す。図８（ｂ）に例示したダミー行列は、９個体中、１〜３番目のウサギが第１の群（１列目）を成し、４〜６番目のウサギが第２の群（２列目）を成し、７〜９番目のウサギが第３の群（３列目）を成すことを示している。

次に、制御部５１は、取得したデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）及びダミー行列Ｙに基づいて、カーネルＰＬＳ−ＲＯＧ演算処理を行う（Ｓ３）。カーネルＰＬＳ−ＲＯＧ演算処理は、上記２−２−２．で説明したカーネルＰＬＳ−ＲＯＧの式（１５），（１６）の演算を行う処理である。図８を用いて説明する。

ここで、図９のフローチャートを用いて、カーネルＰＬＳ−ＲＯＧ演算処理（Ｓ３）について説明する。制御部５１は、まず、各臓器及び血漿のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）において、代謝物毎に個体間の平均が０で且つ分散が１になるように、データのスケーリング（規格化）を行う（Ｓ１０）。

次に、制御部５１は、複数種類のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）の内のいずれか１つの種類（例えば肝臓サンプル）を選択する（Ｓ１１）。

次に、制御部５１は、全９個体中の１対の個体の（肝臓サンプルの）測定データｘ_ｉ ^（Ｌ），ｘ_ｊ ^（Ｌ）（ｉ，ｊ＝１〜９）に基づき、選択した種類のカーネル行列Ｋ_（Ｌ）の（ｉ，ｊ）要素のカーネル関数ｋ（ｘ_ｉ ^（Ｌ），ｘ_ｊ ^（Ｌ））を計算する（Ｓ１２）。

制御部５１は、ステップＳ１２の計算を全９個体の内の１対の組み合わせ全てについて行い、種類別のカーネル行列Ｋ_（Ｌ）の各行列要素を計算する（Ｓ１３）。例えば、線形カーネルの場合、図８（ｃ）に示すように、カーネル行列Ｋ_（Ｌ）の行列要素はそれぞれ１対の測定データｘ_ｉ ^（Ｌ），ｘ_ｊ ^（Ｌ）の内積によって計算される。

制御部５１は、各種類のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）に対して、ステップＳ１１〜Ｓ１３の処理を行い（Ｓ１４）、全種類のカーネル行列Ｋ_（Ｌ），Ｋ_（Ｈ），Ｋ_（Ｂ），Ｋ_（Ｐ）を計算する。

制御部５１は、全種類のカーネル行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）を計算すると（Ｓ１４でＹｅｓ）、例えば図８（ｄ）に示す演算式によって種類間の平均を行い、カーネル行列Ｋを計算する（Ｓ１５）。

次に、制御部５１は、上記２−２−２．で説明したカーネルＰＬＳ−ＲＯＧの理論における演算式（１５），（１６）を記憶部５２から読み出して、平均後のカーネル行列Ｋおよびダミー行列Ｙを演算式に代入する（Ｓ１６）。図８（ｅ），（ｆ）に、本例における行列Ｐ，Ｄを示す。図８（ｂ），（ｅ），（ｆ）の行列Ｙ，Ｄ，Ｐにより、カーネルＰＬＳ−ＲＯＧにおける罰則項が計算される。

次に、制御部５１は、代入した演算式による一般化固有値問題の固有値λ、及び各固有値λに対応する固有ベクトルα_ｘ，ｗ_ｙを計算する（Ｓ１７）。図１０（ａ），（ｂ）に、ステップＳ１７で計算された固有ベクトルα_ｘ，ｗ_ｙの一例を示す。本例（ｇ＝３）では、（ｇ−１）個の固有値λに対応して、図１０（ａ），（ｂ）に示すように、２つの固有ベクトルが計算されている。

次に、制御部５１は、計算したカーネル行列Ｋに基づき、計算した（ｇ−１）個の固有ベクトルそれぞれに対応する説明変数ｔ（ｎ＝９次元ベクトル）を計算し（式（１２））、各個体のスコアを算出する（Ｓ１８）。図１０（ｃ）に、ステップＳ１８で計算されたスコアの一例を示す。説明変数ｔはｎ（＝９）次元ベクトルであり、各ベクトル要素が個体それぞれに対するスコアとなる。各個体のスコアは、（ｇ−１）個の固有ベクトルに応じて第１〜第（ｇ−１）成分を有する。図１０（ｃ）で例示するスコアは、ｇ＝３に応じて第１成分及び第２成分を有する。

図７に戻り、以上のようにして、カーネルＰＬＳ−ＲＯＧ演算処理を行った後、制御部５１は、計算したスコアに基づいて、図１（ｂ）に示すように、各サンプルのスコアを表示部５４にプロット表示する（Ｓ４）。

次に、制御部５１は、操作部５３においてユーザの操作を受け付け、ユーザがさらなるデータ解析のため、表示したスコアの成分のいずれかを選択したか否かを判断する（Ｓ５）。例えば、ユーザは、表示部５４に表示されたスコアのプロット画像により、群の順序が反映されたスコアの成分を選択することができる（図１２（ｂ）参照）。

制御部５１は、ユーザがスコアの成分を選択しなかったと判断した場合（Ｓ５でＮｏ）、本処理を終了する。

一方、ユーザがスコアの成分のいずれかを選択したと判断した場合（Ｓ５でＹｅｓ）、制御部５１は、各種のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）中のそれぞれの代謝物と、選択された成分のスコアとの相関を解析する（Ｓ６）。具体的に、制御部５１は、全個体に対する代謝物のデータと選択された成分のデータとの相関係数（両データの統計分布の相関を示す係数（図１３（ｅ）参照））及びｐ値（データ上の相関が偶然、生じる確率）を計算し、計算結果のリスト等を生成し、本処理を終了する。

図１１（ａ）〜（ｄ）に、ステップＳ６の解析結果の例を示す。図１１（ａ）は、肝臓サンプルのデータ行列Ｘ_（Ｌ）中の代謝物に対する解析リストＬａを示す。図１１（ｂ）は、心臓サンプルのデータ行列Ｘ_（Ｈ）中の代謝物に対する解析リストＬｂを示す。図１１（ｃ）は、脳サンプルのデータ行列Ｘ_（Ｂ）中の代謝物に対する解析リストＬｃを示す。図１１（ｄ）は、血漿サンプルのデータ行列Ｘ_（Ｐ）中の代謝物に対する解析リストＬｄを示す。

図１１（ａ）〜（ｄ）に例示する解析リストＬａ〜Ｌｄは、κ＝０．５の場合のスコアの第１成分と、４種のデータ行列Ｘ_（Ｌ）〜Ｘ_（Ｐ）中の代謝物との相関を示している。各解析リストＬａ〜Ｌｄには、代謝物毎に計算された「相関係数」と「ｐ値」とが記録されている。解析リストＬａ〜Ｌｄによると、肝臓、心臓、脳、血漿サンプルのそれぞれの代謝物について、共通のスコアに対する相関を統合的に解析することができる。解析結果の詳細については後述する。

以上のデータ解析処理によると、個体間の群の順序を考慮しながらカーネル行列Ｋにより種類間の統合解析を可能にするカーネルＰＬＳ−ＲＯＧを実現することができる。以下、データ解析処理による解析結果について説明する。

３−３．解析結果について
生物学的な研究（非特許文献１）によると、肝臓のグリシン生合成経路の代謝中間体（N,N-DimethylglycineとBetaine）やプリン代謝の中間体の代謝物の濃度について、野生型ウサギ（第１の群）、投薬ありのＷＨＨＬウサギ（第２の群）、ＷＨＨＬウサギ（第３の群）の順で上昇／下降することが示唆されている。この観点から、本例では、図８（ｂ）に示すように、ダミー行列Ｙにおいて第１、第２及び第３の群の順序を設定して、データ解析処理（図７）を行った。

図１２（ａ），（ｂ）は、データ解析処理（図７）のステップＳ４による表示例（κ＝０又は０．５）を示す。図１２（ａ），（ｂ）の各プロットは、それぞれ、野生型ウサギ３個体、投薬ありのＷＨＨＬウサギ３個体、ＷＨＨＬウサギ３個体に対するスコアを示す。図１２（ａ），（ｂ）の横軸はスコアの第１成分であり、縦軸は第２成分である。

図１２（ａ）は、式（６）中の行列Ｄ，Ｐ，Ｙに基づく罰則項がない状態（カーネルＰＬＳ）で得られたスコアの表示例である。図１２（ａ）の表示例では、３つの群の各サンプルのスコアは、第１成分及び第２成分のどちらにおいても、ダミー行列Ｙ（図８ｂ））で設定された第１の群（野生型ウサギ）、第２の群（投薬ありのＷＨＨＬウサギ）、第３の群（ＷＨＨＬウサギ）の順に並んでいない。

図１２（ｂ）は、式（６）中の罰則項がある状態（カーネルＰＬＳ−ＲＯＧ）で得られたスコアの表示例である。図１２（ｂ）の表示例では、３つの群の各個体のスコアは、第１成分において、ダミー行列Ｙで設定された第１の群（野生型ウサギ）、第２の群（投薬ありのＷＨＨＬウサギ）、第３の群（ＷＨＨＬウサギ）の順に増加している。このように、カーネルＰＬＳ−ＲＯＧを実現するデータ解析処理では、行列Ｙに基づく罰則項によって、スコアに群の順序を反映させることができる。

また、データ解析処理（図７）では、さらに、群の順序が反映された第１成分のスコアに対して、肝臓、心臓、脳、血漿サンプルの各種のメタボロームデータの解析を行った。具体的には、第１成分のスコアと各代謝物との相関係数とｐ値を計算して（図７のステップＳ６）、各相関の仮説検定を行い、有意（仮説検定上肯定的）な代謝物を判定した。

図１３は、データ解析処理（図７）のステップＳ６の処理に基づく仮説検定を説明するための図である。図１３（ａ），（ｂ），（ｃ），（ｄ）の各表は、それぞれ図７のステップＳ６で得られた肝臓、心臓、脳、血漿サンプルの解析リストＬａ，Ｌｂ，Ｌｃ，Ｌｄ（図１１）に対応している。

図１３（ｅ）は、スコアと代謝物のデータの相関係数を説明するための図である。図１３（ｅ）に示すように、スコア及び各種の代謝物のデータは、それぞれ全９個体にわたって分布している。相関係数は、このような両データの分布の類似度を、−１〜＋１の範囲内の値で表す。スコアと代謝物のデータの類似度が小さいほど相関係数が「０」に近づき、無相関であると考えられる。また、類似度が大きいほど相関係数の絶対値が「１」に近くなり、相関係数が「＋１」に近ければ正の相関があり、相関係数が「−１」に近ければ負の相関があると考えられる。

また、上記の相関が実際に意味を有し得る（有意）か、データ上の単なる偶然かについて、確率的に判断するために、仮説検定においてｐ値を用いる。本解析では、図１３（ａ）〜（ｄ）に示すように、ｐ値のしきい値を「０．０５」として、スコアと代謝物のデータの相関の有意性を判定した。

図１３（ａ）〜（ｄ）の各表では、カーネルＰＬＳ（図１２（ａ））の場合と、カーネルＰＬＳ−ＲＯＧ（図１２（ｂ））の場合とのそれぞれの場合に得られた解析リストＬａ〜Ｌｄが示す情報を併記している。また、図１３（ａ）〜（ｄ）では、仮説検定によってスコアとの相関が認められた代謝物に「＊」を付している。

図１３（ａ），（ｂ）に示すように、肝臓サンプルと心臓サンプルのBetaine及びN,N-Dimethylglycine（グリシン生合成経路の代謝中間体）は、カーネルＰＬＳ−ＲＯＧの第１成分のスコアとの相関係数が全て０．６以上であった。また、これらのｐ値は０．０５以下であり、有意（確率的に偶然とは考え難い程度）に正の相関が認められた。

また、プリン代謝に関して、図１３（ａ）に示すようにUrate（尿酸）では、カーネルＰＬＳとカーネルＰＬＳ−ＲＯＧのいずれのｐ値も０．０５以上であり、有意な相関は認められなかった。しかし、カーネルＰＬＳ−ＲＯＧの相関係数「０．５９４」は、カーネルＰＬＳの相関係数「０．００６０」から大幅に改善している。また、図１３（ａ）に示すように、Hypoxanthine，Inosine，Adenosine，Adenineでは、カーネルＰＬＳ−ＲＯＧについてのみ、第１成分のスコアと負の相関（相関係数−０．６以下）が有意に認められた。

また、その他の代謝物に関して、図１３（ｃ），（ｄ）に示すように、血漿サンプルと脳サンプルのN5-Ethylglutamine（テアニン）では、カーネルＰＬＳ−ＲＯＧについてのみ第１成分のスコアと有意に負の相関が認められた。さらに、図１３（ｂ），（ｃ）に示すように、Citrullineについて、心臓サンプルではカーネルＰＬＳとカーネルＰＬＳ−ＲＯＧとについて、脳ではカーネルＰＬＳ−ＲＯＧについてのみに有意に負の相関が認められた。

以上のように、本実施形態に係るデータ解析装置５０によると、カーネルＰＬＳ−ＲＯＧに基づき、群の順序を考慮した共通のスコアを生成することで、肝臓、心臓、脳、血漿サンプルの各代謝物を統合的に解析できる。また、データ解析装置５０では、κの値の設定を変更することで、上記のようにカーネルＰＬＳ−ＲＯＧでの相関とカーネルＰＬＳでの相関との比較も行え、多様なデータ解析を行うことができる。

４．まとめ
以上のように、本実施形態に係るデータ解析装置５０は、複数の統計サンプルに対して統計サンプル毎に複数の測定項目が測定された測定データに基づき、複数の測定項目に関する多変量解析を行う。データ解析装置５０は、記憶部５２と、制御部５１とを備える。記憶部５２は、統計サンプル毎に複数の測定項目が測定された測定データで構成されるデータ行列Ｘ、及び複数の統計サンプルが成す群に対する所定の順序を示す群情報を示すダミー行列Ｙを記録する。制御部５１は、データ行列Ｘ及びダミー行列Ｙに基づき所定の演算処理を行う。制御部５１は、複数の統計サンプルの内の一対の統計サンプルの測定データを引数ｘ_ｉ，ｘ_ｊとする所定のカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）を計算する。制御部５１は、カーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）の計算結果及び群情報に基づいて、一対の統計サンプル毎のカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）が行列要素であるカーネル行列Ｋとダミー行列Ｙとによって規定される所定条件下の部分的最小二乗法（カーネルＰＬＳ−ＲＯＧ）により、複数の統計サンプルに対するスコアを算出する。

本実施形態に係るデータ解析装置５０によると、群情報（ダミー行列Ｙ）に基づきスコアに群の順序を反映させながら、カーネル行列Ｋによって種々の測定データの統合解析や非線形解析を行える。このため、統計サンプル間の群の順序を考慮しながら多様なデータ解析を可能にすることができる。

また、本実施形態では、記憶部５２は、統計サンプル毎の複数種類の測定データｘ^（Ｌ） _ｉ，ｘ^（Ｈ） _ｉ，ｘ^（Ｂ） _ｉ，ｘ^（Ｐ） _ｉを各種のデータ行列Ｘ_（Ｌ），Ｘ_（Ｈ），Ｘ_（Ｂ），Ｘ_（Ｐ）で管理する。各種測定データｘ^（Ｌ） _ｉ，ｘ^（Ｈ） _ｉ，ｘ^（Ｂ） _ｉ，ｘ^（Ｐ） _ｉは、例えば生体内の複数の代謝物を測定項目とするメタボロームデータである。制御部５１は、種類毎の測定データｘ^（Ｌ） _ｉ，ｘ^（Ｈ） _ｉ，ｘ^（Ｂ） _ｉ，ｘ^（Ｐ） _ｉに関するカーネル関数の平均により、カーネル行列Ｋを計算する。これにより、別々に管理される複数種類の測定データｘ^（Ｌ） _ｉ，ｘ^（Ｈ） _ｉ，ｘ^（Ｂ） _ｉ，ｘ^（Ｐ） _ｉを統合的に解析することができる。

また、本実施形態では、データ解析装置５０によって算出されるスコアは、ダミー行列Ｙが示す群の順序に応じて増大又は減少する。このため、算出されたスコアを用いて、群の順序を考慮したデータ解析が容易になる。例えば、本実施形態では、制御部５１は、測定データ中の測定項目毎のデータと、算出したスコアとの相関を解析する。

また、本実施形態では、所定条件は、第１の条件と、第２の条件とを含む。第１の条件は、部分的最小二乗法における説明変数ｔ及び目的変数ｓのうちの説明変数ｔに関連する第１のベクトルα_ｘに対して、第１のベクトルα_ｘ同士のカーネル行列Ｋを介した内積を所定値に設定する条件である（式（１３））。第２の条件は、目的変数ｓに関連する第２のベクトルｗ_ｙに対して、群情報に基づく所定の罰則項により、第２のベクトルの大きさを所定値からずらす条件である（式（６））。

（実施例）
本発明に係るデータ解析方法（カーネルＰＬＳ−ＲＯＧ）は、サンプルの群間に順序のあるメタゲノムデータ、及びメタゲノムデータとメタボロームデータとの統合解析においても有用である。以下、カーネルＰＬＳ−ＲＯＧによるメタゲノムデータとメタボロームデータとの統合解析の一実施例について説明する。

本実施例では、非特許文献３で開示されたメタゲノムデータ及びメタボロームデータに対して、カーネルＰＬＳ−ＲＯＧによる統合解析を適用した例を説明する。非特許文献３は、人間の母乳におけるメタゲノムデータ及びメタボロームデータを用いた研究である。従来から、母乳は、乳児の発育のための細菌の重要な発生源であり、新生児の腸内細菌の構成に影響を与えることが知られている。非特許文献３では、ホジキンリンパ腫の化学治療を行っている母親の母乳中の細菌叢と代謝物を解析した結果、化学療法の影響がそのプロファイルに現れていることが示された。

非特許文献３は、ホジキンリンパ腫の化学治療を行っている母親に対し、化学療法開始から0週、２週、４週、６週、１０週、１２週、１４週、及び１６週後の母乳をそれぞれ２サンプルずつ採取し、各サンプルに対して次世代シーケンサによる１６ＳｒＲＮＡメタゲノム解析と、ガスクロマトグラフィ−質量分析計を用いたメタボローム解析とを行っている。さらに、メタゲノム解析の結果のデータに対して公知のＵｎｉＦｒａｃ解析（例えば非特許文献３参照）を行い、類似度行列Ｄを構成するデータを得ている。類似度行列Ｄは、各要素がサンプル間の類似度を表す行列であり、サンプルの個数ｍを用いて次式（２０）のように表される。

上式（２０）において、ｄ_ｉ，ｊは、ｉ番目のサンプルとｊ番目のサンプルとが類似する度合いである類似度を表す（ｉ，ｊ＝１〜ｍ）。ｄ_ｉ，ｊは、０〜１の範囲内の値を有し、０に近いほどサンプルｉとサンプルｊとが類似していることを表す。類似度行列Ｄ、及び上記メタゲノム解析結果のデータは、それぞれ細菌叢の遺伝子配列に関する情報を示すメタゲノムデータの一例である。

また、非特許文献３のメタボローム解析において得られたメタボロームデータは、各行に２２５物質、各列に１６サンプルのデータ行列Xを構成する。

上記のような非特許文献３]の統計データは一般に公開されている。本実施例では、この統計データから一部の欠損データを除いたサンプル数１４の統計データに対して、データ解析装置５０によってカーネルＰＬＳ−ＲＯＧ及びカーネルＰＬＳをそれぞれ適用し、統合解析を行った。

データ解析装置５０において、メタゲノムデータのカーネル行列Ｋ_ｇは、上記の類似度行列Ｄに基づき、以下のように生成した。すなわち、カーネル行列Ｋ_ｇの非対角成分には、類似度行列Ｄにおいて対応する各要素の逆数を設定した。また、カーネル行列Ｋ_ｇの対角成分には、所定値として２０を設定した。

また、データ解析装置５０は、メタボロームデータのカーネル行列Ｋ_ｍを、上記のデータ行列Ｘの線形カーネルを用いて生成した（Ｋ_ｍ＝ＸＸ’）。また、データ解析装置５０は、次式（２１）のようなカーネル行列Ｋ_ｇ，Ｋ_ｍ間の平均に基づき、メタゲノムデータとメタボロームデータとを統合したカーネル行列Ｋを計算した。
Ｋ＝（１／２）Ｋ_ｇ＋（１／２）Ｋ_ｍ（２１）

データ解析装置５０は、以上のようなカーネル行列Ｋ、及びサンプルの化学療法開始からの期間に対応する２サンプルずつの群の順序を示すダミー行列に基づきカーネルＰＬＳ−ＲＯＧ（κ＝０．５）及びカーネルＰＬＳ（κ＝０）のデータ解析を行い、それぞれのスコアを算出した。図１４及び図１５に、それぞれの解析結果を示す。

図１４（ａ）は、カーネルＰＬＳによるメタゲノムデータの解析結果を示す。図１４（ｂ）は、カーネルＰＬＳによるメタボロームデータの解析結果を示す。図１４（ｃ）は、カーネルＰＬＳによるメタゲノムデータとメタボロームデータとの統合解析の結果を示す。図１５（ａ）は、カーネルＰＬＳ−ＲＯＧによるメタゲノムデータの解析結果を示す。図１５（ｂ）は、カーネルＰＬＳ−ＲＯＧによるメタボロームデータの解析結果を示す。図１５（ｃ）は、カーネルＰＬＳ−ＲＯＧによるメタゲノムデータとメタボロームデータとの統合解析の結果を示す。図１４（ａ）〜（ｃ）及び図１５（ａ）〜（ｃ）では、各サンプルのスコアをプロットしており、横軸はスコアの第１成分であり、縦軸はスコアの第２成分である。

図１４（ａ）〜（ｃ）に示すように、カーネルＰＬＳによると、サンプル毎のスコアは縦軸においても横軸においても、０〜１６週の化学療法の期間の順序に並んでおらず、化学療法の期間の順序はスコアには表れていない。

一方、カーネルＰＬＳ−ＲＯＧによると、例えばメタゲノムデータに関して、図１５（ａ）に示すようにスコアの第１成分（横軸）において０週のサンプル群と２週のサンプル群とが順番に並んでいる。また、図１５（ｂ）に示すように、メタゲノムデータに関してもスコアの第１成分において、特に６週、１０週、１２週、１６週それぞれのサンプル群における順序が明確に現れている。これらの平均に基づくメタゲノムデータとメタボロームデータとの統合結果においては、図１５（ｃ）に示すように、０週、２週、４週、６週、１０週、１２週、１６週の各週のサンプル群の間の順序を確認することができた。

以上のように、本発明に係るカーネルＰＬＳ−ＲＯＧのデータ解析方法は、母乳中の細菌叢や、腸内細菌の細菌叢の解析などのメタゲノムデータに適用することができる。本発明に係るカーネルＰＬＳ−ＲＯＧのデータ解析方法によると、メタゲノムデータとメタボロームデータを統合して解析することができる。

（他の実施形態）
上記の実施形態１では、データ解析装置５０がＰＣなどの情報処理装置で構成される例について説明したが、これに限らず、例えば、データ解析装置５０はＡＳＰサーバなどのサーバ装置であってもよい。例えば、データ解析装置５０は、ネットワークを介して入力されたデータ行列Ｘやダミー行列Ｙを示す情報をネットワークインタフェース（取得部の一例）により取得して、データ解析処理を実行してもよい。また、データ解析装置５０は、データ解析処理において生成したスコアを示す情報を、ネットワークを介して送信してもよい。

また、上記の実施形態１では、メタボロミクスに対する本データ解析方法の適用例を説明した。本データ解析方法はメタボロミクスに限らず、種々のオミックス解析や計量化学の多変量解析に適用してもよい。この場合、測定データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータであってもよい。

また、上記の実施形態１では、複数種類のメタボロームデータの統合解析について説明した。本データ解析方法は、メタボロームデータと遺伝子発現データの統合や、複数の測定プラットフォームから得られた分析データを統合して解析することに用いてもよく、様々な統合解析が必要な場面で適用可能である。

また、上記の実施形態１において、図２〜５に例示するメタボロームデータは、キャピラリー電気泳動−飛行時間型質量分析計を用いて測定された。統計サンプル毎の測定データを測定するための分析装置はこれに限らず、例えば、液体クロマトグラフィ−質量分析計やガスクロマトグラフィ−質量分析計、核磁気共鳴等であってもよい。

また、上記の実施形態１において、ユーザが選択したスコアの成分に対する相関を解析したが（図７のステップＳ５）、これに限らず、データ解析装置５０が解析に用いるスコアの成分を選択してもよい。例えば、データ解析装置５０の制御部５１がスコアの算出後、ダミー行列Ｙに基づき群の順序を反映したスコアの成分を判定して、判定した成分に対する相関の解析を行ってもよい。

また、上記の実施形態１では、データ解析処理の解析結果により仮説検定を行ったが、データ解析装置５０が仮説検定を行ってもよい。例えば、記憶部５２に相関係数やｐ値のしきい値を予め設定しておき、制御部５１が、特定のスコアの成分に対する相関の解析において、所定条件（例えば相関係数の絶対値「０．６」以上で且つｐ値「０．０５」以下）を満たす代謝物を抽出してもよい。

（態様のまとめ）
本発明に係る各種態様を以下に例示する。

本発明に係る第１の態様は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析装置である。データ解析装置は、記憶部と、制御部とを備える。記憶部は、上記統計サンプル毎に上記複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報を記録する。制御部は、上記統計データ及び上記群情報に基づく所定の演算処理を行う。制御部は、上記統計データに基づいて、行列要素が上記複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算する。制御部は、上記カーネル行列と上記群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、上記複数の統計サンプルに対するスコアを算出する。

本発明に係る第２の態様は、第１の態様に係るデータ解析装置において、記憶部は、上記統計データにおいて上記統計サンプル毎に複数種類の測定データを管理する。制御部は、上記種類毎の測定データに関するカーネル行列を生成し、上記種類毎のカーネル行列の平均に基づいて、統合されたカーネル行列を計算する。

本発明に係る第３の態様は、第１又は第２の態様に係るデータ解析装置において、上記所定の関係は、上記統計データの内の上記行番号に対応する統計サンプルに関するデータと上記列番号に対応する統計サンプルに関するデータとに基づくカーネル関数で規定される。

本発明に係る第４の態様は、第１〜第３のいずれか一つの態様に係るデータ解析装置において、上記スコアは、上記群情報が示す群の順序に応じて増大又は減少する。

本発明に係る第５の態様は、第１〜第４のいずれか一つの態様に係るデータ解析装置において、制御部は、上記統計データ中のデータ項目毎のデータと、算出したスコアとの相関を解析する。

本発明に係る第６の態様は、第１〜第５のいずれか一つの態様に係るデータ解析装置において、上記所定条件は、第１の条件と、第２の条件とを含む。第１の条件は、上記部分的最小二乗法における説明変数及び目的変数のうちの説明変数に関連する第１のベクトルに対して、上記第１のベクトル同士の上記カーネル行列を介した内積を所定値に設定する条件である。第２の条件は、上記目的変数に関連する第２のベクトルに対して、上記群情報に基づく所定の罰則項により、上記第２のベクトルの大きさを所定値からずらす条件である。

本発明に係る第７の態様は、第１〜第６のいずれか一つの態様に係るデータ解析装置において、上記統計データは、生体内の複数の代謝物をデータ項目とするメタボロームデータを含む。

本発明に係る第８の態様は、第１〜第７のいずれか一つの態様に係るデータ解析装置において、上記統計データは、細菌叢の遺伝子配列に関する情報を示すメタゲノムデータを含む。

本発明に係る第９の態様は、第１〜第８のいずれか一つの態様に係るデータ解析装置において、上記統計データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータを含む。

本発明に係る第１０の態様は、コンピュータが複数の統計サンプルに対して上記複数のデータ項目に関する多変量解析を行うデータ解析方法である。上記コンピュータの記憶部には、上記統計サンプル毎に上記複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報が記録されている。本方法は、上記コンピュータが、上記統計データに基づいて、行列要素が上記複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算するステップを含む。本方法は、上記コンピュータが、上記カーネル行列と上記群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、上記複数の統計サンプルに対するスコアを算出するステップを含む。

本発明に係る第１１の態様は、第１０の態様に係るデータ解析方法をコンピュータに実行させるためのプログラムである。

Claims

複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析装置であって、
前記統計サンプル毎に前記複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報を記録する記憶部と、
前記統計データ及び前記群情報に基づく所定の演算処理を行う制御部とを備え、
前記制御部は、
前記統計データに基づいて、行列要素が前記複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算し、
前記カーネル行列と前記群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、前記複数の統計サンプルに対するスコアを算出する
データ解析装置。
前記記憶部は、前記統計データにおいて前記統計サンプル毎に複数種類の測定データを管理し、
前記制御部は、
前記種類毎の測定データに関するカーネル行列を生成し、
前記種類毎のカーネル行列の平均に基づいて、統合されたカーネル行列を計算する
請求項１に記載のデータ解析装置。
前記所定の関係は、前記統計データの内の前記行番号に対応する統計サンプルに関するデータと前記列番号に対応する統計サンプルに関するデータとに基づくカーネル関数で規定される
請求項１又は２に記載のデータ解析装置。
前記スコアは、前記群情報が示す群の順序に応じて増大又は減少する
請求項１〜３のいずれか１項に記載のデータ解析装置。
前記制御部は、前記統計データ中のデータ項目毎のデータと、算出したスコアとの相関を解析する
請求項１〜４のいずれか１項に記載のデータ解析装置。
前記所定条件は、
前記部分的最小二乗法における説明変数及び目的変数のうちの説明変数に関連する第１のベクトルに対して、前記第１のベクトル同士の前記カーネル行列を介した内積を所定値に設定する第１の条件と、
前記目的変数に関連する第２のベクトルに対して、前記群情報に基づく所定の罰則項により、前記第２のベクトルの大きさを所定値からずらす第２の条件とを含む
請求項１〜５のいずれか１項に記載のデータ解析装置。
前記統計データは、生体内の複数の代謝物をデータ項目とするメタボロームデータを含む
請求項１〜６のいずれか１項に記載のデータ解析装置。
前記統計データは、細菌叢の遺伝子配列に関する情報を示すメタゲノムデータを含む
請求項１〜７のいずれか１項に記載のデータ解析装置。
前記統計データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータを含む
請求項１〜８のいずれか１項に記載のデータ解析装置。
コンピュータが複数の統計サンプルに対して前記複数のデータ項目に関する多変量解析を行うデータ解析方法であって、
前記コンピュータの記憶部には、前記統計サンプル毎に前記複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報が記録されており、
前記コンピュータが、
前記統計データに基づいて、行列要素が前記複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算するステップと、
前記カーネル行列と前記群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、前記複数の統計サンプルに対するスコアを算出するステップと
を含むデータ解析方法。
請求項１０に記載のデータ解析方法をコンピュータに実行させるためのプログラム。