WO2018207925A1

WO2018207925A1 - バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム

Info

Publication number: WO2018207925A1
Application number: PCT/JP2018/018393
Authority: WO
Inventors: 洛南陳; 合原　一幸; 小平劉
Original assignee: 国立研究開発法人科学技術振興機構
Priority date: 2017-05-12
Filing date: 2018-05-11
Publication date: 2018-11-15
Also published as: CN110603592A; JPWO2018207925A1; US20210158899A1; US11848075B2; CN110603592B; JP7124265B2

Abstract

バイオマーカー検出方法は、複数の参照生体のそれぞれから得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを用意し（ＳＴ１）、対象生体から得られた対象生体データの中の複数の因子項目のデータを参照データセットに追加して対象データセットを生成し（ＳＴ２）、参照データセットの中の複数の因子項目の間で第１の相関係数を求め（ＳＴ３）、対象データセットの中の複数の因子項目の間で第２の相関係数を求め（ＳＴ４）、第１の相関係数と第２の相関係数との差分である差分相関係数を求め（ＳＴ５）、複数の因子項目のそれぞれについて、差分相関係数に基づく指標を求め（ＳＴ６）、指標に基づいてバイオマーカーを選択する（ＳＴ７）といった工程を含む。

Description

バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム

本発明は、生体に対する測定により得られた因子項目のデータに基づいて、生体の状態を示すバイオマーカーを検出するバイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラムに関する。

　生体の状態（例えば健康状態等）は、気候システム、生態システム、経済システム等の複雑システムと同様に、ある過渡点（分岐点）を超えると、良好又は正常（以下、単に「良好」と呼ぶ）な状態から疾病状態に急激に変化することが知られている（特許文献１及び非特許文献１～５）。また、複雑システムでは、過渡点において、揺らぎが増大するとともに、その揺らぎが強く相関する変数が存在することが知られている。その一因として、システムを安定に維持するための回復力が低下し、外乱に対し脆弱となっていることが挙げられる。

　以下、図１を参照しながら、人が病気になる場合を例に説明する。図１は、疾病の進行プロセスを示す概略図である。図１において、縦軸は健康状態を概念的に表し、矢印と反対の方向（下向きの方向）に向かうほど健康状態が悪くなることを示している。また、横軸は時間を表している。図中の点ａは、ある人の健康状態が良好であることを示している。この場合、本人には自覚症状がなく、従来の健康診査での検査結果にも特段の異常は見られない。図１に示すように、時間の経過とともに健康状態が悪化しても、その変化は極めて緩やかなため、依然として、体調の変化を感じることはない。しかし、緩やかな悪化が続き、図中の点ｂで示す過渡的な状態（健康と病気の間の状態）に達すると、健康状態は急激（あるは緩慢な場合もある）に悪化し、早期疾病状態に至たる（点ｃ）。この状態に至ると、本人も体の不調を感じることができるようになり、やがて疾病状態（点ｄ）に陥る。ここにいう過渡的な状態（点ｂ）は、本人には特段の自覚症状がないが、直ちにでも早期疾病状態に移行してしまう可能性が高い状態である。

国際公開第２０１４／０５０１６０号

Jose G. Venegas, Tilo Winkler, Guido Musch, Marcos F. Vidal Melo, Dominick Layfield, Nora Tgavalekos, Alan J. Fischman, Ronald J. Callahan, Giacomo Bellani, and R. Scott Harris,"Self-organized patchiness in asthma as a prelude to catastrophic shifts,"Nature 434，Nature Publishing Group，pp. 777-782 (2005) Patrick E. McSharry, Leonard A. Smith, and Lionel Tarassenko，"Prediction of epileptic seizures: are nonlinear methods relevant?,"Nature Medicine 9，Nature Publishing Group，pp. 241-242 (2003) Roberto Pastor‐Barriuso, Eliseo Guallar, and Josef Coresh，"Transition models for change-point estimation in logistic regression,"Statistics in Medicine 22(7)，Wiley-Blackwell，pp. 1141-1162 (2003) Paek SH et al. "Hearing preservation after gamma knife stereotactic radiosurgery of vestibular schwannoma,"Cancer 104，Wiley-Blackwell，pp. 580-590 (2005) Liu, J.K., Rovit, R.L., and Couldwell, W.T.，"Pituitary Apoplexy," Seminars in Neurosurgery 12，Thieme, pp. 315-320 (2001)

　ところで、人が病院へ行くのは、多くの場合、体調不良を自覚してから、すなわち、過渡的な状態（点ｂ）を過ぎて早期疾病状態（点ｃ）や疾病状態（点ｄ）に至ってからである。病院では、検査や画像診断などが行なわれる。このような診断では、殆どの場合、検査や画像診断で異常が見つかったときには、診察を受けた人が既に病気に罹ってしまっている。　
　一方、上述の過渡的な状態（点ｂ）を把握（早期発見）することができれば、この時点で治療することにより（早期治療）、早期疾病状態（点ｃ）に達するのを防ぐことができ（つまり、病気にならなくて済み）、良好な健康状態（点ａ）を維持できることが推測される。

　本発明は、上記の事情に鑑み、疾病状態へ遷移する前の過渡的な状態（健康と病気の間の状態）を検出することができる、バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラムを提供する。

　本発明の第１の態様は、生体に関する測定により得られたデータに基づいて、生体の状態の指標となるバイオマーカーを検出するバイオマーカー検出方法を提供する。このバイオマーカー検出方法は、１又は２以上の参照生体から得られたデータに基づく参照データセットを用意し、対象生体から得られた対象生体データを参照データセットに追加して対象データセットを生成し、参照データセットの中の複数の因子項目の間で第１の相関係数を求め、対象データセットの中の複数の因子項目の間で第２の相関係数を求め、第１の相関係数と第２の相関係数との差分である差分相関係数を求め、複数の因子項目のそれぞれについて差分相関係数に基づく指標を求め、指標に基づいてバイオマーカーを選択する工程を含んでいる。

　本発明の第２の態様は、生体に関する測定により得られた複数の因子項目のデータに基づいて、検査対象である対象生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出装置を提供する。このバイオマーカー検出装置は、１又は２以上の参照生体から得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを記憶する第１の記憶部と、対象生体から得られた対象生体データの中の複数の因子項目のデータを参照データセットに追加して対象データセットを生成し、記憶する第２の記憶部と、第１の記憶部に記憶される参照データセットの中の複数の因子項目の間で第１の相関係数を求め、第２の記憶部に記憶される対象データセットの中の複数の因子項目の間で第２の相関係数を求め、第１の相関係数と第２の相関係数との差分である差分相関係数を求め、複数の因子項目のそれぞれについて差分相関係数に基づく指標を求め、指標に基づいてバイオマーカーを選択する制御部とを含んでいる。

　本発明の第３の態様は、上述のバイオマーカー検出方法を上述のバイオマーカー検出装置に実行させる命令を含むバイオマーカー検出プログラムを提供する。

　本発明の実施形態によれば、次の効果を得ることが出来る。（１）疾病状態へ遷移する前の過渡的な状態を示す指標（新しいバイオマーカー）を特定できる、また、（２）その指標を使って早期診断ができる。

良好な健康状態から疾病状態への移行プロセスを説明する模式図である。本発明の第１の実施形態によるバイオマーカーの検出方法を説明するフローチャートである。第１の実施形態のバイオマーカーの検出方法を説明する模式図である。図３に引き続き、第１の実施形態のバイオマーカーの検出方法を説明する模式図である。第１の実施形態のバイオマーカーの検出方法を検証するために行った実験の結果を示すグラフである。本発明の第２の実施形態によるバイオマーカーの検出装置の構成を示すブロック図である。本発明の第３の実施形態によるバイオマーカーの検出方法を説明するフローチャートである。本発明の第３の実施形態によるバイオマーカーの検出方法を説明する模式図である。本発明の第４の実施形態によるバイオマーカーの検出方法を説明する模式図である。

以下、添付の図面を参照しながら、本発明の限定的でない例示の実施形態について説明する。添付の全図面中、同一または対応する部材または部品については、同一または対応する参照符号を付し、重複する説明を省略する。　
　（第１の実施形態）
　以下、図２から図５までを参照しながら、本発明の第１の実施形態によるバイオマーカーの検出方法を説明する。図２は、第１の実施形態によるバイオマーカーの検出方法を説明するフローチャートであり、図３及び図４は、第１の実施形態によるバイオマーカーの検出方法を示す模式図である。　
　第１の実施形態によるバイオマーカーの検出方法は、図２に示すように、参照データセットを用意するステップ（ＳＴ１）、検査対象データセットを生成するステップ（ＳＴ２）、第１の相関係数を計算するステップ（ＳＴ３）、第２の相関係数を計算するステップ（ＳＴ４）、差分相関係数を計算するステップ（ＳＴ５）、指標を求めるステップ（ＳＴ６）、バイオマーカーを選択するステップ（ＳＴ７）を含んでいる。

　＜参照データセットを用意するステップ（ＳＴ１）＞
　初めに参照データセットＤｒ（図３）が用意される。参照データセットＤｒは、バイオマーカーの検出のための参照用のデータとして用いられるデータの集合である。参照データセットＤｒは、複数の生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎの各々に対し生体に関する測定、すなわち生体に対して測定を行うことにより用意される。生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎには、通常は第１の実施形態によるバイオマーカーの検出方法の検査対象者Ｓｅ（以下、被検者Ｓｅと呼ぶ）は含まれないが、含まれる場合も考えられる。　
　また、第１の実施形態においては、生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎは良好な健康状態にあり、これらの人々から生体サンプル（例えば血液）が採取される。ここで、良好な健康状態にある生体データ提供者とは自覚症状がない人であって良く、健康診断などにより健康と判断されることは要しない。ただし、特定の病気に罹っている可能性が高いことが判明している人は、生体データ提供者にはなれない。また、生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎの人数は、特に限定されることはないが、例えば少なくとも８人であると好ましく、例えば１０人以上であると更に好ましい。

　各生体サンプルに対して測定かつ／又は所定の処理が行われ、第１の実施形態においては、因子項目としての遺伝子ｇ１、ｇ２、・・・、ｇｍに関するデータＤ（発現量）が取得される。この場合、生体サンプルは、ＤＮＡチップなどのハイスループット技術により処理されることが好ましい。ハイスループット技術によれば、１つの生体サンプルから２万個以上の遺伝子の発現量を測定することが可能である。取得された遺伝子発現量のデータは、説明の便宜上、図３に示すようにマトリックス状にまとめられるものとする。このマトリックス状の参照データセットＤｒ内の各四角（□）が、生体データ提供者Ｓ１の遺伝子ｇ１の発現量データ、遺伝子ｇ２の発現量データ、・・・、遺伝子ｇｍの発現量データを模式的に示している。

　＜検査対象データセットを生成するステップ（ＳＴ２）＞
　次に、被検者Ｓｅからも同様に生体サンプルが採取され、遺伝子ｇ１、ｇ２、ｇ３、・・・、ｇｍに関する被検者データセットＤｅが取得される（図３）。その後、先に用意された参照データセットＤｒが複製され、複製された参照データセットＤｒに被検者データセットＤｅを追加することにより、検査対象データセットＤｃが作成される。

　＜第１の相関係数を計算するステップ（ＳＴ３）＞
　次いで、参照データセットＤｒ内のデータ間の相関係数が計算される。図３から分かるように、参照データセットＤｒにおいては、遺伝子ｇ１について、生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎのｎ人に対応したｎ個のデータが存在している。同様に、遺伝子ｇ２についてもｎ個のデータが存在している。まず、遺伝子ｇ１の集合ＣＬ１ｒと、遺伝子ｇ２の集合ＣＬ２ｒとの間で相関係数が計算される。第１の実施形態では、２つの集合の間でピアソンの積率相関係数（ＰＣＣ）が計算される。続けて、遺伝子ｇ１の集合と、遺伝子ｇ３、ｇ４、・・・、ｇｍの各集合との間でも、それぞれＰＣＣが得られる。　
　さらに続けて、遺伝子ｇ２の集合と、遺伝子ｇ３、ｇ４、・・・、ｇｍの各集合との間でもＰＣＣが得られ、遺伝子ｇ３の集合と、遺伝子ｇ４、ｇ５、・・・、ｇｍの各集合との間でもＰＣＣが得られる。このようにして、遺伝子ｇ１、ｇ２、ｇ３、・・・、ｇｍの集合のうちのあらゆる一対の集合の間でＰＣＣが得られる。なお、説明の便宜上、参照データセットＤｒについて得られた相関係数ＰＣＣをＰＣＣｒと呼ぶ。

　＜第２の相関係数を計算するステップ（ＳＴ４）＞
　次に、検査対象データセットＤｃ内のデータ間の相関係数が計算される。図３に示すように、検査対象データセットＤｃでは各遺伝子の集合に属するデータの数はｎ＋１となるが、参照データセットＤｒについての計算方法と同じ方法が用いられ、検査対象データセットＤｃについてＰＣＣが計算される。説明の便宜上、検査対象データセットＤｃにおける相関係数ＰＣＣをＰＣＣｃと呼ぶ。

　＜差分相関係数を計算するステップ（ＳＴ５）＞
　この後、上述の相関係数ＰＣＣｒ及びＰＣＣｃの差分相関係数が計算される。すなわち、参照データセットＤｒにおける遺伝子ｇ１の集合と遺伝子ｇ２の集合との間の相関係数ＰＣＣｒと、検査対象データセットＤｃにおける遺伝子ｇ１の集合と遺伝子ｇ２の集合との間の相関係数ＰＣＣｃとの差分相関係数ΔＰＣＣ（（ＰＣＣｒ－ＰＣＣｃ）の絶対値）が計算される。次いで、遺伝子ｇ１（の集合）と遺伝子ｇ３（の集合）との相関係数に関して、参照データセットＤｒと検査対象データセットＤｃとの間で差分相関係数ΔＰＣＣが計算される。続けて、遺伝子ｇ１と、遺伝子ｇ４、ｇ５、・・・、ｇｍのそれぞれとの相関係数に関し、参照データセットＤｒと検査対象データセットＤｃとの間で差分相関係数ΔＰＣＣ（図３）が計算される。同様に、遺伝子ｇ２と、遺伝子ｇ３、ｇ４、・・・、ｇｍのそれぞれとの相関係数に関しても、データセットＤｒ、Ｄｃの間で差分相関係数ΔＰＣＣが計算される。このようにして、参照データセットＤｒと検査対象データセットＤｃの間で、２組の遺伝子の集合ごとの対応する組み合わせについて、差分相関係数ΔＰＣＣが計算される。

　次に、このようにして計算されたΔＰＣＣのうち、閾値（固定値であっても変数値であっても良い）を超えたΔＰＣＣが抽出される。ここで、説明の便宜上、選択されたΔＰＣＣに基づいて図４に示す差分相関係数ネットワークＮｒｃが構築されるものとする。例えば、遺伝子ｇ１の相関係数ＰＣＣと遺伝子ｇ２の相関係数ＰＣＣとの間の差分相関係数ΔＰＣＣが抽出されたとすると、遺伝子ｇ１に対応するノードＧ１と、遺伝子ｇ２に対応するノードＧ２とが設定され、これらのノードＧ１、Ｇ２が枝Ｂで接続されている（リンクされる）。同様の操作が、抽出されたすべての差分相関係数ΔＰＣＣについて行われ、差分相関係数ネットワークＮｒｃが構築される（図４）。

　＜指標を求めるステップ（ＳＴ６）＞
　次に、ノード（結節点）のそれぞれについて、他のノードとの相関係数の平均値が計算される。まず、着目するノードと、そのノードについての１次のノードとの間の相関係数の平均値ｓＰＣＣｉｎが計算される。ここで１次のノードとは、着目するノードにリンクするノードである。例えば、図４のノードＧ１に着目すると、ノードＧ２、Ｇ３、及びＧ４がノードＧ１にリンクしている。よって、これらのノードＧ２、Ｇ３、及びＧ４がノードＧ１の１次のノードである。ノードＧ１及びＧ２の間の相関係数と、ノードＧ１及びＧ３の間の相関係数と、ノードＧ１及びＧ４の間の相関係数とが平均化され、平均値ｓＰＣＣｉｎが得られる。

　なお、例えばノードＧ１及びＧ２の間の相関係数は、先に計算された遺伝子ｇ１及びｇ２の間の差分相関係数（ΔＰＣＣ）に相当する。すなわち、この例における平均値ｓＰＣＣｉｎは、遺伝子ｇ１及びｇ２の間のΔＰＣＣと、遺伝子ｇ１及びｇ３の間のΔＰＣＣと、遺伝子ｇ１及びｇ４の間のΔＰＣＣとの平均値である。　
　また、図４のノードＧ５に着目した場合、ノードＧ５は１つのノードＧ２のみがリンクしている。この場合は平均ではなく、ノードＧ５及びＧ２の間の相関係数をｓＰＣＣｉｎとして用いても良い。

　次いで、着目するノードに関する１次のノードと２次のノードとの間の相関係数の平均値ｓＰＣＣｏｕｔが計算される。ここで２次のノードとは、着目するノードの１次のノードにリンクするノードであって、着目するノードにリンクしていないノードである。図４のノードＧ１に関しては、１次のノードＧ２にリンクするノードＧ５、Ｇ６、及びＧ７と、１次のノードＧ３にリンクするノードＧ８と、１次のノードＧ４に直接にリンクするノードＧ９及びＧ１０とが２次のノードに相当する。よって、１次のノードＧ２と２次のノードＧ５、Ｇ６、及びＧ７のそれぞれとの間、１次のノードＧ３と２次のノードＧ８の間、１次のノードＧ４と２次のノードＧ９及びＧ１０のそれぞれとの間の合計６つの相関係数が平均化され、平均値ｓＰＣＣｏｕｔが得られる。　
　ここでも、例えばノードＧ２及びＧ５の間の相関係数は、これらのノードにそれぞれ対応する遺伝子ｇ２及びｇ５の間の差分相関係数ΔＰＣＣに相当する。

　ここで再び図３を参照する。グラフＧＲにおいて、横軸が遺伝子の発現量を示し、縦軸が確率を示している。グラフＧＲには、参照データセットＤｒ中の（すなわち、複数の生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎの）遺伝子ｇ１についての発現量－確率曲線Ｃｒが破線で示されている。複数の生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎの遺伝子ｇ１の発現量の確率はグラフＧＲに示すように、ほぼ正規に分布し、この分布図から発現量の平均値χ_ｒが求められる。また、グラフＧＲには被検者Ｓｅの遺伝子ｇ１のデータ（発現量）も実線で示されており、その発現量をχ_ｅとすると、｜χ_ｒ－χ_ｅ｜により平均値χ_ｒとの差ｓＥＤが得られる。

　次に、以下の式（１）に従って、上記の平均値ｓＰＣＣｉｎと、平均値ｓＰＣＣｏｕｔと、差ｓＥＤとから、ノードＧ１（すなわち、遺伝子ｇ１）についての指標（スコア）Ｉｓが求められる。　
　　　Ｉｓ＝ｓＥＤ×ｓＰＣＣｉｎ／ｓＰＣＣｏｕｔ　・・・　式（１）
　次いで、指標Ｉｓは、すべてのノードＧ２、Ｇ３、・・・、Ｇ１０について同様に計算される。

　＜バイオマーカーを選択するステップ（ＳＴ７）＞
　次に、図４に模式的に示すように、すべてのノードについて計算された複数の指標Ｉｓが大きい順にソートされる。ソートされた指標Ｉｓから大きい順に所定の数の指標Ｉｓが選択される。これにより、選択された所定の数の指標Ｉｓに対応する遺伝子がバイオマーカーとして検出されたこととなる。なお、図４に示すように閾値Ｖｔｈを定め、閾値Ｖｔｈを超える指標Ｉｓが選択されるようにしても良い。また、すべてのノードについて計算するのではなく、あらかじめ所定のｓＥＤ値（例えばある値以上のｓＥＤ）を持つノードを選択し、その選択されたノードについてΔＰＣＣを計算し、指標を計算しても良い。

　以上のように、第１の実施形態のバイオマーカーの検出方法によれば、まず、生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎから得られた参照データセットＤｒの因子項目の間の相関係数ＰＣＣｒが計算され、参照データセットＤｒに被検者Ｓｅの被検者データセットＤｅを加えることにより得られた検査対象データセットＤｃの各因子項目の間の相関係数ＰＣＣｃが計算される。次に、これらの差分相関係数ΔＰＣＣが求められ、その中から閾値を超える差分相関係数ΔＰＣＣが抽出され、これにより差分相関係数ネットワークＮｒｃが構築される。差分相関係数ネットワークＮｒｃのすべてのノードのそれぞれについて、ｓＰＣＣｉｎとｓＰＣＣｏｕｔが計算される。一方、各因子項目についての参照データセットＤｒの平均値と検査対象データセットＤｃとの差ｓＥＤが求められる。ｓＥＤとｓＰＣＣｉｎとｓＰＣＣｏｕｔを含む式（１）により指標Ｉｓが計算され、閾値Ｖｔｈを超える指標Ｉｓに対応する遺伝子がバイオマーカーとして検出される。

　バイオマーカーが検出されるのは、被検者Ｓｅが、（見かけからは分からないものの）健康状態の点で、生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎ（の平均）と相違しているからである。このことは、仮に、被検者Ｓｅが、生体データ提供者同様に良好な健康状態（点ａ）にあれば、データセットＤｒ、Ｄｃ間の差分相関係数ΔＰＣＣはほぼゼロになり、よってバイオマーカーは検出されないことから明らかである。　
　一方、先に説明した過渡的な状態（図１の点ｂ）は、被検者自身には特段の自覚症状がないが、直ちにでも早期疾病状態に移行してしまう可能性のある状態である。このような状態においては、一般に、揺らぎが増大するとともに、その揺らぎが強く相関する変数が存在することが知られている。参照データセットＤｒと検査対象データセットＤｃとの間で大きな差異を示す因子項目は、過渡的な状態において、値の振れ幅が大きくなり、その動きが強く相関する生体的な因子に相当すると考えられる。したがって、バイオマーカーが検出されたことをもって、被検者Ｓｅの健康状態が過渡的な状態にあると判断することができる。

　次に、第１の実施形態によるバイオマーカーの検出方法の効果を検証するために行った実験について説明する。この実験では、健康な被検者Ｓｅ１～Ｓｅ１７の１７名に対し、インフルエンザウィルスを鼻腔内接種した後、第１の実施形態によるバイオマーカーの検出方法を時間の経過とともに１５回行った。図５は、その実験の結果を示す表である。表中の「Ｎ」は、第１の実施形態によるバイオマーカーの検出方法によりバイオマーカーが検出されなかったことを示し、「Ｃ」は、第１の実施形態によるバイオマーカーの検出方法によりバイオマーカーが検出されたことを示し、「Ｓ」は、被検者が実際にインフルエンザに罹ったことを示している。　
　この表から、バイオマーカーが検出されなかった被検者Ｓｅ２、Ｓｅ３などは、疾病状態にはならず、バイオマーカーが検出されたすべての被検者Ｓｅ１、Ｓｅ５などが、その後に疾病状態になっていることが分かる。この結果から、第１の実施形態によるバイオマーカーの検出方法の有益な効果は明らかである。

　なお、この実験では、インフルエンザウィルスを被検者に鼻腔内接種した後に、バイオマーカーの検出を行ない、バイオマーカーが検出された被検者がインフルエンザを発病したことから、インフルエンザ発症の予兆がバイオマーカーの検出により見出されたということができる。しかし、一般には、バイオマーカーが検出されたことから分かるのは、健康状態が過渡的であること、または何らかの病気を発病する予兆があることであり、具体的な病気を特定することはできない。前述したインフルエンザの実験のように、対応する因子項目と病気との対応付けがなされれば、バイオマーカーが検出された時点で、後に発症する可能性がある病気まで特定することが可能となる。すなわち、第１の実施形態にかかるバイオマーカーは、特定の病気を発症する予兆となり得るという利点を有している。

　（第２の実施形態）
次に、本発明の第２の実施形態によるバイオマーカーの検出装置について説明する。図６は、第２の実施形態による検出装置の構成例を示すブロック図である。図６に示すバイオマーカーの検出装置１は、制御部１０、記憶部１１、記憶部１２、入力部１３、出力部１４、及びインタフェイス部１５を備えている。

　制御部１０は、ＣＰＵ（Central Processing Unit）などの回路を用いて構成され、検出装置１全体を制御する。記憶部１１は、ＨＤＤ（Hard Disk Drive）などの磁気記録装置、ＳＳＤ（Solid State Disk）などの不揮発性の補助記録装置を含む。記憶部１１には、本発明の実施形態による検出プログラム１１ａを始めとする各種プログラムが記録されている。検出プログラム１１ａは、第１の実施形態によるバイオマーカーの検出方法を検出装置１に実施させる命令（コード）を含んでいる。

　なお、検出プログラム１１ａは、コンピュータ可読記憶媒体１３ａに格納することができ、検出プログラム１１ａを例えば入力部１３を通してコンピュータ可読記憶媒体１３ａから記憶部１１にインストールすることができる。ここで、コンピュータ可読記憶媒体１３ａは、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ランダムアクセスメモリ（ＲＡＭ）、読出専用メモリ（ＲＯＭ）、消去可能プログラム可能ＲＯＭ（ＥＰＲＯＭ又はフラッシュメモリ素子）、コンパクトディスクＲＯＭ（ＣＤ－ＲＯＭ）やデジタル多用途ディスクＲＯＭ（ＤＶＤ－ＲＯＭ）などの光ディスク記憶メディア、磁気記憶メディアなどを含む非一時的又は有形のコンピュータ可読記憶媒体であっても良い。

　また、記憶部１１は、第１の実施形態にて説明した参照データセットＤｒを記録することができる。参照データセットＤｒは、入力部１３を通して記憶部１１に入力され、記録されても良いし、インタフェイス部１５を通して、例えば外部のデータベース等から入力され、記録されても良い。

　記憶部１２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）、ＳＲＡＭ（Static Random Access Memory）などの揮発性の記憶装置を含む。記憶部１２は、第１の実施形態にて説明した被検者データセットＤｅ（図３）を記憶することができる。被検者データセットＤｅは、好ましくは入力部１３を通して記憶部１２に記憶されても良い。なお、第１の実施形態にて説明した検査対象データセットＤｃ（図３）は、例えば、記憶部１１に記録されている参照データセットＤｒが制御部１０へ読み出され、記憶部１２に記憶されている被検者データセットＤｅが制御部１０へ読み出され、制御部１０にて被検者データセットＤｅを参照データセットＤｒに追加することにより生成され得る。生成された検査対象データセットＤｃを記憶部１２に記憶しても良い。

　入力部１３は、キーボードやマウス、入出力（Ｉ／Ｏ）装置などのハードウェア、及びドライバなどのソフトウェアを備える。Ｉ／Ｏ装置はコンピュータ可読記憶媒体１３ａにアクセスすることができる。出力部１４は、ディスプレイやプリンタなどのハードウェア、及びドライバなどのソフトウェアを備える。

インタフェイス部１５は、外部から各種データを取得する。具体的には、インタフェイス部１５は、通信網を介してデータを取り込むため、ＬＡＮ（Local Area Network）ケーブルが接続されるポートや、測定機器に接続可能なパラレルケーブルなどの専用線が接続されるポートなどのハードウェア、及びドライバなどのソフトウェアを備える。

　記憶部１１に記録されている検出プログラム１１ａを、記憶部１２に記憶し、制御部１０の制御に基づいて実行することにより、第２の実施形態による検出装置１として機能する。
　なお、第２の実施形態では記憶部１１と記憶部１２は個別に構成されているが、他の実施形態においては、一つのハードウェアで構成されていても良い。すなわち、一つのハードウェアのなかの異なる領域を記憶部１１及び記憶部１２として用いても構わない。

　なお、検出装置１を構成する制御部１０、記憶部１１、記憶部１２、入力部１３、出力部１４、及びインタフェイス部１５は、単一の筐体内又は同一箇所に設置されてもよいし、これらの構成要素の各々又は一部を別の箇所の一又は複数の筐体内に設置し、有線又は無線のネットワークを介して接続するようにしてもよい。また、検出装置１によって実行される各種処理は、インターネット等のネットワークを介してクラウドコンピューティングを用いて実行されるようにしてもよい。

　また、複数台の検出装置１を設置し、上述のバイオマーカーの検出方法を含む各種処理を並行して実行するようにしてもよい。あるいは、検出装置１の構成要素の各々を複数のユニットにより構成するようにし（例えば、２つの制御部１０、２つの記憶部１１など）、各種処理を並行して実行するようにしてもよい。このような並列処理により、高速化を図ることができ、また、データを並列に記憶するようにしておけば、大容量化及び高速化を図ることができる。さらに、病院と病院以外の検査機関等とでデータを共有しつつ並列処理を実行すれば、より多くの患者に対する検査及び診断の効率化を図ることができる。

　上述のように、第１の実施形態によるバイオマーカーの検出方法はハイスループット技術を用いることが好ましく、ハイスループット技術に対応可能な装置を用いた方がよい。人間の遺伝子は２万個以上あるが、例えば、複数の因子項目として２万個の遺伝子（ｍ＝20,000）に関する発現量を用いる場合、複数の因子項目間の第１の相関係数の計算（ＳＴ３）、複数の因子項目間の第２の相関係数の計算（ＳＴ４）、及び第１の相関係数と第２の相関係数との差分相関係数の計算（ＳＴ５）の各ステップにおいて、₂₀₀₀₀Ｃ₂（= 199,990,000）通りの計算を実行しなければならない。言うまでもなく、これだけの膨大な計算を人間が合理的な時間内で正確に行うことは不可能であり、膨大な計算を正確に実行可能な装置を用いる必要がある。仮に上記の計算を複数の人間が行ったとしても、とてつもない時間を要し（何年にもわたる可能性がある。）、人間が計算している間に患者の病状が悪化するおそれがある。これでは、疾病状態へ遷移する前の過渡的な状態（健康と病気の間の状態）を検出するという目的を達成することができない。したがって、上述のバイオマーカーの検出方法を実現するためには、膨大な計算を高速且つ正確に実行可能な検出装置１を用いる必要がある。以下に述べる第３の実施形態によるバイオマーカーの検出方法を実行する装置及び第４の実施形態によるバイオマーカーの検出方法を実行する装置についても同じことが言える。

（第３の実施形態）
　次に、図７を参照しながら、本発明の第３の実施形態によるバイオマーカーの検出方法を説明する。図７は、第３の実施形態におけるバイオマーカーの検出方法を示すフローチャートである。

　第３の実施形態によるバイオマーカーの検出方法は、図７に示すように、ハイスループットデータを取得するステップ（ＳＴ１１）と、差次的因子の選出するステップ（ＳＴ１２）と、クラスター化するステップ（ＳＴ１３）と、バイオマーカーを選出するステップ（ＳＴ１４）とを含んでいる。　
　初めに、ハイスループットデータを取得するステップ（ＳＴ１１）において、被検者Ｓｅから異なる時点でハイスループットデータが得られる。具体的には、まず、被検者Ｓｅから生体サンプルが時系列的に複数回採取される。生体サンプルを採取する回数は、例えば５回以上が望ましい。また、各回の間隔は、疾病の状況によって、数日、数週間、数カ月、又は数年に設定して良く、例えば数分又は数時間としても良い。
　このようにして得られた複数の生体サンプルのそれぞれから、因子項目としての遺伝子の発現量が、ハイスループットデータとしてハイスループット技術により取得される。

　次に、差次的因子を選出するステップ（ＳＴ１２）において、取得されたハイスループットデータから差次的因子が選出される。すなわち、ハイスループット技術により１つの生体サンプルから取得された２万個以上の遺伝子データの中から、差次的な遺伝子が選出される。ここで差次的な遺伝子は発現量に著しい変化を示した遺伝子である。その選出は、具体的には以下のように行われる。まず、複数の生体サンプルの中の初回に採取された生体サンプルをコントロールサンプルとする。説明の便宜上、このコントロールサンプルから取得されたデータをＤｄｍｃとし、２回目に採取された生体サンプルの遺伝子のデータをＤｄｍと呼ぶこととする。次に、この遺伝子のデータＤｄｍに対してスチューデントのｔ検定を行って、コントロールサンプルのデータＤｄｍｃに比べて発現量に著しい変化を示した遺伝子を選出する。説明の便宜上、この遺伝子を遺伝子Ｄｄｍ１と呼ぶ。

　なお、第３の実施形態では、遺伝子Ｄｄｍ１の選出にスチューデントのｔ検定を用いたが、他の実施形態では、例えば、マン・ホイットニーのＵ検定等の他の検定方法を適用することも可能である。このようなノンパラメトリック手法による検定は、母集団となるＤｄｍが正規分布に従わない場合に、特に有効である。また、スチューデントのｔ検定をする場合においても、有意水準αの値は、０．０５、０．０１等の値を適宜設定することができる。

　次いで、クラスター化するステップ（ＳＴ１３）において、差次的因子を選出するステップ（ＳＴ１２）において選出された差次的因子（差次的な遺伝子）が複数のクラスターに分類される。　
　このステップ（ＳＴ１２）においては、初めに、コントロールサンプルのデータＤｄｍｃに比べて発現量に著しい変化を示した遺伝子Ｄｄｍ１に対し、誤発現率ＦＤＲ（False Discovery Rate）を用いて、複数の比較（Multiple Comparisons）を行うことにより、又は複数のスチューデントのｔ検定を補正することにより、遺伝子Ｄｄｍ２（図示なし）が得られる。次に、２倍変更方法（Two-fold Change Method）を用いて、遺伝子Ｄｄｍ２から、標準偏差ＳＤが比較的著しく変化する遺伝子が差次的な遺伝子Ｄｓｍ（図８）として選出される（ＳＴ１２）。ここで選出された差次的な遺伝子Ｄｓｍは、コントロールサンプルのデータＤｄｍｃに比べて著しい差異を示すだけではなく、自分の平均値からも大きく逸脱している。

　次に、差次的な遺伝子Ｄｓｍの間の相関係数が計算される。ここで、説明の便宜上、遺伝子ｇｎ１、ｇｎ２、ｇｎ３、・・・、ｇｎｐが差次的な遺伝子Ｄｓｍとして選出されたと仮定する。また、遺伝子ｇｎ１のデータ（発現量）は、生体サンプルの採取の時点ｔ１、ｔ２、ｔ３、・・・、ｔｐにおいて、順にｇｎ１１、ｇｎ１２、ｇｎ１３、・・・、ｇｎ１ｐであったと仮定すると、ｐ個の要素を有する集合ＣＬ１ｍ：{ｇｎ１１、ｇｎ１２、ｇｎ１３、・・・、ｇｎ１ｐ}が得られる。同様に、遺伝子ｇｎ２の発現量が、生体サンプルの採取の時点ｔ１、ｔ２、ｔ３、・・・、ｔｐにおいて、順にｇｎ２１、ｇｎ２２、ｇｎ２３、・・・、ｇｎ２ｐであったと仮定すると、ｐ個の要素を有する集合ＣＬ２ｍ：{ｇｎ２１、ｇｎ２２、ｇｎ２３、・・・、ｇｎ２ｐ}が得られる。他の遺伝子ｇｎ３、・・・、ｇｎｐについても同様な集合ＣＬ３ｍ、・・・、ＣＬｐｍが得られる。

　次いで、すべての遺伝子の集合ＣＬ１ｍ、ＣＬ２ｍ、ＣＬ３ｍ、・・・、ＣＬｐｍのうちのあらゆる一対の集合の間で相関係数が計算される。この相関係数はピアソン相関係数（ＰＣＣ）であっても良い。計算された相関係数ＰＣＣのうち、閾値を超えるものが選出され、選出されたＰＣＣに基づき、例えばネットワークが構築される。例えば、集合ＣＬ１ｍ及びＣＬ２ｍの間の相関係数ＰＣＣが閾値を超えた場合、遺伝子ｇｎ１に対応するノードＧｎ１と、遺伝子ｇｎ２に対応するノードＧｎ２とが設定され、これらのノードＧｎ１及びＧｎ２が枝Ｂでリンクされる。同様な操作が、閾値を超えたすべてのＰＣＣに対して行われ、図８に示すネットワークＮｍが構築される。

　この後、ネットワークＮｍにおいてノードがクラスター化される。すなわち、複数のノードがグループ（クラスター）に分類される。ここでいうクラスター化とは、複数の生体分子を、互いに相関の高いグループにそれぞれ分類する処理であり、生体分子が分類されたそれぞれのグループをクラスターと称する。すなわち、互いに相関の高い生体分子を１つのクラスターにするように、上述の差次的な遺伝子Ｄｓｍを、ｎ個のクラスターに分類する。図８を参照すると、点線で画定された５つのクラスターと、各クラスターに含まれる２つ又は３つのノードとが示されている。ただし、クラスターの数や、クラスターに含まれるノードの数は、図８の例に限定されることなく、適宜決定しても良い。例えばクラスターの数は全部で３個以上であって良く、一つのクラスターには５個以上のノードが含まれても良い。

　次いで、バイオマーカーの候補を選出するステップ（ＳＴ１４）において、クラスター化するステップ（ＳＴ１３）で得られた複数のクラスターの中から、クラスターの内側の因子項目の間の相関の増大、クラスターの内側の因子項目の標準偏差の増大、及びクラスターの内側の因子項目と外側の因子項目との間の相関の低減が最も著しいクラスターがバイオマーカーとして選出される。　
　具体的には、各クラスターについて、クラスターの内側のノード間の相関係数の平均値ＰＣＣｉｎ（以下、内部ＰＣＣ平均値と呼ぶ）が計算され、クラスターの内側のノードと外側のノードとの間の相関係数の平均値ＰＣＣｏｕｔ（以下、内外ＰＣＣ平均値と呼ぶ）が計算され、内側のノードの標準偏差ＳＤｉｎが計算される。図８を参照すると、ノードＧｎ１、Ｇｎ２、及びＧｎ３を含むクラスターＣが形成されている。このクラスターＣに着目すると、クラスターＣの内側のノードＧｎ１及びＧｎ２の間の相関係数（すなわち、遺伝子ｇｎ１及びｇｎ２の間の相関係数ＰＣＣ）と、ノードＧｎ２及びＧｎ３の間の相関係数（遺伝子ｇｎ２及びｇｎ３の間の相関係数ＰＣＣ）と、ノードＧｎ３及びＧｎ１の間の相関係数（遺伝子ｇｎ３及びｇｎ１の間の相関係数ＰＣＣ）とが平均化され、内部ＰＣＣ平均値ＰＣＣｉｎが得られる。

　続けて、ノードＧｎ１と、これに直接に接続するもののクラスターＣの外側にあるノードＧｎ４との間の相関係数（遺伝子ｇｎ１及びｇｎ４の間の相関係数ＰＣＣ）、ノードＧｎ２と、これに直接に接続するもののクラスターＣの外側にあるノードＧｎ５との間の相関係数（遺伝子ｇｎ２及びｇｎ５の間の相関係数ＰＣＣ）と、ノードＧｎ３と、これに直接に接続するもののクラスターＣの外側にあるノードＧｎ６及びＧｎ７のそれぞれとの間の相関係数（遺伝子ｇｎ３及びｇｎ６の間の相関係数ＰＣＣ、遺伝子ｇｎ３及びｇｎ７の間の相関係数ＰＣＣ）といった、合計４つの相関係数が平均化され、内外ＰＣＣ平均値ＰＣＣｏｕｔが得られる。　
　さらに、クラスターＣの内部のノードＧｎ１、Ｇｎ２、及びＧｎ３のそれぞれに対応する遺伝子ｇｎ１、ｇｎ２、及びｇｎ３のデータ（発現量）の標準偏差ＳＤｉｎが計算される。

　以上のようにして求めた内部ＰＣＣ平均値ＰＣＣｉｎ、内外ＰＣＣ平均値ＰＣＣｏｕｔ、及び標準偏差ＳＤｉｎから、以下の式（２）に従って、クラスターＣの指標Ｉｍが計算される。　
　　　Ｉｍ＝ＳＤｉｎ×ＰＣＣｉｎ／ＰＣＣｏｕｔ　・・・　式（２）
　続けて、同様の計算がすべてのクラスターに対して行われ、最も大きな指標Ｉｍを提供したクラスター（又は、そのクラスターに属するノードに対応する遺伝子群）がバイオマーカーとして選択される。　
　なお、同一のノード（群）に対し、クラスターの数や、クラスターに含まれるノードの数を変えて、同様の計算を複数回繰り返し、更に大きな指標Ｉｍを提供するクラスターを見出しても良い。　
　また、各クラスターの指標Ｉｍに対して有意性分析を行なってクラスターがバイオマーカーであるか否かを判定しても良い。　
　なお、クラスター化を行わないで、それぞれの遺伝子について指標を計算することも考えられ、上述のステップＳＴ１２において差次的な遺伝子Ｄｓｍを選出する際に計算した標準偏差ＳＤを用いて、指標を計算することができる。具体的には、上記の式（１）の分子のｓＥＤを、この標準偏差ＳＤに置き換えることにより得られる下記の式（３）に従って、指標Ｉｔを求めても良い。　
　　　Ｉｔ＝ＳＤ×ｓＰＣＣｉｎ／ｓＰＣＣｏｕｔ　・・・　式（３）
　すべてのノード（差次的な遺伝子Ｄｓｍ）について計算された複数の指標Ｉｔが大きい順にソートされ、ソートされた指標Ｉｔから大きい順に所定の数の指標Ｉｔが選択される。これにより、選択された所定の数の指標Ｉｔに対応する遺伝子がバイオマーカーとして検出されたこととなる。

　以上のように第３の実施形態によるバイオマーカーの検出方法においては、被検者Ｓｅから時系列的に採取された複数の生体サンプルから遺伝子のデータ（発現量）が取得され、その中から差次的な遺伝子Ｄｓｍが選出される。差次的な遺伝子Ｄｓｍについて、相関係数ＰＣＣが得られ、相関係数ＰＣＣに基づいてネットワークＮｍが構築される。ネットワークＮｍを構成するノードがクラスターへとグループ分けされ、各クラスターについて指標Ｉｍが計算され、その値が最大となるクラスターに含まれるノードに対応する遺伝子がバイオマーカーとして選択される。　
　また、クラスター化を行わないで、それぞれの遺伝子について指標を計算する場合は、差次的な遺伝子Ｄｓｍを選出する際（ステップＳＴ１２）に計算した標準偏差ＳＤを用いる上記の式（３）により指標Ｉｔを計算できる。この標準偏差ＳＤは、注目している遺伝子の発現量が多くなった、あるいは急激に多くなったことを表現できる変数であるため、式（１）のｓＥＤの代わりとなることができる。

　第３の実施形態によれば、差次的な因子（発現量に著しい変化を示した遺伝子Ｄｓｍ）を選出し、これらの間の相関係数を計算し、クラスター化し、クラスターについて指標Ｉｍが最大となるクラスターがバイオマーカーとして選択される、又はクラスター化を行わないで、それぞれの遺伝子について指標を計算する場合は、差次的な因子を選出する際に計算した標準偏差ＳＤを用いて指標Ｉｔ（式（３））を計算し、その値が大きい順に１又は２以上の所定の数の指標Ｉｔが選択されるため、互いに強く相関する複数のノードを求めることができる。過渡的な状態においては、一般に、揺らぎが増大するとともに、その揺らぎが強く相関する変数が存在することが知られている。したがって、第３の実施形態によるバイオマーカーの検出方法によりバイオマーカーが検出されたことをもって、被検者Ｓｅが過渡的な状態にあることが分かる。

（第４の実施形態）
　次に、図９を参照しながら、本発明の第４の実施形態によるバイオマーカーの検出方法を説明する。第４の実施形態のバイオマーカーの検出方法は、被検者Ｓｅの生体サンプルを採取する回数の点で、第１の実施形態によるバイオマーカーの検出方法と異なる。具体的には、第１の実施形態のバイオマーカーの検出方法においては、被検者Ｓｅの生体サンプルの採取回数は１回であったが、第４の実施形態のバイオマーカーの検出方法では、時系列的に複数回採取される。以下、相違点を中心に第４の実施形態のバイオマーカーの検出方法を説明する。

　図９を参照すると、異なる時点ｔ１、ｔ２、ｔ３で被検者Ｓｅから採取された生体サンプルから取得された被検者データセットＤｅｍが得られている。生体サンプルを採取する回数は、説明の便宜上、３回としたが、例えば５回以上が望ましい。また、各回の間隔は、疾病の状況によって、数日、数週間、数カ月、又は数年に設定して良く、例えば数分又は数時間としても良い。　
　被検者データセットＤｅｍは、第１の実施形態と同様に予め用意された参照データセットＤｒに追加され、検査対象データセットＤｃｍが作成される。本例では、検査対象データセットＤｃｍにおいて各遺伝子の集合に属するデータの数はｎ＋３である。

　次いで、第１の実施形態における相関係数を計算するステップ（ＳＴ３）及び第２の相関係数を計算するステップ（ＳＴ４）と同様にして、参照データセットＤｒ内のデータ間の相関係数ＰＣＣｒと、検査対象データセットＤｃｍ内のデータ間の相関係数ＰＣＣｃとが計算され、これらの間で差分相関係数ΔＰＣＣが計算される。次いで、第１の実施形態における差分相関係数を計算するステップ（ＳＴ５）と同様にして、ΔＰＣＣのうち、閾値を超えたΔＰＣＣが抽出され、図４に示す差分相関係数ネットワークＮｒｃが構築される。

　差分相関係数ネットワークＮｒｃに関して、第１の実施形態における、指標を求めるステップ（ＳＴ６）と同様に、着目するノードと１次のノードとの間の相関係数の平均値ｓＰＣＣｉｎと、着目するノードに関する１次のノードと２次のノードとの間の相関係数の平均値ｓＰＣＣｏｕｔが求められる。　
　図９を参照すると、グラフＧＲｍには、遺伝子ｇ１についての発現量－確率曲線が破線で示されている。このグラフにおいては、参照データセットＤｒ中の遺伝子ｇ１についての発現量－確率曲線Ｃｒと、被検者データセットＤｅｍ中の遺伝子ｇ１についての発現量－確率曲線Ｃｅとが示されている。ここで、平均値χｒは、発現量－確率曲線Ｃｒの平均値を表し、平均値χｅは、発現量－確率曲線Ｃｅの平均値を表している。このグラフから、平均値χｒとχｅの差ｓＥＤ（｜χ_ｒ－χ_ｅ｜）が求められる。

　次に、上述の式（１）に従って、上記の平均値ｓＰＣＣｉｎと、平均値ｓＰＣＣｏｕｔと、差ｓＥＤとから、ノードＧ１（すなわち、遺伝子ｇ１）についての指標Ｉｓが求められる。　
　次いで、すべてのノードＧ２、Ｇ３、・・・、Ｇ１０（すなわち、対応する遺伝子ｇ２、ｇ３、・・・、ｇ１０）について、同様に指標Ｉｓが計算される。

　次に、図４に模式的に示すように、すべてのノードについて計算された複数の指標Ｉｓが大きい順にソートされる。ソートされた指標Ｉｓから大きい順に所定の数の指標Ｉｓが選択される。選択された所定の数の指標Ｉｓに対応する遺伝子がバイオマーカーとして検出されたこととなる。選択される指標Ｉｓの数は、閾値を定めることにより決定し、閾値を超える指標Ｉｓが選択されるようにしても良い。

　第４の実施形態によるバイオマーカーの検出方法によっても、参照データセットＤｒの因子項目間の相関係数ＰＣＣｒと、検査対象データセットＤｃｍの因子項目間の相関係数ＰＣＣｃとの差分相関係数ΔＰＣＣが求められ、これに基づいた指標からバイオマーカーが検出され得るため、第１の実施形態によるバイオマーカーの検出方法と同様の効果が発揮される。
　また、上記の実施形態によるバイオマーカーの検出方法又は検出装置により探索されたバイオマーカーを使えば、ある疾病についての判定（病気になる直前の状態か、あるいは病気から快復する直前の状態かの判定）を行うことができる。判定の対象となる人に対して検査を行い、採取した生体サンプルからバイオマーカーを計算で求め、求めたバイオマーカーとすでに探索されたバイオマーカーとを比較する。例えば、すでに探索され、所定の疾病に対応したバイオマーカーの遺伝子群（上位の遺伝子群、あるいはあらかじめ特定しておいた遺伝子群であって、遺伝子群に含まれる遺伝子は１つでも良い）に、求めたバイオマーカーに含まれているか否かを判定する。　
　この判定は、たとえば第２の実施形態によるバイオマーカー検出装置等により自動で判定しても良いし、医者が判定しても良い。　
　また、判定結果により疾病に対応するバイオマーカーあるいは遺伝子であると判定した場合、当該疾病に係る情報を提示しても良い。　
　これにより、その人が、所定の病気の直前の状態にあるのか、あるいは所定の病気から快復する直前の状態にあるのか判定できる。

　以上、本発明によるバイオマーカーの検出方法、バイオマーカーの検出装置、及びバイオマーカーの検出プログラムの幾つかの実施形態を説明したが、本発明は上述の幾つかの実施形態に限定されることなく、特許請求の範囲内で種々に変形又は変更が可能である。　
　たとえば、第１及び第４の実施形態では、参照データセットＤｒは、被検者Ｓｅの生体サンプルを採取する前に用意されたが、他の実施形態においては、被検者Ｓｅの生体サンプルの採取後、又は、この生体サンプルから遺伝子ｇ１、ｇ２、ｇ３、・・・、ｇｍに関する被検者データセットＤｅが取得された後に用意されてもかまわない。また、参照データセットＤｒを予め作成し、データベースに登録しておいても良い。このようにすれば、必要に応じてデータベースから例えばインタフェイス部１５を通して記憶部１１にダウンロードすることによって、参照データセットＤｒを用意できる。

　また、第１及び第４の実施形態において、指標Ｉｓは式（１）に従って計算されたが、この式の分母（ｓＰＣＣｏｕｔ）を１としても（すなわち、分子のみに基づいて指標Ｉｓを計算しても）、バイオマーカーを選択できることが発明者らの検討により明らかとなっている。

　さらに、第１及び第４の実施形態においては、見掛け上は健康が良好であることを前提に、被検者Ｓｅが過渡的な健康状態にあるかどうかが調べられる。他の実施形態では、それとは逆に、被検者Ｓｅが特定の病気に罹っていることを前提としても良い。この場合には、被検者Ｓｅと同じ病気に罹っている患者が生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎになることができる。このような場合において、被検者Ｓｅからバイオマーカーが検出されたときは、被検者Ｓｅの健康は、疾病状態（図１の点ｄ又はｃ）から良好な状態（同図の点ａ）に向かう過渡的な状態にあり、被検者Ｓｅは快復に向かっていることが推測される。なお、特定の病気とは、ある病気に限定されることはなく、どんな病気であっても良い。
　また、被検者Ｓｅが特定の病気に罹り、その病気に対して特定の治療を受けている場合には、同じ治療を受けている患者が生体データ提供者Ｓ１、Ｓ２、・・・、Ｓｎになることもできる。この場合において、被検者Ｓｅからバイオマーカーが検出されたときは、その治療が被検者Ｓｅに対し効果を発揮しており、疾病状態（図１の点ｄ又はｃ）から良好な状態（同図の点ａ）に向かう過渡的な状態にあり、被検者Ｓｅは快復に向かっていることが推測される。

　また、第３の実施形態においても、健康状態が良好な被検者Ｓｅについてバイオマーカーを検出できた場合には、その被検者Ｓｅの健康は、良好な状態（同図の点ａ）から疾病状態（図１の点ｄ又はｃ）へ向かう過渡的な状態（図１の点ｂ）にあることが分かる。これとは逆に、被検者Ｓｅが疾病状態のときにバイオマーカーが検出されれば、その被検者Ｓｅの健康は過渡的な状態にあり、被検者Ｓｅは快復に向かっていることが推測される。

　このように被検者Ｓｅが疾病状態にある場合において、患者自身が病状の改善を感じることができないとき、または従来の検査によっては病状の改善が認められないときであっても、本発明の実施形態によるバイオマーカーの検出方法によれば、薬が効いているかどうかを確認することも可能である。そのため、治療の継続の可否について正しく判断することが可能となる。

　また、従来の検査によっては病状の改善が認められるまでに長い期間を要する場合がある。この場合において、長い期間が経過した後に薬効がなかったことが判明したときには、その期間に病状が悪化してしまうことにもなる。本発明の実施形態によるバイオマーカーの検出方法を用いれば、状態遷移の予兆を早期に把握できるため、薬の使用開始後の短い期間で薬効の有無を判断できる。そのため、薬効がない場合に、無駄な治療をせずに済むし、早期に他の治療方法に変更することができ、病気の進行の遅延や病状の改善につなげることも可能となる。また、高額な医薬品を長期に亘って無益に使用するのを回避することが可能となり、医療費を抑制し得る。

　また、第４の実施形態によるバイオマーカーの検出方法は、第２の実施形態によるバイオマーカーの検出装置１において実施しても良い。この場合、第４の実施形態によるバイオマーカーの検出方法を検出装置１に実行させる、バイオマーカーの検出プログラムが記憶部１１に記録されていても良い。また、この検出プログラムは、非一時的又は有形のコンピュータ可読記憶媒体に記録されても良い。

　また、第４の実施形態においては、被検者Ｓｅの生体サンプルから時系列的に取得された複数のデータから被検者データセットＤｅｍを作成し、これを参照データセットＤｒに追加して検査対象データセットＤｃｍを作成したが、他の実施形態においては、異なる時点でのデータを単独で使用することもできる。すなわち、生体サンプルを異なる時点で採取するごとに、第１の実施形態によるバイオマーカーの検出方法を実施しても良い。より具体的には、時点ｔ１において被検者Ｓｅから生体サンプルを採取した際に第１の実施形態によるバイオマーカーの検出方法を実施し、これを時点ｔ２、ｔ３、・・・のそれぞれにおいて繰り返すようにしても良い。このような検出方法もまた、検出プログラムにより上述の検出装置１で実施することができ、この検出プログラムは、非一時的又は有形のコンピュータ可読記憶媒体に記録されても良い。

　また、第１、第３、及び第４の実施形態において、差分相関係数ネットワークＮｒｃ又はネットワークＮｍが構築される例を説明したが、ネットワークを構築しなくてもノード間の相関係数を計算することは可能であり、したがって、ネットワークは必ずしも構築しなくても良い。　
　また、第１及び第４の実施形態において、差分相関係数ネットワークＮｒｃについて式（１）を用いて指標Ｉｓを計算する例を説明したが、差分相関ネットワークＮｒｃのノードをクラスター化し、式（２）に従って、指標Ｉｍを計算し、バイオマーカーを選択することも可能である。　
　すなわち、第１及び第４の実施形態によるバイオマーカー検出方法において、差分相関係数ネットワークＮｒｃについて式（１）を用いて指標Ｉｓを計算する場合と、差分相関係数ネットワークＮｒｃのノードをクラスター化し、式（２）に従って、指標Ｉｍを計算する場合と、第３の実施形態によるバイオマーカー検出方法において、差次的な遺伝子Ｄｓｍについての相関係数ＰＣＣに基づいて構築されたネットワークＮｍに対し、式（１）を用いて指標Ｉｓを計算する場合と、このネットワークＮｍのノードをクラスター化し、式（２）に従って、指標Ｉｍを計算する場合との合計４通りのバイオマーカー検出方法がある。　
　さらに、第３の実施形態においてハイスループット技術により取得されたハイスループットデータから差次的因子を選択したが、第１及び第４の実施形態においても、差次的因子を選択しても良い。また、上述のｓＥＤを用い、たとえば所定の値以上のｓＥＤを有する因子を差次的因子として選択しても良い。

　また、上記の実施形態においては、説明の便宜上、因子項目として遺伝子（の発現量）を例示したが、遺伝子に関わらず、血液検査における所定の検査項目（タンパク質やコレステロール、血糖値などの測定項目、代謝物に関する測定項目など）の数値を用いることができる。また、生体サンプルを採取し、生体サンプルから因子項目を抽出する場合には、生体サンプルとしては、血液に限らず、唾液や汗、又は尿や便などの排泄物などであっても良く、生体組織（例えば肝臓障害の場合、肝臓の組織）であっても良い。さらに、心電図や脳波、コンピュータ断層撮影（ＣＴ）や（核）磁気共鳴映像（ＭＲＩ）、ＰＥＴ（Positron Emission Tomography）画像などの信号を数値化することにより得られた数値などを用いることができる。さらにまた、声や心音のような体内から発せられる音を測定し、測定値を数値化することにより得られた数値などを用いることも可能である。なお、上の説明で因子項目という語を用いたが、これは、上述のネットワークのノードとなり得る項目をいう。

　本発明によるバイオマーカーの検出方法は、総合病院や大学病院などで実施することができるが、病院外の検査機関、個人向けの血液診断サービスや遺伝子診断サービスを提供している民間の企業等によっても実施されても良い。このような検査機関及び企業等において、本発明によるバイオマーカーの検出装置や検出プログラムを使用できることはもちろんである。　
　また、本発明によるバイオマーカーの検出方法、検出装置、及び検出プログラムは、人間だけでなく、動物など生物一般に対しても適用することができる。

　なお、従来から疾病状態を診断するために用いられる指標としてバイオマーカーがある。バイオマーカーは良好状態（基準値内）と病気状態（基準値外）を判別したり、病気状態の変化（改善又は悪化）を調べたりするのに用いられる。これに対し、本発明によるバイオマーカーの検出方法では、良好な状態から前記疾病状態への遷移の予兆（過渡的な状態）を検知することができる。すなわち、本発明によるバイオマーカーの検出方法には、病気に罹るのを早期に回避することが可能となるという利点がある。

　また、従来のバイオマーカーは、生体から採取された血清や尿などの体液や組織に含まれる化学物質であり、分子式又は特性で特定することも可能である。一方、本発明に係るバイオマーカーは、被検者や疾病によって異なり、検出されて初めてその存在が明らかになるため、構成（分子式等）や特性により直接に特定することはほぼ不可能であり、およそ現実的でない点で、従来のバイオマーカーと異なる。

　言い換えると、本発明の他の実施形態によるバイオマーカーは、生体に関する測定により得られたデータに基づいて、生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出方法であって、複数の参照生体のそれぞれから得られたデータに基づく参照データセットを用意し、対象生体から得られた対象生体データを参照データセットに追加して対象データセットを生成し、参照データセットの中の複数の因子項目の間で第１の相関係数を求め、対象データセットの中の複数の因子項目の間で第２の相関係数を求め、第１の相関係数と第２の相関係数との差分である差分相関係数を求め、複数の因子項目のそれぞれについて差分相関係数に基づく指標を求め、指標に基づいてバイオマーカーを選択する工程を含む、バイオマーカー検出方法により検出されるバイオマーカーである。

　なお、上記の実施形態によるバイオマーカーの検出方法及びバイオマーカーの検出プログラムは、被検者が過渡的な状態にあることを示す（疾病状態の予兆を示す）指標を具体的に見出すものであり、従来から知られていた日常的な生体データ処理をコンピュータで単に履行するものではない。
　また、上述してきたバイオマーカーは動的ネットワークバイオマーカー（Dynamic Network Biomarker：DNB）と呼ぶことがある。

　Ｄ　　　データ
　Ｄｃ、Ｄｃｍ　　検査対象データセット
　Ｄｅ、Ｄｅｍ　　被検者データセット
　Ｄｒ　　参照データセット
　ｇ１、ｇ２、・・・、ｇｍ　　遺伝子
　Ｇ１、Ｇ２、Ｇ３、Ｇ４、・・・、Ｇ１０　ノード
　Ｎｒｃ、Ｎｍ　　差分相関係数ネットワーク
　Ｓｅ　　被検者
　Ｓ１、Ｓ２、・・・、Ｓｎ　　生体データ提供者
　１　　　検出装置
　１０　　制御部
　１１　　記憶部
　１１ａ　検出プログラム
　１２　　記憶部
　１３　　入力部
　１３ａ　コンピュータ可読記憶媒体
　１４　　出力部
　１５　　インタフェイス部

Claims

　生体に関する測定により得られたデータに基づいて、生体の状態を示すバイオマーカーを検出する、バイオマーカー検出方法であって、
　１又は２以上の参照生体から得られたデータに基づく参照データセットを用意し、
　対象生体から得られた対象生体データを前記参照データセットに追加して対象データセットを生成し、
　前記参照データセットの中の複数の因子項目の間で第１の相関係数を求め、
　前記対象データセットの中の複数の因子項目の間で第２の相関係数を求め、
　前記第１の相関係数と前記第２の相関係数との差分である差分相関係数を求め、
　前記複数の因子項目のそれぞれについて前記差分相関係数に基づく指標を求め、
　前記指標に基づいてバイオマーカーを選択する
　工程を含む、バイオマーカー検出方法。
　前記指標を求める工程が、
　前記複数の因子項目のうちの一つの因子項目と、当該一つの因子項目に対して所定の相関係数を持つ１又は２以上の別の因子項目との間の前記差分相関係数の第１平均値を求める工程を更に含み、
　前記指標が、前記第１平均値に基づいて求められる、請求項１に記載のバイオマーカー検出方法。
　前記指標を求める工程が、
　前記参照データセットの中の前記複数の因子項目のうちの一つの因子項目に関する複数のデータの平均値を求める工程と、
　前記対象生体データの中の前記一つの因子項目のデータと前記平均値との差を求める工程と、を更に含み、
　前記指標が、前記第１平均値及び前記差に基づいて求められる、請求項２に記載のバイオマーカー検出方法。
　前記指標を求める工程が、前記別の因子項目と、当該別の因子項目に対して所定の相関係数を持つ１又は２以上の更に別の因子項目との間の前記差分相関係数の第２平均値を求める工程を更に含み、
　前記指標が、（前記差×前記第１平均値）／（前記第２平均値）で表される式により求められる、請求項３に記載のバイオマーカー検出方法。
前記指標を求める工程が、前記複数のデータの前記平均値を求める工程と、前記差を求める工程と、前記第１平均値を求める工程と、を前記複数の因子項目のすべてに対して行う工程を更に含み、
　前記複数の因子項目のすべてに対して、前記指標が、前記第１平均値及び前記差に基づいて求められる、請求項３に記載のバイオマーカー検出方法。
　前記指標を求める工程が、
　前記複数のデータの前記平均値を求める工程と、
　前記差を求める工程と、前記第１平均値を求める工程と、を前記複数の因子項目のすべてに対して行う工程と、
　前記別の因子項目と、当該別の因子項目に対して所定の相関係数を持つ前記１又は２以上の更に別の因子項目との間の前記差分相関係数の前記第２平均値を求める工程と、
　を前記複数の因子項目のすべてに対して行う工程を更に含み、
　前記複数の因子項目のすべてに対して、前記指標が、（前記差×前記第１平均値）／（前記第２平均値）に基づいて求められる、
　請求項４に記載のバイオマーカー検出方法。
　前記バイオマーカーを選択する工程が、
　前記複数の因子項目のすべてに対して求められた前記指標を大きい順に並べたときに、大きい順に１又は２以上の所定の数の指標を前記バイオマーカーとして選択する、請求項５又は６に記載のバイオマーカー検出方法。
　前記１又は２以上の参照生体から得られたデータは、良好な健康状態にある生体から取得したデータである、請求項１から７のいずれか一項に記載のバイオマーカー検出方法。
　前記１又は２以上の参照生体から得られたデータは、特定の病気に罹っている生体から取得したデータである、請求項１から７のいずれか一項に記載のバイオマーカー検出方法。
　前記対象データセットを生成する工程が、前記対象生体から複数回得られた対象生体データの中の前記複数の因子項目のデータを前記参照データセットに追加して前記対象データセットを生成する、請求項１から９のいずれか一項に記載のバイオマーカー検出方法。
　請求項１から１０のいずれか一項に記載のバイオマーカー検出方法を用いて前記バイオマーカーを検出し、検出された前記バイオマーカーが所定の疾病に対応したバイオマーカーであるか否かを判断する、疾病判断方法。
　生体に関する測定により得られた複数の因子項目のデータに基づいて、検査対象である対象生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出装置であって、
　１又は２以上の参照生体から得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを記憶する第１の記憶部と、
　前記対象生体から得られた対象生体データの中の前記複数の因子項目のデータを前記参照データセットに追加して対象データセットを生成し、記憶する第２の記憶部と、
　前記第１の記憶部に記憶される前記参照データセットの中の前記複数の因子項目の間で第１の相関係数を求め、前記第２の記憶部に記憶される前記対象データセットの中の前記複数の因子項目の間で第２の相関係数を求め、前記第１の相関係数と前記第２の相関係数との差分である差分相関係数を求め、前記複数の因子項目のそれぞれについて前記差分相関係数に基づく指標を求め、前記指標に基づいてバイオマーカーを選択する制御部と、
　を備える、バイオマーカー検出装置。
　請求項１から１０のいずれか一項に記載のバイオマーカー検出方法を、生体に関する測定により得られた複数の因子項目のデータに基づいて、検査対象である対象生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出装置であって、前記１又は２以上の参照生体から得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを記憶する第１の記憶部と、前記対象生体から得られた対象生体データの中の前記複数の因子項目のデータを前記参照データセットに追加して対象データセットを生成し、記憶する第２の記憶部と、前記第１の記憶部に記憶される前記参照データセットの中の前記複数の因子項目の間で第１の相関係数を求め、前記第２の記憶部に記憶される前記対象データセットの中の前記複数の因子項目の間で第２の相関係数を求め、前記第１の相関係数と前記第２の相関係数との差分である差分相関係数を求め、前記複数の因子項目のそれぞれについて前記差分相関係数に基づく指標を求め、前記指標に基づいてバイオマーカーを選択する制御部と、を備えるバイオマーカー検出装置に実行させる命令を含むバイオマーカー検出プログラム。