WO2012091093A1

WO2012091093A1 - 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法

Info

Publication number: WO2012091093A1
Application number: PCT/JP2011/080393
Authority: WO
Inventors: 啓田代; 茂木下; 知人八木; 正和中野; 和彦森; 陽子池田; 盛夫上野; 雄市徳田; 克巳八木; 健悟吉井; 正博不破
Original assignee: 参天製薬株式会社
Priority date: 2010-12-28
Filing date: 2011-12-28
Publication date: 2012-07-05
Also published as: EP2660310A1; US20130275349A1; EP2660310A4; JPWO2012091093A1; TW201248425A

Abstract

ヒト緑内障の発症及び進行をはじめとする哺乳動物の生理状態の属性を精度良く判定する技術を提供する。ジェノタイプデータの判定結果及びサイトカインデータの判定結果を統合判定部１１４で統合して、Ｃａｓｅ判定回数及びＣｏｎｔｒｏｌ判定回数のどちらが大きいかを比較して（Ｓ３３０）、Ｃａｓｅ判定回数の方が多ければＣａｓｅ（緑内障）であると判定し、Ｃｏｎｔｒｏｌ判定回数の方が多ければＣｏｎｔｒｏｌ（健常者）であると判定する。

Description

緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法

　本発明は、哺乳動物の個体の生理状態の属性を判別するための装置、哺乳動物の個体の生理状態の属性を判別するための方法、その方法に用いる判別器を生成する装置、哺乳動物の個体の生理状態の属性を判別するためのプログラムに関する。

　緑内障は、網膜神経節細胞死により特徴的な視神経乳頭陥凹と視野障害をきたす疾患である。眼圧の上昇が緑内障における乳頭陥凹と視野障害の主要な原因であるとされる。一方、眼圧が統計的に算出された正常範囲にとどまる緑内障も存在するが、この場合もその個体にとって視野障害を生じるに十分高い眼圧であるため緑内障を発症すると考えられている。

　緑内障の治療の基本は眼圧を低く保つことであり、眼圧を低く保つためには高眼圧を来す原因を考慮する必要がある。このため、緑内障の診断には、眼圧の高低及びその原因によって緑内障のタイプを分類することが重要とされる。眼圧上昇を来す原因としては、眼内を充たす房水の主要な排出経路である隅角の閉塞の有無が重要である。これらの観点から原発性の緑内障は、隅角の閉塞を伴う閉塞隅角緑内障、隅角の閉塞を伴わない開放隅角緑内障に大きく二分され、このうち開放隅角緑内障は、眼圧上昇を伴う狭義の開放隅角緑内障、すなわち、原発開放隅角緑内障と眼圧が正常範囲にある正常眼圧緑内障に分類される。

　緑内障に遺伝が関係することは古くから知られており、開放隅角緑内障では５～５０％に家族歴があるとの報告もあり、一般的には２０～２５％が遺伝的なものと解されている。このような報告に基づき、緑内障の原因遺伝子を探索する研究が行われており、その成果としてミオシリン（ＭＹＯＣ）遺伝子の変異が開放隅角緑内障に関連すること（特許文献１参照）、オプティニューリン（ＯＰＴＮ）遺伝子の変異が正常眼圧緑内障に関連することが報告された（非特許文献１参照）。

　一方、一塩基多型（ＳＮＰ（複数形として用いる場合はＳＮＰｓ）、Single Nucleotide Polymorphism）とは、個体のゲノムの塩基配列において、一つの塩基が別の塩基に変化する置換変異が見られ、当該変異がその生物種の集団においてある程度の頻度、一般的に約１％以上の頻度で存在する。ＳＮＰは遺伝子上のイントロン、エクソン、あるいはこれら以外のゲノムの領域のいずれにも存在する。

　このようなＳＮＰと緑内障との関係についても幾つかの研究が行われている。例えば、特許文献２には、緑内障患者と緑内障家族歴を有さない非患者のゲノム(常染色体)上に存在する公知の多型部位を網羅的に解析し、緑内障の発症に関連するＳＮＰｓを見出したと記載されている。また、特許文献３には、緑内障患者において、進行が早い患者と遅い患者のゲノム上に存在する公知の多型部位を網羅的に解析し、緑内障の進行に関連するＳＮＰｓを見出したと記載されている。

　また、特許文献４には、ヒトWDR36ポリペプチドにおける658番目のアスパラギン酸残基を含む657～659番目のアミノ酸残基を欠損するような変異に相当する変異を導入したマウスWDR36ポリペプチドの変異体を発現するトランスジェニックマウスでは、再現良く網膜周辺部に障害が生じるという緑内障を反映する表現型が示されることを見出したと記載されている。さらに、特許文献５には、緑内障患者と緑内障患者でない者（非緑内障患者）のゲノム(なかでも、常染色体)上に存在する公知の多型部位を網羅的に解析し、緑内障に関連するＳＮＰｓを見出したと記載されている。

　また、特許文献６には、いくつかの既知ＳＮＰｓおよび未知ＳＮＰｓが緑内障およびレーベル病を含む視神経症の発症に連関することを明らかにしたと記載されている。さらに、特許文献７には、開放隅角緑内障（open angle glaucoma; ＯＡＧ）患者のゲノムＤＮＡと、健常者のゲノムＤＮＡを対比し、ＰＴＧＩＲの特定のＳＮＰが緑内障の発症と極めて密接に関連していることを見出したと記載されている。

　一方、タンパク質の発現量と緑内障との関係についても幾つかの研究が行われている。これまでに、線維柱帯細胞が産生するグルココルチコイド誘発タンパク質であるＴＩＧＲを特異的に認識する抗体を用いた緑内障の診断法（特許文献８）や、房水中のＴＧＦ－βの定量が記載されている（非特許文献２）。

　また、特許文献９には、緑内障患者と他の眼疾患患者の血液検体をプロテオーム解析することによって、緑内障患者に特異的に検出される血中タンパク質マーカーを見出したと記載されている。それ以外にも、眼組織を用いたプロテオーム解析により、様々な新規のマーカー候補が報告されている（非特許文献３、非特許文献４）。

特開２００２－３０６１６５号公報国際公開第２００８／１３０００８号国際公開第２００８／１３０００９号特開２０１０－９４１２５号公報特開２０１０－１１５１９４号公報特表２００７－５２９２１８号公報特開２００９－２０１３８５号公報特表平１０－５０９８６６号公報特開２００９－２４４１２５号公報

Rezaie T 他11名、 Science, 2002年, Vol.295, No.5557, p1077-1079 Min SH, Lee TI, Chung YS, Kim HK., Korean J Ophthalmol. 2006 Sep;20(3):162-5. Transforming growth factor-beta levels in human aqueous humor of glaucomatous, diabetic and uveitic eyes. Bhuattacharya SK, Crabb JS, Bonilha VL, Gu X, Takahara H, Crabb JW., Invest Ophthalmol Vis Sci. 2006 Jun;47(6):2508-14. Proteomics implicates peptidyl arginine deiminase 2 and optic nerve citrullination in glaucoma pathogenesis. Tezel G, Tang X, Cai J., Invest Ophthalmol Vis Sci. 2005 Sep;46(9):3177-87. Proteomic identification of oxidatively modified retinal proteins in a chronic pressure-induced rat model of glaucoma.

　しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
　第一に、特許文献１、特許文献４、特許文献７及び非特許文献１に記載の遺伝子のみでは緑内障の遺伝的要因を全て説明することは困難であり、なお未知の緑内障関連遺伝子の存在が予想される。そのため、これらの従来技術では、緑内障の遺伝的要因を説明する上でさらなる改善の余地がある。

　第二に、特許文献２、特許文献３、特許文献５及び特許文献６に記載の従来技術では緑内障の要因としてＳＮＰなどの先天的要因だけを挙げている。しかし、緑内障にはそれ以外にも多くの後天的要因が関係しているため、これらの従来技術では、緑内障の発症及び進行を判定する判定精度の面でさらなる改善の余地がある。

　第三に、特許文献８及び非特許文献２に記載のタンパク質のみでは緑内障のプロテオームレベルの要因を全て説明することは困難であり、なお未知の緑内障関連タンパク質の存在が予想される。そのため、これらの従来技術では、緑内障のプロテオームレベルの要因を説明する上でさらなる改善の余地がある。

　第四に、特許文献９、非特許文献３及び非特許文献４に記載の従来技術では緑内障の要因としてプロテオームレベルの要因だけを挙げている。しかし、緑内障にはそれ以外にも多くの要因が関係しているため、これらの従来技術では、緑内障の発症、進行、予後を判定する判定精度の面でさらなる改善の余地がある。

　本発明は上記事情に鑑みてなされたものであり、各種疾患の発症、感染、進行、予後をはじめとする哺乳動物の生理状態の属性を精度良く判定する技術を提供することを目的とする。

　本発明によれば、哺乳動物の個体の生理状態の属性を判別するための装置が提供される。この装置は、被験個体と同一種の個体からなる母集団から取得された、後述の機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、その個体の生理状態の属性、その個体のゲノムの塩基配列に関する離散データ及びその個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得する学習用データセット取得部を備える。

　また、この装置は、その学習用データセットから、ランダムなリサンプリングを行うことで得られる複数の各々異なるサブ個体群に関するサブデータセットであって、そのサブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む、サブデータセットを抽出するリサンプリング部を備える。

　また、この装置は、その複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、そのサブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得る第一機械学習部を備える。また、この装置は、その複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、そのサブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得る第二機械学習部を備える。

　また、この装置は、その被験個体から取得された、その個体のゲノムの塩基配列に関する離散データ及びその個体の生体内における特定物質の量に関する連続データの組合せを含む、その被験個体に関する前記被験個体に関する離散データと連続データからなる被験者データを取得する被験者データ取得部を備える。また、この装置は、その被験者データをその複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、その被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成する被験データ解析部を備える。

　また、この装置は、その第一判別結果及びその第二判別結果を生理状態の属性毎に統合して、その第一判別結果及びその第二判別結果において最も多く判別された生理状態の属性をその被験個体の生理状態の属性であると統合判定する統合判定部を備える。また、この装置は、その統合判定の結果を出力する出力部を備える。

　この構成によれば、当初得られる学習用データセットの一部を構成する複数の各々異なるサブデータセットを作成した上で、そのサブデータセットを構成する複数個体のゲノムの塩基配列に関する離散データ及びその複数個体の生体内における特定物質の量に関する連続データという異なる観点からのデータを、それぞれ機械学習して得られる２種類の判別器をサブデータセット毎に作成する。そして、複数の異なるサブデータセット毎に２種類の判別器が存在する状態で、別途取得した被験個体に関する被験者データをこれらの２種類の判別器でパターン解析する。その結果、別途取得した被験個体について複数の異なるサブデータセット毎に２種類の判別結果が得られるので、その２種類の判別結果を複数の異なるサブデータセットに関してそれぞれ小計する。そして、その小計結果を適切な計算式を用いて合算して統合した結果、合算値が最も大きい生理状態の属性を被験個体の生理状態の属性であると統合判定する。そのため、この装置によれば、哺乳動物の生理状態の属性を精度良く判定することができる。

　本発明によれば、哺乳動物の個体の生理状態の属性を判別するための方法が提供される。この方法は、被験個体と同一種の個体からなる母集団から取得された、後述の機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、その個体の生理状態の属性、その個体のゲノムの塩基配列に関する離散データ及びその個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得するステップを含む。

　また、この方法は、その学習用データセットから、ランダムなリサンプリングを行うことで得られる複数の各々異なるサブ個体群に関するサブデータセットであって、そのサブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む、サブデータセットを抽出するステップを含む。

　また、この方法は、その複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、そのサブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得るステップを含む。また、この方法は、その複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、そのサブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得るステップを含む。

　また、この方法は、その被験個体から取得された、その個体のゲノムの塩基配列に関する離散データ及びその個体の生体内における特定物質の量に関する連続データの組合せを含む、その被験個体に関する被験者データを取得するステップを含む。また、この方法は、その被験者データをその複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、その被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成するステップを含む。

　また、この方法は、その第一判別結果及びその第二判別結果を生理状態の属性毎に統合して、その第一判別結果及びその第二判別結果において最も多く判別された生理状態の属性をその被験個体の生理状態の属性であると統合判定するステップを含む。また、この方法は、その統合判定の結果を出力するステップを含む。

　この方法によれば、当初得られる学習用データセットの一部を構成する複数の各々異なるサブデータセットを作成した上で、そのサブデータセットを構成する複数個体のゲノムの塩基配列に関する離散データ及びその複数個体の生体内における特定物質の量に関する連続データという異なる観点からのデータを、それぞれ機械学習して得られる２種類の判別器をサブデータセット毎に作成する。そして、複数の異なるサブデータセット毎に２種類の判別器が存在する状態で、別途取得した被験個体に関する被験者データをこれらの２種類の判別器でパターン解析する。その結果、別途取得した被験個体について複数の異なるサブデータセット毎に２種類の判別結果が得られるので、その２種類の判別結果を複数の異なるサブデータセットに関してそれぞれ小計する。そして、その小計結果を適切な計算式を用いて合算して統合した結果、合算値が最も大きい生理状態の属性を被験個体の生理状態の属性であると統合判定する。そのため、この方法によれば、哺乳動物の生理状態の属性を精度良く判定することができる。

　本発明によれば、上記の方法に用いる判別器を生成する装置が提供される。この装置は、被験個体と同一種の個体からなる母集団から取得された、後述の機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、その個体の生理状態の属性、その個体のゲノムの塩基配列に関する離散データ及びその個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得する学習用データセット取得部を備える。

　また、この装置は、その複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、そのサブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得る第一機械学習部を備える。また、この装置は、その複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、そのサブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得る第二機械学習部を備える。また、この装置は、その第一の判別器及び第二の判別器を出力する出力部を備える。

　この装置によれば、当初得られる学習用データセットの一部を構成する複数の各々異なるサブデータセットを作成した上で、そのサブデータセットを構成する複数個体のゲノムの塩基配列に関する離散データ及びその複数個体の生体内における特定物質の量に関する連続データという異なる観点からのデータを、それぞれ機械学習して得られる２種類の判別器をサブデータセット毎に作成する。そのため、上記の方法で哺乳動物の生理状態の属性を精度良く判定できる２種類の判別器のセットを得ることができる。

　また、本発明によれば、哺乳動物の個体の生理状態の属性を判別するための装置が別途提供される。この装置は、上記の装置によって生成されるその第一の判別器及び第二の判別器を取得する判別器パラメーター取得部を備える。

　この装置によれば、上記の装置によって生成される２種類の判別器を取得して、被験個体に関する被験者データをこれらの２種類の判別器でパターン解析する。その結果、この被験個体について複数の異なるサブデータセット毎に２種類の判別結果が得られるので、その２種類の判別結果を複数の異なるサブデータセットに関してそれぞれ小計する。そして、その小計結果を適切な計算式を用いて合算して統合した結果、合算値が最も大きい生理状態の属性を被験個体の生理状態の属性であると統合判定する。そのため、この装置によれば、哺乳動物の生理状態の属性を精度良く判定することができる。

　なお、上記の装置及び方法は本発明の一態様であり、本発明の装置及び方法は、以上の構成要素の任意の組合せであってもよい。また、本発明のシステム、コンピュータプログラム、記録媒体なども、同様の構成を有する。

　本発明によれば、哺乳動物の生理状態の属性を精度良く判定することができる。

本実施形態に係る生理状態判別装置の概要を説明する概念図である。本実施形態に係る生理状態判別装置の概要を説明する概念図である。本実施形態に係る生理状態判別装置のデータの入出力を説明する概念図である。本実施形態に係る生理状態判別装置の構成を説明するための機能ブロック図である。本実施形態の生理状態判別装置において、基本的な統計解析結果よりＳＮＰを選択する方法について説明するための概念図である。本実施形態の生理状態判別装置において、ジェノタイプデータを各種解析に使用可能な数値に変換する方法及び正規化に用いる数式の詳細について説明するための概念図である。本実施形態の生理状態判別装置において、ジェノタイプデータを各種解析に使用可能な数値に変換する方法及び正規化に用いる数式の詳細について説明するための概念図である。本実施形態の生理状態判別装置の学習用データセット取得部の構成について説明するための機能ブロック図である。本実施形態の生理状態判別装置のリサンプリング部の構成について説明するための機能ブロック図である。本実施形態の生理状態判別装置で用いる主成分分析の原理を説明するビジュアルデータである。本実施形態の生理状態判別装置で用いる主成分分析の原理を説明するビジュアルデータである。本実施形態の生理状態判別装置で用いる主成分分析によるジェノタイプデータの解析例を説明するビジュアルデータである。本実施形態の生理状態判別装置で用いる判別分析の原理を説明する概念図である。本実施形態の生理状態判別装置で用いる判別分析によるジェノタイプデータの解析例を説明するビジュアルデータである。本実施形態の生理状態判別装置で用いるＳＶＭの原理を説明する概念図である。本実施形態の生理状態判別装置で用いるＳＶＭによるジェノタイプデータの解析例を説明するビジュアルデータである。本実施形態の生理状態判別装置の第一機械学習部の構成を説明する機能ブロック図である。本実施形態の生理状態判別装置で用いるサイトカインデータについて説明するための概念図である。本実施形態の生理状態判別装置で用いるサイトカインデータについて説明するための概念図である。本実施形態の生理状態判別装置で用いるサイトカインデータについて説明するための概念図である。本実施形態の生理状態判別装置で用いる主成分分析によるサイトカインデータの解析例を説明するビジュアルデータである。本実施形態の生理状態判別装置で用いる判別分析によるサイトカインデータの解析例を説明するビジュアルデータである。本実施形態の生理状態判別装置で用いるＳＶＭによるサイトカインデータの解析例を説明するビジュアルデータである。本実施形態の生理状態判別装置の第二機械学習部の構成を説明する機能ブロック図である。本実施形態の生理状態判別装置の被験者データ取得部の構成を説明する機能ブロック図である。本実施形態の生理状態判別装置の統合判定部の機能を説明する概念図である。本実施形態の生理状態判別装置の統合判定部によるジェノタイプデータ及びサイトカインデータの統合結果を説明するビジュアルデータである。本実施形態の生理状態判別装置の統合判定部によるジェノタイプデータ及びサイトカインデータの統合結果を説明するビジュアルデータである。本実施形態の生理状態判別装置の被験データ解析部の構成を説明する機能ブロック図である。本実施形態の生理状態判別装置の統合判定部の構成を説明する機能ブロック図である。本実施形態の生理状態判別装置の出力部の構成を説明する機能ブロック図である。本実施形態の生理状態判別装置のジェノタイプデータの解析動作を説明するフローチャートである。本実施形態の生理状態判別装置のサイトカインデータの解析動作を説明するフローチャートである。本実施形態の生理状態判別装置の被験データの解析動作を説明するフローチャートである。本実施形態の変形例を説明するための機能ブロック図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

　＜生理状態判別装置の原理＞
　図１は、本実施形態に係る生理状態判別装置の概要を説明する概念図である。この生理状態判別装置を用いるには、まず、緑内障患者及び健常者などの複数の個体を含む個体群から取得された学習用データセットが用意される。なお、この学習用データセットには、各個体の（緑内障の発症、進行、予後などの）生理状態の属性、各個体の（ＳＮＰｓのアレル（アリルともいう）数により構成されるジェノタイプなどの）ゲノムの塩基配列に関する離散データ及び各個体の生体内における（血中サイトカイン濃度などの）特定物質の量に関する連続データの組合せが含まれている。次に、この学習用データセットからリサンプリングされた複数のサブデータセットを用意する。

　次に、これらの複数のサブデータセットを、それぞれ第一機械学習部及び第二機械学習部に入力して、主成分分析、判別分析またはＳＶＭ（サポートベクターマシン）などのような機械学習を行う。なお、第一機械学習部では、各個体のゲノムの塩基配列に関する離散データ及び生理状態の属性の関係について機械学習を行い、第二機械学習部では、各個体の生体内における特定物質の量及び生理状態の属性の関係について機械学習を行う。そしてこれらに関する連続データこれらの機械学習をＮ回（入力されたサブデータセットの数に相当する）繰り返して、それぞれＮ個の第一判別器及びＮ個の第二判別器を得る。

　図２は、本施形態に係る生理状態判別装置の概要を説明する概念図である。なお、図２には、Ｎという変数と一緒に具体的な数値例が記載されているが、特にこれらの数値例に限定する趣旨ではない。図１での説明に続いて、（病院を訪れた緑内障の発症が疑われる患者などの）生理状態の属性が未知の被験個体に関する被験者データが用意される。なお、この被験者データには、被験個体から取得された、個体の（ＳＮＰｓのアレル数などの）ゲノムの塩基配列に関する離散データ及び個体の生体内における（血中サイトカイン濃度などの）特定物質の量に関する連続データの組合せが含まれる。

　次いで、この被験者データは、図１で説明した機械学習の結果得られるＮ個の第一判別器及びＮ個の第二判別器によって解析され、それぞれＮ個の第一判別結果及び第二判別結果が得られる。これらの判別結果は、生理状態（緑内障の発症、進行、予後など）の属性（発症／健常、進行形／非進行形、予後良好／予後不良など）を判別するものである。続いて、これらの判別結果は生理状態の属性ごとに小計される。そして、これらの小計結果が、生理状態の属性ごとに統合されて統合結果が算出される。この統合結果において、最も判定数の多い生理状態の属性（例えば緑内障が発症している状態）が被験個体の生理状態の属性であると判定される。その結果、もしも緑内障が発症している状態であると判定された場合には、その判定結果を見たオペレーターは、被験者に対して専門の眼科医の確定診断を受けるように助言することができる。ここで、生理状態の属性のうち「進行型」「非進行型」の定義には、以下の内容が含まれる。進行型：ある疾患に罹患した個体のうち、特にその疾患の進行が早いもの。非進行型：ある疾患に罹患した個体のうち、進行型でないもの。なお、生理状態の属性は、上記に列挙した形以外にもあり得ることは言うまでもなく、例えば進行形／健常型などの形もあり得る。

　本実施形態に係る生理状態判別装置では、学習用データセットを構築するにあたって、各個体のゲノムの塩基配列に関する離散データとしては、緑内障に関係するＳＮＰｓを搭載したカスタムＤＮＡチップである緑内障診断チップによる解析結果などが好適に用いられる。また、各個体の生体内における特定物質の量に関する連続データとしては、血中サイトカインの網羅的測定法のよる解析結果などが好適に用いられる。このように、本施形態に係る生理状態判別装置は、緑内障の発症、進行、予後などの予測診断において好適に用いられる。

　なお、上記の離散データを取得するための緑内障診断チップの開発にあたっては、本発明者らが原発開放隅角緑内障（広義）について全ゲノム相関解析による候補ＳＮＰｓの取得をした上で、カスタムチップによる最適ＳＮＰｓの選定、ＬＤブロックによる領域の規定を行って、疾患関連遺伝子の同定を行っている（"Three susceptible loci associated with primary open-angle glaucoma identified by genome-wide association study in a Japanese population", Masakazu Nakano et. al, 12838-12842, PNAS, August 4, 2009, vol. 106, no. 31）。また、同様に本発明者らは、原発開放隅角緑内障（広義）について全ゲノム相関解析による候補ＳＮＰｓの取得をした上で、そのＳＮＰｓ解析のノウハウを活用して他の眼疾患についても全ゲノム／候補遺伝子相関解析を行っている。そして、本発明者らは、これらの研究成果を活かして上記の緑内障診断チップの開発に成功している。そのため、この緑内障診断チップを用いることによって、本施形態に係る生理状態判別装置は、緑内障の発症、進行、予後などの予測診断において好適に活用される。

　一方、上記の連続データを取得するために、本発明者らは、同時に多数のサイトカインを測定できる変形プロテオミクス手法であるサイトメトリック・ビーズ・アレイ（ＣＢＡ）を用いて、各種サイトカインの濃度を精度良く測定できる技術を習得している。具体的には、後述する２９種類のサイトカインの中から選ばれる複数のサイトカインの濃度を測定して上記の連続データとして活用することによって、本施形態に係る生理状態判別装置は、緑内障の発症、進行、予後などの予測診断において好適に活用される。

　すなわち、本発明者らは、ＤＮＡチップで得たジェノタイプデータと、変形プロテオミクスで得た血中サイトカインデータを統合して、緑内障の発症、進行、予後などの予測診断を行うアルゴリズムを開発した。また、本発明者らは、このアルゴリズムの検討段階において、既存の各種統計解析、機械学習など（主成分分析、判別分析、ＳＶＭなど）を幅広く適用し、有用な手法の選別、データ特性の把握を行った。その後、本発明者らは、ジェノタイプデータ、サイトカインデータそれぞれで有効な解析手法を検討し、各々の結果を最終的に統合して、全体的な診断精度の向上の可能性を検討した。

　＜全体構成＞
　図３は、本実施形態に係る生理状態判別装置１０００のデータの入出力を説明する概念図である。この図に示すように、生理状態判別装置１０００は、学習用データセット及び被験者データの入力を受けて、統合判定の結果を出力する構成になっている。生理状態判別装置１０００がこのような動作をすることができるのは、下記に示すような特有の構成をとっているからである。

　図４は、本実施形態に係る生理状態判別装置１０００の構成を説明するための機能ブロック図である。生理状態判別装置１０００は、ヒトをはじめとする哺乳動物の個体の緑内障の発症、進行、予後などの生理状態の属性を判別するための装置である。

　生理状態判別装置１０００は、被験個体と同一種の個体からなる母集団から取得された、後述の機械学習に用いられる複数の個体からなる個体群に関する学習用データセットを取得する学習用データセット取得部１０２を備える。この母集団デートセットは、個体の生理状態の属性、個体のゲノムの塩基配列に関する離散データ及び個体の生体内における特定物質の量に関する連続データの組合せを含む。

　また、生理状態判別装置１０００は、上記の学習用データセットから、個体群の一部を構成する複数の各々異なるサブ個体群に関するサブデータセットを抽出するリサンプリング部１０６を備える。なお、このサブデータセットは、サブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む。

　また、生理状態判別装置１０００は、上記の複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習する第一機械学習部１０８を備える。この第一機械学習部１０８は、複数のサブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得るように構成されている。

　同様に、生理状態判別装置１０００は、上記の複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習する第二機械学習部１１０を備える。この第二機械学習部１１０は、複数のサブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得ることができるように構成されている。

　また、生理状態判別装置１０００は、被験個体に関する離散データと連続データからなる被験者データを取得する被験データセット取得部１０４を備える。この被験者データは、個体のゲノムの塩基配列に関する離散データ及び個体の生体内における特定物質の量に関する連続データの組合せを含む。被験データセット取得部１０４によって取得された被験者データは、後述する被験データ解析部１１２に送られる。

　また、生理状態判別装置１０００は、上記の被験者データを複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析する被験データ解析部１１２を備える。この被験データ解析部１１２は、被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成するように構成されている。

　また、生理状態判別装置１０００は、上記の第一判別結果及び第二判別結果を生理状態の属性毎に統合して、第一判別結果及び第二判別結果において最も多く判別された生理状態の属性を被験個体の生理状態の属性であると統合判定する統合判定部１１４を備える。そして、生理状態判別装置１０００は、上記の統合判定の結果を出力する出力部１１６を備える。

　また、生理状態判別装置１０００には、液晶ディスプレイなどの画像表示部１２２及びキーボード・マウスなどの操作部１２４が設けられている。そのため、生理状態判別装置１０００の操作者は、画像表示部１２２に表示される画像データを参照しながら、生理状態判別装置１０００に各種データまたは命令を入力することができる。

　また、生理状態判別装置１０００には、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなどのネットワーク１１８を介してファイルサーバなどのサーバ１２６及びＤＮＡシークエンサー、ＤＮＡチップ、ＰＣＲ、抗体チップ又はフローサイトメトリーなどの測定装置１２８が接続されている。そのため、生理状態判別装置１０００は、学習用データセット及び被験者データをサーバ１２６から読み出してくることもできるし、測定装置１２８の測定結果として直接読み込むこともできる。

　また、生理状態判別装置１０００には、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなどのネットワーク１１８を介して液晶ディスプレイなどの画像表示部１３０、レーザプリンタ又はインクジェットプリンタなどのプリンタ１３２、ファイルサーバなどのサーバ１３４が接続されている。そのため、生理状態判別装置１０００は、上記の統合判定の結果を出力部１１６から出力して、画像データとして画像表示部１３０に表示させることもできるし、画像データとしてプリンタ１３２で印刷することもできるし、各種形式のデータとしてサーバ１３４に格納することもできる。

　生理状態判別装置１０００は、上記のような特有の構成を有しているため、学習用データセット取得部１０２を介して得られる学習用データセットの一部を構成する複数の各々異なるサブデータセットをリサンプリング部１０６で作成することができる。そして、生理状態判別装置１０００は、そのサブデータセットを構成する複数個体のゲノムの塩基配列に関する離散データ及びその複数個体の生体内における特定物質の量に関する連続データという異なる観点からのデータを、それぞれ第一機械学習部１０８及び第二機械学習部１１０によって機械学習して得られる２種類の判別器をサブデータセット毎に作成することができる。

　さらに、生理状態判別装置１０００は、複数の異なるサブデータセット毎に２種類の判別器が存在する状態で、別途被験データセット取得部１０４を介して取得した被験個体に関する被験者データをこれらの２種類の判別器を用いて被験データ解析部１１２においてパターン解析することができる。その結果、別途取得した被験個体について複数の異なるサブデータセット毎に２種類の判別結果が得られるので、その２種類の判別結果を統合判定部１１４において複数の異なるサブデータセットに関してそれぞれ小計する。続いて、その小計結果を統合判定部１１４において適切な計算式を用いて合算して統合した結果、合算値が最も大きい生理状態の属性を統合判定部１１４において被験個体の生理状態の属性であると統合判定する。

　そして、生理状態判別装置１０００は、その統合判定結果を出力部１１６から出力する。そのため、生理状態判別装置１０００によれば、ヒトをはじめとする哺乳動物の緑内障の発症、進行、予後などの生理状態の属性を精度良く判定することができる。

　＜離散データ＞
　図５は、本実施形態の生理状態判別装置で用いるジェノタイプデータについて説明するための概念図である。この図でも示すように、本実施形態の生理状態判別装置で用いるジェノタイプデータ（個体のゲノムの塩基配列に関する離散データ）としては、遺伝子多型又はバリアントに関するデータを用いている。なぜなら、後述する実施例で示すように、緑内障の発症、進行、予後などの生理状態の属性を判別する際に、その生理状態の属性に関連している遺伝子多型を網羅的に検査してジェノタイプデータとして用いることによって、生理状態の属性の判別精度が向上するためである。なお、本明細書において「遺伝子多型」とは、人口の１％以上の頻度で存在する遺伝子の変異を言う。一方、「バリアント」とは、人口の１％未満の頻度で存在する遺伝子の変異を言う。遺伝子多型又はバリアントを生じる原因としては、例えば、種内に生じる各種の突然変異、すなわち塩基がほかの塩基に置き換わる"置換"、塩基が失われる"欠失"、塩基が入る"挿入"や"重複"及び遺伝的組換えなどが含まれる。遺伝子多型の中でも、ひとつの塩基が他の塩基に置き換わっているＳＮＰが遺伝的背景の個別化マーカーとして有用視されている。

　また、このジェノタイプデータは、ＳＮＰに関するデータである。なぜなら、後述する実施例で示すように、緑内障の発症、進行、予後などの生理状態の属性に関連する哺乳動物の遺伝子多型の中で、最も効率的かつ効果的に使用できる多型がＳＮＰであるため、ＳＮＰを網羅的に検査してジェノタイプデータとして用いることによって、生理状態の属性の判別精度がさらに向上するためである。

　具体的には、本実施形態では、ジェノタイプデータの第一段階目の解析として、Ａｆｆｙｍｅｔｒｉｘ社のＧｅｎｅＣｈｉｐ（Ｒ）　Ｈｕｍａｎ　Ｍａｐｐｉｎｇ　５００Ｋ　Ａｒｒａｙチップ（Ａｆｆｙ５００ｋ）を用いたゲノム解析を行っている。そして、この第一段階で有意だったＳＮＰｓを中心とした編成で、ｉｌｌｕｍｉｎａ社のｉＳｅｌｅｃｔ（ＴＭ）　Ｃｕｓｔｏｍ　Ｉｎｆｉｎｉｕｍ（ＴＭ）　Ｇｅｎｏｔｙｐｉｎｇ　ｓｙｓｔｅｍを用いたカスタムチップ（ｉＳｅｌｅｃｔ）を用いた再現性確認解析を第二段階として行っている。

　具体的には、本実施形態では、Ａｆｆｙ５００ｋの　５００，５６８ＳＮＰｓから、Ｑｕａｌｉｔｙ－ＣｏｎｔｒｏｌでＦｉｌｔｅｒｉｎｇを行って、３３１，８３８ＳＮＰｓに絞り込んだ。そして、Ａｌｌｅｌｅ　Ｆｒｅｑｕｅｎｃｙ・カイ二乗検定で　Ｐ＜０．００１のものを抽出して２５５ＳＮＰｓに絞り込んだ。続いて、これらのうちでｉＳｅｌｅｃｔに搭載成功した２２３ＳＮＰｓから、Ｑｕａｌｉｔｙ－ＣｏｎｔｒｏｌでＦｉｌｔｅｒｉｎｇを行って、２１６ＳＮＰｓに絞り込んだ。さらに、Ｃｏｃｈｒａｎ－Ｍａｎｔｅｌ－Ｈａｅｎｓｚｅｌ　ｃｈｉ－ｓｑｕａｒｅ　ｔｅｓｔでＰ値＜０．０１かつＨｅｔｅｒｏｇｅｎｅｉｔｙ　（Ｃｏｃｈｒａｎ's　Ｑ）ｃｈｉ－ｓｑｕａｒｅ　ｔｅｓｔでＰ値≧０．０５のものを抽出して４０ＳＮＰｓに絞り込んだ。そして、連鎖不平衡解析用ソフトウェアであるＨａｐｌｏｖｉｅｗ４．１で　Ｄ'＞０．９のＳＮＰｓを同一ＬＤのものとして除外して、最終的に２９ＳＮＰｓを解析対象として選択した。

　図６は、本実施形態の生理状態判別装置で用いるジェノタイプデータの数値化について説明するための概念図である。この図でも示すように、本実施形態の生理状態判別装置で用いるジェノタイプデータは、上記の遺伝子多型又はＳＮＰのアレル頻度に基づいて個体毎に正規化してあるデータである。なお、この標準化手法は、図６に詳しく示すように、Price, et al ：Nat Genet. 2006 Aug;38(8):904-9 を参考にした手法である。また、この正規化の際に欠損値の補正も行うことができる。このように、遺伝子多型又はＳＮＰのアレル頻度を算出して、各アレルの出現頻度を数値化することによって、その個体のゲノムにおけるＳＮＰｓのパターンがどの程度一般的なパターンから乖離しているか定量的に評価することが可能だからである。

　また、このジェノタイプデータは、ＤＮＡシークエンサー（サンガー法（１９８０年ノーベル化学賞）に基づく従来型のＤＮＡシークエンサー及びサンガー法とはまったく原理の異なるシークエンス技術に基づく次世代シークエンサーを含む）、ＤＮＡマイクロアレイ（ＤＮＡチップを含む）又はＰＣＲ法をはじめとした核酸増幅法（例えば、ＴａｑＭａｎ　ＰＣＲ法、ＲＦＬＰなど）を含む分子生物学的手法による解析結果に由来するデータである。上記の遺伝子多型又はＳＮＰをゲノムワイドに網羅的に検査しようとすると、これらの測定装置を用いて検査することが効率・精度・費用の面で有利だからである。なお、これらの測定装置から得られた解析結果は、直接生理状態判別装置１０００に読み込まれても良いし、一旦サーバ又は記憶媒体などに格納された後に生理状態判別装置１０００に読み込まれても良い。もっとも、多数の個体のジェノタイプデータを蓄積して整理した上で活用するためには、一旦サーバ又は記憶媒体などに格納しておくことが好ましい。

　すなわち、このジェノタイプデータの解析においては、上記のような形でジェノタイプデータを取得して、まず基本的な統計解析結果より適切なＳＮＰｓを選択する。そして、得られたジェノタイプデータを数値化し、（検体数）×（ＳＮＰ数）の行列を作成する。続いて、数値化したジェノタイプデータ行列に各種解析（主成分分析、判別分析、ＳＶＭなど）を行う。なお、詳しくは後述の説明を参照されたい。

　＜学習用データセット取得部＞
　図７は、本実施形態の生理状態判別装置１０００の学習用データセット取得部１０２の構成について説明するための機能ブロック図である。この図でも示すように、学習用データセット取得部１０２には、ジェノタイプデータを数値データに変換するジェノタイプデータ数値化部８０２が設けられている。このジェノタイプデータ数値化部８０２には、取得したジェノタイプデータをあらかじめ設定された数値に変換する数値変換部８０４が設けられている。

　この数値変換部８０４は、リスクアレルデータ記憶部８０６に接続されている。また、このリスクアレルデータ記憶部８０６には、リスクアレル及び非リスクアレルの関連情報を含むリスクアレルデータベースが格納されている。そして、この数値変換部８０４は、ジェノタイプデータ及びリスクアレルデータベースを参照して、例えばジェノタイプデータに含まれる所定のアレルにおいて、リスクアレルがホモの場合には数値２を付与し、リスクアレルがヘテロの場合には数値１を付与し、非リスクアレルがホモの場合には数値０を付与する。なお、この場合、欠損値の補正については、既に図６で説明した正規化の手法で対応することができる。

　また、学習用データセット取得部１０２には、学習用データセットに含まれるジェノタイプデータにおける各アレルの出現頻度を算出するアレル頻度算出部８０８が設けられている。このアレル頻度算出部８０８は、各ＳＮＰｓにおけるアレル頻度を各アレルの出現頻度合計が１になるように算出し、各ＳＮＰｓでどのアレルが主要アレルであるかを判定する。このようにして算出された各アレルの出現頻度は、アレル頻度記憶部８０７に一旦格納され、外部から必要に応じて参照可能とされる。また、学習用データセット取得部１０２には、学習用データセットに含まれるジェノタイプデータにおける各アレルの出現する平均値を算出する平均値算出部８０９も設けられている。このようにして算出された各アレルの出現の平均値は、平均値記憶部８１１に一旦格納され、外部から必要に応じて参照可能とされる。また、学習用データセット取得部１０２には、アレル頻度算出部８０８の算出したアレル頻度に基づいて数値変換部８０４によって得られた数値データの正規化を行う正規化部８１０が設けられている。ここで、何をもってリスクアレルとみなすかということが問題になるが、例えば、発症群と対照群又は発症群と非発症群間でのアレル頻度の差を参考にしてリスクアレルを決定することができる。そして、アレル頻度は、基本的に解析に用いる学習用データセットの総数が増えるほど精度が上がるので、学習用データセットに何らかの変更・更新・追加等があった場合、アレル頻度の変更に伴う、リスクアレルの変更・更新も可能性としてはある。例えば、０．３と０．７くらいでアレル頻度の差が大きい場合には問題が生じる可能性は少ないが、０．５５と０．４５くらいの小さな差の場合、学習用データセットの更新にともなってリスクアレルが逆転する可能性もある。そのため、アレル頻度算出部８０８は、このような学習用データセットの更新に伴ってリスクアレルの更新が可能となるように構成されている。

　ここで、正規化とは、正規形（比較・演算などの操作のために望ましい性質を持った一定の形のこと）でないものを正規形に変形することを含む。正規化の方法はさまざまなものがあるが、例えば、２乗平均が１になるよう比例変換したり、平均が０、分散が１になるよう線形変換したりすることができる。なお、様々な正規化の方法の中でも、図６に示した形の正規化手法が特に優れている。

　本実施形態の生理状態判別装置１０００で用いるジェノタイプデータは、上記の遺伝子多型又はＳＮＰのアレルを数値変換部８０４で数値変換した上で、アレル頻度算出部８０８で算出したアレル頻度に基づいて正規化部８１０で個体毎に正規化してあるデータであることが好ましい。なぜならば、遺伝子多型又はＳＮＰのアレル頻度を算出して、各アレルの出現頻度を数値化することによって、その個体のゲノムにおけるＳＮＰｓのパターンがどの程度一般的なパターンから乖離しているか定量的に評価することが可能だからである。

　また、この図でも示すように、学習用データセット取得部１０２には、サイトカインデータを標準化データに変換するサイトカインデータ標準化部８１２が設けられている。このサイトカインデータ標準化部８１２には、サイトカインデータから対照群データ（例えば健常者データ）を抽出する対照群データ抽出部８１４が設けられている。

　この対照群データ抽出部８１４は、サイトカインの種類毎に血中サイトカイン濃度をＬｏｇ変換するＬｏｇ変換部８１６に接続されている。このＬｏｇ変換部８１６は、各サイトカインの対照群のみのデータに対して、元の値とＬｏｇ変換を行った値の２種類を用意する。また、この対照群データ抽出部８１４及びＬｏｇ変換部８１６には、元の値及びＬｏｇ値の正規性を検定して正規分布に近い方の値を採用する正規性検定部８１８が接続されている。この正規性検定部８１８は、元の値とＬｏｇ変換値の各々に正規性の検定を行い、各サイトカインのｐ値を参考に、どちらの値を使用するかを各々決定する。

　ここで、正規性検定部８１８における正規性の検定としては、正規分布曲線と比較する方法や、尖度・歪度で評価する方法などを好適に用いることができる。このような正規性の検定方法としては、例えば、歪度による検定、尖度による検定、歪度と尖度による検定、コルモゴロフ・スミルノフ検定などを用いることができる。

　そして、この正規性検定部８１８には、サイトカインごとに、元の値又はＬｏｇ変換値の対照群のみのデータで平均値、標準偏差を算出して、各サイトカインの全検体の値に対し、次式で標準化を行う標準化部８２０が接続されている。

　標準化変換値＝（元の値又はＬｏｇ変換値－対照群の平均値）／（対照群の標準偏差）

　本実施形態の生理状態判別装置１０００で用いるサイトカインデータは、ＣＢＡなどの同時に多数のサイトカインを測定できる手法を用いて取得することが好ましいが、この場合には測定項目の組合せにより、若干値の傾向が変わる場合がある。また、ＣＢＡなどの手法では、測定の度に改めてスタンダードカーブを設定し直すため、取り得る値の範囲も変わってしまう場合がある。そのため、例え同一のサイトカインであったとしても、このような測定で得られた各濃度値同士を、実験日や実験条件の異なるものの間で単純比較することは望ましくない。そこで、測定結果の濃度値をそのまま解析に使用するよりも、何らかの安定的に比較できる基準（例えば対照群データ）を使用して標準化を行った方が好ましいため、対照群を基準とした独自の標準化法を採用している。

　ここで、本実施形態の生理状態判別装置１０００では、学習用データセット取得部１０２が、生理状態判別装置１０００の内部又は外部に設けられている個体群に関する学習用データセットを格納する母集団データベースから、学習用データセットを読み出すように構成されていてもよい。例えば、病院などに設置されたサーバ１２６に母集団データベースが格納されていて、学習用データセット取得部１０２がインターネット回線などのネットワーク１１８を介して学習用データセットを読み出してもよい。

　また、この場合、上記の母集団データベースが、被験個体と同一種の新規個体に関する個体の生理状態の属性、個体のゲノムの塩基配列に関する離散データ及び個体の生体内における特定物質の量に関する連続データの組合せが、随時追加更新されるように構成されていてもよい。すなわち、病院などに設置されたサーバ１２６に母集団データベースが格納されていて、病院などで取得されたジェノタイプデータ、サイトカインデータ、確定診断データなどが随時追加更新されるように構成されていてもよい。

　＜リサンプリング＞
　図８は、本実施形態の生理状態判別装置１０００のリサンプリング部１０６の構成について説明するための機能ブロック図である。この図でも示すように、このリサンプリング部１０６には、学習用データセットからサブデータセットをランダムに抽出するランダム抽出部９０２が設けられている。そのため、このリサンプリング部１０６は、多数の個体のデータを含む学習用データセットから一部の個体のデータを含むサブデータセットをランダムに多数生成することができる。その結果、多数のランダムなサブデータセットを用いて後述する第一機械学習部１０８及び第二機械学習部１１０による学習を行うことができるためこれらの機械学習の精度が向上する。なお、このリサンプリング部１０６は、ランダムなサブデータセットの生成を行った場合、低い確率で同じサブデータセットが生成される場合があるので、その場合には同じサブデータセットの重複を排除するように構成されていてもよい。

　また、このリサンプリング部１０６には、ランダム抽出部９０２による抽出処理が学習用データセットのサイズに応じて予め設定しておいた所定回数（例えば１０回、２０回、３０回、５０回、１００回など）繰り返されるように制御する抽出カウンタ９０４が設けられている。すなわち、このリサンプリング部１０６は、統計的な観点から見て第一機械学習部１０８及び第二機械学習部１１０による機械学習の精度を向上させるために好ましい回数を最初から何回と決めておくわけではなく、入力する学習用データセットのサイズに応じて予め適切な回数を設定しておくように構成されている。また、この抽出カウンタ９０４は、後述するテストサンプルデータによる判別精度が所定の閾値以上となった場合にランダム抽出部９０２による抽出処理を終了させる（ただし、所定の閾値に到達できない場合には所定の最大抽出回数で終了させる）ように構成されていても良い。また、このリサンプリング部１０６では、リサンプリングを行う回数だけでなく、リサンプリングされる検体数もあらかじめ設定しておくことが可能である。その際、学習用データセットのサイズに応じて予め設定しておいた所定検体数（例えば１０検体、２０検体、３０検体、５０検体、１００検体など）が抽出されるように制御するように設定しておくことが可能である。すなわち、このように抽出回数及び抽出検体数を制御することによって、例えば１００検体から５０検体ずつを２０回リサンプリングするような任意のリサンプリング処理が可能になる。

　また、このリサンプリング部１０６には、テストサンプルデータを抽出するためのテストサンプル抽出部９０６が設けられている。このテストサンプルデータは、後述する第一判別器及び／又は第二判別器による生理状態の属性の判別精度を検証するために用いられるものである。そのため、このテストサンプル抽出部９０６によって、後述する第一判別器及び／又は第二判別器による生理状態の属性の判別精度を検証することができる。その結果、第一判別器及び／又は第二判別器で用いる後述の分析エンジンの中でも主成分分析エンジン、判別分析エンジン、ＳＶＭエンジンなどのうちどれが最適な分析エンジンであるか選定することができる。また、このテストサンプル抽出部９０６で生成されるテストサンプルデータを用いて、第一判別結果及び第二判別結果における小計結果に適用する重みパラメーターの最適化を行うことが可能である。なお、このテストサンプル抽出部９０６によって抽出されるテストサンプルデータは、ランダム抽出部９０２により第一機械学習部１０８及び第二機械学習部１１０による学習用に生成されたサブデータセットに含まれる全てのサンプルをテストサンプルデータとして抽出しても構わない。

　ここで、本実施形態の生理状態判別装置１０００では、緑内障などのヒトの疾患についての生理状態の属性の判別を行おうとすると、一般的に個体のゲノムの塩基配列に関する離散データ及び個体の生体内における特定物質の量に関する連続データが揃っている検体は多くは集まらないため、限られたデータ数で診断能力を向上させねばらないという課題が存在する。そこで、本実施形態の生理状態判別装置１０００では、リサンプリング部１０６でリサンプリングを繰り返してサブデータセットを大量に作成し、それらのサブデータセットを個別に解析して多角的にデータを捉え、判別能力の向上を図っている。

　＜第一機械学習部＞
　図９は、本実施形態の生理状態判別装置で用いる主成分分析の原理を説明するビジュアルデータである。ここで、主成分分析（ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ）とは、複数の変数に対し、その全体の特性を求める分析方法を含む。この主成分分析は、多くの変数により記述された量的データの変数間の相関を排除し、できるだけ少ない情報の損失で、少数個の無相関な合成変数に縮約して、分析を行うことができる。この主成分分析の手法はホテリング（Ｈｏｔｅｌｌｉｎｇ）によって１９３３年頃提案されたものである（金明哲著、「Ｒによるデータサイエンス」ｐ．６６、森北出版より）。主成分分析を行う関数（分析エンジン）には多くの種類が存在するが、例えばＲ言語を実装した統計解析ソフトウェア『Ｒ』で記述された「ｐｒｃｏｍｐ」、「ｐｒｉｎｃｏｍｐ」、並びに『Ｒ』標準の行列計算を利用して「ｅｉｇｅｎ」から直接固有値ベクトルを求める方法、及びＣ言語やＦｏｒｔｒａｎ用の数値計算ライブラリ「ＬＡＰＡＣＫ」を用いた固有値ベクトル計算などを好適に使用できる。主成分分析は、遺伝学の分野では、集団構造化の評価で応用されており、例えば遺伝学における応用例として、検体集団の構造化の評価（民族、地域等が原因のゲノム情報の差異の検出）を行うことができる。具体的には、アフリカ系人種、欧米系人種、アジア系人種からなる集団に対して２つの主成分又は３つの主成分を用いて主成分分析を行うと、図９に示すように３つに分かれる。

　図１０は、本実施形態の生理状態判別装置で用いる主成分分析によるジェノタイプデータの解析例を説明するビジュアルデータである。この図では、発症例判別用途への主成分分析の応用の検討例が示されている。すなわち、緑内障の発症群、非発症群の検体集団間で有意差のあるＳＮＰｓを用いて主成分分析を実施した場合の２次元散布図及び３次元分布図を示している。なお、この図では、分析結果が、発症群：○、非発症群：＋として示されている。

　図１１は、本実施形態の生理状態判別装置で用いる判別分析の原理を説明する概念図である。ここで、判別分析（Ｄｉｓｃｒｉｍｉｎａｎｔ　Ａｎａｌｙｓｉｓ）とは、事前に分かれることが明白なデータ群について分かれる基準を学習し、新たに与えられたデータに対して学習した基準で判別する分析方法を含む。この判別分析の境界線の求め方には、線形判別器と非線型判別器（マハラノビス距離を用いる関数など）の２種類がある。判別分析を行う関数（分析エンジン）には多くの種類が存在するが、例えば『Ｒ』で記述された「ＭＡＳＳ」内に用意されている「ｌｄａ」、「ｑｄａ」、同じくライブラリ「ｓｔａｔｓ」内に用意されている「ｍａｈａｌａｎｏｂｉｓ」などを好適に使用できる。

　図１２は、本実施形態の生理状態判別装置で用いる判別分析によるジェノタイプデータの解析例を説明するビジュアルデータである。この図では、発症例判別用途への判別分析の応用検討例を示している。すなわち、緑内障の発症群、対照群の各検体について、１段階目としてＡｆｆｙ５００ｋによる測定結果、２段階目としてｉＳｅｌｅｃｔによる測定結果を用意し、１段階目を「学習用データ」として判別関数の作成に用い、２段階目を確認用「テストデータ」として各検体の判別関数値を算出し、その値で症例を判別する。このように判別分析を行うことによって、１段階目のデータ内で判別率９２％（Ｃａｓｅ：発症群、Ｃｏｎｔｒｏｌ：対照群）を持つ判別関数を作成し、２段階目のデータを判別率６７％（Ｃａｓｅ：発症群、Ｃｏｎｔｒｏｌ：対照群）で症例を判別することができる。

　図１３は、本実施形態の生理状態判別装置で用いるＳＶＭの原理を説明する概念図である。ここで、ＳＶＭとは、分類が難しいデータをカーネル関数により分類可能な空間に写像して、各データ間のマージン（距離）を最大化する判別面を算出する分析方法を含む。このＳＶＭによれば、どんなパターンを持つデータに対しても、適切なカーネル関数を用いるように設定することで対応可能になる。ＳＶＭを行う関数（分析エンジン）には多くの種類が存在するが、例えば『Ｒ』で記述された「ｋｅｒｎｌａｂ」内に用意されている「ｋｓｖｍ」を'ｒｂｆｄｏｔ'、'ｐｏｌｙｄｏｔ'、'ｖａｎｉｌｌａｄｏｔ'、'ｔａｎｈｄｏｔ'、'ｌａｐｌａｃｅｄｏｔ'、'ｂｅｓｓｅｌｄｏｔ'、'ａｎｎｏｖａｄｏｔ'、'ｓｐｌｉｎｅｄｏｔ'などのカーネル関数と組み合わせて用いる方法、同じくライブラリ「ｅ１０７１」内に用意されている「ｓｖｍ」を'ｌｉｎｅｒ'、'ｐｏｌｙｎｏｍｉｎａｌ'、'ｒａｄｉａｌ'、'ｓｉｇｍｏｉｄ'などのカーネル関数と組み合わせて用いる方法、及びＣ言語などで用いることができるライブラリ「ＳＶＭ　ｌｉｇｈｔ」、「ＬＩＢＳＶＢ」などを好適に使用できる。

　図１４は、本実施形態の生理状態判別装置で用いるＳＶＭによるジェノタイプデータの解析例を説明するビジュアルデータである。この図では、ＳＶＭによる計算例が示されている。具体的には、Ａｆｆｙ５００ｋの測定結果を学習して、ｉＳｅｌｅｃｔの測定結果をテストサンプルとして用いて推定を行っている。その結果、この場合では、ＳＶＭは各検体のスコアがＣａｓｅ（発症群）で－１、Ｃｏｎｔｒｏｌ（対照群）で＋１付近になる様に学習を行ったので、０より小さいほどＣａｓｅのパターンに近く、０より大きいほどＣｏｎｔｒｏｌのパターンに近くなっている。このように、ＳＶＭを用いれば、第１段階目のデータを用いて分類し難いデータを変換し、最も分類可能な判別境界面を学習することができる。そして、第２段階目のデータを用いてその判別境界面からの距離をスコアとして、その正負で２群を判別することができる。

　図１５は、本実施形態の生理状態判別装置１０００の第一機械学習部１０８の構成を説明する機能ブロック図である。この第一機械学習部１０８には、主成分分析、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭからなる群から選ばれる１種以上の統計解析法を行う第一統計解析部６０２が設けられている。なお、第一統計解析部６０２は、これらの中でも主成分分析、判別分析及びＳＶＭからなる群から選ばれる１種以上の統計解析法を行うことが好ましい。また、この第一機械学習部１０８には、上記の統計解析法を行うための主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）などの各種統計解析エンジンを格納する統計解析エンジン記憶部２０８が設けられている。第一統計解析部６０２は、リサンプルデータ１００個に対して、１００回のＳＶＭを行う。なお、上記の統計解析法の種類数は１種以上に限定されず、２、３、４、５、６、７、８、９、１０、１１種以上であってもよく、１２種すべてを用いてもよく、これらの列挙した２つの数値の範囲内の種類数であっても良い。

　また、この第一機械学習部１０８には、例えば１００回分のＳＶＭ学習結果に基づくテストデータの判別結果の判別精度を検証する第一精度検証部６０６が設けられている。このテストサンプルデータは、リサンプリング部１０６に設けられているテストサンプル抽出部９０６から取得することができる。このように第一精度検証部６０６が設けられていることによって、上記の統計解析法を行うための主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）などのいずれの分析エンジンを用いた場合に最も精度の高い判別ができるかを見極めることができる。

　また、この第一機械学習部１０８には、第一統計解析法選抜部６１４が設けられている。この第一統計解析法選抜部６１４は、第一精度検証部６０６による検証結果に基づいて、主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）からなる群から選ばれる１種以上の統計解析法の中から最も判別精度の高い統計解析法を１種類採用するように構成されている。なお、上記の統計解析法の種類数は１種以上に限定されず、２、３、４、５、６、７、８、９、１０、１１種以上であってもよく、１２種すべてを用いてもよく、これらの列挙した２つの数値の範囲内の種類数であっても良い。

　また、この第一機械学習部１０８には、例えば１００回分のＳＶＭ学習結果による判別器である第一判別器パラメーター生成部６１６が設けられている。この第一判別器パラメーター生成部６１６は、第一統計解析部６０２によって行われた各種の統計解析法の中から第一統計解析法選抜部６１４で選抜された最も判別精度の高い統計解析法を数式化した第一判別器を生成する。こうして複数のサブデータセットごとに得られた複数の第一判別器は、後述する被験データ解析部１１２に送信されて被験データの解析に用いられる。

　＜連続データ＞
　本実施形態の連続データは、後述するように個体の血中サイトカイン濃度に関するデータである。すなわち、この連続データとしては、ＣＢＡによる血中サイトカイン濃度測定の結果が用いられる。すなわち、この血中サイトカイン濃度測定の測定原理は、以下のようなものである。

　このＣＢＡでは、標的となるサイトカイン等の可溶性タンパク質毎に特異的に対応するキャプチャー抗体が表面にコーティングされたビーズを多数使用し、ビーズにキャプチャー抗体毎に異なる蛍光強度を持たせることで、血中のサイトカインの同時多項目測定を可能としている。具体的には、
１．検体から採血した血液を遠心分離して血漿サンプルを得る
２．血漿サンプルとビーズ表面のキャプチャー抗体を反応させる
３．さらにフィコエリスリン色素（ＰＥ）で標識する検出用の各抗体を反応させる
４．フローサイトメーターを用いて、ビーズの蛍光強度により抗原の種類を、検出用抗体を標識しているＰＥの蛍光強度により各抗原量を測定する。

　すなわち、２色の色素を様々な割合でビーズにラベルし、ビーズのポジションを決定することによって、このような測定が可能になっている。ＣＢＡ以外の手法として、サイトカインに特異的に結合する抗体を搭載する抗体チップによって、個体の血液の解析結果に由来するデータを取得して、連続データとして活用することによって解析に必要な連続データを精度・効率よく迅速に取得することができる。また、サイトカインに特異的に結合する抗体のアレイを有する抗体チップによって、個体の血液の解析結果に由来するデータを取得して、連続データとして活用することによっても解析に必要な連続データを同様に精度・効率よく迅速に取得することができる。

　図１６及び図１７は、本実施形態の生理状態判別装置で用いるサイトカインデータについて説明するための概念図である。この図では、サイトカインデータを取得するために用いた検体情報が示されている。すなわち、サイトカインデータを取得するために緑内障の発症群として４２名の検体を用意し、対照群として４２名の検体を用意した。

　そして、これらの検体から採取した血液を用いて、以下の２９種類の血中サイトカイン濃度を測定した。すなわち、ＩＬ－１β、ＩＬ－２、ＩＬ－３、ＩＬ－４、ＩＬ－５、ＩＬ－６、ＩＬ－７、ＩＬ－８、ＩＬ－９、ＩＬ－１０、ＩＬ－１２ｐ７０、ＩＬ－１３、ＭＣＰ－１（ＣＣＬ２）、ＭＩＰ－１α（ＣＣＬ３）、ＭＩＰ－１β（ＣＣＬ４）、ＲＡＮＴＥＳ（ＣＣＬ５）、Ｅｏｔａｘｉｎ（ＣＣＬ１１）、ＭＩＧ（ＣＸＣＬ９）、ｂａｓｉｃ－ＦＧＦ、ＶＥＧＦ、Ｇ－ＣＳＦ、ＧＭ－ＣＳＦ、ＩＦＮ－γ、Ｆａｓ　Ｌｉｇａｎｄ、ＴＮＦ、ＩＰ―１０、アンギオゲニン、ＯＳＭ、ＬＴ－αからなる群から選ばれる１種以上の血中サイトカイン濃度が測定される。すなわち、第一段階として、ＣＢＡを用いて、血漿中のサイトカイン２９項目について濃度を測定した。なお、上記の血中サイトカインの種類数は１種以上に限定されず、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７又は２８種以上であってもよく、２９種すべてを用いてもよく、これらの列挙した２つの数値の範囲内の種類数であっても良い。

　第１段階目の濃度測定の結果、まずは、測定失敗の検体の割合が５％以上のもの（７項目）を除外した。次いで、測定値が０．０の検体の割合が５％以上のもの（１４項目）を除外した。そして、Ｃａｓｅ　ｖｓ　Ｃｏｎｔｒｏｌのｔ検定のｐ値が５％以上のもの（５項目）を除外して、最終的に３項目に絞り込んだ。

　図１８は、本実施形態の生理状態判別装置で用いるサイトカインデータについて説明するための概念図である。すなわち、第１段階の結果、診断に有用と思われる３項目について、再現性確認のために別検体群に対して同様にＣａｓｅ（発症群）７３　ｖｓ　Ｃｏｎｔｒｏｌ（対照群）５２で測定して、統計解析を実施した。

　ただし、これらサイトカインの測定に用いた検体は、全てジェノタイプのＡｆｆｙ５００ｋに用いた検体に含まれている。

　こうして得られたサイトカインデータは、既に図７を用いて説明した学習用データセット取得部１０２のサイトカインデータ標準化部８１２において、対照群のデータを元にした独自のデータ標準化を行われる。そして、解析に使用するサイトカインを選定し、後述する第二機械学習部１１０において、標準化したサイトカインデータにジェノタイプデータと同様の各種解析（主成分分析、判別分析、ＳＶＭ（サポートベクターマシン）、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなど）を行う。なお、詳しくは後述の説明を参照されたい。

　＜第二機械学習部＞
　図１９は、本実施形態の生理状態判別装置で用いる主成分分析によるサイトカインデータの解析例を説明するビジュアルデータである。この図では、図１９で示した血中サイトカイン濃度を測定して、あわせて医師による確定診断による緑内障の有無及び進行状況についての生理状態の属性の分類結果と一緒に主成分分析を行っている。この図は、前述までの第１段階・第２段階の検体データ、発症群　対　対照群、及び３項目のサイトカインに基づいて作成されている。また、３項目のサイトカインで作成していることから、ＰＣ１～ＰＣ３を３次元でプロットすると全ての主成分を見ることができるため、３Ｄプロットにて作成している。この図より、ＰＣ１、ＰＣ２、ＰＣ３の３種類の主成分による分析を行った場合、全体的に対照群のデータが比較的固まっているのに対して、発症群のデータが散らばっているので、緑内障の発症（発症／健常）についての生理状態の属性の判別精度が高いことがわかる。

　図２０及び図２１は、本実施形態の生理状態判別装置で用いる判別分析・ＳＶＭによるサイトカインデータの解析例を説明するビジュアルデータである。図２０及び図２１では、判別分析・ＳＶＭの学習データから抽出したパターンでテストデータを推定した結果を示している。具体的には、判別分析の際には、１ｓｔ　Ｓｔａｇｅのデータで判別関数を作り、２ｎｄ　Ｓｔａｇｅのデータで各検体の判別関数値を算出し、その値で症例を判別する。また、ＳＶＭの際には、１ｓｔ　Ｓｔａｇｅのデータを学習し、２ｎｄ　Ｓｔａｇｅのデータを判別するＳＶＭのパラメーター設定は「グリッドサーチ」により決定する。

　具体的には、判別分析では、１段階目のデータで判別器を作り、２段階目のデータで各検体の判別器値を算出し、その値で症例を判別している。また、ＳＶＭでも、１段階目のデータを学習し、２段階目のデータを判別している。この際、ＳＶＭのパラメーター設定はグリッドサーチにより決定している。このように、本実施形態の生理状態判別装置で血中サイトカイン濃度をはじめとする連続データを機械学習する際には、主成分分析・判別分析・ＳＶＭ及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）のいずれも好適に使用できる。

　図２２は、本実施形態の生理状態判別装置１０００の第二機械学習部１１０の構成を説明する機能ブロック図である。この第二機械学習部１１０には、主成分分析、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭからなる群から選ばれる１種以上の統計解析法を行う第二統計解析部７０２が設けられている。また、この第二機械学習部１１０には、主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）を格納する統計解析エンジン記憶部２０８が設けられている。第二統計解析部７０２は、この統計解析エンジン記憶部２０８から主成分分析エンジン７０８、判別分析エンジン７１０、ＳＶＭエンジン７１２及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）のいずれかの分析エンジンを読み出して複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習する。なお、上記の統計解析法の種類数は１種以上に限定されず、２、３、４、５、６、７、８、９、１０、１１種以上であってもよく、１２種すべてを用いてもよく、これらの列挙した２つの数値の範囲内の種類数であっても良い。

　また、この第二機械学習部１１０には、学習用データセットからランダムに抽出されたテストサンプルデータを、第二判別器を用いてパターン解析して得られるサンプル解析結果の判別精度を検証する第二精度検証部７０６が設けられている。このテストサンプルデータは、リサンプリング部１０６に設けられているテストサンプル抽出部９０６から取得することができる。このように第二精度検証部７０６が設けられていることによって、主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）のいずれの分析エンジンを用いた場合に最も精度の高い判別ができるかを見極めることができる。

　また、この第二機械学習部１１０には、第二統計解析法選抜部７１４が設けられている。この第二統計解析法選抜部７１４は、第二精度検証部７０６による検証結果に基づいて、主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）からなる群から選ばれる１種以上の統計解析法の中から最も判別精度の高い統計解析法を採用するように構成されている。なお、上記の統計解析法の種類数は１種以上に限定されず、２、３、４、５、６、７、８、９、１０、１１種以上であってもよく、１２種すべてを用いてもよく、これらの列挙した２つの数値の範囲内の種類数であっても良い。

　また、この第二機械学習部１１０には、第二判別器パラメーター生成部７１６が設けられている。この第二判別器パラメーター生成部７１６は、第二統計解析部７０２によって行われた各種の統計解析法の中から第二統計解析法選抜部７１４で選抜された最も判別精度の高い統計解析法を数式化した第二判別器を生成する。こうして複数のサブデータセットごとに得られた複数の第二判別器は、後述する被験データ解析部１１２に送信されて被験データの解析に用いられる。

　＜被験者データ取得部＞
　図２３は、本実施形態の生理状態判別装置１０００の被験データセット取得部１０４の構成を説明する機能ブロック図である。被験データセット取得部１０４は、個体の遺伝子多型に関する離散データ及び個体の血中サイトカイン濃度に関する連続データの組合せを含む、被験個体に関する被験者データを取得するように構成されている。

　この被験データセット取得部１０４には、被験者データを学習用データセットと同様の手法で数値化及び／又は正規化するデータ変換部４０１が設けられている。また、このデータ変換部４０１には、取得した被験者データに含まれるジェノタイプデータを数値化及び／又は正規化するジェノタイプデータ変換部４０２が設けられている。このジェノタイプデータ変換部４０２には、学習用データセットにおける数値化及び／又は正規化の手法を学習用データセット取得部１０２から取得する学習用データセット変換式取得部４０４が設けられている。また、このジェノタイプデータ変換部４０２には、このようにして取得された学習用データセットにおける数値化及び／又は正規化の手法を用いて被験者データに含まれるジェノタイプデータを数値化及び／又は正規化する変換部４１０が設けられている。ここで、図７において、学習用データセット取得部１０２中のアレル頻度算出部８０８には、学習用データセットの分布にあわせて正規化を行うために、学習用データセット変換式取得部４０４が必要とするデータ（各ＳＮＰの学習用データセットにおけるアレル頻度情報と平均値の情報）を取得するように構成されている。

　また、このデータ変換部４０１には、取得した被験者データに含まれるサイトカインデータを数値化及び／又は正規化するサイトカインデータ変換部４１２が設けられている。ここで、サイトカイン等の連続値に関しては、標準正規分布上の値として正規化した段階で、学習用データセットの値と同様に各種解析で扱うことができるため、学習用データセットから何らかのデータや変換式を取得する必要がない。すなわち、ＣＢＡでは、その性質上、１検体単位ではなく、少なくとも複数の検体（基本的に数十検体）単位で一度に測定を行う。このため、各測定実験では少なくとも数検体の基準となる対照群のデータが同時に得られるはずなので、これを利用して学習用データセットを使用せずに正規化ができる。従って、サイトカインデータ変換部４１２では、学習用データセットから何も取得する必要が無く、代わりに被験データセット内の対照群データを抽出する被験データセット内の対照群データ抽出部４１４、その対照群の平均値と標準偏差を計算する抽出データ処理部４２０が必要になる。

なお、被験データセット（複数個体）から一度対照群のみを抽出して、標準偏差と平均値を算出し、それをローカルに一時的に記憶する抽出データ記憶部（不図示）を設けてもよい。こうすれば、サイトカインデータ変換部４１２に入力されたある単体の個体に対して、予め記憶してある平均値と標準偏差をロードして正規化することが可能になり、ある被験データセット（複数個体）の全てを正規化する処理には、毎回標準偏差と平均値を算出するプロセスを省略できる。

　また、この一連の流れをさらに拡張して、過去に使用した被験データセットを（倫理面を考慮すれば匿名化の上で）全て記憶しておき、入力された値の範囲に応じて、過去の被験データセットから経験的に算出された正規化用標準偏差及び平均値をロードする形にしてもよい。その場合、例えば、入力されたサイトカインＡの値が５０未満なら正規化パラメーターセットα、５０以上１００未満なら正規化パラメーターセットβを使ってもよい。

　＜被験データ解析部＞
　図２４は、本実施形態の生理状態判別装置１０００の統合判定部１１４の機能を説明する概念図である。上述のとおり、ジェノタイプデータは離散値であり、サイトカインデータは連続値であることなど、異なる数値特性を持つ２種類のデータを単純に足し合わせることは難しい。そこで、本実施形態では、数値の代わりに個々の判別結果を統合して生理状態の属性の判定を行っている。具体的には、バギングの手法を参考に、２つの解析を統合している。すなわち、ステップ１として、ジェノタイプデータを用いてバギングの手法を参考にした処理を行い、ステップ２として、サイトカインデータを用いてバギングの手法を参考にした処理を行い、ステップ３として、ステップ１及びステップ２の各結果を統合し、多数決で最終判定を行った。実際には、下記の条件で実験を行った。

すなわち、ジェノタイプ×５０１回、サイトカイン×５００回、それぞれリサンプリングと学習・推定を行い、２つの学習結果から多数決を用いて判別を行った。ここで、学習データとしては、１ｓｔＳｔａｇｅ（サイトカイン第１段階と同じで、Ａｆｆｙ５００ｋのジェノタイプデータを持っている集団）の緑内障４２検体と健常者４２検体から、同数（それぞれ２０検体ずつ）になるようにランダムに選択した。そして、テストデータとしては、２ｎｄＳｔａｇｅ（サイトカイン第２段階と同じで、Ａｆｆｙ５００ｋのジェノタイプデータを持っている集団）の緑内障７３検体と健常者５２検体をテストデータとして活用した。

図２５は、本実施形態の生理状態判別装置１０００の統合判定部１１４によるジェノタイプデータ及びサイトカインデータの統合結果を説明するビジュアルデータである。この図に示すように、上述のようにジェノタイプ×５０１回、サイトカイン×５００回、それぞれリサンプリングと学習・推定を行い、２つの学習結果から多数決を用いて判別を行った。すなわち、１００１回のリサンプリング判別結果より、多く判定された方を最終的な生理状態の属性として判定した。その結果、ジェノタイプ×５０１回、サイトカイン×５００回の個々の診断率は、両方とも６７．２％であったが、統合後の診断率は７４．４％と明らかに改善していた。

図２６は、本実施形態の生理状態判別装置１０００の統合判定部１１４によるジェノタイプデータ及びサイトカインデータの統合結果を説明するビジュアルデータである。この図に示すように、リサンプリング過程で正しく判別された割合を各々プロットすると、統合した判別率が１００％になる頂点付近が一番プロットの密度が高いことがわかる。すなわち、ジェノタイプ×５０１回、サイトカイン×５００回の個々の判別結果を統合した結果、判別精度が明らかに向上している。

　図２７は、本実施形態の生理状態判別装置１０００の被験データ解析部１１２の構成を説明する機能ブロック図である。この被験データ解析部１１２には、第一機械学習部１０８から第一判別器を取得する第一判別器パラメーター取得部２０２が設けられている。また、この被験データ解析部１１２には、第二機械学習部１１０から第二判別器を取得する第二判別器パラメーター取得部２０４が設けられている。複数の第一判別器及び第二判別器として、主成分分析、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭからなる群から選ばれる１種以上の統計解析法の中から最も判別精度の高い統計解析法を各々用いる最適解析法適用部２０６が設けられている。なお、上記の統計解析法の種類数は１種以上に限定されず、２、３、４、５、６、７、８、９、１０、１１種以上であってもよく、１２種すべてを用いてもよく、これらの列挙した２つの数値の範囲内の種類数であっても良い。

　被験データ解析部１１２には、主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）を格納する統計解析エンジン記憶部２０８が設けられている。最適解析法適用部２０６は、第一判別器パラメーター取得部２０２及び第二判別器パラメーター取得部２０４が取得した第一判別器及び第二判別器を用いて解析するために必要な主成分分析エンジン２１０、判別分析エンジン２１２、ＳＶＭエンジン２１４及びその他のエンジン（因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭなどの解析を行うためのエンジン）のいずれかの分析エンジンを、統計解析エンジン記憶部２０８から読み出して判別器適用部２１８に受け渡す。

　被験データ解析部１１２には、被験データセット取得部１０４で取得されて学習用データセットと同じ手法で数値化・正規化された変換済被験者データを取得する変換済データセット取得部２１６が設けられている。また、被験データ解析部１１２には、複数の各々異なる第一判別器及び第二判別器をいずれも１回以上用いて、被験者データをパターン解析して、被験個体の生理状態の属性の第一判別結果及び第二判別結果を生成する判別器適用部２１８が設けられている。

　このようにして、被験データ解析部１１２では、多数設けられたサブセットデータのいずれについてもジェノタイプデータに基づく第一判別結果及びサイトカインデータに基づく第二判別結果が得られる。これらの多数のサブセットデータのジェノタイプデータに基づく第一判別結果及びサイトカインデータに基づく第二判別結果は、それぞれ第一判別結果生成部２２０及び第二判別結果生成部２２２によって２種類のデータセットにまとめられて後述する統合判定部１１４に受け渡される。

　＜統合判定部＞
　図２８は、本実施形態の生理状態判別装置１０００の統合判定部１１４の構成を説明する機能ブロック図である。この図に示すように、統合判定部１１４には、被験データ解析部１１２からジェノタイプデータに基づく第一判別結果を取得する第一判別結果取得部３０２が設けられている。また、統合判定部１１４には、被験データ解析部１１２からサイトカインデータに基づく第二判別結果を取得する第二判別結果取得部３０４が設けられている。

　そして、統合判定部１１４には、第一判別結果及び第二判別結果において被験データが特定の生理状態の属性と判別された回数を各々小計する小計算出部３０６が設けられている。また、この小計算出部３０６には、ジェノタイプデータに基づく第一判別結果の小計を算出する第一小計算出部３０８が設けられている。また、この小計算出部３０６には、サイトカインデータに基づく第二判別結果の小計を算出する第二小計算出部３１０が設けられている。さらに、この統合判定部１１４には、ジェノタイプデータに基づく第一判別結果及びサイトカインデータに基づく第二判別結果におけるそれぞれの小計結果の合計を生理状態の属性毎に求める合計算出部３１４が設けられている。

　ここで、統合判定部１１４には、ジェノタイプデータに基づく第一判別結果及びサイトカインデータに基づく第二判別結果におけるそれぞれの小計結果に各々所定のパラメーターによる重み付けをした上で合計を求めるための重みパラメーター適用部３１２がさらに設けられている。また、統合判定部１１４には、重みパラメーター適用部３１２に接続する統合パラメーター記憶部３１８が設けられている。

　この統合パラメーター記憶部３１８には、テストサンプルデータによるテスト結果又は過去の判別結果などの判別精度の情報に基づいて、現時点で最適と思われる重みパラメーターを記憶している重みパラメーターデータベース３２０が格納されている。また、この統合パラメーター記憶部３１８には、その重みパラメーターを用いて第一小計算出部３０８及び第二小計算出部３１０の小計結果を統合するための統合計算式を記憶している統合計算式データベース３２２が格納されている。

　さらに、この統合判定部１１４には、学習用データセットからランダムに抽出されたテストサンプルデータを被験データ解析部１１２で処理して得られるサンプル解析結果を取得するテストサンプルデータ取得部が設けられている。そして、この統合判定部１１４には、このようにして得られたサンプル解析結果についてジェノタイプデータに基づく小計結果及びサイトカインデータに基づく小計結果をそれぞれ得るサンプル小計算出部３２８が設けられている。

　また、この統合判定部１１４には、重みパラメーターをランダムに複数算出するランダムパラメーター算出部３２４が設けられている。そして、この統合判定部１１４には、このようにして算出されたランダムな重みパラメーターによる重み付けをした上で、上記のそれぞれのサンプル小計結果の合計を生理状態の属性毎に求めるサンプル合計算出部３３０が設けられている。さらに、この統合判定部１１４には、サンプル合計結果においてテストサンプルデータに含まれるサンプル個体毎にカウントして最も多く判別された生理状態の属性をサンプル個体の生理状態の属性であると統合判定するサンプル統合判定部３３２が設けられている。そして、この統合判定部１１４には、サンプル個体毎の統合判定結果の判定精度を重みパラメーター毎に集計して、最も判定精度の高い重みパラメーターを採用する重みパラメーター選定部３３４が設けられている。

　そのため、この統合判定部１１４では、リサンプリング部１０６のテストサンプル抽出部９０６を用いて得られるテストサンプルの判別結果に基づいて、最適と思われる重み付けパラメーターを選定した上で、その最適と思われる重み付けパラメーターを適用して合計算出部３１４にて統合判定を行うことができる。そして、このようにして合計算出部３１４で得られた判別結果のうち最も判別回数の多い生理状態の属性を、最終的に統合判定結果として判定する。

　図２９は、本実施形態の生理状態判別装置１０００の出力部１１６の構成を説明する機能ブロック図である。この出力部１１６には、上記の統合判定部１１４による統合判定結果についてのデータセットを生成する出力データ生成部５００が設けられている。また、この出力データ生成部５００には、被験個体を特定するデータを生成するための被験個体特定データ生成部５０２が設けられている。さらに、この出力データ生成部５００には、統合判定の結果を示すデータを生成するため統合判定データ生成部５０４が設けられている。そして、この出力データ生成部５００には、予測される判定精度を示すデータを生成するための予測判定精度データ生成部５０６が設けられている。

　また、この出力部１１６には、上記の出力データ生成部５００の生成した統合判定結果についてのデータセットの内容を示す画像データを生成する画像データ生成部５０８が設けられている。この画像データ生成部５０８が生成した画像データは、ＬＡＮ又はインターネットなどのネットワーク１２０を介して画像表示部１３０に表示されてもよく、プリンタ１３２で印刷されてもよく、サーバ１３４に書き込まれてもよい。

　＜生理状態判別装置の動作＞
　図３０は、本実施形態の生理状態判別装置１０００のジェノタイプデータの解析動作を説明するフローチャートである。この図に示すように、生理状態判別装置１０００は一連のジェノタイプデータの解析動作を開始すると、まず学習用データセット取得部１０２においてジェノタイプデータの入力を受け付ける（Ｓ１０２）。次いで、このようにして入力されたジェノタイプデータは、学習用データセット取得部１０２のジェノタイプデータ数値化部８０２においてＡ、Ｔ、Ｃ、Ｇを単純に数値化される（Ｓ１０４）。

　そして、このようにして数値化されたジェノタイプデータについて、学習用データセット取得部１０２のアレル頻度算出部８０８においてＳＮＰの平均値、アレル頻度を計算した上で（Ｓ１０８）、同様に正規化部８１０においてＳＮＰのジェノタイプデータを正規化して、欠損値を補正する（Ｓ１１０）。また、これらのＳ１０８及びＳ１１０の処理をＳＮＰ数だけ繰り返す（Ｓ１０６）。

　次いで、このようにして正規化されたジェノタイプデータについて、リサンプリング部１０６においてＣａｓｅ（緑内障）及びＣｏｎｔｒｏｌ（健常者）からそれぞれ同数をリサンプリングする（Ｓ１１４）。そして、このようにしてリサンプリングされた複数のサブデータセットについて、第一機械学習部１０８においてパターン学習（判別分析、ＳＶＭなど）がそれぞれ行われる（Ｓ１１６）。また、このようにしてパターン学習された学習結果は、第一機械学習部１０８から被験データ解析部１１２に受け渡されて一旦に保存される（Ｓ１１８）。また、これらのＳ１１４、Ｓ１１６及びＳ１１８の処理をＮ＋１回だけ繰り返し（Ｓ１１２）、一連の動作を終了する。

　図３１は、本実施形態の生理状態判別装置のサイトカインデータの解析動作を説明するフローチャートである。この図に示すように、生理状態判別装置１０００は一連のサイトカインデータの解析動作を開始すると、まず学習用データセット取得部１０２においてサイトカインデータの入力を受け付ける（Ｓ２０２）。次いで、このようにして入力されたサイトカインデータは、学習用データセット取得部１０２のＬｏｇ変換部８１６においてＬｏｇ変換される（Ｓ２０６）。このＬｏｇ変換部では、常用対数による変換を行なってもよいし、自然対数による変換を行なってもよく、その他の底を用いた変換を行なってもよい。

　そして、このようにして得られたサイトカインデータの元の値とＬｏｇ値を学習用データセット取得部１０２の正規性判定部８１８において正規性検定し（Ｓ２０８）、元の値の方が正規性が高ければ元の値を採用し（Ｓ２１０）、Ｌｏｇ値の方が正規性が高ければＬｏｇ値を採用する（Ｓ２１２）。また、これらのＳ２０６、Ｓ２０８、Ｓ２１０及びＳ２１２の処理をサイトカイン毎に繰り返し（Ｓ２０４）、そして、学習用データセット取得部１０２の対照群データ抽出部８１４は、対照群データのみを母集団データから抽出して、その平均値・標準偏差を計算する（Ｓ２１４）。こうして得られた平均値・標準偏差を用いて、学習用データセット取得部１０２の標準化部は、全データを正規化（標準化）する（Ｓ２１６）。

　次いで、このようにして正規化（標準化）されたサイトカインデータについて、リサンプリング部１０６においてＣａｓｅ（緑内障）及びＣｏｎｔｒｏｌ（健常者）からそれぞれ同数をリサンプリングする（Ｓ２２０）。そして、このようにしてリサンプリングされた複数のサブデータセットについて、第二機械学習部１１０においてパターン学習（判別分析、ＳＶＭなど）がそれぞれ行われる（Ｓ２２２）。また、このようにしてパターン学習された学習結果は、第二機械学習部１１０から被験データ解析部１１２に受け渡されて一旦に保存される（Ｓ２２４）。また、これらのＳ２２０、Ｓ２２２及びＳ２２４の処理をＮ回だけ繰り返し（Ｓ２１８）、一連の動作を終了する。

　図３２は、本実施形態の生理状態判別装置の被験データの解析動作を説明するフローチャートである。この図に示すように、生理状態判別装置１０００は一連の統合判定動作を開始すると、まず被験データ取得部１０４においてジェノタイプデータの入力を受け付ける（Ｓ３０２）。次いで、このようにして入力されたジェノタイプデータは、被験データ取得部１０４のジェノタイプデータ変換部４０２においてＳ１０８で得られたアレル頻度と平均値をもって正規化を行う（Ｓ３０４）。Ｓ１０８で行った計算では、学習用データセットの特性が一般的なゲノム特性とほぼ同じであると近似されるからである。

　続いて、被験データ取得部１０４においてサイトカインデータの入力を受け付ける（Ｓ３０６）。次いで、このようにして入力されたサイトカインデータは、被験データ取得部１０４のサイトカインデータ変換部４１２において学習用データセットと同一の数値化・正規化の手法で数値データに変換される（Ｓ３０８）。

　そして、ジェノタイプデータの第一機械学習部１０８での学習プロセスにおいて得た複数のサブセットデータに対応する複数の第一判別器の係数等をもとにして、被験データ解析部１１２の判別器適用部２１８において被験者データのジェノタイプデータを判別する（Ｓ３１２）。ここで、複数の第一判別器のそれぞれについて、判定結果＝Ｃａｓｅ（緑内障）であるか否かを判定する（Ｓ３１４）。その判定結果が緑内障判定（Ｃａｓｅ判定）である場合には、Ｃａｓｅ判定に＋１ポイントを付与し（Ｓ３１６）、その判定結果が健常者判定（Ｃｏｎｔｒｏｌ判定）である場合には、Ｃｏｎｔｒｏｌ判定に＋１ポイントを付与する（Ｓ３１８）。また、これらのＳ３１２、Ｓ３１４、Ｓ３１６及びＳ３１８の処理をＮ＋１回だけ繰り返す（Ｓ３１０）。

　次いで、サイトカインデータの第二機械学習部１１０での学習プロセスにおいて得た複数のサブセットデータに対応する複数の第二判別器の係数等をもとにして、被験データ解析部１１２の判別器適用部２１８において被験者データのサイトカインデータを判別する（Ｓ３２２）。ここで、複数の第二判別器のそれぞれについて、判定結果＝Ｃａｓｅ（緑内障）であるか否かを判定する（Ｓ３２４）。その判定結果が緑内障判定（Ｃａｓｅ判定）である場合には、Ｃａｓｅ判定に＋１ポイントを付与し（Ｓ３２６）、その判定結果が健常者判定（Ｃｏｎｔｒｏｌ判定）である場合には、Ｃｏｎｔｒｏｌ判定に＋１ポイントを付与する（Ｓ３２８）。また、これらのＳ３２２、Ｓ３２４、Ｓ３２６及びＳ３２８の処理をＮ回だけ繰り返す（Ｓ３２０）。

　ここで、ジェノタイプの解析処理がＮ＋１回、サイトカインの解析処理がＮ回繰り返す理由は以下のとおりである。すなわち、両処理の重みが１：１の場合、両方の繰り返し処理回数がＮ回ずつだと最終判定結果がＮ：Ｎとなる可能性もあり、ＣａｓｅともＣｏｎｔｒｏｌとも判定できない事態になる可能性がある。従って、総試行処理回数を偶数回ではなく奇数回にすることで、必ずＣａｓｅかＣｏｎｔｒｏｌのいずれかの判定を得られるようにするために、信頼性のより高いと思われるジェノタイプの解析を１回分多くしようとして、このような仕様にしている。

　そして、最後にこれらのジェノタイプデータの判定結果及びサイトカインデータの判定結果を統合判定部１１４で統合して、Ｃａｓｅ判定回数及びＣｏｎｔｒｏｌ判定回数のどちらが大きいかを比較して（Ｓ３３０）、Ｃａｓｅ判定回数の方が多ければＣａｓｅ（緑内障）であると判定し、Ｃｏｎｔｒｏｌ判定回数の方が多ければＣｏｎｔｒｏｌ（健常者）であると判定して、一連の動作を終了する。

　＜変形例＞
　図３３は、本実施形態の変形例を説明するための機能ブロック図である。本実施形態に係る生理状態判別器パラメーター生成装置１１００は、上記のフローチャートで説明した生理状態の判別方法に用いる判別器を生成する装置である。この生理状態判別器パラメーター生成装置１１００は、被験個体と同一種の個体からなる母集団から取得された、後述の機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、個体の生理状態の属性、個体のゲノムの塩基配列に関する離散データ及び個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得する学習用データセット取得部１１０２を備える。

　また、生理状態判別器パラメーター生成装置１１００は、この学習用データセットから、個体群の一部を構成する複数の各々異なるサブ個体群に関するサブデータセットを抽出するリサンプリング部１１０６を備える。このリサンプリング部１１０６は、サブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む。

　また、生理状態判別器パラメーター生成装置１１００は、複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習する第一機械学習部１１０８を備える。この第一機械学習部１１０８は、サブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得る。

　そして、生理状態判別器パラメーター生成装置１１００は、複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習する第二機械学習部１１１０を備える。この第二機械学習部１１１０は、サブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得る。また、生理状態判別器パラメーター生成装置１１００は、上記の第一の判別器及び第二の判別器を出力する出力部１１１１を備える。

　また、生理状態判別器パラメーター生成装置１１００には、液晶ディスプレイなどの画像表示部１１２２及びキーボード・マウスなどの操作部１１２４が設けられている。そのため、生理状態判別器パラメーター生成装置１１００の操作者は、画像表示部１１２２に表示される画像データを参照しながら、生理状態判別器パラメーター生成装置１１００に各種データまたは命令を入力することができる。

　また、生理状態判別器パラメーター生成装置１１００には、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなどのネットワーク１１１８を介してファイルサーバなどのサーバ１１２６及びＤＮＡシークエンサー、ＤＮＡチップ、ＰＣＲ、抗体チップ又はフローサイトメトリーなどの測定装置１１２８が接続されている。そのため、生理状態判別器パラメーター生成装置１１００は、学習用データセット及び被験者データをサーバ１１２６から読み出してくることもできるし、測定装置１１２８の測定結果として直接読み込むこともできる。

　また、生理状態判別器パラメーター生成装置１１００には、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなどのネットワーク１１１９を介して生理状態判別装置１２００が接続されている。そのため、生理状態判別器パラメーター生成装置１１００は、上記の第一の判別器及び第二の判別器を出力部１１１１から出力して、生理状態判別装置１２００の判別器パラメーター取得部１１２１に受け渡すことができる。

　この生理状態判別器パラメーター生成装置１１００によれば、当初得られる学習用データセットの一部を構成する複数の各々異なるサブデータセットを作成した上で、そのサブデータセットを構成する複数個体のゲノムの塩基配列に関する離散データ及びその複数個体の生体内における特定物質の量に関する連続データという異なる観点からのデータを、それぞれ機械学習して得られる２種類の判別器をサブデータセット毎に作成する。そのため、上記の方法で哺乳動物の生理状態の属性を精度良く判定できる２種類の判別器のセットを得ることができる。

　一方、本実施形態に係る生理状態判別装置１２００は、哺乳動物の個体の生理状態の属性を判別するための装置である。この生理状態判別装置１２００は、上記の生理状態判別器パラメーター生成装置１１００によって生成される第一の判別器及び第二の判別器を取得する判別器パラメーター取得部１１２１を備える。また、生理状態判別装置１２００は、被験個体から取得された、個体のゲノムの塩基配列に関する離散データ及び個体の生体内における特定物質の量に関する連続データの組合せを含む、被験個体に関する前記被験個体に関する離散データと連続データからなる被験者データを取得する被験者データ取得部１１０４を有する。

　さらに、生理状態判別装置１２００は、被験者データを複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成する被験データ解析部１１１２を備える。そして、生理状態判別装置１２００は、第一判別結果及び第二判別結果を生理状態の属性毎に統合して、第一判別結果及び第二判別結果において最も多く判別された生理状態の属性を被験個体の生理状態の属性であると統合判定する統合判定部１１１４を備える。また、生理状態判別装置１２００は、上記の統合判定の結果を出力する出力部１１１６を備える。

　また、生理状態判別装置１２００には、液晶ディスプレイなどの画像表示部１１４２及びキーボード・マウスなどの操作部１１４４が設けられている。そのため、生理状態判別装置１２００の操作者は、画像表示部１１４２に表示される画像データを参照しながら、生理状態判別装置１２００に各種データまたは命令を入力することができる。

　また、生理状態判別装置１２００には、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなどのネットワーク１１２０を介して液晶ディスプレイなどの画像表示部１１３０、レーザプリンタ又はインクジェットプリンタなどのプリンタ１１３２、ファイルサーバなどのサーバ１１３４が接続されている。そのため、生理状態判別装置１２００は、上記の統合判定の結果を出力部１１１６から出力して、画像データとして画像表示部１１３０に表示させることもできるし、画像データとしてプリンタ１１３４で印刷することもできるし、各種形式のデータとしてサーバ１１３２に格納することもできる。

　この生理状態判別装置１２００によれば、上記の生理状態判別器パラメーター生成装置１１００によって生成される２種類の判別器を取得して、被験個体に関する被験者データをこれらの２種類の判別器でパターン解析する。その結果、この被験個体について複数の異なるサブデータセット毎に２種類の判別結果が得られるので、その２種類の判別結果を複数の異なるサブデータセットに関してそれぞれ小計する。そして、その小計結果を適切な計算式を用いて合算して統合した結果、合算値が最も大きい生理状態の属性を被験個体の生理状態の属性であると統合判定する。そのため、この装置によれば、哺乳動物の生理状態の属性を精度良く判定することができる。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　例えば、上記実施の形態では第一機械学習部１０８及び第二機械学習部１１０で用いられる分析方法を主成分分析、判別分析、ＳＶＭとしたが、特にこれらの３種に限定されるわけではなく、他の解析手法を用いてもよい。例えば、主成分分析以外の多変量解析の手法として、因子分析、クラスター分析、重回帰分析なども好適に用いることができる。あるいはパターン認識・分類法として、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー、ＳＯＭ（自己組織化マップ）などの手法も好適に用いることができる。

　また、上記実施の形態ではヒトの緑内障の発症についての判別を行ったが、特にこれらの疾患に限定されるわけではなく、他のヒトの非感染性疾患について発症、進行、予後などの各種の判別に好適に用いることができる。また、他のヒトの感染性疾患の発症、感染、進行、予後などの各種の判別に好適に用いることができる。あるいは、ヒトの疾患に限定する必要はなく、畜産用途、実験動物用途をはじめとする哺乳動物の生理状態の属性の判別にも好適に用いることができる。

　また、上記実施の形態では発症という生理状態について発症／健常の属性についての判別を行ったが、特にこれらの生理状態の属性に限定されるわけではない。すなわち、上記の実施形態で説明した装置は、他の感染、進行、予後などの生理状態の感染／非感染、進行型／非進行型、予後良好／予後不良などの各種の属性についての判別に好適に用いることができる。このように上記の実施形態で用いる学習用データセットに含まれる生理状態の属性を発症／健常の代わりに感染／非感染、進行型／非進行型、予後良好／予後不良としても、同様に優れた精度で判別できる。

　以下、本発明を実施例によりさらに説明するが、本発明はこれらに限定されるものではない。

　＜実施例１＞ジェノタイプデータとサイトカインデータを用いた本統合判定方法による緑内障の発症診断
　緑内障は主要な失明原因の１つであり、先天的な遺伝要因と後天的な環境要因が発症に寄与していると考えられている。そこで、緑内障の代表的な病型である原発開放隅角緑内障（ＰＯＡＧ、ＰｒｉｍａｒｙＯｐｅｎ-ＡｎｇｌｅＧｌａｕｃｏｍａ）について、遺伝情報であるジェノタイプデータと後天的な生体の状況を反映するサイトカインデータを用いて、本方法による診断性能を検討した。

　（使用検体）
　独立した２つのデータセットとして、ＰＯＡＧ４２検体と健常対照群４２検体によるＳｔａｇｅ１、ＰＯＡＧ７３検体と健常対照群５２検体によるＳｔａｇｅ２をそれぞれ用意した。これらの検体は全てジェノタイプデータとサイトカインデータの両方を持っており、Ｓｔａｇｅ１は機械学習で疾患の特徴を捉えるために使用し、その結果を元にＳｔａｇｅ２の検体を診断する。

　（ジェノタイプデータに使用するSNPsの選定）
　本発明者らが既に論文として公表（Nakano et. al :Proc Natl Acad Sci U S A. 2009 Aug 4;106(31):12838-42）したデータを元に、判定に使用する一塩基多型（ＳＮＰｓ、Ｓｉｎｇｌｅ　Ｎｕｃｌｅｏｔｉｄｅ　Ｐｏｌｙｍｏｒｐｈｉｓｍｓ）を選定した。具体的には、第一段階としてＡｆｆｙｍｅｔｒｉｘ社のＧｅｎｅＣｈｉｐ（Ｒ）　Ｈｕｍａｎ　Ｍａｐｐｉｎｇ　５００Ｋ　Ａｒｒａｙチップ（Ａｆｆｙ５００ｋ）を用いたＰＯＡＧ４１８検体と健常対照群３００検体による全ゲノム解析を行い、Ｑｕａｌｉｔｙ－Ｃｏｎｔｒｏｌの後に解析対象となった３３１，８３８ＳＮＰｓについてカイ二乗検定を実施した結果、有意と思われるＰ＜０．００１の２５５ＳＮＰｓを抽出した。続いて第二段階として、第一段階で抽出したＳＮＰｓについてｉｌｌｕｍｉｎａ社のｉＳｅｌｅｃｔ（ＴＭ）　Ｃｕｓｔｏｍ　Ｉｎｆｉｎｉｕｍ（ＴＭ）　Ｇｅｎｏｔｙｐｉｎｇ　ｓｙｓｔｅｍを用いたカスタムチップ（ｉＳｅｌｅｃｔ）により、ＰＯＡＧ４０９検体と健常対照群４４８検体による追加解析を行った。さらに最終段階として両段階のデータの組合せ解析を行い、Ｃｏｃｈｒａｎ－Ｍａｎｔｅｌ－Ｈａｅｎｓｚｅｌ　ｃｈｉ－ｓｑｕａｒｅ　ｔｅｓｔによってＰ値＜０．０１であり、かつＨｅｔｅｒｏｇｅｎｅｉｔｙ　（Ｃｏｃｈｒａｎ'ｓ　Ｑ）ｃｈｉ－ｓｑｕａｒｅ　ｔｅｓｔでＰ値≧０．０５のものを抽出して、最終的にＰＯＡＧとの関連が非常に示唆される４０ＳＮＰｓを得た。ただし、各ＳＮＰｓの組合せのうち連鎖不平衡（ＬＤ、Ｌｉｎｋａｇｅ　ｄｉｓｅｑｕｉｌｉｂｒｉｕｍ）の状態にあるものは解析時に誤作動を引き起こす恐れがあるため、連鎖不平衡解析用ソフトウェアであるＨａｐｌｏｖｉｅｗ４．１でＤ'＞０．９の値を示したＳＮＰｓを同一ＬＤのものとして除外して、最終的に２９ＳＮＰｓを解析対象として選択した。なお、これらのＳＮＰｓは本発明者らが特許取得済み（国際公開第２００８／１３０００８号）のものである。

　（サイトカインデータに使用するサイトカイン項目の選定）
　本統合判定方法に用いるサイトカインデータを得るために、同時に多数のサイトカインを測定できるベクトン・ディッキンソン社製のＣｙｔｏｍｅｔｒｉｃ　Ｂｅａｄ　Ａｒｒａｙ　（ＣＢＡ）　Ｆｌｅｘ　Ｓｅｔ　Ｓｙｓｔｅｍを用いて、血中サイトカインの濃度データを２段階に分けて取得した。第一段階として、ＰＯＡＧ４２検体と健常対照群４２検体について、このＣＢＡで最大限同時に精度良く測定できるＩＬ－１β、ＩＬ－２、ＩＬ－３、ＩＬ－４、ＩＬ－５、ＩＬ－６、ＩＬ－７、ＩＬ－８、ＩＬ－９、ＩＬ－１０、ＩＬ－１２ｐ７０、ＩＬ－１３、ＭＣＰ－１（ＣＣＬ２）、ＭＩＰ－１α（ＣＣＬ３）、ＭＩＰ－１β（ＣＣＬ４）、ＲＡＮＴＥＳ（ＣＣＬ５）、Ｅｏｔａｘｉｎ（ＣＣＬ１１）、ＭＩＧ（ＣＸＣＬ９）、ｂａｓｉｃ－ＦＧＦ、ＶＥＧＦ、Ｇ－ＣＳＦ、ＧＭ－ＣＳＦ、ＩＦＮ－γ、Ｆａｓ　Ｌｉｇａｎｄ、ＴＮＦ、ＩＰ―１０、アンギオゲニン、ＯＳＭ、ＬＴ－αの計２９項目の血中サイトカイン濃度データを得た。この結果に対して、測定失敗の検体の割合が５％以上のもの（７項目）、測定値が０．０の検体の割合が５％以上のもの（１４項目）、及び両群のｔ検定のｐ値が５％以上のもの（５項目）を除外して、最終的に３項目に絞り込んだ。続いて第二段階として、それら診断に有用と思われる３項目について追加の解析を行うために、新たに用意したＰＯＡＧ７３検体と健常対照群５２検体を測定した。なお、サイトカインデータ取得に用いた検体は、本実験に使用する検体と同一である。

　（実験の前処理）
　解析に使用するＳＮＰｓのジェノタイプデータについては、ＳＮＰのアレル頻度に基づいて個体毎に正規化する方法（Price, et al ：Nat Genet. 2006 Aug;38(8):904-9）を参考にして、欠損値の補正を行いつつ離散値として数値化を行った。またサイトカインデータについても、健常対照群の血中サイトカイン濃度を参考にした独自の標準化を行い、連続値として数値化を行った。これらのデータを各種ライブラリソフトと共に統計処理ソフト『Ｒ』に入力した。なお、『Ｒ』の開発者は「Ｒ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｃｏｒｅ　Ｔｅａｍ」であり、ｖｅｒｓｉｏｎは２．１０．１を用いた。また、ＳＶＭに使ったライブラリ『ｅ１０７１』のｖｅｒｓｉｏｎはｖｅｒｓｉｏｎ　１．５－２２である（後述する他の実施例でも同様）。

　（実験方法）
　Ｓｔａｇｅ１のＰＯＡＧ及び健常対照群の各４２検体からそれぞれランダムに２０検体ずつサンプリングを行い、『Ｒ』の『ｅ１０７１』ライブラリ内にある「サポートベクターマシン（ＳＶＭ、Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）」を用いてジェノタイプデータの特徴を機械学習し、Ｓｔａｇｅ２のＰＯＡＧ７３検体と健常対照群５２検体の各々に対してＳＶＭによる緑内障陽性・陰性の判定を行い、その判定結果を保存する。これら一連の操作を５０１回繰り返した後、今度はサイトカインデータについても同様の操作を５００回繰り返す。最終的にはＳｔａｇｅ２の全検体に対して各々計１００１回分の判定結果が得られるので、検体毎に陽性・陰性の判定回数をそれぞれ集計して多数決を取り、多い方の判定を各検体の最終判定とする。

（結果評価）
　このようにまとめた判定結果を表１に示す。

　表１から明らかな様に、ジェノタイプデータとサイトカインデータを個別に用いて検体を診断するよりも、本統合判定方法を用いた方が診断率の向上が見られた。

　＜実施例２＞ジェノタイプデータとサイトカインデータを用いた本統合判定方法による緑内障の進行診断
　緑内障には進行型／非進行型があると考えられている。そして、緑内障の進行型／非進行型について、遺伝情報であるジェノタイプデータと後天的な生体の状況を反映するサイトカインデータを用いて、本方法による診断性能を検討できる。
　なお、本実施例において、生理状態の属性「進行型」「非進行型」の定義は以下のとおりとする。
　進行型：　ある疾患に罹患した個体のうち、特にその疾患の進行が早いもの
　非進行型：　ある疾患に罹患した個体のうち、進行型でないもの

　（使用検体）
　実施例１の場合と同様にして、独立した２つのデータセットとして、進行型緑内障の数十の検体と非進行型緑内障の数十の検体によるＳｔａｇｅ１、進行型緑内障の数十の検体と非進行型緑内障の数十の検体によるＳｔａｇｅ２をそれぞれ用意する。これらの検体は全てジェノタイプデータとサイトカインデータの両方を持っており、Ｓｔａｇｅ１は機械学習で疾患の特徴を捉えるために使用し、その結果を元にＳｔａｇｅ２の検体を診断する。

　（ジェノタイプデータに使用するSNPsの選定）
　実施例１の場合と同様にして、判定に使用する一塩基多型（ＳＮＰｓ、Ｓｉｎｇｌｅ　Ｎｕｃｌｅｏｔｉｄｅ　Ｐｏｌｙｍｏｒｐｈｉｓｍｓ）を選定する。具体的には、第一段階としてＡｆｆｙｍｅｔｒｉｘ社のＧｅｎｅＣｈｉｐ（Ｒ）　Ｈｕｍａｎ　Ｍａｐｐｉｎｇ　５００Ｋ　Ａｒｒａｙチップ（Ａｆｆｙ５００ｋ）を用いた進行型緑内障の数百の検体と非進行型緑内障の数百の検体による全ゲノム解析を行い、Ｑｕａｌｉｔｙ－Ｃｏｎｔｒｏｌの後に解析対象となったＳＮＰｓについてカイ二乗検定を実施した結果、有意と思われるＰ＜０．００１のＳＮＰｓを抽出する。続いて第二段階として、第一段階で抽出したＳＮＰｓについてｉｌｌｕｍｉｎａ社のｉＳｅｌｅｃｔ（ＴＭ）　Ｃｕｓｔｏｍ　Ｉｎｆｉｎｉｕｍ（ＴＭ）　Ｇｅｎｏｔｙｐｉｎｇ　ｓｙｓｔｅｍを用いたカスタムチップ（ｉＳｅｌｅｃｔ）により、進行型緑内障の数百以上の検体と非進行型緑内障の数百以上の検体による追加解析を行う。さらに最終段階として両段階のデータの組合せ解析を行い、Ｃｏｃｈｒａｎ－Ｍａｎｔｅｌ－Ｈａｅｎｓｚｅｌ　ｃｈｉ－ｓｑｕａｒｅ　ｔｅｓｔによってＰ値＜０．０１であり、かつＨｅｔｅｒｏｇｅｎｅｉｔｙ　（Ｃｏｃｈｒａｎ'ｓ　Ｑ）ｃｈｉ－ｓｑｕａｒｅ　ｔｅｓｔでＰ値≧０．０５のものを抽出して、最終的に進行型緑内障との関連が非常に示唆されるＳＮＰｓを得る。ただし、各ＳＮＰｓの組合せのうち連鎖不平衡（ＬＤ、Ｌｉｎｋａｇｅ　ｄｉｓｅｑｕｉｌｉｂｒｉｕｍ）の状態にあるものは解析時に誤作動を引き起こす恐れがあるため、連鎖不平衡解析用ソフトウェアであるＨａｐｌｏｖｉｅｗ４．１でＤ'＞０．９の値を示したＳＮＰｓを同一ＬＤのものとして除外して、最終的に好ましくは数十以下のＳＮＰｓを解析対象として選択する。

　（サイトカインデータに使用するサイトカイン項目の選定）
　本統合判定方法に用いるサイトカインデータを得るために、同時に多数のサイトカインを測定できるベクトン・ディッキンソン社製のＣｙｔｏｍｅｔｒｉｃ　Ｂｅａｄ　Ａｒｒａｙ　（ＣＢＡ）　Ｆｌｅｘ　Ｓｅｔ　Ｓｙｓｔｅｍを用いて、血中サイトカインの濃度データを２段階に分けて取得する。第一段階として、進行型緑内障の数十の検体と非進行型緑内障の数十の検体について、このＣＢＡで最大限同時に精度良く測定できるＩＬ－１β、ＩＬ－２、ＩＬ－３、ＩＬ－４、ＩＬ－５、ＩＬ－６、ＩＬ－７、ＩＬ－８、ＩＬ－９、ＩＬ－１０、ＩＬ－１２ｐ７０、ＩＬ－１３、ＭＣＰ－１（ＣＣＬ２）、ＭＩＰ－１α（ＣＣＬ３）、ＭＩＰ－１β（ＣＣＬ４）、ＲＡＮＴＥＳ（ＣＣＬ５）、Ｅｏｔａｘｉｎ（ＣＣＬ１１）、ＭＩＧ（ＣＸＣＬ９）、ｂａｓｉｃ－ＦＧＦ、ＶＥＧＦ、Ｇ－ＣＳＦ、ＧＭ－ＣＳＦ、ＩＦＮ－γ、Ｆａｓ　Ｌｉｇａｎｄ、ＴＮＦ、ＩＰ―１０、アンギオゲニン、ＯＳＭ、ＬＴ－αの計２９項目の血中サイトカイン濃度データを得る。この結果に対して、測定失敗の検体の割合が５％以上のもの、測定値が０．０の検体の割合が５％以上のもの、及び両群のｔ検定のｐ値が５％以上のものを除外して、最終的に好ましくは数項目以下に絞り込む。続いて第二段階として、それら診断に有用と思われる数項目について追加の解析を行うために、新たに用意した進行型緑内障の数十の検体と非進行型緑内障の数十の検体を測定する。なお、サイトカインデータ取得に用いる検体は、本実験に使用する検体と同一である。

　（実験の前処理）
　解析に使用するＳＮＰｓのジェノタイプデータについては、実施例１の場合と同様にして、欠損値の補正を行いつつ離散値として数値化を行う。またサイトカインデータについても、非進行型緑内障の血中サイトカイン濃度を参考にした独自の標準化を行い、連続値として数値化を行う。これらのデータを各種ライブラリソフトと共に統計処理ソフト『Ｒ』に入力する。

　（実験方法）
　Ｓｔａｇｅ１の進行型緑内障及び非進行型緑内障の各数十検体からそれぞれランダムに２０検体ずつサンプリングを行い、『Ｒ』の『ｅ１０７１』ライブラリ内にある「サポートベクターマシン（ＳＶＭ、Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）」を用いてジェノタイプデータの特徴を機械学習し、Ｓｔａｇｅ２の非進行型緑内障の数十検体と非進行型緑内障の数十検体の各々に対してＳＶＭによる緑内障陽性・陰性の判定を行い、その判定結果を保存する。これら一連の操作を５０１回繰り返した後、今度はサイトカインデータについても同様の操作を５００回繰り返す。最終的にはＳｔａｇｅ２の全検体に対して各々計１００１回分の判定結果が得られるので、検体毎に陽性・陰性の判定回数をそれぞれ集計して多数決を取り、多い方の判定を各検体の最終判定とする。

　以上、本発明を実施例に基づいて説明した。この実施例はあくまで例示であり、種々の変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　たとえば、上記実施例では、発症という生理状態について発症／健常の属性についての判別を行い、進行という生理状態について進行型／非進行型の属性についての判別を行っているが、特にこれらの生理状態の属性に限定されるわけではない。すなわち、上記の実施例の場合と同様に、他の感染、予後などの生理状態の感染／非感染、予後良好／予後不良などの各種の属性についての判別も同様に行うことができる。このように上記の実施例で用いる学習用データセットに含まれる生理状態の属性を発症／健常及び進行型／非進行型の代わりに感染／非感染、予後良好／予後不良としても、同様に優れた精度で判別できる。

１０２　学習用データセット取得部
１０４　被験者データ取得部
１０６　リサンプリング部
１０８　第一機械学習部
１１０　第二機械学習部
１１２　被験データ解析部
１１４　統合判定部
１１６　出力部
１１８　ネットワーク
１２０　ネットワーク
１２２　画像表示部
１２４　操作部
１２６　サーバ
１２８　測定装置
１３０　画像表示部
１３２　プリンタ
１３４　サーバ
２０２　第一判別器パラメーター取得部
２０４　第二判別器パラメーター取得部
２０６　最適解析法適用部
２０８　統計解析エンジン記憶部
２１０　主成分分析エンジン
２１２　判別分析エンジン
２１４　ＳＶＭエンジン
２１６　変換済被験データ取得部
２１８　判別器適用部
２２０　第一判別結果生成部
２２２　第二判別結果生成部
３０２　第一判別結果取得部
３０４　第二判別結果取得部
３０６　小計算出部
３０８　第一小計算出部
３１０　第二小計算出部
３１２　重みパラメーター適用部
３１４　合計算出部
３１６　生理状態判定部
３１８　統合パラメーター記憶部
３２０　重みパラメーターデータベース
３２２　統合計算式データベース
３２４　ランダムパラメーター算出部
３２６　テストサンプルデータ取得部
３２８　サンプル小計算出部
３３０　サンプル合計算出部
３３２　サンプル統合判定部
３３４　重みパラメーター選定部
４０１　データ変換部
４０２　ジェノタイプデータ変換部
４０４　学習用データセット変換式取得部
４１０　変換部
４１２　サイトカインデータ変換部
４１４　被験データセット内の対照群データ抽出部
４２０　抽出データ処理部
５００　出力データ生成部
５０２　被験個体特定データ生成部
５０４　統合判定データ生成部
５０６　予測判定精度データ生成部
５０８　画像データ生成部
６０２　第一統計解析部
２０８　統計解析エンジン記憶部
６０６　第一精度検証部
２１０　主成分分析エンジン
２１２　判別分析エンジン
２１４　ＳＶＭエンジン
６１４　第一統計解析法選抜部
６１６　第一判別器パラメーター生成部
７０２　第二統計解析部
２０８　統計解析エンジン記憶部
７０６　第二精度検証部
２１０　主成分分析エンジン
２１２　判別分析エンジン
２１４　ＳＶＭエンジン
７１４　第二統計解析法選抜部
７１６　第二判別器パラメーター生成部
８０２　ジェノタイプデータ数値化部
８０４　数値変換部
８０６　リスクアレルデータ記憶部
８０８　アレル頻度算出部
８１０　正規化部
８１２　サイトカインデータ標準化部
８１４　対照群データ抽出部
８１６　Ｌｏｇ変換部
８１８　正規性判定部
８２０　標準化部
９０２　ランダム抽出部
９０４　抽出カウンタ
９０６　テストサンプル抽出部
１０００　生理状態判別装置
１１００　生理状態判別器パラメーター生成装置
１１０２　学習用データセット取得部
１１０４　被験データ取得部
１１０６　リサンプリング部
１１０８　第一機械学習部
１１１０　第二機械学習部
１１１１　出力部
１１１２　被験データ解析部
１１１４　統合判定部
１１１６　出力部
１１１８　ネットワーク
１１２０　ネットワーク
１１２１　判別器パラメーター取得部
１１２２　画像表示部
１１２４　操作部
１１２６　サーバ
１１２８　測定装置
１１３０　画像表示部
１１３２　サーバ
１１３４　プリンタ
１１４２　画像表示部
１１４４　操作部

Claims

　哺乳動物の個体の生理状態の属性を判別するための装置であって、
　被験個体と同一種の個体からなる母集団から取得された、機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、前記個体の生理状態の属性、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得する学習用データセット取得部と、
　前記学習用データセットから、ランダムなリサンプリングを行う事で得られる、複数の各々異なるサブ個体群に関するサブデータセットであって、前記サブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む、サブデータセットを抽出するリサンプリング部と、
　前記複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得る第一機械学習部と、
　前記複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得る第二機械学習部と、
　前記被験個体から取得された、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、前記被験個体に関する前記被験個体に関する離散データと連続データからなる被験者データを取得する被験者データ取得部と、
　前記被験者データを前記複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、前記被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成する被験データ解析部と、
　前記第一判別結果及び前記第二判別結果を生理状態の属性毎に統合して、前記第一判別結果及び前記第二判別結果において最も多く判別された生理状態の属性を前記被験個体の生理状態の属性であると統合判定する統合判定部と、
　前記統合判定の結果を出力する出力部と、
　を備える、装置。
　請求項１記載の装置において、
　前記離散データが、遺伝子多型又はバリアントに関するデータである、装置。
　請求項２記載の装置において、
　前記離散データが、ＳＮＰに関するデータである、装置。
　請求項２又は３記載の装置において、
　前記離散データが、前記遺伝子多型又はＳＮＰのアレル頻度に基づいて個体毎に正規化してあるデータである、装置。
　請求項１乃至４いずれかに記載の装置において、
　前記離散データが、ＤＮＡシークエンサー、ＤＮＡマイクロアレイ又は核酸増幅法による解析結果に由来するデータである、装置。
　請求項１乃至５いずれかに記載の装置において、
　前記連続データが、前記個体の血中サイトカイン濃度に関するデータである、装置。
　請求項６記載の装置において、
　前記サイトカインが、ＩＬ－１β、ＩＬ－２、ＩＬ－３、ＩＬ－４、ＩＬ－５、ＩＬ－６、ＩＬ－７、ＩＬ－８、ＩＬ－９、ＩＬ－１０、ＩＬ－１２ｐ７０、ＩＬ－１３、ＭＣＰ－１（ＣＣＬ２）、ＭＩＰ－１ａ（ＣＣＬ３）、ＭＩＰ－１ｂ（ＣＣＬ４）、ＲＡＮＴＥＳ（ＣＣＬ５）、Ｅｏｔａｘｉｎ（ＣＣＬ１１）、ＭＩＧ（ＣＸＣＬ９）、ｂ－ＦＧＦ、ＶＥＧＦ、Ｇ－ＣＳＦ、ＧＭ－ＣＳＦ、ＩＦＮ－ｇ、Ｆａｓ　Ｌ、ＴＮＦ、ＩＰ―１０、アンギオゲニン、ＯＳＭ、ＬＴ－αからなる群から選ばれる１種以上のサイトカインである、装置。
　請求項６又は７記載の装置において、
　前記連続データが、サイトカインの種類毎に前記血中サイトカイン濃度をＬｏｇ変換して、元の値及びＬｏｇ値の正規性を検定して正規分布に近い方の値を採用する正規性検定部を有する、装置。
　請求項６乃至８いずれかに記載の装置において、
　前記連続データが、前記サイトカインに特異的に結合する抗体のアレイを有する抗体チップ又は前記サイトカインに特異的に結合する抗体の結合したビーズセットを用いるフローサイトメトリーによる前記個体の血液の解析結果に由来するデータである、装置。
　請求項１乃至９いずれかに記載の装置において、
　前記学習用データセット取得部が、前記装置の内部又は外部に設けられている前記個体群に関する学習用データセットを格納する母集団データベースから、前記学習用データセットを読み出すように構成されている、装置。
　請求項１０記載の装置において、
　前記母集団データベースが、前記被験個体と同一種の新規個体に関する前記個体の生理状態の属性、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せが、随時追加更新されるように構成されている、装置。
　請求項１乃至１１いずれかに記載の装置において、
　前記リサンプリング部が、前記学習用データセットから前記サブデータセットをランダムに抽出するランダム抽出部を有する、装置。
　請求項１２記載の装置において、
　前記リサンプリング部が、前記ランダム抽出部による抽出処理が１０回以上の所定回数繰り返されるように制御する抽出カウンタを有する、装置。
　請求項１２又は１３記載の装置において、
　前記リサンプリング部が、前記第一判別器及び／又は前記第二判別器による生理状態の属性の判別精度を検証するためのテストサンプルデータを抽出するためのテストサンプル抽出部を有する、装置。
　請求項１乃至１４いずれかに記載の装置において、
　前記第一機械学習部が、主成分分析、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭからなる群から選ばれる１種以上の統計解析法を行う第一統計解析部を有する、装置。
　請求項１５記載の装置において、
　前記第一統計解析部が、主成分分析、判別分析及びＳＶＭからなる群から選ばれる１種以上の統計解析法を行うように構成されている、装置。
　請求項１５又は１６記載の装置において、
　前記第一機械学習部が、前記学習用データセットからランダムに抽出されたテストサンプルデータを前記第一判別器を用いてパターン解析して得られるサンプル解析結果の判別精度を検証する第一精度検証部を有する、装置。
　請求項１７記載の装置において、
　前記第一機械学習部が、前記第一精度検証部による検証結果に基づいて、前記１種以上の統計解析法の中から最も判別精度の高い統計解析法を採用する第一統計解析法選抜部を有する、装置。
　請求項１乃至１８いずれかに記載の装置において、
　前記第二機械学習部が、主成分分析、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭからなる群から選ばれる１種以上の統計解析法を行う第二統計解析部を有する、装置。
　請求項１９記載の装置において、
　前記第二統計解析部が、主成分分析、判別分析及びＳＶＭからなる群から選ばれる１種以上の統計解析法を行うように構成されている、装置。
　請求項２０記載の装置において、
　前記第二機械学習部が、前記学習用データセットからランダムに抽出されたテストサンプルデータを、前記第二判別器を用いてパターン解析して得られるサンプル解析結果の判別精度を検証する第二精度検証部を有する、装置。
　請求項２１記載の装置において、
　前記第二機械学習部が、前記第二精度検証部による検証結果に基づいて、前記１種以上の統計解析法の中から最も判別精度の高い統計解析法を採用する第二統計解析法選抜部を有する、装置。
　請求項１乃至２２いずれかに記載の装置において、
　前記被験者データ取得部が、前記個体の遺伝子多型に関する離散データ及び前記個体の血中サイトカイン濃度に関する連続データの組合せを含む、前記被験個体に関する被験者データを取得するように構成されている、装置。
　請求項２３記載の装置において、
　前記被験者データ取得部が、前記被験者データを前記学習用データセットと同様の手法で数値化及び／又は正規化するデータ変換部を有する、装置。
　請求項１乃至２４いずれかに記載の装置において、
　前記被験データ解析部が、前記複数の第一判別器及び第二判別器として、主成分分析、判別分析、ＳＶＭ、因子分析、クラスター分析、重回帰分析、決定木、ナイーブベイズ分類器、人工ニューラルネットワーク、マルコフ連鎖モンテカルロ法、ギブスサンプラー及びＳＯＭからなる群から選ばれる１種以上の統計解析法の中から最も判別精度の高い統計解析法を各々用いる最適解析法適用部を有する、装置。
　請求項２５記載の装置において、
　前記最適解析法適用部が、主成分分析、判別分析及びＳＶＭからなる群から選ばれる１種以上の統計解析法を行うように構成されている、装置。
　請求項１乃至２６いずれかに記載の装置において、
　前記被験データ解析部が、前記複数の各々異なる第一判別器及び第二判別器をいずれも１回以上用いて、前記被験者データをパターン解析して、前記被験個体の生理状態の属性の第一判別結果及び第二判別結果を生成する判別器適用部を有する、装置。
　請求項１乃至２７いずれかに記載の装置において、
　前記統合判定部が、
　　前記第一判別結果及び前記第二判別結果において前記被験データが特定の属性の生理状態と判別された回数を各々小計する小計算出部と、
　　前記第一判別結果及び前記第二判別結果における前記小計結果の合計を前記生理状態の属性毎に求める合計算出部と、
　を有する、装置。
　請求項２８記載の装置において、
　前記統合判定部が、前記第一判別結果及び前記第二判別結果における前記小計結果に各々所定のパラメーターによる重み付けをした上で前記合計を求めるための重みパラメーター適用部をさらに有する、装置。
　請求項２９記載の装置において、
　前記統合判定部が、
　　前記学習用データセットからランダムに抽出されたテストサンプルデータを前記被験データ解析部で処理して得られるサンプル解析結果についてのサンプル小計結果を得るサンプル小計算出部と、
　　前記重みパラメーターをランダムに複数算出するランダムパラメーター算出部と、
　　前記ランダムな重みパラメーターによる重み付けをした上で前記サンプル小計結果の合計を前記生理状態の属性毎に求めるサンプル合計算出部と、
　　前記サンプル合計結果において前記テストサンプルデータに含まれるサンプル個体毎に最も多く判別された生理状態の属性を前記サンプル個体の生理状態の属性であると統合判定するサンプル統合判定部と、
　　前記サンプル個体毎の統合判定結果の判定精度を各重みパラメーター毎に集計して、最も判定精度の高い重みパラメーターを採用する重みパラメーター選定部と、
　を有する、装置。
　請求項１乃至３０いずれかに記載の装置において、
　前記出力部が、
　　被験個体を特定するための情報と、
　　前記統合判定の結果と、
　　予測される判定精度と、
　をともに出力するように構成されている、装置。
　請求項１乃至３１いずれかに記載の装置において、
　前記哺乳動物がヒトである、装置。
　請求項３２記載の装置において、
　前記被験個体が、医療機関を受診した患者である、装置。
　哺乳動物の個体の生理状態の属性を判別するための方法であって、
　被験個体と同一種の個体からなる母集団から取得された、機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、前記個体の生理状態の属性、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得するステップと、
　前記学習用データセットから、ランダムなリサンプリングを行う事で得られる、複数の各々異なるサブ個体群に関するサブデータセットであって、前記サブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む、サブデータセットを抽出するステップと、
　前記複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得るステップと、
　前記複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得るステップと、
　前記被験個体から取得された、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、前記被験個体に関する被験者データを取得するステップと、
　前記被験者データを前記複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、前記被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成するステップと、
　前記第一判別結果及び前記第二判別結果を生理状態の属性毎に統合して、前記第一判別結果及び前記第二判別結果において最も多く判別された生理状態の属性を前記被験個体の生理状態の属性であると統合判定するステップと、
　前記統合判定の結果を出力するステップと、
　を含む、方法。
　請求項３４に記載の方法に用いる判別器を生成する装置であって、
　被験個体と同一種の個体からなる母集団から取得された、機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、前記個体の生理状態の属性、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得する学習用データセット取得部と、
　前記学習用データセットから、ランダムなリサンプリングを行う事で得られる、複数の各々異なるサブ個体群に関するサブデータセットであって、前記サブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む、サブデータセットを抽出するリサンプリング部と、
　前記複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得る第一機械学習部と、
　前記複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得る第二機械学習部と、
　前記第一の判別器及び第二の判別器を出力する出力部と、
　を備える、装置。
　哺乳動物の個体の生理状態の属性を判別するための装置であって、
　請求項３５記載の装置によって生成される前記第一の判別器及び第二の判別器を取得する判別器パラメーター取得部と、
　前記被験個体から取得された、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、前記被験個体に関する前記被験個体に関する離散データと連続データからなる被験者データを取得する被験者データ取得部と、
　前記被験者データを前記複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、前記被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成する被験データ解析部と、
　前記第一判別結果及び前記第二判別結果を生理状態の属性毎に統合して、前記第一判別結果及び前記第二判別結果において最も多く判別された生理状態の属性を前記被験個体の生理状態の属性であると統合判定する統合判定部と、
　前記統合判定の結果を出力する出力部と、
　を備える、装置。
　哺乳動物の個体の生理状態の属性を判別するためのプログラムであって、
　コンピュータに、
　被験個体と同一種の個体からなる母集団から取得された、機械学習に用いられる複数の個体からなる個体群に関する学習用データセットであって、前記個体の生理状態の属性、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、学習用データセットを取得するステップと、
　前記学習用データセットから、ランダムなリサンプリングを行う事で得られる、複数の各々異なるサブ個体群に関するサブデータセットであって、前記サブ個体群に含まれる各個体の生理状態の属性、各個体のゲノムの塩基配列に関する離散データ及び各個体の生体内における特定物質の量に関する連続データの組合せを含む、サブデータセットを抽出するステップと、
　前記複数のサブデータセットに含まれる生理状態の属性及び離散データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を離散データに基づいて判別するための複数の各々異なる第一判別器を得るステップと、
　前記複数のサブデータセットに含まれる生理状態の属性及び連続データのパターンを機械学習して、前記サブデータセットに含まれる各個体の生理状態の属性を連続データに基づいて判別するための複数の各々異なる第二判別器を得るステップと、
　前記被験個体から取得された、前記個体のゲノムの塩基配列に関する離散データ及び前記個体の生体内における特定物質の量に関する連続データの組合せを含む、前記被験個体に関する被験者データを取得するステップと、
　前記被験者データを前記複数の第一判別器及び第二判別器を用いて各々複数回ずつパターン解析して、前記被験個体の生理状態の属性の第一判別結果及び第二判別結果を各々複数回ずつ生成するステップと、
　前記第一判別結果及び前記第二判別結果を生理状態の属性毎に統合して、前記第一判別結果及び前記第二判別結果において最も多く判別された生理状態の属性を前記被験個体の生理状態の属性であると統合判定するステップと、
　前記統合判定の結果を出力するステップと、
　を実行させるように構成されている、プログラム。