JPWO2003085548A1

JPWO2003085548A1 - データ解析装置および方法

Info

Publication number: JPWO2003085548A1
Application number: JP2003582665A
Authority: JP
Inventors: 石川　俊夫; 俊夫石川; 隆志久米
Original assignee: Ishihara Sangyo Kaisha Ltd
Current assignee: Ishihara Sangyo Kaisha Ltd
Priority date: 2002-04-04
Filing date: 2003-03-31
Publication date: 2005-08-11
Also published as: CN1647067A; EP1498825A1; KR20040111456A; CA2481485A1; US20050159896A1; WO2003085548A1; AU2003220998A1

Abstract

生体の状態と複数の遺伝子発現の量および／または細胞内物質の量との相関モデルを決定するデータ解析において、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とするデータの集合において、データに含まれる説明変数を選択し、選択された説明変数と目的変数とを含む相関モデルについて交差検証成績を計算し、その結果を評価判定する。ここで、交差検証成績が改善しなくなるまで、説明変数の選択、交差検証成績の計算、その結果の評価判定を行い、部分最小自乗法モデルを決定する。これにより、多変量の遺伝子発現情報の効果的な情報処理を提供する。

Description

技術分野
本発明は、生体の状態と遺伝子発現の量および／または細胞内物質の量との多変量解析処理並びそれを基に可能となる測定機材、検定方法などに関するものである。
背景技術
２０００年６月のヒトゲノムの解読宣言以降、ゲノムに書かれた遺伝情報がどのように発現して機能しているかのを解明するポストゲノム時代に突入したと言われている。ヒトゲノム計画の進展の中で、ゲノム発現状態を測定する方法論も進展してきた。トランスクリプトーム（ｍＲＮＡ）測定手段としてオリゴヌクレオチドアレイやマイクロチップが知られている。またプロテオーム（蛋白質）測定手段として、以前からある２次元電気泳動に加えて、最近では質量分析の方法が進歩してきた。また抗体チップなどの先進の技術も注目されている。これらの測定技術は、生体の状態パラメータを短時間に一挙に測定できることがそれまでの技術と比較して画期的であるといえる。
遺伝子発現状態を効率的に測定する技術として次のものがあげられる。トランスクリプトーム（ｍＲＮＡの総体）を特定するものとして、基盤に複数種のＤＮＡを担持し、それに相補的なｍＲＮＡを検出するＤＮＡチップが知られている。代表的なＤＮＡチップには、遺伝子チップやＤＮＡマイクロアレイがある。また、プロテオーム（蛋白質の総体）を特定するものには、２次元電気泳動、抗体チップ、質量スペクトルを用いるものがある。またメタボローム（代謝中間体を含めた代謝産物の総体）を測定する手法も質量分析などによって試みられており、進展が見られる。
生体内の細胞の状態は遺伝子産物の発現によってよく記述されるため、従来の診断マーカーでは情報が不足している場面でも、精度のより高い診断が可能になるという期待も出てきている。たとえば、次のような研究があげられる。
Ｐ．Ｏ．Ｂｒｏｗｎらは、ＤＮＡチップによってリンパ腫患者の細胞のトランスクリプトームを測定し、クラスター解析によって悪性と良性のリンパ腫（ＤＬＢＣＬ）を別クラスターに分離した（Ｎａｔｕｒｅ４０３（３），５０３−１１（２０００））。しかし、これは因果関係（相関関係）のモデルを得る方法ではなく、どの遺伝子がどの程度重要かを判断できない。
Ａ．Ａｌａｉｙａらは、２次元電気泳動によって子宮がん患者４０人の細胞のプロテオームを測定し、うち２２人のデータから部分最小自乗法診断モデルを構築し、悪性度を説明した（Ｉｎｔ．Ｊ．Ｃａｎｃｅｒ，８６，７３１−３６（２０００）；Ｅｌｅｃｔｒｏｐｈｏｒｅｓｉｓ，２１，１２１０−１７（２０００）；国際公開ＷＯ００／７０３４０）。その際、全変数モデルにおいて１５５３変数からｌｏａｄｉｎｇの大きな１７０変数に限定することによって交差検証成績がよくなり（Ｑ^２＝０．８４）、残り１８患者の深刻度（３段階）を１１／１８の比率で正答した。交差検証法がモデル構築の際の指標になるという考えが表明されている。しかし、この方法では、ｌｏａｄｉｎｇを得る際にまず全変数モデルが成立しなければならない。また、それ以外の変数選択手法が考案されていない。
Ｊ．Ｋｈａｎらは、ＤＮＡチップによって小児がん患者の細胞を測定し、ニューラルネットワークによって悪性度を説明した（ＮａｔｕｒｅＭｅｄｉｃｉｎｅ，７（６），６７３−７９（２００１））。小児がん（ＳＲＢＣＴ）患者８８人のトランスクリプトーム（６５６７遺伝子）を測定し、うち６３人のデータから主成分分析によって１０次元に圧縮し、次に、人工ニューラルネットワーク診断モデルを構築した。ここで、影響力のある上位遺伝子を交差検証法によって絞り込み、９６遺伝子で最良の成績（１００％）を得た。このモデルで残り２５人を予測し、９３〜１００％の結果を得た。しかし、この方法でも、影響力を得る際にまず全変数モデルが成立しなければならない。またそれ以外の変数選択手法が考案されていない。１０次元のような少ない変数の場合を扱えるが、変数の数が膨大な場合には適用できない。
また、最近になってＤＮＡチップの解析に部分最小自乗法を用いる研究がＤ．Ｍ．ＲｏｃｋｅとＤ．Ｖ．Ｎｇｕｙｅｎによって報告されるに至った（国際公開ＷＯ０２／２５４０５；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１８（１），３９−５０（２００２）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１８（９），１２１６−２６（２００２）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１８（１２），１６２５−３２（２００２））。部分最小自乗法の潜在変数を線型判別分析などの多変量解析の説明変数として用いた場合に良好な結果が得られることが報告されている。これは部分最小自乗法が次元圧縮とモデルフィットを同時に行なうことのできる方法であるために可能となったものである。報告に示された実施例では部分最小自乗法がＤＮＡチップ情報のモデル構築方法として優れたものであることが示されている。しかし報告においては重要な遺伝子発現量を選抜する手段としての最小自乗法の適用については触れられておらず、事前の前処理によって選択された説明変数を全て用いて解析が行なわれているという点において上述のＡ．Ａｌａｉｙａらの研究と同様の課題を含んでいる。
従来の診断マーカーでは情報が不足している場面でも、遺伝子発現情報を活用することで、より精度（解像度）の高い診断が可能になるという期待も出てきている。遺伝子発現状態の測定結果は、膨大な情報量が得られることが従来にはなかった特徴であり、逆に情報量が多いために、効果的なデータ処理なくしてデータの活用はありえない。したがって、有用な知識を獲得するためには効果的な情報処理が欠かせない。前に説明したように、現状ではクラスター解析を中心とする方法が用いられているが、主成分分析などの方法も採用されている。クラスター解析や主成分分析は、教師付学習方法ではないため、病状の因果関係（相関関係）のモデルを得ることはできない。すなわち、どの遺伝子がどの程度重要かを解析結果から得ることができないのが難点である。一方、部分最小自乗法は次元圧縮とモデルフィットを同時に行なう強力な多変量解析手法であるが、変数の数が膨大になった場合にしばしば有意な結果が得られない事態に直面する。したがって、膨大な遺伝子発現情報などから有用な知識を獲得できるような効果的な情報処理が望まれている。また、そのような情報処理の結果を基にした効率的な測定機材、検定処理などが期待されている。
発明の開示
（発明が解決しようとする技術的課題）
この発明の目的は、多変量の遺伝子発現情報、細胞内物質情報の効果的な情報処理を提供することである。
また、この発明の目的は、効率的な検定処理を提供することである。
（その解決方法）
本発明に係るデータ解析装置は、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とする相関モデルを決定するデータ解析装置であって、生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および／または細胞内物質の量からなるサンプルの集合を入力する入力手段と、（１）説明変数を選択する選択手段と、（２）部分最小自乗法を実行して交差検証成績を計算する計算手段または上記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手段と、（３）上記（２）の計算手段の結果を評価し、説明変数の採用、不採用を判定する評価判定手段とを有し、（４）上記（１）の選択手段と上記（２）の計算手段と上記（３）の評価判定手段とを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定手段とからなる。選択手段は、たとえば、説明変数を逐次取捨選択したり、遺伝的アルゴリズムを用いて説明変数を選択する。計算手段は、たとえば、１個のサンプルを逐次除外したり、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算する。評価判定手段は、たとえば、計算手段の結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、当該誤差の代表値が小さくなった場合に、その交差検証成績が改善されたと判定し、説明変数を取捨選択しながら交差検証成績の評価判定を繰り返す。あるいは交差検証成績ではなく、少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数が改善するかどうかを評価判定の基準として用いることもできる。決定手段は、たとえば、選択手段と計算手段と評価判定手段とを繰り返し実行して部分最小自乗法モデルの交差検証成績を改善し続けて部分最小自乗法モデルを決定する。また、選択手段と計算手段とを複数のコンピュータで実行させることもできる。こうして、相関モデルを構成するとき、交差検証成績を基準に最適化させることにより説明変数を取捨選択し、説明変数の次元を減らして良好なモデルを得る。
上述の、仮定した分布に基づいた変換または仮定を前提としない変換は、生体の状態の変化の確率が説明変数の多項式で解析できるようにするために行なうものである。分布を仮定した場合には、確率を対数変換後に負の数にしたものを状態の変化を観測した時間で割るという変換、確率を対数変換後に負の数にしたものをさらに対数にしたものを状態の変化を観測した時間で割るという変換、または確率を１より減じたものをプロビット変換したものを計算して状態の変化を観測した時間で割るという変換などが考えられる。一方、分布を仮定しない場合にはロジット変換といった方法が考えられる。変換の方法は分布にどのような仮定が成り立つかどうかあるいはなりたたないかどうかを判断することにより、それぞれの場合に応じて適切に選ぶことができる。少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数としては、たとえば、前記誤差の代表値と選抜された説明変数の数の関数が考えられ、あるいはその他の独立変数を含むものであってよい。望ましくは、関数は誤差の代表値の単調減少関数であり、説明変数の数の単調減少関数である。計算量を増やさないためには簡単に計算できる関数が望ましい。具体的には−ＰＲＥＳＳ×ａｌｐｈａ^ＮＰという関数が考えられる。ここでＰＲＥＳＳは予測残差自乗和であり、ＮＰは採用された説明変数の数であり、ａｌｐｈａは１または１より大きい実数である。また、−ＰＲＥＳＳ×（ＮＰ＋ｂｅｔａ）^{ｇａｍｍａ}や−ＰＲＥＳＳ×（ｂｅｔａ−ＮＰ）^{−ｇａｍｍａ}なる関数も考えられる。ここで、ｇａｍｍａは正の実数である。
説明変数の個数を少なくすると、通常の統計的手法または多変量解析手法が適用可能になる。本発明では部分最小自乗法を用いて選抜された説明変数を統計手法又は多変量解析手法の説明変数として、より良好なモデルを得る。或いは選抜された説明変数を用いた部分最小自乗法モデルの潜在変数を統計手法又は多変量解析手法の説明変数として、より良好なモデルを得る。ここで潜在変数とは、部分最小自乗法において通常用いられているものであって、目的変数（Ｙｉｌ）と説明変数（Ｘｉｊ）の背後に共通する次元数の少ない潜在変数（Ｔｉｋ）を抽出することが部分最小自乗法の次元圧縮であり、モデルフィットである。
Ｙｉｌ＝Σ Ｑｋｌ×Ｔｉｋ＋Ｆｉｌ
Ｘｉｊ＝Σ Ｐｋｊ×Ｔｉｋ＋Ｅｉｊ
（ｉはサンプル番号、ｌは目的変数番号、ｊは説明変数番号、ｋは潜在変数番号、Ｆ，Ｅは残差）
また、統計的手法又は多変量解析手法としては、重回帰分析法、線型判別分析法、適応最小自乗法、ロジスティック回帰分析法、比例ハザード解析法、マハラノビス距離を用いる判別分析法、ｋＮＮ法、人工ニューラルネットワークなどが挙げられる。
本発明者等は、また、Ｑ^２やＰＲＥＳＳ値などの交差検証成績に加えて、説明変数の個数を第２の独立変数として含む関数を最適化することで選抜される説明変数を任意に絞り込むことができることを新たに見出した。通常の統計的手法や多変量解析手法では、抽出される説明変数の個数ＮＰの望ましい範囲がサンプル数との兼ね合いで決まっている場合がある。そのような場合、関数を、目的とする選抜数によって任意に変更できる。関数形をたとえば−ＰＲＥＳＳ×ａｌｐｈａ^ＮＰとした場合、説明変数の個数を数個から数十個に絞り込むためには通常は定数ａｌｐｈａとして１．０〜３．０の値が望ましい。より望ましくは、ａｌｐｈａは１．０〜２．０の値となる。他の関数形ｆ（ＰＲＥＳＳ，ＮＰ）であっても、実際に選択される説明変数の数ＭＰおよびその時のＰＲＥＳＳ値ＰＲＥＳＳ＿ＭＰの周辺で、ｆ（ＰＲＥＳＳ＿ＭＰ÷ａｌｐｈａ，ＭＰ＋１）≒ｆ（ＰＲＥＳＳ＿ＭＰ，ＭＰ）となるような関数は、変数選択という点では同様の効果を持つ場合がある。こうして、適当な関数形を用いることにより、望ましい範囲の個数ＮＰの説明変数を選抜できる。このようにして、交差検証成績を用いて決定されたモデルに採用されている説明変数をさらに絞り込むと、統計的手法又は多変量解析手法によるモデルを構築できる。したがって、その性質が十分解明されている統計的手法又は多変量解析手法を採用して解析を加えることができる。
また、目的変数として、時間とともに確率的に発生する生体の状態の変化から導出された量を用いて、時間とともに確率的に発生する生体の状態の変化と複数の遺伝子発現の量および／または細胞内物質の量との相関モデルを決定できる。「時間とともに確率的に発生する生体の状態の変化」とはたとえば生存時間である。ここで、前述の部分最小自乗法に、カプラン・マイヤー法又はカトラー・エデラー法と、ロジット（ｌｏｇｉｔ）変換とを組み合わせる。部分最小自乗法での目的変数は、時間とともに確率的に発生する生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算し、これをロジット変換した値である。ロジット（ｌｏｇｉｔ）値とは、分類分けされたデータの、ある分類の割合（確率）Ｐを基に、次式ｌｏｇｉｔ＝ｌｏｇ｛Ｐ／（１−Ｐ）｝にて計算される値である。ロジット値を目的変数とする部分最小自乗法を実行して交差検証成績を計算する。こうして、先に説明したのと同様に、部分最小自乗法の交差検証成績を考慮した説明変数の抽出を行って、生存時間解析を行える。
説明変数の個数を少なくすると、通常の統計的手法または多変量解析手法が適用可能になる。そこで、決定されたモデルに採用されている説明変数又はその潜在変数を用い、時間とともに確率的に発生する生体の状態の変化を説明する統計的手法又は多変量解析手法によるモデルを構築する。たとえば、ロジット値を目的変数として求めた説明変数を用いて、他の統計的手法又は多変量解析手法（たとえば比例ハザード法や、パラメトリックな分布にあてはめた回帰分析法）を行なうことによって、より良好なモデルを得ることができる。比例ハザード法とは、Ｃｏｘによって考案された方法であり、生存率の解析に時間を考慮し、かつ、多変量を扱える。比例ハザード法では、観測されている個々ごとにハザード値と呼ばれる生存率を左右する値があり、それを導く関数がある（モデルが仮定されている）として解析される。カプラン−マイヤー法は、集団全体または群ごとの生存率の推移を示す。また、パラメトリックな分布とは、ガウスが提案した正規分布から計算された確率分布のことであり、生存時間解析では指数分布、ワイブル分析、対数正規分布が用いられる。指数分布などへの当て嵌めで、数式中に多項式があり、前述の部分最小自乗法の交差検証成績を考慮した説明変数の抽出が適用される。
入力手段で説明変数として入力される複数の遺伝子の発現量および／または細胞内物質の量とは、必ずしも物質の絶対的な濃度の測定値に限定されるものではなく、加工計算された値、相対的な値、間接的に物質量を表す量などでもよい。たとえば、質量スペクトルで蛋白質の発現量を測定することができることを応用して、生体の状態を表わす目的変数と、質量スペクトルとを直接関係づける相関モデルを構築することができる。またＡｆｆｙｍｅｔｒｉｘ社タイプのＤＮＡチップ（ジーンチップ）では、単一のスポットが単一の遺伝子発現を特定するとは限らず、複数個のスポットが集まってはじめて単一の遺伝子発現を特定することもある。ここでもまた、各スポットの測定量を説明変数として、直接、生体の状態を説明する相関モデルを得ることができる。更には、タンパク質の電気泳動パターンの各ピークは単一のタンパク質に帰属できず、複数個のタンパク質の重ねあわせであることも多い。このような場合にも生体の状態を説明する説明変数として各ピーク強度を用いることができる。このことは、上述のＡｌａｉｙａらは子宮癌の診断の説明変数として電気泳動パターンのピーク強度を採用していることから明らかである。前述のようにポストシークエンス時代のトランスクリプトーム解析、プロテオーム解析、メタボローム解析という研究分野では、生体（細胞）内の物質を総体として把握することから出発することを特徴とする実験的アプローチが注目されている。ひとつひとつの物質の絶対的定量は必須事項ではなく、これらの実験方法によって定量される物質の量を直接、間接に表現する測定値やその加工計算値が、生体の状態を説明する説明変数と成り得る。また以上の物質量を表現する説明変数以外に、場合によっては問診データなどの他の説明変数を追加すると、さらに有効な解析結果が得られる場合もある。
本発明に係るデータ解析方法は、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とする相関モデルを決定するデータ解析方法であって、生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および／または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、（１）説明変数を選択する選択ステップと、（２）部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、（３）前記（２）の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、（４）前記（１）の選択ステップと前記（２）の計算ステップと前記（３）の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステップとからなる。
このデータ解析方法において、選択ステップは、たとえば、説明変数を逐次取捨選択したり、遺伝的アルゴリズムを用いて説明変数を選択する。計算ステップは、たとえば、１個のサンプルを逐次除外したり、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算する。評価判定ステップは、たとえば、計算ステップの結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、当該誤差の代表値が小さくなった場合に、その交差検証成績が改善されたと判定し、説明変数を取捨選択しながら交差検証成績の評価判定を繰り返す。決定ステップは、たとえば、選択ステップと計算ステップと評価判定ステップとを繰り返し実行して部分最小自乗法モデルの交差検証成績を改善し続けて部分最小自乗法モデルを決定する。また、選択ステップと計算ステップとを複数のコンピュータで実行させることもできる。
本発明に係るデータ解析プログラムは、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とする相関モデルを決定する、コンピュータにより実行されるデータ解析プログラムであって、生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および／または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、（１）説明変数を選択する選択ステップと、（２）部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、（３）前記（２）の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、（４）前記（１）の選択ステップと前記（２）の計算ステップと前記（３）の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステップとからなる。
このデータ解析プログラムにおいて、選択ステップは、たとえば、説明変数を逐次取捨選択したり、遺伝的アルゴリズムを用いて説明変数を選択する。計算ステップは、たとえば、１個のサンプルを逐次除外したり、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算する。評価判定ステップは、たとえば、計算ステップの結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、少なくとも当該誤差の代表値を独立変数として持つ関数である当該誤差の代表値の単調減少関数の値が小さくなった場合に、その交差検証成績が改善されたと判定し、説明変数を取捨選択しながら交差検証成績の評価判定を繰り返す。決定ステップは、たとえば、選択ステップと計算ステップと評価判定ステップとを繰り返し実行して少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する。また、選択ステップと計算ステップとを複数のコンピュータで実行させることもできる。さらには、前記の説明変数の選択において、たとえば、初期状態では説明変数を全く含まないか、或いは、初期状態では全説明変数を含むこともできる。
前記のデータ解析プログラムにおいて、上記の生体の状態は、たとえば病気のタイプをあらわす測定値、病気の重篤度をあらわす測定値、病気のタイプをあらわす医療診断の結果、病気の重篤度をあらわす医療診断の結果、あるいはそれらを２次加工した数値である。例えば後の実施例で示すように、患者の生存時間を予測することは、ＱＯＬ（ｑｕａｌｉｔｙｏｆｌｉｆｅ：生活の質）を含めた治療計画や人生設計などを判断する上で重要な情報をもたらすものであり、社会的に価値のある診断モデルを提供することができる。また癌の再発可能性を予測することは、ＱＯＬを考慮した治療計画を立案し、医師または当の患者が選択の判断をするうえで、貴重な情報をもたらすものである。
また、本発明は、決定された前記相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力手段と、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定手段からなるデータ解析装置、前記で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステップからなるデータ解析方法及び前記で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステップからなるデータ解析プログラムも包含する。
本発明に係るコンピュータにより読取可能な記録媒体は、上記のいずれかのプログラムを記録する。
本発明に係るびまん性大細胞型Ｂリンパ腫の重篤度検定用の細胞内物質測定機材および測定方法並びにびまん性大細胞型Ｂリンパ腫の重篤度検定方法は、実質的にジーンバンクアクセッション番号がＵ１５０８５、Ｍ２３４５２、Ｘ５２４７９、Ｕ７０４２６、Ｈ５７３３０及びＳ６９７９０からなる遺伝子群の発現を検出する。さらに、ジーンバンクアクセッション番号がＵ０３３９８、Ｍ６５０６６、ＡＫ００１５４６、ＢＣ００３５３６、Ｘ００４３７、Ｕ１２９７９、Ｈ９６３０６、ＡＡ８３０７８１及びＡＡ８０４７９３からなる群から選択される少なくとも一つの遺伝子の発現を検出してもよい。
また、本発明に係る乳癌の重篤度検定用の細胞内物質測定機材および測定方法並びに乳癌の重篤度検定方法は、実質的にジーンバンクアクセッション番号がＡＡ５９８５７２、ＡＡ７０３０５８及びＡＡ４５３３４５からなる遺伝子産物を含む細胞内物質を検出する。さらに、ジーンバンクアクセッション番号がＡＡ４０６２４２、Ｈ７３３３５、Ｗ８４７５３、Ｎ７１１６０、ＡＡ０５４６６９、Ｎ３２８２０及びＲ０５６６７からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出してもよい。
また、本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法は、実質的にジーンバンクアクセッション番号がＷ８４７５３、Ｈ０８５８１、ＡＡ０４５７３０及びＡＩ２５０６５４からなる遺伝子産物を含む細胞内物質を検出する。さらに、ジーンバンクアクセッション番号がＡＡ４４８６４１、Ｒ７８５１６、Ｒ０５９３４、ＡＡ６２９８３８及びＨ５３０３７からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出してもよい。
また、本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法は、実質的にジーンバンクアクセッション番号がＡＡ４３４３９７、Ｔ８３２０９、Ｎ５３４２７、Ｎ２９６３９、ＡＡ４８５７３９、ＡＡ４２５８６１、Ｈ８４８７１、Ｔ６４３１２、Ｔ５９５１８及びＡＡ０３７４８８からなる遺伝子産物を含む細胞内物質を検出する。さらに、ジーンバンクアクセッション番号がＡＡ４０６２３１の遺伝子産物を含む細胞内物質を検出してもよい。
また、本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法は、実質的にジーンバンクアクセッション番号がＨ１１４８２、Ｔ６４３１２及びＡＡ０４５３４０からなる遺伝子産物を含む細胞内物質を検出する。
細胞内物質測定機材としては、ＤＮＡマイクロアレイ、ジーンチップ、オリゴＤＮＡ型のＤＮＡチップ、電気化学ＤＮＡチップ（ＥＣＡチップ）、繊維型ＤＮＡチップ、磁性ビーズＤＮＡチップ（ＰＳＳ）、糸巻きＤＮＡチップ（ＰＳＳ）、などのＤＮＡチップ、マクロアレイ、抗体チップ、測定用試薬キットなどが挙げられる。また、上記の機材を適宜組み込んだ測定機械であってもよい。
発明を実施するための最良の形態
以下、添付の図面を参照して本発明の実施の形態を説明する。
以下に、選択された生体の状態と遺伝子発現の量および／または細胞内物質の量との相関モデルの決定について説明する。ここで、遺伝子発現の用語は、ｍＲＮＡ発現（トランスクリプトーム）や、ｍＲＮＡによる翻訳の結果として生じる蛋白質（プロテオーム）を含むものとして用いる。また、細胞内物質の量とはここではたとえば、代謝中間体を含めた代謝産物全部であるメタボロームを意味する。たとえば、トランスクリプトーム（ｍＲＮＡ）やプロテオーム（蛋白質）の解析において、各サンプルデータは、生体の状態と遺伝子発現の量などからなる。各サンプルはたとえば１０００個以上の膨大な遺伝子発現の量を含む。生体の状態は、たとえば病気のタイプまたは病気の診断指標であるが、より一般的には生体情報であればよい。「病気の診断指標」には、病気の進行度合いのほか、病気のタイプ、重篤度、深刻度などの表現で表わされるものも含む。ここで、遺伝子発現の量などの測定データは膨大な情報量からなるので、コンピュータを用いた効率的な多変量解析が必要である。
データ収集において、予めいくつかのサンプルについて生体の状態（たとえば診断指標）を判定し、また、そのサンプルされたものから細胞液を獲得し、その細胞液中の多くの遺伝子産物の発現の量などを測定する。本発明の実施の形態のデータ解析では、こうして得られた遺伝子産物の発現の量などと生体の状態（たとえば診断指標）を入力し、相関モデル（たとえば部分最小自乗法モデル）を得る。ここで、コンピュータによる多変量解析プログラムを用いて、診断指標を目的変数とし、遺伝子発現の量および／または細胞内物質の量を説明変数とする因果関係型の解析を行なって、各説明変数の重要性や影響度に関する情報を得る。また、前記目的変数は、必ずしも測定値そのものである必要はなく、ロジット変換を行なった値や群を表す離散値を用いても良く、その場合、より有意な解析結果を得ることもできる。
本発明者らは、遺伝子発現による医療診断という分野において、データ解析における交差検証（ｃｒｏｓｓｖａｌｉｄａｔｉｏｎ）の成績を少なくとも独立変数のひとつとして持つ関数を最適化するように変数を選択することによって良好な相関モデル（たとえば部分最小自乗法モデル）が得られることを見出した。交差検証法では、手持ちのデータを複数群に分割し、その一部のデータ群（訓練集合）だけを使ってフィットしたモデルを用いて残る別のデータ群（テスト集合）を予測することによって、モデルの予測力を試す。通常の部分最小自乗法（ＰＬＳ）においては潜在変数の次元選択に交差検証法が用いられているが、ここでは、部分最小自乗法において、潜在変数を１次元に固定し、１以上の入力変数（説明変数）を逐次取捨選択しながら、交差検証成績（たとえば平方和の予測誤差）を少なくとも独立変数のひとつとして持つ関数を最適化した。ただし本発明の効果は潜在変数の次元を１に限定するものではない。その結果、全変数を採用した場合には有意な相関モデルを得られなかった場合にも、良好でかつ予測力のある相関モデルが得られることが判明したのである。この交差検証法を用いた変数選択の逐次取捨選択により、安定な相関モデルが得られる。また本発明者らは、関数形を適切に設定することによって説明変数を絞り込むことにより、部分最小自乗法以外の統計学又は多変量解析の良好な相関モデルを得ることが可能となり、それぞれ生体の状態を記述する目的変数にふさわしい相関モデルを得ることができることを見出した。なお、ここでいう「最適化」とは、交差検証成績が、説明変数を取捨選択するための、そのときの解析条件の範囲で、改善がみられなくなるまで改良したことを意味しており、交差検証成績がすべての説明変数の組合せの中で最適なものを見出したという意味ではない。この変数選択手法を用いると、病状を決定する因子を少数に特定し、廉価な診断用材料（ＤＮＡチップ、抗体チップ、ＤＮＡ含有ベクターなど）を設計でき、それ自体独自の価値を持つものである。また、この変数選択手法は、予め設定される各種の変数選択条件と共に運用することが可能である。
上に述べたように、説明変数は、交差検証成績を基準に逐次取捨選択される。ここで、取捨選択のため、交差検証成績を少なくとも独立変数のひとつとして持つ関数を用いる。説明変数を追加する場合は、その説明変数について、前記関数が改善されなかったと判定された場合には当該説明変数を除外し、改善されたと判定された場合には当該説明変数を追加する。また、説明変数を除外する場合は、その説明変数について、前記関数が改善されなかったと判定された場合には当該説明変数を除外せず、改善されたと判定された場合には当該説明変数を除外する。ここで、１以上の説明変数を選択した場合に、交差検証成績評価は次のように進める。ｎ個のサンプルからいくつかのサンプルを逐次除外して部分最小自乗法モデルを求め、各モデルにおいて除外したサンプルの遺伝子発現の量から予測される生体の状態を示す目的変数と、除外したサンプルの生体の状態を示す目的変数との各々の誤差の代表値を求める。「代表値」とは、和、平均、最大値、中位値、最頻値などのデータを特徴づける値をいう。そして、当該誤差の代表値を少なくともひとつの独立変数とする関数が小さくなった場合に、交差検証成績が改善されたと判定し、当該説明変数を追加または削除する。この交差検証成績評価を、説明変数を取捨選択しながら逐次繰り返して、前記関数を改善し続ける。改善されなくなれば交差検証成績を最適化したとして説明変数の取捨選択を終了する。その結果、取捨選択により絞り込んだ数の説明変数からなる最適な部分最小自乗法モデルが得られる。具体的には、計算手段において計算される交差検証成績の数値指標として予想残差自乗和（ＰＲＥＳＳ）を採用し、評価判定手段において予想残差自乗和の値が説明変数あたり一定の閾値以下の比率で小さくなる場合に、その説明変数を採用すると判定することにより、上記の処理は実行可能である。
因果関係型の解析手法においてはオーバーフィット（ｏｖｅｒｆｉｔｔｉｎｇ）を避けるための工夫が必要となる。ここでいうオーバーフィットとは、説明変数が多すぎるためにたまたま予測結果と実績とが一致するものの、本当の相関関係をとらえ損なっているため、モデルフィットに用いたデータ以外に予測能力を持たないことをいう。ここでは、相関モデルとして部分最小自乗法を用いるが、部分最小自乗法は次元圧縮とモデルフィットを同時に行なう強力な多変量解析手法であり、オーバーフィットの問題に比較的強いとされている。しかし遺伝子発現状態解析のように膨大な変数を扱う場合には、有意な結果が得られない事態に直面する。従来技術として説明したＡｌａｉｙａやＫｈａｎの手法は全変数モデルが有意に成立することを前提としているので、変数の絞込みには一般的には適用できない。これに対し、本発明では、交差検証予測結果を最適にするように変数を絞り込むことにより、オーバーフィットを減らすことができた。また、本発明は、前記Ｋｈａｎの手法とは異なり、主成分分析などの前処理を介さない方法である。従来技術では、説明変数が膨大な場合には、有意なモデルを得ることができないことから、予め、全説明変数を基にたとえば、主成分分析などで次元圧縮する前処理をし、これによって得られた説明変数によって解析する方法が用いられる。しかし、この方法では、構成したモデルで予測を行なうためには、モデル構成の基となった全説明変数が必ず必要となり、たとえば、説明変数が遺伝子発現の量であれば、診断用遺伝子チップに担持する遺伝子としては、モデル構成に用いた遺伝子の全てが必要となるか、または別の手法を用いて変数選択することが必要となる。一方、本発明においては、説明変数の選択によって説明変数を絞り込んでいるので、たとえば、説明変数が遺伝子発現の量であれば、診断用遺伝子チップに担持する遺伝子は、選択された説明変数に相当する遺伝子を担持すれば良いことになる。
なお、Ｔｏｄｅｓｃｈｉｎｉらは、有機化合物の大気中の分解を予測するため、遺伝的アルゴリズムによって交差検証成績を最適化するように変数選択を行ない、重回帰モデルを得ている（Ｐ．Ｇｒａｍａｔｉｃｓ，Ｖ．Ｃｏｎｓｏｎｎｉ＆Ｒ．Ｔｏｄｅｓｃｈｉｎｉ，Ｃｈｅｍｏｓｐｈｅｒｅ３８（５），１３７１−７８（１９９９））。５３化合物と１７５記述子でモデル構築を行ない（Ｑ^２＝０．７９）、７変数が選択され、９８化合物の予測を行なった（Ｑ^２＝０．７５）。交差検証成績を最適化するように変数選択を行なっている点では、本実施形態と同様の手法である。しかし、重回帰モデルを採用しているために、説明変数の選択過程を通じて選択される変数は少数個にとどまらざるを得ず、複数の遺伝子発現の量および／または細胞内物質の量の解析には適用できない。本発明者らの調査した範囲では、Ｑ^２やＰＲＥＳＳ値を最適化する方法では、選抜される説明変数は百程度から数百程度にわたり、重回帰モデルでは解析が不能となる。またＴｏｄｅｓｃｈｉｎｉらは、説明変数を絞り込むための有効な方法について言及していない。これは、もともとの説明変数の候補がたかだか１７５個であり、説明変数を絞り込むために特別の工夫をする必要がないからである。遺伝子発現解析の分野はこれとは全く異なり、数十から数百のサンプル数に対して、数百から数千、数万の説明変数候補が存在する。したがってこれまでとは異なる工夫が必要となる。
本実施形態では、生体の状態と複数の遺伝子発現の量および／または細胞内物質の量との相関モデルを決定するとき、交差検証成績を少なくとも独立変数のひとつとして持つ関数を最適化させるように説明変数を逐次追加・除外することによって、説明変数を選抜して、良好な相関モデルを得る。このようなアプローチの優位性は、下記の実施例から推測されるように、次のとおりである。
１）病気や生体現象の背後で働いている重要な遺伝子やメカニズムを推定／特定でき、理解が深まる。
２）重要な遺伝子産物や細胞内物質だけに絞った廉価な診断用材料（ＤＮＡチップ、抗体チップなど）の設計が可能になる。
本実施形態では、交差検証成績を少なくとも独立変数のひとつとして持つ関数を最適化するように説明変数を段階的に取捨選択するが、たとえば具体的には、ステップワイズ（ｓｔｅｐｗｉｓｅ）法に代表される説明変数を選択する選択手段と、リーブ・ワン・アウト（ｌｅａｖｅ−ｏｎｅ−ｏｕｔ）法に代表される交差検証法に部分最小自乗法を適用して計算する計算手段と、前記計算手段の結果を評価し、説明変数の採用、不採用を判定する評価判定手段とを組合せて用いる。すなわち、ｍ個の説明変数の中から１以上の説明変数を選択し、次いで、部分最小自乗法を実行して交差検証成績を計算し、さらに、該計算結果を評価して、選択した説明変数の採用、不採用を判定する。この評価判定では、計算手段の結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、少なくとも当該誤差の代表値を独立変数として持つ関数である当該誤差の代表値の単調減少関数の値が小さくなった場合に説明変数の取捨選択を判定する。このように、選択手段と計算手段と評価判定手段とを用いて、少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数を改善し続けて、その改善がみられなくなるまで改良し、部分最小自乗法モデルを決定する。なお、本実施形態では、サンプルを１個づつ逐次除外している（リーブ・ワン・アウト法）が、その代わりに、複数のサンプルを除外して交差検証成績を評価してもよい（リーブ・ｎ・アウト法）し、また、Ｋｈａｎｅｔａｌ．により用いられた３分割法（ｔｈｒｅｅ−ｆｏｌｄ）等の他の方法を用いることもできる。３分割法では、説明変数をランダムにシャッフルして３つのグループに分ける。その中の２つのグループを用いてモデルを構成し、残りの１つのグループでモデルを評価する。また、説明変数の選択方法としてはステップワイズ法、非線形アルゴリズム（たとえば遺伝的アルゴリズムなど）を用いてもよく、変数選択に関して予め何らかの条件が分っていれば、それに応じて探索範囲を限定できる。
次に、データの収集と解析について具体的に説明する。図１は、遺伝子発現解析システムを示す。データ収集のため、予めいくつかのサンプルについて診断指標（たとえば病気のタイプないし進行度合いを含む）を判定し、また、そのサンプルされたものから細胞液を獲得し、ＤＮＡチップを用いてその細胞液中の多くの遺伝子産物の発現の量を測定する。測定には、共焦点型レーザスキャナ（たとえばＡｆｆｙｍｅｔｒｉｘ社、４２８アレイスキャナ）１０を用いる。吸光度によりｍＲＮＡの量が測定される。このデータ収集は公知の方法である。測定データは、コンピュータ１２に送られ解析される。コンピュータ１２は、ＣＰＵ１４を備えた通常の構成のコンピュータであり、それに接続される記憶装置（たとえばハードディスク装置）１６の記録媒体（たとえばハードディスク）には、測定データ１８や解析ソフト２０が格納される。この解析ソフト２０を用いてデータ１８が解析され、生体の状態と遺伝子発現の量などとの相関モデルが決定される。
なお、説明変数の選択と、交差検証法に部分最小自乗法を適用する計算とを複数のコンピュータで実行させてもよい。交差検証予測の計算を複数個のコンピュータに分散させることで計算を加速することができる。
図２は、コンピュータ１２により実行される、生体の状態と遺伝子発現の量などとの相関モデルを得るためのデータ解析ソフト２０のフローチャートを示す。ここでは簡単に説明するため、少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数として−ＰＲＥＳＳを採用しているが、発明の範囲を限定するものでなく、実施例２〜５においては別の関数を採用している。まず、相関モデル作成用のデータを入力する（Ｓ１０）。データはたとえばＤＮＡチップを用いて収集したものである。入力データ（サンプル集合）は、それぞれ目的変数（たとえば診断指標）とｍ個（たとえば２０００個）の説明変数（たとえば遺伝子発現の量）からなる。また、場合によっては、上述のデータ（訓練集合）以外に、テスト集合のデータを入力する。ここでテスト集合とは交差検証の評価のためのデータ群を意味するのではなく、モデル決定が終了した後にモデルの予測力をテストするためのデータ群である。
まず、初期設定として、選択された説明変数の数を０とし、交差検証成績ＣＶの最良値ＣＶ_０を−∞とする（Ｓ１２）。次に、説明変数の選択を行う。まず、説明変数を指す番号ｉを１とし（Ｓ１４）、第ｉ変数（遺伝子発現の量）を仮に採用して（Ｓ１６）、部分最小自乗法を実行し、交差検証成績ＣＶを計算する（Ｓ１８、図３参照）。ここで、リーブ・ワン・アウト処理を用いる。これは、たとえば５０個のサンプルからなる訓練集合において、１番から５０番の全てを順次１個づつ除いて残りの４９個のサンプルで予測した結果と、その時除いた１個の結果とを比較し、その誤差が大きい場合に、仮に選択した説明変数（第ｉ変数）が適していないと判断する手法である。もし、得られた成績ＣＶが現在の最良値ＣＶ_０より最適化されれば（Ｓ２０でＹＥＳ）、第ｉ変数を採用し、かつ、成績ＣＶを新らしい最良値ＣＶ_０に更新する（Ｓ２２）。しかし、得られた成績ＣＶが最良値ＣＶ_０より大きくなければ（Ｓ２０でＮＯ）、第ｉ変数を採用しない（Ｓ２４）。そして、ステップＳ１４に戻り、同様の処理を繰り返す。この処理を交差検証成績ＣＶが改善されなくなる（Ｓ２６でＮＯ）まで繰り返す。ここで、相関モデルに採用する説明変数については１つづつ段階的に増加（追加）または減少（除外）して成績ＣＶを評価判定している。すなわち、全体としての合致度合いがよくなるように各説明変数を解析に加えるかどうかを逐次判定しながら、説明変数の取捨選択を行い、これを、全体としての合致度合いがよくならなくなるまで繰り返す。以上の処理で改善があると、ふたたびステップＳ１４の初め（ｉ＝１）に戻り、それまでに選択されている説明変数を基に、さらに説明変数の選択を繰り返す。なお、ここではモデルの予測力を判断するために、訓練集合とテスト集合とに予め分割しておいたデータ集合を用いてデータ解析しており、上述の解析は、訓練集合を用いて行なった結果であるので、この結果からテスト集合について予測を行い、実測データとの合致度を評価（Ｓ２８）している。このような評価は必ずしも必要でないが、予測力を判断するには有効である。
図３は、リーブ・ワン・アウト処理を含む交差検証成績ＣＶの計算（図２、Ｓ１８）のフローチャートを示す。ここで、選択された変数について交差検証成績が計算される。まず、ＰＲＥＳＳの初期値を０とする（Ｓ１８０）。次に、ｎ個の集合内のサンプルを指す番号ｊを１とし（Ｓ１８２）、第ｊサンプル以外のｎ−１個のサンプルで部分最小自乗法を実行し（Ｓ１８４）、第ｊサンプルの目的変数を予測する（Ｓ１８６）。差の自乗を計算してＰＲＥＳＳに加算する（Ｓ１９０）。次に番号ｊを１増加し（Ｓ１８２）、同様の処理をおこなう。これを番号ｊ＝ｎまで各サンプルについて繰り返す。得られたＰＲＥＳＳは、１個のサンプルを順次除外して計算した予測値と実測値との差の平方和であり、予測誤差を表わす量である。この予測残差自乗和ＰＲＥＳＳの符号を変えたものを交差検証成績ＣＶとする（Ｓ１９２）。
本実施形態では、交差検証法を用いて、入力変数（説明変数）を段階的に１つづつ追加・除外しながら、交差検証成績（ＣＶ＝−ＰＲＥＳＳ）を最適化する。ここで、説明変数の段階的な追加・除外の内容を理解しやすくするため、以下で、さらに具体的に５つのモデル構築手法について説明する。これらは、説明変数の逐次的な選択の手順が異なる。
図４は、第１のモデル構築手法を示す。データ集合においてどの説明変数も選択されていない状態を初期状態とする（Ｓ１１２）。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップ（Ｓ１１８）を繰り返しながら判定（Ｓ１２０）し、改善する場合にはその説明変数を追加する（Ｓ１１４〜Ｓ１２４）。そのような改善と追加がなくなる（Ｓ１２６でＮＯ）まで、１番目の説明変数から上記逐次判定操作を繰り返す。
さらに詳しく説明すると、まず、初期設定として、選択された説明変数の数ＮＰを０とし、交差検証成績ＣＶの最良値ＣＶ_０を−∞とする（Ｓ１１２）。次に、説明変数の選択を行う。まず、変数ｉを１とし（Ｓ１１４）、第ｉ変数を仮に採用する（Ｓ１１６）。ただし、第ｉ変数がすでに採用されていれば（Ｓ１１５でＹＥＳ）、ステップＳ１１４に戻る。次に、部分最小自乗法を実行し、交差検証成績ＣＶを計算する（Ｓ１１８）。ここで、リーブ・ワン・アウト処理を用いる。もし、得られた成績ＣＶが現在の最良値ＣＶ_０より最適化されれば（Ｓ１２０でＹＥＳ）、第ｉ変数を採用し、かつ、成績ＣＶを新らしい最良値ＣＶ_０に更新する（Ｓ１２２）。しかし、得られた成績ＣＶが最良値ＣＶ_０より大きくなければ（Ｓ１２０でＮＯ）、第ｉ変数を採用しない（Ｓ１２４）。そして、ステップＳ１１４に戻り、同様の処理を繰り返す。この処理を交差検証成績ＣＶが改善されなくなる（Ｓ１２６でＮＯ）まで繰り返す。以上の処理で改善があると、ふたたびステップＳ１１４に戻り、新しいループを開始する。ここで、それまでに選択されている変数を基に、さらに変数の選択を繰り返す。こうして、データ集合を用いて選択された変数を用いた相関モデルが得られる。
図５は、第２のモデル構築手法を示す。この手法では、全ての説明変数が選択されている状態を初期状態とする（Ｓ２１２）。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップ（Ｓ２１８）を繰り返しながら判定（Ｓ２２０）し、改善する場合にはその説明変数を除外する（Ｓ２１４〜Ｓ２２４）。そのような改善と除外がなくなる（Ｓ２２６でＮＯ）まで、１番目の説明変数から上記逐次判定操作を繰り返す。
さらに詳しく説明すると、まず、初期設定として、選択された説明変数の数ＮＰをｍとし、交差検証成績ＣＶの最良値ＣＶ_０を−∞とする（Ｓ２１２）。すなわち、すべての説明変数を選択する。次に、説明変数の選択を行う。まず、変数ｉを１とし（Ｓ２１４）、第ｉ変数を仮に除外する（Ｓ２１６）。ただし、第ｉ変数がすでに除外されていれば（Ｓ２１５でＹＥＳ）、ステップＳ２１４に戻る。部分最小自乗法を実行し、交差検証成績ＣＶを計算する（Ｓ２１８）。ここで、リーブ・ワン・アウト処理を用いる。もし、得られた成績ＣＶが現在の最良値ＣＶ_０より最適化されれば（Ｓ２２０でＹＥＳ）、第ｉ変数を除外し、かつ、成績ＣＶを新らしい最良値ＣＶ_０に更新する（Ｓ２２２）。しかし、得られた成績ＣＶが最良値ＣＶ_０より大きくなければ（Ｓ２２０でＮＯ）、第ｉ変数を除外しない（Ｓ２２４）。そして、ステップＳ２１４に戻り、同様の処理を繰り返す。この処理を交差検証成績ＣＶが改善されなくなる（Ｓ２２６でＮＯ）まで繰り返す。以上の処理で改善があると、ふたたびステップＳ２１４に戻り、新しいループを開始する。ここで、それまでに選択されている変数を基に、さらに変数の選択を繰り返す。こうして、データ集合を用いて選択された変数を用いた相関モデルが得られる。
図６は、第３のモデル構成手法を示す。この手法は、第１と第２の手法の直列的な組合せである。まず、どの説明変数も選択されていない状態を初期状態とする（Ｓ１１２）。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を追加選択し、そのような改善と追加がなくなるまで１番目の説明変数から上記逐次判定操作を繰り返す（Ｓ１１４〜Ｓ１２６）。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を除外し、そのような改善と除外がなくなるまで、１番目の説明変数から上記逐次判定操作を繰り返す（Ｓ２１４〜Ｓ２２６）。
図７は、第４のモデル構築手法を示す。この手法は、第３の手法の変形である。まず、どの説明変数も選択されていない状態を初期状態とする（Ｓ１１２）。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップ（Ｓ１１８）を繰り返しながら判定（Ｓ１２０）し、改善する場合にはその説明変数を追加選択する（Ｓ１１４〜Ｓ１２４）。そのような改善と追加がなくなる（Ｓ１２６でＮＯ）まで、１番目の説明変数から上記逐次判定操作を繰り返す。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップ（Ｓ２１８）を繰り返しながら判定（Ｓ２２０）し、改善する場合にはその説明変数を除外する（Ｓ２１４〜２２４）。そのような改善と除外がなくなる（Ｓ２２６でＮＯ）まで、１番目の説明変数から上記逐次判定操作を繰り返す。上記逐次判定追加改善ステップまたは上記逐次判定除外改善ステップで少なくとも一度改善があれば（Ｓ２２７でＹＥＳ）、ステップＳ１１２に戻り、上記操作（Ｓ１１２〜Ｓ２２７）を繰り返す。これを改善がなくなる（Ｓ２２７でＮＯ）までおこなう。
図８は、第５のモデル構築手法を示す。この手法は、第１と第２のスキームの並列的な組合せである。どの説明変数も選択されていない状態を初期状態とする（Ｓ１１２）。次に、１番目の説明変数から最後（ｍ番目）の説明変数までの説明変数ごとに逐次、その説明変数が選択されていない場合にはその説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップ（Ｓ１１８）を繰り返しながら判定（Ｓ１２０）し、改善する場合にはその説明変数を追加する（Ｓ１１４〜Ｓ１２４）。また、選択する説明変数ごとに、その説明変数がすでに選択されている場合には、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理を用いた交差検証成績評価ステップ（Ｓ２１８）を繰り返しながら判定（Ｓ２２０）し、改善する場合にはその説明変数を除外する（Ｓ２１６〜Ｓ２２４）。そのような改善と追加または除外がなくなる（Ｓ１２６でＮＯ）まで、１番目の説明変数から上記逐次判定操作を繰り返す。
次に、第４のモデル構築手法（図７）を適用した場合を、表１のデータ集合を例として説明する。このデータ集合に対して、部分最小自乗法による解析を用いて相関モデルを求める。表１のデータでは、サンプルの数ｎは１０であり、また、説明を容易にするため、説明変数の数ｍは１９と少なくしている。表１において、ｐ１は目的変数を表わし、ｐ２〜ｐ２０は説明変数を表わす。（ただし表１では、表示の便宜のため、ｐ１６以降のデータを省略している。）第４手法（図７）のステップＳ１１４、Ｓ２１４とは異なり、説明変数を表わすｉはｐ２０からｐ２まで逆に逐次処理することとした。ＣＶ評価値としてここでは予測残差自乗和（ＰＲＥＳＳ）を採用した。ＰＲＥＳＳが小さいほど、ＣＶ評価値はよい。初期状態では、採用された説明変数の数ＮＰは０であり、ＰＲＥＳＳ＝∞（ＣＶ_０＝−∞）である。

先に述べたように、変数はｐ２０からｐ２まで逆の順で処理する。表２は、表１のサンプルについて、左端の数字は、変数の取捨選択で改善がみられた１０の段階を示す。なお、０は初期状態を意味する。次の列の「追加」と「除外」は、追加のループと除外のループの処理であることを意味する。次の列の変数は、追加または除外された変数を示す。次の列は、交差検証成績（ＰＲＥＳＳをサンプル数で割ったもの）を示す。右端の列は、その段階で選択されている変数を示す。
初期状態では、変数は全くない状態であり、ＰＲＥＳＳは∞である。表２に示すように、最初、ｐ２０を説明変数として採用すると、ＰＲＥＳＳ＝０．１１１となり、初期値に比べて改善されるので、説明変数ｐ２０の追加を実施する。次に、変数ｐ１９を加えてｐ１９とｐ２０の２つを説明変数とすると、ＰＲＥＳＳ＝０．１２９となり改善をもたらさないので、ｐ１９は追加しない。次に、説明変数ｐ１８を加えるとＰＲＥＳＳ＝０．０９０となり、改善するので、ｐ１８を追加し、ｐ１８とｐ２０を説明変数とする。以下同様に表２に示すように続く。（ここで、ｐ１０を追加採用するのは、小数点以下４桁目で改善されているためである。）説明変数ｐ２０〜ｐ２の１回目のループを終了した時点で、説明変数がｐ３、ｐ６、ｐ１０、ｐ１６、ｐ１８およびｐ２０となり、ＰＲＥＳＳ＝０．６０となる。２回目のループでは、説明変数ｐ１２が追加され、ＰＲＥＳＳ＝０．５５となる。３回目のループでは追加による改善がなく、ひとまずＳ１１４〜Ｓ１２６の追加処理を終了し、Ｓ２１４に移る。この時点での部分最小自乗法のフィットならびにリーブ・ワン・アウト予測状況は表３のとおりである。
表３は、１０のサンプルについて、表２の７で示す段階まで処理が進んだ時点での部分最小自乗法のフィットならびにリーブ・ワン・アウト予測状況を示す。ここで、モデル予測とリーブ・ワン・アウト予測のそれぞれにおいて、計算値と実測値との誤差を示す。さらに、その下側に、誤差の自乗平均、相関係数Ｒの自乗および予測相関係数Ｑの自乗を示す。

次に、ステップＳ２１４から始まる除外処理の１回目のループにおいて、説明変数ｐ１０とｐ２０を除外することが改善をもたらした。２回目のループでは改善がなく、ステップＳ２１４〜Ｓ２２６を終了するが、ステップＳ２２７の判断により再度Ｓ１１２に戻る。次に、追加処理の１回目のループにおいて、Ｐ１３の追加だけが改善をもたらしたが、続く除外処理の１回目のループでは、改善がなかった。もう一度ステップＳ１１２に戻り、ステップＳ１１４〜Ｓ１２６およびステップＳ２１４〜Ｓ２２６では改善がなくなったのを確認して、処理を終了した。こうして選択された説明変数は、ｐ３、ｐ６、ｐ１２、ｐ１３、ｐ１６およびｐ１８の５個であり、ＰＲＥＳＳ＝０．０４８となった。詳細は表４のとおりである。
表４は、表２の段階１０まで処理が進んだ時点での部分最小自乗法のフィットならびにリーブ・ワン・アウト予測状況を示す。

なお、説明変数の数が多い時に強いとされる部分最小自乗法であるが、ｐ２０〜ｐ２の全てを説明変数として採用した場合には、表５に示すように、ＰＲＥＳＳ＝０．１２４となった。すなわち、リーブ・ワン・アウト処理は、平均値からの誤差（０．０９３）よりも悪い成績をもたらす。

実施例．
次に、実施例を挙げて本発明をさらに詳細に説明するが、本発明はこれらの例によって何ら限定されるものではない。
実施例１：部分最小自乗法の交差検証成績を考慮した特徴抽出によるＤＬＢＣＬ患者のデータ解析．
Ｐ．Ｏ．Ｂｒｏｗｎらのホームページ（ｈｔｔｐ：／／ｌｌｍｐｐ．ｎｉｈ．ｇｏｖ／ｌｙｍｐｈｏｍａ／）より入手した２８名のＤＬＢＣＬ（リンパ腫）患者のデータを、２０名のデータからなる訓練集合と８名のデータからなるテスト集合に分けた。目的変数に生存月数を採用し、説明変数には１８４３２スポットのうち、２８データにおいてｃｈ１、ｃｈ２ともに正の数となる１２８３２スポットのｌｏｇ（ｃｈ１／ｃｈ２）値を採用した。
訓練集合において部分最小自乗法（ＰＬＳ）のモデル決定を試みた。１２８３２変数全てを用いて部分最小自乗法の解析をしたところ、リーブ・ワン・アウト予測は有意（Ｑ^２＞０．５）にはならなかった。次にリーブ・ワン・アウト予測誤差が最小になるように説明変数を段階的に１つづつ増減した。モデル構成手法としては前述の第３のモデル構成手法において説明変数の追加及び除外の順番並びにリーブ・ワン・アウト処理におけるサンプルの除外の順番が異なるほかは同様な方法を用いた。すなわち、どの説明変数も選択されていない状態を初期状態とする（Ｓ１１２）。次に、最後（ｍ番目）の説明変数から最初（１番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理（ここでは、最後（ｎ番目）のサンプルから最初（１番目）のサンプルを逐次除外した）を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を追加選択し、そのような改善と追加がなくなるまでｍ番目の説明変数から上記逐次判定操作を繰り返す（Ｓ１１４〜Ｓ１２６）。次に、最後（ｍ番目）の説明変数から最初（１番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ・ワン・アウト処理｛ここでも最後（ｎ番目）のサンプルから逐次除外した｝を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を除外し、そのような改善と除外がなくなるまで、最後（ｍ番目）の説明変数から上記逐次判定操作を繰り返す（Ｓ２１４〜Ｓ２２６）。その結果、有意なモデル（Ｒ^２＝０．９８８、Ｑ^２＝０．８９５、ＮＰ＝３４２）を得た。図９は、このデータについての最小自乗法成績を示す。図９において、ひし形（ｆｉｔ）は訓練集合のデータ（２０人）を示し、三角（ｃｖ）は、それらについての交差検証成績のデータを示す。また、四角（ｔｅｓｔ）はテスト集合のデータ（８人）を示す。得られた部分最小自乗法モデルは、テスト集合のうち、４／８をきわめて良好に、また１／８を良好に予測するものであった。
なお、上述の多変量解析によるデータ解析では、扱ったサンプルはＤＮＡチップを用いて得たデータであった。しかし、このデータ解析は、ＤＮＡチップを用いて得たデータに限定されるものではなく、蛋白質発現量、細胞内物質の量などのデータに対しても有用であろうことは容易に推測されることである。
以下の実施例２〜７では、部分最小自乗法を用いて選抜した少ない個数の説明変数について、通常の統計的手法または多変量解析手法（比例ハザード法、重回帰分析、適応最小自乗法、ロジスティック回帰分析法、線型判別分析法など）を適用する。
実施例２：部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザード解析による２４０名のＤＬＢＣＬ患者の生存時間解析．
ＲｏｓｅｎｗａｌｄらがＷｅｂ上（ｈｔｔｐ：／／ｌｌｍｐｐ．ｎｉｈ．ｇｏｖ／ＤＬＢＣＬ／）で公開している２４０名のＤＬＢＣＬ（びまん性大細胞型Ｂリンパ腫）のデータセットをダウンロードして用いた。全データを訓練集合として利用した。スポットパターンでχ１またはχ２が０となるものを除いた７３９９スポットについてｌｏｇ（χ１／χ２）を計算して説明変数とした。本実施例では実施例１と異なり、生存時間として観測打切り時間と死亡時間とが混在していることを考慮してカプラン・マイヤー（Ｋａｐｌａｎ−Ｍｅｉｅｒ）法による生命表を適用して事象発生時点での生存確率（Ｐ_ＫＭ）を求め、ロジット変換（ｌｏｇ（Ｐ_ＫＭ／１−Ｐ_ＫＭ））した値を目的変数とした。カプラン・マイヤー法による生命表は集団としての生存確率を示すが、ここでは、個人ｊを含む集団としての事象発生時点での残存確率（変化の発生しなかったものが残存する確率）を個人ｊの事象発生時点での残存時間に読み代えるという新規な考え方を用いている。また、この確率をロジット変換して、変化の発生傾向を表現するロジット値に変換して、目的変数とした。訓練集合内の交差検証はリーブ・ワン・アウト法によって行ない、ＰＲＥＳＳ×１．０２^ＮＰが小さくなるようにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。ここで、交差検証成績（ＣＶ＝−ＰＲＥＳＳ）の代わりに、少なくとも交差検証成績を独立変数として持つ関数の１つである関数−ＰＲＥＳＳ×１．０２^ＮＰを改善して部分最小自乗法モデルを得た。ここでＰＲＥＳＳはリーブ・ワン・アウト予測の残差自乗和であり、ＮＰは、選択された説明変数の数である。
図７のフロー中の交差検証成績ＣＶを−ＰＲＥＳＳ×１．０２^ＮＰと読み換えて、処理を実行することにより、下記の１９個の遺伝子の発現が説明変数として選抜された。ここでｄａｔａＩＤはＷｅｂデータ元でのＩＤ番号を示す。またＡＣＣＥＳＳＩＯＮはＧｅｎＢａｎｋのアクセション番号であり、アクセション番号の無い行はデータ元でのみ明らかとなっている遺伝子（Ｕｎｋｎｏｗｎ）ないしＥＳＴであり、論文記載の方法によって入手することができる。

これらの遺伝子の発現を説明変数の候補として比例ハザード（ｈａｚａｒｄ）解析を試みた。比例ハザード法とは、生存率の解析に時間を考慮した統計的手法である。解析の実行はプログラムパッケージＪＭＰ（ＪＭＰＳａｌｅｓＳＡＳＣａｍｐｕｓＤｒｉｖｅＣａｒｙ，ＮＣ２７５１３ＵＳＡ）を用いて行なった。変数削除基準としてＰ≧０．０５を採用した変数減少法によって更に絞り込んだ結果、１４遺伝子の発現からなる以下の比例ハザード式が得られた。ここでＧｅｎｂａｎｋ（ジーンバンク）のアクセション番号ないしｄａｔａＩＤで示される各項は、各遺伝子のｌｏｇ（χ１／ｘ２）値であり、またＰは統計的な有意性が成り立たない危険率である。この式の右辺から求められるハザード値（ｈａｚａｒｄ）が大きいほど、死亡傾向が大きい。

Ｒｏｓｅｎｗａｌｄらは、単相関の比例ハザード解析を行なって、５群（１７遺伝子）の診断指標を選抜している。図１０に、本実施例で得られたハザード値（Ｈａｚａｒｄ、図中Ｈａｚａｒｄ（ｐｌｓ（１４））と示した）とＲｏｓｅｎｗａｌｄらの診断指標がどの程度、生存時間を説明できているかを比較した。Ｒｏｓｅｎｗａｌｄらの５群のパラメータを同時に用いた比例ハザード式ではＰｒｏｌｉｆｉｒａｔｉｏｎパラメータがＰ＞０．０５で統計的に有意でないなどの問題を有していため、これを除く４群のパラメータを同時に含めたハザード値も比較のために掲載した（図中Ｈａｚａｒｄ（Ｒｏｓｅｎｗａｌｄ／４ｐａｒａ）と示した）。ここで、菱形は死亡した人または打ち切った人のデータを示し、四角は生存している人のデータを示す。
これらの診断指標のうち、本実施例で求めたハザード値と生存時間との相関は際立って明白である。即ちハザード値は生存時間につれて減衰しており、大きなハザード値の患者は長く生きることが出来ないことが示されている。一方、Ｒｏｓｅｎｗａｌｄらの指標はいずれも生存時間を診断するには不十分なものである。数百、数千という数のパラメータの中から効率的に最適のパラメータセットを見出すことは比例ハザード解析だけではできないことである。しかし以上のようにカプラン・マイヤー法、ロジット変換、部分最小自乗法の交差検証成績を考慮した特徴抽出、比例ハザード解析を組み合わせることで、従来に無い、有効な診断指標を得ることができた。統計学的に異質なモデルをこのように組み合わせることによってこのような良好な結果が得られたことは意外でもあり、興味深いことであった。患者の生存時間を予測することは、ＱＯＬを含めた治療計画や人生設計などを判断する上で重要な情報をもたらすものであり、本実施例で求められた診断モデルは社会的に価値のあるものである。
また、変数削除基準としてＰ≧０．００１を採用した変数減少法によって更に絞り込むと、６遺伝子の発現からなる以下の比例ハザード式が得られた。このように、変数削除基準を変えることにより、選択される説明変数の数を制御できる。

図１１は、右辺を計算して求められるハザード値を縦軸とし、生存時間を横軸としたプロットを示す。図１０と同様に、図１１において、菱形は死亡した人または打ち切った人のデータを示し、四角は生存している人のデータを示す。
実施例３：部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザード解析による４０名の乳癌患者の生存時間解析．
ＳｏｒｌｅらがＷｅｂ上（ｈｔｔｐ：／／ｇｅｎｏｍｅ−ｗｗｗ．ｓｔａｎｆｏｒｄ．ｅｄｕ／ｂｒｅａｓｔ＿ｃａｃｅｒ／ｍｏｐｏ＿ｃｌｉｎｉｃａｌ／）で公開している乳癌患者のデータセットをダウンロードして用いた。全データを訓練集合として利用した。データセットの大部分は、タイプＡ，Ｂという２種類のＤＮＡチップで測定されたそれぞれ４０名、２４名の患者よりなるが、ここではタイプＡのデータを用いた。生存時間データより実施例２と同様にロジット値を求め、目的変数とした。説明変数としては、データに欠測のある遺伝子を除いた６８９１件のＬＯＧ＿ＲＡＴ２Ｎ＿ＭＥＡＮ値を採用した。そして、少なくとも交差検証成績を独立変数として持つ関数の１つである、交差検証成績と説明変数ＮＰの関数ＰＲＥＳＳ×１．１３^ＮＰが小さくなるようにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。図７のフロー中の交差検証成績ＣＶを−ＰＲＥＳＳ×１．１３^ＮＰと読み換えて、処理を実行することにより、下記の１０個の遺伝子の発現が説明変数として選抜された。

これらを説明変数の候補として、比例ハザード解析において変数削除基準としてＰ≧０．０５を採用した変数減少法を試み、７遺伝子の発現からなる以下の比例ハザード式が得られた。ここでアクセッション番号で示される各項はそれぞれの遺伝子のＬＯＧ＿ＲＡＴ２Ｎ＿ＭＥＡＮである。

図１２に、右辺を計算して求められるハザード値を縦軸とし、生存時間を横軸としたプロットを示す。ここでもハザード値が優れた診断指標となることが示されている。図１２において、菱形は死亡した人または打ち切った人のデータを示し、四角は生存している人のデータを示す。
変数削除基準としてＰ≧０．００１を採用した変数減少法によって更に絞り込んだ。これにより、３遺伝子の発現からなる以下の比例ハザード式が得られた。このように、変数削除基準を変えることにより、説明変数の数を制御できた。

図１３は、右辺を計算して求められるハザード値を縦軸とし、生存時間を横軸としたプロットを示す。ここで、菱形は死亡した人のデータを示し、四角は生存している人のデータを示す。
実施例４：部分最小自乗法の交差検証成績を考慮した特徴抽出と重回帰分析による４０名の乳癌患者の再発予測解析．
ＳｏｒｌｅらのＤＮＡチップＡで６８９１遺伝子の発現が測定された４０名の患者をデータセットとして用いた。再発の有無を目的変数として、ＰＲＥＳＳ×１．１０^ＮＰが小さくなるようにパラメータを逐次取捨選択して１１遺伝子の発現からなる部分最小自乗法モデルを得た。

次に、選抜された遺伝子発現を説明変数とし、再発の有無を目的変数として、通常の多変数解析法の一つである重回帰分析によって判別分析を実行した。解析の実行はプログラムパッケージＪＭＰを用いて行なった。変数削除基準としてＰ≧０．１５を採用した変数減少法によってさらに絞り込んだ結果、１０遺伝子の発現からなる以下の重回帰式が得られた。この式で計算されるＯＬＳ値が正の時は再発の可能性が高く、負の時は低い。

上式に含まれる各パラメータをそれぞれ１つ用いて判別分析式を作成した場合のＰ値及び決定係数を以下の表６に示す。

単独では有意とはならない（Ｐ＞０．０５）パラメータが３つ存在し、また、どのパラメータも決定係数が小さい。従って、パラメータを１つずつ吟味するだけでは、上式のような良好な判別式は得られなかった。また数百、数千という数のパラメータの中から効率的に最適のパラメータセットを見出すことは重回帰分析だけではできないことである。しかし、以上のように、部分最小自乗法の交差検証成績を考慮して特徴抽出することにより、従来に無い、有効な診断指標を得ることができた。乳癌の再発可能性を予測することは、ＱＯＬを考慮した治療計画を立案し判断するうえで、社会的に求められているところのものである。
実施例５：部分最小自乗法の交差検証成績を考慮した特徴抽出と適応最小自乗法による４０＋２４名の乳癌患者の再発予測解析．
ＤＮＡチップのタイプＡ（４０名）とタイプＢ（２４名）に共通する３４４８遺伝子に限って解析を試みた。ＰＲＥＳＳ×１．１７^ＮＰが小さくなるようにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。選抜された遺伝子発現を説明変数とし、適応最小自乗法によって判別分析を実行した結果、次式が得られた。次式で計算されるＡＬＳ値が０．５より大きいと再発の危険性が存在する。

下記の表７にみるように、Ｈ１１４８２は単相関では有意ではなく、他の変数と同時に用いることで初めて把握できたパラメータである。また、表８は、上式を用いてタイプＢの患者を予測した結果である。本判別式の感度＝８１．８％、特異度＝５３．８％となり、χ^２＝３．２３３（５％＜Ｐ＜１０％）、予測判別正解率＝６６．７％、という統計的に有意な結果を得た。タイプＡ、ＢはＤＮＡチップの構成の相違に基づく測定誤差が存在すると思われるデータであるにもかかわらず、タイプＡで訓練したモデルでタイプＢの予測に危険率１０％以下で成功したことは勇気付けられる結果である。
また、ＰＲＥＳＳ×１．１２^ＮＰが小さくなるように選んだ場合には、以下の遺伝子の発現を説明変数とする部分最小自乗法モデルを得た。

これらを説明変数の候補として、リーブ・ワン・アウトを指標にして、さらに絞り込んだ結果、次の判別式を得た。

パラメータを１つずつ吟味するだけでは、上式のような良好な判別式は得られなかった。また数百、数千という数のパラメータの中から効率的に最適のパラメータセットを見出すことは、適応最小自乗法、ロジスティック回帰分析、その他の判別分析手法だけではできないことである。しかし、以上のように、部分最小自乗法の交差検証成績を考慮して特徴抽出することにより、従来に無い、有効な診断指標を得ることができた。

実施例６：部分最小自乗法の交差検証成績を考慮した特徴抽出とロジスティック回帰分析法または線型判別分析法による４０＋２４名の乳癌患者の再発予測解析．
実施例５での１つめの適応最小自乗法による解析をロジスティック回帰分析法に置き換えた場合、次の判別式が得られた。

右辺で求められるＬＯＲＡ値が正の場合には再発の危険性が存在する。係数の比率や相関係数は実施例５の適応最小自乗法の場合と異なるものの、各患者の識別結果は全く同一であった。またタイプＢの患者を予測した結果も表７と同じになった。
次に、実施例５での適応最小自乗法による解析を線型判別分析に置き換えて解析して、次の判別式が得られた。

右辺で求められるＬＤＡ値が正の場合には再発の危険性が存在する。係数の比率や相関係数は、実施例５の適応最小自乗法の場合と異なり、各患者の識別結果も若干異なったが、概ね同一であった。また、タイプＢの患者を予測した結果も表７と同じになった。
以上の実施例４，５，６では、乳癌の再発の有無を目的変数としている。したがって、部分最小自乗法の交差検証成績を考慮して特徴抽出する方法が、目的変数が名義尺度や順序尺度などのデータである場合にも有効であることが示された。なお、名義尺度とは、対象（サンプル）をある分類に属するかどうかを測り分けるときの分類で、分類の間に大小や順序はない。また、順序尺度とは、対象の特定の分類について測り分けるときの分類であり、分類の間に大小、高低といった順序がある。
実施例７：部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザード解析による４０名の乳癌患者の再発時間解析．
実施例４と同じデータを用いて、再発の時系列データを基に実施例２と同様の方法で求めたロジット値を目的変数として、ＰＲＥＳＳ×１．１５^ＮＰが小さくなるようにパラメータを逐次取捨選択して９遺伝子の発現からなる部分最小自乗法モデルを得た。これらの遺伝子発現の測定値を説明変数として比例ハザード解析において変数削除基準としてＰ≧０．０５を採用した変数減少法を試み、８遺伝子からなる、以下の比例ハザード式が得られた。

図１４は、右辺を計算して求められるハザード値を縦軸とし、再発時間を横軸としたプロットを示す。ここで、菱形は再発しない人のデータを示し、四角は再発している人のデータを示す。ここでもハザード値が優れた診断指標となっており、生存時間に限らず、時間とともに確率的に発生する生体の状態の変化を解析する手法として、本発明の手法が有効であることが示されている。
変数削除基準としてＰ≧０．００５を採用した変数減少法によって更に絞り込んだ場合には、４遺伝子の発現からなる以下の比例ハザード式が得られた。

図１５は、右辺を計算して求められるハザード値を縦軸とし、再発時間を横軸としたプロットを示す。ここで、菱形は再発しない人のデータを示し、四角は再発している人のデータを示す。
実施例８：Ｇｅｎｂａｎｋアクセッション番号Ｈ１１４８２、Ｔ６４３１２、ＡＡ０４５３４０を含む乳癌再発性診断用ＤＮＡチップの作成と測定．
実験医学別冊「ゲノム機能研究プロトコール」（ＩＳＢＮ４−８９７０６−９３２−７Ｃ３０４７）ｐ３４−３８記載の関直彦、永杉友美、東孝典、吉川勉、鈴木収、村松正明らの方法に準じてＤＮＡチップの作成と測定を行なった。Ｇｅｎｂａｎｋアクセッション番号Ｈ１１４８２、Ｔ６４３１２、ＡＡ０４５３４０のｃＤＮＡを用いた。
プローブ用の各ＰＣＲ産物をエタノール（和光純薬，Ｃａｔ＃０５７−００４５６）で沈殿させ、２μｇ／μｌとなるようにＤＤＷで調整する。ニトロセルロース（ＧｉｂｃｏＢＲＬＣａｔ＃４１０５１−０１２）４ｍｇ／ｍｌのＤＭＳＯ溶液を等量加え、よく混和させて１００℃で５分間熱変性を行ない、氷上で急冷する。次いで室温に戻し、ＤＮＡスポッターＳＰＢＩＯ２０００（日立ソフトエンジニアリング）を用いてカルボジイミドスライドガラス（日清紡）へのスポッティングを速やかに行なう。スポットの乾燥を確認し、Ｕｌｔｒａｖｉｏｌｅｔｃｒｏｓｓｌｉｎｋｅｒ（アマシャムファルマシアバイオテック社）を用いて６０ｍＪ／ｃｍ^２で紫外クロスリンク処理を行ない、ガラスラックに立てて室温保存する。
３％ＢＳＡ、０．２ＭＮａＣｌ、０．１ＭＴｒｉｓ（ＰＨ７．５）、０．０５％ＴｒｉｔｏｎＸ−１００よりなるブロッキング液に上記マイクロアレイを浸け、約３０分間放置する。次いで、ガラスに付着している溶液をよく切り、３７℃で乾燥させる。ＴＥバッファー（ＰＨ８．０，ニッポンジーンＣａｔ＃３１６−９００２５）で３回軽く洗い、プレートホルダーに入れて軽く遠心（１０００ｒｐｍ，１分間）して余分な水分を除去する。
次に、乳腺正常株ＳＶ−４０及び乳癌細胞株ＭＣＦ−７、ＭＤＡ−ＭＢ−４６８又はＴ−４７−Ｄの各細胞液より、ＴＲＩＺＯＬ（ＧｉｂｃｏＢＲＬ，Ｃａｔ＃１５５９６−０１８）、ＯｌｉｇｏｔｅｘｄＴ３０〈Ｓｕｐｅｒ〉（ＴａＫａＲａ，Ｃａｔ＃Ｗ９０２１Ａ）を用いてマニュアルに従って、ｍＲＮＡを精製する。２μｇのｍＲＮＡをＤＥＰＣ処理した６．４μｌのＤＤＷに溶かし、ＯｌｉｇｏｄＴプライマー９μｌ、５×ＳｕｐｅｒＳｃｒｉｐｔＩＩバッファー（ＧｉｂｃｏＢＲＬ，Ｃａｔ＃１８０８９−０１１）６μｌ、ＤＴＴ（ＳｕｐｅｒＳｃｒｉｐｔの付属）３μｌ、５０×ｄＮＴＰ０．６μｌ、Ｃｙ３−ｄＵＴＰ（アマシャムファルマシアバイオテクＣａｔ＃ＰＡ５３０２２）又はＣｙ５−ｄＵＴＰ（アマシャムファルマシアバイオテクＣａｔ＃ＰＡ５５０２２）３μｌ、ＳｕｐｅｒＳｃｒｉｐｔＩＩ２μｌよりなる溶液を加え、４２℃で２時間反応させる。途中１時間経過時点で、ＳｕｐｅｒＳｃｒｉｐｔＩＩを１μｌを追加する。１．５μｌアルカリバッファー（１ＮＮａＯＨ／２０ｎＭＥＤＴＡ）を加え、６５℃で１０分間反応させ、ＴＥバッファーを２７０μｌ、１ＮＨＣｌを１．５μｌ加えて、Ｃｙ３，Ｃｙ５ラベルの反応液を２つまとめて１本のＭｉｃｒｏｃｏｎ−ＹＭ−３０（Ｍｉｌｌｉｐｏｒｅ／Ａｍｉｃｏｎ，Ｃａｔ＃４２４１０）に移す。１０，０００ｒｐｍで上のカップに残る液量が約１０μｌになるまで遠心を続け、カップを通りぬける液を別のチューブに移し替え、その後、上のカップにＴＥバッファー５００μｌ、ＨｕｍａｎＣｏｔ−１ＤＮＡ（ＧｉｂｃｏＢＲＬＣａｔ＃１５２７９−０１１）２０μｇを加え、再び液量が１０μｌ以下になるまで遠心を続ける。３，０００ｒｐｍで３分間遠心し、蛍光標識したＤＮＡを回収する。ＤＤＷとｙｅａｓｔＲＮＡ（Ｓｉｇｍａ，Ｃａｔ＃Ｒ７１２５）５０μｇ、ｐｏｌｙ（Ａ）（ロッシュダイアグノスティクス，Ｃａｔ＃１０８６２６）５０μｇを加えて２０μｌにし、ＰＣＲ用のチューブに移し換え、さらに４．２５μｌ２０×ＳＳＣ（ＧｉｂｃｏＢＲＬ，Ｃａｔ＃１５５５３−０３５）と０．７５μｌ１０％ＳＤＳ（ＧｉｂｃｏＢＲＬ，Ｃａｔ＃１５５５３−０３５）を加え、ＰＣＲ用の機器で１００℃、１分間熱変性させ、次いで、室温で３０分間放置して、ゆっくり冷却する。
蛍光標識したＤＮＡの全量をカバーガラスにのせ、泡が入らないように注意しながら前記マイクロアレイにかぶせ、水で濡らしたキムタオルを底に敷いたハイブリダイゼーションチェンバーに入れて密閉する。毎分２〜４サイクルで軽く振とうさせながら、６５℃で一晩ハイブリダイズする。ハイブリダイゼーションチェンバーからマイクロアレイを取り出し、カバーガラスが載ったままの状態で静かに２×ＳＳＣ／０．１％ＳＤＳ溶液中に入れ、５分間シェイキングし、カバーガラスが自然にはがれるのを待つ。カバーガラスがはがれたところでマイクロアレイをスライドガラスラックに入れ、もう一度２×ＳＳＣ／０．１％ＳＤＳ溶液中で５分間軽く振とうして洗う。さらに０．２×ＳＳＣ／０．１％ＳＤＳ４０℃で５分間２回洗い、０．２×ＳＳＣでリンスする。マイクロアレイを別の乾いたプレパラートケースに移し、マイクロタイタープレート用の遠心機で軽く遠心して（１０００ｒｐｍ，１分室温）マイクロアレイ上の水分を除く。そして、ＳｃａｎＡｒｒａｙ４０００（ＧＳＩｌｕｍｉｎｏｎｉｃｓ社）でシグナルを読み込み、解析ソフトにはＱｕａｎｔＡｒｒａｙ（ＧＳＩｌｕｍｉｎｏｎｉｃｓ社）およびＣｈｉｐＳｐａｃｅ（日立ソフトウェアエンジニアリング）を用いる。
実施例９：遺伝的アルゴリズムによる部分最小自乗法モデルの最適化．
実施例４で用いたＳｏｒｌｅらのＤＮＡチップＡで６８９１遺伝子の発現が測定された４０名の患者をデータセットとして用いた。遺伝的アルゴリズムは、たとえば、伊庭斉志；「遺伝的アルゴリズムの基礎」（オーム社（１９９４））に説明されている。前記データを用い、遺伝的アルゴリズムによる説明変数選択を行なった。以下において「」で区切られた用語は遺伝的アルゴリズムで通常用いられる専門用語であり、特に必要な場合には解説を加えている。「適合度」（ｆｉｔｎｅｓｓ）には−ＰＲＥＳＳ×１．０１^Ｎｐを採用した。各「個体」の「遺伝型」は説明変数を採用する場合には１、採用しない場合には０をとる数列｛ｂ１，ｂ２，ｂ３，．．．｝とした。
個体集合のサイズを１００個とし、初期の個体の「遺伝型」（ＧＴＹＰＥ）は、平均でｍｉｎ＿ｏｆ（Ｎｓ，Ｎｇ，３００）／２個の説明変数が採用となるように乱数を用いて準備した。ここでＮｓはサンプル数（患者数）、Ｎｇは説明変数の候補の数、３００は実装の都合上設定された定数である。
集合よりランダムに２つの個体を選抜し、「遺伝型」の「一様交叉」を行なったものの一方を新しい「個体」とした。即ち、「各遺伝子座」ごとに１／２の確率でいずれかの「親個体」の数列値（０または１）を選びそれを代入したものを新しい「個体」とした。続いて新しい「個体」の「各遺伝子座」毎に、１の場合（説明変数が採用されている場合）には１．１／採用された説明変数の数の確率で、０の場合（採用されていない場合）には１．１／採用されていない説明変数候補の数の確率で、０←→１を反転させた。
上述の「交叉・突然変異オペレーション」によって準備された新しい「個体」の「適合度」と、ランダムに選抜された「トーナメント相手」となる集合中の「個体」の「適合度」とを比較し、新しい「個体」の適合度が勝った場合には０．７５の確率で、劣った場合には０．２５の確率で「個体」の置き換えを行なった。ただし、「トーナメント相手」が集合中の最適解のものである場合には置き換えを禁止するという「エリート戦略」を採用した。
以上の「交叉」→「突然変異」→「選抜」サイクルを繰り返して最適化を行なった。ここではサイクル数を集合サイズで割ったものを「世代数」とする。最大「世代数」の初期値を１００とし、新しい最適解が見出されるたびに最大「世代数」を１０増加させながら、実行「世代数」が最大「世代数」に至るまでサイクルを繰り返した。
以上の初期集合の準備〜最適化の繰り返しおよび終了にいたる一連の処理を一回のラン（ｒｕｎ）とし、１５回のランを行なった。図１６は、１５回のランにおける最適化の様子をまとめている。最良の結果は２５個の説明変数を用いたものである。
実施例１０：階層型人工ニューラルネットワーク（ＭＬＰ）によるモデル構築．
実施例５の乳癌患者の再発性判別解析において、ＤＮＡチップｔｙｐｅＡ（４０名）とｔｙｐｅＢ（２４名）に共通する３４４８遺伝子より、ＰＲＥＳＳ×１．１７^Ｎｐが小さくなるようにしてＰＬＳ−ＣＶで特徴抽出された３つの説明変数を用いた。
解析方法について説明すると、ＭＬＰは３層とし、中間層（ｔｋ）において一度だけシグモイド変換を行なう構造とし、図１７の４つのトポロジーを試みた。ネットワークの重みの学習はＢａｃｋｐｒｏｐａｇａｔｉｏｎ（逆伝播）アルゴリズムによって行なった。中間層（ｔｋ）において一度だけシグモイド変換を行なう３層ＭＬＰを用いた。

ネットワークトポロジーＩおよびトポロジーＩＩｂの結果は以下のとおりであった。なお、トポロジーＩＩａ及びトポロジーＩＩｃは、トポロジーＩＩｂに劣るものであった。

実施例１１：潜在変数を用いた比例ハザードモデルの構築．
実施例３のＰＬＳ−ＣＶ法で選抜された１０遺伝子の発現量を説明変数とし、目的変数として生存確率のｌｏｇｉｔ値を用いてＰＬＳの解析過程で作成される潜在変数を１個抽出した。その抽出した潜在変数を説明変数にして比例ハザードモデルによる解析を試みた結果、作成された式はＰ≦０．０００１で有意となった。図１８に右辺を計算して得られるハザード値を縦軸とし、生存時間を横軸にしたプロットを示す。
本技術で得られたハザード式の予測の性能を評価するために、用いた４０例の中から１例を除外し、残りの３９例のデータを用いてハザード式を作成し、除外した１例のハザード値を予測した。３９例からのハザード式によって予測した値と４０例からのハザード式からの計算値をプロットした図１９より、本技術はハザード値の予測において良好な成績を示した。
発明の効果について以下に説明すると、生体の状態と複数の遺伝子発現の量および／または細胞内物質の量との相関モデルを決定するとき、説明変数の選択と交差検証法とを用いて変数を絞り込むことができる。これにより、良好でかつ予測力のある多変量解析モデル（相関モデル）が得られる。特に遺伝子発現の量のように、説明変数の数がたとえば１０００以上と膨大な場合に有用である。変数の数を少なくすることにより、病気や生体現象の背後で働いている重要な遺伝子やメカニズムを推定／特定でき、理解が深まる。また、重要な遺伝子産物や細胞内物質だけに絞った廉価な診断用材料（ＤＮＡチップ、ＤＮＡ含有ベクター、抗体チップなど）を設計し、提供できる。
また、時間とともに確率的に発生する生体の状態の変化から導出された量を目的変数として用いて、時間とともに確率的に発生する生体の状態の変化と複数の遺伝子発現の量および／または細胞内物質の量との相関モデルを決定できる。
また、部分最小自乗法を用いて説明変数の個数を少なくすると、通常の統計的手法または多変量解析手法が適用可能になる。
【図面の簡単な説明】
図１は、遺伝子発現解析システムのブロック図である。
図２は、解析ソフトのフローチャートである。
図３は、交差検証成績ＣＶの計算のフローチャートである。
図４は、変数選択の第１モデル構築手法のフローチャートである。
図５は、変数選択の第２モデル構築手法のフローチャートである。
図６は、変数選択の第３モデル構築手法のフローチャートである。
図７は、変数選択の第４モデル構築手法のフローチャートである。
図８は、変数選択の第５モデル構築手法のフローチャートである。
図９は、最小自乗法モデルの成績を示すグラフである。
図１０は、ＤＬＢＣＬ患者の生存時間と診断指標のプロット各種比較の図である。
図１１は、実施例２のＤＬＢＣＬ患者の生存時間診断指標のプロットの図である。
図１２は、実施例３の乳癌患者の生存時間診断指標のプロットの図である。
図１３は、実施例３の乳癌患者の変数削除基準としてＰ≧０．０００５を採用したときの生存時間診断指標のプロットの図である。
図１４は、実施例７の乳癌患者の再発時間診断指標のプロットの図である。
図１５は、実施例７の乳癌患者の変数削除基準としてＰ≧０．０２５を採用したときの再発時間診断指標のプロットの図である。
図１６は、実施例９の遺伝的アルゴリズムによる部分最小自乗法モデルの最適化の様子を示す図である。
図１７は、実施例１０の階層型人工ニューラルネットワークにおける４つのトポロジーを示す図である。
図１８は、実施例１１の潜在変数を用いた比例ハザードモデルの乳癌患者の生存時間診断指標のグラフである。
図１９は、実施例１１の潜在変数を用いた比例ハザードモデルの乳癌患者の生存時間診断指標の予測値と計算値のグラフである。

Claims

生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とする相関モデルを決定するデータ解析装置であって、
生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および／または細胞内物質の量からなるサンプルの集合を入力する入力手段と、
（１）説明変数を選択する選択手段と、
（２）部分最小自乗法を実行して交差検証成績を計算する計算手段または前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手段と、
（３）前記（２）の計算手段の結果を評価し、説明変数の採用、不採用を判定する評価判定手段とを有し、
（４）前記（１）の選択手段と前記（２）の計算手段と前記（３）の評価判定手段とを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定手段とからなることを特徴とするデータ解析装置。
目的変数が生体の状態であって、前記入力手段で入力するデータが生体の状態或いはそれを導出するデータであって、前記（２）の計算手段が部分最小自乗法を実行して交差検証成績を計算する計算手段であることを特徴とする請求項１に記載のデータ解析装置。
目的変数が時間とともに確率的に発生する生体の状態の変化であって、前記入力手段で入力するデータが時間とともに確率的に発生する生体の状態の変化に関するデータであって、前記（２）の計算手段が前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手段であることを特徴とする請求項１に記載のデータ解析装置。
さらに、前記の決定手段にて決定された部分最小自乗法モデルに採用されている説明変数又は該モデルの潜在変数を用い、統計的手法又は多変量解析手法によるモデルを構築する最終モデル決定手段を備えることを特徴とする請求項１、２又は３に記載のデータ解析装置。
前記の選択手段において、説明変数を逐次取捨選択することを特徴とする請求項１〜４のいずれかに記載のデータ解析装置。
前記の選択手段において、遺伝的アルゴリズムを用いて説明変数を選択することを特徴とする請求項１〜４のいずれかに記載のデータ解析装置。
前記の計算手段において、１個のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項１〜６のいずれかに記載のデータ解析装置。
前記の計算手段において、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項１〜６のいずれかに記載のデータ解析装置。
前記計算手段において、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、交差検証成績の指標として当該誤差を用いることを特徴とする請求項７又は８に記載のデータ解析装置。
前記関数が交差検証成績であることを特徴とする請求項１〜９のいずれかに記載のデータ解析装置。
前記関数が交差検証成績と選択された説明変数の個数との関数であることを特徴とする請求項１〜９のいずれかに記載のデータ解析装置。
前記の決定手段において、少なくとも交差検証成績を独立変数として持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項５に記載のデータ解析装置。
前記（１）の選択手段と前記（２）の計算手段とを複数のコンピュータで実行させることを特徴とする請求項１〜１２のいずれかに記載のデータ解析装置。
請求項１、２、３又は４で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力手段と、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定手段からなることを特徴とするデータ解析装置。
生体の状態を名義尺度、順序尺度或いは連続量で表現する目的変数とする請求項２に記載のデータ解析装置。
最終モデル決定手段が用いる前記の統計的手法又は多変量解析手法が、比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法であることを特徴とする請求項２又は４に記載のデータ解析装置。
生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とする相関モデルを決定するデータ解析方法であって、
生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および／または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、
（１）説明変数を選択する選択ステップと、
（２）部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、
（３）前記（２）の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、
（４）前記（１）の選択ステップと前記（２）の計算ステップと前記（３）の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステップとからなることを特徴とするデータ解析方法。
目的変数が生体の状態であって、前記入力ステップで入力するデータが生体の状態或いはそれを導出するデータであって、前記（２）の計算ステップが部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項１７に記載のデータ解析方法。
目的変数が時間とともに確率的に発生する生体の状態の変化であって、前記入力ステップで入力するデータが時間とともに確率的に発生する生体の状態の変化に関するデータであって、前記（２）の計算ステップが前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項１７に記載のデータ解析方法。
さらに、前記の決定ステップにて決定された部分最小自乗法モデルに採用されている説明変数又は該モデルの潜在変数を用い、統計的手法又は多変量解析手法によるモデルを構築する最終モデル決定ステップを備えることを特徴とする請求項１７、１８又は１９に記載のデータ解析方法。
前記の選択ステップにおいて、説明変数を逐次取捨選択することを特徴とする請求項１７〜２０のいずれかに記載のデータ解析方法。
前記の選択ステップにおいて、遺伝的アルゴリズムを用いて説明変数を選択することを特徴とする請求項１７〜２０のいずれかに記載のデータ解析方法。
前記の計算ステップにおいて、１個のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項１７〜２２のいずれかに記載のデータ解析方法。
前記の計算ステップにおいて、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項１７〜２２のいずれかに記載のデータ解析方法。
前記計算ステップにおいて、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、交差検証成績の指標として当該誤差を用いることを特徴とする請求項２３又は２４に記載のデータ解析方法。
前記関数が交差検証成績であることを特徴とする請求項１７〜２５のいずれかに記載のデータ解析方法。
前記関数が交差検証成績と選択された説明変数の個数との関数であることを特徴とする請求項１７〜２５のいずれかに記載のデータ解析方法。
前記決定ステップにおいて、少なくとも交差検証成績を独立変数として持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項２１に記載のデータ解析方法。
前記（１）の選択ステップと前記（２）の計算ステップとを複数のコンピュータで実行させることを特徴とする請求項１７〜２８のいずれかに記載のデータ解析方法。
請求項１７、１８、１９又は２０で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステップからなることを特徴とするデータ解析方法。
生体の状態を名義尺度、順序尺度或いは連続量で表現する目的変数とする請求項１８に記載のデータ解析方法。
前記の統計的手法又は多変量解析手法が、比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法によるモデルを構築する最終モデル決定ステップとからなることを特徴とする請求項１８又は２０に記載のデータ解析方法。
生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および／または細胞内物質の量を説明変数とする相関モデルを決定する、コンピュータにより実行されるデータ解析プログラムであって、
生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および／または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、
（１）説明変数を選択する選択ステップと、
（２）部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、
（３）前記（２）の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、
（４）前記（１）の選択ステップと前記（２）の計算ステップと前記（３）の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステップとからなることを特徴とするデータ解析プログラム。
目的変数が生体の状態であって、前記入力ステップで入力するデータが生体の状態或いはそれを導出するデータであって、前記（２）の計算ステップが部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項３３に記載のデータ解析プログラム。
目的変数が時間とともに確率的に発生する生体の状態の変化であって、前記入力ステップで入力するデータが時間とともに確率的に発生する生体の状態の変化に関するデータであって、前記（２）の計算ステップが前記生体の状態の変化に関するデータにカプラン・マイヤー法又はカトラー・エデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項３３に記載のデータ解析プログラム。
さらに、前記の決定ステップにて決定された部分最小自乗法モデルに採用されている説明変数又は該モデルの潜在変数を用い、統計的手法又は多変量解析手法によるモデルを構築する最終モデル決定ステップを備えることを特徴とする請求項３３、３４又は３５に記載のデータ解析プログラム。
前記の選択ステップにおいて、説明変数を逐次取捨選択することを特徴とする請求項３３〜３６のいずれかに記載のデータ解析プログラム。
前記の選択ステップにおいて、遺伝的アルゴリズムを用いて説明変数を選択することを特徴とする請求項３３〜３６のいずれかに記載のデータ解析プログラム。
前記の計算ステップにおいて、１個のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項３３〜３８のいずれかに記載のデータ解析プログラム。
前記の計算ステップにおいて、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項３３〜３８のいずれかに記載のデータ解析プログラム。
前記計算ステップにおいて、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、交差検証成績の指標として当該誤差を用いることを特徴とする請求項３９又は４０に記載のデータ解析プログラム。
前記関数が交差検証成績であることを特徴とする請求項３３〜４１のいずれかに記載のデータ解析プログラム。
前記関数が交差検証成績と選択された説明変数の個数との関数であることを特徴とする請求項３３〜４１のいずれかに記載のデータ解析プログラム。
前記決定ステップにおいて、少なくとも交差検証成績を独立変数として持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項３７に記載のデータ解析プログラム。
前記（１）の選択ステップと前記（２）の計算ステップとを複数のコンピュータで実行させることを特徴とする請求項３３〜４４のいずれかに記載のデータ解析プログラム。
請求項３３、３４、３５又は３６で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステップからなることを特徴とするデータ解析プログラム。
生体の状態を名義尺度、順序尺度或いは連続量で表現する目的変数とする請求項３４に記載のデータ解析プログラム。
前記の統計的手法又は多変量解析手法が、比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法によるモデルを構築する最終モデル決定ステップとからなることを特徴とする請求項３４又は３６に記載のデータ解析プログラム。
前記の説明変数の選択において、初期状態では説明変数を全く含まないことを特徴とする請求項３７に記載のプログラム。
前記の説明変数の選択において、初期状態では全説明変数を含むことを特徴とする請求項３７に記載のプログラム。
前記の生体の状態が病気のタイプをあらわす測定値、病気の重篤度をあらわす測定値、病気のタイプをあらわす医療診断の結果、病気の重篤度をあらわす医療診断の結果、あるいはそれらを２次加工した数値であることを特徴とする請求項３７〜５０のいずれかに記載のプログラム。
請求項３３〜請求項４８のいずれかに記載されたプログラムを記録した、コンピュータにより読み取り可能な記録媒体。
実質的にジーンバンクアクセッション番号がＵ１５０８５、Ｍ２３４５２、Ｘ５２４７９、Ｕ７０４２６、Ｈ５７３３０及びＳ６９７９０からなる遺伝子群の発現を検出することを特徴とするびまん性大細胞型Ｂリンパ腫の重篤度検定用の細胞内物質測定機材および測定方法並びにびまん性大細胞型Ｂリンパ腫の重篤度検定方法。
さらにジーンバンクアクセッション番号がＵ０３３９８、Ｍ６５０６６、ＡＫ００１５４６、ＢＣ００３５３６、Ｘ００４３７、Ｕ１２９７９、Ｈ９６３０６、ＡＡ８３０７８１及びＡＡ８０４７９３からなる群から選択される少なくとも一つの遺伝子の発現を検出することを特徴とする請求項５３に記載のびまん性大細胞型Ｂリンパ腫の重篤度検定用の細胞内物質測定機材および測定方法並びにびまん性大細胞型Ｂリンパ腫の重篤度検定方法。
実質的にジーンバンクアクセッション番号がＡＡ５９８５７２、ＡＡ７０３０５８及びＡＡ４５３３４５からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の重篤度検定用の細胞内物質測定機材および測定方法並びに乳癌の重篤度検定方法。
さらにジーンバンクアクセッション番号がＡＡ４０６２４２、Ｈ７３３３５、Ｗ８４７５３、Ｎ７１１６０、ＡＡ０５４６６９、Ｎ３２８２０及びＲ０５６６７からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出することを特徴とする請求項５５に記載の乳癌の重篤度検定用の細胞内物質測定機材および測定方法並びに乳癌の重篤度検定方法。
実質的にジーンバンクアクセッション番号がＷ８４７５３、Ｈ０８５８１、ＡＡ０４５７３０及びＡＩ２５０６５４からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。
さらにジーンバンクアクセッション番号がＡＡ４４８６４１、Ｒ７８５１６、Ｒ０５９３４、ＡＡ６２９８３８及びＨ５３０３７からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出することを特徴とする請求項５７に記載の乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。
実質的にジーンバンクアクセッション番号がＡＡ４３４３９７、Ｔ８３２０９、Ｎ５３４２７、Ｎ２９６３９、ＡＡ４８５７３９、ＡＡ４２５８６１、Ｈ８４８７１、Ｔ６４３１２、Ｔ５９５１８及びＡＡ０３７４８８からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。
さらにジーンバンクアクセッション番号がＡＡ４０６２３１の遺伝子産物を含む細胞内物質を検出することを特徴とする請求項５９に記載の乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。
実質的にジーンバンクアクセッション番号がＨ１１４８２、Ｔ６４３１２及びＡＡ０４５３４０からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。