WO2003085548A1

WO2003085548A1 - Dispositif et procede d'analyse de donnees

Info

Publication number: WO2003085548A1
Application number: PCT/JP2003/004059
Authority: WO
Inventors: Toshio Ishikawa; Takashi Kume
Original assignee: Ishihara Sangyo Kaisha, Ltd.
Priority date: 2002-04-04
Filing date: 2003-03-31
Publication date: 2003-10-16
Also published as: JPWO2003085548A1; CA2481485A1; US20050159896A1; EP1498825A1; CN1647067A; AU2003220998A1; KR20040111456A

Description

明細書データ解析装置および方法技術分野

本発明は、生体の状態と遺伝子発現の量および/または細胞内物質の量との多変量解析処理並びそれを基に可能となる測定機材、検定方法などに関するものでめる。背景技術

2 0 0 0年 6月のヒトゲノムの解読宣言以降、ゲノムに書力れた遺伝情報がどのように発現して機能しているかのを解明するボストゲノム時代に突入したと言われている。ヒトゲノム計画の進展の中で、ゲノム発現状態を測定する方法論も進展してきた。トランスクリプトーム（mR NA) 測定手段としてオリゴヌクレォチドアレイやマイクロチップが知られている。またプロテオーム（蛋白質）測定手段として、以前からある 2次元電気泳動に加えて、最近では質量分析の方法が進歩してきた。また抗体チップなどの先進の技術も注目されている。これらの測定技術は、生体の状態パラメータを短時間に一挙に測定できることがそれまでの技術と比較して画期的であるといえる。

遺伝子発現状態を効率的に測定する技術として次のものがあげられる。トランスクリプトーム（mR NAの総体）を特定するものとして、基盤に複数種の D N Aを担持し、それに相補的な: mR NAを検出する D N Aチップが知られている。代表的な D NAチップには、遺伝子チップや D NAマイクロアレイがある。また、プロテオーム（蛋白質の総体）を特定するものには、 2次元電気泳動、抗体チップ、質量スペクトルを用いるものがある。またメタボローム（代謝中間体を含めた代鶴 ί産物の総体)を測定する手法も質量分析などによって試みられており、進展が見られる。

生体内の細胞の状態は遺伝子産物の発現によってよく記述されるため、従来の診断マーカーでは情報が不足している場面でも、精度のより高い診断が可能になるという期待も出てきている。たとえば、次のような研究があげられる。

P. 0. Brownらは、 D N Aチップによってリンパ腫患者の細胞のトランスタリプトームを測定し、クラスター解析によって悪性と良性のリンパ腫（D L B C L) を別クラスターに分離した（Nature 40³ (³) , 503-11 (2000))。し力し、これは因果関係（相関関係）のモデルを得る方法ではなく、どの遺伝子がどの程度重要かを判断できない。

A. Alaiyaらは、 2次元電気泳動によって子宮がん患者 4 0人の細胞のプロテオームを測定し、うち 2 2人のデータから部分最小自乗法診断モデルを構築し、悪性度を説明した（Int. J. Cancer, 86， 731-36 (2000) ; Electrophoresis, 21, 1210-17 (2000)；国際公開 W0 00/70340) ₀ その際、全変数モデルにおいて 1 5 5 3変数から loadingの大きな 1 7 0変数に限定することによって交差検証成績がよくなり（Q ² =0. 84) 、残り 1 8患者の深刻度（3段階）を 1 1 / 1 8の比率で正答した。交差検証法がモデル構築の際の指標になるという考えが表明されている。し力し、この方法では、 loadingを得る際にまず全変数モデルが成立しなければならない。また、それ以外の変数選択手法が考案されていない。

J. Khanらは、 D N Aチップによって小児がん患者の細胞を測定し、二ユーラノレネットワークによって悪性度を説明した（Nature Medicine, 7 (6) , 673-79

(2001) )。小児がん（SRBCT) 患者 8 8人のトランスクリプトーム（6 5 6 7遺伝子）を測定し、うち 6 3人のデータから主成分分析によって 1 0次元に圧縮し、次に、人工ニューラルネットワーク診断モデルを構築した。ここで、影響力のある上位遺伝子を交差検証法によって絞り込み、 9 6遺伝子で最良の成績（100%)を得た。このモデルで残り 2 5人を予測し、 9 3〜1 0 0 %の結果を得た。しかし、この方法でも、影響力を得る際にまず全変数モデルが成立しなければならない。またそれ以外の変数選択手法が考案されていない。 1 0次元のような少ない変数の場合を扱えるが、変数の数が膨大な場合には適用できない。

また、最近になつて DNAチップの解析に部分最小自乗法を用いる研究が！). M. Rockeとひ. V. Nguyenによって報告されるに至った（国際公開 W0 02/25405 ； Bioinformatics 18 (1) , 39 - 50 (2002) ； Bioinfo雇 tics 18 (9) , 1216-26

(2002) ； Bioinformatics 18 (12) , 1625-32 (2002) )。部分最小自乗法の潜在変数を線型判別分析などの多変量解析の説明変数として用いた場合に良好な結果が得られることが報告されている。これは部分最小自乗法が次元圧縮とモデルフィットを同時に行なうことのできる方法であるために可能となったものである。報告に示された実施例では部分最小自乗法が DNAチップ情報のモデル構築方法として優れたものであることが示されている。しかし報告においては重要な遺伝子現量を選抜する手段としての最小自乗法の適用については触れられておらず、事前の前処理によって選択された説明変数を全て用いて解析が行なわれているという点において上述の A. Alaiyaらの研究と同様の課題を含んでいる。

従来の診断マーカーでは情報が不足している場面でも、遺伝子発現情報を活用することで、より精度（解像度）の高い診断が可能になるという期待も出てきている。遺伝子発現状態の測定結果は、膨大な情報量が得られることが従来にはなかった特徴であり、逆に情報量が多いために、効果的なデータ処理なくしてデータの活用はありえない。したがって、有用な知識を獲得するためには効果的な情報処理が欠力せない。前に説明したように、現状ではクラスター解析を中心とする方法が用いられているが、主成分分析などの方法も採用されている。クラスタ一解析や主成分分析は、教師付学習方法ではないため、病状の因果関係（相関関係）のモデルを得ることはできない。すなわち、どの遺伝子がどの程度重要かを解析結果から得ることができないのが難点である。一方、部分最小自乗法は次元圧縮とモデルフイットを同時に行なう強力な多変量解析手法であるが、変数の数が膨大になった場合にしばしば有意な結果が得られない事態に直面する。したがつて、膨大な遺伝子発現情報などから有用な知識を獲得できるような効果的な情報処理が望まれている。また、そのような情報処理の結果を基にした効率的な測定機材、検定処理などが期待されている。発明の開示

(発明が解決しようとする技術的課題)

この発明の目的は、多変量の遺伝子発現情報、細胞内物質情報の効果的な情報処理を提供することである。

また、この発明の目的は、効率的な検定処理を提供することである。 (その解決方法）

本明に係るデータ解析装置は、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子棻現の量および/または細胞内物質の量を説明変数とする相関モデルを決定するデータ解析装置であって、生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および Zまたは細胞内物質の量からなるサンプルの集合を入力する入力手段と、（ 1 )説明変数を選択する選択手段と、（ 2 )部分最小自乗法を実行して交差検証成績を計算する計算手段または上記生体の状態の変化に関するデータに力プラン'マイヤー法又は力トラ一 ·ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手段と、（3 )上記（2 )の計算手段の結果を評価し、説明変数の採用、不採用を判定する評価判定手段とを有し、（4 )上記 ( 1 ) の選択手段と上記（2 ) の計算手段と上記（ 3 )の評価判定手段とを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定手段とからなる。選択手段は、たとえば、説明変数を逐次取捨選択したり、遺伝的アルゴリズムを用いて説明変数を選択する。計算手段は、たとえば、 1個のサンプルを逐次除外したり、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算する。評価判定手段は、たとえば、計算手段の結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、当該誤差の代表値が小さくなった場合に、その交差検証成績が改善されたと判定し、説明変数を取捨選択しながら交差検証成績の評価判定を繰り返す。あるいは交差検証成績ではなく、少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数が改善するかどうかを評価判定の基準として用いることもできる。決定手段は、たとえば、選択手段と計算手段と評価判定手段とを繰り返し実行して部分最小自乗法モデノレの交差検証成績を改善し続けて部分最小自乗法モデルを決定する。また、選択手段と計算手段とを複数のコンピュータで実行させることもできる。こうして、相関モデノレを構成するとき、交差検証成績を基準に最適化させることにより説明変数を取捨選択し、説明変数の次元を減らして良好なモデルを得る。

上述の、仮定した分布に基づいた変換または仮定を前提としない変換は、生体の状態の変ィ匕の確率が説明変数の多項式で解析できるようにするために行なうものである。分布を仮定した場合には、確率を対数変換後に負の数にしたものを状態の変化を観測した時間で割るという変換、確率を対数変換後に負の数にしたものをさらに対数にしたものを状態の変化を観測した時間で割るという変換、または確率を 1より減じたものをプロビット変換したものを計算して状態の変化を観測した時間で割るという変換などが考えられる。一方、分布を仮定しない場合にはロジット変換といった方法が考えられる。変換の方法は分布にどのような仮定が成り立つかどうかあるいはなりたたないかどうかを判断することにより、それぞれの場合に応じて適切に選ぶことができる。少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数としては、たとえば、前記誤差の代表値と選抜された説明変数の数の関数が考えられ、あるいはその他の独立変数を含むものであってよい。望ましくは、関数は誤差の代表値の単調減少関数であり、説明変数の数の単調減少関数である。計算量を増やさないためには簡単に計算できる関数が望ましい。具体的には- PRESS X alpha^N P という関数が考えられる。ここで PRESSは予測残差自乗和であり、 N Pは採用された説明変数の数であり、 alphaは 1または 1より大きい実数である。また、 -？1¾33 （^³+1361&) "¹ "^{1 3}ゃ-

PRESS X (beta- NP) ^{s a m m a}なる関数も考えられる。ここで、 gammaは正の実数である。

説明変数の個数を少なくすると、通常の統計的手法または多変量解析手法が適用可能になる。本発明では部分最小自乗法を用いて選抜された説明変数を統計手法又は多変量解析手法の説明変数として、より良好なモデルを得る。或いは選抜された説明変数を用いた部分最小自乗法モデルの潜在変数を統計手法又は多変量解析手法の説明変数として、より良好なモデルを得る。ここで潜在変数とは、部分最小自乗法において通常用いられているものであって、目的変数 (Yil)と説明変数 (Xi j)の背後に共通する次元数の少ない潜在変数 (Tik)を抽出することが部分最小自乗法の次元圧縮であり、モデルフイットである。

Yil=∑ Qkl X Tik + Fil

Xij=∑ Pkj X Tik + Eij

(iはサンプル番号、 1は目的変数番号、 jは説明変数番号、 kは潜在変数番号、 F, Eは残差）

また、統計的手法又は多変量解析手法としては、重回帰分析法、線型判別分析法、適応最小自乗法、口ジスティック回帰分析法、比例ハザード解析法、マハラノビス距離を用ヽる判別分析法、 kN法、人工二ユーラルネットワークなどが挙げられる。

本発明者等は、また、 Q²や PRESS値などの交差検証成績に加えて、説明変数の個数を第 2の独立変数として含む関数を最適化することで選抜される説明変数を任意に絞り込むことができることを新たに見出した。通常の統計的手法や多変量解析手法では、抽出される説明変数の個数 N Pの望ましい範囲がサンプル数との兼ね合いで決まっている場合がある。そのような場合、関数を、目的とする選抜数によって任意に変更できる。関数形をたとえば -PRESS X alpha^{N P}とした場合、説明変数の個数を数個から数十個に絞り込むためには通常は定数 alphaとして 1 . 0〜 3. 0の値が望ましい。より望ましくは、 alphaは 1 . 0〜 2. 0の値となる。他の関数形 f (PRESS, NP)であっても、実際に選択される説明変数の数 MPおよびその時の PRESSィ gPRESS— MPの周辺で、 f (PRESS— MP ÷ alpha, MP+l) =f (PRESS_MP, MP) となるような関数は、変数選択という点では同様の効果を持つ場合がある。こうして、適当な関数形を用いることにより、望ましい範囲の個数 N Pの説明変数を選抜できる。このようにして、交差検証成績を用いて決定されたモデルに採用されている説明変数をさらに絞り込むと、統計的手法又は多変量解析手法によるモデルを構築できる。したがって、その性質が十分解明されている統計的手法又は多変量解析手法を採用して解析を加えることができる。

また、目的変数として、時間とともに確率的に発生する生体の状態の変化から導出された量を用いて、時間とともに確率的に発生する生体の状態の変化と複数の遺伝子発現の量および Zまたは細胞内物質の量との相関モデルを決定できる。「時間とともに確率的に発生する生体の状態の変化」とはたとえば生存時間である。ここで、前述の部分最小自乗法に、力プラン'マイヤー法又はカトラー 'ェデラー法と、口ジット（logit)変換とを組み合わせる。部分最小自乗法での目的変数は、時間とともに確率的に発生する生体の状態の変ィヒに関するデータにカブラン.マイヤー法又は力トラー ·ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算し、これを口ジット変換した値である。口ジット (logit)値とは、分類分けされたデータの、ある分類の割合（確率） Pを基に、次式 logit==log {P/ (l-P) }にて計算される値である。ロジット値を目的変数とする部分最小自乗法を実行して交差検証成績を計算する。こうして、先に説明したのと同様に、部分最小自乗法の交差検証成績を考慮した説明変数の抽出を行って、生存時間解析を行える。

説明変数の個数を少なくすると、通常の統計的手法または多変量解析手法が適用可能になる。そこで、決定されたモデルに採用されている説明変数又はその潜在変数を用い、時間とともに確率的に発生する生体の状態の変化を説明する統計的手法又は多変量解析手法によるモデルを構築する。たとえば、ロジット値を目的変数として求めた説明変数を用いて、他の統計的手法又は多変量解析手法（たとえば比例ハザード法や、パラメトリックな分布にあてはめた回帰分析法）を行なうことによって、より良好なモデノレを得ることができる。比例ハザード法とは、 Coxによって考案された方法であり、生存率の解析に時間を考慮し、かつ、多変量を扱える。比例ハザード法では、観測されている個々ごとにハザード値と呼ばれる生存率を左右する値があり、それを導く関数がある（モデルが仮定されている）として解析される。力プラン一マイヤー法は、集団全体または群ごとの生存率の推移を示す。また、パラメトリックな分布とは、ガウスが提案した正規分布力ら計算された確率分布のことであり、生存時間解析では指数分布、ワイプル分析、対数正規分布が用いられる。指数分布などへの当て嵌めで、数式中に多項式があり、前述の部分最小自乗法の交差検証成績を考慮した説明変数の抽出が適用される。

入力手段で説明変数として入力される複数の遺伝子の発現量および/または細胞内物質の量とは、必ずしも物質の絶対的な濃度の測定値に限定されるものではなく、加工計算された値、相対的な値、間接的に物質量を表す量などでもよい。たとえば、質量スぺクトルで蛋白質の発現量を測定することができることを応用して、生体の状態を表わす目的変数と、質量スペクトルとを直接関係づける相関モデルを構築することができる。また Af f ymetrix社タイブの D N Aチップ（ジーンチップ)では、単一のスポットが単一の遺伝子発現を特定するとは限らず、複数個のスポットが集まってはじめて単一の遺伝子発現を特定することもある。ここでもまた、各スポットの測定量を説明変数として、直接、生体の状態を説明する相関モデルを得ることができる。更には、タンパク質の電気泳動パターンの各ピークは単一のタンパク質に帰属できず、複数個のタンパク質の重ねあわせであることも多い。このような場合にも生体の状態を説明する説明変数として各ピーク強度を用いることができる。このことは、上述の Alaiyaらは子宮癌の診断の説明変数として電気泳動パターンのピーク強度を採用していることから明らかである。前述のようにポストシークェンス時代のトランスクリプトーム解析、プロテオーム解析、メタボローム解析という研究分野では、生体 (細胞）内の物質を総体として把握すること力ら出発することを特徴とする実験的アプローチが注目されている。ひとつひとつの物質の絶対的定量は必須事項ではなく、これらの実験方法によって定量される物質の量を直接、間接に表現する測定値やその加工計算値力生体の状態を説明する説明変数と成り得る。また以上の物質量を表現する説明変数以外に、場合によっては問診データなどの他の説明変数を追加すると、さらに有効な解析結果が得られる場合もある。

本発明に係るデータ解析方法は、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および/または細胞内物質の量を説明変数とする相関モデルを決定するデータ解析方法であって、生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および/または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、（1 )説明変数を選択する選択ステップと、（2 )部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変ィヒに関するデータに力プラン■マイヤー法又は力トラー■ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、（ 3 )前記（ 2 )の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、（4 )前記 ( 1 ) の選択ステップと前記（² )の計算ステップと前記（3 )の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステツプとからなる。

このデータ解析方法において、選択ステップは、たとえば、説明変数を逐次取捨選択したり、遺伝的アルゴリズムを用いて説明変数を選択する。計算ステップは、たとえば、 1個のサンプルを逐次除外したり、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算する。評価判定ステップは、たとえば、計算ステップの結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプノレの生体の状態を示す目的変数値との誤差の代表値を求め、当該誤差の代表値が小さくなつた場合に、その交差検証成績が改善されたと判定し、説明変数を取捨選択しながら交差検証成績の評価判定を繰り返す。決定ステップは、たとえば、選択ステップと計算ステップと評価判定ステツプとを繰り返し実行して部分最小自乗法モデルの交差検証成績を改善し続けて部分最小自乗法モデノレを決定する。また、選択ステップと計算ステップとを複数のコンピュータで実行させることもできる。本発明に係るデータ解析プログラムは、生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量おょぴ Zまたは細胞内物質の量を説明変数とする相関モデルを決定する、コンピュータにより実行されるデータ角罕析プログラムであって、生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および Zまたは細胞内物質の量からなるサンプノレの集合を入力する入力ステップと、（1 )説明変数を選択する選択ステップと、（2 )部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変ィ匕に関するデータに力プラン'マイヤー法又はカトラー ·ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、（3 )前記（2 )の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、（⁴ )前記 ( 1 ) の選択ステップと前記（2 )の計算ステップと前記（ 3 )の評価判定ステツプとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステツプとからなる。

このデータ解析プログラムにおいて、選択ステップは、たとえば、説明変数を逐次取捨選択したり、遺伝的アルゴリズムを用いて説明変数を選択する。計算ステツプは、たとえば、 1個のサンプルを逐次除外したり、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算する。評価判定ステツプは、たとえば、計算ステップの結果から、各計算において除外したサンプノレの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、少なくとも当該誤差の代表値を独立変数として持つ関数である当該誤差の代表値の単調減少関数の値が小さくなつた場合に、その交差検証成績が改善されたと判定し、説明変数を取捨選択しながら交差検証成績の評価判定を繰り返す。決定ステップは、たとえば、選択ステップと計算ステップと評価判定ステップとを繰り返し実行して少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する。また、選択ステップと計算ステップとを複数のコンピュータで実行させることもできる。さらには、前記の説明変数の選択において、たとえば、初期状態では説明変数を全く含まない力、或いは、初期状態では全説明変数を含むこともできる。

前記のデータ解析プログラムにおいて、上記の生体の状態は、たとえば病気のタイプをあらわす測定値、病気の重篤度をあらわす測定値、病気のタイプをあらわす医療診断の結果、病気の重篤度をあらわす医療診断の結果、あるいはそれらを 2次加工した数値である。例えば後の実施例で示すように、患者の生存時間を予測することは、 Q0L (quality of life :生活の質）を含めた治療計画や人生設計などを判断する上で重要な情報をもたらすものであり、社会的に価値のある診断モデルを提供することができる。また癌の再発可能性を予測することは、 Q0Lを考慮した治療計画を立案し、医師または当の患者が選択の判断をするうえで、貴重な情報をもたらすものである。

また、本発明は、決定された前記相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力手段と、入力された該説明変数に基づレヽて該サンプルの生体の状態を予測判定する予測判定手段からなるデータ解析装置、前記で決定された相関モデル及び予測対象のサンプルについて当該モデこおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステップからなるデータ解析方法及び前記で決定された相関モデノレ及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づレヽて該サンプルの生体の状態を予測判定する予測判定ステップからなるデータ解析プログラムも包含する。

本発明に係るコンピュータにより読取可能な記録媒体は、上記のいずれかのプログラムを記録する。

本発明に係るびまん性大細胞型 Bリンパ腫の重篤度検定用の細胞内物質測定機材および測定方法並びにびまん性大細胞型 Bリンパ腫の重篤度検定方法は、実質的にジーンバンクァクセッション番号が U15085、 M23452_N X52479、 U70426, H57330及び S69790からなる遺伝子群の発現を検出する。さらに、ジーンバンクァクセッション番号が U03398、 M65066、 AK00 46、 BC003536、 X00437, U12979、

H96306、 M830781及び M804793からなる群から選択される少なくとも一つの遺伝子の発現を検出してもよい。

また、本発明に係る？し癌の重篤度検定用の細胞内物質測定機材および測定方法並びに乳癌の重篤度検定方法は、実質的にジーンバンクァクセッション番号が AA598572, M703058及び M453345からなる遺伝子産物を含む細胞内物質を検出する。さらに、ジーンバンクァクセッション番号が AA406242、 H73335、 W84753, N71160、 M054669、 N32820及び R05667からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出してもよい。

また、本発明に係る？ L癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再宪性検定方法は、実質的にジーンバンクァクセッション番号が W84753、 H08581、 M045730及び AI250654からなる遺伝子産物を含む細胞内物質を検出する。さらに、ジーンバンクァクセッション番号が M448641、 R78516、 R05934、 M629838及ひ Ή53037からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出してもよい。

また、本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法は、実質的にジーンバンクァクセッション番号が AA434397, T83209、 Ν53427、 Ν29639、 ΑΑ485739, AA425861, Η84871 Τ64312、 T59518及び Μ037488からなる遺伝子産物を含む細胞内物質を検出する。さらに、ジーンバンクァクセッション番号が M406231の遺伝子産物を含む細胞内物質を検出してもよい。

また、本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再宪性検定方法は、実質的にジーンバンクァクセッション番号が HI 1482, T64312及び M045340からなる遺伝子産物を含む細胞内物質を検出する。細胞内物質測定機材としては、 D NAマイクロアレイ、ジーンチップ、オリゴ

D NA型のD NAチップ、電気化学 D N Aチップ（E C Aチップ）、繊維型 D NA チップ、磁性ビーズ D NAチップ (PSS)、糸巻き D NAチップ (PSS)、などの D N Aチップ、マクロアレイ、抗体チップ、測定用試薬キットなどが挙げられる。また、上記の機材を適宜組み込んだ測定機械であってもよい。図面の簡単な説明

図 1は、遺伝子発現解析システムのプロック図である。

図 2は、解析ソフトのフローチャートである。

図 3は、交差検証成績 CVの計算のフローチャートである。

図 4は、変数選択の第 1モデル構築手法のフローチャートである。

図 5は、変数選択の第²モデル構築手法のフローチャートである。

図 6は、変数選択の第 3モデル構築手法のフローチャートである。

図 7は、変数選択の第 4モデル構築手法のフローチャートである。

図 8は、変数選択の第 5モデル構築手法のフローチャートである。図 9は、最小自乗法モデルの成績を示すグラフである。

図 1 0は、 DLBCL患者の生存時間と診断指標のプロット各種比較の図である。図 1 1は、実施例 2の DLBCL患者の生存時間診断指標のプロットの図である。図 1 2は、実施例 3の乳癌患者の生存時間診断指標のプロットの図である。図 1 3は、実施例 3の乳癌患者の変数削除基準として P 0. 0005を採用したときの生存時間診断指標のプロットの図である。

図 1 4は、実施例 7の乳癌患者の再発時間診断指標のプロットの図である。図 1 5は、実施例 7の乳癌患者の変数削除基準として P≥0. 025を採用したときの再発時間診断指標のプロットの図である。

図 1 6は、実施例 9の遺伝的アルゴリズムによる部分最小自乗法モデルの最適化の様子を示す図である。

図 1 7は、実施例 1 0の階層型人工ニューラルネットワークにおける 4つのトポロジーを示す図である。

図 1 8は、実施例 1 1の潜在変数を用いた比例ハザードモデルの乳癌患者の生存時間診断指標のグラフである。

図 1 9は、実施例 1 1の潜在変数を用いた比例ハザードモデルの乳癌患者の生存時間診断指標の予測値と計算値のグラフである。発明を実施するための最良の形態

以下、添付の図面を参照して本発明の実施の形態を説明する。

以下に、選択された生体の状態と遺伝子発現の量および Zまたは細胞内物質の量との相関モデルの決定について説明する。ここで、遺伝子宪現の用語は、 mR NA発現（トランスクリプトーム）や、 mR NAによる翻訳の結果として生じる蛋白質（プロテオーム）を含むものとして用いる。また、細胞内物質の量とはここではたとえば、代謝中間体を含めた代謝産物全部であるメタポロームを意味する。たとえば、トランスクリプトーム（mRNA)やプロテオーム（蛋白質）の角军析において、各サンプルデータは、生体の状態と遺伝子発現の量などからなる。各サンプルはたとえば 1 0 0 0個以上の膨大な遺伝子発現の量を含む。生体の状態は、たとえば病気のタイプまたは病気の診断指標であるが、より一般的には生体情報であればよい。「病気の診断指標」には、病気の進行度合いのほか、病気のタイプ、重篤度、深刻度などの表現で表わされるものも含む。ここで、遺伝子発現の量などの測定データは膨大な情報量からなるので、コンピュータを用いた効率的な多変量解析が必要である。

データ収集において、予めいくつかのサンプルについて生体の状態（たとえば診断指標）を判定し、また、そのサンプルされたものから細胞液を獲得し、その細胞液中の多くの遺伝子産物の発現の量などを測定する。本発明の実施の形態のデータ解析では、こうして得られた遺伝子産物の発現の量などと生体の状態（たとえば診断指標）を入力し、相関モデル（たとえば部分最小自乗法モデル）を得る。ここで、コンピュータによる多変量解析プログラムを用いて、診断指標を目的変数とし、遺伝子発現の量および/または細胞內物質の量を説明変数とする因果関係型の解析を行なって、各説明変数の重要性や影響度に関する情報を得る。また、前記目的変数は、必ずしも測定ィ直そのものである必要はなく、口ジット変換を行なった値や群を表す離散値を用いても良く、その場合、より有意な結果を得ることもできる。

本発明者らは、遺伝子発現による医療診断という分野において、データ解析における交差検証（cross validation) の成績を少なくとも独立変数のひとつとして持つ関数を最適化するように変数を選択することによって良好な相関モデル (たとえば部分最小自乗法モデル）が得られることを見出した。交差検証法では、手持ちのデータを複数群に分割し、その一部のデータ群（訓練集合）だけを使つてフィットしたモデルを用いて残る別のデータ群（テスト集合）を予測することによって、モデルの予測力を試す。通常の部分最小自乗法（PLS) においては潜在変数の次元選択に交差検証法が用いられているが、ここでは、部分最小自乗法において、潜在変数を 1次元に固定し、 1以上の入力変数（説明変数）を逐次取捨選択しながら、交差検証成績（たとえば平方和の予測誤差）を少なくとも独立変数のひとつとして持つ関数を最適化した。ただし本発明の効果は潜在変数の次元を 1に限定するものではない。その結果、全変数を採用した場合には有意な相関モデルを得られなかつた場合にも、良好でかつ予測力のある相関モデルが得られることが判明したのである。この交差検証法を用いた変数選択の逐次取捨選択により、安定な相関モデルが得られる。また本発明者らは、関数形を適切に設定することによつて説明変数を絞り込むことにより、部分最小自乗法以外の統計学又は多変量解析の良好な相関モデルを得ることが可能となり、それぞれ生体の状態を記述する目的変数にふさわしい相関モデルを得ることができることを見出した。なお、ここでいう「最適化」とは、交差検証成績が、説明変数を取捨選択するための、そのときの解析条件の範囲で、改善がみられなくなるまで改良したことを意味しており、交差検証成績がすべての説明変数の組合せの中で最適なものを見出したという意味ではない。この変数選択手法を用いると、病状を決定する因子を少数に特定し、廉価な診断用材料（D NAチップ、抗体チップ、 D NA含有ベクターなど）を設計でき、それ自体独自の価値を持つものである。また、この変数選択手法は、予め設定される各種の変数選択条件と共に運用することが可能である。

上に述べたように、説明変数は、交差検証成績を基準に逐次取捨選択される。ここで、取捨選択のため、交差検証成績を少なくとも独立変数のひとつとして持つ関数を用いる。説明変数を追加する場合は、その説明変数について、前記関数が改善されなかったと判定された場合には当該説明変数を除外し、改善されたと判定された場合には当該説明変数を追加する。また、説明変数を除外する場合は、その説明変数について、前記関数が改善されなかったと判定された場合には当該説明変数を除外せず、改善されたと判定された場合には当該説明変数を除外する。ここで、 1以上の説明変数を選択した場合に、交差検証成績評価は次のように進める。 n個のサンプノレからいくつかのサンプルを逐次除外して部分最小自乗法モデルを求め、各モデルにおいて除外したサンプルの遺伝子発現の量から予測される生体の状態を示す目的変数と、除外したサンプルの生体の状態を示す目的変数との各々の誤差の代表値を求める。「代表値」とは、和、平均、最大値、中位値、最頻値などのデータを特徴づける値をいう。そして、当該誤差の代表値を少なくともひとつの独立変数とする関数が小さくなった場合に、交差検証成績が改善されたと判定し、当該説明変数を追加または削除する。この交差検証成績評価を、説明変数を取捨選択しながら逐次繰り返して、前記関数を改善し続ける。改善されなくなれば交差検証成績を最適化したとして説明変数の取捨選択を終了する。その結果、取捨選択により絞り込んだ数の説明変数からなる最適な部分最小自乗法モデルが得られる。具体的には、計算手段において計算される交差検証成績の数値指標として予想残差自乗和 (PRESS)を採用し、評価判定手段において予想残差自乗和の値が説明変数あたり一定の閾値以下の比率で小さくなる場合に、その説明変数を採用すると判定することにより、上記の処理は実行可能である。因果関係型の解析手法においてはオーバーフィット（over fitting) を避けるための工夫が必要となる。ここでいうオーバーフィットとは、説明変数が多すぎるためにたまたま予測結果と実績とがー致するものの、本当の相関関係をとらぇ損なっているため、モデルフィットに用いたデータ以外に予測能力を持たないことをいう。ここでは、相関モデルとして部分最小自乗法を用いるが、部分最小自乗法は次元圧縮とモデルフイットを同時に行なう強力な多変量解析手法であり、オーバーフィットの問題に比較的強いとされている。しかし遺伝子発現状態解析のように膨大な変数を扱う場合には、有意な結果が得られない事態に直面する。従来技術として説明した Alaiyaや Khanの手法は全変数モデルが有意に成立することを前提としているので、変数の絞込みには一般的には適用できない。これに対し、本発明では、交差検証予測結果を最適にするように変数を絞り込むことにより、オーバーフィットを減らすことができた。また、本発明は、前記 Khanの手法とは異なり、主成分分析などの前処理を介さない方法である。従来技術では、説明変数が膨大な場合には、有意なモデルを得ることができないことから、予め、全説明変数を基にたとえば、主成分分析などで次元圧縮する前処理をし、これによって得られた説明変数によって解析する方法が用いられる。しかし、この方法では、構成したモデルで予測を行なうためには、モデル構成の基となった全説明変数が必ず必要となり、たとえば、説明変数が遺伝子発現の量であれば、診断用遺伝子チップに担持する遺伝子としては、モデル構成に用いた遺伝子の全てが必要となる力 \ または別の手法を用いて変数選択することが必要となる。一方、本発明においては、説明変数の選択によって説明変数を絞り込んでいるので、たとえば、説明変数が遺伝子発現の量であれば、診断用遺伝子チップに担持する遺伝子は、選択された説明変数に相当する遺伝子を担持すれば良いことになる。なお、 Todeschiniらは、有機化合物の大気中の分解を予測するため、遺伝的ァルゴリズムによって交差検証成績を最適化するように変数選択を行ない、重回帰モデノレ ¾Γ得てレヽる (P. Graraatics, V. Consonni & R. Todeschini, Chemosphere 38 (5) , 1371-78 (1999))。 5 3化合物と 1 7 5記述子でモデル構築を行ない（Q ² =0. 79)、 7変数が選択され、 9 8化合物の予測を行なった（Q ² =0. 75)。交差検証成績を最適化するように変数選択を行なっている点では、本実施形態と同様の手法である。し力し、重回帰モデルを採用しているために、説明変数の選択過程を通じて選択される変数は少数個にとどまらざるを得ず、複数の遺伝子発現の量および/または細胞内物質の量の解析には適用できない。本発明者らの調査した範囲では、 Q²や PRESS値を最適化する方法では、選抜される説明変数は百程度から数百程度にわたり、重回帰モデルでは解析が不能となる。また Todeschini らは、説明変数を絞り込むための有効な方法について言及していない。これは、もともとの説明変数の候捕がたかだか 1 7 5個であり、説明変数を絞り込むために特別の工夫をする必要がないからである。遺伝子発現解析の分野はこれとは全く異なり、数十から数百のサンプル数に対して、数百から数千、数万の説明変数候捕が存在する。したがってこれまでとは異なる工夫が必要となる。

本実施形態では、生体の状態と複数の遺伝子発現の量および/または細胞内物質の量との相関モデルを決定するとき、交差検証成績を少なくとも独立変数のひとつとして持つ関数を最適化させるように説明変数を逐次追加 ·除外することによって、説明変数を選抜して、良好な相関モデルを得る。このようなアプローチの優位†生は、下記の実施例から推測されるように、次のとおりである。

1 ) 病気や生体現象の背後で働いている重要な遺伝子やメカニズムを推定 Z特定でき、理角军が深まる。

2 ) 重要な遺伝子産物や細胞内物質だけに絞った廉価な診断用材料（D NAチップ、抗体チップなど）の設計が可能になる。

本実施形態では、交差検証成績を少なくとも独立変数のひとつとして持つ関数を最適化するように説明変数を段階的に取捨選択するが、たとえば具体的には、ステップワイズ (step wise)法に代表される説明変数を選択する選択手段と、リープ ' ワン .アウト（leave-one - out)法に代表される交差検証法に部分最小自乗法を適用して計算する計算手段と、前記計算手段の結果を評価し、説明変数の採用、不採用を判定する評価判定手段とを組合せて用いる。すなわち、 m個の説明変数の中から 1以上の説明変数を選択し、次いで、部分最小自乗法を実行して交差検証成績を計算し、さらに、該計算結果を評価して、選択した説明変数の採用、不採用を判定する。この評価判定では、計算手段の結果から、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプノレの生体の状態を示す目的変数値との誤差の代表値を求め、少なくとも当該誤差の代表値を独立変数として持つ関数である当該誤差の代表値の単調減少関数の値が小さくなった場合に説明変数の取捨選択を判定する。このように、選択手段と計算手段と評価判定手段とを用いて、少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数を改善し続けて、その改善がみられなくなるまで改良し、部分最小自乗法モデノレを決定する。なお、本実施形態では、サンプルを 1個づっ逐次除外している（リーブ 'ワン 'アウト法）が、その代わりに、複数のサンプルを除外して交差検証成績を評価してもよい（リーブ■ n ·ァゥト法）し、また、 Khan et al.により用いられた 3分割法（three- fold)等の他の方法を用いることもできる。 3分割法では、説明変数をランダムにシャッフルして 3つのグループに分ける。その中の 2つのグループを用いてモデルを構成し、残りの 1つのグループでモデルを評価する。また、説明変数の選択方法としてはステップワイズ法、非線形アルゴリズム（たとえば遺伝的ァルゴリズムなど）を用いてもよく、変数選択に関して予め何らかの条件が分っていれば、それに応じて探索範囲を限定できる。

次に、データの収集と解析について具体的に説明する。図 1は、遺伝子発現解析システムを示す。データ収集のため、予めいくつかのサンプルについて診断指標（たとえば病気のタイプないし進行度合いを含む）を判定し、また、そのサンプルされたものから細胞液を獲得し、 D N Aチップを用いてその細胞液中の多くの遺伝子産物の発現の量を測定する。測定には、共焦点型レーザスキャナ（たとえば Affymetrix社、 4 2 8アレイスキャナ） 1 0を用いる。吸光度により mR N Aの量が測定される。このデータ収集は公知の方法である。測定データは、コンピュータ 1 2に送られ角罕析される。コンピュータ 1 2は、 C P U 1 4を備えた通常の構成のコンピュータであり、それに接続される記憶装置（たとえばハードデイスク装置） 1 6の記録媒体（たとえばノヽードディスク）には、測定データ 1 8 や解析ソフト 2 0が格納される。この解析ソフト 2 0を用いてデータ 1 8が解析され、生体の状態と遺伝子発現の量などとの相関モデルが決定される。

なお、説明変数の選択と、交差検証法に部分最小自乗法を適用する計算とを複数のコンピュータで実行させてもよい。交差検証予測の計算を複数個のコンビュータに分散させることで計算を加速することができる。

図 2は、コンピュータ 1 2により実行される、生体の状態と遺伝子発現の量などとの相関モデルを得るためのデータ解析ソフト 2 0のフローチャートを示す。ここでは簡単に説明するため、少なくとも部分最小自乗法モデルの交差検証成績を独立変数として持つ関数として- PRESSを採用しているが、発明の範囲を限定するものでなく、実施例 2 ~ 5においては別の関数を採用している。まず、相関モデル作成用のデータを入力する（ S 1 0 ) 。データはたとえば D N Aチップを用いて収集したものである。入力データ（サンプノ ^合）は、それぞれ目的変数 (たとえば診断指標）と m個（たとえば 2 0 0 0個）の説明変数（たとえば遺伝子発現の量）カゝらなる。また、場合によっては、上述のデータ（訓練集合)以外に、テスト集合のデータを入力する。ここでテスト集合とは交差検証の評価のためのデータ群を意味するのではなく、モデル決定が終了した後にモデルの予測カをテストするためのデータ群である。

まず、初期設定として、選択された説明変数の数を 0とし、交差検証成績の最良値 CV。を一∞とする（S 1 2 ) 。次、説明変数の選択を行う。まず、説明変数を指す番号 iを 1とし（S 1 4 ) 、第 i変数（遺伝子発現の量）を仮に採用して（S 1 6 ) 、部分最小自乗法を実行し、交差検証成績 CVを計算する（S 1 8、図 3参照）。ここで、リーブ'ワン 'アウト処理を用いる。これは、たとえば 5 0個のサンプルからなる訓練集合において、 1番から 5 0番の全てを順次 1個づつ除いて残りの 4 9個のサンプルで予測した結果と、その時除いた 1個の結果とを比較し、その誤差が大きい場合に、仮に選択した説明変数 (第 i変数)が適していないと判断する手法である。もし、得られた成績 CVが現在の最良値 CV。より最適化されれば（S 2 0で Y E S ) 、第 i変数を採用し、かつ、成績 CVを新らしい最良値 CV。に更新する（S 2 2 ) 。し力し、得られた成績 CVが最良値 CV。より大きくなければ（S 20で NO) 、第 i変数を採用しない（S 24) 。そして、ステツプ S 14に戻り、同様の処理を繰り返す。この処理を交差検証成績 CVが改善されなくなる（S 26で NO) まで繰り返す。ここで、相関モデルに採用する説明変数については 1つづつ段階的に増カロ (追カロ）または減少（除外）して成績 CVを評価判定している。すなわち、全体としての合致度合いがよくなるように各説明変数を解析に加えるかどうかを逐次判定しながら、説明変数の取捨選択を行い、これを、全体としての合致度合いがよくならなくなるまで繰り返す。以上の処理で改善があると、ふたたびステップ S 14の初め（i=l)に戻り、それまでに選択されている説明変数を基に、さらに説明変数の選択を繰り返す。なお、ここではモデルの予測力を判断するために、訓練集合とテスト集合とに予め分割しておいたデータ集合を用いてデータ解析しており、上述の解析は、訓練集合を用いて行なった結果であるので、この結果からテスト集合について予測を行い、実測データとの合致度を評価 (S 28) している。このような評価は必ずしも必要でない力予測力を判断するには有効である。

図 3は、リーブ ·ワン ·ァゥト処理を含む交差検証成績 CVの計算（図 2、 S 1

8) のフローチャートを示す。ここで、選択された変数について交差検証成績が計算される。まず、 PRESSの初期値を 0とする（S 180) 。次に、 n個の集合内のサンプルを指す番号 jを 1とし（S 182) 、第】サンプル以外の n— 1個のサンプルで部分最小自乗法を実行し（S 184) 、第 jサンプルの目的変数を予測する（S 186) 。差の自乗を計算して PRESSに加算する（S 190) 。次に番号； jを 1増加し（S 182) 、同様の処理をおこなう。これを番号 j =nまで各サンプルについて繰り返す。得られた PRESSは、 1個のサンプルを順次除外して計算した予測値と実測値との差の平方和であり、予測誤差を表わす量である。この予測残差自乗和 PRESSの符号を変えたものを交差検証成績 CVとする（S 1 9 2) 。

本実施形態では、交差検証法を用いて、入力変数（説明変数）を段階的に 1つづっ追加'除外しながら、交差検証成績（CV= - PRESS) を最適化する。ここで、説明変数の段階的な追加'除外の内容を理解しやすくするため、以下で、さらに具体的に 5つのモデル構築手法について説明する。これらは、説明変数の逐次的な選択の手順が異なる。

図 4は、第 1のモデル構築手法を示す。データ集合においてどの説明変数も選択されていない状態を初期状態とする（S 1 12) 。次に、 1番目の説明変数から最後 (m番目 )の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ-ヮン ·ァゥト処理を用いた交差検証成績評価ステップ（S 118) を繰り返しながら判定（S 120)し、改善する場合にはその説明変数を追加する（S 1 14〜S 124) 。そのような改善と追がなくなる（S 126で NO) まで、 1番目の説明変数から上記逐次判定操作を繰り返す。

さらに詳しく説明すると、まず、初期設定として、選択された説明変数の数 N

Pを 0とし、交差検証成績 CVの最良値 CV₀を一∞とする（S I 12) 。次に、説明変数の選択を行う。まず、変数 iを 1とし（S 114) 、第 i変数を仮に採用する（S 116) 。ただし、第 i変数がすでに採用されていれば（S 115で Y ES) 、ステップ S 114に戻る。次に、部分最小自乗法を実行し、交差検証成績 CVを計算する（S 118) 。ここで、リーブ'ワン'アウト処理を用いる。もし、得られた成績 CVが現在の最良値 CV。より最適化されれば（S 120で YE S) 、第 i変数を採用し、かつ、成績 CVを新らしい最良値 CV。に更新する（S 1 22) 。し力し、得られた成績 CVが最良値 CV。より大きくなければ（S 120で NO) 、第 i変数を採用しない（S 124) 。そして、ステップ S 114に戻り、同様の処理を繰り返す。この処理を交差検証成績 CVが改善されなくなる（S 12 6で NO) まで繰り返す。以上の処理で改善があると、ふたたびステップ S 11 4に戻り、新しいループを開始する。ここで、それまでに選択されている変数を基に、さらに変数の選択を繰り返す。こうして、データ集合を用いて選択された変数を用いた相関モデルが得られる。

図 5は、第 2のモデル構築手法を示す。この手法では、全ての説明変数が選択されている状態を初期状態とする（S 212) 。次に、 1番目の説明変数から最後 (m番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ ·ワン 'ァゥト処理を用いた交差検証成績評価ステップ（S 218) を繰り返しながら判定（S 2 20)し、改善する場合にはその説明変数を除外する（S 214〜S 224) 。そのような改善と除外がなくなる（3226で1^〇）まで、 1番目の説明変数から上記逐次判定操作を繰り返す。

さらに詳しく説明すると、まず、初期設定として、選択された説明変数の数 N Pを mとし、交差検証成績 CVの最良値 CV。を一∞とする（S 21 2) 。すなわち、すべての説明変数を選択する。次に、説明変数の選択を行う。まず、変数 iを 1 とし（S 214) 、第 i変数を仮に除外する（S 21 6) 。ただし、第 i変数がすでに除外されていれば（S 21 5で YES) 、ステップ S 2 14に戻る。部分最小自乗法を実行し、交差検証成績 CVを計算する（S 21 8) 。ここで、リーブ ·ワン ·ァゥト処理を用いる。もし、得られた成績 CVが現在の最良値 CV。より最適化されれば（S 220で YES) 、第 i変数を除外し、かつ、成績 CVを新らしい最良ィ直 CV。に更新する（S 222) 。し力し、得られた成績 CVが最良値 CV。より大きくなければ（S 220で NO) 、第 i変数を除外しない（S 224) 。そして、ステップ S 214に戻り、同様の処理を繰り返す。この処理を交差検証成績 CVが改善されなくなる（ S 226で N O) まで繰り返す。以上の処理で改善があると、ふたたびステップ S 214に戻り、新しいノプを開始する。ここで、それまでに選択されている変数を基に、さらに変数の選択を繰り返す。こうして、データ集合を用いて選択された変数を用いた相関モデルが得られる。

図 6は、第 3のモデル構成手法を示す。この手法は、第 1と第 2の手法の直列的な組合せである。まず、どの説明変数も選択されていない状態を初期状態とする（S 1 1 2) 。次に、 1番目の説明変数から最後（m番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ'ワン 'ァゥト処理を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を追カロ選択し、そのような改善と追加がなくなるまで 1番目の説明変数から上記逐次判定操作を繰り返す（S 1 14〜S 1 26) 。次に、 1番目の説明変数から最後

(m番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ 'ワン.アウト処理を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を除外し、そのような改善と除外がなくなるまで、 1番目の説明変数から上記逐次判定操作を繰り返す（S 214〜S 226) 。

図 7は、第 4のモデル構築手法を示す。この手法は、第 3の手法の変形である。まず、どの説明変数も選択されていない状態を初期状態とする（S 112) 。次に、 1番目の説明変数から最後 (m番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ 'ワン-ァゥト処理を用いた交差検証成績評価ステップ（S 1 18) を繰り返しながら判定（S 120)し、改善する場合にはその説明変数を追加選択する（S 1 14〜S 124) 。そのような改善と追加がなくなる（S 12 6で NO) まで、 1番目の説明変数から上記逐次判定操作を繰り返す。次に、 1 番目の説明変数から最後 (m番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リ一ブ■ワン'ァゥト処理を用いた交差検証成績評価ステップ（S 218) を繰り返しながら判定（S 220)し、改善する場合にはその説明変数を除外する（S 21 4〜224) 。そのような改善と除外がなくなる（S 226で NO) まで、 1番目の説明変数から上記逐次判定操作を繰り返す。上記逐次判定追加改善ステップまたは上記逐次判定除外改善ステップで少なくとも一度改善があれば（S 227 で YE S) 、ステップ S 112に戻り、上記操作（S 112〜S 227)を繰り返す。これを改善がなくなる (S 227で NO) までおこなう。

図 8は、第 5のモデル構築手法を示す。この手法は、第 1と第 2のスキームの並列的な組合せである。どの説明変数も選択されていない状態を初期状態とする (S 1 12) 。次に、 1番目の説明変数から最後（m番目）の説明変数までの説明変数ごとに逐次、その説明変数が選択されていない場合にはその説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ 'ワン'アウト処理を用いた交差検証成績評価ステップ（S 118) を繰り返しながら判定（S 12

0) し、改善する場合にはその説明変数を追加する（S 114〜S 124) 。また、選択する説明変数ごとに、その説明変数がすでに選択されている場合には、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ-ヮン■ァゥト処理を用いた交差検証成績評価ステップ（S 218) を操り返しながら判定（S 220) し、改善する場合にはその説明変数を除外する（S 216〜 S 224) 。そのような改善と追加または除外がなくなる（S 126で NO) まで、 1番目の説明変数から上記逐次判定操作を繰り返す。

次に、第 4のモデル構築手法 (図 7 )を適用した場合を、表 1のデータ集合を例として説明する。このデータ集合に対して、部分最小自乗法による解析を用いて相関モデルを求める。表 1のデータでは、サンプルの数 nは 10であり、また、説明を容易にするため、説明変数の数 mは 19と少なくしている。表 1において、 piは目的変数を表わし、 p2〜p20は説明変数を表わす。（ただし表 1では、表示の便宜のため、 pl6以降のデータを省略している。）第 4手法（図 7)のステップ S 1 14、 S 214とは異なり、説明変数を表わす iは p20から p2まで逆に逐次処理することとした。 CV評価値としてここでは予測残差自乗和 (PRESS)を採用した。 PRESSが小さいほど、 CV評価値はよい。初期状態では、採用された説明変数の数 NPは 0であり、 PRESS=∞ (CV₀=-∞)である。表 1 1 0偁のサンプルのデータ

U pi p2 p3 p4 p5 p6 p7 p8 p9 plO pll pl2 pl3 pl4 pl5

10.7130.1050.7820.4250.1640.0230.6960.5430.333 0.6910.336ひ.6680.0170.0610.5

20.1330.0090.071 0.0020.7930.8720.0920.3910.630.2410.5170.3690,1660.8410.1

30.5450.1930.7650.3340.1090.5380.5780.6520.380.501 0.7290.910.865 0.3890.8

40.7520.9150.4720.9990.7980.3630.6220.4870.3530.9670.7780.4840.5170.9820.0

50.90.4070.5340.8160.8060.420.5720.9570.12 0.6960.8330.051 0.3770.8490.4

60. 550.5870.721 0.530.2520.4340.8820.4860.7410, 2430.8930.9470.4620.9520, 2

70.4270.6520.5150.4260.7640.5920.6950.5950.551 0.6060. 160.1630.3160, 7180.6

80.0420.9020.2740,8990.402 0. 690.6680.9450. ?460.9120.970.5150.3680.5140.4

90.9350.2760.936 0.1010.54 0.3560.8990.71 0.9240.7920. 860.3290.5010.0760.5 100.540.021 0.5050.2240.7240.431 0.0710.9680.4820.3220.7730.5430.3530.1070.9 表 2 表 1のデタについての 1 0の段階での変数選択結果

0 ∞ 一

1 追加 20 0. 111 20

2 追加 l8 0. 090 pl8 & p20

3 追加 pl6 0. 073 pl6 & pl8 & p20

4 追力 [1 plO 0. 073 lO & pl6 & pl8 & ρ20

5 追加 6 0. 062 ρ6 & plO & pl6 & pl8 & p20

6 追カ卩 p3 0. 060 p3 & p6 & plO & pl6 & pl8 & p20

7 追加 l2 0' 055 p3 & p6 & plO & pl2 & pl6 & pl8 & p20

8 除外 p20 0. 053 p3 & p6 & plO & pl2 & pl6 &

9 除外 plO 0. 050 p3 & p6 & pl2 & pl6 & pl8

10 追加 pl3 0. 048 p3 & p6 & pl2 & pl3 & pl6 & pl5

先に述べたように、変数は p20から _P2まで逆の順で処理する。表 2は、表 1のサンプルについて、左端の数字は、変数の取捨選択で改善がみられた 1 0の段階を示す。なお、 0は初期状態を意味する。次の列の「追カロ」と「除外」は、追力卩のループと除外のループの処理であることを意味する。次の列の変数は、追加または除外された変数を示す。次の列は、交差検証成績 (PRESSをサンプル数で割ったもの）を示す。右端の列は、その段階で選択されている変数を示す。

初期状態では、変数は全くない状態であり、 PRESSは∞である。表 2に示すように、最初、 p20を説明変数として採用すると、 PRESS=0. Illとなり、初期値に比ベて改善されるので、説明変数 P20の追加を実施する。次に、変数 _P19を加えて pl9と p20の 2つを説明変数とすると、 PRESS=0. 129となり改善をもたらさないので、 P19は追加しない。次に、説明変数 pl8を加えると PRESS=0. 090となり、改善するので、 pl8を追加し、 P18と p20を説明変数とする。以下同様に表 2に示すように続く。（ここで、 plOを追加採用するのは、小数点以下 4桁目で改善されているためである。）説明変数 P20〜_P2の 1回目のループを終了した時点で、説明変数が p3、 p6、 pl0、 pl6、 pl8および p20となり、 PRESS=0. 60となる。 2回目のノ^ブでは、説明変数 pl2が追加され、 PRESS=0. 55となる。 3回目のルプでは追加による改善がなく、ひとまず S 1 1 4〜S 1 2 6の追加処理を終了し、 S 2 1 4に移る。この時点での部分最小自乗法のフィットならびにリーブ'ワン 'ァゥト予測状況は表 3のとおりである。

表 3は、 1 0のサンプルにつ!/、て、表 2の 7で示す段階まで処理が進んだ時点での部分最小自乗法のフィットならびにリーブ 'ワン 'ァゥト予測状況を示す。ここで、モデル予測とリーブ 'ワン 'ァゥト予測のそれぞれにおいて、計算値と実測値との誤差を示す。さらに、その下側に、誤差の自乗平均、相関係数 Rの自乗および予測相関係数 Qの自乗を示す。表 3 表 2の段階 7での処理結果

モデル予測値 'J フ、 'ワンアウト予測

# 実測値計算値誤差

1 0. 713 0. 757 - 0. 044 0. 693 0, 020

2 0· 133 -0, 056 0, 189 - 0. 051 0. 184

3 0, 545 0. 497 0. 048 0. 480 0. 065

4 0. 752 0. 646 0. 106 0. 495 0. 257

5 0. 900 0. 687 0, 214 0. 557 0. 343

6 0. 455 0. 489 -0. 034 0. 512 -0. 057

7 0, 427 0. 624 - 0. 198 0. 672 - 0. 245

8 0. 042 0. 349 -0. 307 0. 517 -0. 475

9 0. 935 0. 865 0, 070 0. 782 0. 153

10 0. 154 0. 197 - 0. 044 0. 285 -0. 132

0. 093 0. 024 0. 055

R² =0. 744 Q² = =0. 07 次に、ステップ S 2 1 4から始まる除外処理の 1回目のループにおいて、説明変数 plOと p20を除外することが改善をもたらした。 2回目のループでは改善がなく、ステップ S 2 1 4〜S 2 2 6を終了するが、ステップ S 2 2 7の判断により再度 S I 1 2に戻る。次に、追加処理の 1回目のループにおいて、 pl3の追加だけが改善をもたらしたが、続く除外処理の 1回目のループでは、改善がなかった, もう一度ステップ S 1 1 2に戻り、ステップ S 1 1 4〜S 1 2 6およびステップ S 2 1 4〜S 2 2 6では改善がなくなつたのを確認して、処理を終了した。こうして選択された説明変数は、 p3、 p6、 pl2、 pl³、 pi⁶および pl8の 5個であり、 PRESS=0. 048となった。詳細は表 4のとおりである。

表 4は、表 2の段階 1 0まで処理が進んだ時点での部分最小自乗法のフイツトならびにリーブ ·ワン ·ァゥト予測状況を示す。表 4 表 2の段階 1 0での処理結果

モデル予測リ-フ、'ヮ、/7 ^予測

# 実測値計算値計算値

1 0. 713 0. 771 -0. 058 0. 663 0. 050

2 0. 133 - 0. 013 0. 146 0. 041 0. 092

3 0. 545 0. 610 -0. 065 0. 595 -0. 050

4 0. 752 0. 524 0. 228 0, 380 0. 372

5 0. 900 0. 696 0. 205 0. 543 0. 357

6 0. 455 0. 591 -0. L37 0. 623 -0- 168

7 0. 427 0. 638 -0. 211 0. 696 -0. 269

8 0. 042 0. 189 -0. 147 0. 268 - 0. 226

9 0. 935 0. 841 0. 094 0. 756 0. 179

10 0. 154 0. 209 -0. 055 0. 294 - 0. 140

0. 093 0. 022 0. 048

R² =0. 765 Q² =0. 482 なお、説明変数の数が多い時に強いとされる部分最小自乗法であるが、 P20〜 _P2の全てを説明変数として採用した場合には、表 5に示すように、 PRESS=0. 124 となった。すなわち、リーブ ' ワン 'ァゥト処理は、平均値からの誤差 (0. 093) よりも悪い成績をもたらす。表 5 全ての説明変数を採用した場合の処理結果

モデ/レ予測！) ：ワンアウト予測

# 実測値計算値誤差計算値

1 0. 713 0. 712 0. 001 0. 527 0, 186

2 0. 133 - 0. 073 0. 206 0. 222 - 0· 090

3 0. 545 0. 561 -0, 016 0. 538 0. 007

4 0. 752 0. 656 0. 096 0. 351 0. 02

5 0. 900 0. 691 0. 209 0. 432 0. 469

6 0. 455 0. 519 - 0. 064 0. 562 - 0. 107

7 0. 427 0. 583 -0* 156 0. 629 -0. 203

8 0. 042 0. 430 -0. 388 0. 724 - 0. 682

9 0. 935 0. 794 0. 140 0. 480 0. 454

10 0. 154 0. 182 -0. 029 0. 457 -0. 303

0. 093 0. 029 0. 124

2 =0. 684 Q² =- -0, 330

実施例.

次に、実施例を挙げて本発明をさらに詳細に説明するが、本発明はこれらの例によつて何ら限定されるものではない。実施例 1 ：部分最小自乗法の交差検証成績を考慮した特徴抽出による D L B CL患者のデータ解析.

P. 0. Brownらのホームページ (http://llmpp.nih.gov/lymphoma/) より入手した 28名の DLBCL (リンパ腫）患者のデータを、 20名のデータからなる訓練集合と 8名のデータからなるテスト集合に分けた。目的変数に生存月数を採用し、説明変数には 18432スポットのうち、 28データにおいて chl、 ch2ともに正の数となる 12832スポットの log(chl/ch2)値を採用した。

訓練集合において部分最小自乗法（PLS) のモデル決定を試みた。 12832 変数全てを用いて部分最小自乗法の解析をしたところ、リーブ'ワン'アウト予測は有意（Q ² > 0.5 )にはならなかつた。次にリーブ 'ワン'アウト予測誤差が最小になるように説明変数を段階的に 1つづつ増減した。モデル構成手法としては前述の第 3のモデル構成手法において説日月変数の追加及び除外の順番並びにリーブ■ワン.ァゥト処理におけるサンプルの除外の順番が異なるほかは同様な方法を用いた。すなわち、どの説明変数も選択されていない状態を初期状態とする（S I 12) 。次に、最後（m番目）の説明変数から最初（1番目）の説明変数までの未だ選択されていない説明変数ごとに逐次、その説明変数を選択した場合に交差検証成績が改善するかどうかを、リーブ'ワン'アウト処理（ここでは、最後（n番目）のサンプルから最初（1番目）のサンプルを逐次除外した）を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を追加選択し、そのような改善と追加がなくなるまで m番目の説明変数から上記逐次判定操作を繰り返す（S 114〜S 126) 。次に、最後（m番目）の説明変数から最初（1番目）の説明変数までの選択されている説明変数ごとに逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リーブ'ワン.アウト処理 {ここでも最後（n番目）のサンプルから逐次除外した } を用いた交差検証成績評価ステップを繰り返しながら判定し、改善する場合にはその説明変数を除外し、そのような改善と除外がなくなるまで、最後（m番目）の説明変数から上記逐次判定操作を繰り返す（S 214〜S 226) 。その結果、有意なモデル (R² =0.988、 Q² =0.895、 NP=342) を得た。図 9は、このデータについての最小自乗法成績を示す。図 9において、ひし形（fit) は訓練集合のデータ（20人）を示し、三角（cv) は、それらについての交差検証成績のデータを示す。また、四角（test) はテスト集合のデータ（8人）を示す。得られた部分最小自乗法モデルは、テスト集合のうち、 4/8をきわめて良好に、また 1/8を良好に予測するものであった。

なお、上述の多変量解析によるデータ解析では、扱ったサンプルは DNAチップを用いて得たデータであった。しかし、このデータ解析は、 DNAチップを用いて得たデータに限定されるものではなく、蛋白質発現量、細胞内物質の量などのデータに対しても有用であろうことは容易に推測されることである。

以下の実施例 2〜 7では、部分最小自乗法を用いて選抜した少ない個数の説明変数について、通常の統計的手法または多変量解析手法（比例ハザード法、重回帰分析、適応最小自乗法、ロジスティック回帰分析法、線型判別分析法など）を適用する。実施例 2 ：部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザード解析による 240名の DLBCL患者の生存時間解析.

Rosenwaldらが Web上（http:〃llmpp. nih. gov/DLBCL/) で公開している 240 名の D L B C L (ぴまん性大細胞型 Bリンパ腫）のデータセットをダウンロードして用いた。全データを訓練集合として利用した。スポットパターンで％ 1または % 2が 0となるものを除いた 7399スポットについて log (； c 1/% 2)を計算して説明変数とした。本実施例では実施例 1と異なり、生存時間として観測打切り時間と死亡時間とが混在していることを考慮して力プラン ·マイヤー（Kaplan - Meier) 法による生命表を適用して事象発生時点での生存確率 (P_KM)を求め、口ジット変換 (log(P_KM/l - P_KM))した値を目的変数とした。力プラン 'マイヤー法による生表は集団としての生存確率を示すが、ここでは、個人 jを含む集団としての事象発生時点での残存確率（変化の発生しなかったものが残存する確率）を個人 jの事象発生時点での残存時間に読み代えるという新規な考え方を用いている。また、この確率を口ジット変換して、変化の発生傾向を表現する口ジット値に変換して、目的変数とした。訓練集合内の交差検証はリーブ ·ワン'アウト法によつて行ない、 PKESSX1.02^{N p}が小さくなるようにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。ここで、交差検証成績（CV=- PRESS) の代わりに、少なくとも交差検証成績を独立変数として持つ関数の 1つである関数 - PRESS X 1. 02^{N p} を改善して部分最小自乗法モデルを得た。ここで PRESSはリーブ'ヮン 'アウト予測の残差自乗和であり、 N Pは、選択された説明変数の数である。図 7のフロー中の交差検証成績 CVを- PRESS X L 02^{N p} と読み換えて、処理を実行することにより、下記の 1 9個の遺伝子の発現が説明変数として選抜された _c ここで data IDは Webデータ元での ID番号を示す。また ACCESSIONは GenBankのァクセション番号であり、ァクセション番号の無い行はデータ元でのみ明らかとなつている遺伝子（Unknown) ないし ESTであり、論文記載の方法によって入手することができる。

ACCESSION data ID comment

U03398 # (27876) tumor necrosis factor (ligand)

superfamily, member 9

M65066 # (27394) protein kinase, cA P - dependent,

regulatory, type I， beta

― # (27104) (Unknown)

AK001546# (25048) Homo sapiens cDNA FLJ 10684 fis, clone

T2RP3000220

-一 # (31372) (Unknown)

U15085 # (28178) major histocompatibility complex,

class II, DM beta

BC003536# (24983) hypothetical protein MGC10796

-- # (16113) (Unknown)

M23452 # (16822) small inducible cytokine A3

# (24433) (Unknown)

X00437 # (27480) T cell receptor beta locus

U12979 # (24377) activated R A polymerase II

transcription cofactor 4

X52479 # (17773) protein kinase C， alpha H96306 # (16578) bone marrow stromal cell antigen 1 U70426 # (19255) regulator of G - protein signalin 16

AA830781# (33358) EST

AA804793# (25022) EST

H57330 # (26383) EST

S69790 # (27184) WAS protein family, member 3 これらの遺伝子の発現を説明変数の候補として比例ハザード (hazard)解析を試みた。比例ハザード法とは、生存率の解析に時間を考慮した統計的手法である。解析の実行はプログラムパッケージ J MP (JMP Sales SAS Campus Drive Cary,

NC 27513 USA)を用いて行なった。変数削除基準として P≥0. 05を採用した変数減少法によって更に絞り込んだ結果、 1 4遺伝子の発現からなる以下の比例ハザード式が得られた。ここで Genbank (ジーンバンク）のァクセシヨン番号ないし data IDで示される各項は、各遺伝子の log ( % 1 / 2 )値であり、また Pは統計的な有意性が成り立たない危険率である。この式の右辺から求められるハザード値 (hazard)が大きいほど、死亡傾向が大きヽ。

hazard = 0. 370 #(27104) +0. 589 AK001546 -0. 366 # (31372) -0. 276 U15085

-0. 307 # (16113) +0. 409 M23452 -0. 350 # (24433) -0. 297 X00437 +0. 321 U12979 -0. 585 X52479 -0. 457 U70426 +0. 561 AA830781 -0. 430 H57330 +0. 433 S69790

Pく 0. 0001

Rosenwaldらは、単相関の比例ハザード解析を行なつて、 5群（ 1 7遺伝子）の診断指標を選抜している。図 1 0に、本実施例で得られたハザード値 (Hazard, 図中 Hazard (pis (14) )と示した）と Rosenwaldらの診断指標がどの程度、生存時間を説明できているかを比較した。 Rosenwaldらの 5群のパラメータを同時に用いた比例ハザード式では Prol irationパラメータが P〉0. 05で統計的に有意でないなどの問題を有していため、これを除く 4群のパラメータを同時に含めたハザ一ド値も比較のために掲載した（図中 Hazard (Rosenwald/4para)と示した）。ここで、菱形は死亡した人または打ち切った人のデータを示し、四角は生存している人のデータを示す。

これらの診断指標のうち、本実施例で求めたハザード値と生存時間との相関は際立って明白である。即ちハザード値は生存時間につれて減衰しており、大きなハザード値の患者は長く生きることが出来ないことが示されている。一方、 Rosenwaldらの指標はいずれも生存時間を診断するには不十分なものである。数百、数千という数のパラメータの中から効率的に最適のパラメータセットを見出すことは比例ハザード解析だけではできないことである。しかし以上のように力プラン-マイヤ一法、口ジット変換、部分最小自乗法の交差検証成績を考慮した特徴抽出、比例ハザード解析を組み合わせることで、従来に無い、有効な診断指標を得ることができた。統計学的に異質なモデルをこのように,祖み合わせることによってこのような良好な結果が得られたことは意外でもあり、興味深、ことであった。患者の生存時間を予測することは、 Q0Lを含めた治療計画や人生設計などを判断する上で重要な情報をもたらすものであり、本実施例で求められた診断モデルは社会的に価値のあるものである。

また、変数削除基準として P≥0. 001を採用した変数減少法によって更に絞り込むと、 6遺伝子の発現からなる以下の比例ハザード式が得られた。このように、変数削除基準を変えることにより、選択される説明変数の数を制御できる。 hazard = -0. 426 U15085 +0. 350 M23452 -0. 521 X52479

- 0. 450 U70426 -0. 586 H57330 +0. 476 S69790

図 1 1は、右辺を計算して求められるハザード値を縦軸とし、生存時間を横軸としたプロットを示す。図 1 0と同様に、図 1 1において、菱形は死亡した人または打ち切った人のデータを示し、四角は生存している人のデータを示す。実施例 3 ：部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザード解析による 4 0名の乳癌患者の生存時間解析.

Sorleら力 b_ti (http： //genome- www. Stanford, edu/breast一 cacer/mopo一 clinical/)で公 ¾している?し癌患者のテータセットをダウンロードして用いた。全データを訓練集合として利用した。データセットの大部分は、タイプ A， Bという 2種類の D NAチップで測定されたそれぞれ 4 0名、 2 4名の患者よりなるが、ここではタイプ Aのデータを用いた。生存時間データより実施例 2と同様に口ジット値を求め、目的変数とした。説明変数としては、データに欠測のある遺伝子を除いた 6 8 9 1件の L0G_RAT2N_MEAN 直を採用した。そして、少なくとも交差検証成績を独立変数として持つ関数の 1 つである、交差検証成績と説明変数 N Pの関数 PRESS X L 13^{N p}が小さくなるようにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。図 7のフロー中の交差検証成績 CVを- PRESSX 1. 13^{N p} と読み換えて、処理を実行することにより、下記の 1 0個の遺伝子の発現が説明変数として選抜された。

ACCESSION comment

AA406242 (.guanosine monophosphate reductase)

AA598572 (spleen tyrosine kinase)

H73335 (Homo sapiens mRNA full length insert cDNA clone EUROIMAGE

980547)

W84753 (Homo sapiens cDNA FLJ13510 fis, clone PLACE1005146)

AA703058 (myeloperoxidase)

N71160 (cytochrome c oxidase subunit Vib)

AA453345 (a protein tyrosine kinase)

AA054669 (Homo sapiens, clone IMAGE :3611719, mRNA, partial cds)

N32820 (ESTs, Weakly similar to ALU1— HUMAN ALU SUBFAMILY J SEQUENCE

CONTAMINATION WARNING ENTRY [H. sapiens] )

R05667 (suppressor of potassium transport defect 3)

これらを説明変数の候補として、比例ハザード解析において変数削除基準として P≥0. 05を採用した変数減少法を試み、 7遺伝子の発現からなる以下の比例ハザ一ド式が得られた。ここでァクセッション番号で示される各項はそれぞれの遺伝子の LOG— RAT2N— MEANである。

hazard = -0. 821 AA406242 +1. 556 AA598572 -1. 074 H7335 +1. 418 W84753

- 1. 290 AA703058 +2. 182 N71160 +0. 828 AA453345

Pく 0. 0001 変数の Pく 0. 05

図 1 2に、右辺を計算して求められるハザード値を縦軸とし、生存時間を横軸としたプロットを示す。ここでもハザード値が優れた診断指標となることが示されている。図 1 2において、菱形は死亡した人または打ち切った人のデータを示し、.四角は生存している人のデータを示す。

変数削除基準として P 0. 001を採用した変数減少法によって更に絞り込んだ。これにより、 3遺伝子の発現からなる以下の比例ハザード式が得られた。このように、変数削除基準を変えることにより、説明変数の数を制御できた。

hazard = 1. 453 AA598572 -1. 473 AA703058 +1. 071 AA453345

図 1 3は、右辺を計算して求められるハザード値を縦軸とし、生存時間を横軸としたプロットを示す。ここで、菱形は死亡した人のデータを示し、四角は生存している人のデータを示す。実施例 4 ：部分最小自乗法の交差検証成績を考慮した特徴抽出と重回帰分析による 4 0名の乳癌患者の再発予測解析.

Sorleらの DNAチップ Aで 6 8 9 1遺伝子の発現が測定された 4 0名の患者をデ一タセットとして用いた。再発の有無を目的変数として、 PRESS X I. 10^{N p}力 S小さくなるようにパラメータを逐次取捨選択して 1 1遺伝子の発現からなる部分最小自乗法モデルを得た。

ACCESSION comment

AA434397 integrin, beta 5

T83209 ESTs

N53427 KIAA1628 protein

N29639 cytidine monopho sphat e-N-ac et y 1 neur ami ni c acid

hydroxylase

M485739 major histocompatibility complex, class II,

DR beta 5

AA425861 enoyl Coenzyme A hydratase 1, peroxisomal

H84871 Ste-20 related kinase

T64312 prostate cancer overexpressed gene 1

T59518 solute carrier family 2， (facilitated glucose transporter) member 8

AA406231 KIAA0381 protein

AAO 37488 prolactin

次に、選抜された遺伝子発現を説明変数とし、再発の有無を目的変数として、通常の多変数解析法の一つである重回帰分析によつて判別分析を実行した。解析の実行はプログラムパッケージ J MPを用いて行なった。変数削除基準として!³ ≥0. 15を採用した変数減少法によってさらに絞り込んだ結果、 1 0遺伝子の発現からなる以下の重回帰式が得られた。この式で計算される 0LS値が正の時は再発の可能性が高く、負の時は低い。

0LS = -0. 215 AA434397 +0. 227 T83209 -0. 209 N53427 +0. 139 N29639

+0. 165 AA485739 +0. 133 AA425861 -0. 084 H84871 -0. 193 T64312 +0. 237 T59518 +0. 176 AA037488 -0. 278

R² =0. 84797、判別正解率 97. 5%

上式に含まれる各パラメータをそれぞれ 1つ用いて判別分析式を作成した場合の P値及び決定係数を以下の表 6に示す。

表 6

単独では有意とはならない (P〉0. 05)パラメータが 3つ存在し、また、どのパラメータも決定係数が小さい。従って、パラメータを 1つずつ吟味するだけでは、上式のような良好な判別式は得られなかった。また数百、数千という数のパラメータの中から効率的に最適のパラメータセットを見出すことは重回帰分析だけではできないことである。しカし、以上のように、部分最小自乗法の交差検証成績を考慮して特徴抽出することにより、従来に無い、有効な診断指標を得ることができた。乳癌の再発可能性を予測することは、 Q0Lを考慮した治療計画を立案し判断するうえで、社会的に求められているところのものである。実施例 5 ：部分最小自乗法の交差検証成績を考慮した特徴抽出と適応最小自乗法による 4 0 + 2 4名の乳癌患者の再発予測解析.

D NAチップのタイプ A ( 4 0名）とタイプ B ( 2 4名）に共通する 3 4 4 8遺伝子に限って解析を試みた。 PRESS X 1. 17^N Pが小さくなるようにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。選抜された遺伝子発現を説明変数とし、適応最小自乗法によって判別分析を実行した結果、次式が得られた。次式で計算される A L S値が 0 . 5より大きいと再発の危険性が存在する。

ALS = 0. 31 HI 1482 -0. 29 T64312 -0. 32 AA045340 +0. 01

R² = 0. 65， eps = 0. 13, 判別正解率 90. 0%

下記の表 7にみるように、 H11482は単相関では有意ではなく、他の変数と同時に用いることで初めて把握できたパラメータである。また、表 8は、上式を用いてタイプ Bの患者を予測した結果である。本判別式の感度 =81. 8%、特異度 = 53. 8%となり、％ ² =3· 233 (5%く Pく 10%)、予測判別正解率 =66. 7%、という統計的に有意な結果を得た。タイプ A、 Bは D NAチップの構成の相違に基づく測定誤差が存在すると思われるデータであるにもかかわらず、タイプ Aで訓練したモデルでタィプ Bの予測に危険率 1 0 %以下で成功したことは勇気付けられる結果である。

また、 PRESS X 1. 12^N Pが小さくなるように選んだ場合には、以下の遺伝子の発現を説明変数とする部分最小自乗法モデルを得た。

H11482、 T64312、 R99749、 T65211、 Μ427625、 ΑΑ455506

これらを説明変数の候捕として、リーブ ' ワン 'アウトを指標にして、さらに絞り込んだ結果、次の判別式を得た。

ALS = 0. 53 HI 1482 -0. 31 T64312 -0. 33 R99749 -0. 26 AA455506 +0. 10

R² = 1. 00， eps = 0. 10, 判別正解率 100. 0%

パラメータを 1つずつ吟味するだけでは、上式のような良好な判別式は得られなかった。また数百、数千という数のパラメータの中から効率的に最適のパラメータセットを見出すことは、適応最小自乗法、ロジスティック回帰分析、その他の判別分析手法だけではできないことである。し力し、以上のように、部分最小自乗法の交差検証成績を考慮して特徴抽出することにより、従来に無い、有効な診断指標を得ることができた。

表 7 パラメータの交絡作用

表 8 タイプ Bの 2 4患者の予測

実施例 6：部分最小自乗法の交差検証成績を考慮した特徴抽出と口ジスティック回帰分析法または線型判別分析法による 4 0 + 2 4名の乳癌患者の再発予測解析.

実施例 5での 1つめの適応最小自乗法による解析をロジスティック回帰分析法に置き換えた場合、次の判別式が得られた。

L0RA = 7. 92 HI 1482 -5. 69 T64312 -6. 41 AA045340 -9. 73

R² = 0. 63, x2 = 35. 00 (Pく 0. 0001) , 判別正解率 90. 0%

右辺で求められる L O R A値が正の場合には再発の危険性が存在する。係数の比率や相関係数は実施例 5の適応最小自乗法の場合と異なるものの、各患者の識別結果は全く同一であった。またタイプ Bの患者を予測した結果も表 7と同じになった。

次に、実施例 5での適応最小自乗法による解析を線型判別分析に置き換えて解析して、次の判別式が得られた。

LDA = 2. 45 HI 1482 -2. 35 T64312 -2. 56 AA045340 -4. 03

判別正解率 80. 0%

右辺で求められる L D A値が正の場合には再発の危険性が存在する。係数の比率や相関係数は、実施例 5の適応最小自乗法の場合と異なり、各患者の識別結果も若干異なったが、概ね同一であった。また、タイプ Bの患者を予測した結果も表 7と同じになった。

以上の実施例 4， 5， 6では、乳癌の再発の有無を目的変数としている。したがつて、部分最小自乗法の交差検証成績を考慮して特徴抽出する方法が、目的変数が名義尺度や順序尺度などのデータである場合にも有効であることが示された。なお、名義尺度とは、対象（サンプル）をある分類に属するかどうかを測り分け- るときの分類で、分類の間に大小や順序はない。また、順序尺度とは、対象の特定の分類について測り分けるときの分類であり、分類の間に大小、高低といった順序がある。実施例 7：部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザード解析による 4 0名の乳癌患者の再発時間解析.

実施例 4と同じデータを用いて、再発の時系列データを基に実施例 2と同様の方法で求めたロジット値を目的変数として、 PRESS X 1. 15^{N P}が小さくなるようにパラメ ^"タを逐次取捨選択して 9遺伝子の発現からなる部分最小自乗法モデルを得た。これらの遺伝子発現の測定値を説明変数として比例ハザード解析において変数削除基準として P≥0. 05を採用した変数減少法を試み、 8遺伝子からなる、以下の比例ハザード式が得られた。

hazard = 1. 122 AA448641 -1. 781 R78516 -1. 434 R05934 +2. 165 W84753

-1. 923 AA629838 +2. 665 H08581 +1. 875 AA045730 +1. 269 AI250654 P<0. 0001

図 1 4は、右辺を計算して求められるハザード値を縦軸とし、再発時間を横軸としたプロットを示す。ここで、菱形は再発しない人のデータを示し、四角は再発している人のデータを示す。ここでもハザード値が優れた診断指標となっており、生存時間に限らず、時間とともに確率的に発生する生体の状態の変化を解析する手法として、本発明の手法が有効であることが示されている。

変数削除基準として P≥0. 005を採用した変数減少法によって更に絞り込んだ場合には、 4遺伝子の発現からなる以下の比例ハザード式が得られた。

hazard = 1. 559 84753 +2. 265 H08581 +1. 473 AA045730 +1. 237 AI250654 図 1 5は、右辺を計算して求められるハザード値を縦軸とし、再発時間を横軸としたプロットを示す。ここで、菱形は再発しない人のデータを示し、四角は再発している人のデータを示す。実施例 8 : &6 &。^;ァクセッション番号1111482、 T64312、 Μ045340を含む乳癌再発性診断用 D Ν Αチップの作成と測定.

実験医学別冊「ゲノム機能研究プロトコール」 (ISBN4-89706-932-7 C3047) p34- 38記載の関直彦、永杉友美、東孝典、吉川勉、鈴木収、村松正明らの方法に準じて D NAチップの作成と測定を行なった。 Genbankァクセッション番号 HI 1482 T64312_s M045340の c D NAを用いた。

プローブ用の各 P C R産物をエタノール (和光純薬， Cat#057- 00456)で沈殿させ、 2/ g/ ju lとなるように D DWで調整する。ニトロセルロース（GibcoBRL

Cat#41051-012) 4 mg/mlの DMS O溶液を等量加え、よく混和させて 1 0 0 °Cで 5分間熱変性を行ない、氷上で急冷する。次いで室温に戻し、 D NAスポッター SPBI02000 (日立ソフトエンジニアリング）を用いてカルボジィミドスライドガラス（日清紡)へのスポッティングを速やかに行なう。スポットの乾燥を確認し、 Ultraviolet crosslinker (アマシャムフアルマシアバイオテック社）を用いて 6 OmJん m²で紫外クロスリンク処理を行ない、ガラスラックに立てて室温保存する。

3%BSA_S 0.2M NaCl、 0.1M Tris (PH 7.5)、 0.05% Triton X - 100よりなるプロッキング液に上記マイクロアレイを浸け、約 3 0分間放置する。次いで、ガラスに付着している溶液をよく切り、 3 7 °Cで乾燥させる。 TEバッファー (PH 8.0，二ツボンジーン Cat #316- 90025)で 3回軽く洗い、プレートホルダーに入れて軽く遠心（1000 rpm, 1分間）して余分な水分を除去する。

次に、乳腺正常株 SV- 40及ぴ乳癌細胞株 MCF- 7、 MDA- MB- 468又は T- 47- Dの各細胞液より、 TRIZ0L (G.ibcoBRL, Cat#15596- 018)、 Oligotex dT30<Super> (TaKaRa, Cat#W9021A)を用いてマニュアルに従って、 niRNAを精製する。 2 μ gの mRNAを

DE P C処理した6.4μlのDDWに溶かし、 Oligo dTプライマー 9 μ 1、 5 X Superscript IIバッファー（GibcoBRL, Cat#18089-01l) 6 μ 1、 DTT

(Superscriptの付属） 3 μ 1、 50 X dNTP 0. 6 μ 1、 Cy3- dUTP (アマシャムフアルマシアバイオテク Cat# PA53022)又は Cy5- dUTP (アマシャムフアルマシアバィォテク Cat# PA55022) 3 μ 1、 Superscript II 2 μ 1よりなる溶液を力 tlえ、 4

2 °Cで 2時間反応させる。途中 1時間経過時点で、 Superscript IIをを追加する。 1. 5 μ 1アル力リバッファー (IN NaOH / 20nM EDTA)を加え、 6 5 °Cで 1 0分間反応させ、 TEバッファーを 2 70 ^1、 1N HC1を 1. 5 μ1加えて、 Cy3， Cy5ラベルの反応液を 2つまとめて 1本の Microcon- YM- 30 (Millipore/Amicon, Cat#42410)に移す。 1 0， 00 Orpmで上の力ップに残る液量が約 1 0 μ 1になるまで遠心を続け、カップを通りぬける液を別のチューブに移し替え、その後、上のカップに ΤΕ バッファー 500 /X 1、 Human Cot-1 DNA (GibcoBRL Cat#15279- 011) 20 Atgを力！]え、再び液量が 1 0 1以下になるまで遠心を続ける。 3, 00 0 rpmで 3分間遠心し、蛍光標識した DN Aを回収する。 DDWと yeast RNA (Sigma, Cat#R7125) 50 μ g、 poly (A) (ロッシュダイァグノステイクス，

Cat#108 626) 50 μ gを加えて 20 1にし、 PC R用のチューブに移し換え、さらに 4. 2 5 ^ 1 20 X SSC (GibcoBRL, Cat#15553—035)と 0. 7 5 μ 1 1 0 % SD S (GibcoBRL, Cat#15553-035)を加え、 PCR用の機器で 1 00 °C、 1分間熱変性させ、次いで、室温で 30分間放置して、ゆっくり冷却する。蛍光標識した DNAの全量をカバーガラスにのせ、泡が入らないように注意しながら前記マイクロアレイにかぶせ、水で濡らしたキムタオルを底に敷いたハイプリダイゼーションチェンバーに入れて密閉する。毎分 2~ 4サイクルで軽く振とうさせながら、 65°Cでー晚ハイプリダイズする。ハイプリダイゼーションチェンバーからマイクロアレイを取り出し、カバーガラスが載ったままの状態で静カに2 33〇/0. 1% SDS溶液中に入れ、 5分間シエイキングし、カバ一ガラスが自然にはがれるのを待つ。カバーガラスがはがれたところでマイクロアレイをスライドガラスラックに入れ、もう一度 2XS SC/0. 1% SDS 溶液中で 5分間軽く振とうして洗う。さらに 0. 2XSSC/0. 1% SDS 40 °Cで 5分間 2回洗い、 0. 2XSSCでリンスする。マイクロアレイを別の乾いたプレパラートケースに移し、マイクロタイタープレート用の遠心機で軽く遠心して（1000 rpra, 1分室温）マイク ΰアレイ上の水分を除く。そして、 ScanArray4000 (GSI luminonics社）でシグナルを読み込み、角军析ソフトには Quant Array (GSI luminonics社）および Chip Space (日立ソフトウエアェンジ二ァリング）を用いる。実施例 9：遺伝的ァルゴリズムによる部分最小自乗法モデルの最適化.

実施例 4で用いた Sorleらの DNAチップ Aで 6891遺伝子の発現が測定された 40名の患者をデータセットとして用いた。遺伝的アルゴリズムは、たとえば、伊庭斉志；「遺伝的アルゴリズムの基礎」（オーム社 (1994)) に説明されている。前記データを用い、遺伝的アルゴリズムによる説明変数選択を行なった。以下において「」で区切られた用語は遺伝的アルゴリズムで通常用いられる専門用語であり、特に必要な場合には解説を加えている。「適合度」（fitness) には - PRESS X 1.0，を採用した。各「個体」の「遺伝型」は説明変数を採用する場合には 1、採用しない場合には 0をとる数列 {bl,b2， b3, ...}とした。

個体集合のサイズを 100個とし、初期の個体の「遺伝型」（GTYPE)は、平均で min_₀f(Ns, Ng, 300) /2個の説明変数が採用となるように乱数を用いて準備した。ここで Nsはサンプル数 (患者数)、 N gは説明変数の候補の数、 300は実装の都合上設定された定数である。 4059

43 集合よりランダムに 2つの個体を選抜し、「遺伝型」の「一様交叉」を行なつたものの一方を新しい「個体」とした。即ち、「各遺伝子座」ごとに 1 / 2の確率で、ずれかの「親個体」の数列値（ 0または 1 )を選びそれを代入したものを新しい「個体」とした。続いて新しい「個体」の「各遺伝子座」毎に、 1の場合 (説明変数が採用されている場合）には 1. 1/採用された説明変数の数の確率で、 0 の場合 (採用されていない場合）には 1. 1/採用されていない説明変数候插の数の確率で、 0 " 1を反転させた。

上述の「交叉 '突然変異オペレーション」によって準備された新しい「個体」の「適合度」と、ランダムに選抜された「トーナメント相手」となる集合中の「個体 J の「適合度」とを比較し、新しい「個体」の適合度が勝った場合には 0 .

7 5の確率で、劣った場合には 0 . 2 5の確率で「個体 j の置き換えを行なった。ただし、「トーナメント相手 J が集合中の最適解のものである場合には置き換えを禁止するという「エリート戦略」を採用した。

以上の「交叉」 → 「突然変異」 → 「選抜」サイクルを繰り返して最適化を行なつた。ここではサイクル数を集合サイズで割ったものを「世代数」とする。最大

「世代数」の初期値を 1 0 0とし、新しい最適解が見出されるたびに最大「世代数」を 1 0増加させながら、実行「世代数」が最大「世代数」に至るまでサイクルを繰り返した。

以上の初期集合の準備〜最適化の繰り返しおよび終了にいたる一連の処理を一回のラン（run)とし、 1 5回のランを行なった。図 1 6は、 1 5回のランにおける最適化の様子をまとめている。最良の結果は 2 5個の説明変数を用いたものである。実施例 1 0 ：階層型人工ニューラルネットワーク（MLP)によるモデノレ構築. 実施例 5の乳癌患者の再発性判別解析において、 D N Aチップ type A (40名）と type B (24名）に共通する 3 4 4 8遺伝子より、 PRESS X 1. 17^Npが小さくなるようにして P L S -C Vで特徴抽出された 3つの説明変数を用いた。

解析方法について説明すると、 ML Pは 3層とし、中間層（tk)において一度だけシグモイド変換を行なう構造とし、図 1 7の 4つのトポロジーを試みた。ネットワークの重みの学習は Back propagation (逆伝播）アルゴリズムによって行なつた。中間層（tk)において一度だけシグモイド変換を行なう 3層 MLPを用いた。

sik=∑ j wkj■ Pij

tik=l/ (l+exp {-sik} )

yi=∑_k vk · tik

ネットワークトポロジー Iおよびトポロジー libの結果は以下のとおりであつた。なお、トポロジー Ila及ぴトポロジー lieは、トポロジー libに劣るものであった。トポロジー I：

y= 0. 76 -1. 77 tl

sl= -12. 48-42. 89 HI 1482 +39. 38 AA045340 +29. 65 T64312

R²=0. 717 Q²=0. 142

トポロジー lib：

y=l. 19 -0. 86 tl -1. 43 t2

tl= 2. 65+ 18. 25 AA045340

t2=-0. 40 -2. 29 H11482+ 3. 55 T64312

R²=0. 626 Q²=0. 416 実施例 1 1 ：潜在変数を用いた比例ハザードモデルの構築.

実施例 3の P L S— C V法で選抜された 10遺伝子の発現量を説明変数とし、目的変数として生存確率の logit値を用いて P L Sの解析過程で作成される潜在変数を 1個抽出した。その抽出した潜在変数を説明変数にして比例ハザードモデルによる解析を試みた結果、作成された式は P 0 . 0 0 0 1で有意となつた。図 1 8に右辺を計算して得られるハザード値を縦軸とし、生存時間を横軸にしたプロットを示す。

本技術で得られたハザード式の予測の性能を評価するために、用いた 4 0例の中から 1例を除外し、残りの 3 9例のデータを用いてハザード式を作成し、除外した 1例のハザード値を予測した。 3 9例からのハザード式によつて予測した値と 4 0例からのハザード式からの計算値をプロットした図 1 9より、本技術はハザ一ド値の予測において良好な成績を示した。発明の効果について以下に説明すると、生体の状態と複数の遺伝子発現の量および/または細胞内物質の量との相関モデルを決定するとき、説明変数の選択と交差検証法とを用いて変数を絞り込むことができる。これにより、良好でかつ予測力のある多変量解析モデル（相関モデル）が得られる。特に遺伝子発現の量のように、説明変数の数がたとえば 1 0 0 0以上と膨大な場合に有用である。変数の数を少なくすることにより、病気や生体現象の背後で働いている重要な遺伝子やメカニズムを推定/特定でき、理角爭が深まる。また、重要な遺伝子産物や細胞内物質だけに絞った廉価な診断用材料 (D N Aチップ、 D NA含有ベクター、抗体チップなど）を設計し、提供できる。

また、時間とともに確率的に発生する生体の状態の変化から導出された量を目的変数として用いて、時間とともに確率的に発生する生体の状態の変化と複数の遺伝子発現の量および/または細胞内物質の量との相関モデルを決定できる。また、部分最小自乗法を用いて説明変数の個数を少なくすると、通常の統計的手法または多変量解析手法が適用可能になる。

Claims

請求の範囲

1 . 生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および Zまたは細胞内物質の量を説明変数とする相関モデルを決定するデータ解析装置であって、

生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および Zまたは細胞内物質の量からなるサンプルの集合を入力する入力手段と、

( 1 )説明変数を選択する選択手段と、

( 2 )部分最小自乗法を実行して交差検証成績を計算する計算手段または前記生体の状態の変化に関するデータに力プラン ·マイヤー法又は力トラー■ェデラー法による生命表を適用して変化の発生しなかつたものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手段と、

( 3 )前記（2 )の計算手段の結果を評価し、説明変数の採用、不採用を判定する評価判定手段とを有し、

( 4)前記 ( 1 ) の選択手段と前記（2 )の計算手段と前記（3 )の評価判定手段とを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定手段とからなることを特徴とするデータ解析装置。

2. 目的変数が生体の状態であって、前記入力手段で入力するデータが生体の状態或いはそれを導出するデータであつて、前記（ 2 )の計算手段が部分最小自乗法を実行して交差検証成績を計算する計算手段であることを特徴とする請求項 1 に記載のデータ解析装置。

3 . 目的変数が時間とともに確率的に発生する生体の状態の変化であって、前記入力手段で入力するデータが時間とともに確率的に発生する生体の状態の変化に関するデータであって、前記（2 )の計算手段が前記生体の状態の変化に関するデータに力プラン ·マイヤー法又は力トラー ·ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手段であることを特徴とする請求項 1に記載のデータ解析装置。

4 . さらに、前記の決定手段にて決定された部分最小自乗法モデルに採用されている説明変数又は該モデルの潜在変数を用い、統計的手法又は多変量解析手法によるモデルを構築する最終モデル決定手段を備えることを特徴とする請求項 1、 2又は 3に記載のデータ解析装置。

5 . 前記の選択手段において、説明変数を逐次取捨選択することを特徴とする請求項 1〜 4のいずれかに記載のデータ解析装置。

6 . 前記の選択手段において、遺伝的アルゴリズムを用いて説明変数を選択することを特徴とする請求項 1 ~ 4のいずれかに記載のデータ解析装置。

7 . 前記の計算手段において、 1個のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項 1〜 6のいずれかに記載のデータ解析装置。

8 . 前記の計算手段において、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項 1 ~ 6のいずれかに記載のデータ解析装置。

9 . '前記計算手段において、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、交差検証成績の指標として当該誤差を用いることを特徴とする請求項 7又は 8に記載のデータ解析装置。

1 0. 前記関数が交差検証成績であることを特徴とする請求項 1〜 9のいずれかに記載のデータ解析装置。

1 1 . 前記関数が交差検証成績と選択された説明変数の個数との関数であることを特徴とする請求項 1〜 9のいずれかに記載のデータ解析装置。

1 2. 前記の決定手段において、少なくとも交差検証成績を独立変数として持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項 5に記載のデータ解析装置。

1 3 . 前記 ( 1 ) の選択手段と前記（2 )の計算手段とを複数のコンピュータで実行させることを特徴とする請求項 1〜 1 2のいずれかに記載のデータ解析装置。

1 4 . 請求項 1、 2、 3又は 4で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力手段と、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定手段からなることを特徴とするデータ解析装置。

1 5 . 生体の状態を名義尺度、順序尺度或いは連続量で表現する目的変数とする請求項 2に記載のデータ解析装置。

1 6 . 最終モデル決定手段が用いる前記の統計的手法又は多変量解析手法が、比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法であることを特徴とする請求項 2又は 4に記載のデータ解析装置。

1 7 . 生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および Zまたは細胞内物質の量を説明変数とする相関モデルを決定するデータ解析方法であって、

生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子宪現の量および/または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、

( 1 )説明変数を選択する選択ステツプと、

( 2 )部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変化に関するデータに力プラン ·マイヤー法又は力トラー 'ェデラ一法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップと、

( 3 )前記（2 )の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステップとを有し、

( 4 )前記 ( 1 ) の選択ステップと前記（2 )の計算ステップと前記（3 )の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステツプとからなることを特徴とするデータ解析方法。

1 8 . 目的変数が生体の状態であって、前記入力ステップで入力するデータが生体の状態或いはそれを導出するデータであって、前記（2 )の計算ステップが部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項 1 7に記載のデータ解析方法。

1 9 . 目的変数が時間とともに確率的に発生する生体の状態の変化であって、前記入力ステップで入力するデータが時間とともに確率的に発生する生体の状態の変化に関するデータであって、前記（2 )の計算ステップが前記生体の状態の変化に関するデータに力プラン'マイヤー法又は力トラー'ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算スチップであることを特徴とする請求項 1 7に記載のデータ解析方法。

2 0 . さらに、前記の決定ステップにて決定された部分最小自乗法モデルに採用されている説明変数又は該モデルの潜在変数を用い、統計的手法又は多変量解析手法によるモデルを構築する最終モデル決定ステップを備えることを特徴とする請求項 1 7、 1 8又は 1 9に記載のデータ解析方法。

2 1 . 前記の選択ステップにおいて、説明変数を逐次取捨選択することを特徴とする請求項 1 7 ~ 2 0のいずれかに記載のデータ解析方法。

2 2 . 前記の選択ステップにおいて、遺伝的アルゴリズムを用いて説明変数を選択することを特徴とする請求項 1 7 - 2 0のいずれかに記載のデータ解析方法。

2 3 . 前記の計算ステップにおいて、 1個のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項 1 7〜2 2の V、ずれかに記載のデータ解析方法。

2 4 . 前記の計算ステップにおいて、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項 1 7〜2 2のいずれかに記載のデータ解析方法。

2 5 . 前記計算ステップにおいて、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、交差検証成績の指標として当該誤差を用いることを特徴とする請求項 2 3又は 2 4に記載のデータ解析方法。

2 6 . 前記関数が交差検証成績であることを特徴とする請求項 1 7〜 2 5のいずれかに記載のデータ解析方法。

2 7 . 前記関数が交差検証成績と選択された説明変数の個数との関数であることを特徴とする請求項 1 7〜2 5のいずれかに記載のデータ解析方法。

2 8 . 前記決定ステップにおいて、少なくとも交差検証成績を独立変数として持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項 2 1に記載のデータ解析方法。

2 9 . 前記 ( 1 ) の選択ステップと前記（2 )の計算ステップとを複数のコンビユータで実行させることを特徴とする請求項 1 7〜 2 8のいずれかに記載のデータ解析方法。

3 0 . 請求項 1 7、 1 8、 1 9又は 2 0で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステツプからなることを特徴とするデータ解析方法。

3 1 . 生体の状態を名義尺度、順序尺度或いは連続量で表現する目的変数とする請求項 1 8に記載のデータ解析方法。

3 2 . 前記の統計的手法又は多変量解析手法が、比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法によるモデルを構築する最終モデル決定ステツプとからなることを特徴とする請求項 1 8又は 2 0に記載のデータ解析方法。

3 3 . 生体の状態または時間とともに確率的に発生する生体の状態の変化を目的変数とし、複数の遺伝子発現の量および Zまたは細胞内物質の量を説明変数とする相関モデルを決定する、コンピュータにより実行されるデータ解析プロダラムであって、

生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、複数の遺伝子発現の量および/または細胞内物質の量からなるサンプルの集合を入力する入力ステップと、

( 1 )説明変数を選択する選択ステツプと、 ( 2 )部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状態の変化に関するデータに力プラン■マイヤー法又は力トラー■ェデラ一法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計

( 3 )前記（2 )の計算ステップの結果を評価し、説明変数の採用、不採用を判定する評価判定ステツプとを有し、

( 4 )前記 ( 1 ) の選択ステップと前記（2 )の計算ステップと前記（3 )の評価判定ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステップとからなることを特徴とするデータ解析プログラム。

3 4 . 目的変数が生体の状態であって、前記入力ステップで入力するデータが生体の状態或いはそれを導出するデータであって、前記（2 )の計算ステップが部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項 3 3に記載のデータ解析プログラム。

3 5 . 目的変数が時間とともに確率的に発生する生体の状態の変化であって、前記入力ステップで入力するデータが時間とともに確率的に発生する生体の状態の変化に関するデータであって、前記（2 )の計算ステップが前記生体の状態の変化に関するデータに力プラン'マイヤー法又はカトラー ·ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、仮定した分布に基づいた変換または仮定を前提としない変換をし、該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴とする請求項 3 3に記載のデータ解析プロダラム。

3 6 . さらに、前記の決定ステップにて決定された部分最小自乗法モデルに採用されている説明変数又は該モデルの潜在変数を用い、統計的手法又は多変量解析手法によるモデルを構築する最終モデル決定ステツプを備えることを特徴とする請求項 3 3、 3 4又は 3 5に記載のデータ解析プログラム。

3 7 . 前記の選択ステツプにおいて、説明変数を逐次取捨選択することを特徴とする請求項 3 3〜 3 6のいずれかに記載のデータ解析プログラム。

3 8 . 前記の選択ステップにおいて、遺伝的アルゴリズムを用いて説明変数を選択することを特徴とする請求項 3 3 ~ 3 6のいずれかに記載のデータ解析プログラム。

3 9 . 前記の計算ステップにおいて、 1個のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項 3 3〜 3 8のいずれかに記載のデータ解析プロダラム。

4 0 . 前記の計算ステップにおいて、複数のサンプルを逐次除外して部分最小自乗法を実行して交差検証成績を計算することを特徴とする請求項 3 3〜 3 8のいずれかに記載のデータ解析プログラム。

4 1 . 前記計算ステップにおいて、各計算において除外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、前記除外したサンプルの生体の状態を示す目的変数値との誤差の代表値を求め、交差検証成績の指標として当該誤差を用いることを特徴とする請求項 3 9又は 4 0に記載のデータ解析プログラム。

4 2 . 前記関数が交差検証成績であることを特徴とする請求項 3 3〜 4 1のいずれかに記載のデータ解析プログラム。

4 3 . 前記関数が交差検証成績と選択された説明変数の個数との関数であることを特徴とする請求項 3 3〜4 1のいずれかに記載のデータ解析プログラム。

4 4 . 前記決定ステップにおいて、少なくとも交差検証成績を独立変数として持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項 3 7に記載のデータ解析プログラム。

4 5 . 前記（1 ) の選択ステップと前記（2 )の計算ステップとを複数のコンビユータで実行させることを特徴とする請求項 3 3〜4 4のいずれかに記載のデータ角军析プログラム。

4 6 . 請求項 3 3、 3 4、 3 5又は 3 6で決定された相関モデル及び予測対象のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、入力された該説明変数に基づヽて該サンプルの生体の状態を予測判定する予測判定ステップからなることを特徴とするデータ解析プログラム。

4 7 . 生体の状態を名義尺度、順序尺度或いは連続量で表現する目的変数とする請求項 3 4に記載のデータ解析プログラム。

4 8 . 前記の統計的手法又は多変量解析手法が、比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法によるモデルを構築する最終モデル決定ステツプとからなることを特徴とする請求項 3 4又は 3 6に記載のデータ解析プログラム。

4 9 . 前記の説明変数の選択において、初期状態では説明変数を全く含まないことを特徴とする請求項 3 7に記載のプログラム。

5 0 . 前記の説明変数の選択において、初期状態では全説明変数を含むことを特^とする請求項 3 7に記載のプログラム。

5 1 . 前記の生体の状態が病気のタイプをあらわす測定値、病気の重篤度をあらわす測定値、病気のタイプをあらわす医療診断の結果、病気の重篤度をあらわす医療診断の結果、あるいはそれらを 2次加工した数値であることを特徴とする請求項 3 7〜5 0のいずれかに記載のプログラム。

5 2 . 請求項 3 3〜請求項 4 8のいずれかに記載されたプログラムを記録した、コンピュータにより読み取り可能な記録媒体。

5 3 . 実質的にジーンバンクァクセッション番号が U15085、 M23452, X52479、 U70426, H57330及び S69790からなる遺伝子群の発現を検出することを特徴とするびまん性大細胞型 Bリンパ腫の重篤度検定用の細胞内物質測定機材および測定方法並びにびまん性大細胞型 Bリンパ腫の重篤度検定方法。

5 4 . さらにジーンバンクァクセッション番号が U03398、 M65066、 AK001546、

BC003536、 X00437、 U12979、 H96306、 M830781及び M804793からなる群から選択される少なくとも一つの遺伝子の発現を検出することを特徴とする請求項 5 3に記載のびまん性大細胞型 Bリンパ腫の重篤度検定用の細胞内物質測定機材および測定方法並びにびまん性大細胞型 Bリンパ腫の重篤度検定方法。

5 5 . 実質的にジーンパンクァクセッション番号が M598572、 M703058及ぴ

M453345からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の重篤度検定用の細胞内物質測定機材およぴ測定方法並びに乳癌の重篤度検定方法。

5 6 . さらにジーンバンクァクセッション番号が M406242、 H73335、 W84753、 N71160、 AA054669, N32820及び R05667からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出することを特徴とする請求項 5 5に記載の乳癌の重篤度検定用の細胞内物質測定機材および測定方法並びに乳癌の重篤度検定方法。

5 7 . 実質的にジーンバンクァクセッション番号が W84753、 H08581、 AA045730 及び AI250654からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。

5 8 . さらにジーンバンクァクセッション番号が M448641、 R78516、 R05934、

AA629838及び H53037からなる群から選択される少なくとも一つの遺伝子産物を含む細胞内物質を検出することを特徴とする請求項 5 7に記載の享し癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。

5 9 . 実質的にジーンバンクァクセッション番号が AA434397、 T83209、 Ν53427、 Ν29639、 ΑΑ485739, Μ425861、 Η84871、 Τ64312、 T59518及び

Μ037488からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。

6 0 . さらにジーンバンクァクセッション番号が M406231の遺伝子産物を含む細胞内物質を検出することを特徴とする請求項 5 9に記載の乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。

6 1 . 実質的にジーンバンクァクセッション番号が H11482、 T64312及び Μ045340からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。