WO2002001477A1

WO2002001477A1 - Procede de traitement de donnees d'expression genique et programmes de traitement

Info

Publication number: WO2002001477A1
Application number: PCT/JP2001/004697
Authority: WO
Inventors: Tomokazu Konishi
Original assignee: Center For Advanced Science And Technology Incubation, Ltd.
Priority date: 2000-06-28
Filing date: 2001-06-04
Publication date: 2002-01-03
Also published as: EP1313055A4; EP1313055A1; US20030182066A1; JPWO2002001477A1; AU2001260704A1; KR20030014286A

Description

明細書

遺伝子発現デ一夕の処理方法および処理プログラム発明の属する技術分野

本発明は、多数の遺伝子をスポットとして固定させた DNAチップから取得した遺伝子発現データを統計的に解析する手法に関する。背景技術

DN Aチップとは、スライドガラスなどの基材上に複数の遺伝子を異なるスポットとして固定させたものである。たとえば、マイクロアレイには、数千から数万の遺伝子が夕一ゲヅトとして固定されている。ターゲットとして、一重鎖の D N Aや mRNAが利用される。

DNAチヅプの基材として、種々のコーティングを施したガラスなどからなる板、ナイロンやニトロセル口一スからなる膜、中空糸、半導体材料、金属材料、有機物質など核酸を保持できる種々のものが利用できる。また、ターゲットとして、 c DNAの全部或いはその一部を複製したもの、ゲノム DNAの一部を複製したもの、合成 DNAおよび/または合成 RNAが利用され得る。基材に夕ーゲヅトを固定するために、フォトリソグラフ法によりガラス板上にオリゴ D N Aを合成する.手法と、スポッター等を利用して基材に夕一ゲットを取り付ける手法とが知られている。

このような DNAチップに、たとえば、蛍光標識をつけた DNAや RNA (解析対象）をハイプリタイズさせる。ターゲットと相補的な解析対象が二重鎖を形成する。解析対象には蛍光標識が付されているため、ハイプリダイゼーシヨンの後に、蛍光スキャナにて DN Aチップを操作した画像デ一夕を取得することができる。このようにして取得された画像データに基づき、何れか一項に記載ののスポヅトに二重鎖が形成されているかを知ることが可能となる。より具体的には、得られた画像は、ハイブリダィゼーシヨンの結果、各々の DN Aに由来するスポヅトが表示される。したがって、スポットの位置を含む所定の領域のシグナル強度を積算することにより、各スポットのシグナル強度を示す値からなるアレイデ —夕を得ることができる。

たとえば、数千から数万の夕一ゲッ卜が固定されているマイクロアレイにより、多数の遺伝子発現を示すアレイデ一夕を一度の実験操作で得ることができる。この結果、ある一つの遺伝子発現のデ一夕の増減を測定する際に、その対象として多数の遺伝子発現を示すデータ（シグナル強度を示す値）の平均を算出し、これに基づいてデ一夕を標準化するのが一般的である。より具体的には、実験ごとの発現デ一夕を比較する前にデ一夕を標準化する。たとえば、 Johhanes Schuchhardt ら Iこよる「 Normalization strategies for cDNA microarrays ( Nuc丄 eic Acids Research (2000) Vol.28 No.10 ) 」には、その標準化の一例が開示されている。取得されたデ一夕の確率分布はノンパラメトリックである。しかしながら、たとえば、 Todd Richmond らによる「Chasing the dream: plant EST microarrays (Current Opinion in Plant Biology (2000) Vol .3 ppl08 -116)」に開示されているように、取得されたデータを標準化するために、 Z—標準や t 一標準、或いは、各スポットのシグナル強度の積算値を全体の数値の算術平均で除するというような手法が用いられている。

これらはノンパラメトリックな手法ではないため、このような標準化がデ一夕の精度を著しく損ねているという問題点があつた。

また、蛍光スキャナにより取得された画像に基づくアレイデ一夕は、必ず、バックグラウンド成分を含む。これは、画像デ一夕全体に存在するバックグラウンドのシグナル強度、および、測定範囲と実際のスポットの大きさや形状が必ずしも一致しないことに起因する。したがって、取得した画像データの数値からバヅクグラウンド成分を差し引き、真のシグナル値からなるデ一夕を取得することが正確な解析のために重要となる。他の手法、たとえば、電気信号の検出、放射線の検出により取得されたアレイデ一夕でも同様である。

従来、バックグラウンド成分を、特定のスポットゃスポヅトされない部分のシグナル強度をあらわす数値に基づき、画素あたりの平均値や中央値を求め、この値に測定領域の画素数を乗ずることにより推定していた。或いは、 Michael Ei senが、 ^rScanAlyze User Manual (http://rana. lbl .gov/ EisenSoftware.htm )」において提案しているように、スポットごとに、測定範囲の外側近傍の値からバックグラウンド成分を推定する手法も知られている。しかしながら、上記従来の補正法においては、バックグラウンド値算出のために利用されるスポットゃ画像中の領域の相違により、上記バックグラウンドの推定値は変化する。つまり、上記相違から種々のバックグラウンド値が推定される可能性があり、何れが適切であるかを判断することができないという問題点があつた。特に、 D N Aをスポットした領域と、そうでない領域との間で、バヅクグラウンド値の差が大きくなることがあった。

本発明は、 D N Aチップから取得された遺伝子発現のデ一夕を、他の D N Aチップからのデ一夕と比較可能にし、また、適切な統計的に解析することが可能となるような手法を提供することを目的とする。発明の開示

本発明者は、 D N Aチップから得られるデ一夕（遺伝子発現による発光量を示すデ一夕）の対数値が正規分布することを知見した。そこで、各値の対数値をとることで、したがって、各スポットのシグナル強度を示す値を対数変換し、これを標準化（たとえば、 z —標準化）することにより、異なる実験の結果や同種の実験結果を正確に比較することが可能となる。また、対数値や標準化された値を記憶し、或いは、比較演算に際して、これら値を利用するため、デ一夕量を著しく小さくすることが可能となる。

より詳細は、本発明の目的は、 D N Aチップのハイブリダイゼーシヨンにより、 D N Aチップ上に配置された各スポヅ卜のシグナル強度を示す値から構成されるアレイデ一夕を処理して、解析可能なデ一夕を取得するデータ処理方法であって、前記アレイデータを取得するステップと、当該アレイデ一夕を構成する各スポヅトのシグナル強度を示す値を対数変換するステップと、対数変換された値を、前記 D N Aチップのスポヅトに対応するように配置した変換デ一夕を生成するステップとを備えたことを特徴とするデ一夕処理方法により達成される。本発明によれば、対数変換された値の群は、正規分布をするため、 D N Aチップをもちいた実験結果の比較、実験結果の解析に適する。

好ましい実施態様においては、さらに、前記対数変換された値を走査して、その中央値を特定するステップと、各値から中央値を減じるステップとを備え、前記中央値が減じられた値からなる変換デ一夕が生成される。

このようにして得られた変換データを、比較対象となる、同様の処理を施されたデ一夕と減算して、スポットごとの比較結果を比で表すことが可能となる。他の好ましい実施態様においては、さらに、前記対数変換された値を、 z—標準化して、標準化された値を算出するステップを備え、標準化された値からなる変換データが生成される。

このようにして得られた変換デ一夕を、比較対象となる、同様の処理を施されたデ一夕から減算して、スポットごとの比較結果を差分で表すことが可能となる。また、本発明においては、上述したように、 D N Aチップから得られるデ一夕が対数正規分布するという知見に基づき、本発明においては、より適切なバックグラウンド値を求めることができるようになった。特に、従来、値算出のために利用するスポットゃ画像中の領域の相違により、バックグラウンド値は変化し、どの値が適切なものであるかを判断できなかった。本発明者は、 D N Aチヅプのスポツトのシグナル強度を示す値が対数正規分布するという知見に基づき、対数正規分布となるような補正値が、適切なものであるということを見出した。本発明のより好ましい実施態様においては、さらに、シグナル強度を示す値の各々をバックグラウンド値で減じることで得られる減算値の累積度数比に基づく正規確率グラフが、所定の直線性を備えるようなバックグラウンド値を算出するステップを備え、当該シグナル強度を示す値の各々をバックグラウンド値で減じることにより得られた値を、対数変換の対象とする。なお、このバックグラウンド値は、正負何れかの値をとり得る。また、この値が 0となる場合も考えられる。上記実施態様において、前記バックグランド値を算出するステップは、シグナル強度を示す値の最小値を特定するステップと、前記最小値を含む所定の範囲を設定するステップと、前記所定の範囲内を、所定の数だけ分割し、上限値、下限値、および、分割により得られる所定数の中間値をバックグラウンド値候補として算出するステップと、各バックグラウンド値候補について、前記シグナル強度を示す値の各々からバックグラウンド候補値を減じて、減算値を算出して、当該減算値に基づく正規確率グラフを求めるステップと、前記正規確率グラフのうち、最も直線性に優れたものに利用されたバックグラゥンド候補を特定するステツプとを有し、特定されたバックグラウンド候補に関する直線性が十分になるまで、前記上限値および下限値の範囲を変更して、再度、バックグラウンド値候補の算出、正規確率グラフの算出、および、バックグラウンド候補の特定を繰り返すのが望ましい。上記所定の直線性を示すステップは、カイ二乗検定を実行することにより実現することができる。

また、別の好ましい実施態様においては、前記バックグラウンド値を算出するステップが、前記シグナル強度を示す値を参照して、 2以上の所定のパーセン夕ィルにある値を特定するステップと、前記 2以上の特定された値に基づいて、バヅクグラウンド値を推定するステップとを有している。ここで、利用するシグナル強度を示す値の範囲は、有効な測定範囲、つまり、シグナル—レスポンスの直線性が成り立つ範囲であるのが望ましい。

より好ましくは、バックグランド値を算出するステップは、前記シグナル強度を示す値から、第 1四分位 LQ、第 3四分位 UQおよび中央値 Mを求めるステツプと、

x= (UQ*LQ-M²) / (UQ + LQ-2M)

ただし、 UQ+DQ— 2M=0のとき、 x=0

を求め、求められた Xをバックグラウンド値とするステップとを有している。また、本発明の別の実施態様においては、 DN Aチップの画像の色合いの縦方向、横方向、或いは、放射状の偏りを補正することができる。

この実施態様は、前記 DNAチップのスポットの配列にしたがって、前記スポットを複数のグループに分類するステップと、前記グループごとに、当該グループを構成するスポットに関する対数変換値から、その中央値を特定するステップと、前記対数変換値の各々から、前記中央値を減算するステップとを備えている。或いは、前記 D N Aチップのスポヅトの配列にしたがって、前記スポヅトを複数のグループに分類するステップと、前記グループごとに、当該グループを構成するスポットに関するシグナル強度を示す値から、その中央値を特定するステツプと、前記シグナル強度を示す値の各々を、前記中央値で除算するステップとを備えていても良い。

上記実施態様において、分類するステヅプは、前記 D N Aチヅプ中の、 1または複数の列、或いは、 1または複数の行ごとに、当該列或いは行に含まれるスポットに関する対数値を取得するステツプを有していてもよい。

別の実施態様において、上記データ処理方法を利用して、複数のスポットのシグナル強度を示す値を比較する方法は、一方のスポットにかかる変換データの値を、他方のスポットにかかる変換デ一夕の値で除算するステップを備えている。さらに別の実施態様において、上記データ処理方法を利用して、複数のスポヅ卜のシグナル強度を示す値を比較する方法は、一方の標準化された値と他の標準化された値との差分値を算出するステップを備えている。ここでは、さらに、前記差分値の、所定数のべき乗を算出するステップを備えているのがより望ましい。また、本発明の目的は、 D N Aチップのハイプリダイゼーシヨンにより、 D N Aチップ上に配置された各スポットのシグナル強度を示す値から構成されるァレイデー夕を処理して、解析可能なデ一夕を取得するデ一夕処理方法を、コンビュ —夕に実行させるためのデ一夕処理プログラムであって、前記アレイデータを取得するステップと、当該アレイデータを構成する各スポットのシグナル強度を示す値を対数変換するステップと、対数変換された値を、前記 D NAチップのスポットに対応するように配置した変換デ一夕を生成するステップとを、前記コンビユー夕に実行させることを特徴とするデ一夕処理プログラムによっても達成される o

上記 D N Aチップの基材には、種々のコーティングを施したガラスなどから作られた板、ナイロンやニトロセルロースなどを基材とする膜、中空糸、半導体、金属、有機物質など、表面に核酸を保持できる任意のものを利用できる。また、 D N Aチップ上には、ターゲットとして、 c D N Aの全部或いは一部の複製、ゲノム D N Aの複製、合成 D N A、合成 R N Aなどが配置される。

また、チップを作製するには、核酸を用意しておき、これを、吸着、静電気による結合、共有結合により基材上に配置する手法や、基材上で核酸を合成する手法がある。シグナル強度を示す信号の検出には、半導体チップを利用した電気的な手法、蛍光や放射能を検出する手法などが含まれる。

本発明は、上記何れの基材の上に何れの夕ーゲットが形成された D N Aチヅプからのアレイデータにも適用することができる。また、何れの手法を用いて取得したアレイデータに対しても適用することができる。

なお、本明細書において、 D N Aチップとは、基材上に R N Aを形成した R N Aチップ、マイクロアレイ、マクロアレイ、ドヅトプロット、リバースト ■ ノーザンなど、基材の上に核酸が配置された任意のものを含む。図面の簡単な説明

図 1は、本発明の第 1の実施の形態にかかる解析装置のハードウエア構成図である。

図 2は、本実施の形態にかかる解析装置の要部を示すブロックダイヤグラムでめる。

図 3は、本実施の形態にかかる解析装置のバックグラゥンド算出部にて実行される処理を示すフローチャートである。

図 4は、本実施の形態にかかる解析装置のバックグラウンド算出部にて実行される処理を示すフローチヤ一トである。

図 5 Aは、対数変換を説明するダイヤグラム、図 5 Bは、変換処理部および標準化処理部にて実行される処理を示すフローチャートである。

図 6は、本実施の形態にかかる手法にて取得したデ一夕のヒストグラムである。図 7は、比較のために従来の手法にて取得したデータのヒストグラムである。図 8は、異なる温度璟境における実験から取得したアレイデ一夕の組に対して、本実施の形態にかかる処理を施して、実験ごとに得られた規準化された後の値を、グラフ上にプロヅトした図である。図 9は、比較のために、図 7に示す度数分布に基づき、規準化を実行した結果を示すグラフである。

図 1 OAないし図 10Dは、それそれ、本実施の形態にかかる補正法にしたがつて補正された値に基づき作成したグラフである。

図 11Aないし図 11Dは、それそれ、従来の補正法にしたがって補正された値に基づき作成したグラフである。

図 12 Aおよび図 12 Bは、それそれ、第 2および第 3の実施の形態にかかる解析装置の要部を示すブロックダイヤグラムである。

図 13は、第 2の実施の形態にかかる偏り補正演算部にて実行される処理を示すフローチャートである。

図 14は、第 3の実施の形態にかかる偏り補正演算部にて実行される処理を示すフローチヤ一トである。

図 15Aおよび図 15Bは、それぞれ、本実施の形態にかかる偏り補正を施したデ一夕、および、偏り補正を施していないデータを比較した散布図である。発明を実施するための望ましい形態

以下、添付図面を参照して、本発明の実施の形態につき説明を加える。図 1は、本発明の第 1の実施の形態にかかる解析装置のハードウェア構成図である。図 1 に示すように、解析装置 10は、 CPU12と、マウスやキーボードなどの入力装置 14と、 CRTなどから構成される表示装置 16と、 RAM (Random Access Memory) 18と、 R 0 M(Read Only Memory) 20と、 C D— R O Mや D VD— R O Mなどの可搬記憶媒体 23をアクセスする可搬記憶媒体ドライバ 22と、ハードディスク装置 24と、外部とのデータ授受を制御するイン夕フェース（I/F) 26とを備えている。図 1から理解できるように、本実施の形態にかかる解析装置 10として、パーソナルコンビユー夕などを利用することができる。

I/F 26は、ハイプリタイズされた DNAチップのスポヅトの発光量を計測して、計測された発光量に基づくデータを生成するリーダまたはスキャナ（図示せず）や通信回路に接続されている。通信回路は、さらに、外部ネットワーク（たとえば、イン夕一ネット）に接続されている。

本実施の形態において、可搬記憶媒体 2 3には、リーダまたはスキャナからのデータを受け入れて、当該データに対して後述する必要なデータ変換処理を実行するプログラム、および、処理が施されたデ一夕を解析するためのプログラムが記憶されている。したがって、可搬記憶媒体ドライバ 2 2が、可搬記憶媒体 2 3 から、上記プログラムを読み出して、これをハードディスク装置 2 4に記憶して、これを起動することにより、パーソナルコンピュータが、解析装置 1 0として作動することが可能となる。或いは、ィン夕ーネットなどの外部ネットヮ一クを介して、上記プログラムをダウンロードしても良い。

図 2は、本実施の形態にかかる解析装置 1 0の要部を示すブロックダイヤグラムである。図 2においては、デ一夕に対して必要なデ一夕変換処理を示す構成部分が示されている。より詳細には、解析装置 1 0は、デ一夕バッファ 3 0と、デ —夕バッファ 3 0に一時的に記憶されたデータ（基データ）に基づき、そのバヅクグラウンドを算出するバックグラウンド算出部 3 2と、バックグラウンド算出部 3 2にて得られたバックグラウンド値を用いて、デ一夕を補正する補正演算部 3 4と、補正されたデータに対して後述する変換を施すデータ変換部 3 6と、デ —夕変換が施されたデータを標準化する標準化処理部 3 8とを有している。データバッファ 3 0は、 R AM 1 8、場合によってはハードディスク装置 2 4 によりその機能が実現される。デ一夕バッファにはリーダまたはスキャナから伝達された、各スポットの発光量を示すデ一夕、或いは、リーダまたはスキャナから伝達されハードディスク装置 2 4の所定の領域に予め記憶されていた、各スポットの発光量を示すデータが一時的に記憶される。また、データバッファは、標準化処理部 3 8によつて標準化されたデ一夕を一時的に記憶することもできる。

リーダまたはスキャナからは、 D N Aチヅプを C C Dカメラなどで撮影し、スポットごとのシグナル強度を積算したものが、アレイデ一夕として出力される。或いは、リーダまたはスキャナにおいて、 C C Dカメラにて撮影した画像の画像デ一夕に基づき、前処理としてバックグラウンド値が算出され、各画素のシグナル強度からバックグラウンド値が差し引かれ、前処理としてのバックグラウンド補正がなされた画像データから、スポットごとのシグナル強度が積算されて、ァレイデ一夕として出力される場合もある。本実施の形態においては、未処理のァレイデ一夕、前処理（バックグラウンド補正）が施されたデ一夕の何れをも利用することができる。なお、本明細書において、リーダまたはスキャナから伝達される、上記スポヅトごとのシグナルを累算したデータを、アレイデータ、或いは、本実施の形態にかかるパックグラウンド処理を施すための基礎となるデ一夕という意味で基データと称する。

上記解析装置 1 0のバックグラウンド算出部 3 2にて実行される処理につき、図 3および図 4を参照して説明を加える。

バックグラウンド算出部 3 2は、まず、デ一夕バッファに記憶されたアレイデ一夕に含まれる、スポヅトごとのシグナル強度の積算値（スポット積算値）を走査して、その最小値を取得する（ステップ 3 0 1 ) 。次いで、バヅクグラウンド算出部 3 2は、取得した最小値がゼロ（0 ) であるか否かを判断し（ステップ 3 0 2 ) 、ゼロである場合には（ステップ 3 0 2でイエス（Yes) ) 、候補値「A」を「一 1 0 0」、候補値「B」を「1 0 0」に設定する（ステップ 3 0 3 ) 。スポヅト積算値が「0」であることは、発光量がないこと（像としては、黒く表示されていること）を意味している。実際には、スポットのシグナル強度の積算値が「0」であることは、測定の不備、或いは、既に他の手法にてバックグラウンド値が差し引かれていることを意味する。このような場合には、所定の負の値を候補値「A」とし、所定の正の値を候補値「B」として、適切なバックグラウンド値を見出すための出発点としている。

これに対して、ステップ 3 0 2でノ一（No)と判断された場合には、バヅクグラゥンド算出部 3 2は、候補値「Aj を、最小値の半分（ 1ノ 2 · (最小値））、候補値「B」を、最小値の 2倍（2 · (最小値））に設定する（ステップ 3 0 4 )。なお、候補値「A」とは、バックグラウンド値を特定するために処理で利用する上限値を意味し、候補値「B」とは、下限値を意味する。

次いで、ノヅクグラウンド算出部 3 2は、候補値「A」と候補値「B」の間を 9等分して、さらに 8つの候補値を取得する（ステップ 3 0 5 ) 。たとえば、最小値が「20」であり、候補値「A」が「10」、候補値「B」が「40」であれば、以下の値が候補値となる。

候補値「(^」 = 13. 33

候補値「C₂」 = 16. 67

候補値「C₃」 = 20. 00

候補値「C₄」 = 23. 33

候補値「C₅」 =26. 67

候補値「C₆」 =30. 00

候補値「C₇」 = 33 , 33

候補値「C₈」 = 36. 67

このようにして、総計 10個の候補値が得られる。

さらに、基デ一夕（つまりアレイデータ）において、スポット積算値から、各候補値を減じる。これにより、候補値に関連付けられた、 10組のスポット積算値群を得ることができる。このスポット積算値群を、それそれ、補正デ一夕候補と称する。

次いで、バックグラウンド算出部 32は、各補正デ一夕候補を構成するスポット積算値の対数値を得て、その累積度数比を取得する（ステップ 307 ) 。この累積度数比をプロットして、 10個の正規確率グラフが作成される（ステップ 3 08) 。バックグラウンド算出部 32は、正規確率グラフそれぞれについて、最小二乗法などを用いて、グラフの直線性を検定する（ステップ 309) 。， 10個の正規確率グラフのうち、もっとも直線性が良好であったものについて、利用された候補値が特定される（ステップ 401) 。これが候補値「A」であれば（ステヅプ 402でイエス（Yes))、バックグラウンド算出部 32は、候補値「A」の 1/3 (1/3 。（候補値「A」）を新たな候補値「A」に設定し、かつ、候補値「B」の 1/3 (1/3 ' (候補値「B」）を新たな候補値「B」に設定する（ステヅプ 403) 。ここでは、候補値を見つけ出すための範囲を下側に（小さく）シフトしている。

その一方、当該候補値が、候補値「B」であった場合には（ステップ 404でイエス（Yes ) )、バックグラウンド算出部 3 2は、候補値「A」を 3倍したもの（3 - (候補値「A」）を新たな候補値「A」に設定し、かつ、候補値「B」を 3倍したもの（3 。（候補値「B」）を新たな候補値「B」に設定する（ステップ 4 0 5 )。これは、候補値を見つけ出すための範囲を、上側にシフトしたことを意味している。

さらに、候補値が、上記候補値「A」或いは候補値「B」でない場合であって (ステップ 4 0 4でノー（No)、かつ、ステップ 4 0 5でノ一（No) )には、さらに、得られた正規確率グラフが、満足のいく直線性を具備しているか否かが判断される（ステップ 4 0 6 ) 。本実施の形態において、「満足のいく直線性」を判断するために、たとえば、有意水準を 5 %とした ²検定を行っている。しかしながら、これに限定されるものではなく、他の手法を利用しても良いし、オペレータが自己の判断にて直線性が満足のいうものであることを判断しても良い。

ステヅプ 4 0 6にてノー（No)と判断された場合には、候補値「Aj が、ステヅプ 4 0 1にて特定された候補値より小さな候補値のうち、特定された候補値に隣接するものに設定される（ステップ 4 0 7 ) 。また、候補値「B」は、ステップ 4 0 1にて特定された候補値より大きな候補値のうち、特定された候補値に隣接するものに設定される（ステップ 4 0 8 ) 。

たとえば、上に列挙した候補値「C 〜候補値「C ₈」において、ステップ 4 0 1にて候補値「C.₃」が特定されたが、当該候補値を、スポット積算値群から現在した値を利用した正規確率グラフについて、満足のいく直線性が得られなかつたと考える。この場合には、候補値「C ₂」が新たな候補値「A」となり、候補値「C ₅j が新たな候補値「B j となる。すなわち、ステップ 4 0 7、 4 0 8 では、より適切な候補値を探し出すために、候補値を見つけ出すための範囲を狭めている。

ステップ 4 0 3、ステップ 4 0 5、或いは、ステップ 4 0 7および 4 0 8において、新たな候補値「A」および候補値「B」が得られると、ステップ 3 0 5以下の処理が繰り返される。これに対して、正規確率グラフが満足のいく直線性を備えている場合には（ステヅプ 4 0 6でイエス（Yes) )、この正規確率グラフを得るために利用された候補値が、バックグラウンド値に決定される（ステップ 4 0 9 ) o

次いで、補正演算部 3 4が、アレイデータを構成する各シグナル累算値から、ステップ 4 0 9にて取得されたバックグラウンド値を減じたものを算出する。ただし、本実施の形態においては、最終的にバックグラウンド値が得られる直前に実行されたステップ 3 0 6において、 1 0組の補正データ候補のうちの一組が、各シグナル累算値からバヅクグラウンド値を減じたものである。したがって、このような補正データ候補が、データバッファ 3 0に記憶されていれば、補正演算部 3 4は、新たな演算をすることなく、デ一夕バッファ 3 0から、適切な補正デ —夕候補を読み出せばよい。

バヅクグラウンド値が減じられたシグナル累算値（補正シグナル累算値）から構成された補正デ一夕は、変換処理部 3 6に伝達される。変換処理部 3 6は、各補正シグナル累算値を対数変換して、変換されたシグナル累算値を得る。図 5 ( a ) は、変換処理部 3 6にて実行される処理の概略を示す図である。図 5 Aに示すように、バックグラウンド値が減算された補正シグナル累算値からなる表形式デー夕領域 3 0— 1から、順次、補正シグナル累算値「 ^」が取り出され、対数変換されて（符号 5 0 0参照）、変換後の表形式デ一夕領域 3 0— 2の対応する位置に、対数変換が施された値（対数変換値） r i n a u j が配置される。

なお、図 3のステップ 3 0 6およびステップ 3 0 7において、補正デ一夕候補および補正デ一夕候補を構成する補正シグナル累算値の対数変換値が算出されている。したがって、選択されたバックグラウンド値に関連する対数変換値が、デ一夕バッファ 3 0に記憶されていれば、変換処理部 3 6は、補正シグナル累算値に対数変換を施す必要は無く、データバッファ中のデータを読み出せば足りる。このようにして対数変換値群が得られると、変換処理部 3 6および標準化処理部 3 8により図 5 Bに示す処理が実行される。

ここでは、変換処理部 3 6は、階級の数やクラスの幅を設定して（ステヅプ 5 0 1 ) 、度数分布表を生成する（ステップ 5 0 2 ) 。本実施の形態においては、この度数分布表に基づくグラフが生成され、これが表示装置 1 6の画面上に表示される（ステップ 503 ) o このステップ 503および後述するステップ 505 は、本実施の形態にかかる手法の正しさを検証するために設けている。

図 6は、このようにして得られた画像の例である。図 6において横軸は、補正シグナル累算値を対数変換したもの（対数変換値）、縦軸は、その度数を示している。図 6に示す例においては、イネの cDNAライブラリ一から重複を避けてランダムに選択し、ビンあたり 32 x 10のマトリクスにスポットしたマイクロアレイ（cDNAチヅプ）を利用している。このマイクロアレイにおいて、有効なスポヅトの総数は 1157であった。ハイプリダイゼ一シヨンの夕ーゲット作製には、イネ鞘葉由来の p 01 y(A)RNAを鏡型に用いて、 cy 5で標識した cDNAを合成した。また、ハイプリダイゼ一シヨンの結果は、 ArrayS c a n n e r V 4. 4 (Mo l o e cular Dynami c s社製）を用いて、画像として取得し、これを、 Array Vi s ion (Mo l o e cul a r Dynami c s社製）プログラムを用いて数値化した。

また、図 6においては、算術平均を含む階級を黒塗りのグラフにて示している。図 7は、比較のために、同じアレイデ一夕に基づくヒストグラムを示したものである。図 6および図 7から、アレイデ一夕自体はノンパラメトリックであるのに対して、アレイデ一夕から得た対数変換値がパラメトリヅクであることが理解できるであろう。

本実施の形態においては、さらに、データの比較を可能にするために、標準化処理部 38が、取得した度数分布に基づき、デ一夕を z—標準化（規準化）する (ステヅプ 504) 。これにより、グラフの横軸および縦軸を、アレイデ一夕の種別などに係わらず共通にすることができ、デ一夕間の比較が可能となる。図 8は、図 6のヒストグラムを得るために利用したマイクロアレイ（cDNA チップ）を利用し、異なる温度環境における実験から取得したアレイデータの組に対して、本実施の形態にかかる処理を施して、実験ごとに得られた規準化された後の値を、一枚のグラフ上にプロヅ卜したものである。

図 8において、同一の形状の点（たとえば、 X印、 △印）は、同じ実験にて取得されたものを示している。図 8に示すように、グラフ上の点は、細線にて示す標準分布曲線と略重なっており、パラメトリヅクな手法を用いることの妥当性が示されている。図 9の太い折れ線は、比較のために、図 7に示す度数分布に基づき、規準化を実行した結果を示すグラフである。図 9の細線は、標準分布曲線を示す。図 9から、このような形状のヒストグラムでは、パラメトリックな手法が適さないことが理解できるであろう。

このようにして標準化処理部 3 8により、 z —標準化が施されたデ一夕（標準化デ一夕）は、データバッファ 3 0に記憶される。この標準化データを用いて、種々の解析、実験の検証などをなすことが可能となる。

このように、本実施の形態によれば、 D N Aチップなどの各スポットのシグナル強度を示す積算値の対数値が正規分布するということを知見し、この知見に基づき、バックグラウンド値を算出している。また、上記知見から、積算値（或いはバックグラウンド補正がなされた積算値）を対数変換して、かつ、 z—標準化を施すことにより、標準化デ一夕を取得している。したがって、この標準化デ一夕を利用して、異種或いは同種の実験結果を容易に比較し、実験の検証をなすことが可能となる。

また、本実施の形態にかかるバックグラウンド補正によれば、画像デ一夕におけるスポッ卜の切り出し作業を著しく低減することが可能となる。従来、 C C D カメラで撮影された画像中のスポットの領域は、リーダまたはスキャナに組み込まれたソフトウエアなどにより、ある程度特定される。しかしながら、実際には、スポットと、シグナル強度の値を積算するために切り出される領域とが適切に重なり合っていないことが多い。したがって、研究者は、画像を参照して、スポヅトごとに、スポットと重なり合うような円形の領域を設定する必要があった。これは、数時間ないし一日を要する作業であった。本実施の形態にかかるバックグラウンド補正を利用すれば、アレイを、各セルの面積が等しくなり、かつ、各セルにスポットが含まれるように、マトリクス状に区切って、当該セルにおけるシグナル強度の積算値を取得すればよい。或いは、それそれの面積が等しく、かつ、スポットを包含するような（つまりスポットより大きな）円形領域にて、スポヅトおよびその周辺の各々のシグナル強度を示す値を積算すれば良い。これは、面積が同じであればバックグラウンド値は、各セルないし各円形領域にて一定であると考えられること、および、補正されたシグナル積算値の対数値が正規分布となるようなバックグラウンド値を算出していることから実現される。なお、本実施の形態にかかるバックグラウンド値を利用した補正結果を以下に示す説明する。本出願人は、スタンフォード大学において公開されている、複数の生物種に基づく複数の発現データ（http：〃 genome-ww4. stanford. edu/ MicroArray/SMD にて公開され、また、この公閧デ一夕の概要は、 Gavin Sherlock 他の「The Mi c roar ray Database (Nucleic Acids Research 29, ppl52 -155(2001 年））」にも掲載されている。）から、 4つを無作為に抽出した。ここでは、実験 N o . 5 7 3 3 , 実験 N o . 1 3 0 0、実験 N o . 5 7 4 5、および、実験 N o 。

7 4 2 8を利用している。実験 N o . 7 4 2 8についてはチャンネル 2を利用し、他の実験についてはチャンネル 1のデータを利用した。

実験ごとに、その値の対数値を z—標準化してから層別化して、得られた値を正規確率紙にプロットしている。図 1 0 A〜図 1 0 Dは、それそれ、実験 N o . 5 7 3 3、実験 N o . 1 3 0 0、実験 N o . 5 7 4 5、および、実験 N o 。 7 4 2 8 (チャンネル 2 ) について、本実施の形態にかかる補正法（図 3および図 4 参照) にしたがって補正された値から得られたグラフである。これら図から、グラフが十分な直線性を備えている。このことは、標準化した結果が正規分布していることを示している。

図 1 1 A〜図 1 1 Dは、従来の補正法（前述した Michael Eisen による手法）に基づき補正されたものから、同様に、実験ごとに、その値の対数値を z—標準化してから層別化して、得られた値を正規確率紙にプロットして得られたグラフである。これら図から、実験 N o . 7 4 3 8のチャンネル 2を除ぐと、グラフの直線性が低く、十分に補正されていないことを示している。

次に、本発明の第 2の実施の形態につき説明を加える。第 2の実施の形態においては、マイクロアレイの基材の平坦性の問題などからハイブリダイゼ一シヨンが不均一になることに起因するデータの偏りを補正することができる。

ハイプリダイゼ一シヨンの後のマイクロチップから得た画像において、たとえば、中央部がより白っぽく、周辺になるのにしたがって黒っぽくなつていくものがある。或いは、左右或いは上下方向で、全体の色合いがグラデーション状になつているものもある。これは、たとえば、アレイ基部に利用しているガラスの歪などにより生ずる。

そこで、第 2の実施の形態においては、ハイプリダイゼ一シヨンが理想的に行われたならば、アレイ中、各列或いは各行のシグナル積算値の中央値が概略同じになるという仮定を設けて、各列或いは各行に共通するデータの補正定数を求め、これを利用して、シグナル値にさらに補正を施している。

図 1 2 Aは、第 2の実施の形態にかかる解析装置の要部を示すブロックダイヤグラムである。図 1 2 Aにおいて、図 2に示す構成部分と同じものには同一の符号を付している。図 1 2 Aに示すように、第 2の実施の形態にかかる解析装置は、補正演算部 3 4と変換処理部 3 6との間に、偏り補正演算部 4 0が設けられてい図 1 3は、第 2の実施の形態にかかる偏り補正演算部 4 0にて実行される処理を示すフローチャートである。偏り補正演算部 4 0は、変換処理部 3 6により得られた、バックグラウンドが減じられたシグナル積算値の対数値群を取得する。次いで、偏り補正演算部 4 0は、マイクロアレイの行および列を示す情報に基づき、当該対数値群を、列ごとのグループに分類する（ステップ 1 3 0 2 ) 。各グループに対して、所定の補正定数を求めることにより、偏り補正が実現される。偏り補正演算部 4 0は、第 1列（列番号 = 1 (符号 1 3 0 3参照））に属する対数値に基づいて、その中央値を特定し（ステップ 1 3 0 4 ) 、各対数値から中央値を減じて、偏り補正値を算出する（ステップ 1 3 0 5 ) 。つまり、その中央値が、列における偏り補正のための補正定数となる。ステップ 1 3 0 4およびステツプ 1 3 0 5に示す処理は、 n個の列の全てに対して実行される（ステップ 1 3 0 6 , 1 3 0 7参照）。

このようにして、得られた偏り補正値群に対して、標準化処理部 3 8において標準化が施される。本実施の形態にかかる偏り補正を施したデ一夕、および、偏り補正を施していないデ一夕を比較した散布図を、それそれ、図 1 5 Aおよび図 15 Bに示す。ここでは、マイクロアレイとして、イネ cDNAをスポットして、各々が 32列 12行のグリッドを 12個備えたマトリクスを、 2セット貼り付けたものを利用した。このマイクロアレイに、イネ培養細胞に由来する、 cy 5で標識した cDNAを、ハイブリダィズした。

図 15Bは、第 1の実施の形態にかかる手法にて、セヅトごとにバックグラウンド値を算出して、これを利用して値を補正し、さらに、対数変換および標準化を施したデ一夕に基づく散布図である。図 15Aは、第 2の形態にかかる手法にて、偏り補正を行ったデ一夕に基づく散布図である。これらの図において、 2本の細い直線は、それそれ、 X軸の値と比較して y軸の値が 2^1/2倍（ル一ト 2倍）、および、（ 1/2) ^1/2倍 (ルート ( 1/2) 倍）であることを示している。二つのセヅトは、同一のアレイチップ上に設けられた一対のスポヅトの結果に由来する、同一のハイブリダィゼ一シヨンであるため、原理的には、 X = Yの直線状に、各点が位置する。図 15 Αおよび図 15 Βを参照すると、偏り補正により、デ一夕の散らばりが小さくなっていることが理解できる。

このように、本実施の形態によれば、ハイプリダイゼ一ションの不均一などに起因する値の変更を適切に補正することが可能となる。

次に、第 3の実施の形態につき説明を加える。第 3の実施の形態においては、第 2の実施の形態にかかる偏り補正を変形したものである。図 12 Bは、第 3の実施の形態にかかる解析装置の要部を示すプロックダイヤグラムである。図 12 Bにおいても、第 2図に示す構成部分と同じものには同一の符号を付している。第 3の実施の形態においては、デ一夕バヅファ 30とバヅクグラゥンド算出部 3 2との間に、偏り補正演算部 42が介在し、バックグラウンド値の算出に先立つて、アレイデ一夕を構成するシグナル積算値に対して、偏り補正が施される。図 14は、第 3の実施の形態にかかる偏り補正の処理を示すフロ一チャートである。図 14に示すように、偏り補正演算部 42は、データバッファからシグナル積算値の群を取得すると（ステップ 140 1) 、これらを、マイクロアレイの秒および列を示す情報に基づき、列ごとのグループに分類する（ステップ 140 2) 。次いで、偏り補正演算部 42は、第 1列（列番号 = 1(符号 1403参照）に属する積算値に基づいて、その中央値を特定し（ステップ 1404) 、各積算値を中央値で除算して、偏り補正値を算出する（ステップ 1405) 。つまり、ここでも中央値が、列における偏り補正のための補正定数となる。

ステップ 1404およびステップ 1405に示す処理は、 n個の列の全てに対して実行される（ステップ 1406、 1407参照）。このようにして、得られた偏り補正値群に対して、バックグラウンド算出部 32におけるバックグラウンド値の算出が実行される。

次に、本発明にかかるデ一夕の比較につき説明を加える。第 1ないし第 3の実施の形態においては、補正されたシグナル積算値を対数変換して対数値を取得し、さらに当該対数値を標準化した値（標準値）を算出している。

これら標準値を用いることにより、以下のような比較が可能となる。

本実施の形態によれば、上記標準値を利用して、 RNAの量の比、つまり、遺伝子発現の比率を見出すことが可能となる。たとえば、あるスポットの標準値と、他のスポットの標準値との差をとり、これに標準偏差を乗じて、その値の 10のべき乗をとることにより、上述した比率を求めることができる。スポットに関する標準値（zスコア）が「1」のものと「2」のものとの間の、遺伝子発現の比率の相違を、たとえば、常用対数を用いれば、以下の式にて表すように定量化することができる。

10 ^Λ { (2— 1) *0 · 5} =3。 1

(ここに、 0。 5は対数値の標準偏差）

つまり、（対数の底） { (標準値の差） * (対数値の標準偏差） } という形で、比率の相違を表すことが可能となる。

このような比較は、同一の DNAチヅプ上の異なるスポット間、異なる DNA チップ上の同一の遺伝子のスポット間など、任意のスポット間でなすことが可能である。スポット間の比較を定量化できることにより、どの遺伝子がどれくらい多く発現しているか、実験間でどの遺伝子がどの程度増加しているかなどを適切に把握することが可能となる。

本発明は、以上の実施の形態に限定されることなく、特許請求の範囲に記載された発明の範囲内で、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

たとえば、本実施の形態によれば、スポットのシグナル強度の最小値を含む所定の範囲を設定し、トライアンドインプルーブメントにより、バックグラウンド値を算出している（図 3参照）が、これに限定されるものではない。上記シグナル強度を示す値の第 1四分位（Lower Quartile: LQ ) と、第 3四分位（Upper Quartile: UQ)と、中央値（Median: M)とを利用して、ロバストな推定を行っても良い。理想的に補正されたあとでは、中央値をはさんで各四分位は対称の位置となるため、バックグラウンド値 Xは、以下の式で与えられる。

In (UQ— X) - In (M— x) = 1 n (M - x) -In (L Q-x) これを解くと、

= (UQ*LQ— M" / (UQ + L Q- 2 M)

ただし、 UQ + DQ—2M=0のとき、 x=0

となる。この xを、各スポットのシグナル強度を示す値（シグナル積算値）から減じることで、補正されたシグナル積算値を取得しても良い。

或いは、同様の方法で、他のパーセンタイル、たとえば、第 3四分位（UQ) と中央値（M) を用いてバックグラウンド値を推定しても良い。さらに、より多くのパーセンタイルを使って、バックグラウンド値 Xを求め、それらの平均値を取得することで、上記推定値の精度を高めることができる。正規分布において、パ一センタイルと z (ゼ一夕）スコアとは、 1対 1に対応するから、 zスコアの差が等しくなるべき任意の 2つのパーセンタイルの組み合わせを利用して、上述した式と同様の方程式をたてて、これを解くことにより、バックグラウンド値 X を求めることができる。

さらに、本実施の形態においてバックグラウンド値を算出するために利用するシグナル積算値の範囲は、ハイブリダィゼーシヨン実験、および、リーダーゃスキヤナの特性を含めた一連の測定の系においてシグナル一レスポンスに直線性が成り立つ範囲としても良い。

また、図 3に示す処理において、シグナル積算値の最小値を含む所定の範囲を設定しているが、これに限定されるものではない。たとえば、バックグラウンド値/ (シグナル積算値の中央値） = c (一定）

であることを考え、

バックグラウンド値 = c * (中央値）

の cを求めるために、同様の処理を実行しても良い。

また、第 2の実施の形態および第 3の実施の形態においては、スポットを、マイクロアレイ中の 1または複数の列からなるグループに分類しているが、これに限定されるものではなく、 1または複数の行からなるグループに分類しても良いことは言うまでもない。また、先に説明したように、画像の色合いが、アレイの外延部から中央部に向かって、グラデーション状になっている場合もある。このような場合には、入れ子状になる複数の中空の矩形で、マイクロアレイを分割して、各矩形に含まれるスポットのシグナル積算値を同一のグループに属するようにして、グループごとの偏り補正値を算出しても良い。

また、前記実施の形態においては、標準化として z —標準化を利用しているが、これに限定されるものではなく、他の標準化を適用できることも言うまでもない。産業上の利用分野

本発明は、同種の D N Aチップについて条件を変更した実験結果の比較、異種の D N Aチヅプの実験結果の比較など種々の比較に利用することができる。たとえば、本出願人は、イネを低温で発芽させたときに働く遺伝子を、 1万ほどの遺伝子群のなかからスクリーニングしていた。そこで、独立した遺伝子の断片を 1 万種類はりつけたマイクロアレイをつかって、たとえば

a ) あたたかいところで発芽したイネ

b ) それを低温にさらしたもの

という二種類の組織から R N Aをとり、それそれハイプリダイゼーシヨンを行つた。実験は R N Aごとに二回おこなった。それそれの実験結果として、 1万個の数字の羅列（相対値）が得られる。これら数字の羅列を比較する適切な方法がないのが現状であった。本実施の形態によれば、上記 a ) 、 b ) のそれそれの条件による実験結果に基づき、標準化したデータを得て、対応するスポットの値を減算することにより、低温にさらしたときに蓄積量が増加或いは減少する m R N A を見つけ出し、目的の遺伝子をスクリーニングすることができた。

さらに、標準化したデ一夕であれば、 D N Aチップの違い、生物種の違いなどを超えた比較が可能である。たとえば、上記実験 a ) において、「熱ショック夕ンパク質」という一群のタンパクの遺伝子が、 2 ~ 3 standard un ほどの量で検出された。ところが、これらのタンパク質は、標準的な育て方をしたシロイヌナズナという植物の組織からは常に 0 (ゼロ） standard unit ほどの値として検出される。この差は、偶然や種間差では説明しがたい大きさであった。この結果は、 a ) の実験系が「暑すぎた」ことを示していた。したがって、最初の実験の系をもう少し冷やすことで、スクリ一ニングをより正確に行うことを見出すことができた。

このように、本発明によれば、使用するするアレイは同一でない場合でも適用可能である。また、比較する前のデ一夕の形式や桁そろいによる制限がない。さらに、たとえば、ヒトとマウスの比較など、種を超えた比較が可能となる。種を超えた比較が可能であることは、本発明が製薬の分野にて応用可能であることを示す。たとえば、マウスで著しく薬効のある物質が、ヒトには効かなかつたと考える。ここでは、健常なマウスに物資を投与したときにある臓器のアレイパターンと、健常なヒトの同じ臓器における類似する物質によるアレイパターンとを比較することで、アナ口ガスな物質群の一次スクリーニングが可能になる。

Claims

請求の範囲

1 . D N Aチップのハイプリダイゼーシヨンにより、 D N Aチヅプ上に配置された各スポットのシグナル強度を示す値から構成されるアレイデータを処理して、解析可能なデータを取得するデータ処理方法であって、

前記アレイデ一夕を取得するステップと、

当該アレイデ一夕を構成する各スポットのシグナル強度を示す値を対数変換するステップと、

対数変換された値を、前記 D N Aチップのスポッ卜に対応するように配置した変換デ一夕を生成するステップとを備えたことを特徴とするデ一夕処理方法。

2 . さらに、前記対数変換された値を走査して、その中央値を特定するステップと、

各値から中央値を減じるステップとを備え、前記中央値が減じられた値からなる変換データが生成されることを特徴とする請求の範囲第 1項に記載のデ —夕処理方法。

3 . さらに、前記対数変換された値を、 z—標準ィヒして、標準化された値を算出するステップを備え、標準化された値からなる変換データが生成されることを特徴とする請求の範囲第 1項に記載のデータ処理方法。

4 . さらに、シグナル強度を示す値の各々をバックグラウンド値で減じることで得られる減算値の累積度数比に基づく正規確率グラフが、所定の直線性を備えるようなバックグラゥンド値を算出するステツプを備え、

当該シグナル強度を示す値の各々をバックグラウンド値で減じることにより得られた値を、対数変換の対象とすることを特徴とする請求の範囲第 1項ないし第 3項の何れか一項に記載のデータ処理方法。

5 . 前記バックグランド値を算出するステヅプが、

シグナル強度を示す値の最小値を特定するステップと、

前記最小値を含む所定の範囲を設定するステップと、

前記所定の範囲内を、所定の数だけ分割し、上限値、下限値、および、分割により得られる所定数の中間値をバックグラウンド値候補として算出するステヅプと、 - 各バックグラウンド値候補について、前記シグナル強度を示す値の各々からバックグラウンド候補値を減じて、減算値を算出して、当該減算値に基づく正規確率グラフを求めるステップと、

前記正規確率グラフのうち、最も直線性に優れたものに利用されたバックグラウンド候補を特定するステップとを有し、

特定されたバックグラウンド候補に関する直線性が十分になるまで、前記上限値および下限値の範囲を変更して、再度、バックグラウンド値候補の算出、正規確率グラフの算出、および、バックグラウンド候補の特定を繰り返すことを特徴とする請求の範囲第 4項に記載のデータ処理方法。

6. 前記所定の直線性を示すステップが、

カイ二乗検定を実行するステップを有することを特徴とする請求の範囲第 4 項または第 5項に記載のデータ処理方法。

7. 前記バヅクグラウンド値を算出するステップが、

前記シグナル強度を示す値を参照して、 2以上の所定のパ一センタイルにある値を特定するステップと、

前記 2以上の特定された値に基づいて、バックグラゥンド値を推定するステップとを備えたことを特徴とする請求の範囲第 4項に記載のデータ処理方法。

8. 前記所定のパーセンタイルにある値を特定するステップが、

前記シグナル強度を示す値を参照して、第 1四分位 LQ、第 3四分位 UQおよび中央値 Mを求めるステヅプを含み、かつ、

前記バックグラウンド値を推定するステップが、

バックグラウンド値 x= (UQ*LQ— M²) / (UQ + LQ- 2 M) ただし、 UQ + DQ— 2M= 0のとき、 x = 0

を求めるステップを含むことを特徴とする請求の範囲第 7項に記載のデータ処理方法。

9。さらに、前記 DNAチップのスポットの配列にしたがって、前記スポットを複数のグループに分類するステップと、

前記グループごとに、当該グループを構成するスポットに関する対数変換値から、その中央値を特定するステップと、

前記対数変換値の各々から、前記中央値を減算するステップとを備えたことを特徴とする請求の範囲第 1項ないし第 8項の何れか一項に記載のデータ処理方法。

10. さらに、前記 D N Aチヅプのスポットの配列にしたがって、前記スポットを複数のグループに分類するステツプと、

前記グループごとに、当該グループを構成するスポットに関するシグナル強度を示す値から、その中央値を特定するステップと、

前記シグナル強度を示す値の各々を、前記中央値で除算するステップとを備えたことを特徴とする請求の範囲第 1項ないし第 8項の何れか一項に記載のデータ処理方法。

11. 前記分類するステップが、

前記 D NAチップ中の、 1または複数の列、或いは、 1または複数の行ごとに、当該列或いは行に含まれるスポットに関する対数値を取得するステップを有することを特徴とする請求の範囲第 9項または第 1 0項に記載のデータ処理方法。

12. 請求の範囲第 2項に記載のデ一夕処理方法を利用して、複数のスポットのシグナル強度を示す値を比較する方法であって、

一方のスポットにかかる変換データの値を、他方のスポットにかかる変換デ —夕の値で除算するステップを備えたことを特徴とする方法。

13. 請求の範囲第 3項に記載のデ一夕処理方法を利用して、複数のスポットのシグナル強度を示す値を比較する方法であって、

一方の標準化された値と他の標準化された値との差分値を算出するステップを備えたことを特徴とする方法。

14. さらに、前記差分値の、所定数のべき乗を算出するステップを備えたことを特徴とする請求の範囲第 1 3項に記載の方法。

15。 D N Aチップのハイブリダィゼ一シヨンにより、 D N Aチヅプ上に配置された各スポットのシグナル強度を示す値から構成されるアレイデータを処理して、解析可能なデータを取得するデータ処理方法を、コンピュータに実行させるためのデ一夕処理プログラムであって、

前記アレイデータを取得するステップと、

当該アレイデータを構成する各スポットのシグナル強度を示す値を対数変換するステップと、

対数変換された値を、前記 D N Aチップのスポットに対応するように配置した変換データを生成するステップとを、前記コンピュータに実行させることを特徴とするデータ処理プログラム。

16。さらに、前記対数変換された値を走査して、その中央値を特定するステップと、

各値から中央値を減じるステップとを、前記コンピュータに実行させ、これにより、前記中央値が減じられた値からなる変換データが生成されることを特徴とする請求の範囲第 1 5項に記載のデータ処理プログラム。

17。さらに、前記対数変換された値を、 z—標準化して、標準化された値を算出するステップを、前記コンピュータに実行させ、これにより、標準化された値からなる変換デ一夕が生成されることを特徴とする請求の範囲第 1 6項に記載のデータ処理プログラム。

18. さらに、シグナル強度を示す値の各々をバックグラウンド値で減じることで得られる減算値の累積度数比に基づく正規確率グラフが、所定の直線性を備えるようなバックグラウンド値を算出するステップを、前記コンピュータに実行させ、当該コンピュータにおいて、当該シグナル強度を示す値の各々をパックグラウンド値で減じることにより得られた値を、対数変換の対象とするように動作させることを特徴とする請求の範囲第 1 5項ないし第 1 7項の何れか一項に記載のデータ処理プログラム。

19. 前記バックグランド値を算出するステップにおいて、

シグナル強度を示す値の最小値を特定するステップと、前記最小値を含む所定の範囲を設定するステップと、

前記所定の範囲内を、所定の数だけ分割し、上限値、下限値、および、分割により得られる所定数の中間値をパックグラウンド値候補として算出するステツプと、

各バックグラウンド値候補について、前記シグナル強度を示す値の各々からバックグラウンド候補値を減じて、減算値を算出して、当該減算値に基づく正規確率グラフを求めるステップと、

前記正規確率グラフのうち、最も直線性に優れたものに利用されたバックグラウンド候補を特定するステップとを、前記コンピュータに実行させ、かつ、特定されたバックグラウンド候補に関する直線性が十分になるまで、前記上限値および下限値の範囲を変更して、再度、バックグラウンド値候補の算出、正規確率グラフの算出、および、バックグラウンド候補の特定を、前記コンビユー夕に繰り返させることを特徴とする請求の範囲第 1 8項に記載のデータ処理プログラム。

20. 前記所定の直線性を示すステップにおいて、

カイ二乗検定を実行するステヅプを、前記コンピュータに実行させることを特徴とする請求の範囲第 1 8項または第 1 9項に記載のデータ処理プログラム o

21. 前記バックグラウンド値を算出するステップにおいて、

前記シグナル強度を示す値を参照して、 2以上の所定のパーセンタイルにある値を特定するステップと、

前記 2以上の特定された値に基づいて、バックグラゥンド値を推定するステヅプとを前記コンピュータに実行させることを特徴とする請求の範囲第 1 8 項に記載のデ一夕処理プログラム。

22. 前記バヅクグランド値を算出するステップにおいて、

前記シグナル強度を示す値から、第 1四分位 L Q、第 3四分位 U Qおよび中央値 Mを求めるステヅプと、

x = ( U Q * L Q— M ² ) / ( U Q + L Q - 2 M ) ただし、 U Q + D Q— 2 M = 0のとき、 x = 0

を求め、求められた xをパックグラウンド値とするステップとを、前記コンビュ一夕に実行させることを特徴とする請求の範囲第 2 1項に記載のデータ処理プログラム。

23. さらに、前記 D N Aチップのスポットの.配列にしたがって、前記スポットを複数のグル一プに分類するステップと、

前記対数変換値の各々から、前記中央値を減算するステップとを、前記コンピュー夕に実行させることを特徴とする請求の範囲第 1 4項ないし第 2 2項の何れか一項に記載のデータ処理プログラム。

24. さらに、前記 D N Aチップのスポットの配列にしたがって、前記スポットを複数のグル一プに分類するステップと、

前記グループごとに、当該グループを構成するスポヅトに関するシグナル強度を示す値から、その中央値を特定するステップと、

前記シグナル強度を示す値の各々を、前記中央値で除算するステップとを、前記コンピュータに実行させることを特徴とする請求の範囲第 1 5項ないし第 2 2項の何れか一項に記載のデ一夕処理プログラム。

25.前記分類するステヅプにおいて、前記 D N Aチップ中の、 1または複数の列、或いは、 1または複数の行ごとに、当該列或いは行に含まれるスポットに関する対数値を取得するステップを、前記コンピュータに実行させることを特徴とする請求の範囲第 2 4項または第 2 5項に記載のデータ処理プログラム。

26. 複数のスポットのシグナル強度を示す値を比較するためにコンピュータを動作させるプログラムであって、

請求の範囲第 1 6項に記載のデータ処理プログラムを構成するステップを前記コンピュータに実行させ、かつ、

一方のスポヅ卜にかかる変換データの値を、他方のスポヅトにかかる変換デ —夕の値で除算するステヅプをコンビュ一夕に実行させることを特徴とするプログラム。

。複数のスポットのシグナル強度を示す値を比較するためにコンピュータを動作させるプログラムであって、

請求の範囲第 1 7項に記載のデータ処理プログラムを構成するステツプを前記コンピュータに実行させ、かつ、

一方の標準化された値と他の標準化された値との差分値を算出するステップをコンピュータに実行させることを特徴とするプログラム。

。さらに、前記差分値の、所定数のべき乗を算出するステップを、前記コンビュ一夕に実行させることを特徴とする請求の範囲第 2 7項に記載のプログラム o

FIG. 1