JPWO2002048915A1

JPWO2002048915A1 - 遺伝子間の関連を検出する方法

Info

Publication number: JPWO2002048915A1
Application number: JP2002550559A
Authority: JP
Inventors: 洋久岸野; ピーターワデル
Original assignee: Chugai Pharmaceutical Co Ltd
Current assignee: Chugai Pharmaceutical Co Ltd
Priority date: 2000-12-11
Filing date: 2001-12-10
Publication date: 2004-07-02
Also published as: AU2002221104A1; WO2002048915A1

Abstract

本発明の遺伝子の関連を見出す方法は、変数選択を伴う回帰分析を利用して偏相関係数を近似的に求めることによって、多くの遺伝子の中から第１の遺伝子および前記第２の遺伝子に対する、任意の第３の遺伝子の影響を除く工程を含む。本発明によれば、他の遺伝子の影響を受けることなく、第１の遺伝子と第２の遺伝子の関連を見出すことができる。ＤＮＡマイクロアレイによって得られた遺伝子の発現プロファイルの解析に有用である。

Description

技術分野
本発明は、遺伝子の発現プロファイルの解析方法に関する。
背景技術
ヒトをはじめとする幅広い生物のゲノムが明らかにされつつある。そして遺伝子を通して生物を理解するための研究は、塩基配列分析から、機能解析へとシフトしつつある。遺伝子の機能解析には、様々な手法が利用される。その中でも、遺伝子の発現プロファイルの解析は重要な手法である。
遺伝子の発現プロファイルは、特定の条件におかれた組織や細胞における複数の遺伝子の発現状態を把握することにより取得することができる。異なる組織や細胞の間で遺伝子の発現プロファイルを比較すれば、組織や細胞の違いを遺伝子の発現レベルの差として表現することができる。たとえば、正常細胞とがん細胞の間で発現レベルが変化する遺伝子は、がん化と関連している可能性がある。更に、さまざまな条件に置かれた細胞から得られた発現プロファイルの比較を通じて、遺伝子間の関連性を明らかにすることができる可能性がある。すなわち、ある遺伝子の発現の上昇が、他の遺伝子に対してどのように作用しているのかを推測することも可能である。
一方、ガラス支持体に高密度に配置したＤＮＡによって、より多くの遺伝子の発現状態を効率的に検知する技術が実用化されている。ＤＮＡマイクロアレイ、あるいはＤＮＡチップと呼ばれる分析デバイスには、数千〜数万種類におよぶ塩基配列がプローブとして配置されている。細胞から得られる遺伝子の集合体をＤＮＡマイクロアレイにハイブリダイズさせ、シグナルを観察すれば、数千〜数万種類におよぶ遺伝子の発現状態を一度に知ることができる。こうして得られる発現プロファイルは、遺伝子の機能解析の材料として重要である。解析技術の進歩に伴って、生成するデータの量は飛躍的に増大し、効率的な解析手法の開発が必須となってきている。
クラスター分析によるｃｏｒｅｇｕｌａｔｉｏｎの推測を超えて、遺伝子間の関連を推定する手法が提案され始めている。遺伝子間の関連は、基本的にはノックアウト、ｐｅｌｅｍｅｎｔｉｎｓｅｒｔｉｏｎなどの実験データにより直接的に測定することができる。ところが、このようなアプローチによって解析できる遺伝子の数は現在のところ限られており、ゲノム上における全遺伝子の間の関連を推定する方法としては現実的でない。
先に述べたＤＮＡマイクロアレイを用いれば、膨大な量の遺伝子を対象として発現プロファイルを容易に得ることができる。ＤＮＡマイクロアレイが生成する膨大な発現プロファイルを解析すれば、遺伝子発現のデータに見られる相関関係を通して遺伝子間の関連を推定できる可能性がある。
２遺伝子間の関連を測るには、第３の遺伝子からの影響を取り除く必要がある。たとえば、式（１）で定義される偏相関係数を求めれば、第３の遺伝子の影響を除いた２遺伝子間の関連を評価することができる。式（１）において、ｒ^ｉｊは相関行列の逆行列におけるｉｊ要素を示す。

有意な関連を抽出し、有意に関連する節を結ぶグラフにより項目間の相互作用を表現する手法は、「グラフィカルモデリング」（宮田、朝倉書店，１９９７）等にも記載されている。ただ、前述のとおりＤＮＡマイクロアレイで解析される遺伝子の数は膨大である。そのためＤＮＡマイクロアレイによって得られた発現プロファイルを構成する遺伝子の中では、数百を越える遺伝子が関連している可能性が示唆されている［ＳｐｅｌｌｍａｎＰＴ，ＳｈｅｒｌｏｃｋＧ，ＺｈａｎｇＭＱ，ＩｙｅｒＶＲ，ＡｎｄｅｒｓＫ，ＥｉｓｅｎＭＢ，ＢｒｏｗｎＰＯ，ＢｏｔｓｔｅｉｎＤ，ａｎｄＦｕｔｃｈｅｒＢ．（１９９８）Ｃｏｍｐｒｅｈｅｎｓｉｖｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｃｅｌｌｃｙｃｌｅ−ｒｅｇｕｌａｔｅｄｇｅｎｅｓｏｆｔｈｅｙｅａｓｔＳａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅｂｙｍｉｃｒｏａｒｒａｙｈｙｂｒｉｄｉｚａｔｉｏｎＭｏｌ．Ｂｉｏｌ．Ｃｅｌｌ９：３２７３−３２９７］。
その結果、通常は対象とする遺伝子の数は実験（ＤＮＡマイクロアレイ）の数を大きく凌駕し、相関行列は退化してしまう。つまり、ＤＮＡマイクロアレイによる解析結果に基づいて、式（１）による解析に必要な相関行列を得ることは、事実上できないと言って良い。言い換えれば、数万に及ぶ遺伝子間の相互の関連性を、公知の解析方法によって見出すためには、ほとんど実現不可能な規模の実験を要することになる。
したがって、現実的な規模の実験によって得ることができる遺伝子発現プロファイルに基づいて、関連性を明らかにすることができる手法が求められている。遺伝子の解析技術は、急速な進歩を遂げている。現在のところ、ＤＮＡマイクロアレイは数千〜数万種類の遺伝子を解析の対象としている。更に、解析可能な遺伝子の数は、今後の技術開発によってますます増加することは明らかである。そのため、膨大な数の遺伝子について、できるだけ小規模な実験結果に基づいて、その中から効率的に遺伝子の関連性を見出すことができる技術の重要性は増している。
発明の開示
本発明は、遺伝子の発現プロファイルに基づいて、遺伝子の関連性を見出すための方法の提供を課題とする。より具体的には、多くの遺伝子の中から関連を有する遺伝子の組み合わせを、より少ない実験に基づいて、より効率的に見出すことができる方法を提供することが本発明の課題である。
遺伝子の発現プロファイルに基づいて、遺伝子の関連性を見出すとき、ある遺伝子の組み合わせにおける他の遺伝子の影響をいかにして排除するかが大きな課題になる。先に述べたように、数千〜数万の遺伝子の発現データを取り扱うＤＮＡマイクロアレイにおいては、数百の遺伝子が相互に影響を与える状態にあることが示唆されている。つまり、任意の２つの遺伝子の間の関連性を評価しようとする場合、通常は、第３、第４の遺伝子の影響を考慮しなければならないはずである。
そこでＦｒｉｅｄｍａｎＮ．ｅｔａｌ（ＵｓｉｎｇＢａｙｅｓｉａｎｎｅｔｗｏｋｓｔｏａｎａｌｙｚｅｅｘｐｒｅｓｓｉｏｎｄａｔａ．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙ，２０００；７（３−４）：６０１−２０）は、Ｂａｙｅｓｉａｎｎｅｔｗｏｒｋの手法をＤＮＡマイクロアレイデータに適用した。この手法は、尤度比に基づいて確率的に遺伝子対のリンクを挿入・削除するもので、最終的に遺伝子間関連の事後分布を明らかにできるメリットを有する。しかし膨大な計算時間を必要とするため、それでなくても膨大なデータを処理しなければならないＤＮＡマイクロアレイの解析に応用するには問題が多い。
本発明者らは、遺伝子の間の関連性を明らかにする過程において、２つの遺伝子の偏相関係数を近似的に求めることができれば、任意の２つの遺伝子の発現レベルに対して干渉する第３の遺伝子の影響を排除できるのではないかと考えた。偏回帰係数と偏相関係数の関係は、次に示す式（２）で表される（ＳｔｕａｒｔａｎｄＯｒｄ，Ｋｅｎｄａｌｌ’ｓａｄｖａｎｃｅｄｔｈｅｏｒｙｏｆｓｔａｔｉｓｔｉｃｓ，ｆｉｆｔｈｅｄｉｔｉｏｎ，ｖｏｌｕｍｅ２：Ｃｌａｓｓｉｃａｌｉｎｆｅｒｅｎｃｅａｎｄｒｅｌａｔｉｏｎｓｈｉｐ，ＥｄｗａｒｄＡｒｎｏｌｄ，Ｌｏｎｄｏｎ，１９９１）。

本発明者らは、遺伝子の発現プロファイルの解析にこの式を適用するために、変数選択の工程を組み合わせることによって、現実的な規模の実験に基づいて遺伝子間の関連を容易に解析できることを見出し、本発明を完成した。本発明においては、たとえばＤＮＡマイクロアレイにプローブとして配置された各遺伝子について、これを従属変数とした重回帰分析を行う。
更に変数選択を行って得られた偏回帰係数から、式（２）として偏相関係数を推定する。変数選択の工程には、ＡＩＣ（ＡｋａｉｋｅＨ，Ａｎｅｗｌｏｏｋａｔｔｈｅｓｔａｔｉｓｔｉｃａｌｍｏｄｅｌｉｄｅｎｔｉｆｉｃａｔｉｏｎ，ＩＥＥＥＴｒａｎｓ．ＡｕｔｏｍＣｏｎｔｒ．ＡＣ−１９：７１６−７２３，１９７４）やＢＩＣを応用することができる。すなわち本発明は、以下の工程を含む遺伝子間の関連を検出する方法に関する。
〔１〕次の工程を含む、遺伝子間の関連を決定する方法。
１）複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
２）前記複数の遺伝子から２つの任意の遺伝子を選択して第１の遺伝子および第２の遺伝子からなる遺伝子ペアとする工程、
３）前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第１の遺伝子および第２の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
４）工程３）で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
５）工程４）によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
〔２〕工程３）における前記遺伝子ペア以外の遺伝子が、前記遺伝子ペアを構成する第１の遺伝子および第２の遺伝子を除く全ての遺伝子である〔１〕に記載の方法。
〔３〕工程５）が、工程３）によって得られた複数のモデルにおける偏相関を赤池情報量基準に基づいて比較し、モデルを構成する前記第１の遺伝子および／または前記第２の遺伝子の発現に影響を与える任意の遺伝子を選択することによって行われる〔１〕に記載の方法。
〔４〕工程５）において、任意の遺伝子として最適なモデルを与える遺伝子を選択する〔３〕に記載の方法。
〔５〕工程３）が、前記モデルを構成する各遺伝子の発現レベルを変数として偏相関を求める工程からなる〔１〕に記載の方法。
〔６〕工程３）が、各遺伝子の発現レベルのベクトルを変数として偏相関を求める工程からなる〔１〕に記載の方法。
〔７〕構成遺伝子が異なる複数種の遺伝子ペアを選択し、各遺伝子ペアについて前記工程１）〜５）を繰り返すことを特徴とする〔１〕に記載の方法。
〔８〕前記複数の遺伝子の全ての組み合わせを前記第１の遺伝子、および第２の遺伝子からなる遺伝子ペアとして、前記工程１）〜５）を繰り返すことを特徴とする〔７〕に記載の方法。
〔９〕遺伝子の発現レベルが、ＤＮＡマイクロアレイに細胞に由来するｍＲＮＡ、またはｍＲＮＡから誘導されたポリヌクレオチドをハイブリダイゼーションさせることによって得られたものである〔１〕に記載の方法。
〔１０〕遺伝子ペア、およびこの遺伝子ペアに関連する遺伝子として〔１〕に記載の方法によって選択した遺伝子との相互の関連性と、その強さを座標情報に変換し、座標空間における距離によって遺伝子間の関連を示すことを特徴とする〔１〕に記載の方法。
〔１１〕〔１０〕に記載の方法によって得ることができる、複数の遺伝子について相互の関連の強さを座標空間における距離によって表現した遺伝子ネットワークマップ。
本発明は、次の工程を含む、遺伝子間の関連を決定する方法である。
１）複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
２）前記複数の遺伝子から２つの任意の遺伝子を選択して第１の遺伝子および第２の遺伝子からなる遺伝子ペアとする工程、
３）前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第１の遺伝子および第２の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
４）工程３）で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
５）工程４）によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
本発明において、複数種の細胞とは、由来や処理条件など、なんらかの点で相違がある少なくとも２種類の細胞を言う。たとえば、異なる組織に由来する細胞や、由来は同一であっても異なる培養条件や処理条件を与えた細胞等を例示することができる。一般に細胞の種類をできるだけ多くすることにより、その解析結果の統計学的な意味を高めることができる。したがって、できるだけ多くの細胞種について遺伝子の発現レベルを測定することが望ましい。
たとえば本発明によって遺伝子の関連を検出するとき、２種類以上、望ましくは更に多くの細胞について遺伝子の発現レベルを測定することにより、解析結果の統計学的な意味を高められる。望ましい細胞の数は、扱う遺伝子の数よりも個々の遺伝子に本質的に影響を与える遺伝子の数により規定される。たとえば、影響を与える遺伝子の数ｋが比較的大きいときは、統計学的に意義のある解析を行うために望ましい細胞の数として、（ｋ／２）^２を一つの目安とすることができる（坂元慶行・石黒真木夫・北川源四郎（１９８３）「情報量統計学」ｐ．６３）。
なお本発明において種類の異なる細胞とは、ある条件のみにおいて相違があり、その他の条件はできるだけ同一とすることが望ましい。具体的には、癌と正常細胞との間で遺伝子の発現状態を比較するときには、特定の臓器を対象とし、同種の癌細胞と正常細胞を多く集めることが求められる。
たとえば直腸癌であれば、正常細胞としては正常な直腸組識を多くの被験動物から集める。一方、癌細胞についても、できるだけ同じ部位に生じた同種の癌細胞を集めて、両者の遺伝子の発現状態を比較するのが好ましい。あるいは、特定の培養条件のみ相違させた同一の細胞を、本発明における複数種の細胞として用いることもできる。
本発明において、複数種の遺伝子とは、２以上の遺伝子を意味する。本発明では、多くの遺伝子の発現データの中から、ある２つの遺伝子に対して影響を与えている第３の遺伝子の存在と、その関連性の強さを評価することができる。解析の対象とする遺伝子の数は制限されない
多くの遺伝子について発現レベルを効率的に測定するには、ＤＮＡマイクロアレイを利用するのが有利である。ＤＮＡマイクロアレイは、ガラスなどの支持体上に、多くのＤＮＡを高密度に集積した分析デバイスである。支持体上に固定されるＤＮＡは、化学的に合成したもの、あるいはｃＤＮＡライブラリー等が用いられる。細胞で発現している遺伝子の発現レベルを知るには、ＤＮＡマイクロアレイを利用してたとえば次のような測定が行われる。
まず各細胞のｍＲＮＡをもとにｃＤＮＡを合成し、更にこのｃＤＮＡを鋳型としてｃＲＮＡに転写する。ｃＤＮＡを合成するときにＲＮＡポリメラーゼが認識するプロモーターを連結しておけば、ｃＲＮＡへの転写は容易に行うことができる。このとき、ｃＲＮＡを標識しておく。そして標識ｃＲＮＡをＤＮＡマイクロアレイにハイブリダイズさせ、両者のハイブリダイズを標識によって検出する。異なる細胞に由来するｃＲＮＡを異なる色の蛍光色素で標識しておけば、複数種の細胞について同時に測定することもできる。
現在市販されているＤＮＡマイクロアレイは、１枚のスライド上に数千〜数万種類のＤＮＡを配置している。しかし本発明における解析の対象は、これらの市販のＤＮＡマイクロアレイが有しているＤＮＡの数に限定されない。より高密度のＤＮＡマイクロアレイや、多種類のＤＮＡマイクロアレイを用いて得られた、より規模の大きな測定結果であっても、本発明によって解析することができる。また、市販のＤＮＡマイクロアレイのみならず、カスタムメイドやアレイヤーを用いて自作されたＤＮＡマイクロアレイを利用しうることは言うまでもない。
本発明において、遺伝子の発現レベルとは、ゲノム等に記録されている遺伝情報がｍＲＮＡに転写された量を意味する。ｍＲＮＡの量は、ポリヌクレオチドとしてＤＮＡマイクロアレイや、定量的ＰＣＲ等により、塩基配列特異的に測定することができる。あるいは、ｍＲＮＡがコードする蛋白質の量として、プロテオーム解析により測定することもできる。
さて、ある細胞について複数の遺伝子の発現レベルを測定した結果は、一般に発現プロファイルと呼ばれる。したがって、本発明において解析の対象とするデータは、遺伝子の発現プロファイルに他ならない。
遺伝子発現プロファイルは、必ずしも、解析のたびに現実の実験データとして収集する必要はない。たとえば、複数の施設で、同じＤＮＡマイクロアレイを利用して、一定の条件のもとで各種の細胞の遺伝子発現プロファイルを収集し、そのデータを施設間で共有することもできる。このようなデータは、インターネットを利用して共有するのが有利である。インターネットを利用することにより、発現プロファイルを得るためのプロトコルと、それによって得られたデータを世界的なレベルで共有することができる。
こうして集積されたデータをサンプルとして、本発明による遺伝子の関連を検出する方法を適用することができる。世界中で得られた発現プロファイルを集約し、遺伝子間の関連を表すネットワークマップとして提供することもできる。
本発明においては、まず前記複数種の遺伝子から選択された、任意の２つの遺伝子からなる遺伝子ペアに対して、その発現プロファイルを構成する発現レベル情報に基づいて解析が進められる。ここで選択される２つの遺伝子は任意である。選択された遺伝子の一方を仮に第１の遺伝子、他方を第２の遺伝子とし、両者の関連性を明らかにする。このとき、２つの遺伝子に対するその他の遺伝子の干渉を明らかにするために、本発明においては、変数選択を伴う回帰分析を利用して両者の偏相関を近似的に求める。偏相関とは、２つの変数に干渉する第３の変数の影響を排除した、２つの変数の相関を言う。この工程によって、前記遺伝子ペアの間の、真の関連性が近似的に明らかにされるとともに、遺伝子ペアに影響を与える第３の遺伝子の存在とその関連性の強さを知ることができる。この工程は、たとえば次のようにして行うことができる。
まず偏相関の解析には、林によって構築された数量化理論ＩＶ類（ＨａｙａｓｈｉＣ．，Ｏｎｔｈｅｐｒｅｄｉｃｔｉｏｎｏｆｐｈｅｎｏｍｉｎａｆｒｏｍｍａｔｈｅｍａｔｉｃａｌｓｔａｔｉｓｔｉｃｐｏｉｎｔｏｆｖｉｅｗ．，Ａｎｎ．Ｉｎｓｔ．Ｓｔａｔ．Ｍａｔｈ．，３：６９−９８，１９５０）が応用されている。数量化理論（ｑｕａｎｔｉｆｉｃａｔｉｏｎｔｈｅｏｒｙ）とは、定性的変数に関する多変量解析である。数量化理論ＩＶ類では、ある個体の集団と、その集団内の任意の２つの個体間の親近性を示す数値の行列が与えられている場合、各個体をグループに分類することができる数量を個体に対して付与する手法である。
数量化理論ＩＶ類を遺伝子の発現レベルの解析に応用するために、遺伝子集団における任意の２つの遺伝子間の相関係数と回帰係数とからなる行列を想定する。２つの遺伝子の間の偏相関係数ｒ_ｉｊは、下記式（３）によって推定することができる。

ただし、式中、ｂ_ｉｊは第１の遺伝子を従属変数としたときの第２の遺伝子の偏回帰係数を、ｂ_ｊｉは、第２の遺伝子を従属変数としたときの第１の遺伝子の偏回帰係数を表す。
本発明において偏相関を求めるための第１の方法として、遺伝子ペア、および第３の遺伝子の発現レベルを従属変数とする変数選択を伴う回帰分析を行う方法を示すことができる。本発明者らは、この方法を仮に近似的回帰偏相関２（ＡｐｐｒｏｘｉｍａｔｅＰａｒｔｉａｌＣｏｒｒｅｌａｔｉｏｎｗｉｔｈＲｅｇｒｅｓｓｉｏｎ、以下ＡＰＣＲ２と省略する）と呼んでいる。ＡＰＣＲ２によれば、複数の遺伝子がｎ個からなるとき、この全ての遺伝子について偏相関を求めるには、変数選択を伴う回帰分析をｎ回行うことになる。
その結果、様々な遺伝子を第３の遺伝子としたときの、遺伝子ペアの偏相関が明らかにされる。高い偏相関が見出された場合には、その遺伝子ペアを構成する遺伝子には関連があると推定される。この処理は、ある遺伝子について、その発現を他の遺伝子の発現から予測することを考え、予測力を高めることに寄与する遺伝子を拾い上げることに他ならない。つまり、遺伝子Ａの発現の予測に遺伝子Ｂの発現の情報が寄与し、また逆に遺伝子Ｂの発現の予測に遺伝子Ａの発現の情報が寄与すると認められたときに、これらの間に関連があるとみなされる。どちらか一方でも寄与が認められないときは、偏相関係数の推定は０となる。
本発明において偏相関を求めるための方法として、遺伝子ペアを構成する第１の遺伝子および第２の遺伝子に対して、それらの発現ｙＡ，ｙＢの両者からなるベクトル（ｙＡ，ｙＢ）を従属変数とする多次元の回帰分析を適用することもできる。本発明者らは、この方法を仮に近似的回帰偏相関１（ＡｐｐｒｏｘｉｍａｔｅＰａｒｔｉａｌＣｏｒｒｅｌａｔｉｏｎｗｉｔｈＲｅｇｒｅｓｓｉｏｎ、以下ＡＰＣＲ１と省略する）と呼んでいる。ＡＰＣＲ１では、説明変数の回帰係数も第１の遺伝子に対するものと、第２の遺伝子に対するものの２次元ベクトルとなる。回帰モデルの残差もｙＡに対する残差およびｙＢに対する残差の２次元である。そして、ｙＡとｙＢの相関をもって偏相関係数の推定値とする。このとき、実際には、残差項の間の分散共分散と回帰係数は同時に推定される。偏相関係数は、文字どおり他の遺伝子からの影響を排除した後の相関に他ならないためである。
ただ、ＡＰＣＲ１はＡＰＣＲ２に比べて個々の回帰分析は複雑である。またｎ個の遺伝子の解析のために、ｎ回ではなく、ｎ（ｎ−１）／２回の変数選択を伴う回帰分析を行う必要があることから、多くの遺伝子を分析の対象とするときは、計算量が増えてしまう。したがって、ＡＰＣＲ２は、本発明における偏相関を求めるための手法として望ましい。
以上のようにして得ることができる遺伝子ペアの偏相関は、選択された２つの遺伝子の間の関連性を近似的に表し、その他の遺伝子の干渉は無視することができる。更に本発明は、遺伝子ペアの偏相関を明らかにすると同時に、この遺伝子ペアに対する関連性が疑われる第３の遺伝子の存在と、その関連性を明らかにする工程を含む。この工程は、この遺伝子ペアに対して、任意の遺伝子を３つめの変数として与えた場合の偏相関を評価し、複数の遺伝子から選択された１つの任意の遺伝子のうち、前記遺伝子ペアに対する関連性が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択することにより行われる。遺伝子ペアに対する関連性は、その偏相関に与える影響の大きさを比較することによって評価することができる。
遺伝子の発現レベルの変化は、２者の遺伝子の関連のみで説明できることは稀で、通常、いくつかの複数の遺伝子が相互に影響を与え合う遺伝子ネットワークを構成している。したがって、２者の関係のみを明らかにしても、遺伝子ネットワークの全体像を見ることはできない。本発明においては、２者の遺伝子の関連を見出す過程において、その２者に対して影響を与えている可能性が高い遺伝子の存在を明らかにする工程を含む。
偏相関とは、第３の変数の影響を排除した２つの変数の間の相関を意味する。したがって、偏相関を明らかにすることは、第３の変数の影響を明らかにすることに他ならない。本発明においては、第３の変数が第３の遺伝子の影響に相当する。より具体的には、ある遺伝子ペアに対して、第３の遺伝子を想定して偏相関係数を導く。第３の遺伝子として、たとえば発現プロファイルを構成する全ての遺伝子を想定したときには、発現プロファイル内の遺伝子のそれぞれについて、この遺伝子ペアに与える影響の大きさを定量的に比較することができる。影響を与える可能性が高いと推定された遺伝子を選択して、３者の関連性が明らかにされる。
この工程には、たとえば赤池情報量基準（以下、ＡＩＣと省略する）や、ＢＩＣと呼ばれる解析手法を利用することができる。ＡＩＣは、式『ＡＩＣ＝−２ｘ（最大対数尤度）＋２ｘ（自由パラメータ数）』に基づいて複数のパラメトリック・モデルから、適切なモデルを選択する手法である（ＡｋａｉｋｅＨ．Ａｎｅｗｌｏｏｋａｔｔｈｅｓｔｒａｃｔｕａｌｍｏｄｅｌｉｄｅｎｔｉｆｉｃａｔｉｏｎ，ＩＥＥＥＴｒａｎｓ．Ａｕｔｏｍ．Ｃｏｕｎｔｒ．，ＡＣ−１９：７１６−７２３，１９７４）。
本発明におけるモデルとは、ある遺伝子ペアに任意の遺伝子を組み合わせて構成される。本発明においては、ある遺伝子ペアに対して任意の遺伝子を与えて、各モデルごとに近似偏相関が求められる。候補となるモデル毎にＡＩＣを計算し、その値が最小となるモデルが最適なモデルとして選択される。本発明においては、最大対数尤度はＡＰＣＲ２では定数項を除き

によって求められる。ｅ_ｉ（ｉ＝１，．．．，ｎ）はモデルの残差である。またモデル比較の対象となる自由パラメータの数は説明変数の数、すなわち当該遺伝子対に影響を与える遺伝子の数である。ＡＰＣＲ１においては、最大対数尤度は、残差項の分散行列Ｖを用いて

回帰係数が２次元ベクトルとなるため、モデル比較の対象となる自由パラメータの数は当該遺伝子対に影響を与える遺伝子の数の２倍となる。本発明で選択されるモデルとは、遺伝子ペアに対する、任意の遺伝子の関連性である。ＡＩＣによって選択される最適なモデルは、遺伝子ペアに対して最も関連性の強い遺伝子の組み合わせを意味する。ＡＩＣの順に遺伝子を選択すれば、その遺伝子ペアに与える影響の大きいものを、大きさの順に選択することができる。
以下に偏相関から導かれる遺伝子ペアに対する第３の遺伝子の関連性の強さをＡＩＣに基づいて評価する方法を具体的に述べる。ここでは予測力に基づいて変数選択する。予測力とは、ある変数（任意の遺伝子）が他の変数（遺伝子ペア）の予測において、どの程度貢献するかを表すための指標である。遺伝子間の関連性を明らかにする上で重要なことは、ある遺伝子ペアに対する予測力の大きな遺伝子を見逃さないことである。本発明においては、予測力の大きな遺伝子が、関連の強い遺伝子として選択される。予測力が最大となる１つの遺伝子を選ぶときは相関関係を下に、その遺伝子と最も大きな相関係数の絶対値を持つ遺伝子を選択する。
２つ目以降については相関係数の代わりに重相関係数を用いる。一般に説明変数が多いほどデータへの適合度は向上する。しかし一方でデータの持つ情報の量を越えて多くの遺伝子を説明変数に取り込むと、回帰係数の推定精度は悪くなる。予測力を表現するＡＩＣにより、データへの適合度と回帰係数の推定精度のバランスが勘案され、限られた実験数に見合った遺伝子対の関係が推定される。
本発明の方法をＤＮＡマイクロアレイによって得られた発現プロファイルに適用するときには、一般的にＤＮＡマイクロアレイの数が少ないときは、大きな影響力を与える遺伝子の間のみの関連を拾うことになる。ＤＮＡマイクロアレイの数が多くなるにつれて、影響力がそれほど大きくない遺伝子の影響も考慮されるようになる。選ばれる遺伝子の数はＤＮＡマイクロアレイの数に大きく依存し、解析対象となる遺伝子の数にはあまり依存しない。
ちなみに、ＡＩＣはデータへの適合度を表現する最大対数尤度からモデルに含まれるパラメータの数を引いたもので定義され、これが予測力の偏りのない統計量であることが証明されている（ＡｋａｉｋｅＨ．Ａｎｅｗｌｏｏｋａｔｔｈｅｓｔｒａｃｔｕａｌｍｏｄｅｌｉｄｅｎｔｉｆｉｃａｔｉｏｎ，ＩＥＥＥＴｒａｎｓ．Ａｕｔｏｍ．Ｃｏｕｎｔｒ．，ＡＣ−１９：７１６−７２３，１９７４）。
遺伝子発現の相関関係には、直接的な関係のみでなく第３の遺伝子による間接的な関係も相俟って含まれており、遺伝子ネットワークにおいては前者を抽出する必要がある。図１は遺伝子Ａ〜Ｄの間のネットワークを示しているが、そこでは遺伝子Ｃは遺伝子Ａ、遺伝子Ｂをｒｅｇｕｌａｔｅし、さらに遺伝子Ｂは遺伝子Ｄをｒｅｇｕｌａｔｅしている。直接間接にこれらは関連し合っているため、遺伝子Ａ〜Ｄはいずれも遺伝子発現の相関を持つ。すなわち、クラスター分析などでは同一のクラスターに属することになる。
この図ではたとえば仮に遺伝子Ｂの発現を制御できれば遺伝子Ｄの発現に関しては遺伝子Ａと遺伝子Ｃの発現には配慮しなくても良いことになる。同様に、遺伝子Ａと遺伝子Ｂは共通の遺伝子Ｃに影響されているため見かけ上の相関を持つが、直接的な関係はない。直接的な関係は偏相関係数により算出することができる。４遺伝子の間の相関行列に対する逆行列を

ｒｔ，Ａ．，ａｎｄＯｒｄ，Ｊ．Ｋ．，Ｋｅｎｄａｌｌ’ｓａｄｖａｎｃｅｄｔｈｅｏｒｙｏｆｓｔａｔｉｓｔｉｃｓ，ｆｉｆｔｈｅｄｉｔｉｏｎ，ｖｏｌｕｍｅ２：Ｃｌａｓｓｉｃａｌｉｎｆｅｒｅｎｃｅａｎｄｒｅｌａｔｉｏｎｓｈｉｐ，ＥｄｗａｒｄＡｒｎｏｌｄ，Ｌｏｎｄｏｎ，１９９１．）。
遺伝子Ａと遺伝子Ｂの間、遺伝子Ｃと遺伝子Ｄの間の偏相関係数は確率的な誤差を除くと０となり、矢印で結ばれた直接的な関係を持つ遺伝子対のみが０でない偏相関係数を持つこととなる。（ただし、偏相関係数により矢印の向き、すなわち因果関係を推定することはできない。因果関係の推定のためには、時間的前後関係を考慮に入れた時系列データの解析、あるいはノックアウト系の解析が必要となる。）なおここで、仮に図中楕円で囲まれた３遺伝子Ａ，Ｂ，Ｄのみを解析対象とし、偏相関係数を計算すると、遺伝子Ａと遺伝子Ｂの偏相関係数は一般に０にはならない。遺伝子ネットワークの推定には、関連する遺伝子はすべて解析対象とすることが不可欠である。
ところで、マイクロアレイデータの解析では多くの場合、分析の対象となる遺伝子の数が実験（細胞）の数を大幅に上回る。この場合は、相関行列は退化し逆行列を持たないため、偏相関係数を計算することができない。そこで、変数選択を伴う回帰分析により偏相関係数を近似的に求める。まず基本的な公式として次の結果が知られている。
図１に即して説明することにし、各遺伝子の発現プロファイルを

とする。ｎは細胞の数である。
まず、遺伝子Ａの発現量を他の３遺伝子Ｂ，Ｃ，Ｄの発現量で回帰する回帰式

すると、（１２）式の切片は消え、

となる。
規準化変量による回帰分析の回帰係数は偏回帰係数と呼ばれるが、これは（１

同様に遺伝子Ｂ，Ｃ，Ｄの発現量を他の遺伝子に回帰することにより、偏回帰係数のセット

が得られる。

他の遺伝子対についても同様である。符号を考えると、

となる。
こうして、偏相関係数の推定は各遺伝子の発現量を他の全遺伝子の発現量に回帰したときの偏回帰係数を推定することに帰着される。
ところで先に述べたように、マイクロアレイデータの場合は通常実験数が遺伝子数を大きく下回っているため、各遺伝子の発現量を他の全遺伝子の発現量に回帰することはできない。そこで、変数増加法あるいは変数増減法により変数選択を行う。
選択の規準としては

で定義される赤池情報量規準（ＡＩＣ）を採用する。これは予測誤差を表現するもので、遺伝子発現の予測力を高めることに貢献する遺伝子を拾って行くことになる。これがＡＰＣＲ２である。
いまの例で仮に変数選択の結果推定された４つの回帰式が

のようになったとする。
これより偏回帰係数の行列が

のように得られる。
これよりたとえば遺伝子Ａと遺伝子Ｂの間の偏相関係数は

また遺伝子Ａと遺伝子Ｂの間の偏相関係数は

などと計算され、最終的に偏相関行列が

として求められる。
遺伝子の数ｍだけ回帰分析を実行し、それぞれにおいて変数選択を行うため大きな計算量となる。
このため、数千の遺伝子について変数選択の候補を予め従属変数との相関係数が絶対値である値（たとえば０．２）以上に限定することにより、計算時間が大幅に短縮される。
これに対してＡＰＣＲ１は、図１に戻り説明すると、遺伝子Ａの発現量と遺伝子Ｂにおける発現量の間の偏相関係数を多次元の回帰式

におけるε^ＡＢとε^ＢＡの間の相関係数により評価する。
数多くの遺伝子を分析対象とする一般のマイクロアレイデータにおいては、ＡＰＣＲ２同様、ＡＩＣに基づき変数選択を行う。今度は多次元であることに伴い、ＡＩＣは

となる。
さらに、ε^ＡＢとε^ＢＡの間の相関係数が０というモデルも比較し、偏相関が０か否かを判定することもできる。ＡＰＣＲ２が偏回帰係数と偏相関係数を結びつける基本式を用いて間接的に偏相関係数を求めたのに対し、ＡＰＣＲ１は偏相関係数の直接的な評価を与える。しかし、解析対象となる遺伝子から２遺伝子をとる場合の数、すなわちｍ（ｍ−１）／２回だけ変数選択を伴う回帰分析を実行し、それぞれが多次元の回帰分析であるため、ＡＰＣＲ２の方が計算量の点においては有利である。
更に、ＡＩＣのほか、偏相関に基づいて、遺伝子ペアに関連する可能性が高い遺伝子の集合を求めることができる。たとえば、１／２ｘｌｏｇ（（１＋ｒ）／（１−ｒ））が、分散１／（ｎ−３）の正規分布に従うことが知られている。偏相関係数ｒについても同様に、この値が絶対値でｄ＝１．９６√（１／（ｎ−３））より大きい、すなわち｜ｒ｜＞｜（１−ｅｘｐ（２ｄ））／（１＋ｅｘｐ（２ｄ））｜であるときは５％で有意として、関連性のある遺伝子を選択することもできる。
以上のような過程を、その発現プロファイルを構成する複数の遺伝子に対して適用すれば、やがてその発現プロファイルに基づく、遺伝子間の最も適切な関連性が導かれる。こうして得られる複数の遺伝子の関連性は、遺伝子ネットワークとして表すことができる。本発明において遺伝子ネットワークとは、複数の遺伝子の間の関連性を相互に結びつけたものである。遺伝子ネットワークは、遺伝子間の関連性の向きと、強さによって定義される。遺伝子の関連性の向きとは、発現の刺激（ｕｐｒｅｇｕｌａｔｉｏｎ）と抑制（ｄｏｗｎｒｅｇｕｌａｔｉｏｎ）を示している。一方、関連の強さは、発現の刺激または抑制の強さを意味している。通常、この過程は、発現プロファイルを構成する全ての遺伝子を対象として行うことが望ましい。
また、本発明における発現プロファイルは、明らかにすべき遺伝子ネットワークの全体をカバーするものであることが望ましい。したがって、ある生物における遺伝子の関連を明らかにするには、その生物の全ゲノムに含まれる全ての遺伝子の発現プロファイルに基づいて、本発明の解析方法を適用するのが理想である。しかしながら、最も重要な解析対象であるヒトでは、遺伝子の全体像は完全には把握できていない。また、その数は膨大であり、発現プロファイルの集積そのものが大きな課題である。このような場合には、たとえば数千〜数万の主要な遺伝子について調べられた発現プロファイルを対象として、本発明の解析方法を適用することも十分な意義がある。
このような解析を通じて導かれる遺伝子ネットワークは、部分的な発現プロファイルを構成する遺伝子の、最も合理的な関連性を記述している。したがって、この遺伝子ネットワークに基づいて推定される遺伝子間の関連性は、その後の遺伝子の機能解析の指標として重要な情報を与えることになる。たとえばある遺伝子の機能を解明するときに、その遺伝子に関連する他の遺伝子の候補を、遺伝子ネットワークから絞り込むことができる。
他方、全ての遺伝子、あるいは真の遺伝子の全体像に近いものを対象として得られた発現プロファイルを解析すれば、本発明によって理想的な解析を行うことができる。こうして明らかにされた遺伝子ネットワークは、発現プロファイルを取得した細胞における遺伝子ネットワークを、最も合理的に表している。したがって、この遺伝子ネットワークを通じて、たとえば以下のような情報を予測することができる。
ある遺伝子の制御に重要な遺伝子
ある遺伝子を抑制したときに影響を受ける遺伝子
ある遺伝子の発現が亢進したときに影響を受ける遺伝子
このような情報に基づいて、それを裏付けるための実験を行えば、遺伝子の機能解析を極めて効率的に進めていくことができる。あるいはアポトーシスやがん化といった、注目される細胞機能に関連することが明らかにされている遺伝子を中心にして遺伝子ネットワークを解析すれば、これらの細胞機能に関わる新たな因子や、新たな関係を予測することもできる。更に、こうした予測に基づく実験を重ねていけば、遺伝子ネットワークの信頼性を更に高めていくことにもなる。
本発明においては、遺伝子間の関連を座標に変換し、図示化することができる。図示化することにより、推定された遺伝子間ネットワークの全体像をつかむことができる。図示化においては、遺伝子間の関連を表現する線分が過度に交叉しないよう、遺伝子を適当に配置することが大切である。多次元尺度構成（Ｂｏｒｇ，Ｉ．ａｎｄＧｒｏｅｎｅｎ，Ｐ．ＭｏｄｅｒｎＭｕｌｔｉｄｉｍｅｎｓｉｏｎａｌＳｃａｌｉｎｇ：ＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，１９９７．）は対象間の距離をよく反映するように、対象を配置する。いまの場合は偏相関係数の絶対値が大きい遺伝子対は関連性が強いとみなすことができるため、これを遺伝子間の親近度として数量化ＩＶ類を適用する（Ｈａｙａｓｈｉ，Ｃ．Ｏｎｔｈｅｐｒｅｄｉｃｔｉｏｎｏｆｐｈｅｎｏｍｉｎａｆｒｏｍｍａｔｈｅｍａｔｉｃａｌｓｔａｔｉｓｔｉｃｐｏｉｎｔｏｆｖｉｅｗ，Ａｎｎ．Ｉｎｓｔ．Ｓｔａｔ．Ｍａｔｈ．，３：６９−９８，１９５０．）。
すなわち、偏相関係数の絶対値

を下に、

を最小化することにより遺伝子のｘ座標の成分

を求める。

の重みが重く、対応する遺伝子対は近くに配置されることになる。
散布図においては相対的な位置関係だけが問題になるため、

という制約条件をつける。
これは散布図の重心が原点にあり、さらにスケールを規準化することを意味する。ｙ座標の成分も上の制約条件に加えて散布図が無相関となるよう制約を課して（３３）式を最小化することにより計算される。これは固有値問題に帰着する。一般に、多くの遺伝子と関連している遺伝子は図の原点近くに位置し、他とあまり関連のない遺伝子は図中縁に位置することになる。ｚ座標以降も同様にして求められる。
加えて本発明は、本発明による遺伝子の関連を検出する方法を実施するためのプログラムを提供する。本発明のプログラムは、先に述べたアルゴリズムを実行する各ステップで構成される。また本発明は、本発明のプログラムを記録した情報記録媒体を含む。
発明を実施するための最良の形態
以下、本発明を実施例により具体的に説明するが、本発明はこれら実施例に制限されない。
１．遺伝子間の関連の検出
Ａｌｏｎｅｔａｌは結腸癌の組織細胞における発現プロファイルを正常細胞のそれと対比分析した（Ａｌｏｎ，Ｕ．，Ｂａｒｋａｉ，Ｎ．，Ｎｏｔｔｅｒｍａｎ，Ｄ．Ａ．，Ｇｉｓｈ，Ｋ．，Ｙｂａｒｒａ，Ｓ．，Ｍａｃｋ，Ｄ．，ａｎｄＬｅｖｉｎｅ，Ａ．Ｊ．Ｂｒｏａｄｐａｔｔｅｒｎｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｒｅｖｅａｌｅｄｂｙｃｌｕｓｔｅｒｉｎｇａｎａｌｙｓｉｓｏｆｔｕｍｏｒａｎｄｎｏｒｍａｌｃｏｌｏｎｔｉｓｓｕｅｓｐｒｏｂｅｄｂｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｓ，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ，９６：６７４５−６７５０，１９９９．）。このデータを数値例として用い、ゲノムの一部のみから遺伝子間の関係を見るときの偏り、およびここでの変数選択を伴う回帰分析による偏相関の推定の精度を調べた。
評価においては真の偏相関を知る必要があるが、上述した理由により全遺伝子について偏相関行列を得ることはできない。そこで、癌組織と正常組織の間で発現に差のある４４の遺伝子を選んだ。更にこれらの遺伝子に、癌組織のみで確率１で発現する仮想遺伝子を加えた計４５遺伝子からなる仮想ゲノムを考える。解析の対象とした遺伝子と、６２の組織における各遺伝子の発現レベルを表４〜表７に示した。表中、名前がＴで始まる細胞は腫瘍組織を、名前がｎで始まる細胞は正常組織である。
ここでの偏相関係数は、これらの遺伝子以外からの寄与を考慮に入れていないため、４５遺伝子からなるゲノムを考えたときの仮想的な遺伝子間関係を表現している。すなわち、この実施例における真値とは、この４５遺伝子をサンプルとして得られた結果である。
まず図２からは、相関係数と偏相関係数が全く異なることが明らかである。これは２遺伝子の相関にはそれらの間の直接的な関係の他に第３の遺伝子からの間接的な影響が関与しており、その大きさが遺伝子の対により異なるためである。
図３は４５遺伝子からランダムに２１遺伝子を選び、これらの間の相関行列を下に偏相関を求めて真値と比較したものである。図２と同様に、部分サンプル以外の遺伝子の影響を受けて、ここで計算された偏相関係数は真の相関係数をよく捉えていない（ｒ＝０．１３７）。従って、各遺伝子対の直接的な関係を測る上で、他の遺伝子からの寄与を漏れなく測ることが重要であることがわかる。変数選択を伴う回帰分析はこうした考え方に基づき、それぞれの遺伝子に大きく関連するものを全ゲノムから漏れなく抽出し、偏相関の計算においてはその影響を取り除こうとするものである。
図１０は、多くの弱い偏相関を持つ遺伝子対は、偏相関０と評価され、強い関連を持つものについては正しく相関を言い当てていることを示している。遺伝子ごとにそれと関係する遺伝子は異なっていても、この近似が良いことを示している。
２．図示化
本発明に基づいて明らかにされた遺伝子間の関連は、図示化することにより、その全体像を容易に把握することができる。以下に、先に明らかにされた遺伝子間の関連性を図示化する工程を述べる。
ここでは例示のため、Ａｌｏｎｅｔａｌ（１９９９）からとられた２０００の遺伝子のうち、癌組織と相関を持つものについて遺伝子間ネットワークを図示化する。図４は癌組織と遺伝子発現の相関の分布を表しているが、多くの遺伝子は絶対値にして０．４以下であることが見て取れる。細胞の数が６２であるため、癌組織との相関が絶対値で０．４２以上であった遺伝子４４個、それに癌組織上で１、正常細胞で０の発現をする仮想遺伝子「ｃａｎｃｅｒ」を加え、計４５遺伝子（表１）を分析した。なお、２０００遺伝子がすでにゲノムの一部であることから、ここで得られたネットワークはあくまでもモデルである。

図５は偏相関係数の絶対値を遺伝子間の類似度とみなし、数量化ＩＶ類により得られた遺伝子の散布図である。４５遺伝子における（４５×４４）／２＝９９０組の遺伝子対の偏相関係数すべてを用いて散布図を作成した後、偏相関係数の絶対値が０．５以上の遺伝子対を線分で結んだ結果を示す。これら遺伝子対のリストは表２に挙げられている。
図６〜図９は図５の原点付近を拡大したものである。図６に対して図７は遺伝子にラベルを張り、図８では偏相関の絶対値が０．５以上の遺伝子対を線分で結んだ。さらに図９では、正の関係と負の関係を区別するために、前者は実線で、後者は点線で結んでいる。
３．変数選択を伴う回帰分析（ＡＰＣＲ）により得られた偏相関係数
図１０はＡＰＣＲ２により計算された偏相関係数を真の偏相関係数と対比させたものである。９９０の遺伝子対のうち７００対（７０．７％）は偏相関０、すなわち予測力を高めるほどの関連はないと判断された。これらの偏相関係数は−０．４７３と０．４４３の間で、比較的小さい。
これらを除いた２９０遺伝子対については、ＡＰＣＲ２により得られた値と真の偏相関係数と相関は０．９６７であった。表３には表２と対応して、絶対値において０．５以上の偏相関係数を持つ遺伝子対が表示されている。真のそれに比べて少なめであるが、関連の強い多くの遺伝子対が検出されていることが見て取れる。図１１、および図１２はこれら２つの図示化されたネットワークの原点付近の配置を示している。ネットワークの構造は似ているにも係わらず、見た目の印象がかなり異なる。これは近似する固有値に対する固有ベクトルの回転の自由度と関連している。複数のネットワークの構造を比較する場合には、それらの類似性、異質性を直接検出するような図を描くための工夫が必要である。
産業上の利用の可能性
本発明によれば、膨大な遺伝子の数を対象とした数少ない実験結果に基づいて、多くの遺伝子の間の、より真実の姿に近い関連性を見出すことができる。本発明では、ある遺伝子の発現レベルに影響を与えたり、あるいは逆にある遺伝子の発現に対して影響を受けているといった、遺伝子間の関係を、効率的に見出すことができる。
高密度ＤＮＡマイクロアレイを用いた発現プロファイル解析においては、実験の数が少なくても、桁違いに膨大な遺伝子発現データが生成される。このような膨大なデータの解析には、効率的であると同時に、少ないデータから真実を明らかにすることができる解析アルゴリズムが必須である。本発明による遺伝子の関連を検出する方法は、このような膨大なデータの効率的で正確な解析を実現する有用な方法である。
また本発明の原理は、真の遺伝子間の関係を近似することによって、効率的な解析を実現している。したがって、遺伝子間の関係が密接なものほど、優先的に見出される。このことは、遺伝子ネットワークの解析において、より本質的な遺伝子間の関係の効率的な解明につながる。
遺伝子の間の関連性は、新薬の開発や既に実用化されているものを含めたあらゆる薬剤の薬理作用を解明する上で重要な情報である。かつては、病態を形成する遺伝子のネットワークを明らかにすることは、治療薬の開発の重要なテーマの一つと認識されながら、実際には極めて難しいこととされていた。しかし、今やゲノムの解析が完了しようとしている。つまり、ネットワークを構成する構成員の全体像が明らかにされつつあると言って良い。この成果をもとに、各構成員の関連性を明らかにすることができれば、遺伝子間の関連をネットワークとして理解することができる。
ゲノム解析を完了した後に展開される薬剤の研究開発は、常に病態と遺伝子の関係を見据えて進められるようになっていくと考えられる。そのためには、ゲノムという遺伝子の全体像の中で、標的となる病態を形成している遺伝子ネットワークをできるだけ効率的に明らかにすることが重要である。本発明は、膨大な遺伝子発現プロファイル情報に基づいて、遺伝子間の関連を効率的に見出すことができる手法を提供する。本発明によって遺伝子間の関連性を明らかにしていけば、多くの遺伝子によって構成される遺伝子ネットワークの構造を迅速に決定していくことができる。したがって本発明は、ポストシーケンス時代の新薬開発に大きく貢献する。

【図面の簡単な説明】
図１は、４つの遺伝子Ａ、Ｂ、Ｃ、およびＤからなる遺伝子ネットワークの例を示す図である。
図２は、がんに関連することが推測された４４遺伝子について、相関と偏相関をプロットした結果を示すグラフである。
図３は、仮想ゲノムを構成する４５遺伝子、並びにこの４５遺伝子中の任意の２１遺伝子からなるサブセットにおける偏相関を図示化したグラフである。
図４は、２０００の遺伝子の癌組織との相関の分布を示すグラフである。
図５は、偏相関係数の絶対値を遺伝子間の類似度とみなし、数量化ＩＶ類により得られた遺伝子の散布図である。線分は偏相関の絶対値が０．５以上の遺伝子対を結んでいる。
図６は、図５における原点付近の遺伝子の配置を示す散布図である。仮想遺伝子「ｃａｎｃｅｒ」が＋で表されている。
図７は、図６の散布図において、遺伝子にラベルをつけた図である。図の下に示した数値が、各遺伝子の第１軸と第２軸の成分を示す。
図８は、図６の散布図において、偏相関係数の絶対値が０．５以上の遺伝子対を線分で結んだ図である。
図９は、図６の散布図において、偏相関係数が０．５以上の遺伝子対を実線、−０．５以下の遺伝子対を点線で結んだ図である。
図１０は、偏相関係数とＡＰＣＲによる近似を示すグラフである。変数選択を伴う数量解析（ＡＰＣＲ２）によって得られた全体の関連性と、偏相関との関係を示す。縦軸はＡＰＣＲ２によって計算された偏相関係数を、横軸は各遺伝子間の偏相関係数を示す。
図１１は、真の偏相関係数に基づいて遺伝子間の関連を図示化した散布図である。
図１２は、近似偏相関係数（ＡＰＣＲ２）に基づいて遺伝子間の関連を図示化した散布図である。図の下に示した数値が、各遺伝子の第１軸と第２軸の成分を示す。

Claims

次の工程を含む、遺伝子間の関連を決定する方法。
１）複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
２）前記複数の遺伝子から２つの任意の遺伝子を選択して第１の遺伝子および第２の遺伝子からなる遺伝子ペアとする工程、
３）前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第１の遺伝子および第２の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
４）工程３）で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
５）工程４）によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
工程３）における前記遺伝子ペア以外の遺伝子が、前記遺伝子ペアを構成する第１の遺伝子および第２の遺伝子を除く全ての遺伝子である請求項１に記載の方法。
工程５）が、工程３）によって得られた複数のモデルにおける偏相関を赤池情報量基準に基づいて比較し、モデルを構成する前記第１の遺伝子および／または前記第２の遺伝子の発現に影響を与える任意の遺伝子を選択することによって行われる請求項１に記載の方法。
工程５）において、任意の遺伝子として最適なモデルを与える遺伝子を選択する請求項３に記載の方法。
工程３）が、前記モデルを構成する各遺伝子の発現レベルを変数として偏相関を求める工程からなる請求項１に記載の方法。
工程３）が、各遺伝子の発現レベルのベクトルを変数として偏相関を求める工程からなる請求項１に記載の方法。
構成遺伝子が異なる複数種の遺伝子ペアを選択し、各遺伝子ペアについて前記工程１）〜５）を繰り返すことを特徴とする請求項１に記載の方法。
前記複数の遺伝子の全ての組み合わせを前記第１の遺伝子、および第２の遺伝子からなる遺伝子ペアとして、前記工程１）〜５）を繰り返すことを特徴とする請求項７に記載の方法。
遺伝子の発現レベルが、ＤＮＡマイクロアレイに細胞に由来するｍＲＮＡ、またはｍＲＮＡから誘導されたポリヌクレオチドをハイブリダイゼーションさせることによって得られたものである請求項１に記載の方法。
遺伝子ペア、およびこの遺伝子ペアに関連する遺伝子として請求項１に記載の方法によって選択した遺伝子との相互の関連性と、その強さを座標情報に変換し、座標空間における距離によって遺伝子間の関連を示すことを特徴とする請求項１に記載の方法。
請求項１０に記載の方法によって得ることができる、複数の遺伝子について相互の関連の強さを座標空間における距離によって表現した遺伝子ネットワークマップ。