JPWO2002048915A1 - 遺伝子間の関連を検出する方法 - Google Patents
遺伝子間の関連を検出する方法 Download PDFInfo
- Publication number
- JPWO2002048915A1 JPWO2002048915A1 JP2002550559A JP2002550559A JPWO2002048915A1 JP WO2002048915 A1 JPWO2002048915 A1 JP WO2002048915A1 JP 2002550559 A JP2002550559 A JP 2002550559A JP 2002550559 A JP2002550559 A JP 2002550559A JP WO2002048915 A1 JPWO2002048915 A1 JP WO2002048915A1
- Authority
- JP
- Japan
- Prior art keywords
- gene
- genes
- pair
- expression
- partial correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Abstract
本発明の遺伝子の関連を見出す方法は、変数選択を伴う回帰分析を利用して偏相関係数を近似的に求めることによって、多くの遺伝子の中から第1の遺伝子および前記第2の遺伝子に対する、任意の第3の遺伝子の影響を除く工程を含む。本発明によれば、他の遺伝子の影響を受けることなく、第1の遺伝子と第2の遺伝子の関連を見出すことができる。DNAマイクロアレイによって得られた遺伝子の発現プロファイルの解析に有用である。
Description
技術分野
本発明は、遺伝子の発現プロファイルの解析方法に関する。
背景技術
ヒトをはじめとする幅広い生物のゲノムが明らかにされつつある。そして遺伝子を通して生物を理解するための研究は、塩基配列分析から、機能解析へとシフトしつつある。遺伝子の機能解析には、様々な手法が利用される。その中でも、遺伝子の発現プロファイルの解析は重要な手法である。
遺伝子の発現プロファイルは、特定の条件におかれた組織や細胞における複数の遺伝子の発現状態を把握することにより取得することができる。異なる組織や細胞の間で遺伝子の発現プロファイルを比較すれば、組織や細胞の違いを遺伝子の発現レベルの差として表現することができる。たとえば、正常細胞とがん細胞の間で発現レベルが変化する遺伝子は、がん化と関連している可能性がある。更に、さまざまな条件に置かれた細胞から得られた発現プロファイルの比較を通じて、遺伝子間の関連性を明らかにすることができる可能性がある。すなわち、ある遺伝子の発現の上昇が、他の遺伝子に対してどのように作用しているのかを推測することも可能である。
一方、ガラス支持体に高密度に配置したDNAによって、より多くの遺伝子の発現状態を効率的に検知する技術が実用化されている。DNAマイクロアレイ、あるいはDNAチップと呼ばれる分析デバイスには、数千〜数万種類におよぶ塩基配列がプローブとして配置されている。細胞から得られる遺伝子の集合体をDNAマイクロアレイにハイブリダイズさせ、シグナルを観察すれば、数千〜数万種類におよぶ遺伝子の発現状態を一度に知ることができる。こうして得られる発現プロファイルは、遺伝子の機能解析の材料として重要である。解析技術の進歩に伴って、生成するデータの量は飛躍的に増大し、効率的な解析手法の開発が必須となってきている。
クラスター分析によるcoregulationの推測を超えて、遺伝子間の関連を推定する手法が提案され始めている。遺伝子間の関連は、基本的にはノックアウト、pelement insertionなどの実験データにより直接的に測定することができる。ところが、このようなアプローチによって解析できる遺伝子の数は現在のところ限られており、ゲノム上における全遺伝子の間の関連を推定する方法としては現実的でない。
先に述べたDNAマイクロアレイを用いれば、膨大な量の遺伝子を対象として発現プロファイルを容易に得ることができる。DNAマイクロアレイが生成する膨大な発現プロファイルを解析すれば、遺伝子発現のデータに見られる相関関係を通して遺伝子間の関連を推定できる可能性がある。
2遺伝子間の関連を測るには、第3の遺伝子からの影響を取り除く必要がある。たとえば、式(1)で定義される偏相関係数を求めれば、第3の遺伝子の影響を除いた2遺伝子間の関連を評価することができる。式(1)において、rijは相関行列の逆行列におけるij要素を示す。
有意な関連を抽出し、有意に関連する節を結ぶグラフにより項目間の相互作用を表現する手法は、「グラフィカルモデリング」(宮田、朝倉書店,1997)等にも記載されている。ただ、前述のとおりDNAマイクロアレイで解析される遺伝子の数は膨大である。そのためDNAマイクロアレイによって得られた発現プロファイルを構成する遺伝子の中では、数百を越える遺伝子が関連している可能性が示唆されている[Spellman PT,Sherlock G,Zhang MQ,Iyer VR,Anders K,Eisen MB,Brown PO,Botstein D,and Futcher B.(1998)Comprehensive identification of cell cycle−regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization Mol.Biol.Cell 9:3273−3297]。
その結果、通常は対象とする遺伝子の数は実験(DNAマイクロアレイ)の数を大きく凌駕し、相関行列は退化してしまう。つまり、DNAマイクロアレイによる解析結果に基づいて、式(1)による解析に必要な相関行列を得ることは、事実上できないと言って良い。言い換えれば、数万に及ぶ遺伝子間の相互の関連性を、公知の解析方法によって見出すためには、ほとんど実現不可能な規模の実験を要することになる。
したがって、現実的な規模の実験によって得ることができる遺伝子発現プロファイルに基づいて、関連性を明らかにすることができる手法が求められている。遺伝子の解析技術は、急速な進歩を遂げている。現在のところ、DNAマイクロアレイは数千〜数万種類の遺伝子を解析の対象としている。更に、解析可能な遺伝子の数は、今後の技術開発によってますます増加することは明らかである。そのため、膨大な数の遺伝子について、できるだけ小規模な実験結果に基づいて、その中から効率的に遺伝子の関連性を見出すことができる技術の重要性は増している。
発明の開示
本発明は、遺伝子の発現プロファイルに基づいて、遺伝子の関連性を見出すための方法の提供を課題とする。より具体的には、多くの遺伝子の中から関連を有する遺伝子の組み合わせを、より少ない実験に基づいて、より効率的に見出すことができる方法を提供することが本発明の課題である。
遺伝子の発現プロファイルに基づいて、遺伝子の関連性を見出すとき、ある遺伝子の組み合わせにおける他の遺伝子の影響をいかにして排除するかが大きな課題になる。先に述べたように、数千〜数万の遺伝子の発現データを取り扱うDNAマイクロアレイにおいては、数百の遺伝子が相互に影響を与える状態にあることが示唆されている。つまり、任意の2つの遺伝子の間の関連性を評価しようとする場合、通常は、第3、第4の遺伝子の影響を考慮しなければならないはずである。
そこでFriedman N.et al(Using Bayesian netwoks to analyze expression data.Journal of Computational Biology,2000;7(3−4):601−20)は、Bayesian networkの手法をDNAマイクロアレイデータに適用した。この手法は、尤度比に基づいて確率的に遺伝子対のリンクを挿入・削除するもので、最終的に遺伝子間関連の事後分布を明らかにできるメリットを有する。しかし膨大な計算時間を必要とするため、それでなくても膨大なデータを処理しなければならないDNAマイクロアレイの解析に応用するには問題が多い。
本発明者らは、遺伝子の間の関連性を明らかにする過程において、2つの遺伝子の偏相関係数を近似的に求めることができれば、任意の2つの遺伝子の発現レベルに対して干渉する第3の遺伝子の影響を排除できるのではないかと考えた。偏回帰係数と偏相関係数の関係は、次に示す式(2)で表される(Stuart and Ord,Kendall’s advanced theory of statistics,fifth edition,volume 2:Classical inference and relationship,Edward Arnold,London,1991)。
本発明者らは、遺伝子の発現プロファイルの解析にこの式を適用するために、変数選択の工程を組み合わせることによって、現実的な規模の実験に基づいて遺伝子間の関連を容易に解析できることを見出し、本発明を完成した。本発明においては、たとえばDNAマイクロアレイにプローブとして配置された各遺伝子について、これを従属変数とした重回帰分析を行う。
更に変数選択を行って得られた偏回帰係数から、式(2)として偏相関係数を推定する。変数選択の工程には、AIC(Akaike H,A new look at the statistical model identification,IEEE Trans.Autom Contr.AC−19:716−723,1974)やBICを応用することができる。すなわち本発明は、以下の工程を含む遺伝子間の関連を検出する方法に関する。
〔1〕次の工程を含む、遺伝子間の関連を決定する方法。
1)複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
2)前記複数の遺伝子から2つの任意の遺伝子を選択して第1の遺伝子および第2の遺伝子からなる遺伝子ペアとする工程、
3)前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第1の遺伝子および第2の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
4)工程3)で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
5)工程4)によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
〔2〕工程3)における前記遺伝子ペア以外の遺伝子が、前記遺伝子ペアを構成する第1の遺伝子および第2の遺伝子を除く全ての遺伝子である〔1〕に記載の方法。
〔3〕工程5)が、工程3)によって得られた複数のモデルにおける偏相関を赤池情報量基準に基づいて比較し、モデルを構成する前記第1の遺伝子および/または前記第2の遺伝子の発現に影響を与える任意の遺伝子を選択することによって行われる〔1〕に記載の方法。
〔4〕工程5)において、任意の遺伝子として最適なモデルを与える遺伝子を選択する〔3〕に記載の方法。
〔5〕工程3)が、前記モデルを構成する各遺伝子の発現レベルを変数として偏相関を求める工程からなる〔1〕に記載の方法。
〔6〕工程3)が、各遺伝子の発現レベルのベクトルを変数として偏相関を求める工程からなる〔1〕に記載の方法。
〔7〕構成遺伝子が異なる複数種の遺伝子ペアを選択し、各遺伝子ペアについて前記工程1)〜5)を繰り返すことを特徴とする〔1〕に記載の方法。
〔8〕前記複数の遺伝子の全ての組み合わせを前記第1の遺伝子、および第2の遺伝子からなる遺伝子ペアとして、前記工程1)〜5)を繰り返すことを特徴とする〔7〕に記載の方法。
〔9〕遺伝子の発現レベルが、DNAマイクロアレイに細胞に由来するmRNA、またはmRNAから誘導されたポリヌクレオチドをハイブリダイゼーションさせることによって得られたものである〔1〕に記載の方法。
〔10〕遺伝子ペア、およびこの遺伝子ペアに関連する遺伝子として〔1〕に記載の方法によって選択した遺伝子との相互の関連性と、その強さを座標情報に変換し、座標空間における距離によって遺伝子間の関連を示すことを特徴とする〔1〕に記載の方法。
〔11〕〔10〕に記載の方法によって得ることができる、複数の遺伝子について相互の関連の強さを座標空間における距離によって表現した遺伝子ネットワークマップ。
本発明は、次の工程を含む、遺伝子間の関連を決定する方法である。
1)複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
2)前記複数の遺伝子から2つの任意の遺伝子を選択して第1の遺伝子および第2の遺伝子からなる遺伝子ペアとする工程、
3)前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第1の遺伝子および第2の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
4)工程3)で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
5)工程4)によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
本発明において、複数種の細胞とは、由来や処理条件など、なんらかの点で相違がある少なくとも2種類の細胞を言う。たとえば、異なる組織に由来する細胞や、由来は同一であっても異なる培養条件や処理条件を与えた細胞等を例示することができる。一般に細胞の種類をできるだけ多くすることにより、その解析結果の統計学的な意味を高めることができる。したがって、できるだけ多くの細胞種について遺伝子の発現レベルを測定することが望ましい。
たとえば本発明によって遺伝子の関連を検出するとき、2種類以上、望ましくは更に多くの細胞について遺伝子の発現レベルを測定することにより、解析結果の統計学的な意味を高められる。望ましい細胞の数は、扱う遺伝子の数よりも個々の遺伝子に本質的に影響を与える遺伝子の数により規定される。たとえば、影響を与える遺伝子の数kが比較的大きいときは、統計学的に意義のある解析を行うために望ましい細胞の数として、(k/2)2を一つの目安とすることができる(坂元慶行・石黒真木夫・北川源四郎(1983)「情報量統計学」p.63)。
なお本発明において種類の異なる細胞とは、ある条件のみにおいて相違があり、その他の条件はできるだけ同一とすることが望ましい。具体的には、癌と正常細胞との間で遺伝子の発現状態を比較するときには、特定の臓器を対象とし、同種の癌細胞と正常細胞を多く集めることが求められる。
たとえば直腸癌であれば、正常細胞としては正常な直腸組識を多くの被験動物から集める。一方、癌細胞についても、できるだけ同じ部位に生じた同種の癌細胞を集めて、両者の遺伝子の発現状態を比較するのが好ましい。あるいは、特定の培養条件のみ相違させた同一の細胞を、本発明における複数種の細胞として用いることもできる。
本発明において、複数種の遺伝子とは、2以上の遺伝子を意味する。本発明では、多くの遺伝子の発現データの中から、ある2つの遺伝子に対して影響を与えている第3の遺伝子の存在と、その関連性の強さを評価することができる。解析の対象とする遺伝子の数は制限されない
多くの遺伝子について発現レベルを効率的に測定するには、DNAマイクロアレイを利用するのが有利である。DNAマイクロアレイは、ガラスなどの支持体上に、多くのDNAを高密度に集積した分析デバイスである。支持体上に固定されるDNAは、化学的に合成したもの、あるいはcDNAライブラリー等が用いられる。細胞で発現している遺伝子の発現レベルを知るには、DNAマイクロアレイを利用してたとえば次のような測定が行われる。
まず各細胞のmRNAをもとにcDNAを合成し、更にこのcDNAを鋳型としてcRNAに転写する。cDNAを合成するときにRNAポリメラーゼが認識するプロモーターを連結しておけば、cRNAへの転写は容易に行うことができる。このとき、cRNAを標識しておく。そして標識cRNAをDNAマイクロアレイにハイブリダイズさせ、両者のハイブリダイズを標識によって検出する。異なる細胞に由来するcRNAを異なる色の蛍光色素で標識しておけば、複数種の細胞について同時に測定することもできる。
現在市販されているDNAマイクロアレイは、1枚のスライド上に数千〜数万種類のDNAを配置している。しかし本発明における解析の対象は、これらの市販のDNAマイクロアレイが有しているDNAの数に限定されない。より高密度のDNAマイクロアレイや、多種類のDNAマイクロアレイを用いて得られた、より規模の大きな測定結果であっても、本発明によって解析することができる。また、市販のDNAマイクロアレイのみならず、カスタムメイドやアレイヤーを用いて自作されたDNAマイクロアレイを利用しうることは言うまでもない。
本発明において、遺伝子の発現レベルとは、ゲノム等に記録されている遺伝情報がmRNAに転写された量を意味する。mRNAの量は、ポリヌクレオチドとしてDNAマイクロアレイや、定量的PCR等により、塩基配列特異的に測定することができる。あるいは、mRNAがコードする蛋白質の量として、プロテオーム解析により測定することもできる。
さて、ある細胞について複数の遺伝子の発現レベルを測定した結果は、一般に発現プロファイルと呼ばれる。したがって、本発明において解析の対象とするデータは、遺伝子の発現プロファイルに他ならない。
遺伝子発現プロファイルは、必ずしも、解析のたびに現実の実験データとして収集する必要はない。たとえば、複数の施設で、同じDNAマイクロアレイを利用して、一定の条件のもとで各種の細胞の遺伝子発現プロファイルを収集し、そのデータを施設間で共有することもできる。このようなデータは、インターネットを利用して共有するのが有利である。インターネットを利用することにより、発現プロファイルを得るためのプロトコルと、それによって得られたデータを世界的なレベルで共有することができる。
こうして集積されたデータをサンプルとして、本発明による遺伝子の関連を検出する方法を適用することができる。世界中で得られた発現プロファイルを集約し、遺伝子間の関連を表すネットワークマップとして提供することもできる。
本発明においては、まず前記複数種の遺伝子から選択された、任意の2つの遺伝子からなる遺伝子ペアに対して、その発現プロファイルを構成する発現レベル情報に基づいて解析が進められる。ここで選択される2つの遺伝子は任意である。選択された遺伝子の一方を仮に第1の遺伝子、他方を第2の遺伝子とし、両者の関連性を明らかにする。このとき、2つの遺伝子に対するその他の遺伝子の干渉を明らかにするために、本発明においては、変数選択を伴う回帰分析を利用して両者の偏相関を近似的に求める。偏相関とは、2つの変数に干渉する第3の変数の影響を排除した、2つの変数の相関を言う。この工程によって、前記遺伝子ペアの間の、真の関連性が近似的に明らかにされるとともに、遺伝子ペアに影響を与える第3の遺伝子の存在とその関連性の強さを知ることができる。この工程は、たとえば次のようにして行うことができる。
まず偏相関の解析には、林によって構築された数量化理論IV類(Hayashi C.,On the prediction of phenomina from mathematical statistic point of view.,Ann.Inst.Stat.Math.,3:69−98,1950)が応用されている。数量化理論(quantification theory)とは、定性的変数に関する多変量解析である。数量化理論IV類では、ある個体の集団と、その集団内の任意の2つの個体間の親近性を示す数値の行列が与えられている場合、各個体をグループに分類することができる数量を個体に対して付与する手法である。
数量化理論IV類を遺伝子の発現レベルの解析に応用するために、遺伝子集団における任意の2つの遺伝子間の相関係数と回帰係数とからなる行列を想定する。2つの遺伝子の間の偏相関係数rijは、下記式(3)によって推定することができる。
ただし、式中、bijは第1の遺伝子を従属変数としたときの第2の遺伝子の偏回帰係数を、bjiは、第2の遺伝子を従属変数としたときの第1の遺伝子の偏回帰係数を表す。
本発明において偏相関を求めるための第1の方法として、遺伝子ペア、および第3の遺伝子の発現レベルを従属変数とする変数選択を伴う回帰分析を行う方法を示すことができる。本発明者らは、この方法を仮に近似的回帰偏相関2(Approximate Partial Correlation with Regression、以下APCR2と省略する)と呼んでいる。APCR2によれば、複数の遺伝子がn個からなるとき、この全ての遺伝子について偏相関を求めるには、変数選択を伴う回帰分析をn回行うことになる。
その結果、様々な遺伝子を第3の遺伝子としたときの、遺伝子ペアの偏相関が明らかにされる。高い偏相関が見出された場合には、その遺伝子ペアを構成する遺伝子には関連があると推定される。この処理は、ある遺伝子について、その発現を他の遺伝子の発現から予測することを考え、予測力を高めることに寄与する遺伝子を拾い上げることに他ならない。つまり、遺伝子Aの発現の予測に遺伝子Bの発現の情報が寄与し、また逆に遺伝子Bの発現の予測に遺伝子Aの発現の情報が寄与すると認められたときに、これらの間に関連があるとみなされる。どちらか一方でも寄与が認められないときは、偏相関係数の推定は0となる。
本発明において偏相関を求めるための方法として、遺伝子ペアを構成する第1の遺伝子および第2の遺伝子に対して、それらの発現yA,yBの両者からなるベクトル(yA,yB)を従属変数とする多次元の回帰分析を適用することもできる。本発明者らは、この方法を仮に近似的回帰偏相関1(Approximate Partial Correlation with Regression、以下APCR1と省略する)と呼んでいる。APCR1では、説明変数の回帰係数も第1の遺伝子に対するものと、第2の遺伝子に対するものの2次元ベクトルとなる。回帰モデルの残差もyAに対する残差およびyBに対する残差の2次元である。そして、yAとyBの相関をもって偏相関係数の推定値とする。このとき、実際には、残差項の間の分散共分散と回帰係数は同時に推定される。偏相関係数は、文字どおり他の遺伝子からの影響を排除した後の相関に他ならないためである。
ただ、APCR1はAPCR2に比べて個々の回帰分析は複雑である。またn個の遺伝子の解析のために、n回ではなく、n(n−1)/2回の変数選択を伴う回帰分析を行う必要があることから、多くの遺伝子を分析の対象とするときは、計算量が増えてしまう。したがって、APCR2は、本発明における偏相関を求めるための手法として望ましい。
以上のようにして得ることができる遺伝子ペアの偏相関は、選択された2つの遺伝子の間の関連性を近似的に表し、その他の遺伝子の干渉は無視することができる。更に本発明は、遺伝子ペアの偏相関を明らかにすると同時に、この遺伝子ペアに対する関連性が疑われる第3の遺伝子の存在と、その関連性を明らかにする工程を含む。この工程は、この遺伝子ペアに対して、任意の遺伝子を3つめの変数として与えた場合の偏相関を評価し、複数の遺伝子から選択された1つの任意の遺伝子のうち、前記遺伝子ペアに対する関連性が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択することにより行われる。遺伝子ペアに対する関連性は、その偏相関に与える影響の大きさを比較することによって評価することができる。
遺伝子の発現レベルの変化は、2者の遺伝子の関連のみで説明できることは稀で、通常、いくつかの複数の遺伝子が相互に影響を与え合う遺伝子ネットワークを構成している。したがって、2者の関係のみを明らかにしても、遺伝子ネットワークの全体像を見ることはできない。本発明においては、2者の遺伝子の関連を見出す過程において、その2者に対して影響を与えている可能性が高い遺伝子の存在を明らかにする工程を含む。
偏相関とは、第3の変数の影響を排除した2つの変数の間の相関を意味する。したがって、偏相関を明らかにすることは、第3の変数の影響を明らかにすることに他ならない。本発明においては、第3の変数が第3の遺伝子の影響に相当する。より具体的には、ある遺伝子ペアに対して、第3の遺伝子を想定して偏相関係数を導く。第3の遺伝子として、たとえば発現プロファイルを構成する全ての遺伝子を想定したときには、発現プロファイル内の遺伝子のそれぞれについて、この遺伝子ペアに与える影響の大きさを定量的に比較することができる。影響を与える可能性が高いと推定された遺伝子を選択して、3者の関連性が明らかにされる。
この工程には、たとえば赤池情報量基準(以下、AICと省略する)や、BICと呼ばれる解析手法を利用することができる。AICは、式『AIC=−2x(最大対数尤度)+2x(自由パラメータ数)』に基づいて複数のパラメトリック・モデルから、適切なモデルを選択する手法である(Akaike H.Anew look at the stractual model identification,IEEE Trans.Autom.Countr.,AC−19:716−723,1974)。
本発明におけるモデルとは、ある遺伝子ペアに任意の遺伝子を組み合わせて構成される。本発明においては、ある遺伝子ペアに対して任意の遺伝子を与えて、各モデルごとに近似偏相関が求められる。候補となるモデル毎にAICを計算し、その値が最小となるモデルが最適なモデルとして選択される。本発明においては、最大対数尤度はAPCR2では定数項を除き
によって求められる。ei(i=1,...,n)はモデルの残差である。またモデル比較の対象となる自由パラメータの数は説明変数の数、すなわち当該遺伝子対に影響を与える遺伝子の数である。APCR1においては、最大対数尤度は、残差項の分散行列Vを用いて
回帰係数が2次元ベクトルとなるため、モデル比較の対象となる自由パラメータの数は当該遺伝子対に影響を与える遺伝子の数の2倍となる。本発明で選択されるモデルとは、遺伝子ペアに対する、任意の遺伝子の関連性である。AICによって選択される最適なモデルは、遺伝子ペアに対して最も関連性の強い遺伝子の組み合わせを意味する。AICの順に遺伝子を選択すれば、その遺伝子ペアに与える影響の大きいものを、大きさの順に選択することができる。
以下に偏相関から導かれる遺伝子ペアに対する第3の遺伝子の関連性の強さをAICに基づいて評価する方法を具体的に述べる。ここでは予測力に基づいて変数選択する。予測力とは、ある変数(任意の遺伝子)が他の変数(遺伝子ペア)の予測において、どの程度貢献するかを表すための指標である。遺伝子間の関連性を明らかにする上で重要なことは、ある遺伝子ペアに対する予測力の大きな遺伝子を見逃さないことである。本発明においては、予測力の大きな遺伝子が、関連の強い遺伝子として選択される。予測力が最大となる1つの遺伝子を選ぶときは相関関係を下に、その遺伝子と最も大きな相関係数の絶対値を持つ遺伝子を選択する。
2つ目以降については相関係数の代わりに重相関係数を用いる。一般に説明変数が多いほどデータへの適合度は向上する。しかし一方でデータの持つ情報の量を越えて多くの遺伝子を説明変数に取り込むと、回帰係数の推定精度は悪くなる。予測力を表現するAICにより、データへの適合度と回帰係数の推定精度のバランスが勘案され、限られた実験数に見合った遺伝子対の関係が推定される。
本発明の方法をDNAマイクロアレイによって得られた発現プロファイルに適用するときには、一般的にDNAマイクロアレイの数が少ないときは、大きな影響力を与える遺伝子の間のみの関連を拾うことになる。DNAマイクロアレイの数が多くなるにつれて、影響力がそれほど大きくない遺伝子の影響も考慮されるようになる。選ばれる遺伝子の数はDNAマイクロアレイの数に大きく依存し、解析対象となる遺伝子の数にはあまり依存しない。
ちなみに、AICはデータへの適合度を表現する最大対数尤度からモデルに含まれるパラメータの数を引いたもので定義され、これが予測力の偏りのない統計量であることが証明されている(Akaike H.A new look at the stractual model identification,IEEE Trans.Autom.Countr.,AC−19:716−723,1974)。
遺伝子発現の相関関係には、直接的な関係のみでなく第3の遺伝子による間接的な関係も相俟って含まれており、遺伝子ネットワークにおいては前者を抽出する必要がある。図1は遺伝子A〜Dの間のネットワークを示しているが、そこでは遺伝子Cは遺伝子A、遺伝子Bをregulateし、さらに遺伝子Bは遺伝子Dをregulateしている。直接間接にこれらは関連し合っているため、遺伝子A〜Dはいずれも遺伝子発現の相関を持つ。すなわち、クラスター分析などでは同一のクラスターに属することになる。
この図ではたとえば仮に遺伝子Bの発現を制御できれば遺伝子Dの発現に関しては遺伝子Aと遺伝子Cの発現には配慮しなくても良いことになる。同様に、遺伝子Aと遺伝子Bは共通の遺伝子Cに影響されているため見かけ上の相関を持つが、直接的な関係はない。直接的な関係は偏相関係数により算出することができる。4遺伝子の間の相関行列に対する逆行列を
rt,A.,and Ord,J.K.,Kendall’s advanced theory of statistics,fifth edition,volume 2:Classical inference and relationship,Edward Arnold,London,1991.)。
遺伝子Aと遺伝子Bの間、遺伝子Cと遺伝子Dの間の偏相関係数は確率的な誤差を除くと0となり、矢印で結ばれた直接的な関係を持つ遺伝子対のみが0でない偏相関係数を持つこととなる。(ただし、偏相関係数により矢印の向き、すなわち因果関係を推定することはできない。因果関係の推定のためには、時間的前後関係を考慮に入れた時系列データの解析、あるいはノックアウト系の解析が必要となる。)なおここで、仮に図中楕円で囲まれた3遺伝子A,B,Dのみを解析対象とし、偏相関係数を計算すると、遺伝子Aと遺伝子Bの偏相関係数は一般に0にはならない。遺伝子ネットワークの推定には、関連する遺伝子はすべて解析対象とすることが不可欠である。
ところで、マイクロアレイデータの解析では多くの場合、分析の対象となる遺伝子の数が実験(細胞)の数を大幅に上回る。この場合は、相関行列は退化し逆行列を持たないため、偏相関係数を計算することができない。そこで、変数選択を伴う回帰分析により偏相関係数を近似的に求める。まず基本的な公式として次の結果が知られている。
図1に即して説明することにし、各遺伝子の発現プロファイルを
とする。nは細胞の数である。
まず、遺伝子Aの発現量を他の3遺伝子B,C,Dの発現量で回帰する回帰式
すると、(12)式の切片は消え、
となる。
規準化変量による回帰分析の回帰係数は偏回帰係数と呼ばれるが、これは(1
同様に遺伝子B,C,Dの発現量を他の遺伝子に回帰することにより、偏回帰係数のセット
が得られる。
他の遺伝子対についても同様である。符号を考えると、
となる。
こうして、偏相関係数の推定は各遺伝子の発現量を他の全遺伝子の発現量に回帰したときの偏回帰係数を推定することに帰着される。
ところで先に述べたように、マイクロアレイデータの場合は通常実験数が遺伝子数を大きく下回っているため、各遺伝子の発現量を他の全遺伝子の発現量に回帰することはできない。そこで、変数増加法あるいは変数増減法により変数選択を行う。
選択の規準としては
で定義される赤池情報量規準(AIC)を採用する。これは予測誤差を表現するもので、遺伝子発現の予測力を高めることに貢献する遺伝子を拾って行くことになる。これがAPCR2である。
いまの例で仮に変数選択の結果推定された4つの回帰式が
のようになったとする。
これより偏回帰係数の行列が
のように得られる。
これよりたとえば遺伝子Aと遺伝子Bの間の偏相関係数は
また遺伝子Aと遺伝子Bの間の偏相関係数は
などと計算され、最終的に偏相関行列が
として求められる。
遺伝子の数mだけ回帰分析を実行し、それぞれにおいて変数選択を行うため大きな計算量となる。
このため、数千の遺伝子について変数選択の候補を予め従属変数との相関係数が絶対値である値(たとえば0.2)以上に限定することにより、計算時間が大幅に短縮される。
これに対してAPCR1は、図1に戻り説明すると、遺伝子Aの発現量と遺伝子Bにおける発現量の間の偏相関係数を多次元の回帰式
におけるεABとεBAの間の相関係数により評価する。
数多くの遺伝子を分析対象とする一般のマイクロアレイデータにおいては、APCR2同様、AICに基づき変数選択を行う。今度は多次元であることに伴い、AICは
となる。
さらに、εABとεBAの間の相関係数が0というモデルも比較し、偏相関が0か否かを判定することもできる。APCR2が偏回帰係数と偏相関係数を結びつける基本式を用いて間接的に偏相関係数を求めたのに対し、APCR1は偏相関係数の直接的な評価を与える。しかし、解析対象となる遺伝子から2遺伝子をとる場合の数、すなわちm(m−1)/2回だけ変数選択を伴う回帰分析を実行し、それぞれが多次元の回帰分析であるため、APCR2の方が計算量の点においては有利である。
更に、AICのほか、偏相関に基づいて、遺伝子ペアに関連する可能性が高い遺伝子の集合を求めることができる。たとえば、1/2xlog((1+r)/(1−r))が、分散1/(n−3)の正規分布に従うことが知られている。偏相関係数rについても同様に、この値が絶対値でd=1.96√(1/(n−3))より大きい、すなわち|r|>|(1−exp(2d))/(1+exp(2d))|であるときは5%で有意として、関連性のある遺伝子を選択することもできる。
以上のような過程を、その発現プロファイルを構成する複数の遺伝子に対して適用すれば、やがてその発現プロファイルに基づく、遺伝子間の最も適切な関連性が導かれる。こうして得られる複数の遺伝子の関連性は、遺伝子ネットワークとして表すことができる。本発明において遺伝子ネットワークとは、複数の遺伝子の間の関連性を相互に結びつけたものである。遺伝子ネットワークは、遺伝子間の関連性の向きと、強さによって定義される。遺伝子の関連性の向きとは、発現の刺激(up regulation)と抑制(down regulation)を示している。一方、関連の強さは、発現の刺激または抑制の強さを意味している。通常、この過程は、発現プロファイルを構成する全ての遺伝子を対象として行うことが望ましい。
また、本発明における発現プロファイルは、明らかにすべき遺伝子ネットワークの全体をカバーするものであることが望ましい。したがって、ある生物における遺伝子の関連を明らかにするには、その生物の全ゲノムに含まれる全ての遺伝子の発現プロファイルに基づいて、本発明の解析方法を適用するのが理想である。しかしながら、最も重要な解析対象であるヒトでは、遺伝子の全体像は完全には把握できていない。また、その数は膨大であり、発現プロファイルの集積そのものが大きな課題である。このような場合には、たとえば数千〜数万の主要な遺伝子について調べられた発現プロファイルを対象として、本発明の解析方法を適用することも十分な意義がある。
このような解析を通じて導かれる遺伝子ネットワークは、部分的な発現プロファイルを構成する遺伝子の、最も合理的な関連性を記述している。したがって、この遺伝子ネットワークに基づいて推定される遺伝子間の関連性は、その後の遺伝子の機能解析の指標として重要な情報を与えることになる。たとえばある遺伝子の機能を解明するときに、その遺伝子に関連する他の遺伝子の候補を、遺伝子ネットワークから絞り込むことができる。
他方、全ての遺伝子、あるいは真の遺伝子の全体像に近いものを対象として得られた発現プロファイルを解析すれば、本発明によって理想的な解析を行うことができる。こうして明らかにされた遺伝子ネットワークは、発現プロファイルを取得した細胞における遺伝子ネットワークを、最も合理的に表している。したがって、この遺伝子ネットワークを通じて、たとえば以下のような情報を予測することができる。
ある遺伝子の制御に重要な遺伝子
ある遺伝子を抑制したときに影響を受ける遺伝子
ある遺伝子の発現が亢進したときに影響を受ける遺伝子
このような情報に基づいて、それを裏付けるための実験を行えば、遺伝子の機能解析を極めて効率的に進めていくことができる。あるいはアポトーシスやがん化といった、注目される細胞機能に関連することが明らかにされている遺伝子を中心にして遺伝子ネットワークを解析すれば、これらの細胞機能に関わる新たな因子や、新たな関係を予測することもできる。更に、こうした予測に基づく実験を重ねていけば、遺伝子ネットワークの信頼性を更に高めていくことにもなる。
本発明においては、遺伝子間の関連を座標に変換し、図示化することができる。図示化することにより、推定された遺伝子間ネットワークの全体像をつかむことができる。図示化においては、遺伝子間の関連を表現する線分が過度に交叉しないよう、遺伝子を適当に配置することが大切である。多次元尺度構成(Borg,I.and Groenen,P.Modern Multidimensional Scaling:Theory and Applications,Springer−Verlag,1997.)は対象間の距離をよく反映するように、対象を配置する。いまの場合は偏相関係数の絶対値が大きい遺伝子対は関連性が強いとみなすことができるため、これを遺伝子間の親近度として数量化IV類を適用する(Hayashi,C.On the prediction of phenomina from mathematical statistic point of view,Ann.Inst.Stat.Math.,3:69−98,1950.)。
すなわち、偏相関係数の絶対値
を下に、
を最小化することにより遺伝子のx座標の成分
を求める。
の重みが重く、対応する遺伝子対は近くに配置されることになる。
散布図においては相対的な位置関係だけが問題になるため、
という制約条件をつける。
これは散布図の重心が原点にあり、さらにスケールを規準化することを意味する。y座標の成分も上の制約条件に加えて散布図が無相関となるよう制約を課して(33)式を最小化することにより計算される。これは固有値問題に帰着する。一般に、多くの遺伝子と関連している遺伝子は図の原点近くに位置し、他とあまり関連のない遺伝子は図中縁に位置することになる。z座標以降も同様にして求められる。
加えて本発明は、本発明による遺伝子の関連を検出する方法を実施するためのプログラムを提供する。本発明のプログラムは、先に述べたアルゴリズムを実行する各ステップで構成される。また本発明は、本発明のプログラムを記録した情報記録媒体を含む。
発明を実施するための最良の形態
以下、本発明を実施例により具体的に説明するが、本発明はこれら実施例に制限されない。
1.遺伝子間の関連の検出
Alon et alは結腸癌の組織細胞における発現プロファイルを正常細胞のそれと対比分析した(Alon,U.,Barkai,N.,Notterman,D.A.,Gish,K.,Ybarra,S.,Mack,D.,and Levine,A.J.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonuc leotide arrays,Proc.Natl.Acad.Sci.USA,96:6745−6750,1999.)。このデータを数値例として用い、ゲノムの一部のみから遺伝子間の関係を見るときの偏り、およびここでの変数選択を伴う回帰分析による偏相関の推定の精度を調べた。
評価においては真の偏相関を知る必要があるが、上述した理由により全遺伝子について偏相関行列を得ることはできない。そこで、癌組織と正常組織の間で発現に差のある44の遺伝子を選んだ。更にこれらの遺伝子に、癌組織のみで確率1で発現する仮想遺伝子を加えた計45遺伝子からなる仮想ゲノムを考える。解析の対象とした遺伝子と、62の組織における各遺伝子の発現レベルを表4〜表7に示した。表中、名前がTで始まる細胞は腫瘍組織を、名前がnで始まる細胞は正常組織である。
ここでの偏相関係数は、これらの遺伝子以外からの寄与を考慮に入れていないため、45遺伝子からなるゲノムを考えたときの仮想的な遺伝子間関係を表現している。すなわち、この実施例における真値とは、この45遺伝子をサンプルとして得られた結果である。
まず図2からは、相関係数と偏相関係数が全く異なることが明らかである。これは2遺伝子の相関にはそれらの間の直接的な関係の他に第3の遺伝子からの間接的な影響が関与しており、その大きさが遺伝子の対により異なるためである。
図3は45遺伝子からランダムに21遺伝子を選び、これらの間の相関行列を下に偏相関を求めて真値と比較したものである。図2と同様に、部分サンプル以外の遺伝子の影響を受けて、ここで計算された偏相関係数は真の相関係数をよく捉えていない(r=0.137)。従って、各遺伝子対の直接的な関係を測る上で、他の遺伝子からの寄与を漏れなく測ることが重要であることがわかる。変数選択を伴う回帰分析はこうした考え方に基づき、それぞれの遺伝子に大きく関連するものを全ゲノムから漏れなく抽出し、偏相関の計算においてはその影響を取り除こうとするものである。
図10は、多くの弱い偏相関を持つ遺伝子対は、偏相関0と評価され、強い関連を持つものについては正しく相関を言い当てていることを示している。遺伝子ごとにそれと関係する遺伝子は異なっていても、この近似が良いことを示している。
2.図示化
本発明に基づいて明らかにされた遺伝子間の関連は、図示化することにより、その全体像を容易に把握することができる。以下に、先に明らかにされた遺伝子間の関連性を図示化する工程を述べる。
ここでは例示のため、Alon et al(1999)からとられた2000の遺伝子のうち、癌組織と相関を持つものについて遺伝子間ネットワークを図示化する。図4は癌組織と遺伝子発現の相関の分布を表しているが、多くの遺伝子は絶対値にして0.4以下であることが見て取れる。細胞の数が62であるため、癌組織との相関が絶対値で0.42以上であった遺伝子44個、それに癌組織上で1、正常細胞で0の発現をする仮想遺伝子「cancer」を加え、計45遺伝子(表1)を分析した。なお、2000遺伝子がすでにゲノムの一部であることから、ここで得られたネットワークはあくまでもモデルである。
図5は偏相関係数の絶対値を遺伝子間の類似度とみなし、数量化IV類により得られた遺伝子の散布図である。45遺伝子における(45×44)/2=990組の遺伝子対の偏相関係数すべてを用いて散布図を作成した後、偏相関係数の絶対値が0.5以上の遺伝子対を線分で結んだ結果を示す。これら遺伝子対のリストは表2に挙げられている。
図6〜図9は図5の原点付近を拡大したものである。図6に対して図7は遺伝子にラベルを張り、図8では偏相関の絶対値が0.5以上の遺伝子対を線分で結んだ。さらに図9では、正の関係と負の関係を区別するために、前者は実線で、後者は点線で結んでいる。
3.変数選択を伴う回帰分析(APCR)により得られた偏相関係数
図10はAPCR2により計算された偏相関係数を真の偏相関係数と対比させたものである。990の遺伝子対のうち700対(70.7%)は偏相関0、すなわち予測力を高めるほどの関連はないと判断された。これらの偏相関係数は−0.473と0.443の間で、比較的小さい。
これらを除いた290遺伝子対については、APCR2により得られた値と真の偏相関係数と相関は0.967であった。表3には表2と対応して、絶対値において0.5以上の偏相関係数を持つ遺伝子対が表示されている。真のそれに比べて少なめであるが、関連の強い多くの遺伝子対が検出されていることが見て取れる。図11、および図12はこれら2つの図示化されたネットワークの原点付近の配置を示している。ネットワークの構造は似ているにも係わらず、見た目の印象がかなり異なる。これは近似する固有値に対する固有ベクトルの回転の自由度と関連している。複数のネットワークの構造を比較する場合には、それらの類似性、異質性を直接検出するような図を描くための工夫が必要である。
産業上の利用の可能性
本発明によれば、膨大な遺伝子の数を対象とした数少ない実験結果に基づいて、多くの遺伝子の間の、より真実の姿に近い関連性を見出すことができる。本発明では、ある遺伝子の発現レベルに影響を与えたり、あるいは逆にある遺伝子の発現に対して影響を受けているといった、遺伝子間の関係を、効率的に見出すことができる。
高密度DNAマイクロアレイを用いた発現プロファイル解析においては、実験の数が少なくても、桁違いに膨大な遺伝子発現データが生成される。このような膨大なデータの解析には、効率的であると同時に、少ないデータから真実を明らかにすることができる解析アルゴリズムが必須である。本発明による遺伝子の関連を検出する方法は、このような膨大なデータの効率的で正確な解析を実現する有用な方法である。
また本発明の原理は、真の遺伝子間の関係を近似することによって、効率的な解析を実現している。したがって、遺伝子間の関係が密接なものほど、優先的に見出される。このことは、遺伝子ネットワークの解析において、より本質的な遺伝子間の関係の効率的な解明につながる。
遺伝子の間の関連性は、新薬の開発や既に実用化されているものを含めたあらゆる薬剤の薬理作用を解明する上で重要な情報である。かつては、病態を形成する遺伝子のネットワークを明らかにすることは、治療薬の開発の重要なテーマの一つと認識されながら、実際には極めて難しいこととされていた。しかし、今やゲノムの解析が完了しようとしている。つまり、ネットワークを構成する構成員の全体像が明らかにされつつあると言って良い。この成果をもとに、各構成員の関連性を明らかにすることができれば、遺伝子間の関連をネットワークとして理解することができる。
ゲノム解析を完了した後に展開される薬剤の研究開発は、常に病態と遺伝子の関係を見据えて進められるようになっていくと考えられる。そのためには、ゲノムという遺伝子の全体像の中で、標的となる病態を形成している遺伝子ネットワークをできるだけ効率的に明らかにすることが重要である。本発明は、膨大な遺伝子発現プロファイル情報に基づいて、遺伝子間の関連を効率的に見出すことができる手法を提供する。本発明によって遺伝子間の関連性を明らかにしていけば、多くの遺伝子によって構成される遺伝子ネットワークの構造を迅速に決定していくことができる。したがって本発明は、ポストシーケンス時代の新薬開発に大きく貢献する。
【図面の簡単な説明】
図1は、4つの遺伝子A、B、C、およびDからなる遺伝子ネットワークの例を示す図である。
図2は、がんに関連することが推測された44遺伝子について、相関と偏相関をプロットした結果を示すグラフである。
図3は、仮想ゲノムを構成する45遺伝子、並びにこの45遺伝子中の任意の21遺伝子からなるサブセットにおける偏相関を図示化したグラフである。
図4は、2000の遺伝子の癌組織との相関の分布を示すグラフである。
図5は、偏相関係数の絶対値を遺伝子間の類似度とみなし、数量化IV類により得られた遺伝子の散布図である。線分は偏相関の絶対値が0.5以上の遺伝子対を結んでいる。
図6は、図5における原点付近の遺伝子の配置を示す散布図である。仮想遺伝子「cancer」が+で表されている。
図7は、図6の散布図において、遺伝子にラベルをつけた図である。図の下に示した数値が、各遺伝子の第1軸と第2軸の成分を示す。
図8は、図6の散布図において、偏相関係数の絶対値が0.5以上の遺伝子対を線分で結んだ図である。
図9は、図6の散布図において、偏相関係数が0.5以上の遺伝子対を実線、−0.5以下の遺伝子対を点線で結んだ図である。
図10は、偏相関係数とAPCRによる近似を示すグラフである。変数選択を伴う数量解析(APCR2)によって得られた全体の関連性と、偏相関との関係を示す。縦軸はAPCR2によって計算された偏相関係数を、横軸は各遺伝子間の偏相関係数を示す。
図11は、真の偏相関係数に基づいて遺伝子間の関連を図示化した散布図である。
図12は、近似偏相関係数(APCR2)に基づいて遺伝子間の関連を図示化した散布図である。図の下に示した数値が、各遺伝子の第1軸と第2軸の成分を示す。
本発明は、遺伝子の発現プロファイルの解析方法に関する。
背景技術
ヒトをはじめとする幅広い生物のゲノムが明らかにされつつある。そして遺伝子を通して生物を理解するための研究は、塩基配列分析から、機能解析へとシフトしつつある。遺伝子の機能解析には、様々な手法が利用される。その中でも、遺伝子の発現プロファイルの解析は重要な手法である。
遺伝子の発現プロファイルは、特定の条件におかれた組織や細胞における複数の遺伝子の発現状態を把握することにより取得することができる。異なる組織や細胞の間で遺伝子の発現プロファイルを比較すれば、組織や細胞の違いを遺伝子の発現レベルの差として表現することができる。たとえば、正常細胞とがん細胞の間で発現レベルが変化する遺伝子は、がん化と関連している可能性がある。更に、さまざまな条件に置かれた細胞から得られた発現プロファイルの比較を通じて、遺伝子間の関連性を明らかにすることができる可能性がある。すなわち、ある遺伝子の発現の上昇が、他の遺伝子に対してどのように作用しているのかを推測することも可能である。
一方、ガラス支持体に高密度に配置したDNAによって、より多くの遺伝子の発現状態を効率的に検知する技術が実用化されている。DNAマイクロアレイ、あるいはDNAチップと呼ばれる分析デバイスには、数千〜数万種類におよぶ塩基配列がプローブとして配置されている。細胞から得られる遺伝子の集合体をDNAマイクロアレイにハイブリダイズさせ、シグナルを観察すれば、数千〜数万種類におよぶ遺伝子の発現状態を一度に知ることができる。こうして得られる発現プロファイルは、遺伝子の機能解析の材料として重要である。解析技術の進歩に伴って、生成するデータの量は飛躍的に増大し、効率的な解析手法の開発が必須となってきている。
クラスター分析によるcoregulationの推測を超えて、遺伝子間の関連を推定する手法が提案され始めている。遺伝子間の関連は、基本的にはノックアウト、pelement insertionなどの実験データにより直接的に測定することができる。ところが、このようなアプローチによって解析できる遺伝子の数は現在のところ限られており、ゲノム上における全遺伝子の間の関連を推定する方法としては現実的でない。
先に述べたDNAマイクロアレイを用いれば、膨大な量の遺伝子を対象として発現プロファイルを容易に得ることができる。DNAマイクロアレイが生成する膨大な発現プロファイルを解析すれば、遺伝子発現のデータに見られる相関関係を通して遺伝子間の関連を推定できる可能性がある。
2遺伝子間の関連を測るには、第3の遺伝子からの影響を取り除く必要がある。たとえば、式(1)で定義される偏相関係数を求めれば、第3の遺伝子の影響を除いた2遺伝子間の関連を評価することができる。式(1)において、rijは相関行列の逆行列におけるij要素を示す。
有意な関連を抽出し、有意に関連する節を結ぶグラフにより項目間の相互作用を表現する手法は、「グラフィカルモデリング」(宮田、朝倉書店,1997)等にも記載されている。ただ、前述のとおりDNAマイクロアレイで解析される遺伝子の数は膨大である。そのためDNAマイクロアレイによって得られた発現プロファイルを構成する遺伝子の中では、数百を越える遺伝子が関連している可能性が示唆されている[Spellman PT,Sherlock G,Zhang MQ,Iyer VR,Anders K,Eisen MB,Brown PO,Botstein D,and Futcher B.(1998)Comprehensive identification of cell cycle−regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization Mol.Biol.Cell 9:3273−3297]。
その結果、通常は対象とする遺伝子の数は実験(DNAマイクロアレイ)の数を大きく凌駕し、相関行列は退化してしまう。つまり、DNAマイクロアレイによる解析結果に基づいて、式(1)による解析に必要な相関行列を得ることは、事実上できないと言って良い。言い換えれば、数万に及ぶ遺伝子間の相互の関連性を、公知の解析方法によって見出すためには、ほとんど実現不可能な規模の実験を要することになる。
したがって、現実的な規模の実験によって得ることができる遺伝子発現プロファイルに基づいて、関連性を明らかにすることができる手法が求められている。遺伝子の解析技術は、急速な進歩を遂げている。現在のところ、DNAマイクロアレイは数千〜数万種類の遺伝子を解析の対象としている。更に、解析可能な遺伝子の数は、今後の技術開発によってますます増加することは明らかである。そのため、膨大な数の遺伝子について、できるだけ小規模な実験結果に基づいて、その中から効率的に遺伝子の関連性を見出すことができる技術の重要性は増している。
発明の開示
本発明は、遺伝子の発現プロファイルに基づいて、遺伝子の関連性を見出すための方法の提供を課題とする。より具体的には、多くの遺伝子の中から関連を有する遺伝子の組み合わせを、より少ない実験に基づいて、より効率的に見出すことができる方法を提供することが本発明の課題である。
遺伝子の発現プロファイルに基づいて、遺伝子の関連性を見出すとき、ある遺伝子の組み合わせにおける他の遺伝子の影響をいかにして排除するかが大きな課題になる。先に述べたように、数千〜数万の遺伝子の発現データを取り扱うDNAマイクロアレイにおいては、数百の遺伝子が相互に影響を与える状態にあることが示唆されている。つまり、任意の2つの遺伝子の間の関連性を評価しようとする場合、通常は、第3、第4の遺伝子の影響を考慮しなければならないはずである。
そこでFriedman N.et al(Using Bayesian netwoks to analyze expression data.Journal of Computational Biology,2000;7(3−4):601−20)は、Bayesian networkの手法をDNAマイクロアレイデータに適用した。この手法は、尤度比に基づいて確率的に遺伝子対のリンクを挿入・削除するもので、最終的に遺伝子間関連の事後分布を明らかにできるメリットを有する。しかし膨大な計算時間を必要とするため、それでなくても膨大なデータを処理しなければならないDNAマイクロアレイの解析に応用するには問題が多い。
本発明者らは、遺伝子の間の関連性を明らかにする過程において、2つの遺伝子の偏相関係数を近似的に求めることができれば、任意の2つの遺伝子の発現レベルに対して干渉する第3の遺伝子の影響を排除できるのではないかと考えた。偏回帰係数と偏相関係数の関係は、次に示す式(2)で表される(Stuart and Ord,Kendall’s advanced theory of statistics,fifth edition,volume 2:Classical inference and relationship,Edward Arnold,London,1991)。
本発明者らは、遺伝子の発現プロファイルの解析にこの式を適用するために、変数選択の工程を組み合わせることによって、現実的な規模の実験に基づいて遺伝子間の関連を容易に解析できることを見出し、本発明を完成した。本発明においては、たとえばDNAマイクロアレイにプローブとして配置された各遺伝子について、これを従属変数とした重回帰分析を行う。
更に変数選択を行って得られた偏回帰係数から、式(2)として偏相関係数を推定する。変数選択の工程には、AIC(Akaike H,A new look at the statistical model identification,IEEE Trans.Autom Contr.AC−19:716−723,1974)やBICを応用することができる。すなわち本発明は、以下の工程を含む遺伝子間の関連を検出する方法に関する。
〔1〕次の工程を含む、遺伝子間の関連を決定する方法。
1)複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
2)前記複数の遺伝子から2つの任意の遺伝子を選択して第1の遺伝子および第2の遺伝子からなる遺伝子ペアとする工程、
3)前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第1の遺伝子および第2の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
4)工程3)で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
5)工程4)によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
〔2〕工程3)における前記遺伝子ペア以外の遺伝子が、前記遺伝子ペアを構成する第1の遺伝子および第2の遺伝子を除く全ての遺伝子である〔1〕に記載の方法。
〔3〕工程5)が、工程3)によって得られた複数のモデルにおける偏相関を赤池情報量基準に基づいて比較し、モデルを構成する前記第1の遺伝子および/または前記第2の遺伝子の発現に影響を与える任意の遺伝子を選択することによって行われる〔1〕に記載の方法。
〔4〕工程5)において、任意の遺伝子として最適なモデルを与える遺伝子を選択する〔3〕に記載の方法。
〔5〕工程3)が、前記モデルを構成する各遺伝子の発現レベルを変数として偏相関を求める工程からなる〔1〕に記載の方法。
〔6〕工程3)が、各遺伝子の発現レベルのベクトルを変数として偏相関を求める工程からなる〔1〕に記載の方法。
〔7〕構成遺伝子が異なる複数種の遺伝子ペアを選択し、各遺伝子ペアについて前記工程1)〜5)を繰り返すことを特徴とする〔1〕に記載の方法。
〔8〕前記複数の遺伝子の全ての組み合わせを前記第1の遺伝子、および第2の遺伝子からなる遺伝子ペアとして、前記工程1)〜5)を繰り返すことを特徴とする〔7〕に記載の方法。
〔9〕遺伝子の発現レベルが、DNAマイクロアレイに細胞に由来するmRNA、またはmRNAから誘導されたポリヌクレオチドをハイブリダイゼーションさせることによって得られたものである〔1〕に記載の方法。
〔10〕遺伝子ペア、およびこの遺伝子ペアに関連する遺伝子として〔1〕に記載の方法によって選択した遺伝子との相互の関連性と、その強さを座標情報に変換し、座標空間における距離によって遺伝子間の関連を示すことを特徴とする〔1〕に記載の方法。
〔11〕〔10〕に記載の方法によって得ることができる、複数の遺伝子について相互の関連の強さを座標空間における距離によって表現した遺伝子ネットワークマップ。
本発明は、次の工程を含む、遺伝子間の関連を決定する方法である。
1)複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
2)前記複数の遺伝子から2つの任意の遺伝子を選択して第1の遺伝子および第2の遺伝子からなる遺伝子ペアとする工程、
3)前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第1の遺伝子および第2の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
4)工程3)で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
5)工程4)によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程
本発明において、複数種の細胞とは、由来や処理条件など、なんらかの点で相違がある少なくとも2種類の細胞を言う。たとえば、異なる組織に由来する細胞や、由来は同一であっても異なる培養条件や処理条件を与えた細胞等を例示することができる。一般に細胞の種類をできるだけ多くすることにより、その解析結果の統計学的な意味を高めることができる。したがって、できるだけ多くの細胞種について遺伝子の発現レベルを測定することが望ましい。
たとえば本発明によって遺伝子の関連を検出するとき、2種類以上、望ましくは更に多くの細胞について遺伝子の発現レベルを測定することにより、解析結果の統計学的な意味を高められる。望ましい細胞の数は、扱う遺伝子の数よりも個々の遺伝子に本質的に影響を与える遺伝子の数により規定される。たとえば、影響を与える遺伝子の数kが比較的大きいときは、統計学的に意義のある解析を行うために望ましい細胞の数として、(k/2)2を一つの目安とすることができる(坂元慶行・石黒真木夫・北川源四郎(1983)「情報量統計学」p.63)。
なお本発明において種類の異なる細胞とは、ある条件のみにおいて相違があり、その他の条件はできるだけ同一とすることが望ましい。具体的には、癌と正常細胞との間で遺伝子の発現状態を比較するときには、特定の臓器を対象とし、同種の癌細胞と正常細胞を多く集めることが求められる。
たとえば直腸癌であれば、正常細胞としては正常な直腸組識を多くの被験動物から集める。一方、癌細胞についても、できるだけ同じ部位に生じた同種の癌細胞を集めて、両者の遺伝子の発現状態を比較するのが好ましい。あるいは、特定の培養条件のみ相違させた同一の細胞を、本発明における複数種の細胞として用いることもできる。
本発明において、複数種の遺伝子とは、2以上の遺伝子を意味する。本発明では、多くの遺伝子の発現データの中から、ある2つの遺伝子に対して影響を与えている第3の遺伝子の存在と、その関連性の強さを評価することができる。解析の対象とする遺伝子の数は制限されない
多くの遺伝子について発現レベルを効率的に測定するには、DNAマイクロアレイを利用するのが有利である。DNAマイクロアレイは、ガラスなどの支持体上に、多くのDNAを高密度に集積した分析デバイスである。支持体上に固定されるDNAは、化学的に合成したもの、あるいはcDNAライブラリー等が用いられる。細胞で発現している遺伝子の発現レベルを知るには、DNAマイクロアレイを利用してたとえば次のような測定が行われる。
まず各細胞のmRNAをもとにcDNAを合成し、更にこのcDNAを鋳型としてcRNAに転写する。cDNAを合成するときにRNAポリメラーゼが認識するプロモーターを連結しておけば、cRNAへの転写は容易に行うことができる。このとき、cRNAを標識しておく。そして標識cRNAをDNAマイクロアレイにハイブリダイズさせ、両者のハイブリダイズを標識によって検出する。異なる細胞に由来するcRNAを異なる色の蛍光色素で標識しておけば、複数種の細胞について同時に測定することもできる。
現在市販されているDNAマイクロアレイは、1枚のスライド上に数千〜数万種類のDNAを配置している。しかし本発明における解析の対象は、これらの市販のDNAマイクロアレイが有しているDNAの数に限定されない。より高密度のDNAマイクロアレイや、多種類のDNAマイクロアレイを用いて得られた、より規模の大きな測定結果であっても、本発明によって解析することができる。また、市販のDNAマイクロアレイのみならず、カスタムメイドやアレイヤーを用いて自作されたDNAマイクロアレイを利用しうることは言うまでもない。
本発明において、遺伝子の発現レベルとは、ゲノム等に記録されている遺伝情報がmRNAに転写された量を意味する。mRNAの量は、ポリヌクレオチドとしてDNAマイクロアレイや、定量的PCR等により、塩基配列特異的に測定することができる。あるいは、mRNAがコードする蛋白質の量として、プロテオーム解析により測定することもできる。
さて、ある細胞について複数の遺伝子の発現レベルを測定した結果は、一般に発現プロファイルと呼ばれる。したがって、本発明において解析の対象とするデータは、遺伝子の発現プロファイルに他ならない。
遺伝子発現プロファイルは、必ずしも、解析のたびに現実の実験データとして収集する必要はない。たとえば、複数の施設で、同じDNAマイクロアレイを利用して、一定の条件のもとで各種の細胞の遺伝子発現プロファイルを収集し、そのデータを施設間で共有することもできる。このようなデータは、インターネットを利用して共有するのが有利である。インターネットを利用することにより、発現プロファイルを得るためのプロトコルと、それによって得られたデータを世界的なレベルで共有することができる。
こうして集積されたデータをサンプルとして、本発明による遺伝子の関連を検出する方法を適用することができる。世界中で得られた発現プロファイルを集約し、遺伝子間の関連を表すネットワークマップとして提供することもできる。
本発明においては、まず前記複数種の遺伝子から選択された、任意の2つの遺伝子からなる遺伝子ペアに対して、その発現プロファイルを構成する発現レベル情報に基づいて解析が進められる。ここで選択される2つの遺伝子は任意である。選択された遺伝子の一方を仮に第1の遺伝子、他方を第2の遺伝子とし、両者の関連性を明らかにする。このとき、2つの遺伝子に対するその他の遺伝子の干渉を明らかにするために、本発明においては、変数選択を伴う回帰分析を利用して両者の偏相関を近似的に求める。偏相関とは、2つの変数に干渉する第3の変数の影響を排除した、2つの変数の相関を言う。この工程によって、前記遺伝子ペアの間の、真の関連性が近似的に明らかにされるとともに、遺伝子ペアに影響を与える第3の遺伝子の存在とその関連性の強さを知ることができる。この工程は、たとえば次のようにして行うことができる。
まず偏相関の解析には、林によって構築された数量化理論IV類(Hayashi C.,On the prediction of phenomina from mathematical statistic point of view.,Ann.Inst.Stat.Math.,3:69−98,1950)が応用されている。数量化理論(quantification theory)とは、定性的変数に関する多変量解析である。数量化理論IV類では、ある個体の集団と、その集団内の任意の2つの個体間の親近性を示す数値の行列が与えられている場合、各個体をグループに分類することができる数量を個体に対して付与する手法である。
数量化理論IV類を遺伝子の発現レベルの解析に応用するために、遺伝子集団における任意の2つの遺伝子間の相関係数と回帰係数とからなる行列を想定する。2つの遺伝子の間の偏相関係数rijは、下記式(3)によって推定することができる。
ただし、式中、bijは第1の遺伝子を従属変数としたときの第2の遺伝子の偏回帰係数を、bjiは、第2の遺伝子を従属変数としたときの第1の遺伝子の偏回帰係数を表す。
本発明において偏相関を求めるための第1の方法として、遺伝子ペア、および第3の遺伝子の発現レベルを従属変数とする変数選択を伴う回帰分析を行う方法を示すことができる。本発明者らは、この方法を仮に近似的回帰偏相関2(Approximate Partial Correlation with Regression、以下APCR2と省略する)と呼んでいる。APCR2によれば、複数の遺伝子がn個からなるとき、この全ての遺伝子について偏相関を求めるには、変数選択を伴う回帰分析をn回行うことになる。
その結果、様々な遺伝子を第3の遺伝子としたときの、遺伝子ペアの偏相関が明らかにされる。高い偏相関が見出された場合には、その遺伝子ペアを構成する遺伝子には関連があると推定される。この処理は、ある遺伝子について、その発現を他の遺伝子の発現から予測することを考え、予測力を高めることに寄与する遺伝子を拾い上げることに他ならない。つまり、遺伝子Aの発現の予測に遺伝子Bの発現の情報が寄与し、また逆に遺伝子Bの発現の予測に遺伝子Aの発現の情報が寄与すると認められたときに、これらの間に関連があるとみなされる。どちらか一方でも寄与が認められないときは、偏相関係数の推定は0となる。
本発明において偏相関を求めるための方法として、遺伝子ペアを構成する第1の遺伝子および第2の遺伝子に対して、それらの発現yA,yBの両者からなるベクトル(yA,yB)を従属変数とする多次元の回帰分析を適用することもできる。本発明者らは、この方法を仮に近似的回帰偏相関1(Approximate Partial Correlation with Regression、以下APCR1と省略する)と呼んでいる。APCR1では、説明変数の回帰係数も第1の遺伝子に対するものと、第2の遺伝子に対するものの2次元ベクトルとなる。回帰モデルの残差もyAに対する残差およびyBに対する残差の2次元である。そして、yAとyBの相関をもって偏相関係数の推定値とする。このとき、実際には、残差項の間の分散共分散と回帰係数は同時に推定される。偏相関係数は、文字どおり他の遺伝子からの影響を排除した後の相関に他ならないためである。
ただ、APCR1はAPCR2に比べて個々の回帰分析は複雑である。またn個の遺伝子の解析のために、n回ではなく、n(n−1)/2回の変数選択を伴う回帰分析を行う必要があることから、多くの遺伝子を分析の対象とするときは、計算量が増えてしまう。したがって、APCR2は、本発明における偏相関を求めるための手法として望ましい。
以上のようにして得ることができる遺伝子ペアの偏相関は、選択された2つの遺伝子の間の関連性を近似的に表し、その他の遺伝子の干渉は無視することができる。更に本発明は、遺伝子ペアの偏相関を明らかにすると同時に、この遺伝子ペアに対する関連性が疑われる第3の遺伝子の存在と、その関連性を明らかにする工程を含む。この工程は、この遺伝子ペアに対して、任意の遺伝子を3つめの変数として与えた場合の偏相関を評価し、複数の遺伝子から選択された1つの任意の遺伝子のうち、前記遺伝子ペアに対する関連性が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択することにより行われる。遺伝子ペアに対する関連性は、その偏相関に与える影響の大きさを比較することによって評価することができる。
遺伝子の発現レベルの変化は、2者の遺伝子の関連のみで説明できることは稀で、通常、いくつかの複数の遺伝子が相互に影響を与え合う遺伝子ネットワークを構成している。したがって、2者の関係のみを明らかにしても、遺伝子ネットワークの全体像を見ることはできない。本発明においては、2者の遺伝子の関連を見出す過程において、その2者に対して影響を与えている可能性が高い遺伝子の存在を明らかにする工程を含む。
偏相関とは、第3の変数の影響を排除した2つの変数の間の相関を意味する。したがって、偏相関を明らかにすることは、第3の変数の影響を明らかにすることに他ならない。本発明においては、第3の変数が第3の遺伝子の影響に相当する。より具体的には、ある遺伝子ペアに対して、第3の遺伝子を想定して偏相関係数を導く。第3の遺伝子として、たとえば発現プロファイルを構成する全ての遺伝子を想定したときには、発現プロファイル内の遺伝子のそれぞれについて、この遺伝子ペアに与える影響の大きさを定量的に比較することができる。影響を与える可能性が高いと推定された遺伝子を選択して、3者の関連性が明らかにされる。
この工程には、たとえば赤池情報量基準(以下、AICと省略する)や、BICと呼ばれる解析手法を利用することができる。AICは、式『AIC=−2x(最大対数尤度)+2x(自由パラメータ数)』に基づいて複数のパラメトリック・モデルから、適切なモデルを選択する手法である(Akaike H.Anew look at the stractual model identification,IEEE Trans.Autom.Countr.,AC−19:716−723,1974)。
本発明におけるモデルとは、ある遺伝子ペアに任意の遺伝子を組み合わせて構成される。本発明においては、ある遺伝子ペアに対して任意の遺伝子を与えて、各モデルごとに近似偏相関が求められる。候補となるモデル毎にAICを計算し、その値が最小となるモデルが最適なモデルとして選択される。本発明においては、最大対数尤度はAPCR2では定数項を除き
によって求められる。ei(i=1,...,n)はモデルの残差である。またモデル比較の対象となる自由パラメータの数は説明変数の数、すなわち当該遺伝子対に影響を与える遺伝子の数である。APCR1においては、最大対数尤度は、残差項の分散行列Vを用いて
回帰係数が2次元ベクトルとなるため、モデル比較の対象となる自由パラメータの数は当該遺伝子対に影響を与える遺伝子の数の2倍となる。本発明で選択されるモデルとは、遺伝子ペアに対する、任意の遺伝子の関連性である。AICによって選択される最適なモデルは、遺伝子ペアに対して最も関連性の強い遺伝子の組み合わせを意味する。AICの順に遺伝子を選択すれば、その遺伝子ペアに与える影響の大きいものを、大きさの順に選択することができる。
以下に偏相関から導かれる遺伝子ペアに対する第3の遺伝子の関連性の強さをAICに基づいて評価する方法を具体的に述べる。ここでは予測力に基づいて変数選択する。予測力とは、ある変数(任意の遺伝子)が他の変数(遺伝子ペア)の予測において、どの程度貢献するかを表すための指標である。遺伝子間の関連性を明らかにする上で重要なことは、ある遺伝子ペアに対する予測力の大きな遺伝子を見逃さないことである。本発明においては、予測力の大きな遺伝子が、関連の強い遺伝子として選択される。予測力が最大となる1つの遺伝子を選ぶときは相関関係を下に、その遺伝子と最も大きな相関係数の絶対値を持つ遺伝子を選択する。
2つ目以降については相関係数の代わりに重相関係数を用いる。一般に説明変数が多いほどデータへの適合度は向上する。しかし一方でデータの持つ情報の量を越えて多くの遺伝子を説明変数に取り込むと、回帰係数の推定精度は悪くなる。予測力を表現するAICにより、データへの適合度と回帰係数の推定精度のバランスが勘案され、限られた実験数に見合った遺伝子対の関係が推定される。
本発明の方法をDNAマイクロアレイによって得られた発現プロファイルに適用するときには、一般的にDNAマイクロアレイの数が少ないときは、大きな影響力を与える遺伝子の間のみの関連を拾うことになる。DNAマイクロアレイの数が多くなるにつれて、影響力がそれほど大きくない遺伝子の影響も考慮されるようになる。選ばれる遺伝子の数はDNAマイクロアレイの数に大きく依存し、解析対象となる遺伝子の数にはあまり依存しない。
ちなみに、AICはデータへの適合度を表現する最大対数尤度からモデルに含まれるパラメータの数を引いたもので定義され、これが予測力の偏りのない統計量であることが証明されている(Akaike H.A new look at the stractual model identification,IEEE Trans.Autom.Countr.,AC−19:716−723,1974)。
遺伝子発現の相関関係には、直接的な関係のみでなく第3の遺伝子による間接的な関係も相俟って含まれており、遺伝子ネットワークにおいては前者を抽出する必要がある。図1は遺伝子A〜Dの間のネットワークを示しているが、そこでは遺伝子Cは遺伝子A、遺伝子Bをregulateし、さらに遺伝子Bは遺伝子Dをregulateしている。直接間接にこれらは関連し合っているため、遺伝子A〜Dはいずれも遺伝子発現の相関を持つ。すなわち、クラスター分析などでは同一のクラスターに属することになる。
この図ではたとえば仮に遺伝子Bの発現を制御できれば遺伝子Dの発現に関しては遺伝子Aと遺伝子Cの発現には配慮しなくても良いことになる。同様に、遺伝子Aと遺伝子Bは共通の遺伝子Cに影響されているため見かけ上の相関を持つが、直接的な関係はない。直接的な関係は偏相関係数により算出することができる。4遺伝子の間の相関行列に対する逆行列を
rt,A.,and Ord,J.K.,Kendall’s advanced theory of statistics,fifth edition,volume 2:Classical inference and relationship,Edward Arnold,London,1991.)。
遺伝子Aと遺伝子Bの間、遺伝子Cと遺伝子Dの間の偏相関係数は確率的な誤差を除くと0となり、矢印で結ばれた直接的な関係を持つ遺伝子対のみが0でない偏相関係数を持つこととなる。(ただし、偏相関係数により矢印の向き、すなわち因果関係を推定することはできない。因果関係の推定のためには、時間的前後関係を考慮に入れた時系列データの解析、あるいはノックアウト系の解析が必要となる。)なおここで、仮に図中楕円で囲まれた3遺伝子A,B,Dのみを解析対象とし、偏相関係数を計算すると、遺伝子Aと遺伝子Bの偏相関係数は一般に0にはならない。遺伝子ネットワークの推定には、関連する遺伝子はすべて解析対象とすることが不可欠である。
ところで、マイクロアレイデータの解析では多くの場合、分析の対象となる遺伝子の数が実験(細胞)の数を大幅に上回る。この場合は、相関行列は退化し逆行列を持たないため、偏相関係数を計算することができない。そこで、変数選択を伴う回帰分析により偏相関係数を近似的に求める。まず基本的な公式として次の結果が知られている。
図1に即して説明することにし、各遺伝子の発現プロファイルを
とする。nは細胞の数である。
まず、遺伝子Aの発現量を他の3遺伝子B,C,Dの発現量で回帰する回帰式
すると、(12)式の切片は消え、
となる。
規準化変量による回帰分析の回帰係数は偏回帰係数と呼ばれるが、これは(1
同様に遺伝子B,C,Dの発現量を他の遺伝子に回帰することにより、偏回帰係数のセット
が得られる。
他の遺伝子対についても同様である。符号を考えると、
となる。
こうして、偏相関係数の推定は各遺伝子の発現量を他の全遺伝子の発現量に回帰したときの偏回帰係数を推定することに帰着される。
ところで先に述べたように、マイクロアレイデータの場合は通常実験数が遺伝子数を大きく下回っているため、各遺伝子の発現量を他の全遺伝子の発現量に回帰することはできない。そこで、変数増加法あるいは変数増減法により変数選択を行う。
選択の規準としては
で定義される赤池情報量規準(AIC)を採用する。これは予測誤差を表現するもので、遺伝子発現の予測力を高めることに貢献する遺伝子を拾って行くことになる。これがAPCR2である。
いまの例で仮に変数選択の結果推定された4つの回帰式が
のようになったとする。
これより偏回帰係数の行列が
のように得られる。
これよりたとえば遺伝子Aと遺伝子Bの間の偏相関係数は
また遺伝子Aと遺伝子Bの間の偏相関係数は
などと計算され、最終的に偏相関行列が
として求められる。
遺伝子の数mだけ回帰分析を実行し、それぞれにおいて変数選択を行うため大きな計算量となる。
このため、数千の遺伝子について変数選択の候補を予め従属変数との相関係数が絶対値である値(たとえば0.2)以上に限定することにより、計算時間が大幅に短縮される。
これに対してAPCR1は、図1に戻り説明すると、遺伝子Aの発現量と遺伝子Bにおける発現量の間の偏相関係数を多次元の回帰式
におけるεABとεBAの間の相関係数により評価する。
数多くの遺伝子を分析対象とする一般のマイクロアレイデータにおいては、APCR2同様、AICに基づき変数選択を行う。今度は多次元であることに伴い、AICは
となる。
さらに、εABとεBAの間の相関係数が0というモデルも比較し、偏相関が0か否かを判定することもできる。APCR2が偏回帰係数と偏相関係数を結びつける基本式を用いて間接的に偏相関係数を求めたのに対し、APCR1は偏相関係数の直接的な評価を与える。しかし、解析対象となる遺伝子から2遺伝子をとる場合の数、すなわちm(m−1)/2回だけ変数選択を伴う回帰分析を実行し、それぞれが多次元の回帰分析であるため、APCR2の方が計算量の点においては有利である。
更に、AICのほか、偏相関に基づいて、遺伝子ペアに関連する可能性が高い遺伝子の集合を求めることができる。たとえば、1/2xlog((1+r)/(1−r))が、分散1/(n−3)の正規分布に従うことが知られている。偏相関係数rについても同様に、この値が絶対値でd=1.96√(1/(n−3))より大きい、すなわち|r|>|(1−exp(2d))/(1+exp(2d))|であるときは5%で有意として、関連性のある遺伝子を選択することもできる。
以上のような過程を、その発現プロファイルを構成する複数の遺伝子に対して適用すれば、やがてその発現プロファイルに基づく、遺伝子間の最も適切な関連性が導かれる。こうして得られる複数の遺伝子の関連性は、遺伝子ネットワークとして表すことができる。本発明において遺伝子ネットワークとは、複数の遺伝子の間の関連性を相互に結びつけたものである。遺伝子ネットワークは、遺伝子間の関連性の向きと、強さによって定義される。遺伝子の関連性の向きとは、発現の刺激(up regulation)と抑制(down regulation)を示している。一方、関連の強さは、発現の刺激または抑制の強さを意味している。通常、この過程は、発現プロファイルを構成する全ての遺伝子を対象として行うことが望ましい。
また、本発明における発現プロファイルは、明らかにすべき遺伝子ネットワークの全体をカバーするものであることが望ましい。したがって、ある生物における遺伝子の関連を明らかにするには、その生物の全ゲノムに含まれる全ての遺伝子の発現プロファイルに基づいて、本発明の解析方法を適用するのが理想である。しかしながら、最も重要な解析対象であるヒトでは、遺伝子の全体像は完全には把握できていない。また、その数は膨大であり、発現プロファイルの集積そのものが大きな課題である。このような場合には、たとえば数千〜数万の主要な遺伝子について調べられた発現プロファイルを対象として、本発明の解析方法を適用することも十分な意義がある。
このような解析を通じて導かれる遺伝子ネットワークは、部分的な発現プロファイルを構成する遺伝子の、最も合理的な関連性を記述している。したがって、この遺伝子ネットワークに基づいて推定される遺伝子間の関連性は、その後の遺伝子の機能解析の指標として重要な情報を与えることになる。たとえばある遺伝子の機能を解明するときに、その遺伝子に関連する他の遺伝子の候補を、遺伝子ネットワークから絞り込むことができる。
他方、全ての遺伝子、あるいは真の遺伝子の全体像に近いものを対象として得られた発現プロファイルを解析すれば、本発明によって理想的な解析を行うことができる。こうして明らかにされた遺伝子ネットワークは、発現プロファイルを取得した細胞における遺伝子ネットワークを、最も合理的に表している。したがって、この遺伝子ネットワークを通じて、たとえば以下のような情報を予測することができる。
ある遺伝子の制御に重要な遺伝子
ある遺伝子を抑制したときに影響を受ける遺伝子
ある遺伝子の発現が亢進したときに影響を受ける遺伝子
このような情報に基づいて、それを裏付けるための実験を行えば、遺伝子の機能解析を極めて効率的に進めていくことができる。あるいはアポトーシスやがん化といった、注目される細胞機能に関連することが明らかにされている遺伝子を中心にして遺伝子ネットワークを解析すれば、これらの細胞機能に関わる新たな因子や、新たな関係を予測することもできる。更に、こうした予測に基づく実験を重ねていけば、遺伝子ネットワークの信頼性を更に高めていくことにもなる。
本発明においては、遺伝子間の関連を座標に変換し、図示化することができる。図示化することにより、推定された遺伝子間ネットワークの全体像をつかむことができる。図示化においては、遺伝子間の関連を表現する線分が過度に交叉しないよう、遺伝子を適当に配置することが大切である。多次元尺度構成(Borg,I.and Groenen,P.Modern Multidimensional Scaling:Theory and Applications,Springer−Verlag,1997.)は対象間の距離をよく反映するように、対象を配置する。いまの場合は偏相関係数の絶対値が大きい遺伝子対は関連性が強いとみなすことができるため、これを遺伝子間の親近度として数量化IV類を適用する(Hayashi,C.On the prediction of phenomina from mathematical statistic point of view,Ann.Inst.Stat.Math.,3:69−98,1950.)。
すなわち、偏相関係数の絶対値
を下に、
を最小化することにより遺伝子のx座標の成分
を求める。
の重みが重く、対応する遺伝子対は近くに配置されることになる。
散布図においては相対的な位置関係だけが問題になるため、
という制約条件をつける。
これは散布図の重心が原点にあり、さらにスケールを規準化することを意味する。y座標の成分も上の制約条件に加えて散布図が無相関となるよう制約を課して(33)式を最小化することにより計算される。これは固有値問題に帰着する。一般に、多くの遺伝子と関連している遺伝子は図の原点近くに位置し、他とあまり関連のない遺伝子は図中縁に位置することになる。z座標以降も同様にして求められる。
加えて本発明は、本発明による遺伝子の関連を検出する方法を実施するためのプログラムを提供する。本発明のプログラムは、先に述べたアルゴリズムを実行する各ステップで構成される。また本発明は、本発明のプログラムを記録した情報記録媒体を含む。
発明を実施するための最良の形態
以下、本発明を実施例により具体的に説明するが、本発明はこれら実施例に制限されない。
1.遺伝子間の関連の検出
Alon et alは結腸癌の組織細胞における発現プロファイルを正常細胞のそれと対比分析した(Alon,U.,Barkai,N.,Notterman,D.A.,Gish,K.,Ybarra,S.,Mack,D.,and Levine,A.J.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonuc leotide arrays,Proc.Natl.Acad.Sci.USA,96:6745−6750,1999.)。このデータを数値例として用い、ゲノムの一部のみから遺伝子間の関係を見るときの偏り、およびここでの変数選択を伴う回帰分析による偏相関の推定の精度を調べた。
評価においては真の偏相関を知る必要があるが、上述した理由により全遺伝子について偏相関行列を得ることはできない。そこで、癌組織と正常組織の間で発現に差のある44の遺伝子を選んだ。更にこれらの遺伝子に、癌組織のみで確率1で発現する仮想遺伝子を加えた計45遺伝子からなる仮想ゲノムを考える。解析の対象とした遺伝子と、62の組織における各遺伝子の発現レベルを表4〜表7に示した。表中、名前がTで始まる細胞は腫瘍組織を、名前がnで始まる細胞は正常組織である。
ここでの偏相関係数は、これらの遺伝子以外からの寄与を考慮に入れていないため、45遺伝子からなるゲノムを考えたときの仮想的な遺伝子間関係を表現している。すなわち、この実施例における真値とは、この45遺伝子をサンプルとして得られた結果である。
まず図2からは、相関係数と偏相関係数が全く異なることが明らかである。これは2遺伝子の相関にはそれらの間の直接的な関係の他に第3の遺伝子からの間接的な影響が関与しており、その大きさが遺伝子の対により異なるためである。
図3は45遺伝子からランダムに21遺伝子を選び、これらの間の相関行列を下に偏相関を求めて真値と比較したものである。図2と同様に、部分サンプル以外の遺伝子の影響を受けて、ここで計算された偏相関係数は真の相関係数をよく捉えていない(r=0.137)。従って、各遺伝子対の直接的な関係を測る上で、他の遺伝子からの寄与を漏れなく測ることが重要であることがわかる。変数選択を伴う回帰分析はこうした考え方に基づき、それぞれの遺伝子に大きく関連するものを全ゲノムから漏れなく抽出し、偏相関の計算においてはその影響を取り除こうとするものである。
図10は、多くの弱い偏相関を持つ遺伝子対は、偏相関0と評価され、強い関連を持つものについては正しく相関を言い当てていることを示している。遺伝子ごとにそれと関係する遺伝子は異なっていても、この近似が良いことを示している。
2.図示化
本発明に基づいて明らかにされた遺伝子間の関連は、図示化することにより、その全体像を容易に把握することができる。以下に、先に明らかにされた遺伝子間の関連性を図示化する工程を述べる。
ここでは例示のため、Alon et al(1999)からとられた2000の遺伝子のうち、癌組織と相関を持つものについて遺伝子間ネットワークを図示化する。図4は癌組織と遺伝子発現の相関の分布を表しているが、多くの遺伝子は絶対値にして0.4以下であることが見て取れる。細胞の数が62であるため、癌組織との相関が絶対値で0.42以上であった遺伝子44個、それに癌組織上で1、正常細胞で0の発現をする仮想遺伝子「cancer」を加え、計45遺伝子(表1)を分析した。なお、2000遺伝子がすでにゲノムの一部であることから、ここで得られたネットワークはあくまでもモデルである。
図5は偏相関係数の絶対値を遺伝子間の類似度とみなし、数量化IV類により得られた遺伝子の散布図である。45遺伝子における(45×44)/2=990組の遺伝子対の偏相関係数すべてを用いて散布図を作成した後、偏相関係数の絶対値が0.5以上の遺伝子対を線分で結んだ結果を示す。これら遺伝子対のリストは表2に挙げられている。
図6〜図9は図5の原点付近を拡大したものである。図6に対して図7は遺伝子にラベルを張り、図8では偏相関の絶対値が0.5以上の遺伝子対を線分で結んだ。さらに図9では、正の関係と負の関係を区別するために、前者は実線で、後者は点線で結んでいる。
3.変数選択を伴う回帰分析(APCR)により得られた偏相関係数
図10はAPCR2により計算された偏相関係数を真の偏相関係数と対比させたものである。990の遺伝子対のうち700対(70.7%)は偏相関0、すなわち予測力を高めるほどの関連はないと判断された。これらの偏相関係数は−0.473と0.443の間で、比較的小さい。
これらを除いた290遺伝子対については、APCR2により得られた値と真の偏相関係数と相関は0.967であった。表3には表2と対応して、絶対値において0.5以上の偏相関係数を持つ遺伝子対が表示されている。真のそれに比べて少なめであるが、関連の強い多くの遺伝子対が検出されていることが見て取れる。図11、および図12はこれら2つの図示化されたネットワークの原点付近の配置を示している。ネットワークの構造は似ているにも係わらず、見た目の印象がかなり異なる。これは近似する固有値に対する固有ベクトルの回転の自由度と関連している。複数のネットワークの構造を比較する場合には、それらの類似性、異質性を直接検出するような図を描くための工夫が必要である。
産業上の利用の可能性
本発明によれば、膨大な遺伝子の数を対象とした数少ない実験結果に基づいて、多くの遺伝子の間の、より真実の姿に近い関連性を見出すことができる。本発明では、ある遺伝子の発現レベルに影響を与えたり、あるいは逆にある遺伝子の発現に対して影響を受けているといった、遺伝子間の関係を、効率的に見出すことができる。
高密度DNAマイクロアレイを用いた発現プロファイル解析においては、実験の数が少なくても、桁違いに膨大な遺伝子発現データが生成される。このような膨大なデータの解析には、効率的であると同時に、少ないデータから真実を明らかにすることができる解析アルゴリズムが必須である。本発明による遺伝子の関連を検出する方法は、このような膨大なデータの効率的で正確な解析を実現する有用な方法である。
また本発明の原理は、真の遺伝子間の関係を近似することによって、効率的な解析を実現している。したがって、遺伝子間の関係が密接なものほど、優先的に見出される。このことは、遺伝子ネットワークの解析において、より本質的な遺伝子間の関係の効率的な解明につながる。
遺伝子の間の関連性は、新薬の開発や既に実用化されているものを含めたあらゆる薬剤の薬理作用を解明する上で重要な情報である。かつては、病態を形成する遺伝子のネットワークを明らかにすることは、治療薬の開発の重要なテーマの一つと認識されながら、実際には極めて難しいこととされていた。しかし、今やゲノムの解析が完了しようとしている。つまり、ネットワークを構成する構成員の全体像が明らかにされつつあると言って良い。この成果をもとに、各構成員の関連性を明らかにすることができれば、遺伝子間の関連をネットワークとして理解することができる。
ゲノム解析を完了した後に展開される薬剤の研究開発は、常に病態と遺伝子の関係を見据えて進められるようになっていくと考えられる。そのためには、ゲノムという遺伝子の全体像の中で、標的となる病態を形成している遺伝子ネットワークをできるだけ効率的に明らかにすることが重要である。本発明は、膨大な遺伝子発現プロファイル情報に基づいて、遺伝子間の関連を効率的に見出すことができる手法を提供する。本発明によって遺伝子間の関連性を明らかにしていけば、多くの遺伝子によって構成される遺伝子ネットワークの構造を迅速に決定していくことができる。したがって本発明は、ポストシーケンス時代の新薬開発に大きく貢献する。
【図面の簡単な説明】
図1は、4つの遺伝子A、B、C、およびDからなる遺伝子ネットワークの例を示す図である。
図2は、がんに関連することが推測された44遺伝子について、相関と偏相関をプロットした結果を示すグラフである。
図3は、仮想ゲノムを構成する45遺伝子、並びにこの45遺伝子中の任意の21遺伝子からなるサブセットにおける偏相関を図示化したグラフである。
図4は、2000の遺伝子の癌組織との相関の分布を示すグラフである。
図5は、偏相関係数の絶対値を遺伝子間の類似度とみなし、数量化IV類により得られた遺伝子の散布図である。線分は偏相関の絶対値が0.5以上の遺伝子対を結んでいる。
図6は、図5における原点付近の遺伝子の配置を示す散布図である。仮想遺伝子「cancer」が+で表されている。
図7は、図6の散布図において、遺伝子にラベルをつけた図である。図の下に示した数値が、各遺伝子の第1軸と第2軸の成分を示す。
図8は、図6の散布図において、偏相関係数の絶対値が0.5以上の遺伝子対を線分で結んだ図である。
図9は、図6の散布図において、偏相関係数が0.5以上の遺伝子対を実線、−0.5以下の遺伝子対を点線で結んだ図である。
図10は、偏相関係数とAPCRによる近似を示すグラフである。変数選択を伴う数量解析(APCR2)によって得られた全体の関連性と、偏相関との関係を示す。縦軸はAPCR2によって計算された偏相関係数を、横軸は各遺伝子間の偏相関係数を示す。
図11は、真の偏相関係数に基づいて遺伝子間の関連を図示化した散布図である。
図12は、近似偏相関係数(APCR2)に基づいて遺伝子間の関連を図示化した散布図である。図の下に示した数値が、各遺伝子の第1軸と第2軸の成分を示す。
Claims (11)
- 次の工程を含む、遺伝子間の関連を決定する方法。
1)複数種の細胞における複数種の遺伝子の発現レベルを得る工程、
2)前記複数の遺伝子から2つの任意の遺伝子を選択して第1の遺伝子および第2の遺伝子からなる遺伝子ペアとする工程、
3)前記複数の遺伝子のうち前記遺伝子ペア以外の任意の遺伝子、並びに前記第1の遺伝子および第2の遺伝子からなるモデルについて、該モデルを構成する各遺伝子の発現プロファイルを変数として、前記遺伝子ペアの偏相関を求める工程、
4)工程3)で求められた前記遺伝子ペアの偏相関を評価し、モデルを構成する前記任意の遺伝子について、前記遺伝子ペアに対する影響の大きさを評価する工程、および
5)工程4)によって前記遺伝子ペアに対する影響が見出された遺伝子を、前記遺伝子ペアに関連する遺伝子として選択する工程 - 工程3)における前記遺伝子ペア以外の遺伝子が、前記遺伝子ペアを構成する第1の遺伝子および第2の遺伝子を除く全ての遺伝子である請求項1に記載の方法。
- 工程5)が、工程3)によって得られた複数のモデルにおける偏相関を赤池情報量基準に基づいて比較し、モデルを構成する前記第1の遺伝子および/または前記第2の遺伝子の発現に影響を与える任意の遺伝子を選択することによって行われる請求項1に記載の方法。
- 工程5)において、任意の遺伝子として最適なモデルを与える遺伝子を選択する請求項3に記載の方法。
- 工程3)が、前記モデルを構成する各遺伝子の発現レベルを変数として偏相関を求める工程からなる請求項1に記載の方法。
- 工程3)が、各遺伝子の発現レベルのベクトルを変数として偏相関を求める工程からなる請求項1に記載の方法。
- 構成遺伝子が異なる複数種の遺伝子ペアを選択し、各遺伝子ペアについて前記工程1)〜5)を繰り返すことを特徴とする請求項1に記載の方法。
- 前記複数の遺伝子の全ての組み合わせを前記第1の遺伝子、および第2の遺伝子からなる遺伝子ペアとして、前記工程1)〜5)を繰り返すことを特徴とする請求項7に記載の方法。
- 遺伝子の発現レベルが、DNAマイクロアレイに細胞に由来するmRNA、またはmRNAから誘導されたポリヌクレオチドをハイブリダイゼーションさせることによって得られたものである請求項1に記載の方法。
- 遺伝子ペア、およびこの遺伝子ペアに関連する遺伝子として請求項1に記載の方法によって選択した遺伝子との相互の関連性と、その強さを座標情報に変換し、座標空間における距離によって遺伝子間の関連を示すことを特徴とする請求項1に記載の方法。
- 請求項10に記載の方法によって得ることができる、複数の遺伝子について相互の関連の強さを座標空間における距離によって表現した遺伝子ネットワークマップ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000375381 | 2000-12-11 | ||
JP2000375381 | 2000-12-11 | ||
PCT/JP2001/010780 WO2002048915A1 (fr) | 2000-12-11 | 2001-12-10 | Procede de detection de relations entre des genes |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2002048915A1 true JPWO2002048915A1 (ja) | 2004-07-02 |
Family
ID=18844397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002550559A Pending JPWO2002048915A1 (ja) | 2000-12-11 | 2001-12-10 | 遺伝子間の関連を検出する方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2002048915A1 (ja) |
AU (1) | AU2002221104A1 (ja) |
WO (1) | WO2002048915A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542854B2 (en) | 2004-07-22 | 2009-06-02 | International Business Machines Corporation | Method for discovering gene regulatory models and genetic networks using relational fuzzy models |
JP4893194B2 (ja) * | 2006-09-27 | 2012-03-07 | 東レ株式会社 | 解析装置、および補正方法 |
JP4706608B2 (ja) * | 2006-09-28 | 2011-06-22 | 株式会社日立製作所 | 製造工程分析方法 |
JP2010224913A (ja) * | 2009-03-24 | 2010-10-07 | Mitsubishi Space Software Kk | 遺伝子解析装置、遺伝子解析プログラムおよび遺伝子解析装置の遺伝子解析方法 |
JP5709840B2 (ja) * | 2009-04-13 | 2015-04-30 | キヤノン ユー.エス. ライフ サイエンシズ, インコーポレイテッドCanon U.S. Life Sciences, Inc. | 動的シグナルの相関分析による、パターン認識、機械学習、および自動遺伝子型分類の迅速な方法 |
JPWO2018193612A1 (ja) * | 2017-04-21 | 2020-05-21 | 株式会社ニコン | 相関算出装置、相関算出方法及び相関算出プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11342000A (ja) * | 1998-02-09 | 1999-12-14 | Affymetrix Inc | 発現比較のコンピュ―タ支援による視覚化 |
-
2001
- 2001-12-10 WO PCT/JP2001/010780 patent/WO2002048915A1/ja active Application Filing
- 2001-12-10 AU AU2002221104A patent/AU2002221104A1/en not_active Abandoned
- 2001-12-10 JP JP2002550559A patent/JPWO2002048915A1/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11342000A (ja) * | 1998-02-09 | 1999-12-14 | Affymetrix Inc | 発現比較のコンピュ―タ支援による視覚化 |
Also Published As
Publication number | Publication date |
---|---|
AU2002221104A1 (en) | 2002-06-24 |
WO2002048915A1 (fr) | 2002-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hamid et al. | Data integration in genetics and genomics: methods and challenges | |
Shannon et al. | Analyzing microarray data using cluster analysis | |
Binder et al. | Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications | |
Keedwell et al. | Discovering gene networks with a neural-genetic hybrid | |
Pagnuco et al. | Analysis of genetic association using hierarchical clustering and cluster validation indices | |
AU2017338775A1 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
CA2520085A1 (en) | A method for identifying a subset of components of a system | |
Bolón-Canedo et al. | Challenges and future trends for microarray analysis | |
JP2022554386A (ja) | バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み | |
KR102382707B1 (ko) | 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법 | |
KR101067352B1 (ko) | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 | |
US7003403B1 (en) | Quantifying gene relatedness via nonlinear prediction of gene | |
WO2008007630A1 (fr) | Méthode et appareil de recherche de protéine | |
JPWO2002048915A1 (ja) | 遺伝子間の関連を検出する方法 | |
DeTomaso et al. | Identifying informative gene modules across modalities of single cell genomics | |
JP2004030093A (ja) | 遺伝子発現データ解析方法 | |
US20220044762A1 (en) | Methods of assessing breast cancer using machine learning systems | |
TWI399661B (zh) | 從微陣列資料中分析及篩選疾病相關基因的系統 | |
Habich et al. | Two-phase clustering strategy for gene expression data sets | |
WO2008156716A1 (en) | Automated reduction of biomarkers | |
Berrar et al. | Introduction to genomic and proteomic data analysis | |
KR102441856B1 (ko) | 중요도 샘플링을 활용한 다중변이 연관연구 방법 | |
Wu et al. | Determining molecular archetype composition and expression from bulk tissues with unsupervised deconvolution | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040709 |