JPWO2006077631A1

JPWO2006077631A1 - 関連ゲノム領域（含む関連遺伝子／関連ハプロタイプ）のシステマチック関連遺伝子解析方法

Info

Publication number: JPWO2006077631A1
Application number: JP2006553790A
Authority: JP
Inventors: 順治田中
Original assignee: Digital Information Technologies Corp
Current assignee: Digital Information Technologies Corp
Priority date: 2005-01-19
Filing date: 2005-01-19
Publication date: 2008-06-12
Also published as: WO2006077631A1; US20080133144A1; EP1840212A1

Abstract

マーカーとなる遺伝子多型の仮想ハプロタイプを考えることで全ゲノム領域または関心のあるゲノム領域から表現型に関連のある遺伝子またはゲノム領域を関連のあるハプロタイプブロックの確定に引き続いて確定していくシステマチックな解析方法を提供する点にある。図１に示すように、本実施の形態１に係る不連続領域解析方法は、不連続ゲノム領域から仮想ブロックを構築し、仮想ハプロタイプにより、ハプロタイプブロックを確定し、その関連解析にて、表現型に関連のあるゲノム領域を確定していく手順を繰り返すことにより関連ハプロタイプブロック、関連ハプロタイプ、関連遺伝子を確定していくこともできる。

Description

全ゲノム領域（または一部の不連続調査ゲノム領域）よりの疾患易罹患性や薬剤応答性等の表現型に関する単一または複数の関連ゲノム領域(含む関連遺伝子／関連ハプロタイプ)を特定するシステマチック関連遺伝子解析方法に関する。

従来の疾患易罹患性や薬剤応答性等テーラーメイド医療の実現に関連するマイクロサテライトやＳＮＰ（ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅＰｏｌｙｍｏｒｐｈｉｓｍ：一塩基多型または一塩基多型となる座位）を代表とする遺伝子多型をマーカーとする関連遺伝子（または関連ゲノム領域）特定関連遺伝子解析では、コスト上の理由もあり、あらかじめ解析するゲノム領域を特定の遺伝的知識などより特定し、解析したいマーカー遺伝子多型を数十から数千程度の数（個所）に絞込んでからＷｅｔプロセス（注１）でマーカー遺伝子多型のタイピングを行っている。この解析するゲノム領域は、ｃｃＤＮＡ領域または、エクソン領域が主であり、その中で既知のマーカー遺伝子多型をタイピングしているものが主である。

図１７は、従来の関連遺伝子解析のプロセスフローを示す図である。図１７に示すように従来の関連遺伝子解析においては、段階Ａ（調査すべき遺伝子、ゲノム領域の決定）、前段階Ｂ（タイピングすべき遺伝子多型マーカーの設定）、段階Ｃ（Ｗｅｔプロセスによるマーカー遺伝子多型タイピング）、段階Ｄ（データの解析）、段階Ｅ：（「目標」遺伝子の特定）が順次行われる。

通常の関連遺伝子解析プロセスでは、タイピングするマーカー遺伝子多型（以下、「タイピング遺伝子多型」と称す）を限定し、高々１万程度の遺伝子多型に絞込んで機能の解析を行う。

しかしながら、未知の疾患易罹患性や薬剤応答性とマーカー遺伝子多型および関連遺伝子の関連の有無は、そのマーカー遺伝子をタイピングした結果から統計的に解明する以外に方法はない。この為、最終的に関連が解明される「目標」遺伝子（注２）／「目標」ハプロタイプ（注３）は、予め、タイピング遺伝子多型として１千から１万程度のマーカー遺伝子多型のグループに含まれて選定されていなければならない。これらのマーカー遺伝子多型が選定からもれた場合には、解析で関連のある遺伝子多型は見つからず、解析プロセスを再度タイピング遺伝子多型グループの選定からやり直さなければならない。

タイピング遺伝子多型や関連遺伝子を選び出す従来のやり方は、研究者が論文等の文献やゲノム関連のデータベース等を検索し、機能が既に解明しているヒト以外のゲノムと類似したヒトの遺伝子の機能を予測するホモロジー検索等の手法を用いている。つまり、これは多くの場合エクソン領域、ｃＤＮＡ領域に限られることとなる。

しかしながら、これらのゲノム情報には、ヒト・ゲノムの機能が完全に記載されていない。この為、この遺伝子機能解析プロセスの効率を決定するタイピング遺伝子多型を選び出すステップ、つまり如何に高い確率で「目標」遺伝子を予測できるか否かは、研究者個人の経験とスキル、そして偶然の要素に大きく依存している。

さらに多因子性疾患の関連遺伝子／関連ハプロタイプは、不連続の領域に存在していることも多いが、従来の方法では連続的でない領域に存在している遺伝子（多型）／ハプロタイプと表現型とを関連付けることは出来なかった。特に複数の遺伝子（多型）／ハプロタイプのある特定の組み合わせが表現型と関連している場合は、関連を特定することが困難であった。

本発明は斯かる問題点を鑑みてなされたものであり、その目的とするところは、不連続領域よりマーカーとなる機能が未知の多型を含み得る遺伝子多型を選択し、組み合わせることにより、仮想ブロックを構成し、その仮想ブロックより関連解析等により関連ハプロタイプブロックを絞り込み、ハプロタイプブロック内のハプロタイプ頻度を関連解析等することにより、目標遺伝子／ゲノム領域およびその組み合わせを効率よく特定するシステマチック特定方法を提供する点にある。

（注１）Ｗｅｔプロセスとは、遺伝子多型のタイピングを行うプロセス。特定されたタイピングのデータの統計解析は、Ｗｅｔプロセスには含まれない。

（注２）「目標」遺伝子または「目標」となる遺伝子とは、疾患易罹患性や（開発新薬の）薬剤応答性など関連を調べたいと考える表現型の要因となる遺伝子、及び疾患易罹患性や薬剤応答性など関連を調べたいと考える表現型の指標となる遺伝子、以上２つのいずれかに該当するものを意味する。遺伝子機能解析の目的は、これらの遺伝子を特定することである。

（注３）「目標」ハプロタイプまたは「目標」となるハプロタイプとは、疾患易罹患性や（開発新薬の）薬剤応答性など関連を調べたいと考える表現型の要因となるハプロタイプ、及び疾患易罹患性や薬剤応答性など関連を調べたいと考える表現型の指標となるハプロタイプ、以上２つのいずれかに該当するものを意味する。ハプロタイプ機能解析の目的は、これらのハプロタイプを特定することである。

請求の範囲第１項記載の本発明の要旨は、全ゲノム領域、または、一部の解析したいと考える機能が判明又は推測されているとは限らない領域を含み得る非連続ゲノム領域（以後「調査領域」と略記）の情報より疾患易罹患性や薬剤応答性などの表現型に関する単一または複数の関連遺伝子／関連ハプロタイプ等の関連ゲノム領域(以後「関連ゲノム領域」と略記)を同定するシステマチック関連遺伝子解析方法であって、全ゲノム領域または一部の非連続領域の組み合わせより仮想ブロックを構成する第1のステップ（図１の段階２）と、仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロック（またはゲノム領域）を特定する第２ステップ（図１の段階５）と、前記ハプロタイプブロック（またはゲノム領域）内のハプロタイプ頻度を関連解析で求める第３ステップ（図１の段階６）と、前記関連解析で明確に差のあるハプロタイプブロック／ハプロタイプ及びその組み合わせを特定する第４ステップ（図１の段階７）と、前記ハプロタイプブロックおよび/またはハプロタイプより、前記関連遺伝子／関連ハプロタイプ及びその組み合わせを同定する第５ステップ（図１の段階８）を有することを特徴とするシステマチック関連遺伝子解析方法に存する。

請求の範囲第２項記載の本発明の要旨は、全ゲノム領域、または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域（以後「調査領域」と略記）の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子／関連ハプロタイプ等の関連ゲノム領域（以後「関連ゲノム領域」と略記）を同定するシステマチック関連遺伝子解析方法であって、前記調査領域より仮想ブロックを構成する第1のステップと、仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第２のステップと、前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める第３のステップと、前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第４のステップと、前記ハプロタイプブロックより前記関連ゲノム領域を同定する第５ステップとを有することを特徴とするシステマチック関連遺伝子解析方法に存する。

請求の範囲第２項記載の本発明の要旨は、前記第1のステップは、各ハプロタイプブロックを代表するマーカーが既知の場合には、その既知のマーカーをハプロタイプブロックごとに選択し、それをブロックに渡って繋げて連続的な仮想ブロックとすることを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第３項記載の本発明の要旨は、前記第１，２，３，４，５のステップは、前記関連ゲノム領域を特定するためのマーカー遺伝子多型を確定し、前記関連ゲノム領域をすべてのステップ、又は、一部のステップを繰り返すことにより、段階的（一段階を含む）に絞込むステップを含むことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第４項記載の本発明の要旨は、前記第２のステップは、仮想ハプロタイプ解析などの統計解析を用いて前記関連ゲノム領域と連鎖不平衡(または連鎖)状態にある単一または複数の前記ハプロタイプブロックを確定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第５項記載の本発明の要旨は、前記第３のステップは、関連解析とハプロタイプ解析などの組み合わせで最尤起源ハプロタイプとその頻度を求めることを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第６項記載の本発明の要旨は、前記第４のステップは、前記関連解析で明確に差のあるハプロタイプを含む前記ハプロタイプブロックを、前記関連ゲノム領域と連鎖不平衡（または連鎖）状態にあるハプロタイプブロックと同定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第７項記載の本発明の要旨は、前記第２のステップは、仮想ハプロタイプの組み合わせの数、エントロピー値、前記最尤起源ハプロタイプの数、連鎖不平衡度の値等の統計データにより前記ハプロタイプブロックの境界を確定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第８項記載の本発明の要旨は、前記第３のステップは、ＥＭアルゴリズム、ＭＣＭＣ法などを使い、集団の前記最尤起源ハプロタイプを確定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第９項記載の本発明の要旨は、前記第４のステップは、関連解析等で求められた統計量と予め設定又は測定された基準統計量とを比較し、予め設定された閾値を越える前記統計量と前記基準統計量との乖離がある場合、前記閾値を越えて乖離した位置に該当する領域（ハプロタイプブロック）に前記関連ゲノム領域が含まれると判断することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第１０項記載の本発明の要旨は、前記第５のステップは、前記関連解析等で明確に差異のあるハプロタイプブロック、ハプロタイプをシーケンシングなどでさらに詳細に走査／解析し、前記関連ゲノム領域を確定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第１１項記載の本発明の要旨は、前記第２のステップは、タイピングするマーカー遺伝子多型を、前記調査ゲノム領域内でハプロタイプブロックの長さより少なくとも短い間隔で、できる限り等間隔で選定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第１２項記載の本発明の要旨は、前記第２のステップは、タイピングするマーカー遺伝子多型が少なくとも関連を調べたいと考える表現型より集団史上発現が古いと考えられる遺伝子多型（遺伝子多型がＳＮＰの場合、マイナーアレル頻度があまり少なくないＳＮＰ）をｃＤＮＡ領域やエクソン領域に限ることなく、タイピングし易いマーカー遺伝子多型を選定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第１３項記載の本発明の要旨は、前記第１，２，３，４、および５のステップは、仮想ハプロタイプの選定方法（長さなど）を変化させ、最適な関連ハプロタイプブロック、関連ハプロタイプを確定することを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法に存する。

請求の範囲第１４項記載の本発明の要旨は、請求の範囲第１項乃至第１３項のいずれかに記載のシステマチック関連遺伝子解析方法における処理を実現可能なコンピュータプログラムであって、請求の範囲第１項乃至第１３項のいずれかに記載の各ステップをコード化したことを特徴とするコンピュータプログラムに存する。

請求の範囲第１５項記載の本発明の要旨は、全ゲノム領域または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域である調査領域の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子／関連ハプロタイプ等の関連ゲノム領域を同定する不連続領域解析システムであって、前記調査領域より仮想ブロックを構成する構成手段と、仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第１の特定手段と、前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める頻度算出手段と、前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第２の特定手段と、前記ハプロタイプブロックより前記関連ゲノム領域を同定する同定手段とを有することを特徴とする不連続領域解析システムに存する。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。

（実施の形態）
以下において、仮想ブロックは、全ゲノム領域または、全ゲノム領域内の一部の不連続領域を繋げる事により作り出した仮想的な連続領域と定義する。

また、ハプロタイプブロックは、連鎖不平衡状態にあり、組み換えの履歴のほとんど見られない一塊で遺伝していくＤＮＡ領域とする。

また、仮想ハプロタイプは、「調査領域」で連鎖（連鎖不平衡）がある、なしにかかわらずゲノム領域の一部分の遺伝子多型情報を繋ぎ、その組み合わせを考える領域または、その組み合わせそのものを表す。

また、「関連ゲノム領域」は、薬剤応答性の有無や特定の疾病の有無等表現型の直接の要因遺伝子であるとすることもできるし、直接の要因遺伝子を含むハプロタイプブロックのように、その表現型の有無を識別することのできる識別領域であるとすることもでき、この領域は連続領域であるとすることも不連続領域であるとすることもできる。
また、仮想ハプロタイプ解析は、仮想ハプロタイプを使った解析を表す。また、「最尤起源ハプロタイプ」は、集団内の個人のハプロタイプの相が特定されない場合にその集団のハプロタイプを説明する上で尤もらしいハプロタイプを表す。

図１は、本実施の形態に係る「関連ゲノム領域」システマチック特定方法の解析フローの概要を示す一例である。図１に示すように、本実施の形態に係る「関連ゲノム領域」システマチック特定方法は、調査領域の決定（段階1）、仮想ブロックの構築（段階2）、「タイピング」遺伝子多型の決定（段階３）、Ｗｅｔプロセスによる遺伝子多型のタイピング（段階４）と関連解析、ハプロタイプ解析等統計解析による「関連ゲノム領域」の決定（段階５）と関連解析、ハプロタイプ解析等統計解析による「関連ゲノム領域」内のハプロタイプの頻度の決定（段階６）と「関連ゲノム領域」より明確な差異のある関連遺伝子(または、より詳細な関連ゲノム領域)の同定（段階７）「目標」遺伝子（目標遺伝子）、遺伝子多型の特定（段階８）とを有し、段階１〜段階７を１つのサイクルとして繰り返すこともできる。本発明は、Ｗｅｔプロセスを請求範囲としていないが、解析フローを繰り返す際にＷｅｔプロセスもその一部に含まれるため、実施形態の中に含める。
疾患易罹患性または薬剤応答性等の表現型に関連する「関連ゲノム領域」をこの解析手法では、以上の７つの段階を実施することによって、最初にマーカー遺伝子多型のタイピングを行う「調査領域」から（段階的に）絞込んで、最終的に開発新薬の薬剤応答性の有無等の表現型と関連する「関連ゲノム領域」を特定する。この「関連ゲノム領域」は、一遺伝子多型の場合もあるし、ハプロタイプのように複数の遺伝子多型の組み合わせの場合もあるし、一つの遺伝子の場合もある。「関連ゲノム領域」の特定の際に、「関連ゲノム領域」に関する特定の知識を仮定することなく、サンプルの家系情報を仮定としないことを特徴とする。

次に、図１を参照して、各ステップにおける処理を詳しく説明する。

（イ）疾患易罹患性または薬剤応答性などの表現型に関連する「関連ゲノム領域」を特定する場合、疾患罹患グループと疾患非罹患グループについて、疾患罹患者の中で作用もしくは副作用のあったグループと、これがなかったグループについてなどの二つのグループに関して、段階１以降の解析を行う。この際、比較基準がある集団の全体である場合、その集団に対する一般的なデータベースと比較することもできる。

（ロ）段階１（「調査領域」の決定）：この解析では、この段階１から後に説明する段階７までを１つのサイクルとしてこれを繰り返すことによって、初期の大まかな「調査領域」からより局所的な「調査領域」へと段階的に絞込を行うこともできる。まったく関連する遺伝子型についての情報を持ち合わせない表現型を調査したい場合は、全ゲノム領域で、エクソン以外の興味のある領域をも含んだ領域を「調査領域」とするのが好ましい。遺伝子やそれより大きな染色体等の大まかなレベルでゲノム領域が既知である場合や特定の遺伝情報より関連ゲノム領域が想定できる場合、また、複数の染色体が原因となり、どの染色体が怪しいか（「関連ゲノム領域」を含む）わからない場合、ある特定の染色体を除いた残りの全ての染色体（結果に男女の差が無い場合、性染色体は関係が無いので「調査領域」から除外するなどの措置をして）を対象とする場合など「調査領域」を大まかに絞り込むこともできる。また、これより詳細な、例えば遺伝子レベルで初期の「調査領域」を設定することもできる。即ち、予め機能が解明されている染色体レベルに基づき、調査領域（１次調査領域、初期調査領域）を設定することもできる。

（ハ）段階２は、決定された「調査領域」より、各連続領域をつなぎ合わせることにより仮想的に連続な仮想ブロック構築する。この仮想ブロックをベースにあたかも一つの連続する領域のごとく扱い以下の解析を勧めていく。

（二）この仮想ブロックよりタイピングする遺伝子（多型）を決定する。「タイピング」遺伝子多型は、明確に候補となる遺伝子多型が存在しない場合は、「調査領域」よりハプロタイプブロックより少なくとも短い間隔で、関連を調べたいと考える表現型が対象の集団史上発現したと考えられるより以前に形成されたと予想される遺伝子多型のなかで、タイピングしやすい（ユニークに調べ易い）遺伝子多型を選ぶことが好ましい。「調査領域」に関して何も情報がない場合は、できる限り等間隔であることが効率的である。これは、ハプロタイプブロックそれぞれに大体似た数のマーカー遺伝子多型をタイピングすることを目的とし、それによりハプロタイプブロックの確定を効率的にし、且つ関連解析にて明確に差異を示しやすくする。一方ハプロタイプブロックを代表する遺伝子多型が既知の場合はそれをマーカーとすることが効率的である。

（ホ）段階４は、Ｗｅｔプロセスによる遺伝子多型のタイピングである、このタイピングされた遺伝子多型に関する情報は、ハーディーワインバーグ平衡が成り立っているかどうかなどで、正しく目的の遺伝子多型がタイピングされたかどうかを確認するのが好ましい。

（へ）段階５は、タイピングされた遺伝子多型データを関連解析、ハプロタイプ解析などでハプロタイプブロックを走査する段階であり、一例を図２、図３、図４に示す。ハプロタイプブロックは、遺伝子情報が連鎖しており（または連鎖不平衡状態にあり）一つの情報単位として扱うこともできる単位である。また、ハプロタイプブロック内では実際に集団で観測されるハプロタイプの種類は集団のほぼすべてで数種類に限定される。

これより、図４に示すがごとく仮想ハプロタイプをハプロタイプブロック内にとった場合と、ハプロタイプをまたいでとった場合に明確な差が現れる。ハプロタイプブロック内に仮想ハプロタイプをとった場合は、集団でのハプロタイプの種類は少なくなるが、ハプロタイプブロックをまたいで仮想ハプロタイプを取ると集団でのハプロタイプの種類は多くなる。これは、ハプロタイプの相が特定されている場合は明確であるし、相が特定されていない場合でも集団のとりうるハプロタイプの種類数に明確に現れる場合もあるし、現れない場合でもＥＭアルゴリズムや、ＭＣＭＣ法などを用いてその集団の「最尤起源ハプロタイプ」を推測することによって明らかにすることができる。このハプロタイプブロック内で推測される集団の「最尤起源ハプロタイプ」は、相の特定された時のハプロタイプとよく一致することが示され始めている。

また、ハプロタイプブロック内では、ハプロタイプの種類が限られるゆえに、仮想ハプロタイプをハプロタイプブロック内でとった場合には、集団でハプロタイプのエントロピーを計算した場合に小さくなる（秩序がある）が、ハプロタイプブロックをまたいで仮想ハプロタイプをとった場合は、集団でのハプロタイプのエントロピーが高くなる（秩序がない）。

これ以外にも、ハプロタイプブロック内は、連鎖不平衡がある為、様々な連鎖不平衡度を用いると、ハプロタイプブロック内の仮想ハプロタイプは、連鎖不平衡度が大きく、ハプロタイプブロックをまたいだ仮想ハプロタイプは、連鎖不平衡度が小さくなる。このようにして、調査領域からハプロタイプブロックまたは、ハプロタイプブロックのように情報が凝縮されていると考えられるゲノム領域が選定できる。ハプロタイプブロックが明確に確定されない場合は、本解析フローをハプロタイプブロックがありそうな場所をより詳細に調査して確定することもできる。

（ト）段階６は、図６に示すように、ハプロタイプブロック内で、ハプロタイプ頻度を計算する過程である。図１１に示すような遺伝子多型情報が得られることが一般的である。この情報は、ID01等がサンプルの番号を表し、Loc1等がゲノムのローカスの位置を表す。データは、相同染色体の情報が表されており、相同なローカス情報が等しい場合にホモ接合体とよばれ、異なっている場合にヘテロ接合体と呼ばれる。この図１１に示したような情報より、統計的に処理をし、図１３に示すようなハプロタイプの頻度情報を求めることができる。このハプロタイプの頻度を求める方法を簡単に述べると（ここでは簡単のため遺伝子多型は、ＳＮＰであり、ローカスは、５個であるとする）。図１２に示すごとく、一つの配偶子（対となる染色体の一方）上にある対立遺伝子（ＳＮＰのアレル）の組合せであるハプロタイプは、相が特定されない場合には確率的に予測される。たとえば、ID02のアレル情報は次に示すがごとくである。

ID02 A/G C/T G/G C/T C/C

このハプロタイプを確率的に予測することについて、ＡまたはＧを取るＳＮＰ＃１、CまたはTを取るＳＮＰ＃２、Ｇのみと取るＳＮＰ#3、CまたはTを取るＳＮＰ＃4、Cのみを取るＳＮＰ＃５、以上の５つのＳＮＰが取るハプロタイプのケースから考える。ＳＮＰ＃１、＃２、＃４は、ヘテロ接合であり、ＳＮＰ＃３、＃５はホモ接合である。

仮想ハプロタイプ頻度（尤度）
1. A C G C C １/８
2. A C G T C １/８
3. A T G C C １/８
4. A T G T C １/８
5. G C G C C １/８
6. G C G T C １/８
7. G T G C C １/８
8. G T G T C １/８

これが、サンプルID02の取りうるハプロタイプであり、各ハプロタイプは頻度（尤度）１/８（=０．１２５）であると考えることができる。

このような集計を図１３に示す。サンプル１０に対し加算をし、規格化をすると、図１４に示す各ハプロタイプの尤度を求めることが出来る。

このように、集団での統計を取ったデータをそのまま使うことも出来るし、この統計データよりＭＣＭＣ法、ＥＭアルゴリズムなどでこの集団の［最尤起源ハプロタイプ］を推定し、その［最尤起源ハプロタイプ］を比較することも出来る（図１５参照）。これらのＳＮＰの間に連鎖不平衡が見られない場合、各ＳＮＰのアレルの出現頻度は「平均的」な値に落ち着き、加えて、各々のＳＮＰが「独立」しているため、そこから統計的に求められるハプロタイプについても、特定のハプロタイプに集約されない、広く薄く分散したものになると考えられる。

これに対し、解析されたＳＮＰグループ間で連鎖不平衡が見られた場合、そこにはサンプル・グループを統計的に特徴付けるＳＮＰが含まれていることであり、それらのＳＮＰでは特定のアレルの出現頻度が増大する。そして、これらＳＮＰデータを統計的に解析した結果であるハプロタイプの確率分布も、（「目標」ＳＮＰをタイピングしなかった場合より）特定のハプロタイプに集中することが予測される。

この特定ハプロタイプへの集中を識別する方法として、個々のハプロタイプの出現頻度を比較するほかに、その解析データから予測されるハプロタイプの総数、これらハプロタイプの標準偏差、確率上位のハプロタイプ・グループのハプロタイプ全体に対する出現頻度の割合を「統計量」として観測し、表現型の有無という形質の発現によって区分されるサンプル・グループ間でこれらを比較する、ＥＭアルゴリズム、ＭＣＭＣ法などで、「最尤起源ハプロタイプ」を推定する等の方法で識別することができる。

（ホ）段階７では、関連解析、ハプロタイプ解析などを使い比較したいと考えるグループ間の明確に差異のある場所を同定する（図５、図６参照）。このグループは、（罹患／非罹患）、（薬剤応答性有り／無し）、（薬剤副作用有り／無し）等様々な場合がありうる。このグループ間で段階６で求めたハプロタイプ頻度の差異が明確に見られることにより、関連を調べる表現型との関連を同定する。ハプロタイプブロック内部では、数種類のハプロタイプに限定されるため、その数種類のハプロタイプの比較をすることにより、表現型との関連のあるハプロタイプブロックを同定することができる。

一つのハプロタイプブロックでは、グループ間に明確な差異が見られない場合も考えられる（図８）。この場合もハプロタイプブロックをつなぎ合わせ一つの仮想ブロックを構築し、仮想ブロック全体を一つの仮想ハプロタイプとみなし解析をすることにより明確な差異を同定することが出来る場合がある。これは、各ハプロタイプブロックの特定の組み合わせが注目する表現型と関連している場合であり、多因子性疾患等の表現型の同定の例である（図９）。

（へ）段階５、段階６、段階７は、別々のステップとして行うこともできるし、同時に三段階を実施することもできる。

「目標」遺伝子多型を選び出して直接タイピングすることはなかなか困難である。この問題の解が、「目標」遺伝子（多型）が近傍の遺伝子多型と連鎖不平衡状態にあることを応用し、「目標」遺伝子（多型）の近傍領域（ハプロタイプブロック）を推定することである。連鎖不平衡状態にある近傍の遺伝子多型は、「目標」遺伝子（多型）を直接解析した場合と比べても同等にハプロタイプの確率分布が変化することが期待される。このような近傍の遺伝子多型は、「目標」遺伝子（多型）の「マーカー」遺伝子多型であると考えられる。即ち、対象となるサンプル（効果のあったグループ）の統計量と基準となるサンプル（効果のなかったグループ）の基準統計量とを比較し、この差異が予め設定された閾値を越えた場合、該当するタイピング領域に変化があったと判断して（マーカー遺伝子多型と推定して）、該当する調査領域を新しい調査領域に設定して次の処理サイクルを行うことができる。

図１７は、本発明の実施の形態に係る関連ゲノム領域特定システムの一例の概要を示すブロック図である。この関連ゲノム領域特定システムは、コンピュータ等で構成することができ、図１６に示すように、関連ゲノム領域特定システムは、仮想ブロック構成部１１と、ハプロタイプブロック特定部１２と、頻度算出部１３と、差のあるハプロタイプブロック特定部１４と、関連ゲノム同定部１５とから構成されている。

例えば、仮想ブロック構成部１１は、調査領域より仮想ブロックを構成する。ハプロタイプブロック特定部１２は、仮想ハプロタイプを用い、仮想ブロックを走査して、ハプロタイプブロックを特定する。頻度算出部１３は、ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める。差のあるハプロタイプブロック特定部１４は、ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する。関連ゲノム同定部１５は、特定されたハプロタイプブロックより関連ゲノム領域を同定する。このように構成された関連ゲノム領域特定システムは、上述した各種処理を実行することができる。

以上述べたように、この「関連ゲノム領域」特定解析は、家系情報を必ずしも必要としない。家系情報が得られる場合は、組み込むことができるが、同等の結果を家計情報がない場合にも得ることができる。家系情報の代わりに、ハプロタイプブロック、関連解析、仮想ハプロタイプなどの概念で解析している。

最終的には、カイ２乗検定や関連解析を用いて、「〜パーセントの確率で期待される効果が得られる」、または「〜パーセントの確率で重篤な副作用が発生する」等の評価検定を行なったり、表現型のある／なしと遺伝子型の関連付けの強度が何倍の差異があるのかの予測を示すことが出来る。また、表現型のある／無しの判断を可能とするハプロタイプブロック、ハプロタイプ、「関連ゲノム領域」の選定と、それを代表する関連遺伝子多型を特定することにより、簡潔なテーラーメイド医療実現の情報を与えることが出来る。

本実施の形態１に係る関連遺伝子特定方法は上記の如く構成されているので、以下に掲げる効果を奏する。

タイピングされた遺伝子多型の中から疾患易罹患性または薬剤応答性等の表現型に関連する遺伝子多型を特定する際に、解析の対象となる塩基配列領域を大まかな領域からより局所的な領域（ハプロタイブロック）へと絞込を行うことで、最終的にこれら関連する遺伝子（多型）を特定することができる。

本発明は以上のように構成されているので、以下に掲げる効果を奏する。

以上説明したように、この発明によれば、マーカーとなる遺伝子多型より、ハプロタイプブロック（またはそれに相当するもの）を推定することで解析の対象となる塩基配列領域を大まかな領域からより局所的な領域へと絞込を行い（グループ間の統計量を比較し、関連遺伝子領域を絞り込む）、最終的に、疾患易罹患性や薬剤応答性等の表現型に関連する遺伝子（多型）を特定することができる。

図１は、本発明の実施の形態に係る「関連ゲノム領域」特定方法の一例の概要を示すプロセスフローである。図２は、図１の第２段階の不連続ゲノム領域より仮想ブロックを構築する一例を示す図である。図３は、図１における段階１、３、５の仮想ブロックより、仮想ハプロタイプを用いハプロタイプブロックの境界を確定する一例を示す図である。図４は、図１における段階１、３、５の仮想ブロックより、仮想ハプロタイプを用いハプロタイプブロックの境界を確定する一例を示す図である。図５は、図１の段階５のハプロタイプブロックの境界を確定する一例を詳細に示す図である。図６は、図１の段階６、段階７のハプロタイプブロック内で関連解析などで二つのグループ間で明確に差のあるハプロタイプブロックを抽出する一例を示すものである。図７は、図６で抽出されたハプロタイプブロックより新たな仮想ブロックを構築する一例を示すものある。図８は、図１の段階６、段階７で明確な差異のあるハプロタイプブロックが抽出されない場合の新たな仮想ブロックを構築する一例を示すものである。図９は、図１の段階６、段階７で明確な差異のあるハプロタイプブロックが抽出されない場合の新たな仮想ブロックを構築する一例を示すものである。図１０は、図９で構築した仮想ブロックより二つのグループ間で明確に差異のあるハプロタイプブロックの組み合わせを抽出する一例を示すものである。図１１は、図１の段階４のＷｅｔプロセスでタイピングして得られた遺伝子多型のデータの一例である。図１２は、図１１のID01のサンプルの相が特定されない場合にハプロタイプの頻度を求める一例である。図１３は、図１１の遺伝子多型データよりハプロタイプ頻度を求める一例である。図１４は、図１１の遺伝子多型データよりハプロタイプ頻度を求める一例である。図１５は、図１の段階７で最尤起源ハプロタイプとその頻度を求める一例である。図１６は、本発明の実施の形態に係る「関連ゲノム領域」特定システムの一例の概要を示すブロック図である。図１７は、従来の関連遺伝子機能解析のプロセスフローの一例を示す図である。

符号の説明

１１仮想ブロック構成部
１２ハプロタイプブロック特定部
１３頻度算出部
１４差のあるハプロタイプブロック特定部
１５関連ゲノム同定部

Claims

全ゲノム領域、または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域（以後「調査領域」と略記）の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子／関連ハプロタイプ等の関連ゲノム領域（以後「関連ゲノム領域」と略記）を同定するシステマチック関連遺伝子解析方法であって、
前記調査領域より仮想ブロックを構成する第1のステップと、
仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第２のステップと、
前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める第３のステップと、
前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第４のステップと、
前記ハプロタイプブロックより前記関連ゲノム領域を同定する第５ステップと
を有することを特徴とするシステマチック関連遺伝子解析方法。
前記第1のステップは、各ハプロタイプブロックを代表するマーカーが既知の場合には、その既知のマーカーをハプロタイプブロックごとに選択し、それをブロックに渡って繋げて連続的な仮想ブロックとする
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第１，２，３，４，５のステップは、前記関連ゲノム領域を特定するためのマーカー遺伝子多型を確定し、前記関連ゲノム領域をすべてのステップ、又は、一部のステップを繰り返すことにより、段階的（一段階を含む）に絞込むステップを含む
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第２のステップは、仮想ハプロタイプ解析などの統計解析を用いて前記関連ゲノム領域と連鎖不平衡(または連鎖)状態にある単一または複数の前記ハプロタイプブロックを確定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第３のステップは、関連解析とハプロタイプ解析などの組み合わせで最尤起源ハプロタイプとその頻度を求める
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第４のステップは、前記関連解析で明確に差のあるハプロタイプを含む前記ハプロタイプブロックを、前記関連ゲノム領域と連鎖不平衡（または連鎖）状態にあるハプロタイプブロックと同定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第２のステップは、仮想ハプロタイプの組み合わせの数、エントロピー値、前記最尤起源ハプロタイプの数、連鎖不平衡度の値等の統計データにより前記ハプロタイプブロックの境界を確定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第３のステップは、ＥＭアルゴリズム、ＭＣＭＣ法などを使い、集団の前記最尤起源ハプロタイプを確定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第４のステップは、関連解析等で求められた統計量と予め設定又は測定された基準統計量とを比較し、予め設定された閾値を越える前記統計量と前記基準統計量との乖離がある場合、前記閾値を越えて乖離した位置に該当する領域（ハプロタイプブロック）に前記関連ゲノム領域が含まれると判断する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第５のステップは、前記関連解析等で明確に差異のあるハプロタイプブロック、ハプロタイプをシーケンシングなどでさらに詳細に走査／解析し、前記関連ゲノム領域を確定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第２のステップは、タイピングするマーカー遺伝子多型を、前記調査ゲノム領域内でハプロタイプブロックの長さより少なくとも短い間隔で、できる限り等間隔で選定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第２のステップは、タイピングするマーカー遺伝子多型が少なくとも関連を調べたいと考える表現型より集団史上発現が古いと考えられる遺伝子多型（遺伝子多型がＳＮＰの場合、マイナーアレル頻度があまり少なくないＳＮＰ）をｃＤＮＡ領域やエクソン領域に限ることなく、タイピングし易いマーカー遺伝子多型を選定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
前記第１，２，３，４、および５のステップは、仮想ハプロタイプの選定方法（長さなど）を変化させ、最適な関連ハプロタイプブロック、関連ハプロタイプを確定する
ことを特徴とする請求の範囲第１項に記載のシステマチック関連遺伝子解析方法。
請求の範囲第１項乃至第１３項のいずれかに記載のシステマチック関連遺伝子解析方法における処理を実現可能なコンピュータプログラムであって、請求の範囲第１項乃至第１３項のいずれかに記載の各ステップをコード化した
ことを特徴とするコンピュータプログラム。
全ゲノム領域または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域である調査領域の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子／関連ハプロタイプ等の関連ゲノム領域を同定する不連続領域解析システムであって、
前記調査領域より仮想ブロックを構成する構成手段と、
仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第１の特定手段と、
前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める頻度算出手段と、
前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第２の特定手段と、
前記ハプロタイプブロックより前記関連ゲノム領域を同定する同定手段と
を有することを特徴とする不連続領域解析システム。