JPWO2006077631A1 - 関連ゲノム領域(含む関連遺伝子/関連ハプロタイプ)のシステマチック関連遺伝子解析方法 - Google Patents
関連ゲノム領域(含む関連遺伝子/関連ハプロタイプ)のシステマチック関連遺伝子解析方法 Download PDFInfo
- Publication number
- JPWO2006077631A1 JPWO2006077631A1 JP2006553790A JP2006553790A JPWO2006077631A1 JP WO2006077631 A1 JPWO2006077631 A1 JP WO2006077631A1 JP 2006553790 A JP2006553790 A JP 2006553790A JP 2006553790 A JP2006553790 A JP 2006553790A JP WO2006077631 A1 JPWO2006077631 A1 JP WO2006077631A1
- Authority
- JP
- Japan
- Prior art keywords
- haplotype
- region
- block
- analysis
- systematic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
マーカーとなる遺伝子多型の仮想ハプロタイプを考えることで全ゲノム領域または関心のあるゲノム領域から表現型に関連のある遺伝子またはゲノム領域を関連のあるハプロタイプブロックの確定に引き続いて確定していくシステマチックな解析方法を提供する点にある。図1に示すように、本実施の形態1に係る不連続領域解析方法は、不連続ゲノム領域から仮想ブロックを構築し、仮想ハプロタイプにより、ハプロタイプブロックを確定し、その関連解析にて、表現型に関連のあるゲノム領域を確定していく手順を繰り返すことにより関連ハプロタイプブロック、関連ハプロタイプ、関連遺伝子を確定していくこともできる。
Description
全ゲノム領域(または一部の不連続調査ゲノム領域)よりの疾患易罹患性や薬剤応答性等の表現型に関する単一または複数の関連ゲノム領域(含む関連遺伝子/関連ハプロタイプ)を特定するシステマチック関連遺伝子解析方法に関する。
従来の疾患易罹患性や薬剤応答性等テーラーメイド医療の実現に関連するマイクロサテライトやSNP(Single Nucleotide Polymorphism:一塩基多型または一塩基多型となる座位)を代表とする遺伝子多型をマーカーとする関連遺伝子(または関連ゲノム領域)特定関連遺伝子解析では、コスト上の理由もあり、あらかじめ解析するゲノム領域を特定の遺伝的知識などより特定し、解析したいマーカー遺伝子多型を数十から数千程度の数(個所)に絞込んでからWetプロセス(注1)でマーカー遺伝子多型のタイピングを行っている。この解析するゲノム領域は、ccDNA領域または、エクソン領域が主であり、その中で既知のマーカー遺伝子多型をタイピングしているものが主である。
図17は、従来の関連遺伝子解析のプロセスフローを示す図である。図17に示すように従来の関連遺伝子解析においては、段階A(調査すべき遺伝子、ゲノム領域の決定)、前段階B(タイピングすべき遺伝子多型マーカーの設定)、段階C(Wetプロセスによるマーカー遺伝子多型タイピング)、段階D(データの解析)、段階E:(「目標」遺伝子の特定)が順次行われる。
通常の関連遺伝子解析プロセスでは、タイピングするマーカー遺伝子多型(以下、「タイピング遺伝子多型」と称す)を限定し、高々1万程度の遺伝子多型に絞込んで機能の解析を行う。
しかしながら、未知の疾患易罹患性や薬剤応答性とマーカー遺伝子多型および関連遺伝子の関連の有無は、そのマーカー遺伝子をタイピングした結果から統計的に解明する以外に方法はない。この為、最終的に関連が解明される「目標」遺伝子(注2)/「目標」ハプロタイプ(注3)は、予め、タイピング遺伝子多型として1千から1万程度のマーカー遺伝子多型のグループに含まれて選定されていなければならない。これらのマーカー遺伝子多型が選定からもれた場合には、解析で関連のある遺伝子多型は見つからず、解析プロセスを再度タイピング遺伝子多型グループの選定からやり直さなければならない。
タイピング遺伝子多型や関連遺伝子を選び出す従来のやり方は、研究者が論文等の文献やゲノム関連のデータベース等を検索し、機能が既に解明しているヒト以外のゲノムと類似したヒトの遺伝子の機能を予測するホモロジー検索等の手法を用いている。つまり、これは多くの場合エクソン領域、cDNA領域に限られることとなる。
しかしながら、これらのゲノム情報には、ヒト・ゲノムの機能が完全に記載されていない。この為、この遺伝子機能解析プロセスの効率を決定するタイピング遺伝子多型を選び出すステップ、つまり如何に高い確率で「目標」遺伝子を予測できるか否かは、研究者個人の経験とスキル、そして偶然の要素に大きく依存している。
さらに多因子性疾患の関連遺伝子/関連ハプロタイプは、不連続の領域に存在していることも多いが、従来の方法では連続的でない領域に存在している遺伝子(多型)/ハプロタイプと表現型とを関連付けることは出来なかった。特に複数の遺伝子(多型)/ハプロタイプのある特定の組み合わせが表現型と関連している場合は、関連を特定することが困難であった。
本発明は斯かる問題点を鑑みてなされたものであり、その目的とするところは、不連続領域よりマーカーとなる機能が未知の多型を含み得る遺伝子多型を選択し、組み合わせることにより、仮想ブロックを構成し、その仮想ブロックより関連解析等により関連ハプロタイプブロックを絞り込み、ハプロタイプブロック内のハプロタイプ頻度を関連解析等することにより、目標遺伝子/ゲノム領域およびその組み合わせを効率よく特定するシステマチック特定方法を提供する点にある。
(注1) Wetプロセスとは、遺伝子多型のタイピングを行うプロセス。特定されたタイピングのデータの統計解析は、Wetプロセスには含まれない。
(注2)「目標」遺伝子または「目標」となる遺伝子とは、疾患易罹患性や(開発新薬の)薬剤応答性など関連を調べたいと考える表現型の要因となる遺伝子、及び疾患易罹患性や薬剤応答性など関連を調べたいと考える表現型の指標となる遺伝子、以上2つのいずれかに該当するものを意味する。遺伝子機能解析の目的は、これらの遺伝子を特定することである。
(注3)「目標」ハプロタイプまたは「目標」となるハプロタイプとは、疾患易罹患性や(開発新薬の)薬剤応答性など関連を調べたいと考える表現型の要因となるハプロタイプ、及び疾患易罹患性や薬剤応答性など関連を調べたいと考える表現型の指標となるハプロタイプ、以上2つのいずれかに該当するものを意味する。ハプロタイプ機能解析の目的は、これらのハプロタイプを特定することである。
請求の範囲第1項記載の本発明の要旨は、全ゲノム領域、または、一部の解析したいと考える機能が判明又は推測されているとは限らない領域を含み得る非連続ゲノム領域(以後「調査領域」と略記)の情報より疾患易罹患性や薬剤応答性などの表現型に関する単一または複数の関連遺伝子/関連ハプロタイプ等の関連ゲノム領域(以後「関連ゲノム領域」と略記)を同定するシステマチック関連遺伝子解析方法であって、全ゲノム領域または一部の非連続領域の組み合わせより仮想ブロックを構成する第1のステップ(図1の段階2)と、仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロック(またはゲノム領域)を特定する第2ステップ(図1の段階5)と、前記ハプロタイプブロック(またはゲノム領域)内のハプロタイプ頻度を関連解析で求める第3ステップ(図1の段階6)と、前記関連解析で明確に差のあるハプロタイプブロック/ハプロタイプ及びその組み合わせを特定する第4ステップ(図1の段階7)と、前記ハプロタイプブロックおよび/またはハプロタイプより、前記関連遺伝子/関連ハプロタイプ及びその組み合わせを同定する第5ステップ(図1の段階8)を有することを特徴とするシステマチック関連遺伝子解析方法に存する。
請求の範囲第2項記載の本発明の要旨は、全ゲノム領域、または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域(以後「調査領域」と略記)の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子/関連ハプロタイプ等の関連ゲノム領域(以後「関連ゲノム領域」と略記)を同定するシステマチック関連遺伝子解析方法であって、前記調査領域より仮想ブロックを構成する第1のステップと、仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第2のステップと、前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める第3のステップと、前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第4のステップと、前記ハプロタイプブロックより前記関連ゲノム領域を同定する第5ステップとを有することを特徴とするシステマチック関連遺伝子解析方法に存する。
請求の範囲第2項記載の本発明の要旨は、前記第1のステップは、各ハプロタイプブロックを代表するマーカーが既知の場合には、その既知のマーカーをハプロタイプブロックごとに選択し、それをブロックに渡って繋げて連続的な仮想ブロックとすることを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第3項記載の本発明の要旨は、前記第1,2,3,4,5のステップは、前記関連ゲノム領域を特定するためのマーカー遺伝子多型を確定し、前記関連ゲノム領域をすべてのステップ、又は、一部のステップを繰り返すことにより、段階的(一段階を含む)に絞込むステップを含むことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第4項記載の本発明の要旨は、前記第2のステップは、仮想ハプロタイプ解析などの統計解析を用いて前記関連ゲノム領域と連鎖不平衡(または連鎖)状態にある単一または複数の前記ハプロタイプブロックを確定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第5項記載の本発明の要旨は、前記第3のステップは、関連解析とハプロタイプ解析などの組み合わせで最尤起源ハプロタイプとその頻度を求めることを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第6項記載の本発明の要旨は、前記第4のステップは、前記関連解析で明確に差のあるハプロタイプを含む前記ハプロタイプブロックを、前記関連ゲノム領域と連鎖不平衡(または連鎖)状態にあるハプロタイプブロックと同定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第7項記載の本発明の要旨は、前記第2のステップは、仮想ハプロタイプの組み合わせの数、エントロピー値、前記最尤起源ハプロタイプの数、連鎖不平衡度の値等の統計データにより前記ハプロタイプブロックの境界を確定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第8項記載の本発明の要旨は、前記第3のステップは、EMアルゴリズム、MCMC法などを使い、集団の前記最尤起源ハプロタイプを確定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第9項記載の本発明の要旨は、前記第4のステップは、関連解析等で求められた統計量と予め設定又は測定された基準統計量とを比較し、予め設定された閾値を越える前記統計量と前記基準統計量との乖離がある場合、前記閾値を越えて乖離した位置に該当する領域(ハプロタイプブロック)に前記関連ゲノム領域が含まれると判断する ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第10項記載の本発明の要旨は、前記第5のステップは、前記関連解析等で明確に差異のあるハプロタイプブロック、ハプロタイプをシーケンシングなどでさらに詳細に走査/解析し、前記関連ゲノム領域を確定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第11項記載の本発明の要旨は、前記第2のステップは、タイピングするマーカー遺伝子多型を、前記調査ゲノム領域内でハプロタイプブロックの長さより少なくとも短い間隔で、できる限り等間隔で選定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第12項記載の本発明の要旨は、前記第2のステップは、タイピングするマーカー遺伝子多型が少なくとも関連を調べたいと考える表現型より集団史上発現が古いと考えられる遺伝子多型(遺伝子多型がSNPの場合、マイナーアレル頻度があまり少なくないSNP)をcDNA領域やエクソン領域に限ることなく、タイピングし易いマーカー遺伝子多型を選定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第13項記載の本発明の要旨は、前記第1,2,3,4、および5のステップは、仮想ハプロタイプの選定方法(長さなど)を変化させ、最適な関連ハプロタイプブロック、関連ハプロタイプを確定することを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法に存する。
請求の範囲第14項記載の本発明の要旨は、請求の範囲第1項乃至第13項のいずれかに記載のシステマチック関連遺伝子解析方法における処理を実現可能なコンピュータプログラムであって、請求の範囲第1項乃至第13項のいずれかに記載の各ステップをコード化したことを特徴とするコンピュータプログラムに存する。
請求の範囲第15項記載の本発明の要旨は、全ゲノム領域または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域である調査領域の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子/関連ハプロタイプ等の関連ゲノム領域を同定する不連続領域解析システムであって、前記調査領域より仮想ブロックを構成する構成手段と、仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第1の特定手段と、前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める頻度算出手段と、前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第2の特定手段と、前記ハプロタイプブロックより前記関連ゲノム領域を同定する同定手段とを有することを特徴とする不連続領域解析システムに存する。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
(実施の形態)
以下において、仮想ブロックは、全ゲノム領域または、全ゲノム領域内の一部の不連続領域を繋げる事により作り出した仮想的な連続領域と定義する。
以下において、仮想ブロックは、全ゲノム領域または、全ゲノム領域内の一部の不連続領域を繋げる事により作り出した仮想的な連続領域と定義する。
また、ハプロタイプブロックは、連鎖不平衡状態にあり、組み換えの履歴のほとんど見られない一塊で遺伝していくDNA領域とする。
また、仮想ハプロタイプは、「調査領域」で連鎖(連鎖不平衡)がある、なしにかかわらずゲノム領域の一部分の遺伝子多型情報を繋ぎ、その組み合わせを考える領域または、その組み合わせそのものを表す。
また、「関連ゲノム領域」は、薬剤応答性の有無や特定の疾病の有無等表現型の直接の要因遺伝子であるとすることもできるし、直接の要因遺伝子を含むハプロタイプブロックのように、その表現型の有無を識別することのできる識別領域であるとすることもでき、この領域は連続領域であるとすることも不連続領域であるとすることもできる。
また、仮想ハプロタイプ解析は、仮想ハプロタイプを使った解析を表す。また、「最尤起源ハプロタイプ」は、集団内の個人のハプロタイプの相が特定されない場合にその集団のハプロタイプを説明する上で尤もらしいハプロタイプを表す。
また、仮想ハプロタイプ解析は、仮想ハプロタイプを使った解析を表す。また、「最尤起源ハプロタイプ」は、集団内の個人のハプロタイプの相が特定されない場合にその集団のハプロタイプを説明する上で尤もらしいハプロタイプを表す。
図1は、本実施の形態に係る「関連ゲノム領域」システマチック特定方法の解析フローの概要を示す一例である。図1に示すように、本実施の形態に係る「関連ゲノム領域」システマチック特定方法は、調査領域の決定(段階1)、仮想ブロックの構築(段階2)、「タイピング」遺伝子多型の決定(段階3)、Wetプロセスによる遺伝子多型のタイピング(段階4)と関連解析、ハプロタイプ解析等統計解析による「関連ゲノム領域」の決定(段階5)と関連解析、ハプロタイプ解析等統計解析による「関連ゲノム領域」内のハプロタイプの頻度の決定(段階6)と「関連ゲノム領域」より明確な差異のある関連遺伝子(または、より詳細な関連ゲノム領域)の同定(段階7) 「目標」遺伝子(目標遺伝子)、遺伝子多型の特定(段階8)とを有し、段階1〜段階7を1つのサイクルとして繰り返すこともできる。本発明は、Wetプロセスを請求範囲としていないが、解析フローを繰り返す際にWetプロセスもその一部に含まれるため、実施形態の中に含める。
疾患易罹患性または薬剤応答性等の表現型に関連する「関連ゲノム領域」をこの解析手法では、以上の7つの段階を実施することによって、最初にマーカー遺伝子多型のタイピングを行う「調査領域」から(段階的に)絞込んで、最終的に開発新薬の薬剤応答性の有無等の表現型と関連する「関連ゲノム領域」を特定する。この「関連ゲノム領域」は、一遺伝子多型の場合もあるし、ハプロタイプのように複数の遺伝子多型の組み合わせの場合もあるし、一つの遺伝子の場合もある。 「関連ゲノム領域」の特定の際に、「関連ゲノム領域」に関する特定の知識を仮定することなく、サンプルの家系情報を仮定としないことを特徴とする。
疾患易罹患性または薬剤応答性等の表現型に関連する「関連ゲノム領域」をこの解析手法では、以上の7つの段階を実施することによって、最初にマーカー遺伝子多型のタイピングを行う「調査領域」から(段階的に)絞込んで、最終的に開発新薬の薬剤応答性の有無等の表現型と関連する「関連ゲノム領域」を特定する。この「関連ゲノム領域」は、一遺伝子多型の場合もあるし、ハプロタイプのように複数の遺伝子多型の組み合わせの場合もあるし、一つの遺伝子の場合もある。 「関連ゲノム領域」の特定の際に、「関連ゲノム領域」に関する特定の知識を仮定することなく、サンプルの家系情報を仮定としないことを特徴とする。
次に、図1を参照して、各ステップにおける処理を詳しく説明する。
(イ)疾患易罹患性または薬剤応答性などの表現型に関連する「関連ゲノム領域」を特定する場合、疾患罹患グループと疾患非罹患グループについて、疾患罹患者の中で作用もしくは副作用のあったグループと、これがなかったグループについてなどの二つのグループに関して、段階1以降の解析を行う。 この際、比較基準がある集団の全体である場合、その集団に対する一般的なデータベースと比較することもできる。
(ロ)段階1(「調査領域」の決定):この解析では、この段階1から後に説明する段階7までを1つのサイクルとしてこれを繰り返すことによって、初期の大まかな「調査領域」からより局所的な「調査領域」へと段階的に絞込を行うこともできる。まったく関連する遺伝子型についての情報を持ち合わせない表現型を調査したい場合は、全ゲノム領域で、エクソン以外の興味のある領域をも含んだ領域を「調査領域」とするのが好ましい。遺伝子やそれより大きな染色体等の大まかなレベルでゲノム領域が既知である場合や特定の遺伝情報より関連ゲノム領域が想定できる場合、また、複数の染色体が原因となり、どの染色体が怪しいか(「関連ゲノム領域」を含む)わからない場合、ある特定の染色体を除いた残りの全ての染色体(結果に男女の差が無い場合、性染色体は関係が無いので「調査領域」から除外するなどの措置をして)を対象とする場合など「調査領域」を大まかに絞り込むこともできる。また、これより詳細な、例えば遺伝子レベルで初期の「調査領域」を設定することもできる。即ち、予め機能が解明されている染色体レベルに基づき、調査領域(1次調査領域、初期調査領域)を設定することもできる。
(ハ)段階2は、決定された「調査領域」より、各連続領域をつなぎ合わせることにより仮想的に連続な仮想ブロック構築する。この仮想ブロックをベースにあたかも一つの連続する領域のごとく扱い以下の解析を勧めていく。
(二)この仮想ブロックよりタイピングする遺伝子(多型)を決定する。「タイピング」遺伝子多型は、明確に候補となる遺伝子多型が存在しない場合は、「調査領域」よりハプロタイプブロックより少なくとも短い間隔で、関連を調べたいと考える表現型が対象の集団史上発現したと考えられるより以前に形成されたと予想される遺伝子多型のなかで、タイピングしやすい(ユニークに調べ易い)遺伝子多型を選ぶことが好ましい。「調査領域」に関して何も情報がない場合は、できる限り等間隔であることが効率的である。これは、ハプロタイプブロックそれぞれに大体似た数のマーカー遺伝子多型をタイピングすることを目的とし、それによりハプロタイプブロックの確定を効率的にし、且つ関連解析にて明確に差異を示しやすくする。一方ハプロタイプブロックを代表する遺伝子多型が既知の場合はそれをマーカーとすることが効率的である。
(ホ)段階4は、Wetプロセスによる遺伝子多型のタイピングである、このタイピングされた遺伝子多型に関する情報は、ハーディーワインバーグ平衡が成り立っているかどうかなどで、正しく目的の遺伝子多型がタイピングされたかどうかを確認するのが好ましい。
(へ)段階5は、タイピングされた遺伝子多型データを関連解析、ハプロタイプ解析などでハプロタイプブロックを走査する段階であり、一例を図2、図3、図4に示す。ハプロタイプブロックは、遺伝子情報が連鎖しており(または連鎖不平衡状態にあり)一つの情報単位として扱うこともできる単位である。また、ハプロタイプブロック内では実際に集団で観測されるハプロタイプの種類は集団のほぼすべてで数種類に限定される。
これより、図4に示すがごとく仮想ハプロタイプをハプロタイプブロック内にとった場合と、ハプロタイプをまたいでとった場合に明確な差が現れる。ハプロタイプブロック内に仮想ハプロタイプをとった場合は、集団でのハプロタイプの種類は少なくなるが、ハプロタイプブロックをまたいで仮想ハプロタイプを取ると集団でのハプロタイプの種類は多くなる。これは、ハプロタイプの相が特定されている場合は明確であるし、相が特定されていない場合でも集団のとりうるハプロタイプの種類数に明確に現れる場合もあるし、現れない場合でもEMアルゴリズムや、MCMC法などを用いてその集団の「最尤起源ハプロタイプ」を推測することによって明らかにすることができる。このハプロタイプブロック内で推測される集団の「最尤起源ハプロタイプ」は、相の特定された時のハプロタイプとよく一致することが示され始めている。
また、ハプロタイプブロック内では、ハプロタイプの種類が限られるゆえに、仮想ハプロタイプをハプロタイプブロック内でとった場合には、集団でハプロタイプのエントロピーを計算した場合に小さくなる(秩序がある)が、ハプロタイプブロックをまたいで仮想ハプロタイプをとった場合は、集団でのハプロタイプのエントロピーが高くなる(秩序がない)。
これ以外にも、ハプロタイプブロック内は、連鎖不平衡がある為、様々な連鎖不平衡度を用いると、ハプロタイプブロック内の仮想ハプロタイプは、連鎖不平衡度が大きく、ハプロタイプブロックをまたいだ仮想ハプロタイプは、連鎖不平衡度が小さくなる。このようにして、調査領域からハプロタイプブロックまたは、ハプロタイプブロックのように情報が凝縮されていると考えられるゲノム領域が選定できる。ハプロタイプブロックが明確に確定されない場合は、本解析フローをハプロタイプブロックがありそうな場所をより詳細に調査して確定することもできる。
(ト)段階6は、図6に示すように、ハプロタイプブロック内で、ハプロタイプ頻度を計算する過程である。図11に示すような遺伝子多型情報が得られることが一般的である。この情報は、ID01等がサンプルの番号を表し、Loc1等がゲノムのローカスの位置を表す。データは、相同染色体の情報が表されており、相同なローカス情報が等しい場合にホモ接合体とよばれ、異なっている場合にヘテロ接合体と呼ばれる。この図11に示したような情報より、統計的に処理をし、図13に示すようなハプロタイプの頻度情報を求めることができる。このハプロタイプの頻度を求める方法を簡単に述べると(ここでは簡単のため遺伝子多型は、SNPであり、ローカスは、5個であるとする)。図12に示すごとく、一つの配偶子(対となる染色体の一方)上にある対立遺伝子(SNPのアレル)の組合せであるハプロタイプは、相が特定されない場合には確率的に予測される。たとえば、ID02のアレル情報は次に示すがごとくである。
ID02 A/G C/T G/G C/T C/C
このハプロタイプを確率的に予測することについて、AまたはGを取るSNP#1、CまたはTを取るSNP#2、Gのみと取るSNP#3、CまたはTを取るSNP#4、Cのみを取るSNP#5、以上の5つのSNPが取るハプロタイプのケースから考える。SNP#1、#2、#4は、ヘテロ接合であり、SNP#3、#5はホモ接合である。
仮想ハプロタイプ 頻度(尤度)
1. A C G C C 1/8
2. A C G T C 1/8
3. A T G C C 1/8
4. A T G T C 1/8
5. G C G C C 1/8
6. G C G T C 1/8
7. G T G C C 1/8
8. G T G T C 1/8
1. A C G C C 1/8
2. A C G T C 1/8
3. A T G C C 1/8
4. A T G T C 1/8
5. G C G C C 1/8
6. G C G T C 1/8
7. G T G C C 1/8
8. G T G T C 1/8
これが、サンプルID02の取りうるハプロタイプであり、各ハプロタイプは頻度(尤度)1/8(=0.125)であると考えることができる。
このような集計を図13に示す。サンプル10に対し加算をし、規格化をすると、図14に示す各ハプロタイプの尤度を求めることが出来る。
このように、集団での統計を取ったデータをそのまま使うことも出来るし、この統計データよりMCMC法、EMアルゴリズムなどでこの集団の[最尤起源ハプロタイプ]を推定し、その[最尤起源ハプロタイプ]を比較することも出来る(図15参照)。これらのSNPの間に連鎖不平衡が見られない場合、各SNPのアレルの出現頻度は「平均的」な値に落ち着き、加えて、各々のSNPが「独立」しているため、そこから統計的に求められるハプロタイプについても、特定のハプロタイプに集約されない、広く薄く分散したものになると考えられる。
これに対し、解析されたSNPグループ間で連鎖不平衡が見られた場合、そこにはサンプル・グループを統計的に特徴付けるSNPが含まれていることであり、それらのSNPでは特定のアレルの出現頻度が増大する。そして、これらSNPデータを統計的に解析した結果であるハプロタイプの確率分布も、(「目標」SNPをタイピングしなかった場合より)特定のハプロタイプに集中することが予測される。
この特定ハプロタイプへの集中を識別する方法として、個々のハプロタイプの出現頻度を比較するほかに、その解析データから予測されるハプロタイプの総数、これらハプロタイプの標準偏差、確率上位のハプロタイプ・グループのハプロタイプ全体に対する出現頻度の割合を「統計量」として観測し、表現型の有無という形質の発現によって区分されるサンプル・グループ間でこれらを比較する、EMアルゴリズム、MCMC法などで、「最尤起源ハプロタイプ」を推定する等の方法で識別することができる。
(ホ)段階7では、関連解析、ハプロタイプ解析などを使い比較したいと考えるグループ間の明確に差異のある場所を同定する(図5、図6参照)。このグループは、(罹患/非罹患)、(薬剤応答性有り/無し)、(薬剤副作用有り/無し)等様々な場合がありうる。このグループ間で段階6で求めたハプロタイプ頻度の差異が明確に見られることにより、関連を調べる表現型との関連を同定する。ハプロタイプブロック内部では、数種類のハプロタイプに限定されるため、その数種類のハプロタイプの比較をすることにより、表現型との関連のあるハプロタイプブロックを同定することができる。
一つのハプロタイプブロックでは、グループ間に明確な差異が見られない場合も考えられる(図8)。この場合もハプロタイプブロックをつなぎ合わせ一つの仮想ブロックを構築し、仮想ブロック全体を一つの仮想ハプロタイプとみなし解析をすることにより明確な差異を同定することが出来る場合がある。これは、各ハプロタイプブロックの特定の組み合わせが注目する表現型と関連している場合であり、多因子性疾患等の表現型の同定の例である(図9)。
(へ)段階5、段階6、段階7は、別々のステップとして行うこともできるし、同時に三段階を実施することもできる。
「目標」遺伝子多型を選び出して直接タイピングすることはなかなか困難である。この問題の解が、「目標」遺伝子(多型)が近傍の遺伝子多型と連鎖不平衡状態にあることを応用し、「目標」遺伝子(多型)の近傍領域(ハプロタイプブロック)を推定することである。連鎖不平衡状態にある近傍の遺伝子多型は、「目標」遺伝子(多型)を直接解析した場合と比べても同等にハプロタイプの確率分布が変化することが期待される。このような近傍の遺伝子多型は、「目標」遺伝子(多型)の「マーカー」遺伝子多型であると考えられる。即ち、対象となるサンプル(効果のあったグループ)の統計量と基準となるサンプル(効果のなかったグループ)の基準統計量とを比較し、この差異が予め設定された閾値を越えた場合、該当するタイピング領域に変化があったと判断して(マーカー遺伝子多型と推定して)、該当する調査領域を新しい調査領域に設定して次の処理サイクルを行うことができる。
図17は、本発明の実施の形態に係る関連ゲノム領域特定システムの一例の概要を示すブロック図である。この関連ゲノム領域特定システムは、コンピュータ等で構成することができ、図16に示すように、関連ゲノム領域特定システムは、仮想ブロック構成部11と、ハプロタイプブロック特定部12と、頻度算出部13と、差のあるハプロタイプブロック特定部14と、関連ゲノム同定部15とから構成されている。
例えば、仮想ブロック構成部11は、調査領域より仮想ブロックを構成する。ハプロタイプブロック特定部12は、仮想ハプロタイプを用い、仮想ブロックを走査して、ハプロタイプブロックを特定する。頻度算出部13は、ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める。差のあるハプロタイプブロック特定部14は、ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する。関連ゲノム同定部15は、特定されたハプロタイプブロックより関連ゲノム領域を同定する。このように構成された関連ゲノム領域特定システムは、上述した各種処理を実行することができる。
以上述べたように、この「関連ゲノム領域」特定解析は、家系情報を必ずしも必要としない。家系情報が得られる場合は、組み込むことができるが、同等の結果を家計情報がない場合にも得ることができる。家系情報の代わりに、ハプロタイプブロック、関連解析、仮想ハプロタイプなどの概念で解析している。
最終的には、カイ2乗検定や関連解析を用いて、「〜パーセントの確率で期待される効果が得られる」、または「〜パーセントの確率で重篤な副作用が発生する」等の評価検定を行なったり、表現型のある/なしと遺伝子型の関連付けの強度が何倍の差異があるのかの予測を示すことが出来る。また、表現型のある/無しの判断を可能とするハプロタイプブロック、ハプロタイプ、「関連ゲノム領域」の選定と、それを代表する関連遺伝子多型を特定することにより、簡潔なテーラーメイド医療実現の情報を与えることが出来る。
本実施の形態1に係る関連遺伝子特定方法は上記の如く構成されているので、以下に掲げる効果を奏する。
タイピングされた遺伝子多型の中から疾患易罹患性または薬剤応答性等の表現型に関連する遺伝子多型を特定する際に、解析の対象となる塩基配列領域を大まかな領域からより局所的な領域(ハプロタイブロック)へと絞込を行うことで、最終的にこれら関連する遺伝子(多型)を特定することができる。
本発明は以上のように構成されているので、以下に掲げる効果を奏する。
以上説明したように、この発明によれば、マーカーとなる遺伝子多型より、ハプロタイプブロック(またはそれに相当するもの)を推定することで解析の対象となる塩基配列領域を大まかな領域からより局所的な領域へと絞込を行い(グループ間の統計量を比較し、関連遺伝子領域を絞り込む)、最終的に、疾患易罹患性や薬剤応答性等の表現型に関連する遺伝子(多型)を特定することができる。
11 仮想ブロック構成部
12 ハプロタイプブロック特定部
13 頻度算出部
14 差のあるハプロタイプブロック特定部
15 関連ゲノム同定部
12 ハプロタイプブロック特定部
13 頻度算出部
14 差のあるハプロタイプブロック特定部
15 関連ゲノム同定部
Claims (15)
- 全ゲノム領域、または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域(以後「調査領域」と略記)の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子/関連ハプロタイプ等の関連ゲノム領域(以後「関連ゲノム領域」と略記)を同定するシステマチック関連遺伝子解析方法であって、
前記調査領域より仮想ブロックを構成する第1のステップと、
仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第2のステップと、
前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める第3のステップと、
前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第4のステップと、
前記ハプロタイプブロックより前記関連ゲノム領域を同定する第5ステップと
を有することを特徴とするシステマチック関連遺伝子解析方法。 - 前記第1のステップは、各ハプロタイプブロックを代表するマーカーが既知の場合には、その既知のマーカーをハプロタイプブロックごとに選択し、それをブロックに渡って繋げて連続的な仮想ブロックとする
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第1,2,3,4,5のステップは、前記関連ゲノム領域を特定するためのマーカー遺伝子多型を確定し、前記関連ゲノム領域をすべてのステップ、又は、一部のステップを繰り返すことにより、段階的(一段階を含む)に絞込むステップを含む
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第2のステップは、仮想ハプロタイプ解析などの統計解析を用いて前記関連ゲノム領域と連鎖不平衡(または連鎖)状態にある単一または複数の前記ハプロタイプブロックを確定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第3のステップは、関連解析とハプロタイプ解析などの組み合わせで最尤起源ハプロタイプとその頻度を求める
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第4のステップは、前記関連解析で明確に差のあるハプロタイプを含む前記ハプロタイプブロックを、前記関連ゲノム領域と連鎖不平衡(または連鎖)状態にあるハプロタイプブロックと同定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第2のステップは、仮想ハプロタイプの組み合わせの数、エントロピー値、前記最尤起源ハプロタイプの数、連鎖不平衡度の値等の統計データにより前記ハプロタイプブロックの境界を確定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第3のステップは、EMアルゴリズム、MCMC法などを使い、集団の前記最尤起源ハプロタイプを確定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第4のステップは、関連解析等で求められた統計量と予め設定又は測定された基準統計量とを比較し、予め設定された閾値を越える前記統計量と前記基準統計量との乖離がある場合、前記閾値を越えて乖離した位置に該当する領域(ハプロタイプブロック)に前記関連ゲノム領域が含まれると判断する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第5のステップは、前記関連解析等で明確に差異のあるハプロタイプブロック、ハプロタイプをシーケンシングなどでさらに詳細に走査/解析し、前記関連ゲノム領域を確定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第2のステップは、タイピングするマーカー遺伝子多型を、前記調査ゲノム領域内でハプロタイプブロックの長さより少なくとも短い間隔で、できる限り等間隔で選定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第2のステップは、タイピングするマーカー遺伝子多型が少なくとも関連を調べたいと考える表現型より集団史上発現が古いと考えられる遺伝子多型(遺伝子多型がSNPの場合、マイナーアレル頻度があまり少なくないSNP)をcDNA領域やエクソン領域に限ることなく、タイピングし易いマーカー遺伝子多型を選定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 前記第1,2,3,4、および5のステップは、仮想ハプロタイプの選定方法(長さなど)を変化させ、最適な関連ハプロタイプブロック、関連ハプロタイプを確定する
ことを特徴とする請求の範囲第1項に記載のシステマチック関連遺伝子解析方法。 - 請求の範囲第1項乃至第13項のいずれかに記載のシステマチック関連遺伝子解析方法における処理を実現可能なコンピュータプログラムであって、請求の範囲第1項乃至第13項のいずれかに記載の各ステップをコード化した
ことを特徴とするコンピュータプログラム。 - 全ゲノム領域または、解析したいと考える一部の機能が解明又は推測されているとは限らない領域を含み得る不連続ゲノム領域である調査領域の情報より、疾患易罹患性や薬剤応答性等の表現型に関連する単一または複数の関連遺伝子/関連ハプロタイプ等の関連ゲノム領域を同定する不連続領域解析システムであって、
前記調査領域より仮想ブロックを構成する構成手段と、
仮想ハプロタイプを用い、前記仮想ブロックを走査し、ハプロタイプブロックを特定する第1の特定手段と、
前記ハプロタイプブロック内のハプロタイプの頻度をハプロタイプ解析、関連解析等で求める頻度算出手段と、
前記ハプロタイプ解析、関連解析等で明確に差のあるハプロタイプブロックを特定する第2の特定手段と、
前記ハプロタイプブロックより前記関連ゲノム領域を同定する同定手段と
を有することを特徴とする不連続領域解析システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/000594 WO2006077631A1 (ja) | 2005-01-19 | 2005-01-19 | 関連ゲノム領域(含む関連遺伝子/関連ハプロタイプ)のシステマチック関連遺伝子解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2006077631A1 true JPWO2006077631A1 (ja) | 2008-06-12 |
Family
ID=36692029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006553790A Pending JPWO2006077631A1 (ja) | 2005-01-19 | 2005-01-19 | 関連ゲノム領域(含む関連遺伝子/関連ハプロタイプ)のシステマチック関連遺伝子解析方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20080133144A1 (ja) |
EP (1) | EP1840212A1 (ja) |
JP (1) | JPWO2006077631A1 (ja) |
WO (1) | WO2006077631A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404793B (zh) * | 2015-12-07 | 2018-05-11 | 浙江大学 | 基于概率框架和重测序技术快速发现表型相关基因的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003083442A2 (en) * | 2002-03-26 | 2003-10-09 | Perlegen Sciences, Inc. | Life sciences business systems and methods |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU785425B2 (en) * | 2001-03-30 | 2007-05-17 | Genetic Technologies Limited | Methods of genomic analysis |
-
2005
- 2005-01-19 US US11/814,236 patent/US20080133144A1/en not_active Abandoned
- 2005-01-19 WO PCT/JP2005/000594 patent/WO2006077631A1/ja active Application Filing
- 2005-01-19 JP JP2006553790A patent/JPWO2006077631A1/ja active Pending
- 2005-01-19 EP EP05703831A patent/EP1840212A1/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003083442A2 (en) * | 2002-03-26 | 2003-10-09 | Perlegen Sciences, Inc. | Life sciences business systems and methods |
Non-Patent Citations (3)
Title |
---|
JPN6010046227, J. Thromb. Haemost., 1[7](2003) p.1398−1402 * |
JPN6010046228, Trends Genet, 19[3](2003) p.135−140 * |
JPN6010046229, バイオベンチャー, 3[4](2003) p.41−45 * |
Also Published As
Publication number | Publication date |
---|---|
WO2006077631A1 (ja) | 2006-07-27 |
US20080133144A1 (en) | 2008-06-05 |
EP1840212A1 (en) | 2007-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031101B2 (en) | Finding relatives in a database | |
Al-Mamun et al. | Genome-wide linkage disequilibrium and genetic diversity in five populations of Australian domestic sheep | |
Peripolli et al. | Runs of homozygosity: current knowledge and applications in livestock | |
Olsen et al. | Genetic support for a quantitative trait nucleotide in the ABCG2 gene affecting milk composition of dairy cattle | |
Albrechtsen et al. | Relatedness mapping and tracts of relatedness for genome‐wide data in the presence of linkage disequilibrium | |
Rodríguez-Ramilo et al. | Inbreeding and effective population size in French dairy sheep: Comparison between genomic and pedigree estimates | |
KR20200011471A (ko) | 심층 신경망에 기반한 변이체 분류자 | |
Wang et al. | Digenic variants of planar cell polarity genes in human neural tube defect patients | |
Parker et al. | High-resolution genetic mapping of complex traits from a combined analysis of F2 and advanced intercross mice | |
Roberts et al. | The genome-wide association study—a new era for common polygenic disorders | |
CA2731991A1 (en) | Methods for allele calling and ploidy calling | |
CN110931081A (zh) | 一种人单基因遗传疾病检测生物信息分析方法 | |
Desjardins et al. | Fine-scale mapping of the Nasonia genome to chromosomes using a high-density genotyping microarray | |
Genete et al. | Genotyping and de novo discovery of allelic variants at the Brassicaceae self-incompatibility locus from short-read sequencing data | |
Nembaware et al. | Allele-specific transcript isoforms in human | |
Adams et al. | Investigating inbreeding in the turkey (Meleagris gallopavo) genome | |
US20150286774A1 (en) | Method and arrangement for determining traits of a mammal | |
Carr et al. | IBDfinder and SNPsetter: tools for pedigree‐independent identification of autozygous regions in individuals with recessive inherited disease | |
JP6564053B2 (ja) | 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法 | |
JPWO2006077631A1 (ja) | 関連ゲノム領域(含む関連遺伝子/関連ハプロタイプ)のシステマチック関連遺伝子解析方法 | |
Hajihosseinlo et al. | Genetic structure analysis in several populations of cattle using SNP genotypes | |
WO2009055805A2 (en) | Genetic markers and methods for improving swine genetics | |
Magi et al. | AUDACITY: A comprehensive approach for the detection and classification of Runs of Homozygosity in medical and population genomics | |
Fialkowski et al. | Multifactorial inheritance and complex diseases | |
JP2008125390A (ja) | 逆ホモ接合マッピング法による同祖領域の抽出方法および遺伝子スクリーニング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110201 |