JPWO2006027835A1 - ゲノム解析方法 - Google Patents

ゲノム解析方法 Download PDF

Info

Publication number
JPWO2006027835A1
JPWO2006027835A1 JP2006534946A JP2006534946A JPWO2006027835A1 JP WO2006027835 A1 JPWO2006027835 A1 JP WO2006027835A1 JP 2006534946 A JP2006534946 A JP 2006534946A JP 2006534946 A JP2006534946 A JP 2006534946A JP WO2006027835 A1 JPWO2006027835 A1 JP WO2006027835A1
Authority
JP
Japan
Prior art keywords
population
estimating
state
sample
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006534946A
Other languages
English (en)
Inventor
順治 田中
順治 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Information Technologies Corp
Original Assignee
Digital Information Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Information Technologies Corp filed Critical Digital Information Technologies Corp
Publication of JPWO2006027835A1 publication Critical patent/JPWO2006027835A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、サンプルデータにより母集団の特徴を推定するための解析を行うことができるようにする。サンプルデータを取り込み、双対性を成す二つの第1及び第2の状態に遺伝(統計)学の知識を埋め込み、第1及び第2の状態を任意の値に収束させることで、サンプルデータが属する母集団の特徴を推定し、母集団の特徴を推定した結果を出力するようにする。これにより、サンプルデータにより母集団の特徴を推定するための解析を行うことができる。

Description

本発明は、サンプルデータにより母集団の特徴を推定するための解析を行うゲノム解析方法に関する。
地球上に存在する全ての生物は細胞から構成されていて、その細胞一個一個に遺伝子情報を記録したゲノムが存在している。細胞は構造の違いにより、原核細胞と真核細胞とに分類される。バクテリアやラン藻のような原核細胞でのゲノムは細胞内に仕切りのない状態で存在しているが、動植物のような真核細胞でのゲノムは核膜で囲まれた核の中に存在している。
つまり、ゲノムとは生命活動を営むために欠かすことのできない染色体の一組の集まりを指すものである。また、ゲノム(genome)は、遺伝子(gene)と染色体(chromosome)からできた複合語である。
ここで、生命の基本は細胞であり、その細胞は細胞膜で囲まれ、核は核膜で囲まれ、それぞれの単位の独立性が保たれている。ヒトの細胞は、神経細胞、筋細胞、血球・免疫系細胞、皮膚や組織の表面の細胞である上皮細胞、感覚細胞等の機能や形態が分化し、特殊化した細胞群と、それらのもとになる幹細胞といわれる未分化の細胞とからできている。細胞には重要な、時間的に変化する側面がある。それは、細胞分裂して新しい細胞を作ることである。細胞分裂は、遺伝子情報の伝達と発現を可能にする重要な仕組みである。
核の中に染色体がある。その染色体こそが、遺伝子情報を担っているもので、遺伝子はその上に並んでいる。遺伝子は、ゲノムの中でタンパク質の作り方を定義しているといっても良い。染色体を構成している基本物質はDNA(デオキシリボ核酸)で、遺伝情報はDNAの中から四つの塩基、A、T、G、Cの並びに保存されている。バクテリアやウイルスのような1倍体の生物は、一個のゲノムを持っている。
二倍体の生物である、たとえばヒトの卵子や精子のような生殖細胞は23種類の染色体からなる1組のゲノムを持っている。体細胞では2組のゲノム(46種類の染色体)を持っている。ヒトのゲノムは約30億個のDNAの塩基対(3000メガ塩基対、1メガは100万塩基対)から成り立っていて、1本の紐にすると約1メートルの長さになる。
ゲノムは、細胞の中に存在する遺伝子情報の総体であり、そこには遺伝子と遺伝子の発現を制御する情報等が含まれている。ここで、タンパク質及び遺伝子は、いわば製品とその設計図であり、ゲノム上には設計図の他に製品の製造を管理・制御している部分が存在することになる。また、現在ではその存在意義が不明であるが、生物の機能維持に何らかの影響を及ぼしていると考えられる領域もかなりの割合で存在している。これらを明らかにしていくことによって、生命現象のより正確な把握が可能になると考えられている。
こうしたことから、ヒトゲノムと呼ばれるヒトのゲノム全塩基配列を解析する「ヒトゲノム解析計画」や「全てのゲノムの塩基配列を決定してしまおう」というプロジェクトがヒトを含めた様々な生物を対象として研究されている。そして、遺伝子とタンパク質との3位一体の研究により、高度な生命現象の把握が期待されることになる。
それにはまず、遺伝子間のネットワークが分からなければならないと考えられる。つまり、複数のタンパク質がネットワークを形成していて、それらのタンパク質群が特定の機能を発揮しているからである。そのため、どのような機能や情報のやり取りが行われているのかを研究していけば、未知の機能を持つ遺伝子が見つかるかもしれない。
ここで、ゲノム解析とは、生物のゲノムの持つ遺伝情報を総合的に解析することであり、ゲノムを構成するDNA分子の塩基配列(GATCの並び)を決めることから始まる。しかし、塩基配列データからだけでは、どこにどのような遺伝子があるのかは簡単には分からない。そこで、転写・翻訳によって作られるメッセンジャーRNAやタンパク質等の遺伝子産物の解析、生物種間で塩基配列がどれだけ似ているか等の比較、さらに大腸菌や出芽酵母等の実験生物で解析された個々の遺伝子に関するデータ等を基に解析が進められている。
ちなみに、ヒトの場合、常染色体44本とX染色体、Y染色体の計46本の染色体(つまりDNA分子)に含まれる約30億対のDNAの塩基配列が、ヒトゲノムである。我々の持っているゲノム情報は、一代前の親のゲノム情報を受け継いだものである。親の持つゲノム情報は、さらに一代前の先祖から受け継いだものである。このように、さらに一代前と遺伝情報の起源をさかのぼることにより、38億年前の最初の生物のゲノムにたどりつくことができる。
ゲノム解析を行うものとして、特許文献1では、ゲノム配列情報を入力し、入力されたゲノム配列情報内に、同一の塩基が複数個(たとえば10個)以上連続して配列されている配列部分があるかどうかを判断し、あった場合にその同一の塩基が複数個以上連続して配列されている配列部分の前方及び後方に連続して配列されている所定数の塩基からなる塩基配列情報を抽出し、抽出された塩基配列情報を出力するようにしたゲノム解析方法を提案している。
このようなゲノム解析方法により、SNPs(single nucleotide polymorphism)を用いることなくSNPsに近い精度で迅速にかつ効率的に疾患関連候補遺伝子を同定するための多型マーカーを見つけ出すことができるようになっている。
ところで、特許文献1に示されたものは、疾患関連候補遺伝子を同定するための多型マーカーを見つけ出すようにしたゲノム解析の一手法であるが、ゲノム解析では時に約30億対のDNAの塩基配列をいろいろな観点から解析する必要がある。そのため、未だ解明されていない様々なゲノム解析を行う手法が存在しているものと予測されることから、その解明が待たれている。
本発明は、このような状況に鑑みてなされたものであり、サンプルデータより母集団の特徴を推定することができるゲノム解析方法を提供することができるようにするものである。
特開2003−288346号公報
本発明のゲノム解析方法は、サンプルデータにより母集団の特徴を推定するための解析を行うゲノム解析方法であって、前記サンプルデータを取り込む工程と、遺伝(統計)学の知識より双対性を成す二つの第1及び第2の状態変数を選択し、前記第1及び第2の状態変数を本来あるべき値に収束させることで、前記サンプルデータが属する母集団の特徴を推定する工程と、前記母集団の特徴を推定した結果を出力する工程とを有することを特徴とする。
また、前記第1及び第2状態変数が互いに他で表す遺伝(統計)学の知識を埋め込んだ変換式を演算子として互いに変換を行い、第1及び第2の状態変数をそれらの演算子に埋め込んだ第3の状態変数により推定する工程を有するようにすることができる。
また、前記第1の状態変数が各サンプルの起源母集団帰属度であり、前記第2の状態変数が起源母集団ハプロタイプ頻度であるようにすることができる。
また、前記第3の状態変数が各サンプルのディプロタイプ及びその頻度であるようにすることができる。
また、調査する遺伝子多型の決定を行う工程と、調査したい集団の遺伝子多型のウェットプロセスによるアレル情報の決定を行う工程と、前記アレル情報より個人のハプロタイプの決定、又は推定を行う工程と、集団の双対状態にある二つの特徴パラメータの決定を行う工程と、遺伝情報より前記二つの特徴パラメータ間の変換演算子を構築する工程と、所定の初期値より始め、変換演算子により前記二つの特徴パラメータを順番に求める工程と、前記特徴パラメータが収束するまで変換を繰り返す工程とを有し、前記二つの特徴パラメータが求まることで、前記サンプルデータより母集団の特徴が推定されるようにすることができる。
以下、本発明の実施の形態について説明する。
図1は、本発明のゲノム解析方法に用いられるゲノム解析装置の概要を説明するための図、図2は、図1のゲノム解析装置による解析の概要を説明するための図、図3は、本発明のゲノム解析方法を示すフローチャートである。
図1に示すように、ゲノム解析装置1は、サンプルデータより母集団の特徴を推定し、その解析結果を出力するものである。ゲノム解析装置1としては、後述のゲノム解析のための演算を行う解析プログラムを搭載したノートパソコン、ディスクトップパソコン等を用いることができる。
ゲノム解析装置1による解析の概要は、たとえば図2に示すように、双対性を成す状態で特徴付けすることができる実在をモデル化したものである、第1の状態である状態Aと第2の状態である状態Bとがあり、変換演算子φと変換演算子ψとに遺伝(統計)学の知識を埋め込むことにより、状態Aと状態Bとの双対性演算が行われ、実在(母集団)が持つ値(状態)に収束することで、母集団の特徴が推定されるようになっている。
ここで、状態Aとは各サンプルの起源母集団帰属度であり、状態Bとは起源母集団ハプロタイプ頻度である。そして、状態Aと状態Bとが互いに他で表す変換式を演算子として、互いに変換を行うようになっているが、これの詳細については後述する。
また、ゲノム解析装置1は、サンプルデータが属する母集団の特徴を表す二つの第1及び第2の変数が、完全に独立ではなく、完全に従属でもない場合、これら二つの変数を観測し得る第3の変数(不完全データ)より二つの変数を推定する機能を有している。これは、たとえば図2のように、状態Aと状態Bとが一種の双対性を成すと考えることができることに着目したものである。
そこで、サンプルデータが属する母集団をヒルベルト空間で表すことができる系と考える。また、たとえば二つの第1及び第2の変数を、q ,p(iは、サンプル番号、kは、起源母集団番号)とする。これらq とpとは、対象となる系を特徴付ける完全に独立でない(エンタングルメント状態)の二つ状態、いわゆる双対性の一種と考えることができる。そう考えるとq とpとは、光子の粒子的側面と波動的側面とがフーリエ変換(逆フーリエ変換)できるように、相互に変換する変換演算子を考えることができる。
そして、観測され得る第3の変数であるたとえば各サンプルのディプロタイプとその頻度dj (iは、サンプル番号) よりそれらの変換演算子を導出でき、それらの変換演算子に遺伝(統計)学的な知識を埋め込むものとする。この際、q とpとが双対性を本当に持つならば、適当な初期値をq とpとに与え、演算子による変換をすれば、本来その母集団が持つ特徴に収束することになる。
具体例として、サンプルされた集団が、いくつかの起源母集団より構成されている場合を考え、サンプルデータのみよりその起源母集団を推定する場合を考える。
ここで、
サンプルiの起源母集団への帰属度をqi
起源母集団をkk
起源母集団kのハプロタイプ頻度をpk
サンプルiのデュプロタイプ頻度をdi
とする。
そして、qi 、pk 、di は、次のように表すことができる。
Figure 2006027835
Figure 2006027835
Figure 2006027835
なお、|k>(起源母集団ベクトル)と|hkm>,|hil> , |hil’> (ハプロタイプベクトル)とは、それぞれサンプル集団が属するヒルベルト空間の基底ベクトルの一つと考える。
ここで、pとqは、射影演算子でお互いに変換すると考えると、以下のように表すことができる。
Figure 2006027835
Figure 2006027835
このとき、実際の演算子は、以下のものを考える。
Figure 2006027835
Figure 2006027835
つまり、演算子であるφ、ψは、サンプルが属する母集団をヒルベルト空間で表すことができる系と考え、qi とpk は、対象となる系を特徴付ける、完全に独立でない(エンタングルメント状態の)二つの状態を表すと考えることで、いわゆる双対性の一種として扱うこととなる。
そのように考えると、qi とpk とをお互いに変換する演算子を考えることが可能となり、それらの演算子をdi より導出でき、qi とpk とを順番に求めることができれば、母集団が本来持つ値(状態)に収束すると考えることができる。
また、φ、pk の演算子は、k(起源母集団)毎に c の確率で各サンプルの|hi>と各集団の|hk>とが一致する項目に関して加え合わせ、規格化することと同等と考えられる。また、ψ、qi の演算子は、一致する|hi>と|hk>とのbk より、|hij1>と|hij2>との同時確率のai の比率で、k毎に加え合わせ、規格化することと同等と考えられる。よって、適当な初期状態より始めれば、qとpとが上述した手順に従って求めれ、収束する。収束したか否かの判断は、p、qが一定値に収束することにより判断することができる。
次に、ゲノム解析装置1によるゲノム解析方法について説明する。
まず、図3に示すように、調査する遺伝子多型の決定を行う(ステップS1)。ここでは、まず、調査したい集団の遺伝子多型のウェットプロセスによるアレル情報の決定を行う(ステップS2)。また、アレル情報より個人のハプロタイプの決定、又は推定を行う(ステップS3)。
次いで、集団の双対状態にある二つの特徴パラメータの決定を行う(ステップS4)。ここでは、サンプルの起源母集団帰属度と各起源母集団のハプロタイプ頻度とを二つの特徴パラメータとする。また、遺伝情報より二つの特徴パラメータ間の変換演算子を構築する(ステップS5)。ここでの遺伝情報は、個人のデュプロタイプとその頻度とする。
また、適当な初期値より始め、変換演算子により二つの特徴パラメータを順番に求める(ステップS6)。そして、パラメータが、収束するまで変換を繰り返す(ステップS7)。その後、二つの特徴パラメータが求まる(ステップS8)。
(実施例)
次に、実施例について説明する。
以下に示す図4〜図15は、起源母集団を推論し、かつ各サンプルを起源母集団に割り当てるために複数座位の遺伝子型データ及びハプロタイプデータを使用する双対性変換演算子によるゲノム解析方法による解析結果の一例を示す図である。
遺伝子解析では、ケースコントロール相関解析が、表現型データ(たとえば疾病遺伝子を見つける相関マッピング)に遺伝子型データをマッピングさせる強力な方法となっている。しかし、起源母集団を推定する場合、ケースコントロール相関解析では、構造化した集団からの遺伝子型データはデータのマッピングにエラーを生じて肯定的な結果に帰着する可能性がある。
そのため、ケースコントロール相関解析の前に潜在的な集団構造を検知することが望ましい。潜在的な集団構造を検知する場合、ベイズ統計に基づくMCMC法、サンプル間の距離の概念に基づくクラスタモデルのような、座位のアレルを使用する、構造化した集団を識別する方法等があるが、本実施例では双対性変換演算子アルゴリズムによる新しいモデリング方法を採用した。
この場合、ハプロタイプが対立遺伝子より強力な遺伝子情報であると考え、対立遺伝子ではなくハプロタイプを採用した。また、ヒルベルト空間上のベクトルとその演算子とを集団の構造化を解析する遺伝解析のケースコントロール相関解析に採用した。つまり、サンプリングされた個人に属する隠れた実在があると仮定したからである。
ここで、ヒルベルト空間中のベクトルは遺伝状態を表すものである。また、演算子は、一つのベクトル表現を他のベクトル表現に変形することができる。
そこで、サンプルデータが属する母集団の特徴を表す二つの変数が、完全に独立ではなく、完全に従属でもない場合の二つの変数を観測し得る第3の変数(不完全データ)より推定する方法を採用した。
本実施例では、上述したように、起源母集団のハプロタイプ頻度pとサンプルの起源母集団への帰属度qとを双対性状態にある二つの特徴付ける演算子として採用した。これにより、サンプリングされた個人の属する隠れた実在が推定されるものと考える。また、本実施例では、上述したように、観測されるデータとして個人のデュプロタイプとその頻度dを採用した。
ここで、q とpとを、上述したように、対象となる系を特徴付ける完全で独立でない(エンタングルメント状態の)二つ状態、いわゆる双対性の一種と考える。そう考えるとq とpは、上述したように、光子の粒子的側面と波動的側面とがフーリエ変換(逆フーリエ変換)変換できるように、q とpとを相互に変換する演算子と考えることができる。
Figure 2006027835
Figure 2006027835
そこで、q とpについて、式(1)及び式(2)を仮定し、遺伝統計知識からこれらの演算子を推定するようにした。
また、個人のデュプロタイプとその頻度をdとすると、ヒルベルト空間表現では、次の式(3)〜式(5)のように表すことができる。
Figure 2006027835
Figure 2006027835
Figure 2006027835
なお、|k>(起源母集団ベクトル)と|hkm>,|hil> , |hil’> (ハプロタイプベクトル)とは、それぞれサンプル集団が属するヒルベルト空間の基底ベクトルの一つと考える。
また、実際の双対性変換演算子としては、次の式(6)及び式(7)を採用した。
Figure 2006027835
Figure 2006027835
次に、これらの式から、まず、ステップ1)では、dからのqi に見合う適当な初期値をセットする。ただし、初期値は、1/k以外である。また、kは起源母集団数である。次に、ステップ2)では、式(7)よりpk を求める。次に、ステップ3)では、式(6)よりqi を求める。ここで、pk とqi とが収束するまで、演算を繰り返す。
次に、構造化された母集団の各起源母集団のハプロタイプ頻度のデータをについて説明する。
図4は、グループ(起源母集団)のたとえば二つのグループのハプロタイプ頻度の例を示すものである。この例において、ハプロタイプは6つの座位から表されている。また、各座位は二つの対立遺伝子(SNP)を持っていることが分かる。ここで、”1”は多数の対立遺伝子を表し、”2”は少数の対立遺伝子を表している。ここでの評価した詳細なグループ(起源母集団)情報及びそのハプロタイプ頻度は、図10の総合データより確認することができる。
図5は、q 評価を示すものであり、その詳細は、図10の総合データより確認することができる。ここでは、サンプルされた母集団がいくつの起源母集団より構成されているかと本発明の方法と他の方法との評価の比較を示している。ここで、起源母集団のハプロタイプ頻度が似通っているほどこれらの違いを識別することが困難となるが、ハプロタイプブロックの数を増やせば増やすほど、よりよい結果が得られる。
たとえば、I123 は3つのハプロタイプブロックとしてのI1、I2及びI3 の結合したデータである。I123456は、さらにI1、I2、I3、I4、I5及びI6の結合したデータである。これら複数のハプロタイプブロックの結果は、一つのブロック単独の場合よりはるかに良い一致を示すことになる。
図6は、k(起源母集団の数)=2とした場合のサンプルの起源母集団混合比率を示し、図7は、k=3とした場合のサンプルの起源母集団混合比率を示している。つまり、サンプルの起源母集団混合比率が”1”であれば一つの集団に属することになるが、0と1の間の場合は、複数の起源母集団にその混合比率で属することになる。
図8は、k=2とした場合のpk 評価を示し、図9は、k=3とした場合のpk 評価を示している。双対性変換による評価は、MCMC法より同等又はよりよい結果が得られていることが分かる。なお、pk 評価は、図13〜図15の総合データより確認することができる。
ここで、図10は、k=2とした場合の起源母集団1,2の詳細である総合データを示す図であり、図11は、k=3とした場合の起源母集団1〜3の詳細である総合データを示す図であり、図12は、k=4とした場合の起源母集団1〜4の詳細である総合データを示す図である。
また、図13及び図14は、k=2とした場合のpk 評価の詳細である総合データを示し、図15は、k=3とした場合のpk 評価の詳細である総合データを示している。
このように、本実施形態では、サンプルデータを取り込み、双対性を成す二つの第1及び第2の状態変数に遺伝(統計)学の知識を埋め込み、第1及び第2の状態変数を本来あるべき値に収束させることで、サンプルデータが持つ母集団の特徴を推定し、母集団の特徴を推定した結果を出力するようにしたので、サンプルデータにより母集団の特徴を推定するための解析を行うことができる。
以上の如く本発明によれば、サンプルデータにより母集団の特徴を推定するための解析を行うことができる。
本発明のゲノム解析方法に用いられるゲノム解析装置の概要を説明するための図である。 図1のゲノム解析装置による解析の概要を説明するための図である。 本発明のゲノム解析方法を示すフローチャートである。 二つの起源母集団のハプロタイプ頻度の例を示す図である。 評価を示す図である。 k=2とした場合の個人の起源母集団混合比率を示す図である。 k=3とした場合の個人の起源母集団混合比率を示す図である。 k=2とした場合のpk 評価を示す図である。 k=3とした場合のpk 評価を示す図である。 k=2とした場合の起源母集団1,2の詳細である総合データを示す図である。 k=3とした場合の起源母集団1〜3の詳細である総合データを示す図である。 k=4とした場合の起源母集団1〜4の詳細である総合データを示す図である。 k=2とした場合のpk 評価の詳細である総合データを示す図である。 k=2とした場合のpk 評価の詳細である総合データを示す図である。 k=3とした場合のpk 評価の詳細である総合データを示す図である。
符号の説明
1 ゲノム解析装置
【0004】
する工程とを有することを特徴とする。
[0017] また、前記第1及び第2状態変数が互いに他で表す遺伝(統計)学の知識を埋め込んだ変換式を演算子として互いに変換を行い、第1及び第2の状態変数をそれらの演算子に埋め込んだ第3の状態変数により推定する工程を有するようにすることができる。
[0018] また、前記第1の状態変数が各サンプルの起源母集団帰属度であり、前記第2の状態変数が起源母集団ハプロタイプ頻度であるようにすることができる。
[0019] また、前記第3の状態変数が各サンプルのディプロタイプ及びその頻度であるようにすることができる。
[0020] また、調査する遺伝子多型の決定を行う工程と、調査したい集団の遺伝子多型のウェットプロセスによるアレル情報の決定を行う工程と、前記アレル情報より個人のハプロタイプの決定、又は推定を行う工程と、集団の双対状態にある二つの特徴パラメータの決定を行う工程と、遺伝情報より前記二つの特徴パラメータ間の変換演算子を構築する工程と、所定の初期値より始め、変換演算子により前記二つの特徴パラメータを順番に求める工程と、前記特徴パラメータが収束するまで変換を繰り返す工程とを有し、前記二つの特徴パラメータが求まることで、前記サンプルデータより母集団の特徴が推定されるようにすることができる。
また、本発明に係るゲノム解析装置は、
サンプルデータにより母集団の特徴を推定するための解析を行うゲノ厶解析装置であって、
前記サンプルデータを取り込む取込手段と、
遺伝(統計)学の知識より双対性を成す二つの第1及び第2の状態変数を選択し、前記第1及び第2の状態変数を本来あるべき値に収束させることで、前記サンプルデータが属する母集団の特徴を推定する演算手段と、
前記母集団の特徴を推定した結果を出力する出力手段とを有する
ことを特徴とする。
前記演算手段は、前記第1及び第2状態変数が互いに他で表す遺伝(統計)学の知識を埋め込んだ変換式を演算子として互いに変換を行い、第1及び第2の状態変数をそれらの演算子に埋め込んだ第3の状態変数により推定することを特徴とすることができる。
また、前記第1の状態変数が各サンプルの起源母集団帰属度であり、前記第2の状態変数が起源母集団ハプロタイプ頻度であることを特徴とすることもできる。
また、前記第3の状態変数が各サンプルのディプロタイプ及びその頻度であることを特徴とすることもでききる。
また、前記演算手段は、
調査する遺伝子多型の決定を行う工程と、
調査したい集団の遺伝子多型のウェットプロセスによるアレル情報の決定を行う工程と、
前記アレル情報より個人のハプロタイプの決定、又は推定を行う工程と、
集団の双対状態にある二つの特徴パラメータの決定を行う工程と、
遺伝情報より前記二つの特徴パラメータ間の変換演算子を構築する工程と、
所定の初期値より始め、変換演算子により前記二つの特徴パラメータを順番に求める工程と、
前記特徴パラメータが収束するまで変換を繰り返す工程とを行い、
前記二つの特徴パラメータが求まることで、前記サンプルデータより母集団の特徴が推定される
ことを特徴とすることもできる。
【発明を実施するための最良の形態】
[0021] 以下、本発明の実施の形態について説明する。
図1は、本発明のゲノム解析方法に用いられるゲノム解析装置の概要を説明するための図、図2は、図1のゲノム解析装置による解析の概要を説明するための図、図3は、本発明のゲノム解析方法を示すフローチャートである。
[0022] 図1に示すように、ゲノム解析装置1は、サンプルデータより母集団の特徴を推定し、その解析結果を出力するものである。ゲノム解析装置1としては、後述のゲノム解析のための演算を行う解析プログラムを搭載したノートパソコン、ディスクトップパソコン等を用いることができる。
[0023] ゲノム解析装置1による解析の概要は、たとえば図2に示すように、双対性を成す状態で特徴付けすることができる実在をモデル化したものである、第1の状

Claims (5)

  1. サンプルデータにより母集団の特徴を推定するための解析を行うゲノム解析方法であって、
    前記サンプルデータを取り込む工程と、
    遺伝(統計)学の知識より双対性を成す二つの第1及び第2の状態変数を選択し、前記第1及び第2の状態変数を本来あるべき値に収束させることで、前記サンプルデータが属する母集団の特徴を推定する工程と、
    前記母集団の特徴を推定した結果を出力する工程とを有する
    ことを特徴とするゲノム解析方法。
  2. 前記第1及び第2状態変数が互いに他で表す遺伝(統計)学の知識を埋め込んだ変換式を演算子として互いに変換を行い、第1及び第2の状態変数をそれらの演算子に埋め込んだ第3の状態変数により推定する工程を有することを特徴とする請求項1に記載のゲノム解析方法。
  3. 前記第1の状態変数が各サンプルの起源母集団帰属度であり、前記第2の状態変数が起源母集団ハプロタイプ頻度であることを特徴とする請求項1又は2に記載のゲノム解析方法。
  4. 前記第3の状態変数が各サンプルのディプロタイプ及びその頻度であることを特徴とする請求項1〜3のいずれかに記載のゲノム解析方法。
  5. 調査する遺伝子多型の決定を行う工程と、
    調査したい集団の遺伝子多型のウェットプロセスによるアレル情報の決定を行う工程と、
    前記アレル情報より個人のハプロタイプの決定、又は推定を行う工程と、
    集団の双対状態にある二つの特徴パラメータの決定を行う工程と、
    遺伝情報より前記二つの特徴パラメータ間の変換演算子を構築する工程と、
    所定の初期値より始め、変換演算子により前記二つの特徴パラメータを順番に求める工程と、
    前記特徴パラメータが収束するまで変換を繰り返す工程とを有し、
    前記二つの特徴パラメータが求まることで、前記サンプルデータより母集団の特徴が推定される
    ことを特徴とする請求項1〜4のいずれかに記載のゲノム解析方法。
JP2006534946A 2004-09-08 2004-09-08 ゲノム解析方法 Pending JPWO2006027835A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/013075 WO2006027835A2 (ja) 2004-09-08 2004-09-08 ゲノム解析方法

Publications (1)

Publication Number Publication Date
JPWO2006027835A1 true JPWO2006027835A1 (ja) 2008-07-31

Family

ID=36036742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006534946A Pending JPWO2006027835A1 (ja) 2004-09-08 2004-09-08 ゲノム解析方法

Country Status (4)

Country Link
US (1) US20080318214A1 (ja)
EP (1) EP1832992A4 (ja)
JP (1) JPWO2006027835A1 (ja)
WO (1) WO2006027835A2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007424A1 (fr) * 2006-07-11 2008-01-17 Digital Information Technologies Corporation Système d'analyse du génome, procédé d'analyse du génome et programme

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU785425B2 (en) * 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis

Also Published As

Publication number Publication date
US20080318214A1 (en) 2008-12-25
EP1832992A1 (en) 2007-09-12
EP1832992A4 (en) 2008-02-13
WO2006027835A8 (ja) 2009-08-20
WO2006027835A2 (ja) 2006-03-16

Similar Documents

Publication Publication Date Title
Hohenlohe et al. Population genomic analysis of model and nonmodel organisms using sequenced RAD tags
Edwards et al. High-resolution genetic mapping with pooled sequencing
Yuan et al. IntSIM: an integrated simulator of next-generation sequencing data
Crawford et al. Assessing the accuracy and power of population genetic inference from low-pass next-generation sequencing data
KR20200010464A (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
Haldane et al. Biophysical fitness landscapes for transcription factor binding sites
Zhao et al. RWLPAP: random walk for lncRNA-protein associations prediction
Illingworth et al. Inferring genome-wide recombination landscapes from advanced intercross lines: application to yeast crosses
Salmona et al. Inferring demographic history using genomic data
Seifert et al. Estimating fitness of viral quasispecies from next-generation sequencing data
Li et al. Fit-Seq2. 0: an improved software for high-throughput fitness measurements using pooled competition assays
JPWO2006027835A1 (ja) ゲノム解析方法
Mayrink et al. Bayesian factor models for the detection of coherent patterns in gene expression data
Wei et al. A short review of variants calling for single-cell-sequencing data with applications
Barroso et al. Inference of recombination maps from a single pair of genomes and its application to archaic samples
Polushina et al. Change-point detection in binary Markov DNA sequences by the Cross-Entropy method
KR20200135221A (ko) Ngs 데이터를 이용하여 유전형을 예측하는 방법 및 장치
Sulins et al. Automatic termination of parallel optimization runs of stochastic global optimization methods in consensus or stagnation cases
Deng et al. The distribution of waiting distances in ancestral recombination graphs and its applications
Sheikh et al. Base-calling for bioinformaticians
Gymrek et al. A framework to interpret short tandem repeat variations in humans
CN116959561B (zh) 一种基于神经网络模型的基因相互作用预测方法和装置
Schiavinato et al. JLOH: Inferring loss of heterozygosity blocks from sequencing data
Cox et al. Reconstructing past changes in locus-specific recombination rates
Wang et al. A computational algorithm for functional clustering of proteome dynamics during development

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070307

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100216