WO2006027835A2 - ゲノム解析方法 - Google Patents

ゲノム解析方法 Download PDF

Info

Publication number
WO2006027835A2
WO2006027835A2 PCT/JP2004/013075 JP2004013075W WO2006027835A2 WO 2006027835 A2 WO2006027835 A2 WO 2006027835A2 JP 2004013075 W JP2004013075 W JP 2004013075W WO 2006027835 A2 WO2006027835 A2 WO 2006027835A2
Authority
WO
WIPO (PCT)
Prior art keywords
population
analysis method
state
genome
sample
Prior art date
Application number
PCT/JP2004/013075
Other languages
English (en)
French (fr)
Other versions
WO2006027835A1 (ja
WO2006027835A8 (ja
Inventor
Junji Tanaka
Original Assignee
Genesys Technologies Inc
Junji Tanaka
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genesys Technologies Inc, Junji Tanaka filed Critical Genesys Technologies Inc
Priority to US11/574,948 priority Critical patent/US20080318214A1/en
Priority to EP04787758A priority patent/EP1832992A4/en
Priority to PCT/JP2004/013075 priority patent/WO2006027835A2/ja
Priority to JP2006534946A priority patent/JPWO2006027835A1/ja
Publication of WO2006027835A1 publication Critical patent/WO2006027835A1/ja
Publication of WO2006027835A2 publication Critical patent/WO2006027835A2/ja
Publication of WO2006027835A8 publication Critical patent/WO2006027835A8/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Definitions

  • the present invention relates to a genome analysis method for performing analysis for estimating characteristics of a population from sample data.
  • the genome refers to a set of chromosomes that are indispensable for carrying out life activities.
  • the genome is a compound word made up of a gene and a chromosome.
  • the basis of life is a cell, the cell is surrounded by a cell membrane, the nucleus is surrounded by a nuclear membrane, and the independence of each unit is maintained.
  • Human cells are specialized cell groups that have differentiated functions and forms such as nerve cells, muscle cells, blood cells, immune system cells, epithelial cells that are cells on the surface of skin and tissues, and sensory cells. It is made up of undifferentiated cells called stem cells. Cells have important time-varying aspects. It is to make new cells by dividing cells. Cell division is an important mechanism that enables the transmission and expression of genetic information.
  • chromosomes in the nucleus. These chromosomes are the ones that carry genetic information, and the genes are lined up on them. If a gene defines how to make a protein in the genome! Make up chromosomes! The basic substance is DNA (deoxyribonucleic acid), and genetic information is conserved in the sequence of four bases, A, T, G, and C. Haploid organisms such as butterflies and viruses have a single genome.
  • Germ cells such as human eggs and sperm, which are diploid organisms, have 23 types of staining. It has a set of genomes consisting of color bodies. Somatic cells have two sets of genomes (46 types of chromosomes). The human genome is made up of about 3 billion DNA base pairs (3000 megabase pairs, 1 million is 1 million base pairs), and a single string is about 1 meter long.
  • a genome is a total of gene information existing in a cell, and includes information for controlling genes and gene expression.
  • proteins and genes are so-called products and blueprints, and there are parts on the genome that control and control the production of products in addition to blueprints.
  • the significance of its existence is unknown, but there are also some areas where it seems to have some influence on the maintenance of biological functions. By clarifying these, it is believed that more accurate understanding of life phenomena will be possible.
  • genome analysis is a comprehensive analysis of the genetic information of an organism's genome, and the power to determine the base sequences of DNA molecules (GATC alignment) that make up the genome begins.
  • GATC alignment the base sequences of DNA molecules
  • the nucleotide sequence of about 3 billion pairs of DNA contained in 46 chromosomes (that is, DNA molecules) in total, 44 autosomes, X chromosome, and Y chromosome, is the human genome.
  • Genomic information possessed by is inherited from previous generations of parental genomic information. Parents' genome information inherits the ancestral power of the previous generation. In this way, by going back to the origin of genetic information one generation ago, we can reach the genome of the first organism 3.8 billion years ago.
  • genome sequence information is input as a genome analysis, and a plurality of (for example, 10) or more identical bases are continuously arranged in the input genome sequence information. If there is a sequence portion, the plurality of the same bases are continuously arranged !, and the sequence portion is continuously arranged in front and rear of the predetermined number of
  • a genome analysis method that extracts base sequence information consisting of bases and outputs the extracted base sequence information.
  • a polymorphic marker for identifying a disease-related candidate gene can be found quickly and efficiently with an accuracy close to that of SNPs without using SNPs (single nucleotide polymorphism). It's like! /
  • Patent Document 1 is a force that is a method of genome analysis that attempts to find polymorphic markers for identifying disease-related candidate genes. It is necessary to analyze the DNA base sequence as well as various viewpoints. Therefore, it has not yet been elucidated, and it is expected that there will be various methods for genome analysis, and it is expected to be elucidated.
  • the present invention has been made in view of such a situation, and provides a genome analysis method capable of estimating the characteristics of a population from sample data.
  • Patent Document 1 Japanese Patent Laid-Open No. 2003-288346
  • the genome analysis method of the present invention is a genome analysis method for performing analysis for estimating the characteristics of a population from sample data, and is a dual method based on knowledge of the step of acquiring the sample data and genetic (statistical) science. Estimating the characteristics of the population to which the sample data belongs by selecting two first and second state variables that have sex and converging the first and second state variables to their original values. And the result of estimating the characteristics of the population And a step of performing.
  • first and second state variables are converted to each other using a conversion formula in which genetic (statistical) knowledge expressed by each other is embedded as an operator, and the first and second state variables are converted to each other. It is possible to have a process of estimating by a third state variable embedded in those operators.
  • the first state variable may be an origin population membership degree of each sample
  • the second state variable may be an origin population haplotype frequency
  • the third state variable may be the diplotype of each sample and its frequency.
  • the process of determining the genetic polymorphism to be investigated Determining the allele information by the wet process of the genetic polymorphism of the population, and the haplotype of the individual from the allele information
  • a step of determining or estimating a step of determining two feature parameters in a dual state of the population, a step of constructing a conversion operator between the two feature parameters from genetic information, and a predetermined initial Starting with the value, and sequentially obtaining the two feature parameters by a transformation operator and repeating the transformation until the feature parameters converge, and obtaining the two feature parameters results in obtaining the sample.
  • Population characteristics can be estimated from the data.
  • Fig. 1 is a diagram for explaining the outline of the genome analyzer used in the genome analysis method of the present invention
  • Fig. 2 is a diagram for explaining the outline of analysis by the genome analyzer of Fig. 1
  • Fig. 3 is It is a flowchart which shows the genome-analysis method of this invention.
  • the genome analyzer 1 estimates the characteristics of a population from sample data.
  • the analysis result is output.
  • a notebook computer, a desktop computer or the like equipped with an analysis program for performing calculations for genome analysis described later can be used as the genome analysis apparatus 1.
  • the outline of the analysis by the genome analysis apparatus 1 is a state of the first state, which is a model of the reality that can be characterized in a duality state as shown in Fig. 2, for example.
  • state A and state B which is the second state.
  • transformation operator ⁇ and transformation operator ⁇ By embedding genetic (statistical) knowledge in transformation operator ⁇ and transformation operator ⁇ , the duality operation between state A and state B can be performed. This is done, and the features of the population are estimated by converging on the values (states) of the real (population).
  • state A is the origin population attribution of each sample
  • state B is the origin population haplotype frequency.
  • the genome analysis apparatus 1 also observes these two variables when the two first and second variables representing the characteristics of the population to which the sample data belongs are not completely independent and not completely dependent. It has a function to estimate two variables from a possible third variable (incomplete data). This is because, for example, as shown in Fig. 2, it can be considered that state A and state B form a kind of duality.
  • the population to which the sample data belongs is considered as a system that can be expressed in Hilbert space.
  • two first and second variables are expressed as q, p (i is a sample number, k is
  • 1 and k can be thought of as transformation operators that transform each other so that the particle side and wave side of photons can be Fourier transformed (inverse Fourier transform).
  • the degree of attribution of sample i to the origin population is ⁇
  • p and q can be expressed as follows, assuming that they are converted to each other by a projection operator.
  • the ratio of i i k k ijl ij2 i is equivalent to adding to every k and standardizing.
  • the genetic polymorphism to be investigated is determined (step Sl).
  • the allele information is first determined by the wet process of the genetic polymorphism of the population to be investigated (step S2).
  • the individual haplotype is determined or estimated from the allele information (step S3).
  • step S4 two feature parameters in the dual state of the group are determined.
  • the origin population membership of the sample and the haplotype frequency of each origin population are used as two feature parameters.
  • a conversion operator between two feature parameters is constructed from genetic information (step S5).
  • the genetic information here is the individual's duplotype and its frequency.
  • step S6 two characteristic parameters are obtained in turn by a conversion operator.
  • step S7 the conversion is repeated until the parameter force converges.
  • step S8 two feature parameters are obtained.
  • Figure 4-15 shown below, shows a genome with a duality transformation operator that uses multilocus genotype data and nodal type data to infer the origin population and assign each sample to the origin population. It is a figure which shows an example of the analysis result by an analysis method.
  • case-control correlation analysis phenotype data eg disease It is a powerful way to map genotype data to correlation mapping to find genes.
  • genotype data from structured populations can result in errors in data mapping and result in positive results.
  • the haplotype was considered to be more powerful genetic information than the allele, and the haplotype was used instead of the allele.
  • the vector in the Hilbert space represents a genetic state.
  • An operator can transform one vector representation into another vector representation.
  • the attribution q to the source population was adopted as two characterizing operators in the duality state. As a result, the hidden reality to which the sampled individual belongs can be estimated. Further, in this example, as described above, the individual duplotype and its frequency d are adopted as the observed data.
  • q is the Fourier transform of the photon particle side and the wave side, as described above.
  • ⁇ k ⁇ 'a m ' * b kl * b kl , ... (6)
  • ⁇ K ⁇ i c ik ⁇ ir a iir (7)
  • step 1) an appropriate initial value corresponding to q ; However, the initial value is other than lZk. K is the number of origin populations.
  • step 2) find p from equation (7).
  • step 3 q is obtained from equation (6).
  • FIG. 4 shows an example of haplotype frequencies of, for example, two groups of a group (origin population).
  • the haplotype also represents six sitting forces. It can also be seen that each locus has two alleles (SNPs).
  • SNPs alleles
  • "1" represents a large number of alleles
  • "2" represents a small number of alleles.
  • the detailed group (origin population) information evaluated here and its haplotype frequency can be confirmed from the comprehensive data in Figure 10.
  • FIG. 5 shows the q evaluation, and the details can be confirmed from the comprehensive data in FIG.
  • a comparison is made between the force of which the sampled population is composed of several origin populations and the evaluation of the method of the present invention with other methods.
  • the more similar the haplotype frequencies of the origin population the more difficult it is to identify these differences.
  • 1123 is the combined data of II, 12 and 13 as three haplotype blocks.
  • 1123456 is the combined data of II, 12, 13, 14, 15 and 16. The results of these multiple haplotype blocks will show a much better match than the single block alone.
  • FIG. 12 is a diagram showing comprehensive data as details of 1 and 3
  • sample data is taken, genetic (statistical) knowledge is embedded in the two first and second state variables forming duality, and the first and second state variables
  • genetic (statistical) knowledge is embedded in the two first and second state variables forming duality, and the first and second state variables
  • the characteristics of the population of the sample data are estimated, and the results of estimating the characteristics of the population are output.
  • the characteristics of the population from the sample data Can be analyzed.
  • FIG. 1 is a diagram for explaining an outline of a genome analysis apparatus used in the genome analysis method of the present invention.
  • FIG. 2 is a diagram for explaining the outline of analysis by the genome analysis apparatus of FIG.
  • FIG. 3 is a flowchart showing the genome analysis method of the present invention.
  • FIG. 4 is a diagram showing an example of haplotype frequencies of two origin populations.
  • FIG. 5 is a diagram showing q evaluation.

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

ゲノム解析方法
技術分野
[0001] 本発明は、サンプルデータにより母集団の特徴を推定するための解析を行うゲノム 解析方法に関する。
背景技術
[0002] 地球上に存在する全ての生物は細胞から構成されていて、その細胞一個一個に遺 伝子情報を記録したゲノムが存在している。細胞は構造の違いにより、原核細胞と真 核細胞とに分類される。バクテリアやラン藻のような原核細胞でのゲノムは細胞内に 仕切りのな!ヽ状態で存在して!/ヽるが、動植物のような真核細胞でのゲノムは核膜で 囲まれた核の中に存在して!/、る。
[0003] つまり、ゲノムとは生命活動を営むために欠かすことのできない染色体の一組の集 まりを指すものである。また、ゲノム(genome)は、遺伝子(gene)と染色体( chromosome)からできた複合語である。
[0004] ここで、生命の基本は細胞であり、その細胞は細胞膜で囲まれ、核は核膜で囲まれ 、それぞれの単位の独立性が保たれている。ヒトの細胞は、神経細胞、筋細胞、血球 ,免疫系細胞、皮膚や組織の表面の細胞である上皮細胞、感覚細胞等の機能や形 態が分化し、特殊化した細胞群と、それらのもとになる幹細胞といわれる未分化の細 胞とからできている。細胞には重要な、時間的に変化する側面がある。それは、細胞 分裂して新しい細胞を作ることである。細胞分裂は、遺伝子情報の伝達と発現を可能 にする重要な仕組みである。
[0005] 核の中に染色体がある。その染色体こそが、遺伝子情報を担っているもので、遺伝 子はその上に並んでいる。遺伝子は、ゲノムの中でタンパク質の作り方を定義してい ると!/、つても良!ヽ。染色体を構成して!/、る基本物質は DNA (デォキシリボ核酸)で、 遺伝情報は DNAの中から四つの塩基、 A、 T、 G、 Cの並びに保存されている。バタ テリアやウィルスのような 1倍体の生物は、一個のゲノムを持っている。
[0006] 二倍体の生物である、たとえばヒトの卵子や精子のような生殖細胞は 23種類の染 色体からなる 1組のゲノムを持って 、る。体細胞では 2組のゲノム(46種類の染色体) を持っている。ヒトのゲノムは約 30億個の DNAの塩基対(3000メガ塩基対、 1メガは 100万塩基対)から成り立つていて、 1本の紐にすると約 1メートルの長さになる。
[0007] ゲノムは、細胞の中に存在する遺伝子情報の総体であり、そこには遺伝子と遺伝子 の発現を制御する情報等が含まれている。ここで、タンパク質及び遺伝子は、いわば 製品とその設計図であり、ゲノム上には設計図の他に製品の製造を管理'制御してい る部分が存在することになる。また、現在ではその存在意義が不明であるが、生物の 機能維持に何らかの影響を及ぼしていると考えられる領域も力なりの割合で存在して いる。これらを明らかにしていくことによって、生命現象のより正確な把握が可能にな ると考えられている。
[0008] こうしたことから、ヒトゲノムと呼ばれるヒトのゲノム全塩基配列を解析する「ヒトゲノム 解析計画」や「全てのゲノムの塩基配列を決定してしまおう」というプロジェクトがヒトを 含めた様々な生物を対象として研究されている。そして、遺伝子とタンパク質との 3位 一体の研究により、高度な生命現象の把握が期待されることになる。
[0009] それにはまず、遺伝子間のネットワークが分力 なければならないと考えられる。つ まり、複数のタンパク質がネットワークを形成していて、それらのタンパク質群が特定 の機能を発揮しているからである。そのため、どのような機能や情報のやり取りが行わ れて 、るのかを研究して 、けば、未知の機能を持つ遺伝子が見つ力る力もしれな!ヽ
[0010] ここで、ゲノム解析とは、生物のゲノムの持つ遺伝情報を総合的に解析することであ り、ゲノムを構成する DNA分子の塩基配列(GATCの並び)を決めること力も始まる。 しかし、塩基配列データ力 だけでは、どこにどのような遺伝子があるのかは簡単に は分力もない。そこで、転写'翻訳によって作られるメッセンジャー RNAやタンパク質 等の遺伝子産物の解析、生物種間で塩基配列がどれだけ似ているか等の比較、さら に大腸菌や出芽酵母等の実験生物で解析された個々の遺伝子に関するデータ等を 基に解析が進められている。
[0011] ちなみに、ヒトの場合、常染色体 44本と X染色体、 Y染色体の計 46本の染色体 (つ まり DNA分子)に含まれる約 30億対の DN Aの塩基配列力 ヒトゲノムである。我々 の持っているゲノム情報は、一代前の親のゲノム情報を受け継いだものである。親の 持つゲノム情報は、さらに一代前の先祖力も受け継いだものである。このように、さら に一代前と遺伝情報の起源をさかのぼることにより、 38億年前の最初の生物のゲノム にたどりつくことができる。
[0012] ゲノム解析を行うものとして、特許文献 1では、ゲノム配列情報を入力し、入力され たゲノム配列情報内に、同一の塩基が複数個(たとえば 10個)以上連続して配列さ れている配列部分があるかどうかを判断し、あった場合にその同一の塩基が複数個 以上連続して配列されて!、る配列部分の前方及び後方に連続して配列されて 、る 所定数の塩基からなる塩基配列情報を抽出し、抽出された塩基配列情報を出力する ようにしたゲノム解析方法を提案して 、る。
[0013] このようなゲノム解析方法により、 SNPs (single nucleotide polymorphism)を用いる ことなく SNPsに近い精度で迅速にかつ効率的に疾患関連候補遺伝子を同定するた めの多型マーカーを見つけ出すことができるようになって!/、る。
[0014] ところで、特許文献 1に示されたものは、疾患関連候補遺伝子を同定するための多 型マーカーを見つけ出すようにしたゲノム解析の一手法である力 ゲノム解析では時 に約 30億対の DNAの塩基配列を 、ろ 、ろな観点力も解析する必要がある。そのた め、未だ解明されて 、な 、様々なゲノム解析を行う手法が存在して 、るものと予測さ れることから、その解明が待たれている。
[0015] 本発明は、このような状況に鑑みてなされたものであり、サンプルデータより母集団 の特徴を推定することができるゲノム解析方法を提供することができるようにするもの である。
特許文献 1:特開 2003— 288346号公報
発明の開示
[0016] 本発明のゲノム解析方法は、サンプルデータにより母集団の特徴を推定するため の解析を行うゲノム解析方法であって、前記サンプルデータを取り込む工程と、遺伝 (統計)学の知識より双対性を成す二つの第 1及び第 2の状態変数を選択し、前記第 1及び第 2の状態変数を本来あるべき値に収束させることで、前記サンプルデータが 属する母集団の特徴を推定する工程と、前記母集団の特徴を推定した結果を出力 する工程とを有することを特徴とする。
[0017] また、前記第 1及び第 2状態変数が互いに他で表す遺伝 (統計)学の知識を埋め込 んだ変換式を演算子として互いに変換を行い、第 1及び第 2の状態変数をそれらの 演算子に埋め込んだ第 3の状態変数により推定する工程を有するようにすることがで きる。
[0018] また、前記第 1の状態変数が各サンプルの起源母集団帰属度であり、前記第 2の 状態変数が起源母集団ハプロタイプ頻度であるようにすることができる。
[0019] また、前記第 3の状態変数が各サンプルのディプロタイプ及びその頻度であるよう にすることができる。
[0020] また、調査する遺伝子多型の決定を行う工程と、調査した!/、集団の遺伝子多型の ウエットプロセスによるアレル情報の決定を行う工程と、前記アレル情報より個人のハ プロタイプの決定、又は推定を行う工程と、集団の双対状態にある二つの特徴パラメ ータの決定を行う工程と、遺伝情報より前記二つの特徴パラメータ間の変換演算子を 構築する工程と、所定の初期値より始め、変換演算子により前記二つの特徴パラメ一 タを順番に求める工程と、前記特徴パラメータが収束するまで変換を繰り返す工程と を有し、前記二つの特徴パラメータが求まることで、前記サンプルデータより母集団 の特徴が推定されるようにすることができる。
発明を実施するための最良の形態
[0021] 以下、本発明の実施の形態について説明する。
図 1は、本発明のゲノム解析方法に用いられるゲノム解析装置の概要を説明するた めの図、図 2は、図 1のゲノム解析装置による解析の概要を説明するための図、図 3 は、本発明のゲノム解析方法を示すフローチャートである。
[0022] 図 1に示すように、ゲノム解析装置 1は、サンプルデータより母集団の特徴を推定し
、その解析結果を出力するものである。ゲノム解析装置 1としては、後述のゲノム解析 のための演算を行う解析プログラムを搭載したノートパソコン、ディスクトップパソコン 等を用いることができる。
[0023] ゲノム解析装置 1による解析の概要は、たとえば図 2に示すように、双対性を成す状 態で特徴付けすることができる実在をモデルィ匕したものである、第 1の状態である状 態 Aと第 2の状態である状態 Bとがあり、変換演算子 φと変換演算子 φとに遺伝 (統 計)学の知識を埋め込むことにより、状態 Aと状態 Bとの双対性演算が行われ、実在( 母集団)が持つ値 (状態)に収束することで、母集団の特徴が推定されるようになって いる。
[0024] ここで、状態 Aとは各サンプルの起源母集団帰属度であり、状態 Bとは起源母集団 ハプロタイプ頻度である。そして、状態 Aと状態 Bとが互いに他で表す変換式を演算 子として、互いに変換を行うようになっている力 これの詳細については後述する。
[0025] また、ゲノム解析装置 1は、サンプルデータが属する母集団の特徴を表す二つの第 1及び第 2の変数が、完全に独立ではなぐ完全に従属でもない場合、これら二つの 変数を観測し得る第 3の変数 (不完全データ)より二つの変数を推定する機能を有し ている。これは、たとえば図 2のように、状態 Aと状態 Bとが一種の双対性を成すと考 えることができることに着目したものである。
[0026] そこで、サンプルデータが属する母集団をヒルベルト空間で表すことができる系と考 える。また、たとえば二つの第 1及び第 2の変数を、 q , p (iは、サンプル番号、 kは、
1 k
起源母集団番号)とする。これら qと とは、対象となる系を特徴付ける完全に独立
1 k
でな 、 (ェンタングルメント状態)の二つ状態、 V、わゆる双対性の一種と考えることが できる。そう考えると q
1と kとは、光子の粒子的側面と波動的側面とがフーリエ変換( 逆フーリエ変換)できるように、相互に変換する変換演算子を考えることができる。
[0027] そして、観測され得る第 3の変数であるたとえば各サンプルのディプロタイプとその 頻度 d (iは、サンプル番号)よりそれらの変換演算子を導出でき、それらの変換演算 子に遺伝 (統計)学的な知識を埋め込むものとする。この際、 q
iと kとが双対性を本 当に持つならば、適当な初期値を qと p とに与え、演算子による変換をすれば、本
i k
来その母集団が持つ特徴に収束することになる。
[0028] 具体例として、サンプルされた集団が、いくつかの起源母集団より構成されている 場合を考え、サンプルデータのみよりその起源母集団を推定する場合を考える。 ここで、
サンプル iの起源母集団への帰属度を α
起源母集団を k 起源母集団 kのハプロタイプ頻度を p
k
サンプル iのデュプロタイプ頻度を d
とする。
[0029] そして、 q、p 、d は、次のように表すことができる。
i k i
[数 1]
¾ = ∑ jClk|Kk> :ただし、 ∑kclk =1
[数 2]
= ∑i ai n. |hn>|hir > :ただし、 Σ^. ^. =1
[数 3]
Figure imgf000007_0001
=1
なお、 |k〉(起源母集団ベクトル)と |h >,|h > , |h > (ノヽプロタイプベクトル)とは、それ k km il il
ぞれサンプル集団が属するヒルベルト空間の基底ベクトルの一つと考える。
[0030] ここで、 pと qは、射影演算子でお互いに変換すると考えると、以下のように表すこと ができる。
q = ΦΡ : Φは、 射影演算子
[数 5]
Ρ = <i>q : Φは、 射影演算子
このとき、実際の演算子は、以下のものを考える。
[数 6]
Figure imgf000007_0002
[数 7]
= ∑icik∑ir aiir
[0031] つまり、演算子である φ、 φは、サンプルが属する母集団をヒルベルト空間で表すこ とができる系と考え、 q iと k は、対象となる系を特徴付ける、完全に独立でない (ェン タングルメント状態の)二つの状態を表すと考えることで、 、わゆる双対性の一種とし て扱うこととなる。 [0032] そのように考えると、 qと p とをお互いに変換する演算子を考えることが可能となり
i k
、それらの演算子を dより導出でき、 qと とを順番に求めることができれば、母集
i i k
団が本来持つ値 (状態)に収束すると考えることができる。
[0033] また、 φ、ρ の演算子は、 k (起源母集団)毎に c の確率で各サンプルの |h〉と各集
k k i 団の |h〉とが一致する項目に関して加え合わせ、規格ィ匕することと同等と考えられる。
k
また、 、q の演算子は、一致する |h〉と |h〉との b より、 |h 〉と |h 〉との同時確率の a
i i k k ijl ij2 i の比率で、 k毎に加え合わせ、規格ィ匕することと同等と考えられる。よって、適当な初 期状態より始めれば、 qと pとが上述した手順に従って求めれ、収束する。収束したか 否かの判断は、 p、 qが一定値に収束することにより判断することができる。
[0034] 次に、ゲノム解析装置 1によるゲノム解析方法について説明する。
まず、図 3に示すように、調査する遺伝子多型の決定を行う(ステップ Sl)。ここでは 、まず、調査したい集団の遺伝子多型のウエットプロセスによるアレル情報の決定を 行う(ステップ S 2)。また、アレル情報より個人のハプロタイプの決定、又は推定を行う (ステップ S3)。
[0035] 次 、で、集団の双対状態にある二つの特徴パラメータの決定を行う(ステップ S4)。
ここでは、サンプルの起源母集団帰属度と各起源母集団のハプロタイプ頻度とを二 つの特徴パラメータとする。また、遺伝情報より二つの特徴パラメータ間の変換演算 子を構築する (ステップ S5)。ここでの遺伝情報は、個人のデュプロタイプとその頻度 とする。
[0036] また、適当な初期値より始め、変換演算子により二つの特徴パラメータを順番に求 める (ステップ S6)。そして、パラメータ力 収束するまで変換を繰り返す (ステップ S 7) 。その後、二つの特徴パラメータが求まる (ステップ S8)。
[0037] (実施例)
次に、実施例について説明する。
以下に示す図 4一図 15は、起源母集団を推論し、かつ各サンプルを起源母集団に 割り当てるために複数座位の遺伝子型データ及びノヽプロタイプデータを使用する双 対性変換演算子によるゲノム解析方法による解析結果の一例を示す図である。
[0038] 遺伝子解析では、ケースコントロール相関解析力 表現型データ (たとえば疾病遺 伝子を見つける相関マッピング)に遺伝子型データをマッピングさせる強力な方法と なっている。しかし、起源母集団を推定する場合、ケースコントロール相関解析では、 構造ィ匕した集団からの遺伝子型データはデータのマッピングにエラーを生じて肯定 的な結果に帰着する可能性がある。
[0039] そのため、ケースコントロール相関解析の前に潜在的な集団構造を検知することが 望ましい。潜在的な集団構造を検知する場合、ベイズ統計に基づく MCMC法、サン プル間の距離の概念に基づくクラスタモデルのような、座位のアレルを使用する、構 造ィ匕した集団を識別する方法等があるが、本実施例では双対性変換演算子アルゴリ ズムによる新 、モデリング方法を採用した。
[0040] この場合、ハプロタイプが対立遺伝子より強力な遺伝子情報であると考え、対立遺 伝子ではなくハプロタイプを採用した。また、ヒルベルト空間上のベクトルとその演算 子と魏団の構造ィ匕を解析する遺伝解析のケースコントロール相関解析に採用した 。つまり、サンプリングされた個人に属する隠れた実在があると仮定した力もである。
[0041] ここで、ヒルベルト空間中のベクトルは遺伝状態を表すものである。また、演算子は 、一つのベクトル表現を他のベクトル表現に変形することができる。
[0042] そこで、サンプルデータが属する母集団の特徴を表す二つの変数力 完全に独立 ではなぐ完全に従属でもない場合の二つの変数を観測し得る第 3の変数 (不完全デ ータ)より推定する方法を採用した。
[0043] 本実施例では、上述したように、起源母集団のハプロタイプ頻度 p とサンプルの起
k
源母集団への帰属度 q とを双対性状態にある二つの特徴付ける演算子として採用 した。これにより、サンプリングされた個人の属する隠れた実在が推定されるものと考 える。また、本実施例では、上述したように、観測されるデータとして個人のデュプロ タイプとその頻度 dを採用した。
[0044] ここで、 qと p とを、上述したように、対象となる系を特徴付ける完全で独立でない (
i k
ェンタングルメント状態の)二つ状態、いわゆる双対性の一種と考える。そう考えると q と は、上述したように、光子の粒子的側面と波動的側面とがフーリエ変換 (逆フー k
リエ変換)変換できるように、 qと とを相互に変換する演算子と考えることができる。
1 k [0045] [数 8]
q i = Φ (pk ) · · · (1)
[数 9]
P k = Φ (q i ) · · · (2)
そこで、 qと について、式(1)及び式(2)を仮定し、遺伝統計知識力 これらの
1 k
演算子を推定するようにした。
[0046] また、個人のデュプロタイプとその頻度を d とすると、ヒルベルト空間表現では、次 の式(3)—式(5)のように表すことができる。
[数 10]
¾ = ∑jCik|Kk> ただし、 ∑kcik =1 · . . (3)
[数 11]
h, - ∑ir a, ir |hn>|hir > ただし、 =1 · · · (4)
[数 12]
Pk = ∑Ajh ただし、 ∑Λ„ =ι · · · ( 5 ) なお、 |k〉(起源母集団ベクトル)と |h >,|h〉, |h ,〉(ノヽプロタイプベクトル)とは、それ k km il il
ぞれサンプル集団が属するヒルベルト空間の基底ベクトルの一つと考える。
[0047] また、実際の双対性変換演算子としては、次の式 (6)及び式 (7)を採用した。
[数 13]
< k= ∑ιι' am' *bkl*bkl, · · · (6)
[数 14]
<K = icikir aiir · · · (7)
[0048] 次に、これらの式から、まず、ステップ 1)では、 からの q;に見合う適当な初期値を セットする。ただし、初期値は、 lZk以外である。また、 kは起源母集団数である。次 に、ステップ 2)では、式(7)より pを求める。次に、ステップ 3)では、式(6)より qを求
k i める。ここで、 pと qとが収束するまで、演算を繰り返す。
k i
[0049] 次に、構造ィ匕された母集団の各起源母集団のハプロタイプ頻度のデータをについ て説明する。 [0050] 図 4は、グループ (起源母集団)のたとえば二つのグループのハプロタイプ頻度の例 を示すものである。この例において、ハプロタイプは 6つの座位力も表されている。ま た、各座位は二つの対立遺伝子(SNP)を持っていることが分かる。ここで、 "1"は多 数の対立遺伝子を表し、 "2"は少数の対立遺伝子を表している。ここでの評価した詳 細なグループ (起源母集団)情報及びそのハプロタイプ頻度は、図 10の総合データよ り確認することがでさる。
[0051] 図 5は、 q評価を示すものであり、その詳細は、図 10の総合データより確認すること ができる。ここでは、サンプルされた母集団がいくつの起源母集団より構成されている 力と本発明の方法と他の方法との評価の比較を示している。ここで、起源母集団のハ プロタイプ頻度が似通っているほどこれらの違いを識別することが困難となる力 ハプ 口タイプブロックの数を増やせば増やすほど、よりよ 、結果が得られる。
[0052] たとえば、 1123は 3つのハプロタイプブロックとしての II、 12及び 13の結合したデー タである。 1123456は、さらに II、 12、 13、 14、 15及び 16の結合したデータである。これら 複数のハプロタイプブロックの結果は、一つのブロック単独の場合よりはるかに良い 一致を示すことになる。
[0053] 図 6は、 k (起源母集団の数) = 2とした場合のサンプルの起源母集団混合比率を示 し、図 7は、 k= 3とした場合のサンプルの起源母集団混合比率を示している。つまり 、サンプルの起源母集団混合比率力 であれば一つの集団に属することになるが 、 0と 1の間の場合は、複数の起源母集団にその混合比率で属することになる。
[0054] 図 8は、 k= 2とした場合の p評価を示し、図 9は、 k= 3とした場合の p評価を示し
k k
ている。双対性変換による評価は、 MCMC法より同等又はよりよい結果が得られて いることが分かる。なお、 p評価は、図 13
k —図 15の総合データより確認することがで きる。
[0055] ここで、図 10は、 k= 2とした場合の起源母集団 1, 2の詳細である総合データを示 す図であり、図 11は、 k= 3とした場合の起源母集団 1一 3の詳細である総合データ を示す図であり、図 12は、 k=4とした場合の起源母集団 1一 4の詳細である総合デ ータを示す図である。
[0056] また、図 13及び図 14は、 k= 2とした場合の p評価の詳細である総合データを示し 、図 15は、 k= 3とした場合の p評価の詳細である総合データを示している。
k
[0057] このように、本実施形態では、サンプルデータを取り込み、双対性を成す二つの第 1及び第 2の状態変数に遺伝 (統計)学の知識を埋め込み、第 1及び第 2の状態変数 を本来あるべき値に収束させることで、サンプルデータが持つ母集団の特徴を推定し 、母集団の特徴を推定した結果を出力するようにしたので、サンプルデータにより母 集団の特徴を推定するための解析を行うことができる。
産業上の利用可能性
[0058] 以上の如く本発明によれば、サンプルデータにより母集団の特徴を推定するための 解析を行うことができる。
図面の簡単な説明
[0059] [図 1]本発明のゲノム解析方法に用いられるゲノム解析装置の概要を説明するための 図である。
[図 2]図 1のゲノム解析装置による解析の概要を説明するための図である。
[図 3]本発明のゲノム解析方法を示すフローチャートである。
[図 4]二つの起源母集団のハプロタイプ頻度の例を示す図である。
[図 5]q評価を示す図である。
[図 6]k= 2とした場合の個人の起源母集団混合比率を示す図である。
[図 7]k= 3とした場合の個人の起源母集団混合比率を示す図である。
[図 8]k= 2とした場合の p評価を示す図である。
k
[図 9]k= 3とした場合の p評価を示す図である。
k
[図 10]k= 2とした場合の起源母集団 1, 2の詳細である総合データを示す図である。
[図 ll]k= 3とした場合の起源母集団 1一 3の詳細である総合データを示す図である。
[図 12]k=4とした場合の起源母集団 1一 4の詳細である総合データを示す図である。
[図 13]k= 2とした場合の p評価の詳細である総合データを示す図である。
k
[図 14]k= 2とした場合の p評価の詳細である総合データを示す図である。
k
[図 15]k= 3とした場合の p評価の詳細である総合データを示す図である。
k
符号の説明
[0060] 1 ゲノム解析装置

Claims

請求の範囲
[1] サンプルデータにより母集団の特徴を推定するための解析を行うゲノム解析方法で あって、
前記サンプルデータを取り込む工程と、
遺伝 (統計)学の知識より双対性を成す二つの第 1及び第 2の状態変数を選択し、 前記第 1及び第 2の状態変数を本来あるべき値に収束させることで、前記サンプルデ ータが属する母集団の特徴を推定する工程と、
前記母集団の特徴を推定した結果を出力する工程とを有する
ことを特徴とするゲノム解析方法。
[2] 前記第 1及び第 2状態変数が互いに他で表す遺伝 (統計)学の知識を埋め込んだ 変換式を演算子として互いに変換を行い、第 1及び第 2の状態変数をそれらの演算 子に埋め込んだ第 3の状態変数により推定する工程を有することを特徴とする請求 項 1に記載のゲノム解析方法。
[3] 前記第 1の状態変数が各サンプルの起源母集団帰属度であり、前記第 2の状態変 数が起源母集団ハプロタイプ頻度であることを特徴とする請求項 1又は 2に記載のゲ ノム解析方法。
[4] 前記第 3の状態変数が各サンプルのディプロタイプ及びその頻度であることを特徴 とする請求項 1一 3のいずれかに記載のゲノム解析方法。
[5] 調査する遺伝子多型の決定を行う工程と、
調査したい集団の遺伝子多型のウエットプロセスによるアレル情報の決定を行うェ 程と、
前記アレル情報より個人のハプロタイプの決定、又は推定を行う工程と、 集団の双対状態にある二つの特徴パラメータの決定を行う工程と、
遺伝情報より前記二つの特徴パラメータ間の変換演算子を構築する工程と、 所定の初期値より始め、変換演算子により前記二つの特徴パラメータを順番に求め る工程と、
前記特徴パラメータが収束するまで変換を繰り返す工程とを有し、
前記二つの特徴パラメータが求まることで、前記サンプルデータより母集団の特徴 が推定される
ことを特徴とする請求項 1一 4のいずれかに記載のゲノム解析方法。
PCT/JP2004/013075 2004-09-08 2004-09-08 ゲノム解析方法 WO2006027835A2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US11/574,948 US20080318214A1 (en) 2004-09-08 2004-09-08 Genome Analysis Method
EP04787758A EP1832992A4 (en) 2004-09-08 2004-09-08 GENOME ANALYSIS METHOD
PCT/JP2004/013075 WO2006027835A2 (ja) 2004-09-08 2004-09-08 ゲノム解析方法
JP2006534946A JPWO2006027835A1 (ja) 2004-09-08 2004-09-08 ゲノム解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/013075 WO2006027835A2 (ja) 2004-09-08 2004-09-08 ゲノム解析方法

Publications (3)

Publication Number Publication Date
WO2006027835A1 WO2006027835A1 (ja) 2006-03-16
WO2006027835A2 true WO2006027835A2 (ja) 2006-03-16
WO2006027835A8 WO2006027835A8 (ja) 2009-08-20

Family

ID=36036742

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/013075 WO2006027835A2 (ja) 2004-09-08 2004-09-08 ゲノム解析方法

Country Status (4)

Country Link
US (1) US20080318214A1 (ja)
EP (1) EP1832992A4 (ja)
JP (1) JPWO2006027835A1 (ja)
WO (1) WO2006027835A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007424A1 (fr) * 2006-07-11 2008-01-17 Digital Information Technologies Corporation Système d'analyse du génome, procédé d'analyse du génome et programme

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU785425B2 (en) * 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of EP1832992A1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007424A1 (fr) * 2006-07-11 2008-01-17 Digital Information Technologies Corporation Système d'analyse du génome, procédé d'analyse du génome et programme

Also Published As

Publication number Publication date
US20080318214A1 (en) 2008-12-25
EP1832992A1 (en) 2007-09-12
EP1832992A4 (en) 2008-02-13
WO2006027835A8 (ja) 2009-08-20
JPWO2006027835A1 (ja) 2008-07-31

Similar Documents

Publication Publication Date Title
Hohenlohe et al. Population genomic analysis of model and nonmodel organisms using sequenced RAD tags
Zhang et al. Learning gene networks under SNP perturbations using eQTL datasets
Akers et al. Gene regulatory network inference in single-cell biology
Nielsen et al. Likelihood analysis of ongoing gene flow and historical association
Dinh et al. Statistical inference for the evolutionary history of cancer genomes
Illingworth et al. Inferring genome-wide recombination landscapes from advanced intercross lines: application to yeast crosses
Balaban et al. Phylogenetic double placement of mixed samples
WO2006027835A2 (ja) ゲノム解析方法
Hibbins et al. Population genetic tests for the direction and relative timing of introgression
Ortega-Del Vecchyo et al. Haplotype-based inference of the distribution of fitness effects
Barroso et al. Inference of recombination maps from a single pair of genomes and its application to archaic samples
Meyer et al. Modeling methylation patterns with long read sequencing data
Polushina et al. Change-point detection in binary Markov DNA sequences by the Cross-Entropy method
CN116959561B (zh) 一种基于神经网络模型的基因相互作用预测方法和装置
Araki et al. An estimation method for a cellular-state-specific gene regulatory network along tree-structured gene expression profiles
Jhwueng An improved tree-based statistical method for genome-wide association study
Hintze et al. Testing the efficiency of a genome-wide association study on a computational evolutionary model
Cao et al. De novo reconstruction of microbial haplotypes by integrating statistical and physical linkage
WO2008007424A1 (fr) Système d&#39;analyse du génome, procédé d&#39;analyse du génome et programme
Casale Multivariate linear mixed models for statistical genetics
Magori-Cohen et al. Mutation parameters from DNA sequence data using graph theoretic measures on lineage trees
WO2006120752A1 (ja) ゲノム解析システムii
Lukaszewicz et al. Approximate Bayesian computational methods to estimate the strength of divergent selection in population genomics models
Zhou et al. Pairclonetree: Reconstruction of tumor subclone phylogeny based on mutation pairs using next generation sequencing data
Pearson Ancestral Paths: Redefining local genetic ancestry and its inference with application to Europeans

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2006534946

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11574948

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2004787758

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2004787758

Country of ref document: EP