WO2016084844A1 - 形質予測モデル作成方法および形質予測方法 - Google Patents

形質予測モデル作成方法および形質予測方法 Download PDF

Info

Publication number
WO2016084844A1
WO2016084844A1 PCT/JP2015/083068 JP2015083068W WO2016084844A1 WO 2016084844 A1 WO2016084844 A1 WO 2016084844A1 JP 2015083068 W JP2015083068 W JP 2015083068W WO 2016084844 A1 WO2016084844 A1 WO 2016084844A1
Authority
WO
WIPO (PCT)
Prior art keywords
single nucleotide
trait
prediction model
nucleotide polymorphism
matrix
Prior art date
Application number
PCT/JP2015/083068
Other languages
English (en)
French (fr)
Inventor
剛史 八谷
Original Assignee
学校法人岩手医科大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 学校法人岩手医科大学 filed Critical 学校法人岩手医科大学
Priority to EP15862302.5A priority Critical patent/EP3226163A4/en
Priority to CN201580064102.2A priority patent/CN107004066B/zh
Priority to US15/529,636 priority patent/US20170337483A1/en
Publication of WO2016084844A1 publication Critical patent/WO2016084844A1/ja
Priority to US16/929,282 priority patent/US20200342342A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Definitions

  • the present invention relates to a trait prediction model creation method and a trait prediction method.
  • the point of using only the sensitive polymorphism is a disadvantage and a limitation of this method. This is because, in almost all multifactorial traits, only a few of the actual causal susceptibility polymorphs have been identified. For example, it is estimated that about 80% of the variance in height can be explained by genetic factors, but the variance that can be explained by known susceptibility polymorphism is only about 5%.
  • An object of the present invention is to provide a trait prediction model creation method for predicting a phenotype of a trait from single nucleotide polymorphism data and a trait prediction method capable of predicting a trait with high probability.
  • the present inventors examined a statistical processing method using comprehensive (genome-wide) polymorphism information regardless of whether or not it is a susceptibility polymorphism. That is, 27 quantitative traits including height and HbA1c test values, and 5 qualitative traits including diabetes and low HDL cholesterol plasma disease are used as an example. Using information as a regulatory variable, applying a linear mixed model and learning about traits to create a prediction model, we found that this prediction is highly correlated with the actual measurement. Thus, we have completed a prediction method that predicts phenotypes from genomic information.
  • a prediction model for predicting a phenotype of a multifactorial trait is created using single nucleotide polymorphism data in which a plurality of single nucleotide polymorphisms correspond to a trait in a plurality of individuals of an organism.
  • a method for creating a trait prediction model wherein the plurality of single nucleotide polymorphisms are represented in a matrix, the plurality of single nucleotide polymorphisms are classified into a plurality of categories based on genetic structure, and the category Calculating a genome similarity matrix using the matrix notation and the number of single nucleotide polymorphisms belonging to the category, and applying the genome similarity matrix and the parameters of the genetic structure to a linear mixed model And a process for creating a trait prediction model.
  • the genetic structure may be effect size and / or allele frequency.
  • Another embodiment of the present invention uses a single nucleotide polymorphism data corresponding to a plurality of single nucleotide polymorphisms, sexes, ages, and traits in a plurality of individuals of an organism to determine a phenotype of a multifactorial trait.
  • a method for creating a trait prediction model for creating a trait prediction model to be predicted wherein the plurality of single nucleotide polymorphisms are respectively represented in a matrix, the sex and / or age in a matrix notation, and the single base Calculating a genome similarity matrix using a matrix notation of polymorphism and the number of single nucleotide polymorphisms; applying the genome similarity matrix and the sex and / or age matrix to a linear mixed model; Is a method for creating a trait prediction model.
  • the traits are height, weight, systolic blood pressure, diastolic blood pressure, blood glucose, HbA1c, red blood cell count, blood color pigment, blood cell volume, white blood cell count, platelet count, neutrophil ratio, lymphocyte ratio, monocyte ratio, eosinic acid Sphere ratio, basophil ratio, large unstained sphere ratio, AST (GOT), ALT (GPT), ⁇ -GTP, total cholesterol, neutral fat, HDL cholesterol, LDL cholesterol, creatinine, urea nitrogen, uric acid May be selected from the group consisting of diabetes, hypertension, high LDL cholesterolemia, low HDL cholesterolemia, hypertriglycerideemia.
  • a further embodiment of the present invention is a trait prediction method for predicting a trait of a living individual from a plurality of single nucleotide polymorphism data in a living individual, using the learning data set, the prediction model creating method And generating a prediction model, determining a parameter and a hidden variable of the linear mixed model, and applying the plurality of single nucleotide polymorphism data of the organism individual to the prediction model.
  • This is a prediction method.
  • a further embodiment of the present invention is a program for predicting a trait of an individual organism from a plurality of single nucleotide polymorphism data in the individual organism, and causing the computer to execute the above trait prediction method.
  • One embodiment of the present invention may be a computer-readable recording medium on which the program is recorded.
  • a further embodiment of the present invention is a trait prediction system for predicting a trait of an organism individual from a plurality of single nucleotide polymorphism data in the organism individual, (i) an input device for inputting a plurality of single nucleotide polymorphism data of the individual organism, (ii) a computer that executes the program using the input data; and (iii) A trait prediction system including an output device for outputting the result obtained in (ii).
  • Example of this invention it pays attention to a HbA1c test value and height, and is a figure which shows the estimation result of the contribution rate by the genetic structure division
  • the evaluation value was evaluated by the 2-fold cross validation method using R 2 (square of correlation coefficient) of the actual measurement value and the predicted value.
  • R 2 square of correlation coefficient
  • the method for creating a trait prediction model uses a single nucleotide polymorphism data in which a plurality of single nucleotide polymorphisms (Single Nucleotide Polymorphism; SNP) and traits are associated with each other in a plurality of organisms,
  • a prediction model creation method for creating a prediction model for predicting a phenotype in which a plurality of single nucleotide polymorphisms are respectively represented in a matrix and a plurality of single nucleotide polymorphisms are classified into multiple categories based on genetic structure
  • a step of classifying, a step of calculating a genome similarity matrix using a single nucleotide polymorphism matrix notation and the number of single nucleotide polymorphisms belonging to each category for each category, a genome similarity matrix and a genetic structure Applying a parameter to the linear mixed model.
  • a method for creating a trait prediction model wherein a plurality of single nucleotide polymorphisms are respectively represented in a matrix, a sex and / or age is represented in a matrix, a single nucleotide polymorphism matrix notation, and a single nucleotide polymorphism.
  • a method for creating a trait prediction model including a step of calculating a genome similarity matrix using a number and a step of applying a genome similarity matrix and a sex and / or age matrix to a linear mixed model.
  • the single nucleotide polymorphism included in the single nucleotide polymorphism data used here is not particularly limited, and may or may not be a sensitive polymorphism of the target trait.
  • the number and type of single nucleotide polymorphisms to be used are not particularly limited, but it is preferable to cover single nucleotide polymorphisms present in 1% or more of the target organism population.
  • the target organism is not particularly limited and may be a plant or an animal, but is preferably a vertebrate, more preferably a mammal, and most preferably a human.
  • the target trait is not particularly limited as long as it is a multifactorial trait.
  • indices related to body type such as height, weight, BMI; blood pressure (maximum blood pressure, minimum blood pressure), HbA1c, red blood cell count, blood color Dye, blood cell volume, white blood cell count, platelet count, neutrophil ratio, lymphocyte ratio, monocyte ratio, eosinophil ratio, basophil ratio, large unstained sphere ratio, nucleated red blood cell count , AST (GOT), ALT (GPT), ⁇ -GTP, total cholesterol, neutral fat, HDL cholesterol, LDL cholesterol, creatinine, urea nitrogen, estimated glomerular filtration rate, uric acid and other blood test evaluation values; memory, understanding Abilities such as strength, intelligence quotient, sports technology; adult diseases such as obesity, diabetes
  • the trait prediction for predicting the trait of an individual organism from a plurality of single nucleotide polymorphism data can be performed using the prediction model creation method of the present invention. That is, using a learning data set, a trait prediction model is created according to the trait prediction model creation method of the present invention, parameters and hidden variables of a linear mixed model are determined, and a plurality of single nucleotide polymorphism data of an individual organism is obtained. By applying to the trait prediction model, the trait of the individual organism can be predicted.
  • Matrix notation of gender / age information We will describe the technique of notation for N human individuals, assuming that sex age data has been obtained, and N ⁇ 6 matrix X.
  • the row vector of X means the gender and age information of each individual.
  • the i row and j column elements of the matrix X are expressed as X (i, j).
  • Age is handled as category data, but the number of stages in the category is not particularly limited.
  • the sex information is expressed in the first column of the matrix X.
  • X (i, 1) is defined by the following formula, assuming that the gender of the i-th individual is “M” if the gender is male and “F” if the gender is female.
  • Age information is expressed in columns 2 to 6 of matrix X. If the age of the i-th human individual is age i , X (i, 2), X (i, 3), X (i, 4), X (i, 5), X (i, 6) are It is defined by an expression.
  • N p single nucleotide polymorphism
  • N ⁇ p matrix N and p are integers of 1 or more
  • W The technique to do is described.
  • a row vector of W means a polymorphic profile of each individual, and a column vector of W means a vector representing a difference between individuals of a certain polymorphic site.
  • the jth polymorphism of the ith human individual is composed of two alleles. "AA” if both alleles match the human representative sequence, "AB” if only one allele matches the human representative sequence, "BB” if both alleles do not match the human representative sequence ".
  • the i row j column element of the matrix W is expressed as W (i, j).
  • the allele frequency of the j-th polymorphism is expressed as f j .
  • W (i, j) is defined by the following equation.
  • the representative sequence is a sequence having arbitrary bases determined for each polymorphism and having them, but may be a sequence published as a result of the genome project, for example.
  • Classification of SNPs based on genetic structure The following describes a method for classifying p SNPs into multiple categories based on genetic structure.
  • Specific parameters that represent the genetic structure include an effect size that indicates the strength of the association with the trait and an allele frequency that represents the frequency of SNP in the human population. Typical specific examples of effect size include relative risk, odds ratio, variance contribution ratio, and regression coefficient.
  • Examples of allele frequency include risk allele frequency (RAF) and minor allele frequency (MAF).
  • the genetic structure parameters used in the method of the present invention are not particularly limited, but here, as an example, a classification procedure in the case of using regression coefficient and RAF is shown.
  • Genetic structure parameters such as effect size and RAF can be estimated by analysis of association between polymorphisms and traits.
  • association between polymorphisms and traits a generally available program may be used.
  • PLINK or GCTA available on the Internet may be used.
  • the genome similarity matrix is an N ⁇ N matrix representing the similarity between individuals based on genome information.
  • the genome similarity matrix is calculated for each category of Q es ⁇ Q RAF .
  • a typical calculation formula of the genome similarity matrix A is shown, but the calculation formula of the genome similarity matrix is not limited to this.
  • a (ij) is the genome similarity matrix (N ⁇ N dimension ) of category (i, j)
  • p (ij) is the number of SNPs belonging to category (i, j)
  • W (ij) is the matrix W A submatrix (N ⁇ p (ij) dimension) obtained by extracting only SNP column vectors belonging to category (i, j) from the above
  • Character prediction method Formula (1) is “genetic structure division + sex age adjustment method”
  • formula (2) is “sex age adjustment method”
  • formula (3) is “genetic structure split method”
  • formula (4) is “genetic structure non-partition” + Gender age adjustment method ”
  • Equation (5) is called“ genetic structure non-division method ”.
  • Trait prediction system In order to automate the trait prediction method, it can be programmed to be executed by a computer. The program created in this way is also within the scope of the rights of the present invention. In addition to a computer for executing this program, a character provided with an input device for inputting single nucleotide polymorphisms, sex / age information, etc., and an output device for outputting the results obtained by executing the program. It is also possible to use a prediction system.
  • Method In this example, focusing on height as an example of multi-factor quantitative traits, using 4992 single nucleotide polymorphism data and gender / age information collected in 2013 by the Tohoku Medical Megabank Project, A trait prediction model was created by the trait prediction model creation method of the invention (when the above (9-2) sex age information was used), and heritability was estimated. As a control, an estimate of heritability was also calculated when sex / age information was not used, and compared with the case where it was used.
  • the prediction accuracy of the trait prediction model is (1) when only sex / age information is used (2) when only single nucleotide polymorphism information is used (3) when both are performed (Example of the present invention)
  • Each of was evaluated by the 2-fold cross validation method.
  • R 2 correlation coefficient squared
  • the heritability without gender / age information is 40.67%, and the heritability with gender / age information is 82.29%, compared to the case without gender / age information. In some cases, heritability was large, and it was found that part of the height distribution was explained by sex age.
  • R 2 prediction accuracy
  • the prediction accuracy (R 2 ) was evaluated by the 2-fold cross validation method for three types (1) to (3) (mean ⁇ standard deviation), (1) 56.89 ⁇ 1.36% (2) 1.45 ⁇ 0.26% (3) 59.63 ⁇ 1.24%.
  • both sex-age information and genome information are compared to when only genome information is used. When used, the prediction accuracy was improved.
  • the prediction accuracy of the trait prediction model is as follows: (1) When only sex / age information is used (2) When only single nucleotide polymorphism information is used (3) When both are performed (Example of the present invention) Was evaluated by the 2-fold cross validation method. AUC was used as an evaluation index.
  • the contribution rate of non-rare single nucleotide polymorphisms was limited, and it was estimated that the rare single nucleotide polymorphisms showed a very large contribution rate. On the other hand, it was estimated that the contribution rate of rare single nucleotide polymorphisms is not small in height, but the contribution rate of rare single nucleotide polymorphisms is not small.
  • Each of the examples was evaluated by the 2-fold cross validation method.
  • R 2 square of correlation coefficient
  • FIG. 4 shows the result of accuracy evaluation for 27 quantitative traits
  • FIG. 5 shows the result of accuracy evaluation for 5 qualitative traits.
  • R 2 square of correlation coefficient
  • FIG. 6 shows the result of accuracy evaluation for 27 quantitative traits
  • FIG. 7 shows the result of accuracy evaluation for 5 qualitative traits.
  • the trait prediction model created by the trait prediction model creation method of the present invention can be predicted with higher probability than the conventional prediction method.
  • the genetic structure of the trait can be elucidated by estimating the contribution rate by the genetic structure partitioning method.
  • the present invention it is possible to provide a trait prediction model creation method for predicting a phenotype of a trait from single nucleotide polymorphism data and a trait prediction method capable of predicting a trait with high probability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ecology (AREA)

Abstract

 本発明は、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供する。すなわち、生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、複数の一塩基多型を、それぞれ行列表記する工程と、複数の一塩基多型を遺伝構造に基づいて複数のカテゴリーに分類する工程と、カテゴリーの各々に対し行列表記及びカテゴリーに属する一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法とする。

Description

形質予測モデル作成方法および形質予測方法
 本発明は、形質予測モデル作成方法および形質予測方法に関する。
 従来、ヒトゲノム情報を用いた表現型予測として、形質感受性多型に着目し、すでに同定された感受性多型のみを用いて表現型を予測する手法が中心的に研究されてきた(V. Lyssenko et al., N Engl J Med 2008 vol.359 p.2220-2232; S.Ripatthi et al., Lanet 2010 Vol.376 p.1393-1400; C. A. Ibrahim-Verbaas et al., Stroke 2014 vol.45 p.403-412)。これらの手法は、形質と関連のある数個から数百個の多型を具体的に列挙し、それぞれの多型の重みを推定するものであって、形質への個々の多型の影響を数値化できる点で直感的に理解しやすい。
 しかしながら、感受性多型のみを用いる点は、この手法の短所であり、限界である。なぜなら、ほとんど全ての多因子形質において、実際の原因となる感受性多型のうち、同定されているものはごく僅かだからである。例えば、身長の分散のうち約80%を遺伝要因によって説明できると推定されているが、既知の感受性多型によって説明できる分散は僅か5%程度にすぎない。
 そこで、非特許文献(D. Speed and D. J. Balding, Genome Research 2015 vol.24 p.1550-1557)は、感受性多型に関わらず、網羅的(ゲノムワイド)な多型情報を用いた表現型予測法について述べている。すなわち、複数の一塩基多型(Single Nucleotide Polymorphism; SNP)を複数のカテゴリーに分割して、線形混合モデルを適用するものである。しかしながら、その手法においても予測の精度はまだ不十分である。
 本発明は、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供することを目的とする。
 本発明者らは、感受性多型か否かに関わらず、網羅的(ゲノムワイド)な多型情報を用いた統計学処理手法を検討した。すなわち、身長やHbA1c検査値を含む27の量的形質、および、糖尿病や低HDLコレステロール血漿の罹患を含む5つの質的形質を例とし、約100万個の多型をゲノム情報として、性年齢情報を調節変数として用いて、線形混合モデルを適用し、形質について学習させて予測モデルを作成したところ、この予測が、実測値と高度に相関があることを見出した。こうして、我々は、ゲノム情報から表現型を予測する予測方法の完成に至った。
 本発明の一実施態様は、生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、前記複数の一塩基多型を、それぞれ行列表記する工程と、前記複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、前記ゲノム類似度行列と前記遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。前記遺伝構造が、effect size及び/又は allele frequencyであってもよい。
 本発明の他の一実施態様は、生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する形質予測モデルを作成する形質予測モデル作成方法であって、前記複数の一塩基多型を、それぞれ行列表記する工程と、前記性および/または年齢を、行列表記する工程と、前記一塩基多型の行列表記及び前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、前記ゲノム類似度行列と前記性および/または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。前記形質が身長、体重、最高血圧、最低血圧、血糖、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ-GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択されてもよい。
 本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、学習用データセットを用いて、上記予測モデル作成方法に従って、予測モデルを作成する工程と、線形混合モデルのパラメータ及び隠れ変数を決定する工程と、当該生物個体の前記複数の一塩基多型データを、前記予測モデルに適用する工程と、を含む形質予測方法である。
 本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、コンピュータに上記形質予測方法を実行させるプログラムである。本発明の一実施態様は、本プログラムを記録した、コンピュータで読み取り可能な記録媒体であってもよい。
 本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
(i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
(ii) 入力されたデータを用いて、上記プログラムを実行するコンピュータ、および
(iii) (ii) により得られた結果を出力するための出力装置
を備えた形質予測システムである。
==関連文献とのクロスリファレンス==
 本出願は、2014年11月25日付で出願した日本国特許出願2014-238252に基づく優先権を主張するものであり、当該基礎出願を引用することにより、本明細書に含めるものとする。
本発明の一実施例において、HbA1c検査値と身長に着目し、遺伝構造分割法による寄与率の推定結果を示す図である(Qes=50, QRAF=1の場合)。 本発明の一実施例において、HbA1c検査値と身長に着目し、遺伝構造分割法による寄与率の推定結果を示す図である(Qes=1, QRAF=30の場合)。 本発明の一実施例において、実施例に用いた形質の一覧である。 本発明の一実施例において、27の量的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例)の3通りの方法を比較した。評価指標として、実測値と予測値のR(相関係数の自乗)を用い、2-fold cross validation法によって評価した。 本発明の一実施例において、5の質的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例)の3通りの方法を比較した。評価指標として、AUCを用い、2-fold cross validation法によって評価した。 本発明の一実施例において、サンプルサイズが充分に大きい場合の27の量的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1の場合(遺伝構造分割あり;本発明の実施例),の4通りの方法を比較した。評価指標として、実測値と予測値のR(相関係数の自乗)を用い、2-fold cross validation法によって評価した。 本発明の一実施例において、サンプルサイズが充分に大きい場合の5の質的形質の精度評価結果を示す図である。(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1の場合(遺伝構造分割あり;本発明の実施例),の4通りの方法を比較した。評価指標として、AUCを用い、2-fold cross validation法によって評価した。
 本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示又は説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは、当業者にとって明らかである。
 本発明にかかる形質予測モデル作成方法は、生物の複数の個体において複数の一塩基多型(Single Nucleotide Polymorphism; SNP)と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する予測モデル作成方法であって、複数の一塩基多型を、それぞれ行列表記する工程と、複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、カテゴリーの各々に対し、一塩基多型の行列表記及び各カテゴリーに属する一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。または、生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する形質予測モデルを作成する形質予測モデル作成方法であって、複数の一塩基多型を、それぞれ行列表記する工程と、性および/または年齢を、行列表記する工程と、一塩基多型の行列表記及び一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と性および/または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。
 ここで用いる一塩基多型データに含まれる一塩基多型は、特に限定されず、対象とする形質の感受性多型であってもよく、なくてもよい。用いる一塩基多型の数や種類も特に限定されないが、対象とする生物個体集団中に1%以上存在する一塩基多型を網羅していることが好ましい。
 対象とする生物は特に限定されず、植物であっても動物であってもよいが、脊椎動物であることが好ましく、ほ乳類であることがより好ましく、ヒトであることが最も好ましい。対象とする形質は、多因子性形質であれば特に限定されず、例えば、ヒトの場合、身長、体重、BMIなどの体型に関する指標;血圧(最高血圧、最低血圧)、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、有核赤血球数、AST(GOT)、ALT(GPT)、γ-GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、推定糸球濾過量、尿酸などの血液検査評価値;記憶力、理解力、知能指数、スポーツ技術などの能力;肥満・糖尿病・高血圧・循環器疾患などの成人病、がん、アレルギー・自己免疫病などの免疫疾患などの病気のかかりやすさ、などが例示できる。
 本発明の予測モデル作成方法を用いて、複数の一塩基多型データから、生物個体の形質を予測する形質予測が可能である。すなわち、学習用データセットを用いて、本発明の形質予測モデル作成方法に従って形質予測モデルを作成し、線形混合モデルのパラメータ及び隠れ変数を決定し、生物個体の複数の一塩基多型データを、形質予測モデルに適用することにより、その生物個体の形質を予測することができる。
 以下、本発明の予測モデル作成方法及び形質予測方法について、実施例を挙げながら具体的かつ詳細に説明するが、本発明はこれらの実施の形態あるいは実施例に限定されるものではない。
(1)性・年齢情報の行列表記
 N名のヒト個人について、性年齢データが得られているとし、N×6行列 X として表記する手法を述べる。Xの行ベクトルは各個人の性別と年齢の情報を意味する。行列Xのi行j列要素をX(i,j)と表記することとする。年齢はカテゴリデータとして扱うが、そのカテゴリの段階数は特に限定されない。ここでは、一例として、39歳以下,40歳以上49歳以下,50歳以上59歳以下,60歳以上69歳以下,70歳以上の5段階とする方法を述べる。
 性別の情報は、行列Xの1列目に表現される。i番目のヒト個人の性別が男性の場合には”M”,女性の場合には”F”とすると、X(i,1) は以下の式で定義される。
Figure JPOXMLDOC01-appb-I000001
 年齢の情報は、行列Xの2~6列目に表現される。i番目のヒト個人の年齢をageiとすると、X(i,2),X(i,3),X(i,4),X(i,5),X(i,6) は以下の式で定義される。
Figure JPOXMLDOC01-appb-I000002
(2)ゲノム情報の行列表記
 N名のヒト個人について、p個の一塩基多型(SNP)データが得られているとし、N×p行列(N,pは1以上の整数)Wとして表記する手法を述べる。Wの行ベクトルは各個人の多型プロファイルを意味し、Wの列ベクトルはある多型部位の個人間の違いをあらわすベクトルを意味する。
 i番目のヒト個人のj番目の多型は、2つのアリルから構成される。両方のアリルがヒト代表配列と一致する場合には”AA”,片方のアリルのみがヒト代表配列と一致する場合には”AB”,両方のアリルがヒト代表配列と一致しない場合には”BB”と表記することとする。また、行列Wのi行j列要素をW(i,j)と表記することとする。また、j番目の多型のアリル頻度をfjと表記することとする。これらの表記に基づいて、W(i,j)は以下の式で定義される。
Figure JPOXMLDOC01-appb-I000003
ここで、代表配列は、各多型について任意の塩基を決め、それらを有する配列とするが、例えば、ゲノムプロジェクトの成果として公表されている配列としてもよい。
(3)遺伝構造に基づくSNPの分類

 以下に、p個のSNPを、遺伝構造に基づいて複数のカテゴリーに分類する手法を述べる。遺伝構造をあらわす具体的なパラメータには、形質との関連性の強さをあらわすパラメータであるeffect sizeと、SNPのヒト集団中での頻度をあらわすallele frequencyがある。effect size の代表的な具体例として、relative risk、odds ratio、分散寄与率、regression coefficientが挙げられる。allele frequencyには、risk allele frequency (RAF)やminor allele frequency (MAF)が例示できる。本発明の方法で用いる遺伝構造パラメータは特に限定されないが、ここでは、一例としてregression coefficientとRAFを用いた場合の分類手順を示す。 
(4)分割手順(1)effect sizeのQes分位数の計算
Figure JPOXMLDOC01-appb-I000004
(5)分割手順(2)RAFのQRAF分位数の計算
Figure JPOXMLDOC01-appb-I000005
(6)SNPの分類
Figure JPOXMLDOC01-appb-I000006
(7)遺伝構造パラメータの推定
 effect sizeやRAF等の遺伝構造パラメータは、多型と形質の関連解析によって推定することができる。多型と形質の関連解析は、一般に入手できるプログラムを用いればよく、例えば、インターネット上で入手可能なPLINKやGCTAを用いてもよい。
(8)ゲノム類似度行列の計算
 ゲノム類似度行列とは、ゲノム情報に基づく個人間の類似度をあらわすN×N行列である。ゲノム類似度行列は、Qes×QRAFのカテゴリーごとに計算されるものとする。以下、代表的なゲノム類似度行列Aの計算式を示すが、ゲノム類似度行列の計算式は、これに限定されない。
Figure JPOXMLDOC01-appb-I000007
ここで、A(i.j)はカテゴリー (i,j) のゲノム類似度行列(N×N次元),p(i.j)はカテゴリー (i,j) に属するSNPの個数,W(i.j)は行列Wからカテゴリー (i,j) に属するSNPの列ベクトルのみを切り出した部分行列(N×p(i.j)次元)、W(i.j) ’は行列W(i.j)の転地行列を意味している。
(9)線形混合モデルへの適用
Figure JPOXMLDOC01-appb-I000008
Figure JPOXMLDOC01-appb-I000009
(10)線形混合モデルのパラメータ推定
Figure JPOXMLDOC01-appb-I000010
(11)寄与率の推定
Figure JPOXMLDOC01-appb-I000011
(12)遺伝要因の寄与の予測
Figure JPOXMLDOC01-appb-I000012
(13)形質予測方法
Figure JPOXMLDOC01-appb-I000013
 式(1)を「遺伝構造分割+性年齢調整法」,式(2)を「性年齢調整法」,式(3)を「遺伝構造分割法」,式(4)を「遺伝構造非分割+性年齢調整法」,式(5)を「遺伝構造非分割法」と呼ぶ。
(14)形質予測システム
 上記形質予測方法を自動化するために、コンピュータに実行させることができるようにプログラム化できる。こうして作成されたプログラムも、本発明の権利範囲内である。
 さらに、このプログラムを実行するためのコンピュータとともに、一塩基多型や性・年齢情報などを入力するための入力装置、及びプログラムの実行により得られた結果を出力するための出力装置を備えた形質予測システムとすることも可能である。
 以下に記載する本実施例の一塩基多型情報は、HumanOmniExpressExome チップ(イルミナ社)によって計測された。
(方法)
 本実施例では、多因子的な量的形質の一例として身長に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成し(前出(9-2)性年齢情報を用いた場合)、遺伝率を推定した。対照として、性・年齢情報を用いない場合についても、遺伝率の推定値を計算し、用いた場合と比較した。
 次に、形質予測モデルの予測精度を、(1)性・年齢情報のみを用いた場合(2)一塩基多型情報のみ用いた場合(3)両方を行った場合(本発明の実施例)、のそれぞれについて2-fold cross validation法によって評価した。評価指標として、実測値と予測値のR(相関係数の自乗)を用いた。
(遺伝率の推定方法)
Figure JPOXMLDOC01-appb-I000014
(結果)
 性・年齢情報を用いない場合の遺伝率は40.67%、用いた場合の遺伝率は、82.29%となり、性・年齢情報を用いない場合に比べて、性・年齢情報を用いた場合には大きく遺伝率が高くなっており、身長の分散の一部は性年齢によって説明されることが分かった。
 (1)~(3)の3通りについて、2-fold cross validation法によって予測精度(R)を評価した(平均±標準偏差)ところ、(1)56.89±1.36%(2)1.45±0.26%(3)59.63±1.24%となり、性年齢情報のみを用いた場合,ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。
(方法)
 本実施例では、多因子的な質的形質の一例として糖尿病の罹患に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9-2)性年齢情報を用いた場合)。ここで、HbA1c検査値から、6.5以上の場合には糖尿病の罹患があり、それ未満の場合には糖尿病の罹患がないとした。形質予測モデルの予測精度を、(1)性・年齢情報のみを用いた場合(2)一塩基多型情報のみ用いた場合(3)両方を行った場合(本発明の実施例)、のそれぞれについて2-fold cross validation法によって評価した。評価指標として、AUCを用いた。
(結果)
 (1)61.39±1.56%(2)55.76±0.28%(3)62.98±0.61%となり、性年齢情報のみを用いた場合,ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。
(方法)
 本実施例では、多因子的な量的形質の一例としてHbA1c検査値と身長に着目し、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、遺伝構造分割法による寄与率の推定を行った。(1)Qes=50, QRAF=1の場合,(2)Qes=1, QRAF=30 の場合,の2通りを実施した。
(結果)
 (1)Qes=50, QRAF=1 の場合の寄与率の推定結果を図1に示す。HbA1c検査値と身長のどちらにおいても、中程度のeffect sizeを示す一塩基多型の寄与率が大きく、小さなeffect sizeを示す一塩基多型の寄与率は極めて小さいことが推定された。また、HbA1c検査値においては大きなeffect sizeを示す一塩基多型の寄与が大きいが、身長においては大きなeffect sizeを示す一塩基多型の寄与は限定的であることが推定された。
 (2)Qes=1, QRAF=30 の場合の寄与率の推定結果を図2に示す。HbA1c検査値においては、稀でない一塩基多型の寄与率は限定的であり、稀な一塩基多型が非常に大きな寄与率を示すことが推定された。一方、身長においては、稀な一塩基多型の寄与率は小さくないものの、稀でない一塩基多型の寄与率も小さくないことが推定された。
(方法)
 充分なサンプルサイズで学習を行った場合、遺伝構造分割法により形質予測精度の向上が果たせることを示すため、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データ及びHbA1c検査値を用い、effect size,allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。これにより、サンプルサイズが充分に大きい場合を想定した場合の予測精度を評価できる。
 形質予測モデルの予測精度を、(1)Qes=1, QRAF=1 の場合(遺伝構造分割なし)(2)Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)、のそれぞれについて2-fold cross validation法によって評価した。評価指標として、実測値と予測値のR(相関係数の自乗)を用いた。
(結果)
 (1)4.52±0.16%(2)16.52±0.30%となり、充分なサンプルサイズを想定した場合、遺伝構造分割なしと比べて、遺伝構造分割ありでは顕著に予測精度が向上することが示せた。
(方法)
 本実施例では、図3に示す27の量的形質及び5の質的形質を対象として、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9-3)遺伝構造および性年齢情報を用いた場合)。形質予測モデルの予測精度を、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)のそれぞれについて2-fold cross validation法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR(相関係数の自乗)を、質的データを対象とした場合にはAUCを用いた。
(結果)
 27の量的形質に対して精度評価を行った結果を図4に、5の質的形質に対して精度評価を行った結果を図5に示す。図4,図5に示した27の量的形質及び5の質的形質の全てについて、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,と比べて、(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)の予測精度が上回っていることが示された。
(方法)
 充分なサンプルサイズで学習を行った場合、性・年齢情報あるいは一塩基多型情報と性・年齢情報の両方を用いることにより形質予測精度の向上が果たせることを示すため、図3に示す27の量的形質及び5の質的形質を対象として、東北メディカル・メガバンク計画によって平成25年度に収集された4992名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した(前出(9-3)遺伝構造および性年齢情報を用いた場合)。形質予測モデルの予測精度を、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例),(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)、のそれぞれについて2-fold cross validation法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR(相関係数の自乗)を、質的データを対象とした場合にはAUCを用いた。effect size,allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。
(結果)
 27の量的形質に対して精度評価を行った結果を図6に、5の質的形質に対して精度評価を行った結果を図7に示す。図6,図7に示した27の量的形質及び5の質的形質の全てについて、(1)一塩基多型情報のみを用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし),(2)性・年齢情報のみを用いた場合,と比べて、(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)の予測精度が上回っていることが示された。(3)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=1, QRAF=1 の場合(遺伝構造分割なし;本発明の実施例)と(4)一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Qes=10, QRAF=1 の場合(遺伝構造分割あり;本発明の実施例)を比べた場合、全ての形質において(4)の予測精度が上回っていた。
(結論)
 このように、本発明の形質予測モデル作成方法によって作成した形質予測モデルを用いれば、従来の予測方法より高い確率で形質を予測できる。加えて、遺伝構造分割法による寄与率の推定を行うことにより、形質の遺伝構造を解明できる。
 本発明によって、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供することができるようになった。
 

Claims (8)

  1.  生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
     前記複数の一塩基多型を、それぞれ行列表記する工程と、
     前記複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、
     前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、
     前記ゲノム類似度行列と前記遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法。
  2.  前記遺伝構造が、effect size及び/又は allele frequencyである、請求項1に記載の形質予測モデル作成方法。
  3.  生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
     前記複数の一塩基多型を、それぞれ行列表記する工程と、
     前記性および/または年齢を、行列表記する工程と、
     前記一塩基多型の行列表記及び前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、
     前記ゲノム類似度行列と前記性および/または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法。
  4.  前記形質が身長、体重、最高血圧、最低血圧、血糖、HbA1c、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、AST(GOT)、ALT(GPT)、γ-GTP、総コレステロール、中性脂肪、HDLコレステロール、LDLコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高LDLコレステロール血症、低HDLコレステロール血症、高トリグリセライド血症からなる群より選択される、請求項3に記載の形質予測モデル作成方法。
  5.  生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
     学習用データセットを用いて、請求項1~4のいずれか1項に記載の形質予測モデル作成方法に従って、形質予測モデルを作成する工程と、
     線形混合モデルのパラメータ及び隠れ変数を決定する工程と、
     当該生物個体の前記複数の一塩基多型データを、前記形質予測モデルに適用する工程と、を含む形質予測方法。
  6.  生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、
     コンピュータに請求項1~5のいずれか1項に記載の方法を実行させるプログラム。
  7.  請求項6に記載のプログラムを記録した、コンピュータで読み取り可能な記録媒体。
  8.  生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
    (i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
    (ii) 入力されたデータを用いて、請求項7に記載のプログラムを実行するコンピュータ、および
    (iii) (ii) により得られた結果を出力するための出力装置
    を備えた形質予測システム。
     
PCT/JP2015/083068 2014-11-25 2015-11-25 形質予測モデル作成方法および形質予測方法 WO2016084844A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP15862302.5A EP3226163A4 (en) 2014-11-25 2015-11-25 Trait prediction model creation method and trait prediction method
CN201580064102.2A CN107004066B (zh) 2014-11-25 2015-11-25 性状预测模型制作方法和性状预测方法
US15/529,636 US20170337483A1 (en) 2014-11-25 2015-11-25 Trait prediction model creation method and trait prediction method
US16/929,282 US20200342342A1 (en) 2014-11-25 2020-07-15 Methods of creating trait prediction models and methods of predicting traits

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-238252 2014-11-25
JP2014238252A JP6312253B2 (ja) 2014-11-25 2014-11-25 形質予測モデル作成方法および形質予測方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/529,636 A-371-Of-International US20170337483A1 (en) 2014-11-25 2015-11-25 Trait prediction model creation method and trait prediction method
US16/929,282 Division US20200342342A1 (en) 2014-11-25 2020-07-15 Methods of creating trait prediction models and methods of predicting traits

Publications (1)

Publication Number Publication Date
WO2016084844A1 true WO2016084844A1 (ja) 2016-06-02

Family

ID=56074396

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/083068 WO2016084844A1 (ja) 2014-11-25 2015-11-25 形質予測モデル作成方法および形質予測方法

Country Status (5)

Country Link
US (2) US20170337483A1 (ja)
EP (1) EP3226163A4 (ja)
JP (1) JP6312253B2 (ja)
CN (1) CN107004066B (ja)
WO (1) WO2016084844A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6716143B2 (ja) * 2016-10-12 2020-07-01 学校法人 岩手医科大学 脳梗塞発症リスクの予測モデル作成方法および予測方法
CN107545153B (zh) * 2017-10-25 2021-06-11 桂林电子科技大学 一种基于卷积神经网络的核小体分类预测方法
WO2020138479A1 (ja) * 2018-12-28 2020-07-02 国立大学法人大阪大学 個体の形質情報を予測するためのシステムまたは方法
JP2020154179A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020154178A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
CN111199773B (zh) * 2020-01-20 2023-03-28 中国农业科学院北京畜牧兽医研究所 一种精细定位性状关联基因组纯合片段的评估方法
US20210375392A1 (en) * 2020-05-27 2021-12-02 23Andme, Inc. Machine learning platform for generating risk models
US10966170B1 (en) 2020-09-02 2021-03-30 The Trade Desk, Inc. Systems and methods for generating and querying an index associated with targeted communications
CN114496076B (zh) * 2022-04-01 2022-07-05 微岩医学科技(北京)有限公司 一种基因组遗传分层联合分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003048999A2 (en) * 2001-12-03 2003-06-12 Dnaprint Genomics, Inc. Methods and apparatus for genetic classification
JP2008152592A (ja) * 2006-12-19 2008-07-03 Hitachi Ltd 個体間の遺伝的非類似度の解析方法およびシステム
JP2013175135A (ja) * 2012-02-27 2013-09-05 Ntt Data Corp 遺伝子間相互作用解析システム、その方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2934698B1 (fr) * 2008-08-01 2011-11-18 Commissariat Energie Atomique Procede de prediction pour le pronostic ou le diagnostic ou la reponse therapeutique d'une maladie et notamment du cancer de la prostate et dispositif permettant la mise en oeuvre du procede.
US20130246033A1 (en) * 2012-03-14 2013-09-19 Microsoft Corporation Predicting phenotypes of a living being in real-time
US20140066320A1 (en) * 2012-09-04 2014-03-06 Microsoft Corporation Identifying causal genetic markers for a specified phenotype

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003048999A2 (en) * 2001-12-03 2003-06-12 Dnaprint Genomics, Inc. Methods and apparatus for genetic classification
JP2008152592A (ja) * 2006-12-19 2008-07-03 Hitachi Ltd 個体間の遺伝的非類似度の解析方法およびシステム
JP2013175135A (ja) * 2012-02-27 2013-09-05 Ntt Data Corp 遺伝子間相互作用解析システム、その方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KENKYU DAIMOKU: "Cohort Renkei Togo DB ni Motomerareru Genome Joho no Data Ryo no Mitsumori", 17 June 2014 (2014-06-17), XP055445706, Retrieved from the Internet <URL:http://iwate-megabank.org/wp-content/uploads/2014/01/2014-0003.pdf> [retrieved on 20160128] *
KENKYU DAIMOKU: "Order-Made Iryo no Jitsugen Program to Tohoku Medical Megabank Keikaku Nippon Tashisetsu Kyodo Kenkyu Cohort Kenkyu Tamokuteki Cohort ga Renkei shite Jisshi suru Genome Kaiseki", 15 January 2014 (2014-01-15), XP009504383, Retrieved from the Internet <URL:http://iwate-megabank.org/wp-content/uploads/2014/01/2013-0002.pdf> [retrieved on 20160128] *
See also references of EP3226163A4 *

Also Published As

Publication number Publication date
JP2016099901A (ja) 2016-05-30
US20200342342A1 (en) 2020-10-29
CN107004066A (zh) 2017-08-01
EP3226163A4 (en) 2018-08-29
EP3226163A1 (en) 2017-10-04
US20170337483A1 (en) 2017-11-23
JP6312253B2 (ja) 2018-04-18
CN107004066B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
WO2016084844A1 (ja) 形質予測モデル作成方法および形質予測方法
Zeng et al. Signatures of negative selection in the genetic architecture of human complex traits
US20200286591A1 (en) Reducing error in predicted genetic relationships
Hemani et al. Retracted article: Detection and replication of epistasis influencing transcription in humans
CN110770840A (zh) 用于对来自已知或未知基因型的多个贡献者的dna混合物分解和定量的方法和系统
CN110770839A (zh) 来自未知基因型贡献者的dna混合物的精确计算分解的方法
Sun et al. Predicting embryonic aneuploidy rate in IVF patients using whole-exome sequencing
Hao et al. Identifying genetic associations with MRI-derived measures via tree-guided sparse learning
JP6564053B2 (ja) 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法
Guan et al. Estimation of inbreeding and kinship coefficients via latent identity-by-descent states
Rönnegård et al. Separation of base allele and sampling term effects gives new insights in variance component QTL analysis
Huang et al. Interpreting SNP heritability in admixed populations
Chen et al. ARG-walker: inference of individual specific strengths of meiotic recombination hotspots by population genomics analysis
Wang et al. Detecting association of rare and common variants by testing an optimally weighted combination of variants with longitudinal data
KR102441856B1 (ko) 중요도 샘플링을 활용한 다중변이 연관연구 방법
Duan et al. Sparse parallel independent component analysis and its application to identify stable and replicable imaging-genomic association patterns in UK biobank
Bastide et al. Benchmark of Differential Gene Expression Analysis Methods for Inter-species RNA-Seq Data using a Phylogenetic Simulation Framework
Tadaka et al. 3.5 KJPNv2, An allele frequency panel of 3,552 Japanese Individuals
Schlauch Methods for Estimating Hidden Structure and Network Transitions in Genomics
Kerin et al. Non-linear randomized Haseman-Elston regression for estimation of gene-environment heritability
Gao Machine Learning Methods for Prediction of Human Infectious Virus and Imputation of HLA Alleles
Bangchang High-dimensional Bayesian variable selection with applications to genome-wide association studies
Meher et al. An approach using random forest methodology for disease risk prediction using imbalanced case–control data in GWAS
Li et al. Assessing statistical significance in variance components linkage analysis: A theoretical justification
Lin et al. Efficient meta-analysis of multivariate genome-wide association studies with Meta-MOSTest

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15862302

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2015862302

Country of ref document: EP