WO2016084844A1

WO2016084844A1 - 形質予測モデル作成方法および形質予測方法

Info

Publication number: WO2016084844A1
Application number: PCT/JP2015/083068
Authority: WO
Inventors: 剛史八谷
Original assignee: 学校法人岩手医科大学
Priority date: 2014-11-25
Filing date: 2015-11-25
Publication date: 2016-06-02
Also published as: JP2016099901A; US20200342342A1; CN107004066A; EP3226163A4; EP3226163A1; US20170337483A1; JP6312253B2; CN107004066B

Abstract

　本発明は、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供する。すなわち、生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、複数の一塩基多型を、それぞれ行列表記する工程と、複数の一塩基多型を遺伝構造に基づいて複数のカテゴリーに分類する工程と、カテゴリーの各々に対し行列表記及びカテゴリーに属する一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法とする。

Description

形質予測モデル作成方法および形質予測方法

　本発明は、形質予測モデル作成方法および形質予測方法に関する。

　従来、ヒトゲノム情報を用いた表現型予測として、形質感受性多型に着目し、すでに同定された感受性多型のみを用いて表現型を予測する手法が中心的に研究されてきた（V. Lyssenko et al., N Engl J Med 2008 vol.359 p.2220-2232; S.Ripatthi et al., Lanet 2010 Vol.376 p.1393-1400; C. A. Ibrahim-Verbaas et al., Stroke 2014 vol.45 p.403-412）。これらの手法は、形質と関連のある数個から数百個の多型を具体的に列挙し、それぞれの多型の重みを推定するものであって、形質への個々の多型の影響を数値化できる点で直感的に理解しやすい。

　しかしながら、感受性多型のみを用いる点は、この手法の短所であり、限界である。なぜなら、ほとんど全ての多因子形質において、実際の原因となる感受性多型のうち、同定されているものはごく僅かだからである。例えば、身長の分散のうち約80%を遺伝要因によって説明できると推定されているが、既知の感受性多型によって説明できる分散は僅か５％程度にすぎない。

　そこで、非特許文献（D. Speed and D. J. Balding, Genome Research 2015 vol.24 p.1550-1557）は、感受性多型に関わらず、網羅的（ゲノムワイド）な多型情報を用いた表現型予測法について述べている。すなわち、複数の一塩基多型（Single Nucleotide Polymorphism; SNP）を複数のカテゴリーに分割して、線形混合モデルを適用するものである。しかしながら、その手法においても予測の精度はまだ不十分である。

　本発明は、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供することを目的とする。

　本発明者らは、感受性多型か否かに関わらず、網羅的（ゲノムワイド）な多型情報を用いた統計学処理手法を検討した。すなわち、身長やHbA1c検査値を含む２７の量的形質、および、糖尿病や低HDLコレステロール血漿の罹患を含む５つの質的形質を例とし、約100万個の多型をゲノム情報として、性年齢情報を調節変数として用いて、線形混合モデルを適用し、形質について学習させて予測モデルを作成したところ、この予測が、実測値と高度に相関があることを見出した。こうして、我々は、ゲノム情報から表現型を予測する予測方法の完成に至った。

　本発明の一実施態様は、生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、前記複数の一塩基多型を、それぞれ行列表記する工程と、前記複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、前記ゲノム類似度行列と前記遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。前記遺伝構造が、effect size及び／又は allele frequencyであってもよい。

　本発明の他の一実施態様は、生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する形質予測モデルを作成する形質予測モデル作成方法であって、前記複数の一塩基多型を、それぞれ行列表記する工程と、前記性および／または年齢を、行列表記する工程と、前記一塩基多型の行列表記及び前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、前記ゲノム類似度行列と前記性および／または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。前記形質が身長、体重、最高血圧、最低血圧、血糖、ＨｂＡ１ｃ、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、ＡＳＴ（ＧＯＴ）、ＡＬＴ（ＧＰＴ）、γ－ＧＴＰ、総コレステロール、中性脂肪、ＨＤＬコレステロール、ＬＤＬコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高ＬＤＬコレステロール血症、低ＨＤＬコレステロール血症、高トリグリセライド血症からなる群より選択されてもよい。

　本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、学習用データセットを用いて、上記予測モデル作成方法に従って、予測モデルを作成する工程と、線形混合モデルのパラメータ及び隠れ変数を決定する工程と、当該生物個体の前記複数の一塩基多型データを、前記予測モデルに適用する工程と、を含む形質予測方法である。

　本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、コンピュータに上記形質予測方法を実行させるプログラムである。本発明の一実施態様は、本プログラムを記録した、コンピュータで読み取り可能な記録媒体であってもよい。

　本発明のさらなる一実施態様は、生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
(i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
(ii) 入力されたデータを用いて、上記プログラムを実行するコンピュータ、および
(iii) (ii) により得られた結果を出力するための出力装置
を備えた形質予測システムである。

＝＝関連文献とのクロスリファレンス＝＝
　本出願は、２０１４年１１月２５日付で出願した日本国特許出願２０１４－２３８２５２に基づく優先権を主張するものであり、当該基礎出願を引用することにより、本明細書に含めるものとする。

本発明の一実施例において、HbA1c検査値と身長に着目し、遺伝構造分割法による寄与率の推定結果を示す図である（Q_es=50, Q_RAF=1の場合）。本発明の一実施例において、HbA1c検査値と身長に着目し、遺伝構造分割法による寄与率の推定結果を示す図である（Q_es=1, Q_RAF=30の場合）。本発明の一実施例において、実施例に用いた形質の一覧である。本発明の一実施例において、２７の量的形質の精度評価結果を示す図である。（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし；本発明の実施例）の３通りの方法を比較した。評価指標として、実測値と予測値のR^２（相関係数の自乗）を用い、２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。本発明の一実施例において、５の質的形質の精度評価結果を示す図である。（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし；本発明の実施例）の３通りの方法を比較した。評価指標として、ＡＵＣを用い、２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。本発明の一実施例において、サンプルサイズが充分に大きい場合の２７の量的形質の精度評価結果を示す図である。（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし；本発明の実施例），（４）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=10, Q_RAF=1の場合（遺伝構造分割あり；本発明の実施例），の４通りの方法を比較した。評価指標として、実測値と予測値のR^２（相関係数の自乗）を用い、２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。本発明の一実施例において、サンプルサイズが充分に大きい場合の５の質的形質の精度評価結果を示す図である。（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1の場合（遺伝構造分割なし；本発明の実施例），（４）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=10, Q_RAF=1の場合（遺伝構造分割あり；本発明の実施例），の４通りの方法を比較した。評価指標として、ＡＵＣを用い、２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。

　本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示又は説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは、当業者にとって明らかである。

　本発明にかかる形質予測モデル作成方法は、生物の複数の個体において複数の一塩基多型（Single Nucleotide Polymorphism; SNP）と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する予測モデル作成方法であって、複数の一塩基多型を、それぞれ行列表記する工程と、複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、カテゴリーの各々に対し、一塩基多型の行列表記及び各カテゴリーに属する一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。または、生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する形質予測モデルを作成する形質予測モデル作成方法であって、複数の一塩基多型を、それぞれ行列表記する工程と、性および／または年齢を、行列表記する工程と、一塩基多型の行列表記及び一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、ゲノム類似度行列と性および／または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法である。

　ここで用いる一塩基多型データに含まれる一塩基多型は、特に限定されず、対象とする形質の感受性多型であってもよく、なくてもよい。用いる一塩基多型の数や種類も特に限定されないが、対象とする生物個体集団中に1%以上存在する一塩基多型を網羅していることが好ましい。

　対象とする生物は特に限定されず、植物であっても動物であってもよいが、脊椎動物であることが好ましく、ほ乳類であることがより好ましく、ヒトであることが最も好ましい。対象とする形質は、多因子性形質であれば特に限定されず、例えば、ヒトの場合、身長、体重、ＢＭＩなどの体型に関する指標；血圧（最高血圧、最低血圧）、ＨｂＡ１ｃ、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、有核赤血球数、ＡＳＴ（ＧＯＴ）、ＡＬＴ（ＧＰＴ）、γ－ＧＴＰ、総コレステロール、中性脂肪、ＨＤＬコレステロール、ＬＤＬコレステロール、クレアチニン、尿素窒素、推定糸球濾過量、尿酸などの血液検査評価値；記憶力、理解力、知能指数、スポーツ技術などの能力；肥満・糖尿病・高血圧・循環器疾患などの成人病、がん、アレルギー・自己免疫病などの免疫疾患などの病気のかかりやすさ、などが例示できる。

　本発明の予測モデル作成方法を用いて、複数の一塩基多型データから、生物個体の形質を予測する形質予測が可能である。すなわち、学習用データセットを用いて、本発明の形質予測モデル作成方法に従って形質予測モデルを作成し、線形混合モデルのパラメータ及び隠れ変数を決定し、生物個体の複数の一塩基多型データを、形質予測モデルに適用することにより、その生物個体の形質を予測することができる。

　以下、本発明の予測モデル作成方法及び形質予測方法について、実施例を挙げながら具体的かつ詳細に説明するが、本発明はこれらの実施の形態あるいは実施例に限定されるものではない。

（１）性・年齢情報の行列表記
　N名のヒト個人について、性年齢データが得られているとし、N×6行列 X として表記する手法を述べる。Xの行ベクトルは各個人の性別と年齢の情報を意味する。行列Xのi行j列要素をX(i,j)と表記することとする。年齢はカテゴリデータとして扱うが、そのカテゴリの段階数は特に限定されない。ここでは、一例として、39歳以下，40歳以上49歳以下，50歳以上59歳以下，60歳以上69歳以下，70歳以上の5段階とする方法を述べる。

　性別の情報は、行列Xの1列目に表現される。i番目のヒト個人の性別が男性の場合には”M”，女性の場合には”F”とすると、X(i,1) は以下の式で定義される。

　年齢の情報は、行列Xの2～6列目に表現される。i番目のヒト個人の年齢をage_iとすると、X(i,2)，X(i,3)，X(i,4)，X(i,5)，X(i,6) は以下の式で定義される。

（２）ゲノム情報の行列表記
　N名のヒト個人について、p個の一塩基多型（SNP）データが得られているとし、N×p行列（N，pは1以上の整数）Wとして表記する手法を述べる。Wの行ベクトルは各個人の多型プロファイルを意味し、Wの列ベクトルはある多型部位の個人間の違いをあらわすベクトルを意味する。

　i番目のヒト個人のj番目の多型は、２つのアリルから構成される。両方のアリルがヒト代表配列と一致する場合には”AA”，片方のアリルのみがヒト代表配列と一致する場合には”AB”，両方のアリルがヒト代表配列と一致しない場合には”BB”と表記することとする。また、行列Wのi行j列要素をW(i,j)と表記することとする。また、j番目の多型のアリル頻度をf_jと表記することとする。これらの表記に基づいて、W(i,j)は以下の式で定義される。

ここで、代表配列は、各多型について任意の塩基を決め、それらを有する配列とするが、例えば、ゲノムプロジェクトの成果として公表されている配列としてもよい。

（３）遺伝構造に基づくSNPの分類

　以下に、p個のSNPを、遺伝構造に基づいて複数のカテゴリーに分類する手法を述べる。遺伝構造をあらわす具体的なパラメータには、形質との関連性の強さをあらわすパラメータであるeffect sizeと、SNPのヒト集団中での頻度をあらわすallele frequencyがある。effect size の代表的な具体例として、relative risk、odds ratio、分散寄与率、regression coefficientが挙げられる。allele frequencyには、risk allele frequency (RAF)やminor allele frequency (MAF)が例示できる。本発明の方法で用いる遺伝構造パラメータは特に限定されないが、ここでは、一例としてregression coefficientとRAFを用いた場合の分類手順を示す。　

（４）分割手順（１）effect sizeのQ_es分位数の計算

（５）分割手順（２）RAFのQ_RAF分位数の計算

（６）SNPの分類

（７）遺伝構造パラメータの推定
　effect sizeやRAF等の遺伝構造パラメータは、多型と形質の関連解析によって推定することができる。多型と形質の関連解析は、一般に入手できるプログラムを用いればよく、例えば、インターネット上で入手可能なPLINKやGCTAを用いてもよい。

（８）ゲノム類似度行列の計算
　ゲノム類似度行列とは、ゲノム情報に基づく個人間の類似度をあらわすN×N行列である。ゲノム類似度行列は、Q_es×Q_RAFのカテゴリーごとに計算されるものとする。以下、代表的なゲノム類似度行列Aの計算式を示すが、ゲノム類似度行列の計算式は、これに限定されない。

ここで、A^(i.j)はカテゴリー (i,j) のゲノム類似度行列（N×N次元），p^(i.j)はカテゴリー (i,j) に属するSNPの個数，W^(i.j)は行列Wからカテゴリー (i,j) に属するSNPの列ベクトルのみを切り出した部分行列（N×p^(i.j)次元）、W^(i.j) ’は行列W^(i.j)の転地行列を意味している。

（９）線形混合モデルへの適用

（１０）線形混合モデルのパラメータ推定

（１１）寄与率の推定

（１２）遺伝要因の寄与の予測

（１３）形質予測方法

　式（1）を「遺伝構造分割＋性年齢調整法」，式（2）を「性年齢調整法」，式（3）を「遺伝構造分割法」，式（4）を「遺伝構造非分割＋性年齢調整法」，式（5）を「遺伝構造非分割法」と呼ぶ。
（１４）形質予測システム
　上記形質予測方法を自動化するために、コンピュータに実行させることができるようにプログラム化できる。こうして作成されたプログラムも、本発明の権利範囲内である。
　さらに、このプログラムを実行するためのコンピュータとともに、一塩基多型や性・年齢情報などを入力するための入力装置、及びプログラムの実行により得られた結果を出力するための出力装置を備えた形質予測システムとすることも可能である。

　以下に記載する本実施例の一塩基多型情報は、HumanOmniExpressExome チップ（イルミナ社）によって計測された。

（方法）
　本実施例では、多因子的な量的形質の一例として身長に着目し、東北メディカル・メガバンク計画によって平成２５年度に収集された４９９２名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成し（前出（９－２）性年齢情報を用いた場合）、遺伝率を推定した。対照として、性・年齢情報を用いない場合についても、遺伝率の推定値を計算し、用いた場合と比較した。
　次に、形質予測モデルの予測精度を、（１）性・年齢情報のみを用いた場合（２）一塩基多型情報のみ用いた場合（３）両方を行った場合（本発明の実施例）、のそれぞれについて２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。評価指標として、実測値と予測値のR^２（相関係数の自乗）を用いた。

（遺伝率の推定方法）

（結果）
　性・年齢情報を用いない場合の遺伝率は４０．６７％、用いた場合の遺伝率は、８２．２９％となり、性・年齢情報を用いない場合に比べて、性・年齢情報を用いた場合には大きく遺伝率が高くなっており、身長の分散の一部は性年齢によって説明されることが分かった。
　（１）～（３）の３通りについて、２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって予測精度（R^２）を評価した（平均±標準偏差）ところ、（１）５６．８９±１．３６％（２）１．４５±０．２６％（３）５９．６３±１．２４％となり、性年齢情報のみを用いた場合，ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。

（方法）
　本実施例では、多因子的な質的形質の一例として糖尿病の罹患に着目し、東北メディカル・メガバンク計画によって平成２５年度に収集された４９９２名の一塩基多型データ及び性・年齢情報を用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した（前出（９－２）性年齢情報を用いた場合）。ここで、HbA1c検査値から、6.5以上の場合には糖尿病の罹患があり、それ未満の場合には糖尿病の罹患がないとした。形質予測モデルの予測精度を、（１）性・年齢情報のみを用いた場合（２）一塩基多型情報のみ用いた場合（３）両方を行った場合（本発明の実施例）、のそれぞれについて２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。評価指標として、ＡＵＣを用いた。

（結果）
　（１）６１．３９±１．５６％（２）５５．７６±０．２８％（３）６２．９８±０．６１％となり、性年齢情報のみを用いた場合，ゲノム情報のみを用いた場合に比べて、性年齢情報及びゲノム情報の両方を用いた場合、予測精度は向上した。

（方法）
　本実施例では、多因子的な量的形質の一例としてHbA1c検査値と身長に着目し、東北メディカル・メガバンク計画によって平成２５年度に収集された４９９２名の一塩基多型データを用い、遺伝構造分割法による寄与率の推定を行った。（１）Q_es=50, Q_RAF=1の場合，（２）Q_es=1, Q_RAF=30 の場合，の２通りを実施した。

（結果）
　（１）Q_es=50, Q_RAF=1 の場合の寄与率の推定結果を図１に示す。HbA1c検査値と身長のどちらにおいても、中程度のeffect sizeを示す一塩基多型の寄与率が大きく、小さなeffect sizeを示す一塩基多型の寄与率は極めて小さいことが推定された。また、HbA1c検査値においては大きなeffect sizeを示す一塩基多型の寄与が大きいが、身長においては大きなeffect sizeを示す一塩基多型の寄与は限定的であることが推定された。
　（２）Q_es=1, Q_RAF=30 の場合の寄与率の推定結果を図２に示す。HbA1c検査値においては、稀でない一塩基多型の寄与率は限定的であり、稀な一塩基多型が非常に大きな寄与率を示すことが推定された。一方、身長においては、稀な一塩基多型の寄与率は小さくないものの、稀でない一塩基多型の寄与率も小さくないことが推定された。

（方法）
　充分なサンプルサイズで学習を行った場合、遺伝構造分割法により形質予測精度の向上が果たせることを示すため、東北メディカル・メガバンク計画によって平成２５年度に収集された４９９２名の一塩基多型データ及びHbA1c検査値を用い、effect size，allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。これにより、サンプルサイズが充分に大きい場合を想定した場合の予測精度を評価できる。
　形質予測モデルの予測精度を、（１）Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし）（２）Q_es=10, Q_RAF=1 の場合（遺伝構造分割あり；本発明の実施例）、のそれぞれについて２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。評価指標として、実測値と予測値のR^２（相関係数の自乗）を用いた。

（結果）
　（１）４．５２±０．１６％（２）１６．５２±０．３０％となり、充分なサンプルサイズを想定した場合、遺伝構造分割なしと比べて、遺伝構造分割ありでは顕著に予測精度が向上することが示せた。

（方法）
　本実施例では、図３に示す２７の量的形質及び５の質的形質を対象として、東北メディカル・メガバンク計画によって平成２５年度に収集された４９９２名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した（前出（９－３）遺伝構造および性年齢情報を用いた場合）。形質予測モデルの予測精度を、（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし；本発明の実施例）のそれぞれについて２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR^２（相関係数の自乗）を、質的データを対象とした場合にはＡＵＣを用いた。

（結果）
　２７の量的形質に対して精度評価を行った結果を図４に、５の質的形質に対して精度評価を行った結果を図５に示す。図４，図５に示した２７の量的形質及び５の質的形質の全てについて、（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，と比べて、（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし；本発明の実施例）の予測精度が上回っていることが示された。

（方法）
　充分なサンプルサイズで学習を行った場合、性・年齢情報あるいは一塩基多型情報と性・年齢情報の両方を用いることにより形質予測精度の向上が果たせることを示すため、図３に示す２７の量的形質及び５の質的形質を対象として、東北メディカル・メガバンク計画によって平成２５年度に収集された４９９２名の一塩基多型データを用い、本発明の形質予測モデル作成方法によって形質予測モデルを作成した（前出（９－３）遺伝構造および性年齢情報を用いた場合）。形質予測モデルの予測精度を、（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし；本発明の実施例），（４）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=10, Q_RAF=1 の場合（遺伝構造分割あり；本発明の実施例）、のそれぞれについて２－ｆｏｌｄ　ｃｒｏｓｓ　ｖａｌｉｄａｔｉｏｎ法によって評価した。評価指標として、量的データを対象とした場合には実測値と予測値のR^２（相関係数の自乗）を、質的データを対象とした場合にはＡＵＣを用いた。effect size，allele frequencyの推定及び線形混合モデルのパラメータ推定を検証用データセットで行い、遺伝要因の寄与の予測及び一塩基多型への重みの計算を学習用データセットで行い、予測精度の検証を検証用データセットで行った。

（結果）
　２７の量的形質に対して精度評価を行った結果を図６に、５の質的形質に対して精度評価を行った結果を図７に示す。図６，図７に示した２７の量的形質及び５の質的形質の全てについて、（１）一塩基多型情報のみを用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし），（２）性・年齢情報のみを用いた場合，と比べて、（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし；本発明の実施例）の予測精度が上回っていることが示された。（３）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=1, Q_RAF=1 の場合（遺伝構造分割なし；本発明の実施例）と（４）一塩基多型情報と性・年齢情報の両方を用いた場合で、かつ、Q_es=10, Q_RAF=1 の場合（遺伝構造分割あり；本発明の実施例）を比べた場合、全ての形質において（４）の予測精度が上回っていた。

（結論）
　このように、本発明の形質予測モデル作成方法によって作成した形質予測モデルを用いれば、従来の予測方法より高い確率で形質を予測できる。加えて、遺伝構造分割法による寄与率の推定を行うことにより、形質の遺伝構造を解明できる。

　本発明によって、一塩基多型データから形質の表現型を予測するための形質予測モデル作成方法、および高い確率で形質を予測できる形質予測方法を提供することができるようになった。

Claims

　生物の複数の個体において複数の一塩基多型と形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
　前記複数の一塩基多型を、それぞれ行列表記する工程と、
　前記複数の一塩基多型を、遺伝構造に基づいて複数のカテゴリーに分類する工程と、
　前記カテゴリーの各々に対し、前記行列表記及び前記カテゴリーに属する前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、
　前記ゲノム類似度行列と前記遺伝構造のパラメータを線形混合モデルに適用する工程と、を含む形質予測モデル作成方法。
　前記遺伝構造が、effect size及び／又は allele frequencyである、請求項１に記載の形質予測モデル作成方法。
　生物の複数の個体において複数の一塩基多型、性、年齢、および形質を対応させた一塩基多型データを用いて、多因子性形質の表現型を予測する予測モデルを作成する形質予測モデル作成方法であって、
　前記複数の一塩基多型を、それぞれ行列表記する工程と、
　前記性および／または年齢を、行列表記する工程と、
　前記一塩基多型の行列表記及び前記一塩基多型の個数を用いてゲノム類似度行列を計算する工程と、
　前記ゲノム類似度行列と前記性および／または年齢の行列を線形混合モデルに適用する工程と、を含む形質予測モデル作成方法。
　前記形質が身長、体重、最高血圧、最低血圧、血糖、ＨｂＡ１ｃ、赤血球数、血色色素、血球容積、白血球数、血小板数、好中球の割合、リンパ球の割合、単球の割合、好酸球の割合、好塩基球の割合、大型非染色球の割合、ＡＳＴ（ＧＯＴ）、ＡＬＴ（ＧＰＴ）、γ－ＧＴＰ、総コレステロール、中性脂肪、ＨＤＬコレステロール、ＬＤＬコレステロール、クレアチニン、尿素窒素、尿酸、糖尿病、高血圧症、高ＬＤＬコレステロール血症、低ＨＤＬコレステロール血症、高トリグリセライド血症からなる群より選択される、請求項３に記載の形質予測モデル作成方法。
　生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測する形質予測方法であって、
　学習用データセットを用いて、請求項１～４のいずれか１項に記載の形質予測モデル作成方法に従って、形質予測モデルを作成する工程と、
　線形混合モデルのパラメータ及び隠れ変数を決定する工程と、
　当該生物個体の前記複数の一塩基多型データを、前記形質予測モデルに適用する工程と、を含む形質予測方法。
　生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するためのプログラムであって、
　コンピュータに請求項１～５のいずれか１項に記載の方法を実行させるプログラム。
　請求項６に記載のプログラムを記録した、コンピュータで読み取り可能な記録媒体。
　生物個体において、複数の一塩基多型データから、当該生物個体の形質を予測するための形質予測システムであって、
(i) 前記生物個体の複数の一塩基多型データを入力するための入力装置、
(ii) 入力されたデータを用いて、請求項７に記載のプログラムを実行するコンピュータ、および
(iii) (ii) により得られた結果を出力するための出力装置
を備えた形質予測システム。