WO2024056056A1

WO2024056056A1 - 基于全基因组选择研究的水稻籽粒镉积累性状预测装置和预警系统

Info

Publication number: WO2024056056A1
Application number: PCT/CN2023/119026
Authority: WO
Inventors: 何振艳; 闫慧莉; 骆永明; 虞轶俊; 许文秀
Original assignee: 中国科学院植物研究所; 中国科学院南京土壤研究所; 浙江省耕地质量与肥料管理总站
Priority date: 2022-09-15
Filing date: 2023-09-15
Publication date: 2024-03-21
Also published as: CN115579057A

Abstract

本发明公开了基于全基因组选择研究的水稻籽粒镉积累性状预测装置和预警系统。本发明构建了预测水稻籽粒镉含量全基因组选择模型。模型构建算法为rrBLUP或gBLUP；水稻模型构建群体种群个数为50，其中训练群体和测试群体材料个数比为1:1；构建所用基因型数据集中的镉含量相关SNP分子标记通过GWAS分析获得，均匀分布于水稻的12条染色体上；SNP分子标记的分布密度为每个水稻基因组上60K个。通过该模型可提前筛选出低镉含量优良水稻品系，而不必在育种后期进行表型分析；同时首次建立了水稻"智能镉预警"系统，可应用于更广泛的危险材料和作物品种中，从而在风险评估和环境保护中发挥作用。

Description

基于全基因组选择研究的水稻籽粒镉积累性状预测装置和预警系统

技术领域

本发明属于生物技术领域，具体涉及基于全基因组选择研究的水稻籽粒镉积累性状预测装置和预警系统。

背景技术

水稻(Oryza sativa L.)是主要主粮作物之一，60％以上的人口以稻米为主食。与其他谷类作物相比，水稻在生长过程中易从土壤中吸收镉元素。

镉(cadmium，Cd)是一种人体非必需元素，单质为银白色金属，密度为8.65g/cm³，是一种有毒的重金属元素。2012年，镉及其化合物被国际癌症研究机构(IARC)列为I类致癌物。镉可通过食物链进入人体并富集，人体内镉积累量达到2.6g时会产生毒害作用。镉在人体内的生物学半衰期是15～45年(Nordberg and Gunnar,2015)，镉的长期累积会对呼吸系统、循环系统、泌尿系统、神经系统、骨骼系统等造成毒害，造成骨质疏松、肾功能衰竭、肾结石、肺气肿等症状(李沛轩，钟理，郭蕊.重金属镉致心血管疾病的潜在机制及治疗对策[J].中国科学：生命科学，2021,51(9):1 241-1 253；Lin HC,Hao WM,Chu PH.Cadmium and cardiovascular disease:An overview of pathophysiology,epidemiology,therapy,and predictive value.Rev Port Cardiol(Engl Ed).2021 Aug；40(8):611-617；Kim MS,Kim SH,Jeon D,Kim HY,Han JY,Kim B,Lee K.Low-dose cadmium exposure exacerbates polyhexamethylene guanidine-induced lung fibrosis in mice.J Toxicol Environ Health A.2018；81(11):384-396；Chung S,Chung JH,Kim SJ,Koh ES,Yoon HE,Park CW,Chang YS,Shin SJ.Blood lead and cadmium levels and renal function in Korean adults.Clin Exp Nephrol.2014 Oct；18(5):726-34)，进而诱发癌症。

农田土壤镉污染的来源主要分为自然源和人为源两种。自然源包括各种地质活动，例如火山喷发等，沉积后的镉元素会改变土壤中的镉环境背景值。人为源包括矿石开采、三废排放、污水灌溉等人为活动。其中矿冶排放是主要来源，电子垃圾拆解、污水灌溉和道路交通的影响占比分别为58.8％、44.8％和57.1％，这些人为活动对农田土壤镉积累的影响也不容忽视(崔祥芬等，2021)。

镉对植物具有毒害作用，具体效应表现为生理损伤与生长抑制(Haider FU,Liqun C,Coulter JA,Cheema SA,Wu J,Zhang R,Wenjun M,Farooq M.Cadmium toxicity in plants:Impacts and remediation strategies.Ecotoxicol Environ Saf.2021 Mar 15；211:111887)。生理损伤包括光合效率降低、水分含量减少与必需元素吸收受到抑制。镉在植物体内会抑制碳固定与叶绿素合成，进而影响植物光合作用。镉在植物体内累积会诱导活性氧过量产生，造成植物细胞器的生理损伤。此外，镉元素的存在会干扰Ca、P、Mg、Fe、Zn等植物必需元素的吸收，导致植物叶片失绿、根系生长受损等，最终造成植物死亡。镉可通过食物链进入人体并富集，人体内镉积累量达到2.6g时会产生毒害作用。镉在人体内的生物学半衰期是15～45年 (Nordberg and Gunnar,2015)，镉的长期累积会对呼吸系统、循环系统、泌尿系统、神经系统、骨骼系统等造成毒害，造成骨质疏松、肾功能衰竭、肾结石、肺气肿等症状。

镉低积累水稻品种的选育是解决稻米镉污染最经济、可行的方法，其发展经历了以表型为核心的常规选育和以目标性状关联分子标记为核心的分子标记辅助选育。常规选育是研究较多的一种选育方式，主要通过在同一土壤环境下种植不同水稻品种，根据其籽粒镉积累表型来筛选低积累水稻品种。常规选育过程耗时长，水稻籽粒镉积累表型易受到环境因素影响而不稳定，且具有地域限制，目前商业化品种较少。分子标记辅助选育可利用与镉积累性状紧密连锁的DNA分子标记或功能标记，对镉积累性状进行间接选择，再结合常规育种手段培育新品种。分子标记辅助选育具有高效、准确、结果稳定的优点，是目前镉低积累水稻品种选育的主要方式之一。由于水稻籽粒镉积累性状是多基因控制的数量性状，易受环境型影响，现有的常规选育和低密度水稻籽粒镉积累关联分子标记远不能满足镉低积累水稻品种选育的实际需求，目前亟需开发适用于稳定低镉积累品种快速选育的新技术。

全基因组选择(Genomic Selection，GS)技术是加速新品种开发最有希望的育种方法，具有广阔的应用前景。全基因组选择以分子标记辅助选择的形式，通过利用覆盖全基因组的高密度分子标记对个体的基因组估计育种值(genomic estimated breeding values，GEBV)进行预测。与传统的分子标记辅助育种相比，全基因组选择同时对所有标记的效应进行评估，对于复杂性状的预测更为准确。

全基因组选择中需要建立一个训练群体(TRN)，该群体针对目标性状进行表型分析，并使用覆盖全基因组的分子标记进行基因分型。训练集用于构建分子标记和相应表型之间的统计模型，该模型通过拟合所有标记的效应来预测每个标记对目标性状的影响。之后利用构建的统计模型对已有基因型的测试群体(TST)中的个体基因组估计育种值进行预测。全基因组选择的计算方法主要是基因组估计育种值的算法，目前主要分为三类：基于混合线性模型的BLUP(Best Linear Unbiased Prediction)方法、基于MCMC(Markov chain Monte Carlo)和Gibbs抽样的贝叶斯(Bayes)方法和机器学习(Machine Learning)法。

BLUP法以混合线性模型为基础，其假设所有的SNP对表型性状贡献一致，将随机效应和遗传分组的固定效应都加以考虑,然后基于表型和系谱A计算个体的基因组估计育种值。目前常用的BLUP方法包括以全基因组亲缘关系矩阵(G矩阵)为核心的GBLUP和基于等位基因效应的RRBLUP。二者运算时间均较短，适合于群体数量较大时的建模和预测分析。

贝叶斯法是基于SNP与QTL的连锁效应提出的，属于非线性模型，主要包括Bayes A、Bayes B、Bayes C和Bayesian Lasso等，不同的贝叶斯方法选择不同的先验分布，即对于各个SNP的效应计算不同Bayesian Lasso。其中Bayes A认为每个SNP都有其各自方差，Bayes B只认为少数标记具有效应，Bayes C认为有效应的SNP具有相同的方差值，Bayesian Lasso改变了效应方差的分布，假定标记的效应服从双指数分布。贝叶斯模型的特点为运算时间一般较长，不同贝叶斯模型之间的预测准确度接近。

机器学习法是指利用计算机算法对大量数据进行不断模拟，从而实现对目标性状的预测，主要包括支持向量机(support vector machine，SVM)、随机森林法(Random Forest，RF)、LightGBM(Light Gradient Boosting Machine)等。与传统算法相比，机器学习法具有高效智能的优点，可以对复杂形状进行较为准确的预测，且模型不易过拟合，但仍需对参数进行调整，从而获得最为准确的预测效果。

目前常用的BLUP方法包括基于全基因组亲缘关系矩阵(G矩阵)的最佳线性无偏预测(GBLUP)和基于等位基因效应的岭回归最佳线性无偏预测(rrBLUP)。二者运算时间均较短，适合于群体数量较大时的建模和预测分析。

在全基因组选择研究中，预测准确度是指实际育种值与估计育种值之间的相关系数，该系数越接近1，则表示预测准确度越高。影响全基因组选择预测准确度的因素主要包括目标性状的遗传力、所选算法、分子标记密度与来源、训练群体大小、训练群体与测试群体之间的亲缘关系等。遗传力是指遗传方差占表型方差的比例，遗传力越大，证明该性状受基因控制的程度越大，受到环境因素的影响越小，进行全基因组选择研究的预测准确度越高。对于低遗传力的性状，可通过增加表型记录世代数来提高预测准确度。分子标记密度与来源是指全基因组选择研究中覆盖训练群体基因组分子标记的数量、分布以及与目标性状的关联程度。通常预测准确度与分子标记的密度成正比，但当分子标记数目到达某一数量时，预测准确度会达到最大值，随后下降。训练群体数目大小是影响预测准确度的重要因素之一，通常随着训练群体数目增加，预测准确度也有所提升。训练群体与测试群体比例也会影响预测准确度，研究表明，两类群体比例增加有助于提升全基因组选择预测准确度。训练群体与测试群体间的亲缘关系也与预测准确度成正比，二者间遗传距离越小，亲缘关系越接近，预测准确度越高。

目前全基因组选择已在水稻中开展了许多研究，主要用于纯系选择和杂交育种。水稻的全基因组选择研究主要集中在设计训练群体和评估不同群体内或群体间的预测能力。

以不同的水稻育种群体为研究对象，已经对各种数量性状开展了全基因组选择研究，包括产量、花期、株高、千粒重、株高和抗性等，通过应用不同的统计模型和不同数目的分子标记，预测准确度也不相同(表1.1)。这些研究表明了全基因组选择在水稻纯系育种中的可行性。Xu等通过三种预测模型对21945个杂交品种的产量、分蘖数、穗粒数、千粒重进行了预测，平均预测能力分别为0.1269、0.2259、0.3471和0.6797(Xu et al.,2014)。Spindel等对来自国际水稻研究所(IRRI)的363个优良育种系进行了GS分析，目标性状包括产量、株高和开花时间，预测能力分别为0.31、0.34和0.63(Spindel J,Begum H,Akdemir D,Virk P,Collard B,E,Atlin G,Jannink JL,McCouch SR.Genomic selection and association mapping in rice(Oryza sativa):effect of trait genetic architecture,training population composition, marker number and statistical model on accuracy of rice genomic selection in elite,tropical rice breeding lines.PLoS Genet.2015Feb 17；11(2):e1004982)。Júnior等使用了9个预测模型对产量、株高、开花天数、抽穗率、褐斑严重程度、全粒产量、长宽比、籽粒白度进行了预测，Bayes C_π模型对所有性状的预测效果均较为稳定。Yabe等对粮食灌浆特性进行了GS分析，预测了与粒重相关性状籽粒灌浆比例和灌浆籽粒平均重量，预测能力分别为0.30和0.28(Yabe S,Hara T,Ueno M,Enoki H,Kimura T,Nishimura S,Yasui Y,Ohsawa R,Iwata H.Potential of Genomic Selection in Mass Selection Breeding of an Allogamous Crop:An Empirical Study to Increase Yield of Common Buckwheat.Front Plant Sci.2018Mar 21；9:276)。在水稻抗性研究方面，已有关于对稻瘟病抗性和对砷抗性性状的GS研究，使用的模型包括BayesA、GBLUP、RHKS、BayesC、MLR等，预测准确度从0.15到0.725(Ahmadi N,Ramanantsoanirina A,Santos JD,Frouin J,Radanielina T.Evolutionary Processes Involved in the Emergence and Expansion of an Atypical O.sativa Group in Madagascar.Rice(N Y).2021 May 20；14(1):44；Frouin J,Labeyrie A,Boisnard A,Sacchi GA,Ahmadi N.Genomic prediction offers the most effective marker assisted breeding approach for ability to prevent arsenic accumulation in rice grains.PLoS One.2019 Jun 13；14(6)；Huang Y,Chen H,Reinfelder JR,Liang X,Sun C,Liu C,Li F,Yi J.A transcriptomic(RNA-seq)analysis of genes responsive to both cadmium and arsenic stress in rice root.Sci Total Environ.2019 May 20；666:445-460)。

杂交育种是利用杂种优势提高水稻产量的主要手段，研究表明，杂交水稻比近交系品种产量增加20％。全基因组选择可以高效的地从众多潜在的杂交组合中选择所需的杂交组合，GS可以预测已获得基因型亲本的所有组合的育种值，从减少田间评估的时间和成本。在杂交水稻育种的GS研究中，常用的水稻群体包括NCⅡ、RIL和一些与目标性状关联的群体，对杂交后代的多种性状进行了预测，包括单株产量、千粒重、有效穗数、株高、一次枝梗数、二次枝梗数、主穗实粒数、穗长等，对不同类型性状的预测能力由低到高不等，采用的模型包括GBLUP、MV-ADV、Lasso、SVM等，预测能力较高的性状为千粒重(0.7～0.8)，单株产量和穗长预测能力在0.5以下。

快速的全球工业化导致了镉的广泛传播，农业土壤和产品中的污染。相当大比例的大米消费者接触的镉水平高于临时安全摄入限值，引起人们对风险管理的广泛关注。种子工业已经存在了几个世纪，创造了丰富的稻米品种。不同于诸如株高和产量等性状，OsGCd不能直接通过田间观察为种质资源质量评价带来了挑战。

传统上，水稻品种需要先在田间种植，然后在田间种植通过表型测试来评估成熟后的OsGCd风险。这无疑是耗时且成本高昂。因此，如何在种植前预警OsGCd风险一直是环境行业的关键问题。

发明公开

本发明所要解决的技术问题是如何使用全基因组选择预测水稻籽粒镉含量和/或如何建立水稻籽粒镉积累性状的全基因组选择模型和/或如何预测水稻籽粒镉含量和/或如何对水稻镉积累风险进行预警和/或如何培育低镉水稻。

为了解决上述技术问题，本发明首先提供了预测水稻籽粒镉含量的装置，所述装置可包括如下模块：

A1)表型数据集获得模块：用于获得模型构建群体水稻的籽粒镉含量表型数据集；

A2)基因型数据集获得模块：用于通过全基因组关联分析获得水稻籽粒镉含量关联的SNP分子标记得到基因型数据集；

A3)全基因组选择模型构建模块：用于通过全基因组选择的算法，基于所述表型数据集和所述基因型数据集构建预测水稻籽粒镉含量的全基因组选择模型；

A4)待测水稻SNP基因分型获得模块：用于对待测水稻的所述SNP分子标记进行测定获得所述待测水稻的SNP基因分型；

A5)基因组估计育种值计算模块：用于使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测水稻的基因组估计育种值；根据所述基因组估计育种值预测所述待测水稻籽粒的镉含量。

上述装置中，所述全基因组选择的算法可为rrBLUP或gBLUP。

上述装置中，所述模型构建群体可由训练群体与测试群体组成。所述训练群体与所述测试群体均由水稻材料组成。所述训练群体和所述测试群体的水稻材料个数比可为1:1。所述SNP分子标记均匀分布于均匀分布水稻的12条染色体上。所述SNP分子标记的分布密度可为每个水稻基因组上60K个。

上述装置中，所述模型构建群体中水稻材料个数可为500。

为了解决上述技术问题，本发明还提供了水稻镉积累风险预警装置，所述装置可包括如下模块：

B1)表型数据集获得模块：用于获得模型构建群体水稻的籽粒镉含量表型数据集；

B2)基因型数据集获得模块：用于通过全基因组关联分析获得水稻籽粒镉含量关联的SNP分子标记得到基因型数据集；

B3)全基因组选择模型构建模块：用于通过全基因组选择的算法，基于所述表型数据集和所述基因型数据集构建预测水稻籽粒镉含量的全基因组选择模型；

B4)待测水稻SNP基因分型获得模块：用于对待测水稻的所述SNP分子标记进行测定获得所述待测水稻的SNP基因分型；

B5)基因组估计育种值计算模块：用于使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测水稻的基因组估计育种值；根据所述基因组估计育种值预测所述待测水稻籽粒的镉含量；

B6)镉含量风险预警模块：用于将B5)获得的镉含量高于镉含量风险值的待测水稻材料名称输出。

上述装置中，所述全基因组选择的算法可为rrBLUP或gBLUP。所述模型构建群体可由训练群体与测试群体组成。所述训练群体与所述测试群体均由水稻材料组成；所述训练群体和所述测试群体的水稻材料个数比可为1:1。所述SNP分子标记均匀分布于均匀分布水稻的12条染色体上。所述SNP分子标记的分布密度可为每个水稻基因组上60K个。所述模型构建群体中水稻材料个数可为500。

所述镉含量风险值可为0.2mg/kg。B6)所述输出可为可视化输出。

为了解决上述技术问题，本发明还提供了预警水稻镉积累风险的系统。所述系统可上文所述的装置。所述系统还可包括测定水稻SNP分型的仪器、试剂和/或试剂盒。

所述系统还可包括测定水稻籽粒镉含量的仪器、试剂和/或试剂盒。

为了解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质可使计算机运行如下步骤：

C1)获得模型构建群体水稻的籽粒镉含量表型数据集；

C2)通过全基因组关联分析获得水稻籽粒镉含量关联的SNP分子标记得到基因型数据集；

C3)通过全基因组选择的算法，基于所述表型数据集和所述基因型数据集构建预测水稻籽粒镉含量的全基因组选择模型；

C4)对待测水稻的所述SNP分子标记进行测定获得所述待测水稻的SNP基因分型；

C5)使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测水稻的基因组估计育种值；根据所述基因组估计育种值预测所述待测水稻籽粒的镉含量；

C6)将C5)获得的镉含量高于镉含量风险值的待测水稻材料名称输出。

所述输出可为可视化输出。

上述计算机可读存储介质中，所述全基因组选择的算法可为rrBLUP或gBLUP。所述模型构建群体可由训练群体与测试群体组成，所述训练群体与所述测试群体均由水稻材料组成。所述训练群体和所述测试群体的水稻材料个数比可为1:1。所述SNP分子标记均匀分布于均匀分布水稻的12条染色体上。所述SNP分子标记的分布密度可为每个水稻基因组上60K个。所述模型构建群体中水稻材料个数可为500。

上文所述的装置和/或上文所述的系统和/或上文所述的计算机可读存储介质的下述任一种应用也属于本发明的保护范围：

P1、在低镉含量水稻育种中的应用；

P2、在筛选或辅助筛选低镉含量水稻中的应用；

P3、在评估或辅助评估镉环境污染风险中的应用。

附图说明

图1为水稻镉积累性状的全基因组选择模型的表型和基因型数据集。(A)500份水稻种质的地理来源(上)和亲缘关系(下)，纵坐标为不同地理来源(上)和不同亚群(下)的材料数，横坐标为不同亚群。字母的颜色从浅灰色到深灰色，大小从小到大，代表水稻品种的数量。(B)500份水稻材料的OsGCd值的频率分布，纵坐标为材料数，横坐标为水稻籽粒镉含量。深灰线，水稻中镉的最大允许水平(MHPRC，2012)；深灰柱，品种OsGCd超标；浅灰色柱状，品种符合OsGCd标准；OsGCd，稻米镉浓度。(C)从MLM GWAS方法获得的OsGCd的曼哈顿图，纵坐标为P值的负对数-log₁₀(P)，横坐标为每条染色体上的SNP。下面的条显示了用于GWA的单核苷酸多态性密度；(D)策略Ⅰ、策略Ⅱ和策略Ⅲ在12条染色体上的SNP密度。从浅灰色到深灰色表示SNP密度从低到高。(E)来自策略I、策略II和策略的SNP的-log₁₀(P)值。

图2为12种建模算法能达到的最大精度和消耗的时间。(A)比较12种统计方法建立全基因组选择模型的时间消耗；(B)使用策略Ⅰ的SNP比较了12种统计方法的平均精度；(C)使用策略Ⅱ的SNP比较了12种统计方法的平均精度和策略Ⅲ；(D)使用策略Ⅲ的SNP比较了12种统计方法的平均精度；模型参数：训练群体与测试群体比为1:1；SNP密度为60k，群体大小为500(rrBLUP，gBLUP，RF，Light GBM，ANN和SVM)和219(Bayes A，Bayes B，Bayes C，Bayes Lasso，Bayes BRR和Bayes RKHS)。

图3为水稻籽粒镉积累性状的最佳群体大小和训练群体与测试群体比例。(A)训练群体与测试群体比率和SNP密度保持不变，以rrBLUP和gBLUP为统计方法比较了11组种群规模下的平均精度，纵坐标为模型精度，横坐标为不同群体大小；(B)使用rrBLUP和gBLUP作为统计方法，在9组训练群体和测试群体比率下比较平均精度，纵坐标为模型精度，横坐标为训练群体与测试群体的比例。

图4为水稻籽粒镉积累性状的最佳SNP标记密度。(A)训练群体与测试群体比率和群体大小保持不变，以rrBLUP和gBLUP为统计方法比较了9组SNP标记密度下的平均精度，纵坐标为模型精度，横坐标为不同SNP标记数；(B)三种策略下，随SNP标记密度的增加，P值的负对数-log₁₀(P)的变化，纵坐标为P值的负对数-log₁₀(P)，横坐标SNP标记密度；(C)三种策略中SNP标记的重叠情况；(D)策略Ⅰ和策略Ⅱ的交集SNP的曼哈顿图，纵坐标为P值的负对数-log10(P)，横坐标为每条染色体上的SNP。下面的条显示了用于GWA的单核苷酸多态性密度；(E)使用策略Ⅰ和策略Ⅱ交集的SNP标记和最佳种群大小，最佳训练集与测试集比例，rrBLUP和gBLUP作为统计方法构建模型，纵坐标为模型的精度，横坐标为两种统计方法。

图5为“智能镉预警系统”在水稻镉积累风险预警中的应用。(A)智能镉预警系统的基本流程；(B)在富阳通过全基因组选择模型预测和田间试验确定的风险品种的比较；(C)在温岭通过全基因组选择模型预测和田间试验确定的风险品种的比较。浅灰色部分代表田间试验的实测值(Measured OsGCd)，深色代表预测值(predicted OsGCd)；上半部分纵坐标为超标率，下半部分纵坐标为实测镉含量；(D)在富阳进行的44个水稻品种田间试验中测得的OsGCd值与预测值之间的相关系数；(E)在温岭进行的44个水稻品种田间试验中测得的OsGCd值与预测值之间的相关系数；纵坐标为预测值，横坐标为实测值；MAE，平均绝对误差。

实施发明的最佳方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂、仪器等，如无特殊说明，均可从商业途径得到。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。下述实施例中，如无特殊说明，序列表中各核苷酸序列的第1位均为相应DNA的5′末端核苷酸，末位均为相应DNA的3′末端核苷酸。

实施例1、水稻籽粒镉积累性状的全基因组选择研究的方法

1.水稻籽粒镉含量测定与表型数据分析

1.1水稻材料的种植与收获

在本发明中，在两个不同的镉污染农田中种植了500份具有广泛地理起源和足够亲缘关系的水稻微核心种质材料，以收集水稻籽粒镉含量表型数据。

500份水稻材料如图1所示，来自东亚、美洲、欧洲、非洲和澳大利亚的品种分别占54.7％、18.7％、10.7％、9.3％和6.7％；其中包括五个亚群体(图1中A)。

水稻材料的种植从播种开始，具体操作步骤如下：

(1)整地与打垄：将育秧地整体翻土，确保耕地整体土壤均匀。之后进行打垄，每垄宽度70cm，长度随育秧地长度而定。打垄之后灌水，撒农药与除草剂。播种需前晒田1-2天。

(2)浸种与催芽：温水浸种三天，每天换水两次，确保无异味。待种子露白后，开始催芽。催芽期间确保较高的温度，时间以一天半到两天最佳，种子芽长5mm后，可进行播种。

(3)播种与育秧：将每条垄分为两半，划分用于播种的格子，每格25cm-30cm。将已出芽的种子播种在格子中间，直到生长为秧苗。

(4)拔秧与排序：两周后，将秧苗按编号拔出，并用稻草或尼龙绳将地标牌与秧苗绑在一起，将根轻轻插入泥中，防止秧苗死亡。将排好序的秧苗由育秧地运至插秧田。

(5)插秧：将水稻微核心种质材料种植于如下环境中：土壤镉含量平均值为1.12mg/kg，有效镉含量平均值为0.91mg/kg，pH为6.04。资源种质材料种植两行，行间距25cm；每行种植8株，株间距为20cm。为了保证数据的准确度，同时设置对照材料CK用于后期数据校正，CK品种为当地常规粳稻品种嘉禾香1号，每行种植3株，行间距和株间距与资源种质材料一致。种植材料外围设置保护行。

待水稻成熟后，采集籽粒样品，为了避免边界效应，弃去与过道相邻的左右两株，其余株系籽粒混收；CK材料的收集按照每20个(左右各10个品种)材料混收1份CK。采集的水稻籽粒连同地标牌放置于网袋中，太阳下晾干避免发霉。

1.2水稻籽粒镉含量测定

收回的水稻籽粒样品在太阳下晾干或放置于烘箱中60℃烘干3天，质量恒定后使用砻谷机脱壳，得到的糙米样品放置于5mL离心管中。之后使用高通量静音组织研磨仪粉碎糙米样品，用于后续镉含量测定。

水稻籽粒镉含量测定时，采用方法为单酸消解法，使用仪器为远红外控温式消煮炉，容器为玻璃消煮管，具体步骤简述如下：

(1)称样：准确称取粉碎水稻籽粒样品0.2000g(精确到0.0001g)，放入玻璃消煮管，避免粉末粘壁。

(2)加酸：加入1mL优级纯硝酸，冷消化过夜。

(3)消解：加盖弯颈漏斗200℃消解6h，直至消化液呈无色透明或略带黄色。

(4)定容：用蒸馏水将管内消化液洗净，清洗液转移至15mL定容管中，定容至15mL。

(5)过滤：摇匀后使用0.22μM水系滤膜将定容后的液体过滤至10mL离心管中，待测。

质量控制：每批次消解时设置2个空白对照与3个大米粉成分分析标准物质(国家标准物质，GBW100349，钢研纳克检测技术公司)，确保水稻籽粒镉含量结果数据准确可靠。所有样品测定均重复3次。

水稻籽粒镉含量采用电感耦合等离子质谱仪(ICP-MS)进行测定。

1.3水稻籽粒镉含量表型数据分析

利用Excel 2019对水稻品种的籽粒镉含量进行描述性统计分析。结果显示，所有基因型的500份水稻材料稻米镉浓度(OsGCd)的平均范围为0.0015mg/kg至0.96mg/kg，超过中国卫生部(MHPRC，2012)规定的水稻中镉的最大允许水平(0.2mg/kg)(图1中B)。

2.水稻籽粒镉积累性状的全基因组关联分析

结合步骤1获得的水稻相对籽粒镉含量表型和500份水稻资源种质的基因型，利用R软件中的MVP程序包中的MLM模型对水稻籽粒镉积累性状进行全基因组关联分析。利用MLM模型获得结果进行建模群体的籽粒镉积累关联分子标记鉴定，获得与OsGCd相关的SNP。通过R软件包中的qqman程序包和ggplot2程序包绘制曼哈顿图。

结果表明，与水稻籽粒镉积累高度相关的SNP在不同染色体上分布不均匀，在第8染色体上P值最高可达8.04(图1中C)。考虑到基因型与表型的相关性和SNP分布的均匀性是影响全基因组选择模型准确性的两个重要因素，本发明采用了三种策略来建立基因型数据集。

策略Ⅰ是按P值对所有SNP进行排序，而不管它们标记在哪个染色体上。通过这种方式，分别提取前60、120、600、1200、6k、12k、60k、120k、600k个SNP，以建立9个SNP数据集；考虑到单核苷酸多态性在染色体上分布的均匀性，策略Ⅱ旨在提取12条染色体中前5位、10位、50位、100位、500位、1000位、5k位、10k位、50k位、100k位的单核苷酸多态性，并将其列在一起形成9个数据集。作为对照，随机选择SNP并形成9个SNP数据集，包括与策略Ⅰ和Ⅱ相同的整数；与策略Ⅰ相比，策略Ⅱ和策略Ⅲ中的SNP分布更均匀(图1中D)。而策略Ⅰ和Ⅱ中的SNP显示出比策略Ⅲ更高的P值(图1中E)。

3水稻籽粒镉积累性状的全基因组选择模型建立和参数设置

3.1水稻籽粒镉积累性状全基因组选择模型建立

以步骤1中获得的单一建模群体的水稻籽粒镉含量为表型数据，步骤2中获得的水稻籽粒镉积累关联SNP分子标记为基因型数据，通过比对不同算法、分子标记密度和训练集占比三种参数下模型的预测准确度，建立适合单一环境型下的全基因组选择预测模型。建立适用于两种环境型的水稻籽粒镉积累性状全基因组选择模型时，以A、B环境型下水稻籽粒镉积累关联分子标记的交集为基因型，两种环境型下建模群体的籽粒镉含量为表型数据。选取10-fold交叉验证重复100次的结果的均值作为最终预测准确度。

3.2全基因组选择模型参数设置和优化

3.2.1全基因组选择算法

本发明共采用12种算法进行全基因组选择研究来预测水稻籽粒镉含量，其中8种为线性算法，4种为机器学习算法，线性算法包括：rrBLUP、gBLUP、Bayes A/B/C/Lasso/BRR/RKHS。机器学习算法包括：支持向量机(SNM)、随机森林(RandomForest，RF)、LightGBM、多层感知机(MLP)，每次预测结果进行100次交叉验证，取平均值作为最终预测结果。

rrBLUP算法是一种间接法模型，具体分析通过R软件的rrblup包完成(Lozada et al.,2019)，具体公式如下：
Y＝μ+Xg+e

其中Y是训练群体中各水稻品种的表型向量；μ是计算出的固定效应，即训练群体中各品种的表型平均值；X是对基因型进行编码得到的关联矩阵；g是指根据模型估算出的分子标记效应向量；e为残余误差(Endelman,2011)。

gBLUP算法通过混合线性模型进行预测(姚骥，2018)，通过R软件的sommer包来进行分析(Perez and de los Campos,2014)，具体公式如下：
Y＝Zβ+Xg+ε

其中Y是训练群体中各水稻品种的表型向量；Z是计算出的固定效应矩阵；β是固定效应向量；X是随机效应矩阵；g是指根据模型估算出的分子标记效应向量；ε为随机误差(VanRaden,2008)。

Bayes A/B/C由Meuwissen等人提出(Meuwissen etal,2001)，根据Bayes A的假设，每个SNP都是有效的，这种效应遵循正态分布，效应方差遵循比例逆卡方分布。根据Bayes B的假设，符合全基因组的实际情况，少数SNP有效应，而其他SNP没有效应，效应方差服从卡方反分布。在Bayes B中联合应用Gibbs和MH(metropolis-Hastings)抽样来获得样本标记效应和方差。Bayes C是基于Bayes B的优化。Bayes A/B/C可以用以下统一公式表示。

Mallick提出了Bayes Lasso方法(Mallick etal，2014)。Bayes Lasso假设标记效应的方差遵循拉普拉斯分布，从而允许以更大的概率出现最大值或最小值。Bayes A/B/C和Bayes Lasso的区别在于标记效应的分布。Bayes A/B/C假设标记效应服从正态分布，而Bayes Lasso服从拉普拉斯分布。

Bayes BRR方法通过设置标记效应的高斯先验分布，假设所有标记都具有小或中等效应(Habier etal，2007)。可以用下面的公式表示：

Bayes RKHS是Bayes方法与RKHS相结合的一种统计方法(de los Campos etal，2010)。在本研究中，Bayes模型是由R的BGLR软件包实现的。

支持向量机是一种监督机器学习方法，可用于排序和回归分析(Cortes etal，1995)。在支持向量机中，将基于非线性映射到高维特征空间的输入向量构建线性决策面。通过找到最大裕度，设置分类器，可以对新的未知数据进行分类。在本研究中，支持向量机是由R的e1071软件包实现的。

随机森林算法是通过集成多个决策树来进行预测的分类器(张莉彬和宋凯利，2019)，其基本原理是采用Bootstrap子自采样的方法获得不同的样本集用于构建模型，各模型之间的差异度不同，因此提高了预测的能力(董红瑶等，2021)，通过R中的random forest软件包来进行分析。

LightGBM使用基于直方图的统计方法来寻找最佳分割点(相关文献：Yan J,Xu Y,Cheng Q,Jiang S,Wang Q,Xiao Y,Ma C,Yan J,Wang X.LightGBM:accelerated genomically designed crop breeding through ensemble learning.Genome Biol.2021 Sep 20；22(1):271)。基于决策树算法，LightGBM是一种快速、节省内存和高性能梯度提升框架，可用于排序、分类、回归和许多其他机器学习任务，具有优势。在本研究中，使用python包lightgbm v3 3.2构建lightgbm统计方法模型。

MLP是一个具有至少一个隐藏层的全连接神经网络。每个隐藏层的输出需要通过激活函数进行转换。该方法以神经网络为基本框架，试图模仿自然生物神经网络的学习模式。在本研究中，使用python包d2lzh v1.0.0构建MLP。

结果表明，线性模型比机器学习模型更适合于构建OsGCd的全基因组选择模型。

具体为Bayes算法在群体大小和时间消耗方面不如其他统计方法。除Bayes算法外，所有其他统计方法都可以在4小时内为500个种群规模的全基因组选择模型建模，其中rrBLUP和gBLUP最快(小于1小时)(图2中A)。而Bayes算法只能为多达219个种群规模进行全基因组选择模型建模，耗时约7小时(图2中A)。时间消耗和计算效率一直是Bayes分析中需要考虑的因素，因为其模型效应需要在数千次马尔可夫链蒙特卡洛迭代中采样。随着响应变量数量的增加，每次迭代都需要对较大的矩阵进行求逆和分解，这使得它变得耗时。与Bayes算法相比，其他统计方法的计算效率更高，表明其探索大数据的能力更强。就预测精度而言，12种统计方法获得的最大均方根误差按降序排列为：rrBLUP≈gBLUP>Bayes BRR≈Bayes RKHS>Bayes A≈Bayes B≈Bayes C≈Bayes Lasso≈SVM>RF>LightGBM>MLP(图2中B-D)。总体而言，使用线性统计方法的全基因组选择模型的预测精度(平均精度>0.68)高于机器学习(平均精度<0.59)。在线性统计方法中，rrBLUP和gBLUP方法的预测精度(平均精度>0.75)高于贝叶斯方法(0.67<平均精度<0.7)。一般来说，线性方法(如rrBLUP)的性能受到种群大小的限制，但对SNP数不敏感。另一方面，机器学习具有利用超大数据集的优越能力，但需要更大的训练群体规模才能实现高预测精度。例如，一个案例表明，在100000个种群规模上，rrBLUP未能训练模型，但LightGBM用40GB内存在15分钟内完成训练。因此，全基因组选择模型的最佳统计方法取决于群体规模和SNP密度。对于群体规模为500、SNP密度为60k的OsGCd(镉含量)预测，本发明的研究表明，rrBLUP和gBLUP是预测精度和计算效率方面的最佳统计方法。

3.2.2使用高密度标记和整合GWAS结果提高预测精度

全基因组选择研究预测准确性与可由SNP标记表示的染色体片段的实际效果有关。位于影响性状的基因组区域的标记已被证明是影响模型平均精度的重要因素。因此，获得大量与性状高度相关的SNP是建立准确全基因组选择模型的关键因素。GWAS为检测与性状相关的SNP标记提供了一种可行的方法。

本发明采用的分子标记来源为基于全基因组关联分析筛选出的水稻籽粒镉积累关联分子标记，具体为使用了三种策略来筛选关联分子标记作为SNP数据集：策略Ⅰ在全基因组范围内选取关联程度最高的前60、120、600、1200、6k、12k、60k，120k，600k个SNP作为分子标记密度；策略Ⅱ在每条染色体内选取关联程度最高的5、10、50、100、500、1000、5k、10k，50k个SNP作为分子标记密度；策略Ⅲ在全基因组范围内随机选取SNP作为分子标记密度。分析所用分子标记密度对全基因组选择预测准确度的影响。

通过合并GWAS结果，策略Ⅰ和策略Ⅱ的平均精度分别达到0.73±0.03和0.75±0.03，而策略Ⅲ(随机选择)的平均精度仅为0.43±0.04(图4中A)。与策略Ⅰ和策略Ⅱ相比，策略Ⅲ中的P值平均低约5.5倍(图4中B)，表明整合GWAS结果是提高全基因组选择模型预测精度的可行方法。

高标记密度是另一种确保标记QTL(数量性状基因座)关联保持的方法，从而保证高预测精度。但每个性状都有一个最佳SNP标记密度，超过该密度，平均精度开始下降。对于OsGCd预测，当策略Ⅰ(平均精度＝0.73±0.003)和策略Ⅱ(平均精度＝0.75±0.003)中的SNP数量为60k时，达到了最高的预测精度(图4中A)。在60k SNP参数下，策略Ⅰ和策略Ⅱ的预测精度没有显著差异，表明两种策略都包含足够的SNP，可以进行精确的全基因组选择模型建模。因此，本发明探讨了这两种策略对60k SNPs相交的建模效果。从策略Ⅰ和策略Ⅱ的60k交叉点共鉴定出45805个SNP(图4中C)，它们均匀分布在12条染色体上，P值范围为1.794到8.043(图4中D)。使用45805个SNP作为基因型数据集，平均精度分别达到0.752±0.035(rrBLUP)和0.756±0.035(gBLUP)(图4中E)，表明45805个SNP足以预测OsGCd。

3.2.3通过增加群体规模和平衡训练群体与测试群体比例关系优化模型

较大的群体规模通常具有更广泛的遗传多样性，可用于预测。平均精度通常随着群体规模的增加而增加，直到达到一个平台。但所需的群体大小始终随植物种类和品种而异。玉米抽穗、株高和穗重预测的案例表明，随着群体大小的减少，rrBLUP和lightGBM的精度从每个性状的约0.75、0.79和0.65开始逐渐下降，6210是最佳群体大小。对于玉米仁油预测，250被确定为最佳种群规模。

本发明在OsGCd预测中观察到类似的趋势。随着种群规模从50增加到500，平均精度在策略Ⅰ中增加到最大值0.75±0.003，在策略Ⅱ中增加到最大值0.77±0.003，在策略Ⅲ中增加到最大值0.43±0.004(图3中A)，这表明500是OsGCd G2P建模的最佳种群规模。

除了种群规模外，平衡训练群体和测试群体关系也会影响平均精度。对训练群体和测试群体比例影响的研究表明，优化比例随植物种类和性状而变化。对于玉米焦油斑复合抗性预测，当总基因型的50％用作训练群体时，观察到相对较高的预测精度和最小的标准误差。虽然9:1的比例是玉米抽穗、株高和穗重预测的最佳参数。对于本发明中的OsGCd含量预测，还观察到1：1是最佳训练群体和测试群体比例。在该参数下，平均均方根误差可以达到0.77±0.003(图3中B)。因此，种群大小500(水稻材料个数)和1:1的训练群体和测试群体比率是本发明预测OsGCd的最佳参数。

实施例2、“智能镉预警系统”在水稻镉积累风险预警中的应用

为了协助OsGCd风险预警中的数据驱动决策，本发明结合高通量测序、全基因组选择模型预测等模块和风险评估，以开发一个系统，即智能镉预警系统，用于水稻籽粒OsGCd风险预警。智能镉预警系统包括四个部分主要分析模块包括建模、基因分型、OsGCd含量预测和风险评估。

第一个建模模块是使用实施例1中的方法和参数建立高精度全基因组选择模型。第二个基因分型模块通过全基因组重新测序或定制的低镉单核苷酸多态性芯片可以获得用于风险评估的水稻品种的SNP。第三个OsGCd含量预测模块执行全基因组选择模型预测，将水稻品种SNP(单核苷酸多态性)作为查询信息，通过查询得到每个水稻品种的预测籽粒OsGCd含量。第四个模块执行风险评估和基本数据可视化：当水稻品种的OsGCd高于最大允许水平(超过中国卫生部(MHPRC，2012)规定的水稻中镉的最大允许水平(0.2mg/kg))时，将突出显示(流程如图5中A所示)。

为了调查智能镉预警系统的有效性，本发明对浙江省富阳市和温岭市两个地点的44份水稻材料(中国农业大学李自超实验室赠送，相关文献：Zhao Y,Zhang H,Xu J,Jiang C,Yin Z,Xiong H,Xie J,Wang X,Zhu X,Li Y,Zhao W,Rashid MAR,Li J,Wang W,Fu B,Ye G,Guo Y,Hu Z,Li Z,Li Z.Loci and natural alleles underlying robust roots and adaptive domestication of upland ecotype rice in aerobic conditions.PLoS Genet.2018 Aug 10；14(8):e1007521)进行了实验，对水稻镉污染风险进行预测。

44份水稻的包含45805个SNP的基因型数据集来源于全基因组重新测序。

结果显示，使用实施例1中的方法和参数对500个建模总体构建的全基因组选择模型，对温岭和富阳水稻籽粒镉含量的预测精度分别达到0.756±0.035和0.795±0.023；水稻籽粒镉含量的预测值为在富阳比温岭高约2.5倍，平均而言，这可能是由于土壤pH值下降导致的。分别共有32和12个水稻品种在富阳和温岭中被鉴定为风险品种(表1中显示超标的水稻材料)。

然后将44份水稻材料在浙江省富阳市和温岭市两个地点的镉污染农田进行种植以测定实际水稻籽粒镉含量，种植方法和镉含量测定方法同实施例1。

野外考察结果表明，测量值与预测值之间存在相关性(图5中D和E)，验证了智能镉预警系统的有效性。富阳(图5中B的Fuyang所示)和温岭(图5中C的Wenling所示)的水稻籽粒镉(OsGCd)含量分别达到0.79和0.81，田间试验检测到的风险品种与试验结果一致(表1)。

表1. 44份材料实测值与预测值及风险评估

本发明开发的水稻OsGCd“智能镉预警”的创新预警系统，是第一个OsGCd风险从以下角度建立评估和预警系统：从基因型到表型。对于OsGCd特征，展示了“智能镉预警”预警风险水稻品种的优越性能和广泛的环境意义。预计“智能预警”系统可以扩展到更广泛的危险材料和作物品种中，从而在风险评估和环境保护中发挥作用。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。

工业应用

本发明建立的水稻籽粒镉含量全基因组选择研究与标记辅助选择(MAS)不同，在MAS中，只有有限数量的先前确定的相关性最强的标记用于选择最佳品系，而本发明的方法利用全基因组水平上的基因型-表型关系，以便为无表型的样本制作可靠的全基因组选择模型。简言之，该方法需要两个步骤：(i)通过在训练群体(TRN)中结合分子(高密度SNP标记)和表型数据集来构建全基因组选择模型，以及(ii)使用建立好的模型来获得测试群体(TST)中已进行基因分型但无表现型的个体的基因组估计表型；这样，可以提前筛选出低镉含量优良水稻品系，而不必在育种后期进行表型分析。

在此基础上本发明还开发除了水稻“智能镉预警”的创新预警系统，此系统是第一个镉(OsGCd)含量风险从以下角度建立评估和预警系统：从基因型到表型。对于OsGCd特征，展示了“智能镉预警”预警风险水稻品种的优越性能和广泛的环境意义。预计“智能预警”系统可以扩展到更广泛的危险材料和作物品种中，从而在风险评估和环境保护中发挥作用。

Claims

预测水稻籽粒镉含量的装置，其特征在于：所述装置包括如下模块：

A1)表型数据集获得模块：用于获得模型构建群体水稻的籽粒镉含量表型数据集；

A2)基因型数据集获得模块：用于通过全基因组关联分析获得水稻籽粒镉含量关联的SNP分子标记得到基因型数据集；

A3)全基因组选择模型构建模块：用于通过全基因组选择的算法，基于所述表型数据集和所述基因型数据集构建预测水稻籽粒镉含量的全基因组选择模型；

A4)待测水稻SNP基因分型获得模块：用于对待测水稻的所述SNP分子标记进行测定获得所述待测水稻的SNP基因分型；

A5)基因组估计育种值计算模块：用于使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测水稻的基因组估计育种值；根据所述基因组估计育种值预测所述待测水稻籽粒的镉含量。
根据权利要求1所述的装置，其特征在于：所述全基因组选择的算法为rrBLUP或gBLUP。
根据权利要求1或2所述的装置，其特征在于：所述模型构建群体由训练群体与测试群体组成，所述训练群体与所述测试群体均由水稻材料组成；所述训练群体和所述测试群体的水稻材料个数比为1:1；所述SNP分子标记均匀分布于均匀分布水稻的12条染色体上；所述SNP分子标记的分布密度为每个水稻基因组上60K个。
根据权利要求1-3中任一权利要求所述的装置，其特征在于：所述模型构建群体中水稻材料个数为500。
水稻镉积累风险预警装置，其特征在于：所述装置包括如下模块：

B1)表型数据集获得模块：用于获得模型构建群体水稻的籽粒镉含量表型数据集；

B2)基因型数据集获得模块：用于通过全基因组关联分析获得水稻籽粒镉含量关联的SNP分子标记得到基因型数据集；

B3)全基因组选择模型构建模块：用于通过全基因组选择的算法，基于所述表型数据集和所述基因型数据集构建预测水稻籽粒镉含量的全基因组选择模型；

B4)待测水稻SNP基因分型获得模块：用于对待测水稻的所述SNP分子标记进行测定获得所述待测水稻的SNP基因分型；

B5)基因组估计育种值计算模块：用于使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测水稻的基因组估计育种值；根据所述基因组估计育种值预测所述待测水稻籽粒的镉含量；

B6)镉含量风险预警模块：用于将B5)获得的镉含量高于镉含量风险值的待测水稻材料名称输出。
根据权利要求5所述的装置，其特征在于：所述全基因组选择的算法为rrBLUP或gBLUP；所述模型构建群体由训练群体与测试群体组成，所述训练群体与所述测试群体均由水稻材料组成；所述训练群体和所述测试群体的水稻材料个数比为1:1；所述SNP分子标记均匀分布于均匀分布水稻的12条染色体上；所述SNP分子标记的分布密度为每个水稻基因组上60K个；所述模型构建群体中水稻材料个数为500。
预警水稻镉积累风险的系统，其特征在于：所述系统包括权利要求5或6所述的装置；所述系统还包括测定水稻SNP分型的仪器、试剂和/或试剂盒。
一种存储有计算机程序的计算机可读存储介质，其特征在于：所述计算机程序使计算机运行如下步骤：

C1)获得模型构建群体水稻的籽粒镉含量表型数据集；

C2)通过全基因组关联分析获得水稻籽粒镉含量关联的SNP分子标记得到基因型数据集；

C3)通过全基因组选择的算法，基于所述表型数据集和所述基因型数据集构建预测水稻籽粒镉含量的全基因组选择模型；

C4)对待测水稻的所述SNP分子标记进行测定获得所述待测水稻的SNP基因分型；

C5)使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测水稻的基因组估计育种值；根据所述基因组估计育种值预测所述待测水稻籽粒的镉含量；

C6)将C5)获得的镉含量高于镉含量风险值的待测水稻材料名称输出。
根据权利要求8所述的计算机可读存储介质，其特征在于：所述全基因组选择的算法为rrBLUP或gBLUP；所述模型构建群体由训练群体与测试群体组成，所述训练群体与所述测试群体均由水稻材料组成；所述训练群体和所述测试群体的水稻材料个数比为1:1；所述SNP分子标记均匀分布于均匀分布水稻的12条染色体上；所述SNP分子标记的分布密度为每个水稻基因组上60K个；所述模型构建群体中水稻材料个数为500。
权利要求1-6中任一权利要求所述的装置和/或权利要求7所述的系统和/或权利要求8或9所述的计算机可读存储介质的下述任一种应用：

P1、在低镉含量水稻育种中的应用；

P2、在筛选或辅助筛选低镉含量水稻中的应用；

P3、在评估或辅助评估镉环境污染风险中的应用。