WO2024065070A1

WO2024065070A1 - 一种基于图聚类的基因编码育种预测方法和装置

Info

Publication number: WO2024065070A1
Application number: PCT/CN2022/121174
Authority: WO
Inventors: 吕劲松; 陈红阳; 王浩; 冯献忠
Original assignee: 之江实验室
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2024-04-04
Also published as: US20240119314A1

Abstract

一种基于图聚类的基因编码育种预测方法及装置，基于基因间相关性强弱构建基因图谱；对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息；融合基因等位信息和基因组聚类编号信息，得到样本的基因聚类编码；基于基因聚类编码信息和待预测生物表型信息，构建深度卷积神经网络，以优化基因育种预测性能。利用基因图谱蕴含的基因间相互作用关系网络，能够有效提取用于控制生物表型输出的调控基因特征，解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题，保障生物表型的基因育种预测精准性，进而提高基因育种的速度、效率和质量，尤其是产量。

Description

一种基于图聚类的基因编码育种预测方法和装置

技术领域

本发明主要涉及作物精准分子育种的基因育种预测领域，主要涉及一种基于图聚类的基因编码育种预测方法和装置。

背景技术

随着基因测序技术的发展，实验技术人员通过样本采集、文库制备和测序等湿实验过程，基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等可获得大规模、具有数据挖掘应用价值的多样本基因数据信息。全基因组测序后，基因组预测模型准确率很低。以大豆为例，大豆含有约6万基因，其中4万对基因发现8000万突变。而基因型预测表型，只能定性描述，不能定量分析。这极大限制了作物育种的数量、速度、质量，尤其产量的提高。

为了提高分子育种的准确率，当前面向作物表型的基因预测方法主要包括贝叶斯方法、线性回归、岭回归等传统统计分析方法。而当前在语音、图像和自然语言领域获得极大成功的深度学习方法却因为作物育种领域样本少的缺点无法获得很好的效果。另一方面，基因数据的维度很高，传统的统计分析方法也很难利用特征选择方法在如此高维的基因特征数据中快速提取有效的特征。可见，已有流行方法均无法满足作物分子育种的这种高维小样本问题。

为了应对作物分子育种的这种高维小样本问题，需要提出创新的基因育种预测方法，以同时解决高维度特征的特征选择提取问题和复杂模型样本基因图谱特征编码不足的问题。

发明内容

本发明的目的在于针对现有技术的不足，提出了一种基于图聚类的基因编码育种预测方法和装置，利用基因图谱蕴含的基因间相互作用关系网络，通过图聚类提取共同调控基因组聚类信息，以及新提出融合基因等位信息和基因图谱聚类信息的基因聚类编码方式，并利用深度卷积神经网络的权值共享，有效提取用于控制生物表型输出的调控基因特征，解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题，保障生物表型的基因育种预测精准性。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于图聚类的基因编码育种预测方法，包括如下步骤：

获取待预测的子代的基因型数据和基因位置信息；

基于基因型数据中基因间相关性强弱构建无向图作为基因图谱；

对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号；

融合基因型数据中每个基因对应的等位基因信息和基因组聚类编号信息，串接得到样本的基因聚类编码；

将基因聚类编码、基因位置信息输入至基因编码育种预测模型，获得待预测的子代的生物表型信息；基于预测的子代的生物表型信息，筛选优质种子集合。

其中，所述基因编码育种预测模型是基于收集的数据集训练获得的，所述数据集的每一样本数据包括样本的基因聚类编码、基因位置信息和生物表型信息。

作为优选，生物表型信息包括目标表型相关的数量、质量、百分比、分类等可测量信息，待编码的等位基因信息包括SNP等位基因，如纯合0/0、1/1和杂合0/1等。

作为优选，对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息，具体如下：

基于基因图谱空间分布特征估算共同调控基因组个数，即基因聚类簇数；

根据估算的基因聚类簇数，对每个基因计算类内距离和类间距离，确定该基因归属的聚类；

聚类完成后，对每个基因聚类簇给予唯一的聚类编号信息，作为对应基因聚类簇中每个基因的基因组聚类编号。

作为优选，所述基因间相关性强弱一般通过计算每两条基因的多样本SNP位点串的相似度得到，常用方法包括Pearson相关系数、Spearman相关系数、欧式距离、余弦相似度、曼哈顿距离、汉明距离、编辑距离等；邻接边权重一般通过基因间相关性强弱或其归一化值表示。

作为优选，基因聚类方法包括空间聚类(Kmeans等)、密度聚类(DBSCAN等)、层次聚类(自底向上法和自顶向下法)、谱聚类等。

作为优选，确定基因聚类数的估算方法包括统计法、随机法、穷举法、迭代法等，其中迭代法主要指层次聚类中自底向上方或自顶向下迭代聚类确定的聚类数方法。

作为优选，其中的谱聚类法主要利用拉普拉斯矩阵等计算图的连通分量进行聚类；类内距离和类间距离的计算方法包括如前所述优选所述的基因相似度计算方法，及图连通性和邻域特征定义的类内和类间距离。

作为优选，基因聚类编号信息可由聚类方法本身给出，或通过随机方式、顺序方式给出。

作为优选基因等位信息和基因组聚类编号信息的融合方式为字符串串接方式。

作为优选，基因编码育种预测模型的结构包括基因聚类编码输入层、嵌入层、卷积层、池化层、全连接层、输出层等模块，以及提高神经网络泛化能力的策略，包括L1/L2正则化、Dropout等，优化学习算法包括Adam等。

作为优选，输入层包括步骤4中得到的基因聚类编码信息，或基因聚类编码信息附加基因位置信息，输出层包括目标任务相关的分类层或回归层，或者作为预训练的多任务分类和回归层。

作为优选，所述基因编码育种预测模型是两阶段学习训练获得，其中第一阶段学习中作为预训练的双胞胎网络，接受来自两个基因串的编码输入，并在输出层同时学习差分任务和加和任务；第二阶段学习中作为继续训练的前置固定权重网络层，参与目标任务的精调学习。

作为优选，筛选优质种子集合的方法为通过设置和优化合理阈值得到的优选种子集合及其相应亲本组合。

本发明的有益效果：与现有技术相比，本发明一种基于图聚类的基因编码育种预测方法，先收集精准分子育种所需的待预测生物表型信息、待编码的等位基因信息；然后基于基因间相关性强弱确定基因图谱和邻接边权重；再对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息；接着融合基因等位信息和基因组聚类编号信息，得到样本的基因聚类编码；最后基于基因聚类编码信息，或附加基因位置信息和待预测生物表型信息，构建深度卷积神经网络，以优化基因育种预测性能；该方法充分利用基因图谱蕴含的基因间相互作用关系网络，通过图聚类提取共同调控基因组聚类信息，以及新提出融合基因等位信息和基因图谱聚类信息的基因聚类编码方式，以及附加基因位置信息，并利用深度卷积神经网络的权值共享，能够有效提取用于控制生物表型输出的调控基因特征，解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题，保障生物表型的基因育种预测精准性。

附图说明

图1为本发明实施例提供的一种基于图聚类的基因编码育种预测方法的流程图；

图2为本发明实施例提供的一种基于图聚类的基因编码育种预测装置的云边端协同部署示意图；

图3为本发明实施例提供的收集基因信息的流程图；

图4为本发明实施例提供的单阶段深度卷积神经网络模型的架构图；

图5为本发明实施例提供的两阶段深度卷积神经网络模型的架构图；

图6为本发明实施例提供的基于图聚类的基因编码育种预测装置的结构框图。

图中：11-信息收集模块；12-基因聚类模块；13-编码预训练模块；14-继续训练模块；15-育种预测筛选模块

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅用于解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于图聚类的基因编码育种预测方法进行详细介绍。

实施例一：

一种基于图聚类的基因编码育种预测方法，该方法结合图聚类对基因进行编码，再通过一基因编码育种预测模型进行预测获得待预测的子代的生物表型信息；基于预测的子代的生物表型信息，筛选优质种子集合。其中，所述基因编码育种预测模型是基于收集的数据集训练获得的，训练方法参考图1，具体包括：

S101、收集精准分子育种所需的每一样本的生物表型信息、基因型数据及基因位置信息，构建数据集。

本发明的实施例中，该方法的执行主体为计算育种中心。具体的，如果计算育种中心设置在计算云上，那么计算云就是该方法的执行主体；如果计算育种中心设置在计算端节点上，那么计算端节点就是该方法的执行主体。

具体的，在本发明实施例中，计算育种中心基于高维基因型数据预测生物表型，目的在于基于预测值对父本和母本进行筛选，从而产生优良的后代。而普通的基因编码，主要基于数值、数值映射或独热编码(One-hot Encoding),无法有效提取基因网络图谱中的多邻域结构特征。基于图聚类的基因编码可以有效提取这种结构信息，从而提高育种预测的能力。

在一个可选的实施方式中，参考图3，育种预测所需的表型和基因型信息收集包括：采集生物组织样本、提取DNA/RNA、样本制备建库和测序。

S102、对每一样本的基因型数据基于基因间相关性强弱构建无向图作为基因图谱，所述基因间相关性强弱可以通过计算基因型数据中两两基因的多SNP位点串的相似度得到，方法包括Pearson相关系数、Jaccard相关系数、Spearman相关系数、欧式距离、夹角余弦相似度、曼哈顿距离、汉明距离、编辑距离、切比雪夫距离、闵可夫斯基距离和信息熵等；计算得到的相似度即为无向图的邻接边权重。作为一种实施方案，基因间相关性强弱通过Pearson相关系数确定，计算公式如下：

其中X,K分别为两个基因的向量表示，X _i、K _i分别为其中基因X和K的向量表示的第i 个分量，

为对应基因的均值。N为基因向量的维度，其中，邻接边权重取基因间相关性中0到1的部分，不在区间的取0，认为不存在连边。

在一个可选的实施方式中，基于开发集中样本的基因串信息和基因相关性计算公式，计算各基因位点间的相关性，得到基因位点间相关性热力图，即基因位点邻接边权重和邻接矩阵。

S103、对步骤S102构建的基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息。

在构建基因图谱后，对该图谱进行无监督聚类，基因聚类方法包括空间聚类、密度聚类、层次聚类或谱聚类等，具体地，该步骤包括以下子步骤：

基于基因图谱空间分布特征估算共同调控基因组个数，即基因聚类簇数；估算共同调控基因组个数的方法为统计法、随机法、穷举法或迭代法，其中迭代法主要指层次聚类中自底向上方或自顶向下迭代聚类确定的聚类数方法。

聚类完成后，对每个基因聚类簇给予唯一的聚类编号信息，作为对应基因聚类簇中每个基因的基因组聚类编号。基因聚类编号信息可以由聚类方法本身给出，或通过随机方式、顺序方式给出。

在一个可选的实施方式中，基于前述所建的基因位点邻接矩阵所对应的基因图谱，应用连通子图算法得到基因位点聚类结果，连通孤立基因点一起，顺次编号，得到共同调控基因组个数和每个基因的基因组聚类编号信息。

S104、融合基因型数据中每个基因对应的等位基因信息和基因组聚类编号信息，串接得到样本的基因聚类编码。

获得基因聚类编号信息后，通过逐元素串接可得到融合后的样本的基因聚类编码。基因聚类编码方式如下所示：

其中S _ij为样本i的第j个分量的基因，SNP(S _ij)为对应的等位基因特征，即基因型数据中原始该基因的编码，Group(S _ij)为对应的聚类编号，

为融合算子，代表符号串接操作。

S105、基于基因聚类编码信息、基因位置信息和生物表型信息，构建和训练基因编码育种预测模型，以优化基因育种预测性能。

样本的基因聚类编码完成后得到样本的基因聚类编码特征，可基于此特征，并附加基因位置信息和待预测的生物表型信息，构建基于深度卷积神经网络的基因编码育种预测模型，并增加Dropout和L1/L2正则化策略优化，以优化基因育种预测性能。

在一个可选的实施方式中，参考图4，通过融合基因等位信息和基因聚类编号信息，以逐元素拼接方式构成深度卷积神经网络的输入和编码层(基因聚类编码输入层)，而后依次接入嵌入层、SpatialDropout1D、1维卷积、1维最大池化、展平、全连接，最后接入和目标任务相关的分类/回归输出层及表型输出。

在一个可选的实施方式中，参考图5，模型构建和学习阶段分成两个阶段：阶段一为预训练阶段，通过融合基因等位信息和基因聚类编号信息和基因位置信息等共同构成双通道多任务的深度卷积神经网络的输入和编码层，而后接入作为共享双胞胎网络的深度卷积神经网络，输出层接差分任务和加和任务。其中，整个网络的输入为左右双通道，即包括两个不同样本的基因串的输入，输出为多任务输出，差分任务为左右通道基因串对应表型值的差值的正负极性判定任务，而加和任务为左右通道基因串对应表型值的和值的回归任务。其中差分任务和加和任务的目标损失函数分别为L ^-和L ⁺,一般地，L ⁺可取均方误差MSE，L ^-可取交叉熵。如下所示：

其中Y _i1、Y _i2为实际样本标签值，

为样本预测值，I(X)为示性函数，当X为真时函数值为1，当X为假时函数值为0；M表示样本数量；σ为Sigmoid函数，计算公式如下所示：

其中e为自然常数，其值约等于2.71828。

阶段一的多任务目标损失函数如下所示：

L ₁＝αL ⁺+βL ^-

其中L ⁺、L ^-、L分别为加和任务、差分任务和总任务的损失函数，α和β分别为加和任务和差分任务的损失函数的权重超参，可通过网格搜索法确定参数值。

阶段二为继续训练阶段，通过载入阶段一已预训练好的共享双胞胎网络并固定网络权重使之不参与继续训练阶段的网络权重调优，而后上接目标任务相关的分类/回归输出层及表型输出，从而构建继续训练阶段的深度卷积神经网络。基于开发集中的基因串样本数据和对应表型数据对目标的继续训练阶段模型进行学习调优，从而获得最终用于育种任务的目标预测模型。对于表型的回归预测任务，阶段二的目标损失函数取均方误差MSE；对于表型的分类预测任务，阶段二的目标损失函数取交叉熵。以回归预测任务为例，阶段二的目标损失函数如下所示：

S106、基于构建的基因育种预测模型，筛选优质种子集合，即优化最优亲本组合。

对于性状分类任务，基于构建的基因育种预测模型直接筛选预测为指定性状分类的种子池，即为最优亲本组合；对于性状回归即数值预测任务，基于构建的基因育种预测模型筛选预测值达到或超过指定阈值的种子池，即为最优亲本组合。对于性状回归任务，指定的筛选阈值可通过筛选比例和试验田规模综合优化得到。

现有的基因输入特征编码方式，通常考虑数值格式或独热格式编码，例如数值格式通常将0/0、0/1和1/1映射成-1、0和1的数值，或者映射到0、1和2，无法表达复杂的基因网络特征；而独热编码仅仅将原特征离散化，也没有增加特征的信息量。而基于图聚类的基因编码融合了原等位基因特征和共同调控基因组特征，从而捕捉到更上层的图邻域结构特征，对基于深度神经网络的模型的预测能力有很大的提高。该方法充分利用基因图谱蕴含的基因间相互作用关系网络，通过图聚类提取共同调控基因组聚类信息，以及新提出融合基因等位信息和基因图谱聚类信息的基因聚类编码方式，并利用双通道多任务的深度卷积神经网络的权值共享，能够有效提取用于控制生物表型输出的调控基因特征，解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题，保障生物表型的基因育种预测精准性。

实施例二：

一种基于图聚类的基因编码育种预测装置，参考图2和图6，该装置包括：

信息收集模块11，用于收集精准分子育种所需的待预测生物表型信息、基因型数据。此模块主要由智能终端完成。

基因聚类模块12，用于基于基因间相关性强弱确定基因图谱和邻接边权重、对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息。此模块由云边端协同计算完成。

编码预训练模块13，用于融合基因等位信息、基因组聚类编号信息和基因位置信息，并基于融合编码信息构建双通道多任务深度卷积神经网络，面向双基因串增强数据同时进行差分任务和加和任务的学习训练和网络权重调优，得到用于后续继续训练的共享双胞胎网络及其权重。此模块由云边端协同计算完成。

继续训练模块14，用于载入编码预训练模块得到的共享双胞胎网络及其权重并固化权重，并面向育种目标性状相关的分类/回归任务进行继续训练调优，得到用于育种目标性状相关的预测模型。此模块由云边端协同计算完成。

育种预测筛选模块15，用于基于继续训练模块构建的基因育种预测模型，筛选优质种子集合，即优化最优亲本组合。此模块由云边端协同计算完成。

本发明实施例的基于图聚类的基因编码育种预测装置中，先收集用于基因育种预测所需的训练集和预测集数据，其中训练集数据包括精准分子育种所需的待预测生物表型信息、待编码的等位基因信息，预测集数据包括待预测的种子的等位基因信息；然后，计算不同基因位点间相关性，并基于相关性强弱构建基因邻接矩阵和图谱，对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息；接着，融合基因等位信息、基因组聚类编号信息和基因位置信息构建双通道多任务的深度卷积神经网络进行预训练，得到共享双胞胎网络及其权重；而后，载入共享双胞胎网络及其权重并固化权重，并面向育种目标性状相关的分类/回归任务进行继续训练调优，得到用于育种目标性状相关的预测模型；最后，基于基因育种预测模型筛选优质种子集合，即优化最优亲本组合。该装置能充分利用基因图谱蕴含的基因间相互作用关系网络，通过图聚类提取共同调控基因组聚类信息，以及新提出融合基因等位信息和基因图谱聚类信息的基因聚类编码方式，并利用双通道多任务深度卷积神经网络的权值共享，能够有效提取用于控制生物表型输出的调控基因特征，解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题，保障生物表型的基因育种预测精准性。

本发明实施例所提供的基于图聚类的基因编码育种预测方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

一种基于图聚类的基因编码育种预测方法，其特征在于，包括如下步骤：

获取待预测的子代的基因型数据和基因位置信息；

基于基因型数据中基因间相关性强弱构建无向图作为基因图谱；

对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号；

融合基因型数据中每个基因对应的等位基因信息和基因组聚类编号信息，串接得到样本的基因聚类编码；

将基因聚类编码、基因位置信息输入至基因编码育种预测模型，获得待预测的子代的生物表型信息；基于预测的子代的生物表型信息，筛选优质种子集合。

其中，所述基因编码育种预测模型是基于收集的数据集训练获得的，所述数据集的每一样本数据包括样本的基因聚类编码、基因位置信息和生物表型信息。
根据权利要求1所述的方法，其特征在于，所述基因间相关性强弱通过计算基因型数据中两两基因的多SNP位点串的相似度得到，方法包括Pearson相关系数、Jaccard相关系数、Spearman相关系数、欧式距离、夹角余弦相似度、曼哈顿距离、汉明距离、编辑距离、切比雪夫距离、闵可夫斯基距离和信息熵；计算得到的相似度作为邻接边权重构建无向图。
根据权利要求1所述的方法，其特征在于，对基因图谱进行聚类求解，得到共同调控基因组个数和每个基因的基因组聚类编号信息，具体如下：

基于基因图谱空间分布特征估算共同调控基因组个数，即基因聚类簇数；

根据估算的基因聚类簇数，对每个基因计算类内距离和类间距离，确定该基因归属的聚类；

聚类完成后，对每个基因聚类簇给予唯一的聚类编号信息，作为对应基因聚类簇中每个基因的基因组聚类编号。
根据权利要求3所述的方法，其特征在于，基因聚类方法包括空间聚类、密度聚类、层次聚类或谱聚类。
根据权利要求3所述的方法，其特征在于，估算共同调控基因组个数的方法为统计法、随机法、穷举法或迭代法，其中迭代法主要指层次聚类中自底向上方或自顶向下迭代聚类确定的聚类数方法。
根据权利要求1所述的方法，其特征在于，基因聚类编号信息由聚类方法本身给出，或通过随机方式、顺序方式给出。
根据权利要求1所述的方法，其特征在于，所述生物表型信息包括目标表型相关的数量、质量、百分比或分类。
根据权利要求1所述的方法，其特征在于，所述基因编码育种预测模型包括基因聚类编码输入层、嵌入层、卷积层、池化层、全连接层和输出层。
根据权利要求1所述的方法，其特征在于，所述基因编码育种预测模型通过两阶段训练获得，其中第一阶段基于共享桥接网络，具有双通道基因聚类编码输入层，分别接受来自两个样本的基因聚类编码输入，并在输出层同时学习差分任务和加和任务；第二阶段基于第一阶段训练的固定的网络参数，仅留一层基因聚类编码输入层接受来自一个样本的基因聚类编码和基因位置信息的输入，参与目标任务的精调学习，直至完成训练。
一种基于图聚类的基因编码育种预测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任一项所述的基于图聚类的基因编码育种预测方法。