WO2024016389A1

WO2024016389A1 - 泛素化位点的识别方法、装置、系统和存储介质

Info

Publication number: WO2024016389A1
Application number: PCT/CN2022/110318
Authority: WO
Inventors: 李坚强; 陈杰; 陈廷柏
Original assignee: 深圳大学
Priority date: 2022-07-20
Filing date: 2022-08-04
Publication date: 2024-01-25
Also published as: CN114927165B; CN114927165A

Abstract

一种泛素化位点的识别方法、装置、系统和存储介质，属于泛素化技术领域，该方法包括获取蛋白质的三维结构信息（S101）；从三维结构信息提取出空间结构特征信息（S102）；基于训练完成的卷积模型对空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息（S103）；若赖氨酸特征信息与预设的分类条件匹配，则对应的赖氨酸节点为泛素化位点（S104）。通过蛋白质的三维结构信息对蛋白质中各个赖氨酸是否能够泛素化进行识别，提高了识别精度。

Description

泛素化位点的识别方法、装置、系统和存储介质

优先权信息

本申请要求于2022年7月20日申请的、申请号为202210850486.2的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种泛素化技术领域，尤其涉及一种泛素化位点的识别方法、装置、系统和存储介质。

背景技术

泛素化是真核细胞中一种常见的蛋白质后修饰方式，指泛素分子在泛素激活酶、泛素结合酶和泛素连接酶的相继作用下连接到靶蛋白分子的赖氨酸残基上。泛素化在蛋白质的定位、新陈代谢、细胞分裂、基因转录和DNA修复等方面具有重要作用，因此对泛素化位点的准确识别尤为重要。

现有技术中的泛素化位点识别方式为DeepUbi模型，该模型由word2vec模型和卷积神经网络组成，从待测位点为中心的长度为31的蛋白质片段中学习嵌入特征，以推断是否能够泛素化。但上述方法仅考虑了蛋白质的序列特征，导致泛素化位点的识别精度下降。

发明内容

有鉴于此，本申请提供了一种泛素化位点的识别方法、装置、系统和存储介质，用于解决现有技术中的识别精度低的问题。为实现上述之一或部分或全部目的或是其他目的，本申请提出一种泛素化位点的识别方法、装置、系统和存储介质。第一方面，本申请提出一种泛素化位点的识别方法，包括：

获取蛋白质的三维结构信息；

从所述三维结构信息提取出空间结构特征信息；

基于训练完成的卷积模型对所述空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息；所述卷积模型通过蛋白质训练集训练完成；

若所述赖氨酸特征信息与预设的分类条件匹配，则对应的所述赖氨酸节点为泛素化位点。

在一实施例中，通过所述蛋白质训练集训练所述卷积模型的步骤包括：

获取所述蛋白质训练集；所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息；将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息；

基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数；

基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值；

基于所述损失值和预设的训练条件判断是否完成训练；

在未完成所述卷积模型的训练时，迭代计算所述损失值；在完成所述卷积模型的训练时，停止迭代计算所述损失值。

在一实施例中，所述将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息的步骤包括：

通过第一卷积层对所述蛋白质样本信息进行计算，得到第一特征矩阵；所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵；

通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算，得到第二特征矩阵；

通过自注意力机制层对所述第二特征矩阵进行计算，得到第三特征矩阵；

通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算，得到蛋白质训练信息；从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。

在一实施例中，所述基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数的步骤包括：

统计所述赖氨酸训练信息的数量得到样本数量；

统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量；

统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量；

基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵；

基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵；

将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量；

根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量，得到所述权参数中的可泛素化总数和非泛素化总数。

在一实施例中，所述从所述三维结构信息提取出空间结构特征信息的步骤包括：

基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子；

从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息；

基于所述位置信息计算各所述氨基酸间的距离信息；

在所述距离信息小于预设的距离阈值时，判定对应的两个所述氨基酸为连接关系，以生成所述空间结构特征信息。

在一实施例中，在生成所述空间结构特征信息之后，还包括：

根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点；

将所述赖氨酸节点配置在所述空间结构特征信息中的前方。

在一实施例中，在训练完成所述卷积模型后，还包括：

获取非泛素化正确率和所述距离阈值的优化范围；

从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率，利用贝叶斯优化迭代计算可泛素化正确率；

在满足预设的迭代条件后，提取与最高的所述可泛素化正确率对应的所述距离阈值，以对所述距离阈值进行优化。

第二方面，本申请提出一种泛素化位点的识别系统，包括：

获取模块，用于获取蛋白质的三维结构信息；

提取模块，用于从所述三维结构信息提取出空间结构特征信息；

处理模块，用于基于训练完成的卷积模型对所述空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息；所述卷积模型通过蛋白质训练集训练完成；

判定模块，用于若所述赖氨酸特征信息与预设的分类条件匹配，则对应的所述赖氨酸节点为泛素化位点。

在一实施例中，所述系统还包括训练模块，用于获取所述蛋白质训练集；所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息；

计算模块，用于将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息；参数模块，用于基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数；

损失值模块，用于基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值；

判断模块，用于基于所述损失值和预设的训练条件判断是否完成训练；所述判断模块还用于在未完成所述卷积模型的训练时，迭代计算所述损失值；在完成所述卷积模型的训练时，停止迭代计算所述损失值。

在一实施例中，所述计算模块包括第一卷积层单元，用于通过第一卷积层对所述蛋白质样本信息进行计算，得到第一特征矩阵；所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵；

第二卷积层单元，用于通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算，得到第二特征矩阵；

自注意力机制层单元，用于通过自注意力机制层对所述第二特征矩阵进行计算，得到第三特征矩阵；

第三卷积层单元，用于通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算，得到蛋白质训练信息；

筛选单元，用于从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。

在一实施例中，所述参数模块包括样本单元，用于统计所述赖氨酸训练信息的数量得到样本数量；

第一赖氨酸单元，用于统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量；

第二赖氨酸单元，用于统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量；

第一矩阵单元，用于基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵；

第二矩阵单元，用于基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵；

总量单元，用于将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量；

统计单元，用于根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量，得到所述权参数中的可泛素化总数和非泛素化总数。

在一实施例中，所述提取模块包括识别单元，用于基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子；

位置单元，用于从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息；

距离单元，用于基于所述位置信息计算各所述氨基酸间的距离信息；

生成单元，用于在所述距离信息小于预设的距离阈值时，判定对应的两个所述氨基酸为连接关系，以生成所述空间结构特征信息。

在一实施例中，所述提取模块还包括节点单元，用于根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点；

配置单元，用于将所述赖氨酸节点配置在所述空间结构特征信息中的前方。

在一实施例中，所述系统还包括条件模块，用于获取非泛素化正确率和所述距离阈值的优化范围；

正确率模块，用于从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率，利用贝叶斯优化迭代计算可泛素化正确率；

优化模块，用于在满足预设的迭代条件后，提取与最高的所述可泛素化正确率对应的所述距离阈值，以对所述距离阈值进行优化。

第三方面，本申请提出一种泛素化位点的识别装置，包括存储器和处理器，所述存储器中存储有泛素化位点的识别方法，所述处理器在执行所述泛素化位点的识别方法时采用上述所述方法。

第四方面，本申请提出一种存储介质，其存储有能够被处理器加载并执行上述所述方法的计算机程序。

实施本申请实施例，将具有如下有益效果：

利用蛋白质的三维结构信息得到空间结构特征信息，而后使用卷积模型得到赖氨酸特征信息，进而判断对应的赖氨酸节点是否能够泛素化。由于考虑了蛋白质的三维结构，而非使用蛋白质的二维序列，提高了泛素化位点的识别精度，同时也提高了泛素化位点的识别质量。此外，卷积模型是通过蛋白质训练集训练完成的，而非通过等比例的可泛素化赖氨酸与非泛素化赖氨酸的训练集训练完成的，提高了卷积模型的训练效果和卷积模型的计算结果精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中泛素化位点的识别方法的流程图。

图2为一个实施例中将空间结构特征信息图像化的示意图。

图3为一个实施例中泛素化位点的识别方法中训练卷积模型的流程图。

图4为一个实施例中泛素化位点的识别方法中计算赖氨酸训练信息的流程图。

图5为一个实施例中泛素化位点的识别方法的实施原理流程图。

图6为一个实施例中泛素化位点的识别系统的结构框图。

图7为一个实施例中泛素化位点的识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例公开一种泛素化位点的识别方法，图1所示，包括：

S101、获取蛋白质的三维结构信息。

蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质。氨基酸是蛋白质的基本组成单位，一个蛋白质中包含有多个氨基酸；氨基酸又分为多个种类，赖氨酸是氨基酸的一种。

三维结构信息即蛋白质的三维结构，由于不是所有的蛋白质的三维结构信息均是已知的，因此，在一实施例中，获取蛋白质的三维结构信息的步骤包括：

S1011、在蛋白质的三维结构信息为未知时，使用蛋白质三维结构预测程序对蛋白质进行处理，得到格式为PDB(protein data bank)的三维结构信息；

S1012、在蛋白质的三维结构信息为已知时，获取三维结构信息。

其中，在步骤S1011中，蛋白质三维结构预测程序包括但不限于Alphafold2。PDB是生物信息学中存储表示三维蛋白质的一种文件格式。在步骤S1012中，由于三维结构信息为已知，当前执行主体可以直接接收传输来的三维结构信息，也可以到预设的存储路径下主动调取蛋白质的三维结构信息。需要说明的是，在本实施例中，存储三维结构信息的文件格式均为PDB。

S102、从三维结构信息提取出空间结构特征信息。

其中，空间结构特征信息包含有蛋白质的三维特性，相比于现有技术中使用蛋白质序列信息，识别泛素化位点的过程考虑的更为全面，有助于提高识别精度。S103、基于训练完成的卷积模型对空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息。

将空间结构特征信息作为训练完成的卷积模型的输入参数，求得赖氨酸节点的赖氨酸特征信息。为了更好地理解，如图2所示，在将空间结构特征信息图像化后，即可得到多个氨基酸节点，多个氨基酸节点中包含有赖氨酸节点。需要说明的是，训练完成的卷积模型的输入参数是空间结构特征信息，而非图像化后的空间结构特征信息，图2仅为了便于理解的示意图。

在一实施例中，卷积模型通过蛋白质训练集训练完成。相比于现有技术中使用数量比为1:1的可泛素化赖氨酸和非泛素化赖氨酸，蛋白质训练集代表将整个蛋白质作为训练样本对卷积模型进行训练，使卷积模型的输入更贴近真实蛋白质的情况，提高了训练完成的卷积模型的质量和计算结果真实度。

如图1所示，S104、若赖氨酸特征信息与预设的分类条件匹配，则对应的赖氨酸节点为泛素化位点。

每个赖氨酸特征信息对应一个赖氨酸节点，每个赖氨酸节点对应蛋白质中的一个赖氨酸。在赖氨酸特征信息与分类条件匹配时，证明蛋白质中对应的赖氨酸能够进行泛素化，从而识别出该赖氨酸为泛素化位点。通过蛋白质的三维结构信息得到具有蛋白质三维特性的空间结构特征信息，再利用基于蛋白质训练集训练的卷积模型得到赖氨酸特征信息，对蛋白质中泛素化位点进行识别，考虑的更全面，得到的赖氨酸特征信息精度更高，提高了蛋白质的泛素化位点的识别精度。

其中，在一实施例中，分类条件为0-1之间一个数值。具体的，在一应用场景中，分类条件为赖氨酸特征信息中包含的数值是否大于0.6，若大于0.6，判定对应的赖氨酸为可泛素化位点；否则为非泛素化位点。

在其他实施例中，分类条件根据赖氨酸特征信息制定。从赖氨酸特征信息中能够得到赖氨酸特征，再根据赖氨酸特征将对应的赖氨酸分为两类，一类为可泛素化，一类为非泛素化。

在本申请另一实施例中，为了进一步限定及说明，如图3所示，通过蛋白质训练集训练卷积模型的步骤包括：

S201、获取蛋白质训练集；蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息。

在一实施例中，训练卷积模型时，设置有多批次的蛋白质训练集，每批次中包含有多个蛋白质训练集；每个蛋白质训练集中包含有多组蛋白质样本信息和赖氨酸样本信息。

其中，为了便于理解，在实施例中，用于训练卷积模型的蛋白质称为样本蛋白质。样本蛋白质中包含的赖氨酸数量以及可泛素化的赖氨酸均为已知量。蛋白质样本信息指利用样本蛋白质得到的空间结构特征信息；赖氨酸样本信息指基于样本蛋白质中赖氨酸的数量构建的矩阵信息。

S202、将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息。

在一实施例中，赖氨酸训练信息指利用卷积模型计算得到的样本蛋白质中赖氨酸数量，并基于赖氨酸数量构建的矩阵信息。为了便于理解，赖氨酸样本信息是基于样本蛋白质中实际的赖氨酸数量构建的矩阵信息；赖氨酸训练信息是通过卷积模型计算得到的样本蛋白质中的赖氨酸数量，进而构建的矩阵信息。即赖氨酸样本信息是真实值，赖氨酸训练信息是计算值。

S203、基于赖氨酸训练信息和赖氨酸样本信息计算得到权参数和训练特征参数。

其中，权参数和训练特征参数用于计算卷积模型的损失函数的值，即损失值。由于训练卷积模型时输入参数为蛋白质样本信息，即输入参数相当于样本蛋白质，因此计算权参数，以对损失函数进行加权，提高损失值的计算精度，从而提高训练完成的卷积模型的精度。

S204、基于权参数、训练特征参数和预设的加权损失函数模型计算得到损失值。

S205、基于损失值和预设的训练条件判断是否完成训练。

在未完成卷积模型的训练时，迭代计算损失值；在完成卷积模型的训练时，停止迭代计算损失值。

为了提高卷积模型的计算精度，将蛋白质样本信息作为卷积模型的训练输入参数，使蛋白质样本信息中包含的可泛素化的赖氨酸数量和非泛素化的赖氨酸数量与实际蛋白质的情况相符。相比于现有技术中根据可泛素化的赖氨酸数量，从非泛素化的赖氨酸中选取等量的赖氨酸，使数量比例达成1:1的方式，现有技术中的非泛素化的赖氨酸数量容易与实际不符。本实施例通过设定加权损失函数模型，计算权参数和训练特征参数，计算得到损失值，评估卷积模型的训练进度，提高了卷积模型的训练效率和训练质量。

在一实施例中，训练条件为迭代计算500次损失值时，判定完成训练。在另一实施例中，训练条件为连续20次得到的损失值不再减小，判定完成训练。在其他实施例中，也可将迭代计算500次和连续20次损失值不再减小共同作为训练条件，满足其中一个，判定完成训练。

在本申请另一实施例中，为了进一步限定及说明，如图4所示，步骤将蛋白质样本信息作为卷积模型的输入参数计算得到赖氨酸训练信息包括：

S301、通过第一卷积层对蛋白质样本信息进行计算，得到第一特征矩阵。

其中，第一卷积层是卷积模型的第一层结构；蛋白质样本信息包括训练邻接矩阵和训练特征矩阵。在一实施例中，第一卷积层为GAT层，即Graph Attention Layer，用GAT Layer1(128)表示；蛋白质样本信息用

表示；其中

为训练邻接矩阵；

为训练特征矩阵；L是蛋白质氨基酸数量，即样本蛋白质中的氨基酸数量；C是特征维度，在本实施例中使用ESM-1b提取，值为1280。

需要说明的是，在同一批次的蛋白质训练集中包含有多组蛋白质样本信息和赖氨酸样本信息时，将该批次中的所有蛋白质样本信息作为第一卷积层的输入参数进行计算，得到对应数量的第一特征矩阵。在计算L和C时，均根据对应的蛋白质样本信息进行计算，L不是同批次中所有蛋白质样本信息包含的氨基酸数量总和。由于不同样本蛋白质的氨基酸数量不同，因此计算得到的L也不同。

S302、通过第二卷积层对训练邻接矩阵和第一特征矩阵进行计算，得到第二特征矩阵。

其中，第二卷积层是卷积模型的第二层结构。在一实施例中，第二卷积层为GAT层，用GAT Layer2(128)表示；将训练邻接矩阵

和第一特征矩阵作为第二卷积层的输入参数，计算得到第二特征矩阵。

S303、通过自注意力机制层对第二特征矩阵进行计算，得到第三特征矩阵。

其中，自注意力机制层是卷积模型的第三层结构。在一实施例中，自注意力机制层用Self-attention Layer表示。自注意力机制层的输入参数为第二特征矩阵，输出参数为第三特征矩阵。

S304、通过第三卷积层对训练邻接矩阵和第三特征矩阵进行计算，得到蛋白质训练信息。

其中，第三卷积层是卷积模型的第四层结构。在一实施例中，第三卷积层为GAT层，用GAT Layer3(1)表示；需要说明的是，第三卷积层的通道数为1，即蛋白质训练信息为y _pred，

在一实施例中，为了便于后期对泛素化位点进行识别，在第三卷积层输出蛋白质训练信息后，利用激活函数将蛋白质训练信息中的数值缩减至0-1之间。具体的，在一应用场景中，激活函数为sigmoid。

需要说明的是，在同批次的蛋白质训练集中包含有多组蛋白质样本信息和赖氨酸样本信息时，卷积模型会输出与组数等量的蛋白质训练信息。在利用激活函数对各个蛋白质训练信息进行计算处理后，执行步骤S305。

S305、从蛋白质训练信息中筛选出赖氨酸训练信息。

在一实施例中，每个蛋白质样本信息中的赖氨酸均被排在所有氨基酸节点的最前方，例如一个样本蛋白质共包含有1000个氨基酸节点，其中包含有10个赖氨酸节点。由于样本蛋白质的所有信息均为已知量，且蛋白质样本信息实际是一个矩阵，因此在将样本蛋白质转换成蛋白质样本信息之后，将10个赖氨酸节点排列在矩阵的前端，而后再将蛋白质样本信息作为第一卷积层的输入参数进行计算。使蛋白质训练信息中排在前10的氨基酸节点均为赖氨酸节点。如此，即可直接筛选出赖氨酸训练信息。

在其他实施例中，通过预设的赖氨酸节点标识从蛋白质训练信息中筛选出赖氨酸节点，从而获得对应的赖氨酸训练信息。具体的，赖氨酸节点标识包括但不限于元素种类和中心碳原子的位置信息。

在一实施例中，蛋白质训练信息有多个，则赖氨酸训练信息有多个，为了便于区分，赖氨酸训练信息表示为y _pred-part，

其中，L′ _i为第i个赖氨酸训练信息中的赖氨酸数量。

通过设置第一卷积层和第二卷积层，使蛋白质样本信息中的各个氨基酸节点能够学习到更多有关其他节点的特征；在利用自注意力机制层进一步扩大每个氨基酸节点的学习范围，提高了卷积模型的训练精度。

在本申请另一实施例中，为了进一步限定及说明，步骤基于赖氨酸训练信息和赖氨酸样本信息计算得到权参数和训练特征参数包括：

S401、统计赖氨酸训练信息的数量得到样本数量。

在一实施例中，同批次包含多组蛋白质样本信息和赖氨酸样本信息时，计算得到多个赖氨酸训练信息，且赖氨酸训练信息的数量与蛋白质样本信息的数量相同。因此，赖氨酸训练信息的数量即代表同一批次中蛋白质样本信息的数量；在本实施例中，样本数量用batchsize表示；则有i＝1,2，……，batchsize。

需要说明的是，由于样本蛋白质、蛋白质样本信息和赖氨酸样本信息的数量相同，因此步骤S401也可以替换为：统计赖氨酸样本信息的数量得到样本数量。为了便于理解，在训练卷积模型时，设置了300批次的蛋白质训练集，每批次中包含有100组蛋白质样本信息和赖氨酸样本信息。则在计算当前批次的样本数量时，统计当前批次中的蛋白质样本信息的数量或赖氨酸样本信息的数量均可得到，batchsize＝100。

S402、统计各赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量。

S403、统计各赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量。

需要说明的是，第一赖氨酸数量由训练中的卷积模型计算得到，第二赖氨酸数量是样本蛋白质中实际的赖氨酸数量，两者可能相同，可能不同。且第一赖氨酸数量是同批次中所有赖氨酸训练信息中赖氨酸节点求和得到的总数，即第一赖氨酸数量＝L′ ₁+L′ ₂+...+L′ _batch size；同理，第二赖氨酸数量是所有赖氨酸样本信息中赖氨酸节点求和得到的总数，即第二赖氨酸数量＝L″ ₁+L″ ₂+...+L″ _batch size。

S404、基于样本数量和第一赖氨酸数量构建得到训练特征参数中的第一二维矩阵。

需要说明的是，在同批次中包含有多组蛋白质样本信息和赖氨酸样本信息时，由于每个蛋白质样本信息中包含的赖氨酸节点数量不同，因此计算得到的各个赖氨酸训练信息中包含的赖氨酸节点数量不同，无法将同批次计算得到的所有赖氨酸训练信息融合为一个三维矩阵。因此，利用样本数量将同批次中的赖氨酸训练信息转换为第一二维矩阵

S405、基于样本数量和第二赖氨酸数量构建得到训练特征参数中的第二二维矩阵。

与步骤S404同理，每个赖氨酸样本信息与蛋白质样本信息对应，因此同批次中的赖氨酸样本信息包含的赖氨酸数量可能相同，可能不同，无法构成三维矩阵。利用样本数量将同批次中的赖氨酸样本信息转换为第二二维矩阵

S406、将第一赖氨酸数量和第二赖氨酸数量求和得到权参数中的赖氨酸总量。

S407、根据赖氨酸训练信息和预设的分数阈值统计赖氨酸训练信息以及赖氨酸样本信息中可泛素化的赖氨酸数量，得到权参数中的可泛素化总数和非泛素化总数。

在一实施例中，利用激活函数将赖氨酸训练信息中与赖氨酸节点对应的数值转换为0-1之间的分数后，根据分数阈值，判定大于分数阈值的数值对应的赖氨酸节点为可泛素化位点，小于或等于分数阈值的数值对应的赖氨酸节点为非泛素化位点。再统计所有可泛素化的赖氨酸数量以及非泛素化的赖氨酸数量，即可得到可泛素化总数和非泛素化总数。在本实施例中，赖氨酸总量用N表示；可泛素化总数用N ⁺表示；非泛素化总数用N ^-表示。

权参数和训练特征参数的计算过程简单，不易出错，保证了损失值的准确度。

在一实施例中，加权损失函数模型为：

其中，loss为损失值；N为赖氨酸总量；N ⁺为可泛素化总数；N ^-为非泛素化总数；y _truet为第二二维矩阵；y _pred-part为第一二维矩阵。

通过转换的方式，基于样本数量和赖氨酸数量构建第一二维矩阵和第二二维矩阵，解决了由于输入的样本蛋白质中含有的赖氨酸数量不同无法构成三维矩阵的问题，实现了损失值的精确计算。同时简单的转换过程和权参数的计算过程，有利于节约资源。

在本申请另一实施例中，为了进一步限定及说明，步骤从三维结构信息提取出空间结构特征信息包括：

S501、基于预设的中心碳原子标识识别三维结构信息中各个氨基酸的中心碳原子。

三维结构信息包含有氨基酸种类、氨基酸组成元素、位置信息等；其中，氨基酸种类例如MET、ARG、LEU，氨基酸组成元素例如氮、碳、氧、中心碳原子等。其中，中心碳原子用CA表示。由于每个氨基酸都有一个中心碳原子CA，称为Ca原子。因此，将三维结构信息中各个中心碳原子作为对应氨基酸的代表。在识别中心碳原子时，利用中心碳原子标识进行识别即可。

S502、从三维结构信息中提取与各个中心碳原子对应的位置信息。

将中心碳原子的位置信息作为对应氨基酸的位置信息。

S503、基于位置信息计算各氨基酸间的距离信息。

在一实施例中，位置信息是一个坐标，通过位置信息可计算得到两个氨基酸之间的距离，即距离信息。

S504、在距离信息小于预设的距离阈值时，判定对应的两个氨基酸为连接关系，以生成空间结构特征信息。

其中，距离阈值用D表示，由于空间结构特征信息的关键为氨基酸之间的连接关系。因此距离阈值D的取值尤为重要，决定了空间结构特征信息的精度。需要说明的是，判定两个氨基酸之间为连接关系后，会形成由一个氨基酸指向相连氨基酸的向量，从而形成矩阵。即空间结构特征信息包含邻接矩阵和特征矩阵。

通过中心碳原子的位置信息判定蛋白质中各个氨基酸之间的连接关系，从而生成空间结构特征信息。使空间结构特征信息中包含有蛋白质的所有氨基酸，再以空间结构特征信息作为训练完成的卷积模型的输入参数，识别可泛素化位点，提高了识别精度。

在本申请另一实施例中，为了进一步限定及说明，在生成空间结构特征信息之后，所述识别方法还包括：

S601、根据赖氨酸标识识别空间结构特征信息中的赖氨酸节点。

在一实施例中，将代表氨基酸种类为赖氨酸的字母作为赖氨酸标识，识别出赖氨酸节点。

S602、将赖氨酸节点配置在空间结构特征信息中的前方。

空间结构特征信息为有行有列的阵列，将懒氨酸节点排在前列。

通过改变空间结构特征信息中赖氨酸节点的位置，方便后续查找赖氨酸节点的操作，提高效率。

在本申请另一实施例中，为了进一步限定及说明，在训练完成卷积模型后，所述识别方法还包括：

S701、获取非泛素化正确率和距离阈值的优化范围。

其中，训练卷积模型使用的蛋白质为样本蛋白质，由于样本蛋白质中氨基酸的数量、赖氨酸的数量以及赖氨酸中可泛素化的数量均为已知量。因此将样本蛋白质作为训练完成的卷积模型的输入参数，即可得到训练完成的卷积模型的计算结果。再将计算结果与样本蛋白质的实际结果比对，即可计算出由训练完成的卷积模型计算的非泛素化位点的正确率。在一实施例中，设定非泛素化正确率为0.95；距离阈值D的优化范围为[0，20]。

S702、从优化范围中选择距离阈值并结合非泛素化正确率，利用贝叶斯优化迭代计算可泛素化正确率。

在一实施例中，根据贝叶斯优化原理，从优化范围内选择超参数的具体参数值；其中，超参数指距离阈值。根据超参数的具体参数值转化样本蛋白质的三维结构信息，得到空间结构特征信息。将空间结构特征信息作为训练完成的卷积模型的输入参数，最后得到样本蛋白质的可泛素化数量和非泛素化数量。将非泛素化数量与样本蛋白质真实的非泛素化数量比对，计算得到非泛素化正确率。若非泛素化正确率大于0.95，则计算可泛素化正确率。并将该次选择的超参数的具体参数值记录到已评价集合R中。相应的，根据优化范围和已评价集合R得到未评价集合R′。

从未评价集合中选择超参数的具体参数值，重复上述步骤，迭代计算可泛素化正确率。

S703、在满足预设的迭代条件后，提取与最高的可泛素化正确率对应的距离阈值，以对距离阈值进行优化。

在一实施例中，迭代条件为迭代20次。即当迭代20次后，停止迭代计算可泛素化正确率。此时存储有20个可泛素化正确率；每个可泛素化正确率对应的具体参数值均保存在已评价集合中。从已评价集合中提取该具体参数值作为距离阈值的值，完成对距离阈值的优化。

通过优化距离阈值，进一步提高了泛素化位点识别的精度。

在一应用场景中，优化距离阈值的过程如下：

将目标函数建模为一个高斯过程

作为先验知识，其中

δ为超参数。假设存在一个已评价集合R＝{r ₁，r ₂...}和未评价集合R′＝{r′ ₁，r′ ₂，...}。已知评价集合中存放的是已知点(存放的距离阈值知道其对应的准确率)，未评价集合存放的是还未经过验证的候选超参。基于该先验知识推导出R′的均值u(r′)和方差σ(r′)。

u(r′)＝K _R′RK _R′R ^-1o(R)

σ(r′)＝K _R′R′-K _R′RK _R′R ^-1K _RR′

其中K _RR，K _R′R＝K _RR′和K _R′R′为对应协方差矩阵，得到已知评价集和未知评价集的分布后，通过采集函数α _EI来选定下一个验证迭代的r′，其中采集函数α _EI如下：

其中o(r _best)是已评价集合R中的最优解的准确率，u(·)为均值函数，

为累积分布函数，σ(·)为标准正态分布的概率密度函数。

按上述的流程不断迭代更新已知评价集合R，得出较优的距离阈值D。

本申请实施例公开的一种泛素化位点的识别方法的实施原理为：

如图5所示，在获得蛋白质的三维结构信息后，将三维结构信息转换为空间结构特征信息。空间结构特征信息包含邻接矩阵和特征矩阵。将空间结构特征信息作为训练完成的卷积模型的输入参数，得到训练完成的卷积模型输出的结果，即赖氨酸特征信息。赖氨酸特征信息为仅关于赖氨酸的矩阵，矩阵的行数为赖氨酸的数量，列数为1。即得到由数量与赖氨酸数量相等的若干数值构成的矩阵。数值经过激活函数处理后范围在0-1之间。而后根据分类条件判断各个数值是否匹配，若数值小于0.5，则与数值对应的赖氨酸为非泛素化位点；若数值大于或等于0.5，则与数值对应的赖氨酸为可泛素化位点，完成对泛素化位点的识别。

在泛素化位点的识别过程中，考虑了蛋白质的三维特性，使泛素化位点的识别更为精准。在训练卷积模型时，使用整个蛋白质作为卷积模型的输入参数，提高了卷积模型的数据处理精度，进一步提高了泛素化位点的识别精度。此外，在训练卷积模型过程中，求得权参数，利用权参数计算得到损失值，保证了损失值的计算准确度，从而有助于保证卷积模型的训练效率，减少迭代次数。

本申请实施例还公开一种泛素化位点的识别系统，如图6所示，包括获取模块1，用于获取蛋白质的三维结构信息；

提取模块2，用于从所述三维结构信息提取出空间结构特征信息；

处理模块3，用于基于训练完成的卷积模型对所述空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息；所述卷积模型通过蛋白质训练集训练完成；

判定模块4，用于若所述赖氨酸特征信息与预设的分类条件匹配，则对应的所述赖氨酸节点为泛素化位点。

在一实施例中，所述提取模块2包括识别单元，用于基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子；

在一实施例中，所述提取模块2还包括节点单元，用于根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点；

获取模块获得三维结构信息后，通过提取模块将三维结构信息转换为空间结构特征信息，再经过处理模块得到赖氨酸特征信息。由于利用了蛋白质的三维特性，提高了泛素化位点的识别精度。第一矩阵单元和第二矩阵单元利用样本数量、第一赖氨酸数量和第二赖氨酸数量，分别构建出第一二维矩阵和第二二维矩阵，实现了训练特征参数的计算，过程简单，利于节约计算资源。优化模块对距离阈值进行优化，提高了空间结构特征信息的转换精度，从而提高了泛素化位点的识别精度和质量。

这里需要指出的是：以上应用于泛素化位点的识别系统实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本申请泛素化位点的识别系统实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例还公开一种存储介质，存储有能够被处理器加载并执行上述方法的计算机程序。

本申请实施例还公开一种泛素化位点的识别装置，如图7所示，包括一个处理器100、至少一个通信总线200、用户接口300、至少一个外部通信接口400和存储器500。其中，通信总线200配置为实现这些组件之间的连接通信。其中，用户接口300可以包括显示屏，外部通信接口400可以包括标准的有线接口和无线接口。其中，存储器500中存储有泛素化位点的识别方法。其中，处理器100用于在执行存储器500中存储的泛素化位点的识别时采用上述方法。

以上应用于泛素化位点的识别装置和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请泛素化位点的识别装置和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种泛素化位点的识别方法，其中，包括：

获取蛋白质的三维结构信息；

从所述三维结构信息提取出空间结构特征信息；

基于训练完成的卷积模型对所述空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息；所述卷积模型通过蛋白质训练集训练完成；

若所述赖氨酸特征信息与预设的分类条件匹配，则对应的所述赖氨酸节点为泛素化位点。
如权利要求1所述的泛素化位点的识别方法，其中，通过所述蛋白质训练集训练所述卷积模型的步骤包括：

获取所述蛋白质训练集；所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息；

将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息；

基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数；

基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值；

基于所述损失值和预设的训练条件判断是否完成训练；

在未完成所述卷积模型的训练时，迭代计算所述损失值；在完成所述卷积模型的训练时，停止迭代计算所述损失值。
如权利要求2所述的泛素化位点的识别方法，其中，所述将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息的步骤包括：

通过第一卷积层对所述蛋白质样本信息进行计算，得到第一特征矩阵；所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵；

通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算，得到第二特征矩阵；

通过自注意力机制层对所述第二特征矩阵进行计算，得到第三特征矩阵；

通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算，得到蛋白质训练信息；

从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。
如权利要求2所述的泛素化位点的识别方法，其中，所述基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数的步骤包括：

统计所述赖氨酸训练信息的数量得到样本数量；

统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量；

统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量；

基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵；

基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵；

将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量；

根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量，得到所述权参数中的可泛素化总数和非泛素化总数。
如权利要求1所述的泛素化位点的识别方法，其中，所述从所述三维结构信息提取出空间结构特征信息的步骤包括：

基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子；

从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息；

基于所述位置信息计算各所述氨基酸间的距离信息；

在所述距离信息小于预设的距离阈值时，判定对应的两个所述氨基酸为连接关系，以生成所述空间结构特征信息。
如权利要求5所述的泛素化位点的识别方法，其中，在生成所述空间结构特征信息之后，还包括：

根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点；

将所述赖氨酸节点配置在所述空间结构特征信息中的前方。
如权利要求5所述的泛素化位点的识别方法，其中，在训练完成所述卷积模型后，还包括：

获取非泛素化正确率和所述距离阈值的优化范围；

从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率，利用贝叶斯优化迭代计算可泛素化正确率；

在满足预设的迭代条件后，提取与最高的所述可泛素化正确率对应的所述距离阈值，以对所述距离阈值进行优化。
一种泛素化位点的识别系统，其中，包括：

获取模块，用于获取蛋白质的三维结构信息；

提取模块，用于从所述三维结构信息提取出空间结构特征信息；

处理模块，用于基于训练完成的卷积模型对所述空间结构特征信息进行处理，得到赖氨酸节点的赖氨酸特征信息；所述卷积模型通过蛋白质训练集训练完成；

判定模块，用于若所述赖氨酸特征信息与预设的分类条件匹配，则对应的所述赖氨酸节点为泛素化位点。
一种泛素化位点的识别装置，包括存储器和处理器，其中，所述存储器中存储有泛素化位点的识别方法，所述处理器在执行所述泛素化位点的识别方法时采用如权利要求1-7中任一项所述的方法。
一种存储介质，其中，所述存储介质存储有能够被处理器加载并执行如权利要求1-7中任一项所述方法的计算机程序。