WO2023125114A1

WO2023125114A1 - 蛋白质功能模块的挖掘方法、计算机设备和存储介质

Info

Publication number: WO2023125114A1
Application number: PCT/CN2022/140090
Authority: WO
Inventors: 陈宏威; 吴红艳; 纪超杰; 蔡云鹏
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-12-29
Filing date: 2022-12-19
Publication date: 2023-07-06
Also published as: WO2023125114A9; CN116417060A

Abstract

本发明公开了一种蛋白质功能模块的挖掘方法、计算机设备和计算机可读存储介质，基于节点级别自适应的图卷积网络（NASGC）模型，通过自适应机制使各个蛋白质节点分别学习高阶和低阶邻居信息，学习得到蛋白质节点的向量表示信息中，在蛋白质节点基因本体属性特征上融合了高阶和低阶的结构信息，得到更加泛化的蛋白质节点表示，由此能够从蛋白质相互作用网络挖掘出蛋白质复合体以及蛋白质信号通路，并且挖掘生成的蛋白质复合体更符合真实情况，提升对于蛋白质功能识别的准确度。

Description

蛋白质功能模块的挖掘方法、计算机设备和存储介质

技术领域

本发明涉及系统生物学技术领域，具体涉及一种蛋白质功能模块的挖掘方法、计算机设备和计算机可读存储介质。

背景技术

蛋白质功能往往是通过蛋白质之间或核酸之间的相互作用而表现出来，这种相互作用存在于机体细胞的生命活动过程中，相互交叉形成蛋白质相互作用(protein-protein interaction，PPI)网络。在一个PPI网络中，通过相互作用完成某一特定分子进程的蛋白质集合称为蛋白质功能模块，例如蛋白质复合体或蛋白质信号通路。蛋白质功能模块的挖掘不仅可以了解细胞的功能组织结构和执行生理功能的方式，而且还有助于人们理解各种生物学过程、揭示疾病的发生机制以及寻找新的药物靶标。因此，挖掘蛋白质相互作用的功能模块具有重要的意义。

基于蛋白质相互作用网络，现有技术往往是通过识别多个小蛋白分子组合成的蛋白质复合体，从而预测蛋白质功能。蛋白质复合体是由多个小蛋白分子紧密连接在一起，两两相互作用，在网络结构中呈现稠密状态，往往通过浅层的图神经网络算法，即可很好学习相关结构信息，从而识别出蛋白质复合体。然而在蛋白质相互作用网络，仍存在多个小蛋白质分子呈现链状形态，组合成的蛋白质信号通路，相对于复合体，蛋白质信号通路为稀疏状态，在网络结构中需要高阶信息才能识别。

文章《Protein complexes identification based on go attributed network embedding[J].2018,Bo Xu》公开了一种识别蛋白质复合体的方法，基于加速属性网络嵌入模型(AANE)进行学习蛋白质节点表示，通过蛋白质相互作用网络找到所有极大团结构(三个蛋白质节点以上)，通过蛋白质节点表示的相似度计算极大团的密度，迭代多次，每次进行扩展极大团结构，根据加入新蛋白质节点后整体的密度增加原则，获得蛋白质复合体。但该方法基于加速属性网络嵌入模型(AANE)学习了蛋白质节点一阶邻居的结构信息，仅适合挖掘处于稠密子图的蛋白质复合体，而忽略了存在在蛋白质相互作用网络中的蛋白质信号通路，两者同样是发现蛋白质功能的重要依据。

发明内容

有鉴于此，本发明提供了一种蛋白质功能模块的挖掘方法、计算机设备和计算机可读存储介质，以解决如何从蛋白质相互作用网络挖掘出蛋白质复合体以及蛋白质信号通路的问题。

为了解决上述技术问题，本发明的一方面是提供一种蛋白质功能模块的挖掘方法，其包括步骤：

S1、将蛋白质相互作用网络输入节点级别自适应图卷积网络模型中学习训练，使各个蛋白质节点学习高阶和低阶邻居信息，获得蛋白质节点向量表示；

S2、基于所述蛋白质节点向量表示，通过K-means聚类算法进行聚类，得到蛋白质节点的聚类结果软标签，根据所述聚类结果软标签设定损失函数并进行反向传播，更新模型的网络参数；

S3、基于以上步骤S1至步骤S2进行迭代计算至模型收敛或达到最大迭代次数，获得最后一次迭代计算的最终的蛋白质节点向量表示以及聚类结果；

S4、基于所述最终的蛋白质节点向量表示，通过余弦相似度计算公式计算蛋白质节点的相似度，构建加权邻接矩阵；

S5、从所述蛋白质相互作用网络筛选出蛋白质复合体基础结构并基于所述加权邻接矩阵的计算进行扩展，获得蛋白质复合体；

S6、从所述聚类结果的每个聚类簇中筛选出蛋白质信号通路基础结构并基于所述加权邻接矩阵的计算进行扩展，获得蛋白质信号通路。

优选的方案中，所述步骤S1包括：

S11、获取蛋白质相互作用网络，构建相应的邻接矩阵A和基因本体属性特征矩阵X；其中，所述蛋白质相互作用网络的节点表示为v＝{v ₁，v ₂，…，v _n}，所述基因本体属性特征矩阵X＝{x ₁，x ₂，...，x _n} ^T，n为蛋白质节点总数，x _i的维度为d，x和d均为正整数，i＝1～n；

S12、基于所述邻接矩阵A计算归一化拉普拉斯矩阵Ls，构建低通滤波器G；所述归一化拉普拉斯矩阵Ls为Ls＝I-D ^-1/2AD ^-1/2，所述低通滤波器G为

其中，D为所述邻接矩阵A的度矩阵D＝diag(d ₁，d ₂，...，d _n)，d _i表示节点v _i的边数，Λ是矩阵Ls特征值的对角矩阵，I是矩阵Ls特征值全为 1的对角矩阵，U是矩阵Ls的特征向量；

S13、设置迭代卷积层数k＝t，令t从0至M循环进行以下步骤S14至S18，M表示卷积层数的最大值，取值为正整数；

S14、使用低通图滤波器G与基因本体属性特征矩阵X执行第k层卷积操作，得到蛋白质相互作用网络的当前卷积层的图表示G ^kX，计算公式如下：

S15、基于所述当前卷积层的图表示G ^kX，计算蛋白质相互作用网络中各个蛋白质节点的状态值，计算公式如下：

其中，[G ^kX] ⁱ表示第k层卷积操作时节点v _i的图表示，

表示节点v _i在第k-1层卷积操作时的状态值，

表示节点v _i在第k层卷积操作时状态值，S()为一个非线性变换函数；

S16、基于所述状态值计算评估各个节点停止进行迭代卷积的概率值；其中，所述概率值的计算公式如下：

其中，W _h和b _h是所述节点级别自适应图卷积网络模型的可学习网络参数；σ表示激活函数；

表示节点v _i在第k层卷积操作时的概率值；

S17、设置概率值阈值ε，对于每一个节点v _i，计算其前k层卷积的累积概率值并与所述阈值ε比较：若累计概率值达到所述阈值ε以上，则对节点v _i停止迭代卷积计算并记录其卷积层数为N _i＝k’；若卷积操作层数k迭代至M，累计概率值仍小于所述阈值ε，则节点v _i的卷积层数为N _i＝M；所述节点v _i停止迭代卷积的卷积层数N _i表示如下：

S18、计算获得各个节点v _i的最后一层卷积操作时的概率值，计算公式如下：

S19、对于每一个节点v _i，将其前N _i层卷积操作的图表示与概率值线性组合，得到蛋白质节点的向量表示：

优选的方案中，所述步骤S2包括：

S21、设定聚类簇的数量m，m为正整数；

S22、基于所述蛋白质节点向量表示，通过K-means聚类算法进行聚类，得到蛋白质节点的聚类结果软标签；

S23、根据所述聚类结果软标签，设定损失函数L为：

其中，λ _tig表示第一损失系数，λ _sep表示第二损失系数，λ _tig和λ _sep均为常数，L _tig表示簇内节点之间的相似性，L _sep表示簇间节点之间的相似性；

其中，L _tig的计算公式如下：

其中，L _sep的计算公式如下：

S24、根据所述损失函数进行反向传播，更新所述节点级别自适应图卷积网络模型的网络参数；

所述步骤S3包括：基于预先设定的最大迭代次数，重复步骤S1至步骤S2 进行迭代计算至模型收敛或达到最大迭代次数，在最后一次迭代计算时于步骤S1得到最终的蛋白质节点向量表示，于步骤S2得到最终的聚类结果C＝{C ₁，C ₂，...，C _m}，形成m个聚类簇。

优选的方案中，所述聚类簇的数量m的取值按照以下方式设定：

基于所述蛋白质相互作用网络，设置m＝r，通过K-means聚类算法进行聚类得到C＝{C ₁，C ₂，...，C _r}；其中r从2至R取值，R为正整数；

对于每一次m的具体取值，通过手肘算法计算每个节点到簇中心距离到误差平方和SSE，计算公式如下：

p为C _i簇内节点，center _i为C _i簇的中心点；

根据m的具体取值与计算得到SSE值的对应关系拟合曲线图，在拟合曲线中确定SSE值下降幅度由快速转缓慢的拐点，选择拐点对应的m值作为最终聚类簇的数量m的取值。

优选的方案中，所述损失函数L中：

优选的方案中，所述步骤S4包括：基于所述邻接矩阵A和蛋白质节点向量表示，通过以下余弦相似度计算公式计算蛋白质节点v _i和v _j的相似度，构建加权邻接矩阵W：

其中，a _ij为所述邻接矩阵A的元素，w _ij为所述加权邻接矩阵W的元素。

优选的方案中，所述步骤S5包括：

S51、设置并初始化集合Alternative_core、Complex_Seed_core、Complex_set；

S52、应用团挖掘方法从所述蛋白质相互作用网络筛选出极大团结构Clique _q，将所述极大团结构Clique _q置入集合Alternative_core；

S53、基于所述加权邻接矩阵W，计算所述集合Alternative_core中所有极大团Clique _q的密度分数，并根据密度分数进行由大到小排序；其中，所述密度分数的计算公式为：

S54、将密度分数最大的极大团，从集合Alternative_core移除并置入集合Complex_Seed_core作为蛋白质复合体基础结构；

S55、遍历集合Alternative_core剩余的极大团结构，当存在其余极大团的蛋白质节点与当前密度分数最大的极大团中蛋白质节点有重合：

若重复节点个数少于2个，则将其余极大团中的重复节点删除，其余部分数量大于3则保留；若重复节点个数大于等于2，则不删除重复节点；

S56、重复进行以上步骤S53-S55，直至集合Alternative_core为空集，在集合Complex_Seed_core获得若干个蛋白质复合体基础结构；

S57、基于集合Complex_Seed_core中极大团Clique _j，对于该极大团Clique _j中蛋白质节点的任意一个邻居节点p _i，基于蛋白质节点相似度计算邻居节点p _i与该极大团Clique _j的相关性成绩，若相关性成绩大于预先设定的阈值θ ₁，则将邻居蛋白质节点p _i嵌入该极大团Clique _j；其中，相关性成绩的计算公式如下：

S58、遍历完该极大团Clique _j的所有邻居蛋白节点，则确定一个蛋白质复合体，从集合Complex_Seed_core移除并置入集合Complex_set；

S59、重复进行以上步骤S57-S58，直至集合Complex_Seed_core为空集，在集合Complex_set获得最终挖掘出的蛋白质复合体。

优选的方案中，所述步骤S6包括：

S61、设置并初始化集合Pathway_Seed_core、Pathway_set；

S62、基于所述蛋白质相互作用网络，遍历所述m个聚类簇，查找簇内两两节点的最短路径，并且最短路径长度不超过3，将筛选出的所有路径置入集合Pathway_Seed_core作为蛋白质信号通路基础结构；

S63、基于所述加权邻接矩阵W，计算所述集合Pathway_Seed_core中所有最短路径shortest_path _q的密度分数，并根据密度分数进行由大到小排序；其中，所述密度分数的计算公式为：

S64、取集合Pathway_Seed_core中密度最大的最短路径shortest_path _j，对于最短路径shortest_path _j末端的任意一个邻居节点p _i，基于蛋白质节点相似度计算邻居蛋白质节点与该最短路径的相关性成绩；若相关性成绩大于预先设定的阈值θ ₂，则将邻居蛋白质节点p _i嵌入最短路径shortest_path _j的末端；

其中，相关性成绩的计算公式如下：

S65、遍历完所述最短路径shortest_path _j的末端的所有邻居蛋白节点，则确定一个蛋白质通信路径，从集合Pathway_Seed_core移除并置入集合Pathway_set；

S66、重复进行以上步骤S64-S65，直至集合Pathway_Seed_core为空集，在集合Pathway_set获得最终挖掘出的蛋白质通信路径。

为了解决上述技术问题，本发明还提供一种计算机设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上所述的蛋白质功能模块的挖掘方法的步骤。

为了解决上述技术问题，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的蛋白质功能模块的挖掘方法的步骤。

本发明实施例提供的蛋白质功能模块的挖掘方法，基于节点级别自适应的图卷积网络(NASGC)，通过自适应机制使各个蛋白质节点分别学习高阶和低阶邻居信息，学习得到蛋白质节点的向量表示信息中，在蛋白质节点基因本体属性特征上融合了高阶和低阶的结构信息，得到更加泛化的蛋白质节点表示，由此能够从蛋白质相互作用网络挖掘出蛋白质复合体以及蛋白质信号通路，并且挖掘生成的蛋白质复合体更符合真实情况，提升对于蛋白质功能识别的准确度。

附图说明

图1是本发明实施例中的蛋白质功能模块的挖掘方法的工作流程图示；

图2是本发明实施例中的蛋白质功能模块的挖掘方法的过程图示；

图3是本发明实施例中的一种计算机设备的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的，并且本发明并不限于这些实施方式。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

图1是本发明实施例提供的蛋白质功能模块的挖掘方法的流程示意图。

本申请的蛋白质功能模块的挖掘方法应用于一种终端设备，其中，所述的终端设备可以为服务器，也可以为移动设备，还可以为由服务器和移动设备相互配合的系统。相应地，终端设备包括的各个部分，例如各个单元、子单元、模块、子模块可以全部设置于服务器中，也可以全部设置于移动设备中，还可以分别设置于服务器和移动设备中。所述终端设备例如是计算机设备。

进一步地，上述服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成由多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，例如用来提供分布式服务器的软件或软件模块，也可以实现成单个软件或软件模块。

参阅图1和图2，本发明实施例提供的一种蛋白质功能模块的挖掘方法，其包括以下步骤：

步骤S1、将蛋白质相互作用网络(PPI网络)输入节点级别自适应图卷积网络(NASGC)模型中学习训练，获得蛋白质节点向量表示。

具体地，在所述节点级别自适应图卷积网络模型中，通过自适应机制，使各个蛋白质节点分别学习高阶和低阶邻居信息，学习得到蛋白质节点向量表示。由此，在蛋白质节点基因本体属性特征上融合了高阶和低阶的结构信息，得到更加泛化的蛋白质节点表示。

本实施例的步骤S1具体包括以下子步骤：

步骤S11、获取蛋白质相互作用网络，构建相应的邻接矩阵A和基因本体属性特征矩阵X。

其中，所述蛋白质相互作用网络的节点表示为v＝{v ₁，v ₂，…，v _n}，所述基因本体属性特征矩阵X＝{x ₁，v ₂，...，x _n} ^T，n为蛋白质节点总数，x _i的维度为d，x和d均为正整数，i＝1～n。

需要说明的是，邻接矩阵A中的元素a _ij：当节点v _i和节点v _j存在相互作用时，a _ij＝1；当节点v _i和节点v _j不存在相互作用时，a _ij＝0。

步骤S12、基于所述邻接矩阵A计算归一化拉普拉斯矩阵Ls，构建低通滤波器G。

具体地，所述归一化拉普拉斯矩阵Ls为Ls＝I-D ^-1/2AD ^-1/2，所述低通滤波器G为

其中，D为所述邻接矩阵A的度矩阵D＝diag(d ₁，d ₂，...，d _n)，d _i表示节点v _i的边数，Λ是矩阵Ls特征值的对角矩阵，I是矩阵Ls特征值全为1的对角矩阵，U是矩阵Ls的特征向量；

步骤S13、设置迭代卷积层数k＝t，令t从0至M循环进行以下步骤S14至S18，M表示卷积层数的最大值，取值为正整数。

步骤S14、使用低通图滤波器G与基因本体属性特征矩阵X执行第k层卷积操作，得到蛋白质相互作用网络的当前卷积层的图表示G ^kX，计算公式如下：

步骤S15、基于所述当前卷积层的图表示G ^kX，计算蛋白质相互作用网络中各个蛋白质节点的状态值，计算公式如下：

其中，[G ^kX] ⁱ表示第k层卷积操作时节点v _i的图表示，

表示节点v _i在第k-1层卷积操作时的状态值，

表示节点v _i在第k层卷积操作时状态值，S()为一个非线性变换函数(RNN/GRU)。

步骤S16、基于所述状态值计算评估各个节点停止进行迭代的概率值；其中，所述概率值的计算公式如下：

其中，W _h和b _h是所述节点级别自适应图卷积网络模型的可学习网络参数；σ表示激活函数(Sigmoid)；

表示节点v _i在第k层卷积操作时的概率值。

步骤S17、设置概率值阈值ε，对于每一个节点v _i，计算其前k层卷积操作的累积概率值并与所述阈值ε比较：若累计概率值达到所述阈值ε以上，则对节点v _i停止迭代卷积计算并记录其卷积层数为N _i＝k’；若卷积操作层数k迭代至M，累计概率值仍小于所述阈值ε，则节点v _i的卷积层数为N _i＝M；所述节点v _i停止迭代卷积的卷积层数N _i表示如下：

步骤S18、计算获得各个节点v _i的最后一层卷积操作时的概率值，计算公式如下：

当所有节点都停止迭代或者达到最大卷积层数M，则停止循环计算。

步骤S19、对于每一个节点v _i，将其前N _i层卷积操作的图表示与概率值线性组合，得到蛋白质节点向量表示：

输出以上蛋白质节点的向量表示并对蛋白质相互作用网络中的节点信息进行更新。

通过以上过程，基于节点级别自适应的图卷积网络(NASGC)，通过自适应机制使各个蛋白质节点分别学习高阶和低阶邻居信息，学习得到蛋白质节点的向量表示信息

中，在蛋白质节点基因本体属性特征上融合了高阶和低阶的结构信息，因此获得更加泛化的蛋白质节点表示。

步骤S2、基于所述蛋白质节点向量表示，通过K-means聚类算法进行聚类，得到蛋白质节点的聚类结果软标签，根据所述聚类结果软标签设定损失函数并进行反向传播，更新模型的网络参数。

本实施例的步骤S2具体包括以下子步骤：

步骤S21、设定聚类簇的数量m，m为正整数。

在本实施例中，所述聚类簇的数量m的取值按照以下方式设定：

(1)基于基因本体属性特征矩阵X，对于所述蛋白质相互作用网络，设置m＝r，通过K-means聚类算法进行聚类得到C＝{C ₁，C ₂，...，C _r}；其中r从2至R取值，R为正整数。

(2)对于每一次m的具体取值，通过手肘算法(elbow method)计算每个节点到簇中心距离到误差平方和SSE，计算公式如下：

p为C _i簇内节点，center _i为C _i簇的中心点。

(3)根据m的具体取值与计算得到SSE值的对应关系拟合曲线图(例如图2中示出的)，在拟合曲线中确定SSE值下降幅度由快速转缓慢的拐点，选择拐点对应的m值作为最终聚类簇的数量m的取值。

步骤S22、基于所述蛋白质节点向量表示，通过K-means聚类算法进行聚类，得到蛋白质节点的聚类结果软标签C＝{C ₁，C ₂，...，C _m}。

步骤S23、根据所述聚类结果软标签C，设定损失函数L为：

其中，λ _tig表示第一损失系数，λ _sep表示第二损失系数，λ _tig和λ _sep均为常数，L _tig表示簇内节点之间的相似性，L _sep表示簇间节点之间的相似性。

其中，L _tig的计算公式如下：

其中，L _sep的计算公式如下：

一个好的集群分区应该有一个较小的集群内距离，因此引入了表示簇内节点之间的相似性的L _tig参量。一个好的集群分区还应该具有较大的集群间距离，因此引入了表示簇间节点之间的相似性的L _sep参量。

对于损失系数λ _tig和λ _sep来说，较大的λ _tig驱动簇内的节点更紧密，而λ _sep则是驱动簇间的节点很好地分离。λ _tig和λ _sep是对抗参数，用于控制紧密性和分离性这两个指标之间的权衡。其中，关于损失系数λ _tig和λ _sep的具体地取值：可以先观察L _tig和(1/L _sep)的比例，这可以通过执行第一次迭代后获得的值粗略地逼近；然后再对损失系数λ _tig和λ _sep进行具体取值，以平衡损失函数L的λ _tigL _tig和

这两项。在较为优选的实施方案中，所述损失函数L中：

例如是1:3、1:5、1:10、1:15、1:20、1:25、1:30、1:35、1:40、1:45或1:50。

S24、根据所述损失函数进行反向传播，更新所述节点级别自适应图卷积网络模型的网络参数。

步骤S3、基于以上步骤S1至步骤S2进行迭代计算至模型收敛或达到最大迭代次数，获得最后一次迭代计算的最终的蛋白质节点向量表示以及聚类结果。

具体地，基于预先设定的最大迭代次数，重复步骤S1至步骤S2进行迭代计算至模型收敛或达到最大迭代次数，在最后一次迭代计算时于步骤S1得到最终的蛋白质节点向量表示，于步骤S2得到最终的聚类结果C＝{C ₁，C ₂，...，C _m}，形成m个聚类簇。

步骤S4、基于所述最终的蛋白质节点向量表示，通过余弦相似度计算公式计算蛋白质节点的相似度，构建加权邻接矩阵。

具体地，所述步骤S3包括：基于所述邻接矩阵A和蛋白质节点向量表示，通过以下余弦相似度计算公式计算蛋白质节点v _i和v _j的相似度，构建加权邻接矩阵W：

步骤S5、从所述蛋白质相互作用网络筛选出蛋白质复合体基础结构并基于所述加权邻接矩阵的计算进行扩展，获得蛋白质复合体。

具体地，应用团挖掘方法并结合所述加权邻接矩阵，从所述蛋白质相互作用网络筛选出蛋白质复合体基础结构，将符合预定条件的邻居节点嵌入所述蛋白质复合体基础结构，获得蛋白质功能模块之一：蛋白质复合体。

本实施例的步骤S5具体包括以下子步骤：

步骤S51、设置并初始化集合Alternative_core、Complex_Seed_core、Complex_set。

步骤S52、应用团挖掘方法从所述蛋白质相互作用网络筛选出极大团结构Clique _q，将所述极大团结构Clique _q置入集合Alternative_core。其中，q为极大团结构的编号。

步骤S53、基于所述加权邻接矩阵W，计算所述集合Alternative_core中所有极大团Clique _q的密度分数，并根据密度分数进行由大到小排序。

其中，所述密度分数的计算公式为：

步骤S54、将密度分数最大的极大团，从集合Alternative_core移除并置入集合Complex_Seed_core作为蛋白质复合体的基础结构。

例如，步骤S53按照密度分数进行由大到小排序为Clique ₁、Clique ₂、Clique ₃、…；密度分数最大的极大团为Clique ₁，则将极大团Clique ₁从集合Alternative_core移除并置入集合Complex_Seed_core作为蛋白质复合体的基础结构。

步骤S55、遍历集合Alternative_core剩余的极大团结构，若存在其余极大团的蛋白质节点与当前密度分数最大的极大团中蛋白质节点有重合：

若重复节点个数少于2个，则将其余极大团中的重复节点删除，其余部分数量大于3则保留；若重复节点个数大于等于2，则不删除重复节点。

例如，在第一次循环计算中，Clique ₁被置入集合Complex_Seed_core作为蛋白质复合体基础结构，则集合Alternative_core剩余的极大团结构包括Clique ₂、Clique ₃、Clique ₄、…。

以，Clique ₂为例，若Clique ₂的蛋白质节点与当前密度分数最大的极大团Clique ₁的蛋白质节点有重合：

当重复节点个数少于2个时，将Clique ₂中重复的节点删除，并且Clique ₂剩余的节点大于3时，Clique ₂保留在集合Alternative_core中，否则将Clique ₂从集合Alternative_core中移除；当重复节点个数大于等于2时，不删除Clique ₂中的重复节点。

现实的蛋白质复合体会存在多个复合体有共同的内部结构，应当增加生成共有极大团蛋白质复合体的概率。通过以上的极大团的过滤处理方式，基于极大团结构作为蛋白质复合体基本框架，尽可能保留极大团之间共有的蛋白质节点，能够体现出共有极大团的蛋白质复合体，更符合真实情况。

步骤S56、重复进行以上步骤S53-S55，直至集合Alternative_core为空集，在集合Complex_Seed_core获得若干个蛋白质复合体基础结构。

步骤S57、基于集合Complex_Seed_core中极大团Clique _j，对于该极大团Clique _j中蛋白质节点的任意一个邻居节点p _i，基于蛋白质节点相似度计算邻居节点p _i与该极大团Clique _j的相关性成绩，若相关性成绩大于预先设定的阈值θ ₁，则将蛋白质节点p _i嵌入该极大团Clique _j；其中，相关性成绩的计算公式如下：

步骤S58、遍历完该极大团Clique _j的所有邻居蛋白节点，完成基础结构的节点扩展，由此确定一个蛋白质复合体，从集合Complex_Seed_core移除并置入集合Complex_set。

步骤S59、重复进行以上步骤S57-S58，直至集合Complex_Seed_core为空集，在集合Complex_set获得最终挖掘出的蛋白质复合体。

步骤S6、从所述聚类结果的每个聚类簇中筛选出蛋白质信号通路基础结构并基于所述加权邻接矩阵的计算进行扩展，获得蛋白质信号通路。

具体地，从所述聚类结果C＝{C ₁，C ₂，...，C _m}的每个聚类簇中筛选出簇内最短路径作为蛋白质信号通路基础结构，通过所述加权邻接矩阵计算相关性，将符合预定条件的邻居节点嵌入所述蛋白质信号通路基础结构的端点，获得蛋白质功能模块之二：蛋白质信号通路。

本实施例的步骤S6具体包括以下子步骤：

步骤S61、设置并初始化集合Pathway_Seed_core、Pathway_set。

步骤S62、基于所述蛋白质相互作用网络，遍历所述m个聚类簇，查找簇内两两节点的最短路径，并且最短路径长度不超过3，将筛选出的所有路径置入集合Pathway_Seed_core作为蛋白质信号通路基础结构。

步骤S63、基于所述加权邻接矩阵W，计算所述集合Pathway_Seed_core中所有最短路径shortest_path _q的密度分数，并根据密度分数进行由大到小排序；其中，所述密度分数的计算公式为：

步骤S64、取集合Pathway_Seed_core中密度最大的最短路径shortest_path _j，对于最短路径shortest_path _j末端的任意一个邻居节点p _i，基于蛋白质节点相似度计算邻居蛋白质节点与该最短路径的相关性成绩；若相关性成绩大于预先设定的阈值θ ₂，则将邻居蛋白质节点p _i嵌入最短路径shortest_path _j的末端；

其中，相关性成绩的计算公式如下：

步骤S65、遍历完所述最短路径shortest_path _j的末端的所有邻居蛋白节点，完成基础结构的节点扩展，由此确定一个蛋白质通信路径，从集合Pathway_Seed_core移除并置入集合Pathway_set。

步骤S66、重复进行以上步骤S64-S65，直至集合Pathway_Seed_core为空集，在集合Pathway_set获得最终挖掘出的蛋白质通信路径。

如上实施例提供的蛋白质功能模块的挖掘方法，基于节点级别自适应的图卷积网络(NASGC)，通过自适应机制使各个蛋白质节点分别学习高阶和低阶邻居信息，学习得到蛋白质节点的向量表示信息中，在蛋白质节点基因本体属性特征上融合了高阶和低阶的结构信息，得到更加泛化的蛋白质节点表示，由此能够从蛋白质相互作用网络挖掘出蛋白质复合体以及蛋白质信号通路，并且挖掘生成的蛋白质复合体更符合真实情况，提升对于蛋白质功能识别的准确度。

基于如上实施例提供的蛋白质功能模块的挖掘方法，本发明实施例还提供了一种计算机设备，如图3所示，所述计算机设备包括：处理器10、存储器20、输入装置30和输出装置40，处理器10中设置有GPU，处理器10的数量可以是一个或多个，图2中以一个处理器10为例。计算机设备中的处理器10、存储器20、输入装置30和输出装置40可以通过总线或其他方式连接。

其中，存储器20作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块。处理器10通过运行存储在存储器20中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本发明前述实施例中所述的蛋白质功能模块的挖掘方法的步骤。输入装置30用于接收图像数据、输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置40可包括显示屏等显示设备，例如是用于显示图像。

基于如上实施例提供的蛋白质功能模块的挖掘方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本发明前述实施例中的蛋白质功能模块的挖掘方法的步骤。所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器、光学存储器、以及半导体存储器等。

需要指出的是，上述实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

一种蛋白质功能模块的挖掘方法，其特征在于，包括步骤：

S1、将蛋白质相互作用网络输入节点级别自适应图卷积网络模型中学习训练，使各个蛋白质节点学习高阶和低阶邻居信息，获得蛋白质节点向量表示；

S2、基于所述蛋白质节点向量表示，通过K-means聚类算法进行聚类，得到蛋白质节点的聚类结果软标签，根据所述聚类结果软标签设定损失函数并进行反向传播，更新模型的网络参数；

S3、基于以上步骤S1至步骤S2进行迭代计算至模型收敛或达到最大迭代次数，获得最后一次迭代计算的最终的蛋白质节点向量表示以及聚类结果；

S4、基于所述最终的蛋白质节点向量表示，通过余弦相似度计算公式计算蛋白质节点的相似度，构建加权邻接矩阵；

S5、从所述蛋白质相互作用网络筛选出蛋白质复合体基础结构并基于所述加权邻接矩阵的计算进行扩展，获得蛋白质复合体；

S6、从所述聚类结果的每个聚类簇中筛选出蛋白质信号通路基础结构并基于所述加权邻接矩阵的计算进行扩展，获得蛋白质信号通路。
根据权利要求1所述的蛋白质功能模块的挖掘方法，其特征在于，所述步骤S1包括：

S11、获取蛋白质相互作用网络，构建相应的邻接矩阵A和基因本体属性特征矩阵X；其中，所述蛋白质相互作用网络的节点表示为v＝{v ₁，v ₂，...，v _n}，所述基因本体属性特征矩阵X＝{x ₁，x ₂，...，x _n} ^T，n为蛋白质节点总数，x _i的维度为d，x和d均为正整数，i＝1～n；

S12、基于所述邻接矩阵A计算归一化拉普拉斯矩阵Ls，构建低通滤波器G；所述归一化拉普拉斯矩阵Ls为Ls＝I-D ^-1/2AD ^-1/2，所述低通滤波器G为
其中，D为所述邻接矩阵A的度矩阵D＝diag(d ₁，d ₂，...，d _n)，d _i表示节点v _i的边数，Λ是矩阵Ls特征值的对角矩阵，I是矩阵Ls特征值全为1的对角矩阵，U是矩阵Ls的特征向量；

S13、设置迭代卷积层数k＝t，令t从0至M循环进行以下步骤S14至S18，M表示卷积层数的最大值，取值为正整数；

S14、使用低通图滤波器G与基因本体属性特征矩阵X执行第k层卷积操作，得到蛋白质相互作用网络的当前卷积层的图表示G ^kX，计算公式如下：

S15、基于所述当前卷积层的图表示G ^kX，计算蛋白质相互作用网络中各个蛋白质节点的状态值，计算公式如下：

其中，[G ^kX] ⁱ表示第k层卷积操作时节点v _i的图表示，
表示节点v _i在第k-1层卷积操作时的状态值，
表示节点v _i在第k层卷积操作时状态值，S()为一个非线性变换函数；

S16、基于所述状态值计算评估各个节点停止进行迭代卷积的概率值；其中，所述概率值的计算公式如下：

其中，W _h和b _h是所述节点级别自适应图卷积网络模型的可学习网络参数；σ表示激活函数；
表示节点v _i在第k层卷积操作时的概率值；

S17、设置概率值阈值ε，对于每一个节点v _i，计算其前k层卷积的累计概率值并与所述阈值ε比较：

若累计概率值达到所述阈值ε以上，则对节点v _i停止迭代卷积计算并记录其卷积层数为N _i＝k’；

若卷积层数k迭代至M，累计概率值仍小于所述阈值ε，则节点v _i的卷积层数为N _i＝M；

所述节点v _i停止迭代卷积的卷积层数N _i表示如下：

S18、计算获得各个节点v _i的最后一层卷积操作时的概率值，计算公式如下：

S19、对于每一个节点v _i，将其前N _i层卷积操作的图表示与概率值线性组合，得到蛋白质节点向量表示：
根据权利要求1或2所述的蛋白质功能模块的挖掘方法，其特征在于，所述步骤S2包括：

S21、设定聚类簇的数量m，m为正整数；

S22、基于所述蛋白质节点向量表示，通过K-means聚类算法进行聚类，得到蛋白质节点的聚类结果软标签；

S23、根据所述聚类结果软标签，设定损失函数L为：

其中，λ _tig表示第一损失系数，λ _sep表示第二损失系数，λ _tig和λ _sep均为常数，L _tig表示簇内节点之间的相似性，L _sep表示簇间节点之间的相似性；

其中，L _tig的计算公式如下：

其中，L _sep的计算公式如下：

S24、根据所述损失函数进行反向传播，更新所述节点级别自适应图卷积网络模型的网络参数；

所述步骤S3包括：基于预先设定的最大迭代次数，重复步骤S1至步骤S2 进行迭代计算至模型收敛或达到最大迭代次数，在最后一次迭代计算时于步骤S1得到最终的蛋白质节点向量表示，于步骤S2得到最终的聚类结果C＝{C ₁，C ₂，...，C _m}，形成m个聚类簇。
根据权利要求3所述的蛋白质功能模块的挖掘方法，其特征在于，所述聚类簇的数量m的取值按照以下方式设定：

基于所述蛋白质相互作用网络，设置m＝r，通过K-means聚类算法进行聚类得到C＝{C ₁，C ₂，...，C _r}；其中r从2至R取值，R为正整数；

对于每一次m的具体取值，通过手肘算法计算每个节点到簇中心距离到误差平方和SSE，计算公式如下：

p为C _i簇内节点，center _i为C _i簇的中心点；

根据m的具体取值与计算得到SSE值的对应关系拟合曲线图，在拟合曲线中确定SSE值下降幅度由快速转缓慢的拐点，选择拐点对应的m值作为最终聚类簇的数量m的取值。
根据权利要求3所述的蛋白质功能模块的挖掘方法，其特征在于，所述损失函数L中：
根据权利要求3所述的蛋白质功能模块的挖掘方法，其特征在于，所述步骤S4包括：基于所述邻接矩阵A和蛋白质节点的向量表示，通过以下余弦相似度计算公式计算蛋白质节点v _i和v _j的相似度，构建加权邻接矩阵W：

其中，a _ij为所述邻接矩阵A的元素，w _ij为所述加权邻接矩阵W的元素。
根据权利要求6所述的蛋白质功能模块的挖掘方法，其特征在于，所述步骤S5包括：

S51、设置并初始化集合Alternative_core、Complex_Seed_core、Complex_set；

S52、应用团挖掘方法从所述蛋白质相互作用网络筛选出极大团结构Clique _q，将所述极大团结构Clique _q置入集合Alternative_core；

S53、基于所述加权邻接矩阵W，计算所述集合Alternative_core中所有极大团Clique _q的密度分数，并根据密度分数进行由大到小排序；其中，所述密度分数的计算公式为：

S54、将密度分数最大的极大团，从集合Alternative_core移除并置入集合Complex_Seed_core作为蛋白质复合体基础结构；

S55、遍历集合Alternative_core剩余的极大团结构，当存在其余极大团的蛋白质节点与当前密度分数最大的极大团中蛋白质节点有重合：

若重复节点个数少于2个，则将其余极大团中的重复节点删除，其余部分数量大于3则保留；若重复节点个数大于等于2，则不删除重复节点；

S56、重复进行以上步骤S53-S55，直至集合Alternative_core为空集，在集合Complex_Seed_core获得若干个蛋白质复合体基础结构；

S57、基于集合Complex_Seed_core中的极大团Clique _j，对于该极大团Clique _j中蛋白质节点的任意一个邻居节点p _i，基于蛋白质节点相似度计算邻居节点p _i与该极大团Clique _j的相关性成绩，若相关性成绩大于预先设定的阈值θ ₁，则将邻居蛋白质节点p _i嵌入该极大团Clique _j；其中，相关性成绩的计算公式如下：

S58、遍历完该极大团Clique _j的所有邻居蛋白节点，则确定一个蛋白质复合体，从集合Complex_Seed_core移除并置入集合Complex_set；

S59、重复进行以上步骤S57-S58，直至集合Complex_Seed_core为空集，在集合Complex_set获得最终挖掘出的蛋白质复合体。
根据权利要求6所述的蛋白质功能模块的挖掘方法，其特征在于，所述步骤S6包括：

S61、设置并初始化集合Pathway_Seed_core、Pathway_set；

S62、基于所述蛋白质相互作用网络，遍历所述m个聚类簇，查找簇内两两节点的最短路径，并且最短路径长度不超过3，将筛选出的所有路径置入集合Pathway_Seed_core作为蛋白质信号通路基础结构；

S63、基于所述加权邻接矩阵W，计算所述集合Pathway_Seed_core中所有最短路径shortest_path _q的密度分数，并根据密度分数进行由大到小排序；其中，所述密度分数的计算公式为：

S64、取集合Pathway_Seed_core中密度最大的最短路径shortest_path _j，对于最短路径shortest_path _j末端的任意一个邻居节点p _i，基于蛋白质节点相似度计算邻居蛋白质节点与该最短路径的相关性成绩；若相关性成绩大于预先设定的阈值θ ₂，则将邻居蛋白质节点p _i嵌入最短路径shortest_path _j的末端；

其中，相关性成绩的计算公式如下：

S65、遍历完所述最短路径shortest_path _j的末端的所有邻居蛋白节点，则确定一个蛋白质通信路径，从集合Pathway_Seed_core移除并置入集合Pathway_set；

S66、重复进行以上步骤S64-S65，直至集合Pathway_Seed_core为空集，在集合Pathway_set获得最终挖掘出的蛋白质通信路径。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的蛋白质功能模块的挖掘方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如1-8任一项所述的蛋白质功能模块的挖掘方法的步骤。