WO2020253222A1 - 一种动态残基相互作用网络的社团检测方法 - Google Patents

一种动态残基相互作用网络的社团检测方法 Download PDF

Info

Publication number
WO2020253222A1
WO2020253222A1 PCT/CN2020/070789 CN2020070789W WO2020253222A1 WO 2020253222 A1 WO2020253222 A1 WO 2020253222A1 CN 2020070789 W CN2020070789 W CN 2020070789W WO 2020253222 A1 WO2020253222 A1 WO 2020253222A1
Authority
WO
WIPO (PCT)
Prior art keywords
interaction network
residue interaction
community
dynamic
residue
Prior art date
Application number
PCT/CN2020/070789
Other languages
English (en)
French (fr)
Inventor
丁彦蕊
张辰
Original Assignee
江南大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 江南大学 filed Critical 江南大学
Publication of WO2020253222A1 publication Critical patent/WO2020253222A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Definitions

  • Modular Q is an important indicator to measure the community detection algorithm. The closer the Q value is to 1, the higher the detection performance of the algorithm. It is generally believed that when the value is higher than 0.3, the community detection result of the algorithm is relatively reliable.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种动态残基相互作用网络的社团检测方法,属于计算机应用技术领域。所述方法包括将残基相互作用网络编码为进化图,进而筛选出进化图中的刚性残基相互作用,得到刚性残基相互作用网络,对刚性残基相互作用网络采用Fast-Newman算法进行社团检测,从而得到动态残基相互作用网络中的社团结构;通过将进化图和Fast-Newman聚类算法相结合,利用进化图实现残基相互作用网络的动态化,进而能够快速筛选出残基相互作用网络中持久的相互作用,并结合Fast-Newman聚类算法准确的挖掘出蛋白质的社团结构,便于后续分析影响蛋白质结构和性质关系的研究发展。

Description

一种动态残基相互作用网络的社团检测方法 技术领域
本发明涉及一种动态残基相互作用网络的社团检测方法,属于计算机应用技术领域。
背景技术
动态残基相互作用网络属于动态网络的一种类型,它是将连续时间内的蛋白质分子表示成由残基与残基相互作用组成的复杂网络系统,通过该系统可以分析蛋白质分子的结构和性能;比如:工业造纸过程中需要用到一种蛋白质-木聚糖酶,在此过程中,需要获知蛋白质的内部结构随工业加工的时间和温度变化的情况,这就可以借助动态残基相互作用网络进行分析木聚糖酶的耐热性,找到能够提高木聚糖酶耐热性的因素,进而减少工业加工过程的成本和时间。
在过去的十几年间,动态网络社团检测的相关研究受关注度较高。无论是生物网络、社交网络和疾病分子网络等都具有动态特性。动态网络的社团检测技术可以通过进化聚类、增量聚类和频繁子图挖掘等实验方法进行探索。然而以上方法都不是针对动态残基相互作用网络社团检测的方法。目前没有专门挖掘该类型网络的相关算法。
Tang L(《Identifying evolving groups in dynamic multimode networks》.IEEE transactions on knowledge and data engineering,2011,24(1):72-85.)等人研究了时间正则化的框架及其收敛性,通过使用时间信息来解决动态多模式网络中,社团成员和交互都可以变化的问题。然而该算法需要用户提供社团数目和边的权重,并且该方法检测每个时刻网络的社团数目都要求相同,但是在蛋白质的动态残基相互作用网络中,社团会受到时间和温度等外界因素的影响发生分裂、合并、出生、消亡等现象,导致社团数目发生改变,因而不可能保持社团数目不变,所以该方法不利于研究动态残基相互作用网络中社团的演变情况。Folino F(《An evolutionary multiobjective approach for community discovery in dynamic networks》.IEEE Transactions on Knowledge and Data Engineering,2013,26(8):1838-1852.)等人将具有时间平滑性的社团检测公式化为多目标问题,提出了一种基于遗传算法的方法,该算法可以实现连续时间步长网络之间的动态聚类,不需要设定社团的数目。然而该方法基于遗传算法,遗传算法中种群是随机产生,并且在父代产生最优子代的过程中会随机生成大量不同的子代,每一次使用该方法检测的社团结构都不相同,导致该方法检测动态残基相互作用网络的最终社团结构具有较高的随机性,并且耗时较长,因而也不适合检测动态残基相互作用网络的社区。Wang PeiZhuo(《Dynamic community detection based on network structural perturbation  and topological similarity》.Journal of Statistical Mechanics:Theory and Experiment,2017(1):013401.)等人考虑连续时间网络之间的动态变化信息,结合了结构扰动和拓扑特征提出了一种新的相似性,并且提出了一种进化聚类算法来检测时间平滑框架下的动态社区,可以用于大部分动态网络的社团检测。然而该方法输入是每一时刻动态残基相互作用网络的所有残基相互作用,检测出的社团结构可能包含一些对蛋白质性质没有关键影响的相互作用,不利于深入分析蛋白质的性质,因此过程比较复杂、费时,并且不是针对动态残基相互作用网络的方法,检测过程中没有考虑蛋白质的特性。
进化图是一种将连续的静态网络编码为图的方法,使连续的静态网络更具动态性。层次聚类算法(Fast-Newman)是一种快速、准确的聚类方法,能够检测出模块化的社团结构。进化图和Fast-Newman算法已经在生物网络,社交网络等领域有了重要应用,然而文献及专利中未见有将进化图与Fast-Newman算法结合用于检测动态残基相互作用网络中社团结构的报道。
发明内容
为了将连续的残基相互作用网络真正意义的动态化,从而达到快速筛选稳定残基相互作用的目的,并且准确、高效检测出动态残基相互作用网络中的社团结构,本发明提供了一种动态残基相互作用网络的社团检测方法,所述方法包括:将残基相互作用网络编码为进化图,进而筛选出进化图中的刚性残基相互作用,得到刚性残基相互作用网络,对刚性残基相互作用网络采用Fast-Newman算法进行社团检测,从而得到动态残基相互作用网络中的社团结构。
可选的,所述方法包括:
S1:基于蛋白质的分子动力学模拟轨迹,构建动态残基相互作用网络;
S2:将动态残基相互作用网络编码为进化图;
S3:基于路径的刚性相互作用识别,得到刚性残基相互作用网络;
S4:采用Fast-Newman算法进行社团检测。
可选的,所述S1包括:
基于蛋白质的分子动力学模拟轨迹,利用Ring2.0构建静态残基相互作用网络,将模拟时间内的蛋白质构象编码为时变残基相互作用网络,即动态残基相互作用网络DRIN;
动态残基相互作用网络定义为DRIN=<RIN 1,RIN 2,…,RIN t,…,RIN T>,其中T代表总模拟时间,RIN t=(V t,E t)代表时间t时刻的静态残基相互作用网络,V t代表时间t时刻的所有 顶点的集合,E t表示在t时刻所有边的集合。
可选的,所述S2包括:
将S1构建得到的动态残基相互作用网络DRIN编码为进化图;动态残基相互作用网络DRIN的进化图定义为E g=(V S,E S,L S),其中V S=V 1∪V 2∪…∪V T是DRIN的所有节点的集合,E S=E 1∪E 2∪…∪E T是DRIN所有边的集合;
L S是DRIN边的标签集合;边的标签集合中的元素是表示边权重的字符串;其中0表示两个残基在某一时刻不存在相互作用,非零值表示当前时刻存在相互作用;
L S用如下公式描述;
Figure PCTCN2020070789-appb-000001
其中,str i表示第i个边的标签字符串,1≤i≤n;n是DRIN中的边数。
可选的,所述S3包括:
连续的非零值序列称为E g拓扑结构上的路径path;如下式所示,边的标签字符串str i中有m条路径;
Figure PCTCN2020070789-appb-000002
路径的出发时间和到达时间分别定义为departure(path)=t s和arrival(path)=t e,路径的长度为:
‖Path‖=arrival(path)-departure(path)=t e-t s
设定一个时间阈值p,如果在p个连续时间中存在残基间相互作用,则认为该残基间相互作用是稳定的,即选择路径‖Path‖≥p;使用边持久值Epv i判断边是否稳定,公式如下:
Figure PCTCN2020070789-appb-000003
其中,Epv i表示模拟时间内第i条边持久性的值,T是总时间;n是边的标签字符串str i中的路径数目;Path k是边的标签字符串str i第k条路径,当Epv i的值大于或等于设定的稳定性阈值时,认定边i连接的残基之间存在刚性相互作用,进而得到刚性残基相互作用网络。
可选的,所述设定的稳定性阈值取0.9。
可选的,所述时间阈值p取值为50。
可选的,所述S4包括:
根据边的持久值Epv i,选择每对残基中的刚性相互作用;得到刚性残基相互作用网络,对刚性残基相互作用网络使用Fast-Newman算法进行社团检测;
步骤如下:
步骤1:将刚性残基相互作用网络中的每个残基视为一个社团;
步骤2:将所有的残基进行两两合并,保留模块度Q最大的结果,继续迭代合并;
步骤3:直到所有残基最终融合为一个社团时终止迭代;最终,依据最大Q值的划分,得到了社团结构;Q的计算公式如下:
Figure PCTCN2020070789-appb-000004
其中,u表示刚性残基相互作用网络中社团的个数,e zz表示任意社团z中的相互作用数量与网络中所有相互作用的数量之比,1≤z≤u,并且a z表示任意社团z中残基的度与整个网络残基的度的比值。
本发明的第二个目的在于提供一种确定蛋白质结构与功能之间关系的方法,所述方法采用上述动态残基相互作用网络的社团检测方法进行确定蛋白质与功能之间的关系,所述方法包括:基于蛋白质的分子动力学模拟轨迹,构建动态残基相互作用网络;将动态残基相互作用网络编码为进化图;基于路径的刚性相互作用识别,得到刚性残基相互作用网络;采用Fast-Newman算法进行社团检测;根据社团检测结果确定蛋白质结构与功能之间的关系。
本发明的第三个目的在于提供上述动态残基相互作用网络的社团检测方法在蛋白质结构与功能关系领域内的应用。
本发明的第四个目的在于提供上述动态残基相互作用网络的社团检测方法在蛋白质结构与性质关系领域内的应用。
本发明有益效果是:
通过将进化图和Fast-Newman聚类算法相结合,利用进化图实现残基相互作用网络的动态化,进而能够快速筛选出残基相互作用网络中持久的相互作用,并结合Fast-Newman聚类算法准确的挖掘出蛋白质的社团结构,最终可以通过分析社团找出影响蛋白质结构和性质的因素。本发明方法首次结合了进化图与Fast-Newman聚类算法,这为从系统的角度探究蛋白质的结构与性质提供了一种快速,准确的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是进化图+Fast-Newman算法检测出xyna_strli在不同温度下的社团结构的三维结构图;其中箭头所指为方框内社区结构被放大显示图,黑色直线代表残基之间的相互作用,残基标签代表组成社团的残基。
图2是进化图+Fast-Newman算法检测出xyna_theau在不同温度下的社团结构的三维结构图;其中箭头所指为方框内社区结构被放大显示图,黑色直线代表残基之间的相互作用,残基标签代表组成社团的残基。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种动态残基相互作用网络的社团检测方法,本实施例以来自浅青紫链霉菌的木聚糖酶(xyna_strli)作为实验对象为例进行说明。
所述方法包括:
Step1:基于蛋白质的分子动力学模拟轨迹,利用Ring2.0构建静态残基相互作用网络,将模拟时间内的蛋白质构象编码为时变残基相互作用网络,即动态残基相互作用网络DRIN;
动态残基相互作用网络定义为DRIN=<RIN 1,RIN 2,…,RIN t,…,RIN T>,其中T代表总模拟时间,RIN t=(V t,E t)代表时间t时刻的静态残基相互作用网络,V t代表时间t时刻的所有顶点的集合,E t表示在t时刻所有边的集合。
Step2:将S1构建得到的动态残基相互作用网络DRIN编码为进化图;动态残基相互作用网络DRIN的进化图定义为E g=(V S,E S,L S),其中V S=V 1∪V 2∪…∪V T是DRIN的所有节点的集合,E S=E 1∪E 2∪…∪E T是DRIN所有边的集合;
L S是DRIN边的标签集合;边的标签集合中的元素是表示边权重的字符串;其中0表示两个残基在某一时刻不存在相互作用,非零值表示当前时刻存在相互作用;
L S用如下公式描述;
Figure PCTCN2020070789-appb-000005
其中,str i表示第i个边的标签字符串,1≤i≤n;n是DRIN中的边数。
Step3:连续的非零值序列称为E g拓扑结构上的路径path;如下式所示,边的标签字符串str i中有m条路径;
Figure PCTCN2020070789-appb-000006
路径的出发时间和到达时间分别定义为departure(path)=t s和arrival(path)=t e,路径的长度为:
‖Path‖=arrival(path)-departure(path)=t e-t s
设定一个时间阈值p,如果在p个连续时间中存在残基间相互作用,则认为该残基间相互作用是稳定的,即选择路径‖Path‖≥p;使用边持久值Epv i判断边是否稳定,公式如下:
Figure PCTCN2020070789-appb-000007
其中,Epv i表示模拟时间内第i条边持久性的值,T是总时间;n是边的标签字符串str i中的路径数目;Path k是边的标签字符串str i第k条路径,当Epv i的值大于或等于设定的稳定性阈值时,认定边i连接的残基之间存在刚性相互作用,进而得到刚性残基相互作用网络。
本实施例中,时间阈值p取值为50;设定的稳定性阈值取0.9。
Step4:根据边的持久值Epv i,选择每对残基中的刚性相互作用;使用Fast-Newman算法进行社团检测;
步骤如下:
步骤1:将刚性残基相互作用网络中的每个残基视为一个社团;
步骤2:将所有的残基进行两两合并,保留模块度Q最大的结果,继续迭代合并;
步骤3:直到所有残基最终融合为一个社团时终止迭代;最终,依据最大Q值的划分,得到了社团结构;Q的计算公式如下:
Figure PCTCN2020070789-appb-000008
其中,u表示刚性残基相互作用网络中社团的个数,e zz表示任意社团z中的相互作用数 量与网络中所有相互作用的数量之比,1≤z≤u,并且a z表示任意社团z中残基的度与整个网络残基的度的比值。
本实施例中选择来自浅青紫链霉菌的木聚糖酶(xyna_strli)作为实验对象,使用的数据源自RCSB PDB数据库(http://www.rcsb.org/pdb/home/home.do)的晶体结构,实验过程如下:
(1)通过分子动力学模拟获得xyna_strli在300K,325K,350K三个不同模拟温度下的300ns分子动力学轨迹。
(2)利用Ring2.0分别将300K,325K,350K下300ns的分子动学轨迹构建为残基相互作用网络。
对不同类型相互作用的距离阈值设置如下:盐桥
Figure PCTCN2020070789-appb-000009
二硫键
Figure PCTCN2020070789-appb-000010
氢键
Figure PCTCN2020070789-appb-000011
范德华相互作用
Figure PCTCN2020070789-appb-000012
π-πstacking
Figure PCTCN2020070789-appb-000013
π-cation
Figure PCTCN2020070789-appb-000014
(3)将xyna_strli在300K,325K,350K下的所有时刻的残基相互作用网络分别编码为进化图,进而得到边的标签集合L S。通过边持久值来判断边是否稳定,判断相互作用是否稳定的阈值p设置为50,筛选出xyna_strli在300K,325K,350K模拟温度下稳定的残基相互作用。最后,分别对xyna_strli在300K,325K,350K下的网络使用Fast-Newman算法检测出最终的社团结构。
模块化Q是衡量社团检测算法的重要指标。Q值越接近1,算法的检测性能越高。一般认为,当该值高于0.3时,该算法的社区检测结果相对可靠。
表1为进化图+Fast-Newman混合算法的评价指标模块度Q。所有的Q值都远大于0.3,说明进化图+Fast-Newman混合算法对xyna_strli的动态残基相互作用网络的社团挖掘是准确可靠的。
表1.进化图+Fast-Newman混合算法的评价指标模块度Q
Figure PCTCN2020070789-appb-000015
图1给出了通过进化图和Fast-Newman算法检测出的300K,325K,350K下xyna_strli的动态残基相互作用网络中的社团结构,其中,loop2和α3一类的代表二级结构,Ala104之类代表残基。基于进化图和Fast-Newman混合算法的动态残基相互作用网络的社团检测方 法在检测蛋白质的社团结构方面具有极大的潜力,能够采用此方法获知蛋白质的结构,从而为研究蛋白质结构与其性质之间的关系提供了可能。
实施例二:
本实施例提供一种动态残基相互作用网络的社团检测方法,具体方法步骤如实施例一所示,本实施例以来自浅青紫链霉菌的木聚糖酶(xyna_strli)作为实验对象为例进行说明。
本发明使用的数据源自RCSB PDB数据库(http://www.rcsb.org/pdb/home/home.do)的晶体结构,选择来自橙色嗜热子囊的木聚糖酶(xyna_theau,PDB号:1tux)作为实验对象。
(1)通过分子动力学模拟获得xyna_theau在300K,325K,350K三个不同模拟温度下的300ns分子动力学轨迹。
(2)利用Ring2.0分别将300K,325K,350K下的300ns的分子动学轨迹构建为残基相互作用网络。对不同类型相互作用的距离阈值设置如下:盐桥
Figure PCTCN2020070789-appb-000016
二硫键
Figure PCTCN2020070789-appb-000017
氢键
Figure PCTCN2020070789-appb-000018
范德华相互作用
Figure PCTCN2020070789-appb-000019
π-πstacking
Figure PCTCN2020070789-appb-000020
π-cation
Figure PCTCN2020070789-appb-000021
(3)将xyna_theau在300K,325K,350K下300ns内的残基相互作用网络分别编码为进化图,进而得到边的标签集合L S。通过边持久值来判断边是否稳定,判断相互作用是否稳定的阈值p设置为50,筛选出xyna_theau在300K,325K,350K模拟温度下稳定的残基相互作用。最后,分别对xyna_theau在300K,325K,350K下的网络使用Fast-Newman算法检测出最终的社团结构。
表2为进化图+Fast-Newman混合算法的评价指标模块度Q。所有的Q值都远大于0.3,说明进化图+Fast-Newman混合算法对xyna_theau的动态残基相互作用网络的社团挖掘是准确可靠的。
表2.进化图+Fast-Newman混合算法的评价指标模块度Q
Figure PCTCN2020070789-appb-000022
图2给出了通过进化图和Fast-Newman算法检测出的300K,325K,350K下xyna_theau的动态残基相互作用网络中的社团结构。基于进化图和Fast-Newman混合算法的动态残基相互作用网络的社团检测方法在检测蛋白质的社团结构方面具有极大的潜力,能够 通过分析社团了解蛋白质结构与性质的关系。
比如:分析动态残基相互作用网络的社团结构随温度、酸碱度等外界因素的演化,可以挖掘影响蛋白质耐热性或耐酸性等性质的关键因素。
本申请方法相对于现有的一些检测方法所具有的优点有:
1、能够快速筛选出残基相互作用网络中持久的相互作用;
2、能够准确的挖掘出蛋白质的社团结构;
下面详细论述本申请方法与其他几个动态网络社团检测方法相比应用于动态残基相互作用网络社团检测的优势:
首先,对于Tang L(《Identifying evolving groups in dynamic multimode networks》.IEEE transactions on knowledge and data engineering,2011,24(1):72-85.)等人的方法虽然可以检测动态网络的社团结构,但是在方法运行之前需要使用者设置社团的数目,而蛋白质中由基本单位残基组成的社团数目并不能具体预测出,这会导致一定的局限性。而且该方法检测每个时刻网络的社团数目都相同,但是在蛋白质的动态残基相互作用网络中社团会受到时间和温度等外界因素的影响发生分裂、合并、出生、消亡等现象,导致社团数目发生改变。
本申请方法克服了需要规定社团数目的缺陷,根据Fast-Newman的最优模块度规则合并动态残基相互作用网络中的残基,最终生成社团,有利于检测出蛋白质的真实社区结构。因此,本申请方法比Tang等人方法更适合处理动态残基相互作用网络。
其次,对于Folino F(《An evolutionary multiobjective approach for community discovery in dynamic networks》.IEEE Transactions on Knowledge and Data Engineering,2013,26(8):1838-1852.)等人提出的基于遗传算法的方法虽然不需要设定社团的数目,但是遗传算法的输入是所有时刻的残基相互作用网络,并且寻找最优子代的过程比较复杂,从而导致该算法检测社团的速度较慢。另外,遗传算法中种群是随机产生,在父代产生最优子代的过程中会随机生成大量不同的子代,每一次使用该方法检测的社团结构都不相同。以上情况导致该方法检测动态残基相互作用网络的最终社团结构具有较高的随机性。蛋白质在时间等因素固定条件下,不可能具有多种可能的社团结构。
而本申请方法将一段连续时间内的网络编码为进化图,压缩了网络中的时间信息,筛选出稳定的残基相互作用,从而使本方法检测社团具有更快的速度。并且,本申请方法检测动态残基相互作用网络在固定条件下的社团结果固定不变,比较符合蛋白质结构的真实情况。因此,本申请方法检测动态残基相互作用网络比Folino等人的方法更具优势。
再者,对于Wang PeiZhuo(《Dynamic community detection based on network structural  perturbation and topological similarity》.Journal of Statistical Mechanics:Theory and Experiment,2017(1):013401.)等人的方法虽然可以用于大部分动态网络的社团检测,但是在聚类动态残基相互作用网络时没有考虑到蛋白质的特性。该算法计算每一时刻残基相互作用网络内残基之间的相似度和相邻网络之间的扰动相似度,并对每一时刻残基相互作用网络进行社团检测,所以该算法时间消耗相对较长。而且该算法输入是每一时刻残基相互作用网络的所有残基相互作用,检测出的社团结构可能包含一些对蛋白质性质没有关键影响的相互作用,不利于深入分析蛋白质的性质。
而本申请方法与Wang等人的方法不同的是首先将所有连续时刻的网络编码为进化图,压缩了网络中的时间信息,计算残基与残基相互作用的持久值,保留随着时间推移稳定存在的残基相互作用,再进行社团检测。避免了循环计算每一时刻残基相互作用网络过程,并且稳定的残基与残基相互作用往往对蛋白质的性质起决定性作用。因此,本申请方法检测动态残基相互作用网络的社团比Wang等人的方法速度更快并利于深入分析蛋白质的性质。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

  1. 一种动态残基相互作用网络的社团检测方法,其特征在于,所述方法包括:
    将残基相互作用网络编码为进化图,进而筛选出进化图中的刚性残基相互作用,得到刚性残基相互作用网络,对刚性残基相互作用网络采用Fast-Newman算法进行社团检测,从而得到动态残基相互作用网络中的社团结构。
  2. 根据权利要求1所述的方法,其特征在于,所述方法包括:
    S1:基于蛋白质的分子动力学模拟轨迹,构建动态残基相互作用网络;
    S2:将动态残基相互作用网络编码为进化图;
    S3:基于路径的刚性相互作用识别,得到刚性残基相互作用网络;
    S4:采用Fast-Newman算法进行社团检测。
  3. 根据权利要求2所述的方法,其特征在于,所述S1包括:
    基于蛋白质的分子动力学模拟轨迹,利用Ring2.0构建静态残基相互作用网络,将模拟时间内的蛋白质构象编码为时变残基相互作用网络,即动态残基相互作用网络DRIN;
    动态残基相互作用网络定义为DRIN=<RIN 1,RIN 2,…,RIN t,…,RIN T>,其中T代表总模拟时间,RIN t=(V t,E t)代表时间t时刻的静态残基相互作用网络,V t代表时间t时刻的所有顶点的集合,E t表示在t时刻所有边的集合。
  4. 根据权利要求2所述的方法,其特征在于,所述S2包括:
    将S1构建得到的动态残基相互作用网络DRIN编码为进化图;动态残基相互作用网络DRIN的进化图定义为E g=(V S,E S,L S),其中V S=V 1∪V 2∪…∪V T是DRIN的所有节点的集合,E S=E 1∪E 2∪…∪E T是DRIN所有边的集合;
    L S是DRIN边的标签集合;边的标签集合中的元素是表示边权重的字符串;其中0表示两个残基在某一时刻不存在相互作用,非零值表示当前时刻存在相互作用;
    L S用如下公式描述;
    Figure PCTCN2020070789-appb-100001
    其中,str i表示第i个边的标签字符串,1≤i≤n;n是DRIN中的边数。
  5. 根据权利要求4所述的方法,其特征在于,所述S3包括:
    连续的非零值序列称为E g拓扑结构上的路径path;如下式所示,边的标签字符串str i中有m条路径;
    Figure PCTCN2020070789-appb-100002
    路径的出发时间和到达时间分别定义为departure(path)=t s和arrival(path)=t e,路径的长度为:
    ‖Path‖=arrival(path)-departure(path)=t e-t s
    设定一个时间阈值p,如果在p个连续时间中存在残基间相互作用,则认为该残基间相互作用是稳定的,即选择路径‖Path‖≥p;使用边持久值Epv i判断边是否稳定,公式如下:
    Figure PCTCN2020070789-appb-100003
    其中,Epv i表示模拟时间内第i条边持久性的值,T是总时间;n是边的标签字符串str i中的路径数目;Path k是边的标签字符串str i第k条路径,当Epv i的值大于或等于设定的稳定性阈值时,认定边i连接的残基之间存在刚性相互作用,进而得到刚性残基相互作用网络。
  6. 根据权利要求5所述的方法,其特征在于,所述设定的稳定性阈值取0.9。
  7. 根据权利要求6所述的方法,其特征在于,所述时间阈值p取值为50。
  8. 根据权利要求7所述的方法,其特征在于,所述S4包括:
    根据边的持久值Epv i,选择每对残基中的刚性相互作用;使用Fast-Newman算法进行社团检测;
    步骤如下:
    步骤1:将刚性残基相互作用网络中的每个残基视为一个社团;
    步骤2:将所有的残基进行两两合并,保留模块度Q最大的结果,继续迭代合并;
    步骤3:直到所有残基最终融合为一个社团时终止迭代;最终,依据最大Q值的划分,得到了社团结构;Q的计算公式如下:
    Figure PCTCN2020070789-appb-100004
    其中,u表示刚性残基相互作用网络中社团的个数,e zz表示任意社团z中的相互作用数量与网络中所有相互作用的数量之比,1≤z≤u,并且a z表示任意社团z中残基的度与整个 网络残基的度的比值。
  9. 一种确定蛋白质结构与功能之间关系的方法,其特征在于,所述方法采用权利要求1-8任一所述的动态残基相互作用网络的社团检测方法进行确定蛋白质与功能之间的关系,所述方法包括:基于蛋白质的分子动力学模拟轨迹,构建动态残基相互作用网络;将动态残基相互作用网络编码为进化图;基于路径的刚性相互作用识别,得到刚性残基相互作用网络;采用Fast-Newman算法进行社团检测;根据社团检测结果确定蛋白质结构与功能之间的关系。
  10. 权利要求1-8任一所述的动态残基相互作用网络的社团检测方法在在蛋白质结构与性质关系领域内的应用。
PCT/CN2020/070789 2019-06-19 2020-01-08 一种动态残基相互作用网络的社团检测方法 WO2020253222A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910529560.9A CN110310697A (zh) 2019-06-19 2019-06-19 一种动态残基相互作用网络的社团检测方法
CN201910529560.9 2019-06-19

Publications (1)

Publication Number Publication Date
WO2020253222A1 true WO2020253222A1 (zh) 2020-12-24

Family

ID=68076958

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/070789 WO2020253222A1 (zh) 2019-06-19 2020-01-08 一种动态残基相互作用网络的社团检测方法

Country Status (2)

Country Link
CN (1) CN110310697A (zh)
WO (1) WO2020253222A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989272A (zh) * 2020-12-31 2021-06-18 中科院计算技术研究所大数据研究院 一种基于局部路径的社团发现算法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310697A (zh) * 2019-06-19 2019-10-08 江南大学 一种动态残基相互作用网络的社团检测方法
CN111584013B (zh) * 2020-05-29 2023-10-27 江南大学 一种改变木聚糖酶热稳定性的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846255A (zh) * 2018-06-19 2018-11-20 江南大学 一种分析木聚糖酶热稳定性影响因素的方法
CN109033744A (zh) * 2018-06-19 2018-12-18 浙江工业大学 一种基于残基距离和接触信息的蛋白质结构预测方法
CN110310697A (zh) * 2019-06-19 2019-10-08 江南大学 一种动态残基相互作用网络的社团检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148717B (zh) * 2010-02-04 2013-08-21 明仲 一种二分网络中社团检测方法及装置
KR20120047224A (ko) * 2012-04-23 2012-05-11 주식회사 나노브릭 색 가변 물질 또는 광 투과도 가변 물질을 이용한 검출 방법 및 장치
CN102722639A (zh) * 2012-05-21 2012-10-10 西安电子科技大学 基于进化计算对社会系统进行社区检测的方法
CN103208027B (zh) * 2013-03-13 2015-07-22 北京工业大学 基于局部模块度的遗传算法用于大规模复杂网络社区挖掘的方法
CN105469315A (zh) * 2015-08-04 2016-04-06 电子科技大学 基于增量聚类的动态社会网络社团结构演化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846255A (zh) * 2018-06-19 2018-11-20 江南大学 一种分析木聚糖酶热稳定性影响因素的方法
CN109033744A (zh) * 2018-06-19 2018-12-18 浙江工业大学 一种基于残基距离和接触信息的蛋白质结构预测方法
CN110310697A (zh) * 2019-06-19 2019-10-08 江南大学 一种动态残基相互作用网络的社团检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989272A (zh) * 2020-12-31 2021-06-18 中科院计算技术研究所大数据研究院 一种基于局部路径的社团发现算法
CN112989272B (zh) * 2020-12-31 2024-02-27 中科院计算技术研究所大数据研究院 一种基于局部路径的社团发现算法

Also Published As

Publication number Publication date
CN110310697A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
Granik et al. Single-particle diffusion characterization by deep learning
WO2020253222A1 (zh) 一种动态残基相互作用网络的社团检测方法
Aiewsakun et al. The genomic underpinnings of eukaryotic virus taxonomy: creating a sequence-based framework for family-level virus classification
Han et al. A graph-based approach for trajectory similarity computation in spatial networks
Zhang Protein interaction networks: computational analysis
CN111008447A (zh) 一种基于图嵌入法的链路预测方法
Alsini et al. Improving the outlier detection method in concrete mix design by combining the isolation forest and local outlier factor
Al Hamad et al. Accuracy vs. cost in decision trees: A survey
CN113555062A (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Sobih et al. Metaflow: Metagenomic profiling based on whole-genome coverage analysis with min-cost flows
Teichert et al. High quality protein sequence alignment by combining structural profile prediction and profile alignment using SABERTOOTH
Borg et al. Comparison of Clustering Approaches for Gene Expression Data.
Idrus Distance Analysis Measuring for Clustering using K-Means and Davies Bouldin Index Algorithm
CN109543712B (zh) 时态数据集上的实体识别方法
Xu et al. Quantifying the effect of community structures for link prediction by constructing null models
Kuhn et al. ntab0: Design priors for AI-augmented generative design of network tied-arch-bridges
CN112989526B (zh) 一种基于核极限学习机的航空网络关键节点识别方法
Boujenfa et al. Tree-kNN: a tree-based algorithm for protein sequence classification
Wang et al. Accurate Detection of Road Network Anomaly by Understanding Crowd's Driving Strategies from Human Mobility
CN113159976B (zh) 一种微博网络重要用户的识别方法
Shi et al. Adaptive multi-layer contrastive graph neural networks
Liu et al. An Entropy‐Based Gravity Model for Influential Spreaders Identification in Complex Networks
CN112612968A (zh) 一种基于长期收益的动态社交网络中的链接推荐方法
Catanese et al. A nearest-neighbors network model for sequence data reveals new insight into genotype distribution of a pathogen
Xiao et al. A new deep transfer learning method for intelligent bridge damage diagnosis based on muti-channel sub-domain adaptation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20826845

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20826845

Country of ref document: EP

Kind code of ref document: A1