WO2019041333A1

WO2019041333A1 - 蛋白质结合位点的预测方法、装置、设备及存储介质

Info

Publication number: WO2019041333A1
Application number: PCT/CN2017/100314
Authority: WO
Inventors: 张勇; 何威; 徐勇; 赵东宁
Original assignee: 深圳大学; 哈尔滨工业大学深圳研究生院
Priority date: 2017-08-31
Filing date: 2017-09-04
Publication date: 2019-03-07
Also published as: US20190156915A1; US11620567B2; JP2019535057A; CN107563150A; CN107563150B; JP6850874B2

Abstract

一种蛋白质结合位点的预测方法、装置、设备及存储介质，适用于生物信息技术领域，该方法包括：接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到多个氨基酸子序列（S101），根据这些氨基酸子序列构建蛋白质序列的词向量，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量（S102），对这些氨基酸子序列进行蛋白质链生物学特征提取，根据提取的生物学特征构建蛋白质序列的生物学特征向量（S103），使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型（S104），从而提高了蛋白质结合位点预测的准确性和泛用性。

Description

蛋白质结合位点的预测方法、装置、设备及存储介质技术领域

[0001] 本发明属于生物信息技术领域，尤其涉及一种蛋白质结合位点的预测方法、装置、设备及存储介质。

背景技术

[0002] 近年来，生物信息学受到人们的广泛关注，越来越多不同领域的研究者投入到对生物信息学的研究工作中去。生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性学科，其知识体系中包含了生物学（遗传学、生物化学等）、数学（概率论与数理统计、算法等）、计算机科学（机器学习、计算理论等）、物理化学（分子建模、热力学等）等多个不同学科的知识。

[0003] 蛋白质是生命活动的体现者，是一切生物藉以表现生命的最重要基本单元，可以算是自然界最微小的自动机器，并且在与生物体系的运作中有着无可替代的作用。蛋白质在细胞内的不同作用是由蛋白质之间、蛋白质与 DNA、蛋白质与 R NA以及蛋白质与配体之间的相互作用来进行调控的。蛋白质 -蛋白质相互作用涉及蛋白质分子的关联，该关联在活细胞的每一个生物学过程中都起到非常关键的作用，例如 DNA合成、基因转录激活、蛋白质翻译、修饰和定位以及信息传导，这些重要的生物过程均涉及到蛋白质-蛋白质的相互作用。因此，探索蛋白质间相互作用的序列和结构特性对理解细胞活动至关重要。

[0004] 随着新一代测序技术的不断发展，已测定的蛋白质序列数据不断增加。于是，人们对能够快速可靠地识别蛋白质结合位点的计算工具的需求也愈发强烈。蛋白质结合位点的定位对分析理解蛋白质相互作用的分子细节以及蛋白质功能至关重要。目前，国内外的对蛋白质结合位点的研究预测，大多基于通过对单个位点进行专业测定，得到的理化特征，以及通过对蛋白质链进行分析，计算得到的位点间序列特征。这样忽略了蛋白质结合位点的聚簇特性和氨基酸残基之间的关联信息，从而对蛋白质结合位点预测的准确性和泛用性不高。

技术问题 [0005] 本发明的目的在于提供一种蛋白质结合位点的预测方法、装置、计算设备及存储介质，旨在解决由于现有技术对蛋白质结合位点预测的准确性和泛用性不高的问题。

问题的解决方案

技术解决方案

[0006] 一方面，本发明提供了一种蛋白质结合位点的预测方法，所述方法包括下述步骤：

[0007] 接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分，得到组成所述蛋白质序列的多个氨基酸子序列；

[0008] 根据所述多个氨基酸子序列构建所述蛋白质序列的词向量，所述词向量的词元素表示每个所述氨基酸子序列，对所述词元素进行文档特征提取，根据提取的文档特征构建所述蛋白质序列的文档特征向量；

[0009] 对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量；

[0010] 使用预设的氨基酸残基分类模型对所述文档特征向量和所述生物学特征向量进行分类，得到所述蛋白质序列的氨基酸残基类型。

[0011] 另一方面，本发明提供了一种蛋白质结合位点的预测装置，所述装置包括： [0012] 序列划分单元，用于接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分，得到组成所述蛋白质序列的多个氨基酸子序列；

[0013] 第一向量构建单元，用于根据所述多个氨基酸子序列构建所述蛋白质序列的词向量，所述词向量的词元素表示每个所述氨基酸子序列，对所述词元素进行文档特征提取，根据提取的文档特征构建所述蛋白质序列的文档特征向量；

[0014] 第二向量构建单元，用于对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量；以及

[0015] 结果获取单元，用于使用预设的氨基酸残基分类模型对所述文档特征向量和所述生物学特征向量进行分类，得到所述蛋白质序列的氨基酸残基类型。 [0016] 另一方面，本发明还提供了序列划分和分类模型构建所需的计算环境以及可在所述环境中运行的计算机程序，所述处理器执行所述计算机程序吋实现如所述蛋白质结合位点的预测方法的步骤。

[0017] 另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行吋实现如所述蛋白质结合位点的预测方法的步骤。

发明的有益效果

有益效果

[0018] 本发明接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列，根据得到的多个氨基酸子序列构建蛋白质序列的词向量，该词向量的词元素表示每个氨基酸子序列，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量，对氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量，使用预设的氨基酸残基分类模型对同吋使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型，从而提高了蛋白质结合位点预测的准确性和泛用性。

对附图的简要说明

附图说明

[0019] 图 1是本发明实施例一提供的蛋白质结合位点的预测方法的实现流程图；

[0020] 图 2是本发明实施例二提供的蛋白质结合位点的预测装置的结构示意图；

[0021] 图 3是本发明实施例三提供的蛋白质结合位点的预测装置的结构示意图；以及 [0022] 图 4是本发明实施例四提供的计算设备的结构示意图。

本发明的实施方式

[0023] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0024] 以下结合具体实施例对本发明的具体实现进行详细描述：

[0025] 实施例一：

[0026] 图 1示出了本发明实施例一提供的蛋白质结合位点的预测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

[0027] 在步骤 S101中，接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列

[0028] 本发明实施例适用于蛋白质结合位点的预测系统。在本发明实施例中，为体现蛋白质-蛋白质结合位点的聚集特性，在接收到待预测的蛋白质序列后，启动滑动窗口，通过调节滑动窗口大小与滑动步长，对蛋白质序列进行划分，得到组成该待预测蛋白质序列的多个氨基酸子序列，从而将蛋白质序列的局部分块作为后续的分析单元。

[0029] 在本发明实施例中，优选地，滑动窗口的大小为（2*window + 1 - 2*b) ，其中

， window为预设值， b是随机生成的、大小处于 0到 window-1之间的变量。这样的滑动窗口中包含了目标残基两侧各 window-b个邻域残基，随着窗口在氨基酸序列上的滑动，滑动窗口的大小在 3 (b=window-l) 到 2*window+l (b=0) 之间随机改变，得到以若干个氨基酸残基构成的蛋白质分块，从而方便以蛋白质分块作为基本单位进行后续分析，充分体现蛋白质结合位点的聚簇特性，进而提高后续的特征表示能力、预测精度和泛用性。

[0030] 优选地，在接收待预测的蛋白质序列之前，通过机器学习训练得到氨基酸残基分类模型。优选地，可以使用 Stacking集成学习算法来进行机器学习，从而提高氨基酸残基分类模型的分类准确性和泛化能力。

[0031] 优选地，在通过机器学习训练得到氨基酸残基分类模型吋，首先使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分，得到组成该训练蛋白质序列的多个训练氨基酸子序列，然后根据得到的多个训练氨基酸子序列构建训练蛋白质序列的训练词向量，训练词向量的训练词元素表示每个训练氨基酸子序列，对训练词元素进行文档特征提取，根据提取的文档特征构建训练蛋白质序列的文档特征训练向量，并对训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建训练蛋白质序列的生物学特征训练向量，最后使用文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练，当达到预设的训练结束条件吋，将训练得到分类模型设置为氨基酸残基分类模型，从而为后续的氨基酸残基分类提供了分类模型，提高了分类模型的分类效率。其中，训练结束条件可以设置为训练次数到的预设次数或者训练过程中的损失达到预设值

[0032] 具体地，在得到多种类型的特征后，使用 Stacking集成学习算法来训练预设的模型，以得到氨基酸残基分类模型。 Stacking模型第一层分别使用不同种类的蛋白质链生物学特征训练多种基分类器，之后将多种基分类器的预测结果与文档特征向量进行拼接，以此作为最终的特征向量进行训练，得到氨基酸残基分类模型。

[0033] 在步骤 S102中，根据得到的多个氨基酸子序列构建蛋白质序列的词向量，词向量的词元素表示每个氨基酸子序列，该对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量。

[0034] 在本发明实施例中，序列划分得到多个氨基酸子序列后，首先根据氨基酸子序列构建蛋白质序列的词向量，其中，该词向量的词元素表示每个氨基酸子序列，然后对词元素进行文档特征提取，最后根据提取的文档特征构建蛋白质序列的文档特征向量。其中，提取的文档特征包括 TFIDF序列特征和 N-gmm序列特征等特征。

[0035] 优选地，在根据氨基酸子序列构建蛋白质序列的词向量吋，对每种氨基酸子序列分配一个唯一编号并使用 _word2vec算法将原始的子序列唯一编号映射到 _κ维向量空间中，得到蛋白质序列的词向量。这样可以有效地降低特征维度，为文本数据寻求更加深层次的特征表示，并且利用了高维词向量中的所有数据，使得数据规模更大，有利于提高后续的分类效果。

[0036] 在步骤 S103中，对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量。 [0037] 在本发明实施例中，首先对序列划分得到的氨基酸子序列进行蛋白质链生物学特征提取，然后根据提取到的生物学特征，构建蛋白质序列的生物学特征向量，其中，提取的生物学特征包括位置特异性打分矩阵特征和伪氨基酸组成特征等特征，从而有效地表示氨基酸在序列中出现顺序等局部信息，增强了特征向量对蛋白质序列信息的表示能力，进而提高了生物学特征向量中生物学特征的全面性。

[0038] 在步骤 S104中，使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型。

[0039] 在本发明实施例中，氨基酸残基类型用于说明氨基酸残基是否为蛋白质序列的结合位点。优选地，在对文档特征向量和生物学特征向量进行分类吋，首先对生物学特征向量进行预测，然后将预测的预测结果与文档特征向量进行特征拼接，最后对特征拼接得到的拼接特征向量进行分类，从而进一步提高了蛋白质结合位点预测的准确性。其中，预设的氨基酸残基分类模型为前述训练得到的氨基酸残基分类模型，从而提高蛋白质序列的结合位点的预测准确性。

[0040] 实施例二：

[0041] 图 2示出了本发明实施例二提供的蛋白质结合位点的预测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

[0042] 序列划分单元 21，用于接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列。

[0043] 第一向量构建单元 22，用于根据得到的多个氨基酸子序列构建蛋白质序列的词向量，词向量的词元素表示每个氨基酸子序列，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量。

[0044] 第二向量构建单元 23，用于对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量。

[0045] 结果获取单元 24，用于使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型。 [0046] 在本发明实施例中，序列划分单元 21接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列，第一向量构建单元 22根据得到的多个氨基酸子序列构建蛋白质序列的词向量，该词向量的词元素表示每个氨基酸子序列，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量，第二向量构建单元 23对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量，结果获取单元 24 使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型，从而提高了蛋白质结合位点预测的准确性和泛用性。

[0047] 在本发明实施例中，蛋白质结合位点的预测装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考前述实施例一的描述，在此不再赘述。

[0048] 实施例三：

[0049] 图 3示出了本发明实施例三提供的蛋白质结合位点的预测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

[0050] 训练序列划分单元 31，用于使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分，得到组成该训练蛋白质序列的多个训练氨基酸子序列。

[0051] 第一特征处理单元 32，用于根据得到的多个训练氨基酸子序列构建训练蛋白质序列的训练词向量，训练词向量的训练词元素表示每个训练氨基酸子序列，对训练词元素进行文档特征提取，根据提取的文档特征构建训练蛋白质序列的文档特征训练向量。

[0052] 第二特征处理单元 33，用于对训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建训练蛋白质序列的生物学特征训练向量。

[0053] 模型训练单元 34，用于使用文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练，当达到预设的训练结束条件吋，将训练得到分类模型设置为氨基酸残基分类模型。

[0054] 在本发明实施例中，在接收待预测的蛋白质序列之前，通过机器学习训练得到氨基酸残基分类模型。优选地，可以使用 Stacking集成学习算法来进行机器学习，从而提高氨基酸残基分类模型的分类准确性和泛化能力。

[0055] 具体地，在通过机器学习训练得到氨基酸残基分类模型吋，首先训练序列划分单元 31使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分，得到组成该训练蛋白质序列的多个训练氨基酸子序列，然后第一特征处理单元 32根据得到的多个训练氨基酸子序列构建训练蛋白质序列的训练词向量，训练词向量的训练词元素表示每个训练氨基酸子序列，对训练词元素进行文档特征提取，根据提取的文档特征构建训练蛋白质序列的文档特征训练向量，第二特征处理单元 33对训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建训练蛋白质序列的生物学特征训练向量，最后模型训练单元 34使用文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练，当达到预设的训练结束条件吋，将训练得到分类模型设置为氨基酸残基分类模型，从而为后续的氨基酸残基分类提供了分类模型，提高了分类模型的分类效率。其中，训练结束条件可以设置为训练次数到的预设次数或者训练过程中的损失达到预设值。

[0056] 具体地，在得到多种类型的特征后，使用 Stacking集成学习算法来训练预设的模型，以得到氨基酸残基分类模型。 Stacking模型第一层分别使用不同种类的蛋白质链生物学特征训练多种基分类器，之后将多种基分类器的预测结果与文档特征向量进行拼接，以此作为最终的特征向量进行训练，得到氨基酸残基分类模型。

[0057] 序列划分单元 35，用于接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列。

[0058] 在本发明实施例中，为体现蛋白质-蛋白质结合位点的聚集特性，在接收到待预测的蛋白质序列后，序列划分单元 35启动滑动窗口，通过调节滑动窗口大小与滑动步长，对蛋白质序列进行划分，得到组成该待预测蛋白质序列的多个氨基酸子序列，从而将蛋白质序列的局部分块作为后续的分析单元。

[0059] 在本发明实施例中，优选地，滑动窗口的大小为（2*window + 1 - 2*b) ，其中

[0060] 第一向量构建单元 36，用于根据得到的多个氨基酸子序列构建蛋白质序列的词向量，词向量的词元素表示每个氨基酸子序列，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量。

[0061] 在本发明实施例中，序列划分得到多个氨基酸子序列后，第一向量构建单元 36 首先根据氨基酸子序列构建蛋白质序列的词向量，其中，该词向量的词元素表示每个氨基酸子序列，然后对词元素进行文档特征提取，最后根据提取的文档特征构建蛋白质序列的文档特征向量。其中，提取的文档特征包括 TFIDF序列特征和 N-gram序列特征等特征。

[0062] 优选地，在根据氨基酸子序列构建蛋白质序列的词向量吋，对每种氨基酸子序列分配一个唯一编号并使用 _word2vec算法将原始的子序列唯一编号映射到 _κ维向量空间中，得到蛋白质序列的词向量。这样可以有效地降低特征维度，为文本数据寻求更加深层次的特征表示，并且利用了高维词向量中的所有数据，使得数据规模更大，有利于提高后续的分类效果。

[0063] 第二向量构建单元 37，用于对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量。

[0064] 在本发明实施例中，第二向量构建单元 37首先对序列划分得到的氨基酸子序列进行蛋白质链生物学特征提取，然后根据提取到的生物学特征，构建蛋白质序列的生物学特征向量，其中，提取的生物学特征包括位置特异性打分矩阵特征和伪氨基酸组成特征等特征，从而有效地表示氨基酸在序列中出现顺序等局部信息，增强了特征向量对蛋白质序列信息的表示能力，进而提高了生物学特征向量中生物学特征的全面性。

[0065] 结果获取单元 38，用于使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型。

[0066] 在本发明实施例中，氨基酸残基类型用于说明氨基酸残基是否为蛋白质序列的结合位点。优选地，在对文档特征向量和生物学特征向量进行分类吋，首先对生物学特征向量进行预测，然后将预测的预测结果与文档特征向量进行特征拼接，最后对特征拼接得到的拼接特征向量进行分类，从而进一步提高了蛋白质结合位点预测的准确性。其中，预设的氨基酸残基分类模型为前述训练得到的氨基酸残基分类模型，从而提高蛋白质序列的结合位点的预测准确性。

[0067] 因此，优选地，该结果获取单元 38包括：

[0068] 特征拼接单元 381，用于对生物学特征向量进行预测，将预测的预测结果与文档特征向量进行特征拼接；以及

[0069] 特征分类单元 382，用于对特征拼接得到的拼接特征向量进行分类。

[0070] 在本发明实施例中，蛋白质结合位点的预测装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

[0071] 实施例四：

[0072] 图 4示出了本发明实施例四提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

[0073] 本发明实施例的计算设备 4包括处理器 40、存储器 41以及存储在存储器 41中并可在处理器 40上运行的计算机程序 42。该处理器 40执行计算机程序 42吋实现上述蛋白质结合位点的预测方法实施例中的步骤，例如图 1所示的步骤 S101至 S104 。或者，处理器 40执行计算机程序 42吋实现上述各装置实施例中各单元的功能，例如图 2所示单元 21至 24、图 3所示单元 31至 38的功能。

[0074] 在本发明实施例中，该处理器 40执行计算机程序 42吋实现上述各个蛋白质结合位点的预测方法实施例中的步骤吋，接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列，根据得到的多个氨基酸子序列构建蛋白质序列的词向量，该词向量的词元素表示每个氨基酸子序列，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量，对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量，使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型，从而提高了蛋白质结合位点预测的准确性和泛用性。该计算设备 4中处理器 40在执行计算机程序 42吋实现的步骤具体可参考实施例一中方法的描述，在此不再赘述。

[0075] 实施例五：

[0076] 在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行吋实现上述蛋白质结合位点的预测方法实施例中的步骤，例如，图 1所示的步骤 S101至 S104。或者，该计算机程序被处理器执行吋实现上述各装置实施例中各单元的功能，例如图 2所示单元 21至 24、图 3所示单元 31至 38的功能。

[0077] 在本发明实施例中，接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分，得到组成该待预测蛋白质序列的多个氨基酸子序列，根据得到的多个氨基酸子序列构建蛋白质序列的词向量，该词向量的词元素表示每个氨基酸子序列，对词元素进行文档特征提取，根据提取的文档特征构建蛋白质序列的文档特征向量，对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建蛋白质序列的生物学特征向量，使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类，得到蛋白质序列的氨基酸残基类型，从而提高了蛋白质结合位点预测的准确性和泛用性。该计算机程序被处理器执行吋实现的蛋白质结合位点的预测方法进一步可参考前述方法实施例中步骤的描述，在此不再赘述。

[0078] 本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如， ROM/RAM、磁盘、光盘、闪存等存储器。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

[权利要求 1] 一种蛋白质结合位点的预测方法，其特征在于，所述方法包括下述步骤：

接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分，得到组成所述蛋白质序列的多个氨基酸子序列；

根据所述多个氨基酸子序列构建所述蛋白质序列的词向量，所述词向量的词元素表示每个所述氨基酸子序列，对所述词元素进行文档特征提取，根据提取的文档特征构建所述蛋白质序列的文档特征向量；对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量；使用预设的氨基酸残基分类模型对使用所述文档特征向量和所述生物学特征向量表示的氨基酸子序列进行分类，得到所述蛋白质序列的氨基酸残基类型。

[权利要求 2] 如权利要求 1所述的方法，其特征在于，接收待预测的蛋白质序列的步骤之前，所述方法还包括：

使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分，得到组成所述训练蛋白质序列的多个训练氨基酸子序列根据所述多个训练氨基酸子序列构建所述训练蛋白质序列的训练词向量，所述训练词向量的训练词元素表示每个所述训练氨基酸子序列，对所述训练词元素进行文档特征提取，根据提取的文档特征构建所述训练蛋白质序列的文档特征训练向量；

对所述训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建所述训练蛋白质序列的生物学特征训练向量；

使用所述文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练，当达到预设的训练结束条件吋，将训练得到分类模型设置为所述氨基酸残基分类模型。

[权利要求 3] 如权利要求 1所述的方法，其特征在于，所述预设的滑动窗口的大小为（2*window + 1 - 2*b) ，所述 window为预设值，所述 b是随机生成的、大小位于 0到 window-1之间的变量。

[权利要求 4] 如权利要求 1或 2所述的方法，其特征在于，所述文档特征包括 TFIDF

序列特征和 N-gmm序列特征，所述生物学特征包括位置特异性打分矩阵特征和伪氨基酸组成特征。

[权利要求 5] 如权利要求 1所述的方法，其特征在于，使用预设的氨基酸残基分类模型对所述文档特征向量和所述生物学特征向量进行分类的步骤，包括：

对所述生物学特征向量进行预测，将预测的预测结果与所述文档特征向量进行特征拼接；

对所述特征拼接得到的拼接特征向量进行分类。

[权利要求 6] —种蛋白质结合位点的预测装置，其特征在于，所述装置包括：序列划分单元，用于接收待预测的蛋白质序列，使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分，得到组成所述蛋白质序列的多个氨基酸子序列；

第一向量构建单元，用于根据所述多个氨基酸子序列构建所述蛋白质序列的词向量，所述词向量的词元素表示每个所述氨基酸子序列，对所述词元素进行文档特征提取，根据提取的文档特征构建所述蛋白质序列的文档特征向量；

第二向量构建单元，用于对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量；以及结果获取单元，用于使用预设的氨基酸残基分类模型对使用所述文档特征向量和所述生物学特征向量表示的氨基酸子序列进行分类，得到所述蛋白质序列的氨基酸残基类型。

[权利要求 7] 如权利要求 6所述的装置，其特征在于，所述装置还包括：训练序列划分单元，用于使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分，得到组成所述训练蛋白质序列的多个训练氨基酸子序列；

第一特征处理单元，用于根据所述多个训练氨基酸子序列构建所述训练蛋白质序列的训练词向量，所述训练词向量的训练词元素表示每个所述训练氨基酸子序列，对所述训练词元素进行文档特征提取，根据提取的文档特征构建所述训练蛋白质序列的文档特征训练向量；第二特征处理单元，用于对所述训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取，根据提取到的生物学特征构建所述训练蛋白质序列的生物学特征训练向量；以及

模型训练单元，用于使用所述文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练，当达到预设的训练结束条件吋，将训练得到分类模型设置为所述氨基酸残基分类模型。

[权利要求 8] 如权利要求 6所述的装置，其特征在于，所述结果获取单元包括：特征拼接单元，用于对所述生物学特征向量进行预测，将预测的预测结果与所述文档特征向量进行特征拼接；以及

特征分类单元，用于对所述特征拼接得到的拼接特征向量进行分类。

[权利要求 9] 一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序吋实现如权利要求 1至 5任一项所述方法的步骤。

[权利要求 10] —种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行吋实现如权利要求 1 至 5任一项所述方法的步骤。