WO2024060183A1

WO2024060183A1 - 基于多序列比对的酶序列生成方法、生成装置和存储介质

Info

Publication number: WO2024060183A1
Application number: PCT/CN2022/120790
Authority: WO
Inventors: 余函; 张洋铭; 罗小舟
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2022-09-21
Filing date: 2022-09-23
Publication date: 2024-03-28
Also published as: CN115472224A

Abstract

一种基于多序列比对的酶序列生成方法、生成装置和存储介质。该酶序列生成方法包括：从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列（S10）；将完整氨基酸序列和若干条相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同（S20）；将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型（S30）；利用氨基酸序列生成模型生成目标酶的多条扩展氨基酸序列（S40）。通过筛选相似的天然氨基酸序列并进行多序列比对处理，模型可以充分学习到并保留氨基酸序列中的关键位点信息，这样利用模型生成全新的氨基酸序列中具有酶活性的比例更高。

Description

基于多序列比对的酶序列生成方法、生成装置和存储介质

技术领域

本发明属于生物医药技术领域，具体地讲，涉及一种基于多序列比对的酶序列生成方法、生成装置、计算机可读存储介质、计算机设备。

背景技术

酶在生物催化、化工领域有着重要的应用，而由于天然酶存在的数量有限，限制了下游真实场景的工业应用。而众所周知，酶的功能由结构决定，酶的结构则本质上由一级序列决定，因此为了更有效的探索酶功能的空间，需要我们对天然酶的序列进行拓宽。除了传统的实验方法，例如定向进化和理性设计对酶进行改造外，随着机器学习、深度学习等方法的发展，基于计算的方法对酶进行改造也成为了另一类重要的研究方案。代表性的是基于生成式对抗网络的酶序列生成方法，该方法已经证明了可以有效的拓宽有效的酶序列空间，但是该方法在样本较少，即少序列生成时效果仍然不好，如关键位点的丢失，造成生成的氨基酸序列中有酶活性序列的比例较低。

发明内容

(一)本发明所要解决的技术问题

如何提高生成的酶的氨基酸序列中有酶活性序列的比例。

(二)本发明所采用的技术方案

一种基于多序列比对的酶序列生成方法，所述酶序列生成方法包括：

从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列；

将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同；

将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型；

利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。

可选择地，从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干相似氨基酸序列的方法为：

采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列，其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。

可选择地，将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练的方法包括：

采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串；

将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。

可选择地，每个数字编码串中具有21种不同的数字。

可选择地，所述第一阈值为90％，所述第二阈值为70％。

本申请还公开了一种基于多序列比对的酶序列生成装置，所述酶序列生成装置包括：

序列筛选单元，用于从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列；

多序列对比单元，用于将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同；

模型训练单元，用于将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型；

序列生成单元，用于利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。

可选择地，所述序列筛选单元还用于：

可选择地，所述模型训练单元包括：

编码子模块，用于采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串；

训练子模块，用于将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有基于多序列对比的酶序列生成程序，所述基于多序列对比的酶序列生成程序被处理器执行时实现上述的基于多序列比对的酶序列生成方法。

本申请还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于多序列对比的酶序列生成程序，所述基于多序列对比的酶序列生成程序被处理器执行时实现上述的基于多序列比对的酶序列生成方法。

(三)有益效果

本发明公开的一种基于多序列比对的酶序列生成方法、生成装置，相对于现有技术，具有如下技术效果：

通过筛选相似的天然氨基酸序列并进行多序列比对处理，模型可以充分学习到并保留氨基酸序列中的关键位点信息，这样利用模型生成全新的氨基酸序列中具有酶活性的比例更高。

附图说明

图1为本发明的实施例一的基于多序列比对的酶序列生成方法的流程图；

图2为本发明的实施例一的氨基酸序列在多序列对齐处理前后的示意图；

图3为本发明的实施例二的基于多序列比对的酶序列生成装置的示意图；

图4为本发明的实施例四的计算机设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：现有技术中利用生成式对抗网络生成酶序列时，由于酶序列样本较少，生成式对抗网络无法有效学习到酶序列中的关键位点信息，这样重新生成的酶序列容易丢失关键位点，导致有酶活性的序列比例较低。本申请提供的基于多序列比对的酶序列生成方法，首先从序列数据中筛选出与目标酶的完整氨基酸序列相似的多条相似氨基酸序列，接着进行多序列对齐，利用对齐之后的氨基酸序列对生成式对抗网络模型，最后利用训练好的模型生成新的氨基酸序列，由于增加了序列样本数量以及通过多序列对齐使得关键位点在位置上保持一样，模型更容易学习到关键位点信息并在学习过程中进行保留，这样利用训练好的模型生成的氨基酸序列也具有关键位点信息，这样可以提高有酶活性序列的比例。

具体来说，如图1所示，本实施例一提供一种基于多序列比对的酶序列生成方法包括如下步骤：

步骤S10、从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列；

步骤S20、将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同；

步骤S30、将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型；

步骤S40、利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。

具体来说，在步骤S10的主要目的是增加序列样本数量。示例性地，在确定了感兴趣的目标酶的完整氨基酸序列之后，采用局部对齐搜索工具(Basic Local Alignment Search Tool，BLAST)从所述序列数据库中筛选出若干条相似氨基酸序列，其中每条相似氨基酸序列与完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。示例性地，第一阈值为90％，第二阈值为70％，这样可以筛选出与目标酶的完整氨基酸序列相似的天然氨基酸序列，增加了样本数量。其中，序列数据库可以为Uniprot序列数据库等。

进一步地，由于酶的功能主要是通过氨基酸序列中部分关键氨基酸来体现的，例如不同种高热稳定性酶都具有相同的关键氨基酸(关键位点)，即该关键氨基酸的类型、在所在序列中的位置都是相同的。另一方面，由于不同酶的氨基酸序列的长度不同，会造成关键氨基酸在不同序列中的位置不相同，即关键位点没有进行对齐，例如第一条氨基酸序列长度为10，第5个氨基酸为关键位点G，第二条氨基酸序列长度为20，第10个氨基酸为关键位点G，即在纵向位置上关键位点G是不对齐的。因此，通过多序列比对处理，在各条氨基酸序列中插入补齐字符，使得各条氨基酸序列尽可能多的关键位点对齐，且对齐后的氨基酸序列长度相同的，这样在纵向方向上关键位点处于同一列，有利于后续训练过程中模型能容易识别出关键位点信息并进行保留。示例性地，如图2所示为聚对苯二甲酸乙二酯水解酶(Polyethylene terephthalate hydrolase，PETase)的氨基酸序列在多序列比对前后的变化，对齐后的序列能够有效地比对上关键位点。其中，可以采用的MEGA等多序列比对软件来实现上述的多序列对比处理。

进一步地，在得到各条对齐氨基酸序列之后，采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串，数字编码串可以被模型识别，将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。其中，对齐氨基酸序列具有20种不同天然氨基酸和补齐字符，因此可采用0、1、2……19、20来表示20种氨基酸和补齐字符，将对齐氨基酸序列转换为数字组合形式的数字编码串。

在步骤S30中，预先构建的生成式对抗网络模型包括生成器和判别器，将随机噪声输入到生成器，生成器输出生成数据，从所述训练样本中选取部分数据作为真实数据；将所述生成数据和所述真实数据共同输入至所述判别器中，判别器输出判别结果；根据判别结果调整所述生成器和所述判别器的网络参数，以完成一轮训练；重复上述训练步骤直至满足预定训练条件，以获得氨基酸序列生成模型。示例性地，生成式对抗网络模型采用WGAN-GP网络。

最后利用训练得到的氨基酸序列生成模型批量生成全新的扩展氨基酸序列，由于氨基酸序列生成模型能充分学习到天然氨基酸的关键位点信息，因此氨基酸序列生成模型生成的全新的扩展氨基酸序列也能较为完整地保留关键位点信息，使得扩展氨基酸序列与目标酶的完整氨基酸序列保持差异的前提下，同时又使得根据扩展氨基酸序列合成的酶与目标酶具有相同的功能，即扩展氨基酸序列具有酶活性，从而提高了氨基酸序列生成模型产生有酶活性序列的比例。

进一步地，本申请人从计算机模拟和实验验证两方面对本实施例一的方法进行了验证。我们以胞苷脱氨酶作为目标酶，计算机上比较了直接基于酶的完整氨基酸序列作为生成模型的输入和基于多序列比对得到的氨基酸序列作为生成模型的输入，经过分析两种生成模型输出的全新氨基酸序列的关键位点，结果证明了后者可以更有效的保守关键位点。同时，实验进一步证明了后者能够有效的提高有活性的比例。

本实施例一公开的基于多序列比对的酶序列生成方法，通过筛选相似的天然氨基酸序列并进行多序列对齐处理，模型可以充分学习到并保留氨基酸序列中的关键位点信息，这样利用模型生成全新的氨基酸序列中具有酶活性的比例更高。另外，经过多序列对齐处理前后的氨基酸序列数量是相同的，即若干条对齐氨基酸序列的数量、完整氨基酸序列与若干条相似氨基酸序列的数量之和，两者是相同的，现有技术中直接利用多序列对齐处理之前的氨基酸序列输入到模型中，生成的具有酶活性的氨基酸序列比例值较低，本实施例一中多序列对齐处理之后的氨基酸序列由于较好地保留了关键位点信息，输入到模型中生成的具有酶活性的氨基酸序列比例值较高。

进一步地，如图3所示，本实施例二还公开了一种基于多序列比对的酶序列生成装置，所述酶序列生成装置包括序列筛选单元100、多序列比对单元200、模型训练单元300、序列生成单元400。序列筛选单元100用于从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列；多序列对比单元200用于将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同；模型训练单元300用于将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型；序列生成单元400利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。

进一步地，序列筛选单元100还用于采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列，其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。

进一步地，模型训练单元300包括编码子模块和训练子模块。编码子模块用于采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串；训练子模块用于将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。其中，序列筛选单元100、多序列比对单元200、模型训练单元300、序列生成单元400的更加详细的工作过程可参照实施例一的相关描述，在此不进行赘述。

本实施例三还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有基于多序列对比的酶序列生成程序，所述基于多序列对比的酶序列生成程序被处理器执行时实现实施例一的基于多序列比对的酶序列生成方法。

本实施例四还公开了一种计算机设备，在硬件层面，如图4所示，该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有基于多序列对比的酶序列生成程序，所述基于多序列对比的酶序列生成程序被处理器执行时实现上述的基于多序列比对的酶序列生成方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

一种基于多序列比对的酶序列生成方法，其中，所述酶序列生成方法包括：

从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列；

将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同；

将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型；

利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。
根据权利要求1所述的基于多序列比对的酶序列生成方法，其中，从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干相似氨基酸序列的方法为：

采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列，其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。
根据权利要求1所述的基于多序列比对的酶序列生成方法，其中，将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练的方法包括：

采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串；

将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。
根据权利要求3所述的基于多序列比对的酶序列生成方法，其中，每个数字编码串中具有21种不同的数字。
根据权利要求2所述的基于多序列比对的酶序列生成方法，其中，所述第一阈值为90％，所述第二阈值为70％。
一种基于多序列比对的酶序列生成装置，其中，所述酶序列生成装置包括：

序列筛选单元，用于从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列；

多序列对比单元，用于将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理，获得若干条对齐氨基酸序列，其中各条对齐氨基酸序列的长度相同；

模型训练单元，用于将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练，获得氨基酸序列生成模型；

序列生成单元，用于利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。
根据权利要求6所述的基于多序列比对的酶序列生成装置，其中，所述序列筛选单元还用于：

采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列，其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。
根据权利要求6所述的基于多序列比对的酶序列生成装置，其中，所述模型训练单元包括：

编码子模块，用于采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串；

训练子模块，用于将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于多序列对比的酶序列生成程序，所述基于多序列对比的酶序列生成程序被处理器执行时实现权利要求1的基于多序列比对的酶序列生成方法。
根据权利要求9所述的计算机可读存储介质，其中，从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干相似氨基酸序列的方法为：

采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列，其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。
根据权利要求9所述的计算机可读存储介质，其中，将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练的方法包括：

采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符，将每条对齐氨基酸序列转换为数字编码串；

将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。
根据权利要求11所述的计算机可读存储介质，其中，每个数字编码串中具有21种不同的数字。
根据权利要求10所述的计算机可读存储介质，其中，所述第一阈值为90％，所述第二阈值为70％。