WO2020211466A1

WO2020211466A1 - 一种非冗余基因集聚类方法、系统及电子设备

Info

Publication number: WO2020211466A1
Application number: PCT/CN2019/130563
Authority: WO
Inventors: 郑志春; 郭宁; 魏彦杰
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2019-04-16
Filing date: 2019-12-31
Publication date: 2020-10-22
Also published as: CN110060740A; US20220005546A1; EP3955256A4; EP3955256A1

Abstract

本申请涉及一种非冗余基因集聚类方法、系统及电子设备。所述方法包括：步骤a：对原始基因集合进行比对操作，获取所述原始基因集合中满足相似度阈值的基因对；步骤b：基于所获取的基因对构建并查集森林；步骤c：根据所述并查集森林得到原始基因集合中所有类的基因聚类结果；步骤d：基于所述基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到非冗余参考基因组。本申请通过使用BLAT比对以及基于并查集的数据结构进行非冗余基因集的聚类工作，可以兼顾更多基因之间的相似度，提高去冗余的精确程度。

Description

一种非冗余基因集聚类方法、系统及电子设备

技术领域

本申请属于基因数据处理技术领域，特别涉及一种非冗余基因集聚类方法、系统及电子设备。

背景技术

随着下一代测序技术(NGS)的快速发展，生物序列数据量出现爆炸性的增长。一般认为，如果两条序列满足一定的相似度阈值条件，就认为这两条序列是相同的序列或者互为冗余。大量的冗余序列不仅会影响基因组研究的分析速度，增加内存消耗，降低分析流程的速度，更会导致错误的产生，影响最终的实验结果。

Hobohm和Sander[Hobohm U,Scharf M,Schneider R,et al.Selection of representative protein data sets.[J].Protein Science,2010,1(3):409-417；Hobohm U,Sander C.Enlarged representative set of protein structures.[J].Protein Science,2010,3(3):522-524.]是最早完成非冗余基因序列的聚类算法，基本思路是先将基因序列集合划分为若干个不同的类，然后从各个类中找出一个序列来代表该类，最终这些代表类所形成的集合就是非冗余参考基因集。

针对生物基因数据去冗余的软件主要有NRDB90[Holm L,Sander C.Removing near-neighbour redundancy from large protein sequence collections.[J].Bioinformatics,1998,14(5):423-429.]、CD-HIT[Li W,Jaroszewski L,Godzik A.Clustering of highly homologous sequences to reduce the size of large protein databases[J].Bioinformatics,2001,17(3):282-283；Li W,Jaroszewski L,Godzik A.Tolerating some Redundancy Significantly Speeds up Clustering of Large Protein Databases[J].Bioinformatics,2002,18(1):77-82；Li W.Fast Program for Clustering and Comparing Large Sets of Protein or Nucleotide Sequences[M].Springer US,2015.]、PICSES[Wang G,Jr D R.PISCES:a protein sequence culling server[J].Bioinformatics,2003,19(12):1589.]等，他们各具特色，均由序列比对和选取最终的冗余序列两部分构成。

目前，在研究中去冗余时使用最多应用最广泛的就是CD-HIT。CD-HIT是由美国Burnham Institute开发的用来解决大规模蛋白质序列冗余问题的软件，可以在较短的时间内完成非冗余参考基因集的构建。具体实现原理：首先对所有序列按照其长度进行排序，然后从最长的序列开始，形成第一个序列类，然后依次对序列进行处理，如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中，否则形成新的序列类。

CD-HIT之所以快主要是两个方面的原因：一个是使用了word过滤方法，即如果两条序列之间的相似性在80％(假设序列长度为100)，那么它们至少有60个相同的长度为2的word，至少有40个相同的长度为3的word，至少有20个相同的长度为4的word。基于这个原则，在处理新的序列的时候，如果新的序列与已有序列的相同word的长度不能满足这些要求则不需要进行比对了，这极大的降低了时间消耗；另外一个原因是使用了index table，可以很快的计算序列之间相同word的数目。

尽管CD-HIT在去冗余时效率十分的高，可以在很短的时间内完成非冗余参考基因集的构建，但由于其每次在比对时都是使用新序列与当前序列类的代表序列进行比对，导致当前序列类中的其他序列没有了参考价值。比如存在A、B、C三个按长度从大到小排列的基因序列，按照CD-HIT的聚类方法，A首先被分作一类，然后依次取出B、C进行比对。如果A、B长度相近，A、B达到阈值并且A、C未达到阈值，这样我们将得到AB和C两个类别。而实际上C也应该可以认为与A是相似的序列。除此之外，基于word filter的方法使得每个长度的word能够处理的冗余性水平有限；例如长度为3的word只能够得到相似性66.7％以上的序列类。

基于上述问题，有必要提供一种新的非冗余基因集聚类方法，能够在提高基因去冗余过程中的准确度和效率的同时，尽可能更准确的剔除冗余基因。

发明内容

本申请提供了一种非冗余基因集聚类方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种非冗余基因集聚类方法，包括以下步骤：

步骤a：对原始基因集合进行比对操作，获取所述原始基因集合中满足相似度阈值的基因对；

步骤b：基于所获取的基因对构建并查集森林；

步骤c：根据所述并查集森林得到原始基因集合中所有类的基因聚类结果；

步骤d：基于所述基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到非冗余参考基因组。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述对原始基因集合进行比对操作具体为：设定相似度阈值，通过BLAT将原始基因集合比对到自身基因集合上；将BLAT的输出信息进行优化，剔除重复信息并且去除完全相同的序列，最后，删除不需要的列信息，保留基因对的序列名称及各自的长度信息。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述基于所获取的基因对构建并查集森林具体包括：对于任意的两个基因对，首先通过Find 操作查找两个基因对的root信息，如果两个基因对的root信息相同，则通过Union操作将两个基因对所代表的数合并成一棵树，并更新root信息；如果两个基因对的root信息不相同，则不进行Union操作。

本申请实施例采取的技术方案还包括：所述步骤b还包括：通过路径压缩操作对所述并查集森林进行路径优化，将每棵树的子节点都指向root节点，并在合并树时，将数目较小的树合并到数目较大的树上，得到优化后的并查集森林。

本申请实施例采取的另一技术方案为：一种非冗余基因集聚类系统，包括：

基因比对模块：用于对原始基因集合进行比对操作，获取所述原始基因集合中满足相似度阈值的基因对；

并查集构建模块：用于基于所获取的基因对构建并查集森林；

基因聚类模块：用于根据所述并查集森林得到原始基因集合中所有类的基因聚类结果；

结果输出模块：用于基于所述基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到非冗余参考基因组。

本申请实施例采取的技术方案还包括：所述基因比对模块对原始基因集合进行比对操作具体为：设定相似度阈值，通过BLAT将原始基因集合比对到自身基因集合上；将BLAT的输出信息进行优化，剔除重复信息并且去除完全相同的序列，最后，删除不需要的列信息，保留基因对的序列名称及各自的长度信息。

本申请实施例采取的技术方案还包括：所述并查集构建模块基于所获取的基因对构建并查集森林具体包括：对于任意的两个基因对，首先通过Find操作查找两个基因对的root信息，如果两个基因对的root信息相同，则通过 Union操作将两个基因对所代表的数合并成一棵树，并更新root信息；如果两个基因对的root信息不相同，则不进行Union操作。

本申请实施例采取的技术方案还包括并查集优化模块，所述并查集优化模块用于通过路径压缩操作对所述并查集森林进行路径优化，将每棵树的子节点都指向root节点，并在合并树时，将数目较小的树合并到数目较大的树上，得到优化后的并查集森林。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的非冗余基因集聚类方法的以下操作：

步骤b：基于所获取的基因对构建并查集森林；

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的非冗余基因集聚类方法、系统及电子设备通过使用BLAT比对以及基于并查集的数据结构进行非冗余基因集的聚类工作，可以兼顾更多基因之间的相似度，提高去冗余的精确程度。同时，基于并查集的数据结构，通过进一步的路径压缩优化可以在非常快的时间内完成非冗余基因集的构建，提升非参考基因集的构建效率。

附图说明

图1是本申请实施例的非冗余基因集聚类方法的流程图；

图2是本申请实施例的非冗余基因集聚类系统的结构示意图；

图3是本申请实施例提供的非冗余基因集聚类方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的非冗余基因集聚类方法的流程图。本申请实施例的非冗余基因集聚类方法包括以下步骤：

步骤100：通过基因比对软件BLAT对原始基因集合进行比对操作，获取原始基因集合中满足相似度阈值的基因对；

步骤100中，相似度阈值的基因对获取方式具体为：首先设定好相似度阈值，通过基因比对软件BLAT将原始基因集合比对到自身基因集合上；紧接着将BLAT的输出信息进行优化，由于采取的是自身比对，所以会出现序列比对两次的情况，本申请实施例中，会剔除重复信息并且去除相似度100％的序列(即完全相同的序列)。最后，删除一些不需要的列信息，仅仅保留基因对的序列名称及各自的长度信息。

步骤200：基于获取的基因对，通过并查集的Find和Union操作进行并查集森林的构建；

步骤200中，基因集合的比对操作完成后，会获得一系列的基因对，然后就可以进行并查集森林的构建。并查集算法主要包括Find和Union两个操作，具体为：

Find：确定元素属于哪一个子集，可以被用来确定两个元素是否属于同一子集；

Union：将两个子集合并成同一个集合。

本申请实施例中，并查集森林的构建具体为：对于任意的两个基因对，首先通过Find操作查找这两个基因对的root信息，如果两个基因对的root信息相同，则通过Union操作将两个基因对所代表的数合并成同一棵树，并更新root信息。如果两个基因对的root信息不相同，则不进行Union操作。随着基因对数目的增加，得到并查集森林。

步骤300：通过路径压缩操作对并查集森林进行路径优化，将每棵树的子节点都指向root节点，并且在合并树时，将数目较小的树合并到数目较大的树上，得到优化后的并查集森林；

步骤300中，随着基因对数目的增加，合并得到的树的高度越来越大，会影响后续的查询合并操作。为了解决由于树的深度过大带来的查询效率较低的问题，本申请通过路径压缩的方式对并查集森林进行路径优化，可以大幅提升非参考基因集的聚类效率。

步骤400：根据优化后的并查集森林得到原始基因集合中所有类的基因聚类结果；

步骤500：基于基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到最终的非冗余参考基因组。

步骤500中，经过并查集森林的构建，获得基于原始基因集合聚类完成的所有类。利用存储的长度信息，选取每一类中最长的一条序列作为代表序列，形成最后的非冗余参考基因组。

请参阅图2，是本申请实施例的非冗余基因集聚类系统的结构示意图。本申请实施例的非冗余基因集聚类系统包括基因比对模块、并查集构建模块、并查集优化模块、基因聚类模块和结果输出模块。

基因比对模块：用于通过基因比对软件BLAT对原始基因集合进行比对操作，获取原始基因集合中满足相似度阈值的基因对；其中，相似度阈值的基因对获取方式具体为：首先设定好相似度阈值，通过基因比对软件BLAT将原始基因集合比对到自身基因集合上；紧接着将BLAT的输出信息进行优化，由于采取的是自身比对，所以会出现序列比对两次的情况，本申请实施例中，会剔除重复信息并且去除相似度100％的序列(即完全相同的序列)。最后，删除一些不需要的列信息，仅仅保留基因对的序列名称及各自的长度信息。

并查集构建模块：用于基于获取的基因对，通过并查集的Find和Union操作进行并查集森林的构建与优化；其中，基因集合的比对操作完成后，会获得一系列的基因对，然后就可以进行并查集森林的构建。并查集算法主要包括Find和Union两个操作，具体为：

Union：将两个子集合并成同一个集合。

并查集优化模块：用于通过路径压缩操作对并查集森林进行路径优化，将每棵树的子节点都指向root节点，并且在合并树时，将数目较小的树合并到数目较大的树上，得到优化后的并查集森林；其中，随着基因对数目的增加，合并得到的树的高度越来越大，会影响后续的查询合并操作。为了解决由于树的深度过大带来的查询效率较低的问题，本申请通过路径压缩的方式对并查集森林进行路径优化，可以大幅提升非参考基因集的聚类效率。

基因聚类模块：用于根据优化后的并查集森林得到原始基因集合中所有类的基因聚类结果；

结果输出模块：用于基于基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到最终的非冗余参考基因组。其中，经过并查集森林的构建，获得基于原始基因集合聚类完成的所有类。利用存储的长度信息，选取每一类中最长的一条序列作为代表序列，形成最后的非冗余参考基因组。

图3是本申请实施例提供的非冗余基因集聚类方法的硬件设备结构示意图。如图3所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

步骤b：基于所获取的基因对构建并查集森林；

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

步骤b：基于所获取的基因对构建并查集森林；

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

步骤b：基于所获取的基因对构建并查集森林；

本申请实施例的非冗余基因集聚类方法、系统及电子设备通过使用BLAT比对以及基于并查集的数据结构进行非冗余基因集的聚类工作，可以兼顾更多基因之间的相似度，提高去冗余的精确程度。同时，基于并查集的数据结构，通过进一步的路径压缩优化可以在非常快的时间内完成非冗余基因集的构建，提升非参考基因集的构建效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种非冗余基因集聚类方法，其特征在于，包括以下步骤：

步骤a：对原始基因集合进行比对操作，获取所述原始基因集合中满足相似度阈值的基因对；

步骤b：基于所获取的基因对构建并查集森林；

步骤c：根据所述并查集森林得到原始基因集合中所有类的基因聚类结果；

步骤d：基于所述基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到非冗余参考基因组。
根据权利要求1所述的非冗余基因集聚类方法，其特征在于，在所述步骤a中，所述对原始基因集合进行比对操作具体为：设定相似度阈值，通过BLAT将原始基因集合比对到自身基因集合上；将BLAT的输出信息进行优化，剔除重复信息并且去除完全相同的序列，最后，删除不需要的列信息，保留基因对的序列名称及各自的长度信息。
根据权利要求1或2所述的非冗余基因集聚类方法，其特征在于，在所述步骤b中，所述基于所获取的基因对构建并查集森林具体包括：对于任意的两个基因对，首先通过Find操作查找两个基因对的root信息，如果两个基因对的root信息相同，则通过Union操作将两个基因对所代表的数合并成一棵树，并更新root信息；如果两个基因对的root信息不相同，则不进行Union操作。
根据权利要求3所述的非冗余基因集聚类方法，其特征在于，所述步骤b还包括：通过路径压缩操作对所述并查集森林进行路径优化，将每棵树的子节点都指向root节点，并在合并树时，将数目较小的树合并到数目较大的树上，得到优化后的并查集森林。
一种非冗余基因集聚类系统，其特征在于，包括：

基因比对模块：用于对原始基因集合进行比对操作，获取所述原始基因集合中满足相似度阈值的基因对；

并查集构建模块：用于基于所获取的基因对构建并查集森林；

基因聚类模块：用于根据所述并查集森林得到原始基因集合中所有类的基因聚类结果；

结果输出模块：用于基于所述基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到非冗余参考基因组。
根据权利要求5所述的非冗余基因集聚类系统，其特征在于，所述基因比对模块对原始基因集合进行比对操作具体为：设定相似度阈值，通过BLAT将原始基因集合比对到自身基因集合上；将BLAT的输出信息进行优化，剔除重复信息并且去除完全相同的序列，最后，删除不需要的列信息，保留基因对的序列名称及各自的长度信息。
根据权利要求5或6所述的非冗余基因集聚类系统，其特征在于，所述并查集构建模块基于所获取的基因对构建并查集森林具体包括：对于任意的两个基因对，首先通过Find操作查找两个基因对的root信息，如果两个基因对的root信息相同，则通过Union操作将两个基因对所代表的数合并成一棵树，并更新root信息；如果两个基因对的root信息不相同，则不进行Union操作。
根据权利要求7所述的非冗余基因集聚类系统，其特征在于，还包括并查集优化模块，所述并查集优化模块用于通过路径压缩操作对所述并查集森林进行路径优化，将每棵树的子节点都指向root节点，并在合并树时，将数目较小的树合并到数目较大的树上，得到优化后的并查集森林。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至4任一项所述的非冗余基因集聚类方法的以下操作：

步骤a：对原始基因集合进行比对操作，获取所述原始基因集合中满足相似度阈值的基因对；

步骤b：基于所获取的基因对构建并查集森林；

步骤c：根据所述并查集森林得到原始基因集合中所有类的基因聚类结果；

步骤d：基于所述基因聚类结果，分别选取每一类中的最长序列作为每一类的代表序列，得到非冗余参考基因组。