WO2018119882A1

WO2018119882A1 - 一种宏基因组数据分类方法和装置

Info

Publication number: WO2018119882A1
Application number: PCT/CN2016/113029
Authority: WO
Inventors: 郭宁; 魏彦杰; 滕彦宁; 葛健秋; 张慧玲
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2018-07-05

Abstract

一种宏基因组数据分类方法，包括：计算待测序序列的特征向量（S101）；对所述特征向量进行聚类得到M组包含读长的簇G1至GM，所述M为不小于1的整数（S102）；获取所述簇G1至GM中每个簇的中心集合Ki（S103）；通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比，判断所述每个簇的基因组类别（S104）。所述方法使得基因组的分类精度得到提高，解决了现有技术中对基因序列分类速度慢、精度不高的问题。

Description

一种宏基因组数据分类方法和装置

技术领域

[0001] 本发明涉及基因数据处理领域，尤其涉及一种宏基因组数据分类方法和装置。

背景技术

[0002] 基于 DNA的宏基因组学理论上覆盖了环境样品中的全部微生物，因此可以更加全面真实地反映微生物群落组成，同吋大大拓展了筛选新的基因或生物活性物质的来源。根据所用策略不同，宏基因组学研究可分为序列驱动的（sequence-dr iven) 和功能驱动的（function-driven) ，其中，序列驱动是指通过测序分析微生物群落的结构和功能，功能驱动是指基于构建宏基因组文库筛选新基因或新物质的宏基因组学研究。

[0003] 宏基因组研究的目标是研究微生物群里的结构组成，例如，对海洋样本的测序科研揭示起环境的多样性，同样，对人类样本的研究可以人类微生物和人类健康之间的关系。一旦一个宏基因组的样本被测序，第一项任务就是要找到存在其中的各种微生物物种。基于比对和序列组成，将宏基因组的读长（read) 归类到已有的生物物种，现在有许多工具可以用。

[0004] 基于序列结构组成的宏基因组分类方法，是利用序列本身的构成特征进行分类的方法。普遍的过程是用统计学的方法对样本数据进行抽样，利用筛选出来的特征表达，将序列数据抽象为生物意义上的特征向量，然后将这些特征向量组成特征矩阵，选择合适的分类器模型，对生物序列进行分类分析。 Kariin研究了多种微生物的基因组序列，发现同一物种的基因序列的碱基构成具有相似性（例如 GC的含量），而不同物种的碱基使用偏向性差异很大。基于这一理论基础， Teelin等人幵发了 TERTRA工具， Chan等人幵发了基于自组织生长算法的工具。在特征的使用方面，微生物的物种丰度、基因功能、代谢通路、系统发育关系等可作为该群落或样本的特征用来进行样本分类。 David等人使用微生物的全基因组序列的表型特点； G C含量、基因组大小、微生物能量来源、生存湿度 W及耗氧量等作为样本特征，利用 R -SVM分类器对宏基因组序列进行了分类。 [0005] 常用的分类器有朴素贝叶斯分类模型、期望最大化模型、最大似然估计模型、马尔可夫模型等。目前，一种宏基因组的分类器是监督分类，起使用结构组成的相关的序列特征，应用在已知类别标签的序列中，提取特征信息，输入分类器，训练分类模型，最后对未知标签的序列进行分类。 CARMA就是一种基于监督的宏基因组分类工具，它根据隐马尔科夫模型，对长度 80bps (Base pairs) 的较短序列的分类效果很好。 TACOA用了基于核函数的 kNN算法能够对读长大于 8 00bps的序列进行预测，该软件可以保持参考基因组数据库的实吋更新，并且可以使用 IMMs (Interpolated Markov Models) 来建模，对长度大于 100bps的序列的分类准确度很高。 NBC将朴素贝叶斯分类算法应用到宏基因组分类上，而且实现了网络在线服务，使得宏基因组分类的结果可以得到方便快捷的在网页上展示。张学工等人提出了一种不需要参考序列，使用 R-SVM算法的基于监督的宏基因组分类算法，利用特征选择算法筛选出序列结构信息中的有用特征来提高分类准确率。

[0006] 然而，上述现有的监督分类算法，由于特征提取方法和分类器模型性能的缘故，在针对低分类层次、多物种分类的大规模宏基因组数据分类问题吋分类精度比较低，且运行吋间幵销太大。

技术问题

[0007] 本发明的目的在于提供一种宏基因组数据分类方法和装置，以较小的吋间幵销提高基因组的分类精度。

问题的解决方案

技术解决方案

[0008] 本发明第一方面提供一种宏基因组数据分类方法，所述方法包括：

[0009] 计算待测序序列的特征向量；

[0010] 对所述特征向量进行聚类得到 M组包含读长的簇 G 1至 G M，所述 M为不小于 1 的整数；

[0011] 获取所述簇 G 1至 G M中每个簇的中心集合 Κ ί;

[0012] 通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别。 [0013] 本发明第二方面提供一种宏基因组数据分类装置，所述装置包括：

[0014] 计算模块，用于计算待测序序列的特征向量；

[0015] 聚类模块，用于对所述特征向量进行聚类得到 M组包含读长的簇 G 1至 G M，所述 M为不小于 1的整数；

[0016] 获取模块，用于获取所述簇 G 1至 G M中每个簇的中心集合 Κ ί;

[0017] 类别判断模块，用于通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别。

发明的有益效果

有益效果

[0018] 从上述本发明技术方案可知，通过对待测序序列的特征向量进行聚类得到若干组包含读长的簇，并由此获取所述簇的中心集合，由于只是将所述每个簇的中心集合的每一读长与参考基因序列对比，判断簇的基因组类别，因此，与现有技术相比，本发明提供的技术方案既降低了分类所用的吋间幵销即提高了运算速度，又显著提高了对测序序列所属基因组类别的分类精度。

对附图的简要说明

附图说明

[0019] 图 1是本发明实施例一提供的宏基因组数据分类方法的实现流程示意图；

[0020] 图 2是本发明实施例二提供的宏基因组数据分类装置的结构示意图；

[0021] 图 3是本发明实施例三提供的宏基因组数据分类装置的结构示意图；

[0022] 图 4是本发明实施例四提供的宏基因组数据分类装置的结构示意图；

[0023] 图 5-a是本发明实施例五提供的宏基因组数据分类装置的结构示意图；

[0024] 图 5-b是本发明实施例六提供的宏基因组数据分类装置的结构示意图；

[0025] 图 5-c是本发明实施例七提供的宏基因组数据分类装置的结构示意图；

[0026] 图 6-a是本发明实施例八提供的宏基因组数据分类装置的结构示意图；

[0027] 图 6-b是本发明实施例九提供的宏基因组数据分类装置的结构示意图；

[0028] 图 6-c是本发明实施例十提供的宏基因组数据分类装置的结构示意图；

[0029] 图 7是本发明实施例十一提供的宏基因组数据分类装置的结构示意图。本发明的实施方式

[0030] 为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0031] 本发明实施例提供一种宏基因组数据分类方法，所述方法包括：计算待测序序列的特征向量；对所述特征向量进行聚类得到 M组包含读长的簇 G 1至 G M，所述 M为不小于 1的整数；获取所述簇 G 1至 G M中每个簇的中心集合 Κ ί; 通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别。本发明实施例还提供相应的宏基因组数据分类装置。以下分别进行详细说明。

[0032] 请参阅附图 1，是本发明实施例一提供的宏基因组数据分类方法的实现流程示意图，主要包括以下步骤 S101至步骤 S104，详细说明如下：

[0033] S101 , 计算待测序序列的特征向量。

[0034] 作为本发明一个实施例，计算待测序序列的特征向量可通过如下步骤 S1011和 S 1012实现：

[0035] S1011 , 将待测序序列分割成 L-k+1个长度为 k的 k-mer，其中， L为待测序序列的长度。

[0036] 在基因学领域， k-mer是指一个长度为 k的子串，一般是从序列的某一位置幵始的 k个连续组成碱基。假设测序序列长度为 L，在本发明实施例中，可以将待测序序列依次按长度为 k=3、 4、 6截取片段，每个片段就是一个 k-mer，如此，一个长度为 L的待测序序列总共可分割为 L-k+1个长度为 k的 k-mer。

[0037] S 1012，统计经步骤 S 1011分割所得的 L-k+ 1个 k-mer中每个 k-mer的出现频率，将 L-k+1个 k-mer中 k-mer的出现频率组成维度为的向量作为待测序序列的特征向

[0038] 具体地，针对被分割为 L-k+1个长度为 k的 k-mer的待测序序列，统计这些 k-mer 中不同 k-mer的出现频率，然后，对这些 k-mer进行编码，分别将 A (腺嘌呤）、 T (鸟嘌呤）、 C (胞嘧啶）、 G (胸腺嘧啶）采用 0、 1、 2、 3这些数字表示，再进行四进制编码，将每个 k-mer的数字表示作为向量的维度索引，该 k-mer的出现频率作为向量值，从而组成一个维度为的向量，而该向量就是被分割为 L-k+1 个长度为 k的 k-mer的待测序序列的特征向量。

[0039] 需要说明的是，为了降低后续处理吋的计算量和 /或复杂度，从而减小运行吋的吋间幵销，在本发明实施例中，可以对待测序序列的特征向量进行降维处理

，具体可以使用基于互信息选择对待测序序列的特征向量进行降维处理。

[0040] S102, 对经步骤 S101计算所得待测序序列的特征向量进行聚类得到 M组包含读长的簇 G 1至 G M，此处， M为不小于 1的整数。

[0041] 具体地，可以使用聚类工具箱 vlfeat中的 kmeans算法将经步骤 S101计算所得待测序序列的特征向量进行聚类，从而得到 M组包含读长的簇（即 cluster) ，此处编号为 G l、 G 2、 …、 G i...、 G M-1 G M。

[0042] S103 , 获取簇 G l至 G M中每个簇的中心集合 Κ ί。

[0043] 经步骤 S102聚类所得的簇中，每个簇中有很多读长可能是有重叠的碱基的读长，在本发明实施例中，具体可以是将每个簇里的所有读长构成一个图（Graph) ，而每个读长是图的一个顶点，然后计算图的最大独立集，将这个最大独立集包含的那些读长构成每个簇的中心集合 Κ ί。

[0044] S104，通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断每个簇的基因组类别。

[0045] 作为本发明一个实施例，通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断每个簇的基因组类别可通过如下步骤 S1041和 S1042实现：

[0046] S1041 , 通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，统计每个簇的中心集合 Κ ί的每一读长的基因组类别。

[0047] 具体可以将每个簇的中心集合 Κ ί

的每一读长与参考基因序列对比，使用工具 BLAST, 统计出每个簇的中心集合 K ί的每一读长的基因组类别。需要说明的是，本发明的技术方案并不是将每个簇的所有读长与参考基因序列对比，而是只选择每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，如此，减小了每个簇的类别的搜索范围，减小了对比量，从而减小了吋间上的幵销。 [0048] S1042, 若中心集合 K冲任一读长 R ί的基因组类别 C ί的出现频率不小于预设阈值，则将读长 R啲基因组类别 C ί确认为读长 R ί所属簇的基因组类别。

[0049] 在将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比过程中，统计的结果可能是同一读长却属于不同的基因组类别，此吋，可以以该读长的基因组类别的出现频率来确定其基因组类别。例如，假设预设阈值是 70%，若对比和统计的结果显示读长 R i的基因组类别属于 C ί的出现频率是 30%，属于 C" ί的出现频率是 43%，属于 C啲出现频率是 75%，则将读长 R i的基因组类别确定为 C i，并且将读长 R ί的基因组类别 C ί确认为读长 R ί所属中心集合 Κ ί的基因组类别或所属簇的基因组类别。

[0050] 为了将经步骤 S104错分或误分的序列剔除，提高宏基因组数据分类整体的分类准确率，在本发明实施例中，可在步骤 S104后，进一步采用多核学习训练分类器对所述已确认基因组类别的簇再次进行分类。具体可以是从已确认基因组类别的簇的中心集合 Κ ί中随机选取一定比例，例如 60%的读长作为训练集，用多核学习工具 shogun训练分类模型，将余下比例，例如 40%的读长作为测试集，采用多核学习训练分类器对其进行分类，滤除每个中心集合 Κ ί中由于上一步聚类错误判别的读长。

[0051] 从上述附图 1示例的宏基因组数据分类方法可知，通过对待测序序列的特征向量进行聚类得到若干组包含读长的簇，并由此获取所述簇的中心集合，由于只是将所述每个簇的中心集合的每一读长与参考基因序列对比，判断每个簇的基因组类别，因此，与现有技术相比，本发明提供的技术方案既降低了分类所用的吋间幵销即提高了运算速度，又显著提高了对测序序列所属基因组类别的分类精度。

[0052] 请参阅附图 2，是本发明实施例二提供的宏基因组数据分类装置的结构示意图。为了便于说明，附图 2仅示出了与本发明实施例相关的部分。附图 2示例的宏基因组数据分类装置可以是附图 1示例的宏基因组数据分类方法的执行主体。附图 2示例的宏基因组数据分类装置主要包括计算模块 201、聚类模块 202、获取模块 203和类别判断模块 204，其中：

[0053] 计算模块 201，用于计算待测序序列的特征向量。 [0054] 聚类模块 202，用于对计算模块 201计算所得待测序序列的特征向量进行聚类得到 M组包含读长的簇 G 1至 G M，其中， M为不小于 1的整数。

[0055] 具体地，聚类模块 202可以使用聚类工具箱 vlfeat中的 kmeans算法将经计算模块 201计算所得待测序序列的特征向量进行聚类，从而得到 M组包含读长的簇（即 c luster) ，此处编号为 G l、 G 2、 …、 G i...、 G M-1、 G M。

[0056] 获取模块 203，用于获取簇 G l至 G M中每个簇的中心集合 Κ ί。

[0057] 经聚类模块 202聚类所得的簇中，每个簇中有很多读长可能是有重叠的碱基的读长，在本发明实施例中，获取模块 203具体可以将每个簇里的所有读长构成一个图（Graph) ，而每个读长是图的一个顶点，然后计算图的最大独立集，将这个最大独立集包含的那些读长构成每个簇的中心集合 Κ ί。

[0058] 类别判断模块 204，用于通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断每个簇的基因组类别。

[0059] 需要说明的是，以上附图 2示例的宏基因组数据分类装置的实施方式中，各功能模块的划分仅是举例说明，实际应用中可以根据需要，例如相应硬件的配置要求或者软件的实现的便利考虑，而将上述功能分配由不同的功能模块完成，即将所述宏基因组数据分类装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。而且，实际应用中，本实施例中的相应的功能模块可以是由相应的硬件实现，也可以由相应的硬件执行相应的软件完成，例如，前述的聚类模块，可以是具有执行前述对计算模块（或计算器）计算所得待测序序列的特征向量进行聚类得到 Μ组包含读长的簇 G 1至 G Μ的硬件，例如聚类器，也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备；再如前述的类别判断模块，可以是执行通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断每个簇的基因组类别的硬件，例如类别判断器，也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备（本说明书提供的各个实施例都可应用上述描述原则）。

[0060] 附图 2示例的计算模块 201可以包括分割单元 301和统计单元 302，如附图 3所示本发明实施例三提供的宏基因组数据分类装置，其中：

[0061] 分割单元 301，用于将待测序序列分割成 L-k+1个长度为 k的 k-mer，其中， L为待测序序列的长度。

[0062] 在基因学领域， k-mer是指一个长度为 k的子串，一般是从序列的某一位置幵始的 k个连续组成碱基。假设测序序列长度为 L，在本发明实施例中，分割单元 301 可以将待测序序列依次按长度为 k=3、 4、 6截取片段，每个片段就是一个 k-mer，如此，一个长度为 L的待测序序列总共可分割为 L-k+1个长度为 k的 k-mer。

[0063] 统计单元 302，用于统计 L-k+1个 k-mer中每个 k-mer的出现频率，将 L-k+1个 k-m er中 k-mer的出现频率组成维度为的向量确认为待测序序列的特征向量。

[0064] 具体地，针对被分割为 L-k+1个长度为 k的 k-mer的待测序序列，统计单元 302统计这些 k-mer中不同 k-mer的出现频率，然后，对这些 k-mer进行编码，分别将 A ( 腺嘌呤）、 T (鸟嘌呤）、 C (胞嘧啶）、 G (胸腺嘧啶）采用 0、 1、 2、 3这些数字表示，再进行四进制编码，将每个 k-mer的数字表示作为向量的维度索引，该 k-mer的出现频率作为向量值，从而组成一个维度为的向量，而该向量就是被分割为 L-k+1个长度为 k的 k-mer的待测序序列的特征向量。

[0065] 附图 2示例的类别判断模块 204可以包括对比单元 401和确定单元 402，如附图 4 所示本发明实施例四提供的宏基因组数据分类装置，其中：

[0066] 对比单元 401，用于通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，统计每个簇的中心集合 Κ ί的每一读长的基因组类别。

[0067] 具体地，对比单元 401可以将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，使用工具 BLAST , 统计出每个簇的中心集合 Κ ί的每一读长的基因组类别。需要说明的是，本发明的技术方案并不是将每个簇的所有读长与参考基因序列对比，而是只选择每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，如此，减小了每个簇的类别的搜索范围，减小了对比量，从而减小了吋间上的幵销。

[0068] 确定单元 402，用于若中心集合 Κ ί中任一读长 R i的基因组类别 C i的出现频率不小于预设阈值，则将读长 R ί的基因组类别 C ί作为读长 R ί所属簇的基因组类别。

[0069] 在对比单元 401将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比过程中

，统计的结果可能是同一读长却属于不同的基因组类别，此吋，可以以该读长的基因组类别的出现频率来确定其基因组类别。例如，假设预设阈值是 70%，若对比和统计的结果显示读长 R i的基因组类别属于 C ί的出现频率是 30%，属于 C" ί的出现频率是 43%，属于 C啲出现频率是 75%，则确定单元 402将读长 R i的基因组类别确定为 C ί，并且将读长 R ί的基因组类别 C ί确认为读长 R ί所属中心集合 Κ ί的基因组类别或所属簇的基因组类别。

[0070] 附图 2至 4任一示例的宏基因组数据分类装置还可以包括降维模块 501，如附图 5 -a至 5-c所示本发明实施例五至七提供的宏基因组数据分类装置。降维模块 501用于计算模块 201计算待测序序列的特征向量之后，聚类模块 202对特征向量进行聚类得到 M组包含读长的簇 G 1至 G M之前，对待测序序列的特征向量进行降维处理，具体可以使用基于互信息选择对待测序序列的特征向量进行降维处理。经过降维模块 501的降维处理后，可以降低后续处理吋的计算量和 /或复杂度，从而减小运行吋的吋间幵销。

[0071] 附图 2至 4任一示例的宏基因组数据分类装置还可以包括再分类模块 601，如附图 6-a至 6-c所示本发明实施例八至十提供的宏基因组数据分类装置。再分类模块 601用于类别判断模块 204通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断每个簇的基因组类别之后，采用多核学习训练分类器对已确认基因组类别的簇再次进行分类。

[0072] 为了将经类别判断模块 204错分或误分的序列剔除，提高宏基因组数据分类整体的分类准确率，在本发明实施例中，可在类别判断模块 204通过将每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断每个簇的基因组类别后，再分类模块 601进一步采用多核学习训练分类器对已确认基因组类别的簇再次进行分类。具体可以是再分类模块 601从已确认基因组类别的簇的中心集合 Κ ί中随机选取一定比例，例如 60%的读长作为训练集，用多核学习工具 shogun训练分类模型，将余下比例，例如 40%的读长作为测试集，采用多核学习训练分类器对其进行分类，滤除每个中心集合 Κ ί中由于上一步聚类错误判别的读长。

[0073] 请参考图 7，本发明实施例十一提供了一种宏基因组数据分类装置 700的示意图。宏基因组数据分类装置 700可能是计算机设备或者计算机设备中的一个功能单元，本发明具体实施例并不对宏基因组数据分类装置的具体实现做限定。宏基因组数据分类装置 700包括： [0074] 处理器（processor) 710，通信接口（Communications Interface) 720，存储器

(memory) 730，总线 740。

[0075] 处理器 710，通信接口 720，存储器 730通过总线 740完成相互间的通信。

[0076] 通信接口 720，用于与外界设备，例如，个人电脑、服务器等通信。

[0077] 处理器 710，用于执行程序 732。

[0078] 具体地，程序 732可以包括程序代码，所述程序代码包括计算机操作指令。

[0079] 处理器 710可能是一个中央处理器 CPU, 或者是特定集成电路 ASIC (Applicatio n Specific Integrated Circuit) ，或者是被配置成实施本发明实施例的一个或多个集成电路。

[0080] 存储器 730，用于存放程序 732。存储器 730可能包含高速 RAM存储器，也可能还包括非易失性存储器（non-volatile memory) ，例如至少一个磁盘存储器。程序 732具体可以包括：

[0081] 计算模块 733，用于计算待测序序列的特征向量；

[0082] 聚类模块 744，用于对所述特征向量进行聚类得到 M组包含读长的簇 G 1至 G M

，所述 M为不小于 1的整数；

[0083] 获取模块 755，用于获取所述簇 G 1至 G M中每个簇的中心集合 Κ ί;

[0084] 类别判断模块 766，用于通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别。

[0085] 程序 732中各单元的具体实现参见图 2所示实施例中的相应单元，在此不赘述。

[0086] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0087] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现吋可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0088] 所述作为分离部件说明的单元可以是或者也可以不是物理上分幵的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0089] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

[0090] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用吋，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： u盘

、移动硬盘、只读存储器 (ROM , Read-Only Memory)、随机存取存储器（RAM ， Random Access Memory) 、磁碟或者光盘等各种可以存储程序代码的介质。

[0091] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

[权利要求 1] 一种宏基因组数据分类方法，其特征在于，所述方法包括：

计算待测序序列的特征向量；

对所述特征向量进行聚类得到 M组包含读长的簇 G 1至 G M，所述 M 为不小于 1的整数；

获取所述簇 G 1至 G M中每个簇的中心集合 K i;

通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别。

[权利要求 2] 根据权利要求 1所述的方法，其特征在于，所述计算待测序序列的特征向量包括：

将所述待测序序列分割成 L-k+1个长度为 k的 k-mer，所述 L为所述待测序序列的长度；

统计所述 L-k+1个 k-mer中每个 k-mer的出现频率，将所述 L-k+1个 k-me r中 k-mer的出现频率组成维度为的向量作为所述待测序序列的特征向

[权利要求 3] 根据权利要求 1所述的方法，其特征在于，所述通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别，包括：

通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，统计所述每个簇的中心集合 Κ ί的每一读长的基因组类别；

若所述中心集合 Κ ί中任一读长 R ί的基因组类别 C ί的出现频率不小于预设阈值，则将所述读长 R啲基因组类别 C ί确认为所述读长 R ί所属簇的基因组类别。

[权利要求 4] 根据权利要求 1至 3任意一项所述的方法，其特征在于，所述计算待测序序列的特征向量之后，对所述特征向量进行聚类得到 Μ组包含读长的簇 G 1至 G M之前，所述方法还包括：

对所述待测序序列的特征向量进行降维处理。

[权利要求 5] 根据权利要求 1至 3任意一项所述的方法，其特征在于，所述通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别之后，所述方法还包括：

采用多核学习训练分类器对所述已确认基因组类别的簇再次进行分类

[权利要求 6] —种宏基因组数据分类装置，其特征在于，所述装置包括：

计算模块，用于计算待测序序列的特征向量；

聚类模块，用于对所述特征向量进行聚类得到 Μ组包含读长的簇 G 1 至 G M，所述 M为不小于 1的整数；

获取模块，用于获取所述簇 G 1至 G M中每个簇的中心集合 Κ ί; 类别判断模块，用于通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，判断所述每个簇的基因组类别。

[权利要求 7] 根据权利要求 6所述的装置，其特征在于，所述计算模块包括：

分割单元，用于将所述待测序序列分割成 L-k+1个长度为 k的 k-mer，所述 L为所述待测序序列的长度；

统计单元，用于统计所述 L-k+1个 k-mer中每个 k-mer的出现频率，将所述 L-k+1个 k-mer中 k-mer的出现频率组成维度为的向量作为所述待测序序列的特征向量。

[权利要求 8] 根据权利要求 6所述的装置，其特征在于，所述类别判断模块包括：对比单元，用于通过将所述每个簇的中心集合 Κ ί的每一读长与参考基因序列对比，统计所述每个簇的中心集合 Κ ί的每一读长的基因组类别；

确定单元，用于若所述中心集合 Κ ί中任一读长 R ί的基因组类别 C ί的出现频率不小于预设阈值，则将所述读长 R啲基因组类别 C ί确认为所述读长 R ί所属簇的基因组类别。

[权利要求 9] 根据权利要求 6至 8任意一项所述的装置，其特征在于，所述装置还包括：

降维模块，用于所述计算模块计算待测序序列的特征向量之后，所述聚类模块对所述特征向量进行聚类得到 Μ组包含读长的簇 G 1至 G Μ 之前，对所述待测序序列的特征向量进行降维处理。

[权利要求 10] 根据权利要求 6至 8任意一项所述的装置，其特征在于，所述装置还包括：

再分类模块，用于所述类别判断模块通过将所述每个簇的中心集合 K ί的每一读长与参考基因序列对比，判断所述簇的基因组类别之后，采用多核学习训练分类器对所述已确认基因组类别的簇再次进行分类

[权利要求 11] 一种宏基因组数据分类装置，其特征在于，所述装置包括：处理器，通信接口，存储器和总线；其中，所述处理器、所述通信接口和所述存储器通过所述总线完成相互间的通信；

所述通信接口，用于与外界设备通信；

所述处理器，用于执行程序；

所述存储器，用于存放所述程序；

所述程序包括：

计算模块，用于计算待测序序列的特征向量；