WO2024077568A1

WO2024077568A1 - 参考序列的构建方法、宏基因组数据压缩方法和电子设备

Info

Publication number: WO2024077568A1
Application number: PCT/CN2022/125204
Authority: WO
Inventors: 周雁; 丁仁鹏; 何时绪; 王琳琪; 史旭莲; 侯勇
Original assignee: 深圳华大智造科技股份有限公司
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2024-04-18

Abstract

提出了一种用于宏基因组数据压缩的参考序列的构建方法，包括：根据所述宏基因组数据的样本来源，构建基础参考序列数据库；基于所述基础参考序列数据库，构建基础参考序列数据库的索引；根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，获得比对结果，其中所述第一读长序列为待压缩的宏基因组数据中随机选择的部分样本的读长序列；和根据所述比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列。

Description

参考序列的构建方法、宏基因组数据压缩方法和电子设备

技术领域

本公开涉及生物数据压缩技术领域，具体涉及一种参考序列构建方法、宏基因组数据压缩方法和电子设备。

背景技术

宏基因组(Metagenome)即环境中所有微生物基因组的总和。宏基因组学(Metagenomics)是一种以环境样品中的微生物群体基因组为研究对象，以功能基因筛选和/或测序分析为研究手段，以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。宏基因组数据的研究使研究者摆脱物种界限，更有效地开发多物种基因资源并揭示更高更复杂层次上的生命运动规律。

高通量测序成本的快速下降促使基因组数据的产出大量增加，为数据的储存和传输带来巨大的挑战。基因数据主要以Fastq的格式进行储存，其序列信息和质量值的分布具有高度的随机性，无法使用通用的压缩软件如gzip等进行高效压缩。相关技术中基于索引的Fastq文件压缩工具通过将短读长序列(Reads)和参考基因组比对后，将序列信息转化为位置信息，从而提高压缩效率。这一策略高度依赖于参考基因序列的完整性，而宏基因组数据中物种组成较为复杂，无法通过稳定的参考序列来实现压缩效率的显著提升。

由此，亟待开发一种构建有效的宏基因组参考序列及基于该序列的宏基因组数据的压缩方法，以提升数据压缩效率的方法。

发明内容

为此，本公开的实施例提供了一种用于宏基因组数据压缩的参考序列的构建方法、宏基因组数据压缩方法、宏基因组数据压缩装置、电子设备、非瞬时性计算机可读存储介质、计算机程序产品及计算机程序。

本公开第一方面实施例提出了一种用于宏基因组数据压缩的参考序列的构建方法，包括：根据所述宏基因组数据的样本来源，构建基础参考序列数据库；基于所述基础参考序列数据库，构建基础参考序列数据库的索引；根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，获得比对结果，其中所述第一读长序列为待压缩的宏基因组数据中随机选择的部分样本的读长序列；和根据所述比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列。

在一些实施例中，根据所述宏基因组数据的样本来源，构建基础参考序列数据库，包括：根据所述宏基因组数据的所述样本来源，从公共数据库中获取对应的参考基因组并汇总，以获得所述基础参考序列数据库。

在一些实施例中，基于所述基础参考序列数据库，构建基础参考序列数据库的索引，包括：所述基础参考序列数据库中的单个参考基因组包括第一子序列和第二子序列，将所述第一子序列和第二子序列合并，并保留所述参考基因组的编号，以得到子序列合并参考基因组；基于所述子序列合并参考基因组，构建所述基础参考序列数据库的索引。

在一些实施例中，根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，包括：基于所述基础参考序列数据库的所述索引，将所述第一读长序列比对至每个所述子序列合并参考基因组上；基于所述第一读长序列比对到所述子序列合并参考基因组，记录所述读长序列比对到的所述参考基因组的所述编号。

在一些实施例中，其中根据比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列，包括：统计所述比对结果中，所述第一读长序列比对到各个所述参考基因组的所述编号的数目，以获得所述第一读长序列的所述序列丰度分布；根据所述序列丰度对所述参考基因组进行排序，选择前X位的参考基因组构建所述用于宏基因组数据压缩的参考序列。在一些实施例中，所述X可以为1000。

在一些实施例中，构建所述用于宏基因组数据压缩的参考序列，还包括：根据所述排序，选择所述序列丰度占比之和大于Y％的参考基因组构建所述用于宏基因组数据压缩的参考序列。在一些实施例中，所述Y可以为80。

在一些实施例中，所述用于宏基因组数据压缩的参考序列的构建方法还包括：将所述基础参考序列数据库拆分为子基础参考序列数据库；分别基于拆分出的所述子基础参考序列数据库构建子参考序列数据库的索引；基于所述子参考序列数据库的索引，将所述第一读长序列分别与每个所述子基础参考序列数据库进行比对，以获得第二比对结果，其中所述第二比对结果包括基于各个所述子基础参考序列数据库的子结果文件。

在一些实施例中，所述用于宏基因组数据压缩的参考序列的构建方法还包括：分别统计各个所述子结果文件中所述第一读长序列比对至每个所述子基础参考序列数据库的数目，以获得所述第一读长序列在各个所述子结果文件中的所述序列丰度分布；根据各个所述子结果文件中的所述序列丰度对所述参考基因组进行第一排序，选择各个所述子结果文件中所述序列丰度前X位的参考基因组构建子参考序列数据库；根据所述序列丰度，对所述子参考序列数据库中的参考基因组进行第二排序；选择子参考序列数据库中所述序列丰度分布前X位的参考基因组构建所述用于宏基因组数据压缩的参考序列。

在一些实施例中，构建所述用于宏基因组数据压缩的参考序列，还包括：根据所述第一排序，选择各个所述子结果文件中所述序列丰度占比之和大于Y％的参考基因组构建所述子参考序列数据库，并且

根据所述第二排序，选择所述子参考序列数据库中所述序列丰度占比之和大于Y％的参考基因组构建所述用于宏基因组数据压缩的参考序列。在一些实施例中，所述Y可以为80。

在一些实施例中，所述用于宏基因组数据压缩的参考序列的构建方法还包括：对所述比对结果进行第一和/或第二筛选，其中所述第一筛选包括：在所述比对结果中选择无插入和/或缺失的所述读长序列；所述第二筛选包括：选择低于错配阈值的所述读长序列。在一些实施例中，所述错配阈值可以为3。

本公开第二方面实施例提出了一种宏基因组数据压缩方法，所述方法包括：根据上方本公开第一方面的任一实施例所提出的用于宏基因组数据压缩的参考序列的构建方法，构建用于宏基因组数据压缩的参考序列；将第二读长序列与所述参考序列进行比对并记录比对结果，以获得所述宏基因组数据的压缩数据，其中所述第二读长序列为宏基因组数据中待压缩样本的读长序列。

在一些实施例中，将第二读长序列与所述参考序列进行比对并记录比对结果，包括：在所述第二读长序列与所述参考序列的错配碱基个数小于R1的情况下，记录所述第二读长序列在所述参考序列上的位置；在所述第二读长序列与所述参考序列的错配碱基个数大于R1且小于R2的情况下，记录所述第二读长序列中配对碱基在所述参考序列上的位置，并记录错配碱基的碱基信息；在所述第二读长序列与所述参考序列的错配碱基个数大于R2的情况下，记录所述第二读长序列。在一些实施例中，R1、R2、R3均为大于或等于0的整数。在一些实施例中，R1为0至5，R2为3至10。在一些实施例中，R1为0至2，R2为3至8。在一些实施例中，R1为0，R2为3。

在一些实施例中，所述宏基因组数据压缩方法还包括对所述宏基因组数据的质量值进行简并。

在一些实施例中，对所述宏基因组数据的质量值进行简并，包括：对所述宏基因组数据中的碱基质量值进行统计，以获得所述质量值在M个质量值范围内的分布；分别将所述M个范围内的所述质量值对应映射到M个映射值上，以简并所述宏基因组数据的所述质量值。在一些实施例中，M为大于0的整数。

在一些实施例中，所述宏基因组数据压缩方法还包括：在所述质量值低于Q的碱基的比例占所述宏基因组数据中所有碱基的比例低于设定比例N的情况下，将所述宏基因组数据中的所有碱基的质量值进行映射以简并所述宏基因组数据的所述质量值。

在一些实施例中，所述宏基因组数据压缩方法还包括：在所述质量值低于Q的碱基的比例占所述宏基因组数据中所有碱基的比例高于或等于设定比例N的情况下，将所述宏基因组数据中的所述质量值高于Q的所述碱基的质量值进行映射，以简并所述宏基因组数据的所述质量值。

在一些实施例中，所述宏基因组数据压缩方法还包括：在所述质量值低于Q的碱基的比例占所述宏基因组数据中所有碱基的比例高于或等于设定比例N的情况下，保留所述宏基因组数据中的所述质量值低于Q的所述碱基的原始质量值。

在一些实施例中，所述Q为碱基错误概率为0.01％至1％对应的质量值。在一些实施例中，所述N大于或等于10％。在一些实施例中，所述N大于或等于20％。

本公开第三方面实施例提出了一种宏基因组数据压缩装置，所述装置包括：参考序列构建模块，用于根据本公开第一方面中任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法，构建用于宏基因组数据压缩的参考序列；和

数据压缩模块，用于将所述宏基因组数据中的读长序列与所述参考序列进行比对并记录比对结果，以获得所述宏基因组数据的压缩数据。

在一些实施例中，所述装置还包括：质量值简并模块，用于对所述宏基因组数据的质量值进行简并。

本公开第四方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时，实现如本公开第一方面中任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法，所述方法包括：根据所述宏基因组数据的样本来源，构建基础参考序列数据库；基于所述基础参考序列数据库，构建基础参考序列数据库的索引；根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，获得比对结果，其中所述第一读长序列为待压缩的宏基因组数据中随机选择的部分样本的读长序列；和根据所述比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列。

本公开第五方面实施例提出了一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如本公开第一方面中任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法。

本公开第六方面实施例提出了一种计算机程序产品，所述计算机程序产品中包括计算机程序，当所述计算机程序在在被处理器执行时，实现如本公开第一方面中任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法。

本公开的实施例实现了如下有益效果：

本公开所提出的构建有效的宏基因组参考序列及基于该序列的宏基因组数据的压缩方法，能够构建有效的宏基因组数据压缩参考序列，通过借助索引依赖的压缩工具，能够大幅度提升宏基因组数据的压缩效率(其实现的平均压缩比为传统压缩比的近4倍)，缓解大样本量的宏基因组数据的储存压力和传输压力。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显然，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开实施例的用于宏基因组数据压缩的参考序列的构建方法图；

图2为根据本公开实施例的构建用于宏基因组数据压缩的参考序列的技术方案图；

图3为根据本公开实施例的基于高序列丰度的参考基因组的参考序列构建方法图；

图4为根据本公开实施例的宏基因组数据压缩方法的流程图；

图5为根据本公开实施例的基于参考序列的宏基因组数据压缩流程图；

图6为根据本公开实施例的质量值映射表的示例图；

图7为根据本公开实施例的质量值简并流程图；

图8为根据本公开一个实施例的条件性质量值简并的流程图；

图9为根据本公开另一实施例的条件性质量值简并的流程图；

图10为根据本公开另一实施例的宏基因组数据压缩方法图；

图11为根据本公开实施例的宏基因组数据压缩装置结构图；

图12示出了适于用来实现本公开实施方式的示例性计算机设备的框图；

图13为根据本公开实施例的具体数据压缩比分布图；

图14为质量值简并前和简并后233个样本物种组成的皮尔森相关系数统计图。

具体实施方式

下面结合具体实施方式对本公开进行进一步的详细描述，给出的实施例仅为了阐明本公开，并非限制本公开的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本公开的限制。

本公开是基于发明人的以下认识做出的：

相关技术中基于索引(本公开实施例中也称索引依赖)的压缩工具被用于宏基因组数据的压缩。在针对宏基因组数据的索引依赖的压缩工具中，通常通过以下两种方法实现参考序列的构建和数据的压缩。

方法1：基于公共数据库构建通用参考序列。例如针对肠道微生物等来源明确的数据，可通过将数据库中所有可能的物种基因组全部汇总以实现参考序列的构建。

方法2：基于物种组成及序列组装构建样本特异性参考序列。MetaCRAM(Kim,M.et al.,2016)及MCUIUC(Ligo,J.G.et al.,2013)首先通过宏基因组物种鉴定工具，对数据的物种组成进行快速鉴定，基于物种鉴定结果，用户选择丰度(Species Abundance)高于特定阈值的物种作为参考基因组来源，用于构建合适的参考基因组，并将比对失败的Reads进行从头组装，用于构建新的参考序列。最后分别基于从数据库中选择的参考序列及从头构建的参考序列，实现对宏基因组数据的压缩。

然而，方法1中的基于公共数据库构建通用参考序列的策略虽能够通过扩大参考基因组的数目而覆盖尽可能多的物种，但是由于微生物种类繁多，使得最后构建完成的参考序列文件极大，对计算机的配置(尤其是内存)有非常高的要求，不利于使用小规模计算集群或个人计算机的用户进行操作。

方法2中基于物种组成及序列组装构建样本特异性参考序列的策略虽能在获得理想压缩效率的同时，将内存需求控制在可接受范围内，但是在实际操作中，物种鉴定、序列从头组装均需要消耗大量的时间，最终导致数据压缩速度较慢。以MetaCRAM为例，压缩8,230MB的Fastq文件，需耗时73分钟。

本公开实施例提出的用于宏基因组数据压缩的参考序列的构建方法，通过构建项目特异性的参考序列，并结合条件性质量值有损压缩，对宏基因组数据实现了索引依赖的高效数据压缩。本公开实施例提出的用于宏基因组数据压缩的参考序列的构建方法及基于所构建的参考序列的宏基因组数据压缩方法，大幅度提升了宏基因组数据的压缩效率，有效缓解了大样本量的宏基因组数据的储存压力和传输压力。

本公开第一方面实施例提出了一种用于宏基因组数据压缩的参考序列的构建方法。

图1为根据本公开实施例的用于宏基因组数据压缩的参考序列的构建方法示意图。如图1所示，该方法可以包括：步骤101-104。

步骤101：根据宏基因组数据的样本来源，构建基础参考序列数据库。

本公开实施例中，“样本来源”为待压缩的宏基因组数据样本的提取环境。在本公开实施例中，样本可以为肠道微生物，水源微生物，土壤微生物等，样本来源对应可以为肠道、水源、土壤等。

本公开实施例中，基于项目背景信息(如肠道微生物，水源微生物，土壤微生物等)或样本来源，可以选择对应的公共数据库并下载常用的序列并进行汇总合并，作为基础参考序列库，用于比对索引的构建。在本公开的实施例中，肠道微生物数据库可以为GMrepo(Dai,D.et al,.2022)、gutMEGA-(Zhang,Q.et al.,2021)和uhgg(Almeida,A.et al.,2021)。

步骤102：基于基础参考序列数据库，构建基础参考序列数据库的索引。

在本公开实施例中，使用索引依赖的比对软件或脚本对基础参考序列数据库进行索引构建。在一些实施例中，索引依赖的比对软件可以为bwa(Burrows-Wheeler Aligner，Li H.and Durbin R.(2009)Fast and accurate short read alignment with Burrows-Wheeler Transform.Bioinformatics,25:1754-60.[PMID:19451168])、Bowtie(Langmead B,Trapnell C,Pop M,Salzberg SL.Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.Genome Biol 10:R25)、Bowtie2(Langmead B,Salzberg S.Fast gapped-read alignment with Bowtie 2.Nature Methods.2012,9:357-359)。

步骤103：根据基础参考序列数据库的索引，将第一读长序列与基础参考序列数据库进行比对，获得比对结果，其中第一读长序列为待压缩的宏基因组数据中随机选择的部分样本的读长序列。

本公开实施例中，可以随机选择待压缩样本中的部分样本的数据(即读长序列，Reads)与基础参考序列数据库进行比对。可以理解的是，相对于使用整体样本的大样本量，通过随机选择特定数目的样本进行前期比对，能够有效提升比对效率，节约运算资源。

步骤104：根据比对结果确定第一读长序列的序列丰度分布，构建用于宏基因组数据压缩的参考序列。

本公开实施例中，序列丰度是指在比对中，样本Reads分别比对到各个参考基因组的数量。在本公开实施例中，通过统计步骤103产出的比对结果中选定的部分样本的Reads(即第一读长序列)比对到各个参考基因组的数目，获得部分样本的Reads的序列丰度分布；根据序列丰度对基础参考序列数据库中的参考基因组进行排序，并根据用户自身的计算配置、对压缩比的要求或其它个性化需求，选择排名靠前的参考基因组，构建用于所有样本宏基因组数据压缩的参考序列。

图2为根据本公开实施例的构建用于宏基因组数据压缩的参考序列的技术方案图。如图2所示，本公开实施例提出的用于宏基因组数据压缩的参考序列的构建方法可以包括根据项目信息从公共微生物数据库中确定特定大类的微生物数据库，并从特定大类的微生物数据库中获取基础参考序列数据库；使用待压缩的全部样本中的部分样本(即测试样本)与基础参考序列数据库进行比对，获得部分样本的Reads在基础参考序列数据库中的各个参考基因组的序列丰度并排序，以获得部分样本的序列丰度分布；选择高丰度物种的参考基因组(即序列丰度排名靠前的基础参考序列数据库中的参考基因组)进行合并，由此获得项目特异性(即针对该项目)的参考序列，以用于后续宏基因组数据的索引依赖的数据压缩。本公开实施例提出的方法，通过随机选择特定数目的样本进行前期比对并根据序列丰度构建参考序列，能够有效提升比对效率，节约运算资源。同时，通过基于部分样本的序列丰度分布选择排名靠前的代表性参考基因组构建用于压缩的参考序列，大大降低了参考序列的数据量，有利于后期的高效比对和压缩。

在本公开实施例中，步骤S102还可以包括：基础参考序列数据库中的单个参考基因组包括第一子序列和第二子序列，将该第一子序列和第二子序列合并，并保留参考基因组的编号，以得到子序列合并参考基因组；基于子序列合并参考基因组，构建基础参考序列数据库的索引。

本公开实施例中，第一子序列或第二子序列可以为单个参考基因组的Fastq文件中的片段序列，如该参考基因组中的每条染色体的序列。本公开实施例中，通过对单个参考基因组的Fastq文件中的子序列进行合并，仅保留参考基因组的编号作为唯一的序列描述行，有效减少了基础参考序列数据库的体积，同时有利于后续比对结果的统计。

在本公开实施例中，还可将基础参考序列数据库拆分为若干个子基础参考序列数据库并分别基于拆分出的子基础参考序列数据库构建子参考序列数据库的索引；基于子参考序列数据库的索引，将随机选择的部分样本的读长序列(即第一读长序列)分别与每个子基础参考序列数据库进行比对，以获得第二比对结果，其中第二比对结果包括基于各个所述子基础参考序列数据库的子结果文件。可以理解的是，在实际应用中，部分用户的运算配置不足以基于体积较大的基础参考序列数据库进行运算，因此通过将基础参考序列数据库拆分为子基础参考序列数据库并分别基于该子基础参考序列数据库进行运算，有效降低了对用户运算配置的要求，使本公开实施例提出的构建索引方法的应用门槛降低，使其应用范围更加广泛。

图3为根据本公开实施例的基于高序列丰度的参考基因组的参考序列构建方法图。如图3所示，随机选定的部分待压缩样本数(即测试样本数)为A，基础参考序列数据库的个数(即基础序列索引文件数目)为B，其中B＝1时对应于不对基础参考序列数据库进行拆分；B≥2时对应于将基础参考序列数据库拆分为若干个子基础参考序列数据库。X为用户选定的针对参考基因组的序列丰度选择阈值。

在本公开实施例中，可以在不拆分基础参考序列数据库的情况下，针对单个整体的基础参考序列数据库进行比对和序列丰度筛选以确定用于宏基因组数据压缩的参考序列数据库。具体地，在合并了单个参考基因组的子序列并仅保留了单个基因组的编号的情况下，可以基于基础参考序列数据库的索引，将随机选择的部分样本的读长序列(即第一读长序列)比对至每个子序列合并参考基因组上；在部分样本的读长序列比对到子序列合并参考基因组的情况下，记录读长序列比对到的参考基因组的编号。其中比对软件可以为Bwa、Bowtie、Bowtie2或本地编写的索引依赖的脚本或软件。在本公开实施例中，在得到比对结果后，统计比对结果中部分样本的读长序列比对到各个参考基因组的编号的数目，以获得部分样本的读长序列的序列丰度分布；根据序列丰度对参考基因组进行排序，选择前X位的参考基因组构建用于宏基因组数据压缩的参考序列。

如图3所示，当基础参考序列数据库的个数B为1时，将测试样本(即部分样本，数目为A)中的每个样本与该基础参考序列数据库进行比对，得到A个样本在该基础参考序列数据库中每个参考基因组的序列丰度；将A个样本的序列丰度合并并排序，以得到A个测试样本的整体序列丰度分布；选择前X个参考基因组构建用于宏基因组数据压缩的参考序列。

在本公开实施例中，可以在拆分基础参考序列数据库的情况下，针对拆分后的子基础参考序列数据库进行比对和序列丰度筛选以确定用于宏基因组数据压缩的参考序列数据库。具体地，如图3所示，在B≥2时，将测试样本(即部分样本，数目为A)中的每个样本与每个子基础参考序列数据库进行比对以得到子结果文件；分别统计各个子结果文件中测试样本的读长序列比对至每个子基础参考序列数据库的数目，以获得测试样本的读长序列在各个子结果文件中的序列丰度分布，其中子结果文件中共B个，包含A*B个序列丰度分布；根据B个子结果文件中的序列丰度对参考基因组进行第一排序，分别选择B个子结果文件中序列丰度前X位的参考基因组构建子参考序列数据库，即子参考序列数据库中包括B*X个参考基因组；根据序列丰度，对所述子参考序列数据库中的B*X个参考基因组进行第二排序，并选择子参考序列数据库中序列丰度分布前X位的参考基因组构建用于宏基因组数据压缩的参考序列。

可以理解的是，在本公开实施例中，在将基础参考序列数据库拆分为若干个子基础参考序列数据库的情况下，也可在拆分前将基础参考序列数据库中的单个参考基因组内的子序列合并，并保留参考基因组的编号以进行后续比对；或者在拆分后，将拆分所得的子基础参考序列数据库中的单个参考基因组内的子序列合并，并保留参考基因组的编号以进行后续比对。

在本公开实施例中，序列丰度选择阈值X可以是用户根据数据情况、个人计算资源或对压缩比的需求等选定的。在一些实施例中，X可以为200至5000。在一些实施例中，X可以为500至3000。在一些实施例中，X可以为1000。

在本公开实施例中，还可以根据序列丰度的统计和排序结果，选择序列丰度占比之和大于Y％的参考基因组构建用于宏基因组数据压缩的参考序列，其中占比为某个参考基因组对应的序列丰度占总序列丰度的比例，选择序列丰度占比之和大于Y％的参考基因组即为按照序列丰度的统计和排序，选择排名前若干个参考基因组，使选定的前若干个参考基因组的序列丰度的占比之和大于Y％。

可以理解的是，在本公开实施例中，Y可以根据样本量、期望压缩比和用户运算资源确定。在一些实施例中，Y可以为20至80。在一些实施例中，Y可以为40至80。在一些实施例中，Y可以为80。在本公开实施例中，与使用基础参考序列数据库中的全部参考基因组相比，代表性参考基因组的使用并不影响后续数据压缩的准确性，即基于数据量庞大的基础参考序列数据库中的全部参考基因组所构建的索引进行的压缩，其压缩后的数据构成与本公开实施例中使用代表性参考基因组压缩后的数据构成相关性极高。因此，通过选择序列丰度排名靠前的具有代表性的参考基因组进行压缩索引的构建，有效降低了压缩索引的体积，大幅减少了后续压缩运算量，并保证了压缩数据的高保真性。

在本公开实施例中，在使用随机选择的部分样本与基础参考序列数据库或子基础参考序列数据库比对后，可以对比对结果进行第一和/或第二筛选，其中第一筛选包括：在比对结果中选择无插入和/或缺失的读长序列；第二筛选包括：选择低于错配阈值的读长序列。

在本公开实施例中，获得Bwa、Bowtie2或同样功能的脚本比对后的比对结果后，可以对比产生的结果文件(例如Bam或Sam格式)进行第一和/或第二筛选以对比对结果进行质量控制。在一些实施例中，在第一筛选中，可以根据结果文件(Concise Idiosyncratic Gapped Alignment Report)的Cigar值选择无插入和/或缺失的Reads，其中无插入和/或缺失以100M或150M表示(100和150代表Reads长度为100bp和150bp，M表示Match，100M或150M则表示Reads的100bp或150bp的全长序列均与参考序列完全匹配)。在一些实施例中，在第二筛选中，可以根据结果文件的N:M值选择错配数目低于错配阈值的Reads。在一些实施例中，错配阈值可以为1至10。在一些实施例中，错配阈值可以为1至5。在一些实施例中，错配阈值可以为3。可以理解的是，对比对结果中Reads的筛选去除了错配度较高的Reads，因而提升了Reads整体的可信度，使得基于筛选后的高可信度的Reads的序列丰度分布的参考基因组的选定也更为准确。

本公开实施例提出的用于宏基因组数据压缩的参考序列的构建方法，通过将基础参考序列数据库中单个参考基因组的子序列合并并仅保留其编号，和/或将基础参考序列数据库拆分为多个子基础参考序列数据库，有效解决了基础参考序列数据库的数据量大、小型计算集群或个人计算机的用户无法一次性对单个包含了上万个参考基因组的Fastq文件构建比对所需的索引的问题；同时，该方法通过随机选择部分样本进行前期比对和参考序列的构建，在确保构建的参考序列对于待压缩数据有尽可能大的覆盖度的同时，大大降低了比对中数据量的输入与产出，提升了参考序列的构建效率，节约了运算和存储资源。

本公开第二方面实施例提出了一种宏基因组数据压缩方法。图4为根据本公开实施例的宏基因组数据压缩方法的流程图。如图3所示，该方法包括：

步骤201：根据上述第一方面实施例中的任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法，构建用于宏基因组数据压缩的参考序列；

步骤202：将第二读长序列与参考序列进行比对并记录比对结果，以获得宏基因组数据的压缩数据，其中第二读长序列为宏基因组数据中待压缩样本的读长序列。

在本公开实施例中，在基于第一读长序列，即待压缩的宏基因组数据中随机选择的部分样本的读长序列，构建出用于宏基因组数据压缩的参考序列后，可以基于该参考序列对宏基因组数据中的部分或全部样本的读长序列进行压缩，也即，对第二读长序列进行压缩。可以理解的是，第二读长序列可以与第一读长序列相同，也可与第一读长序列不同。在本公开实施例中，基于所构建用于压缩的参考序列，可以根据用户需求，选择对宏基因组数据中的全部或部分样本进行压缩，由此在实现高效压缩的同时，提升了压缩的灵活性。

图5为根据本公开实施例的基于参考序列的宏基因组数据压缩流程图。如图5所示，在根据本公开第一方面实施例中的任一实施例构建好参考序列后，将待压缩的宏基因组数据中的Reads(Fastq文件)输入并与构建好的参考序列进行比对。

在一些实施例中，在宏基因组数据中的读长序列(即第二读长序列)与参考序列的错配碱基个数小于R1的情况下，记录该读长序列在参考序列上的位置；在宏基因组数据中的读长序列与参考序列的错配碱基个数大于R1且小于R2的情况下，记录该读长序列中配对碱基在参考序列上的位置，并记录该读长中错配碱基的碱基信息；在宏基因组数据中的读长序列与参考序列的错配碱基个数大于R2的情况下，记录该读长序列。在一些实施例中，R1、R2、R3均为大于或等于0的整数。在一些实施例中，R1为0至5，R2为3至10。在一些实施例中，R1为0至2，R2为3至8。在一些实施例中，R1为0，R2为3。

在一些实施例中，i.在宏基因组数据中的读长序列完全匹配到参考序列的情况下(即R1＝0)，记录该读长序列在参考序列上的位置；ii.在宏基因组数据中的读长序列与参考序列的错配碱基个数大于等于3(即R2＝3)的情况下，记录该读长序列中配对碱基在参考序列上的位置，并记录错配碱基的碱基信息；iii.在宏基因组数据中的读长序列与所述参考序列无法匹配(即错配碱基个数大于3)的情况下，记录所述读长序列。

在一些实施例中，在步骤ii中，在Reads与参考序列存在错配，且错配碱基的个数小于5个(即R1＝1-4)的情况下，记录该Reads配对碱基在参考序列上的位置，即将匹配碱基转化为位置信息储存，并记录错配碱基的实际碱基信息。在一些实施例中，步骤ii中的错配碱基个数可以为1至3个(即R1＝1、2或3)。

在一些实施例中，在步骤iii中，在Reads与参考序列存在错配，且错配碱基的个数大于5个(即R2≥5)的情况下，记录该Reads的序列信息，即保留该Reads的实际碱基信息。在一些实施例中，步骤iii中的错配碱基个数可以为大于3个的正整数(即R2＞3)。

在本公开实施例中，宏基因组数据压缩方法还包括：对宏基因组数据的质量值进行简并。

可以理解的是，宏基因组数据多以Fastq文件的形式存储。Fastq格式共分为4行，其中第4行中的字符对应代表该序列中每一位碱基的被识别错误的概率，即碱基质量值(Quality Score，Q-score)。也即，碱基质量值是碱基识别出错概率的整数映射，可以是Q＝-10*lgP，其中P为碱基识别出错的概率。

碱基质量值根据不同测序平台，具有不同的表示体系，例如Phred33体系和Phred64体系等，这些体系中使用不同的字符表示碱基的质量值，但均可以通过Q＝-10*lgP这一公式换算为碱基的错误概率。在本公开实施例中，依据碱基出错的可能性，碱基的质量值被划分为0至40，其中0代表错误概率为100％，40代表错误概率为0.01％。

在本公开实施例中，对宏基因组数据的质量值进行简并，包括：对宏基因组数据中的碱基质量值进行统计，以获得质量值在M个质量值范围内的分布；分别将M个范围内的质量值对应映射到M个映射值上，以简并宏基因组数据的质量值。

在本公开实施例中，根据不同的碱基出错概率设定M个质量值范围，并设定对应的M个具体映射值，以对碱基质量值进行映射以完成简并，其中M可以为大于0的整数，例如1至100中的任一整数。在本公开的一个实施例中，所有质量值按照各自代表的错误概率被分为4档(即M＝4)，分别为0至3(错误概率＞50％)、4至19(错误概率为1％至40％)、20至30(错误概率0.1％至1％)和30至40(错误概率0.01％至0.1％)。在另一个实施例中，所有质量值按照各自代表的错误概率被分为3档(即M＝3)。可以理解的是，可以根据实际需要确定和调整M的具体值和M个具体范围。

在本公开实施例中，M个具体映射值可以按照实际的数据情况由用户进行调整，本公开对此不作限制。图6为根据本公开实施例的质量值映射表的示例图。如图6所示，可以将质量值0至40划分为M个质量值范围，并以Q1、Q2……QM作为对应的具体映射值。

图7为根据本公开实施例的质量值简并流程图。如图7所示，通过将待压缩Reads的质量值进行统计，并划定不同的阈值范围，如[a,b]、[c,d]、[e,f]、……等，共M个，其中a-f分别代表不同的质量值。例如当碱基的质量值被划分为0至40而M＝3时，[a,b]可为0至10；[c,d]可为11至20；[e,f]可为21至40。在将待压缩Reads的碱基质量值分别划入M个阈值范围后，将落入同一阈值范围的碱基映射到同一具体映射值上，从而对待压缩Reads进行简并，由此缩小待压缩数据的体积、减少了冗余的运算量。

本公开发明人在具体运算时发现，在整体质量值较低的宏基因组数据中，中低水平的质量值的波动会影响到部分比对软件的比对质量值(如使用Bowtie2时，比对质量值以MAPQ表示)，从而影响下游分析，因此本公开实施例在宏基因组数据质量值简并中，还提出了对宏基因组数据质量值进行条件性简并的技术方案，以减小质量值的有损压缩对于下游分析的影响。

具体地，在本公开实施例中，在对所述将待压缩Reads的质量值进行统计后、对Reads进行简并前，还包括：在质量值低于Q的碱基的比例占宏基因组数据中所有碱基的比例低于设定比例N的情况下，将宏基因组数据中的所有碱基的质量值进行映射以简并宏基因组数据的质量值。

在本公开实施例中，在质量值低于Q的碱基的比例占宏基因组数据中所有碱基的比例高于或等于设定比例N的情况下，将宏基因组数据中的质量值高于Q的碱基的质量值进行映射，以简并宏基因组数据的所述质量值。

在本公开实施例中，在质量值低于Q的碱基的比例占宏基因组数据中所有碱基的比例高于或等于设定比例N的情况下，保留宏基因组数据中的质量值低于Q的碱基的原始质量值。

可以理解的是，在本公开实施例中，可以根据宏基因组数据的实际质量值分布以及期望的简并情况确定Q，例如当碱基的质量值被划分为0至40时，Q可以为0至40中的任一整数，即对应为碱基错误概率为100％至0.01％的范围。在本公开实施例中，Q可以为碱基错误概率为0.01％至1％对应的质量值。在一些实施例中，Q可以为碱基错误概率为0.1％至1％对应的质量值。

在本公开实施例中，设定比例N大于或等于20％。在另一些实施例中，N大于或等于10％。

图8为根据本公开一个实施例的条件性质量值简并的流程图。如图8所示，碱基的质量值为0至40，且质量值0至40被分为4个质量值范围(即M＝4)，分别为0至3(错误概率＞50％)、4至19(错误概率为1％至40％)、20至30(错误概率0.1％至1％)和30至40(错误概率0.01％至0.1％)，且4个质量值范围所对应的映射值分别为Q1、Q2、Q3和Q4。根据图7，对待压缩的Reads进行质量值统计，得到Reads在4个质量值范围内的分布，即R1、R2、R3和R4；判断宏基因组数据中的质量值低于Q＝29的碱基所占比例之和是否大于或等于设定比例N，即R1％+R2％+R3％是否大于或等于N％；若否，对待压缩数据中的所有碱基按照质量值映射表进行简并，即质量值为0至3的碱基的质量值将被映射和简并为Q1、质量值为4至19的碱基的质量值将被映射和简并为Q2、质量值为20至29的碱基的质量值将被映射和简并为Q3、质量值为30至40的碱基的质量值将被映射和简并为Q4；若R1％+R2％+R3％大于或等于N％，则对质量值小于等于Q＝29的碱基不予简并，即保留宏基因组数据中质量值小于等于Q＝29的碱基的原始质量值，并对质量值大于Q＝29(即大于或等于30)的碱基按照质量值映射表进行简并。

图9为根据本公开另一实施例的条件性质量值简并的流程图。如图9所示，该流程与图8所示流程不同点仅在于，若R1％+R2％+R3％大于或等于N％，则保留待压缩数据中所有碱基的原有质量值而不进行简并。

图10为根据本公开实施例的宏基因组数据压缩方法图。如图10所示，该方法可以包括用于压缩的索引的构建、待压缩数据(Fastq文件)的条件性质量值简并和基于构建的参考索引的数据压缩。

本公开第二方面实施例提出的宏基因组数据压缩方法，通过基于上述第一方面实施例中的任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法构建的参考序列，并将待压缩Read与构建的参考序列进行快速比对，若能够准确比对至相应位置，则只需记录下对应Read在参考序列上的位置信息；若存在少量错配，则在记录其余配对碱基的位置信息的同时，保留错配的碱基的信息；对于无法准确比对至参考序列的Read，则记录所有的序列信息，以此大幅度提升了宏基因组数据的压缩效率，缓解大样本量的宏基因组数据的储存压力。此外，本公开实施例提出的宏基因组数据压缩方法在压缩前对碱基质量值进行条件性简并，即通过设定阈值，对高质量值的碱基进行简并，并保留中低质量值碱基的原始质量值，由此在实现了简化和缩小待压缩数据的同时，不会影响后续的比对；同时基于简并质量值的待压缩数据，进一步了提高压缩效率。

本公开第三方面实施例提出了一种宏基因组数据压缩装置。图11为根据本公开实施例的宏基因组数据压缩装置结构图。如图11所示，宏基因组数据压缩装置90可以包括：参考序列构建模块901，用于根据上述第一方面实施例中的任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法，构建用于宏基因组数据压缩的参考序列；和数据压缩模块902，用于将宏基因组数据中的读长序列与参考序列进行比对并记录比对结果，以获得宏基因组数据的压缩数据。

在本公开实施例中，该装置90还可以包括：质量值简并模块903，用于对宏基因组数据的质量值进行简并。

本公开第三方面实施例提出的宏基因组数据压缩装置，通过基于上述第一方面实施例中的任一实施例所述的用于宏基因组数据压缩的参考序列的构建方法构建的参考序列，并将待压缩Read与构建的参考序列进行快速比对，若能够准确比对至相应位置，则只需记录下对应Read在参考序列上的位置信息；若存在少量错配，则在记录其余配对碱基的位置信息的同时，保留错配的碱基的信息；对于无法准确比对至参考序列的Read，则记录所有的序列信息，以此大幅度提升了宏基因组数据的压缩效率，缓解大样本量的宏基因组数据的储存压力。此外，本公开实施例提出的宏基因组数据压缩装置在压缩前对碱基质量值进行条件性简并，即通过设定阈值，对高质量值的碱基进行简并，并保留中低质量值碱基的原始质量值，由此在实现了简化和缩小待压缩数据的同时，不会影响后续的比对；同时基于简并质量值的待压缩数据，进一步了提高压缩效率。

为了实现上述实施例，本公开实施例还提出一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如本公开第一方面实施例提出的用于宏基因组数据压缩的参考序列的构建方法或如本公开第二方面实施例提出的宏基因组数据压缩方法。

为了实现上述实施例，本公开实施例还提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如如本公开第一方面实施例提出的用于宏基因组数据压缩的参考序列的构建方法或如本公开第二方面实施例提出的宏基因组数据压缩方法。

为了实现上述实施例，本公开实施例还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本公开第一方面实施例提出的用于宏基因组数据压缩的参考序列的构建方法或如本公开第二方面实施例提出的宏基因组数据压缩方法。

为了实现上述实施例，本公开实施例还提出一种计算机程序，该计算机程序包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行如本公开第一方面实施例提出的用于宏基因组数据压缩的参考序列的构建方法或如本公开第二方面实施例提出的宏基因组数据压缩方法。

图12示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图12显示的电子设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association；以下简称：VESA)局域总线以及外围组件互连(Peripheral Component Interconnection；以下简称：PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。

尽管图12中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read Only Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的预测模型的训练方法。

需要说明的是，前述对用于宏基因组数据压缩的参考序列的构建方法和宏基因组数据压缩方法实施例的解释说明也适用于上述实施例中的装置、电子设备、非瞬时计算机可读存储介质、计算机程序产品和计算机程序，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，在本公开的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。

如无特殊说明，以下实施例中的定量试验，均设置三次重复实验，结果取平均值。

实施例

本实施例以发布于中国国家基因库生命大数据平台的一个肠道微生物项目数据(db.cngb.org/search/project/CNP0000497/)为例，进行具体方案实施的描述。该项目共包含233个样本，文件数目共466个，原始数据总数据量为6.32TB，gzip文件压缩后为2.25TB。

(1)基础参考序列数据库及其索引的构建

本实施例使用Metaphlan3提供的参考数据集作为基础参考序列数据库的来源(github.com/biobakery/MetaPhlAn/wiki/MetaPhlAn-3.0)。

通过对mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2中的微生物标志基因进行反向回溯获得标志基因来源的参考基因组在NCBI中的编号，根据的NCBI基因组编号，从网站ftp.ncbi.nih.gov/genomes/genbank/bacteria/assembly_summary.txt中获得相应的ftp链接，从而对参考基因组序列进行批量下载。本实施例共下载25435个参考基因组。通过Python脚本对参考基因组内部的子序列进行合并，合并规则如下：

a.首先根据“>”的数目判断基因组文件内的子序列(通常为contig或scaffold)数目，如仅有1个，就将“>”后的内容改为基因组编号(通常为GCA开头)；

b.若“>”数目大于1个，则首先在每个子序列末尾添加10个“N”字符作为分割符，然后删除第一个以外的所有“>”所在的行，将子序列进行合并，并将保留的第一个“>”后的内容改为基因组编号。

完成单个基因组的内部子序列合并后，使用shell中的cat指令，将所有的参考基因组合并成为一个总的Fastq文件，获得最终用于比对的基础参考序列文件。

(2)序列比对

基于(1)中所构建的基础参考序列，本实施例使用比对软件Bwa(Heng,L.et al 2009)，随机选择50个测试样本的Fastq文件进行比对，统计比对至每条基因组序列的Reads数目。，并按照比对上的Reads数对参考基因组进行排序。

(3)项目特异性压缩参考序列构建

基于(2)中的统计结果，本实施例选择序列丰度前1000的参考基因组用于构建项目特异性的压缩参考序列。具体的选择标准参照图2和图3。最终构建完成的Fastq文件大小为1.7GB，仅为基础参考序列的1.6％。

(4)数据压缩测试

本实施例设定的质量值简并参数如下：

a.质量值映射方案为：将0～3兼并为0，4～19简并为11，20～29简并为23，30～40简并37；

b.低质量Read判断条件为：当一条Read的所有碱基中，质量值在4～29范围内的比例大于等于20％，则不对该条Read中4～29范围内的碱基进行质量值简并，剩余碱基按照原定规则进行简并。

完成压缩参考序列构建后，本实施例使用索引依赖的开源压缩工具genozip(genozip.Readthedocs.io/)对项目的所有样本(即上述总数据量为6.32TB的原始数据)进行压缩测试，其余类似的工具还有GTZ(github.com/Genetalks/gtz)，LW_FQZIP(github.com/Zhuzxlab/LW-FQZip2)等。图13示出了具体数据压缩比分布图，其中GZIP压缩是指直接对所有样本数据进行压缩；Genozip无索引压缩是指使用Genozip工具，在不使用上方步骤(3)中构建的项目特异性压缩参考序列的情况下，对对所有样本数据进行压缩；Genozip有索引压缩是指使用Genozip工具，在使用上方步骤(3)中构建的项目特异性压缩参考序列的情况下，对对所有样本数据进行压缩。如图13所示，使用本公开设计的压缩方案，233个样本(共466个文件)的平均压缩比10.46，为gzip(2.81)的3.72倍。且相比于不使用参考序列的情况(6.73)，平均压缩比提升约35％。可见，本公开实施例提出的参考索引以及基于该索引的压缩方案能够实现数据的高效压缩。

(5))质量值简并后对物种组成分析的影响评估

本实施例分别对以质量值简并前后的Fastq文件作为输入，使用基于Metaphlan的物种鉴定流程(github.com/MGI-EU/MMHP_SOP_rmhost)获得每个样本中的物种组成，随后对每个样本的质量值简并前后数据的分析结果进行相关性统计。统计方法如下：

a.首先对每个样本的物种丰度进行log转化，以使数据满足正态分布。

b.使用Python模块scipy中的pearsonr功能，计算皮尔森相关系数。

图14为质量值简并前和简并后233个样本物种组成的皮尔森相关系数统计图。如图14所示，所有样本的质量值简并前后，物种组成的相关系数均＞0.999，表明本实施例中的所采用的有损压缩方案，几乎不影响下游的物种组成分析。由此，本公开实施例中的参考索引以及基于该索引的压缩方案在实现高效压缩的基础上，并不会影响数据的构成，即实现了数据压缩后信息的高完整性、高准确性和高保真性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种用于宏基因组数据压缩的参考序列的构建方法，包括：

根据所述宏基因组数据的样本来源，构建基础参考序列数据库；

基于所述基础参考序列数据库，构建基础参考序列数据库的索引；

根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，获得比对结果，其中所述第一读长序列为待压缩的宏基因组数据中随机选择的部分样本的读长序列；和

根据所述比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列。
根据权利要求1所述的方法，其中根据所述宏基因组数据的样本来源，构建基础参考序列数据库，包括：

根据所述宏基因组数据的所述样本来源，从公共数据库中获取对应的参考基因组并汇总，以获得所述基础参考序列数据库。
根据权利要求2所述的方法，其中基于所述基础参考序列数据库，构建基础参考序列数据库的索引，包括：

所述基础参考序列数据库中的单个参考基因组包括第一子序列和第二子序列，将所述第一子序列和第二子序列合并，并保留所述参考基因组的编号，以得到子序列合并参考基因组；

基于所述子序列合并参考基因组，构建所述基础参考序列数据库的索引。
根据权利要求3所述的方法，其中根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，包括：

基于所述基础参考序列数据库的所述索引，将所述第一读长序列比对至每个所述子序列合并参考基因组上；

基于所述第一读长序列比对到所述子序列合并参考基因组，记录所述读长序列比对到的所述参考基因组的所述编号。
根据权利要求4所述的方法，其中根据比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列，包括：

统计所述比对结果中，所述第一读长序列比对到各个所述参考基因组的所述编号的数目，以获得所述第一读长序列的所述序列丰度分布；

根据所述序列丰度对所述参考基因组进行排序，选择前X位的参考基因组构建所述用于宏基因组数据压缩的参考序列。
根据权利要求5所述的方法，其中构建所述用于宏基因组数据压缩的参考序列，还包括：

根据所述排序，选择所述序列丰度占比之和大于Y％的参考基因组构建所述用于宏基因组数据压缩的参考序列。
根据权利要求1至6中任一项所述的方法，所述方法还包括：

将所述基础参考序列数据库拆分为子基础参考序列数据库；

分别基于拆分出的所述子基础参考序列数据库构建子参考序列数据库的索引；

基于所述子参考序列数据库的索引，将所述第一读长序列分别与每个所述子基础参考序列数据库进行比对，以获得第二比对结果，其中所述第二比对结果包括基于各个所述子基础参考序列数据库的子结果文件。
根据权利要求7所述的方法，所述方法还包括：

分别统计各个所述子结果文件中所述第一读长序列比对至每个所述子基础参考序列数据库的数目，以获得所述第一读长序列在各个所述子结果文件中的所述序列丰度分布；

根据各个所述子结果文件中的所述序列丰度对所述参考基因组进行第一排序，选择各个所述子结果文件中所述序列丰度前X位的参考基因组构建子参考序列数据库；

根据所述序列丰度，对所述子参考序列数据库中的参考基因组进行第二排序；

选择子参考序列数据库中所述序列丰度分布前X位的参考基因组构建所述用于宏基因组数据压缩的参考序列。
根据权利要求8所述的方法，其中构建所述用于宏基因组数据压缩的参考序列，还包括：根据所述第一排序，选择各个所述子结果文件中所述序列丰度占比之和大于Y％的参考基因组构建所述子参考序列数据库，并且

根据所述第二排序，选择所述子参考序列数据库中所述序列丰度占比之和大于Y％的参考基因组构建所述用于宏基因组数据压缩的参考序列。
根据权利要求1至9中任一项所述的方法，所述方法还包括：

对所述比对结果进行第一和/或第二筛选，其中

所述第一筛选包括：在所述比对结果中选择无插入和/或缺失的所述读长序列；

所述第二筛选包括：选择低于错配阈值的所述读长序列。
一种宏基因组数据压缩方法，所述方法包括：

根据权利要求1所述的用于宏基因组数据压缩的参考序列的构建方法，构建用于宏基因组数据压缩的参考序列；

将第二读长序列与所述参考序列进行比对并记录比对结果，以获得所述宏基因组数据的压缩数据，其中所述第二读长序列为宏基因组数据中待压缩样本的读长序列。
根据权利要求11所述的方法，其中将第二读长序列与所述参考序列进行比对并记录比对结果，包括：

在所述第二读长序列与所述参考序列的错配碱基个数小于R1的情况下，记录所述第二读长序列在所述参考序列上的位置；

在所述第二读长序列与所述参考序列的错配碱基个数大于R1且小于R2的情况下，记录所述第二读长序列中配对碱基在所述参考序列上的位置，并记录错配碱基的碱基信息；

在所述第二读长序列与所述参考序列的错配碱基个数大于R2的情况下，记录所述第二读长序列。
根据权利要求11所述的方法，还包括对所述宏基因组数据的质量值进行简并，所述简并包括：

对所述宏基因组数据中的碱基质量值进行统计，以获得所述质量值在M个质量值范围内的分布；

分别将所述M个范围内的所述质量值对应映射到M个映射值上，以简并所述宏基因组数据的所述质量值。
根据权利要求13所述的方法，所述方法还包括：在所述质量值低于Q的碱基的比例占所述宏基因组数据中所有碱基的比例低于设定比例N的情况下，将所述宏基因组数据中的所有碱基的质量值进行映射以简并所述宏基因组数据的所述质量值。
根据权利要求14所述的方法，所述方法还包括：

在所述质量值低于Q的碱基的比例占所述宏基因组数据中所有碱基的比例高于或等于设定比例N的情况下，将所述宏基因组数据中的所述质量值高于Q的所述碱基的质量值进行映射，以简并所述宏基因组数据的所述质量值。
根据权利要求15所述的方法，所述方法还包括：

在所述质量值低于Q的碱基的比例占所述宏基因组数据中所有碱基的比例高于或等于设定比例N的情况下，保留所述宏基因组数据中的所述质量值低于Q的所述碱基的原始质量值。
根据权利要求16中任一项所述的方法，所述Q为碱基错误概率为0.01％至1％对应的质量值。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时，实现如权利要求1所述的用于宏基因组数据压缩的参考序列的构建方法，所述方法包括：

根据所述宏基因组数据的样本来源，构建基础参考序列数据库；

基于所述基础参考序列数据库，构建基础参考序列数据库的索引；

根据所述基础参考序列数据库的所述索引，将第一读长序列与所述基础参考序列数据库进行比对，获得比对结果，其中所述第一读长序列为待压缩的宏基因组数据中随机选择的部分样本的读长序列；和

根据所述比对结果，确定所述第一读长序列的序列丰度分布，构建所述用于宏基因组数据压缩的参考序列。

。
一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1所述的用于宏基因组数据压缩的参考序列的构建方法。
一种计算机程序产品，所述计算机程序产品中包括计算机程序，当所述计算机程序在在被处理器执行时，实现如权利要求1所述的用于宏基因组数据压缩的参考序列的构建方法。