WO2024051052A1

WO2024051052A1 - 组学数据的批次矫正方法、装置、存储介质及电子设备

Info

Publication number: WO2024051052A1
Application number: PCT/CN2022/143821
Authority: WO
Inventors: 成晓亮; 郑和龙; 周岳; 张伟
Original assignee: 上海氨探生物科技有限公司; 南京品生医疗科技有限公司; 南京品生医学检验实验室有限公司
Priority date: 2022-09-08
Filing date: 2022-12-30
Publication date: 2024-03-14
Also published as: CN115359846A

Abstract

本发明公开了组学数据的批次矫正方法、装置、存储介质及电子设备。其中，组学数据的批次矫正方法包括：获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据；对所述预处理数据进行批次矫正处理，得到矫正数据；对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。有效降低了批次检测的误差，可以更准确、更高效地评估数据的质量。

Description

组学数据的批次矫正方法、装置、存储介质及电子设备

本申请要求于2022年9月8日提交到国家知识产权局，申请号为“202211097799.1”，发明名称为“一种组学数据的批次矫正方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及生物分析技术领域，尤其涉及组学数据的批次矫正方法、装置、存储介质及电子设备。

背景技术

基于质谱技术的蛋白质组、代谢组和脂质组，已经成为进行生物分析的关键方法。

然而，在对生物大样本量质谱检测时，将样本分为多个批次检测，不可避免地存在着各种误差。

发明内容

本发明提供了组学数据的批次矫正方法、装置、存储介质及电子设备，以解决批次检测引起的误差。

根据本发明的一方面，提供了一种组学数据的批次矫正方法，该方法包括：

获取多批次样本的组学数据，对组学数据进行预处理，得到预处理数据；

对预处理数据进行批次矫正处理，得到矫正数据；

对矫正数据进行预设类型的分析处理，得到批次矫正分析结果。

根据本发明的另一方面，提供了一种组学数据的批次矫正装置，该装置包括：

数据预处理模块，用于获取多批次样本的组学数据，对组学数据进行预处理，得到预处理数据；

批次矫正模块，用于对预处理数据进行批次矫正处理，得到矫正数据；

数据分析模块，用于对矫正数据进行预设类型的分析处理，得到批次矫正分析结果。

根据本发明的另一方面，提供了一种电子设备，电子设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施例的一种组学数据的批次矫正方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本发明任一实施例的一种组学数据的批次矫正方法。

本发明实施例的技术方案，通过获取多批次样本的组学数据，对组学数据进行预处理，得到预处理数据。对预处理数据进行批次矫正处理，得到矫正数据。对矫正数据进行预设类型的分析处理，得到批次矫正分析结果。解决了批次检测引起误差的问题，可以更准确和更高效地评估组学数据的质量。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种组学数据的批次矫正方法的流程图；

图2是本发明实施例二提供的一种组学数据的批次矫正方法的流程图；

图3是本发明实施例三提供的组学数据的批次矫正方法的流程图；

图4是本发明实施例三提供的累计QC样本RSD箱线图；

图5是本发明实施例三提供的累计QC样本RSD百分比柱状图；

图6是本发明实施例四提供的一种组学数据的批次矫正装置的结构示意图；

图7是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的一种组学数据的批次矫正方法的流程图，本实施例可适用于对大量样本进行质谱处理后，通过分析得到各样本的组学数据，并进行批次矫正以及分析的情况。该方法可以由组学数据的批次矫正装置来执行。该组学数据的批次矫正装置可以采用硬件和/或软件的形式实现。该组学数据的批次矫正装置可配置于计算机等电子设备中。如图1所示，该方法包括：

S110、获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据。

本实施例中，质谱分析法是生物大分子等研究领域中的重要分析技术，可以采用质谱分析法对样本数据进行质谱分析，由于样本数据量较大，需要分多个批次进行质谱分析。组学数据可以通过对多批次样本质谱分析获得的分子表达信息。组学数据可以包括基因组学数据、蛋白组学数据、脂类组学数据、代谢组学数据等。

获取经质谱处理得到的各样本的组学数据，例如接收导入的各批次的样本的组学数据，同时获取各样本的样本信息，可以将样本信息与组学数据关联，以辅助对组学数据的分析处理。样本信息可以包括但不限于样本名称、样本对应的分组名称、质谱进行顺序、批次信息等。可以根据样本信息中的批次信息、样本名称、样本对应的分组名称(即样本的类型)确定组学数据。

对获取的组学数据进行预处理，得到预处理数据。其中，预处理的对象可以包括组学数据和关联的样本信息。预处理可以包括数据清洗、数据归一化和缺失值处理的一项或多项，数据清洗可以是对数据进行重新审查和校验的过程，可以删除重复信息和纠正错误信息等，保证数据的正确和整洁。数据归一化可以是把需要处理的数据经过处理后限制在一定范围内，使得检测数据分布保持一致，消除奇异样本数据导致的不良影响，例如，可以采用中位数归一化、方差稳定归一化等。缺失值处理可以包括缺失值填充和对存在缺失值的组学数据进行舍弃，即缺失值填充可以是对样本数据中缺失的数据进行填充，减小缺失值对检测结果的影响，例如，可以采用默认值填充、均值填充、众数填充、K最邻近法(k-Nearest Neighbors，knn)填充和插值填充等。对存在缺失值的组学数据进行舍弃可以在组学数据中缺失值数量超过一定值，无法进行填充的情况下，舍弃该组学数据，避免存在缺失值的组学数据对整体组学数据的干扰。通过预处理得到的预处理数据供后续进行数据矫正和数据分析。

S120、对所述预处理数据进行批次矫正处理，得到矫正数据。

本实施例中，通过多批次的质谱处理获取多批次的组学数据。不同批次的处理过程中，由于非生物因素可能会产生的误差影响组学数据的准确度，即不同批次得到的组学数据可能会存在批次异常，其中非生物因素可以是质谱设备异常、检测人员操作误差等外部因素。批次矫正可以是对非生物因素产生的批次差异进行修正，尽可能消除批次影响，消除偏差和系统误差，表征数据本身的生物学状态。批次矫正可以采用ComBat方法、代理变量法、平均中心法、距离加权判别法等方法实现，对此不作限定。通过对预处理数据进行批次矫正得到矫正数据，矫正数据一般是消除批次差异后的组学数据。

在一些实施例中，对所述预处理数据进行批次矫正处理，得到矫正数据，包括：对于任一批次中任一样本的任一类型组学数据，基于组学数据的批次矩阵和所述组学数据的初始表达量确定矫正参数；基于所述组学数据的初始表达量和矫正参数确定矫正数据。

本实施例中，通过在每个批次中的分子之间表达信息来估计代表批次效应的L/S模型参数，从而将批次效应参数估计规定到批次效应估计的总体平均值(跨分子)，经典贝叶斯估计值用于调整批次效应的数据，为每个分子的批次效应提供更稳健的调整。

其中，初始表达量可以是未经矫正的组学数据中的分子表达量。组学数据的批次矩阵有各组学数据所述样本的批次信息形成，矫正参数用于对组学数据中的初始表达量进行矫正处理，得到矫正数据。在一些实施例中，可以是预先设置矫正数据的计算公式，通过将确定的矫正参数和待矫正的组学数据的初始表达量输入至上述计算公式，得到矫正数据。

对于任一批次中任一样本的任一类型组学数据，确定对应的矫正参数。

在一些实施例中，所述基于组学数据的批次矩阵和所述组学数据的初始表达量确定矫正参数，包括：基于所述组学数据的批次矩阵和所述组学数据的初始表达量确定初始矫正参数；基于所述初始矫正参数和所述预设分布确定矫正参数。其中，初始矫正参数包括组学数据的整体平均表达量、批次矩阵对应的回归系数变量、加法批次效应参数、乘法批次效应参数，误差项满足标准正态分布。

相应的，每一初始矫正参数与矫正参数一一对应，基于初始矫正参数确定对应的矫正参数。由于质谱仪器对分子灵敏度不同，分子表达量可能由于分子量存在差异，使得经典贝叶斯对批次的先验分布估计产生偏差，对分子表达量数据进行标准化，使得分子具有相似的总体均值和方差。

其中，矫正参数符合预设分布。其中，不同矫正参数的分布可以相同或不同，对此不作限定。通过最小二乘法基于初始矫正参数进行估计处理，以得到对应的矫正参数。即，对于初始矫正参数中的整体平均表达量、批次矩阵对应的回归系数变量、加法批次效应参数的任一项。通过最小二乘法的估计方式，可得到整体平均表达量、批次矩阵对应的回归系数变量、加法批次效应参数对应的矫正参数。

根据估计得到整体平均表达量、批次矩阵对应的回归系数变量、加法批次效应参数可以进一步估计出方差。示例性的，对于每一类分子，方差可以是基于各样本的初始表达量与上述矫正参数的差值确定。假设矫正参数满足预设分布，批次效应参数的先验分布满足预设分布，预设分布可以是正态分布。

在上述实施例的采集上，基于所述组学数据的初始表达量和矫正参数确定矫正数据，包括：基于所述组学数据的初始表达量和矫正参数确定标准化数值；基于所述标准化数值和所述矫正参数确定矫正数据。

通过对组学数据进行标准化，使得组学数据具有相似的总体均值和方差，标准化后的数值可以作为标准化数值，其中，标准化数值可以基于初始表达量、整体平均表达量估计值、批次矩阵、回归系数估计值、误差估计值确定。矫正数据可以基于标准化数值、矫正参数确定，其中矫正数据是批次矫正后的组学数据。因此，矫正数据可以基于初始表达量、整体平均表达量估计值、批次矩阵、回归系数估计值、加法批次效应参数估计值、乘法批次效应参数估计值、整体平均表达量估计值、批次矩阵和回归系数估计值确定。

本实施例中，通过对组学数据进行矫正处理，可消除组学数据中的批次差异，避免非生物因素对组学数据的影响，提高组学数据的准确性，以及进一步提高组学数据分析的准确性。

S130、对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。

本实施例中，对矫正后的组学数据进行分析，实现对样本的分析。组学数据属于高维度数据，需要从多个维度进行分析。可选的，所述预设类型的分析处理包括但不限于：样本强度分布分析、降维分析、判别分析、分子趋势分析、样本相关性分析和测试样本重复性分析。需要说明的是，预先存储各类型分析处理的处理规则，根据分析处理的需求，调用对应的处理规则，基于调用的处理规则对矫正后的组学数据进行分析处理。具体的，可以是预先设置分析处理的类型，例如输入分析处理的类型标识，基于上述类型标识调用对应的处理规则。

在一些实施例中，可对局部样本的矫正数据进行分析处理，还可以是对全部样本的矫正数据进行分析处理，可根据分析处理的需求确定，对此不作限定。在一些实施例中，局部样本可以是每一批次中的质量控制(QUALITY CONTROL，QC)样本。

示例性的，以样本强度分布分析为例，用于通过箱线图表示每个样本强度分布情况，按照进样顺序绘制样本强度平均值或中值，允许估计样本在测量过程中的信号漂移或离散偏差；示例性的，以降维分析为例，用于查看样本无监督情况下在线性主成分分析(Principal Component Analysis，PCA)或者非线性t分布-随机邻近嵌入(t-distributed Stochastic Neighbor Embedding，TSNE)/统一流形逼近与投影(Uniform Manifold Approximation and Projection，UMAP)角度下样本聚类情况，主成分分析(PCA)是一种识别变异主要方向的技术，称为主成分。数据在双分量轴上的投影可视化样本接近度。通过技术/生物因素或通过突出显示重复对样本进行额外着色，有助于解释是什么驱动样本接近。有利于于通过生物和技术因素评估聚类或检查重复相似性，样本之间的相似性不再受技术因素驱动时意味PCA/TSNE/UMAP没有显示按批次进行聚类。示例性的，以判别分析为例，用于查看样本有监督情况下建模对样本聚类分布情况,使提取后得到的特征变量能很好的概括原始变量的信息，对因变量有很强的解释能力，上述结果用散点图表示，每个点表示样本，颜色表示样本对应的分组。以分子趋势分析为例，可随机选取50个分子展示在所有样本中表达强度信息，用散点图可视化，两种颜色，一种表示QC样本，另一种表示目标样本，并根据两类样本拟合曲线，表征分子在QC样本中的稳定程度。

以样本相关性分析为例，用于计算样本间的pearson/spearman相关性系数,该分析可比较样本重复性，特别是组内的相关性，特别是当QC样本相关性高时，表明数据质量较好，当评估批次内和批次之间的样本相关性时，与不相关批次相比，若来自同一批次的样品的相关性更高是明显的偏差迹象，可反映有批次影响，分别使用热图与小提琴图可视化，热图颜色根据相关性系数大小使用渐变色，还可评估出某个样本与其他样本的偏差情况；由于大样本队列样本量较大，热图可视化不方便展示与查看数据，为了清晰表现组内样本间的相关性，同时使用小提琴图可视化分析相关性结果，颜色表示分组，值越大组内相关性越大。

本实施例的技术方案，通过提供一种组学数据的批次矫正方法，获取多批次样本的组学数据，对组学数据进行预处理，得到预处理数据，通过对预处理数据进行批次矫正处理，得到矫正数据，通过对矫正数据进行预设类型的分析处理，得到批次矫正分析结果。通过对多批次获取的组学数据进行批次矫正，解决了组学数据批次检测引起误差的问题，可以更准确、更高效地评估数据的质量。

实施例二

图2是本发明实施例二提供的一种组学数据的批次矫正方法的流程图，本实施例在上述实施例的基础上进行了细化。如图2所示，该方法包括：

S210、获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据。

S220、对所述预处理数据进行预设类型的分析处理，得到未经批次矫正的分析结果。

可以参考上述实施例对矫正数据进行预设类型的分析处理，对预处理数据进行预设类型的分析处理。组学数据属于高维度数据，需要从多个维度进行分析，预设类型的分析处理可以包括但不限于：样本强度分布分析、降维分析、判别分析、样本相关性分析和测试样本重复性分析。通过对预处理数据进行预设类型的分析处理，可以评估预处理数据的数据质量，分析结果为未经批次矫正的分析结果。

S230、对所述预处理数据进行批次矫正处理，得到矫正数据。

S240、对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。

S250、将所述未经批次矫正的分析结果和所述批次矫正分析结果通过显示设备进行显示。

本实施例中，可以将未经批次矫正的分析结果传输到显示设备进行显示，显示设备可以是计算机屏幕、电子显示屏等，同时将批次矫正分析结果进行显示，显示设备的显示方式根据预设类型不同而不同，可以是图像显示、图表显示、数字显示等。可以直观形象的展示出未经批次矫正的分析结果和批次矫正后的分析结果。

其中，所述预处理包括数据清洗、数据归一化和缺失值处理的一项或多项；相应的，所述对所述预处理数据进行预设类型的分析处理，得到未经批次矫正的分析结果，包括：将每一项预处理后的预处理数据进行预设类型的分析处理，得到至少一个未经批次矫正的分析结果。

本实施例中，对数据进行预处理可以是数据清洗、数据归一化、缺失值处理中的任一步骤，或者，可以是数据清洗、数据归一化、缺失值处理中的任意两步骤组合，或者，可以是数据清洗、数据归一化、缺失值处理的所有步骤。预设类型可以参照上述实施例的预设类型，可以是样本强度分布分析、降维分析、判别分析、样本相关性分析和测试样本重复性分析。对每一项预处理后的预处理数据进行预设类型的分析处理，当预处理是数据清洗、数据归一化、缺失值处理中的一个步骤时，可以得到一个未经批次矫正的分析结果，当预处理是数据清洗、数据归一化、缺失值处理中的两个或两个以上步骤时，可以对每一个步骤进行预设类型的分析处理，得到两个或两个以上未经批次矫正的分析结果。

在上述实施例中，可以通过显示设备显示未经批次矫正的分析结果和批次矫正后的分析结果，以便于操作用户通过显示设备查看未经批次矫正的分析结果和批次矫正后的分析结果，并通过未经批次矫正的分析结果和批次矫正后的分析结果的比对，确定质谱处理过程得到的组学数据中是否存在批次异常，例如根据显示界面的图像、图表、数字等可以直观地比较未经批次矫正的分析结果和批次矫正后的分析结果。可选的，将所述未经批次矫正的分析结果和所述批次矫正分析结果进行比对，判定组学数据是否存在批次质量异常，例如可以是将相同预设类型的分析结果进行比对，基于比对结果确定组学数据是否存在批次质量异常。例如可以是在任一类型的分析结果差值超出预设误差范围的情况下，确定组学数据存在批次质量异常。示例性的，当未经批次矫正的分析结果和批次矫正后的分析结果之间的差异等满足预设阈值时，可以判断批次质量正常，当未经批次矫正的分析结果和批次矫正后的分析结果之间的差异不满足预设阈值时，可以确定存在批次质量异常。

在一些实施例中，所述每一批次样本中分别包括测试样本(例如可以是QC样本)；所述多批次样本的组学数据包括各批次中测试样本的组学数据。所述方法还包括：根据所述测试样本的批次顺序依次确定进行分析的组学数据组，对各组学数据组进行预设类型的分析处理，得到各组学数据组的分析结果；基于所述各组学数据组的分析结果确定是否存在组学数据存在批次质量异常。

其中，测试样本可以是合格样本，可以是各批次样本的混合样本，不同批次中的测试样本相同，即测试样本经过质谱处理得到的组学数据理论相同。将测试样本分别插入每一批次中，确保多批次样本的组学数据包括各批次中测试样本的组学数据，此处仅对各批次中测试样本的组学数据进行分析处理，减少分析处理的数据量。按照测试样本的批次顺序，对各批次中测试样本的组学数据进行预设类型的分析，测试样本的组学数据理论相同，通过预设类型分析，各批次的理论分析结果相同。当每一批次的测试样本组学数据分析结果与其他批次分析结果的误差满足预设阈值时，可确定批次质量正常。当某一批次的测试样本组学数据分析结果与其他批次分析结果的误差不满足预设阈值时，可确定批次质量异常。

可选的，基于所述各组学数据组的分析结果确定是否存在组学数据是否存在批次质量异常，包括：确定所述各组学数据组的分析结果中是否存在异常分析结果。若是，则基于存在异常分析结果的组学数据组确定异常测试样本，将所述异常测试样本所在批次确定为异常批次。

本实施例中，对测试样本的分析方法可以包括累计测试样本相对标准偏差(relative standard deviation，RSD)分析、累计测试样本相对标准偏差百分比分析、每个测试样本的强度分析、分子稳定性分析的一项或多项等。示例性的，以累计测试样本相对标准偏差分析为例，测试样本的顺序可以参考批次顺序，随测试样本增加确定多个组学数据组，依次计算每个组学数据组的相对标准偏差值。例如，第一个组学数据组可以是前两个批次中测试样本的组学数据，第二个组学数据组可以是前三个批次中测试样本的组学数据，并依次类推。对各组学数据进行相对标准偏差分析，根据组学数据组的相对标准偏差值可以确定是否存在批次异常，以及存在异常的批次。例如，可以用箱线图可视化结果，第一个箱线图可以表示前两个批次的测试样本中组学数据的相对标准偏差的统计结果，第二个箱线图可以表示前三个批次的测试样本中组学数据的相对标准偏差的统计结果，依次计算直到所有测试样本的相对标准偏差计算完成，随着测试样本的增加，根据箱线图可以得出测试样本的漂移或离散情况。当箱线图的相对标准偏差值满足预设阈值时，可确定批次质量正常，当第N个箱线图的RSD值不满足预设阈值时，可确定第N+1个测试样本异常，根据第N+1个测试样本的异常情况确定第N+1批次为异常批次。

本实施例的技术方案，在上述实施例的基础上增加了对预处理数据进行预设类型的分析处理，得到未经批次矫正的分析结果，将未经批次矫正的分析结果和批次矫正后的分析结果通过显示设备进行显示，通过比对分析结果，可以确定组学数据的批次质量。通过在多批次样本的组学数据中添加测试样本的组学数据确定批次异常情况，对测试样本的组学数据进行预设类型的分析，根据测试样本组学数据的分析结果可以确定异常测试样本，将异常测试样本所在的批次确定为异常批次。

实施例三

图3是本发明实施例三提供的组学数据的批次矫正方法的流程图。在上述实施例的基础上，本发明实施例三还提供了组学数据的批次矫正方法的优选示例，该方法包括：原始数据输入与原始数据清洗、组学数据归一化与缺失值处理、批次矫正、以及数据分析评估。

对于原始数据输入与原始数据清洗。输入需要两个文件，样本信息文件，来自用户自己构造的一个文本文件(格式可以是csv、txt或excel)。样本信息文件包括几列信息：样本名称(ID)，样本对应的分组名称(Type)，质谱进样顺序(order),批次信息(batch)，其中批次信息(batch)中属于一个批次的样本用相同的数字或者字母表示，样本信息文件示意图如下表1所示。

ID	Type	order	batch
XX1	C1	1	1
QC1	QC	2	1

XX2	C1	3	1
XX3	C1	4	1
XX4	C1	5	1
QC2	C1	6	1
YY1	C2	7	2
YY2	C2	8	2
YY3	C2	9	2
YY4	C2	10	2
QC2	QC	11	2

表1

输入质谱下机数据，根据不同组学类型，软件进行相应的数据格式整理，根据样本信息文件中的样本名称(ID)，提取并保留必要信息，如各个样本检测的蛋白或代谢物对应的表达强度信息，保存为一个带有原始表达强度的文本文件，没有对其在其他样本中的值进行任何校准、标准化或校正，供后续数据分析评估模块分析。检查样本强度分布是否一致，样本间的相关性，QC(即测试样本)样本重复性，如果强度或样本相关性等指标不同，可检查强度是否显示特定批次的偏差，是否随着样本检测顺序呈现强度逐渐降低。通过比较样本全局定量特性有助于选择归一化方法和识别需要进一步控制的技术因素，以及非常清晰表现大样本队列中有无批次影响。

对于组学数据归一化与缺失值处理。缺失值一般是由于仪器采集时造成的，很多分析方法不允许数据含有缺失值，会对数据方法选择有较大影响，过多的缺失值存在也不能准确表征数据信息。然而简单的舍弃缺失值，或者不合适的方法直接填充缺失值，会造成大量有用的信息丢失或者产生非生物学差异得出错误的结论。缺失值处理流程，会尽量消除缺失值对结果带来的影响。

数据经过第一个模块处理后(原始数据输入与原始数据清洗模块)，根据其表达定量文本文件，首先进行归一化，提供多种归一化方法供用户选择，如中位数归一化(

x _i为样本中分子的定量，x为样本所有分子的定量值序列，norm(x _i)为中位数归一化后的值)，分位数归一化(

样本中的归一化值等于该分子表达定量值减去样本中分子表达定量值的中位数除以样本中所有分子上四分位数与下四分位数的差值)，默认方差稳定归一化(variance stabilization normalization，vsn)；然后经过缺失值处理，根据分子在所有样本中的缺失率，剔除超过缺失率的分子(缺失率由用户自行定义，缺失率参数范围0～1，1为保留所有缺失值，0为剔除所有含有缺失值的分子),随后对剩下的缺失值进行填充(可用K最近邻法“knn”进行填充或者多重插补法)，得到经过归一化处理且无缺失值的定量信息结果,供后续批次矫正模块数据分析评估模块处理。

原始数据在经过归一化与缺失值处理后，能有效降低仪器不稳定引入的数据集噪音，改善生物学解释性。归一化使得检测定量值分布保持一致,样本之间可以比较，消除奇异样本数据导致的不良影响，改善样本离散程度，消除数据偏离度对分子表达的影响。

对于批次矫正。根据输入的样本信息文件batch列定义的批次信息，读取归一化且缺失值处理后得到的定量信息，Combat方法进行批次矫正,该模型的假设是基于位置和尺度(Location and scale，L/S)的调整,为批次内数据的位置(平均值)和/或规模(方差) 假设了一个模型，然后调整批次以满足假设模型的规范，因此，L/S批次调整假定批次效应可以通过标准化各批次的均值和方差而被模拟出来，基于以下定义L/S模型基础：

Y _ijg＝α _g+Xβ _g+γ _ig+δ _ig∈ _ijg

Y _ijg表示来自批次i中样本j的分子g的表达值，α _g是分子g的整体平均表达量，X是根据样本对应的批次信息构成的一个矩阵，该信息来源与样本信息文件的batch列信息，β _g是X所对应的回归系数变量，γ _ig表示批次i对分子g的加法批次效应，误差项∈ _ijg是服从期望值为0方差为δ ² _g的正态分布，δ _ig表示批次i中分子g的乘法批次效应。其中，在各批次中各样本的分子g的表达值Y _ijg、分子g的整体平均表达量α _g和批次矩阵X已知的情况下，可基于回归方式确定加法批次效应γ _ig、乘法批次效应δ _ig，误差项∈ _ijg以及回归系数变量β _g。

批次矫正后的分子表达量：

是α _g，β _g，γ _ig，δ _ig的参数估计。

Combat算法基于以上模型基础，使用经典贝叶斯方法进行拓展：通过在每个批次中的分子之间表达信息来估计代表批次效应的L/S模型参数，从而将批次效应参数估计规定到批次效应估计的总体平均值(跨分子)。经典贝叶斯估计值随后用于调整批次效应的数据，为每个分子的批次效应提供更稳健的调整。

以下三个步骤描述了该方法：

首先对分子表达量数据进行标准化，使得分子具有相似的总体均值和方差。示例性的，共有m个批次，i代表批次数，i的取值为i＝1,...,m，使用g代表每个分子，g取值为g＝1,...G,j为批次i中的样本j，使用最小二乘法对理论值α _g、β _g进行估计得到近似值

具体方法如下：

假设误差项γ _{_ig}满足正态分布，则在分子层面，所有分子的误差项之和满足：

由此可以得到方差的估计值

(N为样本数量)，最后分子表达量标准化后的数值Z _ijg为：

标准化后的数据应满足Z _ijg～N(γ _ig,δ ² _ig)(此γ _ig与(1)中的误差项并非同一含义)，若Z _ijg的正态分布参数γ _ig，δ ² _ig满足

和δ ² _ig～Inverse Gamma(λ _i,θ _i)，则使用参数经验贝叶斯，若Z _ijg的正态分布参数不满足以上条件，则需要更为灵活的先验分布，这时可以使用非参数经验贝叶斯。从而计算出批次效应估计值γ ^* _ig和δ ^2* _ig，最后得到调整后的分子表达数据Y ^* _ijg。

当使用参数经验贝叶斯时，使用以下推导方法：

第一步进行经验超先验估计，推导出θ _i和λ _i的估计值

和δ ² _ig～Inverse Gamma(λ _i,θ _i)中的超参数γ _i,

λ _i,θ _i使用矩量法(Method of Moments)得到。

批次i中分子g的样本均值为

因此γ _i,

的估计值可以表示为：

同时根据

可得到批次i中分子g的样本方差

并可以依此计算出

的平均值

和

的方差

让

与倒伽马(inverse gamma)分布的总体矩(theoretical moments)相等，即平均值

方差

可推导出θ _i和λ _i的估计值：

第二步进行参数批次效应校正,应用贝叶斯理论找到γ _ig有条件的(后验)分布

后验分布应满足：

以上公式可以确定正态分布的核(kernel of a normal distribution)的期望值表示为：

基于之前已经得到的

and

可估计出

对于

有条件的后验分布，已有γ _ig和倒伽马(Inverse Gamma(λ _i,θ _i))先验，从而应满足：

以上公式可以被看作一个期望值如下的倒伽马分布：

使用第一步中由矩量法(Method of Moments)得到的

和

以上期望值可以被写为：

由于

和

不存在封闭解(closed form solution)，所以我们使用迭代的方法，首先代入一个相对合理的

的值(例如

)去计算

之后再用得到的

去计算

持续循环，直至

和

的值收敛。

使用类似于L/S模型基础的方法，得到调整后的最终分子表达数据γ ^* _ijg如下：

γ ^* _ijg为最终矫正数据。

当使用非参数经验贝叶斯时，使用以下推导方法：

在此情况下，Z _ijg仍然符合正态分布Z _ijg～N(γ _ig,δ ² _ig)，与前文推导类似，使

我们通过找到批次效应参数的后验期望值的估计值E[γ _ig]和

来估算批次效应参数γ _ig，δ ² _ig。

Z _ig是一个包含了Z _ijg中j＝1,…,n _i的向量，后验分布

中γ _ig的后验期望值可以表示为:

让

作为先验参数γ _ig,

的未知的密度函数，使

已知

是

在Z _ijg的概率密度函数，使用贝叶斯理论，E[γ _ig]可以表示为：

其中

使用蒙特卡罗积分方法(Monte Carlo integration)，选用经验估计的一对

来估计C(Z _ig)的值和等式(3)中的积分，这对值可以从

中随机抽取。同时，让

g″的取值为g″＝1,…,G，这时C(Z _ig)的取值可以用

来估计，等式(3)中的积分可以表示为：

同样的方法可以被用来计算

的后验期望值，此时用来调整非参数经典贝叶斯的

和

可以被表示为

与参数经验贝叶斯一样，最终的矫正数据为：

对于数据分析评估。数据分析评估分为只针对QC样本的分析、针对总体样本评估两种方式，按照只针对QC样本的分析、针对总体样本(包括QC样本)的分析的类别分为不同的分析方式。

只针对QC样本的分析。在蛋白质组学、代谢组学和脂质组学数据采集过程中，一般10至20个样本之间插入一个QC样本，分析QC样本数据质量，可反映整个数据采集稳定性质量控制步骤的目的是评估原始数据的偏差，评估归一化和/或批次效应校正是否改善了数据。如果样本之间的相似性不再受技术因素驱动，组内重复性高，则认为偏差被消除。

1.累计QC样本RSD分析：根据样本信息文件中，质谱进样顺序(order)规定好QC样本顺序，根据样本名(ID)，提取定量数据中QC样本分子表达数据，依次计算随着QC样本增加，每个分子的RSD值的变化(

n为样本数，x _i为分子在第i个样本的表达强度，

为分子在所有n个样本中的平均表达强度值)用箱线图可视化结果:横坐标为累计QC样本的数量，纵坐标为RSD值。图中第一个箱线为根据进样顺序，前两个QC样本中分子表达量的RSD的统计结果，第二个箱线图为前3个QC样本中分子表达量的RSD的箱线图统计结果，依次计算下去，直到所有QC样本的RSD计算完成。反映随着QC样本的增加，QC样本的稳定性，表现了QC样本质谱信号漂移或离散情况，由于QC样本在插入在整个数据采集过程中，一般认为RSD值小于0.3样本检测的稳定性较好，因此进一步可反映在整个数据检测过程中仪器的稳定性。图4是本发明实施例三提供的累计QC样本RSD箱线图。

2.累计QC样本RSD百分比分析：在上述累计QC样本RSD分析基础上，计算RSD值小于0.3的分子个数的占所有分子数量的百分比，用柱状图可视化结果，横坐标为累计QC样本数，纵坐标为RSD小于0.3的百分比值，柱状图上数字表示具体百分比数值。百分比值越大柱状图越高，重复性越好，若在所有QC样本上百分比高且稳定，则能判断在整个检测过程中不存在批次效应且数据质量好。若确定是由于批次影响可在样本信息文件中加入batch列，添加批次信息，可自动化运行批次矫正模块。图5是本发明实施例三提供的累计QC样本RSD百分比柱状图。

3.每个QC样本的强度分布分析：表现分子在QC样本中的表达强度信息，由于表达值数量级较大，横坐标为log2后的定量值，评估QC样本方差和异常值，反映整体稳定性。

4.分子稳定性分析：在所有QC样本中随机选取30个分子，横坐标表示QC样本名称，纵坐标表示log2转化后的表达量值，不同颜色表示不同的分子，原点表示分子，同一个分子在不同QC样本中用线连接，可视化分子强度信息，表征QC样本中鉴定到的分子稳定性，单个分子特征可评估与批次相关的表达量上偏差。

针对总体样本(包括QC样本)。

1.通过PCA/TSNE/UMAP分析，查看样本无监督情况下在线性(PCA)或者非线性(TSNE/UMAP)角度下，样本聚类情况，主成分分析(PCA)是一种识别变异主要方向的技术，称为主成分。数据在双分量轴上的投影可视化样本接近度。通过技术/生物因素或通过突出显示重复对样本进行额外着色，有助于解释是什么驱动样本接近。这种技术对于通过生物和技术因素评估聚类或检查重复相似性特别方便，样本之间的相似性不再受技术因素驱动时意味PCA/TSNE/UMAP没有显示按批次进行聚类。

2.通过PLS-DA或者OPLS-DA分析，查看样本有监督情况下建模对样本聚类分布情况,使提取后得到的特征变量不仅能很好的概括原始变量的信息，而且对因变量有很强的解释能力，上述结果可以用散点图表示，每个点表示样本，颜色表示样本对应的分组。

3.表达强度分布分析，可以通过箱线图表示每个样本强度分布情况，按照进样顺序绘制样本强度平均值或中值，允许估计样本在测量过程中的信号漂移或离散偏差。

4.分子趋势分析，可以随机选取50个分子展示在所有样本中表达强度信息，用散点图可视化，两种颜色，一种表示QC样本，另一种表示目标样本，并根据两类样本拟合曲线，表征分子在QC样本中的稳定程度。

5.相关性分析，计算样本间的pearson/sperman相关性系数,该分析可比较样本重复性，特别是组内的相关性，特别是当QC样本相关性高时，表明数据质量较好，当评估批次内和批次之间的样本相关性时，与不相关批次相比，若来自同一批次的样品的相关性更高是明显的偏差迹象，可反映有批次影响，可以分别使用热图与小提琴图可视化，热图颜色根据相关性系数大小使用渐变色，还可评估出某个样本与其他样本的偏差情况；由于大样本队列样本量较大，热图可视化不方便展示与查看数据，为了清晰表现组内样本间的相关性，同时使用小提琴图可视化分析相关性结果，颜色表示分组，值越大组内相关性越大。

实施例四

图6是本发明实施例四提供的一种组学数据的批次矫正装置的结构示意图。如图6所示，该装置包括：

数据预处理模块610，用于获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据；

批次矫正模块620，用于对所述预处理数据进行批次矫正处理，得到矫正数据；

数据分析模块630，用于对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。

本实施例的技术方案，通过提供一种组学数据的批次矫正装置，获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据；对所述预处理数据进行批次矫正处理，得到矫正数据；对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。实现了组学数据批次检测的批次矫正，可以更准确、更高效地评估数据的质量。

可选的，批次矫正模块620具体用于：

对于任一批次中任一样本的任一类型组学数据，基于组学数据的批次矩阵和所述组学数据的初始表达量确定矫正参数；

基于所述组学数据的初始表达量和矫正参数确定矫正数据。

可选的，批次矫正模块620具体用于：

基于所述组学数据的批次矩阵和所述组学数据的初始表达量确定初始矫正参数；

基于所述初始矫正参数和所述预设分布确定矫正参数。

可选的，批次矫正模块620具体用于：

基于所述组学数据的初始表达量和矫正参数确定标准化数值；

基于所述标准化数值和所述矫正参数确定矫正数据。

可选的，数据分析模块630具体用于：

对所述预处理数据进行预设类型的分析处理，得到未经批次矫正的分析结果，将所述未经批次矫正的分析结果和所述批次矫正分析结果通过显示设备进行显示。

可选的，数据分析模块630具体用于：

将所述未经批次矫正的分析结果和所述批次矫正分析结果进行比对，判定组学数据是否存在批次质量异常。

可选的，数据分析模块630具体用于：

将每一项预处理后的预处理数据进行预设类型的分析处理，得到至少一个未经批次矫正的分析结果。

可选的，数据分析模块630具体用于：

根据所述测试样本的批次顺序依次确定进行分析的组学数据组，对各组学数据组进行预设类型的分析处理，得到各组学数据组的分析结果；

基于所述各组学数据组的分析结果确定是否存在组学数据是否存在批次质量异常。

可选的，数据分析模块630具体用于：

确定所述各组学数据组的分析结果中是否存在异常分析结果；

若是，则基于存在异常分析结果的组学数据组确定异常测试样本，将所述异常测试样本所在批次确定为异常批次。

可选的，数据分析模块630具体用于：

所述预设类型的分析处理，包括：样本强度分布分析、降维分析、判别分析、样本相关性分析和混合样本重复性分析。

本发明实施例所提供的组学数据的批次矫正装置可执行本发明任意实施例所提供的一种组学数据的批次矫正方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7是本发明实施例五提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图7所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如一种组学数据的批次矫正方法。

在一些实施例中，一种组学数据的批次矫正方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的一种组学数据的批次矫正方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种组学数据的批次矫正方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的一种组学数据的批次矫正方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行一种组学数据的批次矫正方法，该方法包括：

获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据；

对所述预处理数据进行批次矫正处理，得到矫正数据；

对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

一种组学数据的批次矫正方法，其特征在于，包括：

获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据；

对所述预处理数据进行批次矫正处理，得到矫正数据；

对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。
根据权利要求1所述的方法，其特征在于，对所述预处理数据进行批次矫正处理，得到矫正数据，包括：

对于任一批次中任一样本的任一类型组学数据，基于组学数据的批次矩阵和所述组学数据的初始表达量确定矫正参数；

基于所述组学数据的初始表达量和矫正参数确定矫正数据。
根据权利要求2所述的方法，其特征在于，所述矫正参数符合预设分布；

所述基于组学数据的批次矩阵和所述组学数据的初始表达量确定矫正参数，包括：

基于所述组学数据的批次矩阵和所述组学数据的初始表达量确定初始矫正参数；

基于所述初始矫正参数和所述预设分布确定矫正参数。
根据权利要求2所述的方法，其特征在于，所述基于所述组学数据的初始表达量和矫正参数确定矫正数据，包括：

基于所述组学数据的初始表达量和矫正参数确定标准化数值；

基于所述标准化数值和所述矫正参数确定矫正数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述预处理数据进行预设类型的分析处理，得到未经批次矫正的分析结果，将所述未经批次矫正的分析结果和所述批次矫正分析结果通过显示设备进行显示。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

将所述未经批次矫正的分析结果和所述批次矫正分析结果进行比对，判定组学数据是否存在批次质量异常。
根据权利要求5所述的方法，其特征在于，所述预处理包括数据清洗、数据归一化和缺失值处理的一项或多项；

所述对所述预处理数据进行预设类型的分析处理，得到未经批次矫正的分析结果，包括：

将每一项预处理后的预处理数据进行预设类型的分析处理，得到至少一个未经批次矫正的分析结果。
根据权利要求1所述的方法，其特征在于，所述每一批次样本中分别包括测试样本；所述多批次样本的组学数据包括各批次中测试样本的组学数据；

所述方法还包括：

根据所述测试样本的批次顺序依次确定进行分析的组学数据组，对各组学数据组进行预设类型的分析处理，得到各组学数据组的分析结果；

基于所述各组学数据组的分析结果确定是否存在组学数据存在批次质量异常。
根据权利要求8所述的方法，其特征在于，基于所述各组学数据组的分析结果确定是否存在组学数据是否存在批次质量异常，包括：

确定所述各组学数据组的分析结果中是否存在异常分析结果；

若是，则基于存在异常分析结果的组学数据组确定异常测试样本，将所述异常测试样本所在批次确定为异常批次。
根据权利要求1所述的方法，其特征在于，所述预设类型的分析处理，包括：样本强度分布分析、降维分析、判别分析、样本相关性分析和测试样本重复性分析。
一种组学数据的批次矫正装置，其特征在于，包括：

数据预处理模块，用于获取多批次样本的组学数据，对所述组学数据进行预处理，得到预处理数据；

批次矫正模块，用于对所述预处理数据进行批次矫正处理，得到矫正数据；

数据分析模块，用于对所述矫正数据进行预设类型的分析处理，得到批次矫正分析结果。
一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的一种组学数据的批次矫正方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-10中任一项所述的一种组学数据的批次矫正方法。