WO2021159833A1

WO2021159833A1 - 一种核酸质谱数值处理方法

Info

Publication number: WO2021159833A1
Application number: PCT/CN2020/134810
Authority: WO
Inventors: 树建伟; 相双红; 汪松炯
Original assignee: 浙江迪谱诊断技术有限公司
Priority date: 2020-02-10
Filing date: 2020-12-09
Publication date: 2021-08-19
Also published as: EP4016379C0; CN111325121A; CN111325121B; US20220383979A1; JP2023515296A; JP7456665B2; EP4016379B1; EP4016379A1; EP4016379A4

Abstract

一种核酸质谱数值处理方法，包括如下步骤：步骤S1：单个质谱图重新校准，对于样本的每个检测点，获取对应检测点的不同位置的若干质谱图，每个质谱图需要使用一组特殊的具有预期质荷比的峰即锚定峰进行重新校准；步骤S2：质谱图合成，在步骤S1基础上将对应检测点不同位置的若干质谱图合成该检测点的单一质谱图；步骤S3：小波滤波，在步骤S2基础上，通过基于小波的数字滤波器来消除高频噪声和基线；步骤S4：峰特征值提取，在步骤S3基础上，进行峰拟合，基于质谱图的拟合曲线，获得峰高、峰宽、峰面积，质量偏移以及信噪比。该方法提高核酸质谱数据采集的可信度且提高核苷酸检测的准确性。

Description

一种核酸质谱数值处理方法

技术领域

本发明属于核酸质谱技术领域，具体涉及一种核酸质谱数值处理方法。

背景技术

质谱技术具有快速、准确、灵敏度高等优点，近年来在生物分析方面得到了广泛的应用。核酸作为生命的基本物质，对生物体的生长、发育、繁殖、遗传及变异等重大生命现象起着至关重要的作用。现代生物技术发现，大部分的生理或疾病性状，都是由一系列存在于核酸序列上的基因调控而表现出来的，因此对于核酸，精准的核苷酸检测显得尤为重要，质谱数值处理作为核苷酸检测前必不可少的一部分，重要程度不言而喻。目前，在类似的方法中存在数据采集低转化率、数据不平均等问题，这些问题严重影响核苷酸检测的结果，在此方面需要出进一步研究。

发明内容

本发明的目的在于针对质谱数据采集过程中存在着低转化率、数据不平均等问题，提供了一种核酸质谱数值处理方法来提取基因分析前的可靠特征值，是一种以改进现有技术局限性，提高核苷酸检测的准确性为目标的核酸质谱数值处理方法。

本发明是通过以下技术方案实现的：

一种核酸质谱数值处理方法，包括如下步骤：

步骤S1：单个质谱图重新校准，对于样本的每个检测点，获取对应检测点的不同位置的若干质谱图，每个质谱图需要使用一组特殊的具有预期质荷比的峰即锚定峰进行重新校准；

步骤S2：质谱图合成，在步骤S1基础上将对应检测点同位置的若干质谱图合成该检测点的单一质谱图；

步骤S3：小波滤波，在步骤S2基础上，通过基于小波的数字滤波器来消除高频噪声和基线；

步骤S4：峰特征值提取，在步骤S3基础上，进行峰拟合，基于质谱图的拟合曲线，获得峰高、峰宽、峰面积，质量偏移以及信噪比。

作为优选，所述步骤S1中，对单个质谱图进行重新校准步骤包括：

步骤S11：候选参考峰选择，根据以下标准从所有可能的预期峰中选择一组参考峰：一，峰值必须位于特定区间的质量范围内；二，在特定区间的质量范围内没有相邻参考峰；

步骤S12：峰定位，宽度为9的权重矩阵卷积滤波器应用于质谱图，矩阵优选：(-4,0,1,2,2,2,1,0,-4)，对于质谱图的给定点，应用此滤波后的强度值等于周围9个值的加权和，如下公式表示：

基于滤波后的强度值，将总质谱图分解为特定点间隔，对于每个间隔，识别局部噪声，具有强度大于等于四倍局部噪声并且大于等于全局最小值识别为候选峰，最小值优选：0.01*最大局部最大值；

步骤S13：质谱峰拟合；

步骤S14：最终锚定峰选择，对于检测到的峰值列表，首先找出截止SNR即最小SNR，检测到的峰与候选参考峰列表匹配，仅选择质量在候选参考峰特定范围内且SNR高于截止SNR的那些峰；

步骤S15：重新校准，结合得到的锚定峰以及他们的预期质量，利用非线性拟合的方法计算校准系数，这里，假设质谱仪与m/z(质荷比)之间的映射函数为布鲁克函数，函数形式为

进一步地，所述步骤S13中峰拟合的具体步骤包括：

步骤S131：确定预期线宽。

步骤S132：预期信号的区域在NN个预期线宽的间隔内被屏蔽，NN优选4。

步骤S133：隐式基线计算为在MMλ _m区间内质谱图强度y _i的平均值，其中λ _m是此区间内最小的估计线宽，其中MM优选80，在此区间的屏蔽区域内，用线性插值提供y _i的值。

步骤S134：将噪声水平计算为(信号-基线)的运行的有效值(RMS)。

步骤S135：屏蔽点，峰区域内SNR(SNR计算为峰高和噪声的比例)大于给定值以及噪声大于给定值的点将进一步被屏蔽。

步骤S136：每个峰的特定个估计线宽内被确定为拟合区域，在没重叠峰的情况下，用Levenberg-Marquardt算法拟合单个高斯峰，找到指定参数使得调优函数最小化。

更进一步地，所述步骤S131中，确定预期线宽的具体步骤包括：

λ _e＝L _A+L _B·M，其中，L _A和L _B为默认参数，M为给定的峰值(Da)。

更进一步地，所述步骤S136中，调优函数的具体步骤包括：

其中，总和是从指定的区间中对所有{y _i,m _i}进行求和，H _f是对应于点M _f的基线上方的拟合高度，参数M _f、λ _f表示拟合质量、拟合线宽，σ _i根据条件给定为某一参数。

作为又一优选，所述步骤S4中特征值提取具体步骤包括：

步骤S41：峰拟合，同步骤S13；

步骤S42：记录以下特征：

一、拟合峰值中心基线之上的高度，H _f，

二、拟合线宽，λ _f，

三、峰偏移(拟合峰值中心与预期峰值中心的距离)，δ _f＝M _f-M _e，

四、A，在4λ _f范围内拟合峰与基线之间的面积，

五、SNR＝H _f/N(M _f)，信噪比，

六、V＝A/SNR，面积方差，

七、Δ，拟合面积差，拟合强度和测量强度之间平方差之和的平方根。

本发明的优点：1、本发明的核酸质谱数值处理方法提取基因分析前的可靠特征值，是一种以改进现有技术局限性，提高核苷酸检测的准确性为目标的核酸质谱数值处理方法；2、提高核酸质谱数据采集的可信度。

附图说明

图1：滤波前的质谱；

图2：滤波后的质谱；

图3：峰值拟合前后的对比图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步说明。

本发明为一种核酸质谱数值处理方法，包括如下步骤：

步骤S1：单个质谱的重新校准。对于单个样本，获取对应于样本检测点不同位置的多个(通常n＝5)质谱。每个质谱实际上是多次激光激发(通常n＝20)的质谱之和。质谱的初始系数是基于假设质谱仪与m/z(质荷比)之间的映射函数为二次函数(函数形式为m＝At ²+Bt+C)生成，在对质谱求和之前，还需要进行重新校准质谱。重新校准过程是通过将一组被称为锚定峰的特殊识别峰与其预期质量匹配来实现的，并遵循以下步骤：

步骤S11：候选参考峰的选择，从所有可能的预期峰中选择一组干净的参考峰，标准如下：

1、峰值必须位于4000Da和9000Da的质量范围内。

2、峰值在质量+/-分辨率定义的质量范围内没有相邻参考峰。

步骤S12：峰定位，宽度为9的权重矩阵卷积滤波器应用于质谱图，矩阵优选：(-4,0,1,2,2,2,1,0,-4)，对于质谱的给定点，应用此滤波后的强度值等于周围9个值的加权和，如下公式表示：

基于滤波后的强度值，用一个较小的滑动窗口(n＝+/-3)识别局部最大值。然后，将整个质谱分成每500个点一个区间，对于每个区间，局部噪声识别为周围1500点窗口(+/-一个区间)内局部最大值的33％。具有强度大于等于四倍局部噪声并且大于等于全局最小值识别为候选峰，最小值优选：0.01*最大局部最大值。对于识别出的峰列表，在一定范围内存在相邻候选峰、SNR(滤波后的强度值和局部噪声的比例)≤2以及质量值在预先指定候选参考峰范围外的峰将被清除。最后，基于原始强度调整峰值指数。应用滤波器前后的质谱参见图1、图2。

步骤S13：质谱峰拟合，参见图3，具体实现步骤如下：

步骤S131：确定预期线宽，预期线宽用如下公式确定：

λ _e＝L _A+L _B·M，其中L _A和L _B为默认参数(默认值分别为2.5、0.0005)，M 为给定的峰值(Da)。

步骤S135：峰区域内SNR(SNR计算为峰高和噪声的比例)大于5以及噪声大于1的点将进一步被屏蔽。

步骤S136：每个峰的4个估计线宽内被确定为拟合区域，在没重叠峰的情况下，用Levenberg-Marquardt算法拟合单个高斯峰，找到参数M _f、λ _f(拟合质量、拟合线宽)使得调优函数(函数原型如下所示)最小化。

总和是从指定的区间中对所有{y _i,m _i}进行求和，H _f是对应于点M _f的基线上方的拟合高度。离峰值中心0.5λ _e以内的点，σ _i设定为等于1，离峰值中心0.5λ _e以外的点，σ _i设定为0.2或0.4。

步骤S14：最终最终锚定峰选择，对于检测到的峰值列表，首先找出截止SNR(即最小SNR)，检测到的峰与候选参考峰列表匹配，仅选择质量在候选参考峰+/-25Da内且SNR高于截止SNR的那些峰。

步骤S2：质谱合成，在步骤S1基础上将对应点不同位置的若干质谱汇总成该检测点的唯一质谱。合成多个质谱的方法是“自加权平均值”，可以使用以下等式进行描述：

其中n是质谱数，

质量i的平均强度；I _ij：来自于第j个质谱质量i的强度。当质谱具有不同的校准系数时，从质谱中选择最多锚定峰的最佳质谱。用最佳质谱初始化相加的质谱。只有当校准系数与最佳光谱的校准系数满足条件(A应在1％内变化；B应在10％以内变化；C应该20Da以内变化)时才能将该质谱与另一个质谱的绝对强度或平方强度求和。

步骤S3：小波滤波，基于小波的滤波在合成质谱上完成，用于消除高频噪声和基线。然后对该过滤后的质谱进行另一轮重新校准。在这轮重新校准之后，将新的ABC系数分配给合成质谱，并相应地调整m/z值。

步骤S4：峰特征值提取，参见图3，拟合过程遵循以下步骤：

步骤S41：峰拟合，步骤同S13；

步骤S42：拟合成功记录以下特征：

一、拟合峰值中心基线之上的高度，H _f，

二、拟合线宽，λ _f，

四、A，在4λ _f范围内拟合峰与基线之间的面积，

五、SNR＝H _f/N(M _f)，信噪比，

六、V＝A/SNR，面积方差，

本发明的核酸质谱数值处理方法提取基因分析前的可靠特征值，是一种以改进现有技术局限性，提高核苷酸检测的准确性为目标的核酸质谱数值；提高核酸质谱数据采集的可信度。

Claims

一种核酸质谱数值处理方法，其特征在于，包括如下步骤：

步骤S1：单个质谱图重新校准，对于样本的每个检测点，获取对应检测点的不同位置的若干质谱图，每个质谱图需要使用一组特殊的具有预期质荷比的峰即锚定峰进行重新校准；

步骤S2：质谱图合成，在步骤S1基础上将对应检测点不同位置的若干质谱图合成该检测点的单一质谱图；

步骤S3：小波滤波，在步骤S2基础上，通过基于小波的数字滤波器来消除高频噪声和基线；

步骤S4：峰特征值提取，在步骤S3基础上，进行峰拟合，基于质谱图的拟合曲线，获得峰高、峰宽、峰面积，质量偏移以及信噪比。
根据权利要求1所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S1中，对单个质谱图进行重新校准步骤包括：

步骤S11：候选参考峰选择，根据以下标准从所有可能的预期峰中选择一组参考峰：一，峰值必须位于特定区间的质量范围内；二，在特定区间的质量范围内没有相邻参考峰；

步骤S12：峰定位，宽度为9的权重矩阵卷积滤波器应用于质谱图，矩阵优选：(-4,0,1,2,2,2,1,0,-4)，对于质谱图的给定点，应用此滤波后的强度值等于周围9个值的加权和，如下公式表示：

基于滤波后的强度值，将总质谱图分解为特定点间隔，对于每个间隔，识别局部噪声，具有强度大于等于四倍局部噪声并且大于等于全局最小值识别为候选峰，最小值优选：0.01*最大局部最大值；

步骤S13：质谱峰拟合；

步骤S14：最终锚定峰选择，对于检测到的峰值列表，首先找出截止SNR即最小SNR，检测到的峰与候选参考峰列表匹配，仅选择质量在候选参考峰特定范围内且SNR高于截止SNR的那些峰；

步骤S15：重新校准，结合得到的锚定峰以及他们的预期质量，利用非线性拟合的方法计算校准系数，这里，假设质谱仪与m/z(质荷比)之间的映射函数为布鲁克函数，函数形式为
根据权利要求1所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S2如下：合成多个质谱图使用“自加权平均值”的方法。当质谱图具有不同的校准系数时，从质谱图中选择最多锚定峰的最佳质谱图；用最佳质谱图初始化相加的质谱图；只有当校准系数与最佳光谱的校准系数满足条件时才能将该质谱图与另一个质谱图的绝对强度或平方强度求和。
根据权利要求1所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S3如下：

基于小波的滤波在合成质谱图上完成，用于消除高频噪声和基线，然后对该过滤后的质谱图进行另一轮重新校准(同步骤S1)并相应地调整m/z值。
根据权利要求1所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S4包括：

步骤S41：峰拟合，同步骤S13；

步骤S42：记录以下特征：

一、拟合峰值中心基线之上的高度，H _f，

二、拟合线宽，λ _f，

三、峰偏移(拟合峰值中心与预期峰值中心的距离)，δ _f＝M _f-M _e，

四、A，在4λ _f范围内拟合峰与基线之间的面积，

五、SNR＝H _f/N(M _f)，信噪比，

六、V＝A/SNR，面积方差，

七、Δ，拟合面积差，拟合强度和测量强度之间平方差之和的平方根。
根据权利要求2所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S13中，峰拟合的具体步骤包括：

步骤S131：确定预期线宽；

步骤S132：预期信号的区域在NN个预期线宽的间隔内被屏蔽，NN优选4；

步骤S133：隐式基线计算为在MMλ _m区间内质谱图强度y _i的平均值，其中λ _m是此区间内最小的估计线宽，其中MM优选80，在此区间的屏蔽区域内，用线性插值提供y _i的值；

步骤S134：将噪声水平计算为(信号-基线)的运行的有效值(RMS)；

步骤S135：屏蔽点，峰区域内SNR(SNR计算为峰高和噪声的比例)大于给定值以及噪声大于给定值的点将进一步被屏蔽；

步骤S136：每个峰的特定个估计线宽内被确定为拟合区域，在没重叠峰的情况下，用Levenberg-Marquardt算法拟合单个高斯峰，找到指定参数使得调优函数最小化。
根据权利要求3所述的一种核酸质谱数值处理方法，其特征在于，合成多个质谱图使用“自加权平均值”的方法可以用下面等式进行描述：

其中，n是质谱图数，
质量i的平均强度；I _ij：来自于第j个质谱图质量i的强度。
根据权利要求6所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S131中确定预期线宽用下面等式进行描述：

λ _e＝L _A+L _B·M，其中，L _A和L _B为默认参数，M为给定的峰值(Da)。
根据权利要求6所述的一种核酸质谱数值处理方法，其特征在于，所述步骤S136中调优函数可以用下面等式进行描述：

其中，总和是从指定的区间中对所有{y _i,m _i}进行求和，H _f是对应于点M _f的基线上方的拟合高度，参数M _f、λ _f表示拟合质量、拟合线宽，σ _i根据条件给定为某一参数。