WO2017128497A1

WO2017128497A1 - 一种代谢混合物ms/ms质谱的仿真生成方法及系统

Info

Publication number: WO2017128497A1
Application number: PCT/CN2016/076226
Authority: WO
Inventors: 周家锐; 纪震; 殷夫; 朱泽轩
Original assignee: 哈尔滨工业大学深圳研究生院; 周家锐; 纪震; 殷夫; 朱泽轩
Priority date: 2016-01-25
Filing date: 2016-03-14
Publication date: 2017-08-03
Also published as: CN105760708A; CN105760708B

Abstract

一种代谢混合物MS/MS质谱的仿真生成方法及系统，其不依赖于真实实验，可通过修改参数设定，大量产生所需的代谢混合物MS/MS仿真质谱，样本量不受采集条件限制。此外，当条件与环境变动时，也无需重新设计并进行实验；有助于提升代谢组学的研发效率。本方法使用非线性回归模型生成MS/MS仿真质谱，避免了传统算法中简单线性叠加所带来的准确性问题。此外，通过统计真实代谢质谱数据建立噪声概率模型，涵盖了现实应用中需要面临的复杂干扰情况。所生成的质谱数据更符合实际，可有效指导代谢组学的前期研发，并部分用于算法性能的验证。

Description

一种代谢混合物MS/MS质谱的仿真生成方法及系统

技术领域

本发明涉及仿真领域，尤其涉及一种代谢混合物MS/MS质谱的仿真生成方法及系统。

背景技术

代谢物是生物体内完成代谢过程的小分子有机化合物总称，其包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究，可有效揭示生理现象背后的真实机理，并更为全面地展示生命体的动态状态，因此获得了越来越多的重视，被广泛应用于诸多科研与实用领域中。质谱分析(Mass Spectrometry, MS)是代谢组学最为重要的研究工具之一。其中的二级质谱(MS/MS)因其可有效鉴别不同代谢物质，并准确衡量信号强度，近年来已成为主要的发展方向，其数据形式如图1和图2所示。在实际应用中，一般需分析包含多种代谢物的混合物质，其MS/MS质谱成为相关研究与开发的数据基础。

现有的代谢混合物MS/MS质谱主要由两种方法获得：

第一种是直接通过实际实验，使用质谱仪取得特定混合物样本的MS/MS质谱，这一方法可得到真实的谱线数据，是代谢组学最为重要的信息来源与支撑。但其成本较高，在不同混合物与参数条件下的质谱差异较大，难以满足相关研究的需求。

第二种是使用计算机仿真技术，根据已知的单一代谢物MS/MS质谱及理化知识，生成推定的谱数据(Putative Spectra)。此方法成本较低，可大量产生特定参数条件下的代谢混合物仿真质谱。但准确度不高，用于研究开发可能导致错误结果。

在现有的代谢组学研究中，一般使用计算机仿真所生成的MS/MS质谱数据进行初期研发，而后再基于实验数据验证其真实性能。仿真质谱的准确程度决定了相关研究的质量与速度。

现有基于实验的代谢混合物MS/MS质谱生成方法，其缺点在于：

第一，混合物中的各种化学分子在进行二级质谱分析时会相互影响，所产生的MS/MS数据并非各单一物质谱线的简单叠加。且质谱仪参数设置不同，谱线分布也会有所差异。因此实验数据往往难以重复利用，需针对特定的研发项目，重新设计并采集所有的质谱信息，所需成本极高。

第二，某些特定的代谢混合物，例如糖尿病人的血液样本等，采集难度较大、成本较高。且在每个个体上仅能获得有限的样本量，其总数难以保证。影响了后续研究的进行。

现有基于计算机仿真的混合物MS/MS质谱生成方法，其缺点在于：

第一，现有算法往往基于各单一代谢物质谱的线性叠加，与实际情况中的非线性混合状况差异较大。当用于代谢组学研究时，容易导致模型过于简化。在真实的混合物MS/MS质谱上的分析性能不佳。

第二，现有方法所使用的噪声模型过于简单，一般为与生物信息无关的高斯噪声或编辑误差等，所生成的MS/MS仿真质谱难以反映实际情况。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种代谢混合物MS/MS质谱的仿真生成方法及系统，旨在解决现有的代谢混合物MS/MS质谱生成方法要么成本高、采集难度大、要么分析性能不佳、误差大等问题。

本发明的技术方案如下：

一种代谢混合物MS/MS质谱的仿真生成方法，其中，包括步骤：

A、设所需仿真的混合物质内包含N种代谢物

所述N种代谢物的真实MS/MS质谱对应为S＝{S₁,S₂,…S_n…,S_N}，其中任意S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d、i_d分别为第d条谱线的质核比与强度值；

B、根据每个代谢物的真实MS/MS质谱，统计每个代谢物的噪声概率模型；

C、根据每一代谢物的噪声概率模型生成Φ中相应代谢物的仿真质谱组；

D、根据所有代谢物的仿真质谱组，依次产生代谢混合物MS/MS仿真质谱；

E、设置最大生成仿真数量为L，将每次产生的代谢混合物MS/MS 仿真质谱组成S*＝{S^* ₁,S^* ₂,…,S^* _L}，并作为生成结果输出。

所述的代谢混合物MS/MS质谱的仿真生成方法，其中，所述步骤B具体包括：

B1、设当前输入为第n个代谢物的真实MS/MS质谱S_n，S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，提取其质核比矢量为M＝[m₁,m₂,…]，强度矢量为I＝[i₁,i₂,…]；

B2、对于M中的每个质核比数值，取其小数部分，形成质核偏移矢量T＝[t₁,t₂,…]；

B3、计算T的均值为μ_T，方差为σ_T，从而构造质核比概率模型为正态分布N(μ_T,σ_T)；

B4、计算I的均值为μ_I，方差为σ_I，构造强度概率模型为正态分布N(μ_I,σ_I)；

B5、从而得到第n个代谢物的噪声概率模型为P_n＝[N(μ_T,σ_T),N(μ_I,σ_I)]。

所述的代谢混合物MS/MS质谱的仿真生成方法，其中，所述步骤C具体包括：

C1、设当前输入为第n个代谢物的真实MS/MS质谱S_n及噪声概率模型P_n，初始化计数器k＝1；

C2、计算S_n中质核比矢量的取值范围为R＝[min(M),max(M)]，取C为R内所有整数值所形成的矢量；

C3、对于每个c∈C，若R_c＝[c-0.5,c+0.5]范围内不包含谱线，则转至步骤C5，若R_c＝[c-0.5,c+0.5]范围内包含谱线，则进入步骤C4；

C4、对R_c内的每个谱线(m_d,i_d)增加仿真噪声得到(m^* _d,i^* _d)并替换原有的(m_d,i_d)，然后转至步骤C6；

C5、产生[0,1]范围内均匀分布的随机值r，若有r<p_ins，则在R_c内添加一根谱线(m_d,i_d)，其中m_d＝c+t，t为服从N(μ_T,σ_T)∈P_n分布的随机偏移；i_d为服从N(μ_I,σ_I)∈P_n分布的随机值，p_ins为谱线增加概率；

C6、将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S^* _n,k，更新计数器k＝k+1，若k<K则转至步骤C2，K为最大生成质谱数量；

C7、输出第n个代谢物的仿真质谱组为S^* _n＝{S^* _n,1,S^* _n,2,...,S^* _n,K}。

所述的代谢混合物MS/MS质谱的仿真生成方法，其中，所述步骤C4具体包括：

产生[0,1]范围内均匀分布的随机值r，若有r<p_del，则将对应谱线删除。

产生[0,1]范围内均匀分布的随机值r，若有r<p_mz，则使m_d产生一个服从N(μ_T,σ_T)∈P_n分布的随机偏移t，有m^* _d＝m_d+t；

产生[0,1]范围内均匀分布的随机值r，若有r<p_int，则使i_d变为一个服从N(μ_I,σ_I)∈P_n分布的新随机值i^* _d；

其中，p_del为谱线删除概率，p_mz为质核比偏移概率，p_int为强度偏移概率。

所述的代谢混合物MS/MS质谱的仿真生成方法，其中，所述步骤D具体包括：

D1、从每个代谢物的仿真质谱组S^* _n,n＝1,2,…,N中，各随机选择一个质谱S^* _n,K,k∈K，共计N个；将其中所有谱线混合，组成新的质谱矢量S_l＝[(m₁,i₁),(m₂,i₂),…]；

D2、提取S_l的质核比矢量为M_l，计算其质核比概率模型为Nl(μ_T,σ_T)；

D3、使用回归算法对S_l进行建模形成非线性模型R_l；

D4、对于M_l中的每个m_d，使其产生一个服从Nl(μ_T,σ_T)分布的随机偏移值t：m^* _d＝m_d+t，并使用R_l计算对应的强度值为i^* _d，构成新的仿真谱线(m^* _d,i^* _d)，将所有仿真谱线组成代谢混合物MS/MS仿真质谱S^* _l＝[(m^* ₁,i^* ₁),(m^* ₂,i^* ₂),…]，作为当前输出；

D5、更新计数器l＝l+1，若l<L则转至步骤D1。

一种代谢混合物MS/MS质谱的仿真生成系统，其中，包括：

设置模块，用于设所需仿真的混合物质内包含N种代谢物

噪声概率模型统计模块，用于根据每个代谢物的真实MS/MS质谱，统计每个代谢物的噪声概率模型；

仿真质谱组生成模块，用于根据每一代谢物的噪声概率模型生成Φ中相应代谢物的仿真质谱组；

仿真质谱产生模块，用于根据所有代谢物的仿真质谱组，依次产生代谢混合物MS/MS仿真质谱；

结果输出模块，用于设置最大生成数量为L，将每次产生的代谢混合物MS/MS仿真质谱组成S*＝{S^* ₁,S^* ₂,…,S^* _L}，并作为生成结果输出。

所述的代谢混合物MS/MS质谱的仿真生成系统，其中，所述噪声概率模型统计模块具体包括：

提取单元，用于设当前输入为第n个代谢物的真实MS/MS质谱S_n，S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，提取其质核比矢量为M＝[m₁,m₂,…]，强度矢量为I＝[i₁,i₂,…]；

质核偏移矢量形成单元，用于对于M中的每个质核比数值，取其小数部分，形成质核偏移矢量T＝[t₁,t₂,…]；

第一构造单元，用于计算T的均值为μ_T，方差为σ_T，从而构造质核比概率模型为正态分布N(μ_T,σ_T)；

第二构造单元，用于计算I的均值为μ_I，方差为σ_I，构造强度概率模型为正态分布N(μ_I,σ_I)；

噪声概率模块生成单元，用于从而得到第n个代谢物的噪声概率模型为P_n＝[N(μ_T,σ_T),N(μ_I,σ_I)]。

所述的代谢混合物MS/MS质谱的仿真生成系统，其中，所述仿真质谱组生成模块具体包括：

初始化单元，用于设当前输入为第n个代谢物的真实MS/MS质谱S_n及噪声概率模型P_n，初始化计数器k＝1；

取整单元，用于计算S_n中质核比矢量的取值范围为R＝[min(M),max(M)]，取C为R内所有整数值所形成的矢量；

判断单元，用于对于每个c∈C，若R_c＝[c-0.5,c+0.5]范围内不包含谱线，则转至增加单元，若R_c＝[c-0.5,c+0.5]范围内包含谱线，则进入替换单元；

替换单元，用于对R_c内的每个谱线(m_d,i_d)增加仿真噪声得到(m^* _d,i^* _d)并替换原有的(m_d,i_d)，然后转至存储单元；

增加单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_ins，则在R_c内添加一根谱线(m_d,i_d)，其中m_d＝c+t，t为服从N(μ_T,σ_T)∈P_n分布的随机偏移；i_d为服从N(μ_I,σ_I)∈P_n分布的随机值，p_ins为谱线增加概率；

存储单元，用于将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S^* _n,k，更新计数器k＝k+1，若k<K则转至取整单元，K为最大生成质谱数量；

输出单元，用于输出第n个代谢物的仿真质谱组为S^* _n＝{S^* _n,1,S^* _n,2,…,S^* _n,K}。

所述的代谢混合物MS/MS质谱的仿真生成系统，其中，所述替换单元具体包括：

删除子单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_del，则将对应谱线删除。

质核比偏移子单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_mz，则使m_d产生一个服从N(μ_T,σ_T)∈P_n分布的随机偏移t，有m^* _d＝m_d+t；

强度偏移子单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_int，则使i_d变为一个服从N(μ_I,σ_I)∈P_n分布的新随机值i^* _d；

所述的代谢混合物MS/MS质谱的仿真生成系统，其中，所述仿真质谱产生模块具体包括：

混合单元，用于从每个代谢物的仿真质谱组S^* _n,n＝1,2,…,N中，各随机选择一个质谱S^* _n,K,k∈K，共计N个；将其中所有谱线混合，组成新的质谱矢量S_l＝[(m₁,i₁),(m₂,i₂),…]；

计算单元，用于提取S_l的质核比矢量为M_l，计算其质核比概率模型为Nl(μ_T,σ_T)；

建模单元，用于使用回归算法对S_l进行建模形成非线性模型R_l；

随机偏移单元，用于对于M_l中的每个m_d，使其产生一个服从Nl(μ_T,σ_T)分布的随机偏移值t：m^* _d＝m_d+t，并使用R_l计算对应的强度值为i^* _d，构成新的仿真谱线(m^* _d,i^* _d)，将所有仿真谱线组成代谢混合物MS/MS仿真质谱S^* _l＝[(m^* ₁,i^* ₁),(m^* ₂,i^* ₂),…]，作为当前输出；

更新单元，用于更新计数器l＝l+1，若l<L则转至混合单元。

有益效果：本发明不依赖于真实实验，可通过修改参数设定，大量产生所需的代谢混合物MS/MS仿真质谱，其成本极低，样本量不受采集条件限制。此外，当条件与环境变动时，也无需重新设计并进行实验；有助于提升代谢组学的研发效率。本发明使用非线性回归模型生成MS/MS仿真质谱，避免了传统算法中简单线性叠加所带来的准确性问题。此外，通过统计真实代谢质谱数据建立噪声概率模型，涵盖了现实应用中需要面临的复杂干扰情况。所生成的质谱数据更符合实际，可有效指导代谢组学的前期研发，并部分用于算法性能的验证。

附图说明

图1和图2为本发明中二级质谱的数据结构示意图。

图3为本发明一种代谢混合物MS/MS质谱的仿真生成方法较佳实施例的流程图。

图4为单一代谢物的MS/MS仿真质谱构造方法。

图5为代谢混合物MS/MS仿真质谱构造方法。

具体实施方式

本发明提供一种代谢混合物MS/MS质谱的仿真生成方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图3，图3为本发明一种代谢混合物MS/MS质谱的仿真生成方法较佳实施例的流程图，如图所示，其包括步骤：

A、设所需仿真的混合物质内包含N种代谢物Φ(即目标代谢物集合

E、设置最大生成仿真数量为L，将每次产生的代谢混合物MS/MS仿真质谱组成S^*＝{S^* ₁,S^* ₂,…,S^* _L}，并作为生成结果输出。

在本发明中，以现有单一代谢物MS/MS质谱数据库中的信息为基础，通过统计其质核比(Mass to Charge Ratio, m/z)与强度(Intensity)的分布，建立噪声概率模型。而后，使用编辑误差对原始谱线进行增减，并根据噪声概率模型添加仿真噪声。从而形成一组推定的代谢物MS/MS质谱。最后，使用回归模型对仿真质谱进行非线性建模，产生混合物的MS/MS仿真质谱作为算法输出结果。

在所述步骤A中，设所需仿真的混合物质内包含N种代谢物

通过查询现有代谢物MS/MS质谱数据库如MassBank等，获得这N种代谢物的真实MS/MS质谱为S＝{S₁,S₂,…S_n…,S_N}，其中任意S_n＝[(m₁,i₁),(m₂,i₂),…]，S_n∈S，m_d、i_d分别为其中第d条谱线的质核比与强度值。

所述步骤B具体包括：

B2、对于M中的每个质核比数值，取其小数部分，形成质核偏移矢量T＝[t₁,t₂,…]；例如，若有m_d＝12.36∈M，则有对应t_d＝0.36，t_d∈T，t_d为m_d小数部分。

如图4所示，所述步骤C具体包括：

C2、计算S_n中质核比矢量的取值范围为R＝[min(M),max(M)]，取C为R内所有整数值所形成的矢量；例如若R＝[0,5]，则有C＝[0,1,2,3,4,5]。

C3、对于每个c∈C，若R_c＝[c-0.5,c+0.5]范围内不包含任何实际(真实)谱线，亦即没有任何m_d∈M在R_c内，则转至步骤C5；若R_c＝[c-0.5,c+0.5]范围内包含谱线，则进入步骤C4；

C5、产生[0,1]范围内均匀分布的随机值r，若有r<p_ins，则在R_c 内添加一根噪声谱线(m_d,i_d)，其中m_d＝c+t，t为服从N(μ_T,σ_T)∈P_n分布的随机偏移；i_d为服从N(μ_I,σ_I)∈P_n分布的随机值，p_ins为谱线增加概率；

C6、将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S^* _n,k，更新计数器k＝k+1，若k<K则转至步骤C2；，K为最大生成质谱数量；

C7、输出第n个代谢物的(MS/MS)仿真质谱组为S^* _n＝{S^* _n,1,S^* _n,2,…,S^* _n,K}。

所述步骤C4具体包括：

产生[0,1]范围内均匀分布的随机值r，若有r<p_mz，则使m_d产生一个服从N(μ_T,σ_T)∈P_n分布的随机偏移t，有m^* _d＝m_d+t。

如图5所示，所述步骤D具体包括：

D2、提取S_l的质核比矢量为M_l，计算其质核比概率模型为Nl(μ_T, σ_T)；其具体方法可参见B1至B3。

D3、使用回归算法对S_l进行建模形成非线性模型R_l；例如使用支持向量机回归(Support Vector Machine Regression, SVR)等方法来进行建模，形成非线性模型R_l。

D5、更新计数器l＝l+1，若l<L则转至步骤D1。

基于上述方法，本发明还提供一种代谢混合物MS/MS质谱的仿真生成系统较佳实施例，其包括：

设置模块，用于设所需仿真的混合物质内包含N种代谢物

结果输出模块，用于设置最大生成数量为L，将每次产生的代谢混合物MS/MS仿真质谱组成S^*＝{S^* ₁,S^* ₂,…,S^* _L}，并作为生成结果输出。

进一步，所述噪声概率模型统计模块具体包括：

进一步，所述仿真质谱组生成模块具体包括：

进一步，所述替换单元具体包括：

进一步，所述仿真质谱产生模块具体包括：

更新单元，用于更新计数器l＝l+1，若l<L则转至混合单元。

关于上述模块单元的技术细节在前面的方法中已有详述，故不再赘述。

综上所述，本发明不依赖于真实实验，可通过修改参数设定，大量产生所需的代谢混合物MS/MS仿真质谱，其成本极低，样本量不受采集条件限制。此外，当条件与环境变动时，也无需重新设计并进行实验；有助于提升代谢组学的研发效率。本发明使用非线性回归模型生成MS/MS仿真质谱，避免了传统算法中简单线性叠加所带来的准确性问题。此外，通过统计真实代谢质谱数据建立噪声概率模型，涵盖了现实应用中需要面临的复杂干扰情况。所生成的质谱数据更符合实际，可有效指导代谢组学的前期研发，并部分用于算法性能的验证。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

一种代谢混合物MS/MS质谱的仿真生成方法，其特征在于，包括步骤：

A、设所需仿真的混合物质内包含N种代谢物
所述N种代谢物的真实MS/MS质谱对应为S＝{S₁,S₂,…S_n…,S_N}，其中任意S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d、i_d分别为第d条谱线的质核比与强度值；

B、根据每个代谢物的真实MS/MS质谱，统计每个代谢物的噪声概率模型；

C、根据每一代谢物的噪声概率模型生成Φ中相应代谢物的仿真质谱组；

D、根据所有代谢物的仿真质谱组，依次产生代谢混合物MS/MS仿真质谱；

E、设置最大生成仿真数量为L，将每次产生的代谢混合物MS/MS仿真质谱组成S^*＝{S^* ₁,S^* ₂,…,S^* _L}，并作为生成结果输出。
根据权利要求1所述的代谢混合物MS/MS质谱的仿真生成方法，其特征在于，所述步骤B具体包括：

B1、设当前输入为第n个代谢物的真实MS/MS质谱S_n，S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，提取其质核比矢量为M＝[m₁,m₂,…]，强度矢量为I＝[i₁,i₂,…]；

B2、对于M中的每个质核比数值，取其小数部分，形成质核偏移矢量T＝[t₁,t₂,…]；

B3、计算T的均值为μ_T，方差为σ_T，从而构造质核比概率模型为正态分布N(μ_T,σ_T)；

B4、计算I的均值为μ_I，方差为σ_I，构造强度概率模型为正态分布N(μ_I,σ_I)；

B5、从而得到第n个代谢物的噪声概率模型为P_n＝[N(μ_T,σ_T),N(μ_I,σ_I)]。
根据权利要求1所述的代谢混合物MS/MS质谱的仿真生成方法，其特征在于，所述步骤C具体包括：

C1、设当前输入为第n个代谢物的真实MS/MS质谱S_n及噪声概率模型P_n，初始化计数器k＝1；

C2、计算S_n中质核比矢量的取值范围为R＝[min(M),max(M)]，取C为R内所有整数值所形成的矢量；

C3、对于每个c∈C，若R_c＝[c-0.5,c+0.5]范围内不包含谱线，则转至步骤C5，若R_c＝[c-0.5,c+0.5]范围内包含谱线，则进入步骤C4；

C4、对R_c内的每个谱线(m_d,i_d)增加仿真噪声得到(m^* _d,i^* _d)并替换原有的(m_d,i_d)，然后转至步骤C6；

C5、产生[0,1]范围内均匀分布的随机值r，若有r<p_ins，则在R_c内添加一根谱线(m_d,i_d)，其中m_d＝c+t，t为服从N(μ_T,σ_T)∈P_n分布的随机偏移；i_d为服从N(μ_I,σ_I)∈P_n分布的随机值，p_ins为谱线增加概率；

C6、将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S^* _n,k，更新计数器k＝k+1，若k<K则转至步骤C2，K为最大生成质谱数量；

C7、输出第n个代谢物的仿真质谱组为S^* _n＝{S^* _n,1,S^* _n,2,…,S^* _n,K}。
根据权利要求3所述的代谢混合物MS/MS质谱的仿真生成方法，其特征在于，所述步骤C4具体包括：

产生[0,1]范围内均匀分布的随机值r，若有r<p_del，则将对应谱线删除。

产生[0,1]范围内均匀分布的随机值r，若有r<p_mz，则使m_d产生一个服从N(μ_T,σ_T)∈P_n分布的随机偏移t，有m^* _d＝m_d+t；

产生[0,1]范围内均匀分布的随机值r，若有r<p_int，则使i_d变为一个服从N(μ_I,σ_I)∈P_n分布的新随机值i^* _d；

其中，p_del为谱线删除概率，p_mz为质核比偏移概率，p_int为强度偏移概率。
根据权利要求1所述的代谢混合物MS/MS质谱的仿真生成方法，其特征在于，所述步骤D具体包括：

D1、从每个代谢物的仿真质谱组S^* _n,n＝1,2,…,N中，各随机选择一个质谱S^* _n,K,k∈K，共计N个；将其中所有谱线混合，组成新的质谱矢量S_l＝[(m₁,i₁),(m₂,i₂),…]；

D2、提取S_l的质核比矢量为M_l，计算其质核比概率模型为Nl(μ_T,σ_T)；

D3、使用回归算法对S_l进行建模形成非线性模型R_l；

D4、对于M_l中的每个m_d，使其产生一个服从Nl(μ_T,σ_T)分布的随机偏移值t：m^* _d＝m_d+t，并使用R_l计算对应的强度值为i^* _d，构成新的仿真谱线(m^* _d,i^* _d)，将所有仿真谱线组成代谢混合物MS/MS仿真质谱S^* _l＝[(m^* ₁,i^* ₁),(m^* ₂,i^* ₂),…]，作为当前输出；

D5、更新计数器l＝l+1，若l<L则转至步骤D1。
一种代谢混合物MS/MS质谱的仿真生成系统，其特征在于，包括：

设置模块，用于设所需仿真的混合物质内包含N种代谢物

所述N种代谢物的真实MS/MS质谱对应为S＝{S₁,S₂,…S_n…,S_N}，其中任意S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，m_d、i_d分别为第d条谱线的质核比与强度值；

噪声概率模型统计模块，用于根据每个代谢物的真实MS/MS质谱，统计每个代谢物的噪声概率模型；

仿真质谱组生成模块，用于根据每一代谢物的噪声概率模型生成Φ中相应代谢物的仿真质谱组；

仿真质谱产生模块，用于根据所有代谢物的仿真质谱组，依次产生代谢混合物MS/MS仿真质谱；

结果输出模块，用于设置最大生成数量为L，将每次产生的代谢混合物MS/MS仿真质谱组成S^*＝{S^* ₁,S^* ₂,…,S^* _L}，并作为生成结果输出。
根据权利要求6所述的代谢混合物MS/MS质谱的仿真生成系统，其特征在于，所述噪声概率模型统计模块具体包括：

提取单元，用于设当前输入为第n个代谢物的真实MS/MS质谱S_n，S_n＝[(m₁,i₁),(m₂,i₂),…(m_d,i_d),…]，提取其质核比矢量为M＝[m₁, m₂,…]，强度矢量为I＝[i₁,i₂,…]；

质核偏移矢量形成单元，用于对于M中的每个质核比数值，取其小数部分，形成质核偏移矢量T＝[t₁,t₂,…]；

第一构造单元，用于计算T的均值为μ_T，方差为σ_T，从而构造质核比概率模型为正态分布N(μ_T,σ_T)；

第二构造单元，用于计算I的均值为μ_I，方差为σ_I，构造强度概率模型为正态分布N(μ_I,σ_I)；

噪声概率模块生成单元，用于从而得到第n个代谢物的噪声概率模型为P_n＝[N(μ_T,σ_T),N(μ_I,σ_I)]。
根据权利要求6所述的代谢混合物MS/MS质谱的仿真生成系统，其特征在于，所述仿真质谱组生成模块具体包括：

初始化单元，用于设当前输入为第n个代谢物的真实MS/MS质谱S_n及噪声概率模型P_n，初始化计数器k＝1；

取整单元，用于计算S_n中质核比矢量的取值范围为R＝[min(M),max(M)]，取C为R内所有整数值所形成的矢量；

判断单元，用于对于每个c∈C，若R_c＝[c-0.5,c+0.5]范围内不包含谱线，则转至增加单元，若R_c＝[c-0.5,c+0.5]范围内包含谱线，则进入替换单元；

替换单元，用于对R_c内的每个谱线(m_d,i_d)增加仿真噪声得到(m^* _d,i^* _d)并替换原有的(m_d,i_d)，然后转至存储单元；

增加单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_ins，则在R_c内添加一根谱线(m_d,i_d)，其中m_d＝c+t，t为服从N(μ_T,σ_T) ∈P_n分布的随机偏移；i_d为服从N(μ_I,σ_I)∈P_n分布的随机值，p_ins为谱线增加概率；

存储单元，用于将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S^* _n,k，更新计数器k＝k+1，若k<K则转至取整单元，K为最大生成质谱数量；

输出单元，用于输出第n个代谢物的仿真质谱组为S^* _n＝{S^* _n,1,S^* _n,2,…,S^* _n,K}。
根据权利要求8所述的代谢混合物MS/MS质谱的仿真生成系统，其特征在于，所述替换单元具体包括：

删除子单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_del，则将对应谱线删除。

质核比偏移子单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_mz，则使m_d产生一个服从N(μ_T,σ_T)∈P_n分布的随机偏移t，有m^* _d＝m_d+t；

强度偏移子单元，用于产生[0,1]范围内均匀分布的随机值r，若有r<p_int，则使i_d变为一个服从N(μ_I,σ_I)∈P_n分布的新随机值i^* _d；

其中，p_del为谱线删除概率，p_mz为质核比偏移概率，p_int为强度偏移概率。
根据权利要求6所述的代谢混合物MS/MS质谱的仿真生成系统，其特征在于，所述仿真质谱产生模块具体包括：

混合单元，用于从每个代谢物的仿真质谱组S^* _n,n＝1,2,…,N中，各随机选择一个质谱S^* _n,K,k∈K，共计N个；将其中所有谱线混合，组成新的质谱矢量S_l＝[(m₁,i₁),(m₂,i₂),…]；

计算单元，用于提取S_l的质核比矢量为M_l，计算其质核比概率模型为Nl(μ_T,σ_T)；

建模单元，用于使用回归算法对S_l进行建模形成非线性模型R_l；

随机偏移单元，用于对于M_l中的每个m_d，使其产生一个服从Nl(μ_T,σ_T)分布的随机偏移值t：m^* _d＝m_d+t，并使用R_l计算对应的强度值为i^* _d，构成新的仿真谱线(m^* _d,i^* _d)，将所有仿真谱线组成代谢混合物MS/MS仿真质谱S^* _l＝[(m^* ₁,i^* ₁),(m^* ₂,i^* ₂),…]，作为当前输出；更新单元，用于更新计数器l＝l+1，若l<L则转至混合单元。