一种蛋白质组定量方法 技术领域 本发明涉及质谙分析领域, 具体而言涉及蛋白质组的非标记定量分析。 背景技术
随着质语技术在蛋白质组学领^ ^用的不断 ^,蛋白质组学定量,尤其是 蛋白质组学非标记定量(label free quantification ) , 得到了快速发展。 非标记 定量的基本原理是利用液相色傅-质语联用技术产生的数据来表征样品中肽 蛋白质的表达量。 这种方法主要有两类:
第一类方法直接利用 LC-MS/MS (又称 spectra countin )进行定量。这类方 法由于对质谱的分辨率、 灵敏度的要求较高, 当前质镨基本不能准确表征肽^ 蛋白的定量信息而不狨人们广泛使用。
第二类方法利用 LC-MS—级语峰进行定量(又称 ion counting )。 这类方法 根据从一级 构建的提取离子色 ( XIC )面积(或强度)定量肽段(蛋白 质)。 由于经过酶解后的样品经过液相色谱初步分离后, 性质相同或相近的肽段 (同位素峰)会出现在保留时间相近的区域, 肽段在样品中浓;! ^大, 其离子信 号的响应强度越强, 所以这种方法的定量结果较准确。
上述第二类方法可以通过两种方式进行:无需鉴定结果的定量(或称为先定 量后鉴定)和需要鉴定结果的定量(或称为先鉴定后定量)。
无需鉴定结果的定量方法直接利用 LC-MS—级语峰信息对肽段定量、鉴定。 这种方法主要步骤为: 1 )信号预处理及谱峰检测; 2 )构建 XIC; 3 )保留时间 对齐; 4 )数据归一化; 5 )肽 ^蛋白质序列匹配; 6 )蛋白质丰度比计算; 及 7 ) 统计分析。这种方法能定量到的肽段、蛋白数较多, ^^定到的肽段假阳性较高, 噪音峰干嫁大。
从去年开始,人们更倾向于使用需要鉴定结果的定量方法。这种方法的基本 原理为先利用二^ 谱(LC-MS MS )鉴定出肽段(蛋白质), 再 定到的肽 段(蛋白质)对应到一 谱 ( LC-MS ) 中与 应的离子峰, 然后构建相应 的 XIC进行非标记定量。 这样, 既降低了假阳性又提高了定量准确性, 更节省了 时间。 这种方法的一般步骤为: 1 )利用数据库搜索二^^谱, 鉴定肽段(蛋白 质) , 并进行质量控制; 2 )对于上述鉴定的肽段(蛋白质), 利用其一 谱 构建相应的 XIC; 3 )计算相同蛋白质在不同样品中的丰度比; 4 )对上述计算结 果进行统计学分析。这种方法定量的肽段、蛋白数少,但由于所定量的肽段、蛋
白直接由鉴定软件鉴定而来,对于没有经过二级潘鉴定到的一级肽段离子则不予 鉴定。因此,该方法定量到的肽段、蛋白准确度较高, 同时大大缩短了分析时间。
由于需要鉴定结果的定量方法本身的优点,到目前为止已经有很多软件使用 这种方法, 例如 D)E^Q、 pview等。 这些软件各有优点, 但也存在缺点。
例如, 对于 IDEAL-Q, 其优点在于利用鉴定结果交叉预测, 使定量覆盖率 显著提高。但是, 该软件质量控制使用的三重验证方法(同位素峰样式、 电荷状 态、 信噪比)欠妥, 因为对于目前最先进的 LTQ-Orbtrap质谱而言, 其精度之 高已经不再适合使用信噪比来过滤,否则会过虑掉许多真实存在但强度较低的一 级肽段离子, 不能反映样品中某一肽段的真实存在状态。 再者, 该软件的构建 XIC、 计算峰面积的方法也不够准确。
又例如, 对于 pview, 它的优点主要在于可以较快同时处理上百个样品, 但 需要内存较大(至少 4G ) , 而且没有交叉预测和臉证步驟。 在蛋白质组定量 (尤其是非标记定量)中,由盾谱数据定量样品中肽段(蛋 白质)通常分两个步骤进行: 首先计算肽段的丰度, 然后计算蛋白质的丰度。
对于上述后一步骤, 主要利用肽段的一 强度和样品中肽段丰度的 关系, 由质^ 强度得到肽段丰度。
上述后一步骤是为了得到蛋白质的丰度(或丰度比), 将肽段丰度对应到 蛋白质丰度的方法, 将直接关系到后者的准确性。 目前, 将肽段丰度对应到蛋 白质丰度的常用算法有: 1 )对于每个蛋白质, 计算样品中该蛋白质的所有肽 段丰度的平均值, 即该蛋白质的丰度值, 再利用该蛋白质的丰度值计 品间 该蛋白质的丰度比; 2 )对于每个蛋白质, 计算样品中该蛋白质的前 n条(n 为大于 1的整数, 例如前三条)肽段丰度的平均值, 即该蛋白质的丰度值, 再 利用该蛋白质的丰度值计算样品间该蛋白质的丰度比; 3 )对于每个蛋白质, 先计算样品间该蛋白质的所有肽段丰度值的比值, 再计算这些比值的平均值或 加权平均值, 作为样品间该蛋白质的丰度比。
蛋白质质^十对的是不同性质的肽段, 即使对于同一肽段, 目同质谱 也会产生不同的谱图信号。 因此, 即使同一蛋白的酶解肽 «L理论上具有相同 的浓度, 测得的质谱丰度值也可能差别很大。
上述第 1 )和 2 )算法将蛋白质的所有肽段或前 n条肽段的平均丰度值作 为蛋白质的丰度值, 这样的策略显然^ 成很大偏差。 上述第 3 )算法对蛋白 质的所有肽段在不同样品之间的丰度值进行比较, 这种算法的缺点在于不能给
出蛋白质在单个样品中的丰度值; 而且^所有肽段同样也存在前述两种算法 的缺点。
目前, 在蛋白质组定量(尤其是非标记定量) 中, 仍需要能够同时提高定 量«_度和 /或准确度的方法。 发明内容
为了能够在蛋白质组定量(尤其是非标记定量) 中同时提高定量覆羞度和 / 或准确度,本发明改进了对鉴定和预测的肽段进行验证的方法,改进后的方法能 够更多且更准确地 在的肽段。本发明利用了一种新方法来计算样品间蛋白 质丰度比值,即利用每个蛋白质所包含肽段的前三个最大丰度值的加权平均值作 为蛋白质的丰度值,然后利用其计算样品间蛋白质的丰度 的比值。这种方法艮 明显更能选择性利用质量较好的质谱数据,可以提高丰度比值的准确性,从而提 高统计分析的准确性。 测试证明, 这种方法比现有技术的方法更准确。
在第一方面中,本发明提供了一种定量样品中蛋白质丰度的方法,包括步驟:
1 )获得一个样品的一 谱图和二 谱图, 并预测所述每个二^ 谱图 对应的狀^ ^列;
在上述步骤后, 优选还包括步骤:
1-1 )根据所述预测肽段序列及其所带电荷数, 计算该序列在自然界中所有 同位素的质荷比及其对应的在自然界中的丰度值,然后选取这些同位素的质荷比 中丰度值最大的前 n个值 (n优选为 2-20, 优选 2-10, 更优选 2-5, 最优选为 3), 并 与该肽段所在的一 谱图中的所有离子比对、 匹配, 如果这 n个值对应的同位 素离子都能被匹配到, 则将该肽段用于后续步骤;
2 )确定所述预测肽段所属的蛋白质,从而得到相应一 谱对应的蛋白质;
3 )对于每个预测肽段, 从该肽 ^一^ 谱图中对应的保留时间左右各取 一个时间区间,在该时间区间内寻找盾荷比与该肽段离子对应的谱图峰,这些峰 就是该肽段的提取离子色譜峰; 其中所述时间区间可以是 130-50秒, 优选是
120-60秒, 最好 A90秒, 并且所述左右时间区间相同;
在上述步骤后, 优选还包括步骤:
3-1 )对所述提取离子色 进行过滤并以过滤后的提取离子色 ^十算步 骤 4 )的峰面积, 例如, 过滤方法如下: 对于在给定保留时间区间内出现的重叠
峰,即在上述时间区间内出现的多个峰,若一个色"^的面积小于该保留时间范 围内所有色 面积的 50%, 则将被去除;
4 )计算以上构建的提取离子色谱峰的峰面积, 将这个峰面积作为肽段的定 量指标值,其中计算以上构建的提取离子色谱峰的峰面积可以采用梯形面积的方 法;优选将所述样品的所有肽段的定量指标值进行标准化,得到肽段的相对定量 指标值, 例如采用选自如下的一种或多种方法进行标准化: 线性回归归一化法、 分位数归一化法和中心趋势归一化法,将所 目对定量指标值代替所述定量指标 值用于步骤 5 ) 中;
在上述步骤后, 优选包括以下步骤:
4-1 )在每个蛋白质对应的肽段中, 去除明显离群的定量指标值或相对定量 指标值;
5 )对于上述步骤 2 )的每个蛋白质, 使用前 2-20个, 优选前 2-10个, 更优选 前 2-5个,例如前 3个强度最大肽段的定量指标值的加权平均值作为所述蛋白质在 所述样品中的丰度。
在第二方面中, 本发明提供了一种比较样品中蛋白质相对含量的方法, 包括步骤:
1 )获得两个或多个样品的一^ ^谱图和二^ 谱图, 并预测所述每个二级 质谱图对应的肽段序列;
在上述步骤后, 优选还包括步骤:
1-1 )根据所述预测肽 列及其所带电荷数, 计算该序列在自然界中所有 同位素的质荷比及其对应的在自然界中的丰度值,然后选取这些同位素的质荷比 中丰度值最大的前 n个值 (n优选为 2-20, 优选 2-10, 更优选 2-5, 最优选为 3), 并 与该肽段所在的一 谱图中的所有离子比对、 匹配, 如果这 n个值对应的同位 素离子都能被匹配到, 则将该肽段用于后续步骤;
2 )确定所述预测肽段所属的蛋白质,从而得到相应一级质潘对应的蛋白质;
3 )对于每个预测肽段, 从该肽^^一^ 谱图中对应的保留时间左右各取 一个时间区间,在该时间区间内寻 «荷比与该肽段离子对应的谱图峰,这些峰 就是该肽段的提取离子色譜峰; 其中所述时间区间可以是 130-50秒, 优选是
120-60秒, 最好是30秒, 并且所述左右时间区间相同;
在上述步骤后, 优选还包括步驟:
3-1 )对所述提取离子色錯 亍过滤并以过滤后的提取离子色譜峰计算步 骤 4 )的峰面积, 例如, 过滤方法如下: 对于在给定保留时间区间内出现的重叠
峰,即在上述时间区间内出现的多个峰,若一个色 的面积小于该保留时间范 围内所有色"^面积的 50%, 则将 去除;
4 )计算以上构建的提取离子色錯峰的峰面积, 将这个峰面积作为肽段的定 量指标值,其中计算以上构建的提取离子色谱峰的峰面积可以采用梯形面积的方 法;
5 )对于每个样品, 将其所有肽段的定量指标值进行标准化, 得到肽段的相 对定量指标值,例如采用选自如下的一种或多种方法进行标准化:线性回归归一 化法、 分位数归一化法和中心趋势归一化法;
在上述步骤后, 优选包括以下步骤:
5-1 )对于每个样品, 在每个蛋白质对应的肽段中, 去除明显离群的相对定 量指标值;
0 )对于上述步骤 2 )的每个蛋白质, 使用每个样品中前 2-20个, 优选前 2-10 个, 更优选前 2-5个, 例如前 3个强度最大肽段的相对定量指标值的加权平均值作 为所述蛋白质在所述样品中的相对丰度;
7 )利用上 ^ ^!对丰度值计算蛋白质在不同样品之间的丰度比; 并且优选还 包括步骤:
8 )利用上述丰度比确定不同样品中每个蛋白质的丰^ A否存在显著性差异。 在本发明的方法中,对鉴定和预测的肽段序列使用了精确理论同位素样式法 ( ATIPM )与电荷状态相结合的 方法, 在提高 «/蛋白质的定量^^度的 同时, 也提高了蛋白质定量的准确性。 本发明的方法釆用交叉预测结合 ATIPM 臉证,与同类软件例如 IDEAL-Q相比,明显提高了定量覆盖率,平均比 IDEAL-Q 多定量到约 30%的蛋白。
对于本发明中利用前 m个( m优选为 2-20, 优选 2-10, 更优选 2-5, 例如 3 )肽段丰度值的加权平均值来计算蛋白质丰度值和丰度比的方法, 用一组标 准数据集进行了测试, 发现该方法优于传统的几种方法(见下文实施例部分)。 附图说明 图 1 为本发明方法的结构流程图。
图 2为本发明方法对两样品蛋白盾定量比值回归图。
图 3为 IDEAL-Q对两样品蛋白质定量比值回归图。
图 4为前三个肽段加权平均值方法计算蛋白质丰度值分布图。
图 5为前三个肽段平均值方法计算蛋白质丰度值分布图。
图 6为前三个肽段平均值方法计算蛋白质丰度比值分布图。
图 7为前三个肽»权平均值方法计算蛋白质丰度比值分布图。 具体实施方式 本发明的方法克服了现有技术方法的缺点。利用本发明的方法可以实现对鉴 定结果进行交叉预测,对验证 (鉴定结果质量控制)进行修改(使用前述的 ATIPM 结合电荷状态)。 而且,在本发明的方法的基础上, 可以对后续寻找表达量上显 著性差异蛋白给出一套完整的统计学分析方法,并直接给出具有显著性差异的蛋 白信息、 相关统计图等, 结果准确可信。 为了能够同时提高定量 度和 /或准 确度,本发明的方法对鉴定到和定量到的肽段验证方法进行了改进,改进后的方 法能够更多更准确地 到肽段的存在。 本发明的方法基于先鉴定后定量的策 略》
在本发明中,在进行一级质谱中, 经过液相色谱分离后,相同或性质相似的 肽段 (如同位素离子 )会被搜集到固定的液相柱上, 然后按时间先后顺序洗脱并 谱中,相同或性质相似的肽段离子会分布在一定的时间段内,保留时间即 肽段离子从液相柱流出的样品经 谱时记录的时间。
在一些具体实施方案中,本发明提供了一种蛋白质组学非标记定量方法,该 方法对蛋白质在一个样品中的相对含量进行定量,该方法包含以下步骤(参见下 文和图 1 ) :
1 )对于需要定量的一个样品, 经 LC-MS MS液相色傳质谱得到连续的一级 质谱图和二 谱图;然后对二 谱图通过理论数据库搜索鉴定出该二级傅对 应的理论肽段序列, 这时完成了肽段序列的鉴定;
2 )对上述预测的肽段进行筛选, 方法是: 根据鉴定到或预测到的肽段序列 及其所带电荷数,计算该序列在自然界中所有同位素的质荷比及其对应的在自然 界中的丰度值, 然后选取这些同位素的质荷比中丰度值最大的前 n个值 (n优选为 2-20, 优选 2-10, 更优^ 2-5, 最优选为 3), 并与该肽段所在的一 谱图中的所 有离子比对、 匹配, 如果这 n个值对应的同位素离子都能被匹配到, 则表示所验 证肽段真实存在, 将所有真实存在的肽段用于下一分析步骤;
3 )将上述肽段归并回所属的蛋白质, 这 更完成了蛋白质的鉴定; 经 i±_L 述步驟,得到一级语中被 * 用来打二 谱的离子所对应理论肽 ^^列以及其 所属的蛋白质;
4 )对上述步骤 2 )中 真实存在的肽段构建提取的离子色谱峰 ( extracted Ion Chromatograms, XIC )并计^ ^面积 ( Area Under Curve, AUC ) , 对于一 个肽段,按以下步 ^^其所对应的一 谱图中构建 XIC: 从该肽 一 谱 图中对应的保留时间左右各取一个时间区间,在该时间区间内寻找质荷比与该肽 段离子对应的谱图峰, 这些峰就是该肽段的提取的离子色 ;
5 )按如下步骤计算所述提取的离子色谱峰的面积:首先对于以上构建的 XIC 进行过滤, 方法如下:对于在给定保留时间区间内出现的重叠峰, 即在上述时间 区间内出现的多个峰,若一个色 的面积小于该保留时间范围内所有色 面 积的 50%,则将被去除,然后采用梯形面积的方法计算过滤后保留的离子色语峰 面积, 将这个峰面积作为肽段的定量指标值;
6 )肽段定量指标值的归一化: 对于每个样品(对应一次 LC-MS/MS实验), 将其中所有肽段的定量指标值进行全局归一化处理, 得到肽段的相对定量指标 值;
7 )肽段的蛋白质归并, 去除离群值: 对于步 ) 中鉴定到的每个蛋白质, 会包含多个经步骤 2 )验证真实存在的肽段, 优选在这些肽段中去除的相对定量 指标值明显离群的肽段, 以降低下一步计算蛋白质丰度值时的误差;
8 )蛋白质丰度值的计算: 对于每个蛋白质, 使用前 m个(m优选为 2-20, 优 选 2-10, 更优选 2-5, 例如 3 )强度最大肽段的定量指标值的加权平均值(每个肽 段的权重为其定量值在这 m个肽段定量值总和中所占的比重)作为所述蛋白质在 所述样品中的丰度值, 得到蛋白质在样本中的相对 ^*。
在另一些实施方案中,本发明还提供了一种蛋白质组学非标记定量方法,该 方法主要针对蛋白质在至少两个样品中的相对含量进行比较,该方法包含以下步 骤(参见下文图 1 ):
1 )利用上述具体实施方案中的步骤 1 ) -8 )得到每个样品中每个蛋白质的丰 度值, 利用该丰度值计算所述蛋白质在不同样品之间的丰度比;
2 )蛋白质丰度比的差异性分析: 利用上述丰度比比较每个蛋白质在不同 样品中的相对含量是否存在显著性差异。 以下结合图 1, 示例性说明本发明的蛋白质组学非标记定量方法。
在本发明的一个实施方案中,对于由质语数据鉴定肽段,原始数据可以主要 分两部分, 一部分为由市售鉴定软件 mascot的鉴定结果, 格式为 xml, 一部分为 由质谱产生并转化的格式为 mzxml原始质傳数据。可以对来自不同实验数据进行 交叉预测, 预测的方法和 IDEAL-Q相同。
在本发明的一个实施方案中, 对于对鉴定到的和预测到的肽段进行盾量控 制, 本发明的验证的方法主要是精确理论同位素样式法(ATIPM )和电荷状态 法结合验证。这种方法的优点是对验证的一级谱肽不受信号强度低的限制,从而 可以验证到强度更小的肽段。方法是:根据鉴定到或预测到的肽段及其所带电荷 数, 调用 P L(Pacific Northwest NATIONAL LABORATORY ¾的软件包 IPC, 计算该序列在自然界中所有的同位素原子量、质荷比及其对应的在自然界 中的丰度值, 然后取这些同位素质荷比重丰度值最大的前 n个值 (n为自然数, 优 选为 3)并与该肽段所在的一级语中比对、 匹配, 如果在给定误差范围内能匹配到 说明所验证肽段真实存在,将所有验证为真实存在的肽段用于下一分析步骤;这 种方法直接根据理论肽段的每种元素在自然界中的同位素分布情况,计算肽段在 自然界中理论的分布, 更直接、准确地^样品中肽段同位素的分布样式,从而 可以验证到质镨信号强度相对较低的真实肽段。
在本发明的一个实施方案中, 构建提取的离子色谱峰(XIC )的方法步骤如 下: 首先以保留时间为横轴, 对于要构建 XIC的离子, 从其对应的保留时间左右 各取一定范围的保留时间,在该保留时间范围内寻 荷比和目标肽段离子相近 的离子, 并以离子强度作为纵轴, 这样就得到相应肽段的离子色谱峰。
在本发明的一个实施方案中, 计算峰面积(AUC )的步骤如下: 首先对构 建好的 XIC根据离子的强度进行拟合过滤,对于在给定保留时间范围内出现重叠 峰的情况,若目标离子对应的峰的面积小于整个范围内峰的面积的 50%时,我们 认为是噪音峰, 直接去除。去除了上述偏离的离子色谱峰后,采用梯形面积的方 法计算峰面积。这种方法更能有效利用 XIC中每个有用离子的信息, 更^ ^Ji^ i普数据特征与实际浓度的关系, 结果更准确。
在本发明的一个实施方案中,对于肽段定量指标值归一化:数据归一化的主 要目的是消除不同实验之间肽段信号的系统误差。在质谱实验中, 由于不同的离 子化效率、 图谱釆样效应等原因, 即^ 1相同实验中浓度相等的不同肽段,或者 是不同实验中浓度相同的同一肽段,其信号强度也可能存在很大偏差。 因此, 为 了得到更准确的定量结果,对肽段信号的归一化处理是十分必要的。本发明优选
釆用以下三种可选的归一化方法之一进行归一化:线性回归归一化法、分位数归 一化法和中心趋势归一化法。
在本发明的一个实施方案中,对于去除同一蛋白中包含的这些肽段的定量指 标值中的离^ Hi,可以使用 布斯检验法进行。在进行蛋白质丰度值、丰度比 计算之前, 我们首先利用 Grubbs^r验来去除较小或较大离群值。 这样可以进一 步降低系统误差。
在本发明的一个实施方案中,对于蛋白质丰度值和蛋白质丰度比的计算:对 于蛋白质丰度值的计算,使用前 m个强度最大肽段丰度的加权平均值;对于蛋白 质丰度比计算, 利用定量到的蛋白质所包含肽段定量值的前 m个肽段, 并求这 m 个(m优选为 2-20, 优选 2-10, 更优选 2-5, 例如 3 )肽段的加权平均值, 其权重 为每个肽段的定量值在这 m个肽段定量值总和中所占的比重。可以理解,理论上 一条蛋白质序列经过酶解后产生的肽段具有相同的浓度,所以理论上质谱数据应 该产生相同的信号强度,但由于质谱系统误差、噪音干扰以 t ^身的物理化 学性质造成质錯对其离子化效率的影响,都会使肽段的实际定量表征值偏小,而 基本不会由于误差造成偏大。基于这种理论,本发明的方法一方面尽可能利用肽 段定量值的最大值, 另一方面兼顾统计分析的需要, 提出上述方法。 经过测试, 发现这种方法的确优于传统的方法(见下文实施例三)。
在本发明的一个实施方案中, 对于蛋白质丰度比的差异性分析: 对所有鉴 定到的肽段、蛋白质定量结束后, 可以采用 T-检验对样品蛋白质丰度比进行显 著性差异分析。根据肽段的数据特征分别使用 T单边检验和 T双边检验两种方 法, T单边检验直接用相同肽段在样品间的比值, 其平均值和理论值 1相比, 进行 T检验, 并给出每个蛋白质的 p-value。 后者直接利用样品间肽段的定量 值作为两组数据比较,进行 T检验,并给出每个蛋白质的 p-value。根据 p-value 和蛋白质丰度比值寻找具有显著性差异的蛋白质。
( ATIPM )与电荷状态相结合的 «t方法, 首先提高了肽 ^/蛋白质的定量 £ 度, 同时也提高了在定量蛋白质种类上的准确性。 采用交叉预测结合 ATIPM验 证, 与同类软件例如 IDEAL^Q相比, 明显提高了定量 率, 平均比 EDEAL-Q 多定量到约 30%的蛋白(见下文实施例一)。这是因为本发明的方法使用了精确 理论同位素分布样式法(ATIPM ) 这种方法直接根据肽段中每一种元素 在自然界中各种同位素分布的强度计算某一肽段的所有同位素在自然界中的理
论分布,对该肽 自然界中同位素分布的计算结果更符合其真实存在状态。 因 此, 可以验证到在质谱中以较低信号强度存在的肽段, 从而提高了定量覆盖度。 对于计算色谱峰峰面积,本发明的方法首先对构建的色语峰直接去除异常值,即 去除那些明显不符合正态分布的点。对基 合正态分布的点然后利用梯形面积 法累加计算色 的峰面积, 这样计算能更充分有效利用色 中的每一个数 据,计算到的峰面积更符合质谱呈现的结果。从而提高了定量的精度(见下文实 施例二)。 实施例:
实施例一:
本实施例对运动发酵单胞菌分泌蛋白盾组学全谱进行了差异分析。该分析包 括两个处于不同培养时期的单胞菌样品,每个样品包含三次重复,分别用本发明 的方法和软件 IDEAL-Q (获自 http:〃 ms.iis.sinica.edu.tw/IDEAL-Q/)进行非标记定 量分析, 具体步骤如下: 首先以格式为 mzxml的质谱原始文件和格式为 xml的 mascot鉴定结果作为输入文件, 以,默认值为参数, 使用 IDEAL-Q对质语数据定 量分析; 同样的数据利用本发明的方法流程进行定量分析。 表 1为两个样品定量 到的蛋白质数目的比较。样品 1和样品 2的列表示各自样品单独定量到的蛋白质数 目 ,样品 1和样品 2表示样品 1和样品 2都定量到的蛋白质数目。 ^Ι中可以看出, 与 IDEAL-Q相比,此次测试本发明的方法的定量厲 度在其 ^上提高约 68°/。。 这个结果明显说明本发明的方法可以有效提高定量覆盖度。
表 1: 本发明方法 &IDEAL-Q定量到的蛋白质数目统计比较
实施例二:
数据为贝类成虫的一个样品的两次重复, 将其作为两个样品分别用
IDE ^Q和本发明的方法做非标定量分析。 具体步骤如下: 1 ) 以 mzxml格式的 原始文件和格式为 xml的 mascot鉴定结果作为输入文件,使用 IDEA Q进行定量 分析, 根据其给出结果, 对每个蛋白质在两样品之间的定量值作线性拟合; 2 )
同样的数据利用本发明 定量分析 ,并对样品之间的蛋白质定量值分布作线性 拟合。结果见图 2和图 3,其中图 2为本发明的方法定量到的蛋白丰度比拟合线(与 直线 y=x拟合, 下同), 其相关系数 R2=0.94,并且拟合直线 (y=0.994x-0.021)与标 准直线基本重合, 图 3为 IDEAL-Q定量到的蛋白丰度比拟合线, 其相关系数只有 0.55, 其拟合直线(y=0.85x+0.159 )与标准直线相差较大。 从结果可以看出, 本 发明的方法定量的重复性比 IDEAL-Q要高, 即本发明的方法的精度比 IDEAL-Q 的高。 实施例三:
用 的 标准数据来 自 介绍软件 T3PQ 文章 的 测试数据 ( http: //fgcz-data. uzh. ch/publ ic/T3PQ. tgz ) , 该数据集共有 10个样品, 在这 10个样品中以相同浓度、 相同含量的复杂酵母菌溶菌产物作为背景物, 分别添加 10个浓度呈线性上升的同一种标准蛋白胎球蛋白, 10个浓度值风别 为(0、 20、 40、 60、 80、 100、 120、 160、 200和 300 ) fmol/L。为了同 IDEAL-Q 的计算蛋白质丰度值(丰度比)的方法比较, 我们首先用 EDEAL-Q尽可能多 的定量出蛋白质所包含的肽段的定量值, 然后分别用现有方法(主要包括利用 所有肽段的丰度值和前三个肽段丰度值最大的平均值来计算蛋白质, 用肽段比 值的平均值、 肽段比值的加权平均值或蛋白质丰度值直接相比来计算蛋白质丰 度的比值)和本发明的方法来计算蛋白质丰度值和蛋白质丰度比。 根据目前的 文献 (参见 Jonas Grossmann,Bernd Roschitzkil, Christian Pansel, Claudia Fortes, Simon- Barkow-Oesterreicher, Dorothea Rutishauser,Ralph
Schlapbach; JOURNAL OF PROTEIMICS;2010; 1740-1746 ), 现有方法中利用 蛋白质所定量到肽段的前三个最大丰度值的平均值优于其他方法。
因此, 用这种方法与本发明的方法做比较。 具体步驟如下: 1 )首先输入 格式为 mzxml 的原始质谱文件和格式为 xml 的 mascot鉴定结果文件到 IDEAL-Q, 参数按默认值设置; 2 )提取 IDEAL-Q定量到的样品中标准蛋白 所包含的肽段的定量指标值; 3 )用自己写的程序计算、 比较本发明和利用前 三个最大丰度值的平均值法在 10个样品中标准蛋白的丰度值, 并与理论值作 比较。
比较结果见图 4和图 5, 分别^本发明的方法和现有最好的方法定量出 的标准蛋白质丰度值和实验浓度值分布图。 从图中可以看出, 直接用前三个肽 段的平均值得到的结果线性相关性为 0.981, 而用本发明的方法(前三个肽段
定量值最大值的加权平均值)得到的线性相 性为 0.9933, 明显比现有最好的 方法要好。
为了从定量的比值层面说明我们方法的优越性, 我们分别用各自的丰度值 与第二个样品浓度的丰度值作比较(相除), 并与理论的比值(0、 1、 2、 3、 4、 5、 6、 8、 10、 15 )作比较。 图 6和图 7分别是用现有方法得到的样品间定量 值比值和用本发明的方法得到的样品间定量值比值的理论值和计算值的分布 图。 从图中可以看出, 传统方法得到的蛋白质丰度比值理论值和计算值的线性 相关性为 0.98, 用本发明的方法(前三个肽段定量值最大值的加权平均值)得 到的理论值和计算值的线性相关性为 0.9931。 另外, 从图中也能直观的发现, 本发明的方法的线性相关性明显比传统方法的要好。