WO2022166006A1

WO2022166006A1 - 一种用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系

Info

Publication number: WO2022166006A1
Application number: PCT/CN2021/089772
Authority: WO
Inventors: 鄢丹; 龙江兰; 杨智睿
Original assignee: 首都医科大学附属北京友谊医院
Priority date: 2021-02-03
Filing date: 2021-04-26
Publication date: 2022-08-11
Also published as: KR20230136714A; US20230282355A1; CN112461986B; CN112461986A

Abstract

一种用于评估空腹血糖受损(IFG)和2型糖尿病(T2DM)患病风险的利用整合生物标志物的方法，包括获取样本中L-谷氨酰胺、L-缬氨酸、L-亮氨酸、L-赖氨酸、L-脯氨酸、L-苯丙氨酸、L-精氨酸、L-谷氨酸、L-异亮氨酸、L-蛋氨酸、左旋肉碱、乙酰基左旋肉碱、溶血磷脂酰胆碱(LPC(P-16:0))、LPC(17:0)、LPC(14:0)、丙酰基左旋肉碱的定量测定结果，建立的IFG和T2DM受试者血清样本整合生物标志物包含了相互关联的生物网络路径上的生物标志物组，反映了IFG和T2DM的整体代谢特征信息，规避了单一或孤立地分析生物标志物而缺乏整体综合地反映疾病的特征信息。

Description

一种用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系

技术领域

本发明涉及药学检测领域，特别是一种用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系。

背景技术

2型糖尿病(T2DM)是慢性代谢性疾病，空腹血糖受损(IFG)是糖尿病前期的一种类型，其空腹血糖值介于正常与T2DM之间。一般地，T2DM是不可逆的、终身性疾病，而IFG是可逆的。通过严格控制饮食、加强锻炼等生活方式干预后，可使IFG向糖尿病转变的转变率降低。2007年杨文英教授发表在《新英格兰医学杂志》的一个全国性调查表明，我国糖尿病的患病人数近1.0亿人，2016年世界卫生组织首次发布《全球糖尿病报告》显示，我国约有5亿成年人处于糖尿病前期，但由于糖尿病前期诊断率低，绝大部分人还不知道自己处于糖尿病前期。1999年世界卫生组织对IFG与T2DM的诊断标准为空腹血糖值的界定，但是，在受试者即将发展为IFG或T2DM时，空腹血糖诊断的敏感性是有所降低的。因此，探索IFG及T2DM的敏感诊断生物标志物至关重要，这对IFG和T2DM的早期诊断、IFG的早期干预、T2DM的预防和控制具有重要意义。

代谢物不仅反应了基因组与蛋白组的变化，还受到其他因素如环境因素和肠道菌群的影响，代谢物具有更强的动态性，对生物体的变化反映更加灵敏。中国专利CN104769434B公开了代谢物甘氨酸、溶血磷脂酰胆碱与乙酰肉毒碱C2可用于识别受试者中发展T2DM的倾向。然而，IFG和T2DM的诊断生物标志物呈现孤立和分散状态。多数研究是基于单中心的非靶向代谢组学研究，重现性低，难以体现生物标志物的临床应用价值。从系统生物学的角度而言，多个代谢物之间存在关联关系，以定量的多个代谢物作为IFG与T2DM的诊断生物标志物具有现实的应用价值。整合生物标志物体系是由疾病生物标志物整合形成的特征性变化谱，是体内重要代谢物变化趋势以及生物网络关联关系信号的真实综合响应。然而，至今尚未有研究建立IFG与T2DM患者的整合生物标志物体系。

因鉴于此，特提出此发明。

发明内容

本发明提供了一种用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系，所述整合生物标志物体系包括样本中L-谷氨酰胺在2000-160000ng/mL、L-缬氨酸在1200-96000ng/mL、L-亮氨酸在1000-80000ng/mL、L-赖氨酸在800-64000ng/mL、L-脯氨酸在800-64000ng/mL、L-苯丙氨酸在500-40000ng/mL、L-精氨酸在500-40000ng/mL、L-谷氨酸在500-40000ng/mL、L-异亮氨酸在300-24000ng/mL、L-蛋氨酸在250-20000ng/mL、左旋肉碱在200-16000ng/mL、乙酰基左旋肉碱在80-6400ng/mL、溶血磷脂酰胆碱LPC(P-16:0)在60-4800ng/mL、LPC(17:0)在60-4800ng/mL、LPC(14:0)在40-3200ng/mL、丙酰基左旋肉碱在4-320ng/mL范围内的定量测定结果。

进一步的，所述样本为受试者血清。

进一步的，所述定量测定结果以无细胞氨基酸混合物20AA、O-乙酰基-L-肉碱盐酸盐(N-甲基-D3)和溶血磷脂酰胆碱(20:0)(二十碳酰-12,12,13,13-D4)作为同位素内标分析获得。

进一步的，所述整合生物标志物体系还包括利用机器学习方法建立的模型。

进一步的，所述机器学习方法为极端梯度提升法。

相比于现有技术，本发明的优点在于：

本发明首次公开了用于评估IFG和T2DM风险的整合生物标志物体系。本发明建立的IFG和T2DM受试者血清样本整合生物标志物体系包含了相互关联的生物网络路径上的生物标志物组，反映了IFG和T2DM的整体代谢特征信息，规避了单一或孤立地分析生物标志物而缺乏整体综合地反映疾病的特征信息。本发明提供的基于定量的整合生物标志物体系源于临床真实世界、临床多中心、代表性较强，从而提高了疾病生物标志物潜在临床应用价值；本发明建立的靶向定量评价检测方法灵敏度高、特异性强、重现性好，检测样本用量少，操作简单。

附图说明

图1为L-谷氨酰胺、L-缬氨酸、L-亮氨酸、L-赖氨酸、L-脯氨酸与L-苯丙氨酸的选择反应监测模式(selective reaction monitoring，SRM)色谱图；

图2为L-精氨酸、L-谷氨酸、L-异亮氨酸、L-蛋氨酸、左旋肉碱与乙酰基左旋肉碱的SRM色谱图；

图3为溶血磷脂酰胆碱(LPC，P-16:0)、LPC(17:0)、LPC(14:0)与丙酰基左旋肉碱的SRM色谱图；

图4为受试者血清样本中16种代谢物浓度的小提琴图；

图5是受试者血清样本中16种代谢物对样本进行分类诊断的性能结果图；

图6是三种机器学习模型中16种代谢物的曲线下面积结果图；

图7是基于XGBoost模型的基尼不纯度、互信息和方差分析中上述16种代谢物的增量特征选择曲线图；

图8是受试者血清样本中16种代谢物的基尼不纯度排序图；

图9是三种机器学习模型对优选的10种代谢物的曲线下面积结果图；

图10是正常葡萄糖耐量、空腹血糖受损、2型糖尿病和高血脂症的整合生物标志物体系；

图11是利用整合生物标志物体系评价典型代表样本1结果示意图(正常葡萄糖耐量)；

图12是利用整合生物标志物体系评价典型代表样本2结果示意图(空腹血糖受损)；

图13是利用整合生物标志物体系评价典型代表样本3结果示意图(2型糖尿病)；

图14是利用整合生物标志物体系评价典型代表样本4结果示意图(高血脂症)。

其中，图1-3中左中右三列分别表示溶剂空白、标准品和血清样本的结果；图11-14中LPC为溶血磷脂酰胆碱。

具体实施方式

为进一步阐述本发明为达成预定发明目的所采取的技术手段及结果，以下以较佳实施例，对依据本发明申请的具体实施方式、技术方案及特征，详细说明如后。下述说明中的多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

发明以下实施例选用的主要材料及来源分别如下：

分析中所用L-谷氨酰胺(批号：V900419)、L-缬氨酸(批号：94619)、L-亮氨酸(批号：61819)、L-赖氨酸(批号：23128)、L-脯氨酸(批号：81709)、L-苯丙氨酸(批号：852465P)、L-精氨酸(批号：11009-25G-F)、L-谷氨酸(批号：95436)、L-异亮氨酸(批号：I2752)、L-蛋氨酸(批号：64319-25G-F)、溶血磷脂酰胆碱(LPC(P-16:0))(批号：852464P)、LPC(17:0)(批号：855676P)、LPC(14:0)(批号：855575P)和丙酰基左旋肉碱(批号：91275)均购自美国Sigma-Aldrich公司；左旋肉碱(批号：DRE-C11045500)购自北京百灵威科技有限公司；乙酰基左旋肉碱盐酸盐 (批号：DST190510-049)购自成都德思特生物技术有限公司；同位素无细胞氨基酸混合物(Cell Free Amino Acid Mix(20AA)(U-D，98％))(批号：DLM-6819-PK)、O-乙酰基-L-肉碱盐酸盐(N-甲基-D3，98％)(批号：DLM-754-0.05)和LPC(20:0)(二十碳酰-12,12,13,13-D4，98％)(批号：DLM-10520-0.001)均购自美国Cambridge Isotope Laboratories公司；乙酸铵(批号：E057G140)购买自德国CNW Technologies GmbH公司；超高效液相色谱四级杆-静电场轨道阱高分辨精确质谱(美国Thermo Fisher Scientific公司，Q-Exactive)；超高效液相色谱三重四极杆质谱仪(美国Thermo Fisher Scientific公司，TSQ-Altis)；冷冻微量离心机(美国Thermo Fisher Scientific公司，Heraeus Fresco 17)；多用途旋涡混合器(美国Scientific Industries公司，Vortex Genie 2)；5mL血清分离胶管(美国Becton,Dickinson and Company公司，367955)；反相色谱柱(Waters，ACQUITY BEH C ₁₈和ACQUITY BEH HILIC)。

实施例一样本采集

本发明所述的整合生物标志物体系的样本来源于受试者血清。

于北京、郑州和开封三地5家临床中心招募受试者并收集血清样本。为了消除饮食干扰，在禁食过夜后统一于早晨7:00-9:00收集受试者血清样本。以5mL血清分离胶管收取受试者外周静脉血。静置30min后，用冷冻高速离心机以1510g、4℃条件下离心10min，取上清液200μL分装至1.5mL带标记的EP管中，在分析之前储存于-80℃冰箱。最终，共收集了1132份血清样本用于后续的分析作业。

实施例二标准曲线工作液及质量控制(QC)样品的配制

称取标准品L-谷氨酰胺、L-缬氨酸、L-亮氨酸、L-赖氨酸、L-脯氨酸、L-异亮氨酸、L-蛋氨酸、L-苯丙氨酸、L-精氨酸、L-谷氨酸、左旋肉碱和无细胞氨基酸混合物(20AA)适量，分别置于10mL容量瓶中，加入10％甲醇水溶解定容，配制成储备溶液。其中，L-谷氨酰胺浓度为4000μg/mL，L-缬氨酸、L-亮氨酸、L-赖氨酸、L-脯氨酸、L-异亮氨酸和L-蛋氨酸浓度均为2000μg/mL，L-苯丙氨酸、L-精氨酸、L-谷氨酸和左旋肉碱浓度均为1000μg/mL，20AA浓度为1000μg/mL。

称取LPC(P-16:0)、LPC(17:0)、LPC(14:0)、丙酰基左旋肉碱、LPC(20:0)(二十碳酰-12,12,13,13-D4，98％)(LPC(20:0)-d4)适量，加入乙腈水(1:1，v:v)溶液溶解定容，配制成LPC(P-16:0)、LPC(17:0)、LPC(14:0)、丙酰基左旋肉碱和LPC(20:0)-d4浓度均为100μg/mL的储备溶液。

称取乙酰基左旋肉碱盐酸盐和O-乙酰基-L-肉碱盐酸盐(N-甲基-D3，98％)(乙酰基-L-肉碱-d3)适量，加入4％盐酸水溶液溶解定容，配制成L-乙酰肉碱浓度为100μg/mL、乙酰基-L-肉碱-d3浓度为100μg/mL的储备溶液。

将上述制得的储备溶液置于4℃冰箱内保存待用。

精密吸取上述制备的20AA、乙酰基-L-肉碱-d3和LPC(20:0)-d4储备溶液适量置于500mL容量瓶内，加乙腈甲醇(3:1，v:v)溶液定容，配制成含内标20AA、乙酰基-L-肉碱-d3和LPC(20:0)-d4浓度分别为10μg/mL、500ng/mL和25ng/mL的乙腈甲醇蛋白沉淀剂工作溶液。

由于人的空白血清难以作为常规获得，因此以1x的磷酸缓冲盐溶液替代空白血清作为空白对照使用。吸取标准品的储备溶液适量，加入1x磷酸缓冲盐溶液逐级稀释，配置成7个浓度水平的标准曲线工作溶液，并设置低、中、高三个浓度的QC样本(LQC、MQC、HQC)，用于后续的样本定量分析，标准曲线工作溶液和QC样本浓度如表1所示。

表1线性中标准曲线工作溶液和QC样本浓度

实施例三样本的定量分析

样本的预处理：精密吸取10μL制备的标准曲线工作溶液或质量控制(QC)样本置于1.5mL离心管中，各加入90μL血清样本稀释，涡旋1min混匀，加入乙腈甲醇蛋白沉淀剂工作溶液300μL，涡旋5min混匀，于16200g、4℃条件下离心10min，取上清液，用于后续分析。

色谱条件：使用Waters ACQUITY BEH HILIC(100mm×2.1mm,1.7μm)色谱柱；流动相A为含20mmol/L乙酸铵0.1％甲酸水，流动相B为含0.1％甲酸的乙腈；进样体积均为3μL，流速为0.30mL/min，柱温为40℃；液相洗脱程序：初始流动相B为95％，保持2.0min，在4.0min时呈线性降至60％，保持6.0min后，在0.2min内线性地升高至95％并保持1.8min，整个分析运行时间为12min。

质谱条件：电喷雾电离模式为正离子模式(ESI ⁺)，监测模式为选择反应监测。喷雾电压为3.5kV，碰撞气为高纯氮气，辅助气流速为17L/min，离子传输管温度为325℃，蒸发器温度为320℃。鞘气流速为20L/min。

随机抽取6份实施例一获得的血清样本，并按上述的预处理的方法进行预处理，同时，并制备预处理的6份空白对照以及6份预处理的1x的磷酸缓冲盐溶液，将上述样本进行分析，结果如图1-3所示，表明实测血清样本中各内源性物质对待分析物、同位素内标均不产生干扰，且待分析代谢物、同位素内标之间具有良好的分离度。

定量下限与检测限、线性与浓度范围与精密度结果如表2所示，代谢物在配制的浓度范围内均表现出良好的线性(相关系数R值均大于0.99)；考察的6批次LQC、MQC、HQC日内精密度相对标准偏差(RSD)值为2.08％-11.87％；日间精密度RSD值为1.68％-11.23％。

表2定量下限与检测限、线性与浓度范围与精密度结果

日内准确度、提取回收率与基质效应考察结果如表3所示，LQC、MQC、HQC日内准确度相对误差(RE)值为-13.33％-13.72％，日间准确度RE值为-13.30％-13.18％，16种代谢物在LQC、HQC样本浓度下提取回收率平均值为68.68％-129.87％；基质效应平均值为74.54％-142.93％。

表3准确度、提取回收率与基质效应结果

稳定性结果如表4所示，代谢物在LQC、MQC、HQC浓度下于自动进样器放置24小时稳定性RSD值为0.85％-9.78％；于4℃冰箱放置24小时的稳定性RSD值为0.97％-10.20％；代谢物在5倍稀释条件下RSD值为0.60％-5.72％，表明在5倍稀释条件下对血清样本中代谢物含量测定无影响。经考察，16个代谢物的残留效应空白样本中的残留均小于定量下限的20％。

表4稳定性与稀释效应结果

上述结果证明本发明采用的靶向检测方法的选择性、定量下限与检测限、线性与浓度范围、精密度与准确度、提取回收率与基质效应、稳定性、稀释效应与残留效应均符合血清生物样本定量分析方法要求。

实施例四整合生物标志物体系的建立和应用

使用实施例三中所述的方法分析测定实施例一种收集的1132份样本。并使用其中的NGT(正常葡萄糖耐量)、IFG、T2DM和高血脂症样品建立模型。

其中，使用70-30留出法将样本数据集随机划分为训练集和测试集，使用训练集(232份NGT、314份IFG、230份T2DM和96份高血脂症)对模型进行训练，测试集(80份NGT、97份IFG、113份T2DM和50份高血脂症)用来测试模型。

使用TraceFinder软件提取数据之后，代谢物差异使用Kruskal-Wallis(克鲁斯卡尔-沃利斯)检验，多组间的检验使用邦费罗尼(Bonferroni)进行校正，用软件Origin 2019绘制训练集与测试集靶向代谢物含量，如图4所示，结果表明训练集和测试集中16个靶向代谢物的血清浓度存在显著性差异。以单个代谢物做受试者工作特征曲线分析，用曲线下面积(AUC)评估其性能，结果如图5所示，单个代谢物对四种类型样本的评价性能较差。从系统生物学的角度而言，以多个关联的代谢物作为评估疾病风险的生物标志物会具有更高的价值。因此，我们使用机器学习方法以16个靶向代谢物建立IFG与T2DM整合生物标志物体系的评价模型。

进一步的，为了筛选合适的方法来构建用于IFG和T2DM整合生物标志物体系的评价模型，在测试集中以AUC作为评估指标评估了三种机器学习方法(极端梯度提升(XGBoost)、逻辑回归和支持向量机)建立的评价模型性能，结果如图6所示。由图6可见，从AUC值看，XGBoost模型对NGT、IFG、T2DM与高血脂症四类样本的区分性能最好(XGBoost模型的AUC值是0.819、逻辑回归模型的AUC值是0.791、支持向量机模型的AUC值是0.789)。因此，选择XGBoost(极端梯度提升法)进行整合生物标志物体系模型的构建。

为了改善评价模型的特异性与敏感性，使用基尼不纯度、互信息和方差分析对代谢物重要性进行了排序，使用增量特征选择策略确定最佳代谢物子集。结果如图7-图8所示，在基于基尼不纯度的XGBoost模型中，当主要代谢物的数量增加到11个时，模型的性能未显示更好。因此，作为一种优选的方案，按基尼不纯度排序，选择前10个代谢物，LPC(P-16:0)、L-异亮氨酸、L-精氨酸、左旋肉碱、L-苯丙氨酸、L-谷氨酸、L-赖氨酸、L-蛋氨酸、L-亮氨酸和乙酰基左旋肉碱来构整合生物标志物体系。如图9所示，XGBoost模型AUC值为0.823，显然，在XGBoost模型中用10代谢物构建的模型的评价性能高于16个代谢物。

以测试集考察该模型的性能，并以AUC、准确度、灵敏度、特异性、精密度和F1得分来评估，结果如表5所示。

表5整合生物标志物体系评价性能

由表5所述的数据可得，该模型对于2DM和NGT进行鉴别的准确性为85％，对T2DM和IFG、T2DM和高血脂症的鉴别准确性分别为75％和89％。因此，该模型可以用于评估NGT、IFG、T2DM和高血脂症的风险。

为了使IFG与T2DM的整合生物标志物体系可视化，使用公式对原始数据进行标准化：生物标志物标准化后值(B _(i))＝(生物标志物标准化前的浓度(B _(c))-生物标志物标准化前最小浓度(B _(min)))/(生物标志物标准化前的最大浓度(B _(max))-生物标志物标准化前最小浓度(B _(min)))×100，标准化后计算B _(i)平均值±标准差(mean±SD)，以mean±SD作图。结果如图10所示，实线是四类样本中10种代谢物浓度标准化后的平均值，灰色区域是mean±SD，虚线是未知样本的10种代谢物浓度。基于XGBoost建立的整合生物标志物体系可以解释为，未知样本被评估为其在四类中具有最高评估值的一类。

此外，我们还呈现了具有代表性样本评估结果示意图，如图11-图14所示。样本1有较大患NGT风险(其在NGT组的评估值为0.795)，样本2有较大患IFG风险(其在IFG组的评估值为0.676)，样本3有较大患T2DM风险(其在T2DM组的评估值为0.597)，样本4有较大患高血脂症风险(其在高血脂症组的评估值为0.702)。

以上所述，仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

一种用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系，其特征在于，所述整合生物标志物体系包括样本中的L-谷氨酰胺在2000-160000ng/mL、L-缬氨酸在1200-96000ng/mL、L-亮氨酸在1000-80000ng/mL、L-赖氨酸在800-64000ng/mL、L-脯氨酸在800-64000ng/mL、L-苯丙氨酸在500-40000ng/mL、L-精氨酸在500-40000ng/mL、L-谷氨酸在500-40000ng/mL、L-异亮氨酸在300-24000ng/mL、L-蛋氨酸在250-20000ng/mL、左旋肉碱在200-16000ng/mL、乙酰基左旋肉碱在80-6400ng/mL、溶血磷脂酰胆碱LPC(P-16:0)在60-4800ng/mL、LPC(17:0)在60-4800ng/mL、LPC(14:0)在40-3200ng/mL、丙酰基左旋肉碱在4-320ng/mL范围内的定量测定结果。
根据权利要求1所述的用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系，其特征在于，所述样本为受试者血清。
根据权利要求1所述的用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标标志物体系，其特征在于，所述定量测定结果以无细胞氨基酸混合物20 AA、O-乙酰基-L-肉碱盐酸盐(N-甲基-D3)和溶血磷脂酰胆碱(20:0)(二十碳酰-12,12,13,13-D4)作为同位素内标分析获得。
根据权利要求1所述的用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系，其特征在于，所述整合生物标志物体系还包括利用机器学习方法建立的模型。
根据权利要求4所述的用于评估空腹血糖受损和2型糖尿病患病风险的整合生物标志物体系，其特征在于，所述机器学习方法为极端梯度提升法。