WO2023040102A1

WO2023040102A1 - 判断肝细胞肝癌患者预后的基因模型、构建方法和应用

Info

Publication number: WO2023040102A1
Application number: PCT/CN2021/139502
Authority: WO
Inventors: 徐俊杰; 蔡秀军; 茅棋江; 潘浩奇; 梁霄
Original assignee: 浙江大学
Priority date: 2021-09-16
Filing date: 2021-12-20
Publication date: 2023-03-23
Also published as: CN113539376B; US20240021268A1; CN113539376A

Abstract

本发明公开了一种判断肝细胞肝癌预后的基因模型及其构建方法和应用。本发明通过比较肝细胞肝癌患者样本的数据和正常患者样本的转录组数据，得到具有差异表达的基因，与细胞外基质基因集整合后通过LASSO-COX回归模型缩小得到一个18个基因的模型。本发明模型可以对肝细胞肝癌患者的预后进行评估，区分并甄选出预后差的肝细胞肝癌患者，从而指导临床医生提供更积极的治疗方案，同时也能避免对低风险的肝细胞肝癌患者进行过度治疗。通过该基因模型有助于构建一款基于细胞外基质基因的组织芯片，能够对肝细胞肝癌术后患者快速进行预后进行评估，实现临床转化。

Description

判断肝细胞肝癌患者预后的基因模型、构建方法和应用

技术领域

本发明属于生物医学技术领域，具体涉及一种用于判断肝细胞肝癌患者预后的基因模型及应用。

背景技术

肝癌是世界范围内最常见的十大恶性肿瘤之一。全球每年约有50万新增病例，其中肝细胞肝癌占85％。随着肿瘤标志物与影像学检查的推广、外科手术水平和多种新型治疗方式如动脉内化疗栓塞等的发展，原发性肝癌(hepatic cell carcinoma，HCC)的5年生存率有所改善。但总体来说，肝细胞肝癌的预后仍然不尽如人意。其中主要原因之一就是缺少有效的预测肝细胞肝癌患者预后的标志物，从而无法将肝细胞肝癌患者进行风险分层，无法指导临床医生对高风险肝细胞肝癌患者进行早干预早治疗。当前研究表明，肿瘤微环境，尤其是细胞外基质，能够促进肿瘤的生长、侵袭和转移，对肿瘤患者的预后具有较大的影响。

发明内容

针对当前临床缺少有效的判断肝细胞肝癌患者预后的标志物，无法对肝细胞性肝癌患者预后进行判断，本发明从基因层面构建基因组合模型来评估肝细胞肝癌患者的预后，通过对肝细胞肝癌患者的细胞外基质相关基因进行整合分析，从而构建相关基因组合模型，构建一款基于细胞外基质基因的组织芯片，可以实现通过风险评分对肝细胞肝癌患者的预后进行评估。评估得到的结果有助于临床医生对肝癌患者进行分层，为肝细胞肝癌患者的精准治疗提供了可能性。

本发明采用的方案具体如下：

一种判断肝细胞肝癌患者预后的基因模型的构建方法，包括如下步骤：

(1)、获取肝细胞肝癌和正常肝脏组织样本的转录组数据，比较肝细胞肝癌组织样本的数据和正常肝脏组织样本的数据中的差异基因，设定P-value＜0.05得到具有显著差异的基因，并将具有显著差异的基因与细胞外基质基因集(559个细胞外基质相关基因)进行整合；

(2)、随后使用LASSO方法进行分析，基于R语言glmnet包使用1000次Cox LASSO回归迭代和10倍交叉验证，将种子基因缩小为18个与HCC预后相关的ECM基因集，包括：MMP1、EPO、MMRN1、S100A9、ADAM9、GPC1、SPP1、GLDN、FGF9、CXCL5、CST7、THBS3、ANXA10、PIK3IP1、MMP25、CLEC3B、PZP和CLEC17A的18个基因组合(表1)，并以18个基因为标志物构建获得肝细胞肝癌预后预测风险评分模型。

一种上述构建方法构建获得的基因模型，具体为：

肝细胞肝癌患者风险评分＝(0.069×MMP1表达水平)+(0.049×EPO表达水平)+(0.042×MMRN1表达水平)+(0.036×S100A9表达水平)+(0.027×ADAM9表达水平)+(0.024×GPC1表达水平)+(0.021×SPP1表达水平)+(0.014×GLDN表达水平)+(0.007×FGF9表达水平)+(0.001×CXCL5表达水平)-(0.024×CST7表达水平)-(0.027×THBS3表达水平)-(0.042×ANXA10表达水平)-(0.049×PIK3IP1表达水平)-(0.051×MMP25表达水平)-(0.054×CLEC3B表达水平)-(0.062×PZP表达水平)-(0.069×CLEC17A表达水平)。

进一步地，将TCGA数据库作为训练集，GEO数据库和ICGC数据库作为验证集，对所述基因模型的风险评分进行分析并通过CLIP分期和TMN分期对基因模型进行验证，表明所述肝细胞肝癌患者风险评分与生存期相关，风险评分高的患者生存期短、预后差。

一种上述基因模型在评估肝细胞肝癌预后中的应用。

一种基于细胞外基质基因的组织芯片，所述组织芯片包含检测MMP1、EPO、MMRN1、S100A9、ADAM9、GPC1、SPP1、GLDN、FGF9、CXCL5、CST7、THBS3、ANXA10、PIK3IP1、MMP25、CLEC3B、PZP和CLEC17A的探针。为肝细胞肝癌患者提供精准治疗提供了可能性。能够对肝细胞肝癌术后患者快速进行预后评估，实现临床转化。

本发明的有益效果是：本发明构建了18个基因的基因组合模型，通过该基因模型可以构建一款基于细胞外基质基因的组织芯片，对肝细胞肝癌患者的预后进行评估，能够区分并甄选出预后差的肝细胞肝癌患者，即将肝细胞肝癌患者进行分层，筛选出高风险、预后差的肝细胞肝癌患者，指导临床医生对高风险患者提供更积极的治疗方案，同时也能避免对低风险的肝细胞肝癌患者进行过度治疗。

附图说明

下面结合附图和实施例对本发明进一步说明；

图1为本发明的基因模型的差异基因火山图；

图2为本发明的基因模型的LASSO-Cox回归模型构建图；

图3为本发明的18个基因的组合基因模型图；

图4为训练集TCGA中肝细胞肝癌患者的风险评分分布图；其中横坐标为根据风险评分递增的患者序号，虚线为截断值；

图5为训练集TCGA中肝细胞肝癌患者的生存期分布图；其中横坐标为根据风险评分递增的患者序号，190附近虚线为截断值，120附近和250附近为死亡和存活差异明显的分界线；

图6为验证集GEO中肝细胞肝癌患者的生存期分布图；其中横坐标为根据风险评分递增的患者序号，虚线为截断值；

图7为验证集ICGC中肝细胞肝癌患者的生存期分布图；其中横坐标为根据风险评分递增的患者序号，虚线为截断值；

图8为训练集TCGA中肝细胞肝癌患者不同CLIP分期的风险评分结果图；

图9为训练集TCGA中肝细胞肝癌患者不同TMN分期的风险评分结果图；

图10为训练集TCGA中基于本发明基因模型分组后肝细胞肝癌患者预后与生存期的关系图；

图11为训练集TCGA中基于本发明基因模型分组的肝细胞肝癌患者预后的敏感性和特异性结果图；

图12为验证集GEO中基于本发明基因模型分组的肝细胞肝癌患者预后与生存期的关系图；

图13为验证集ICGA中基于本发明基因模型分组的肝细胞肝癌患者预后与生存期的关系图。

具体实施方式

本发明提供了一种基于细胞外基质基因预测肝细胞肝癌预后的基因模型及应用。即针对肝细胞肝癌患者细胞外基质的差异基因，利用数据库中的肝细胞肝癌组织样本及正常肝脏组织样本数据和统计学分析建立肝细胞肝癌预后的风险模型，能够作为预测肝细胞肝癌患者预后的基因模型，从而构建一款基于细胞外基质基因的组织芯片，有助于对肝细胞肝癌术后患者预后进行评估。其中肝细胞肝癌组织样本纳入及排除的标准为：

(1)术前未曾接受过其他癌症治疗；

(2)无其他恶性肿瘤病史；

(3)具有完善的临床病理资料和随访信息。

下面结合具体的实施例对本发明的效果作进一步说明。

实施例1：构建用于判断肝细胞肝癌患者预后的基因模型

本发明的用于判断肝细胞肝癌患者预后的基因模型，通过如下步骤构建获得：

(1)、先从TCGA数据库(https://portal.gdc.cancer.gov/)中下载371例肝细胞肝癌组织样本和50例正常肝脏组织样本的转录组数据及对应患者的临床信息(包括性别、总生存时间、生存状态等)，比较TCGA数据库中肝细胞肝癌组织样本的数据与正常肝脏组织样本中的差异基因，设定P-value＜0.05，得到具有显著差异的基因，并将具有显著差异的基因与559个细胞外基质(ECM)相关基因进行整合(见图1)。

(2)、随后使用LASSO方法进行分析，基于R语言glmnet包使用1000次Cox LASSO回归迭代和10倍交叉验证，筛选出有统计意义的18个与ECM相关的候选基因及这些基因的预后AUC、HR值(见表1和图2)。将Cox LASSO回归模型的系数作为权重，构建出一个基于包含MMP1、EPO、MMRN1、S100A9、ADAM9、GPC1、SPP1、GLDN、FGF9、CXCL5、CST7、THBS3、ANXA10、PIK3IP1、MMP25、CLEC3B、PZP和CLEC17A 18个基因为标志物的肝细胞肝癌预后预测风险评分模型(见图3)。

所述肝细胞肝癌预后预测风险评分模型具体为:肝细胞肝癌患者风险评分＝(0.069×MMP1表达水平)+(0.049×EPO表达水平)+(0.042×MMRN1表达水平)+(0.036×S100A9表达水平)+(0.027×ADAM9表达水平)+(0.024×GPC1表达水平)+(0.021×SPP1表达水平)+(0.014×GLDN表达水平)+(0.007×FGF9表达水平)+(0.001×CXCL5表达水平)-(0.024×CST7表达水平)-(0.027×THBS3表达水平)-(0.042×ANXA10表达水平)-(0.049×PIK3IP1表达水平)-(0.051×MMP25表达水平)-(0.054×CLEC3B表达水平)-(0.062×PZP表达水平)-(0.069×CLEC17A表达水平)。

表1 LASSO回归模型后得到的18个ECM基因

基因名称	疾病	AUC	HR
MMP1	肝癌	0.628	1.220
EPO	肝癌	0.607	1.127
MMRN1	肝癌	0.542	1.088
S100A9	肝癌	0.589	1.213
ADAM9	肝癌	0.586	1.344
GPC1	肝癌	0.639	1.178
SPP1	肝癌	0.614	1.127
GLDN	肝癌	0.603	1.122
FGF9	肝癌	0.555	1.171
CXCL5	肝癌	0.575	1.096
CST7	肝癌	0.564	0.813
THBS3	肝癌	0.623	0.741
ANXA10	肝癌	0.629	0.870
PIK3IP1	肝癌	0.559	0.779
MMP25	肝癌	0.549	0.829
CLEC3B	肝癌	0.610	0.746
PZP	肝癌	0.608	0.863
CLEC17A	肝癌	0.593	0.826

实施例2：肝细胞肝癌预后预测风险评分模型在评估肝细胞肝癌预后中的应用

将TCGA数据库371例肝细胞肝癌组织样本转录组数据作为训练集，GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)GSE140520中247例肝细胞肝癌组织和ICGC数据库 (https://daco.icgc.org/)的203例肝细胞肝癌组织的数据作为验证集，根据风险评分模型分别计算训练集每个肝细胞肝癌患者的评分，取评分的中位数(0.044954)作为截断值将其分为高风险分值组和低风险分值组，绘制两组患者的风险评分和生存期、CLIP分期和TMN分期的关系图(图4-8)，验证肝细胞肝癌预后预测风险评分模型的效果。其中，图4和图5为训练集TCGA中肝细胞肝癌患者根据截断值的风险评分分布图和生存期分布图，图6和图7为验证集GEO和ICGC中肝细胞肝癌患者根据截断值的生存期分布图，图8和图9为训练集TCGA中肝细胞肝癌患者不同CLIP分期和TMN分期的风险评分结果，可以看到风险评分越高，患者存活率越高，CLIP分期与TMN分期越高，表明该模型具有良好的肝细胞肝癌分型效果。

进一步地，通过ROC曲线评估模型的预测性能：图10为训练集TCGA数据库中肝细胞肝癌患者的预后与生存期的关系图，其中高风险分值组的肝细胞肝癌患者的生存期短，预后较低风险分值组患者差(见图10)，图11、表2为该模型验证HCC预后的敏感性和特异性结果，风险模型的3年AUC为0.81，敏感性为73.7％，特异性为75％；5年AUC为0.79，敏感性为77.3％，特异性为71.7％；用GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)GSE140520中247例肝细胞肝癌组织和ICGC数据库中的203例肝细胞肝癌组织的数据作为验证集进行验证(见图12和图13)，结果与TCGA数据库中结果一致，表3为该模型在GEO数据库中验证HCC预后的敏感性和特异性结果，风险模型的3年AUC为0.626，敏感性为68.8％，特异性为55.8％；5年AUC为0.625，敏感性为60.0％，特异性为34.7％；表4为该模型在ICGC数据库钟验证HCC预后的敏感性和特异性结果，风险模型的3年AUC为0.723，敏感性为93.3％，特异性为52.7％；5年AUC为0.717，敏感性为88.9％，特异性为52.3％；风险评分高的患者生存期短、预后差。表明本发明的肝细胞肝癌预后预测风险评分模型可以用于评估肝细胞肝癌预后。

表2 TCGA数据库风险模型的敏感性和特异性检验结果

风险模型	AUC	敏感性	特异性
3年ROC	0.81	73.7％	75.0％
5年ROC	0.79	77.3％	71.7％

表3 GEO数据库风险模型的敏感性和特异性检验结果

风险模型	AUC	敏感性	特异性
3年ROC	0.626	68.8％	55.8％
5年ROC	0.625	60.0％	34.7％

表4 ICGC数据库风险模型的敏感性和特异性检验结果

风险模型	AUC	敏感性	特异性
3年ROC	0.723	93.3％	52.7％
5年ROC	0.717	88.9％	52.3％

本发明还提供了一种基因芯片，即：将检测MMP1、EPO、MMRN1、S100A9、ADAM9、GPC1、SPP1、GLDN、FGF9、CXCL5、CST7、THBS3、ANXA10、PIK3IP1、MMP25、CLEC3B、PZP和CLEC17A 18个基因的探针按上述模型构建成基因芯片，便于在临床中应用，其中，各基因探针序列优选如表5所示，针对一个基因的多个探针，可以选择探针测试结果的平均值作为该基因最终的表达水平。

表5基因芯片各基因探针序列

上述对具体实施方式的描述是为了便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术人员显然可以容易的对这些具体实施方式做出各种修改，并把在此说明的一般原理应用到其他实施例中，而不必经过创造性的劳动。因此，本发明不限于上述具体实施方式。本领域技术人员根据本发明的原理，不脱离本发明的范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

一种基因组合在制备判断肝细胞肝癌预后的组织芯片中的应用，其特征在于，

所述组织芯片包含检测MMP1、EPO、MMRN1、S100A9、ADAM9、GPC1、SPP1、GLDN、FGF9、CXCL5、CST7、THBS3、ANXA10、PIK3IP1、MMP25、CLEC3B、PZP和CLEC17A的探针，判断肝细胞肝癌预后的基因模型为：肝细胞肝癌患者风险评分＝(0.069×MMP1表达水平)+(0.049×EPO表达水平)+(0.042×MMRN1表达水平)+(0.036×S100A9表达水平)+(0.027×ADAM9表达水平)+(0.024×GPC1表达水平)+(0.021×SPP1表达水平)+(0.014×GLDN表达水平)+(0.007×FGF9表达水平)+(0.001×CXCL5表达水平)-(0.024×CST7表达水平)-(0.027×THBS3表达水平)-(0.042×ANXA10表达水平)-(0.049×PIK3IP1表达水平)-(0.051×MMP25表达水平)-(0.054×CLEC3B表达水平)-(0.062×PZP表达水平)-(0.069×CLEC17A表达水平)。
根据权利要求1所述的应用，其特征在于，所述肝细胞肝癌患者风险评分与生存期相关，风险评分高的患者生存期短、预后差。