WO2023179263A1

WO2023179263A1 - 评估甲状腺结节恶性程度或概率的系统、模型及试剂盒

Info

Publication number: WO2023179263A1
Application number: PCT/CN2023/076918
Authority: WO
Inventors: 郭天南; 朱怡; 孙耀庭; 陈晨; 葛伟刚; 胡一凡; 许路昂
Original assignee: 西湖欧米(杭州)生物科技有限公司
Priority date: 2022-03-22
Filing date: 2023-02-17
Publication date: 2023-09-28
Also published as: CN114414704A; CN114414704B

Abstract

一种评估甲状腺结节恶性程度或概率的系统、模型及试剂盒。评估方法采用压力循环技术对细针穿刺组织活检样本进行处理，通过高效液相色谱方法和质谱方法检测所得到的样本中目标蛋白或多肽的蛋白质组学数据，通过对质谱数据的肽段峰面积信息进行处理和AI建模后，得到最终的评估结果，即恶性概率。评估结果能够为临床提供甲状腺结节恶性程度的参考，其中，对于现有临床无法鉴定的甲状腺结节，亦能够同时提供第二个评估结果，即恶性概率供医生参考。

Description

评估甲状腺结节恶性程度或概率的系统、模型及试剂盒

本申请要求于2022年03月22日提交中国专利局、申请号为202210281265.8、发明名称为“评估甲状腺结节恶性程度或概率的系统、模型及试剂盒”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及医学检测领域，具体涉及评估甲状腺结节恶性程度或概率的系统、模型及试剂盒。

背景技术

甲状腺结节(Thyroid Nodules)是一种常见的临床病症，根据尸检报告显示，甲状腺结节在普通人群中发病率约50％至60％，多发于女性人群。绝大多数甲状腺结节患者没有临床症状，常常是通过体检或自身触摸发现。在通过病理检查发现的甲状腺结节中，只有5％至15％的结节为恶性结节，即甲状腺癌。

目前临床指南推荐的甲状腺结节的评估主要基于以下三点：一是高分辨率的超声探查，二是血生化指标，三是细针穿刺组织活检(Fine needle aspiration biopsy,FNAB或FNA)。在以上三种检查中，FNA被认为是对可疑甲状腺结节患者的临床管理中最敏感、最经济的可靠检测方法。然而，FNA结果符合率的高与低通常需要取决于穿刺操作者、细胞病理医生的技术和经验，并且仍有15％至30％的甲状腺结节不能通过FNA和细胞病理学得到清楚地评估。针对不确定性甲状腺结节的处理方式，主流观点是进行甲状腺全切或近半切。但大多数术后病理证实为良性结节，这显然会导致过度诊断和过度治疗。

因此目前临床上的诊断标准和治疗方案对无症状的甲状腺结节患者并无益处。患者将支付高昂的手术费用以及甲状腺切除后需终身服用替代激素，甚至承担手术可能会带来的甲状腺危象及术后复发等风险。

近年来，随着分子技术的发展，为了提高对不确定性甲状腺结节的精准诊断，基于甲状腺组织DNA与RNA的分子诊断方法应运而生。在美国，目前已有两个基于基因检测的用于划分此类结节的类别检查推向临床，一个是Afirma，另一个是ThyroSeq。虽然二者具有很高NPV(Negative Predictive Value)，但其PPV(Positive Predictive Value)很低。换言之，这两种方法仅对部分的良性结节有很好的分类，对于是否有恶性嫌疑则无法精准确定，因此这两种方法对可能的过度治疗并无明显改善。

蛋白质是生命活动的执行者，是生命表型的最终体现。定量蛋白质组学研究可从蛋白质组层面阐释某种生物现象的发生发展原因与规律，对生命科学以及人类自身疾病诊疗有重大意义。对于肿瘤组织和非肿瘤组织的定量蛋白质组研究，可能发现某种或某些肿瘤特异的蛋白质作为疾病的标志物，可用于肿瘤的早期诊断、确诊与分型。

发明内容

本发明涉及一种新型检测方法——基于靶向检测蛋白(多肽)与机器学习对甲状腺结节恶性程度评估的方法。

在一个方面，本发明提供一种基于靶向检测蛋白或多肽与机器学习对受试者的甲状腺结节恶性程度或恶性概率进行评估的非诊断方法，包括：

a)提供受试者的细针穿刺组织活检样本，记为FNA样本；

b)采用压力循环技术(Pressure Cycling Technology,PCT)对所述FNA样本进行前处理；

c)检测步骤b)得到的FNA样本中目标蛋白或多肽的蛋白质组学数据，其中所述目标蛋白或多肽包括选自表1的蛋白或多肽，所述蛋白质组学数据通过高效液相色谱方法和质谱方法获得；所述蛋白质组学数据包括MRM离子对和峰面积；

d)分析所得到的蛋白质组学数据，所述分析包括将所得到的蛋白质组学数据输入AI模型；以及

e)输出结果，对于临床上不确定或者难以评判的甲状腺结节，提供恶性概率结果。

本发明所涉及的所述质谱方法是采用质谱多反应监测(Multiple Reaction Monitoring，MRM)技术完成，其中质谱多反应监测技术即质谱MRM技术，是一种基于已知信息或假定信息有针对性地获取数据从而进行质谱信号采集的技术。对于MRM技术而言关键在于首先要能够检测到具有特异性的母离子，然后只将选定的特异性母离子进行碰撞诱导(collision-induced)，最后去除其他子离子的干扰，只对选定的特异子离子进行质谱信号的采集。由于三重四级杆质谱(triple quadrupole system,TQS)是进行单一质荷比扫描最灵敏的质谱系统，因此是最适合MRM分析的质谱仪器。

MRM技术能够在三重四级杆第一极(Q1)和第三极(Q3)中分别选择检测特定母离子和子离子，在母离子和子离子两个水平排除干扰，增强检测特异性。因此，本发明还涉及目标蛋白或多肽的母子离子对。

本发明所涉及的峰面积是指母子离子对色谱峰面积。

在一个实施方案中，该实施方案的评估方法中的d)步骤的分析包括建立AI模型，所述建立AI模型包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果所述单位的送样批次M≥2，则从所述M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1个批次的数据划分至训练集和验证集；

任选地，其中建立AI模型还包括将划分至训练集和验证集的数据根据质谱产生的时间顺序划分为70％的训练集和30％的验证集；

进一步任选地，其中建立AI模型还包括将前瞻性数据集作为第二独立测试集，所述前瞻性数据集的样本批次和质谱时间均严格独立于回顾性数据集。

其中，所述回顾性数据集是回顾性研究中回顾临床病例得到的低质量数据形成的集合。所述前瞻性数据集是前瞻性研究中收集的临床病例的高质量数据形成的集合。

在另一个实施方案中，该实施方案的评估方法中的建立AI模型还包括计算样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白峰面积的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本；

任选地，其中建立的AI模型，还包括使用了去除包含极高丰度的目标蛋白或多肽的样本，所述极高丰度的目标蛋白或多肽包括VNVDEVGGEALGR、EFTPPVQAAYQK、LALQFTTNPK、LAAQSTLSFYQR、LEDIPVASLPDLHDIER、FLQGDHFGTSPR、QVDQFLGVPYAAPPLAERR、GGADVASIHLLTAR、RISGLIYEETR、ISGLIYEETR和VFLENVIR。

在又一个实施方案中，该实施方案的评估方法中的质谱方法包括将从色谱柱流出的蛋白或多肽在三重四级杆质谱仪上使用正离子模式下的Scheduled MRM^TM模式进行数据采集。任选地，Schedule窗口为2.5分钟。

在另一个方面，本发明提供目标蛋白或多肽作为检测靶标在制备试剂盒中的用途，所述试剂盒用于基于靶向检测蛋白或多肽与机器学习对受试者的甲状腺结节恶性程度或恶性概率进行评估，其中所述试剂盒包含检测目标蛋白或多肽的工具，所述目标蛋白或多肽包括选自表1的蛋白或多肽。

在一个实施方案中，该实施方案的用途所涉及的评估方法包括：

a)提供受试者的细针穿刺组织活检样本，记为FNA样本；

b)采用压力循环技术(PCT技术)对所述FNA样本进行前处理；

c)检测步骤b)得到的FNA样本中目标蛋白或多肽的蛋白质组学数据，所述目标蛋白或多肽包括选自表1的蛋白或多肽，所述蛋白质组学数据通过高效液相色谱方法和质谱方法获得，所述蛋白质组学数据包括母子离子对、保留时间、碰撞电压(CE)和峰面积；

d)分析步骤c)得到的蛋白质组学数据，所述分析包括将所述蛋白质组学数据输入AI模型；以及

e)输出结果，对于临床上不确定或者难以评判的甲状腺结节提供恶性概率结果。

本发明所涉及的保留时间是指肽段通过色谱柱后出峰的时间。

本发明所涉及的碰撞电压是指母离子在质谱碰撞室中发生碎裂时的电压。

在另一个实施方案中，该实施方案的用途的评估的d)步骤的分析包括建立AI模型，所述建立AI模型包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果该单位的送样批次M≥2，则从所述M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1个批次的数据划分至训练集和验证集；

在又一个实施方案中，该实施方案的用途中的建立AI模型还包括计算样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白峰面积的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本；

任选地，其中建立AI模型还包括去除包含极高丰度的目标蛋白或多肽的样本，其中所述极高丰度的目标蛋白或多肽包括VNVDEVGGEALGR、EFTPPVQAAYQK、LALQFTTNPK、LAAQSTLSFYQR、LEDIPVASLPDLHDIER、FLQGDHFGTSPR、QVDQFLGVPYAAPPLAERR、GGADVASIHLLTAR、RISGLIYEETR、ISGLIYEETR和VFLENVIR。

在另一个实施方案中，该实施方案的用途的评估所涉及的质谱方法包括将从色谱柱流出的蛋白或多肽在三重四级杆质谱仪上使用正离子模式下的Scheduled MRM^TM模式进行数据采集。任选地，Schedule窗口为2.5分钟。

在又一个方面，本发明还提供一种系统，其用于基于靶向检测蛋白或多肽与机器学习对受试者的甲状腺结节恶性程度或恶性概率进行评估，所述系统包含：

i)采集装置，其采集受试者的细针穿刺组织活检样本，记为FNA样本；

ii)样本前处理装置，其采用压力循环技术(PCT技术)对所述FNA样本进行前处理；

iii)检测装置，其检测所得到的样本中目标蛋白或多肽的蛋白质组学数据，其中所述目标蛋白或多肽包括选自表1的蛋白或多肽，并且所述蛋白质组学数据通过高效液相色谱方法和质谱方法获得，所述蛋白质组学数据包括母子离子对、保留时间、碰撞电压(CE)和峰面积；

iv)分析装置，其分析所得到的蛋白质组学数据，所述分析包括将所述蛋白质组学数据输入AI模型；以及

v)输出装置，其输出结果，其中对于临床上不确定或者难以评判的甲状腺结节，提供恶性概率结果。

在一个实施方案中，该实施方案的iv)的分析包括建立AI模型，所述建立AI模型包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果该单位的送样批次M≥2，则从所述M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1个批次的数据划分至训练集和验证集；

在又一个实施方案中，该实施方案涉及的建立AI模型还包括计算样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白单个蛋白的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本；

任选地，其中建立AI模型还包括去除包含极高丰度的目标蛋白或多肽的样本，所述极高丰度的目标蛋白或多肽包括VNVDEVGGEALGR、EFTPPVQAAYQK、LALQFTTNPK、LAAQSTLSFYQR、LEDIPVASLPDLHDIER、FLQGDHFGTSPR、QVDQFLGVPYAAPPLAERR、GGADVASIHLLTAR、RISGLIYEETR、ISGLIYEETR和VFLENVIR。

在另一个实施方案中，该实施方案所涉及的质谱方法包括将从色谱柱流出的蛋白或多肽在三重四极杆质谱仪上使用正离子模式下的Scheduled MRM^TM模式进行数据采集。任选地，Schedule窗口为2.5分钟。

在另一个方面，本发明还提供一种对受试者的甲状腺结节恶性程度或恶性概率进行评估的评估模型，其中通过将具有甲状腺结节不同恶性程度的受试者的细针穿刺组织活检样本(FNA样本)的目标蛋白或多肽的蛋白质组学数据作为训练数据训练机器学习模型而得到所述评估模型，所述目标蛋白或多肽包括选自表1的蛋白或多肽，对于临床上不确定或者难以评判的甲状腺结节提供恶性概率结果，其中所述蛋白质组学数据包括母子离子对、保留时间、碰撞电压(CE)和峰面积。

在一个实施方案中，该实施方案的评估模型所涉及的评估包括建立AI模型，所述建立AI模型包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果所述单位的送样批次M≥2，则从所述M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1 个批次的数据划分至训练集和验证集；

在另一个实施方案中，该实施方案的评估模型中的评估所涉及的建立AI模型还包括计算样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本；

本发明通过高效液相色谱方法和质谱方法检测所得到的样本中目标蛋白或多肽的蛋白质组学数据，通过质谱数据的肽段峰面积信息进行处理和AI建模后，得到最终的评估结果(恶性概率)，能够为临床提供甲状腺结节恶性程度的参考，其中，对于现有临床无法鉴定的甲状腺结节，亦能够同时提供第二个评估结果(恶性概率)供医生参考。

附图说明

图1显示的是本发明的AI流程图；

图2显示的是本发明建立训练数据集和测试集的示意图；

图3显示的是本发明的一个实施例中的第一比较实验的结果；

图4显示的是本发明的一个实施例中的第二比较实验的结果；

图5显示的是本发明的模型预测的ROC图。

具体实施方式

以下通过实施例来示例性展示本发明的具体实施方式，但是，应当理解的是，本发明并不局限于此。

除非明确指明，否则本发明所用到的试剂、仪器、装置等均为市售可获得的产品。

实施例

实施例1——建立临床多中心前瞻性队列。

首先建立一个全国多中心临床试验进行样本采集。

纳入标准：

(1)年龄≥18岁，≤70岁；

(2)未经药物治疗的甲状腺结节初治患者；

(3)甲状腺结节≥5mm，甲状腺细针穿刺，Bethesda III/IV；

(4)行甲状腺全/部分切除术，并有对应细胞病理穿刺结节的组织学报告；

(5)患者知情同意后自愿参与研究。

排除标准：

(1)未经手术患者；

(2)样本量不足；

本研究共计采集3120例样本，排除不符合标准的样本后剩余2450样本进行样本前处理与数据采集。

实施例2——压力循环系统辅助的FNA样本处理方法。

FNA穿刺样本通过超声引导或术中使用19-27g注射器针头进行反复抽吸穿刺获取。穿刺样本首先通过0.5mL红细胞裂解液进行低温4℃进行裂解，反应5min后放入离心机，300g离心10min。离心后，弃除溶液，保留离心后剩余的细胞。

随后，采用PCT技术对样本进行前处理。

PCT是一项新兴的半自动化组织裂解和蛋白质、多肽提取的样本制备技术，在小体积(150微升)的容器内，通过超高压(最高达45kpsi)和标准大气压循环促进组织和细胞的溶解，加速蛋白质水解和酶解。PCT的主要特点是半自动化处理微量样本(约0.1mg组织/千余个细胞)，保证了样本制备过程的稳定性和可重复性，在众多生物学领域得到广泛应用。

作为一个实例，PCT样本制备系统是一套基于压力循环技术的完整工作流程，由Barocycler2320EXT设备(可同时处理16个样本)和MicroTube、MicroPestle、MicroCaps等耗材组成，如应用于蛋白质组学，可在4-5小时内从组织中提取出可用于质谱分析的肽段。

在本实施例中，去除红细胞后的甲状腺穿刺样本，加入裂解液(6M尿素，2M硫脲)、还原剂(tris(2-carboxyethyl)phosphine，TCEP)、烷基化试剂碘乙酰胺(iodoacetamide，IAA)在PCT管中进行反应，反应时仪器参数设置：90cycles，每个cycle包括45,000psi，30s，以及10s off-time。反应结束后，加入0.75～1.5μg LysC和2.5～5μg Trypsin两种酶在PCT中加速反应，反应条件为：120cycles，每个cycle包括20,000psi，50s，以及10s off-time。消化结束后，多肽通过C18柱进行脱盐。最后，洁净干燥的多肽进行后续分析。

实施例3——候选蛋白挑选。

本实施例筛选出有利于甲状腺结节良性恶性判定的候选肽段及相应的母子离子。

i)前期研究中发现的14个蛋白组合和20个蛋白组合；

ii)前期研究中的模型挑选出诊断滤泡癌与滤泡腺瘤的49个蛋白；

iii)前期研究中的数据里获取的滤泡癌与滤泡腺瘤的差异蛋白；

iv)临床中免疫组织化学染色的47个蛋白；

v)文献中报道的与甲状腺癌相关的76个蛋白；

本发明人将以上渠道获取的蛋白进行合并后，初始侯选池共涵盖212个蛋白。

接下来，本发明人筛选出121个蛋白及537个母子离子对作为后续构建模型的母子离子对数据库(表1)。

表1候选蛋白及相应母子离子对(第1－3栏)：

续表1(第1栏和第4-6栏)

续表1(第1栏和第7-8栏)

实施例4——靶向蛋白质组学方法检测目标蛋白(肽段)。

本实施例涉及多肽的靶向蛋白质组检测，分为液相方法优化及质谱参数优化。通过优化，可以在10-25分钟内完成快速检测。

液相方法优化：高效液相：色谱柱类型(C18，极性封端，长度100mm；粒径1.9μm)，使用流动相A(含0.1％(v/v)甲酸的水溶液)及流动相B(含0.1％(v/v)甲酸的乙腈溶液)进行梯度洗脱，流速0.2ml/min：0-1分钟：3％B，1-20分钟：3％B～40％B；20-20.1分钟：40％B～80％B；20.1～22分钟：80％B；22.1～25分钟：3％B。柱温箱温度50℃。

质谱参数优化：流出肽段将在三重四级杆质谱仪上使用正离子模式下的MRM模式进行数据采集以确定保留时间。确定保留时间之后，使用ramp的方法优化每一个MRM离子对的碰撞能量CE，最终整合保留时间和优化的CE，生成Scheduled MRMTM采集方法(Schedule窗口为2.5分钟)。数据采集母子离子对、保留时间及优化后碰撞电压(CE)，结果见表1。

本发明人还通过合成含有稳定同位素标记的肽段，混合后掺入到样本中，进行MRM采集。本发明引入同位素标记的肽段的目的为目标肽段的确证，排除假阳性信号。

实施例5——质谱数据的处理和AI建模。

5.1原理概要

本实施例通过对质谱数据的肽段峰面积信息进行处理和AI建模后，得到最终的评估结果(恶性概率)，能够为临床提供甲状腺结节恶性程度的参考，其中，对于现有临床无法鉴定的甲状腺结节，亦能够同时提供第二个评估结果(恶性概率)供医生参考。对于本实施例中建议的不同肽段组合，本发明的AI算法都能够提供上述两个结果。

本实施例的AI流程图如图1所示。

5.2建立训练数据集和测试集

为了验证本发明的AI模型的有效性、稳定性和泛化性，本实施例将回顾性数据集分为三份：1.训练集，2.验证集，和3.不同批次独立测试集，具体流程如图2所示。

首先从现有样本中，根据不同的医院信息和送样信息划分出一个不同批次的独立测试集：对于每个医院，若送样批次M≥2，则从中随机选出一个批次的数据归属于该独立测试集(以证明本发明的AI模型能够克服批次效应，对于不同样本批次都有高表现)，剩余M-1个批次的数据归属于训练集和验证集。

将剩余数据根据质谱产生的时间顺序划分为约70％的训练集和30％的验证集，以训练出对质谱时间不敏感的模型。

为了进一步验证本发明的AI模型的泛化性，将收集的一批前瞻性的样本作为独立测试集，该样本的样本批次和质谱时间均为严格独立，从而证明本发明的AI模型对于前瞻性数据集也有高表现。

由图2可见不同测试集的区别，蓝色数据会根据时间进一步划分为训练集和内部测试集(训练时用5.5.i的方式确定五组模型和参数，然后分别在内部测试集和两个独立测试集进行测试)，T0、T1、T2为进行质谱的时间，建模时间为T1时间点，因此T1之前的数据为回顾性数据，之后的数据为前瞻性数据。

5.3数据清洗

i.计算样本中三种噪声蛋白：HBB、THYG、H4的单个蛋白峰面积占总蛋白峰面积和的比例，当单个蛋白的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本，从而大大提升模型分类效果(有ROC图的对比，在质控阈值为70％、80％、90％、100％的比较，此处进行了两个比较实验，第一比较实验如图3所示，第二比较实验如图4所示。第一比较实验，应用了相同训练和测试数据，不同的是一组对所有数据进行70％质控且去除高丰度蛋白，一组不进行处理，测试结果明显是质控比较好；还进行了第二比较实验，即固定70％质控训练出的模型，在另一组数据70％、80％、90％和100％质控数据上测试，结果分别为0.91，0.9，0.87和0.82)；

ii.分类时去除极高丰度的目标蛋白及相应肽段(这些肽段不适合加入模型，是用于质控的肽段。VNVDEVGGEALGR，EFTPPVQAAYQK，LALQFTTNPK，LAAQSTLSFYQR，LEDIPVASLPDLHDIER，FLQGDHFGTSPR，QVDQFLGVPYAAPPLAERR，GGADVASIHLLTAR，RISGLIYEETR，ISGLIYEETR，VFLENVIR共11条肽段需要去除。若不去除这些肽段，则模型结果受到这些肽段的影响，尤其是在不同批次样本中，这些肽段的浓度影响不同，使得内部测试集AUC从1下降到0.99，而不同批次独立测试集AUC从0.923下降到0.845)。

5.4数据预处理

对数据归一化(除以中位数)或对肽段归一化(z-score)均能达到效果，其中对肽段归一化(z-score)包括对每个肽段(特征)的定量在训练集上进行z-score归一化处理，并记录每个肽段的平均值和标准差，在测试新数据的时候对新数据的每个肽段执行z-score。

5.5模型训练

i.将训练集中的两类数据按比例分为五份，每份含有20％的正样本和20％的负样本，每次将其中4份组合为训练数据，利用XG Boos t模型进行AI建模，在剩余1份上(validation 1)和之前提到的内部测试集上(validation 2)进行验证，这样可以有5个不同的训练集得到五个XGBoost模型，以增加模型的多样性，为后面的模型融合做准备。该操作的有益之处在于：1)训练集少量不同而validation 1完全不同能够得到不同的参数和模型，训练效果比较好；2)由于上述不同，五个模型直接具有一定独立性；3)由于独立性，五个模型融合时具有一定互补性，这样融合后能达到非常好的效果。需要说明的是，本发明的模型可以扩展为其他模型，包括但不限于逻辑回归，决策树，随机森林，SVM，神经网络等模型。

ii.用网格搜索或遗传算法对于每个模型分别进行搜参：对于每个格点的参数，首先对i中的训练集按该参数建模并进行重要性排序，然后以该参数为基础，按特征的重要性从大到小加入模型进行建模，评估函数为在validation 1上的AUC值和validation 2上的AUC值的和，且两个AUC应均不低于0.9，单个模型的总特征不超过10，以便于最终试剂盒产品化应用。当评估函数取得最高值时的参数和对应的特征为最终决定的参数和特征。本实施例能够取得训练集表现最优的模型，且有一定的泛化性(两个AUC均大于0.9)。

iii.对训练集进行不同划分产生更多的模型和特征组合(可选)。

5.6模型测试/预测

使用如上训练好的模型对新数据进行测试/预测。

i.将从穿刺样本获得的新的质谱数据如前所述进行数据处理。

ii.使用MRMTransitionGroupPicker或MRMMapper(OpenMS)算法在谱图中挑选目标母离子的全部峰，使用mProphet算法对数据进行质量控制(错误发现率估计)，得到精准的定性定量分析，或者使用Skyline软件进行定性定量，该步实现从质谱数据到肽段定量数据。

iii.对数据进行归一化处理，包括获得之前记录的平均值和方差后进行z-score变换。

iv.在由5个训练集产生的五个XGBoost模型上进行测试，获得预测值(0～1的一个概率值)。

v.模型融合(可选)：由于单模型的鲁棒性和稳定性受限，因此本发明对于五个XGBoost模型的结果进行融合，融合方式为pred＝(pred1+pred2+pred3+pred4+pred5)/5。本实施例训练出五个模型，可以采取任意一个模型及其肽段组合包装进试剂盒，也可以把五个模型及其肽段组合包装进试剂盒。

vi.iii或iv的结果通过阈值进行二分类预测，大于阈值预测为1(恶性)，小于阈值预测为0(良性)，阈值定义为(P1/S1+P2/S2)/2，其中P1、P2分别为70％、30％数据集的正样本数量，S1、S2分别为70％、30％数据集的样本数量。

vii.总体结果展示(敏感度、特异度和AUC)；在临床中难以分辨的III/IV类结果展示；泛化性展示1(两个验证集和两个独立测试集)；泛化性展示2(两个独立测试集上的多中心数据展示)。结果示于表2和表3中：

表2总体结果展示(第1－3栏)

续表2(第4-6栏)

续表2(第7-8栏)

表3多中心结果展示

注：第二个独立测试集由于良性测试样本量偏少，结果不太稳定，其他测试都能达到预期效果。

实施例6——本发明与现有技术的比较。

6.1与临床细胞病理学医生评估结果比较

Bethesda III/IV类临床细胞病理学医生无法评估的甲状腺结节，也无法确切知晓是良性还是恶性(III类不代表良性，而IV类也不代表恶性)。甲状腺TBSRTC各诊断分级的恶性风险及临床管理方法见表4。

表4：甲状腺TBSRTC各诊断分级的恶性风险及临床管

本研究方法对于III/IV类的评价准确率为77％，模型AUC为0.90。

由于III/IV类数据较少，本发明人将内部测试集和两个独立测试集的数据合并预测展示结果(5个良性，21个恶性，分别见表5和表6)：

表5医生预测

表6模型预测

本发明的模型预测的ROC图见图5，模型AUC为0.90。

6.2与现有技术中的方法的比较

本发明人在此还将本发明的方法与两篇参考文献(Patel et al.,Performance of a Genomic Sequencing Classifier for the Preoperative Diagnosis of Cytologically Indeterminate Thyroid Nodules，JAMA Surg.2018；153(9):817-824和Livhits et al.,Effectiveness of Molecular Testing Techniques for Diagnosis of Indeterminate Thyroid Nodules:A Randomized Clinical Trial，JAMA Oncol.2021Jan1；7(1):70-77)中的方法就敏感性、特异性等进行了比较，比较结果见表7。

表7：本发明的方法与两篇参考文献中的方法的比较(第1－3栏)

^aGSC是Genomic Sequencing Classifier的缩写；

b仅纳入了有明确手术结果的样本；

续表7(第4－6栏)

续表7(第7－8栏)

结果显示，本发明的方法的特异性和阳性预测值均显著高于参考文献中所用的方法。

为了降低临床上对甲状腺结节恶性程度或恶性概率的误诊，即减少假阳性判断，因此本发明人有限选择特异性更高的模型。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。对这些实施例的多种修改对本领域的专业技术人员来说是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种系统，其特征在于，用于基于靶向检测蛋白或多肽与机器学习对受试者的甲状腺结节恶性程度或恶性概率进行评估，所述系统包含：

i)采集装置，用于采集受试者的细针穿刺组织活检样本，记为FNA样本；

ii)样本前处理装置，用于采用压力循环技术对所述FNA样本进行前处理；

iii)检测装置，用于检测所述FNA样本中目标蛋白或多肽的蛋白质组学数据，所述目标蛋白或多肽的氨基酸序列如SEQ ID NO:1～SEQ ID NO:179所示，所述蛋白质组学数据通过高效液相色谱方法和质谱方法获得；

iv)分析装置，用于分析所述蛋白质组学数据，所述分析的方法包括将所述蛋白质组学数据输入AI模型，所述蛋白质组学数据包括母子离子对、保留时间、碰撞电压和峰面积；以及

v)输出装置，用于输出结果，对于临床上不确定或者难以评判的甲状腺结节提供恶性概率结果。
根据权利要求1所述的系统，其特征在于，iv)所述分析包括建立AI模型，所述建立AI模型包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果该单位的送样批次M≥2，则从所述M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1个批次的数据划分至训练集和验证集。
根据权利要求2所述的系统，其特征在于，所述建立AI模型还包括将划分至训练集和验证集的数据根据质谱产生的时间顺序划分为70％的训练集和30％的验证集。
根据权利要求3所述的系统，其特征在于，所述建立AI模型还包括将前瞻性数据集作为第二独立测试集，所述前瞻性数据集的样本批次和质谱时间均严格独立于回顾性数据集。
根据权利要求2～4任意一项所述的系统，其特征在于，建立AI模型还包括计算FNA样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白峰面积的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本。
根据权利要求2所述的系统，其特征在于，建立AI模型还包括去除包含极高丰度的目标蛋白或多肽的样本，所述极高丰度的目标蛋白或多肽包括VNVDEVGGEALGR、EFTPPVQAAYQK、LALQFTTNPK、LAAQSTLSFYQR、 LEDIPVASLPDLHDIER、FLQGDHFGTSPR、QVDQFLGVPYAAPPLAERR、GGADVASIHLLTAR、RISGLIYEETR、ISGLIYEETR和VFLENVIR。
根据权利要求1或2所述的系统，其特征在于，所述质谱方法包括将从色谱柱流出的蛋白或多肽在三重四极杆质谱仪上使用正离子模式下的Scheduled MRM TM模式进行数据采集。
根据权利要求7所述的系统，其特征在于，Schedule窗口为2.5分钟。
一种对受试者的甲状腺结节恶性程度或恶性概率进行评估的评估模型，其特征在于，通过将具有甲状腺结节不同恶性程度的受试者的细针穿刺组织活检的FNA样本的目标蛋白或多肽的蛋白质组学数据作为训练数据训练机器学习模型而得到该评估模型，所述目标蛋白或多肽的氨基酸序列如SEQ ID NO:1～SEQ ID NO:179所示，并且其中对于临床上不确定或者难以评判的甲状腺结节，提供恶性概率结果。
根据权利要求9所述的评估模型，其特征在于，所述评估的方法包括建立AI模型，所述建立AI模型的方法包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果所述单位的送样批次M≥2，则从该M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1个批次的数据划分至训练集和验证集。
根据权利要求9或10所述的评估模型，其特征在于，建立AI模型还包括计算样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白峰面积的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本。
权利要求1～7中任一项所述的系统或权利要求8～11中任一项所述的评估模型在制备基于靶向检测蛋白或多肽与机器学习对受试者的甲状腺结节恶性程度或恶性概率进行评估的装置中的用途。
目标蛋白或多肽作为检测靶标在制备试剂盒中的用途，其特征在于，所述试剂盒用于基于靶向检测蛋白或多肽与机器学习对受试者的甲状腺结节恶性程度或恶性概率进行评估，其中所述试剂盒包含检测目标蛋白或多肽的工具，并且其中所述目标蛋白或多肽的氨基酸序列如SEQ ID NO:1～SEQ ID NO:179所示。
根据权利要求13所述的用途，其特征在于，所述评估的方法包括：

a)提供受试者的细针穿刺组织活检样本，记为FNA样本；

b)采用压力循环技术对所述FNA样本进行前处理；

c)检测所述FNA样本中目标蛋白或多肽的蛋白质组学数据，所述目标蛋白或多肽的氨基酸序列如SEQ ID NO:1～SEQ ID NO:179所示，并且所述蛋白质组学数据通过高效液相色谱方法和质谱方法获得；

d)分析所述蛋白质组学数据，其中所述分析包括将所述蛋白质组学数据输入AI模型；以及

e)输出结果，其中对于临床上不确定或者难以评判的甲状腺结节，提供恶性概率结果。
根据权利要求14所述的用途，其特征在于，d)步骤的分析包括建立AI模型，所述建立AI模型包括将回顾性数据集分为训练集、验证集和独立测试集，其中对于每个提供样本的单位，如果该单位的送样批次M≥2，则从该M批数据中随机选出一个批次的数据划分至独立测试集，而剩余M-1个批次的数据划分至训练集和验证集。
根据权利要求15所述的用途，其特征在于，所述建立AI模型还包括将划分至训练集和验证集的数据根据质谱产生的时间顺序划分为70％的训练集和30％的验证集。
根据权利要求15所述的用途，其特征在于，所述建立AI模型还包括去除包含极高丰度的目标蛋白或多肽的样本，所述极高丰度的目标蛋白或多肽包括VNVDEVGGEALGR、EFTPPVQAAYQK、LALQFTTNPK、LAAQSTLSFYQR、LEDIPVASLPDLHDIER、FLQGDHFGTSPR、QVDQFLGVPYAAPPLAERR、GGADVASIHLLTAR、RISGLIYEETR、ISGLIYEETR和VFLENVIR。
根据权利要求15所述的用途，其特征在于，所述建立AI模型还包括计算样本中三种噪声蛋白HBB、THYG和H4的单个蛋白峰面积占总蛋白峰面积和的比例以及这三种蛋白峰面积和占总蛋白峰面积和的比例，其中当单个蛋白峰面积的比例>70％或这三种蛋白峰面积和的比例>95％时，确定该样本为不合格样本。
根据权利要求14所述的用途，其特征在于，所述质谱方法包括将从色谱柱流出的蛋白或多肽在三重四级杆质谱仪上使用正离子模式下的Scheduled MRM TM模式进行数据采集。
根据权利要求19所述的用途，其特征在于，Schedule窗口为2.5分钟。