WO2023207396A1

WO2023207396A1 - 用于分析变异检测结果的模型的构建方法

Info

Publication number: WO2023207396A1
Application number: PCT/CN2023/081719
Authority: WO
Inventors: 唐飞; 王中华; 孙隽; 彭智宇
Original assignee: 天津华大基因科技有限公司; 天津华大医学检验所有限公司
Priority date: 2022-04-25
Filing date: 2023-03-15
Publication date: 2023-11-02
Also published as: CN116994647A

Abstract

本发明提出了用于分析变异检测结果的模型的构建方法，所述方法包括：获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集；分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征；利用上步得到的特征结果构建模型；其中，所述特征包括下列的至少之一：AD0值、AD1值、AF0值、AF1值、GT值、DP值、GQ值、MQ值和QUAL值。

Description

用于分析变异检测结果的模型的构建方法

技术领域

本发明涉及生物领域。具体地，本发明涉及用于分析变异检测结果的模型的构建方法。

背景技术

临床下一代测序(cNGS)被广泛用于确定遗传疾病患者的分子诊断。然而，已知的NGS流程在测序、比对和变异调用步骤中都会存在随机和系统错误。因为报告的变异会影响患者护理与治疗，美国医学遗传学和基因组学学院(ACMG)和美国病理学家学院(CAP)建议对报告的变异进行正交确认，以降低错误的风险积极的结果。目前Sanger测序一直是遗传性疾病分子诊断的主要技术。但是如ClinVar和OMIM等公共数据库的增长所证明的那样，临床报告候选变体的总数正在稳步增加，它成倍的增加了测试的成本和周转时间，使得想要完全测得也变得越来越不切实际。因此，使用大量已知数据经过训练的机器学习模型，以识别cNGS数据中的假阳性变异，减少对正交测试的需求变得越来越迫切。

目前针对变异假阳性的研究存在如下问题：Sanger测序等正交实验会增加大量的成本和周转时间；现有模型所用的特征多为布尔标记值，与未更改的定量指标相比，这会导致信息丢失；现有模型训练集中的假阳性变异调用相对较少，可能导致某些假阳性捕获率(特别是SNV)的置信区间较宽；现有模型由于成本原因，使用临床数据不够，要么刻意复杂适用多种场景，但置信度不足，要么置信度足够，但过拟合风险较大，适用场景不足。

因此，目前用于预测变异假阳性的方法仍有待研究。

发明内容

本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。

为此，在本发明的一个方面，本发明提出了一种用于分析变异检测结果的模型的构建方法。根据本发明的实施例，所述方法包括：获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集；分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征；利用上步得到的特征结果构建模型；其中，所述特征包括下列的至少之一：AD0值：变异位点基因型中第一个等位基因的深度；AD1值：变异位点基因型中第二个等位基因的深度；AF0值：变异位点基因型中第一个等位基因的频率；AF1值：变异位点基因型中第二个等位基因的频率；GT值：单个数值(具体可以为0、1、2、3)；DP值：测序深度值；GQ值：变异位点基因型的质量值；MQ值：变异位点映射的质量；QUAL值：变异位点可能性的质量值。

变异检测分析软件中可以生成几十种特征参数，发明人对这些特征参数进行比较分析，筛选出一组特征参数，以这些特征参数作为属性对已明确为阳性变异位点和阴性变异位点的数据集构建机器学习模型，利用获得的模型可以准确地预测阳性变异数据是否为假阳性，还可以进一步获知变异位点的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

在本发明的另一方面，本发明提出了一种分析变异检测结果的方法。根据本发明的实施例，所述方法包括：获取候选阳性变异数据集；利用前面所述用于分析变异检测结果的模型的构建方法获得的机器学习模型对所述候选阳性变异数据集进行分析，以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性和/或变异位点的基因型。由此，利用本发明的方法可以准确地预测出阳性变异数据是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

在本发明的又一方面，本发明提出了一种用于分析变异检测结果的模型的构建装置。根据本发明的实施例，所述装置包括：获取模块，所述获取模块适于获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集；提取模块，所述提取模块适于分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征；构建模块，所述构建模块适于利用所述提取模块获得的特征结果构建模型；其中，所述特征包括下列的至少之一：AD0值：变异位点基因型中第一个等位基因的深度；AD1值：变异位点基因型中第二个等位基因的深度；AF0值：变异位点基因型中第一个等位基因的频率；AF1值：变异位点基因型中第二个等位基因的频率；GT值：单个数值；DP值：测序深度值；GQ值：变异位点基因型的质量值；MQ值：变异位点映射的质量；QUAL值：变异位点可能性的质量值。由此，利用本发明的装置获得的模型可以准确地预测阳性变异数据是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

在本发明的又一方面，本发明提出了一种可执行的存储介质。根据本发明的实施例，所述存储介质存储有计算机程序指令，所述计算机程序指令在处理器上运行时，使所述处理器执行如前面所述分析变异检测结果的方法。由此，通过执行本发明的存储介质，可以准确地预测阳性变异数据是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

在本发明的又一方面，本发明提出了一种电子设备。根据本发明的实施例，所述电子设备包括：前面所述可执行的存储介质；所述处理器，用于执行所述计算机程序以实现前面所述分析变异检测结果的方法。由此，通过实施本发明的电子设备，可以准确地预测阳性变异数据是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

用于分析变异检测结果的模型的构建方法

在本发明的一个方面，本发明提出了一种用于分析变异检测结果的模型的构建方法。根据本发明的实施例，所述方法包括：获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集；分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征；利用上步得到的特征结果构建模型；其中，所述特征包括下列的至少之一：AD0值、AD1值、AF0值、AF1值、GT值、DP值、GQ值、MQ值和QUAL值。

发明人经过大量实验筛选出上述9种特征参数，其均为GATK软件中的特征参数，具体含义参见下表，以其作为特征属性对明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集进行机器学习，获得预测模型。由此，利用获得的模型可以准确地预测阳性变异数据中是否为假阳性，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

表1特征含义

根据本发明的实施例，所述明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集是通过下列方法获得的：获取测序数据集；利用GATK软件对所述测序数据集与参考数据进行比对处理，获得候选阳性变异数据集；对所述候选阳性变异数据集进行分析处理，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。

首选获取临床基因测序数据，通过将测序数据与参考数据比对(例如包括比对、变异检测、注释和过滤等操作)，并使用GATK识别变异，获得候选阳性变异数据，输出VCF文件。通过对候选阳性变异数据再次进行分析处理，明确获知数据是否为真阳性或假阳性。将数据分为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。

根据本发明的实施例，所述参考序列选自人类基因组hg19。

根据本发明的实施例，所述分析处理包括：将所述候选阳性变异数据集进行标准临床解读，获取可能致病的变异数据集；对所述可能致病的变异数据集进行正交试验分析，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集，其中，所述阳性测序数据集包括SNV变异类型数据集和INDEL变异类型数据集，所述SNV变异类型数据集和INDEL变异类型数据集分别包括纯合基因型数据集和杂合基因型数据集。

术语“标准临床解读”是指参考2015年版ACMG指南对临床变异的致病性进行解读。

通过将GATK识别分析获得的候选阳性变异数据进行标准临床解读，以获得可能致病的变异数据，再对这些数据经过正交试验验证变异的准确性，即可获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。阳性测序数据集可以分为SNV变异类型和INDEL变异类型，两种变异类型还可以进一步准确获知变异的基因型，即为纯合(Hom)或杂合(Het)。

需要说明的是，本发明对于正交试验分析的方法不作严格限定，只要是能够获知可能致病的变异数据是真阳性变异还是假阳性即可，具体可以采用本领域常规技术操作，例如参考Sanger F.DNA sequencing with chain-terminating inhibitors.1977[J].Biotechnology(Reading,Mass.),24:104-108.。

根据本发明的实施例，所述模型选自随机森林分类模型，阈值为0.95±0.05。阈值的设定保证了足够的准确率，减少偶然性误差。采用可伸缩的阈值设定，在保证足够准确率的前提下，可在准确率和进行正交试验率中相互权衡。

根据本发明的具体实施例，分别将明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集分为训练集和测试集(3：1)，并选择随机森林分类模型，经过5折交叉验证选择准确率最高的模型。

根据本发明的实施例，所述用于分析变异检测结果的模型的构建方法包括：

1、首先获取临床基因组数据通过人类参考基因组(hg19)比对，并使用GATK识别变异输出VCF文件；

2、经过标准临床解读获取可能致病的变异，再经过正交实验验证变异的准确性，并且提供准确的基因型Hom(纯和)、Het(杂合)、N(不存在变异)；

3、然后将VCF文件转换为机器学习标签和特征，从中共计获取特征9个，具体参见表1：

4、根据变异类型的不同(SNV,INDEL)，通过从VCF文件中提取出的特征分别构建两个不同的机器学习分类模型，经过网格搜索寻求最优参数。

5、基于上述方法将数据分为训练集和测试集(3：1)，并选择随机森林分类模型，经过5折交叉验证选择准确率最高的模型。

分析变异检测结果的方法

在本发明的另一方面，本发明提出了一种分析变异检测结果的方法。根据本发明的实施例，所述方法包括：获取候选阳性变异数据集；利用前面所述用于分析变异检测结果的模型的构建方法获得的机器学习模型对所述候选阳性变异数据集进行分析，以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性和/或变异位点的基因型。由此，利用本发明的方法获得的模型可以准确地预测候选阳性变异数据是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

根据本发明的实施例，所述候选阳性变异数据集是通过下列方式获得的：获取测序数据集；利用GATK软件对所述测序数据集与参考数据进行比对处理，获得所述候选阳性变异数据集。

根据本发明的实施例，所述模型选自随机森林分类模型，当所述候选阳性变异数据的置信度低于所述模型的阈值时，将所述候选阳性变异数据进行正交试验分析，以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性。低于阈值的数据称为灰区数据，利用模型预测假阳性的准确率偏低，因此，需要再对这部分数据进行正交实验验证，从而准确地预测其假阳性。

本领域技术人员能够理解的是，前面针对用于分析变异检测结果的模型的构建方法所描述的特征和优点，同样适用于该分析变异检测结果的方法，在此不再赘述。

用于分析变异检测结果的模型的构建装置

根据本发明的实施例，所述获取模块包括：获取测序数据集模块，所述获取测序数据集模块适于获取测序数据集；对比处理模块，所述对比处理模块适于利用GATK软件对所述测序数据集与参考数据进行比对处理，获得候选阳性变异数据集；分析处理模块，所述分析处理模块适于对所述候选阳性变异数据集进行分析处理，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。采用获取模块可以准确地确定测序数据集中的阳性变异位点数据和阴性变异位点数据，同时，还可以确定阳性变异位点的基因型。

根据本发明的实施例，所述分析处理模块包括：标准临床解读模块，所述标准临床解读模块适于将所述阳性变异数据进行标准临床解读，获取可能致病的变异数据；正交试验分析模块，所述正交试验分析子模块适于对所述可能致病的变异数据进行正交试验分析，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。

可执行的存储介质

在本发明的又一方面，本发明提出了一种可执行的存储介质。根据本发明的实施例，所述存储介质存储有计算机程序指令，所述计算机程序指令在处理器上运行时，使所述处理器执行如前面所述分析变异检测结果的方法。由此，通过执行本发明的存储介质，可以准确地预测阳性变异数据中是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

本领域技术人员能够理解的是，前面针对分析变异检测结果的方法所描述的特征和优点，同样适用于该可执行的存储介质，在此不再赘述。

电子设备

在本发明的又一方面，本发明提出了一种电子设备。根据本发明的实施例，所述电子设备包括：前面所述可执行的存储介质；所述处理器，用于执行所述计算机程序以实现前面所述分析变异检测结果的方法。由此，通过实施本发明的电子设备，可以准确地预测阳性变异数据中是否为假阳性，同时还可以确定变异的基因型，有助于更快和精准的定位到可能的变异，并减少正交实验的成本和周转时间。

本领域技术人员能够理解的是，前面针对分析变异检测结果的方法和可执行的存储介质所描述的特征和优点，同样适用于该电子设备，在此不再赘述。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

1、获取临床5190名患者的WES数据，利用GATK软件对数据与人类基因组hg19进行比对、变异检测、注释和过滤，得到VCF文件；

2、VCF文件经过标准临床解读流程，分析得到可能致病的7375个变异；

3、对上述7375个变异数进行正交实验验证(具体可参考Sanger F.DNA sequencing with chain-terminating inhibitors.1977[J].Biotechnology(Reading,Mass.),24:104-108)，确定这些变异包含5241个变异类型SNV和2134个变异类型INDEL。SNV中基因型Het为3226个，Hom为63个，阴性变异为1952个；Indel中基因型Het为1606个，Hom为138个，阴性变异为390个；

4、将上步数据分为训练集和测试集(3：1)，训练集分别建立随机森林分类模型，对训练集中所有的特征作为候选特征，然后进行主成份分析，最终确定了表2中列出的9种特征。

表2不同变异类型SNV和INDEL建立随机森林分类模型中的特征重要性

SNV和INDEL模型的测试集准确率分别为94.8％与93.8％，其中不同基因型的准确率如表3。

表3不同变异类型SNV和INDEL建立随机森林分类模型中的不同基因型的准确率

考虑到临床数据需要的准确性，本方法对测试集通过划定不同的阈值(随机森林结果的置信度)得到不同准确性和正交实验比例(表4)，其中的准确率是指判断正确的数量/满足阈值的总数，正交实验比例是指低于阈值的数量/总体测试样本数量。选择在满足足够准确率的情况下，选择尽可能小的正交实验比例的阈值作为目标阈值，最终确定阈值为0.95，并且处于一个可伸缩的范围±0.05。以上结果显示，本方法对噪音数据、数据冗余和低质量数据都有一定的容忍性，有很好的鲁棒性。

表4不同变异类型SNV和INDEL建立随机森林分类模型中的不同阈值与需要正交实验的比例

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种用于分析变异检测结果的模型的构建方法，其特征在于，包括：

获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集；

分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征；

利用上步得到的特征结果构建模型；

其中，所述特征包括下列的至少之一：

AD0值：变异位点基因型中第一个等位基因的深度；

AD1值：变异位点基因型中第二个等位基因的深度；

AF0值：变异位点基因型中第一个等位基因的频率；

AF1值：变异位点基因型中第二个等位基因的频率；

GT值：单个数值；

DP值：测序深度值；

GQ值：变异位点基因型的质量值；

MQ值：变异位点映射的质量；

QUAL值：变异位点可能性的质量值。
根据权利要求1所述的方法，其特征在于，所述明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集是通过下列方法获得的：

获取测序数据集；

利用GATK软件对所述测序数据集与参考数据进行比对处理，获得候选阳性变异数据集；

对所述候选阳性变异数据集进行分析处理，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
根据权利要求2所述的方法，其特征在于，所述参考序列选自人类基因组hg19。
根据权利要求2所述的方法，其特征在于，所述分析处理包括：

将所述候选阳性变异数据集进行标准临床解读，获取可能致病的变异数据集；

对所述可能致病的变异数据集进行正交试验分析，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集，其中，所述阳性测序数据集包括SNV变异类型数据集和INDEL变异类型数据集，所述SNV变异类型数据集和INDEL变异类型数据集分别包括纯合基因型数据集和杂合基因型数据集。
根据权利要求1所述的方法，其特征在于，所述模型选自随机森林分类模型，阈值为0.95±0.05。
一种分析变异检测结果的方法，其特征在于，包括：

获取候选阳性变异数据集；

利用权利要求1～5任一项所述用于分析变异检测结果的模型的构建方法获得的机器学习模型对所述候选阳性变异数据集进行分析，以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性和/或变异位点的基因型。
根据权利要求6所述的方法，其特征在于，所述候选阳性变异数据集是通过下列方式获得的：

获取测序数据集；

利用GATK软件对所述测序数据集与参考数据进行比对处理，获得所述候选阳性变异数据集。
根据权利要求6所述的方法，其特征在于，所述模型选自随机森林分类模型，当所述候选阳性变异数据的置信度低于所述模型的阈值时，将所述候选阳性变异数据进行正交试验分析，以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性。
一种用于分析变异检测结果的模型的构建装置，其特征在于，包括：

获取模块，所述获取模块适于获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集；

提取模块，所述提取模块适于分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征；

构建模块，所述构建模块适于利用所述提取模块获得的特征结果构建模型；

其中，所述特征包括下列的至少之一：

AD0值：变异位点基因型中第一个等位基因的深度；

AD1值：变异位点基因型中第二个等位基因的深度；

AF0值：变异位点基因型中第一个等位基因的频率；

AF1值：变异位点基因型中第二个等位基因的频率；

GT值：单个数值；

DP值：测序深度值；

GQ值：变异位点基因型的质量值；

MQ值：变异位点映射的质量；

QUAL值：变异位点可能性的质量值。
根据权利要求9所述的装置，其特征在于，所述获取模块包括：

获取测序数据集模块，所述获取测序数据集模块适于获取测序数据集；

对比处理模块，所述对比处理模块适于利用GATK软件对所述测序数据集与参考数据进行比对处理，获得候选阳性变异数据集；

分析处理模块，所述分析处理模块适于对所述候选阳性变异数据集进行分析处理，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
根据权利要求10所述的装置，其特征在于，所述分析处理模块包括：

标准临床解读模块，所述标准临床解读模块适于将所述阳性变异数据进行标准临床解读，获取可能致病的变异数据；

正交试验分析模块，所述正交试验分析子模块适于对所述可能致病的变异数据进行正交试验分析，获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
一种可执行的存储介质，其特征在于，所述存储介质存储有计算机程序指令，所述计算机程序指令在处理器上运行时，使所述处理器执行如权利要求6-8任一项所述分析变异检测结果的方法。
一种电子设备，其特征在于，包括：

权利要求12所述可执行的存储介质；

所述处理器，用于执行所述计算机程序以实现如权利要求6-8任一项所述分析变异检测结果的方法。