WO2021248694A1

WO2021248694A1 - 患者样本数据中结构变异的报告解读方法及系统

Info

Publication number: WO2021248694A1
Application number: PCT/CN2020/111132
Authority: WO
Inventors: 马旭; 蔡瑞琨; 曹宗富; 喻浴飞; 陈翠霞
Original assignee: 国家卫生健康委科学技术研究所
Priority date: 2020-06-11
Filing date: 2020-08-25
Publication date: 2021-12-16
Also published as: CN111883223A; CN111883223B

Abstract

一种患者样本数据中结构变异的报告解读方法及系统，能够对患者的样本数据准确解读，在降低报告解读门槛的同时提升了解读效率。方法包括：获取患者的待测样本数据；将基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，根据注释结果得到每个结构变异的致病性分级；根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告。

Description

患者样本数据中结构变异的报告解读方法及系统

技术领域

本发明涉及医学信息技术领域，尤其涉及一种患者样本数据中结构变异的报告解读方法及系统。

背景技术

新一代测序技术在疾病的致病突变研究和医疗实践中的应用越来越广泛。近年来，大量的研究证实，全基因组测序和全外显子测序是开展疾病基因组学相关研究，对患者进行致病突变鉴定和分子诊断的理想方法之一。

然而，在精准医学应用层面，基于新一代测序技术在数据分析和临床解读方面还存在着很多问题，不利于精准医学的发展，阻碍着基于新一代测序技术中结构变异相关疾病的病因学探究。这些问题包括：一是结构变异的识别，其分析流程过于复杂，难以为医疗机构人员和其他广大非生物信息学人员所掌握使用；二是致病突变的鉴定，需利用大量的人工对筛选的结构变异进行逐个检查确认，效率非常低。

发明内容

本发明的目的在于提供一种患者样本数据中结构变异的报告解读方法及系统，能够对患者的样本数据准确解读，在降低报告解读门槛的同时提升了解读效率。

为了实现上述目的，本发明的一方面提供一种患者样本数据中结构变异的报告解读方法，包括：

获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；

基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。

优选地，参考基线的构建方法包括：

获取与待测样本数据同批次的多个表型正常的人群基因序列；

若人群基因序列属于全基因组测序数据，则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线；

若人群基因序列属于全外显子测序数据，则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。

较佳地，对结构变异进行注释，同时根据注释结果得到结构变异致病性分级的方法包括：

采用AnnotSV软件分别对每个结构变异进行注释，注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种；

根据所述注释结果对结构变异进行致病性分级，所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。

优选地，根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括：

根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因；

根据所述特征集合I中的临床特征，遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合；

采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值；

匹配输出与多个显著性值对应的第二疾病基因；

汇总第一疾病基因和第二疾病基因，构建基因推荐列表。

优选地，在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值之前还包括：

从疾病的公共数据库和文献数据库，获得已知的标准疾病名称及其对应的标准临床特征；

基于已知的标准疾病及其对应的标准临床特征，建立标准疾病名称与标准临床特征的特征关系数据库；

分别计算每种疾病对应的各标准临床特征对该疾病的贡献度c _i；

从特征关系数据库中获取数据，基于HPO构建疾病的标准化临床特征表型树；

所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

较佳地，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称的方法包括：

将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

令n＝n+1重新遍历特征关系数据库中的第n个标准疾病名称，直至特征关系数据库中的标准疾病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总，并按照相似度值大小降序推荐多个标准疾病名称。

进一步地，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

所述特征集合I包括多个临床特征，所述特征集合A包括多个标准临床特征；

遍历所述特征集合I中的第i个临床特征，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征，作为与所述第i个临床特征对应的最佳标准临床特征，所述i的初始值为1；

令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

进一步地，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点B _t，所述j的初始值为1；

若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

令j＝j+1后重新遍历所述特征集合A中的第j个标准临床特征，并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算，直至所述特征集合A中的标准临床特征遍历完毕，对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值；

从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

优选地，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括：

采用公式

分别计算每个结构变异的重要性程度评分，其中，f为影响要素的数量，w _i为第i各影响要素的权重，s _i为第i各影响要素的赋值；

统计各结构变异的重要性程度评分，并按照分值大小降序输出对应的结构变异。

与现有技术相比，本发明提供的患者样本数据中结构变异的报告解读方法具有以下有益效果：

本发明提供的患者样本数据中结构变异的报告解读方法中，首先需要获取一份包括基因序列、疾病名称和特征集合I的待测样本数据，通过将基因序列与参考基线比对，检测出待测样本数据中的结构变异并进行注释，然后根据注释结果对每个结构变异进行致病性分级并评分，接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表，另外，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称，最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输出生成解读报告。

可见，由于影响要素包括了与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种，也即本发明从多个维度评价了结构变异的致病性，进而能够对患者的待测样本进行准确解读。而且本发明提供的患者样本数据中结构变异的报告解读方法能够实现从待测样本数据到致病结构变异推荐的全程自动化，极大降低了人工对结构变异数据的解读分析工作量，提高了结构变异的分析和临床解读的效率。

本发明的另一方面提供一种患者样本数据中结构变异的报告解读系统，包括：

输入单元，用于获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

注释单元，用于将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

推荐列表生成单元，用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

疾病名称推荐单元，用于遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；

报告输出单元，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。

与现有技术相比，本发明提供的患者样本数据中结构变异的报告解读系统的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，例如是非易失性计算机可读存储介质，其中计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器运行时执行上述患者样本数据中结构变异的报告解读方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为实施例一中患者样本数据中结构变异的报告解读方法的流程示意图；

图2为实施例一中标准化临床特征表型树上的节点标记示例图；

图3为实施例二中患者样本数据中结构变异的报告解读系统的结构框图；

图4为实施例四中患者样本数据中结构变异的报告解读方法应用环境架构示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种患者样本数据中结构变异的报告解读方法，其特征在于，包括：

获取患者的待测样本数据，待检测样本数据包括基因序列、疾病名称和特征集合I；将基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，影响要素包括与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。

本实施例提供的患者样本数据中结构变异的报告解读方法中，首先需要获取一份包括基因序列、疾病名称和特征集合I的待测样本数据，通过将基因序列与参考基线比对，检测出待测样本数据中的结构变异并进行注释，然后根据注释结果对每个结构变异进行致病性分级并评分，接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表，另外，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称，最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输出生成解读报告。

可见，由于影响要素包括了与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种，也即本实施例从多个维度评价了结构变异的致病性，进而能够对患者的待测样本进行准确解读。而且本实施例提供的患者样本数据中结构变异的报告解读能够实现从待测样本数据到致病结构变异推荐的全程自动化，极大降低了人工对结构变异数据的解读分析工作量，提高了结构变异的分析和临床解读的效率。

在将基因序列与参考基线比对之前，还需对待测样本数据的基因序列和表型正常人群基因序列的质量进行检查，确保使用的基因序列的质量是合格的，能够用于下游分析和解读。质量检查的指标包括：总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K-mer含量等。

具体实施时，针对待测样本数据的基因序列和表型正常人群基因序列进行质量检测，对质量检测不合格的基因序列进行标记；将质量检测合格的待测样本数据的基因序列和表型正常人群基因序列输入BWA软件，使其与人类参考基因hg19或人类参考基因hg38进行序列比对；对比对结果进行预处理，如去重、indel区域校正、碱基质量校正等操作后得到比对数据；比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体上的比对位置、插入片段长度、序列的碱基组成或序列质量。

具体实施时，采用Picard MarkDuplicates软件对比对结果进行去重；对indel区域校正的方法为利用GATK RealignerTargetCreator软件产生indel列表，并追加千人基因组数据库中发现的已知indel位点，利用GATK IndelRealigner对这些indel区域进行局部重新比对，以实现indel区域的校正；碱基质量校正的方法为使用GATK BaseRecalibrator软件结合已知位点信息对碱基的质量分数进行校正。

这些操作步骤完成后，可针对比对数据进行汇总性分析，汇总性分析的内容包括比对数据的质量，以及双端测序的原始读序数目、比对到人类参考基因组上的读序数目、平均读序长度、indel的比例、正负链是否平衡等信息。另外，此阶段还可对靶向区域的序列覆盖情况进行观察，以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。

最终将待测样本数据的基因序列和每个表型正常人群基因序列的质量检查结果分别以bam格式的数据输出，用于后续分析使用。

上述实施例中，参考基线的构建方法包括：获取与待测样本数据同批次的多个表型正常的人群基因序列；若人群基因序列属于全基因组测序数据，则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线；若人群基因序列属于全外显子测序数据，则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。

待测样本数据中的结构变异识别过程如下，分别计算待测样本的目的区域内和目的区域外的测序深度，然后计算它们相对于参考基线的相对比值，接着将相对比值转换成绝对拷贝数，对于绝对拷贝数不是2的识别为结构变异。同理，若待测样本数据为全基因组测序数据可通过CNVKit软件识别出结构变异，对于待测样本数据为全外显子测序数据可通过ExomeDepth软件识别出结构变异。

具体实施时，将输入的基因序列与待检测样本同批次的多个表型正常的人群基因序列对照，建立一个参考基线。具体地，分别计算每个表型正常人群基因序列的目的区域内和目的区域外的测序深度，合并所有对照样本，矫正GC含量等系统误差，构建表型正常人群基因序列的基参考基线，对于全基因组测序数据采用CNVKit软件实现，对于全外显子测序数据采用ExomeDepth软件实现。采用同批次的多个表型正常人群基因序列建立参考基线能够减小因系统误差造成的比对结果偏差。

上述实施例中，对结构变异进行注释，同时根据注释结果得到结构变异致病性分级的方法包括：

采用AnnotSV软件分别对每个结构变异进行注释，注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种；根据注释结果对结构变异进行致病性分级，致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。

上述实施例中对于识别的结构变异，可根据公共数据库对变异起始/终止位置、所覆盖的基因、变异类型、在世界范围内的人群发生频率、以及DGV数据库、千人数据库、dbVar数据库和OMIM数据库中已知变异的致病情况等采用AnnotSV软件进行注释，该软件使用了美国医学遗传学和基因组学学院(ACMG)定义的分类标准进行致病性分级，具体致病性分级的操作步骤为本领域技术人员所熟知的，本实施例对此不做赘述。

上述实施例中，根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括：

根据疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因；根据特征集合I中的临床特征，遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合；采用临床特征富集度分析算法计算特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值；匹配输出与多个显著性值对应的第二疾病基因；汇总第一疾病基因和第二疾病基因，构建基因推荐列表。

具体实施时，基因推荐列表中的基因数据来源有两种，一种为根据公共数据库和文献数据库中的疾病-基因关联数据库，抓取与待测样本数据中疾病名称相关的第一疾病基因；另一种为根据特征集合I中的临床特征，遍历公共数据库和文献数据库中的疾病-基因关联数据库，获取全部的疾病名称，每种疾病对应的临床特征组成一个标准集合；统计标准集合的数量X，并顺序对各标准集合标记。然后采用临床特征富集度分析算法计算特征集合 I分别与各标准集合的显著性值；具体算法如下：

步骤S1，从X个标准集合中选择第Y个标准集合作为待处理集合B，设置Y的初始值为1；

步骤S2，采用Jaccard相似性算法计算待处理集合B与特征集合I的相似性系数；

步骤S3，基于所述相似性系数采用Jaccard距离算法计算特征集合I与待处理集合B的距离向量；

步骤S4，利用算法

计算特征集合I与集合B的临床特征富集因子系数f，其中，a表示特征集合I包含在集合B中的临床特征数目，b表示疾病-基因关联数据库中的临床特征包含在集合B中的临床特征数目，c表示特征集合I不包含在集合B中的临床特征数目，d表示疾病-基因关联数据库中的临床特征不包含在集合B中的临床特征数目；

步骤S5，基于所述距离向量的值和所述临床特征富集因子系数f，对待处理集合B做过滤处理，使得未被清除的待处理集合B执行步骤S6；

步骤S6，利用算法

计算特征集合I与集合B的显著性值，其中n＝a+b+c+d；

步骤S67，当Y＜X时，令Y＝Y+1，并返回步骤S1，直至X个标准集合全部被选择处理为止；

具体实施时，为了简化运算可采用表格法来辅助显著性值的计算，其中，a表示特征集合I包含在集合B中的临床特征数目，b表示疾病-基因关联数据库中的临床特征包含在集合B中的临床特征数目，c表示特征集合I不包含在集合B中的临床特征数目，d表示疾病-基因关联数据库中的临床特征不包含在集合B中的临床特征数目；其中，Jaccard相似性系数是用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数，对应的计算公式为

Jaccard距离算法为

其中，|A|表示特征集合I中的临床特征数目，|B|表示集合B中的临床特征数目，|A∩B|表示特征集合I和集合B交集中的临床特征数目，|A∪B|表示特征集合I和集合B并集中的临床特征数目。J(A,B)取值范围为[0,1]，距离向量的值越小，则表示两个集合越相似，若特征集合I和集合B的集合均为空，则J(A,B)＝1。最终获取到特征集合I与各标准集合的显著性值P，而显著性值P越小则说明两个集合的相似性越大。

示例性地，步骤S5包括：当距离向量的值小于第一阈值，且临床特征富集因子系数f 的值大于第二阈值时，将该集合B保留，否则将该待处理集合B剔除。其中，第一阈值和第二阈值可由用户自由设定，默认的第一阈值为1，第二阈值为0。

最后，将多个显著性值由低到高排序，并将匹配的第二疾病基因顺序输出，显著性值越小则说明对应的第二疾病基因越符合特征集合I中表现的临床特征。

示例性地，公共数据库为MedGen数据库，文献数据库为PubMed数据库。

上述实施例中，在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值之前还包括：

从疾病的公共数据库和文献数据库中，获得已知的标准疾病名称及其对应的标准临床特征；基于已知的标准疾病及其对应的标准临床特征，建立标准疾病名称与标准临床特征的特征关系数据库；分别计算每种疾病对应的各标准临床特征对该疾病的贡献度c _i；从特征关系数据库中获取数据，基于HPO构建疾病的标准化临床特征表型树；标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

具体实施时，每种疾病名称对应的各标准临床特征对该疾病的贡献度c _i的计算方法如下：

在特征关系数据库中，假设共有a种标准临床特征，a种标准临床特征在特征关系数据库中一共出现N次，假定每种标准临床特征出现的次数为a _i，则每个标准临床特征在特征关系数据库中出现的频率为f _i，f _i的计算公式为：

f _i＝a _i/N；

对于特征关系数据库中的某种标准疾病名称，假定对应有m个标准临床特征，每个标准临床特征在特征关系数据库中的分布频率依次为f ₁、f ₂、……、f _m，则某个标准临床特征对该疾病的贡献度c _i的计算公式为：

上述公式中，k为校正因子，且k＞1，特征关系数据库作为参考数据库使用。

进一步地，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称的方法包括：

将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；令n＝n+1重新遍历特征关系数据库中的第n个标准疾病名称，直至特征关系数据库中的标准疾病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总，并按照相似度值大小降序推荐多个标准疾病名称。

具体地，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

特征集合I包括多个临床特征，特征集合A包括多个标准临床特征；遍历特征集合I中的第i个临床特征，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征，作为与第i个临床特征对应的最佳标准临床特征，i的初始值为1；令i＝i+1后重新遍历特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

其中，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征的方法包括：

遍历特征集合A中的第j个标准临床特征，基于已建立的索引判断第j个标准临床特征与第i个临床特征是否存在相同的干节点B _t，j的初始值为1；若判断结果为否，则认为第j个标准临床特征与第i个临床特征的相似度值为零；若判断结果为是，基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值；令j＝j+1后重新遍历特征集合A中的第j个标准临床特征，并继续执行第j个标准临床特征与第i个临床特征的相似度计算，直至特征集合A中的标准临床特征遍历完毕，对应得到与特征集合A中标准临床特征一一对应的多个相似度值；从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

上述实施例中基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值的方法包括：

基于标准化临床特征表型树上的节点标记，获取第i个临床特征与相同干节点B _t连接通路中所有节点的有向集合IB，以及获取第j个标准临床特征相同干节点B _t连接通路中所有节点的有向集合AB，有向集合IB长度的值为通路中节点的个数L _IB，有向集合AB长度的值为通路中节点的个数L _AB；提取有向集合IB和有向集合AB中节点的交集IAB，交集IAB长度的值为通路中共有节点的个数L _IAB；采用公式

计算第j个标准临床特征与第i个临床特征的相似度值；

其中，SM表示第j个标准临床特征与第i个临床特征在表型树多层次间的相似度值；SI表示第j个标准临床特征与第i个临床特征在表型树同层次间的相似度值，β为权重系数。

具体实施时，对于特征关系数据库中某一标疾病名称对应的特征集合A有n个元素A _j组成，分别为A ₁、A ₂、……、A _n，也即A＝[A ₁，A ₂，...,A _j...,A _n]，特征关系数据库中的每一个标准疾病名称均对应一个集合A。假若某一疾病患者输入的标准化特征集合I，有m个临床特征I _i组成，对应的特征集合I＝[I ₁、I ₂、……、I _m]。如果I _i与A _j的干节点不相同，则认为I _i与A _j的相似度为0，如果I _i与A _j的干节点相同，如图2所示，相同的干节点为B _t，则计算I _i与A _j的相似度，计算方法为：I _i到B _t之间连接通路中的所有节点组成有向集合IB，有向集合IB的元素个数记为N _IB，有向集合IB的长度定义为该通路上节点的个数，记为L _IB，且L _IB＝N _IB；

A _j到B _t之间连接通路中的所有节点组成有向集合AB，有向集合AB的元素个数记为N _AB，有向集合AB的长度定义为该通路上节点的个数，记为L _AB，且L _AB＝N _AB；

有向集合IB和有向集合AB的交集集合记为IAB，交集集合IAB的元素个数记为N _IAB，集合IAB的长度定义为共有路径上节点的个数，记为L _IAB，则L _IAB＝N _IAB，其中，SM＝L _IAB/max(L _AB,L _IB)，SI＝1/(L _AB+L _IB-2L _IAB+1)，β为权重系数，β∈(0,1)；I _i与A _j之间的相似度的取值范围

进一步地，计算特征集合I与当前特征集合A的集合相似度值的方法包括：

利用第i个临床特征的贡献度c _i，对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理；令i＝i+1，重新对特征集合A中与第i个临床特征对应的最佳标准临床特征的最大相似度值进行加权处理，直至将特征集合A中筛选出的全部最佳标准临床特征加权处理完毕，累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值，得到特征集合I与当前特征集合A的集合相似度值。

具体实施时，对于每个输入的临床特征I _i，都可以在特征集合A中找到一个与之对应相似度最大的标准临床特征A _j，也就是说每个临床特征I _i都会得到一个与特征集合A的相似度值，特征集合I和特征集合A的相似度，定义为特征集合I中的每个临床特征I _i与特征集合A的相似度之和。

考虑到每个临床特征对疾病的贡献程度不一，需对相应的最大相似度值进行加权处理，其计算公式为

其中

表示临床特征I _i与特征集合A的相似度值。特征集合I和特征集合A的相似度值，定义为特征集合I中每个临床特征I _i与特征集合A 的相似度之和，其计算公式为

S _IA表示特征集合I与特征集合A的相似度值。

可见，上述实施例采用多层级结构相似度算法具有标准疾病名称推荐准确度高的特点。

上述实施例中，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括：

采用公式

分别计算每个结构变异的重要性程度评分，其中，f为影响要素的数量，w _i为第i各影响要素的权重，s _i为第i各影响要素的赋值；统计各结构变异的重要性程度评分，并按照分值大小降序输出对应的结构变异。

致病性分级s _c的评分项设置如下：对于致病或可能致病的等级赋值5分，对于致病或可能致病但注释结果也包含良性注释的等级赋值3分，对于除上述两种情况之外的其他情况赋值0分，w _c默认值为1，可根据实际情况进行调整。

疾病名称与注释结果中疾病名称一致性情况s _d的评分项设置如下：疾病名称与注释结果中的疾病名称一致赋值5分，疾病名称与注释结果中的疾病名称不一致赋值0分，w _d默认值为1，可根据实际情况进行调整。

注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因s _e的评分项设置如下：注释结果中结构变异包含的基因属于基因推荐列表中存在的已知致病基因赋值10分，注释结果中结构变异包含的基因不属于基因推荐列表中存在的已知致病基因赋值0分，w _e默认值为1，可根据实际情况进行调整。

特征集合I与特征集合A的最大相似度值为s _h，w _h默认值为5，可根据实际情况进行调整。

人群发生频率s _p的评分项设置如下：当人群中的最大频率MAX_AF小于或等于10 ^-3或者无消息时赋值2分，当人群中的最大频率处于0.05至10 ^-3时赋值0分，当人群发生频率大于0.05时赋值-5分，w _p默认值为1，可根据实际情况进行调整。

变异发生位置s _q的评分项设置如下：如果结构变异区域包含蛋白质编码区域或其他重要功能原件(如剪切位点调控区)赋值0分，否则赋值-2分，w _q默认值为1，可根据实际情况进行调整。

评分结果的值越大则说明重要性程度越高，最后根据评分结果的大小将多个结构变异及其对应的基因名称在解读报告中降序输出，实现致病变异的推荐，推荐的信息还包括了结构变异的位置、覆盖的基因名称、外显子、评分结果、染色体水平上突变的位置图，以及相关的表型信息和变异频率信息等。

实施例二

请参阅图3，本实施例提供一种患者样本数据中结构变异的报告解读系统，包括：

在一个实施例中，上述的患者样本数据中结构变异的报告解读系统应用于计算机设备，该计算机设备包括通过系统总线连接的处理器和存储器。其中，该患者样本数据中结构变异的报告解读系统的处理器用于提供计算和控制能力。该患者样本数据中结构变异的报告解读系统的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该患者样本数据中结构变异的报告解读系统的网络接口用于与外部的传感器通信。该计算机可读指令被处理器执行时以实现上述的患者样本数据中结构变异的报告解读方法的步骤，例如是以上述的输入单元、注释单元、推荐列表生成单元、疾病名称推荐单元以及报告输出单元实现上述患者样本数据中结构变异的报告解读方法的步骤。

与现有技术相比，本实施例提供的患者样本数据中结构变异的报告解读系统的有益效果与上述实施例一提供的患者样本数据中结构变异的报告解读方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，例如是非易失性计算机可读存储介质，其中计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器运行时执行上述患者样本数据中结构变异的报告解读方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法的有益效果相同，在此不做赘述。

实施例四

基于上述实施例，请参阅图4所示，提供一种应用场景的环境架构示意图。

可以开发一个应用软件，用于实现上述实施例中的患者样本数据中结构变异的报告解读方法，并且，该应用软件可以安装在用户终端，用户终端与服务器连接，实现通信。

其中，用户终端可以为计算机、平板电脑等任何智能设备，本实施例仅以电脑为例进行说明。

例如，打开智能设备相关的应用程序，用户使用输入单元如键盘、鼠标等输入获取患者的待测样本数据，其中，待测样本数据包括基因序列、疾病名称和特征集合I，实现在应用程序中待测样本数据的输入，用户终端中的应用程序将基因序列发送至注释单元，将疾病名称和特征集合I发送至推荐列表生成单元，将特征集合I发送至疾病名称推荐单元，其中，注释单元、推荐列表生成单元和疾病名称推荐单元均可通过服务器实现，最后由报告输出单元如显示器，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而该程序的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种患者样本数据中结构变异的报告解读方法，包括：

获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；以及

基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
根据权利要求1所述的方法，其中，参考基线的构建方法包括：

获取与待测样本数据同批次的多个表型正常的人群基因序列；

若人群基因序列属于全基因组测序数据，则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线；以及

若人群基因序列属于全外显子测序数据，则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。
根据权利要求1或2所述的方法，其中，对结构变异进行注释，同时根据注释结果得到结构变异致病性分级的方法包括：

采用AnnotSV软件分别对每个结构变异进行注释，注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种；以及

根据所述注释结果对结构变异进行致病性分级，所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。
根据权利要求1至3任一所述的方法，其中，根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括：

根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因；

根据所述特征集合I中的临床特征，遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合；

采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值；

匹配输出与多个显著性值对应的第二疾病基因；以及

汇总第一疾病基因和第二疾病基因，构建基因推荐列表。
根据权利要求1至4任一所述的方法，其中，在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值之前还包括：

从疾病的公共数据库和文献数据库，获得已知的标准疾病名称及其对应的标准临床特征；

基于已知的标准疾病及其对应的标准临床特征，建立标准疾病名称与标准临床特征的特征关系数据库；

分别计算每种疾病对应的各标准临床特征对该疾病的贡献度c _i；以及

从特征关系数据库中获取数据，基于HPO构建疾病的标准化临床特征表型树；

其中所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。
根据权利要求5所述的方法，其中，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称的方法包括：

将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；以及

令n＝n+1重新遍历特征关系数据库中的第n个标准疾病名称，直至特征关系数据库中的标准疾病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总，并按照相似度值大小降序推荐多个标准疾病名称。
根据权利要求6所述的方法，其中，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

所述特征集合I包括多个临床特征，所述特征集合A包括多个标准临床特征；

遍历所述特征集合I中的第i个临床特征，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征，作为与所述第i个临床特征对应的最佳标准临床特征，所述i的初始值为1；以及

令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
根据权利要求7所述的方法，其中，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点B _t，所述j的初始值为1；

若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

令j＝j+1后重新遍历所述特征集合A中的第j个标准临床特征，并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算，直至所述特征集合A中的标准临床特征遍历完毕，对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值；以及

从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
根据权利要求1至8任一所述的方法，其中，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括：

采用公式
分别计算每个结构变异的重要性程度评分，其中，f为影响要素的数量，w _i为第i各影响要素的权重，s _i为第i各影响要素的赋值；

统计各结构变异的重要性程度评分，并按照分值大小降序输出对应的结构变异。
一种患者样本数据中结构变异的报告解读系统，包括：

输入单元，用于获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

注释单元，用于将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

推荐列表生成单元，用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

疾病名称推荐单元，用于遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；以及

报告输出单元，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种。
一种非易失性计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器运行时执行上述权利要求1至9任一项所述方法的步骤。
一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，其中当所述计算机可读指令被处理器执行时，使得所述一个或多个处理器执行如权利要求1至9任一项所述方法的步骤。