WO2023185559A1

WO2023185559A1 - 一种用于结构变异检测的方法、装置和存储介质

Info

Publication number: WO2023185559A1
Application number: PCT/CN2023/082917
Authority: WO
Inventors: 刘涛; 何俊义; 苏亚男; 李敏; 吴永鑫
Original assignee: 深圳吉因加医学检验实验室
Priority date: 2022-03-28
Filing date: 2023-03-21
Publication date: 2023-10-05
Also published as: CN114743594A; CN114743594B

Abstract

本申请公开了一种用于结构变异检测的方法、装置和存储介质。本申请方法包括，获取比对文件，从比对文件中按照设定长度提取区间内reads，将异常reads分成DP信号、SR信号和SU信号；对DP信号进行聚类，每个簇作为一结构变异候选，对每个簇进行局部组装和重比对；从SR信号中寻找嵌合比对，进行组装和重比对；对两个重比对结果进行融合断点左右两侧突变深度计算、结构变异类型识别。本申请方法利用DP信号聚类和组装重比对，降低簇内假阳性信号；利用SR信号分析进行补充，使整体结果检出率和精度更高。本申请方法可识别缺失、倒位、重复、染色体内易位、染色体间易位等结构变异，并提供断点附近微同源序列和短模板序列输出。

Description

一种用于结构变异检测的方法、装置和存储介质

技术领域

本申请涉及生物信息学技术领域，特别是涉及一种用于结构变异检测的方法、装置和存储介质。

背景技术

结构变异(Structural Variation,SV)包括基因组内部的缺失、插入、倒位、重复、易位，以及这些简单类型组成的复杂结构变异。基于二代测序(the Next-generation Sequence technology)数据的结构变异检测方法研究经过十多年的发展，已越来越趋于成熟，但有一些难题仍然无法彻底攻克；这其中就包括精确断点、较大尺寸及染色体间结构变异的识别问题等。经过近几年生物信息领域的飞速发展，针对这些问题的各种检测方法也被广泛提出，例如改用三代长读长方法、改用其他识别逻辑或更为精确的测序数据等，这些方法的共同点是从另外的角度切入以避开短读长和短插入片段带来的局限性问题；并没有真正解决基于二代测序数据的结构变异检测存在的问题。所以，目前基于二代测序的传统检测算法，仍然没有能够适应较广的方法。

各种癌症一直是医学界难以攻克的难题，近年来生物信息技术的发展，使我们能够从基因层面了解各癌种的序列及作用原理。癌症一般伴随着基因序列的改变，所以结构变异的精确识别，特别是发生在大型结构变异以及高重复区域的变异，是攻克癌症难关的一个重要基础。而目前的检测方法虽然众多，但在检测较大型结构变异的策略上不够灵敏，且二代测序的固有特点给识别这些变异带来了诸多困难。

测序技术的发展虽然极大地促进了检测方法的发展，但仍然存在一些至今都没有很好解决办法的难题。例如，测序结果中N序列的存在、测序错误、高重复区域等使得结构变异检测的难度大大增加。基于二代测序的检测方法局限性一是在于测序read的长度，二是模板的长度；许多方法受到这些限制而只能检测模板长度以内的变异，往往在几百bp以内，更大的变异则需从头组装等消耗资源巨大的策略，而组装结果的多样性也使这些方法难以确定序列原始内容。另外一个比较难以解决的问题是测序深度，全基因组测序的深度一般在100×以内，这样的深度无法保证聚簇型方法的准确性。

基于二代测序的结构变异检测一般基于以下几种策略：基于双端比对信息的方法(Paired End Mapping，PEM，又称DP)、基于剪切读数的方法(Split Read， SR)、基于深度策略的方法(Depth of Coverage，DoC)以及基于组装的方法(Assembly)。目前主流的几种检测方法大多都基于其中一种或几种策略的结合。例如检测融合断点时，许多方法都采用聚类SR信号的策略，例如BreakSeek，一种基于贝叶斯模型的Indel断点检测算法，深度高则迭代时间较长，深度低则精确性受到较大影响。

传统的基于二代测序的结构变异检测方法最大的缺陷便是识别大型乃至超大型结构变异的表现较差，大多数方法只能检测几千bp以内的结构变异，其中超过insert size尺寸的结构变异检测能力变差。例如基于深度差异的检测方法inGap-sv，通过DP、SR和SU及正常read pair数量来识别结构变异，并用深度信息对结果进行校正，无法识别较为复杂或者跨染色体的结构变异；manta、SV-aba这类组装类方法，难以在高重复区域发挥作用，且耗时较长；Pindel、Delly等经典方法在检测小indel有较好的效果，一旦检测超出模板片段长度的结构变异，则表现不佳。另外一个传统方法较为难以攻克的难题就是，要想获得比较精确的融合断点，一般需要进行聚类或者局部组装，这是一个容易出现差异性的地方。

二代测序技术目前并且在此后可以预料到的很长时间内都仍将占据市场主导位置；因此，如何解决基于二代测序数据难以进行精确断点检测，难以进行较大尺寸及染色体间结构变异识别的问题，仍然是本领域的研究重点和难点。

发明内容

本申请的目的是提供一种新的用于结构变异检测的方法、装置和存储介质。

为了实现上述目的，本申请采用了以下技术方案：

本申请的第一方面公开了一种用于结构变异检测的方法，包括以下步骤：

数据获取步骤，包括获取待测对象二代测序数据的比对文件及其基本信息，基本信息包括insert size均值和标准差、insert size max、reads长度；

信号分类步骤，包括从比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，SR信号是指发生软剪切的reads，SU信号是指read pair中只有一条匹配到参考序列的reads；

DP信号聚类分析步骤，包括对信号分类步骤获得的DP信号进行聚类，将位置相近、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选；其中，位置相近，即距离在insert size max范围内，也就是在正常insert size范围内；

融合断点分析步骤，包括从DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

其中，从每个簇的insert size max范围内提取SR信号和SU信号，主要是考虑，在DP聚类结果中会记录每一簇初步分析的断点信息，如果簇中有SR信号开头或者结尾，则将其置为left或者right断点，如果不存在SR信号，则将DP簇的开始和结尾位置作为left和right断点；在提取SR和SU信号阶段，如果DP簇的断点是通过DP簇的左右结尾确定的，则这个方向flank的范围为inert size max-2×read length，可以最大程度保证fetch到SR和SU信号又不至于fetch到冗余信号；如果DP簇的某侧断点是通过SR确定的，则flank置为10bp，原因是在进行SR过滤的时候，小于5bp的SR认为不可信；

SR信号分析步骤，包括从信号分类步骤获得的SR信号中寻找嵌合比对(SA信号)，获得不包含DP信号的变异，在变异发生的区域附近提取相对应得DP信号和SU信号，加入该区域附近对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；获得不包含DP信号的变异，有两层含义，一是获得因序列较短而不包含DP信号的变异，二是其他特殊的不包含DP信号的变异；因为有的短序列突变也包含DP信号，而长序列突变也不一定都包含DP信号，有的突变确实存在一定的特殊性；因此，本申请通过SR信号分析重找回以发现较小和特殊的结构变异；

其中，序列较短是指，突变的序列较短，一般来说认为在insert size均值+3.96×insert size标准差之内的insert size为正常范围，在这些insert size正常的reads pair中也可能包含突变信号，比如read length长度的突变，这种突变可能并没有产生足够多的DP信号，SR信号分析就是为了弥补单DP信号检测的不足，发现一些在insert size max范围内的小型SV；

变异发生的区域附近是指，SR信号已经确定的情况下，SR信号会确定一个区间，在区间两侧flank＝insert size范围内进行fetch，定这个flank的范围是为了找到足够多的异常信号，以保证在左右两侧更大可能性组装出可用的consensus序列；

加入该区域附近对应的参考序列进行组装是指，SR信号已经确定的情况下，SR信号会确定一个区间，在区间两侧flank＝10bp范围内进行fetch reference序列，以增加组装的成功率，即加入SR信号区间及其两侧至少10bp对应的参考序列进行组装；

计算和注释步骤，包括对融合断点分析步骤和SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释；

注释结果合并和输出步骤，包括对计算和注释步骤的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。

需要说明的是，本申请的结构变异检测方法，在提取完异常信号之后，对DP信号进行聚类分析，并对聚类结果进行组装和重比对；然后，在重找回SR信号的部分，关注发生嵌合比对的SR信号，保证了即使是在DP信号较弱或者某些不包含DP信号的特殊变异也能被准确捕捉并进行局部组装；最后在注释部分的微同源序列识别，包含对小片段插入和短序列串联重复的识别，即使是对断点模糊不清的区域，也会给出可能性最大的融合断点，并给出造成断点模糊的碱基序列。此外，本申请的多处并行设计也是一大亮点，特别是在处理较大量数据的步骤的并行，在保证了精确性的同时也保证了运行的效率。本申请的方法识别结构变异精度高、效率高、识别范围广，为结构变异检测提供了一种新的方案和途径。

本申请的一种实现方式中，数据获取步骤中，比对文件为bam文件。

优选的，insert size max为insert size均值+3.96×insert size标准差。

本申请的一种实现方式中，信号分类步骤中，设定长度为75k。

需要说明的是，信号分类步骤的设定长度为75k，该值并非固定不变的；本申请在实践中发现，将染色体区域划分为75kbp的块可以使并行模块很充分的利用计算机资源。该设定长度作为单独提取三种信号的并行处理区间，可由根据需求进行设定，推荐及默认为75kbp。

本申请的一种实现方式中，计算和注释步骤，融合断点左右两侧是指，左断点的左侧和右断点的右侧，分别取左右两侧consensus序列中包含的DP信号、SR信号和SU信号的数量作为alt深度，取左右两侧两个深度中较大的一个作为突变深度，对应区间内DP信号、SR信号、SU信号和正常reads数量作为整体深度。

可以理解，融合断点左右两侧同样并非一个具体的取值范围，其指左断点的左侧和右断点的右侧，这两个区域的长度并不固定，因为它取决于组装结果consensus的长度。本申请的一种实现方式中，分别取左右consensus序列中包含的DP+SR+SU信号数量作为alt深度，取两个深度中较大的一个作为突变深度，对应区间内DP+SR+SU+正常reads数量作为整体深度，这样可以计算出突变频率。

本申请的一种实现方式中，计算和注释步骤，对每一个结果进行注释，具体包括，根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型；如果左右断点不在同一染色体，则为染色体间易位；其中，如果左右序列方向一致则为2型染色体间易位，若不一致则为1型染色体间易位；如果左右断点在同一染色体，且左右序列比对方向一致，则为染色体倒置；若断点1的位置在断点2之前并且断点1为反向比对，或断点1位置在断点2之后且断点2反向比对，则为染色体缺失；其余则为染色体重复。

需要说明的是，本申请中，在排列断点的时候，会根据断点的相对位置来确定左右断点；因此，断点1一定是在断点2左侧的，也就是相对较小的，如果不同染色体的话，染色体号小的在前，大的在后。也就是说，本申请的断点1即左断点，断点2即右断点。

本申请的第二方面公开了一种用于结构变异检测的装置，包括数据获取模块、信号分类模块、DP信号聚类分析模块、融合断点分析模块、SR信号分析模块、计算和注释模块以及注释结果合并和输出模块；具体如下：

数据获取模块，包括用于获取待测对象二代测序数据的比对文件及其基本信息，基本信息包括insert size均值和标准差、insert size max、reads长度；

信号分类模块，包括用于从比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，所述SR信号是指发生软剪切的reads，所述SU信号是指read pair中只有一条匹配到参考序列的reads；

DP信号聚类分析模块，包括用于对信号分类模块获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选；

融合断点分析模块，包括用于从DP信号聚类分析模块获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

SR信号分析模块，包括用于从信号分类模块获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附近，即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入该区域附近，即SR信号区间两侧至少10bp，对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

计算和注释模块，包括用于对融合断点分析模块和SR信号分析模块的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp和左右侧组装片段的比对方向对每一个结果进行注释；

注释结果合并和输出模块，包括用于对计算和注释模块的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。

需要说明的是，本申请用于结构变异检测的装置，实际上就是通过各模块分别实现本申请用于结构变异检测的方法中的各步骤；因此，各模块的具体限定可以参考本申请用于结构变异检测的方法，在此不累述。例如，数据获取模块中的比对文件、insert size max，信号分类模块中的设定长度，以及计算和注释模块中对每一个结果进行注释的方法等，都可以参考本申请用于结构变异检测的方法。

本申请的第三方面公开了一种用于结构变异检测的装置，该装置包括存储器和处理器；存储器包括用于存储程序；处理器包括用于通过执行存储器存储的程序以实现本申请用于结构变异检测的方法。

本申请的第四方面公开了一种计算机可读存储介质，该存储介质中存储有程序，该程序能够被处理器执行以实现本申请用于结构变异检测的方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请用于结构变异检测的方法和装置，利用DP信号聚类，结合后续的局部组装和重比对，有效的降低了簇内假阳性信号，并且可获得结构变异两侧的精确融合断点和断点两侧的碱基序列；再利用SR信号分析，对以DP信号为基础的检测结果进行补充，使整体结果达到更高的检出率和精度。本申请的结构变异检测方法可以识别包括缺失、倒位、重复、染色体内易位、染色体间易位等多种结构变异类型，并提供断点附近的微同源序列和短模板序列输出。

附图说明

图1是本申请实施例中结构变异检测方法的流程框图；

图2是本申请实施例中结构变异检测装置的结构框图；

图3是本申请实施例中DP信号聚簇过程中的左右侧聚簇过程的示意图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他装置、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

传统的基于二代测序的结构变异检测方法最大的缺陷便是识别大型乃至超大型结构变异的表现较差，并且，难以进行精确断点检测。

本申请是一种辅助识别癌症热点融合的方法，接收各种血浆和组织样本的WES或Panel数据，使用基因芯片进行捕获测序。将测序下机数据经过数据预处理获得的bam文件和对应的芯片捕获区间作为输入，芯片捕获区间用于callingSV。芯片捕获区间是各癌种热点突变的区间，区间内的捕获深度可以达到数千乃至万级，可以很好的给出区间内的样本序列信息，同时排除掉检测过程中假阳性序列造成的影响。虽然捕获区间是分析结构变异的重点位置，但为了不漏掉潜在的变异信号和落在区间外的reads序列，本申请仍从全基因组层面对结构变异进行检出和分析。本申请基于目标区间序列重比对以发现热点融合断点，以及断点两侧的热点基因序列，同时在断点两侧最大限度的识别微同源序列及短模板序列插入。

具体的，本申请用于结构变异检测的方法，如图1所示，包括数据获取步骤11、信号分类步骤12、DP信号聚类分析步骤13、融合断点分析步骤14、SR信号分析步骤15、计算和注释步骤16和注释结果合并和输出步骤17。

其中，数据获取步骤11，包括获取待测对象二代测序数据的比对文件及其基本信息，基本信息包括insert size均值和标准差、insert size max、reads长度。比对文件即bam文件，insert size max为insert size均值+3.96×insert size标准差。

信号分类步骤12，包括从比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，SR信号是指发生软剪切的reads，SU信号是指read pair中只有一条匹配到参考序列的reads。例如，从bam文件中按照75k的长度并行提取区间内的reads。

DP信号聚类分析步骤13，包括对信号分类步骤获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选。

融合断点分析步骤14，包括从DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列。

SR信号分析步骤15，包括从信号分类步骤获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附近即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入该区域附近，即SR信号区间两侧至少10bp，对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列。

计算和注释步骤16，包括对融合断点分析步骤和SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp和左右侧组装片段的比对方向对每一个结果进行注释。

具体的，根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型；如果左右断点不在同一染色体，则为染色体间易位；其中，如果左右序列方向一致则为2型染色体间易位，若不一致则为1型染色体间易位；如果左右断点在同一染色体，且左右序列比对方向一致，则为染色体倒置；若断点1的位置在断点2之前并且断点1为反向比对，或断点1位置在断点2之后且断点2反向比对，则为染色体缺失；其余则为染色体重复。

注释结果合并和输出步骤17，包括对计算和注释步骤的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。

本领域技术人员可以理解，上述方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述方法中全部或部分功能。

因此，基于本申请用于结构变异检测的方法，本申请提出了一种用于结构变异检测的装置，如图2所示，包括数据获取模块21、信号分类模块22、DP信号聚类分析模块23、融合断点分析模块24、SR信号分析模块25、计算和注释模块26以及注释结果合并和输出模块27。

其中，数据获取模块21，包括用于获取待测对象二代测序数据的比对文件及其基本信息，基本信息包括insert size均值和标准差、insert size max、reads 长度。例如，比对文件为bam文件，insert size max为insert size均值+3.96×insert size标准差。

信号分类模块22，包括用于从比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，SR信号是指发生软剪切的reads，SU信号是指read pair中只有一条匹配到参考序列的reads。

DP信号聚类分析模块23，包括用于对信号分类模块获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选。

融合断点分析模块24，包括用于从DP信号聚类分析模块获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列。

SR信号分析模块25，包括用于从信号分类模块获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附近，即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入该区域附近，即SR信号区间两侧至少10bp，对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列。

计算和注释模块26，包括用于对融合断点分析模块和SR信号分析模块的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp和左右侧组装片段的比对方向对每一个结果进行注释。

注释结果合并和输出模块27，包括用于对计算和注释模块的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。

本申请的另一实现方式中还提供了一种用于结构变异检测的装置，该装置包括存储器和处理器；存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现以下方法：数据获取步骤，包括获取待测对象二代测序数据的比对文件及其基本信息，所述基本信息包括insert size均值和标准差、insert size max、reads长度；信号分类步骤，包括从所述比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，所述SR信号是指发生软剪切的reads，所述SU信号是指read pair中只有一条匹配到参考序列的reads；DP信号聚类分析步骤，包括对所述信号分类步骤获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的 reads作为一个DP信号簇，每个簇作为一个结构变异的候选；融合断点分析步骤，包括从所述DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；SR信号分析步骤，包括从所述信号分类步骤获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附件，即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入SR信号区间及其两侧至少10bp对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；计算和注释步骤，包括对所述融合断点分析步骤和所述SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释；注释结果合并和输出步骤，包括对所述计算和注释步骤的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。

本申请另一种实现方式中还提供一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现如下方法：数据获取步骤，包括获取待测对象二代测序数据的比对文件及其基本信息，所述基本信息包括insert size均值和标准差、insert size max、reads长度；信号分类步骤，包括从所述比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，所述SR信号是指发生软剪切的reads，所述SU信号是指read pair中只有一条匹配到参考序列的reads；DP信号聚类分析步骤，包括对所述信号分类步骤获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选；融合断点分析步骤，包括从所述DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；SR信号分析步骤，包括从所述信号分类步骤获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附件，即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入SR信号区间及其两侧至少10bp对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；计算和注释步骤，包括对所述融合断点分析步骤和所述SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释；注释结果合并和输出步骤，包括对所述计算和注释步骤的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。

本申请用于结构变异检测的方法和装置，精度高、效率高、识别范围广，以下几个关键对达到这些效果起到了关键作用。首先是在提取完异常信号之后的对DP信号进行聚类的部分，其次是对聚类结果进行组装和重比对的过程，其三是重找回SR的部分，该步骤关注发生嵌合比对的SR信号，保证了即使是在DP信号较弱或者某些不包含DP信号的特殊变异也能被准确捕捉并进行局部组装，最后是在注释部分的微同源序列识别，包含对小片段插入和短序列串联重复的识别，即使是对断点模糊不清的区域，也会给出可能性最大的融合断点，并给出造成断点模糊的碱基序列。本申请的多处并行设计也是一大亮点，特别是在处理较大量数据的步骤的并行，在保证了精确性的同时也保证了运行的效率。以下是对本申请中的识别方法中几个关键点的详细阐述。

(1)DP聚类以发现结构变异候选区域

本申请的DP信号定义为插入片段不小于插入片段最大长度或比对至两个不同染色体的read pair。排除掉比对错误等其他极端因素造成的影响，DP信号聚集的区域一定有结构变异发生，传统的聚簇方法大多数基于密度聚类，好处是可以聚集到最富集的区域，缺点也很明显，就是容易漏掉某些关键信号，尤其是在测序深度较低的时候，密度聚类的效果往往不佳。本申请基于广度策略聚类DP信号，可以最大限度的保证将有用的DP信号聚进簇内，后续的局部组装和重比对策略保证了将簇内假阳性信号的影响降到最低。

聚类首先对左侧reads按照距离进行聚，具体方法如下：按照染色体并行从存放DP信号的临时BAM中逐条读取reads，然后按照距离进行分簇，如果下一条read距离已有簇的边界的距离小于insert size max，则将其加入簇中。然后对每一簇中对应的右侧reads按照同样的方法聚集，如果左侧的成簇reads被右侧reads分成多个簇，则分别记录为多个聚簇结果(clique)，如图3所示。图3是聚簇过程中左边的reads已经聚成簇，而右侧reads却分成两簇的情况，本申请方法将其分别记为clique1和clique2。

(2)DP组装和重比对以确定精确断点和识别微同源序列

聚簇完成后，对于每一个候选区域，也就是每一个聚簇结果clique对应的区域，首先在区域内部寻找SR信号和SU信号的，将其放在组装软件SGA中进行组装。组装结果可能有很多个，但符合真实情况的可能并不多，需要进行过滤，重比对的过程就是一个过滤的过程，本申请方法通过将组装结果重比对回对应的参考序列，获得包含断点和可能存在的短模板插入序列作为最可能的结构变异结果，该组装过程可以识别融合断点附近的短微同源序列和insert size范围内的novel insertion。通过该步骤，即可获得结构变异两侧的精确融合断点和断点两侧的碱基序列。

(3)SR信号重找回以发现较小和特殊的结构变异

本申请方法的SR重找回策略是另一个亮点。由于DP信号定义的是包含较大尺寸插入片段或者在不同染色体上的read pair，在聚簇过程中可能由于深度等其他原因仍然可能漏掉一些小的或者特殊的结构变异，重找回SR策略对这一问题进行了补充处理。重找回SR步骤先对所有SR信号中的SA信号的两个比对位置进行分别处理，相对于参考序列的左右两侧，在左右各自分别寻找附近区域内可能存在的DP信号和SU信号，并截取对应区域内的参考序列，将几种信号进行组装，从组装结果中识别出可能性最大的结果作为融合断点结果，这个处理过程与DP信号聚类和组装过程类似。重找回SR过程是对以DP信号为基础的检测过程的补充，可以保证对某些特殊结构变异的检出，使整体结果达到更高的检出率和精度。

本申请在检测热点区域较大型，包括染色体间的易位等，结构变异时具有优异的性能。

以下为本申请中用到的部分术语及其定义：

SV：Structural Variation，结构变异。

bam格式文件：SAM格式文件的二进制文件。SAM文件是一种固定格式的比对结果表示文件，一般由测序结果数据和参考序列比对产生。

DP信号：Discordant Pair，二代双端测序中，insert size>insert size max或者两个read比对位置相距较远或者在不同的染色体上。

SR信号：Split Reads，发生了剪切的reads，一个read的被分成两个部分，分别比对到不同的位置，即发生软剪切的reads。

SU信号：双端测序的两条reads中只有一条比对到参考基因。

insert size：双端测序中的打断片段大小。

实施例

本例结构变异检测方法具体如下：

输入：经过预处理的bam文件，参考系列；

1.数据获取步骤，包括获取待测对象二代测序数据的bam文件，计算bam 文件的基本信息，insert size均值和标准差、insert size max(insert size mean+3.96*insert size std)、reads长度；

2.信号分类步骤，从bam文件中按照75k的长度并行提取区间内的reads，并将异常reads分成四信号：DP(insert size>insert size max或者两个配对read落在两个不同的染色体上)、SR(发生了软剪切的reads)、SU(read pair中只有一条匹配到参考序列)，提取完毕后放在临时文件中；

3.DP信号聚类分析步骤，对步骤2中提取的DP信号进行聚类，找到位置相近、方向相同的DP信号簇(clique)，每个簇作为一个结构变异的候选；其中，位置相近即距离在insert size max范围内；

4.融合断点分析步骤，从步骤3中聚簇结果的每一个clique附近提取SR和SU信号，再加上DP信号进行组装，将组装结果进行重比对，以发现融合断点和微同源序列和其他的短模板插入；其中，每一个clique附近，即每个簇的insert size max范围内；

5.SR信号分析步骤，从步骤2中提取的SR信号中寻找SA信号(嵌合比对)，以发现那些不包含DP信号的变异，在SR发生的区域附近提取相对应得DP和SU信号，加入位置附近对应的参考序列进行组装，将组装结果进行重比对以发现融合断点和可能的微同源和短模板插入序列；具体的，在SR信号区间两侧insert size范围内提取相对应得DP信号和SU信号，加入SR信号区间及其两侧至少10bp对应的参考序列进行组装；其中，不包含DP信号的变异主要包括因序列较短而不包含DP信号的变异，以及其他因特殊原因不包含DP信号的长序列突变；

6.计算和注释步骤，将步骤4和步骤5的每一个结果作为一个结构变异候选，进行融合断点左右两侧的突变深度计算、结构变异类型识别等，由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释；

7.注释结果合并和输出步骤，将注释结果进行合并，以合并那些因为DP和SR双重识别而产生的重合信息，并进行最终的结构变异结果输出。

其中，融合断点左右两侧是指，左断点的左侧和右断点的右侧，分别取左右两侧consensus序列中包含的DP信号、SR信号和SU信号的数量作为alt深度，取左右两侧两个深度中较大的一个作为突变深度，对应区间内DP信号、SR信号、SU信号和正常reads数量作为整体深度。

注释具体包括，根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型；如果左右断点不在同一染色体，则为染色体间易位；其中，如果左右序列方向一致则为2型染色体间易位，若不一致则为1型染色体间易位；如果左右断点在同一染色体，且左右序列比对方向一致，则为染色体倒置；若断点1的位置在断点2之前并且断点1为反向比对，或断点1位置在断点2之后且断点2反向比对，则为染色体缺失；其余则为染色体重复。

本例按照以上方法，对1729例阳性SV样例，一共两批Panel样本，进行结构变异检测，所有测序数据及样本由北京吉因加医学检验实验室有限公司提供。结果显示，本例的结构变异检测方法检出率达到99.595％。具体的，本例的小样本集一共340例样本，经过解读复核确认了484例阳性SV集合；补充验证数据集一共1091例样本，共确认1245例阳性SV集合；两个批次的结果中，只有7例未检出或是检出断点差异较大(200bp以内)的结果，前一批次2例，后一批次5例，剩余的结果中都精确检出，并且，比原有的检出软件结果断点精度更高。可以理解，部分样本包含不止一个阳性SV；因此，确认的阳性SV数量大于样本数。

本例的结构变异检测方法可以识别包括缺失、倒位、重复、染色体内易位、染色体间易位等多种结构变异类型，并提供断点附近的微同源序列和短模板序列输出。

基于本例的结构变异检测方法，本例进一步的研发了相应的软件ncsv2作为本例的结构变异检测装置，该装置以样本的排序后的BAM文件、比对信息、该样本的测序芯片的热点区域信息hotregion文件等作为输入，即可直接获得该样本的所有结构变异信息，存放在结果的csv文件中，每一条突变信息包含该突变的突变类型，两个突变断点位置信息，断点两侧基因的类型及数量，突变频率，支持该突变的DP、SR、SU的reads数，及突变的IGV图链接。本例的结构变异检测装置，能够高效、高精度的检出融合断点和断点两侧的碱基序列，能够识别多种结构变异类型，如缺失、倒位、重复、染色体内易位、染色体间易位等，并提供断点附近的微同源序列和短模板序列输出。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

一种用于结构变异检测的方法，其特征在于：包括以下步骤，

数据获取步骤，包括获取待测对象二代测序数据的比对文件及其基本信息，所述基本信息包括insert size均值和标准差、insert size max、reads长度；

信号分类步骤，包括从所述比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，所述SR信号是指发生软剪切的reads，所述SU信号是指read pair中只有一条匹配到参考序列的reads；

DP信号聚类分析步骤，包括对所述信号分类步骤获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选；

融合断点分析步骤，包括从所述DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

SR信号分析步骤，包括从所述信号分类步骤获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附件，即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入SR信号区间及其两侧至少10bp对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

计算和注释步骤，包括对所述融合断点分析步骤和所述SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释；

注释结果合并和输出步骤，包括对所述计算和注释步骤的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。
根据权利要求1所述的方法，其特征在于：所述数据获取步骤中，比对文件为bam文件；

优选的，insert size max为insert size均值+3.96×insert size标准差。
根据权利要求1所述的方法，其特征在于：所述信号分类步骤中，设定长度为75k。
根据权利要求1-3任一项所述的方法，其特征在于：所述计算和注释步骤中，融合断点左右两侧是指，左断点的左侧和右断点的右侧，分别取左右两侧 consensus序列中包含的DP信号、SR信号和SU信号的数量作为alt深度，取左右两侧两个深度中较大的一个作为突变深度，对应区间内DP信号、SR信号、SU信号和正常reads数量作为整体深度；

优选的，所述计算和注释步骤中，对每一个结果进行注释，具体包括，根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型；如果左右断点不在同一染色体，则为染色体间易位；其中，如果左右序列方向一致则为2型染色体间易位，若不一致则为1型染色体间易位；如果左右断点在同一染色体，且左右序列比对方向一致，则为染色体倒置；若断点1的位置在断点2之前并且断点1为反向比对，或断点1位置在断点2之后且断点2反向比对，则为染色体缺失；其余则为染色体重复。
一种用于结构变异检测的装置，其特征在于：包括数据获取模块、信号分类模块、DP信号聚类分析模块、融合断点分析模块、SR信号分析模块、计算和注释模块以及注释结果合并和输出模块；

所述数据获取模块，包括用于获取待测对象二代测序数据的比对文件及其基本信息，所述基本信息包括insert size均值和标准差、insert size max、reads长度；

所述信号分类模块，包括用于从所述比对文件中按照设定长度提取区间内的reads，并将异常reads分成DP信号、SR信号和SU信号；所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads，所述SR信号是指发生软剪切的reads，所述SU信号是指read pair中只有一条匹配到参考序列的reads；

所述DP信号聚类分析模块，包括用于对所述信号分类模块获得的DP信号进行聚类，将距离在insert size max范围内、方向相同的reads作为一个DP信号簇，每个簇作为一个结构变异的候选；

所述融合断点分析模块，包括用于从所述DP信号聚类分析模块获得的每个簇的insert size max范围内提取SR信号和SU信号，再加上相应的DP信号进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

所述SR信号分析模块，包括用于从所述信号分类模块获得的SR信号中寻找嵌合比对，获得不包含DP信号的变异，在变异发生的区域附近，即SR信号区间两侧insert size范围内，提取相对应得DP信号和SU信号，加入该区域附近，即SR信号区间两侧至少10bp，对应的参考序列进行组装，对组装结果进行重比对，获得融合断点、微同源序列和/或短模板插入序列；

所述计算和注释模块，包括用于对所述融合断点分析模块和所述SR信号分析模块的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别，由左右两个断点left_bp和right_bp和左右侧组装片段的比对方向对每一个结果进行注释；

所述注释结果合并和输出模块，包括用于对所述计算和注释模块的注释结果进行合并，以合并因为DP信号和SR信号双重识别而产生的重合信息，将合并后的结果作为待测对象的结构变异检测结果。
根据权利要求5所述的装置，其特征在于：所述数据获取模块中，比对文件为bam文件；

优选的，insert size max为insert size均值+3.96×insert size标准差。
根据权利要求5所述的装置，其特征在于：所述信号分类模块中，设定长度为75k。
根据权利要求5-7任一项所述的装置，其特征在于：所述计算和注释模块中，融合断点左右两侧是指，左断点的左侧和右断点的右侧，分别取左右两侧consensus序列中包含的DP信号、SR信号和SU信号的数量作为alt深度，取左右两侧两个深度中较大的一个作为突变深度，对应区间内DP信号、SR信号、SU信号和正常reads数量作为整体深度；

优选的，所述计算和注释模块中，对每一个结果进行注释，具体包括，根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型；如果左右断点不在同一染色体，则为染色体间易位；其中，如果左右序列方向一致则为2型染色体间易位，若不一致则为1型染色体间易位；如果左右断点在同一染色体，且左右序列比对方向一致，则为染色体倒置；若断点1的位置在断点2之前并且断点1为反向比对，或断点1位置在断点2之后且断点2反向比对，则为染色体缺失；其余则为染色体重复。
一种用于结构变异检测的装置，其特征在于：所述装置包括存储器和处理器；

所述存储器，包括用于存储程序；

所述处理器，包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的用于结构变异检测的方法。
一种计算机可读存储介质，其特征在于：所述存储介质中存储有程序，所述程序能够被处理器执行以实现权利要求1-4任一项所述的用于结构变异检测的方法。