WO2024138733A1

WO2024138733A1 - 基因组结构变异的检测方法、系统、设备及介质

Info

Publication number: WO2024138733A1
Application number: PCT/CN2022/144315
Authority: WO
Inventors: 孙宇辉; 张勇; 徐梦阳; 范广益; 黎宇翔
Original assignee: 深圳华大生命科学研究院
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-07-04

Abstract

一种基因组结构变异的检测方法、系统、设备及介质，方法包括:获取待检测样本的测序序列，所述测序序列的数量为多个；根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型；对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。组装得到的单体型序列在进行SV检测时由于包含了多个测序序列的数据，能够满足SV检测的读长需求，并使得SV检测的结果更加完整和准确。

Description

基因组结构变异的检测方法、系统、设备及介质

技术领域

本发明涉及基因领域，尤其涉及一种基因组结构变异的检测方法、系统、设备及介质。

背景技术

基因组变异一般分为三类：SNP(Single Nucleotide Polymorphisms，单核苷酸多态性)、INDEL(Insertion和Deletion的简称，指基因组的某个位置上所发生的小片段序列的插入或者删除)和SV(Structural variation，基因组结构变异)。

现有技术中通过二代测序能够有效检测出SNP和INDEL类型的变异，而由于二代测序读长的限制，基于二代测序得到的SV类型的检测结果并不准确。随着三代测序技术的发展，可以在一定程度上改善SV类型的变异检测结果，但是依然面临着以下问题：由于三代测序读长普遍在500bp～50kb范围，能检测到的SV大小往往也限制在50kb以内。

发明内容

本发明要解决的技术问题是为了克服SV检测大小范围受限的缺陷，提供一种基因组结构变异的检测方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，提供一种基因组结构变异的检测方法，所述方法包括：

获取待检测样本的测序序列，所述测序序列的数量为多个；

根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型；

对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。

可选地，根据每个所述测序序列的单碱基变异信息对所述测序序列进行单体型分型，包括：

获取每个测序序列中的单碱基变异信息；

确定与所述单碱基变异信息相匹配的单体型信息，将所述测序序列分型至对应的单体型，所述单体型信息通过对所有测序序列的单碱基变异信息进行连锁性分析得到。

可选地，获取每个测序序列的单碱基变异信息，包括：

将所述测序序列与参考基因组进行序列比对，将所述测序序列中所有与参考基因组不一致的碱基信息确定为所述测序序列的单碱基变异信息。

可选地，确定与所述单碱基变异信息相匹配的单体型信息，包括：

通过种子延伸对待检测样本中的单碱基变异信息进行连锁强度分析，以确定待检测样本的单体型信息；

将所述测序序列的单碱基变异信息与所述单体型信息进行匹配，以确定测序序列所属的单体型。

可选地，对所属于相同单体型的测序序列进行组装以得到单体型序列，包括：

对属于相同单体型的测序序列进行局部组装以得到单体型序列。

可选地，根据单体型序列进行基因组结构变异分析，包括：

将所述单体型序列与参考基因组进行序列比对，根据序列比对的结果确定所述单体型序列是否出现基因组结构变异。

可选地，获取待检测样本的测序序列，包括：

通过对所述待检测样本进行长读长测序得到所述待检测样本的测序序列。

第二方面，提供一种基因组结构变异的检测系统，所述系统包括：

获取模块，用于获取待检测样本的测序序列，所述测序序列的数量为多个；

分型模块，用于根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型；

分析模块，用于对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的基因组结构变异的检测方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的基因组结构变异的检测方法。

本发明的积极进步效果在于：通过单体型分型可以在SV检测前对测序序列准确地进行单体型分型，不同单体型来源的测序序列进行分型，并根据单体型序列进行后续的SV检测，组装后的单体型序列一方面可以准确展示检测到的SV的来源，另一方面，组装得到的单体型序列相对于测序序列本身，具备更高的连续性和准确性，往往长达1MB以上，可以覆盖几乎全部的SV大小范围，使得SV检测的结果更加完整和准确。

附图说明

图1为本发明一示例性实施例提供的一种基因组结构变异的检测方法的流程图；

图2为本发明一示例性实施例提供的一种基因结构变异检测方法的步骤S11的流程图；

图3为本发明一示例性实施例提供的一种基因结构变异检测方法的单体型信息的示意图；

图4为本发明一示例性实施例提供的一种基因结构变异检测方法的步骤 S112的流程图；

图5为本发明一示例性实施例提供的一种基因结构变异检测方法的种子延伸示意图；

图6为本发明一示例性实施例提供的一种基因组结构变异的检测方法的示意图；

图7为本发明一示例性实施例提供的一种基因组结构变异的检测方法的单体型分型后的SNP示意图；

图8为本发明一示例性实施例提供的一种基因组结构变异的检测系统的模块图；

图9为本发明一示例性实施例提供的一种基电子设备的结构图。

具体实施方式

下面通过示例性实施例的方式进一步说明本发明，但并不因此将本发明限制在的实施例范围之中。

在本实施例之前，对基因组结构变异进行简要说明，基因组结构变异即本实施例中的SV，SV包括长度在50bp以上的长片段序列的插入或者删除、染色体倒位，染色体内部或染色体之间的序列易位，拷贝数变异，以及一些形式更为复杂的变异。

另外，本实施例中的单碱基变异信息即SNP。

图1为本发明一示例性实施例提供的一种基因组结构变异的检测方法，参见图1，方法包括：

S10、获取待检测样本的测序序列，测序序列的数量为多个。

其中，测序序列通过对待检测样本进行长读长测序得到。

在一个实施例中，测序序列可以通过对待检测样本进行三代测序得到，三代测序的最长读长可以达到50kb，平均读长在15～20kb，由于SV三代测序得到的测序序列完整性更好，通过三代测序所得到的测序序列的读长能够更好的支撑SV检测对读长的需求。

在一个实施例中，测序序列可以通过对待检测样本进行stLFR(Single tube Long Fragment Read，单管长片段序列)或10X Genomics(一种测序技术)等大片段DNA建库技术得到，其属于特殊的二代测序，测序序列的读长同样也能达到10kb～300kb。

在一个实施例中，测序序列还可以同时对待检测样本进行二代测序和三代测序得到。其中，基于二代测序得到的测序序列可以用于确定待检测样本的单体型，三代测序得到的测序序列用于对测序序列进行单体型分型和进行单体型序列的组装。三代测序得到的测序序列能够为SV检测提供长读长的需求，而二代测序得到的测序序列能够通过对三代测序序列进行精度校正，为序列比对和SV检测提供更高的准确度。

S11、根据每个测序序列中的单碱基变异信息对测序序列进行单体型分型。

在一个实施例中，参见图2，步骤S11具体包括：

S111、获取每个测序序列中的单碱基变异信息。

在一可实施方式中，将测序序列与参考基因组的对应位点进行序列比对，将测序序列中所有与参考基因组不一致的碱基确定为测序序列的单碱基变异信息，即SNP。其中，SNP可以包括杂合SNP。例如，测序序列为AGTCTTAG，参考基因组对应位点为AGGCTTCG，在进行序列比对时可以看到第三个位点和第七个位点的碱基型不匹配，此时可以将测序序列中第三个位点的碱基信息T和第七个位点的碱基信息A确定为SNP。

S112、确定与单碱基变异信息相匹配的单体型信息，将测序序列分型至对应的单体型，单体型信息通过对所有测序序列的单碱基变异信息进行连锁性分析得到。

其中，单体型信息指位于一条染色体上或某一区域的一组相关联SNP的等位基因的组合，单体型指一组单体型信息的来源。参见图3，以一个二倍体基因组为例，该二倍体基因组包括父本的单体型，即图中Dad，和母本的单体型，即图中的Mom。父本的单体型信息包括GTCCA，母本的单体型包括TAGTG。

在一可实施方式中，参见图4，步骤S112具体包括：

S112-1、通过种子延伸对待检测样本中的单碱基变异信息进行连锁强度分析，以确定待检测样本的单体型信息。

在一个实施例中，通过对待检测样本中所有测序序列进行SNP的连锁强度分析确定待检测样本的单体型信息，单体型信息包括待检测样本中所有属于同一个单体型的SNP，单体型信息为具有连锁关系的SNP的排列。

其中，以图5为例，对种子延伸确定单体型信息做进一步说明：

通过对测序序列与参考基因组进行序列比对后，得到四个SNP，A1/G1、G2/C2、A3/T3、T4/C4。将第一组碱基A1和G1作为一对种子，将种子与其他SNP进行连锁强度计算，得到连锁强度最强的SNP，并在下一次延伸前，将该位点并入种子。继续将剩下的SNP并入种子，直至不再有SNP能与种子上的任何一个位点位于同一个长片段DNA上，最终得到AGTC和GCAT两个单体型信息。

每个SNP之间的连锁关系通过一个长片段DNA提供，通过对所有测序序列的SNP进行连锁强度分析，可以得到待检测样本的多个单体型信息，例如AGTC和GCAT，及对应的单体型。

在一可实施方式中，通过种子延伸确定单体型信息的测序序列可以是三代测序得到的测序序列，也可以是stLFR或10X Genomics等二代测序得到的测序序列。一般而言，通过三代测序得到的测序序列即可完成对待检测样本中单体型信息的确定，但由于stLFR的测序序列的读长最长可以达到300kb左右，三代测序得到的测序序列的读长是50kb，意味着stLFR可以跨过更长的纯和区域(即父本和母本完全相同的区域)，二代测序得到的测序序列能够为三代测序得到的测序序列的单体型分型提供支持。使得得到的每个单体型序列的连续性和准确度更高。

S112-2、将测序序列的单碱基变异信息与单体型信息进行匹配，以确定测序序列所属的单体型。

其中，将步骤S111中得到的单碱基变异信息映射至对应的单体型信息，即每个测序序列的SNP映射到单体型信息中对应的SNP，当测序序列的SNP成功映射到对应的单体型信息中对应的SNP时，则认为该测序序列属于该单体型信息对应的单体型。例如：单体型信息包括AGTCGTTTCGTTTAA，测序序列得到的单碱基变异信息包括CGTTTCGT，测序序列中的单碱基变异信息可以成功映射到单体型中的CGTTTCGT片段，此时可以认为该测序序列与该单体型信息相匹配，属于该单体型。

本实施例中，通过SV检测前对测序序列准确地进行单体型分型，可以确定每个测序序列所属的单体型，并根据单体型对测序序列进行组装得到单体型序列进行后续的SV检测，对于同一个单体型序列检测得到的SV，可以标记为来自同一个单体型，以确定SV的来源，能够为生物遗传多样性的分析、临床医学的诊断和分析，例如癌症，提供可靠稳定的基因检测依据。

S12、对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。

在一个实施例中，根据前序步骤可以得到每个单体型包含的测序序列。由于测序序列可以基于三代测序得到，也可以基于二代测序得到，因此同一个单体型的测序序列可能仅包含三代测序得到的测序序列，也可能同时包含二代测序得到的测序序列和三代测序得到的测序序列。

在一个实施例中，步骤S12中对测序序列进行组装具体包括：

其中，局部组装得到的单体型序列相对原本的测序序列，长度更长，且准确度更高。

在一可实施方式中，当测序序列即包括三代测序序列和二代测序序列时，首先通过对三代测序得到的测序序列进行局部组装得到单体型序列，再通过二代测序序列对三代测序序列的组装结果进行调整，得到准确度更高的单体型序列。具体地，通过对三代测序得到的测序序列进行组装得到单体型序列，当单体型的测序序列中还包括二代测序得到的测序序列时，将所述二代测序得到的测序序列匹配至单体型序列中的对应位置进行分析。例如单体型序列对应位置的碱基为AGTTCTG，而二代测序得到的测序序列的碱基为AGTTCAG，此时可以对单体型序列对应位置根据二代测序得到的测序序列进行修正，以使得单体型序列结果更加准确。

在一可实施方式中，通过Celera(一种长读长序列组装工具)或Canu(一种长读长序列组装工具)对测序序列进行组装，组装基于OLC原理，即overlap-layout-consensus，(重叠-排列-生成一致序列)思想。

在一个实施例中，步骤S12中根据单体型序列进行基因组结构变异分析具体包括：

将单体型序列与参考基因组的对应位置进行序列比对，得到BAM格式的比对文件，再利用svim工具对比对文件进行基因组结构变异的分析，得到多类检测结果，最后通过对结果进行筛选和过滤可以得到得更全面、更准确的基因组单体型的SV检测结果。

另外，由于SV检测是基于组装得到的单体型序列进行检测，单体型序列中能够包含多个连续的测序序列，能够得到更加完整的SV的检测结果，且对于单个SV的检测中，能够得到SV的断点信息，即一个SV的开始位置到结束位置。而现有技术中由于测序序列准确性的限制，可能无法对一条完整的SV进行展示，也即无法得到SV的断点信息。

本实施例中，通过局部组装可以将每一个单体型的测序序列组装成一条或多条长度超过1MB的连续性单体型序列，由于连续性单体型序列的长度和准确度相对于原始测序序列有大幅提升，因此它们比对到参考基因组的得到的SV结果将更加精准。另外，局部组装策略获得的单体型序列可以跨越多个SV，因此本实施例检测SV的范围可以扩展到真正的大型SV，不再受制于测序序列本身的读长。

下面通过一具体实施方式对本实施例做进一步说明，参见图6：

步骤1，将国际标准品HG002作为测试样本，分别进行常规的三代测序(40X)和基于stLFR文库的二代测序(60X)，总碱基量为300GB，总深度为100X。通过bwa(一种序列比对工具)将基于stLFR文库的二代测序序列比对到参考基因组后，得到有效覆盖率99.95％。进一步进行常规的变异检测，过滤得到测试样本中包含的252万个杂合SNP，用于后续的变异分型。根据种子延伸将这些杂合SNP进行单倍体分型，分型后的片段中位数长达11.35MB。

步骤2，我们利用minimap2(一种序列比对工具)继续将三代测序序列比对到参考基因组上，获得每一测序条序列所包含的杂合SNP。再根据步骤1中获得的单体型信息，将每个测序序列映射到正确的单体型上。同一个染色体区域内具有两个不同的单体型，它们分别具有独立的序列池。为了验证对三代测序得到的测序序列的单体型分型效果，我们将已经完成单体型分型的测序序列分别比对到参考基因组上，得到两个单体型的分型分型，参见图7，图7中每一行为一个测序序列，深色标志部分为杂合SNP。可以看到，杂合SNP特异性地分布在其中一个单体型上，没有出现嵌合情况，说明通过三代测序得到的侧序列的分型效果达到了令人满意的程度。

步骤3，我们对各个单体型的序列池中的序列进行局部组装，各个单体型之间互不影响。组装的总长度为5.4GB(2.6GB*2),基因组覆盖率96.4％，组装N50为1.1MB。

步骤4，基于组装得到的单体型序列，我们再次利用minimap2将它们比对到参考基因组上，再利用svim工具检测出初步的SV的检测结果，再进行去冗余操作，得到最终的SV数据集。将SV数据集与HG002国际标准集进行比较，评估其准确度(precision)、灵敏度(recall)以及F1分值，参见下表，可以看出，本实施例中对于SV检测的准确度相较于Sniffles得以大幅度提升。其中，灵敏度＝标准集中SV被检测的实际数量/标准集中SV总数，准确度＝检测出的SV正确的数量/检测的出的全部SV数量，

图8为本发明一示例性实施例提供的一种基因组结构变异的检测系统的示意图，参见图8，系统包括：

获取模块81，用于获取待检测样本的测序序列，所述测序序列的数量为多个；

分型模块82，用于根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型；

分析模块83，用于对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

图9为本实施例提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图9显示的电子设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备90可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备90的组件可以包括但不限于：至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。

总线93包括数据总线、地址总线和控制总线。

存储器92可以包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理。

电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本发明一示例性实施例一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述实施例的基因组结构变异的检测方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现基因组结构变异的检测方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

一种基因组结构变异的检测方法，其特征在于，所述方法包括：

获取待检测样本的测序序列，所述测序序列的数量为多个；

根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型；

对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。
如权利要求1所述的基因组结构变异的检测方法，其特征在于，根据每个所述测序序列的单碱基变异信息对所述测序序列进行单体型分型，包括：

获取每个测序序列中的单碱基变异信息；

确定与所述单碱基变异信息相匹配的单体型信息，将所述测序序列分型至对应的单体型，所述单体型信息通过对所有测序序列的单碱基变异信息进行连锁性分析得到。
如权利要求2所述的基因组结构变异的检测方法，其特征在于，获取每个测序序列的单碱基变异信息，包括：

将所述测序序列与参考基因组进行序列比对，将所述测序序列中所有与参考基因组不一致的碱基信息确定为所述测序序列的单碱基变异信息。
如权利要求2所述的基因组结构变异的检测方法，其特征在于，确定与所述单碱基变异信息相匹配的单体型信息，包括：

通过种子延伸对待检测样本中的单碱基变异信息进行连锁强度分析，以确定待检测样本的单体型信息；

将所述测序序列的单碱基变异信息与所述单体型信息进行匹配，以确定测序序列所属的单体型。
如权利要求1所述的基因组结构变异的检测方法，其特征在于，对所属于相同单体型的测序序列进行组装以得到单体型序列，包括：

对属于相同单体型的测序序列进行局部组装以得到单体型序列。
如权利要求1所述的基因组结构变异的检测方法，其特征在于，根据单体型序列进行基因组结构变异分析，包括：

将所述单体型序列与参考基因组进行序列比对，根据序列比对的结果确定所述单体型序列是否出现基因组结构变异。
如权利要求1所述的基因组结构变异的检测方法，其特征在于，获取待检测样本的测序序列，包括：

通过对所述待检测样本进行长读长测序得到所述待检测样本的测序序列。
一种基因组结构变异的检测系统，其特征在于，所述系统包括：

获取模块，用于获取待检测样本的测序序列，所述测序序列的数量为多个；

分型模块，用于根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型；

分析模块，用于对所属于相同单体型的测序序列进行组装以得到单体型序列，并根据单体型序列进行基因组结构变异分析。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的基因组结构变异的检测方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基因组结构变异的检测方法。