WO2021120529A1

WO2021120529A1 - 一种同源假基因变异检测的方法

Info

Publication number: WO2021120529A1
Application number: PCT/CN2020/092903
Authority: WO
Inventors: 梁萌萌; 余伟师; 栗海波; 李珉
Original assignee: 苏州赛美科基因科技有限公司
Priority date: 2019-12-20
Filing date: 2020-05-28
Publication date: 2021-06-24
Also published as: CN111081315A; CN111081315B

Abstract

本发明提供一种同源假基因变异检测的方法，根据最新更新的基因序列构建参考基因集；随机获取正常样本原始数据创建对照集；对对照集正常样本原始数据与所述参考基因集进行数据比对，得到对照集比对结果；并对对照集中的每个样本进行变异检测，构建对照集变异位点频率数据；获取实测样本原始数据，对所述实测样本数据与参考基因集进行数据比对，并对实测样本比对结果进行变异位点检测，得到实测样本变异位点检测结果；将所述实测样本变异位点检测结果与所述对照集变异位点频率数据进行位点比对筛查，得到实测样本的基因变异位点。与现有技术相比，本方法能够解决参考基因组序列和基因序列更新不同步，提升基因位点变异检测的准确性，缩短检测周期。

Description

一种同源假基因变异检测的方法

技术领域

本发明涉及生物学与精准医学基因检测领域，具体涉及一种同源假基因变异检测的方法。

背景技术

目前生物学与精准医学领域，对临床个体进行基因病进行临床诊断时，通常需要进行个人的基因检测，常用检测方法是进行全基因组测序(WGS),全外显子测序(WES)和目标区域测序(TRS)，相关分析流程如下：1)高通量测序完成后，获得基因组的短片段序列信息；2)与参考基因组进行序列比对，定位每一条短序列的基因组坐标；3)对比对的结果进行基因组坐标排序，去重，重排以及碱基质量矫正；4)对基因组的每个碱基进行变异检测，并进行基因型评估；5)最终得到个人的基因组变异检测结果。

目前该技术已经成为新一代基因测序技术(NGS技术)即高通量测序技术检测个人样本基因变异的推荐流程。但是目前该技术仍然存在一些问题，如

1)该技术依赖参考基因组(reference genome)，目前参考基因组版本为基因组参照序列联盟人类基因组38版本(Genome Reference Consortium Human Genome Build 38，GRCh38)。基因组更新速率较慢，而随着研究的深入，发布的人类基因的参考序列不断更新，造成了参考基因组序列和最新的基因序列间存在不同步的问题。

如图1所示NCBI_chr22_NM033517.1标注序列是基于GRCh38基因组提取SHANK3目标基因区的序列；NM_033517.1标注序列为美国国家生物信息中心(National Center for Biotechnology Information,NCBI)数据库收录的SHANK3的目标基因区的最新编码序列。根据比对结果，来源于GRCh38基因组的SHANK3基因与来源于NCBI数据库收录的SHANK3基因在关键位点存在显著差异。

2)同源序列会造成变异检测假阳性，假阴性问题。由于人类参考基因组中，存在大量的同源区域，例如同源基因，假基因等，而目前的NGS技术的局限，所测序的序列通常较短，在进行全基因组范围的序列比对时，由于同源区域所造成的，会存在非唯一比对的发生，会导致很多变异假阳性的发生。

如图2所示，脊髓性肌萎缩症(SMA)的两个关联基因运动神经元存活基因1(SMN1)和运动神经元存活基因2(SMN2)为同源基因，差异碱基位点只有5个碱基。如图3所示，当将这两个基因与人类参考基因组GRCh38进行比对时，序列会因为同源区比对，导致真实变异无法确认来源而被过滤。而与NCBI数据库最新更新的基因序列比对时可以发现在SMN1的Exon1同源区检到一个插入变异。

3)由于人类参考基因组大小约3GB个碱基对，序列比对比较耗时，因此造成临床样本的基因变异检测周期较长。

发明内容

本发明目的在于提供一种同源假基因变异检测的方法，用于解决目前常用的参考基因组序列与更新的基因序列不同步的问题，同时解决同源区域比对异常造成的变异检测不准确问题；也用于解决目前检测时间周期较长的问题。

为达成上述目的，本发明提出如下技术方案：一种同源假基因变异检测的方法，包括以下步骤：1)根据NCBI数据库的基因序列选取真基因构建参考基因集；2)随机获取正常样本原始数据创建对照集，对对照集正常样本原始数据与参考基因集进行数据比对，得到对照集比对结果；3)根据所述对照集比对结果，对对照集中的的每个样本进行变异检测，构建对照集变异位点频率数据；4)获取实测样本原始数据，对所述实测样本数据与所述参考基因集进行数据比对，得到实测样本比对结果；对所述实测样本比对结果进行变异位点检测，得到实测样本变异位点检测结果；5)将所述实测样本变异位点检测结果与所述对照集变异位点频率数据进行位点比对筛查，去除假阳性位点，得到实测样本的变异位点。

本申请中通过自主根据美国国家生物信息中心(National Center for Biotechnology Information,NCBI)数据库最新更新的基因全长序列构建参考基因集，首先可以避免当前已发布的人类参考基因组序列，与不断更新的基因序列间的不同步问题，提高变异检测的准确性。

同时基于目前常用的GRCh38版本的参考基因组中涵盖了所有的基因序列信息、真基因、假基因以及同源基因等，在进行样本比对时，样本中基因的存在的假基因、同源基因会造成对变异位点造成假阳性判断或来源无法识别造成变异遗漏的情况。本申请中自主根据NCBI数据库最新更新的基因全长序列构建参考基因集中只提取了真基因，基于比对的高匹配度，在进行样本比对时一般为样本中的真基因和参考基因集中的真基因比对，提高了样本对比的准确性，可以有效避免因为同源基因或假基因对真基因变异检测的影响。

其次因为目前常用的GRCh38版本的参考基因组因包含了基因间序列和无用的序列，其大小约3GB个碱基对，而本申请自主构建的参考基因集仅包含了真基因序列，其大小仅为1GB个碱基对，在进行样本比对时，能够大大提高比对效率，缩短检测周期。

在本申请中通过设置对照集，通过对对照集中原始数据与参考基因集进行比对后，对每一个样本的参考碱基变异检测得对对照集中变异位点频率结果，在实测样本与参考基因集进行比对和变异检测后，因为实验、测序、算法存在的误差，变异检测的结果中必然存在部分假阳性结果。将实测样本的基因变异位点一一与对照集中变异位点频率结果进行位点筛查，则可去除假阳性后即可得到实测样本的变异位点。

进一步的，本申请在构建参考基因集时包括以下步骤：1)从NCBI数据库中下载收集最新更新的基因全长序列，创建文本文件；2)创建基因对比索引文件；3)创建基因序列信息文件。在构建参考基因集中要注意仅选取真基因。

进一步的，本申请随机获取正常样本原始数据创建对照集后，对所述对照集正常样本原始数据先进行质控，再对质控后的对照集正常样本原始数据与所述参考基因集进行数据比对。由于原始测序数据因为实验操作、上机测序等过程存在的偏差，会包含无效序列数据，会影响分析结果的准确性。因此对原始数据进行质控，可提升分析结果的准确性，减少分析时间。

进一步的，本申请在对样本数据进行质控时包括以下步骤：1)先去除序列中接头序列和/或两端质量值低于30的碱基序列和/或碱基数目大于5的序列；2)再剔除序列长度小于35bp的序列。步骤1中去除接头序列、或两端质量值低于30的碱基序列、碱基数目大于5的序列时不分先后顺序，不分全部去除还是部分去除，全部去除上述序列后最终可获得高质量数据。

进一步的，本申请中对照集样本与参考基因集进行数据比对包括以下步骤：1)将质控后的对照样本与原始参考基因集进行对比，获得原始比对结果文件；2)对所述原始比对结果文件进行排序，产生排序结果文件；3)对所述排序结果文件进行去除重复序列处理，产生去重排序结果文件；4)对所述去重排序结果文件进行局部重排和碱基质量矫正，得到对比结果。

进一步的，本申请中构建对照集变异位点频率数据包括以下步骤：1)对对照集中每个对照样本的每个参考碱基进行变异检测，得到对照集中所有样本变异检测结果文件；2)基于所述对照集中所有样本变异检测结果文件，进行变异位点合并处理，得到对照集群体中的变异结果文件；3)基于所述对照集群体的变异结果文件，对每个变异位点进行频率统计，得到人群突变频率统计结果。

通过对对照集中每个样本的变异位点检测，获取对照集变异位点频率数据，可以得出所有变异位点的变异频率。

进一步的，本申请中在获取实测样本原始数据后，对所述实测样本原始数据先进行质控，再质控后的实测样本原始数据与所述参考基因集进行数据比对并进行位点变异检测。实测样本的质控方法与对照集样本的质控方法和目的一致。

进一步的，将实测样本的变异位点与对照集突变频率统计结果对相应位点进行判断：当某位点的对照集变异频率≥0.5时，实测样本对应变异位点归结为假阳性位点；当某位点的对照集变异频率≥0.1且对照集变异频率＜0.5时，实测样本对应变异位点归结为人群多态性位点；当某位点的对照集变异频率＜0.5时，实测样本对应变异位点归为特有变异位点。通过上述方法即可得到实测样本的变异位点。

有益效果：

由以上技术方案可知，本发明的技术方案提供了一种同源假基因变异检测的方法，并可得到如下有益效果：

1)通过创新性的选取来源于NCBI数据库最新更新的所有基因的完整序列，构建新的参考基因组，能够避免当前已发布的人类参考基因组序列与不断更新的基因序列间不同步的问题，提高变异检测的准确性。例如SHANK3基因变异,GRCh38参考基因组变异描述chr22:50721359-50721359G>T,对应转录本变异NM_033517.1:exon21:c.3484G>T(p.Glu1162*),碱基位置c.3484G>T和氨基酸位置p.Glu1162*均为错误描述。经过该分析流程检测后，转录本变异描述正确，NM_033515.1:exon21:c.3526G>T(p.Glu1176*)。

2)全外显子样本在测序量为10G时，平均测序深度约100X，比对GRCh38参考基因组时间大约为5～10小时，基于本申请构建的参考基因集序列，比对实际可缩短到3个小时，能有效的提升序列比对与变异检测的效率，大大缩短临床样本的分析周期。

3)本方法创造性构建的新的参考基因集，收集了更新的所有基因的完整序列，可以避免现有技术使用的人类基因组中同源区或假基因对比对的影响。例如SMN1/SMN2基因变异,chr5:70925124-70925124C>CA，该变异发生在同源基因内，常规流程分析会遗漏该变异位点。采用本申请的分析流程后，能够提示出该位点变异，注释为SMN1:NM_000344.3:c.22dupA:p.(Ser8Lysfs*23)，临床数据(HGMD)中有收录，HGMD数据库中描述为DM，即有害变异位点。

4)本方法通过构建正常样本对照集并获得对照集样本变异位点频率数据，对实测样本的变异位点进行比对评估，可以避免因同源序列(含同源区域、假基因等)对比对的影响，提高基因变异位点判断的准确性。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为SHANK3基因序列和GRCh38比对的关键差异图；

图2为SMN1和SMN2差异图；

图3为SMN1和SMN2在图2中Exon1区域变异比对图；

图4为本发明中同源假基因变异检测方法流程图；

图5为本发明中基因集构建流程图；

图6为本发明中对照集样本数据质控流程图；

图7为本发明中对照集样本数据比对流程图；

图8为本发明中构建对照集变异位点频率数据流程图；

图9为本发明中实测样本变异检测与位点筛除流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

为解决现有技术中参考基因组序列和基因序列更新不同步和同源区域比对异常造成的变异检测不准确问题；以及目前检测的时间周期较长的问题，具体实施时，如图4本发明提出一种同源假基因变异检测的方法，包括以下步骤：1)根据NCBI数据库最新更新的基因序列构建参考基因集(CG-RefGenome)；2)随机获取正常样本原始数据创建对照集(Fastq格式文件)，对对照集正常样本原始数据与参考基因集进行数据比对，得到对照集比对结果(BAM文件)；3)根据所述对照集比对结果，对对照集中的的每个样本进行变异检测，构建对照集变异位点频率数据(VCF文件)；4)获取实测样本原始数据(Fastq格式文件)，对所述实测样本数据与所述参考基因集进行数据比对，得到实测样本比对结果(BAM文件)；对所述实测样本比对结果进行变异位点检测，得到实测样本变异位点检测结果(VCF文件)；5)将所述实测样本变异位点检测结果与所述对照集变异位点频率数据进行位点比对筛查，去除假阳性位点，得到实测样本的基因变异位点。

本申请中首先通过自主根据NCBI数据库最新更新的基因全长序列构建参考基因集，首先可以避免当前已发布的人类参考基因组序列，与不断更新的基因序列间的不同步问题，提高变异检测的准确性。

其次因为目前常用的GRCh38版本的参考基因组因包含了基因间序列和无用的序列，其大小约3GB个碱基对，而本申请自主构建仅包含了真基因序列，其大小仅为1GB个碱基对，在进行样本比对时，能够大大提高比对效率，缩短检测周期。

在本申请中通过设置对照集，通过对对照集中原始数据与参考基因集进行比对后，对每一个样本的参考碱基变异检测得对对照集中变异位点频率结果，在实测样本与参考基因集进行比对和变异检测后，因为实验、测序、算法存在的误差，基因变异检测的结果中必然存在部分假阳性结果。将实测样本的基因变异位点一一与对照集中变异位点频率结果进行位点筛查，则可去除假阳性后即可得到高质量变异位点。

具体实施时，如图5所示本申请在构建参考基因集时包括以下步骤：1)首先从NCBI数据库中收集最新更新的基因全长序列：下载基因序列源文件，先对源文件进行解压合并，再对文件进行格式化以得到每行序列长度相同的、fasta格式的参考基因序列文件。2)创建基因对比索引文件：因为样本序列与参考基因序列进行比对时，采用的是bwa软件工具中的mem模块，该比对工具采用块排序压缩(Burrows-Wheeler，BWT)比对算法，必须对参考基因序列的fasta文件进行创建索引，因此本申请中采用bwa工具的index模块，对参考基因序列文件进行处理，创建基因对比索引文件。3)创建字典，获得基因序列信息文件：因为fai文件和dict文件是GATK工具进行碱基变异检测时，所要依赖的文件。因此，本申请中采用samtools与picard工具，对参考基因序列文件创建包括fai文件和dict文件的基因序列信息文件。

具体实施时，所示本申请随机获取不少于30例的正常样本原始数据(FASTQ格式)创建对照集，采用cutadapt软件对所述对照集正常样本原始数据先进行质控，再对质控后的对照集正常样本原始数据与所述参考基因集进行数据比对。由于原始测序数据因为实验操作、上机测序等过程存在的偏差，会包含引物序列、错误序列、噪声序列、低质量序列等无效序列数据，这些序列数据不仅对后续分析没有任何作用，反而还会影响分析结果的准确性。因此对原始数据进行质控，不仅会去除残留的引物序列，还会过滤低质量序列和错误序列，获得干净而有效的序列数据，可提升分析结果的准确性，同时还可一定程度节省计算资源的浪费，减少分析时间。

具体实施时，如图6本申请在对对照集中的样本数据进行质控时包括以下步骤：1)先去除序列中接头序列和/或两端质量值低于30的碱基序列和/或碱基数目大于5的序列；2)再剔除序列长度小于35bp(碱基对)的序列。步骤1中去除接头序列、或两端质量值低于30的碱基序列、碱基数目大于5的序列时不分先后顺序，不分全部去除还是部分去除，全部去除上述序列后最终可获得高质量数据。

具体实施时，如图7本申请中对照集样本与参考基因集进行数据比对包括以下步骤：1)将质控后的对照样本(Clean Fastq格式)基于bwa软件与原始参考基因集进行对比，获得原始比对结果文件(raw.bam)；2)对所述原始比对结果文件进行排序，产生排序结果文件(sort.bam)；3)对所述排序结果文件进行去除重复序列处理，产生去重排序结果文件；4)对所述去重排序结果文件进行局部重排和碱基质量矫正，得到对比结果。

首先将样本的测序短序列，通过比对的方式正确定位每个短序列在参考基因组中的准确坐标。由于样本测序短序列进行比对后，产生的比对结果文件记录的序列的坐标位置是随机的，需要将每一条短序列依据参考基因组的染色体的碱基编号顺序进行排序。后续进行变异检测时，是依据染色体的每个碱基顺序依次进行判断是否变异，因此对原始比对结果文件进行排序并形成排序后的文件，是十分重要的环节。由于对样本进行高通量测序时，有序列扩增的实验环节，该环节会对每一条序列进行复制，产生副本序列，这些副本序列并非真实基因组中的序列，需要进行去重处理。同时样本中会存在插入与缺失类型的变异，此类变异会影响附近区域的碱基序列比对，后续变异检测会造成假阳性，因此需要提前针对该区域的序列进行重排比对，得到正确合理的碱基比对结果。

样本序列比对参考基因组后，由于每个位置有很多序列可以比对，对应序列中的碱基质量值是存在差异的，需要对碱基的质量值进行一次矫正，以提高后续变异检测的准确性。

具体实施时，如图8所示本申请中构建对照集变异位点频率数据包括以下步骤：1)对对照集中每个对照样本的每个参考碱基进行变异检测，得到对照集中所有样本变异检测结果文件；2)基于所述对照集中所有样本变异检测结果文件，进行变异位点合并处理，得到对照集群体中的变异结果文件；3)基于所述对照集群体的变异结果文件，对每个变异位点进行频率统计，得到人群突变频率统计结果。

具体实施时，如图9所示本申请中在获取实测样本原始数据后，对所述实测样本原始数据先进行质控，质控后的实测样本原始数据与所述参考基因集进行数据比对并进行位点变异检测。实测样本的质控方法与对照集样本的质控方法和目的一致，均通过去除残留的引物序列，过滤低质量序列和错误序列，获得干净而有效的序列数据，提升分析结果的准确性，节省计算资源的浪费，减少分析时间。

具体实施时，将实测样本的变异位点与对照集突变频率统计结果对相应位点进行判断：当某位点的对照集变异频率≥0.5时，实测样本对应变异位点归结为假阳性位点；当某位点的对照集变异频率≥0.1且对照集变异频率＜0.5时，实测样本对应变异位点归结为人群多态性位点；当某位点的对照集变异频率＜0.5时，实测样本对应变异位点归为特有变异位点。通过上述方法即可得到高质量变异位点。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

一种同源假基因变异检测的方法，其特征在于：包括以下步骤：

根据NCBI数据库的基因序列选取真基因构建参考基因集；

随机获取正常样本原始数据创建对照集，对对照集正常样本原始数据与所述参考基因集进行数据比对，得到对照集比对结果；

根据所述对照集比对结果，对对照集中的每个样本进行变异检测，构建对照集变异位点频率数据；

获取实测样本原始数据，对所述实测样本原始数据与所述参考基因集进行数据比对，得到实测样本比对结果；对所述实测样本比对结果进行变异位点检测，得到实测样本变异位点检测结果；

将所述实测样本变异位点检测结果与所述对照集变异位点频率数据进行位点比对筛查，去除假阳性位点，得到实测样本的基因变异位点。
如权利要求1所述的同源假基因变异检测的方法，其特征在于：构建参考基因集包括以下步骤：

收集NCBI数据库的基因全长序列，创建文本文件；

创建基因对比索引文件；

创建基因序列信息文件。
如权利要求2所述的同源假基因变异检测的方法，其特征在于：在随机获取正常样本原始数据创建对照集后，对所述对照集正常样本原始数据先进行质控。
如权利要求3所述的同源假基因变异检测的方法，其特征在于：所述质控包括以下步骤：

去除序列中接头序列和/或序列两端质量值低于30的碱基和/或N碱基数目大于5的序列；

剔除序列长度小于35个碱基对的序列。
如权利要求4所述的同源假基因变异检测的方法，其特征在于：与参考基因集进行数据比对包括以下步骤：

将质控后的对照集样本与原始参考基因集比对，获得原始比对结果文件；

对所述原始比对结果文件进行排序，产生排序结果文件；

对所述排序结果文件进行去除重复序列处理，产生去重排序结果文件；

对所述去重排序结果文件进行局部重排和碱基质量矫正，得到比对结果。
如权利要求5所述的同源假基因变异检测的方法，其特征在于：构建对照集变异位点频率数据包括以下步骤：

对对照集中每个对照样本的每个参考碱基进行变异检测，得到对照集中所有样本变异检测结果文件；

基于所述对照集中所有样本变异检测结果文件，进行变异位点合并处理，得到对照集群体的变异结果文件；

基于所述对照集群体的变异结果文件，对每个变异位点进行频率统计，得到对照集突变频率统计结果。
如权利要求1-6任一一条所述的同源假基因变异检测的方法，其特征在于：在获取实测样本原始数据后，对所述实测样本原始数据先进行质控。
如权利要求7所述的同源假基因变异检测的方法，其特征在于：所述实测样本变异结果与对照集突变频率统计结果比对进行位点筛查，去除假阳性得到实测样本的变异位点。
如权利要求8所述的同源假基因变异检测的方法，其特征在于：所述位点筛查根据对照集突变频率统计结果对相应位点进行判断：

当某位点的对照集变异频率≥0.5时，实测样本对应变异位点归结为假阳性位点；当某位点的对照集变异频率≥0.1且对照集变异频率＜0.5时，实测样本对应变异位点归结为人群多态性位点；

当某位点的对照集变异频率＜0.5时，实测样本对应变异位点归为特有变异位点。