WO2018232580A1

WO2018232580A1 - 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置

Info

Publication number: WO2018232580A1
Application number: PCT/CN2017/089108
Authority: WO
Inventors: 周泽; 孙宇辉; 张涛; 章元伟
Original assignee: 深圳华大基因研究院
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2018-12-27
Also published as: CN110621785B; CN110621785A

Abstract

一种基于三代捕获测序对二倍体基因组单倍体分型的方法和装置，该方法包括：将目标基因区域对应的CCS序列比对到参考基因组得到最优比对测序片段，然后选取杂合SNP标记；选取测序深度高于预设值的区域，在该区域中寻找杂合SNP标记数目最多的窗口；对覆盖在窗口上的测序片段进行聚类，并产生两组最优SNP集合作为种子；对种子进行延伸得到一测序片段集合；找到测序片段集合对应的杂合SNP标记集合，依据各SNP的质量值得到最优单倍型对应的SNP集合；对每一测序片段打分，并依据得分将每一测序片段进行区分单倍型的判断。本发明能够对测序结果正常，覆盖度均匀的区域所包含的测序片段进行高准确度的聚类，以区分两条单倍型对应的测序片段，实现单倍体分型的目的。

Description

基于三代捕获测序对二倍体基因组单倍体分型的方法和装置

技术领域

本发明涉及生物信息学技术领域，具体涉及一种基于三代捕获测序对二倍体基因组单倍体分型的方法和装置。

背景技术

自太平洋生物科技公司(Pacific Biosciences)于2011年发布第一台商业化“第三代”测序仪PacBio RS后，又相继发布了PacBio RSⅡ以及PacBio Sequel System。“第三代”测序领域在近些年得到了快速发展。基于单分子实时(SMRT)测序技术的“第三代”测序有着全新的技术特征。相比于第二代测序“边合成边测序”的信号放大策略，SMRT测序进行实时测序，测序过程中不需要进行PCR扩增，进而避免了PCR过程带来的碱基偏向性；与此同时，SMRT测序利用零模波导孔(ZMW)，产生极长的测序片段(reads)，例如PacBio RS测序得到的测序片段中位数可达2,246bp，最大值可达23,000bp，较之“第二代”测序中最为广泛使用的Illumina测序仪所产生的100bp测序片段而言，是一个极大的提升。并且PacBio的测序仪已经可以用于全基因组测序(Whole Genome Sequencing)、目标区域测序(Targeted Sequencing)、复杂群体分析(Complex Populations)、RNA测序(RNA Sequencing)和表观遗传测序(Epigenetics)。技术细节可以参见文章(Eid,John,et al."Real-time DNA sequencing from single polymerase molecules."Science 323.5910(2009):133-138.)。

在PacBio测序技术为动植物基因组、微生物基因组研究带来更准确、更全面、更高精度分析可能性的同时，这一测序手段仍然包含诸多技术缺陷和不成熟的部分，例如测序过程中伴随极高的错误率还会产生数量上不可忽视的短插入删除缺失(indels)，随之而来的是在下游的信息分析中面临较为严峻的挑战。例如，存在部分HLA区域测序深度过高，但另外的目标区域覆盖度不良的情况。一方面冗余下机数据达到约80G，另一方面利用现有的软件进行初步组装的效果不佳，组装出的重叠群(contig)较短(N50＝约5kbp)，并且单倍体分型(genotype phasing)的可靠性较差，尤其表现在HLA-A基因中，利用SAMtools软件进行分型的结果有明显偏差和错误，利用SAMtools对HLA-A基因附近的CCS环形矫正测序片段分型得到的两个单倍体(haplotypes)的分布显示单倍体分型(haplotypes phasing)得到的测序片段在染色体上分布非常不均衡，部分区域深度极低，另一些区域深度极高，并且在SNP的条形图中可以看到，每个条带都有多种颜色混杂，表明分型结果混乱。

现有的单倍体分型方法准确度较差，分型的分辨率不高。主要方法包括利用微阵列芯片(microarray genotyping chips)所产生的基因型分型信息(SNP genotypes)，进行少量SNP分型；还包括利用高通量测序手段，对多个个体测序，从而得到一个相关群体SNPs的概况，再利用统计学模型对群体的SNPs进行分型。最常使用的生物信息学分析工具软件SAMtools包含利用隐马科夫模型HMM(Hidden Markov Model)对单个个体进行分型的工具。但是，利用隐马科夫模型的SAMtools分型工具没有最大化利用“第三代”测序长测序片段所带来的生物信息上的优势，不能很准确的进行分型，会出现后续组装出错和组装出二倍体嵌合体的明显问题，对下游的信息分析带来了很大程度上的干扰。分型方法可以参见综述(Browning,S.R.,and Browning,B.L.(2011).haplotypes phasing:existing methods and new developments.Nat.Rev.Genet.12,703–714.)。

现有的技术专利申请(申请公布号CN105112518A，中国发明专利申请，申请公布日2015.12.02)中，为避免PacBio测序的不准确性所带来的后续信息分析的挑战，采用较为简单的原位PCR(PAC-PCR)实验手段，大量重复扩增出部分区域对应的DNA片段，再利用PacBio RSII测序仪对这些片段进行测序，利用引物的保守性方法尽量减少测序错误带来的下游比对分析错误，从而降低后续的信息分析错误。这一专利申请利用实验手段，试图降低后续生物信息分析过程的难度，弥补分析不准确的问题，实则无法进行高精度、全覆盖HLA区域的DNA检测手段，是妥协、折中的技术。

利用现有的技术专利申请(申请公布号CN105112518A，中国发明专利申请，申请公布日2015.12.02)中的方法，从数据来源的实验角度看，无法100％覆盖较长的基因，并且目标基因过于少只集中于人类第六号染色体HLA区域的几个主要基因，目标覆盖的区域过于狭小，目标基因数量过于少，无法满足日益增长的科研需求。现有专利技术中的实验方法会极大增加测序前的实验准备时间、过程和成本。需要设计特定序列的引物，并需要根据引物序列对PCR条件进行优化，实验过程复杂繁琐并且目标基因数目有限，仅能针对已有探针所对应的区域。若需要增加一个基因的测序和分型工作，将会带来极长的设计周期。从后续的数据分析角度，虽然这一方法利用了PacBio测序片段较长的优势，避免了PacBio测序过程错误率较高的劣势，但是最重要的是丧失了PacBio免于PCR过程的重要优势，无法避免测序的偏向性，使得PacBio测序作用无异于“第二代”测序手段中的“双端测序(mate-pair)”的方法。

发明内容

本发明提供一种基于三代捕获测序对二倍体基因组单倍体分型的方法和装置，能够对测序结果正常，覆盖度均匀的区域所包含的测序片段进行高准确度的聚类，以区分两条单倍型对应的测序片段，实现单倍体分型的目的。

根据第一方面，一种实施例中提供一种基于三代捕获测序对二倍体基因组单倍体分型的方法，包括：

将目标基因区域对应的CCS序列比对到参考基因组得到最优比对测序片段，其中上述CCS序列是第三代目标区域捕获测序片段经由环形矫正得到；然后依据上述最优比对测序片段选取杂合SNP标记；

依据上述最优比对测序片段选取测序深度高于预设值的区域，在上述区域中寻找上述杂合SNP标记数目最多的窗口；

对覆盖在上述窗口上的测序片段进行聚类，并依据上述聚类结果产生两组最优SNP集合作为种子；

依据上述种子与属于同一单倍型的测序片段在基因组上的位置重合，对上述种子进行延伸得到一测序片段集合；

找到上述测序片段集合对应的杂合SNP标记集合，依据各SNP的质量值得到最优单倍型对应的SNP集合；

以上述最优单倍型对应的SNP集合为标准对每一测序片段打分，并依据得分将每一测序片段进行区分单倍型的判断。

根据第二方面，一种实施例中提供一种基于三代捕获测序对二倍体基因组单倍体分型的装置，包括：

存储器，用于存储程序；

处理器，用于通过执行上述存储器存储的程序以实现如下的方法：

根据第三方面，一种实施例中提供一种计算机可读存储介质，包括程序，上述程序能够被处理器执行以实现如下的方法：

本发明使用第三代目标区域捕获测序的数据，利用第三代测序仪上机测序过程中能够得到对应染色体位置较为随机分布、片段长度较为随机并且在目标区域长度附近浮动的测序结果，既能够发挥长片段易于组装的优势，又能够体现短片段准确度高的特点。本发明的单倍体分型方法最适用于第三代测序数据，充分发挥出第三代测序手段的优势，相比第二代测序技术，可以得到高可信度的基因全长单倍体分型信息，并进而实现高精度的变异检测。

附图说明

图1为本发明一种实施例的基于三代捕获测序对二倍体基因组单倍体分型的方法流程图；

图2为本发明一个实施例中的样本测序下机数据初步处理后得到的子测序片段的长度分布图，横坐标表示子测序片段对应的长度，纵坐标代表特定长度下子测序片段的数目；

图3为本发明一个实施例中的样本测序数据进一步经过CCS环形矫正后得到的CCS序列的长度分布图，横坐标表示CCS序列的长度，纵坐标代表特定长度范围的CCS序列数目，显示CCS序列相比子测序片段在对应长度范围内的数量减少了近90％；

图4为本发明一个实施例中SNP频数与测序深度的比值分布图，图中横坐标代表这个商值，纵坐标代表特定范围内的商值数量；

图5为本发明一个实施例中CCS序列一致性图，每一个点代表样品HLA-A区域所包含的一条CCS序列，横坐标代表与杂合SNP标记一致的SNP个数，纵坐标代表与杂合SNP标记不一致的SNP个数；

图6至图12分别为本发明一个实施例中HLA-A、HLA-B、HLA-C、HLA-DPA1、HLA-DPB1、HLA-DQA1、HLA-DQB1基因综合基因组学视图(IGV，Integrative Genomics Viewer)。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本发明相关的一些操作并没有在说明书中显示或者描述，这是为了避免本发明的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所使用的各种实验室操作步骤均为相应领域内广泛使用的常规步骤。同时，为了更好地理解本发明而不是为了限定本发明的范围，下面提供相关术语的定义和/或示例性的解释。

如本文中所使用的，术语“三代捕获测序”(Targeted Sequencing)是指，例如，利用罗氏公司的磁珠捕获产品(Roche NimbleGen SeqCap EZ System)进行DNA样品处理，再利用PacBio公司的测序仪RSII进行测序。

如本文中所使用的，术语“第二代测序”是指，例如，利用最广泛使用的Illumina公司HiSeq 4000等测序仪进行测序，可以参见综述文献(Michael Metzker(2010),Sequencing technologies-the next generation,Nature Genetics)。

如本文中所使用的，术语“PacBio”是指，太平洋生物科技公司(Pacific Biosciences)发布的PacBio RSⅡ以及PacBio Sequel System测序仪。

如本文中所使用的，术语“第三代测序”是指，例如，目前最为成熟的基于太平洋生物科技公司SMRT测序方法进行的单分子实时测序。

如本文中所使用的，术语“聚合酶测序片段(Polymerase Read)”是指，例如，利用PacBio测序仪在测序过程中由光学信号直接转化成的包含序列信息的测序片段。

如本文中所使用的，术语“接头(adapter)”是指，例如，利用PacBio测序仪进行测序之前需要将DNA片段进行修饰，两端各需要加上一个DNA发夹结构单链，这段DNA发夹结构单链具有特定的序列。

如本文中所使用的，术语“子测序片段(subreads)”是指，上文提到的聚合酶测序片段去掉接头序列之后保留下的一段或者几段测序片段。

如本文中所使用的，术语“CCS(Circular Consensus Sequences)环形矫正”是指，将来自于同一聚合酶测序片段的几段子测序片段进行环形合并，以得到准确度较优的一条合成序列片段的过程。

如本文中所使用的，术语“单倍体分型(haplotypes phasing)”是指，例如，对于二倍体生物(例如人类)，将测序得到的测序片段对应该生物同种的两条染色体，将所有的测序片段进行聚类区分所属的两条单倍型的过程。

如本文中所使用的，术语“单核苷酸突变(SNP)”是指，在生物体内单个核苷酸的变异所引起的DNA序列多态性(single nucleotide polymorphism)。

如本文中所使用的，术语“杂合SNPs”是指，二倍体生物例如人类，在成对的染色体上相同位置发生单核苷酸突变，并且这两个突变碱基的种类不同。

如本文中所使用的，术语“重叠群(contig)”是指，将具有一定序列重合的两条或者多条测序片段相连接，得到的更长的序列。

如本文中所使用的，术语“种子(seed)”是指，在单倍体分型方法中，作为测序片段分析的起始测序片段。

如本文中所使用的，术语“窗口”是指，在单倍体分型方法中，统计染色体特定坐标范围内对应数值时，所使用的坐标范围长度。

本发明针对现有单倍体分型软件单倍体分型结果准确度不高的问题，提供一种完整的单倍体分型方法，可以对测序结果正常、覆盖度均匀的区域所包含的测序片段进行高准确度聚类，以区分两条单倍型对应的测序片段，达到单倍体分型的目的。

本发明提供一种完整的基于“第三代测序技术”的目标区域捕获测序手段得到单倍体精度准确、详细而完整的变异信息的方法，其中包括单核苷酸多态性(SNP)、插入缺失变异(Indel)、染色体结构变异(SV)以及拷贝数变异(CNV)等的下游信息分析方法，以解决目前尚且没有用于解决第三代目标区域捕获测序数据的信息分析和数据处理流程的问题。本发明包括一个完整的信息分析方法，可以将PacBio RSII测序的下机数据经由测序对应的bax.h5原始数据文件、CCS序列对应的FASTQ序列信息文件、比对得到的BAM比对信息文件、组装得到的FASTA组装基因组序列文件到最终的变异信息VCF文件。

本发明的数据分析方法所需要的数据来自于现已成熟并广泛使用的目标区域捕获测序的实验方法，例如HLA区域捕获测序。

在进行本发明的单倍体分型方法之前的数据预处理过程包括：

1)PacBio RSII的标准化测序流程，按照PacBio RSII的标准化测序说明书进行。

2)SMRT分析初步信息处理，具体包括：

a)基于PacBio RSII的标准化测序流程得到包含聚合酶测序片段的信息，以二进制形式存储在bax.h5文件中。

b)利用PacBio公司提供的SMRT分析软件包中的软件(https://github.com/PacificBiosciences)去掉测序建库过程中加入的接头(adapter)序列得到更短的子测序片段(subreads)。

c)对这些子测序片段(subreads)利用PacBio公司提供的生物分析软件包中的软件，对随机分布并且对随机发生的测序错误，利用测序质量值和频数等信息信息，进行CCS(Circular Consensus Sequences)环形矫正，对同一零模波导孔(ZMW)中的子测序片段进行合并，以减少子测序片段中的单核苷酸突变错误(SNVs)和插入缺失变异错误(Indels)，以得到准确度更高的CCS序列。

3)比对至参考基因组，具体包括：

使用基于Burrows-Wheeler算法的比对软件BWA(http://bio-bwa.sourceforge.net/)将准确度较高的CCS序列比对到例如人参考基因组(GRCh37.p13)上，以确定这些CCS序列来源于人类基因组的哪些位置。然后选取目标基因区域，例如HLA区域的基因，如HLA-A、HLA-B、HLA-C、HLA-DQA1、HLA-DQB1、HLA-DPA1、HLA-DPB1等基因，提取出基因全长区域所对应的所有CCS序列。

然后进行本发明的单倍体分型方法，如图1所示，一种实施例中提供的基于三代捕获测序对二倍体基因组单倍体分型的方法，包括：

步骤S101：将目标基因区域对应的CCS序列比对到参考基因组得到最优比对的对应染色体上的位置，其中CCS序列是第三代目标区域捕获测序片段经由环形矫正得到；然后依据最优比对得到的CCS序列对应染色体位置选取杂合SNP标记。

最优比对测序片段(best hit read)是指对比分数(alignment score)最大的比对测序片段。这些测序片段的起始和终止位置坐标信息以及所包含的全部SNPs型别和坐标信息被存储以备调用，例如储存在特定的变量结构(structure)中。

在本发明的一个优选的实施例中，依据最优比对测序片段选取杂合SNP标记的步骤具体包括：

对最优比对测序片段上的每一SNP，计算该SNP的频数(AF)与该位置的测序深度(depth)的比值数量关系，并选取比值介于预设截断值(cutoff value)范围的SNP作为杂合SNP标记(markers)，用作单倍体分型的依据。在本发明的一个优选的实施例中，预设截断值范围为25％至75％，因为靠近0％和100％的部分是由于第三代测序过程中的测序错误造成的，因此0％至25％和75％至100％的范围内包含较多测序错误的SNP，故在杂合SNP标记选择时不考虑这两部分SNP。

步骤S102：依据最优比对CCS序列片段选取测序深度高于预设值的区域，在这些区域中寻找杂合SNP标记数目最多的窗口。

在本发明的一个优选的实施例中，测序深度通常需要大于最高测序深度的一半，这样的区域称为“高测序深度区域”，例如，在这样的区域中，CCS序列片段均匀分布，具有75×以上的测序深度。

窗口(window)的大小可以依据经验的默认值，例如500bp，在这些高测序深度的窗口中找到杂合度最高的部分窗口，即杂合SNP标记数目最多的窗口，确立这些窗口的位置，作为种子选择的依据。

步骤S103：对覆盖在窗口上的CCS序列片段进行聚类，并依据聚类结果产生两组最优SNP集合作为种子。

在本发明的一个优选的实施例中，对覆盖在窗口上的CCS序列片段进行聚类可以具体包括：将一窗口与左右相邻的窗口加和得到的三倍窗口区域内的SNP，对相同位置、不同种类的SNP进行区分统计，得到两个单倍型对应的SNP集合。

在本发明的一个优选的实施例中，依据聚类结果产生两组最优SNP集合作为种子可以具体包括：依据两个单倍型对应的SNP集合进行人工模拟，选取一窗口与左右相邻的窗口加和得到的三倍窗口区域作为种子的长度，并且选取频数最高的SNP组合作为种子携带的SNP信息，进而产生两组最优SNP集合，分别作为两个单倍型的起始种子。

步骤S104：依据种子与属于同一单倍型的CCS序列片段在基因组上的位置重合，对种子进行延伸得到一CCS序列片段集合。

在本发明的一个优选的实施例中，对种子进行延伸得到一CCS序列片段集合具体包括：每条种子分别都对全部CCS序列片段进行查阅。在延伸起始时每条种子所对应的三倍窗口区域作为已知区域(detected region)，又称为已经延伸的区域，对每条CCS序列片段与已知区域有重合(overlap)的部分对应的SNP进行判断，比较其位置、种类和测序质量值；将属于同一单倍型的CCS序列片段，依据其在基因组上的位置与已知区域的空间重合度，按照空间重合度从大到小的顺序分级，再依次加入已知区域，直至延伸到所有CCS序列片段末端，进而构建完整的单倍型并记录CCS序列片段集合。

步骤S105：找到CCS序列片段集合对应的杂合SNP标记集合，依据各SNP的质量值得到最优单倍型对应的SNP集合。

在本发明的一个优选的实施例中，依据各SNP的质量值得到最优单倍型对应的SNP集合可以具体包括：计算杂合SNP标记集合中各SNP对应的测序质量值，选取测序质量值加和最高的SNP，得到最优单倍型对应的SNP集合。

步骤S106：以上述最优单倍型对应的SNP集合为标准对每一CCS序列片段打分，并依据得分将每一CCS序列片段进行区分单倍型的判断。

在本发明的一个优选的实施例中，上述打分和区分单倍型的判断可以具体包括：依据每一CCS序列片段上SNP的位置、种类与上述最优单倍型对应的SNP集合的重叠程度，利用测序质量值进行加权的一致性比值计算，根据每一CCS序列片段的得分情况将每一CCS序列片段进行区分单倍型的判断，选择一致性较高(例如前50％)的CCS序列片段，实现区分两个单倍型的目的。

在本发明的一个优选的实施例中，在区分单倍型的判断之后，还包括：对目标基因对应的两个单倍型下的CCS序列片段进行组装以构建重叠群(contig)，进而得到目标基因的全长单倍型序列。

在得到覆盖目标基因区域的重叠群的基础上，利用已经成熟并广泛使用的重测序分析流程进行变异(例如SNPs、indels、SVs、CNVs)的标准检测。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明的另一个实施例提供一种基于三代捕获测序对二倍体基因组单倍体分型的装置，包括：存储器，用于存储程序；处理器，用于通过执行上述存储器存储的程序以实现如下的方法：将目标基因区域对应的CCS序列片段比对到参考基因组得到最优比对的染色体位置，其中上述CCS序列片段是第三代目标区域捕获测序片段经由环形矫正得到；然后依据上述最优比对CCS序列片段选取杂合SNP标记；依据上述最优比对CCS序列片段选取测序深度高于预设值的区域，在上述区域中寻找上述杂合SNP标记数目最多的窗口；对覆盖在上述窗口上的CCS序列片段进行聚类，并依据上述聚类结果产生两组最优SNP集合作为种子；依据上述种子与属于同一单倍型的CCS序列片段在基因组上的位置重合，对上述种子进行延伸得到CCS序列片段集合；找到上述CCS序列片段集合对应的杂合SNP标记集合，依据各SNP的质量值得到最优单倍型对应的SNP集合；以上述最优单倍型对应的 SNP集合为标准对每一CCS序列片段打分，并依据得分将每一CCS序列片段进行区分单倍型的判断。

本发明的又一个实施例提供一种计算机可读存储介质，包括程序，上述程序能够被处理器执行以实现如下的方法：将目标基因区域对应的CCS序列片段比对到参考基因组得到最优比对的染色体上的位置，其中上述CCS序列片段是第三代目标区域捕获测序CCS序列片段经由环形矫正得到；然后依据上述最优比对CCS序列片段选取杂合SNP标记；依据上述最优比对CCS序列片段选取测序深度高于预设值的区域，在上述区域中寻找上述杂合SNP标记数目最多的窗口；对覆盖在上述窗口上的CCS序列片段进行聚类，并依据上述聚类结果产生两组最优SNP集合作为种子；依据上述种子与属于同一单倍型的CCS序列片段在基因组上的位置重合，对上述种子进行延伸得到一CCS序列片段集合；找到上述CCS序列片段集合对应的杂合SNP标记集合，依据各SNP的质量值得到最优单倍型对应的SNP集合；以上述最优单倍型对应的SNP集合为标准对每一CCS序列片段打分，并依据得分将每一CCS序列片段进行区分单倍型的判断。

本发明的实施例使用第三代目标区域捕获测序的数据，利用第三代测序仪上机测序过程中能够得到对应染色体位置较为随机分布、片段长度较为随机并且在目标区域长度附近浮动的测序结果，既能够发挥长片段易于组装的优势，又能够体现短片段准确度高的特点。本发明的单倍体分型方法最适用于第三代测序数据，充分发挥出第三代测序手段的优势，相比第二代测序技术，可以得到高可信度的基因全长单倍体分型信息，并进而实现高精度的变异检测。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例

本实施例对人类第六号染色体上HLA目标区域捕获测序，并对HLA-A、HLA-B、HLA-C、HLA-DPA1、HLA-DPB1、HLA-DQA1、HLA-DQB1基因全长区域的信息分析。

对华大基因BGI-YH细胞系样本利用现在已经成熟并公开的实验技术，进行HLA完整全长区域捕获实验，构建长度为10K的文库并使用PacBio RSII测序仪进行测序。并且对于同一BGI-YH样本，进行5次平行独立地捕获、建库、测序操作。基于PacBio RSII的标准化测序流程得到包含聚合酶测序片段的信息，以二进制形式存储在bax.h5文件中。

利用PacBio公司提供的SMRT分析软件包中的软件(https://github.com/PacificBiosciences)去掉测序建库过程中加入的接头(adapter)序列得到更短的子测序片段(subreads)。子测序片段的长度分布如图2所示，曲线平滑同时包含测序片段长度为2.5k的主峰和较为明显的在5k附近的拖尾。

利用PacBio公司提供的SMRT分析中的RS_ReadsOfInsert.xml协议进行CCS环形矫正(circular consensus sequencing)得到fastq文件。bax.h5文件总计约80G，CCS矫正之后得到的ccs.fastq文件可达290M，同时还存在约240M的clr.fastq文件(这一文件仅包含单次测序得到的连续的长测序片段，无法进行CCS矫正)。CCS序列片段的长度分布如图3所示，曲线平滑同时包含CCS序列片段长度为2.5k的主峰和较为明显的5k的次峰。

利用开源的BWA比对软件(Version:0.5.9-r16)下的适用于较长序列比对的MEM算法(BWA-MEM)将这一CCS序列文件与人类参考基因组(GRCh37.p13)进行比对得到SAM格式的CCS序列片段比对文件。通过SAM文件中的CCS序列片段的位置信息选取研究所需的目标区域，例如HLA-A基因和这一基因临近的区域(NC_000006.11(29910247..29913661)对应的CCS序列片段。

利用开源的SAMtools软件(Version:0.5.9-r16)中view、sort、rmdup、index命令依次对该文件进行操作，先将SAM格式的文件转换成二进制的BAM文件，再用sort命令进行排序，接下来使用SAMtools软件中的rmdup命令去除由于PCR重复产生的CCS序列片段，用index命令产生.bai的索引文件。

根据其中杂合SNP的具体情况利用本发明提供的信息分析方法进行单倍体分型(haplotypes phasing)以区分两条单倍型(haplotypes)，具体过程如下：

(a)对上一步提取出的基因全长区域所对应的所有CCS序列片段比对至人类参考基因组(GRCh37.p13)所得到的BAM文件进行完整查阅并记录和装载到内存中。将CCS序列片段信息储存在哈希变量结构(hash)中，用以找到对比分数(alignment score)最大的比对CCS序列片段，即最优比对CCS序列片段(best hit read)。并将这些CCS序列片段起始和终止位置坐标信息以及所包含的全部SNPs型别和坐标信息储存在特定的变量结构(structure)中。

(b)利用程序循环，完整查阅内存中所有的最优比对CCS序列片段信息，构建测序深度(depth)和覆盖度与SNPs频数(AF)的数量关系。选取25％-75％作为截断值(cutoff value)范围，用于选取杂合SNP作为单倍体分型的依据，即杂合SNP标记。SNP频数与测序深度的比值分布情况如图4所示。

(c)查阅内存中所有最优比对CCS序列片段，找到测序深度较高(大于最高测序深度的一半)的高测序深度区域(CCS序列片段均匀分布的区域，测序深度75×以上)，并且设置统计窗口大小(依据经验的默认值为500bp)，在这些高深度的窗口中找到杂合度最高的部分窗口，即杂合SNP标记数目最多的窗口，确立这些窗口的位置，作为种子选择的依据。

(d)利用上一步中得到的杂合SNP标记数目最多的窗口，对覆盖在窗口上的所有CCS序列片段，依据其带有的SNP位置和种类进行聚类分析。这一聚类分析的具体过程为：对一个窗口和左右各相邻的一个窗口加和得到的三倍窗口大小区域内的SNP进行分析。对相同位置、不同种类的SNP进行区分统计，分离得到两个单倍型对应的SNP集合。完成聚类分析过程后，再依据得到的两个单倍型SNP集合进行人工模拟，选取窗口和左右各相邻的一个窗口加和得到的三倍窗口大小的区域作为种子的长度，并且选取频数最高的SNP组合作为种子携带的SNP信息，进而产生两组最优SNP集合，分别作为两个单倍型的起始种子。

(e)每一种子分别都对全部CCS序列片段进行查阅。在延伸起始时，每条种子所对应的三倍窗口大小区域为已知区域，又称为已经延伸的区域。对每条CCS序列片段与已已经延伸的区域有重合的部分对应的SNPs进行判断，比较SNP的位置、种类和测序质量值。这一过程采用分级(hierarchically)的思路，将属于同一单倍型的CCS序列片段依据其在基因组上的位置与已经延伸的区域的空间重合度，按照空间重合度从大到小的顺序分级。再依次加入已经延伸的区域，直至延伸到所有CCS序列片段的末端，构建一条完整单倍型并且记录CCS序列片段。

(f)利用上一步延伸得到的CCS序列片段集合，找到这些CCS序列片段上对应的杂合SNP标记集合。计算各个SNP对应的质量值，选取其中质量值加和最高的SNP，得到最优单倍型对应的SNP集合。

(g)以上一步得到的最优单倍型对应的SNP集合为标准，对每一条CCS序列片段进行打分判定。依据每一条CCS序列片段上SNP的位置、种类与上一步得到的SNP集合的重叠程度，利用测序质量值进行加权的一致性比值计算，评分并记录，如图5所示。依据每条CCS序列片段的得分情况，可以将每一条CCS序列片段进行区分单倍型的判断，选择一致性较高的前50％的CCS序列片段，以达到区分两个单倍型的目的。

利用Canu组装软件(https://github.com/marbl/canu)对每一条单倍型下的CCS序列片段进行组装得到高准确率、完整分型的两条重叠群。每一步的序列片段和碱基数目的详细信息如表1所示。

表1每一操作步骤的数据量详细信息

步骤	测序片段数目	碱基数目
子测序片段	1,405,529	3,902,016,486
CCS矫正后的测序片段	154,307	469,301,593
Canu矫正后的测序片段	31,204	95,842,806
Canu剪裁后的测序片段	27,692	90,664,025

图6至图12分别示出了本实施例中HLA-A、HLA-B、HLA-C、HLA-DPA1、HLA-DPB1、HLA-DQA1、HLA-DQB1基因综合基因组学视图(IGV，Integrative Genomics Viewer)。显示了PacBio SMRT分析CCS环形矫正后，利用本实施例的单倍体分型方法进行分型操作得到各个基因附近两条单倍体对应测序片段并利用Canu组装得到的重叠群在人类参考基因组上的分布情况，体现出这些基因区域测序深度较高的同时覆盖度(coverage)完整。图中覆盖度条形图表现出单倍体分型之后每一SNP位置碱基的频数情况，条形图中每个条带绝大部分由一种颜色填充，体现出单倍体分型的准确度较高。

利用BWA比对软件(版本:0.5.9-r16)下的MEM算法将上一步得到的重叠群序列文件与人类参考基因组(GRCh37.p13)进行比对得到SAM格式文件。

利用变异检测(SNP calling)软件，对上一步得到的SAM文件进行SNP检测，BGI-YH样本HLA-A基因全长以及临近区域的两条单倍型所携带的SNP变异检测结果如表2中所示，与金标准的桑格测序(Sanger sequencing)的比较结果如表3所示，一致率达到100％(FP＝0.0％，FN＝0.0％)，显示本发明实施例中所包含的数据处理流程和其中的单倍体分型方法能够达到与金标准相同的准确度，优于“第二代”测序的变异分析结果。

表2HLA-A基因全长以及临近区域SNP变异的详细信息

表3与金标准(Sanger测序)的详细比较信息

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

一种基于三代捕获测序对二倍体基因组单倍体分型的方法，其特征在于，包括：

将目标基因区域对应的CCS序列比对到参考基因组得到最优比对测序片段，其中所述CCS序列是第三代目标区域捕获测序片段经由环形矫正得到；然后依据所述最优比对测序片段选取杂合SNP标记；

依据所述最优比对测序片段选取测序深度高于预设值的区域，在所述区域中寻找所述杂合SNP标记数目最多的窗口；

对覆盖在所述窗口上的测序片段进行聚类，并依据所述聚类结果产生两组最优SNP集合作为种子；

依据所述种子与属于同一单倍型的测序片段在基因组上的位置重合，对所述种子进行延伸得到一测序片段集合；

找到所述测序片段集合对应的杂合SNP标记集合，依据各SNP的质量值得到最优单倍型对应的SNP集合；

以所述最优单倍型对应的SNP集合为标准对每一测序片段打分，并依据得分将每一测序片段进行区分单倍型的判断。
根据权利要求1所述的方法，其特征在于，所述依据所述最优比对测序片段选取杂合SNP标记具体包括：

对所述最优比对测序片段上的每一SNP，计算该SNP的频数与该位置的测序深度的比值，并选取比值介于预设截断值范围的SNP作为所述杂合SNP标记；优选地，所述预设截断值范围为25％至75％。
根据权利要求1所述的方法，其特征在于，所述测序深度高于预设值的区域是指测序深度大于最高测序深度的一半的区域；优选地，所述测序深度高于预设值的区域是指测序深度为75×以上的区域。
根据权利要求1所述的方法，其特征在于，所述对覆盖在所述窗口上的测序片段进行聚类具体包括：将一窗口与左右相邻的窗口加和得到的三倍窗口区域内的SNP，对相同位置、不同种类的SNP进行区分统计，得到两个单倍型对应的SNP集合。
根据权利要求1所述的方法，其特征在于，所述依据所述聚类结果产生两组最优SNP集合作为种子具体包括：依据所述两个单倍型对应的SNP集合进行人工模拟，选取一窗口与左右相邻的窗口加和得到的三倍窗口区域作为种子的长度，并且选取频数最高的SNP组合作为种子携带的SNP信息，进而产生两组最优SNP集合，分别作为两个单倍型的起始种子。
根据权利要求1所述的方法，其特征在于，所述对所述种子进行延伸得到一测序片段集合具体包括：

在延伸起始时每条种子所对应的三倍窗口区域作为已知区域，对每条测序片段与所述已知区域有重合的部分对应的SNP比较其位置、种类和测序质量值；将属于同一单倍型的测序片段，依据其在基因组上的位置与所述已知区域的空间重合度，按照所述空间重合度从大到小的顺序分级，再依次加入所述已知区域，直至延伸到所有测序片段末端，进而构建完整的单倍型并记录测序片段集合。
根据权利要求1所述的方法，其特征在于，所述依据各SNP的质量值得到最优单倍型对应的SNP集合具体包括：

计算所述杂合SNP标记集合中各SNP对应的测序质量值，选取所述测序质量值加和最高的SNP，得到所述最优单倍型对应的SNP集合。
根据权利要求1所述的方法，其特征在于，所述打分和区分单倍型的判断具体包括：

依据每一测序片段上SNP的位置、种类与所述最优单倍型对应的SNP集合的重叠程度，利用测序质量值进行加权的一致性比值计算，根据每一测序片段的得分情况将每一测序片段进行区分单倍型的判断。
根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

在所述区分单倍型的判断之后，对所述目标基因对应的两个单倍型下的CCS序列进行组装以构建重叠群，进而得到所述目标基因的全长单倍型序列。
一种基于三代捕获测序对二倍体基因组单倍体分型的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1至9中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1至9中任一项所述的方法。