WO2013097143A1

WO2013097143A1 - 估计基因组杂合率的方法和装置

Info

Publication number: WO2013097143A1
Application number: PCT/CN2011/084915
Authority: WO
Inventors: 郑泽群; 陶晔; 冯子浩; 汪健; 杨焕明; 王俊
Original assignee: 深圳华大基因科技服务有限公司
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-07-04

Abstract

本发明公开了一种估计基因组杂合率的方法和装置。所述方法包括：获得某个体基因组的RAD单端测序序列；对RAD单端测序序列进行过滤以去除不合格的测序序列；对序列相同的测序序列进行统计，得到每种测序序列的深度信息；过滤掉测序深度为1的测序序列；在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点；根据杂合位点总数得到该个体基因组的杂合率。

Description

估计基因组杂合率的方法和装置技术领域

本发明涉及生物信息学技术领域，尤其涉及一种估计基因组杂合率的方法和装置。背景技术

基因组的杂合是指二倍体个体或者多倍体个体在同源染色体同一个位置上的单差异。

第二代 DNA测序技术是一种高通量低成本的测序技术，基本原理是边合成边测序。以 solexa测序方法为例，先用物理方法将 DNA链随机打断，然后在片段两端加上特定接头，接头上有扩增引物序列。测序时， DNA聚合酶合成待测片段的互补链，通过检测新合成碱基所携带的荧光信号读取序列，从而获得待测片段的序列，这些序列称为测序片段或测序序列（ reads ) ( http://www.illumina.com ) 。

对一个物种的 DNA分子进行测序并进行重新（Denovo )组装一般需要对物种的序列情况先有个大概的了解。由于序列组装是通过测序片段之间的重叠关系来还原基因组的序列信息。在这种情况下，如果杂合率过高的话，利用全基因组鸟枪法获得的测序数据进行 Denovo 组装的效果不会太理想。因此通常需要在 Denovo组装前进行基因组勘测（Genome Survey ) ，以了解基因组的杂合率含量。

对基因组进行 Survey的传统方式需要进行全基因组测序，测序深度大概在 20~30x的数据之间。在得到测序数据之后，利用 reads数据得到 kmer 频数分布图，从而进行基因组杂合率的估计。具体方法为，假设存在完整的连续序列，随机选取片段长度为 K，该片段称为 kmer。因此，当 reads长度为 L， kmer长度取为 K时，则一个 reads上面可以得到 L-K+1个 kmer。接着统计所有 reads上不同种类 kmer出现的频数，就可以得到 kmer频率分布图。具体过程如图 1所示。

根据 Lander-Waterman统计，基因组 kmer的频数分布可以近似地认为 ^从泊松分布。根据泊松分布的理论，峰值对应的测序深度即为基因组的平均测序深度。对于二倍体而言，如果基因组杂合率比较高的话，会在 kmer 分布主峰的二分之一处出现杂合峰。要估计基因组的杂合率，需要用其他基因组的数据来进行模拟，比如通过拟南芥的基因组来模拟目标基因组的杂合率。在拟南芥中，通过人为设置特定杂合率，生成与目标基因组测序深度一致的模拟 reads, 接着通过模拟 reads得到 kmer频数分布图。通过比较模拟生成的 kmer 频数分布与目标基因组 kmer 分布的一致性，设置不同的杂合率，从而估计出目标基因组的杂合率，具体如图 2所示。

由于这种传统的基因组勘测方法需要进行全基因组测序，测序深度大概在 20~30x的数据之间，因此成本比较高；由于测序数据量大，在处理数据的时候需要较多的计算资源；而且需要已知基因组的数据进行模拟，进一步增加了处理步骤和数据处理量。因此亟需一种新的基因组勘测方法，利用较少的测序数据量即可方便地估计出基因组的杂合率，以降低传统方法所需要的极高的测序成本和计算资源成本。发明内容

鉴于以上问题提出本发明。

本发明的第一方面提供了一种估计基因组杂合率的方法，包括：获得某个体基因组的 RAD 单端测序序列（reads ); 对 RAD单端测序序列进行过滤以去除不合格的测序序列；对序列相同的测序序列进行统计，得到每种测序序列的深度信息；过滤掉测序深度为 1 的测序序列；在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点；根据杂合位点总数得到该个体基因组的杂合率。

优选地，所述不容许空隙的两两比对的容许的错配数根据测序序列的长度确定，即根据测序序列的长度确定不容许空隙的两两比对的比对条件。

优选地，所述在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点包括：在每种测序序列之间进行不容许空隙的两两比对；将所有满足比对条件的测序序列进行聚类；挑选出聚类结果中只有两种测序序列的聚类结果，该测序序列的位置即存在杂合位点。

优选地，还包括：去除处于基因组序列的重复区域中的杂合位点。

满足如下条件作为处于基因组序列的重复区域中的杂合位点：测序序列在基因组上存在多个拷贝，且具有较高的测序深度，其中一个拷贝与对应的同源染色体上存在杂合位点。在本发明的一个实施方案中，所述较高的测序深度是指平均测序深度的两倍。

优选地，不合格的测序序列包括：测序质量低于预定的低质量阈值的碱基个数超过整条测序序列碱基个数的 50%的测序序列；和 /或测序序列中测序结果不确定的碱基个数超过整条测序序列碱基个数的 10%的测序序列；和 /或存在外源序列的测序序列；和 /或起始的几个碱基不是酶切末端序列的测序序列。

优选地，根据杂合位点总数得到该个体基因组的杂合率包括：将杂合位点总数除以非重复区域的测序序列的总长，即可得到测序个体 RAD 测序位置的杂合率，并近似估计整个基因组的杂合率。

本发明的另一方面提供了一种估计基因组杂合率的装置，包括：测序序列获取设备，用于获得某个体基因组的 RAD单端测序序列；测序序列过滤设备，用于对获得的 RAD单端测序序列进行过滤以去除不合格的测序序列；测序深度确定设备，用于统计序列相同的测序序列，得到每种测序序列的深度信息；序列深度过滤设备，用于过滤掉测序深度为 1 的测序序列；杂合位点确定设备，用于在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点；杂合率获取设备，用于根据杂合位点总数得到该个体基因组的杂合率。

优选地，杂合位点确定设备包括：比对单元，用于在每种测序序列之间进行不容许空隙的两两比对；聚类单元，用于将所有满足比对条件的测序序列进行聚类；杂合位点确定单元，用于挑选出聚类结果中只有两种测序序列的聚类结果，该测序序列的位置即存在杂合位点。

优选地，还包括重复区杂合位点去除设备，用于去除处于基因组序列的重复区域中的杂合位点。

优选地，重复区杂合位点去除设备判断满足如下条件作为处于基因组序列的重复区域中的杂合位点：测序序列在基因组上存在多个拷贝，且具有较高的测序深度，其中一个拷贝与对应的同源染色体上存在杂合位点。在本发明的一个实施方案中，所述较高的测序深度是指平均测序深度的两倍。

本发明的一个优点在于，通过基因组的部分测序即可方便地估计出基因组的杂合率，降低了测序成本和计算资源成本，同时不需要已知的基因组数据进行模拟，简化了处理步骤。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。附图说明

图 1示出现有技术中通过测序 reads得到 kmer频数分布图的流程示意图；

图中的横坐标表示 kmer 的测序深度，纵坐标表示具有某一特定测序深度的 kmer种类数占总的 kmer种类数的百分比；

图 2示出现有技术中通过拟南芥基因组模拟目标基因组杂合率的示意图；

图 3示出 RAD测序技术的各个步骤的示意图；

图 4示出本发明的估计基因组杂合率的方法的一个实施例的流程图；

图 5示出基因组的 RAD单端测序的一个例子的示意图；图 6示出测序序列的深度信息统计示意图；

图 7示出测序序列的深度信息存储示意图；

图 8示出本发明的测序序列比对的一个例子的流程图；图 9示出位于重复区域的杂合位点的例子的示意图；图 10 示出本发明的估计基因组杂合率的方法的一个应用例的示意图；图 11 示出本发明的估计基因组杂合率的装置的一个实施例的结构图；

图 12 示出本发明的估计基因组杂合率的装置的另一个实施例的结构图。具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步驟的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

针对现有技术的问题，本公开提供了一种新的生物信息学分析方案，处理 RAD ( estriction-site Associated ΝΑ, P艮制性内切位点相关 DNA )数据，寻找 RAD 测序片段上的杂合位点信息，以计算杂合率，简化了现有技术中的处理步骤，也降低了测序成本和计算资源成本。

下面介绍几个本发明的技术方案涉及的概念。

RAD测序技术采用了新的建库方式，其测序具体过程如图 3 所示，用限制性内切酶切断 DNA特定的位点，再用物理方法将酶切之后的 DNA分子随机打断，通过琼脂糖胶 DNA分离技术挑选特定长度的 DNA分子，然后在挑选出来的 DNA末端添加特定的扩增接头与测序接头，从而构建上机文库进行高通量测序。

杂合率是指测序序列非重复区域的杂合位点数占非重复区域的测序序列总长度的百分比。

不容许空隙的两两比对是指比对的时候不容许开空位。即不考虑开空位比对上的情况，例如以下两条序列的比对结果就不满足不容许空隙的两两比对条件：

序列 1: AATTCATCGAC

序列 2: AA CATCGTC。

平均测序深度是指聚类结果的总深度除以聚类结果数。

图 4示出本发明的估计基因组杂合率的方法的一个实施例的流程图。

如图 4所示，步骤 402, 获得某个体基因组的 RAD单端测序序列。图 5 示出了 RAD单端测序的一个例子的示意图。在图 5 中显示了用限制性内切酶 Ecor l，识别 DNA 分子上 "G^AAATTC" 的回文序列，并在 G 与 A之间将 DNA分子切断，将酶切后的 DNA分子用物理方法打断成短的序列片段，并在其中酶切的一端加上接头并对 DNA 片段进行单末端测序，测序读长一般为 50nt, 也可以为 100nt。

步骤 404, 对 RAD单端测序序列进行过滤以去除不合格的测序序列。例如，接收到高通量 RAD单端测序序列后，对测序序列进行过滤，去除不合格的序列。其中高通量测序技术可以为 Illumina GA 测序技术，也可以为现有的其他高通量测序技术。不合格测序序列例如包括：测序质量低于预定的低质量阈值的碱基个数超过整条序列碱基个数的 50%则认为是不合格序列。低质量阈值由具体测序技术及测序环境而定，例如设定为单碱基测序质量低于 20; 测序序列中测序结果不确定的碱基（如 Illumina GA测序结果中的 N )个数超过整条测序序列碱基个数的 10%则认为是不合格序列；除样本接头序列外，与其它实验引入的外源序列比对，如各种接头序列。若序列中存在外源序列则认为是不合格序列；在测序序列中，若起始的几个碱基不是酶切末端序列则过滤掉（如限制性内切酶 Ecor l , 测序序列开头若不是 "AATTC" 则过滤掉整个测序序列）。

步骤 406对序列相同的测序序列进行统计，得到每种测序序列的深度信息。例如，将序列相同的测序序列进行统计计数，每种测序序列集合为一堆（Stack ), 这样就可以得到每一种测序序列的测序深度信息。具体过程如图 6所示。堆的信息可以以图 7 的方式^ ·, 在图 7 中，第一列表示的是 RAD测序序列信息；第二列表示的是该序列被测序的次数，即深度信息；第三列是该序列信息的 ID。

步骤 408过滤掉测序深度为 1的测序序列。深度为 1的测序序列通常是由测序错误导致的，过滤掉深度为 1 的测序序列信息，减少由于测序错误引起的的 SNP位点。

步骤 410在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点。比对的时候容许的错配数随测序的长度来定，例如在测序长度小于 50nt的情况下，容许的错配数为 1 , 和度在 lOOnt的情况下，容许的错配数为 2。

步骤 412根据杂合位点总数得到该个体基因组的杂合率。上述实施例中，通过直接处理 RAD 测序序列数据，寻找 RAD片段上的杂合位点，进一步获得杂合率信息，不依赖于已知基因组的数据信息，克服了传统获得杂合率方法的一些技术瓶颈。通过 RAD 测序方式将会对基因组的特定区域进行富集测序，从而降低了数据测序量，并且由于分析方法的不同和数据量的减少，降低了分析所需的计算资源和测序成本。

根据本发明的方法，本发明的一个实施例提出一种新的比对方法，该方法的基本思路为：在每种测序序列之间进行不容许空隙的两两比对，使用的比对软件可以是任何一款序列比对软件，如 blast、 blat等；将所有满足容许错配的比对条件的测序序列进行聚类，其中只有一种 reads的聚类结果表明在测序 reads的位置不存在杂合位点，只有两条 reads的聚类结果表明在测序 reads 的位置存在杂合位点，通常这个杂合位点不会处于重复区域。

具体过程如图 8所示：

步骤 802 , 在每种测序序列之间进行不容许空隙的两两比对。

步骤 804，将所有满足比对条件的测序序列进行聚类。

步骤 806 , 挑选出聚类结果中只有两种测序序列的聚类结果，该测序序列的位置即存在杂合位点。

通过上述实施例的比对方法，运算量小，速度快、效率高，简化了传统方式中的处理步骤。

在本发明的一个实施例中 , 通过测序序列比对确定杂合位点后，还需要过滤掉重复区域的杂合位点。图 9示出了位于重复区域的杂合位点的情况：

序列 1 在基因组上存在多个拷贝，具有较高的测序深度；其中一个拷贝上与对应的同源染色体上存在杂合位点 , 比对的时候就会出现图 9 中的比对结果。在本发明的一个实施方案中，所述较高的测序深度是指平均测序深度的两倍。

在处理过程中都会把重复区域的杂合位点过滤掉。

通过 RAD 测序序列数据的过滤，比对，重复区域的筛选，最终得到具有足够深度信息支持的 RAD 测序位置的杂合位点集合，进而得到 RAD测序位置的杂合率。

由于在基因组序列上，杂合位点的分布是比较均匀的， RAD 测序方法相当于随机抽取了基因组 DNA序列上的某些片段，并通 RAD测序片段的分析，得到所有 RAD测序片段位置的杂合率。由于 RAD 测序方法能够测到基因组百分之三到百分之六的序列信息，因此，抽样的样本容量大。这样就可以用测序位置的杂合率来近似估计整个基因组的杂合率。图 10示出本发明的估计基因组杂合率的方法的一个应用例的示意图。该实施例数据采用野生茭白，开花茭白，普通茭白的 RAD测序序列数据（即 reads数据）。其中 RAD测序方法为本领域公知的方法，例如可参考以下文献：

(1) Michael R Miller , Tressa S Atwood, B Frank Eames, et al, RAD marker micr oar rays enable rapid mapping of

zebrafishmutations, Genome Biology , 2007, 8(6):R 105.1-R 105.10;

(2) Michael R M:iller, J oseph P. Dunham, Angel Amores,et al, Rapid and cost-effective polymor hism iden t if ica t ion and

gen o typing using restriction site associated DNA(RAD) markers, Genome Research, 2007, 17? 240-248?

(3) Nathan A. Baird l, Paul D. Etter , Tressa S. Atwood, et al, Rapid SNP Discovery and Genetic Mapping Using Sequenced RAD Markers, PLoS ONE, 2008,3(10), e3376,

d. o i : 10 , 1371 / j o 11 r n a I. p o 11 e .0003376 , 利用传统方法得知普通茭白的杂合率大于野生茭白，野生茭白的杂合率大于开花茭白。

实施例具体操作流程如图 10所示，步骤 1002, 将三种茭白的测序 reads数据，根据测序质量值， N的含量，以及是否含有酶切末端序列进行过滤，去除不合格的测序序列，得到的有效数据统计如表 1所示。表 1三种茭白 RAD测序有效数据统计

步骤 1004，将序列相同的测序序列进行统计计数获得各个测序序列的深度，过滤掉测序深度为 1的测序序列。结果如表 2所示。表 2、三种茭白 reads数据统计

步骤 1006，将序列相同的测序序列数据进行两两比对确定杂合位点。比对容许的错配数例如为 1，即一个 reads 上最多容许存在 1 个杂合位点。具体地，比对条件为两条序列之间只有一个威基不相同，则这两条序列归为一类。如果 A序列与 B序列之间只有一个威基不相同，而 B与 C之间只有另外一个威基不相同，则三条序列归为一类，以此类推，通过所有测序序列之间的比对，可以将所有满足比对条件的测序序列进行聚类。挑选出聚类结果中只有一条 reads和两条 reads的聚类结果。其中只有一条 reads的聚类结果表明在测序 reads的位置不存在杂合位点，只有两条 reads的聚类结果表明在测序 reads的位置存在杂合位点，通常这个杂合位点不会处于重复区域。

步骤 1008, 去除重复区域的杂合位点。

步骤 1010, 根据杂合位点数计算基因组的杂合率。

综上，通过以上步骤的处理并计算杂合率，得到的结果如表 3所示。

表 3、 reads非重复区域聚类结果信息统计

可以看出，利用 RAD 测序技术对基因组进行抽样测序并估计基因组的杂合率方法的结果与传统分析方法的结果一致。图 11 示出本发明的估计基因组杂合率的装置的一个实施例的结构图。如图 11所示，该装置包括：测序序列获取设备 111，获得某个体基因组的 RAD 单端测序序列。测序序列过滤设备 112, 对获得的 RAD单端测序序列进行过滤以去除不合格的测序序列。不合格的测序序列例如包括：测序质量低于预定的低质量阈值的碱基个数超过整条测序序列碱基个数的 50%的测序序列；和 /或测序序列中测序结果不确定的碱基个数超过整条测序序列碱基个数的 10%的测序序列；和 /或存在外源序列的测序序列；和 / 或起始的几个碱基不是酶切末端序列的测序序列。测序深度确定设备 113, 对序列相同的测序序列进行统计，得到每种测序序列的深度信息。序列深度过滤设备 114, 用于过滤掉测序深度为 1 的测序序列。杂合位点确定设备 115 , 在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点。杂合率获取设备 117, 根据杂合位点总数得到该个体基因组的杂合率。

图 12示出本发明的估计基因组杂合位点的装置的另一个实施例的结构图。与图 11相比，该实施例中还包括重复区位点去殳备 126。重复区位点去除设备 126去除处于基因组 DNA序列的重复区域中的杂合位点。例如，重复区位点去除设备 126当判断满足如下条件作为处于 DNA序列的重复区域中的杂合位点：测序序列在基因组在存在多个拷贝，且具有较高的测序深度，其中一个拷贝与对应的同源染色体上存在杂合位点。在本发明的一个实施方案中，所述较高的测序深度是指平均测序深度的两倍。

才艮据本发明的一个实施例，杂合位点确定设备 115 包括：比对单元 1151，用于在每种测序序列之间进行不容许空隙的两两比对；聚类单元 1152, 用于将所有满足比对条件的测序序列进行聚类；杂合位点确定单元 1153, 用于挑选出聚类结果中只有两种测序序列的聚类结果，该测序序列的位置即存在杂合位点。

对于图 11、 12 中各个装置或单元的功能，可以参考上文中关于本发明方法的实施例中对应部分的说明，为简洁起见，在此不再详述。本领域的技术人员应当理解，对于图 11、 12 中的各个装置，可以通过单独的计算处理设备实现，或者将其集成为一个独立的设备实现。在图 11、 12 中用框示出以说明它们的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任意组合来实现。举例来说，一个或者两个功能块都可以利用运行在微处理器、数字信号处理器（DSP )或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计算机可读介质中。计算机可读介质可以包括一个或者多个存储设备，例如，包括 RAM 存储器、闪存存储器、 ROM 存储器、 EPROM 存储器、 EEPROM存储器、寄存器、硬盘、移动硬盘、 CD-ROM或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载波。

开提供的基因组 SNP位点的标记方法和装置，直接对两个个体的 RAD测序数据进行对应，以确定 RAD 片段上的 SNP 位点信息，突破了非模式生物缺少参考序列的瓶颈，简化了基因组分析处理的复杂度，也减少了测序成本。

至此，已经详细描述了根据本发明的估计基因组杂合位点的方法和装置。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

权利要求

1. 一种估计基因组杂合率的方法，其特征在于，包括：获得某个体基因组的 RAD单端测序序列；

对 RAD单端测序序列进行过滤以去除不合格的测序序列；对序列相同的测序序列进行统计，得到每种测序序列的深度信息；

过滤掉测序深度为 1的测序序列；

在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点；

才艮据杂合位点总数得到该个体基因组的杂合率。

2. 根据权利要求 1 所述的方法，其特征在于，根据测序序列的长度确定所述不容许空隙的两两比对的容许的错配数。

3. 根据权利要求 1 所述的方法，其特征在于，在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点包括 ··

在每种测序序列之间进行不容许空隙的两两比对；

将所有满足比对条件的测序序列进行聚类；

选出聚类结果中只有两种测序序列的聚类结果，该测序序列的位置即存在杂合位点。

4. 根据权利要求 1所述的方法，其特征在于，还包括：去除处于基因组序列的重复区域中的杂合位点。

5. 根据权利要求 4 所述的方法，其特征在于，满足如下条件作为处于基因组序列的重复区域中的杂合位点：测序序列在基因组在存在多个拷贝，且具有较高的测序深度，其中一个拷贝与对应的同源染色体上存在杂合位点；所述较高的测序深度例如是指平均测序深度的两倍。

6. 根据权利要求 1 所述的方法，其特征在于，所述不合格的测序序列包括：

测序质量低于预定的低质量阈值的碱基个数超过整条测序序列碱基个数的 50%的测序序列；和 /或

测序序列中测序结果不确定的碱基个数超过整条测序序列碱基个数的 10%的测序序列；和 /或

存在外源序列的测序序列；和 /或

起始的几个碱基不是酶切末端序列的测序序列。

7. 根据权利要求 1 所述的方法，其特征在于，所述根据杂合位点总数得到该个体基因组的杂合率包括：将杂合位点总数除以非重复区域的测序序列的总长，即可得到测序个体 RAD 测序位置的杂合率，并近似估计整个基因组的杂合率。

8. 一种估计基因组杂合率的装置，其特征在于，包括：测序序列获取设备，用于获得某个体基因组的 RAD单端测序序列；

测序序列过滤设备，用于对获得的 RAD单端测序序列进行过滤以去除不合格的测序序列；

序列相同的测序序列统计设备，用于对序列相同的测序序列进行统计，得到每种测序序列的深度信息；

序列深度过滤设备，用于过滤掉测序深度为 1的测序序列；杂合位点确定设备，用于在得到的每种测序序列之间进行不容许空隙的两两比对以确定杂合位点；

杂合率获取设备，用于根据杂合位点总数得到该个体基因组的杂合率。

9. 根据权利要求 8 所述的装置，其特征在于，所述不容许空隙的两两比对的容许的错配数根据测序序列的长度确定。

10. 根据权利要求 8所述的装置，其特征在于，所述杂合位点确定设备包括：比对单元，用于在每种测序序列之间进行不容许空隙的两两比对；聚类单元，用于将所有满足比对条件的测序序列进行聚类；杂合位点确定单元，用于挑选出聚类结果中只有两种测序序列的聚类结果，该测序序列的位置即存在杂合位点。

11. 根据权利要求 8所述的装置，其特征在于，还包括：重复区杂合位点去除设备，用于去除处于基因组序列的重复区域中的杂合位点。

12. 根据权利要求 11 的装置，其特征在于，所述重复区杂合位点去除设备判断满足如下条件作为处于基因组序列的重复区域中的杂合位点：

测序序列在基因组在存在多个拷贝，且具有较高的测序深度，其中一个拷贝与对应的同源染色体上存在杂合位点；所述较高的测序深度例如是指平均测序深度的两倍。

13. 根据权利要求 8所述的装置，其特征在于，所述不合格的测序序列包括：测序质量低于预定的低质量阈值的碱基个数超过整条测序序列碱基个数的 50%的测序序列；和 /或

存在外源序列的测序序列；和 /或起始的几个碱基不是酶切末端序列的测序序列。