WO2010066114A1

WO2010066114A1 - 一种测序序列纠错方法、系统及基因组装设备

Info

Publication number: WO2010066114A1
Application number: PCT/CN2009/001426
Authority: WO
Inventors: 李瑞强; 朱红梅; 李胜霆; 王俊; 杨焕明; 汪建
Original assignee: 深圳华大基因研究院
Priority date: 2008-12-12
Filing date: 2009-12-11
Publication date: 2010-06-17
Also published as: EP2377948A4; CN101457253B; HK1161313A1; JP5344774B2; US8751165B2; EP2377948B1; US20110295784A1; CN101457253A; JP2012511752A; EP2377948A1

Description

一种测序序列纠错方法、系统及基因组装设备技术领域本发明属于基因工程技术领域，尤其涉及一种测序序列纠错方法、系统灰基因组装设备。

背景技术基于现有的基因测序技术，碱基测错的可能性是存在的，碱基测错后对于后续的数据分析、短序列组装等都存在一定的影响。由于在高测序深度情况下，无错序列包含低频短串的概率极低，因此现有的糾错策略是将测序序列中低频短串简单的屏蔽掉，删除含有一定比例低频短串的序列，而实际上并没有进行有效的纠正，测序序列的利用率比较低。

发明内容本发明实施例的目的在于提供一种测序序列纠错方法，旨在解决现有测序序列纠错方法测序序列的利用率比较低的问题。本发明实施例是这样实现的，一种测序序列糾错方法，所述方法包括下述步骤：接收测序序列，根据预设的高频阈值构造高频短串表；遍历接收到的各测序序列，结合所述高频短串表在各测序序列上查找每个测序序列中连续为高频短串最多的区域；根据相应接收到的测序序列和所述高频短串表，在查找到的所述区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列；

本发明实施例的另一目的在于提供一种测序序列纠错系统，所述系统包括：高频短串统计单元，用于接收测序序列，根据预设的高频阔值构造高频短串表；高频区域查找单元，用于遍历接收到的各测序序列，结合所述高频短串表在各测序序列 Jl每个测序序列中查找连续为高频短串最多的区域；序列构造单元，用于根据相应接收到的测序序列和所述高频短串表，在查找到的所述区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列；以及序列組合单元，用于将所述区域与构造的所述左序列和 /或右序列组合成相应测序序列。本发明实施例的另一目的在于提供包含上述测序序列纠错系统的基因組装设备。在本发明实施例中，根据预设的高频阈值构造高频短串表，結合构建的高频短串表将各测序序列中非连续高频短串区域的序列重新组合为连续高频短串的序列，重组后的序列尽量多的保留了原测序序列的个数和长度，提高了序列的利用率，并通过实验证实了纠错处理后的序列中无错序列的比例和深度均有很大提高；纠错处理后的序列可以切割成更长的高频短串，获得更少的高频短串，从而降低在后续短序列组装过程中内存的使用。

附图说明图 1是本发明实施例提供的测序序列糾错方法的实现流程图；图 2是本发明实施例提供的左侧树的结构示意图；图 3是本发明实施例提供的测序序列纠错系统的结构图。

具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。在本发明实施例中，根据预设的高频阈值构造高频短串表，结合构建的高频短串表将各测序序列中非连续高频短串区域的序列重新构造为连续高频短串的序列。图 1 示出了本发明实施例提供的测序序列纠错方法的实现流程，详述如下：在步骤 S101中，接收测序序列，根据预设的高频阔值构造高频短串（kmer )表；在步驟 S102中，遍历接收到的各测序序列，结合高频短串表在各测序序列上每个测序序列中查找连续为高频短串最多的区域；在步骤 S103中，根据相应接收到的测序序列和高频短串表，在查找到的区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列；在步驟 S104 中，将所述区域与构造的所述左序列和 /或右序列组合成相应测序序列。在本发明实施例中，上述步骤 S101具体为：

1.接收测序序列 , 将接收到的各测序序列逐个碱基切割成预设长度的短串；

2.将切割得到的且出现次数超过预设的高频阔值的短串构造出高频短串表。这里，接收到的各测序序列长度在处理程序逻辑上没有限制，但一般在 200碱基长度 (bp)以下，短串的预设长度 n为 17 bp，预设的高频阈值为 5次，认为出现 5次以上的短串即为高频短串，将高频短串添加到高频短串表。当然，短串的预设长度 n可以取从 1到小于测序序列碱基长度内的任意整数，但是在 n的取值大于 17 bp 时内存和运算时间的开销会加大，在 n的取值小于 17 bp时纠错效果不理想，所以 n最好取 17bp。高频阔值可以根据切割成的短串的频率分布来确定，频率分布在理论上应该存在两个峰值，笫一个峰是由于测序错误造成的，第二个峰是由于测序深度造成的，所以一般取第一个谷值为高频阈值。接着，查找各测序序列连续高频短串最多的区域，步骤 S102具体为：

1.遍历接收到的各测序序列，结合高频短串表，在各测序序列上查找连续为高频短串的区域，即顺序遍历测序序列的短串，如果该短串出现在高频短串表中，则认为该短串为高频短串；否则，认为该短串不是高频短串，这样遍历完各测序序列即可得到各测序序列相应的连续为高频短串的区域；

2.在各测序序列中取查找到的最长的区域作为其连续为高频短串最多的区域，这里假设各测序序列中连续为高频短串最多的区域为 [sl， s2], 其中 sl、 s2 为查找到的最长的连续为高频短串的区域的起始碱基、结^基距离相应测序序列首个碱基的数目。如果一个测序序列为

其中 1_η为该测序序列的碱基长度， Xi表示该序列的第 i个碱基，该测序序列最长的连续为高频短串的区域为 [26， 46], 则 X₂₆X₂₇...... X₄₆为该测序序列中最长的高频序列。然后，根据原测序序列和高频短串表，在 [si, s2】的左侧和右侧各构造一条全是高频短串的序列，上述步骤 S103具体为：步骤 1.从相应测序序列的第 si个碱基开始取 n-1长度的序列作为树的根节点，以、 C, G、 T四种减基为各节点的叶子构造一棵深度为 si的左侧树，其构造的树如图 2所示，这里，深度 si即为 26; 步驟 2.遍历左侧树，找到一条全是高频短串的路径，根据该路径从叶子节点向上构造全是高频短串的左序列。这里，从根节点开始向下遍历树，根节点为长度为 n-1的序列 N_{1 ?} 其子节点依次为 A、 C、 G、 T四种碱基，考察短串 kmeri - LrH^是否是高频短串，即判断高频短串表中是否有该短串，如果否，则结束相应碱基对应的路径；如果是，则进一步判断的值是否与相应测序序列 X2X3...... X₄₉X₅。中相应减基 X_sl4的值相同，如果相同则 1级节点分数 scores 0，否则 1级节点分数 scor_ei = 1，并继续在 kme 左端取 n-1长度的序列 N₂，按照上述方式考察短串 kmer₂ = L₂ + N₂, 其子节点 L2依次为 A、 C, G、 T四种碱基。按照该规则向叶子节点迭代、判断，并在迭代结束后，找到一条总分数 s_COre=§scor_ei最小路径，其中 SCor 为相应路径中笫 i级节点的分数。

i=l

找到的最小路径即为全是高频短串的路径，根据该路径从叶子节点向根节点遍历得到的序列即为需要构造的全是高频短串的左序列。当然，如果迭代结束后，得到多条总分数 score都相等且都最小的路径，则随机取一条，然后从叶子节点向根节点遍历得到需要构造的全是高频短串的左序列。当然，也可以从下向上遍历树，来查找一条全是高频短串的路径。步骤 3. 从相应测序序列的笫 s2个碱基开始取 n-1长度的序列作为树的根节点，以、 C, G、 T四种碱基为各节点的叶子构造一棵深度为 l_n - ( s2 - 1 )的右侧树，其中 l_n为该测试序列的碱基长度，其构造方式与上述步骤 1相同，不再赘述；步驟 4.遍历右侧树，找到一条全是高频短串的路径，根据该路径从根节点向下构造全是高频短串的右序列，其查找最小路径的方式与上述步骤 2相应，不再赘述。在得到相应测序序列左侧和右侧的全是高频短串的序列后，将得到的左序列添加到相应最长的高频序列 X_slX_sl+1...... X_s2左边，并将得到的右序列添加到相应最长的高频序列 X_slX_sl+1...... X_s2右边，即得到经过纠错处理后的相应测序序列。当然，如果相应测序序列中连续为高频短串最多的区域为 [1 , s2】或 [si, 1„], 即该区域在相应测序序列的左侧或右侧，则只需要在

[1， s2】的右侧构造一条全是高频短串的右序列，或者只需要在 [sl， l_n]的左侧构造一条全是高频短串的左序列。此时，在还原相应测序序列时，只需要将得到的左序列添加到相应最长的高频序列左边，或者将得到的有序列添加到相应最长的高频序列右边。

下面通过实验来说明本发明测序序列纠错方法的技术效果，在这个实验中使用本发明上迷实施例提供的方法对人类基因质量控制序列（Human control BAC ) 和非洲人类基因組序列（Human genome )进行纠错处理，纠错前的数据对比如表 1所示，糾错后的数据对比如表 2所示：

表 1

表 2 由表 1、表 2可知，经纠错处理后，使无错序列在被测序列中所占比例提高 30%左右，无错序列深度提高约 10%。下面是采用本发明实施例提供的测序序列纠错方法实现纠错处理时所需要的内存资源估计，在短串为 17碱基长度时，占用内存 16Go 另外，由于每个线程在处理一个文件时需要将该文件中存储的所有序列读入内存，殳一条测序序列占用 50字节，其序列名称占用 50个字节，每个文件存储 10M个测序序列，那么对一个文件中存储的测序序列进行糾错处理需要占用 1G 内存。并且，每个线程还有单独的动态规划表占用 1G内存，那么一个线程占用 2G内存，在默认开设 4个线程时需要占用 24G内存。另外，统计短串频数、输出频数表的耗时跟文件容量的多少和输入 /输出状况有关。处理一个文件约需 100s, 非洲人基因組序列总共有 606个文件，第一步输出频数表需要耗时 15h。

错处理后，后续的短序列组装基因组所耗内存可以降低一半。并且，纠完错后低频的短串被高频的短串合并了（即低频短串被纠正为高频短串），后面的組装策略只需要将序列切割成更长的短串（例如 25碱基长度 )进行组装，这样就会降低内存的使用。进一步地，为了提高纠错处理的速度，可采用多个线程将所有需纠错文件拆分处理。处理一个文件约需 1000s,采用 4个线程处理 100个文件需要耗时 1000s*100/4 = 25000s = 71ι。第二步采用 6个线程将非洲人类基因组序列的 606个文件拆分成 6份处理时只需要耗时 7h，纠错处理总共耗时 22h。本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步驟是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，如 ROM/RAM, 磁盘、光盘等，该程序用来执行如下步驟：

1.接收测序序列，根据预设的高频阁值构造高频短串表；

2.遍历接收到的各测序序列，结合所迷高频短串表在各测序序列上查找每个测序序列中连续为高频短串最多的区域；

3. 根据相应接收到的测序序列和所述高频短串表，在查找到的所述区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列；

4. 将所述区域与构造的所述左序列和 /或右序列組合成相应测序序列。图 3示出了本发明实施例提供的测序序列纠错系统的结构，为了便于说明仅示出了与本发明实施例相关的部分。该系统可以用于基因组装设备，可以是运行于这些设备内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到这些设备中或者运行于这些设备的应用系统中，其中：高频短串统计单元 301, 接收测序序列，根据预设的高频阈值构造高频短串表，其实现方式如上所述，不再赘述。高频区域查找单元 302，遍历接收到的各测序序列，结合高频短串表在各测序序列上每个测序序列中查找连续为高频短串最多的区域。序列构造单元 303, 根据相应接收到的测序序列和高频短串表，在查找到的区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列。序列还原单元 304, 将所述区域与构造的所述左序列和 /或右序列组合成相应测序序列。其中，高频短串统计单元 301包括：短串切割模块 3011，接收测序序列，将接收到的各测序序列逐个碱基切割成预设长度的短串。高频短串采集模块 3012，将根据切割得到的且出现次数超过预设的高频阈值的短串构造出所述高频短串表，其实现方式如上所述，不再赞述。另外，序列构造单元 303包括：左侧树构造模块 3031, 从相应测序序列的第 si个碱基开始取 n-1长度的序列作为树的根节点，以、 C、 G、 T四种碱基为各节点的叶子构造一棵深度为 si的树，其 sl、 n的定义及该左侧树构造模块 3031的实现方式如上所述，不再赘述。左序列构造模块 3032，遍历左侧树，找到一奈全是高频短串的路径，根据该路径从叶子节点向上构造全是高频短串的左序列，其实现方式如上所述，. 不再赘述。右侧树构造模块 3033, 从相应测序序列的笫 s2个碱基开始取 n-1长度的序列作为树的根节点，以、 C, G、 T四种碱基为各节点的叶子构造一棵深度为 1„- ( s2 - l ) 的右侧树，其 s2、 n、 1„的定义及该左侧树构造模块 3031的实现方式如上所述，不再赘述。右序列构造模块 3034，遍历右侧树，找到一条全是高频短串的路径，根据该路径从根节点向下构造全是高频短串的右序列，其实现方式如上所述，不再赘述。在本发明实施例中，根据预设的高频阈值构造高频短串表，结合构建的高频短串表将各测序序列中非连续高频短串区域的序列重新组合为连续高频短串的序列，重组后的序列保留了原测序序列的个数和长度，提高了序列的利用率，并通过实验证实了糾错处理后的序列中无错序列的比例和深度均有很大提高；纠错处理后的序列可以切割成更长的高频短串，降低在后续短序列组装过程中内存的使用。本发明还提供了一种包含前述测序序列纠错系统的基因组装设备，在组装时消耗内存可以比对未糾错的测序序列的内存消耗要少，这是由于纠错后的序列可以切割成更长碱基长度的高频短串来进行组装，并获得更少的高频短串，从而降低了内存的使用。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1. 一种测序序列纠错方法，其特征在于，所述方法包括下述步骤：

接收测序序列，根据预设的高频阈值构造高频短串表；遍历接收到的各测序序列，结合所述高频短串表在各测序序列上查找每个测序序列中连续为高频短串最多的区域；

根据相应接收到的测序序列和所述高频短串表，在查找到的所述区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列；序列：、， ^一 ^A 、 ⁵、、

2. 如权利要求 1所述的方法，其特征在于，所述接收测序序列，根据预设的高频阈值构造高频短串表的步驟具体为：

接收测序序列，将接收到的各测序序列逐个碱基切割成预设长度的短串；

根据切割得到的且出现次数超过预设的高频阈值的短串构造出所述高频短串表。

3. 如权利要求 2所述的方法，其特征在于，所迷预设的高频阈值根据切割成的预设长度的短串的频率分布确定，所述预设长度为 17个碱基长度。

4. 如权利要求 1 所述的方法，其特征在于，所迷根据相应接收到的测序序列和所述高频短串表，在查找到的所述区域左侧构造全是高频短串的左序列的步驟具体为：

从相应测序序列的第 si个碱基开始取 n-1长度的序列作为树的才艮节点，以、 C, G、 T四种碱基为各节点的叶子构造一棵深度为 sl的左侧树；

遍历所述左侧树，找到一条全是高频短串的路径，根据所述路径从叶子节点向上构造全是高频短串的左序列；

所述根据相应接收到的测序序列和所述高频短串表，在所述区域的右侧构造全是高频短串的右序列的步骤具体为：

从相应测序序列的第 s2个碱基开始取 n-1长度的序列作为树的才艮节点，以、 C、 G、 T四种碱基为各节点的叶子构造一棵深度为 l_n - ( s2 - 1 ) 的右侧树；

遍历所述右侧树，找到一条全是高频短串的路径，根据所述路径从根节点向下构造全是高频短串的右序列；

其中， sl、 s2分别为查找到的所述连续为高频短串最多的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目， n 为所述高频短串的碱基长度， 1„为相应测序序列的碱基长度。

5. 如权利要求 1 所述的方法，其特征在于，所述接收到的测序序列的长度小于等于 200碱基长度。

6. —种测序序列纠错系统，其特征在于，所述系统包括：

高频短串统计单元，用于接收测序序列，根据预设的高频闹值构造高频短串表；

高频区域查找单元，用于遍历接收到的各测序序列，结合所述高频短串表在各测序序列上每个测序序列中查找连续为高频短串最多的区域；

序列构造单元，用于才艮据相应接收到的测序序列和所述高频短串表，在查找到的所述区域左侧构造全是高频短串的左序列，和 /或在所述区域的右侧构造全是高频短串的右序列；以及

序列组合单元，用于将所述区域与构造的所述左序列和 /或右序列组合成相应测序序列。

7. 如权利要求 6所述的系统，其特征在于，所述高频短串统计单元包括：

短串切割模块，用于接收测序序列，将接收到的各测序序列逐个碱基切割成预设长度的短串；以及

高频短串采集模块，用于根据切割得到的且出现次数超过预设的高频阈值的短串构造出所述高频短串表。

8. 如权利要求 7 所述的系统，其特征在于，所述预设的高频阈值根据所述短串切割模块切割成的预设长度的短串的频率分布确定，所述预设长度为 17个碱基长度。

9. 如权利要求 6 所述的系统，其特征在于，所述序列构造单元包括：

左侧树构造模块，用于从相应测序序列的第 si 个碱基开始取 n-1长度的序列作为树的根节点，以、 C, G、 T四种碱基为各节点的叶子构造一棵深度为 si的树；

左序列构造模块，用于遍历所述左侧树，找到一奈全是高频短串的路径，根据所述路径从叶子节点向上构造全是高频短串的左序列；

右侧树构造模块，用于从相应测序序列的第 s2 个碱基开始取 11-1长度的序列作为树的根节点，以、 C G、 T四种碱基为各节点的叶子构造一棵深度为 l_n - ( s2 - l ) 的右侧树；以及

右序列构造模块，用于遍历所述右侧树，找到一条全是高频短串的路径，根据所述路径从根节点向下构造全是高频短串的右序列；其中， sl、 s2分别为查找到的所述连续为高频短串最多的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目， n 为所述高频短串的碱基长度， l_n为相应测序序列的碱基长度。

10. 一种包含权利要求 6至 9任一项所述测序序列纠错系统的基因组装设备。