WO2012116658A2

WO2012116658A2 - 组装基因组序列的方法和装置

Info

Publication number: WO2012116658A2
Application number: PCT/CN2012/071876
Authority: WO
Inventors: 韩长磊; 陈文彬; 张秀清; 杨焕明
Original assignee: 深圳华大基因科技有限公司; 深圳华大基因研究院
Priority date: 2011-03-02
Filing date: 2012-03-02
Publication date: 2012-09-07
Also published as: HK1162614A1; CN102206704B; CN102206704A

Description

組装基因組序列的方法和装置

优先权信息

本申请请求 2011 年 3 月 2 日向中国国家知识产权局提交的、专利申请号为 201110049885.0的专利申请的优先权和权益，并且通过参照将其全文并入此处。技术领域

本发明涉及生物信息技术领域，特别地，涉及一种组装基因组序列的方法和装置。背景技术

随着新一代测序技术诸如 454 ( Roche ) 、 Solexa ( Illumina ) 和 SOLiD ( ABI ) 的诞生，在测序通量迅速提升的同时，测序成本急剧下降。新一代测序技术极大地推动了基因组学的发展。大量物种的全基因组序列被发表，其中包括 James Watson的个人基因组、第一个亚洲人的基因组、以及大熊猫和黄瓜的基因组等。

新一代测序仪器的每一轮测序都能产生百万计的短片段序列。通常，对一个基因组进行完全测序，需要进行多轮这样的测序工作，这也就意味着，为了获得一份完整的全基因组图谱，必须对数百万甚至是数十亿的短小片段序列进行作图、定位和拼接。

因而，目前的基因组序列的组装手段仍有待改进。发明内容

本发明是基于发明人的下列发现而完成的：

目前，在利用新一代测序技术进行测序时，所产生的都是长约 25bp~100bp左右的短片段序列，这些短片段序列都是待测样品大片段的某一部分，如何将测序得到的海量短片段序列数据组装还原为大片段数据给后续的信息分析工作提出了极大的挑战。在现有技术中，由于测序时产生的片段序列非常短，所以需要通过非常大的运算量才能完成对大片段数据的还原。

同时，作为衡量基因组图谱质量之一的片段长度 N50 ( N50为将所有的组装得到的序列从大到小排列起来并按长度相加，当相加得到的长度为所有组装得到的序列总长的百分之五十时的那条组装序列的长度，关于 N50的详细描述可以参考 Miller et al. 2010. Assembly algorithms for next generation sequencing data. Genomics.95 ( 6 ) : 315-327 , 通过参照将其并入本文）指标也会受到实验中所能构建文库的插入片段长度的限制。本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明提出了可以用于组装基因组序列的方法和装置，以便能够利用长插入片段文库末端测序后的短片段序列进行基因组序列的组装，从而提高组装效率和效果。

根据本发明的一方面，本发明提出了一种组装基因组序列的方法。根据本发明的实施例，该组装基因组序列的方法包括对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列；将经过过滤的短片段序列与参考基因组序列进行比对；根据比对结果将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量；利用 soap reads序列，计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布；在距离分布满足阈值要求时，利用唯一成对比对上参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。由此，可以提高组装基因组序列的效率和效果。

根据本发明的实施例，组装基因组序列的方法还可以具有下列附加技术特征：根据本发明的一个实施例，所述经过过滤的短片段序列包括成对段片段序列。由此，可以进一步提高组装因组的效率。

根据本发明的一个实施例，在将经过过滤的短片段序列与参考基因组序列进行比对之前进一步包括：将所述经过过滤的短片段序列截取为设定长度的短片段序列。由此，可以进一步提高组装因组的效率。

根据本发明的一个实施例，所述不合格的序列包括选自下列的至少一种：外源序列、碱基 N数目达到预定比例的短片段序列、含有 polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。由此，可以进一步提高组装基因组的效率。

根据本发明方法的一个实施例， soap reads序列包括唯一成对比对上参考基因组序列的同一片段的 soap reads序列和多次成对比对上参考基因组序列的同一片段的 soap reads序列，利用 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离的步骤进一步包括：利用唯一成对比对上参考基因组序列的同一片段的 soap reads序列，计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离。由此，可以进一步提高组装因组的效率。

根据本发明方法的一个实施例，所述方法进一步包括：构建长插入片段文库；以及对长插入片段文库末端进行测序，以便获得所述输出的短片段序列。有利于组装出更长的基因组序列片段。

根据本发明的另一方面，本发明提出了一种组装基因组序列的装置。根据本发明的实施例，该组装基因组序列的装置包括：序列过滤模块，所述序列过滤模块用于对长插入片段文库末端测序输出的短片段序列进行过滤，以便去除不合格的序列；序列比对模块，所述序列比对模块与所述序列过滤模块相连，用于将经过过滤的短片段序列与参考基因组序列进行比对，其中，所述经过过滤的短片段序列包括成对短片段序列；序列分类模块，所述序列分类模块与所述序列比对模块相连，用于根据比对结果，将进行比对的成对短片段歹 ^"为 soap reads / *歹、 single reads / *歹口 unmap reads / *歹 , i¾i十 H/ *歹¹ j 序列长度统计模块，所述序列长度统计模块与所述序列分类模块相连，用于利用 soap reads 序列，计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布；以及序列组装模块，所述序列组装模块分别与所述序列分类模块和所述序列长度统计模块相连，用于在所述距离分布满足阈值要求时，利用唯一成对比对上所述参考基因组序列的不同片段的 single reads 序列进行基因组序列的组装。利用该组装基因组序列的装置能够有效地实施前述组装基因组的方法，从而能够利用长插入片段文库末端测序后的短片段序列进行基因组序列的组装，从而提高组装效率和效果。

根据本发明的实施例，组装基因组序列的装置还可以具有下列附加技术特征：根据本发明的一个实施例，本发明的组装基因组序列的装置进一步包括：序列截取模块，所述序列截取模块分别与所述序列过滤模块和所述序列比对模块相连，用于在将经过过滤的短片段序列与参考基因组序列进行比对之前，将所述经过过滤的短片段序列截取为设定长度的短片段序列。

根据本发明装置的另一实施例，不合格的序列包括选自下列的至少一种：外源序列、碱基 N数目达到预定比例的短片段序列、含有 polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。由此，可以进一步提高组装因组的效率。

根据本发明装置的又一实施例， soap reads序列包括唯一成对比对上参考基因组序列的同一片段的 soap reads序列和多次成对比对上参考基因组序列的同一片段的 soap reads序列，其中，进一步利用唯一成对比对上参考基因组序列的同一片段的 soap reads序列，计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离。由此，可以评估文库质量，进一步提高组装基因组的效率。

根据本发明装置的一个实施例，本发明的组装基因组序列的装置进一步包括：序列接收模块，该序列接收模块与所述序列过滤模块相连，用于接收长插入片段文库末端测序后的序列。由此，可以进一步提高组装因组的效率。根据本发明实施例的组装基因组序列的方法和装置，由于对长插入片段文库末端进行测序，能够利用测序数据中包含的相对现有技术更远距离的序列关系构建出更长的基因组序列片段，进而提高了基因组组装的效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1是本发明组装基因组序列方法的一个实施例的流程示意图；

图 2是本发明组装基因组序列方法的另一实施例的流程示意图；

图 3是本发明组装基因组序列方法的又一实施例的流程示意图；

图 4是本发明组装基因组序列方法的再一实施例的流程示意图；

图 5是本发明组装基因组序列方法的再一实施例中的文库质量评估示意图；图 6是本发明组装基因组序列装置的一个实施例的结构示意图；

图 7是本发明组装基因组序列装置的又一实施例的结构示意图；以及

图 8是本发明组装基因组序列装置的再一实施例的结构示意图。发明详细描述

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

下面首先参考附图对本发明的组装基因组序列的方法进行详细描述。

参考图 1 , 才艮据本发明的实施例，组装基因组序列方法可以包括以下步骤：在本发明中所使用的术语 "长插入片段" 的长度并不受特别限制，可以为现有技术能够达到的任何插入长度，例如可以长达至少 200kb, 例如可以为 40kb-200kb, 例如可以为大约 100kb-200kb。本领域技术人员利用现有的载体，可以容易地得到上述长插入片段。例如， fosmid和细菌人工染色体（ Bacterial Artificial Chromosome , BAC )是基因组研究中可用的大片段克隆， BAC通常可以插入大约 lOOkb - 200kb的片段， fosmid通常可以插入大约 40kb 的片段， BAC和 fosmid不仅具有插入片段长的特点，而且还具有非常好的稳定性，因而他们是基因组学研究的重要工具，在基因图位克隆、基因分析、结构性变异和基因组组装中有重要的作用。根据本发明的实施例，需要去除的不合格的序列的类型并不受特别限制。根据本发明的一些实例，可以将选自下列的至少一种除去：外源序列（例如可以为由实验引入的外源序列例如，各种接头序列）、碱基 N数目达到预定比例（例如至少 10% )的短片段序列、含有 polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列（测序时给出的质量值小于或等于 20的碱基为低质量碱基，质量值大于 20的碱基数目占总碱基数的比例（Q20 )小于等于 0.7的序列）、接头污染（例如，与接头序列至少 10bp比对上，且错配数不多于 3 个）的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列（测序中成对的短片段序列完全一样的情况被定义为重复）。在本文中所使用的术语 "成对短片段序列" 的含义是，在从同一个短片段序列的两端分别向内侧测序，这两个相向的序列被称为成对短片段序列；

S104, 将经过过滤的短片段序列与参考基因组序列进行比对。根据本发明的实施例，进行比对的手段并不受特别限制，例如可以釆用已知的 soap、 bwa等方法和相关的软件进行比对。根据本发明的实施例，所得到的经过过滤的短片段序列中包括成对短片段序列；

S106, 根据比对结果，将进行比对的成对短片段序列分为 soap reads序列、 single reads 序列和 unmap reads序列，并统计各类序列的数量；

在本发明中，所使用的术语 "soap reads序列" 的含义是指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列。术语 " single reads序列 " 的含义是指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列；术语 "unmap reads" 指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列；

S108,由于 soap reads序列为成对存在且都能比对到参考基因组序列的同一组装片段上的短序列，所以可以利用 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离（即，计算 soap reads序列的长度），并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布情况；

S110, 在距离分布满足阈值要求（根据本发明的实施例，阈值的具体数值并不受特别限制，可以由本领域技术人员针对具体的测序环境来通过有限次实验获得。例如用 fosmid 构建文库时，阙值为距离在 30kb-50kb之间的序列比例大于 85 % ) 时，可以利用唯一成对比对上参考基因组序列的不同组装片段的 single reads序列进行基因组序列的组装；

具体地，可以利用唯一成对比对上参考基因组序列的不同组装片段的 single reads序列，按照测序文库的内在序列长度和空间关系，连接相邻的基因组序列片段，以提升基因组组装效果。

该实施例由于对长插入片段文库末端进行测序，因而能够利用测序数据中包含的相对现有技术更远距离的序列关系构建出更长的基因组序列片段，进而提高了基因组组装的效果。

下面，参考图 2描述根据本发明又一实施例的组装基因组序列的方法。

如图 2所示，根据本发明实施例的组装基因组序列可以包括以下步骤：具体地，可以将测序后的短片段序列与实验引入的外源序列（例如，各种接头序列）比对，若序列中存在外源序列，则认为是不合格序列，并将不合格的短片段序列去除，此外，不合格的序列还可以包括下列的至少一种：碱基 N数目达到预定比例的短片段序列、含有 polyA结构的短片段序列、低质量碱基数目达到一定程度（例如， 40个碱基）的短片段序列、有接头污染（例如，与接头序列至少 10bp比对上，且错配数不多于 3个）的短片段序列、测序中成对的短片段序列有重叠区域（例如，测序中成对的短片段序列的重叠区域至少为 10bp, 且错配比例低于 10% ) 的短片段序列、重复测到的短片段序列（测序中成对的短片段序列完全一样被定义为重复的短片段序列）。最后对于头部或者末端质量比较差的短片段序列将直接截掉；

S204, 将经过过滤的短片段序列截取为设定长度的短片段序列；

具体地，为了提高比对的准确性，进行比对的片段的长度应基本相同，允许有一定的浮动范围（其中，浮动范围可根据需求自行设置），针对长度在正常范围内的测序片段测序所获得的短片段序列被称为正常短序列，反之被称为异常短序列。根据本发明的实施例，设定长度为至少 40bp如果进行比对的序列长度过短，一方面降低了比对的效率，另一方面会使 N50性能降低），比对时一条短序列上允许的最大不匹配数要尽量小，以保证比对的精确性；

S206 , 将过滤后的短片段序列与参考基因组序列进行比对，根据本发明的实施例，进行比对的手段并不受特别限制，例如可以釆用已知的 soap、 bwa等方法和相关的软件进行比对。根据本发明的实施例，所得到的经过过滤的短片段序列中包括成对短片段序列；

S208,根据比对结果将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量；

S210, 依据比对结果，提取只有一条与参考基因组序列比对上，并且只比对到参考基因组序列上一次的 single reads, 以保证比对结果的特异性；

S212,利用 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布；

S214, 在距离分布满足阈值要求时（根据本发明的实施例，阈值的具体数值并不受特别限制，可以由本领域技术人员针对具体的测序环境来通过有限次实验获得。例如用 fosmid 构建文库时，阙值为，距离在 30kb-50kb之间的序列比例大于 85 % ), 利用 S210中提取出的唯一成对比对上参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

在该实施例中，对待比对的片段长度进行了一定的限定，要求待比对序列的长度在设定范围内，以保证比对的精度和效率。下面参考图 3 , 描述根据本发明又一实施例的组装基因组序列的方法。如图 3所示，组装基因组序列的方法可以包括以下步骤：

S304 , 将过滤后的短片段序列与参考基因组序列进行比对；

S306,根据比对结果将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量，其中， soap reads序列又可以包括唯一成对比对上参考基因组序列的同一片段的 soap reads序列和多次成对比对上参考基因组序列的同一片段的 soap reads序歹¹ J；

S308,利用唯一成对比对上参考基因组序列的同一片段的 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布；

S310, 在距离分布满足阈值要求时，利用唯一成对比对上参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

该实施例利用唯一成对比对上参考基因组序列的同一片段的 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，可以准确地统计出长插入片段文库的质量，从而提高基因组序列组装的准确率。

下面参考图 4, 描述根据本发明再一实施例的组装基因组序列的方法。

如图 4所示，根据本发明实施例的组装基因组序列的方法可以包括以下步骤：

S402, 构建长插入片段文库。根据本发明的实施例，构建长插入片段文库的方法并不受特别限制。根据本发明的具体实施例，构建长插入片段文库可以釆用下列步骤：

( 1 ) 随机打断：

将插入有待测 DNA的载体进行随机打断处理，以获得大于载体长度的随机打断片段，然后将得到的随机打断片段进行末端修复，使末端平端化，其中，载体是质粒，具体地，可以是 fosmid质粒、 BAC质粒或 cosmid质粒等；

( 2 )分离：

将（1 ) 中的末端修复后的被随机打断的片段进行分离，得到大于载体长度的随机打断片段；

( 3 )环化：

将（2 ) 中得到的随机打断片段进行自身连接，形成环形分子，然后清除未自身连接的片段；

( 4 )扩增：

根据载体序列设计引物，扩增环形分子中存留的待测基因的核酸片段，即，（1 ) 中所述的待测核酸片段的末端序列；

S404, 对长插入片段文库末端进行测序；

具体地，将上述（4 ) 中得到的扩增产物进行末端修复，以使末端平端化，然后加上测序用接头，选择新一代测序平台进行测序，为了保证所需的基因组覆盖度，测序得到的碱基总量需在基因组大小的 3倍以上；

S408 , 将经过过滤的短片段序列与参考基因组序列进行比对；

S410,才艮据比对结果将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量；

S412,利用 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布；

S414, 在距离分布满足阈值要求时，利用唯一成对比对上参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

该实施例结合长插入片段文库（例如， fosmid, BAC 等）的文库构建方法以及新一代测序技术有效地利用新一代测序技术在构建基因组上的速度快和廉价的特点、利用 fosmid 及 BAC文库插入片段长度远远大于普通建库方法的优势、以及利用测序数据中包含的更远距离的序列拓朴关系构建出更长的基因组序列片段，显著提高基因组图谱的质量。

在本发明组装基因组序列方法的再一实施例中，以果蝇基因组的 X染色体为例，其参考基因组序列的来源为： The National Center for Biotechnology Information , 网址为： http://www.ncbi.nlm.nih.gov/ , 基因组编号为： gilll6010291lreflNC_004354.3l Drosophila melanogaster chromosome X, complete sequence。

可以利用 Maq simulate软件对果蝇基因组 X染色体进行模拟测序，测序得到的结果作为测序数据。其中，需要为 Maq simulate设置如下参数： -d, -N, -1 , -2, fql , fq2和 simupars.dat。下面对各个参数做详细的说明： -d参数为测序片段长度，分别设置为 500、 2000、 5000、 40000； -N 参数表示测序所要获得的短片段序列总数，该参数根据测序深度（Sequencing Depth )来确定，测序深度是评价测序质量的指标之一，表示测序得到的碱基总量（bp ) 与基因组大小（Genome ) 的比值，利用公式： N=测序深度 x参考基因组总长度 /(2 x reads 长度)来计算。该实施例的模拟测序深度为 50 X (即， 50倍的参考基因组序列长度），参考基因组总长度为 22M, 短片段序列长度设为 lOObp; -1 , -2参数为进行比对的双末端短片段序列 1和短片段序列 2的长度，本例中设为 lOObp; fql , fq2为输出文件，将模拟测序后的测序数据（即，短片段序列 1和短片段序列 2 )分别以 fasta格式存入 fal , fa2文件中； simupars.dat 为 maq simulate软件的系统文件，决定短片段序列的长度和质量值。

在该实施例中，可以使用各种常见短序列比对软件（如 soap、 bwa等）将这些序列与相应物种的参考基因组序列进行相似性比对，进行比对的测序片段的长度应基本相同，允许有一定的浮动范围（浮动范围可才艮据需求自行设置，例如可以为上下浮动 10% ), 针对长度在正常范围内的测序片段测序所获得的短片段序列被称为正常短序列，反之被称为异常短序列，进行比对的短片段序列的最低长度为 40bp, 比对时一条短序列上允许的最大不匹配数要尽量小，以保证精确比对。

在本实施例中，进行比对时使用的软件为 soap2, 在进行比对时需要设置如下参数： -P, -a, -b, -D, -o , -2, -u, -m, -x, -s, -1, -v。

下面对各个参数做详细的说明： -P参数表示该脚本运行时所需要的内存； -a参数表示双末端测序时输入文件为重测序得到的 fql文件（短片段序列 1所在的文件；)； -b参数表示双末端测序时输入文件为重测序得到的 fq2文件（短片段序列 2所在的文件；)； -D参数表示参考基因组序列以 fasta文件格式输入（其中， fasta序列文件的第一行是由大于号 ">"或分号 "；"开头的任意文字说明，用于序列标记；从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号）；输出参数有三项， -0参数，输出的结果为比对到参考基因组上的成对短片段序列，其输出文件以 .soap为后缀； -2参数, 其输出结果为成对的短片段序列中只有一条比对到参考基因组序列上，输出文件以. single作为后缀； -u参数，其输出结果是未比对到参考基因组序列的成对短片段序列，输出文件以. unmap作为后缀；不设置 -t参数以保留短片段序列的原始 ID号； -m, -X参数为插入片段的浮动范围， -m参数指测序片段的浮动下限，即，负百分数 X测序片段长度， -X参数指测序片段的浮动上限，即，正百分数 X测序片段长度。在该实施例中，为了最大范围的找到符合条件的短片段序列，将测序片段的浮动范围放宽， -m, -X参数分别设置为测序片段长度 ± 0.88 X测序片段长度； -S参数为最小比对长度，设置为 40; -1参数为初始比对上的种子序列（长片段序列的 3' 端错误率高，从 5' 端设定一定长度的序列作为种子序列）长度，设置为 32; -V参数表示比对时一条短片段序列上允许的最大不匹配数，在该实施例中该参数设置要尽量小，以保证精确比对。此外，需要注意对 soap参数设置的一致性。

如图 5所示，横坐标 "insert size ( kb )"表示 "插入片段的长度"，纵坐标 "Uniq PE Reads" 表示 "唯一的成对末端测序结果"，使用这些数据进行文库插入片段大小的分析，结果显示插入片段大小正常，波动范围在可接受范围内。利用定位到参考基因组序列的不同组装片段上的序列信息进行基因组的辅助组装，将果蝇基因组的模拟组装结果的 N50从 0.32M提高到 1.48M。

在本发明组装基因组序列方法的再一实施例中，首先，随机打断云岭黑山羊基因组

DNA, 确保被打断的 DNA大小不低于 36Kb, 通过分离、环化、扩增过程得到云岭黑山羊的 fosmid文库。然后，使用新一代测序技术得到 14.4M对原始测序短序列，其中，高通量测序技术可以为 Illumina GA测序技术，也可以为现有的其他高通量测序技术。

接下来，利用生物信息学方法除去测序时的接头序列以及末端质量较差数据，随后去掉重复测到的序列，最终得到 2,611,182对具有唯一特征的序列。在具有唯一特征的序列中，共有 1,589,054对具有唯一匹配位点定位到同一个 scaffold (参考基因组序列的组装片段）上。其中，定位到同一个 scaffold上且距离小于 500bp的数目为 338,255对，定位到同一个 scaffold上且距离大于 10 kb的数目为 232,544对，其中 30kb - 50 kb的有 206,697对，占 86.42%。使用这些数据进行文库插入片段大小的分析，结果显示插入片段大小正常，波动范围在可接受范围内。定位到不同 scaffold上的有 18,255对，利用这 18,255对进行基因组的辅助组装，可以将云岭黑山羊的组装结果的 N50从 2.2M提高到 3.1M。

在本发明组装基因组序列方法的再一实施例中，首先，随机打断北极熊基因组 DNA, 确保被打断的 DNA大小不低于 36Kb, 通过分离、环化、扩增过程得到北极熊的 fosmid文库。然后，使用新一代测序技术得到 14.4M对原始测序短序列，其中，高通量测序技术可以为 Illumina GA测序技术，也可以为现有的其他高通量测序技术。

接下来，利用生物信息学方法除去测序时的接头序列以及末端质量较差数据，随后去掉重复测到的序列，最终得到 15,225,082对序列，在 15,225,082对序列中，共有 2,865,235 对具有唯一匹配位点定位到同一个 scaffold上，其中，距离小于 500bp的数目为 209,600对，定位到同一个 scaffold上且距离大于 10 kb的数目为 531,028对，其中 30kb _ 50kb的有 520,897对, 占 98.09% , 定位到不同 scaffold上的有 185,888对，利用这 185,888对进行基因组的辅助组装，可以将 N50从 2.3M提高到 6.5M。下面，参考图 6描述根据本发明实施例的组装基因组序列的装置。如图 6所示，该装置 10可以包括：序列过滤模块 11、序列比对模块 12、序列分类模块 13、序列长度统计模块 14以及序列组装模块 15。根据本发明的实施例，序列过滤模块 11用于对长插入片段文括选自下列的至少一种：外源序列、碱基 N数目达到预定比例的短片段序列、含有 polyA 结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。根据本发明的实施例，序列比对模块 12与序列过滤模块 11相连，用于将过滤后的短片段序列与参考基因组序列进行比对。根据本发明的实施例，序列分类模块 13与序列比对模块 12相连，用于才艮据比对结果将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量，其中， soap reads序列指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列； single reads序列指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列； unmap reads指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列。根据本发明的实施例，序列长度统计模块 14与序列分类模块 13相连，用于利用 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布。序列组装模块 15 , 与序列分类模块 13和序列长度统计模块 14相连，用于在距离分布满足阈值要求时，利用唯一成对比对上参考基因组序列的不同片段的 single reads序列，按照测序文库的内在序列长度和空间关系连接相邻的基因组序列片段进行基因组序列的组装。

利用根据本发明实施例的组装基因组序列的装置，能够有效地实施前述的组装基因组序列的方法，由此，该实施例由于釆用了长插入片段文库，因而能够利用测序数据中包含的相对现有技术更远距离的序列关系构建出更长的基因组序列片段，进而提高了基因组组装的效果。

才艮据本发明的实施例， soap reads序列可以包括唯一成对比对上参考基因组序列的同一片段的 soap reads序列和多次成对比对上参考基因组序列的同一片段的 soap reads序列，由此，可以进一步利用所述唯一成对比对上所述参考基因组序列的同一片段的 soap reads序列，计算所述成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离。根据本发明的实施例，该计算处理可以通过序列长度统计模块 14来进行。

该实施例利用唯一成对比对上参考基因组序列的同一片段的 soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离，可以准确地统计出长插入片段文库的质量，文库质量高利于准确的组装。

参考图 7, 描述才艮据本发明又一实施例的组装基因组序列的装置。如图 7所示，该装置 20在图 6所示装置 10的基础上进一步包括：

序列截取模块 21 , 与序列过滤模块 11和序列比对模块 12相连，用于在进行序列比对之前，将过滤后的短片段序列截取为设定长度的短片段序列，其中，最低比对长度为 40bp。

在该实施例中，对待比对的片段长度进行了一定的限制，要求待比对序列的长度在设定范围内，从而可以保证比对的精度和效率。

图 8是本发明组装基因组序列装置的再一实施例的结构示意图。如图 8所示，该组装基因组序列的装置 30在与图 6所示装置 10的基础上，进一步包括：序列接收模块 31 , 与序列过滤模块 11相连，用于接收长插入片段文库末端测序后的序列。

需要说明的是在本文中所使用的术语 "相连" 应做广义理解，可以是直接相连，也可以是间接相连，只要实现功能上的衔接即可。

需要说明的是，在本发明中分别针对组装基因组序列的方法和装置描述了多个实施例，本领域技术人员可以理解，在特定实施例中的各个技术特征可以直接或者经过适应性改造后适用于其他实施例中。为描述方便，再次不在赘述各个实施例特征的互相组合。工业实用性

根据本发明实施例的组装基因组序列的方法和装置，可以有效地用于组装基因组序列。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体示例"、或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

权利要求书

1.一种组装基因组序列的方法，其特征在于，包括：

对长插入片段文库末端测序输出的短片段序列进行过滤，以便去除不合格的序列；将经过过滤的短片段序列与参考基因组序列进行比对，其中，所述经过过滤的短片段序列包括成对短片段序列；

才艮据比对结果，将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量；

利用 soap reads序列，计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布；以及

在所述距离分布满足阈值要求时，利用唯一成对比对上所述参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

2. 根据权利要求 1所述的方法，其特征在于，在将经过过滤的短片段序列与参考基因组序列进行比对之前进一步包括：

将所述经过过滤的短片段序列截取为设定长度的短片段序列。

3. 根据权利要求 1所述的方法，其特征在于，所述不合格的序列包括选自下列的至少一种：外源序列、碱基 N数目达到预定比例的短片段序列、含有 polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。

4. 根据权利要求 1所述的方法，其特征在于，所述 soap reads序列包括唯一成对比对上所述参考基因组序列的同一片段的 soap reads序列和多次成对比对上所述参考基因组序列的同一片段的 soap reads序列，所述利用 soap reads序列计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离的步骤进一步包括：

利用唯一成对比对上所述参考基因组序列的同一片段的 soap reads序列，计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离。

5. 根据权利要求 1所述的方法，其特征在于，所述方法进一步包括：

构建长插入片段文库；以及

对所述长插入片段文库末端进行测序，以便获得所述输出的短片段序列。

6.一种组装基因组序列的装置，其特征在于，包括：

序列过滤模块，所述序列过滤模块用于对长插入片段文库末端测序输出的短片段序列进行过滤，以便去除不合格的序列；

序列比对模块，所述序列比对模块与所述序列过滤模块相连，用于将经过过滤的短片段序列与参考基因组序列进行比对，其中，所述经过过滤的短片段序列包括成对短片段序列；

序列分类模块，所述序列分类模块与所述序列比对模块相连，用于根据比对结果，将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列，并统计各类序列的数量；

序列长度统计模块，所述序列长度统计模块与所述序列分类模块相连，用于利用 soap reads序列，计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离，并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布；以及

序列组装模块，所述序列组装模块分别与所述序列分类模块和所述序列长度统计模块相连，用于在所述距离分布满足阈值要求时，利用唯一成对比对上所述参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

7. 根据权利要求 6所述的装置，其特征在于，所述装置进一步包括：

序列截取模块，所述序列截取模块分别与所述序列过滤模块和所述序列比对模块相连，用于在将经过过滤的短片段序列与参考基因组序列进行比对之前，将所述经过过滤的短片段序列截取为设定长度的短片段序列。

8. 根据权利要求 6所述的装置，其特征在于，所述不合格的序列包括选自下列的至少一种：外源序列、碱基 N数目达到预定比例的短片段序列、含有 polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列。

9. 根据权利要求 6所述的装置，其特征在于，所述 soap reads序列包括唯一成对比对上所述参考基因组序列的同一片段的 soap reads序列和多次成对比对上所述参考基因组序列的同一片段的 soap reads序歹¹ J ,

其中，

所述序列长度统计模块进一步包括利用所述唯一成对比对上所述参考基因组序列的同一片段的 soap reads序列，计算所述成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离，统计各个所述成对比对上所述参考基因组序列同一片段的 soap reads序列在所述参考基因组序列上的距离分布；

所述序列组装模块进一步包括在所述距离分布满足阈值要求时，利用唯一成对比对上所述参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

10. 根据权利要求 6所述的装置，其特征在于，所述装置进一步包括：

序列接收模块，所述序列接收模块与所述序列过滤模块相连，用于接收长插入片段文库末端测序后的序列。