WO2016124069A1

WO2016124069A1 - 一种构建长片段测序文库的方法

Info

Publication number: WO2016124069A1
Application number: PCT/CN2016/070789
Authority: WO
Inventors: 王欧; 程小芳; 邹良英; 常灿坤; 蒋慧; 章文蔚
Original assignee: 深圳华大基因研究院; 深圳华大基因科技有限公司
Priority date: 2015-02-04
Filing date: 2016-01-13
Publication date: 2016-08-11
Also published as: US20170341051A1; US10456769B2; CN107002153A; CN107002153B

Abstract

本发明提供了一种构建长片段测序文库的方法。本发明提供的方法包括如下步骤：1）制备含有单链DNA的5184孔板；2）将所述单链DNA等量分装到5184孔板每个孔中；3）将全基因组扩增反应体系分装到步骤2）处理后的5184孔板每个孔中，反应；4）将片段化反应液分装到步骤3）处理的5184孔板每个孔中，反应；5）将步骤4）处理后的5184孔板每个孔中的核酸分子添加不同标签序列，即得到测序文库。

Description

一种构建长片段测序文库的方法

技术领域

本发明涉及生物技术领域，尤其涉及一种构建长片段测序文库的方法。

背景技术

新一代高通量并行测序仪使基因组学领域发生了革命性变化，基因测序所需成本和时间大大降低，同时一些新的应用，诸如宏基因组测序，基因结构变异和基因表达分析也被开发了出来。尽管如此，目前其他物种基因组的组装，离达到人类基因组项目设定的标准的，常规的基因组还有非常长的距离。受限于测序原理和技术瓶颈，现有的高通量并行测序仪的测序读长分布从几百碱基到几千碱基不等，而需要进行研究的基因组或基因组元件的或可多达几亿个碱基，这要求生物信息学家将这些片段化的信息重新还原成生物体本身的长片段染色体信息，即对测序生成的短片段进行组装。

事实上，基因组的组装效果受到很多方面的制约，除了制定的测序策略，测序数据质量，以及所使用的组装软件等人为因素外，待研究的基因组的自身特性也会影响基因组组装的效果，其中较为重要的两个因素是基因组中的重复区域和基因组的杂合程度。由于现有测序手段的读长较短，无法跨越重复区域因而造成拼接失败。而基因组的杂合程度过高则会导致组装软件将同源染色体单独组装出来，从而造成组装的基因组偏离于基因组的真实情况。在不改变现有测序仪读长的情况下，这些因素无法通过改进组装拼接算法完全消除。此外，潜在的测序错误，以及文库构建过程中扩增导致的偏向性及错误都会对组装效果产生负面影响。

因此越来越多的研究者试图通过在实验设计方面进行改进从而提升基因组拼装效果。针对基因组重复区域，传统的方法一般通过增加文库跳跃长度来辅助组装，如构建不同长度的Mate pair jump文库或Fosmid文库，用于跨过不同大小的基因组重复区域。另外还可以采用混合测序类型的方法，如使用PacBio测序仪长读长序列生成长脚手架序列，然后利用illumina测序仪的短读长进行错误修正，从而达到较好的组装效果。

而对于高杂合度引起的组装问题，可以通过单倍型组装定相(Phasing)来解决。即通过实验手段将单倍体信息从多倍体信息中分离出来，从而使单倍体型被完整的组装出来。目前已经有一些研究使用不同的研究手段获得了样品的单倍体型信息，这些手段包括：1.通过对样品以及样品的父本进行全基因组测序进而获得样品的单倍体型信息。2.通过使用Fosmid测序方法进行单倍体型测序。3.在细胞分裂中期，使用显微操作技术将染色体分离并测序，进而获得单倍体型信息。4.通过临近随机连接法进行单倍体测序。

然而，以上几种单倍型定相方法均具有一定的局限性：1.同时对父代和子代样本进行测序，然后根据基因型进行单倍型定相的方法要求同时拥有父本和母本的样品，这大大限制了它的使用范围，并且该方法无法对De novo突变进行检测。2.使用Fosmid测序的方法需要至少一周的文库制备时间，包含大量建库实验，因此该方法需要微克级的样品作为起始。无法针对临床少量样品进行分析。3.染色体分离方法需要有复杂的专业显微操作设备，同时要求实验人员的操作水平非常高。4.受限于实验原理，临近连接法检测到的突变体有限,只能检测到80％左右的SNV，不能满足临床分析的需要。因此，为了应对个体化医疗的需要，急需一种高准确度，高覆盖度，低成本，低起始量，实验条件相对简便的单倍体型测序技术。

针对这一情况，研究人员研发了使用短读序列组装成长读长片段，从而进行单倍体型组装的方法。代表技术有Complete Genomics公司的长片段读取(Long Fragment Read，简称LFR技术，下同)技术，以及illumina公司旗下的Truseq synthetic long read产品。在实验原理上，这两者与Fosmid单倍型分型方法相似，都是通过将DNA随机分离到不同物理分隔中，以实现将不同来源的同源染色体分离的效果。而与Fosmid测序不同的是，这两者的文库构建时间均有明显缩短，并且无需大量操作，单倍型组装效果均可达到Haplotype N50500kb左右。特别值得一提的是，LFR技术仅需要100pg左右的DNA，即10-20个细胞的基因组作为起始即可完成文库构建，并可以覆盖92％以上的SNV位点，其正确率可以达到99.99999％，相比同样基于连接测序的全基因组测序方法的正确率提高了10倍。

也应承认，目前的短读组装技术仍存在一定不足之处。首先，该类型方法目前多使用384孔板作为物理分隔，理论上讲每个分隔内包含10％-20％的基因组，仍然是较高的单分隔基因组容量，组装上仍存在一定难度。其次，illumina公司的Truseq synthetic long read产品在起始步骤将DNA打断至8-10kb的片段，该方法对具有大重复区域的基因组的组装效果不理想。而Complete Genomics的LFR技术起始量低的样本进行建库，需要使用多重链置换反应(Multiple Displacement Amplification，MDA)对样品进行大量扩增，该过程会带来一些扩增偏好性。

发明公开

本发明的一个目的是提供一种构建长片段测序文库的方法。

本发明提供的方法，包括如下步骤：

1)制备含有单链DNA的5184孔板；

所述制备含有单链DNA的5184孔板的方法为如下A)或B)：

A)先提取待测样品基因组DNA，变性，得到单链DNA，再将所述单链DNA分子分装到5184孔板的每个孔中，得到含有单链DNA的5184孔板；

B)先将待测样品分装到5184孔板的每个孔中，再裂解变性，得到含有单链DNA的5184孔板；

所述单链DNA的片段长度不小于100Kb；

2)将全基因组扩增反应体系分装到所述含有单链DNA的5184孔板的每个孔中，进行全基因组扩增反应，得到含有全基因组扩增产物的5184孔板；

3)将片段化反应体系分装到所述含有全基因组扩增产物的5184孔板的每个孔中，进行片段化反应，得到片段化产物，含有所述片段化产物的孔板即为含有片段化产物的5184孔板；

所述片段化产物的长度为200-1500bp；

4)对所述含有片段化产物的5184孔板每个孔中片段化产物添加不同标签序列，即得到测序文库。

上述方法中，所述含有单链DNA的5184孔板中的单链DNA总量满足5184孔板中每个孔内出现来自父母双方相同基因组位置的(两条有相互交叉的)同源染色体片段的概率小于1％；

所述含有单链DNA的5184孔板中的单链DNA总量具体为10-500个细胞的DNA量。

上述方法中，所述5184孔板每孔的容积为190纳升至350纳升，所述5184孔板每孔的容积具体为200纳升至350纳升。

上述方法中，步骤1)中，所述变性或所述裂解变性采用的试剂为碱变性试剂；

所述变性的反应条件为25度孵育2分钟；

所述裂解变性的反应条件为85摄氏度孵育2分钟；

所述提取待测样品基因组DNA的方法采用透析法或碱裂解法或琼脂糖包埋法。

上述方法中，步骤2)中，所述全基因组扩增反应体系中含有由8个碱基组成的随机引物。

上述方法中，在步骤1)和步骤2)之间，还包括如下步骤：将由8个碱基组成的随机引物分装到所述含有单链DNA的5184孔板中。

上述方法中，步骤2)中，所述全基因组扩增反应体系为多重链置换聚合酶扩增反应体系；

所述全基因组扩增反应为30℃孵育1小时，再65℃孵育5分钟；

或所述全基因组扩增反应为37℃孵育45分钟，再65℃孵育5分钟。

上述方法中，步骤3)中，所述片段化反应体系为转座酶反应体系；

所述转座酶反应体系包括转座酶反应缓冲液和包埋接头的转座酶；

所述片段化反应的条件为55℃孵育10分钟；

所述接头为接头1和/或接头2。

所述接头1和接头2为序列不同的接头。

上述方法中，步骤4)中，所述添加不同标签序列的方法包括如下步骤:将72种3’端标签引物、聚合酶链式反应体系和72种5’端标签引物分装到所述含有片段化产物的5184孔板各孔中，进行聚合酶链式反应，得到原始测序文库；

所述3’端标签引物从5’至3’方向依次由测序接头A、8个碱基组成随机片段和与所述接头1互补的单链DNA分子组成；

所述5’端标签引物从5’至3’方向依次由测序接头B、8个碱基组成随机片段和与所述接头2互补的单链DNA分子组成；

所述72条3’端标签引物和72条5’端标签引物的8个碱基组成随机片段均不相同；

所述聚合酶链式反应体系含有引物1和引物2；

所述引物1与所述测序接头A相同或互补；

所述引物2与所述测序接头B互补或相同。

所述测序接头A和测序接头B为序列不同的接头。

上述方法中，所述72种3’端标签引物的分装方式为：将所述72种3’端标签引物分装到所述含有片段化产物的5184孔板的72列的每个孔中；

所述72种5’端标签引物的分装方式为：将所述72种5’端标签引物分装到所述含有片段化产物的5184孔板的72行的每个孔中；

所述聚合酶链式反应体系的分装方式为：将所述聚合酶链式反应体系分装到所述含有片段化产物的5184孔板的每个孔中。

上述方法中，所述聚合酶链式反应的退火温度为60℃30秒。

上述方法中，所述分装的方法均为：先将各待分装物质分装到384孔板中的分装模式孔中，再将所述分装模式孔中的物质用纳升级分液器分装到所述5184孔板各孔中；

所述分装的量均为各孔等量分装。

上述方法中，所述384孔板的分装模式孔符合4×2排列，且长边为2短边为4，所述分装模式孔的孔数范围8-384孔，所述分装模式孔具体为24孔或72孔。

上述方法中，在步骤4)中得到原始测序文库后，还包括如下步骤：将所述原始测序文库进行文库片段分选，得到长度在200-1100bp范围内的片段选择文库，即为长片段测序文库。

上述方法中，所述200-1100bp片段选择文库为250-550bp片段选择文库和550-1000bp片段选择文库；

所述分选的方法为磁珠纯化或琼脂糖电泳纯化；

上述方法中，所述待测样品为真核细胞或混合物微生物细胞，所述真核细胞来源于人类血液细胞；

所述混合物微生物细胞来源于含有混合微生物的粪便或含有混合微生物土壤。

由上述方法制备的长片段测序文库也是本发明保护的范围。

上述方法在长片段DNA分子测序中的应用也是本发明保护的范围；

所述长片段DNA分子不小于100Kb；

上述方法在混合微生物纯化单菌落中的应用也是本发明保护的范围；

所述混合微生物具体来源于粪便或土壤。

本发明的另一个目的是提供一种制备长片段测序文库的成套产品。

本发明提供的产品，包括384孔板、上述5184孔板和纳升级分液器。

本发明的第三个目的是提供一种上述定制的5184孔板。

本发明提供的定制的5184孔板，其特征在于：所述孔板每孔容积为200-350纳升。

所述变性试剂为碱变性试剂，配方如实施例中的表1；

所述384孔板的样品分装模式符合4*2且长边为2短边为4，分装孔数范围8-384孔，优选24孔或72孔。

所述包埋接头为接头1和/或接头2；可根据需要自行设计。本实施例的接头1和接头2的设计是针对illumina测序仪应用而设计的：

接头1和接头2序列

接头1序列及结构：

5′-GCCTCCCTCGCGCCATCAGAGATGTGTATAAGAGACAG-3′

3′-TCTACACATATTCTCTGTC-5′

接头2序列及结构：

5′-GCCTCCCTCGCGCCATCAGAGATGTGTATAAGAGACAG-3′

3′-TCTACACATATTCTCTGTC-5′

若更换其他的测序平台，可以根据下方设计原则，更换相应的序列。接头1和接头2的序列的设计原则为：

1.设计的接头1和接头2是由两条链组成，一条长链一条短链。

2.长链端的3’末尾19bp序列固定为AGATGTGTATAAGAGACAG(5’至3’方向)。

3.长链的5’末端可根据不同的测序平台更换为不同序列。如针对Life Technology公司的Ion Proton测序仪，接头1长链变更为CCTCTCTATGGGCAGTCGGTGATAGATGTGTATAAGAGACAG(5’至3’方向)；接头2的长链变更为：CCATCTCATCCCTGCGTGTCTCCGACTCAGAGATGTGTATAAGAGACAG(5’至3’方向)。

4.短链为一条19bp的寡聚核苷酸链，序列为CTGTCTCTTATACACATCT(5’至3’方向)，它与2中所述长链端的3’末尾19bp序列为反向互补关系。

5.应当注意到，接头1与接头2的序列可以相同，也可以不相同。

6.针对不同的测序仪的接头1和接头2，需要按照PCR引物设计原则，有针对性的设计不同的引物1、2、3和4。

附图说明

图1为长片段测序技术原理示意图。

图2为长片段测序文库构建方法流程图。

图3为本方法建库时间与illumina常规文库建库所需时间对比。

图4为本方法建库时间与主流单倍型文库建库所需时间对比。

图5为高分子量DNA提取电泳结果示意图。

图6为给定的分隔数量下，细胞数量与父本母本片段交叠概率关系图。

图7为384孔储液来源板加液位置示意图1。

图8为384孔储液来源板加液位置示意图2。

图9为未进行片段选择文库的Agilent 2100 bioanalyzer检测结果图。

图10为片段选择文库(250-550bp)的Agilent 2100 bioanalyzer检测结果图。

图11为片段选择文库(550-1000bp)的Agilent 2100 bioanalyzer检测结果图。

图12为长片段100kb拼接结果示意图(请将英文替换为中文)。

实施发明的最佳方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、长片段测序文库的构建

一、待测序单链DNA等量分装到5184孔板中每个孔中

1、长片段基因组DNA的提取

提取待测样本基因组DNA，且使提取的基因组DNA片段不小于100kb；

具体提取方法如下：

使用Agilent RecoverEase透析法DNA提取试剂盒，提取人血液中的白细胞(也可以为培养细胞，组织样品则需进行研磨匀浆处理。)基因组DNA，提取后使用脉冲场凝胶电泳检测其片段长度分布，检测条件为：6V/cm,50-90秒转换范围,运行时间20小时。结果如图5中第三泳道，看出提取片段长度分布主带大于100kb，片段跨度为50kb-800kb。

2、长片段基因组DNA双链变为单链DNA

1)、反应起始用量

本例以人类基因组为例，人类基因组包含6Gb单倍体型信息，经计算采用150皮克，即20个人类细胞所含DNA质量的DNA为最终的反应起始用量。该用量保证了在所有物理分隔中，同一分隔内出现来自父母双方相同基因组位置的(两条有相互交叉的)同源染色体片段的概率小于1％。待测样品的来源(物种)不同，DNA用量也不同，范围为10-500个细胞的DNA量。

设细胞数量Cells＝n，物理分隔数量(孔数)Wells＝w，细胞为二倍体基因组；

定义每一个孔中存在的基因组数量λ＝4n/w；

可推出同一孔中出现来自父本和母本相同基因组位置的同源染色体片段的概率公式：

X为单碱基位点的测序深度；

由于孔中长片段来自父本或母本的概率都为50％，因此最终每个孔中长片段位于基因组相同位置，且分别来自父本和母本的概率：P*50％。

由此公式可以推出，在同一孔中出现来自父本和母本的相同基因组位置的同源染色体片段的概率只与投入的细胞数量和物理分隔数量有关，而与投入片段长度和基因组大小无关。

在给定的分隔数量下，可以生成细胞数量与概率的分布图(图6)。按照该分布图，可以推算出在某概率下，需要投入的细胞数量。

对于本发明为了满足同一分隔内出现来自父母双方相同基因组位置的同源染色体片段的概率小于1％，则5184孔板中DNA加入量为10-500个细胞的DNA量。

2)、双链变单链

将DNA的浓度调整至664.56pg/μL，使用剪口移液吸头吸取9.57μL DNA样品置于1.5mL离心管中备用。随后将20μL碱变性试剂原液(配方如表1所示)稀释10倍至200μL，取172.3μL稀释后液体加入到上述1.5mL离心管中，轻弹管壁混匀。室温静止两分钟(变性)后将反应体系转移至于冰上，注意此处处理时间不得超过5分钟，否则会对DNA样品造成损害。该步骤的目的是破坏其DNA分子双链间的氢键，使其成为单链DNA。

表1为碱变性试剂配方

3、单链DNA分装到5184孔板中

1)、随机引物的添加

取出13.40μL步骤二的2得到的样品，加入到49.78μL的1mM浓度的8碱基随机引物中，无需混匀。室温静止两分钟。随后向样品中加入496.78μL无核酸酶的水，使总体积达到560μL。

2)、将步骤1中处理好的样品，使用阔口移液器吸头分装至384孔板中的24个孔(具体位置如图7蓝色标记所示，24孔为第1列和第2列的前12孔，样品分装模式符合4*2且长边为2短边为4，分装孔数范围8-384孔，优选24 孔，但不限于。此处样品分装模式为3组精密排列的4*2的孔，每孔体积22微升(每孔DNA含量为18.41皮克)。

3)、使用WaferGenMultisampleNanodispenser仪器(分液器)，将步骤2中准备好384孔板中的样品，使用“LFR 35nl Single Sample dispensing.seq”程序等量分装到定制化的5184孔板的各孔中，每个孔里面加35nl体积，每个孔中DNA含量为0.0293皮克(1个人白细胞细胞核内DNA含量为6.5皮克，5184个孔中的细胞总数为23个)，得到含有DNA单链的5184孔板。

定制化的5184孔板为适合分液器5184孔板，且每孔容积为200nl的孔板。定制化的5184孔板每孔容积范围在200nl-350nl，也可用普通标准5184孔板，视不同来源的DNA起始量而定。

二、全基因组扩增反应

1、上述一得到的含有DNA单链的5184孔板使用封口膜封好，将容器放入Eppendorf 5810孔板离心机，3220×g,离心5分钟。室温放置备用(为了使溶液放在管底部)。

2、在1.5mL离心管中，依据表2加入配置好的多重链置换聚合酶扩增缓冲反应液(全基因组扩增反应体系)，之后进行震荡混匀，离心后将该反应液分装到384孔板中的24孔，具体位置如图7所示，每孔体积22微升。

表2为多重链置换聚合酶扩增缓冲反应液

试剂	体积(微升)
ddH₂0	421.92
10x Phi Buffer(Enzymatics#B7020)	110.21
10％Pluronic F68	1.18
25mM dNTPs	11.85
Phi29(Enzymatics#P7020-LC-L)	14.81

3、小心移除容器表面的封膜，使用WaferGenMultisampleNanodispenser仪器，将步骤2中384孔板24孔中的样品，使用“LFR 35nl Single Sample dispensing.seq”程序等量分装到经过上述1)处理后的含有DNA单链的5184孔板各孔中。

4、加液完成后，将容器使用封口膜封好，将容器放入Eppendorf 5810孔板离心机，3220×g,离心5分钟。随后将其放入适配的温浴设备中，30℃孵育1小时(也可以37℃孵育45分)，再65℃孵育5分钟。最后冷却至室温备用，得到全基因组扩增产物，得到含有全基因组扩增产物的5184孔板。

三、片段化

将上述二得到的全基因组扩增产物进行片段化，使其大小为200-1500bp，采用包埋接头1和接头2的转座酶进行片段化；

1、在1.5mL离心管中，依据表3说明配置好的包埋接头1和接头2的转座酶反应体系。之后上下颠倒二十次混匀，短暂离心后将该反应体系分装到384 孔板的24孔中，具体位置如图7所示，每孔体积22微升。

接头1序列及结构：

5′-GCCTCCCTCGCGCCATCAGAGATGTGTATAAGAGACAG-3′

3′-TCTACACATATTCTCTGTC-5′

接头2序列及结构：

5′-GCCTCCCTCGCGCCATCAGAGATGTGTATAAGAGACAG-3′

3′-TCTACACATATTCTCTGTC-5′

灰色背景内碱基通过碱基互补配对原则，以氢键作用相互结合在一起，保证两条序列组成一个特定的接头。

表3为用于片段化的转座酶反应液

试剂	体积(微升)
5x Tagment Buffer(Vazyme#TD108-02)	336.00
Tagment Enzyme Mix*(Vazyme#TD108-02)	224.00

2、小心移除容器表面的封膜，之后使用

WaferGenMultisampleNanodispenser仪器，将步骤1中准备好的384孔板24孔中的样品，使用“LFR 35nl Single Sample dispensing.seq”程序等量分装到上述二得到的含有全基因组扩增产物的5184孔板各孔中。

3、加液完成后，将该容器使用封口膜封好，将容器放入Eppendorf 5810孔板离心机，3220×g,离心5分钟。随后将其放入适配的温浴设备中，55℃孵育10分钟，之后冷却至室温备用。

4、依据表4配置好转座酶中和反应液，之后震荡混匀，短暂离心后将该反应液通过装到384孔板的24孔中，具体位置如图7所示，每孔体积14微升，再将384孔板24孔中的样品，使用“LFR 35nl Single Sample dispensing.seq”程序等量分装到上述3得到的5184孔板各孔中，得到200-1500bp的片段化产物，即得到含有片段化产物5184孔板。

片段化产物通过Agilent Bioanalyzer 2100进行毛细管电泳确定片段大小分布，如图10和图11，可以看出大小为200-1500bp。

表4为转座酶中和反应液

试剂	体积(微升)
5X NT buffer(Vazyme#TD108-02)	823.2
ddH2O	164.64

四、加标签序列得到测序文库

1、加标签序列用于区分不同样本

1)、取出已经分装在96孔板内的72种带有标签序列的3’端引物(2.5μmol/L，序列如表5所示)，使用八道移液器取0.56μL，加入到384孔板的72孔中，如图8绿色区域所示。将384孔板置于混匀仪上震荡混匀，随后将孔板放入Eppendorf 5810孔板离心机，3220×g,离心5分钟。检查无气泡后室温静置备用。

3’端标签引物从5’至3’方向依次由测序接头A、8个碱基组成随机片段和与接头1互补的单链DNA分子组成；72条3’端标签引物的8个碱基组成随机片段均不相同；

表5 3’端标签序列引物

上表中，下划线为测序接头A、斜体为8个碱基组成随机片段，加粗部分为与所述接头A互补的单链DNA分子。

2、小心移除容器表面的封膜，随后使用

WaferGenMultisampleNanodispenser仪器，将上述1得到的384孔板中的样品，使用“LFR 35nl 72Sample dispensing.seq”程序等量分装到上述三得到的含有片段化产物5184孔板72列的每个孔中。

3、加液完成后，将该容器使用封口膜封好，将容器放入Eppendorf 5810孔板离心机，3220×g,离心5分钟。室温静置10分钟，备用。

4、依据表6配置好聚合酶链式反应缓冲液，表6中Primer1和2的序列见表7。之后震荡混匀，短暂离心后将该反应液分装到384孔板中，具体位置如图8绿色区域所示所示，每孔体积15.6微升；使用“LFR 35nl Single Sample dispensing.seq”程序等量分装到经上述3处理得到的5184孔板各孔中。

表6聚合酶链式反应缓冲液

表7 Primer1和Primer2引物序列

名称	序列5'-3'
Primer1	AATGATACGGCGACCACCGA
Primer2	CAAGCAGAAGACGGCATACGA

引物1与测序接头A相同或互补；

引物2与测序接头B互补或相同。

5、取出已经分装在96孔板内的72种带有标签序列的5’端引物(2.5μmol/L，序列如表8所示)，使用八道移液器取0.56μL，加入到准备好的384孔板中。将384孔板置于混匀仪上震荡混匀，随后将孔板放入Eppendorf 5810孔板离心机，3220×g,离心5分钟。检查无气泡后室温静置备用。

5’端标签引物从5’至3’方向依次由测序接头B、8个碱基组成随机片段和与接头B互补的单链DNA分子组成；

72条3’端标签引物和72条5’端标签引物的8个碱基组成随机片段均不相同；

表8 5’端标签序列引物

上表中，下划线为测序接头B、斜体为8个碱基组成随机片段，加粗部分为与接头B互补的单链DNA分子。

6、小心移除容器表面的封膜，随后使用WaferGenMultisampleNanodispenser仪器，将步骤5中准备好的的384孔板中的样品，使用“LFR 50nl 72 Sample dispensing.seq”程序等量分装到经上述4处理得到的5184孔板的72行的每个孔中。

7、将经上述6处理得到的5184孔板按照表9所示的PCR程序进行聚合酶链式扩增。

表9聚合酶链式扩增反应程序

8、将经上述7处理后的5184孔板中所有孔的扩增产物混合，得到测序文库(原始)。

将测序文库(原始)用2％琼脂糖电泳，回收电泳产物，实现测序文库(原始)分选，得到250-550bp片段选择文库1和550-1000bp片段选择文库2。

将测序文库(原始)、片段选择文库1、片段选择文库2使用Agilent Bioanalyzer进行检测，测定其文库片段分布情况。

图9为原始文库结果，可以看出，片段为200-1500bp；

图10为片段选择文库1结果，可以看出，片段为250-550bp；

图11为片段选择文库2结果，可以看出，片段为550-1000bp。

用实时荧光定量PCR检测文库中的有效分子浓度标准qPCR浓度(可以使用Kapa Biosystems公司的KK4824 KAPA Library Quantification Kits for illumina platform进行qPCR检测。该试剂盒包含该检测的所有试剂及引物。qPCR程序如下表10))，结果如表11。

表10 qPCR使用程序

表11文库中的有效分子浓度

检测合格(合格标准为qPCR浓度大于5nmol/L)后进行illuminaHiseq 2000或者Hiseq 2500测序。

用SOAP2软件进行拼接测序结果，结果为拼接得到100KB片段，说明本发明方法正确，可以测序大小为100KB的长片段。

拼接分析如下：

方法：(1)使用soap2把reads比对Ref hg19，比对时只取unique的比对结果(-r 0)。

(2)使用soap.coverage计算reads在reference上单点覆盖度(物理覆盖度-phy)。

(3)计算每个well上覆盖的块区(block)的长度和block之间的间隔(gap)的长度。注：这里gap容忍度为500K，即长度小于500K的不认定为gap。把三种插入长度的文库合并起来计算。

结果：

长片段长度分布直方图如图12所示。

中位数:45,510bp

平均值:195,457bp

标准差:551,263bp

最大值:147,859,018bp。

实施例2、长片段测序文库用于分离纯化单菌

一、长片段基因组DNA的提取

提取混合微生物基因组DNA，且使提取的基因组DNA片段不小于100kb(100-800kb)，同时变性基因组DNA片段；

具体提取方法如下：

1、分离菌落

1)取0.2克含复杂微生物群落的鸡粪置于1.5毫升离心管中，用1000微升磷酸盐缓冲液进行悬浮，涡旋振荡5分钟至充分混匀。

2)将上述样品在高速离心机上以10000转每分钟的转速离心5分钟，丢弃上清液后加入800微升磷酸盐缓冲液，涡旋振荡3分钟至充分混匀。

3)将上述样品在离心机上以2000转每分钟的转速离心3分钟，然后小心吸取上清到一个新的1.5毫升离心管中，然后重复本步骤2次；

4)将上述样品在高速离心机上以10000转每分钟的转速离心5分钟，丢弃上清液后加入800微升磷酸盐缓冲液，涡旋振荡3分钟至充分混匀，然后重复本步骤2次。

5)使用孔径20微米的醋酸纤维滤膜对前述样品进行过滤，收集滤液到一个新的1.5毫升离心管中，然后在高速离心机上以10000转每分钟的转速离心5分钟，丢弃上清；得到微生物混合物；

2、细胞固定

在上述1得到的微生物混合物中加入800微升用无菌水配制的4％多聚甲醛溶液，涡旋振荡3分钟至充分混匀后置于4摄氏度静置过夜，得到固定微生物细胞。

将上述固定微生物细胞短暂漩涡振荡至混匀，用红细胞计数板对其中细胞浓度进行计数，然后用无菌水稀释至30细胞/微升后备用，得到稀释后微生物细胞。

3、裂解微生物得到长片段核酸分子

1)将20微升碱变性试剂原液(见表1内容)稀释30倍至600微升，并分装至384孔板中，具体位置如图7中蓝色标记所示，每孔加入体积22微升。

2)使用WaferGenMultisampleNanodispenser仪器，将步骤1)中准备好的384孔板中的样品，使用“LFR 35nl Single Sample dispensing.seq”程序加入到定制化的5184孔板中。每孔容积为350纳升。

3)加液完成后，将容器使用封口膜封好，将容器放入Eppendorf 5810孔板离心机用4000转每分钟的转速离心5分钟，然后小心移去封口膜，金属浴加热容器至85摄氏度保持15分钟，使容器中的水全部蒸发，然后取出容器待其自然冷却至室温；

4)将上述2得到的稀释后微生物细胞分装至384孔板的24孔中，具体位置如图7中蓝色标记所示，每孔加入体积22微升。

5)使用WaferGenMultisampleNanodispenser仪器，将步骤4)中准备好的384孔板中的样品，使用“LFR 35nl Single Sample dispensing.seq”程序加入到步骤3)所述的容器中。

6)加液完成后，将容器使用封口膜封好，将容器放入Eppendorf 5810孔板离心机用4000转每分钟的转速离心5分钟。随后将其放入适配的温浴设备中， 85摄氏度孵育2分钟，将容器放入Eppendorf 5810孔板离心机用4000转每分钟的转速离心2分钟，再将容器放入85摄氏度孵育2分钟。

7)将上述容器放入Eppendorf 5810孔板离心机用4000转每分钟的转速离心5分钟，置于室温备用，得到含有单链DNA分子样本，含有其的孔板为含有单链DNA分子样本的5184孔板。

二、全基因组扩增反应

与实施例1的二方法相同。

三、片段化

与实施例1的三方法相同。

四、加标签序列，区分不同样本

与实施例1的六方法相同，得到测序文库(原始)。

分选得到500bp-600bp片段选择文库。

用实时荧光定量PCR检测文库中的有效分子浓度。检测合格后进行illuminaHiseq 2000或者Hiseq 2500测序。

结果：得到已知粪便中的一个细菌基因组的组装。

工业应用

本方法通过采用一种新型的高通量微量移液平台进行前期建库实验。该平台可以进行35纳升的移液操作，从而将多重链置换反应的反应体积控制在100纳升以下，有证据显示降低反应体积可以显著改善多重链置换反应的扩增偏好性。同时本方法将物理分隔数目提升到了5184孔，在建库DNA起始量保持不变的情况下，该容器每个物理分隔中所包含的DNA仅为原有384分隔的产品的十分之一左右，即1％左右的基因组，这无疑降低了每个分隔中denovo组装的难度。同时，物理分隔数目的增加可以降低来自父母双方相同基因组位置的同源染色体片段在相同孔内出现的概率至0.5％-1％，这对于定相长度的提升有非常大的帮助，从而最终可以得到更好的单倍体型组装效果。(图1，长片段测序技术原理示意图。)

本方法通过将多重链置换扩增技术，转座酶片段化技术与纳升级微量移液平台进行优化整合，建立了一套可用于低样品起始量的单倍体型文库构建流程。(图2为长片段测序文库构建方法流程图。)

本方法操作相对简单，反应步骤较少，文库构建时间只需10小时，其中手工操作部分仅为3.5小时。作为对比，传统的illumina测序文库构建需要2天时间，手工操作部分需要5小时左右。而Fosmid构建单倍体型文库技术需要8天时间才能完成文库构建，而illumina商业化的Truseq synthetic long reads试剂盒需要三天时间完成建库，其中手工操作时间需6-8小时。对比以上两种建库方式，本方法在报告周期方面具有一定优势。(图3为本方法建库时间与illumina常规文库建库所需时间对比。图4为本方法建库时间与主流单倍型文库建库所需时间对比。)

除以上特点之外，本方法仅需一台纳升级微量移液平台，无需其他仪器或者自动化移液装置的辅助即可完成全部实验流程。相比之下，染色体中期分离进行单倍体型构建技术需要的显微操作装置，Complete Genomics公司的LFR技术需要三台大型自动化移液装置，本方法无疑具有更好的可行性。

应用方面，本方法对DNA样品的需求量较少，最低可以低至150皮克(等效于25个人类细胞中所含有的DNA量)。传统的Fosmid构建单倍体型文库技术需要8微克DNA进行建库，illuminaTruseq synthetic long reads试剂盒则需要500ng DNA作为起始。起始量的降低使得本方法的应用场景得到了极大拓展，可以用于游离肿瘤细胞，游离胎儿细胞或胚胎细胞的单倍型测序。

本方法采用了较温和的提取方法，可以分离出较长的DNA片段，不小于100kb。而长片段的优势在于可以更好的解决基因组中重复区域的组装，同时也可以提升在杂合区域的组装表现。因此可以将本方法应用于动物，植物以及微生物的基因组de novo组装文库的构建。

除以上两种应用场景之外，当以一定浓度的细胞悬液作为起始材料时，本方法可以实现单细胞分离的效果。再辅以一定的细胞观测以及裂解手段，本方法可以实现高通量单细胞测序文库构建，每次运行理论上可以平行构建约1000个单细胞测序文库。因此可以将该方法用于复杂环境中的菌群研究，进而可以更深入的了解复杂环境中菌群组成。更重要的是，使用本方法可以获得一些无法分离培养的细菌的基因组信息，这无疑对于宏基因组学研究具有非常重大的意义。作为延伸，还可以将本方法应用于单细胞组学研究当中，可作为前期高通量，自动化单细胞扩增文库的构建方法。

无论是Fosmid方法，Truseq synthetic long reads试剂盒，还是Complete Genomics公司的LFR技术都是基于分隔稀释法的原理进行单倍型组装，即通过物理分隔的方法降低同源染色体片段出现在同一分隔中的概率，从而对杂合SNP进行定相(Phasing)，其分隔数一般不超过384。可以通过同一样品进行重复实验的方法增加分隔数，但这意味着建库和测序成本成倍增加。

总之，本发明的方法是通过使用纳升级微量移液装置以及定制的5184孔容器，可以有效的提升物理分隔数，进一步降低同源染色体片段出现在同一分隔中的概率，从而实现更好的单倍型组装效果。该定制容器相较原有容器的单位孔容积更大，可以容纳200nl-350nl体积的试剂(原有容积为100nl)。该定制化容器可以容纳5次加样，因此可以在该定制化5184孔容器中完成全部建库反应。

也应当注意到，操作人员可以将该5184孔容器进行再次分隔处理，即可以在一个容器中同时处理多个样品，如2×2597，或3×1728等模式，从而达到增加通量，降低成本的目的。

另外还应注意到，本方法还可以通过新增加一个维度标签的方式，引入虚拟分隔，从而进一步提升分隔数目。如在DNA转座酶片段化过程中引入两个组合标签，标记第一重物理分隔的位置，之后在聚合酶链式扩增过程中，再引入两个组合标签，标记第二重虚拟分隔的位置，从而最终可以实现5184×5184(包括但不限于此，可以是12×5184，24×5184或者更多)物理分隔的效果。

Claims

一种构建长片段测序文库的方法，包括如下步骤：

1)制备含有单链DNA的5184孔板；

所述制备含有单链DNA的5184孔板的方法为如下A)或B)：

A)先提取待测样品基因组DNA，变性，得到单链DNA，再将所述单链DNA分子分装到5184孔板的每个孔中，得到含有单链DNA的5184孔板；

B)先将待测样品分装到5184孔板的每个孔中，再裂解变性，得到含有单链DNA的5184孔板；

所述单链DNA的片段长度不小于100Kb；

2)将全基因组扩增反应体系分装到所述含有单链DNA的5184孔板的每个孔中，进行全基因组扩增反应，得到含有全基因组扩增产物的5184孔板；

3)将片段化反应体系分装到所述含有全基因组扩增产物的5184孔板的每个孔中，进行片段化反应，得到片段化产物，含有所述片段化产物的孔板即为含有片段化产物的5184孔板；

所述片段化产物的长度为200-1500bp；

4)对所述含有片段化产物的5184孔板每个孔中片段化产物添加不同标签序列，即得到测序文库。
根据权利要求1所述的方法，其特征在于：

所述含有单链DNA的5184孔板中的单链DNA总量满足5184孔板中每个孔内出现来自父母双方相同基因组位置的同源染色体片段的概率小于1％；

所述含有单链DNA的5184孔板中的单链DNA总量具体为10-500个细胞的DNA量。
根据权利要求1或2所述方法，其特征在于：所述5184孔板每孔的容积为190纳升至350纳升，所述5184孔板每孔的容积具体为200纳升至350纳升。
根据权利要求1-3中任一所述的方法，其特征在于：

步骤1)中，所述变性或所述裂解变性采用的试剂为碱变性试剂；

所述变性的反应条件为25度孵育2分钟；

所述裂解变性的反应条件为85摄氏度孵育2分钟；

所述提取待测样品基因组DNA的方法采用透析法或碱裂解法或琼脂糖包埋法。
根据权利要求1-4中任一所述的方法，其特征在于：

步骤2)中，所述全基因组扩增反应体系中含有由8个碱基组成的随机引物。
根据权利要求1-5中任一所述的方法，其特征在于：

在步骤1)和步骤2)之间，还包括如下步骤：将由8个碱基组成的随机引物分装到所述含有单链DNA的5184孔板中。
根据权利要求1-6中任一所述的方法，其特征在于：

步骤2)中，所述全基因组扩增反应体系为多重链置换聚合酶扩增反应体系；

所述全基因组扩增反应为30℃孵育1小时，再65℃孵育5分钟；

或所述全基因组扩增反应为37℃孵育45分钟，再65℃孵育5分钟。
根据权利要求1-7中任一所述的方法，其特征在于：

步骤3)中，所述片段化反应体系为转座酶反应体系；

所述转座酶反应体系包括转座酶反应缓冲液和包埋接头的转座酶；

所述片段化反应的条件为55℃孵育10分钟；

所述接头为接头1和/或接头2。
根据权利要求1-8任一所述的方法，其特征在于：

步骤4)中，所述添加不同标签序列的方法包括如下步骤:将72种3’端标签引物、聚合酶链式反应体系和72种5’端标签引物分装到所述含有片段化产物的5184孔板各孔中，进行聚合酶链式反应，得到原始测序文库；

所述3’端标签引物从5’至3’方向依次由测序接头A、8个碱基组成随机片段和与所述接头1互补的单链DNA分子组成；

所述5’端标签引物从5’至3’方向依次由测序接头B、8个碱基组成随机片段和与所述接头2互补的单链DNA分子组成；

所述72条3’端标签引物和72条5’端标签引物的8个碱基组成随机片段均不相同；

所述聚合酶链式反应体系含有引物1和引物2；

所述引物1与所述测序接头A相同或互补；

所述引物2与所述测序接头B互补或相同。
根据权利要求9所述的方法，其特征在于：

所述72种3’端标签引物的分装方式为：将所述72种3’端标签引物分装到所述含有片段化产物的5184孔板的72列的每个孔中；

所述72种5’端标签引物的分装方式为：将所述72种5’端标签引物分装到所述含有片段化产物的5184孔板的72行的每个孔中；

所述聚合酶链式反应体系的分装方式为：将所述聚合酶链式反应体系分装到所述含有片段化产物的5184孔板的每个孔中。
根据权利要求9或10所述的方法，其特征在于：

所述聚合酶链式反应的退火温度为60℃30秒。
根据根据权利要求1-11任一所述的方法，其特征在于：

所述分装的方法均为：先将各待分装物质分装到384孔板中的分装模式孔中，再将所述分装模式孔中的物质用纳升级分液器分装到所述5184孔板各孔中；

所述分装的量均为各孔等量分装。
根据权利要求12所述的方法，其特征在于：

所述384孔板的分装模式孔符合4×2排列，且长边为2短边为4，所述分装模式孔的孔数范围8-384孔，所述分装模式孔具体为24孔或72孔。
根据权利要求9-13中任一所述的方法，其特征在于：

在步骤4)中得到原始测序文库后，还包括如下步骤：将所述原始测序文库进行文库片段分选，得到长度在200-1100bp范围内的片段选择文库，即为长片段测序文库。
根据权利要求14所述的方法，其特征在于：所述200-1100bp片段选择文库为250-550bp片段选择文库和550-1000bp片段选择文库；

所述分选的方法为磁珠纯化或琼脂糖电泳纯化。
根据权利要求1-15任一所述的方法，其特征在于：

所述待测样品为真核细胞或混合物微生物细胞，所述真核细胞来源于人类血液细胞；

所述混合物微生物细胞来源于含有混合微生物的粪便或含有混合微生物土壤。
由权利要求1-16中任一所述方法制备的长片段测序文库。
权利要求1-16中任一所述方法在长片段DNA分子测序中的应用；

所述长片段DNA分子不小于100Kb；

或权利要求1-16中任一所述方法在混合微生物纯化单菌落中的应用；

所述混合微生物具体来源于粪便或土壤。
一种制备长片段测序文库的成套产品，包括384孔板、权利要求1-16中任一所述方法中的所述5184孔板和纳升级分液器。
一种权利要求1-16中任一所述方法中的定制的5184孔板，其特征在于：所述孔板每孔容积为200-350纳升。