WO2016045106A1

WO2016045106A1 - 单细胞染色体的cnv分析方法和检测装置

Info

Publication number: WO2016045106A1
Application number: PCT/CN2014/087604
Authority: WO
Inventors: 李剑; 夏滢颖; 陈大洋; 甄贺富; 张彩芬; 张爱萍; 张现东; 刘赛军; 李尉; 黄奕乐
Original assignee: 深圳华大基因股份有限公司
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2016-03-31
Also published as: CN106795551A; CN106795551B

Abstract

一种单细胞染色体的CNV分析方法和检测装置，单细胞染色体的CNV分析方法包括以下步骤：提取有效数据的第1步骤；对所提取的有效数据进行序列比对后再判断Y染色体是否存在的第2步骤；将经过序列比对后的序列划分窗口再进行GC含量校正的第3步骤；对GC含量校正后的数据进行断点筛查的第4步骤；以及对断点筛查后的数据进行满足判断条件的数据过滤及可视化的第5步骤。

Description

单细胞染色体的CNV分析方法和检测装置

技术领域

本发明涉及生物技术领域，更具体地，涉及单细胞染色体的CNV分析方法和检测装置。

背景技术

目前很多科学研究与临床应用需要在单个细胞水平进行，或者在微量水平进行。在单细胞水平分析DNA遗传信息，判断细胞或胚胎或个体是否存在染色体拷贝数异常，亦是常见的研究方法。例如，在辅助生殖技术中的植入前筛查(Preimplantation Genetic Screening，缩写PGS)，涉及对配子细胞、单个卵裂球细胞或胚胎细胞进行DNA遗传检测，判断受精卵或胚胎的染色体是否正常，选取正常的胚胎进行植入。也可通过对母体外周血中的极少量胎儿细胞或胎儿染色体拷贝数检测，确定胎儿是否正常，以达到无创产前诊断的目的。在癌症的研究中，也可在单细胞水平检测染色体拷贝数信息，以研究癌症的发生和发展机制。单细胞或微量样本进行染色体拷贝数检测在很多方面得以应用。

单细胞水平检测染色体拷贝数异常，原位荧光杂交(Fluorescent In Situ Hybridization，缩写FISH)方法应用已久。但是由于荧光染料数目限制，只能对有限的几对染色体进行检测，且操作复杂，不适用于大规模检测。随着高通量测序技术的不断发展，加上单细胞全基因组扩增技术，使得利用单个细胞做全基因组范围的染色体拷贝数检测成为可能。但是，由于单细胞全基因组扩增中不可避免的扩增偏向性问题，可能会掩盖基因组中本来的变异信息。

发明内容

本发明针对上述问题，开发了一套适用于单细胞全基因组扩增产物测序的(非等长序列)单细胞染色体拷贝数变异(Copy Number Variation，缩写CNV)分析技术，通过GC校正、加入对照集合等来修正扩增中产生的偏向性，并实现了信息分析自动化的效果，适用于大样本量检测。

本发明所用样本为单细胞、少数的几个细胞或者是微量DNA样本。细胞类型可以是植入前遗传检测的胚胎细胞，癌症研究的单个肿瘤细胞，产前诊断的母体外周血有核红细胞、血浆、羊水，病理学研究的组织切片等。

本发明中，所述的全基因组扩增是指对单个细胞、几个细胞或微量核酸样本进行全基因组范围的扩增，其方法可以是部分随机引物扩增(Degenerate Oligonucleotide Primer PCR，缩写DOP-PCR)，完全随机引物扩增(Primer Extension Preamplification PCR，缩写PEP-PCR)，多重链置换扩增(Multiple Displacement Amplification，缩写MDA)，OmniPlex WGA等方法中的任一种。也可采用商业试剂盒如QIAgen公司的REPLI-g，Sigma Aldrich公司的GenomePlex WGA，New England Biolabs公司的Sureplex，Rubicon Genomics公司的PicoPlex WGA，GE Healthcare公司的illustra Genomiphi V2等试剂盒中的任一种。

本发明可对新一代高通量半导体测序平台产生的测序序列进行染色体拷贝数分析。其中，新一代高通量半导体测序平台包括Ion Torrent^TM，Ion Proton^TM测序平台。

本发明的目的在于提供一种信息分析方法，通过GC校正、加入对照集合等来修正扩增中不可避免的偏向性，并实现了大样本量自动分析的效果。具体分析方法如下：

本发明的第一方面提供了一种单细胞染色体的CNV分析方法，包括以下步骤：提取有效数据的第1步骤；对所提取的有效数据进行序列比对后再判断Y染色体是否存在的第2步骤；将经过序列比对后的序列划分窗口再进行GC含量校正的第3步骤；对GC含量校正后的数据进行断点筛查的第4步骤；以及对断点筛查后的数据进行满足判断条件的数据过滤及可视化的第5步骤。

优选地，所述序列比对是SOAP比对。

优选地，所述Y染色体判断的判定依据是Y染色体上特异基因的支持数。

优选地，用以下步骤进行所述CG含量校正：计算校正系数；将原reads数乘以校正系数以得到校正后的reads数；以及将校正后的reads数除以校正后的样本序列全基因组reads数的平均数以得到Ratio值。

优选地，断点筛查步骤包含以下三个依次执行的子步骤：初始化步骤，在该初始化步骤中，将基因组上所有染色体首尾相接，连成一个环，将基因组上每个窗口视作一个点，在每个点的左右各取相同数目的点作为初始比较点集，对初始比较点集进行初步的游程检验，根据P值大小筛选出可能的断点，建立初步的断点集，该P值是两个可能的断点间所有窗口的GC含量校正后的拷贝值经卡方检验后的P值；初步筛选断点步骤，在该初步筛选断点步骤中，在每一个可能的断点的左右两边分别取与相邻的可能的断点之间的点建立左右两个初步比较点集，对这两个初步比较点集进行游程检验，用计算出的P值作为该可能的断点的新的P值；以及循环确定最终断点步骤，在循环确定最终断点步骤中，通过游程检验重复地将P值最大的可能的断点左右的相邻断点之间的区域合并，并分别更新了相邻断点的P值，直到最大的P值小于阈值或可能的断点数小于最小断点值，将最终剩下的断点确定为筛选出的断点。

优选地，所述判断条件是指以下两个条件：

(a)CNV片段不小于1M；

(b)Ratio≤0.7或Ratio≥1.3。

优选地，所述可视化是指画出CNV的核型图以及各窗口Ratio值对应的峰图。

本发明的第二方面提供了一种单细胞染色体的CNV检测方法，包括以下步骤：根据本发明第一方面的PF快速建库方法构建文库；对所构建的文库进行上机测序，得到测序结果；以及对所述测序结果进行信息分析。

优选为，所述上机测序是用高通量测序技术进行的。

优选为，所述上机测序是利用IonProton测序仪进行的。

本发明的第三方面提供了一种单细胞染色体的CNV检测装置，具备：建库单元，该建库单元构建文库且输出；测序单元，该测序单元连接于建库单元且对建库单元输出的文库进行上机测序以输出测序结果；以及分析单元，该分析单元连接于测序单元且对测序单元输出的测序结果根据本发明第一方面的CNV分析方法进行信息分析。

优选为，所述上机测序是用高通量测序技术进行的。

优选为，所述上机测序是利用IonProton测序仪进行的。

本发明针对Ion Proton测序平台测序序列不等长的特点，开发出针对对单个细胞、几个细胞或微量核酸样本染色体拷贝数变异检测方法。特别是在体外受精-胚胎移植领域，本发明能够实现对移入到子宫腔之前胚胎染色体的非整倍性和微缺失，微重复的精确检测。另外本发明通过增加对照集合来修正测序过程中产生的误差；基于对各批次数据的矫正来减少扩增偏向性带来的影响，提高检测的准确度；根据Y染色体上特异基因的支持数来判断Y染色体是否存在，相比根据覆盖度判断的策略准确度更高；通过独特的断点筛选策略来确定CNV的位置和大小。Ion Proton测序平台拥有快速、简单及可扩展等特征，结合本发明所述的信息分析流程，能有效推进癌症及遗传性疾病等临床研究进展。

附图说明

图1是示出本发明的CNV分析方法的流程图。

图2是示出本发明的单细胞染色体的CNV检测装置的结构图。

图3是示出本发明的断点筛查的过程的示意图。

具体实施方式

以下参照附图，结合具体实施方式，进一步阐述本发明。应理解，以下实施方式仅用于说明本发明而不用于限制本发明的范围。

CNV样本检测

在开始检测样本之前，首先要获取对照样品集合。对照样品集合指的是相对于测试样本而言已知的正常样本组成的集合。其建库方法、测序试剂及测序类型等应尽量与待测样品一致。建立对照样品集合是为了减少实验偶然误差，并为检测样本数据的GC校正，标准化，片段化，估算拷贝数变异程度提供参照。为了增加对照的可信度，我们以男女样本各为30个建立对照样本。

下面参照图1，详述分析方法的步骤如下：

1提取有效数据

高通量测序平台产生的序列标签称为reads。根据Ion Proton测序平台测序数据不等长的特点，将bam的数据格式转换为比对软件所需的fastQ数据格式，并从reads的5’端截取50bp用于后续分析，在此基础上，再从其5’端切除20bp，以排除WGA(DOP-PCR引物序列)对后续分析的影响。之所以要截取50bp用于后续分析，是因为在现有的算法中，截取的reads长度越长，可用于下游分析的总数据量越少；截取的reads长度越短，截取后的唯一比对率(unique map rate)越低。为了让数据量和唯一比对率达到平衡，使有效数据量最大化，经梯度测试，我们认为截取50bp的reads在目前的条件下是最优的选择。其中，unique reads是指在参考基因组上只有一个比对位置的reads。

2序列比对

将截取后的fastQ数据格式的DNA序列与NCBI数据库中版本37.3(hg19；NCBIBuild37.3)的人类基因组参考序列进行SOAPaligner/soap2比对(图1中所示出的SOAP比对)，比对时允许最多两个碱基的错配，得到序列在基因组上的位置信息。在进行比对之前对序列的基本信息进行统计，统计数据包括质量值、比对率、GC含量、重复率、基因组覆盖度、测序深度、Q20值等信息，根据以上信息对测序数据进行质控。为避免重复序列对拷贝数变异分析的干扰，只选取与人类基因组参考序列唯一比对的测序序列(unique reads)，并去除其中由于扩增产生的重复序列，计算序列重复比对率。另外，关于SOAP的具体技术可参见http://soap.genomics.org.cn/。

序列比对时的Y染色体判断

为了使对照更有针对性，本发明设计了对样本Y染色体判断步骤。判断方法分为两种，一种为依据Y染色体上特异基因的支持数；二为依据Y染色体的平均深度。传统的方法是通过Y染色体上reads的平均深度(因染色体不同部位的深度可能不同，故用其平均值来代表一条染色体上的测序深度)来判断Y 染色体是否存在，即当Y染色体的平均深度超过阈值后就认为Y染色体存在。传统的方法会受测序误差、同源序列、样本状态(如，某些状态较差的胚胎样本其测序数据总体波动较大)等的影响较大，可能会造成某些样本出现假阳性(如将性染色体正常的男性样本判断为-X)或假阴性(如可能将XXY个体判断为正常)。

而Y染色体特异基因支持数的方法是通过选取Y染色体上特有的5个基因，通过一定筛选(基因区域内的reads数需达到最低要求)后，看在样本的测序结果中共有几个这样的基因，例如，若对某样本，这5个基因中共有4个基因的区域内reads数超过阈值，则其支持数为4。

采用Y染色体特异基因支持数的方法可以有效规避同源序列造成的影响，也能减少测序误差和样本波动对Y染色体判断的影响，相当于缩小了观察的范围，也就减小了在观察范围内出现误差的可能性)。

根据现有结果比较，以Y染色体上特异基因的支持数为最终判定依据。

3窗口划分

将hg18打断成reads长度(50bp)建立模拟数据，将模拟数据比对到参考基因组上后，按照保证每个窗口内reads数为100K的规则画窗口，这是为了保证正常样本中所有窗口内的reads数具有较高的均一性，便于后续检测拷贝数变异。然后为了使断点定位更准确，将窗口左右滑动一定范围使其内的reads数增加20K。也就是说，将人类基因组参考序列划分为100kb左右的窗口，并上下滑动20kb，但不限于此类窗口，根据测序读长，也可以是其他长度的窗口。GC含量校正

首先，统计各窗口内的unique reads数，并计算各窗口的GC含量(GC％)。例如，设某窗口W中unique reads数为100，算出其中每条reads的GC含量，取它们的中位数(假设为47％)作为该窗口的GC含量。对基因组上所有窗口进行上述处理，可以算出基因组上所有窗口unique reads数的平均值(假设为130)。

其次，分别将样本序列和参考序列上的各窗口按GC％(梯度为0.05)划分为不同校正单元，并计算各校正单元内不同窗口reads数的中位数(Mi)。例如，将窗口按照GC含量，以5％为梯度，划分为不同校正单元，假设样本基因组GC含量分布范围为35％～55％，则可划分出35％～40％，40％～45％，45％～50％，50％～55％五个校正单元，窗口W在其中的45％～50％校正单元中。

接着，根据式(1.1)，计算得到各校正单元的校正系数C。

例如，计算各校正单元内不同窗口reads数的中位数，设45％～50％校正单元的中位数为110，则根据式(1.1)算得其校正系数为C＝130/110≈1.18。

再根据式(1.2)，计算各窗口校正后的reads数及校正后的样本序列全基因组reads数的平均数。

校正后的reads数＝原reads数×所属校正单元的校正系数c_i (1.2)

在上述的例子中，窗口W校正后的reads数＝100×1.18＝118。用同样的方法算出基因组上所有窗口校正后的reads数，并算出其平均值(假设为125)。最后根据式(1.3)，计算各窗口的Ratio值，用于后续分析。

在上述的例子中，窗口W的Ratio值＝118/125＝0.9440。

上述流程是针对样本建立对照集合的步骤。在构建对照集合的过程中特别要注意对照和样本所使用的扩增试剂盒，建库方式，测序方式等其他条件均要保持一致，这样才能有效的减少基因组中高GC含量或低GC含量区域出现的拷贝数偏差，提高拷贝数变异检测的精度。

4断点筛查

将每个窗口视作一个点，在其左右两侧各取n个点(例如100个窗口)进行游程检验，得到每个点相应的P值，留下P值最小的m个点(例子中选取10000个点)，通过循环迭代，每次删除P值最大的点，并更新该点左右两点的P值，直至剩下的点中P值小于1e-25或者点的个数小于24个，将剩下的点做为候选CNV断点(即每个CNV片段的边界点)；算出两个断点之间的Ratio值(两断点间所有窗口的GC校正后Ratio值的平均数)和P值(两断点间所有窗口GC校正后Ratio值经卡方检验后的P值)。

参照图3，断点筛查的具体步骤如下：将基因组上所有染色体首尾相接，连成一个环。将基因组上每个窗口视作一个点(以下用“点”表示窗口)，下述所有的检验的观测值是每个点的Ratio值：

1)初始化(寻找断点)：在每个点的左右各取相同数目的点(目前取100个点)作为两个比较的点集，对这两个点集进行初步的游程检验，根据P值大小筛选出可能的断点(将P值由小到大排列，选出排在前面的10000个点，即P值最小的10000个点)，建立初步的断点集。后续的工作就是不断对断点集内的点进行验证，筛掉其中不是断点的点。

2)初步筛选断点：在每一断点左右两边分别取其与相邻断点之间的点建立左、右点集，对这两个点集进行游程检验，用计算出的P值作为该断点新的P值(实际上就是更新断点的P值，因为一般情况下点集内元素的个数会增加，点集内数据的波动更接近样本整体数据的波动，游程检验结果更接近真实情况，故用新的P值替换初始化过程中得到的P值)。

3)循环确定最终断点：选出断点集中P值最大的点(设为M)，取其左右相邻的断点(设为L、R)分别进行游程检验：在L左右两边分别取其与相邻断点之间的点建立左、右两点集，对这两个点集进行游程检验，用计算出的P值作为L新的P值；对R做相同处理，并从断点集中删除M(因为M为P值最大的点，可以认为是最不可能为真实断点的点)。实际效果是，把L和R之间的区域合并，并分别更新了L和R的P值。上述处理完成后，再选出更新了L点和R点P值后的断点集中P值最大的点，重复上述步骤，直到最大的P值小于阈值(目前我们设为1e-25，这个值可由用户自行设定)或断点数小于最小断点值(因为最开始已把基因组上所有染色体连成了一个环，故断点集中至少有最小断点值个数的断点，在本实施例中最小断点值是24)。最终，断点集内剩下的这些断点就是最终的CNV结果中的断点，断即发生了拷贝数变异的区域的起始和终止位置。

该筛查的特点在于:1.采用成环的方式,将基因组看成一个整体,相比某些分染色体找断点的方法,能更有效地检出非整倍体；2.采用游程检验的方法筛选断点,相比传统的参数检验受观测值波动的影响较小；3.采用多次游程检验,能排除大量假阳性信号,使断点寻找更为准确.

游程检验亦称“连贯检验”，是根据样本观测值的排列所形成的游程的多少进行判断的检验方法，可以检测样本的随机性以及总体的分布是否相同。上述断点筛选策略中，用游程检验主要是为了检验断点两侧是否连贯，若游程检验的P值较大，则说明断点两侧的点集符合同一分布，其连贯性高，该点为断点的可能性较小；反之，则说明断点两侧的点集属于不同分布，其连贯性低，该点可能为一个断点。

5数据过滤及可视化

判断中阳性信号(CNV)是否满足两个条件：a)CNV片段不小于1M；b)Ratio≤0.7(缺失)或Ratio≥1.3(重复)。根据上述条件判断CNV，并画出其核型图以及各窗口Ratio值对应的峰图。

上述流程中，可以自动执行的采用计算机程序，它能够通过新一代测序技术产生的数据，将受试样本进行批次修正，然后和对照集合进行数据校正、标准化和片段化，估算出受试样本的拷贝数变异程度和大小。

根据本发明的再另一方面,提供了一种单细胞染色体的CNV检测装置。如图2所示，该装置包括建库单元100、测序单元200、以及分析单元300。

根据本发明的实施方式，建库单元100构建文库且输出。

测序单元200连接于建库单元100且对建库单元100输出的文库进行上机测序以输出测序结果

分析单元300连接于测序单元200且对测序单元200输出的测序结果采用上述的分析技术进行信息分析。

本领域技术人员能够理解的是，可以采用本领域中已知的任何适于进行上述操作的装置作为上述各个单元的组成部件。在本文中所使用的术语“连接”应作广义解释，可以是直接相连，也可以通过中间媒介简介相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述的具体含义。

结果

本发明已进行超过300例已知结果的样本验证，信号检出率为100％，以下为部分结果的展示：

表1 Ion Proton平台检测CNV验证结果

此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

一种单细胞染色体的CNV分析方法，其特征在于，包括以下步骤：

提取有效数据的第1步骤；

对所提取的有效数据进行序列比对后再判断Y染色体是否存在的第2步骤；

将经过序列比对后的序列划分窗口再进行GC含量校正的第3步骤；

对GC含量校正后的数据进行断点筛查的第4步骤；以及

对断点筛查后的数据进行满足判断条件的数据过滤及可视化的第5步骤。
如权利要求1所述的CNV分析方法，其特征在于，

所述序列比对是SOAP比对。
如权利要求1所述的CNV分析方法，其特征在于，

所述Y染色体判断的判定依据是Y染色体上特异基因的支持数。
如权利要求1所述的CNV分析方法，其特征在于，

用以下步骤进行所述CG含量校正：

计算校正系数；

将原reads数乘以校正系数以得到校正后的reads数；以及

将校正后的reads数除以校正后的样本序列全基因组reads数的平均数以得到Ratio值。
如权利要求1所述的CNV分析方法，其特征在于，

所述第4步骤包含以下三个依次执行的子步骤：

初始化步骤，在该初始化步骤中，将基因组上所有染色体首尾相接，连成一个环，将基因组上每个窗口视作一个点，在每个点的左右各取相同数目的点作为初始比较点集，对初始比较点集进行初步的游程检验，根据P值大小筛选出可能的断点，建立初步的断点集，该P值是两个可能的断点间所有窗口的GC含量校正后的Ratio值经游程检验后的P值；

初步筛选断点步骤，在该初步筛选断点步骤中，在每一个可能的断点的左右两边分别取与相邻的可能的断点之间的点建立左右两个初步比较点集，对这两个初步比较点集进行游程检验，用计算出的P值作为该可能的断点的新的P值；以及

循环确定最终断点步骤，在循环确定最终断点步骤中，通过游程检验重复地将P值最大的可能的断点左右的相邻断点之间的区域合并，并分别更新了相邻断点的P值，直到最大的P值小于阈值或可能的断点数小于最小断点值，将最终剩下的断点确定为筛选出的断点。
如权利要求1所述的CNV分析方法，其特征在于，

所述判断条件是指以下两个条件：

(a)CNV片段不小于1M；

(b)Ratio≤0.7或Ratio≥1.3。
如权利要求1所述的CNV分析方法，其特征在于，

所述可视化是指画出CNV的核型图以及各窗口Ratio值对应的峰图。
一种单细胞染色体的CNV检测装置，其特征在于，具备：

建库单元，该建库单元构建文库且输出；

测序单元，该测序单元连接于建库单元且对建库单元输出的文库进行上机测序以输出测序结果；以及

分析单元，该分析单元连接于测序单元且对测序单元输出的测序结果根据权利要求1-7中任意一项所述的CNV分析方法进行信息分析。
如权利要求8所述的CNV检测装置，其特征在于，

所述上机测序是用高通量测序技术进行的。
如权利要求8所述的CNV检测装置，其特征在于，

所述上机测序是利用Ion Proton测序仪进行的。