WO2013107048A1

WO2013107048A1 - 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Info

Publication number: WO2013107048A1
Application number: PCT/CN2012/070680
Authority: WO
Inventors: 殷旭阳; 张春雷; 陈盛培; 张春生; 潘小瑜; 蒋慧; 张秀清
Original assignee: 深圳华大基因健康科技有限公司
Priority date: 2012-01-20
Filing date: 2012-01-20
Publication date: 2013-07-25
Also published as: IL233691A0; AU2012366077B2; EP2826865B8; US20150012252A1; EP2826865A4; AU2012366077A1; IL233691B; RU2593708C2; JP5938484B2; KR101770884B1; JP2015506684A; EP2826865B1; EP2826865A1; RU2014134175A; KR20140114442A; SG11201404079SA; HK1215454A1; CN105392894B; CN105392894A

Abstract

提供了确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读介质。其中，确定样本基因组中是否存在拷贝数变异的方法，包括步骤：对所述样本基因组进行测序，以便获得由多个测序序列构成的测序结果；将所述测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布；基于所述测序序列在参照基因组序列上的分布，在所述参照基因组序列上确定多个突破点，所述突破点两侧的测序序列数目存在显著差异；基于所述多个突破点，在所述参照基因组上确定检验窗口；基于落入所述检验窗口的测序序列，确定第一参数；以及基于所述第一参数与预定阈值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。

Description

确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质优先权信息

无

技术领域

本发明涉及确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读介质。

背景技术

在科学研究及应用领域，时常遇到需要对单个细胞或几个细胞，或微量核酸样本进行分析的问题，比如 ^辅助生殖技术领域的植入前诊断（PGD)和植入前筛查（PGS) , 涉及对单个生殖细胞或单个卵裂球细胞或胚胎细胞进行分析；无创产前诊断技术领域，涉及通过母体外周血中微量的胎儿细胞进行检测的问题；在宏基因组学中，对环境中单个或微量的生物细胞进行分析；以及在疾病或生理研究中，涉及对组织或体液中 ^个细胞进行分析。

然而，目前确定拷贝数变异的方法仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

根据本发明的一个方面，本发明提出了一种确定样本基因组中是否存在拷贝数变异的方法。根据本发明的实施例，该方法包括以下步骤：对所述样本基因组进行测序，以便获得由多个测序序列构成的测序结果；将所述测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布；基于所述测序序列在参照基因组序列上的分布，在所述参照基因组序列上确定多个突破点，所述突破点两侧的测序序列数目存在显著差异；基于所述多个突破点，在所述参照基因组上确定检验窗口；基于落入所述检验窗口的测序序列，确定第一参数；以及基于所述第一参数与预定阈值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，能够有效地确定样本基因组中是否存在拷贝数变异，并且适用于各种拷贝数变异，包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。

根据本发明的第二方面，本发明提出了一种确定样本基因组中是否存在拷贝数变异的系统。根据本发明的实施例，该系统包括：测序装置，所述测序装置用于对对所述样本基因组进行测序，以便获得由多个测序序列构成的测序结果；分析装置，所述分析装置与所述测序装置相连，以便基于所述测序结果确定所述基因组中是否存在拷贝数变异，所述分析装置进一步包括：比对单元，所述比对单元适于将所述测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布；突破点确定单元，所述突破点确定单元与所述比对单元相连，并且适于基于所述测序序列在参照基因组序列上的分布，在所述参照基因组序列上确定多个突破点，所述突破点两侧的测序序列数目存在显著差异；检验窗口确定单元，所述检验窗口确定单元与所述突破点确定单元相连，并且适于基于所述多个突破点，在所述参照基因组上确定检验窗口；参数确定单元，所述参数确定单元与所述检验窗口确定单元相连，并且适于基于落入所述检验窗口的测序序列，确定第一参数；以及判断单元，所述判断单元与所述参数确定单元相连，并且适于基于所述第一参数与预定阈值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的系统，能够有效地实施根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，从而能够有效地确定样本基因组中是否存在拷贝数变异，并且适用于各种拷贝数变异，包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。

根据本发明的第三方面，本发明提出了一种计算机可读介质。根据本发明的实施例，该计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变异：将测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布，其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的；基于所述测序序列在参照基因组序列上的分布，在所述参照基因组序列上确定多个突破点，所述突破点两侧的测序序列数目存在显著差异；基于所述多个突破点，在所述参照基因组上确定检验窗口；基于落入所述检验窗口的测序序列，确定第一参数；以及基于所述第一参数与预定阈值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。借助该计算机可读介质，能够有效地实施根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，从而能够有效地确定样本基因组中是否存在拷贝数变异，并且适用于各种拷贝数变异，包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1 显示了根据本发明一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意图；

图 2显示了根据本发明一个实施例的确定样本基因组中是否存在拷贝数变异的系统的结构示意图；图 3 显示了根据本发明又一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意图；

图 4显示了根据本发明的实施例，样品 S1的染色体数字核型图。左图为胚胎单细胞经全基因组扩增后用本发明进行拷贝数变异检测的结果，右图为相同的胚胎提取 DNA 后直接测序（未经 WGA)的结果；以及

图 5显示了根据本发明的实施例，样品 S2染色体数字核型图。左图为胚胎单细胞经全基因组扩增后用本发明进行拷贝数变异检测的结果，右图为相同的胚胎提取 DNA后直接测序（未经 WGA) 的结果。

发明详细描述

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语 "第一" 、 "第二" 仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有 "第一'' 、 "第二'' 的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明， "多个'' 的含义是两个或两个以上。如果没有明确说明，在本文的公式或标识中，相同的字母代表相同的含义。

一、确定样本基因组中是否存在拷贝数变异的方法

根据本发明的一个方面，本发明提出了一种确定样本基因组中是否存在拷贝数变异的方法。在本发明中所使用的术语 "拷贝数变异（copy number variation, CNV )" 的含义是染色体或染色体片段拷贝数的异常，包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。

参考图 1 , 根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法包括：

S100: 对样本基因组进行测序，以便获得由多个测序序列构成的测序结果

根据本发明的实施例，本发明的方法可以采用的样本基因组的类型并不受特别限制，既可以是全基因组，也可以是基因组的一部分，例如可以是染色体或其片段。另外，根据本发明的实施例，在对样本基因组进行测序之前，进一步包括从生物样本中提取样本基因组的步骤。由此，能够直接以生物样本作为原材料，获得关于该生物样本是否具有拷贝数变异的信息，从而反映生物体的健康状态。根据本发明的实施例，可以采用的生物样本并不受特别限制。根据本发明的一些具体示例，可以采用的生物样本为选自血液、尿液、唾液、组织、生殖细胞、受精卵、卵裂球和胚胎的任意一种。本领域技术人员能够理解的是，针对不同的疾病，可以采用不同的生物样本来进行分析。由此，可以方便地从生物体获取这些样本，并且能够具体地针对某些疾病采取不同的样本，从而针对某些特殊疾病采取特定的分析手段。例如，对于可能罹患特定癌症的测试对象，可以从该组织或其附近采集样本，并进一步分离细胞进行分析，由此，能够精确并且尽可能早地获知该组织是否发生癌变。根据本发明的具体实施例，可以采用单细胞作为生物样本。根据本发明的实施例，从生物样本分离单细胞的方法和设备不受特别限制。根据本发明的一些具体示例，可以采用选自稀释法、口吸管分离法、显微操作（优选显微切割）、流式细胞分离术、微流控法的至少一种从生物样本分离单细胞。由此，能够有效便捷地获得生物样本的单细胞，以便实施后续操作，由此，可以进一步提高确定样本基因组中是否存在拷贝数变异的效率。

另外，根据本发明的实施例，对样本基因组进行测序的方法不受特别限制。根据本发明的一个实施例，对样本基因组进行测序进一步包括：首先，对样本基因组进行扩增得到经过扩增的基因组；接下来，利用经过扩增的样本基因组构建测序文库；最后，对所得到的测序文库进行测序，以便获得由多个测序序列构成的测序结果。由此，能够有效地获取样本基因组的测序结果的全基因组信息，并且能够对单细胞基因组或者微量核酸样本进行有效测序，从而进一步提高了确定样本基因组中是否存在拷贝数变异的效率。本领域技术人员可以根据采用的基因组测序技术的具体方案选择不同的构建测序文库的方法，关于构建基因组测序文库的细节，可以参见测序仪器的厂商例如 Illumina公司所提供的规程，例如参见 Illumina公司 Multiplexing Sample Preparation Guide ( Part#1005361; Feb 2010 )或 Paired-End SamplePrep Guide ( Part# 1005063; Feb 2010 ), 通过参照将其并入本文。

任选地，对于以单细胞作为生物样本提取基因组，根据本发明的实施例，可以进一步包括对单细胞进行裂解，以便释放所述单细胞的全基因组的步骤。根据本发明的一些示例，可以用于裂解单细胞并释放全基因组的方法不受特别限制，只要能够将单细胞裂解优选充分裂解即可。根据本发明的具体示例，可以利用碱性裂解液将所述单细胞裂解并释放所述单细胞的全基因组。发明人发现，这样能够有效地裂解单细胞并释放出全基因组，并且所释放的全基因组在进行测序时，能够提高准确率，从而进一步提高了确定样本基因组中是否存在拷贝数变异的效率。根据本发明的实施例，单细胞全基因组扩增的方法不受特别限制，可以采用基于 PCR的方法例如可以采用 PEP-PCR、 DOP-PCR、和 OmniPlex WGA, 也可以采用非基于 PCR的方法例如 MDA (多重链置换扩增）。根据本发明的具体示例，优选采用基于 PCR的方法，例如 OmniPlex WGA方法。可选用的商业化试剂盒包括但不限于 Sigma Aldrich的 GenomePlex , Rubicon Genomics的 PicoPlex, Qiagen的 REPLI-g, GE Healthcare的 illustra GenomiPhi等。根据本发明的具体示例，在构建测序文库之前，可以采用 OmniPlex WGA对单细胞全基因组进行扩增。由此，能够有效地对全基因组进行扩增，从而进一步提高了确定样本基因组中是否存在拷贝数变异的效率。根据本发明的实施例，可以采用选自第二代测序技术如 Illumina公司的 Hiseq 系统， Miseq 系统， Genome Analyzer(GA)系统， Roche公司的 454 FLX, Applied Biosystems公司的 SOLiD系统， Life Technologies 公司的 Ion Torrent系统等的至少一种对所述全基因组测序文库进行测序。由此，能够利用这些测序装置的高通量、深度测序的特点，进一步提高了确定单细胞染色体非整倍性的效率。当然，本领域技术人员能够理解的是，还可以采用其他的测序方法和装置进行全基因组测序，例如第三代测序技术即单分子测序技术如 Helicos Biosciences公司的 HeliScope系统， PacBio公司的 RS系统等的任一种，以及以后可能开发出来的更先进的测序技术。根据本发明的实施例，通过全基因组测序所得到的测序数据的长度不受特别限制。根据本发明的一个具体示例，所述多个测序数据的平均长度为约 50bp。申请人惊奇地发现，当测序数据的平均长度为约 50bp时，能够极大地方便对测序数据进行分析，提高分析效率，同时能够显著降低分析的成本。进一步提高了确定单细胞染色体非整倍性的效率，并且降低了确定单细胞染色体非整倍性的成本。这里所使用的术语 "平均长度" 是指各个测序数据长度数值的平均值。

S200: 将测序结果与参照基因组序列进行比对，以便确定测序序列在参照基因组序列上的分布在完成对样本基因组进行测序之后，所得到的测序结果中包含了多个测序序列。将所得到的测序结果与参照基因组序列进行比对，从而可以确定所得到的测序序列在参照基因组序列上的定位。根据本发明的实施例，可以采用任何已知的方法对这些测序数据的总数目进行计算。例如，可以采用测序仪器的制造商所提供的软件进行分析。优选采用短寡核苷酸分析包（Short Oligonucleotide Analysis Package , SOAP )和 BWA比对（Burrows-Wheeler Aligner )进行，将测序序列与参考基因组序列比对，得到测序序列在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行，或者由本领域技术人员根据需要对参数进行选择。在本发明的一个实施方案中，所采用的比对软件是 SOAPaligner/soap2。

根据本发明的实施例，参照基因组序列是 NCBI数据库中的标准人类基因组参考序列（例如可以为 hgl8, NCBI Build 36 )。也可以是已知基因组序列的一部分，例如可以为选自人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。

根据本发明的实施例，通过将测序结果与参照基因组序列进行比对，可以选择与参照基因组序列唯一比对的序列，进行后续分析，由此，能够避免重复序列对拷贝数变异分析的干扰，进一步提高确定样本基因组中是否存在拷贝数变异的效率。

S300: 基于测序序列在参照基因组序列上的分布，在参照基因组序列上确定多个突破点在本文中所使用的术语 "突破点" 指的是基因组上这样一种位点，在该位点两侧相同的区段之间测序序列数目存在显著差异。因为测序序列（reads )是来源于样本基因组的，因而当样本基因组中特定区域出现拷贝数变异时，与该区域对应的测序序列的数目也会有显著变牝。由此，在确定多个突破点后，可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。

根据本发明的实施例，在参照基因组上确定突破点可以进一步包括：

首先，将参考基因组序列划分为多个预定长度的一级窗口，并确定落入各一级窗口中的测序序列。根据本发明的具体实例，可以通过常规的比对程序，将所得到的测序结果中所包含的测序序列与参照基因组序列进行比对，从而确定落入各一级窗口中的测序序列。例如可以在前面描述的 S200步骤中完成。根据本发明的具体实例，落入各一级窗口中的测序序列为唯一比对测序序列。由此，能够避免重复序列对拷贝数变异分析的干扰，进一步提高确定样本基因组中是否存在拷贝数变异的效率。

接下来，针对参考基因组序列上的至少一个位点，确定落入位点两侧相同数目一级窗口中的测序序列数目。根据本发明的实施例，可以对参考基因组序列上的所有位点进行相关夯析，也可以对感兴趣的染色体，例如人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种上的所有位点进行该分析。根据本发明的实施例，各一级窗口的长度可以相同或者不同，并且一级窗口之间可以有重叠，只要各个一级窗口的信息是已知的即可，优选各一级窗口具有相同的长度。根据本发明的实施例，各一级窗口的长度可以均为 100-200Kbp，优选 150Kbp。根据本发明的实施例，在位点两侧选择的一级窗口的数目并不受特别限制，根据具体实例，可以在位点两侧各取 100个一级窗口。

接下来，可以通过统计分析，确定所研究位点两侧测序序列数据分布的 p值，该 p值可以反映两侧测序数据数目的显著差异性。如果所述位点的 p值小于终止 p值，判断该位点为突破点。根据本发明的实施例，终止 p值的范围可以是通过对已知序列的样本进行平行分析而确定的，根据本发明的一个具体实例，终止 p值为 1.1X10-⁵⁰。

根据本发明的一个实施例，确定位点两侧测序数据数目的显著差异性 p值进一步包括：

针对选定的位点，在该位点两侧各取相同数目的一级窗口，并且计算每个一级窗口的相对测序序列数目 Ri，其中 i表示一级窗口的编号，

对所有一级窗口的相对测序序列数目 ¾进行游程检验，以便确定该位点的 p值，

其中， .

述相对测序序列数目是通过下列公式确定的：

其中 η表示落入第 i一级窗口的测序序列数目， ri , n表示一级窗口的总数目。

具体地，对所有一级窗口的相对测序序列数目进行游程检验进一奇包括：对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正，以便获得校正的相对测序序列数目 "^；基于校正的相对测序序列数目，确定每个一级窗口的标准化的测序序列数目 ; 以及对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。更具体地，所述校正的相对测序序列数目^'是通过下列步骤获得的：

首先，计算每个一级窗口的 GC含量；接下来，将 GC含量以预定数值为单位划分为多个区域，并且统计每个区域中相对测序序列数目的平均值 M_s, 其中 s为 GC区域的编号，根据本发明的实施例，预定数值可以为在 0.0005-0.01范围内的任意数值，对应的区域大小为 50k-300k, 优选采用 0.001，由此进杆矫正的力度 (power)最佳；

接下来，根据下列公式确定所述校正的相对测序序列数目

R = R —M - 最后，通过下列公式确定标准化的测序序列数目

Z, = ( - R_t - mean )/SD

其中，

SD = —— Y (R - R_; - mean )'

V » o

由此，可以通过 GC含量对测序序列数目进行校验。由此，可以消除基因组扩增的偏好所造成的干扰，从而进一步提高确定样本基因组中是否存在拷贝数变异的精确性和效率。

在确定多个突破点后，可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。因而可以将这些区段作为检验窗口，用于进一步判断是否存在拷贝数变异。对于初步判断得到的突破点较多的情形，可以对突破点进一步进行筛选。由此，根据本发明的实施例，基于多个突破点，在参照基因组上确定检验窗口进一步包括：

1 )确定多个候选突破点，候选突破点是指这样一种突破点，在该突破点的前后均存在其他突破点；

2 )确定每个候选突破点的 p值，并剔除 p值最大的候选突破点；

3 )对剩余的候选突破点重复步骤 2 ), 在剔除一部分候选突破点，直到剩余候选突破点的 p值均小于终止 p值，剩余候选突破点作为经过筛选的候选突破点；以及

4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口。

根据本发明的实施例，可以通过下列步骤确定候选突破点的 p值： .

将候选突破点与相邻的上一个突破点之间的区域作为第一候选区域，将所述候选突破点与相邻的下一个突破点之间的区域作为第二候选区域；

对第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目进行游程检验 (游程检验是一种非参数检验，利用两个群体元素混合后的分布均匀状态评价此两个群体的差异显著性，关于该检验的细节，可以参见 Wald A. WJ. On a Test Whether Two Samples are from the Same Population. The Annals of Mathematical Statistics 1940; 11 :147-162, 通过参照将其并入本文），以便确定所述候选突破点的 p值。

根据本发明的实施例，终止 p值是通过下列步骤确定的：

利用对照样品的测序结果，重复在参照基因组上确定检验窗口的操作，并记录每次被剔除候选突破点的 p值，直到候选突破点的数目为零，这里所使用的术语对照样品指的是已知核列中不存在拷贝数变异的样品；以及

基于被剔除候选突破点的 p值分布，确定所述终止 p值，例如将被剔除的候选突破点的/?值做分布图，选取 p值变化趋势最大的地方作为终止 p值（ p ， ) 。

根据本发明的具体示例，终止 p值可以为 1.1X10_^5Q。

S400: 基于落入检验窗口的测序序列，确定第一参数

替换页（细则 26 ) 在确定检验窗口后，可以通过对检验窗口中所包含的测序序列进行统计分析，从而确定该检验窗口是否存在拷贝数变异。根据本发明的一个实施例，基于落入所述检验窗口的测序序列，确定第一参数进一步包括：确定检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目该平均标准化的测序序列数目 ^ "作为第一参数。关于标准化的测序序列数目，前面已经进行了详细描述，此处不再贅述。

S500: 基于第一参数与预定阔值的差异，确定样本基因组针对该检验窗口是否存在拷贝数变异根据本发明的实施例，可以通过将前面所确定的第一参数与预定阈值进行比较，基于第一参数和预定阈值之间的差异，来确定关于特定的检验窗口，基因组样本是否具有拷贝数变异。基于基因组测序的测序结果中，针对某一特定窗口的测序序列的数目，是与全基因组中该窗口在染色体或基因组中的含量呈正相关的，因而，通过对测序结果中来源于某一特定窗口的测序序列进行统计分析，能够有效地确定关于该窗口，样本基因组是否具有拷贝数变异。在本文中所使用的术语 "预定阈值" 是指将已知基因组正常的样本基因组重复针对上述实施的操作和分析所得到的关于特定窗口的相关数据。本领域技术人员能够理解的是，可以采用相同的测序条件和数学运算方法，分别获得特定窗口的相关参数，以及正常细胞的相关参数。这里，可以将正常细胞的相关参数作为预定阈值。另外，本文中所使用的术语 "预定"，应做广义理解，可以是预先通过实验确定的，也可以是在进行生物样本分析时，采用平行实验获得的。这里所使用的术语 "平行实验" 应作广义理解，既可以指的是同时进行未知样品和已知样品的测序和分析，也可以是先后进行在相同条件下的测序和分析。根据本发明的实施例，所述预定阈值采用第一阈值和第二阈值，通过将第一参数^"与第一阈值和第二阈值相比较，小于第一阈值为拷贝数减少（即缺失），大于第二阈值为拷贝数增加（即重复），由此可以确定拷贝数变异类型。根据本发明的具体示例，设定 α

= 0 ⁵为显著界线，第一阈值为 -I.⁶⁴⁵ , 第二阈值为 I.⁶⁴⁵ , 由此，可以进一步有效地确定拷贝数变异类型。

利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，能够有效地确定样本基因组中是否存在拷贝数变异，并且适用于各种拷贝数变异，包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。拷贝数变异是引起出生缺陷的主要因素，在体外培养的胚胎中也非常常见，是引起体外生殖失败的主要原因。拷贝数变异也是很多疾病如癌症的致病因素。全基因组扩增是对单个细胞、几个细胞或微量核酸样本进行全基因组范围扩增的技术，可以在尽量保持全基因组代表性前提下使样本量增加，达到所需的样本量。但是，通常而言，全基因组扩增都存在扩增偏向性的问题，有可能给后续分析带来误差。根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，在对单细胞或微量核酸样本经全基因组扩增后，通过测序技术获得数据，进行拷贝数变异的分析，一方面通过全基因组扩增解决了单细胞或微量核酸样本分析难的问题，另一方面避免了全基因组扩增对拷贝数变异分析产生的偏差，使检测更准确更全面，尤其是通过 GC含量校正，能够更进一步提高检测效率。另外，根据本发明的实施例，在不同样品的文库构建过程中引入不同的标签，由此可以同时对多种样品进行检验，进一步提高确定样本基因组中是否存在拷贝数变异的效率。利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，能够进行胚胎植入前拷贝数变异筛查和诊断或无创胎儿拷贝数变异筛查，有利于提供遗传咨询和临床决策依据；进行产前诊断可有效防止病变胚胎植入，防止患儿出生。二、确定样本基因组中是否存在拷贝数变异的系统

根据本发明的第二方面，本发明提出了一种确定样本基因组中是否存在拷贝数变异的系统，利用该系统能够有效的实施前述确定样本基因组中是否存在拷贝数变异的方法，从而可以有效的确定样本基因组中是否存在拷贝数变异。

参考图 2, 根据本发明的实施例，确定样本基因组中是否存在拷贝数变异的系统 1000包括：测序装置 100和分析装置 200。

根据本发明的实施例，测序装置 100用于对对样本基因组进行测序，以便获得由多个测序序列构成的测序结果。根据本发明的实施例，确定样本基因组中是否存在拷贝数变异的系统 1000可以进一步包括基因组提取装置（图中未示出），该基因组提取装置适于从生物样本中提取样本基因组，并且该基因组提取装置与测序装置相连以便为测序装置 100提供样本基因组。由此，能够直接以生物样本作为原材料，获得关于该生物样本是否具有拷贝数变异的信息，从而反映生物体的健康状态。根据本发明的实施例，测序装置可以进一步包括：基因组扩增单元、测序文库构建单元以及测序单元。其中，基因组扩增单元适于对所述样本基因组进行扩增，测序文库构建单元与基因组扩增单元相连，并且适于利用经过扩增的样本基因组构建测序文库；以及测序单元，测序单元与所述测序文库构建单元相连，并且适于对所述测序文库进行测序。根据本发明的实施例，测序单元为选自第二代测序技术如 Illumina公司的 Hiseq系统， Miseq系统， Genome Analyzer(GA)系统， Roche公司的 454 FLX, Applied Biosystems公司的 SOLiD系统， Life Technologies公司的 Ion Torrent系统和单分子测序装置的至少一种。由此，能够利用这些测序装置的高通量、深度测序的特点，进一步提高了确定单细胞染色体非整倍性的效率。

根据本发明的实施例，分析装置 200与测序装置 100相连，以便基于测序结果确定基因组中是否存在拷贝数变异。根据本发明的实施例，分析装置 200进一步包括：比对单元 201、突破点确定单元 202、检验窗口确定单元 203、参数确定单元 204以及判断单元 205。其中，比对单元 201适于将测序结果与参照基因组序列进行比对，以便确定测序序列在参照基因组序列上的分布。根据本发明的实施例，比对单元 201 内存储有参照基因组序列为已知的人类基因组序列，任选地，该参照基因组序列为选自人类 21 号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。突破点确定单元 202 与比对单元 201相连，并且适于基于测序序列在参照基因组序列上的分布，在参照基因组序列上确定多个突破点，如前所述，突破点两侧的测序序列数目存在显著差异。检验窗口确定单元 203与突破点确定单元 202相连，并且适于基于这些突破点，在参照基因组上确定检验窗口。参数确定单元 204与检验窗口确定单元 203相连，并且适于基于落入检验窗口的测序序列，确定第一参数判断单元 205与参数确定单元 204相连，并且适于基于所得到的第一参数与预定阈值的差异，确定样本基因组针对所确定的检验窗口是否存在拷贝数变异。

根据本发明的实施例，突破点确定单元 202可以进一步包括适于执行下列以确定突破点的模块：将参考基因组序列划分为多个预定长度的一级窗口，并确定落入各一级窗口中的测序序列；首先，将参考基因组序列划分为多个预定长度的一级窗口，并确定落入各一级窗口中的测序序列。根据本发明的具体实例，可以通过常规的比对程序，将所得到的测序结果中所包含的测序序列与参照基因组序列进行比对，从而确定落入各一级窗口中的测序序列。根据本发明的实施例，各一级窗口的长度可以相同或者不同，并且一级窗口之间可以有重叠，只要各个一级窗口的信息是已知的即可，优选各一级窗口具有相同的长度。根据本发明的实施例，各一级窗口的长度可以均为 100-200Kbp, 优选 150Kbp。根据本发明的实施例，在位点两侧选择的一级窗口的数目并不受特别限制，根据具体实例，可以在位点两侧各取 100个一级窗口。

接下来，确定所述位点的 p值，该 p值可以反映两侧测序数据数目的显著差异性。以及如果所述位点的 p值小于终止 p值，判断该位点为突破点。根据本发明的实施例，终止 p值的范围可以是通过对已知序列的样本进行平行分析而确定的，根据本发明的一个具体实例，终止 p值可以为 1.1X10—^5Q。

根据本发明的实施例，突破点确定单元 202可以进一步包括适于执行下列以确定 p值的模块：针对选定的位点，在该位点两侧各取相同数目的一级窗口，并且计算每个一级窗口的相对测序序列数目 , 其中 i表示一级窗口的编号

对所有一级窗口的相对测序序列数目进行游程检验，以便确定所述位点的 p值，

其中，

所述相对测序序列数目是通过公式确定的：

1

其中 η表示落入第 i一级窗口的测序序列数目，

, n表示一级窗口的总数目根据本发明的实施例，突破点确定单元 202可以进一步包括适于执行下列以对所有一级窗口的相对测序序列数目进行游程检验的模块：

对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正，以便获得校正的相对测序序列数目基于所述校正的相对测序序列数目，确定每个一级窗口的标准化的测序序列数目 ¾; 以及对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。其中，根据本发明的实施例，校正的相对测序序列数目是通过适于执行下列步骤的模块获得的：

计算每个一级窗口的 GC含量；

将 GC含量以预定数值为单位划分为多个区域,并且统计每个区域中相对测序序列数目的平均值 M_s, 其中 s为 GC区域的编号, 根据本发明的实施例，预定数值可以为在 0.0005-0.01范围内的任意数值，对应的区域大小为 50k-300k, 优选采用 0.001，由此进行矫正的力度 (power)最佳；

根据公式下列公式确定所述校正的相对测序序列数目 ^Ri :

= - M_S ;

所述标准化的测序序列数目 ¾是通过下列公式确定的

Z, = ( - R, - mean )/SD

其中，

1 " - mean =—∑ R - - R,

；？ /=1 '

SD = —— Y (R, - mean )'

在确定多个突破点后，可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。因而可以将这些区段作为检验窗口，用于进一步判断是否存在拷贝数变异。对于初步判断得到的突破点较多的情形，可以对突破点进一步进行筛选。由此，根据本发明的实施例，基于多个突破点，在参照基因组上确定检验窗口进一步包括适于执行下列的模块：

2.)确定每个候选突破点的 p值，并剔除 p值最大的候选突破点；

4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口。其中，根据本发明的实施例，通过下列步骤确定所述候选突破点的 p值：

对第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目进行游程检验，以便确定所述候选突破点的 p值。

根据本发明的实施例，终止 p值是通过下列步骤确定的：

利用对照样品的测序结果，重复在参照基因组上确定检验窗口的操作，并记录每次被剔除候选突破点的 p值，直到候选突破点的数目为零，这里所使用的术语对照样品指的是已知核酸序列中不存在拷贝数变异的样品；以及

基于被剔除候选突破点的 p值分布，确定所述终止 p值，例如将被剔除的候选突破点的 p值做分布图，选取 p值变化趋势最大的地方作为终止 p值（ p _final ) 。

根据本发明的具体示例，终止 p值可以为 UX10—^5Q。根据本发明的实施例，参数确定单元 204可以进一步包括适于执行下列的模块：确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目其中，所得到的平均标准化的测序序列数目 ^"作为第一参数。进一步，在判断单元 205中存储有预定阙值，由此，判断单元 205可以参数确定单元 204所确定的第一参数与该预定阈值进行比较，从而判断所得到的检验窗口是否具有拷贝数变异，其中，根据本发明的实施例，根据本发明的实施例，所述预定阈值采用第一阈值和第二阈值，通过将第一参数^"与第一阈值和第二阈值相比较，小于第一阈值为拷贝数减少（即缺失），大于第二阈值为拷贝数增加（即重复），由此可以确定拷贝数变异类型。根据本发明的具体示例，设定 α = 0 ⁵为显著界线' 第一阈值为 -I.⁶⁴⁵, 第二阈值为 I.⁶⁴⁵, 由此' 可以进一步有效地确定拷贝数变异类型。

由此，利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的系统，能够有效地实施根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法，从而能够有效地确定样本基因组中是否存在拷贝数变异，并且适用于各种拷贝数变异，包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。

需要说明的是，本领域技术人员能够理解，在前面所描述的确定样本基因组中是否存在拷贝数变异的方法的特征和优点也适合于确定样本基因组中是否存在拷贝数变异的系统，为描述方便，不再详述。

计算机可读介质

需要说明的是，本领域技术人员能够理解，在前面所描述的确定样本基因组中是否存在拷贝数变异的方法的特征和优点也适合于该计算机可读介质，为描述方便，不再详述。下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件（例如参考 J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以采购自 Illumina公司。

一般方法

参考图 3, 在实施例中采用的确定样本基因组中是否存在拷贝数变异的方法包括下列：

首先，对样品的全基因组进行扩增，并进行测序得到测序序列（测序数据）；

接下来，通过 SOAP2将所得到的测序序列与 NCBI数据库中的标准人类基因组参考序列进行 SOAP2 比对，得到所测序序列在基因组上的位置信息。为避免重复序列对拷贝数变异分析的干扰，只选取与人类基因组参考序列唯一比对的测序序列（reads), 进行后续分析。

接下来，寻找测试样本基因组上两侧测序序列数目在统计上有显著差异的位点，其包括下列步骤： a)计算测试样本（可以同时对多个样本进行分析）的相对测序序列数：

在人类基因组参考序列上开长度为 W的窗口（ W可以是大于 1的任意整数，例如 10K - 10M bp, 优选 50K - 1M bp, 更优选为 100K - 300 bp, 例如约 150K bp) , 统计所得到的测序序列中落在每个 '分别代表窗口编号和样本编号，并计算每个窗口的 GC含量

GC ,

b)数据校正与标准化：

在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中，将 GC从小到大划分为大小相等的区域，统计每个区域中 R的平均值 ₅ , s为 GC区域的编号；

对样品中的每个窗口，计算校正的相对测序序列数 i,j ^{= R}i,j -M_s , 窗口的 GC含量在第 s GC 区域内；

对于样品中每个窗口，计算标准化的相对测序序列数 Z_; ：

, = (Ri , -Ri , -mean_i )/SD_i , 其中 . =丄 £ .-R. .),

c)确定并筛选突破点

确定突破点：针对参考基因组序列上每个点，取其左右两侧各 n个窗口（例如 100个窗口）作为两个群体进行统计检验，每个点会计算得到一个代表该点两侧差异的 p值，留下 p值最小的 m个点（例如 3000个）作为突破点（ Breakpoint )

筛选突破点：将所有排过序的突破点记为 β ={b_x,b₁,...,b } , 每个突破点都存在左右两个片段，所述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域，将这两个片段中所有 Ζ..进行统计检验（例如进行游程检验，一种非参数检验，利用两个群体元素混合后的分布均匀状态评两个群体的差异显著性）所得的 ρ值（ _Α), 视作" ¾作为突破点的显著性"，将/¾最大的候选突破点剔除，反复此步骤，直到所有 ρ值都小于该染色体的终止 ρ值（ ρ _; );

终止 ρ值的获得：在测试过程中，将以对照样本作为测试样本 '行上述步骤确定若干突破点步骤，将全基因组上所有排过序的候选突破点记为 β ={b_x,b₁,...,b } , 每个候选突破点¾都存在左右面两个窗口，将这两个窗口中所有 Ζ..进行游程检验所得的 ρ值（ ft) , 视作" ¾作为突破点的显著性"，将最不显著的候选突破点剔除并记亥突破点对应的 Ρ值，直到候选突破点数为 0, 将被剔除的候选突破点的 ρ 值做分布图，选取 ρ值变化趋势最大的地方作为终止 ρ值（ ρ ₁ ) ；

确定检验窗口 , 并验证检窗口：在获得经过 ϋ选的突破, Κ后」确定检验窗口。为了进一步对检验窗口进行判断，计算该片段中的平均值，记为 ζ, 如果片段的 ζ超出阈值范围，则该片段为拷贝数变异，其中阈值的确定具体如下：对合并窗口后每个 Ji段，计算所有对照样品在该片段中的标准化相对测序序列数 ^的平均值和标准差；因为每个片段中 ζ符合正态分布，所以根据前面步骤中计算得到的平均值和标准差，计算累积概率在 0.05时该片段的阈值范围，作为过滤该片段是否存在拷贝数变异的阈值。

实施例 1对一例胚胎单细胞样品进行胎儿片段拷贝数变异检测，以 SJ!†—例胚胎单细胞样品进行染色体非整倍性变异检测

1、全基因组扩增：本实施例采用 Sigma Aldrich公司的 GenomePlex® Single Cell Whole Genome Amplification Kit对两例胚胎单细胞样本进行全基因组扩增。所述胚胎单细胞样本为第五天囊胚期的外滋养层单细胞，通过激光捕获显微切割方法从囊胚中分离。两例胚胎单细胞经裂解后，均按照制造商所提供的试剂盒说明书进行全基因组扩增操作。

2、测序：本实施例中，采用 Illumina公司的 Hiseq2000测序平台对于获自上述 2例胚胎单细胞全基因组扩增的 DNA进行测序，按照 Illumina公司所提供的说明书，进行文库构建、上机测序，使每个样本得到约 0.36G数据量，每个样本根据标签序列进行区分。利用比对软件 SOAP2 , 将测序所得测序序列与 NCBI数据库中版本 36 ( hgl 8; NCBIBuild36 )的人类基因组参考序列进行比对，将得到测序序列在人类基因组参考序列上进行定位。

3、数据分析

a )计算测试样本和对照样本（对照样本为核型正常的样品）的相对测序序列数：

在人类基因组参考序列上划分为多个长度为 150K bp的窗口，统计前面步骤 2 )所得到测序序列中落在每个窗口上的测序序列数 r .，其中下标 /和分别代表窗口编号和样本编号，并计算每个窗口的 GC 含量 GC. . , 按照一般方法中'挺供的公式计算相对测序序列数

b ) 据校正与标准化：

在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中，将 GC从小到大划分为大小为 0. 001 的区域，统计每个区域中 R的平均值 M_s , s为 GC区域的编号，见表 1。按照一般方法中提供的公式对所得到的测序序列进行校正和标准化。

表 1 校正过程中每个 GC区域^ ^列表

/:/:/ O/-οίϊοίΜ>1£20iAV

80 0. 395~0. 396 0. 04 0. 414~0. 415 0. 08 197 0. 512~0. 513 - 1. 39 0. 53广 0. 532 - 1. 06

81 0. 396~0. 397 0. 06 0. 415~0. 416 0. 05 198 0. 513^0. 514 - 1. 43 0. 532~0. 533 - 1. 05

82 0. 397~0. 398 0. 03 0. 416~0. 417 0. 04 199 0. 514~0. 515 - 1. 45 0. 533~0. 534 - 1. 42

83 0. 398~0. 399 0. 02 0. 417~0. 418 0. 09 200 0. 515^0. 516 - 1. 3 0. 534~0. 535 - 0. 89

84 0. 399~0. 4 0. 09 0. 418~0. 419 0. 06 201 0. 516^0. 517 - 1. 38 0. 535~0. 536 - 1. 8

85 0. 4~0. 401 0. 02 0. 419~0. 42 - 0. 01 202 0. 517~0. 518 - 0. 94 0. 536~0. 537 - 0. 81

86 0. 40广 0. 402 0. 01 0. 42~0. 421 0. 09 203 0. 518^0. 519 - 1. 48 0. 537~0. 538 - 0. 89

87 0. 402~0. 403 0. 03 0. 42广 0. 422 0. 08 204 0. 519~0. 52 - 1. 48 0. 538~0. 539 - 0. 91

88 0. 403~0. 404 0 0. 422~0. 423 0. 06 205 0. 52~0. 521 - 0. 91 0. 539~0. 54 - 0. 96

89 0. 404~0. 405 0. 03 0. 423~0. 424 0. 08 206 0. 52广 0. 522 - 0. 89 0. 54~0. 541 - 1. 98

90 0. 405^0. 406 0. 02 0. 424~0. 425 0. 03 207 0. 522~0. 523 - 1. 9 0. 54广 0. 542 - 0. 29

91 0. 406^0. 407 0. 03 0. 425^0. 426 0. 06 208 0. 523~0. 524 - 1. 46 0. 542~0. 543 - 1. 28

92 0. 407~0. 408 0. 02 0. 426^0. 427 0. 05 209 0. 524~0. 525 -2. 02 0. 543~0. 544 - 1. 84

93 0. 408^0. 409 -0. 01 0. 427~0. 428 0. 06 210 0. 525~0. 526 - 1. 39 0. 544~0. 545 -1. 41

94 0. 409~0. 41 -0. 06 0. 428~0. 429 0. 03 211 0. 526~0. 527 - 1. 72 0. 545~0. 546 - 0. 54

95 0. 4Γ0. 411 -0. 06 0. 429^0. 43 0. 04 212 0. 528~0. 529 - 1. 08 0. 547~0. 548 - 1. 31

96 0. 41广 0. 412 -0. 04 0. 43~0. 431 0. 05 213 0. 529~0. 53 - 1. 42 0. 548~0. 549 -1. 11

97 0. 412~0. 413 -0. 04 0. 43广 0. 432 0. 01 214 0. 53~0. 531 - 1. 71 0. 549~0. 55 - 1. 38

98 0. 413~0. 414 -0. 02 0. 432~0. 433 0. 04 215 0. 53广 0. 532 -2. 27 0. 55~0. 551 - 1. 5

99 0. 414~0. 415 -0. 05 0. 433~0. 434 0 216 0. 532~0. 533 - 1. 78 0. 55广 0. 552 - 1. 22

100 0. 415~0. 416 -0. 07 0. 434~0. 435 - 0. 02 217 0. 533~0. 534 - 1. 55 0. 552~0. 553 - 0. 8

101 0. 416~0. 417 -0. 08 0. 435^0. 436 0. 01 218 0. 535~0. 536 - 1. 25 0. 553~0. 554 - 1. 32

102 0. 417~0. 418 -0. 11 0. 436^0. 437 0. 04 219 0. 536~0. 537 - 1. 09 0. 554~0. 555 - 1. 79

103 0. 418~0. 419 -0. 07 0. 437~0. 438 0. 01 220 0. 537~0. 538 -2. 02 0. 556~0. 557 - 1. 3

104 0. 419~0. 42 -0. 09 0. 438^0. 439 - 0. 01 221 0. 54~0. 541 -2. 16 0. 557~0. 558 - 1. 48

105 0. 42~0. 421 -0. 13 0. 439~0. 44 - 0. 01 222 0. 54广 0. 542 - 1. 64 0. 558~0. 559 - 1. 7

106 0. 42广 0. 422 - 0. 1 0. 44~0. 441 - 0. 01 223 0. 544~0. 545 -2. 3 0. 559~0. 56 - 1. 55

107 0. 422~0. 423 -0. 12 0. 44Γ0. 442 - 0. 01 224 0. 546~0. 547 -2. 51 0. 56广 0. 562 - 1. 62

108 0. 423~0. 424 -0. 11 0. 442^0. 443 - 0. 06 225 0. 548~0. 549 -2. 7 0. 563~0. 564 - 1. 68

109 0. 424~0. 425 - 0. 17 0. 443~0. 444 - 0. 04 226 0. 549~0. 55 - 1. 77 0. 564~0. 565 - 1. 47

110 0. 425^0. 426 -0. 14 0. 444~0. 445 - 0. 07 227 0. 55~0. 551 - 1. 08 0. 569~0. 57 - 1. 42

111 0. 426^0. 427 -0. 14 0. 445~0. 446 -0. 11 228 0. 55广 0. 552 -2. 13 0. 58~0. 581 - 1. 74

112 0. 427~0. 428 - 0. 15 0. 446~0. 447 - 0. 13 229 0. 553~0. 554 -2. 19 0. 583~0. 584 -2. 43

113 0. 428~0. 429 - 0. 19 0. 447^0. 448 - 0. 08 230 0. 555~0. 556 -2. 04 0. 6~0. 601 - 1. 79

114 0. 429^0. 43 - 0. 18 0. 448~0. 449 -0. 11 231 0. 556~0. 557 - 1. 93

115 0. 43~0. 431 - 0. 18 0. 449~0. 45 - 0. 07 232 0. 562~0. 563 -2. 51

116 0. 43广 0. 432 -0. 21 0. 45~0. 451 - 0. 16 233 0. 572~0. 573 - 1. 85

117 0. 432~0. 433 - 0. 26 0. 45广 0. 452 0. 08 234 0. 574~0. 575 -2. 74

C )合并窗口

确定突破点，针对参考基因组序列上每个点，取其左右两侧各 100个窗口作为两个群体进行游程检验，每个点会计算得到一个代表该点两侧差异的 _β值,留下值最小的 3000个点作为突破点（Breakpo int ) 筛选突破点：将所有排过序的突破点记为 β = {b_x , b₁ , ..., b } , 每个突破点都存在左右两个片段，所述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域，将这两个片段中所有 Ζ. .进行游程检验所得的 Ρ值（ft ), 视作 "¾作为突破点的显著性"，将/¾最大的候选突破点剔除，反步骤，直到所有 ρ值都小于该染色体的终止 ρ值 1. 1Χ10—⁵°;

d )在得到筛选后的突破点后，确定相邻两个突破点之间的区域为检验窗口， _而对窗口进行令并，为了进一步对合并窗口后获得的片段进行过滤，计算该片段中 Z. .的平均值，记为如果片段的超出阈值范围，则该片段为拷贝数变异。采用 -1. 645作为第一阈采用 1. 645作为第二阈值。

4、结果。表 2表示了在该实施例中，各胚胎单细胞样品经 WGA全基因组扩增后，拷贝数变异的检测结果列表。表 2. 实施例 1各胚胎单细胞样品经 WGA拷贝数变异检测结果列表

由表 1的结果，可以看出，通过本发明的确定样本基因组中是否存在拷贝数变异的方法，能够有效地确定各种类型的拷贝数变异。

实施例 2

使用与实施例 1相同的胚胎，重复实施例 1 , 只是在提取 DNA后直接进行测序 (未经 WGA)。实施例 1和实施例 2结果比较见表 3、图 4和图 5。

表 3. 实施案例各样品 WGA与未经 WGA样本测序数据拷贝数变异检测结果比较

从表 3数据及染色体数字核型图图 4、图 5可看出，样品经 WGA与未经 WGA测序数据拷贝数变异检测结果是一致的。对于表 3 "缺失'' 或 "重复'' 起始终止位置（发生拷贝数变异的边界）的差异，由于拷贝数变异的边界难以精确确定，一般地，对于约 150K 的一级窗口，可以判定两者的边界差异在 100-300Kb为完全一致，在 300Kb-lMb范围为较一致，表 3显示两方法确定的拷贝数变异边界的差异范围在 100-300Kb或 300Kb- 1Mb之内，判定两方法确定的发生拷贝数变异的边界一致。

工业实用性

本发明的确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质能够有效地用于确定样本基因组中是否存在拷贝数变异。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体示例"、或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

1、一种确定样本基因组中是否存在拷贝数变异的方法，其特征在于，包括以下步骤：对所述样本基因组进行测序，以便获得由多个测序序列构成的测序结果；

将所述测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布；

基于所述测序序列在参照基因组序列上的分布，在所述参照基因组序列上确定多个突破点，所述突破点两侧的测序序列数目存在显著差异；

基于所述多个突破点，在所述参照基因组上确定检验窗口；

基于落入所述检验窗口的测序序列，确定第一参数；以及

基于所述第一参数与预定阈值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。

2、根据权利要求 1所述的方法，其特征在于，进一步包括从生物样本中提取样本基因组的步骤。

3、根据权利要求 2所述的方法，其特征在于，所述生物样本为孕妇样本或胎儿样本，任选地，所述生物样本为选自孕妇血浆、绒毛膜绒毛、羊水、脐带血、胎盘和胎儿足跟血的至少一种。

4、根据权利要求 2所述的方法，其特征在于，所述生物样本为选自血液、尿液、唾液、组织、生殖细胞、受精卵、卵裂球和胚胎的至少一种，

任选地，所述生物样本为单细胞。

5、根据权利要求 1所述的方法，其特征在于，对所述样本基因组进行测序进一步包括：对所述样本基因组进行扩增；

利用所述经过扩增的样本基因组构建测序文库；以及

对所述测序文库进行测序。

6、根据权利要求 4所述的方法，其特征在于，进一步包括对所述单细胞进行裂解，以便释放所述单细胞的全基因组的步骤。

7、根据权利要求 6所述的方法，其特征在于，

利用碱性裂解液对所述单细胞进行裂解，以便释放所述单细胞的全基因组。

8、根据权利要求 7所述的方法，其特征在于，利用基于 PCR的全基因组扩增方法对所述全基因组进行扩增。

9、根据权利要求 8所述的方法，其特征在于，

所述基于 PCR的全基因组扩增方法为 OmniPlex WGA方法。

10、根据权利要求 5所述的方法，其特征在于，

利用选自 Hiseq系统、 Miseq系统、 Genome Analyzer(GA)系统、 454 FLX、 SOLiD系统、 Ion Torrent 系统和单分子测序装置的至少一种对所述测序文库进行测序。

11、根据权利要求 1所述的方法，其特征在于，所述拷贝数变异为选自染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复的至少一种。

12、根据权利要求 1所述的方法，其特征在于，在所述参照基因组上确定突破点进一步包括：将参考基因组序列划分为多个预定长度的一级窗口，并确定落入各一级窗口中的测序序列；针对参考基因组序列上的至少一个位点，确定落入所述位点两侧相同数目一级窗口中的测序序列数目；

确定所述位点的 p值，所述 p值表示两侧测序数据数目的显著差异性；以及

如果所述位点的 p值小于终止 p值，判断所述位点为突破点。

13、根据权利要求 12所述的方法，其特征在于，所述落入各一级窗口中的测序序列为唯一比对测序序列。

14、根据权利要求 12所述的方法，其特征在于，在所述位点两侧各取 100个一级窗口。

15、根据权利要求 12所述的方法，其特征在于，所述一级窗口的长度均为 100-200Kbp,优选 150Kbp。 16、根据权利要求 12所述的方法，其特征在于，所述终止 p值为至多 1.1 Χ10-^5<)。

Π、根据权利要求 12 所述的方法，其特征在于，确定所述位点两侧测序数据数目的显著差异性 ρ 值进一步包括：

针对所述位点，在所述位点两侧各取相同数目的一级窗口，并且计算每个一级窗口的相对测序序列数目 Ri，其中 i表示一级窗口的编号

其中，

所述相对测序序列数目是通过下列公式确定的： = log₂ ―'

{ '' J

其中 η表示落入第 i一级窗口的测序序列数目， ― 1 » , n表示一级窗口的总数目。

18、根据权利要求 17所述的方法，其特征在于，对所有一级窗口的相对测序序列数目进行游程检验进一步包括：对每个一级窗口的相对测序序列数目. R₍进行 GC含量校正，以便获得校正的相对测序序列数目 R'；基于所述校正的相对测序序列数目，确定每个一级窗口的标准化的测序序列数目 ; 以及对所有一级窗口的标准化的测序序列数目进行游程检验。

19、根据权利要求 18所述的方法，其特征在于，所述校正的相对测序序列数目 ^J ^是通过下列步骤获得的：

计算每个一级窗口的 GC含量；

将 GC含量以 0.001为单位划分为多个区域，并且统计每个区域中相对测序序列数目的平均值 M_s，其中 s为 GC区域的编号；

R. = R. - M_s - 根据下列公式确定所述校正的相对测序序列数目 ^Ri :

所述标准化的测序序列数目是通过下列公式确定的

其中，

1 n 、

mean =—∑ l R - - R - I

SD = —— Y iR, - R_; - mean )'

V » - 1 =i o

20、根据权利要求 19所述的方法，其特征在于，基于所述多个突破点，在所述参照基因组上确定检验窗口进一步包括：

1 )确定多个候选突破点，其中在所述候选突破点的前后均存在其他突破点；

16

替换页（细则笫 26条) 2 )确定每个候选突破点的 p值，并剔除 p值最大的候选突破点；

3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值，所述剩余候选突破点作为经过筛选的候选突破点；以及

4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口，

其中，通过下列步骤确定所述候选突破点的 p值：

将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域，将所述候选突破点与相邻的下一个突破点之间的区域作为第二候选区域；

对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目进行游程检验，以便确定所述候选突破点的 p值，

任选地，所述终止 p值是通过下列步骤确定的：

利用对照样品的测序结果，重复在参照基因组上确定检验窗口的操作，并记录每次被剔除候选突破点的 p值，直到候选突破点的数目为零；以及

基于被剔除候选突破点的 p值分布，确定所述终止 p值，

任选地，所述终止 p值为 1.1X10—^5Q。

21、根据权利要求 20所述的方法，其特征在于，基于落入所述检验窗口的测序序列，确定第一参数进一步包括：

确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目所述平均标准化的测序序列数目作为第一参数。

22、根据权利要求 1所述的方法，其特征在于，所述预定阈值采用 -1.645作为第一阈值和 1.645作为第二阈值。

23、根据权利要求 1所述的方法，其特征在于，所述参照基因组序列为选自人类 21号染色体、 18 号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。

24、一种确定样本基因组中是否存在拷贝数变异的系统，其特征在于，包括：

测序装置，所述测序装置用于对对所述样本基因组进行测序，以便获得由多个测序序列构成的测序结果；

分析装置，所述分析装置与所述测序装置相连，以便基于所述测序结果确定所述基因组中是否存在拷贝数变异，所述分析装置进一步包括：

比对单元，所述比对单元适于将所述测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布；

突破点确定单元，所述突破点确定单元与所述比对单元相连，并且适于基于所述测序序列在参照基因组序列上的分布，在所述参照基因组序列上确定多个突破点，所述突破点两侧的测序序列数目存在显著差异；

检验窗口确定单元，所述检验窗口确定单元与所述突破点确定单元相连，并且适于基于所述多个突破点，在所述参照基因组上确定检验窗口；

参数确定单元，所述参数确定单元与所述检验窗口确定单元相连，并且适于基于落入所述检验窗口的测序序列，确定第一参数；以及

判断单元，所述判断单元与所述参数确定单元相连，并且适于基于所述第一参数与预定阈值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。

25、根据权利要求 24所述的系统，其特征在于，进一步包括基因组提取装置，所述基因组提取装置适于从生物样本中提取样本基因组。

26、根据权利要求 24所述的系统，其特征在于，所述测序装置进一步包括：

基因组扩增单元，所述基因组扩增单元适于对所述样本基因组进行扩增；

测序文库构建单元，所述测序文库构建单元与所述基因组扩增单元相连，并且适于利用所述经过扩增的样本基因组构建测序文库；以及测序单元，所述测序单元与所述测序文库构建单元相连，并且适于对所述测序文库进行测序。 j7、根据权利要求 26所述的系统，其特征在于，所述测序单元为选自 Hiseq系统、 Miseq系统、 Genome Analyzer(GA)系统、 454 FLX、 SOLiD系统、 Ion Torrent系统和单分子测序装置的至少一种。

28、根据权利要求 24所述的系统，其特征在于，所述突破点确定单元进一步包括适于执行下列以确定突破点的模块：

将参考基因组序列划分为多个预定长度的一级窗口，并确定落入各一级窗口中的测序序列；针对参考基因组序列上的至少一个位点，确定落入所述位点两侧相同数目一级窗口中的测序序列数目；

如果所述位点的 p值小于终止 p值，判断所述位点为突破点。

29、根据权利要求 28所述的系统，其特征在于，所述突破点确定单元进一步包括适于执行下列以确定 p值的模块：

针对所述位点，在所述位点两侧各取相同数目的一级窗口，并且计算每个一级窗口的相对测序序列数目 , 其中 ί表示一级窗口的编号

其中，

所述相对测序序列数目是通过公式确定的：

其 η表示落入第 i一级窗口的测序序列数 B，

n表示一级窗口的总数目。

30、根据权利要求 29所述的系统，其特征在于，所述突破点确定单元进一步包括适于执行下列以对所有一级窗口的相对测序序列数目进行游程检验的模块：对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正，以便获得校正的相对测序序列数目 ^Ri; 基于所述校正的相对测序序列数目，确定每个一级窗口的标准化的测序序列数目 ¾; 以及 . 对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。

31、根据权利要求 30所述的系统，其特征在于，所述校正的相对测序序列数目是通过适于执行下列步骤的模块获得的：

计算每个一级窗口的 GC含量；

将 GC含量以 0.001为单位划分为多个区域，并且统计每个区域中相对测序序列数目的平均值 M_s, 其中 s为 GC区域的编号；

R = R -M - 根据公式下列公式确定所述校正的相对测序序列数目 .

所述标准化的测序序列数目 Zi是通过下列公式确定的

18

替换页 (细则第 26条)

其中，

32、根据权利要求 31所述的系统，其特征在于，基于所述多个突破点，检验窗口确定单元进一步包括适于执行下列的模块：

其中，通过下列步骤确定所述候选突破点的 p值：

任选地，所述终止 p值是通过下列步骤确定的：

基于被剔除候选突破点的 p值分布，确定所述终止 p值，

任选地，所述终止 p值为 1.1X10^-5G。

• 33、根据权利要求 32所述的系统，其特征在于，参数确定单元进一步包括适于执行下列的模块：确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 ϊ , 所述平均标准化的测序序列数目作为第一参数。

34、根据权利要求 24所述的系统，其特征在于，所述确定单元中存储有预定阙值，所述预定阈值采用 -1.645作为第一阈值和 1.645作为第二阁值。

35、根据权利要求 24所述的系统，其特征在于，所述比对单元内存储有参照基因组序列为已知的人类基因组序列，任选地，所述参照基因组序列为选自人类 21号染色体、 18号染色体、〗3号染色体、 X 染色体和 Y染色体的至少一种的序列。

36、一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变异：

将测序结果与参照基因组序列进行比对，以便确定所述测序序列在所述参照基因组序列上的分布，其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的；

基于所述多个突破点，在所述参照基因组上确定检验窗口；

基于落入所述检验窗口的测序序列，确定第一参数；以及

基于所述第一参数与预定罔值的差异，确定所述样本基因组，针对所述检验窗口是否存在拷贝数变异。

37、根据权利要求 36所述的计算机可读介质，其特征在于，在所述参照基因组上确定突破点进一步包括：

将参考基因组序列划分为多个预定长度的一级窗口，并确定落入各一级窗口中的测序序列；针对参考基因组序列上的至少一个位点，确定落入所述位点两侧相同 '数目一级窗口中的测序序列数目；

如果所述位点的 p值小于终止 p值，判断所述位点为突破点。

38、根据权利要求 37所述的计算机可读介质，其特征在于，所述落入各一级窗口中的测序序列为唯一比对测序序列。

39、根据权利要求 37所述的计算机可读介质，其特征在于，在所述位点两侧各取 100个一级窗口。 40、根据权利要求 37所述的计算机可读介质，其特征在于，所述一级窗口的长度均为 100-200Kbp, 优选 150Kbp。

41、根据权利要求 37所述的计算机可读介质，其特征在于，所述终止 p值为至多 1.1X10-^5Q。

42、根据权利要求 37所述的计算机可读介质，其特征在于，确定所述位点两侧测序数据数目的显著差异性 p值进一步包括：

对所有一级窗口的相对测序序列数目 1¾进行游程检验，以便确定所述位点的 p值，

其中，

所述相对测序序列数目是通过公式确定的：

其中 _ri表^落入第 i一级窗口的测序序列数目，

_ 1 ^ , n表示一级窗口的总数目。

43、根据权利要求 42所述的计算机可读介质，其特征在于，在对所有一级窗口的相对测序序列数目进行游程检验进一步包括：对每个一级窗口的相对测序序列数目进行 GC含量校正，以便获得校正的相对测序序列数目基于所述校正的相对测序序列数目，确定每个一级窗口的标准化的测序序列数目 ¾; 以及对所有一级窗口的标准化的测序序列数目进行游程检验。

44、根据权利要求 43所述的计算机可读介质，其特征在于，所述校正的相对测序序列数目是通过下列步骤获得的：

计算每个一级窗口的 . GC含量；

R = R - M_s , 根据公式下列公式确定所述校正的相对测序序列数目 ·

所述标准化的测序序列数目 ¾是通过下列公式确定的

替换页则第 26条)

其中， mean 、 R

R

SD = —— Y ( R, - R,. - mean )'

V " o

45、根据权利要求 43所述的计算机可读介质，其特征在于，基于所述多个突破点，在所述参照基因组上确定检验窗口进一步包括：

其中，通过下列步骤确定所述候选突破点的 p值：

将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域 , 将所述候选突破点与相邻的下一个突破点之间的区域作为第二候选区域；

任选地，所述终止 p值是通过下列步骤确定的：

利用对照样品的测序结果，重复在参照基因组上确定检验窗口的操作，并记录每次被剔除候选突破点的 p值，直到候选突破点的数 S为零；以及

基于被剔除候选突破点的 p值分布，确定所述终止 p值，

任选地，所述终止 p值为 1.1Χ10-⁵°。

46、根据权利要求 45所述的计算机可读介质，其特征在于，基于落入所述检验窗口的测序序列，确定第一参数进一步包括：

确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 ϊ , 所述平均标准化的测序序列数目作为第一参数。 47、根据权利要求 46所述的计算机可读介质，其特征在于，所述预定阈值采用 -1.645作为第一阈值和 1.645作为第二阈值。

48、根据权利要求 36所述的计算机可读介质，其特征在于，所述参照基因组序列为选自人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。

替换页（细 ¾第 26条)