WO2015035555A1

WO2015035555A1 - 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质

Info

Publication number: WO2015035555A1
Application number: PCT/CN2013/083217
Authority: WO
Inventors: 李旭超; 潘小渝; 葛会娟; 张艳艳; 陈芳; 陈盛培
Original assignee: 深圳华大基因科技有限公司
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2015-03-19
Also published as: CN104169929B; CN104169929A

Abstract

提供了用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质。其中，确定胎儿是否存在性染色体数目异常的方法包括：针对包含胎儿核酸的孕妇样本进行核酸测序，以便获得多个测序数据；将测序数据与人类的参照基因组序列进行比对，以便获得比对测序数据集；确定比对测序数据集中所包含的比对测序数据的数目Q；确定比对测序数据集中来源于第i号染色体的测序数据的数目N_i，其中，i表示染色体的编号，该第i号染色体至少包括Y染色体以及任选的X染色体；基于来源于Y染色体的测序数据的数目N_y，确定胎儿的性别；以及确定该胎儿是否存在性染色体数目异常。

Description

用于确定胎儿是否存在性染色体数目异常的方法、系统

和计算机可读介质

优先权信息

无技术领域

本发明涉及生物医学领域。具体而言，涉及用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质。背景技术

染色体是组成细胞核的基本物质。正常人的体细胞染色体数目为 46条，并有一定的形态和结构。染色体在形态结构或数量上的异常被称为染色体异常 (chromosome abnormalities) , 染色体异常也称染色体发育不全 (chromosome dysgenesis) ，由染色体异常引起的疾病称为染色体病。已发现人类染色体数目异常和结构畸变 3000余种，目前已确认染色体病综合症 100余种。染色体的异常会导致基因表达异常和机体发育异常。

染色体异常的发病机制不明，可能是由于细胞分裂后期染色体发生不分离或染色体在体内外各种因素影响下发生断裂和重新连接所致。在染色体异常中，又主要区分为常染色体异常及性染色体异常。

临床上常见的性染色体异常包括了 Turner综合症、克氏综合征、XXX综合征、 XYY 综合征等。多年研究发现，性染色体异常大约占所有染色体病的三分之一，总发病率约为 1/500多为散发。主要表现为性征的发育不全或畸形，智力低下。

然而，目前性染色体数目异常的检测仍有待改进。发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

在本发明的第一方面，本发明提出了一种确定胎儿是否存在性染色体数目异常的方法。根据本发明的实施例，该方法包括：针对包含胎儿核酸的孕妇样本进行核酸测序，以便获得多个测序数据；将所述测序数据与人类的参照基因组序列进行比对，以便获得比对测序数据集；确定所述比对测序数据集中所包含的比对测序数据的数目 Q; 确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni，其中， i表示染色体的编号，所述第 i 号染色体至少包括 Y染色体以及任选的 X染色体；基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别；以及确定所述胎儿是否存在性染色体数目异常，其中，针对男胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：基于所述来源于 Y染色体的测序数据的数目 N_y，计算所述男胎孕妇样本中的胎儿核酸浓度；构建对照样本数据集 D，其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度；以及确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述男胎存在性染色体数目异常的指示，针对女胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述女胎存在性染色体数目异常的指示。发明人惊奇地发现，利用根据本发明实施例的方法，能够准确有效地确定胎儿是否存在性染色体数目异常。

在本发明的又一方面，本发明提出了一种计算机可读介质。根据本发明的实施例，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿是否存在性染色体数目异常：获取来自孕妇样本的多个测序数据，所述孕妇样本包含胎儿核酸；将所述测序数据与人类的参照基因组序列进行比对，以便获得比对测序数据集；确定所述比对测序数据集中所包含的比对测序数据的数目 Q; 确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni，其中， i表示染色体的编号，所述第 i号染色体至少包括 Y染色体以及任选的 X染色体；基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别；以及确定所述胎儿是否存在性染色体数目异常，其中，针对男胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：基于所述来源于 Y染色体的测序数据的数目 N_y，计算所述男胎孕妇样本中的胎儿核酸浓度；构建对照样本数据集 D，其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度；以及确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述男胎存在性染色体数目异常的指示，针对女胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述女胎存在性染色体数目异常的指示。由此，利用根据本发明实施例的计算机可读介质，能够准确有效地确定胎儿是否存在性染色体数目异常。

在本发明的再一方面，本发明又提出了一种用于确定胎儿是否存在性染色体数目异常的系统。根据本发明的实施例，该系统包括：测序装置，所述测序装置用于针对孕妇样本进行核酸测序，以便获得多个测序数据；以及前面所述的计算机可读介质。发明人惊奇地发现，利用根据本发明实施例的用于确定胎儿是否存在性染色体数目异常的系统，能够准确有效地确定胎儿是否存在性染色体数目异常。

与目前的性染色体数目异常检测的方法对比，本发明的优越性表现在：

( 1 ) 临床可行性：本发明使用目标区域捕获的方式，在较高的测序深度下同时减少测序数据，可有效的检测出 χο、 XXX、 XXY和 XYY，本发明的方法大大的减少了数据产生的成本。

(2) 可扩展性：除了通过增加测序量之外，本发明可以通过扩大对照组数量来增大精度，以减轻对起始 DNA量的压力。

(3) 更稳定，更加全面：已报道文章中，并无明确指出自身的操作细节，而本发明涉及数据群体检测等的各个方面。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1 显示了根据本发明一个实施例的确定胎儿是否存在性染色体数目异常的方法的流程示意图。发明详细描述

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

确定胎儿是否存在性染色体数目异常的方法

在本发明的第一方面，本发明提出了一种确定胎儿是否存在性染色体数目异常的方法。根据本发明的实施例，该方法包括：

首先，针对包含胎儿核酸的孕妇样本进行核酸测序，以便获得多个测序数据。根据本发明的实施例，待测孕妇样本为含有核酸样本，核酸的类型并不受特别限制，可以是脱氧核糖核酸（DNA), 也可以是核糖核酸（RNA), 优选 DNA。本领域技术人员可以理解，对于 RNA，可以通过常规手段将其转换为具有相应序列的 DNA，进行后续检测和分析。另外，待测孕妇样本的属性也不受特别限制。根据本发明的一些实施例，可以采用基因组 DNA样本，也可以采用由基因组 DNA的一部分作为测试样本。根据本发明的实施例，可以使用的孕妇样本包括但不限于孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞和孕妇血浆。发明人发现，通过对上述孕妇样本进行核酸样本提取，能够有效地对胎儿基因组中的遗传变异进行分析，实现对胎儿无损的产前诊断或检测。虽然本发明可以进行无创胎儿遗传变异检测是一种优势，例如所述样本是孕妇的外周血，但是本发明的方法也适用于有创检测，例如所述样本可以来自胎儿的脐带血，胎盘组织或绒毛膜组织，未培养或培养过的羊水细胞、绒毛组细胞。根据本发明的实施例，待测受试者和正常对照受试者是同一物种，需要说明的是，由于正常对照个体是预先选择确定的，因此关于对照样本的任何检测或计算数据均可预先产生并保存下来，本发明的实施例采用这种预置对照样本的相关数据的方式，在需要时读取使用，以下涉及对照样本数据时不再赘述。在其他实施方式中，也可以采用对照样本同步检测和计算的方式。同时，本发明的变异检测并不一定用于疾病诊断或相关的目的，因为性染色体数目异常的存在并不代表着患病风险或健康状况，可以纯粹是科学研究的用途。

根据本发明的实施例，可以利用选自盐析法、柱层析法、磁珠法、 SDS 法的至少一种从所述孕妇样本提取 DNA，以便进行所述核酸测序。即在本发明中，所述 DNA分子的获取可以采用盐析法、柱层析法、磁珠法、 SDS法等常规 DNA提取方法，优选采用磁珠法。所谓的磁珠法，是指血液、组织或细胞经过细胞裂解液和蛋白酶 K的作用后得到裸露的 DNA 分子，其是利用特异性的磁珠对 DNA分子进行可逆性的亲和吸附，经漂洗液清洗除去蛋白质、脂质等杂质后，用纯化液将 DNA分子从磁珠上洗脱下来。磁珠是本领域中公知的，可市购获得，例如从 Tiangen。

在本发明中，一般情况下，对于获自样品的 DNA分子直接进行测序和后续步骤已经可以实现本发明的目的，提取的 DNA可以不需经过处理即用于后续步骤。在一些优选实施方案中，可以仅对电泳主带集中在 50-700 bp，优选 100- 500bp，更优选 150-300 bp，特别是约 200 bp大小的片段进行研究。在本发明一些更优选实施方案中，可以将 DNA分子打断为电泳主带集中在一定大小的片段，例如 50-700 bp, 优选 100- 500bp，更优选 150-300 bp, 特别是 200 bp附近，然后进行后续步骤。所述 DNA分子的随机打断处理可以采用酶切、雾化、超声、或者 HydroShear法。优选地，采用超声法，例如 Covaris公司的 S-series (其是基于 AFA技术，当由传感器释放的声能 /机械能通过 DNA样品时，溶解气体形成气泡，而当能量移除后，气泡破裂并产生断裂 DNA分子的能力，因而通过设置一定的能量强度和时间间隔等条件，可将 DNA分子打断至一定范围的大小。具体原理和方法可以参见 Covaris 公司的 S-series说明书）。

根据本发明的实施例，可以采用携带预定探针的芯片，对欲进行核酸测序的核酸进行筛选。由此，提高测序效率。在本发明中，所使用芯片为根据待检测染色体进行设计的捕获芯片。所述捕获芯片携带能够识别待检测染色体的预定探针，以及能够识别其他染色体的预定探针。根据本发明的一个实施例，本发明设计的捕获芯片携带能够识别性染色体区域的探针，以及能够识别所有常染色体的探针，由此，对待测孕妇样本进行捕获测序时，能够以利用上述能够识别所有常染色体的探针获得的测序数据作为正常参照，对待测孕妇样本的性染色体的测序数据进行分析，从而能够准确有效地确定其胎儿是否存在性染色体异常的情况。根据本发明的实施例，可以根据检测需要，灵活调整捕获芯片中识别性染色体 X、 Y的探针与识别常染色体对照探针的比例。根据本发明的另一个实施例，对于对照 / 待测样本，加大捕获 Y染色体文库的探针的数量，由此， Y染色体测序数据所占比例大于常规基因组测序中 Y染色体数据所占比例（常规全基因组测序 Y染色体数据所占比例值相对较小），从而有利于确定待测孕妇样本的胎儿是否存在性染色体异常。根据本发明的实施例，对芯片的设计平台及探针长度等没有特殊要求。例如，根据本发明的一个实施例，所用芯片是采用 Agilent平台设计的，涵盖了所有常染色体及性染色体，由此，还可以对所有的染色体进行数目异常检测。

根据本发明的实施例，所述测序数据的长度为 25~200 nt。根据本发明的实施例，利用第二代测序技术或单分子测序技术进行所述核酸测序。在本发明中，测序数据是指测序仪输出的序列片段，即 reads, 优选约 25-200 nt。本发明中，从测试样本获得测序数据可以采用测序的方法进行，所述测序可通过任何测序方法进行，包括但不限于双脱氧链终止法；优选高通量的测序方法，包括但不限于第二代测序技术或者是单分子测序技术。所述第二代测序平台 ( Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46 ) 包括但不限于 Illumina-Solexa ( GATM,HiSeq2000TM 等）、 ABI-Solid和 Roche-454 (焦磷酸测序）测序平台；单分子测序平台（技术）包括但不限于 Helicos 公司的真实单分子测序技术（True Single Molecule DNA sequencing) , Pacific Biosciences 公司单分子实时测序 ( single molecule real-time (SMRTTM) ) , 以及 Oxford Nanopore Technologies 公司的纳米孔测序技术等（Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446 (4)。测序类型可以为 single-end (单向）测序和 Pair-end (双向）测序，测序长度可以为 50 bp、 90 bp, 或 100 bp。在本发明的一个实施方案中，所述的测序平台为 Illumina/Solexa, 测序类型为 Pair-end测序，得到具有双向位置关系的 100 bp大小的 DNA序列分子。当待测的 DNA分子来自多个受试样本时，每个样本可以被加上不同的标签序列，以用于在测序过程中进行样品的区分 (Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3), 从而实现同时对多个样品进行测序。标签序列为了区分不同序列，但不影响添加标签序列的 DNA分子的其他功能。标签序列长度可以是 4-12 bp。

其次，将所述测序数据与人类的参照基因组序列进行比对，以便获得比对测序数据集。本发明的一个实施例中，所述的人类基因组参考序列是 NCBI数据库中的人类基因组参考序列。在本发明的一个实施方案中，所述人类基因组序列是 NCBI数据库中版本 37 (hgl9; NCBI Build 37) 的人类基因组参考序列。在本发明中，所述比对可以是不容错比对，也可以是错配 1 个碱基的比对。序列比对可以通过任何一种序列比对程序，例如本领域技术人员可获得的短寡核苷酸分析包（Short Oligonucleotide Analysis Package , SOAP) 禾 B BWA比对（Burrows- Wheeler Aligner) 进行，将测序数据与参考基因组序列进行比对，得到测序数据在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行，或者由本领域技术人员根据需要对参数进行选择。在本发明的一个实施方案中，所采用的比对软件是 SOAPaligner/soap2。

接着，确定所述比对测序数据集中所包含的比对测序数据的数目 Q。在本发明的一个实施方案中，获得的比对测序数据集只包含唯一比对测序数据，即 Q为比对测序数据集中所包含的唯一比对测序数据的数目。

接下来，确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni，其中， i表示染色体的编号，所述第 i号染色体至少包括 Y染色体以及任选的 X染色体。根据本发明的实施例，对于某一样本来源的测序数据集，在确定所述比对测序数据集中来源于第 i 号染色体的测序数据的数目 Ni之后，对所述来源于第 i号染色体的测序数据的数目 Ni进行标准化处理。根据本发明的一个具体示例，所述标准化处理包括将所述来源于第 i号染色体的测序数据的数目 Ni除以所述比对测序数据集中所包含的比对测序数据的数目 Q或者 Q的一部分（例如 Q中来源于一条或多条常染色体的比对测序数据数目），以便获得经过标准化的第 i号染色体的测序数据的数目 '，并用所述经过标准化的第 i号染色体的测序数据的数目替换所述来源于第 i号染色体的测序数据的数目 Ni。其中，对所述来源于第 i号染色体的测序数据的数目 Ni进行标准化处理是因为：利用孕妇血浆等孕妇样本检测胎儿的性染色体数目异常时，由于母亲 DNA背景的影响，胎儿的变异较难凸显出来，所以要通过标准化，来降低母亲 DNA背景噪音，放大胎儿变异信号。需要说明的是，本实施方式中所述的 "标准化处理"是利用各自的测序数据量进行归一化处理，使相对数值 A'都处于 0-1范围，利用相对测序数据量进行后续的分析运算，是为消除样本间的测序数据量的差异、突出数据本身的统计意义。在其他实施方式中，标准化处理也可以利用 GC校正进行，或者同时进行归一化和 GC校正也可达到一样的目的。在本发明的一个实施例中， GC校正指对 Ni乘一个系数将第 i号染色体测序数据的 GC含量校正到全基因组平均水平，得 N_ai， N_ai= _{e i}Ni， GC校正能够调整由于 GC含量不同带来的测序数据量的差异。在本发明的一个实施例中，对于第 i号染色体的 GC校正系数^可这样确定：比对，获得所有 m个样本的第 i号染色体的测序数据数目 Ni后，将所有 m个 i染色体（GC含量相同）归为一组获得 Ni的均值 N_ai，确定一目标值作为参考，如选取 m个样本比对到所有染色体的测序数据数的平均值 N_a作为目标值，得 ε i =N_ai/N_a。若未采用上述的方式对测序数据量进行标准化处理但仍然依据本发明的处理思路进行后续数据分析，即只是在进行数值的分析、计算和比较时使用未标准化的数值水平，均应当视为与本实施方式等同。

接着，基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别。根据本发明的实施例，基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别包括：将所述孕妇样本的经过标准化的 Y染色体的测序数据的数目 r_y'，对照多个已知胎儿性别的孕妇样本进行 Z 值检验，并基于所获得的所述孕妇样本 Y染色体的 Z值，确定所述胎儿的性别。根据本发明的一个实施例，所述 Z值检验是对照多个正常女胎孕妇样本进行的。其中，基于所获得的所述孕妇样本 Y染色体的 Z值，确定所述胎儿的性别，是通过将所获得的孕妇样本 Y染色体的 z值与阈值比较而实现的。所述阈值是设置一置信度计算多个对照女胎孕妇样本 Y 染色体的统计量获得的。如前所述，由于阈值是由对照样本得到的，因此可以预先计算和保存，在后续对目标个体进行检测时，只要对照样本数不变，均可使用相同的阈值设置。当然若减少、更换或增加对照样本则可以调整置信度更新相应的阈值。在本发明的一个实施例中，所采用的一种判断胎儿性别的 Y染色体阈值计算方式，包括如下步骤： 1 ) 以多个正常女胎孕妇样本作为对照样本，优选地，对照样本数大于等于 30;计算 r_y'的平均值 m_ea 和

sd_y

则和置信度计算判断为正常所对应的 Zy值边界，以此作为 Y染色体的阈值。在本发明实施例中可根据对照样本的数目以及所需要的检测精度等选择检验规则并设置相应的置信度，具体可按照已有的统计数据处理方式进行。本实施方式中，优选采用 Z检验双边检测，置信度为 99.9%。在其他实施方式中，也可选择 T检验等其他检验规则，同时地或可选地，置信度可选择为 90%〜99.9%，例如 99%、 99.5% 99.9%等。

其中，所述孕妇样本 Y染色体的 Z值是利用下列公式计算获得的：

z - r_Y j '― mean_Y jsd_Y , 其中， j代表孕妇样本的编号， m γ = -V r_Y . ' , n表示孕妇样本的总数， sd_Y = 。

根据本发明的一个实施例，当选取置信度为 99.9%时，所述孕妇样本 Y染色体的 Z值大于 3是所述胎儿为男胎的指示，所述孕妇样本 Y染色体的 Z值不大于 3是所述胎儿为女胎的指示。

然后，确定所述胎儿是否存在性染色体数目异常。根据本发明的实施例，具体地：其中，针对男胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：基于所述来源于 Y染色体的测序数据的数目 N_y，计算所述男胎孕妇样本中的胎儿核酸浓度; 构建对照样本数据集 D，其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度；以及确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述男胎存在性染色体数目异常的指示。

根据本发明的实施例，所述对照样本数据集 D是基于公式 D=F* ( 1-男胎胎儿核酸浓度) + M*男胎胎儿核酸浓度而确定的，其中， F表示已知的正常女性基因组数据集， M表示已知的正常男性基因组数据集。

根据本发明的另一些实施例，所述男胎胎儿核酸浓度是基于下列公式确定的：

r_Y '- mean

cone = ，其中，

"^imy,_/OTMfe为预先确定女胎 ¾孕妇样本中 tt对到 Y 染体¾测序数据¾数目所占比例的平均值；

m_eim_{y mafe}为预定先确定的已知男胎的孕妇样本中比对到 Y染色体的测序数据的数目所占比例的平均值。

根据本发明的实施例，通过 Z值检验，确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中所述 z值检验包括利用下列公式确定所述男胎孕妇样本的 X染色体 z值：

z = r - mean_x j sd _χ，其中， j代表孕妇样本的编号， mean_x = - Y r_x ' , η表示孕妇样本的总数，

根据本发明的一个具体示例，所述男胎孕妇样本的 X染色体 Z值小于或等于 -3是所述男胎的性染色体为 XYY的指示，所述男胎孕妇样本的 X染色体 Z值大于或等于 3是所述男胎的性染色体为 XXY的指示，所述男胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述男胎的性染色体为 XY的指示。由此，能够有效地确定待测男胎孕妇样本中男胎的性染色体的类型，从而确定胎儿是否具有性染色体数目异常。

针对女胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述女胎存在性染色体数目异常的指示。

根据本发明的实施例，通过 Z值检验，确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中所述 z值检验包括利用下列公式确定所述女胎孕妇样本的 X染色体 z值：

z - r_x . '― mean_x j sd _χ，其中， j代表孕妇样本的编号， mea¾ =丄 ,. '， n表示孕妇样本的总数，

根据本发明的一个具体示例，所述女胎孕妇样本的 X染色体 Z值小于或等于 -3是所述女胎的性染色体为 X的指示，所述女胎孕妇样本的 X染色体 Z值大于或等于 3是所述女胎的性染色体为 XXX的指示，所述女胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述女胎的性染色体为 XX的指示。

需要说明的是，在 z值检验过程中，检验的零假设为待测样本染色体数目正常。当待测样本的染色体 Z值超过一定阈值时，表示其与对照样本数据集 D的该染色体相比具有显著差异，从而拒绝零假设、被判断为该染色体数目异常。由此，利用根据本发明实施例的方法，能够有效地确定胎儿是否具有性染色体数目异常。其中，确定 Z值阈值时，可以将对照样本的测序数据先进行前述的标准化处理后，再统计目标染色体的测序数据数目，从而能够使每个染色体 Z值符合正态分布。其中，前述的 Z值 -3和 3都不是整数，而是正态分布中置信区间为 99.9%的分位点。本领域技术人员也可以根据需要选取 Z值为绝对值更大和更小的值，以便对应正态分布中置信区间更大或更小的范围。发明人惊奇地发现，利用根据本发明实施例的方法，能够准确有效地确定胎儿是否存在性染色体数目异常。计算机可读介质

在本发明的又一方面，本发明提出了一种计算机可读介质。根据本发明的实施例，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿是否存在性染色体数目异常：

首先，获取来自孕妇样本的多个测序数据，所述孕妇样本包含胎儿核酸。

其次，将所述测序数据与人类的参照基因组序列进行比对，以便获得比对测序数据集。接着，确定所述比对测序数据集中所包含的比对测序数据的数目 Q。

接下来，确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni，其中， i表示染色体的编号，所述第 i号染色体至少包括 Y染色体以及任选的 X染色体。

接着，基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别。

然后，确定所述胎儿是否存在性染色体数目异常。

其中，针对男胎，确定所述胎儿是否存在性染色体数目异常包括下列步骤：首先，基于所述来源于 Y染色体的测序数据的数目 N_y，计算所述男胎孕妇样本中的胎儿核酸浓度。接着，构建对照样本数据集 D，其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度。根据本发明的实施例，这里所使用的术语 "构建"应做广义理解，其还可以包括选择具有同样胎儿（男胎）核酸浓度的对照样本集，也可以利用现有数据模拟具有同样胎儿（男胎）浓度的对照样本集。根据本发明的实施例，采用模拟的方法进行构建，对照样本数据集 D是基于公式 D=F* ( 1-男胎胎儿核酸浓度） + M*男胎胎儿核酸浓度。接下来，确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述男胎存在性染色体数目异常的指示。

针对女胎，确定所述胎儿是否存在性染色体数目异常包括下列步骤：确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述女胎存在性染色体数目异常的指示。

需要说明的是，前面针对确定胎儿是否存在性染色体数目异常的方法所进行的描述，也适用于上述本发明的计算机可读介质，在此不再赘述。

根据本发明的实施例，利用本发明的计算机可读介质，能够准确有效地确定胎儿是否存在性染色体数目异常。用于确定胎儿是否存在性染色体数目异常的系统在本发明的再一方面，本发明又提出了一种用于确定胎儿是否存在性染色体数目异常的系统。根据本发明的实施例，该系统包括：测序装置，所述测序装置用于针对孕妇样本进行核酸测序，以便获得多个测序数据；以及前面所述的计算机可读介质。

需要说明的是，前面针对确定胎儿是否存在性染色体数目异常的方法及计算机可读介质所进行的描述，同样适用于本发明的用于确定胎儿是否存在性染色体数目异常的系统，在此不再赘述。

发明人惊奇地发现，利用根据本发明实施例的用于确定胎儿是否存在性染色体数目异常的系统，能够准确有效地确定胎儿是否存在性染色体数目异常。

需要说明的是，与目前的性染色体数目异常检测的方法相比，本发明的优越性主要表现为：

(3) 更稳定，更加全面：已报道文章中，并无明确指出自身的操作细节，而本发明涉及数据群体检测等的各个方面。下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。以下括号内为各个试剂或试剂盒的厂家货号。所使用的测序用的接头和标签序列来源于 Illumina公司的 Multiplexing Sample Preparation Oligonutide Kit。

实施例 1

参考图 1，对 4例孕妇血浆进行胎儿性染色体非整倍性变异检测。其中，选取 10 例正常女胎孕妇血浆、 5例正常男胎孕妇血浆、 4例男性基因组样本作为参照数据集。

DNA提取：

按照 TiangenDP327-02Kit操作流程提取上述血浆样品（样品编号见表 1 ) 的 DNA, 所提取 DNA按照修改后的 Illumina/Solexa标准建库流程进行建库，在主带集中于 200 bp 的 DNA分子两端被加上测序所用接头。

具体而言，将获自上述血浆样品的约 10 ng的 DNA, 进行修改后的 Illumina/Solexa 标准流程建库，具体流程参照产品说明书（www.illumina.com 提供的 Illumina/Solexa 标准建库说明书）。经 2100Bioanalyzer (Agilent)确定 DNA文库大小及插入片段为约 200 bp, QPCR精确定量后可进行目标片段捕获。

杂交：

5 构建好的文库经 Agilent®Bioanalyzer 2100 检测片段分布范围符合要求，再经过

Q-PCR方法对文库进行定量，合格后，取 500 ng文库用在 Agilent公司定制的液相捕获探针 SureSelect XT Custom Library ( 5190-4816 ) 进行捕获（具体捕获杂交及洗脱流程参照 www.genomics.agilent.com 提供的标准操作流程）。捕获后文库再次经 Agilent®Bioanalyzer 2100 检测片段分布范围及 Q-PCR方法对文库进行定量，合格后可 10 上机测序。

测序- 本实施例中，对于获自上述血浆的 DNA 样本按照 Illumina/Solexa 官方公布的 ClusterStation禾 B Hiseq2000 ( PEsequencing) 说明书进行操作上机测序，使每个样品得到约 1.83 G 数据量，每个样本根据所述标签序列区分。利用比对软件 SOAP2 (获自 15 soap.genomics.org.cn ) ，将测序所得 DNA 序列与 NCBI 数据库中版本 37 ( hgl9 ;

NCBIBuild37 ) 的人类基因组参考序列进行比对，得到所测序 DNA序列在所述基因组上的定位。

数据分析：

通过对测序得到的序列，对样本的性染色体数目进行分析，其流程如图 1所示，详 20 细步骤如下：

a ) 对测试样本计算相对测序数据数：比对时设置读段比对长度为 50 bp, 统计参考唯一比对序列的数目，将人类基因组参考序列按染色体进行划分，统计落在每个染色体上的实际测序数据数 Λ^.，其中下标和分别代表染色体编号和样本编号；

b ) 数据标准化：计算测试样本中多条常染色体的测序数据总数，则待测样本每 25 条染色体的相对百分数为^ ，其中：

c) 性别判定：以已知女胎的 Y染色体作为参照，计算所有样本的 Y染色体 z值，如果 z大于 3，则样本为男胎，否则为女胎。

d ) 男胎性染色体异常判定：

① 根据 Y染色体的比例，计算血浆中的胎儿浓度，公式为：

其中，

^ 女胎中 γ的平均相对百分比； _y,_mafe为男胎中 Y的平均相对百分比。

② 根据计算得到的胎儿浓度，用女胎或女性基因组的数据与正常男性的基因组数据进行混合，模拟产生与此胎儿浓度对应的对照样本数据集。

对照数据=已知女胎或女性基因组的数据 * ( 1-胎儿浓度） +正常男性的基因组数据 * 胎儿浓度。

③ 对得到的对照集，计算 X染色体的均值及方差，从而对 X染色体进行 ζ值的计算，如果 ζ大于或等于 3，则待测样本为 47， ΧΧΥ或 47， ΧΥΥ, 此时，再以女胎样本做对照样本对 X染色体进行检验，如在 ± 3范围内（对应置信区间 99.9%，区间两极限大致为 ± 3，不是整数），则为 47， XX Υ, 否则为 47， ΧΥΥ; 如果 ζ大于 -3且小于 3，则待测样本为正常男性 46， ΧΥ。

e ) 女胎性染色体异常判定：

① 以女胎的样本作为参考数据集，计算待测样本的 X染色体 z值。

② 如果 z小于或等于 -3，则待测样本为 45， X；此时的胎儿浓度为：

rx —mean_{X J}

cone,

③ 如果 z大于或等于 3，则待测样本为 47, XXX；此时的胎儿浓度为：

, ,

cone .

cone = | 1为女胎中 X染色体色体的平均百分比，

④ 如果 z大于 -3且小于 3，则待测样本为正常女性 46, XX。此时，无法计算血浆中的胎儿浓度。

其巾：

= r_{t j} '- mean^sd .，

详细样本信息及检测结果见下表 1 < 表 1 样本信息及检测结果

工业实用性

本发明的用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质，能够有效地用于确定胎儿是否存在性染色体数目异常，并且可重复性好，结果准确。尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语"一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体示例"、或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

权利要求书

1、一种确定胎儿是否存在性染色体数目异常的方法，其特征在于，包括：

针对包含胎儿核酸的孕妇样本进行核酸测序，以便获得多个测序数据；

将所述测序数据与人类的参照基因组序列进行比对，以便获得比对测序数据集；确定所述比对测序数据集中所包含的比对测序数据的数目 Q;

确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni，其中， i表示染色体的编号，所述第 i号染色体至少包括 Y染色体以及任选的 X染色体；

基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别；以及

确定所述胎儿是否存在性染色体数目异常，

其中，

针对男胎孕妇样本，确定所述胎儿是否存在性染色体数目异常包括下列步骤：基于所述来源于 Y染色体的测序数据的数目 N_y，计算所述男胎孕妇样本中的胎儿核酸浓度；

构建对照样本数据集 D，其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度；以及

确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中，存在显著差异是所述男胎存在性染色体数目异常的指示，

2、根据权利要求 1所述的方法，其特征在于，所述孕妇样本为选自孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞和孕妇血浆的至少一种。

3、根据权利要求 1所述的方法，其特征在于，利用选自盐析法、柱层析法、磁珠法、

SDS法的至少一种从所述孕妇样本提取 DNA，以便进行所述核酸测序。

4、根据权利要求 1所述的方法，其特征在于，采用携带预定探针的芯片，对进行所述核酸测序的核酸进行筛选。

5、根据权利要求 1所述的方法，其特征在于，所述测序数据的长度为 25~200 nt。

6、根据权利要求 1所述的方法，其特征在于，利用第二代测序技术或单分子测序技术进行所述核酸测序。

7、根据权利要求 1所述的方法，其特征在于，采用 SOAPali_gner/soap2，将所述测序数据与人类的参照基因组序列进行比对，并且选择唯一比对序列作为所述比对测序数据。

8、根据权利要求 7所述的方法，其特征在于，在确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni之后，对所述来源于第 i号染色体的测序数据的数目 Ni进行标准化处理。

9、根据权利要求 8所述的方法，其特征在于，所述标准化处理包括将所述来源于第 i 号染色体的测序数据的数目 Ni除以所述比对测序数据集中所包含的比对测序数据的数目 Q 或者 Q的一部分，以便获得经过标准化的第 i号染色体的测序数据的数目 '，并用所述经过标准化的第 i号染色体的测序数据的数目 '替换所述来源于第 i号染色体的测序数据的数目 Ni。

10、根据权利要求 9所述的方法，其特征在于，基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别包括：

将所述孕妇样本的经过标准化的 Y染色体的测序数据的数目 r_y'，对照多个已知胎儿性别的孕妇样本进行 Z值检验，并基于所获得的所述孕妇样本 Y染色体的 Z值，确定所述胎儿的性别。

11、根据权利要求 10所述的方法，其特征在于，所述孕妇样本 Y染色体的 Z值是利用下列公式计算获得的：

z - r_Y .，― mean_Y jsd_Y , 其中， j代表孕妇样本的编号， mean_Y = - V r_Y . ' , n表示孕妇样本的总数， sd_Y = 1 i (^ry .； '- mean_Y )²

12、根据权利要求 11所述的方法，其特征在于，所述孕妇样本 Y染色体的 Z值大于 3 是所述胎儿为男胎的指示，所述孕妇样本 Y染色体的 Z值不大于 3是所述胎儿为女胎的指示。

13、根据权利要求 9所述的方法，其特征在于，所述对照样本数据集 D是基于公式 D=F* ( 1-男胎胎儿核酸浓度） + M*男胎胎儿核酸浓度而确定的，其中， F表示已知的正常女性基因组数据集， M表示已知的正常男性基因组数据集。

14、根据权利要求 13所述的方法，其特征在于，所述男胎胎儿核酸浓度是基于下列公式确定的：

r_Y - mean_{Y female}

cone =

mean_{Y male} - mean_Y 其中，

"^α/ , ^为预先确定女胎 ¾孕妇样本中 tt对到 Y 染体¾测序数数目所占比例的平均值；

^ 为预定先确定的 B知男胎的孕妇样本中 tt对到 Y染色体的测序数据的数目所占比例的平均值。

15、根据权利要求 9所述的方法，其特征在于，通过 Z值检验，确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中所述 Z值检验包括利用下列公式确定所述男胎孕妇样本的 X染色体 Z值：

z - r_x . '― mean_x j d _{χ ?} 其中， j代表孕妇样本的编号，样本的总数，

。

16、根据权利要求 9所述的方法，其特征在于，通过 Z值检验，确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中所述 Z值检验包括利用下列公式确定所述女胎孕妇样本的 X染色体 Z值：

z - r_x . '― mean_x j d _{χ ?} 其中，代表孕妇样本的编号，本的总数，

17、根据权利要求 15所述的方法，其特征在于，

所述男胎孕妇样本的 X染色体 Z值小于或等于 -3是所述男胎的性染色体为 XYY的指示，

所述男胎孕妇样本的 X染色体 Z值大于或等于 3是所述男胎的性染色体为 XXY的指示，

所述男胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述男胎的性染色体为 XY的指示。

18、根据权利要求 16所述的方法，其特征在于，

所述女胎孕妇样本的 X染色体 Z值小于或等于 -3是所述女胎的性染色体为 X的指示，所述女胎孕妇样本的 X染色体 Z值大于或等于 3是所述女胎的性染色体为 XXX的指示，

所述女胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述女胎的性染色体为 XX的指示。

19、一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿是否存在性染色体数目异常：

获取来自孕妇样本的多个测序数据，所述孕妇样本包含胎儿核酸；

确定所述胎儿是否存在性染色体数目异常，

其中，

20、根据权利要求 19所述的计算机可读介质，其特征在于，所述孕妇样本为选自孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞和孕妇血浆的至少一种。

21、根据权利要求 19 所述的计算机可读介质，其特征在于，所述测序数据的长度为

25-100 nt。

22、根据权利要求 19所述的计算机可读介质，其特征在于，所述测序数据是利用第二代测序技术或单分子测序技术获得的。

23、根据权利要求 19所述的所述计算机可读介质，其特征在于，采用 SOAPali_gner/soap2，将所述测序数据与人类的参照基因组序列进行比对，并且选择唯一比对序列作为所述比对测序数据。

24、根据权利要求 19所述的计算机可读介质，其特征在于，在确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni之后，对所述来源于第 i号染色体的测序数据的数目 Ni进行标准化处理。

25、根据权利要求 24所述的计算机可读介质，其特征在于，所述标准化处理包括将所述来源于第 i号染色体的测序数据的数目 Ni除以所述比对测序数据集中所包含的比对测序数据的数目 Q或者 Q的一部分，以便获得经过标准化的第 i号染色体的测序数据的数目 '，并将所述经过标准化的第 i号染色体的测序数据的数目 '替换所述来源于第 i号染色体的测序数据的数目 Ni。

26、根据权利要求 25所述的计算机可读介质，其特征在于，基于来源于 Y染色体的测序数据的数目 N_y，确定胎儿的性别包括：

27、根据权利要求 26所述的计算机可读介质，其特征在于，所述孕妇样本 Y染色体的 Z值是利用下列公式计算获得的：

z - r_Y j '― mean_Y jsd_Y , 其中， j代表孕妇样本的编号， mean_Y = - V r_Y . ' , n表示孕妇样本的总数，

sd_Y = 1 i (^ry .； '- mean_Y )²

28、根据权利要求 27所述的计算机可读介质，其特征在于，所述孕妇样本 Y染色体的 Z值大于 3是所述胎儿为男胎的指示，所述孕妇样本 Y染色体的 Z值不大于 3是所述胎儿为女胎的指示。

29、根据权利要求 25所述的计算机可读介质，其特征在于，所述对照样本数据集 D是基于公式1)=?* ( 1-男胎胎儿核酸浓度） + M*男胎胎儿核酸浓度而确定的，其中， F表示已知的正常女性基因组数据集， M表示已知的正常男性基因组数据集。

30、根据权利要求 29所述的计算机可读介质，其特征在于，所述男胎胎儿核酸浓度是基于下列公式确定的：

r_Y - mean_{Y female}

cone

mean_{Y male} - mean_Y 其中，

"^a ,_/OTMfe为预先确定女胎 ¾孕妇样本中 tt对到 Y 染体¾测序数据¾数目所占比例的平均值；

31、根据权利要求 26所述的计算机可读介质，其特征在于，通过 Z值检验，确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中所述 Z值检验包括利用下列公式确定所述男胎孕妇样本的 X染色体 Z值：

z - r_x . '― mean_x /sd _χ , 其中，代表孕妇样本的编号， mean_x 样本的总数， sd、

32、根据权利要求 26所述的计算机可读介质，其特征在于，通过 Z值检验，确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异，其中所述 Z值检验包括利用下列公式确定所述女胎孕妇样本的 X染色体 Z值：

33、根据权利要求 31所述的计算机可读介质，其特征在于，

所述男胎孕妇样本的 X染色体 Ζ值小于或等于 -3是所述男胎的性染色体为 ΧΥΥ的指示，

所述男胎孕妇样本的 X染色体 Ζ值大于或等于 3是所述男胎的性染色体为 ΧΧΥ的指所述男胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述男胎的性染色体为 XY的示。

34、根据权利要求 32所述的计算机可读介质，其特征在于，

所述女胎孕妇样本的 X染色体 Z值小于或等于 -3是所述女胎的性染色体为 X的指示，所述女胎孕妇样本的 X染色体 Z值大于或等于 3是所述女胎的性染色体为 XXX的示，

所述女胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述女胎的性染色体为 XX的示。

35、一种用于确定胎儿是否存在性染色体数目异常的系统，其特征在于，包括：测序装置，所述测序装置用于针对孕妇样本进行核酸测序，以便获得多个测序数据；以及

权利要求 19-34任一项所述的计算机可读介质。