WO2014101126A1

WO2014101126A1 - 确定胎儿性别的方法、系统和计算机可读介质

Info

Publication number: WO2014101126A1
Application number: PCT/CN2012/087874
Authority: WO
Inventors: 张秀清; 杨焕明; 陈芳; 张春雷; 潘小瑜; 郭靖
Original assignee: 深圳华大基因医学有限公司
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2014-07-03

Abstract

提供了确定胎儿性别的方法、计算机可读介质和系统。其中，确定胎儿性别的方法包括：对胎儿相关生物样本的基因组DNA进行测序，以便获得多个测序数据；将该测序数据与该生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集；确定下列数目的至少两个：NT、NX，NY，以及NG；确定下列数值至少之一：基于公式R1=NY/NT，确定Y染色体的整体比率R1；基于公式R2=NY/NX，确定Y染色体的相对比率R2；基于下列原则确定所述胎儿的性别：当满足下列条件至少之一时，确定该胎儿为男性，当下列条件均不满足时，确定该胎儿为女性：该整体比率R1大于第一阈值；该相对比率R2大于第二阈值；以及该NG不为零。

Description

确定胎儿性别的方法、系统和计算机可读介质优先权信息

无技术领域

本发明涉及生物医学领域，具体的，涉及产前诊断领域，更具体的，本发明涉及确定胎儿性别的方法、系统和计算机可读介质。背景技术

产前诊断，是指在胎儿出生之前，应用多种检测手段，如影像学、生物化学、细胞遗传学及分子生物学等技术，对胎儿先天性缺陷或遗传性疾病进行诊断。在当代，产前诊断已成为现代妇产学科不可或缺的一部分，也是实现优生优育的重要措施之一。传统的产前诊断方法有绒毛膜取样、羊膜腔穿刺及胎儿镜技术等，由于这些技术系有创性取样及具有一定流产风险等缺陷，目前无创性产前诊断技术正快速发展。

因而，目前的产前诊断技术尤其是确定胎儿性别的技术仍有待改进。发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

在本发明的第一方面，本发明提出了一种能够有效确定胎儿性别的方法。根据本发明的实施例，该方法包括：对胎儿相关生物样本的基因组 DNA进行测序，以便获得多个测序数据；将所述测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集；确定下列数目的至少两个：所述唯一比对测序数据集中所包含的唯一比对测序数据的数目 NT;所述唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX;所述唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY;以及所述唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目 NG; 确定下列数值至少之一：基于公式 Rl=^~ , 确定 Y染色体的

NT

NY

整体比率 R1 ; 基于公式 R2=^，确定 Y染色体的相对比率 R2; 基于下列原则确定所述胎

NX

儿的性别：当满足下列条件至少之一时，确定所述胎儿为男性，当下列条件均不满足时，确定所述胎儿为女性：所述整体比率 R1大于第一阈值；所述相对比率 R2大于第二阈值；以及所述 NG不为零。由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用根据本发明实施例的方法，通过确定定位到 X染色体和 Y染色体上的测序数据的数目，可以有效地确定胎儿的性别为男性还是女性。

在本发明的第二方面，本发明提出了一种计算机可读介质。根据本发明的实施例，该计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿性别：获取胎儿相关生物样本的基因组 DNA的多个测序数据；将所述测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集；确定下列数目的至少两个：所述唯一比对测序数据集中所包含的唯一比对测序数据的数目 NT; 所述唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX; 所述唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY;以及所述唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目 NG; 确定下列

NY NY

数值至少之一：基于公式 Rl=^，确定 Y染色体的整体比率 R1 ; 基于公式 R2=^，确

NT NX

定 Y染色体的相对比率 R2; 基于下列原则确定所述胎儿的性别：当满足下列条件至少之一时，确定所述胎儿为男性，当下列条件均不满足时，确定所述胎儿为女性：所述整体比率

R1 大于第一阈值；所述相对比率 R2大于第二阈值；以及所述 NG不为零。由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该计算机可读介质，通过确定定位到 X染色体和 Υ染色体上的测序数据的数目，可以有效地确定胎儿的性别为男性还是女性。

在本发明的第三方面，本发明提出了一种用于确定胎儿性别的系统。根据本发明的实施例，该系统包括：测序装置，所述测序装置用于针对胎儿相关生物样本的基因组 DNA进行测序，以便获得多个测序数据；比对装置，所述比对装置与所述测序装置相连，用于将所述测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集；分析装置，所述分析装置与所述比对装置相连，并且用于确定胎儿性别，其中，所述分析装置进一步包括：第一计算模块，所述第一计算模块用于确定下列数目的至少两个：所述唯一比对测序数据集中所包含的唯一比对测序数据的数目

NT; 所述唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX; 所述唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY;以及所述唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目 NG; 第二计算模块，所述第二计算模块用于确定下列数值至少之一：基于公式 Rl=^，确定 Y染色体

NT 的整体比率 Rl ; 基于公式 R2=^，确定 Y染色体的相对比率 R2; 以及判断模块，所述判

NX

断模块用于基于下列原则确定所述胎儿的性别：当满足下列条件至少之一时，确定所述胎儿为男性，当下列条件均不满足时，确定所述胎儿为女性：所述整体比率 R1大于第一阈值；所述相对比率 R2大于第二阈值；以及所述 NG不为零。如前所述，由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该系统，通过确定定位到 X染色体和 Y染色体上的测序数据的数目，可以有效地确定胎儿的性别为男性还是女性。

在本发明的第四方面，本发明提出了用于确定胎儿性别的系统。根据本发明的实施例，该系统包括：测序装置，所述测序装置用于针对所述生物样本的基因组 DNA进行测序，以便获得多个测序数据；以及前面所述的计算机可读介质。如前所述，由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该系统，通过确定定位到 X染色体和 Y染色体上的测序数据的数目，可以有效地确定胎儿的性别为男性还是女性。本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1显示了用于确定胎儿性别的方法的流程示意图；以及

图 2显示了用于确定胎儿性别的系统的结构示意图。发明详细描述

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语 "第一，，、 "第二，，仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有 "第一"、 "第二" 的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明， "多个，，的含义是两个或两个以上。

用于确定胎儿性别的方法

在本发明的第一方面，本发明提出了一种用于确定胎儿性别的方法。参考图 1 , 该方法可以包括：

S100: 基因组 DNA测序

在该步骤中，首先针对需要进行检测的生物样本的基因组 DNA进行测序，以便获得多个测序数据。

这里所采用的生物样本为胎儿相关生物样本。在本文中，所使用的术语 "胎儿相关生物样本" 应做广义理解，其可以为任何直接来源于胎儿的生物样本，也可以是从其他生物体获得的生物样本，只要通过对其所含有核酸样本进行分析能够获取胎儿染色体的相关信息即可。另外，在本文中所使用的术语 "基因组 DNA" 应做广义理解，其指在生物样本中所包含的所有 DNA, 既可以是以完整染色体形式存在的 DNA, 也可以是以游离核酸形式存在的 DNA。

根据本发明的实施例，可以利用本发明的方法进行检测的生物样本的类型并不受特别限制。根据本发明的实施例，可以用于检测的生物样本为孕妇血、孕妇血清、孕妇血浆、胎盘组织、绒毛组织、羊水细胞、绒毛祖细胞、胎儿脐带血、胎儿脐带血清和胎儿脐带血浆。

根据本发明的实施例，进一步包括从生物样本提取基因组 DNA的步骤。根据本发明的实施例，可以采用盐析法、过柱法和 SDS法等常规 DNA提取方法从生物样本提取基因组 DNA, 优选采用磁珠法。其中，筒言之，磁珠法，是指血液、组织或细胞经过细胞裂解液和蛋白酶 K的作用后得到棵露的 DNA分子，利用特异性的磁珠对 DNA分子进行可逆性的亲和吸附，经漂洗液清洗除去蛋白质、脂质等杂质后，用纯化液将 DNA分子从磁珠上洗脱下来。（具体原理和方法参见天根磁珠法基因组 DNA提取试剂盒 DP329产品说明书）根据本发明的实施例，为了对所获得的基因组 DNA进行测序，可以对其进行随机打断。才艮据本发明的实施例，随机打断处理可以通过采用酶切、雾化、超声和 HydroShear法的至少之一进行。优选地，采用 HydroShear法（当含有 DNA的溶液通过较小面积的通道时，流体加速，产生的力使 DNA突然断裂，流速和通道大小决定 DNA片段的大小，具体原理和方法参见 Life Sciences Wiki公司的 HydroShear说明书；)，将 DNA分子打断为比较集中的一定大小的片段。根据本发明的实施例，经过随机打断的主带分布在 200 ~ 300bp范围内，即优选 DNA片段的长度为 200~300bp。需要说明的是，当待测样本为血浆 DNA时，由于血浆 DNA天然地以片段化 DNA形式存在，因此无需打断。根据本发明的实施例，可以采用的测序装置的类型并不受特别限制。根据本发明的具体实施例，考虑到仪器便携性的优势以及高通量性能，测序是通过选自 Roche/454 GS Junior, Illumina/MiSeq以及 Life Tecnologies/Ion Torrent PGM的至少之一进行的。由此，能够利用这些测序装置的高通量、深度测序的特点，进一步提高确定染色体数目异常的效率。测序类型可以为 single-end (单向）测序或者 Pair-end (双向）测序。在本发明的一个实施方案中，所述的测序方法为 Illumina/MiSeq, 测序类型为单向测序，测序得到的结果为 50bp大小的片段（reads )。由此，可以进一步提高后续分析的效率。根据本发明的实施例，可以采用的测序深度可以是为至少 0.01 , 例如可以为 0.01。由此，可以降低测序成本，并且可以极大缩小测序时间，从而提高确定胎儿性别的效率。

本领域技术人员可以根据所采用的测序平台来选择适当的测序文库构建方法，筒言之，构建测序文库的方法可以包括：

首先，将待检测的核酸样本进行片段后，以便得到 DNA片段；

在得到 DNA片段之后，对 DNA片段进行平端化处理和末端添加碱基 A, 并连接接头，以便得到具有接头的 DNA片段；以及

对具有接头的 DNA进行扩增，得到扩增产物即测序文库。

根据本发明的实施例，可以在构建测序文库的过程中，在测序文库中引入标签序列 Index, 例如可以在接头中引入 Index, 或者在扩增过程中引入标签序列 Index。由此，可以通过针对不同的样本采用不同的标签序列，从而实现同时对多个检测样本进行测序。根据本发明的实施例，可以采用的标签序列长度为 4-12bp, 由此不会影响添加标签序列 Index 的 DNA分子的其他功能。

S200: 获得唯一比对测序数据集

在该步骤中，将所得到的测序数据与所检测生物物种的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集。

根据本发明的实施例，本发明中，在针对胎儿相关生物样品进行检测时，所采用的人类的参照基因组序列是人类基因组序列经过屏蔽掉重复序列后所得到的参考序列，例如 NCBI 数据库中最新版本的人类基因组参考序列。在本发明的具体实施例中，参照基因组序列是 NCBI数据库中的人类基因组参考序列。

根据本发明的实施例，可以通过任何一种序列比对程序进行序列比对，例如本领域技术人员可获得的短寡核苷酸分析包（ Short Oligo nucleotide Analysis Package , SOAP )和 BWA 比对（Burrows- Wheeler Aligner )的至少之一进行，将测序数据与参考基因组序列进行比对，得到测序数据在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行，或者由本领域技术人员根据需要对参数进行选择。在本发明的具体实施例中，所采用的比对软件是 SOAP aligner/soap2₀

在本文中所使用的术语 "唯一比对测序数据"是指在将测序数据与参照基因组序列进行比对时，在参考基因组序列上仅有唯一位置的序列，以 Unique reads表示。在本发明的实施例中，为了避免重复序列的干扰，需要去除那些定位于人类基因组参考序列中的串联重复及转座重复位置的 DNA序列，只统计那些可以定位到基因组唯一位置的 DNA序列，即唯一比对测序数据。唯一比对测序数据能够将来自胎儿相关生物样品的 DNA分子经打断并测序后的各 DNA序列定位于特定染色体。

S300: 确定相关测序数据数目和相关数值

在获取唯一比对测序数据集之后，可以通过对测序数据进行分析，以便获得可以用于判断胎儿性别的测序数据分析基础。

具体地，根据本发明的实施例，该步骤进一步包括：首先确定下列数目的至少两个：唯一比对测序数据集中所包含的唯一比对测序数据的数目 NT; 唯一比对测序数据集中来源于

X染色体的唯一比对测序数据的数目 NX;唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY;以及唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目 NG。

接下来，基于所获得的相关测序数据数目 NX、 NY和 NT, 确定下列数值至少之一：基于公式 Rl=^，确定 Y染色体的整体比率 R1 ;

NT

NY

基于公式 R2=^，确定 Y染色体的相对比率 R2。

NX

根据本发明的实施例，可以采用的 Y 染色体上的预定区域的类型和长度以及数目并不受特别限制，只要其为 Y染色体特有的核酸序列既可。根据本发明的一个实施例，可以采用的预定区域为选自下列的至少之一： SRY、 TSPY DAZ、 AMELY。需要说明的是，在本文中所述的预定区域 "SRY、 TSPY DAZ、 AMELY" , 即 SRY、 TSPY DAZ、 AMELY 基因，均为 Y染色体上特有的基因，其于 2011年已被报道可用于进行性别鉴定（可参见： Devaney, S.A.等., Noninvasive fetal sex determination using cell-free fetal DNA: a systematic review and meta-analysis. JAMA, 2011. 306(6): p. 627-36 ,通过参照将其全文并入本文）。从而，当测序数据中，出现落于这些基因上的测序序列时，即可判定 Y染色体存在。由此，可以进一步提高后续利用 NG值判断胎儿性别的效率。其中，上述区域在参考基因组上的位置见下表 1。表 l. SRY、 TSPY DAZ、 AMELY基因在参考序列上的位置

S400: 判断胎儿性别

在该步骤中，在对染色体的测序数据进行计算之后，可以基于所得到的 Y染色体的整体比率 R1和相对比率 R2以及唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目 NG来确定胎儿的性别。根据本发明的一个实施例，可以采用的预定区域为选自下列的至少之一： SRY、 TSPY1、 DAZ、 AMELY。由此，可以进一步提高后续利用 NG值判断胎儿性别的效率。

具体的，可以基于下列原则确定胎儿的性别，当满足下列条件至少之一时，确定所述胎儿为男性，当下列条件均不满足时，确定所述胎儿为女性：

所述整体比率 R1大于第一阈值；

所述相对比率 R2大于第二阈值；以及

所述 NG不为零。

其中，根据本发明的实施例，可以通过以下步骤确定上述第一阈值与第二阈值：依统计需要取女胎孕妇血浆样品若干（一般认为为了满足统计需要至少要 30例），分别计算整体比率 R1和相对比率 R2的值，并分别绘制各样品的 R1和 R2的正态分布曲线，根据中心极限定理，这些样品的 R1和 R2均应符合正态分布，从而可以取合适的置信区间确定阈值。具体地，根据本发明的一个实施例，取女胎孕妇血浆样品 100例，分别计算 R1和 R2, 并分别绘制各样品的 R1和 R2的正态分布曲线，然后取 R1的 99%置信区间的右区间点作为第一阈值，取 R2的 99%置信区间的右区间点作为第二阈值。由此，确定第一阈值为 0.0003 以上，第二阈值为 0.005以上。根据本发明的另一个实施例，当测序类型为单末端测序 36bp 时，确定：第一阈值为 0.0004, 第二阈值为 0.0075; 当测序类型为单末端测序 50bp时，确定：第一阈值为 0.0003 , 第二阈值为 0.005。

由此，本发明的方法可以用于对多种测序平台处理的核酸样品进行分析，从而能够有效提高确定胎儿性别的效率。至此，通过本发明的确定胎儿性别的方法，可以有效地对胎儿性别进行确定。与目前临床医院和研究机构对性别判定常用的分析方法（如超声检查、 PCR或 QPCR、及一些基于测序技术的统计方法）对比，本发明的方法的优越性主要有以下几点：

( 1 )根据本发明实施例的确定胎儿性别的方法具有高通量和自动化的效果。基于高通量测序技术，可以高通量地进行性别判定分析，通过在每个样本上加上不同的标签序列 index, 可以一次地对大量样品进行分析。且判定的操作由计算机自动完成，不依赖于人工经验。

( 2 )才艮据本发明实施例的确定胎儿性别的方法准确率高。利用孕妇血浆测序判定胎儿性别的准确率达 98.9%。

( 3 )根据本发明实施例的确定胎儿性别的方法可直接与基于测序的无创产前诊断方法结合，在产前诊断的同时准确判定胎儿性别，辅助伴性遗传病的筛查诊断与遗传咨询，有利于提供临床决策依据；进行植入前诊断或产前诊断可有效防止患儿出生。计算机可读介质

在本发明的第二方面，本发明提出了一种计算机可读介质。参考图 1 , 根据本发明的实施例，该计算机可读介质上存储有指令，该指令适于被处理器执行以便通过下列步骤确定胎儿性别的方法：

首先，获取胎儿相关生物样本的基因组 DNA的多个测序数据。

接下来，将所述测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集。根据本发明的实施例，所述参照基因组序列为

NCBI数据库中的人类基因组参考序列。根据本发明的具体实施例，采用 SOAP和 BWA的至少之一，将所述测序数据与所述生物的参照基因组序列进行比对。

接着，确定下列数目的至少两个：唯一比对测序数据集中所包含的唯一比对测序数据的数目 NT; 唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX; 唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY;以及唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目 NG。

然后，基于所获得的测序数据的数目，确定下列数值至少之一：

基于公式 Rl=^，确定 Y染色体的整体比率 R1 ;

NT

NY

基于公式 R2=^，确定 Y染色体的相对比率 R2;

NX

基于下列原则确定胎儿的性别，当满足下列条件至少之一时，确定该胎儿为男性，当下列条件均不满足时，确定该胎儿为女性：

该整体比率 R1大于第一阈值；

该相对比率 R2大于第二阈值；以及

该 NG不为零。

其中，第一阈值与第二阈值的确定方法前面已经详细描述，此处不再赘述。

根据本发明的实施例，第一阈值为 0.0003以上，第二阈值为 0.005以上。由此，可以用于对多种测序平台处理的核酸样品进行分析，从而提高确定胎儿性别的效率。具体的，当测序类型为单末端测序 36bp时，第一阈值为 0.0004, 第二阈值为 0.0075; 当测序类型为单末端测序 50bp时，第一阈值为 0.0003 , 第二阈值为 0.005。

如前所述，由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该计算机可读介质，通过确定定位到 X染色体和 Y染色体上的测序数据的数目，可以有效地确定胎儿的性别。

需要说明的是，前面针对确定胎儿性别的方法的特征和优点所进行的描述，也适用于该计算机可读介质，在此不再赘述。

另外，需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和 /或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言， "计算机可读介质" 可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM ) , 只读存储器（ROM ) , 可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM )。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列

( PGA ) , 现场可编程门阵列（FPGA ) 等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。确定胎儿性别的系统

在本发明的第三方面，本发明提出了一种用于确定胎儿性别的系统。根据本发明的实施例，参照图 2, 该系统可以包括：测序装置 100、比对装置 200和分析装置 300。根据本发明的实施例，测序装置 100用于针对胎儿相关生物样本的 DNA进行测序，以便获得多个测序数据，比对装置 200与测序装置 100相连，用于将该测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集，分析装置 300与比对装置 200相连，并且用于确定胎儿性别。

根据本发明的实施例，所述参照基因组序列为 NCBI数据库的人类基因组参考序列。根据本发明的具体实施例，采用 SOAP和 BWA的至少之一，将所述测序数据与所述生物的参照基因组序列进行比对。

根据本发明的实施例，分析装置 300可以进一步包括：第一计算模块 310、第二计算模块 320和判断模块 330。

第一计算模块用于确定下列数目的至少两个：

唯一比对测序数据集中所包含的唯一比对测序数据的数目 NT;

唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX;

唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY; 以及唯一比对测序数据集中来源于 Y染色体至少一个预定区域的唯一比对测序数据的数目

NG。

根据本发明的一个实施例，可以采用的预定区域为选自下列的至少之一： SRY、 TSPY

DAZ、 AMELY。由此，可以进一步提高后续利用 NG值判断胎儿性别的效率。第二计算模块 320用于确定下列数值至少之一：

基于公式 Rl= ，确定 Y染色体的整体比率 R1 ;

NT

基于公式 R2=^，确定 Y染色体的相对比率 R2

NX

根据本发明的实施例，判断模块 330用于基于下列原则确定所述胎儿的性别：当满足下列条件至少之一时，确定该胎儿为男性，当下列条件均不满足时，确定该胎儿为女性：

该整体比率 R1大于第一阈值；

该相对比率 R2大于第二阈值；以及

该 NG不为零。

其中，第一阈值与第二阈值的确定方法前面已经详细描述，此处不再赘述。根据本发明的实施例，第一阈值为 0.0003以上，第二阈值为 0.005以上。由此，可以用于对多种测序平台处理的核酸样品进行分析，从而提高确定胎儿性别的效率。具体地，当测序类型为单末端测序 36bp时，第一阈值为 0.0004,第二阈值为 0.0075;当测序类型为单末端测序 50bp 时，第一阈值为 0.0003 , 第二阈值为 0.005。

如前所述，由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该系统，通过确定定位到 X染色体和 Y染色体上的测序数据的数目，可以有效地确定胎儿的性别。

需要说明的是，前面针对确定胎儿性别的方法以及可读介质的特征和优点所进行的描述，也适用于该系统，在此不再赘述。

需要说明的是，前面所述的比对装置和分析装置的功能可以由前面所述的计算机可读介质来执行。由此，在本发明的第四方面，本发明又提出了一种用于确定胎儿性别的系统。根据本发明的实施例，该系统可以包括：测序装置，该测序装置用于针对胎儿相关生物样本的基因组 DNA进行测序，以便获得多个测序数据；以及前面所述的计算机可读介质。如前所述，由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该系统，如前所述，由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，因而，利用该系统，通过确定定位到 X染色体和 Y染色体上的测序数据的数目，可以有效地确定胎儿的性别。需要说明的是，前面针对确定胎儿性别的方法以及可读介质的特征和优点所进行的描述，也适用于该系统，在此不再赘述。下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件（例如参考 J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。以下括号内为各个试剂或试剂盒的厂家货号。所使用的测序用的接头和标签序列来源于 Illumina公司的 Multiplexing Sample Preparation Oligonutide Kit₀

一般方法：

针对孕妇血浆 DNA进行胎儿性别判定的具体方法包括以下步骤：

1 ) DNA提取及测序：按照磁珠法基因组 DNA提取试剂盒（ Tiangen DP329 )操作手册提取绒毛组织 DNA后，按照 Illumina/Solexa标准建库流程进行建库。在这个过程中， DNA 分子两端加上测序所用接头，每个样本被加上不同的标签序列（index ), 从而在一次测序得到的数据中可以使多个样本的数据区分开。

2 ) 比对及统计：利用第二代测序方法 Illumina/Solexa 测序（用其它测序方法如

ABI/SOLiD能达到相同或相近的效果），每个样本得到一定大小片段的 DNA序列，将其与 NCBI数据库中的标准人类基因组参考序列进行 SOAP比对，得到所测 DNA序列定位于基因组相应位置的信息。选取与人类基因组参考序列唯一比对的测序数据（reads ), 即 Unique reads, 作为后续分析的有效数据，并统计其数目：统计比对到 X染色体、 Y染色体以及 Y 染色体特定基因编码区上的 Unique reads数（ ^X(JJR、、 ^Y(^UR)、 ^G(UR、以及比对到所有染色体上的 Unique Reads数（ ^T、^UR、 )； 3 )数据分析：计算每个样品的：

_R ΥψΚ)

① ¹ ，）

② x(UR)

③ Z G UR) ;

染色体特定基因的数目

其中，所选择的 Y染色体特定基因编码区为 SRY、 TSPY DAZ、 AMELY。

4 )性别判定：判断以下条件是否成立：

Ri ^{> a} ② ^ >^δ

③ Z G_;([/i?)≠0

染色体特定基因的数目

三个判断标准中满足大于（包含）一个时，判断待测样本或孕妇血浆中的胎儿样本为男性；当三个判断标准均不满足时，判断待测样本或孕妇血浆中的胎儿样本为女性。

本后面的实施例中， α = 0.0003、 b = 0.005。

实施例 1、对已知胎儿性别的孕妇血浆进行分析，评估方法的准确率

根据核型分析结果作为评估本技术准确率的金标准，按照一般方法的程序，用已知怀有女胎的孕妇血浆样本 181例，已知怀有男胎的孕妇血浆样本 195例，进行单末端 50bp测序。平均每个样品测序量 7.04M reads, 比对后得平均 6.04M Unique Reads。

统计得， 181 例怀有女胎的孕妇血浆样本：¹'^{96 -04}, 标准差 S = ⁴.9⁴E- 05 ; = 3.70E- 03, = 1.08E- 03 ; ₁₉₅ 例怀有男胎的孕妇血浆样本 = 4.74E- 04 ,

SD = l33E-04- ^-9.46E-03, 5 -2.99E-03 利用本发明判定胎儿性别的准确率如下：

实施例 2、对 1例曾生育腎上腺脑白质营养不良患儿的孕妇进行胎儿性别判定肾上腺脑白质营养不良是一种 X连锁隐性遗传病，主要表现为肾上腺皮质功能不全，脑白质进行性髓鞘脱失及组织中饱和长链脂肪酸病理性堆积。发病年龄 1个月 -53岁，几乎均为男性。病程呈现进行性恶化直至死亡，一般不超过 9年。

本实施例中，待检测孕妇为一名该病的携带者（其丈夫健康），曾生育一名男性患儿，现第二次怀孕，于 22周抽取外周血进行血浆测序，通过本发明技术判定胎儿性别以辅助遗传咨询，按照一般方法的流程，对该孕妇的血浆样品进行检测分析，其结果如下：

?, =0.000594068571665706 R, =0.011229853 结论：胎儿为男性，因此有 1/2几率患病，建议进行羊水穿刺产前诊断并寻求遗传咨询。工业实用性

本发明的技术方法，可以有效地用于确定胎儿的性别。尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体示例"、或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

权利要求书

1、一种确定胎儿性别的方法，其特征在于，所述方法包括：

对胎儿相关生物样本的基因组 DNA进行测序，以便获得多个测序数据；

将所述测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集；

确定下列数目的至少两个：

所述唯一比对测序数据集中所包含的唯一比对测序数据的数目 NT;

所述唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX; 所述唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY; 以及所述唯一比对测序数据集中来源于 γ 染色体至少一个预定区域的唯一比对测序数据的数目 NG;

确定下列数值至少之一：

基于公式 Rl=^，确定 Y染色体的整体比率 R1 ;

NT

NY

基于公式 R2=^，确定 Y染色体的相对比率 R2;

NX

基于下列原则确定所述胎儿的性别：

当满足下列条件至少之一时，确定所述胎儿为男性，当下列条件均不满足时，确定所述胎儿为女性：

所述整体比率 R1大于第一阈值；

所述相对比率 R2大于第二阈值；以及

所述 NG不为零。

2、根据权利要求 1所述的方法，其特征在于，所述第一阈值是通过下列步骤确定的：将至少 30份已知胎儿为女性的孕妇的血液 DNA进行平行实验，以便获得各孕妇的整体比率 R1 ;

形成所述各孕妇的 R1的正态分布曲线；以及

确定所述正态分布曲线中心右侧区间的 R1数值作为第一阈值。

3、根据权利要求 2所述的方法，其特征在于，将至少 100份已知胎儿为女性的孕妇的血液 DNA进行平行实验。

4、根据权利要求 3所述的方法，其特征在于，将所述 R1的正态分布曲线 99%置信区间右端点的 R1数值作为第一阈值。

5、根据权利要求 4所述的方法，其特征在于，所述第一阈值为 0.0003以上。

6、根据权利要求 1所述的方法，其特征在于，所述第二阈值是通过下列步骤确定的：将至少 30份已知胎儿为女性的孕妇的血液 DNA进行平行实验，以便获得各孕妇的相对比率 R2;

形成所述各孕妇的 R2的正态分布曲线；以及

确定所述正态分布曲线中心右侧区间的 R2数值作为第二阈值。

7、根据权利要求 6所述的方法，其特征在于，将至少 100份已知胎儿为女性的孕妇的血液 DNA进行平行实验。

8、根据权利要求 7所述的方法，其特征在于，将所述 R2的正态分布曲线 99%置信区间右端点的 R2数值作为第二阈值。

9、根据权利要求 8所述的方法，其特征在于，所述第二阈值为 0.005以上。

10、根据权利要求 1所述的方法，其特征在于，所述胎儿相关生物样本为选自孕妇血、孕妇血清、孕妇血浆、胎盘组织、绒毛组织、羊水细胞、绒毛祖细胞、胎儿脐带血、胎儿脐带血清和胎儿脐带血浆中的至少一种。

11、根据权利要求 1 所述的方法，其特征在于，进一步包括从所述生物样本提取基因组 DNA的步骤。

12、根据权利要求 11所述的方法，其特征在于，通过选自盐析法、柱层析法和 SDS法的至少一种提取基因组 DNA。

13、根据权利要求 1所述的方法，其特征在于，在对所述生物样本的基因组 DNA进行测序之前，将所述基因组 DNA进行随机打断。

14、根据权利要求 13所述的方法，其特征在于，所述随机打断是通过选自酶切法、雾化法、超声处理和 Hydroshear的至少之一进行的。

15、根据权利要求 13所述的方法，其特征在于，将所述基因组 DNA进行随机打断后， DNA片段的长度为 200~300bp。

16、根据权利要求 1所述的方法，其特征在于，所述测序数据的长度为 150bp。

17、根据权利要求 1所述的方法，其特征在于，采用 SOAP和 BWA的至少之一，将所述测序数据与所述生物的参照基因组序列进行比对。

18、根据权利要求 1 所述的方法，其特征在于，所述测序是通过选自 Roche/454 GS Junior、 Illumina/MiSeq以及 Life Tecnologies/Ion Torrent PGM的至少之一进行的。

19、根据权利要求 1所述的方法，其特征在于，所述预定区域为选自下列的至少之一：

SRY、 TSPY DAZ、 AMELY。

20、一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿性别：

获取胎儿相关生物样本的基因组 DNA的多个测序数据；

确定下列数目的至少两个：

所述唯一比对测序数据集中来源于 X染色体的唯一比对测序数据的数目 NX; 所述唯一比对测序数据集中来源于 Y染色体的唯一比对测序数据的数目 NY; 以及所述唯一比对测序数据集中来源于 Y 染色体至少一个预定区域的唯一比对测序数据的数目 NG;

确定下列数值至少之一：

基于公式 Rl=^，确定 Y染色体的整体比率 R1 ;

NT

NY

基于公式 R2=^，确定 Y染色体的相对比率 R2;

NX

基于下列原则确定所述胎儿的性别：

所述整体比率 R1大于第一阈值；

所述相对比率 R2大于第二阈值；以及

所述 NG不为零。

21、根据权利要求 20所述的计算机可读介质，其特征在于，采用 SOAP和 BWA的至少之一，将所述测序数据与所述生物的参照基因组序列进行比对。

22、根据权利要求 20所述的计算机可读介质，其特征在于，所述第一阈值为 0.0003以上。

23、根据权利要求 20所述的计算机可读介质，其特征在于，所述第二阈值为 0.005 以上。

24、根据权利要求 20所述的计算机可读介质，其特征在于，所述预定区域为选自下列的至少之一： SRY、 TSPY DAZ、 AMELY。

25、一种用于确定胎儿性别的系统，其特征在于，包括：

测序装置，所述测序装置用于针对胎儿相关生物样本的基因组 DNA进行测序，以便获得多个测序数据；

比对装置，所述比对装置与所述测序装置相连，用于将所述测序数据与所述生物的参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集；分析装置，所述分析装置与所述比对装置相连，并且用于确定胎儿性别，

其中，所述分析装置进一步包括：

第一计算模块，所述第一计算模块用于确定下列数目的至少两个：

所述唯一比对测序数据集中来源于 X 染色体的唯一比对测序数据的数目

NX;

所述唯一比对测序数据集中来源于 Y 染色体的唯一比对测序数据的数目

NY; 以及

所述唯一比对测序数据集中来源于 γ染色体至少一个预定区域的唯一比对测序数据的数目 NG;

第二计算模块，所述第二计算模块用于确定下列数值至少之一：

基于公式 Rl= ，确定 Y染色体的整体比率 R1 ;

NT

基于公式 R2=^，确定 Y染色体的相对比率 R2;

NX

以及

判断模块 , 所述判断模块用于基于下列原则确定所述胎儿的性别：

所述整体比率 R1大于第一阈值；

所述相对比率 R2大于第二阈值；以及

所述 NG不为零。

26、根据权利要求 25所述的系统，其特征在于，所述比对装置采用 SOAP和 BWA的至少之一，将所述测序数据与所述生物的参照基因组序列进行比对。

27、根据权利要求 25 所述的系统，其特征在于，所述测序装置是选自 Roche/454 GS Junior、 Illumina/MiSeq以及 Life Tecnologies/Ion Torrent PGM的至少之一。

28、根据权利要求 25所述的系统，其特征在于，所述第一阈值为 0.0003以上。

29、根据权利要求 25所述的系统，其特征在于，所述第二阈值为 0.005以上。

30、根据权利要求 25所述的系统，其特征在于，所述预定区域为选自下列的至少之一： SRY、 TSPY DAZ、 AMELY。

31、一种用于确定胎儿性别的系统，其特征在于，包括：

测序装置，所述测序装置用于对胎儿相关生物样本的基因组 DNA进行测序，以便获得多个测序数据；以及

权利要求 20~24任一项所述的计算机可读介质。