WO2014153755A1

WO2014153755A1 - 确定胎儿染色体非整倍性的方法、系统和计算机可读介质

Info

Publication number: WO2014153755A1
Application number: PCT/CN2013/073373
Authority: WO
Inventors: 潘小瑜; 陈盛培; 曾玺; 李旭超; 张春雷; 郭靖
Original assignee: 深圳华大基因研究院
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2014-10-02
Also published as: CN104205106A

Abstract

本发明提供了确定胎儿针对预定染色体是否存在非整倍性的方法，系统和计算机可读介质。所述确定胎儿针对预定染色体是否存在非整倍性的方法包括：从包含胎儿和母体核酸的样品中获得样品核酸唯一比对测序数据集；分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；基于所述预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及基于所述预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。

Description

确定胎儿染色体非整倍性的方法、系统和计算机可读介质

优先权信息

无技术领域

本发明涉及生物医学领域，具体的，涉及产前诊断领域，更具体的，本发明涉及确定胎儿染色体非整倍性的方法、系统和计算机可读介质。背景技术

染色体（chromosome ) 是细胞内具有遗传性质的物质，因易被碱性染料染成深色而命名。正常人的体细胞内含有 23对染色体，这些染色体均具有一定的形态和结构，对人的正常形态和生理功能具有重要的意义。染色体发生结构或数目的异常，均可导致基因表达异常和机体发育异常。临床上常见的染色体数目异常主要为 21三体综合症（Down syndrome, DS)、 18三体综合症（Edwards syndrome )、 13三体综合症（Patau syndrome) , 以及一些性染色体数目异常，如 45X0 ( Turner' s Syndrome )、 47XXX 47XXY ( Klinefelter syndrome )、 47XYY (XYY syndrome )o 染色体异常约占出生人口的 1/160，不仅患者本身常伴有严重疾病，同时也给家庭和社会带来极大的精神和经济负担。因此，针对适龄孕妇的普遍筛查及产前诊断具有积极的社会意义。

然而，目前针对染色体非整倍性的诊断仍有待改进。发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本发明的一个目的在于提出一种能够有效诊断胎儿是否具有染色体非整倍性的手段。

在本发明的第一方面，本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的方法。根据本发明的实施例，该方法包括：从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集；针对所述唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，其中，所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；基于所述预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及基于所述预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，根据本发明的实施例的方法，在本发明中可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。

在本发明的第二方面，本发明提出了一种计算机可读介质。根据本发明的实施例，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿针对预定染色体是否存在非整倍性：从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集；针对所述唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，其中，所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；基于所述预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及基于所述预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，利用本发明的实施例的计算机可读介质，在本发明中可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。

在本发明的第三方面，本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的系统。根据本发明的实施例，该系统包括：包括：测序装置，所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序，以便获得样品核酸的唯一比对测序数据集；分析装置，所述分析装置与所述测序装置相连，并且所述分析装置适于：针对所述唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，其中，所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；基于所述预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及基于所述预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，根据本发明的实施例的系统，能够有效地实施前面所述的确定胎儿是否存在非整倍性的方法，可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。

在本发明的第四方面，本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的系统。根据本发明的实施例，该系统包括：测序装置，所述测序装置适于针对待检测样品和多个对照样品进行核酸测序，以便获得各样品的测序数据，其中，所述待检测样品包含待测胎儿的核酸，所述对照样品包含正常胎儿核酸；以及前面所述的计算机可读介质。由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，根据本发明的实施例的系统，能够有效地实施前面所述的确定胎儿是否存在非整倍性的方法，可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1显示了用于确定胎儿染色体非整倍性的系统的结构示意图；

图 2显示了根据本发明一个实施例的 T13 samples zscore检验图；

图 3显示了根据本发明一个实施例的 T18 samples zscore检验图；以及

图 4显示了根据本发明一个实施例的 T21 samples zscore检验图。具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语 "安装"、 "相连"、 "连接"、 "固定"等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。除非另有说明， "多个" 的含义是两个或两个以上。

确定胎儿针对预定染色体是否存在非整倍性的方法

在本发明的第一方面，本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的方法。根据本发明的实施例，该方法包括：

S1 : 获得样品核酸唯一比对测序数据集

在该步骤中，从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集。根据本发明的实施例，所采用的待检测样品的类型并不受特别限制。具体的，所采用的待检测样品包含待测胎儿的核酸，例如可以采用包含待测胎儿的核酸和孕妇核酸的孕妇血液样品，例如孕妇血浆。根据本发明的实施例，所采用的核酸的类型并不受特别限制，可以是脱氧核糖核酸（DNA)，也可以是核糖核酸（RNA), 优选 DNA。本领域技术人员可以理解，对于 RNA,可以通过常规手段将其转换为具有相应序列的 DNA,进行后续检测和分析。根据本发明的实施例，样本的来源并不受特别限制。根据本发明的示例，可以采用孕妇血浆作为样本，从而可以从其中提取 DNA序列，进而可以对胎儿 DNA状态进行检测和分析。根据本发明的实施例，可以使用的样本的类型包括但不限于孕妇血、孕妇血清、孕妇血浆、胎盘组织、绒毛组织、羊水细胞、绒毛祖细胞、胎儿脐带血、胎儿脐带血清和胎儿脐带血浆，优选孕妇血浆。

根据本发明的实施例，可以通过下列步骤获得唯一比对测序集：

首先，对包含胎儿核酸和母体核酸的样品核酸进行测序，以便获得测序数据；接下来，将所得到的测序数据与人类参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的样品核酸唯一比对测序数据集。

根据本发明的实施例，进一步包括从生物样本提取核酸例如 DNA的步骤。根据本发明的实施例，可以采用盐析法、过柱法和 SDS法等常规核酸提取方法从生物样本提取核酸例如 DNA。根据本发明的实施例，为了对所获得的核酸进行测序，以 DNA为例，可以对其进行随机打断。根据本发明的实施例，随机打断处理可以通过采用酶切、雾化、超声和 HydroShear法的至少之一进行。优选地，采用 HydroShear法（当含有 DNA的溶液通过较小面积的通道时，流体加速，产生的力使 DNA突然断裂，流速和通道大小决定 DNA片段的大小，具体原理和方法参见 Life Sciences Wiki公司的 HydroShear说明书），将 DNA分子打断为比较集中的一定大小的片段。根据本发明的实施例，经过随机打断的主带分布在 200〜300bp范围内，即优选 DNA片段的长度为 200~300bp。需要说明的是，当待测样本为血浆 DNA时，由于血浆 DNA天然地以片段化 DNA形式存在，因此无需打断。根据本发明的实施例，可以采用的测序装置的类型并不受特别限制。根据本发明的具体实施例，考虑到仪器便携性的优势以及高通量性能，测序是通过选自 Roche/454 GS Junior , Illumina/MiSeq以及 Life Tecnologies/Ion Torrent PGM的至少之一进行的。由此，能够利用这些测序装置的高通量（所得到的测序产量可以达到 1G)、深度测序的特点，进一步提高确定染色体数目异常的效率。测序类型可以为 single-end (单向）测序或者 Pair-end (双向）测序。在本发明的一个实施方案中，所述的测序方法为 Illumina/MiSeq, 测序类型为单向测序，测序得到的结果为 50bp大小的片段（reads)。由此，可以进一步提高后续分析的效率。由此，可以降低测序成本，并且可以极大縮小测序时间，从而提高确定胎儿性别的效率。

本领域技术人员可以根据所采用的测序平台来选择适当的测序文库构建方法，简言之，构建测序文库的方法可以包括：

首先，将待检测的核酸样本进行片段后，以便得到 DNA片段；在得到 DNA片段之后，对 DNA片段进行平端化处理和末端添加碱基 A，并连接接头，以便得到具有接头的 DNA片段；以及

对具有接头的 DNA进行扩增，得到扩增产物即测序文库。

根据本发明的实施例，可以在构建测序文库的过程中，在测序文库中引入标签序列 Index, 例如可以在接头中引入 Index, 或者在扩增过程中引入标签序列 Index。由此，可以通过针对不同的样本采用不同的标签序列，从而实现同时对多个检测样本进行测序。根据本发明的实施例，可以采用的标签序列长度为 4-12bp，由此不会影响添加标签序列 Index 的 DNA分子的其他功能。

根据本发明的实施例，本发明中，所采用的人类的参照基因组序列是人类基因组序列经过屏蔽掉重复序列后所得到的参考序列，例如 NCBI数据库中最新版本的人类基因组参考序列。在本发明的具体实施例中，参照基因组序列是 NCBI数据库中的人类基因组参考序列。

根据本发明的实施例，可以通过任何一种序列比对程序进行序列比对，例如本领域技术人员可获得的短寡核苷酸分析包（Short Oligo nucleotide Analysis Package , SOAP) 禾卩 BWA 比对（Burrows- Wheeler Aligner)的至少之一进行，将测序数据与参考基因组序列进行比对，得到测序数据在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行，或者由本领域技术人员根据需要对参数进行选择。在本发明的具体实施例中，所采用的比对软件是 SOAP aligner/soap2。

在本文中所使用的术语"唯一比对测序数据"是指在将测序数据与参照基因组序列进行比对时，在参考基因组序列上仅有唯一位置的序列，以 Unique reads表示。在本发明的实施例中，为了避免重复序列的干扰，需要去除那些定位于人类基因组参考序列中的串联重复及转座重复位置的 DNA序列，只统计那些可以定位到基因组唯一位置的 DNA序列，即唯一比对测序数据。唯一比对测序数据能够将来自胎儿相关生物样品的 DNA分子经打断并测序后的各 DNA序列定位于特定染色体。

根据本发明的实施例，在比对之前，可以对测序数据进行去除低质量测序数据以及去除含有接头的测序数据，由此，可以进一步提高后续处理的效率和准确性。具体的，去除低质量测序数据的策略为：当一条测序数据中测序质量值小于或等于 5 的碱基数目占这条测序数据总碱基数目的 50%以上时，则认为这条测序数据为低质量测序数据，低质量的测序数据将被去除。去除含接头的测序数据的策略：当一条测序数据中含有一段接头序列时，则认为这条测序数据是含接头的测序数据。含有接头的测序数据将被去除。

S2: 确定染色体的相对比对率

在获得唯一比对测序数据集之后，可以针对所得到的唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率。根据本发明的实施例，相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的。根据本发明的实施例，可以基于公式

计算各样品中每条染色体的相对比对率 C ，其中， CR表示相对比对率， i代表染色体号， TNi代表比对到 i号染色体的测序数据的条数， WN表示唯一比对测序数据集中所包含的唯一比对测序数据的数目 M， LENi表示 i号染色体的长度， G表示人类全基因组的总长度。

S3：确定预定染色体的度量值及内参染色体

根据本发明的实施例，可以针对不同的预定染色体采用不同的内参染色体，例如，如果预定染色体为 18号染色体，则内参染色体为 8号染色体。如果预定染色体为 13号染色体，则内参染色体为 4号染色体。如果预定染色体为 21号染色体，则不使用内参染色体。

根据本发明的实施例，可以采用的度量值为预定染色体的相对比对率与拟合的所述内参染色体的相对比对率的比值。根据本发明的实施例，所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。所述拟合关系可以为根据最小二乘法确定的拟合关系。根据本发明进一步的实施例，所述拟合关系为，

(∑Υ) β(∑χ ) η∑ΧΥ -∑Χ∑Υ

CRR._fined = a ^ CRR + P ^ 其中， ^a -—_n -_n ~， «∑z² -(∑z)² ， _n表示对照样品的数目， CR_T为预定染色体的相对比对率， 0½为内参染色体的相对比对率， CR_R._fitted为拟合的内参染色体的相对比对率， X为各个对照样品中的 CR_R，； F为各个对照样品中的 CR_R。选择上述度量值和拟合关系的情况下，所述预定染色体为 18号染色体时，所述内参染色体为 8号染色体。所述预定染色体为 13号染色体时，所述内参染色体为 4号染色体。

根据本发明的实施例，所述预定染色体为 21号染色体且不使用内参染色体，所述度量值为预定染色体的相对比对率。

根据具体的实施例，拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。根据一些示例，拟合关系可以为根据最小二乘法确定的拟合关系。具体的，拟合关系可以为

(∑Υ) β(∑Χ ) 3 ^η∑^χγ -∑^χ∑^γ

CRR._fined = a ^ CRR + P ^ 其中， ^a -—_n -_n ~， «∑z² -(∑z)² ， _n表示对照样品的数目， CR_T为预定染色体的相对比对率， 0½为内参染色体的相对比对率， CR_R._fitted为拟合的内参染色体的相对比对率， X为各个对照样品中的 CR_R，； F为各个对照样品中的 CR_R。确定每个候选内参染色体对应下的各个候选度量值的数值；

确定各个候选度量值在对照样品间的变异系数，

选择变异系数最小的候选度量值及其对应的候选内参染色体。

根据本发明的实施例，变异系数可以按照 CV = sd / mean来确定。 sd表示各个数值的标准偏差， mean表示各个数值的平均值。

由此，根据本发明的具体实施例，一组候选度量值可以为所述预定染色体的相对比对率、所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值，其中，拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。根据本发明的实施例，拟合关系可以为根据最小二乘法确定的拟合关系，具体的，拟合关

(∑Y) Η∑^Χ) 3 ^η∑^ΧΥ ~∑^Χ∑^Υ 系可以为 ^{CRR fited} = ^α * ^{CRr +} ，其中， ^a _ ~n ； ~， "∑X² - (∑X ， _n表示对照样品的数目， CR_T为预定染色体的相对比对率， CR_R为内参染色体的相对比对率， 0½. _£(1为拟合的内参染色体的相对比对率， X为各个对照样品中的 CR_R，； F为各个对照样品中的 CR_R。

根据本发明的实施例，一组候选内参染色体可以是预定染色体之外的所有染色体。 S4: 确定胎儿针对预定染色体是否存在非整倍性。

在该步骤中，在确定预定染色体的度量值及内参染色体之后，可以基于预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。

根据本发明的实施例，所述预定阈值是通过对对照样品的度量值进行统计检验确定的。这里所采用的对照样品可以为正常胎儿的相应孕妇样品，例如孕妇血浆样品。例如对对照样品进行平行分析和处理之后所得的度量值可以作为阈值，具体的，统计检验可以为 Z-score 检验。根据本发明的实施例，预定阈值中正常值范围是对照样品的度量值经统计检验的 95% 置信区间，优选预定阈值中正常值范围是对照样品的度量值经统计检验的 99%置信区间。

以 NCR_R表示经上述方法选定的度量值, meanc和 sdc分别表示对照样品中 NCR_R数值的平均值和标准差。 zscore值的计算公式如下：

zscore = (NCRT - meanc) I sdc 根据本发明的实施例， zscore符合标准正态分布。在置信区间为 [-3， 3]的情况下，可达到 99.9%的置信度。 BP : 当所述 _Zwr_e值小于 -3时，所述胎儿针对所述预定染色体存在缺失。当所述 z^re值大于 3时，所述胎儿针对所述预定染色体存在三体型。即，当 zscore取值为 [-3,3]时，被测样本正常，不存在染色体非整倍性，例如 T2 T18/T13; 当 zscore取值为 (负无穷, -3 )时，被测样本存在染色体缺失，例如 21号 /18号 /13号染色体缺失；当 zscore 取值为 (3,正无穷)时，则被测样本存在染色体三体型的染色体非整倍性，例如 Τ21 Π8/Τ13。由此，调整 zscore 的阈值可以进一步提高染色体非整倍性分析的效率和准确性。研究人员应理解，所算得的 zscore 的大小不仅能定性的判断被测样本是否存在染色体数目异常，例如 T21/T18/T13, 也可以定量的给出被测样本的染色体数目异常，例如 T2 T18/T13的严重程度。

由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，根据本发明的实施例的方法，在本发明中可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。

计算机可读介质

在本发明的第二方面，本发明提出了一种计算机可读介质。根据本发明的实施例，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿针对预定染色体是否存在非整倍性：

从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集；

针对唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，其中，相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；

基于预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及

基于预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。

由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，利用本发明的实施例的计算机可读介质，在本发明中可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。

需要说明的是，前面针对确定胎儿染色体非整倍性的方法的特征和优点所进行的描述，也适用于该计算机可读介质，在此不再赘述。

另外，需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和 /或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言， "计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM), 只读存储器（ROM), 可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA), 现场可编程门阵列（FPGA) 等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

确定胎儿针对预定染色体是否存在非整倍性的系统

在本发明的第三方面，本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的系统。参考图 1，根据本发明的实施例，该系统包括：测序装置 100、和分析装置 200。根据本发明的实施例，测序装置 100适于针对待检测样品进行核酸测序，以便获得各样品的测序数据，其中，待检测样品包含待测胎儿的核酸，以便获得由多个唯一比对测序数据构成的唯一比对测序数据集。分析装置 200与测序装置 100相连，并且适于通过下列步骤进行确定胎儿是否存在染色体非整倍性：针对所述唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，其中，所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；基于所述预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及基于所述预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。

由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，根据本发明的实施例的系统，能够有效地实施前面所述的确定胎儿是否存在非整倍性的方法，可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。需要说明的是，前面针对确定胎儿染色体非整倍性的方法以及可读介质的特征和优点所进行的描述，也适用于该系统，在此不再赘述。需要说明的是，前面所述的比对装置和分析装置的功能可以由前面所述的计算机可读介质来执行。在本发明的第四方面，本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的系统。根据本发明的实施例，该系统包括：

测序装置，所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序，以便获得样品核酸的唯一比对测序数据集；以及

前面所述的计算机可读介质。

由于理论上，定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样本中的含量成比例，由此，根据本发明的实施例的系统，能够有效地实施前面所述的确定胎儿是否存在非整倍性的方法，可以通过引入内参染色体，并且通过对测序数据的数目进行运算，能够实现有效地确定胎儿是否具有非整倍性。需要说明的是，前面针对确定胎儿染色体非整倍性的方法以及可读介质的特征和优点所进行的描述，也适用于该系统，在此不再赘述。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件（例如参考 J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。所使用的测序用的接头和标签序列来源于 Illumina公司的 Multiplexing Sample Preparation Oligonutide Kit。实施例 1

1、样本来源样品的来源为孕妇的血浆，包括 100正常的对照样品和 176例待测样品，总计 276例样

Π

ΡΠ。

2、前期实验

前期实验部分包括以下步骤：提取 DNA，制备样本文库。

按照 TiangenDP327-02Kit操作流程提取上述例血浆样品的 DNA，所提取 DNA按照修改后的 Illumina/Solexa标准建库流程进行建库，在主带集中于 170bp的 DNA分子两端被加上测序所用接头，每个样本被加上不同的标签序列，然后与 flowcell表面互补接头杂交。通过 flowcell表面连接有一层单链引物， DNA片段变成单链后通过与芯片表面的引物碱基互补被一端 "固定"在芯片上；另外一端（5 ' 或 3 ' ) 随机和附近的另外一个引物互补，也被 "固定 "住，形成 "桥（bridge) ，，, 反复 30轮扩增，每个单分子得到了约 1000倍扩增，成为单克隆 DNA簇。然后在 IlluminaHiseq2000上通过单末端测序，得到长度为约 50bp的 DNA 片段序列。

具体而言，将获自上述血浆样品的约 10ng的 DNA, 进行修改后的 Illumina/Solexa标准流程建库，具体流程参照产品说明书（ http://www.illumina.com/提供的 Illumina/Solexa标准建库说明书）。经 2100Bioanalyzer (Agilent)确定 DNA文库大小及插入片段为约 170bp， QPCR 精确定量后可上机测序。

3、测序

本实施例中，对于获自上述 276例血浆的 DNA样本按照 Illumina/Solexa官方公布的 ClusterStation和 Hiseq2000 ( SEsequencing)说明书进行操作，使每个样品得到约 1G数据量进行上机测序，每个样本根据所述标签序列区分。

4、生物信息学分析

1 ) 去除低质量测序数据以及去除含接头的测序数据

拿到待测组样品和对照组样品的下机数据后，分别去除两组样品数据中低质量测序数据以及含接头的测序数据。在本步骤中，对待测组和对照组的下机数据的处理方法是一致的。

去除低质量测序数据的策略：当一条测序数据中测序质量值小于或等于 5的碱基数目占这条测序数据总碱基数目的 50%以上时，则认为这条测序数据为低质量测序数据，低质量的测序数据将被去除。

去除含接头的测序数据的策略：当一条测序数据中含有一段接头序列时，则认为这条测序数据是含接头的测序数据。含有接头的测序数据将被去除。

2) 对对照组和待测组数据进行， soap2比对，去重复，计算相对比对率

本步骤实际包含两部分，一部分是对对照组样品数据进行 soap2比对，去重复，计算各染色体的比对率；另一部分是对待测组样品数据进行 soap2比对，去重复，计算各染色体的比对率。其中对于 _SOap2比对和去重复的具体处理步骤，待测组和对照组是一致的；所不同的是，计算各染色体的比对率，具体来说就是对照组需要计算所有染色体比对率，而待测组只需要计算目标染色体及其相对应的内参染色体的相对比对（即 21号染色体、 18号染色体、 13号染色体、 21号染色体内参染色体、 18号染色体的内参染色体、 13号染色体的内参染色体）。如果没有内参则只需要计算目标染色体自身的相对比对率 CR。

运用 soap2软件（获自 soap.genomics.org.cn) 将进行过去污染处理的测序所得 DNA序列与 NCBI数据库中版本 36(hgl8; NCBIBuild36)的人类基因组参考序列进行不容错比对，得到所测序 DNA序列在所述基因组上的定位。比对完之后，利用比对结果去除 PCR重复。去除 PCR重复的策略是：如果两条测序数据的比对上人类基因组的起始位置相同，则认为这两条测序数据发生了 PCR重复，去掉其中的一条测序数据。同理，对于两条以上的测序数据发生的 PCR重复，也采用同样的方法处理，即去掉重复的测序数据,只保留一条。

去除比对结果中的 PCR重复测序数据之后，利用剩下的测序数据的比对结果计算每条染色体的相对比对率 C ，公式如下：

_CR

其中 CR表示相对比对率， i代表染色体号， TNi代表比对到 i号染色体的测序数据的条数， WN表示比对到人类全基因组的测序数据的总条数， LENi表示 i号染色体的长度（即 i 号染色体上碱基数目）， G表示人类全基因组的总长度（即人类核基因组中所有染色体的碱基数目之和）。以上统计量都是对于单个样品而言的。

3) 选择内参染色体和度量值

以 NCR_T表示度量值，选择下列三组参数为候选度量值：

针对每条预定染色体，其它任一条染色体都作为候选内参染色体。

计算各个候选内参染色体对应的候选度量值的数值。

然后计算各数值的变异系数（cv)，选择 CV值最小的候选度量值和对应的内参染色体的组合。最后确定：

18号染色体的内参染色体为 8号染色体，相应的度量值选择 NCRr = CRr / CR«./_;w。

13号染色体的内参染色体为 4号染色体，相应的度量值选择 NCRT = CRT I CRRJ^。 4) zscore检验

根据步骤 4选定的 NCR_T和内参染色体，利用下述公式计算 21号 /18号 /13号染色体的 zscore值：

zscore = (NCRT - meanc) I sdc， meanc和 sdc分别表示对照样品中 NCR_R数值的平均值和标准差。

利用 21号染色体的 zscore判断是否存在 T21 ; 利用 18号染色体的 zscore判断是否存在 T18 ; 利用 13号染色体的 zscore判断是否存在 T13。具体实施是通过 zscore ( -3,3 ) 的大小判断改被测样品是否存在 T21/T18/T13。判断的原则是：即当 zscore取值为 [-3,3]时，被测样本正常，不存在 T21/T18/T13 ; 当 zscore取值为（负无穷, -3 )时，被测样本存在 21号 /18 号 /13号染色体缺失；当 zscore取值为 (3,正无穷)时，被测样本存在 T21/T18/T13。

5 ) 统计特异性与敏感性。

将被测样品的 zscore检验结果与其实际核型进行比较，确定每一样品检验结果正确与否，统计所有被测样品的特异性和敏感性（表 1 )。实际核型是用 Gbanding方法检出的。

T21/T18/T13检测的特异性和敏感性统计表

在本说明书的描述中，参考术语 "一个实施例 "、 "一些实施例 "、 "示例 "、 "具体示例 "、或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

权利要求书

1、一种确定胎儿针对预定染色体是否存在非整倍性的方法，其特征在于，包括：从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集；

针对所述唯一比对测序数据集，分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率，其中，所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的；

基于所述预定染色体的相对比对率和内参染色体的相对比对率，确定所述预定染色体的度量值；以及

基于所述预定染色体的度量值与预定阈值的关系，确定胎儿针对预定染色体是否存在非整倍性。

2、根据权利要求 1所述的方法，其特征在于，所述包含胎儿核酸和母体核酸的样品为孕妇血浆。

3、根据权利要求 1所述的方法，其特征在于，所述预定阈值是通过对对照样品的度量值进行统计检验确定的。

4、根据权利要求 3所述的方法，其特征在于，所述统计检验为 Z-score检验。

5、根据权利要求 3所述的方法，其特征在于，所述预定阈值中正常值范围是对照样品的度量值经统计检验的 95%置信区间。

6、根据权利要求 5所述的方法，其特征在于，所述预定阈值中正常值范围是对照样品的度量值经统计检验的 99%置信区间。

7、根据权利要求 1所述的方法，其特征在于，所述唯一比对测序集是通过下列步骤获得的：

对包含胎儿核酸和母体核酸的样品核酸进行测序，以便获得测序数据；以及将所述测序数据与人类参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的所述样品核酸唯一比对测序数据集。

8、根据权利要求 1-7任一项所述的方法，其特征在于，所述度量值为所述预定染色体的相对比对率与拟合的所述内参染色体的相对比对率的比值，所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。

9、根据权利要求 8所述的方法，其特征在于，所述拟合关系为根据最小二乘法确定的拟合关系。

10、根据权利要求 9所述的方法，其特征在于，所述拟合关系为 (∑γ) β(∑χ ) η∑ΧΥ -∑Χ∑Υ

CRR.fined = a ^ CRR + P ^ 其中， ^α -—_η -_η ~， η∑Χ² - (∑Χ)² ， _η表示对照样品的数目， CR_T为预定染色体的相对比对率， 0½为内参染色体的相对比对率， CR_R._fitted为拟合的内参染色体的相对比对率， X为各个对照样品中的 CR_R，； F为各个对照样品中的 CR_R。

11、根据权利要求 10所述的方法，其特征在于，所述预定染色体为 18号染色体，所述内参染色体为 8号染色体。

12、根据权利要求 10所述的方法，其特征在于，所述预定染色体为 13号染色体，所述内参染色体为 4号染色体。

13、根据权利要求 1-7任一项所述的方法，其特征在于，所述预定染色体为 21号染色体且不使用内参染色体，所述度量值为预定染色体的相对比对率。

14、根据权利要求 1-7任一项所述的方法，其特征在于，通过下列步骤确定所述度量值和内参染色体：

选择一组候选度量值和一组候选内参染色体；

确定每个候选内参染色体对应下的各个候选度量值的数值；

确定各个候选度量值在对照样品间的变异系数，

15、根据权利要求 14所述的方法，其特征在于，所述一组候选度量值为所述预定染色体的相对比对率、所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值；

所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。

16、根据权利要求 15所述的方法，其特征在于，所述拟合关系为根据最小二乘法确定的拟合关系。

17、根据权利要求 16所述的方法，其特征在于，所述拟合关系为

(∑Υ) β(∑χ ) η∑ΧΥ -∑Χ∑Υ

CRR.fined = a ^ CRR + P ^ 其中， ^a -—_n -_n ~， n∑Z² - (∑Z)² ， _n表示对照样品的数目， CR_T为预定染色体的相对比对率， 0½为内参染色体的相对比对率， CR_R._fitted为拟合的内参染色体的相对比对率， X为各个对照样品中的 CR_R，； F为各个对照样品中的 CR_R。

18、根据权利要求 1-17任一项所述的方法，其特征在于，

基于公式 TNi lWN

LENi l G 确定各样品中每条染色体的相对比对率 CRi，其中， CR表示相对比对率， i代表染色体号， TNi代表唯一比对到 i号染色体的测序数据的数目， WN表示唯一比对测序数据集中所包含的唯一比对测序数据的数目 M， LENi表示 i号染色体的长度， G表示人类全基因组的总长度。

19、根据权利要求 1-18任一项所述的方法，其特征在于，所述预定染色体为常染色体。

20、根据权利要求 19所述的方法，其特征在于，所述预定染色体为 21号染色体、 18 号染色体以及 13号染色体的至少之一。

21、根据权利要求 1-18任一项所述的方法，其特征在于，所述预定染色体为性染色体。

22、根据权利要求 1-21任一项所述的方法，其特征在于，在进行比对之前，进一步包括：去除低质量的测序数据以及含有接头的测序数据。

23、一种确定胎儿针对预定染色体是否存在非整倍性的系统，其特征在于，包括：测序装置，所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序，以便获得样品核酸的唯一比对测序数据集；

分析装置，所述分析装置与所述测序装置相连，并且所述分析装置适于：

24、根据权利要求 23所述的系统，其特征在于，所述包含胎儿核酸和母体核酸的样品为孕妇血浆。

25、根据权利要求 23所述的系统，其特征在于，所述预定阈值是通过对对照样品的度量值进行统计检验确定的。

26、根据权利要求 25所述的系统，其特征在于，所述统计检验为 Z-score检验。

27、根据权利要求 25所述的系统，其特征在于，所述预定阈值中正常值范围是对照样品的度量值经统计检验的 95%置信区间。

28、根据权利要求 27所述的系统，其特征在于，所述预定阈值中正常值范围是对照样品的度量值经统计检验的 99%置信区间。

29、根据权利要求 23所述的系统，其特征在于，所述唯一比对测序集是通过下列步骤获得的：对包含胎儿核酸和母体核酸的样品核酸进行测序，以便获得测序数据；以及将所述测序数据与人类参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的所述样品核酸唯一比对测序数据集。

30、根据权利要求 23-29任一项所述的系统，其特征在于，所述度量值为所述预定染色体的相对比对率与拟合的所述内参染色体的相对比对率的比值，所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。

31、根据权利要求 30所述的系统，其特征在于，所述拟合关系为根据最小二乘法确定的拟合关系。

32、根据权利要求 31所述的系统，其特征在于，所述拟合关系为

(∑Υ) β(∑Χ ) 3 ^η∑^χγ ~∑^χ∑^γ

33、根据权利要求 32所述的系统，其特征在于，所述预定染色体为 18号染色体，所述内参染色体为 8号染色体。

34、根据权利要求 32所述的系统，其特征在于，所述预定染色体为 13号染色体，所述内参染色体为 4号染色体。

35、根据权利要求 23-29任一项所述的系统，其特征在于，所述预定染色体为 21号染色体且不使用内参染色体，所述度量值为预定染色体的相对比对率。

36、根据权利要求 23-29任一项所述的系统，其特征在于，通过下列步骤确定所述度量值和内参染色体：

选择一组候选度量值和一组候选内参染色体；

确定每个候选内参染色体对应下的各个候选度量值的数值；

确定各个候选度量值在对照样品间的变异系数，

37、根据权利要求 36所述的系统，其特征在于，所述一组候选度量值为所述预定染色体的相对比对率、所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值；

38、根据权利要求 37所述的系统，其特征在于，所述拟合关系为根据最小二乘法确定的拟合关系。

39、根据权利要求 38所述的系统，其特征在于，所述拟合关系为

(∑γ) β(∑χ ) n∑XY -∑X∑Y

CRR.fined = a ^ CRR + P ^ 其中， ^a -—_n -_n ~， n∑X² - (∑X)² ， _n表示对照样品的数目， CR_T为预定染色体的相对比对率， 0½为内参染色体的相对比对率， CR_R._fitted为拟合的内参染色体的相对比对率， X为各个对照样品中的 CR_R，； F为各个对照样品中的 CR_R。

40、根据权利要求 23-39任一项所述的系统，其特征在于，

基于公式 _D TNi /WN

确定各样品中每条染色体的相对比对率 CRi，其中， CR表示相对比对率， i代表染色体号， TNi代表唯一比对到 i号染色体的测序数据的数目， WN表示唯一比对测序数据集中所包含的唯一比对测序数据的数目 M， LENi表示 i号染色体的长度， G表示人类全基因组的总长度。

41、根据权利要求 23-40任一项所述的系统，其特征在于，所述预定染色体为常染色体。

42、根据权利要求 41所述的系统，其特征在于，所述预定染色体为 21号染色体、 18 号染色体以及 13号染色体的至少之一。

43、根据权利要求 23-40任一项所述的系统，其特征在于，所述预定染色体为性染色体。

44、根据权利要求 23-43任一项所述的系统，其特征在于，在进行比对之前，进一步包括：去除低质量的测序数据以及含有接头的测序数据。

45、一种计算机可读介质，所述计算机可读介质上存储有指令，所述指令适于被处理器执行以便通过下列步骤确定胎儿针对预定染色体是否存在非整倍性：

46、根据权利要求 45所述的计算机可读介质，其特征在于，所述预定阈值是通过对对照样品的度量值进行统计检验确定的。

47、根据权利要求 46 所述的计算机可读介质，其特征在于，所述统计检验为 Z-score 检验。

48、根据权利要求 47所述的计算机可读介质，其特征在于，所述预定阈值中正常值范围是对照样品的度量值经统计检验的 95%置信区间。

49、根据权利要求 48所述的计算机可读介质，其特征在于，所述预定阈值中正常值范围是对照样品的度量值经统计检验的 99%置信区间。

50、根据权利要求 45所述的计算机可读介质，其特征在于，所述唯一比对测序集是通过下列步骤获得的：

对包含胎儿核酸和母体核酸的样品核酸进行测序，以便获得测序数据；以及

将所述测序数据与人类参照基因组序列进行比对，以便获得由多个唯一比对测序数据构成的所述样品核酸唯一比对测序数据集。

51、根据权利要求 45-50任一项所述的计算机可读介质，其特征在于，所述度量值为所述预定染色体的相对比对率与拟合的所述内参染色体的相对比对率的比值，所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。

52、根据权利要求 51所述的计算机可读介质，其特征在于，所述拟合关系为根据最小二乘法确定的拟合关系。

53、根据权利要求 52所述的计算机可读介质，其特征在于，所述拟合关系为，

(∑Υ) β(∑Χ ) 3 ^η∑^χγ ~∑^χ∑^γ

54、根据权利要求 53所述的计算机可读介质，其特征在于，所述预定染色体为 18号染色体，所述内参染色体为 8号染色体。

55、根据权利要求 53所述的计算机可读介质，其特征在于，所述预定染色体为 13号染色体，所述内参染色体为 4号染色体。

56、根据权利要求 45-51任一项所述的计算机可读介质，其特征在于，所述预定染色体为 21号染色体且不使用内参染色体，所述度量值为预定染色体的相对比对率。

57、根据权利要求 45-51任一项所述的计算机可读介质，其特征在于，通过下列步骤确定所述度量值和内参染色体：选择一组候选度量值和一组候选内参染色体；

确定每个候选内参染色体对应下的各个候选度量值的数值；

确定各个候选度量值在对照样品间的变异系数，

58、根据权利要求 57所述的计算机可读介质，其特征在于，所述一组候选度量值为所述预定染色体的相对比对率、所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值；

59、根据权利要求 58所述的计算机可读介质，其特征在于，所述拟合关系为根据最小二乘法确定的拟合关系。

60、根据权利要求 59 所述的计算机可读介质，其特征在于，所述拟合关系为

(∑Υ) β(∑χ ) n∑XY -∑X∑Y

61、根据权利要求 45-60任一项所述的计算机可读介质，其特征在于，

基于公式 _D TNi /WN

62、根据权利要求 45-61任一项所述的计算机可读介质，其特征在于，所述预定染色体为常染色体。

63、根据权利要求 62所述的计算机可读介质，其特征在于，所述预定染色体为 21号染色体、 18号染色体以及 13号染色体的至少之一。

64、根据权利要求 45-61任一项所述的计算机可读介质，其特征在于，所述预定染色体为性染色体。

65、根据权利要求 45-64任一项所述的计算机可读介质，其特征在于，在进行比对之前，进一步包括：去除低质量的测序数据以及含有接头的测序数据。

66、确定胎儿针对预定染色体是否存在非整倍性的系统，其特征在于，包括：测序装置，所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序，以便获得样 ,核酸的唯一比对测序数据集；以及

权利要求 45-65任一项所述的计算机可读介质。