WO2015006932A1

WO2015006932A1 - 一种染色体非整倍性检测方法及装置

Info

Publication number: WO2015006932A1
Application number: PCT/CN2013/079495
Authority: WO
Inventors: 郑晶; 张春雷; 陈盛培; 蒋浩君; 谢伟伟; 陈芳
Original assignee: 深圳华大基因科技有限公司
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2015-01-22
Also published as: US20160154931A1; EP3023504A1; HK1208888A1; EP3023504B1; CN104520437B; EP3023504A4; CN104520437A

Abstract

一种染色体非整倍性检测方法及装置，其中方法包括：获取测试样本的测序结果在参考序列上的分布情况，即落在参考序列上划分的每个窗口中的读长序列的数目，其中测试样本包含来自目标个体的目标样本和来自正常个体的对照样本；进而计算每个目标样本在每个窗口中的偏差统计量；将目标样本的某个染色体上的偏差统计量的平均值与相应的偏差阈值进行比较，根据比较结果判断该染色体是否缺失或重复，其中偏差阈值按照全部正常个体在该染色体上的偏差统计量设置。

Description

一种染色体非整倍性检测方法及装置技术领域

本发明涉及基因组学及生物信息学技术领域，具体涉及染色体非整倍性检测方法及装置。

背景技术

染色体是组成细胞核的基本物质。正常人的体细胞染色体数目为 46 条，并有一定的形态和结构。核型通常指染色体的表型特征，例如数量、长度等，核型检测能够在较大尺度上反映染色体的异常情况，例如某个染色体的非整倍性（缺失或重复），在遗传学研究上具有重要作用，例如对胎儿的染色体的核型检测有助于降低出生风险。

目前常用的胎儿产前检测技术分为无创产前技术和有创产前技术。其中，无创产前技术包括： 1 )利用曱胎蛋白（AFP ) 、游离雌三醇（ β -HCG ) 和妊娠相关蛋白（ΡΑΡΡ-Α ) 等血清标记物对孕妇血清与尿液成分进行检测，以计算唐氏综合症风险； 2 )借助物理学的方法对胎儿进行可视化筛查，例如 Β超、 X线、 CT、磁共振等； 3 )对配子或移入到子宫腔之前的胚胎进行遗传学分析的植入前遗传学诊断（PGD ) 等。有创产前技术包括孕早期的绒毛活组织检查、孕中期的胎儿脐带血穿刺、羊水穿刺、胎儿镜检查及胚胎活检等。

目前无创产前技术的检测结果不够可靠，假阳性率和假阴性率都偏高，而有创产前技术准确率高，但容易给孕妇和胎儿胎来风险，例如导致流产或羊膜腔炎。

发明内容

依据本发明的一方面提供一种染色体非整倍性检测方法，包括如下步骤：获取测试样本的测序结果在参考序列上的分布情况，测试样本包含来自 M个目标个体的目标样本和来自 N个正常个体的对照样本， M 和 N为正整数，测序结果包括多个读长序列，参考序列上划分有多个窗口，测试样本的测序结果在参考序列上的分布情况表现为落在每个窗口中的读长序列的数目 r(i,j), 其中 i为窗口的编号， j为测试样本的编号， i和 j为正整数；计算每个测试样本在每个窗口中的相对序列数 R(iJ) = r(i,j) / rpG) , 其中 rpG)为第 j个样本的 r(ij)的平均值；计算每个目标样本在每个窗口中的偏差统计量 Z(i,j) = [R(iJ) 圍 mean(i)] / sd(i),其中 mean(i) 为第 i个窗口中 R(iJ)的平均值， sd(i)为第 i个窗口中 R(iJ)的标准差；将目标样本的第 c号染色体上的 Z(i J)的平均值 Zp(c J)与第 c号染色体的偏差阔值进行比较，根据比较结果判断该目标样本的第 c号染色体是否缺失或重复，其中偏差阔值按照全部正常个体在第 c号染色体上的偏差统计量设置。

依据本发明的另一方面提供一种染色体非整倍性检测装置，包括：数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括可执行的程序；处理器，与数据输入单元、数据输出单元及存储单元数据连接，用于执行存储单元中存储的可执行的程序，该程序的执行包括完成上述染色体非整倍性检测方法。

依据本发明的再一方面提供一种计算机可读存储介质，用于存储供计算机执行的程序，本领域普通技术人员可以理解，在执行该程序时，通过指令相关硬件可完成上述染色体非整倍性检测方法的全部或部分步骤。所称存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

依据本发明的方法通过对偏差统计量的设计反映出测试样本与参考染色体缺失或重复进行判断，提供了一种基于测序技术的染色体非整倍性检测手段，能够灵敏地检测任意染色体的数目异常。

附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图 1是依据本发明的一种实施方式的检测方法的流程示意图；图 2是依据本发明的另一种实施方式中的窗口划分方法的流程示意图；

图 3是依据本发明的另一种实施方式中的 GC校正方法的流程示意图。

具体实施方式

实施例 1

依据本发明的一种实施方式，提供一种染色体非整倍性检测方法，参考图 1 , 包括如下步骤：

101. 获取测试样本的测序结果在参考序列上的分布情况。

( 1 )测试样本包含来自 M个目标个体的目标样本和来自 N个正常个体的对照样本， M和 N为正整数。

目标个体指需要进行检测的个体，例如需要进行产前检测的孕妇，正常个体指预先确定的正常的个体。通常而言，目标个体与正常个体为同一物种，优选地，具有近似的基本状态，例如，若目标个体为孕妇，则正常个体可以是孕周接近的怀有正常胎儿的正常孕妇。

本实施方式中，目标样本和对照样本的来源不受特别限制，例如可以选自：孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞等，只要能够从中提取出含有胎儿遗传信息的核酸样本即可。本实施方式中，优选目标样本和对照样本具有相同的来源，例如优选为孕妇外周血，这样可以对胎儿进行无创产前检测且样本获取方式简便。由于样本中除胎儿核酸外还包含孕妇自身核酸，因此为避免干扰检测结果，孕妇本身应当无染色体非整倍性问题，当然，这种判断通常是十分明显的。在其他实施方式中，也可以使用有创方法获得的样本，例如样本可以来自胎儿的脐带血、胎盘组织或绒毛膜组织、未培养或培养过的羊水细胞、绒毛组细胞等。定，可 U釆用种已有的手段进行，例如商品化的核酸提取试剂盒。

需要说明的是，若目标个体有两个以上，即 M > 2 , 可以分别将每个目标个体与 N 个正常个体组成一组测试样本，即测试样本的总数为 N+1 ,共获得 M组测试样本，每组分别按照所提供方法进行检测和计算，也可以将 M个目标个体与 N个正常个体组成一组测试样本进行检测和计算，即测试样本的总数为 N+M。本实施方式中优选釆用测试样本的总数为 N+1的方案。

( 2 ) 测试样本的测序结果包括多个读长序列（即 reads , 也称 "读段，， )。

由于正常个体是预先选择确定的，因此关于对照样本的任何检测或计算数据均可预先产生并保存下来，本实施方式中釆用这种预置对照样本的相关数据的方式，在需要时读取使用，以下涉及对照样本数据时不再赘述。在其他实施方式中，也可以釆用对照样本同步检测和计算的方式。 ' ，、、、、、、、、，、，、、、， - ,雨常会将提取自样本的核酸进行打断，并根据所选用的测序方法进行相应的文库（library ) 制备，然后进行测序。例如，可选用第三代测序平台 ( Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;l l(l):31-46 ), 包括但不限于 Helicos公司的真实单分子测序技术 ( True Single Molecule DNA sequencing ), Pacific Biosciences 公司的单分子实时测序（ single molecule real-time (SMRTTM) ),以及 Life Technologies 公司的半导体测序技术等。本实施方式优选釆用 Life Technologies公司的半导体测序平台。当需要同时检测多个目标样本时，每个样本可以被加上不同的标签序列（barcode ), 以用于在测序过程中进行样本的区分 ( Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3 ), 从而实现同时对多个样本进行测序。标签序列用于区分不同样本，但不影响添加标签序列的 DNA分子的其他功能。标签序列长度可以是 4-12bp。

本实施方式中，在获取测试样本的测序结果时所使用的测序深度优选为 0.2X, 并且使用小片段文库，大小优选为 100 ~ 300bp。在其他实施方式中，测序深度可优选为 0.1X ~ 0.3X, 同时地或可选地，文库大小优选为 50 ~ 500bp。使用上述优选的各种低测序深度以及小片段文库，既能够减少测序的数据量以节省成本和缩短检测及分析的时间，又能够保证检测结果的可靠性和准确性。例如，在一种实施方式中，釆用 0.2X的测序深度和大小约为 lOObp的文库，可使得所需要分析的测序结果数据在 5M左右，大大减小了数据产生的成本，也降低了分析计算的难度，使得在 24小时内完成分析过程成为可能，有助于缩短结果反馈的时间。

( 3 )参考序列上划分有多个窗口，测试样本的测序结果在参考序列上的分布情况表现为落在每个窗口中的读长序列的数目。

简明起见，将每个窗口中的读长序列的数目记为 r(i,j) , 其中 i为窗口的编号， j为测试样本的编号， i和 j为正整数。如前所述，对于对照样本而言，其 r(ij)可以是预先测定并保存的。

所使用的参考序列是已知序列，可以是预先获得的目标个体所属生物类别中的任意的参考模板。例如，若目标个体是人类，参考序列可选择美国国家生物技术信息中心（ NCBI, national center for biotechnology information )数据库中的人类基因组参考序列。本实施方式中，参考序列选择为 NCBI数据库中版本 37.3 ( hgl9; NCBI Build 37.3 ) 的人类基因组参考序列。

在参考序列上划分窗口可以使用各种使得测序结果能够被有效统计的方式，例如，本实施方式中，按照固定的窗口长度和固定的窗口间距划分窗口，固定的窗口长度优选为 100Kb, 固定的窗口间距优选为 10kb 或 20kb。在其他实施方式中，也可以选择不同的固定的窗口长度和固定的窗口间距，例如固定的窗口长度优选为 lkb ~ 1Mb , 同时地或可选地 , 固定的窗口间距优选为 lkb ~ 100kb。窗口长度和间距可根据样本中胎儿 DNA的丰度进行设置，设置原理是每一个窗口对应一个统计量及一个染色体位置，这意味着窗口的距离决定了检测的精度。

在将测序结果比对到参考序列时，可使用各种比对软件，例如 Tmap, BWA ( Burrows-Wheeler Aligner ), SOAP ( Short Oligonucleotide Analysis Package ), samtools 等，本实施方式对此不作限定。根据比对软件，可釆用容错（即允许有若干个碱基错配（mismatch ) )或不容错比对，釆用容错比对时，一般平均 100bp允许有 1 ~ 3个容错。在釆用 Proton平台测序时，一般釆用容错比对。

102. 计算每个测试样本在每个窗口中的相对序列数。

简明起见，将每个测试样本在每个窗口中的相对序列数记为 R(i,j) ,

R(ij) = r(ij) I rpG)

其中， rpG)为第 j个样本的 r(i,j)的平均值，例如可表示为， rpG) = [r(l ,J) + … + r(Ij)]/I

其中， I为参考序列上全部窗口的数目。

需要说明的是，本实施方式中使用归一化处理后的相对序列数进行后续的分析运算，这是为了突出数据本身的统计意义，在其他实施方式中，若未釆用归

据分析，只是在进行数值的分析、计算和比较时使用未归一化的数值水平，均应当视为本实施方式的等同。以下所涉及计算过程也均可以釆用在数学或统计上等同或近似的方法对公式或算法进行变化，同样应视为等同，不再赘述。本实施方式不限制于具体计算公式的表达形式。

103. 计算每个目标样本在每个窗口中的偏差统计量。

简明起见，将每个目标样本在每个窗口中的偏差统计量记为 Z(i,j) , Z(i,j) = [R(i,j) - mean(i)] I sd(i)

其中， mean(i)为第 i个窗口中 R(iJ)的平均值，例如可表示为， mean(i) = [R(i,l) + ... + R(i,J)]/J

sd(i)为第 i个窗口中 R(iJ)的标准差，一种可选的计算方式为：

其中， J为全部测试样本的数目。本实施方式中， J=l+N。在其他实施方式中，若测试样本同时包含 M个目标样本，则 J=M+N。

偏差统计量 Z(iJ)代表了第 j个样本在第 i个窗口是否出现了缺失或重复的统计含义，在当前的计算公式表现形式下， Z(ij)>0倾向于重复， Z(i,j)<0倾向于缺失，每个窗口的 Z(iJ)具有相对独立的统计意义。

104. 将目标样本的某个染色体上的偏差统计量的平均值与相应的偏差阈值进行比较。

( 1 ) 偏差统计量 Z(iJ)按照所属染色体进行分析比对，即将目标样本的第 c号染色体上的 Z ( i J )的平均值 Zp ( c J )与第 c号染色体的偏差阔值进行比较，

Zp(cj) = [Z(cl,j) + ... + Z(cI-cl+lj)]/cI

其中， cl为参考序列的第 c号染色体上第一个窗口的编号， cl为参考序列的第 c号染色体上全部窗口的数目。例如累加值也是同的 #i^，相应调整阔值的数⁵ 水平即可。 '

( 2 )根据比较结果判断该目标样本的第 c 号染色体是否缺失或重复。例如，若 Zp(cJ)超过偏差阔值上限，则可认为目标样本 j的第 c号染色体出现重复（例如 3体），若 Zp(cJ)低于偏差阔值下限，则可认为目标样本 j的第 c号染色体出现缺失（例如单体），由此可以给出目标样本的数字化核型分析结果，例如 "第 21号染色体 3体"、 "第 18号染色体 3体"、 "第 13号染色体 3体"、 "X染色体缺失"、 "Y染色体缺失"等。

需要说明的是，虽然依据本发明实施方式的变异检测的结果客观上能够用于判断染色体非整倍性，进而用于检测由此导致的遗传疾病，例如胎儿的唐氏综合症、爱德华综合症等，但是依据本发明实施方式的变异检测也并不一定用于疾病诊断或相关的目的，例如一些染色体变异的存在并不代表着患病风险或健康状况，或者也可以用于单纯的遗传多态性科学研究。

( 3 )偏差阔值按照全部正常个体在第 c号染色体上的偏差统计量设置。如前所述，由于偏差阔值是由对照样本得到的，因此可以预先计算和保存，在后续对目标个体进行检测时，只要对照样本的集合不变，均可使用相同的阔值设置。当然若减少、更换或增加对照样本则需要更新相应的偏差阔值。本实施方式所釆用的一种优选的阔值设置方式，包括如下步骤：

( 3.1 )以 N个正常个体的对照样本作为全部测试样本，计算每个对照样本的 Zp(c,j)。具体计算过程可参考上述步骤中的描述进行，只是测试样本中不再包含目标样本，因此在设置偏差阔值时，全部测试样本的数目为 N。为使获得的偏差阔值具有更好的可靠性，本实施方式中， N 优选为不小于 30。

( 3.2 ) 按照设定的检验规则和置信度计算判断为正常所对应的 Zp(cJ)值边界，以此作为第 c号染色体的偏差阔值。可根据对照样本的数目以及所需要的检测精度等选择检验规则并设置相应的置信度，具体可按照已有的统计数据处理方式进行。本实施方式中，优选釆用 U检验，置信度为 95%, 在此置信度下具有 "没有假阴性" 的优点。在其他实施方式中，也可选择 T检验等其他检验规则，同时地或可选地，置信度可选择为 90% ~ 99.9%, 例如 99%、 99.5%、 99.9%等。

本实施方式中，依据上述设置方式得到的一组偏差阔值如下所列，其中记录数据的格式为（染色体编号；阔值下限；阔值上限）：

( 1 ; -0.1417365 ; 0.1417365 ) ( 2; -0.09237466; 0.09237466 ) ( 3 ; -0.1250404; 0.1250404 ) ( 4; -0.1265542; 0.1265542 ) ( 5 ; -0.08148388; 0.08148388 ) ( 6; -0.119122; 0.119122 ) ( 7 ; -0.1061317 ; 0.1061317 ) ( 8; -0.1155915 ; 0.1155915 ) ( 9; -0.1004392; 0.1004392 ) ( 10; -0.1106214; 0.1106214 ) ( 11 ; -0.09819914; 0.09819914 ) ( 12; -0.09005814; 0.09005814 ) ( 13 ; -0.1779642; 0.1779642 ) ( 14; -0.1436377 ; 0.1436377 ) ( 15 ; -0.1478246; 0.1478246 ) ( 16; -0.1764641 ; 0.1764641 ) ( 17 ; -0.147383 ; 0.147383 ) ( 18; -0.1891044; 0.1891044 ) ( 19; -0.3332986; 0.3332986 ) ( 20; -0.206487; 0.206487 )

( 21 ; -0.2573099; 0.2573099 ) ( 22; -0.2096556; 0.2096556 ) ( X-男胎; -0.823347; 0.823347 ) ( X-女胎; -0.285388; 0.285388 ) ( Y-男胎; -1.228768; 1.228768 ) ( Υ-女胎; -1.217151 ; 1.217151 ) 实施例 2

依据本发明的另一种实施方式，提供一种染色体非整倍性检测方法，基本步骤与实施例 1相同，区别在于实施例 1中釆用按照固定的窗口长度和固定的窗口间距划分窗口的方式，而本实施方式中釆用按照每个窗口中包含的唯一比对序列数相同的方式划分窗口。

唯一比对序列是指定位到参考序列唯一位置的序列，在使用 "包含的唯一比对序列数相同" 的方式来划分窗口的情况下，在将测试样本的测序结果比对到参考序列时，相应的也可以只统计唯一比对的读长序列 , 而放弃不能唯一比对的读长序列。这种类型的窗口能够降低重复序列以及 Ν区等对检测结果的影响，提高检测的可靠性。

本实施方式提供的一种按照每个窗口中包含的唯一比对序列数相同的方式划分窗口的方法，参考图 2 , 包括如下步骤：

201. 获取一组已知的碱基序列。

这组碱基序列既可以通过对某个已知样本（例如上述对照样本中的一个）进行全基因组测序获得，也可以通过按照切割长度切割参考序列获得。

在釆用实际测序的方式来获得这组已知的碱基序列时，为了获得足够多的碱基序列，可以对选定的已知样本进行深度测序，以测序得到的读长序列作为这组已知的碱基序列。优选地，可以选择建库和测序方法使得获得的碱基序列的长度与测试样本进行测序所得到的读长序列的长度相当。

在釆用切割参考序列的方式来模拟生成这组已知的碱基序列时，可以先确定切割长度，通常可以按照对测试样本进行测序所获得的读长序列的长度来确定切割长度。例如，切割长度可以是与测试样本的读长序列长度接近的固定长度值，例如若测试样本的读长序列约为 250bp, 则可选择切割长度为 200 ~ 300bp。然后按照切割长度切割参考序列，例如根据选定的参考序列切割 HG18或 HG19。

202. 将这组已知的碱基序列比对回参考序列，获得唯一比对序列的分布情况。

203. 划分窗口。

例如，将相邻的 K个唯一比对序列划分为一组，以此划分覆盖每组唯一比对序列的窗口， K为正整数。实施例 3

依据本发明的另一种实施方式，提供一种染色体非整倍性检测方法，基本步骤与实施例 1或 2相同，区别在于实施例 1或 2中釆用未经校正的相对序列数 R(iJ)来计算偏差统计量 Z(iJ), 而本实施方式中则在计算 Z(iJ)之前先对 R(iJ)进行校正，简明起见，以下将校正后的 R(iJ)记为 Ra(i,j)。

本实施方式中，优选按照每个测试样本在每个窗口中的 GC (鸟嘌呤 Guanine和胞嘧啶 Cytosine )含量对 R(iJ)进行校正，使得到的 Ra(i,j) 具有或近似具有正态分布，在计算 Z(iJ)时，使用 Ra(iJ)。这是因为客观看来，染色体非整倍性（缺失或重复）对覆盖范围内的窗口的影响应当是一致的，测得的统计量 R(iJ)应当满足统计学的常见分布，例如正态或标准正态分布。而根据已有的研究结果， GC含量会影响实际测序结果，例如高和低 GC含量的区域的读长序列数量会低于中间态 GC含量的区域的读长序列数量，这主要和测序过程中使用的建库方法有关。因此，为使的检测结果更加可靠，可以根据测试样本在每个窗口中的 GC含量对 R(iJ)进行标准化校正，使得 Ra(iJ)具有例如近似符合正态分布的统计规律。所称 R(iJ) (或 Ra(iJ) ) 的分布是指，以 R(iJ)的数值为横坐标，含有相同数值的 R(iJ)的窗口的数目为纵坐标，所描述的 R(iJ)的数值的分布情况。所称 "相同数值" 是指取值在同一档位区间中。

本实施方式提供的一种按照 GC含量对 R(iJ)进行校正的方法，参考图 3 , 包括如下步骤：

301. 计算测试样本的 GC含量。

对于一个测试样本，可根据测序结果计算该测试样本在每个窗口中的 GC含量。目标样本与正常样本都可以进行基于 GC含量的校正，如前所述，正常样本的相关数据可以预先获得与处理。

302. 统计相同 GC含量的窗口中的 R(iJ)的中位数。

所称相同 GC含量指 GC含量值在同一档位区间中，例如本实施方式中，档位区间的跨度优选为 0.001。在其他实施方式中，档位区间的跨度也可优选为 0.0005 ~ 0.005。

303. 计算校正系数 s(GC)。

通常，以中位数与目标值的比值作为相应 GC 含量下的校正系数 e(GC)₀ 目标值通常选择能够代表平均数量水平的值，例如本实施方式中优选为该测序样本在全部窗口（包括全部染色体）的 R(iJ)的平均值。

304. 将 R(iJ)乘以 e(GC)得到校正后的 R(iJ)。例如，可表示为， Ra(ij) = s(GC) χ R(ij)

显然若直接对 r(i,j)进行 GC校正也是可以的，是与上述校正过程等同的方法。本领域普通技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

依据本发明的另一方面还提供一种染色体非整倍性检测装置，包括：数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括可执行的程序；处理器，与上述数据输入元数 ^输出及存储 ^元数，连接：、、 J 于执行存储单元中存储的或部分步骤。

行详细的描述。下述检测过程所使用的具体参数设置为：

1. 釆用实施例 3检测方法，其中窗口设置釆用实施例 1的方式，

2. 参考序列： NCBI数据库中版本 37.3 ( hgl9; NCBIBuild37.3 ) 的人类基因组参考序列，

3. 窗口长度 100Kb , 窗口间距 20kb ,

4. 目标样本： 4例孕妇血浆，对照样本：确定实施例 1中所列偏差阔值的一组对照样本。

检测过程为：

1. DNA 提取与建库：使用 Snova DNA 提取试剂盒（ SnoMag Circulating DNA Kit )提取上述 4例血浆样品（目标个体编号见附表 )的 DNA, 所提取 DNA按照测试稳定后的 proton建库流程进行建库，在片段主带集中在 170bp的 DNA分子两端加上测序接头，每个目标样本在接头连接时被加上不同的标签序列，以便于区分。建好的文库（主带约为 250bp )被 emulsion PCR成油包水状态，形成包裹单分子颗粒。

2. 测序：对于获自上述 4例血浆的 DNA样本按照 Life Technologies 官方公布的 Ion Proton说明书进行操作，进行上机测序，每个样本根据标签序列进行区分。利用比对软件 Tmap (获自 Life Technologies公司主页），将测序结果与参考序列进行不容错比对，得到测序结果在参考序列上的定位。

3. 数据分析：计算每个目标样本的 Zp(cJ) (每个目标样本分别与对照样本集组成一组测试样本），并使用相应的偏差阔值进行过滤，获得超过阔值的检测结果。、 ― 、' 、。 ' 、，，、 , 分析（包括羊水穿刺、细胞培养、染色、分带等过程），将分析结果与步骤 3中的结果进行比对，如下表所示：目标个染色体标准的核型依据本发明方

结论体编号编号分析结果法的检测结果

CQPT01 21 47,XY,+21 47,ΧΥ,+21 一致

CQPT02 18 47,ΧΧ,+18 47,ΧΧ,+18 一致

CQPT03 13 47,ΧΥ,+ 13 47,ΧΥ,+ 13 一致

CQPT04 X 45,ΧΟ 45,ΧΟ 一致以上所述仅为本发明的较佳实施例，应当理解，这些实施例仅用以解释本发明，并不用于限定本发明。对于本领域的一般技术人员，依据本发明的思想，可以对上述具体实施方式进行变化。

Claims

权利要求

1. 一种染色体非整倍性检测方法，其特征在于，包括如下步骤，获取测试样本的测序结果在参考序列上的分布情况，所述测试样本包含来自 M个目标个体的目标样本和来自 N个正常个体的对照样本， M 和 N为正整数，所述测序结果包括多个读长序列，所述参考序列上划分有多个窗口，所述分布情况表现为落在每个窗口中的读长序列的数目 r(i,j), 其中 i为窗口的编号， j为测试样本的编号， i和 j为正整数；

计算每个测试样本在每个窗口中的相对序列数 R(iJ) = r(i,j) I rp(j), 其中 rpG)为第 j个样本的 r(ij)的平均值；

计算每个目标样本在每个窗口中的偏差统计量 Z(iJ) = [R(iJ) - mean(i)] I sd(i), 其中 mean(i)为第 i个窗口中 R(iJ)的平均值， sd(i)为第 i 个窗口中 R(iJ)的标准差；

将目标样本的第 c号染色体上的 Z(iJ)的平均值 Zp(c J)与第 c号染色体的偏差阔值进行比较，根据比较结果判断该目标样本的第 c号染色体是否缺失或重复，所述偏差阔值按照全部所述正常个体在第 c号染色体上的偏差统计量设置。

2. 如权利要求 1所述的方法，其特征在于，所述目标样本和对照样本的来源选自以下至少一种：孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液和胎儿有核红细胞；

所述目标样本和对照样本的来源优选为孕妇外周血。

3. 如权利要求 1所述的方法，其特征在于，所述窗口的划分方式选自：按照固定的窗口长度和固定的窗口间距划分窗口，按照每个窗口中包含的唯一比对序列数相同的方式划分窗口；

所述固定的窗口长度优选为 lkb ~ 1Mb, 进一步优选为 100Kb; 和 / 或，

所述固定的窗口间距优选为 lkb ~ lOOkb, 进一步优选 5kb ~ 20kb, 更优选为 10kb。

4. 如权利要求 3所述的方法，其特征在于，所述按照每个窗口中包含的唯一比对序列数相同的方式划分窗口，包括如下步骤：

获取一组已知的碱基序列，所述已知的碱基序列通过对已知样本进行测序 ,、'或者按照切，长度切割参考列获得 , 所述切割长度将所述已知的读长序列比对回参考序列，获得唯一比对序列的分布情况，

将相邻的 K个唯一比对序列划分为一组，以此划分覆盖每组唯一比对序列的窗口， K为正整数。

5. 如权利要求 1 所述的方法，其特征在于，在计算 Z(iJ)之前，还包括如下步骤：按照每个测试样本在每个窗口中的 GC含量对 R(iJ)进行校正，使得校正后的 R(iJ)具有或近似具有正态分布，在计算 Z(iJ)时，使用所述校正后的 R(i,j：)。

6. 如权利要求 5所述的方法，其特征在于，所述对 R(iJ)进行校正包括如下步骤：

对于一个测试样本，根据测序结果计算该测试样本在每个窗口中的 GC含量，

统计相同 GC含量的窗口中的 R(iJ)的中位数，所述相同 GC含量指 GC含量值在同一档位区间中，所述档位区间的跨度为 0.0005 ~ 0.005 , 优选为 0.001 ,

以所述中位数与目标值的比值作为相应 GC 含量下的校正系数 e(GC), 所述目标值优选为该测试样本在全部窗口的 R(iJ)的平均值，将 R(iJ)乘以 e(GC)得到校正后的 R(i,j)。

7. 如权利要求 1所述的方法，其特征在于，在获取测试样本的测序结果时所使用的测序深度为 0.1X ~ 0.3X, 优选为 0.2X; 和 /或，

在对测试样本进行测序时所构建的测序文库大小为 50 ~ 500b , 优选为 100 ~ 300bp。

8. 如权利要求 1-7任意一项所述的方法，其特征在于，所述偏差阔值的设置包括如下步骤：

以所述 N个正常个体的对照样本作为全部测试样本，计算每个对照样本的 Zp(c,j),

按照设定的检验规则和置信度计算判断为正常所对应的 Zp(cJ)值边界，以此作为第 c号染色体的偏差阔值；

所述检验规则优选为 U检验；和 /或，

所述置信度优选为 90% ~ 99.9%, 进一步优选为 95%; 和 /或，所述 N优选为不小于 30。

9. 如权利要求 1-7 任意一项所述的方法，其特征在于，所述 sd(i) 按照如下方式计算： , 其中， J为全部测试样本的数目。

10. 一种染色体非整倍性检测装置，其特征在于，包括：

数据输入单元，用于输入数据；

数据输出单元，用于输出数据；

存储单元，用于存储数据，其中包括可执行的程序；

处理器，与所述数据输入单元、数据输出单元及存储单元数据连接, 用于执行所述可执行的程序，所述程序的执行包括完成如权利要求 1-9 任意一项所述的方法。

11. 一种计算机可读存储介质，其特征在于，用于存储供计算机执行的程序，所述程序的执行包括完成如权利要求 1-9任意一项所述的方法。