WO2013053207A1

WO2013053207A1 - 测定待检测样本中疾病相关核酸分子的核苷酸序列的方法

Info

Publication number: WO2013053207A1
Application number: PCT/CN2012/001381
Authority: WO
Inventors: 魏晓明; 陈洋; 杨光辉; 朱倩; 谢姝琦; 汪建; 王俊; 杨焕明
Original assignee: 深圳华大基因科技有限公司; 深圳华大基因研究院
Priority date: 2011-10-14
Filing date: 2012-10-12
Publication date: 2013-04-18
Also published as: CN103874767A; CN103890189B; HK1193845A1; WO2013053180A1; CN102329876A; WO2013053183A1; US20180371539A1; CN102329876B; CN105392893A; CN103874767B; US20140249038A1; WO2013053182A1; CN103890189A; TW201315813A; HK1215812A1

Abstract

本发明公开了一种测定待检测样本中疾病相关分子的核苷酸序列的方法，包括：对待测样本中片段化的、源自基因组的DNA双链核酸片段末端添加接头，并进行富集；用核酸芯片对含接头的DNA双链核酸片段进行捕获，将捕获的片段在高通量测序平台进行测序。本发明还提供了可用于该方法的、固定有数种至数万种疾病特异性探针的核酸芯片，以及包含所述芯片的试剂盒。

Description

测定待检测样本中疾病相关核酸分子的核苷酸序列的方法技术领域

本发明涉及生物技术领域，具体地，涉及一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法。所述方法包括：设计具有多种疾病特异性探针芯片、对带有接头的特异性目的 DNA片段进行捕获和富集、高通量测序、分析基因突变位信息等步骤。

背景技术多种模式生物基因组测序工作的完成，极大地提高了人们在基因水平对疾病致病机理和机体生理状态的认识，也极大地促进了第二代高通量测序技术的发展。目前完成基因组组测序的生物有：人、小鼠、大鼠、果蝇、水稻、大豆、拟南芥等。然后由于受到测序成本的限制，对个体进行基因组测序和疾病相关基因的鉴定和分析远不能满足日益发展的需要。

单基因病是由一对等位基因控制的疾病或病理性状，又称孟德尔遗传病或单基因遗传病。目前已经发现的单基因病有 6000多种，其中表型已知而分子基础未知的疾病有 1700多种，而由于遗传异质性，表型和致病分子基础均已知的单基因病 (约 2900多种)中，还有很多的亚型未被发现。基因是位于染色体上的遗传单位，染色体有常染色体和性染色体之分，基因也有显性基因与隐性基因之别，因此位于不同染色体上的致病基因具有不同的遗传方式。通常，单基因病可分为常染色体显性遗传病、常染色体隐性遗传病、 X伴性显性遗传病、 X 伴性隐性遗传病、 Y伴性遗传病等几类。

单基因病的检测方法目前主要基于第一代测序技术，主要为以下几种：系谱分析、染色体核型分析、酶促反应及活性测定、 RALF、 SSCP (单链构象多态性)、 MOLDI-TOF, FISH (荧光原位杂交)、 a-CGH(a-比较基因组杂交)、 qPCR、 MLPA (多重连接探针扩增)、 Sanger法等。上述方法中存在诸多缺点，比如：系谱分析、染色体核型分析、酶促反应活性测定方法和 FISH 法分析方法都是染色体水平的检测，准确性较低； RALF、 SSCP和 MOLDI-TOF分析方法是间接检测方法，不能直接反映位点的变化； a-CGH、 qPCR、 MLPA只能针对特定位点，不能对新发现的突变位点进行检测，并且以上方法的测序通量都很小，且要先经过 PCR扩增过程。因此，虽然以 Sanger法为基础的第一代测序技术是目前单基因病检测的金标准，但是由于同时测序的样本数很少，检测的单基因病种类有限，仅限于一种或几种，测序成本高昂，不能对多种已知分子基础的单基因病进行同时检测，大大限制了个体基因病的鉴定。目前本领域尚缺乏有效的测定待检测样本中疾病相关核酸分子的核苷酸序列的方法。因此，迫切需要基于已知的多种疾病的基因信息，开发检测个体化样本中疾病相关核酸分子的核苷酸序列的新方法。

发明内容

本发明的目的之一是提供一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法及其应用。

本发明的另一目的是提供一种测定待检测样本中疾病相关核酸分子的核苷酸序列的试剂盒。

在本发明的第一方面，提供了一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法，包括步骤：

a. 提供一待检测样本，所述样品含有经打断的、源自基因组的 DNA双链核酸片段，并且所述 DNA双链核酸片段具有平末端；

b. 对于上一步骤的所述 DNA双链核酸片段，在末端添加接头连接序列；并且通过所述接头连接序列，在所述 DNA双链核酸片段的两端添加接头，其中所述接头具有引物结合区以及连接互补区，所述的连接互补区与所述的接头连接序列互补；

c 对步骤 b获得的带有接头的 DNA双链核酸片段，用第一引物和第二引物进行 PCR扩增，从而获得第一 PCR扩增产物的混合物，其中所述的第一引物和第二引物具有对应于所述接头的引物结合区的接头结合区，以及位于接头结合区外侧的测序探针结合区；

d. 对所述的第一 PCR扩增产物的混合物进行单链化，并用封闭分子封闭位于所述 PCR 扩增产物两端的、对应于第一引物和第二引物的区域，从而获得两端被封闭的单链 PCR扩增产物的混合物；

e. 用核酸芯片，从所述的经封闭的单链 PCR扩增产物的混合物中，捕获疾病相关的核酸分子；

£ 对上一步骤中经捕获的核酸分子，用第三引物和第四引物进行 PCR扩增，从而获得第二 PCR扩增产物的混合物，其中第三弓 I物和第四引物分别特异性对应于或结合于所述的第一引物和第二引物；

g. 对上一步骤获得的第二 PCR扩增产物的混合物进行测序，从而获得所述待检测样本中疾病相关核酸分子的核苷酸序列。

在另一优选例中，步骤 g中将所述的第二 PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交，并进行固相桥式 PCR扩增，形成测序簇；然后对所述测序簇用 "边合成- 边测序"法进行测序，从而得到所述待检测样本中疾病相关核酸分子的核苷酸序列。

在另一优选例中，步骤 a 的所述经打断的、源自基因组的 DNA双链核酸片段长度为 100-1000 bp或者平均长度为 800-1000 bp。

在另一优选例中，所述片段长度为 150-500 bp，较佳地为 200-300 bp。

在另一优选例中，所述 DNA双链核酸片段具有的平末端是通过末端修复的方法制备。在另一优选例中，步骤 b中的接头连接序列为 poly(N)_n，其中各个 N分别独立地选自 A、 T、 G或 C， n为选自 1-20的任一正整数。

在另一优选例中，所述的接头连接序列为 poly(A)_n，其中 n为 1-20的正整数，较佳地 _n=l-2。在另一优选例中，步骤 b中所述的接头连接互补区序列为 poly(N ，其中各个 N'分别独立地选自 A、 T、 G或 C， m为 1-20的正整数，并且 poly(N) P poly(N')_m为互补序列。

在另一优选例中， m为选自 1-3的任一正整数。

在另一优选例中，所述的接头连接互补区的长度与所述接头连接序列的长度相同，即 polyi^ P poly(N')_m为完全互补序列。

在另一优选例中，所述的接头连接互补区为 poly(T)_m，其中 m为 1-20的正整数，较佳地 m=l-2 o

在另一优选例中，步骤 c中所述的第一引物和第二引物为长度 30-80 nt的寡核苷酸。在另一优选例中，第一引物和第二引物长度为 55-65 nt。

在另一优选例中，所述的第一引物和第二引物是不同的，和 /或所述的第三引物和第四引物是不同的。

在另一优选例中，步骤 d所述的封闭分子封闭第一 PCR扩增产物中对应于第一弓 I物和第二引物的 70%-100%区域。

在另一优选例中，步骤 d中所述的封闭分子封闭第一 PCR扩增产物中对应于第一弓 I物和第二引物的 100%区域。

在另一优选例中，步骤 e中所述的核酸芯片上固定有 5-200,000种对应于所述疾病的特异性探针。

在另一优选例中，步骤 e中所述核酸芯片上特异性探针的种类为 50-150,000种，更佳地 500-100,000种，最佳地 5000-80,000种。

在另一优选例中，所述特异性探针的序列对应于疾病致病基因的以下区域：外显子和 / 或外显子前后两端 200 nt。

在另一优选例中，所述特异性探针的长度为 20-120 nt，较佳地， 50-100 nt,更佳地， 60-80 nt。

在另一优选例中，所述特异性探针为全人工合成或体外克隆合成。

在另一优选例中，步骤 f所述的第三引物和第四引物分别特异性结合于所述的第一引物和第二弓 I物的外侧，并且长度小于第一弓 I物和第二弓 I物。在另一优选例中，所述的第三引物和第四引物长度为 15-40 nt，较佳地为 20-25 nt。在另一优选例中，所述待检测样本来源于人、动物、植物，或微生物。

在另一优选例中，所述待检测样本来源于人或非人哺乳动物，较佳地，来源于人。在另一优选例中，所述待检测样本含有人基因组 DNA。

在另一优选例中，所述疾病为孟德尔单基因病。

在另一优选例中，所述疾病选自下组：家族性腺瘤样息肉病、软骨发育不良、家族性高胆固醇血症、多指畸形、马凡综合症、遗传性舞蹈病、秃发、苯丙酮尿症、胱氨酸尿症、遗传性高度近视、抗 D佝偻病、遗传性肾炎、血友病、地中海贫血、节性脑硬化综合症、杜氏肌营养不良、进行性肌营养不良、多囊肾综合症、性别决定基因突变所致的性反转，或其组合。在本发明的第二方面，提供了一种可用于本发明第一方面所述方法的、用于测定待检测样本中疾病相关核酸分子的核苷酸序列的试剂盒，所述试剂盒包括：

(1)第一容器以及位于容器内的核酸芯片；

(2)第二容器以及位于容器内的接头；

(3)第三容器以及位于容器内的选自下组的引物：（a)第一引物和 /或第二引物；或第三弓 I物和 /或第四引物；

(4)第四容器以及位于容器内的封闭分子；

(5)检测说明书。

在另一优选例中，所述试剂盒还包括任选自下组的试剂:用于进行 PCR扩增所需的试剂、用于进行封闭反应所需的试剂、用于进行杂交反应所需的试剂、或其组合。

在另一优选例中，所述疾病为孟德尔单基因病。

在另一优选例中，所述疾病选自下组：家族性腺瘤样息肉病、软骨发育不良、家族性高胆固醇血症、多指畸形、马凡综合症、遗传性舞蹈病、秃发、苯丙酮尿症、胱氨酸尿症、遗传性高度近视、抗 D佝偻病、遗传性肾炎、血友病、地中海贫血、节性脑硬化综合症、杜氏肌营养不良、进行性肌营养不良、多囊肾综合症、性别决定基因突变所致的性反转，或其组合。在另一优选例中，所述的核酸芯片上固定有选自下组的一个或多个探针：

探针 1 : 序列如 SEQ ID NO: 7所示，捕获位置 112073411，检测家族性腺瘤样息肉；探针 2 序列如 SEQ ID NO 8所示，捕获位置 51479999，检测多囊肾综合症；探针 3 序列如 SEQ ID NO 9所示，捕获位置 135766620，检测节性脑硬化综合症；探针 4 序列如 SEQ ID NO 10所示，捕获位置 103231969，检测苯丙酮尿症；探针 5 序列如 SEQ ID NO 11所示，捕获位置 48700368，检测马凡综合症；探针 6: 序列如 SEQ ID NO: 12所示，捕获位置 31137199，检测杜氏肌营养不良。应理解，在本发明范围内中，本发明的上述各技术特征和在下文 (如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

下列附图用于说明本发明的具体实施方案，而不是用于限定由权利要求书所界定的本发明范围。

图 1显示了在本发明一个实例中，可以同时检测多种单基因病的流程图。

具体实施方式

本发明人经过广泛而深入的研究，首次建立了一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法。具体而言，本发明人根据现有疾病基因的信息，设计了固定有多种疾病特异性探针的核酸芯片；对待测样本中片段化的、源自基因组的 DNA双链核酸分子的末端添加接头，并进行富集；用核酸芯片对含接头的 DNA片段进行捕获，将捕获的片段在高通量测序平台进行测序，基于已知的基因位点信息，对测序结果进行分析，得到样本中疾病相关核酸分子的核苷酸序列。术语

本文所用，术语"含有"包括"具有 (comprise)"、 "基本上由...构成"和"由...构成"的含义。单基因病

如本文所用， "单基因病"一词是指由一对等位基因控制的疾病或病理性状，又称孟德尔遗传病，可以分为常染色体显性遗传病、常染色体隐性遗传病、 X伴性遗传病、 Y伴性遗传病。

常染色体显性遗传病致病基因定位于常染色体上，常见的亚型：完全显性：正常纯合子和杂合子患者在表型上无差异；不完全显性：杂合子表现介于显性纯合子患者和正常人之间，常表现为轻病型；不规则显型：由于某种原因可使杂合子的显性基因不表现出相应的症状；共显性：等位基因之间无显性与隐性之分，在杂合体时都能表现两种基因作用；延迟显性：杂合子在生命早期显性基因不表达，待到某一年龄后才表达；从性显性：杂合子的表达受性别的影响，在某一性别表达出相应的表现型，在另一性别不表达相应表现型。常染色体隐性遗传病的常染色体上的致病基因在杂合状态时不表现相应的疾病，而只在纯合子时才致病。定位于 X染色体上的致病基因随 X染色体而遗传疾病，包括 X连锁显性遗传和 X连锁隐性遗传。定位于 Y染色体上的致病基因随 Y染色体而遗传疾病。

适用于本发明检测方法的单基因病包括但不限于：家族性腺瘤样息肉病、软骨发育不良、家族性高胆固醇血症、多指畸形、马凡综合症、遗传性舞蹈病、秃发、苯丙酮尿症、胱氨酸尿症、遗传性高度近视、抗 D佝偻病、遗传性肾炎、血友病、地中海贫血、节性脑硬化综合症、杜氏肌营养不良、进行性肌营养不良、多囊肾综合症、性别决定基因突变所致的性反转，或其组合。外显子

如本文所用， "外显子"一词是指在成熟 mRNA中被保留下的部分，即成熟 mRNA对应于基因中的部分。内含子是在 mRNA加工过程中被剪切掉的部分，在成熟 mRNA中不存在。外显子和内含子都是对于基因而言的，编码的部分为外显子，不编码的为内含子，内含子没有遗传效应。探针

如本文所用， "探针 "一词是指能够检测互补核酸序列的简单 DNA或 RNA分子。探针必须是纯净的，而且不受其他不同序列核酸的影响。典型的探针是克隆的 DNA序列或通过 PCR 扩增获得的 DNA，人工合成的寡核苷酸或从体外转录克隆 DNA序列后获得的 RNA，也可以作为探针。探针长度可以从 20-120 nt，较佳地 50-100 nt，更佳地 60-80 nt。探针设计和合成方法为本领域技术人员所熟知，根据单基因病的已知的致病基因的外显子及其前后两端序列 (较佳地前后 200 bp左右)，可以设计探针。在一个优选例中，探针长度 50-80 nt。可以使用人工化学合成法合成的探针或使用市售探针。典型的探针序列见表 4。心片

如本文所用， "芯片 "一词是指可以采用微加工技术在芯片的基底材料上加工出多种微细结构，施加必要的生物化学物质并进行表面处理，将多个探针分子与表面固定化，制得含有大量探针的基底材料。

本领域技术人员可以使用通用的方法获得芯片。 DNA芯片制备方法通常有 4种。第 1 种是光引导原位合成法，在微加工技术中用光刻工艺与光化学合成法相结合。第 2种方法是化学喷射法，将合成好的寡核苷酸探针定点喷射到芯片上并加以固定化来制作 DNA芯片。第 3种方法是接触式点涂法，通过高速精密机械手的精确移动让移液头与玻璃芯片接触而将 DNA探针涂敷在芯片上。第 4种方法是使用 4支分别装有 A， T， G， C核苷的压电喷头在芯片上并行合成出 DNA探针。本发明提供了一种表面固定有对应于已知基因特定序列探针的核酸芯片，所述芯片表面的探针种类可达数万种，能一次对同一个待测样品检测多种疾病。

DNA文库及其制备

如本文所用， "DNA文库制备"一词是指对基因组的目的片段进行打断，获得一组具有一定大小的 DNA片段混合物。

文库的制备方法为本领域技术人员所熟知，包括 (但不局限于)步骤：

1. 提供一个待检测样本，所述样品含有经打断的、源自基因组的 DNA双链核酸片段，并且所述 DNA双链核酸片段具有平末端；

2. 对于上一步骤的所述 DNA双链核酸片段，在末端添加接头连接序列；并且通过所述接头连接序列，在所述 DNA双链核酸片段的两端添加接头，其中所述接头具有引物结合区以及连接互补区，所述的连接互补区与所述的接头连接序列互补；两侧 3'端和 5'端的接头的弓 I物结合区序列不同。

3. 对上一步骤获得的带有接头的 DNA双链核酸片段，用第一弓 I物和第二弓 I物进行扩增，从而获得 PCR扩增产物的混合物，其中所述弓 I物具有对应于所述接头的弓 I物结合区的接头结合区，并且位于接头结合区外侧的测序探针结合区。

在一个优选例中，还可以对打断产物、末端修复产物、接头产物和富集产物进行纯化。纯化条件及参数为本领域技术人员所熟知，对反应的条件进行一定的变化或优化也在本领域技术人员能力范围之内。外显子捕获

如本文所用，术语"外显子捕获"， "芯片杂交"可互换使用，指的是用带有疾病特异性探针的芯片对文库中含有目标外显子区域的 DNA片段进行特异性选择和结合的过程。

DNA分子正常情况下是双链，因此捕获之前， DNA分子必须变为单链，一般通过加热变性而达到解链目的，解链的 DNA分子被迅速冷却，即保持单链状态。文库变性后在杂交平台与芯片进行捕获杂交。含有目标外显子区域的 DNA片段与固定在芯片上的探针之间在严格的条件下进行分子杂交。较佳地，芯片上探针分子的浓度要远远高于靶分子浓度。待杂交完毕后，通过变性等方法收集捕获的序列并纯化，得到来自捕获后的序列混合物。

本领域技术人员可以通过通用的方法进行外显子捕获和目的片段的洗脱和纯化，也可以应用市售 (如：德国 Qiagen公司的 MinElute PCR Purification kit)试剂盒进行上述过程。

在一个优选例中，对待检测的 DNA文库的 PCR扩增产物的混合物进行单链化，并用封闭分子封闭所述 PCR扩增产物中对应于第一弓 I物和第二弓 I物的区域，从而获得两端被封闭的单链 PCR扩增产物的混合物；用核酸芯片从所述的经封闭的单链 PCR扩增产物的混合物中，捕获疾病相关的核酸分子；对经捕获的核酸分子，用第三引物和第四引物进行扩增，从而获得第二 PCR扩增产物的混合物，其中第三引物和第四引物分别特异性对应于或结合于所述的第一引物和第二引物；对上一步骤获得的第二 PCR扩增产物的混合物进行测序，从而获得所述检测样本中疾病相关核酸分子的核苷酸序列。引物

如本文所用，术语"引物"指的是能与模板互补配对，在 DNA聚合酶的作用合成与模板互补的 DNA链的寡聚核苷酸的总称。引物可以是天然的 RNA、 DNA, 也可以是任何形式的天然核苷酸，引物甚至可以是非天然的核苷酸如 LNA或 ZNA等。

弓 I物"大致上 "(或 "基本上")与模板一条链上的一个具体的序列互补。弓 I物必须与模板的一条链充分互补才能开始延伸，但引物的序列不必与模板的序列完全互补。比如，在一个 3'端与模板互补的引物的 5'端加上一段与模板不互补的序列，这样的引物仍大致上与模板互补。只要有足够长的弓 I物能与模板充分的结合，非完全互补的弓 I物也可以与模板形成弓 I物-模板复合物，从而进行扩增。

在本发明中，几类重要示例性引物的序列和名称见表 1。表 1

SEQ ID

引物名称序列 (5'-3')

NO.

AATGATACGGCGACCACCGAGATCTACACTCTTTCC

1 第一引物

CTACACGACGCTCTTCCGATCT

CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCAT

2 第二引物

TCCTGCTGAACCGCTCTTCCGATCT

AATGATACGGCGACCACCGAGATCTACACTCTTTCC

3 封闭分子 1

CTACACGACGCTCTTCCGATCT

CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCAT

4 封闭分子 2

TCCTGCTGAACCGCTCTTCCGATCT

5 第三引物 AATGATACGGCGACCACCGAGA

6 第四引物 CAAGCAGAAGACGGCATACGAG 第一弓 I物 (SEQ ID NO: 1)和第二弓 I物 (SEQ ID NO: 2)对带有接头的 DNA双链核酸片段进行扩增，获得第一 PCR扩增产物，第一引物和第二引物具有对应于所述接头的引物结合区的接头结合区，以及位于接头结合区外侧的测序探针结合区。封闭分子 1(SEQ ID NO: 3)和封闭分子 2(SEQ ID NO_: 4)的作用是在进行序列捕获时，与接头互补，避免捕获非特异性序列。第三弓 I物 (SEQ ID NO: 5)和第四引物 (SEQ ID NO: 6)的作用是大量扩增捕获的特异性 DNA片段，以便进行下一步测序。富集度检测

本发明还提供了一种检测扩增产物富集度 (Enrichment) 的方法，包括：连接介导的聚合酶链式反应 (Ligation-Mediated PCR^LM-PCR)禾 P qPCR(Real-time Quantitative PCR Detecting System)两个步骤。本领域技术人员可以通过荧光定量核酸扩增检测系统，对富集度进行检测。 qPCR是在 PCR反应体系中，加入过量荧光染料 (SYBR等)，荧光染料特异性地掺入 DNA双链后，发射荧光信号，而不掺入链中的 SYBR染料分子不会发射任何荧光信号，在 PCR指数扩增期间通过连续监测荧光信号强弱的变化来即时测定特异性产物的量，并据此推断目的基因的初始量。

如本文所用， LM-PCR是指连上特异性接头，专一性地扩增 DNA片段，从而达到灵敏检测核酸片段的目的。此外， LM-PCR检测是半定量的，因此可进行不同样品的比较。

在本发明的一个优选例中，富集度检测包括步骤：

1 )将稀释好的 4种 NSC Assay ηώ 购于美国 Roche NimbleGen公司)，根据试剂盒内的说明书进行)取出在冰上溶解；

2)根据 Nanodrop (Thermo Fisher Scientific Inc. 型号： Nanodrop 8000)检测浓度，将未捕获的以及捕获的 LM-PCR产物稀释至 1 ng/μΐ, 最后体积要求 >12 μΐ;

3)按照每个样品 4种 NSC Assay, 每个样品包括 2种 DNA模版，每个样品需要 4x2=8 个反应，每个平板需要 1个阴性对照共 4个反应；

4)在 1.5 ml的离心管中配制 QPCR反应混合液；

5 )将配置好的 12 μΐ QPCR反应混合液转移至 96孔 QPCR反应板中，向其中加入 3μ1 稀释的 lng/μΐ LM-PCR产物，把所有的试剂和样品加完后使用封口膜将平板封口， 4000 rpm 离心 2 min;

6 )将 96？ L板置于 QPCR仪上进行检测；

7) 实验完成后分析试验结果，整理 QPCR试验数据，根据公式计算富集度，判断文库是否合格，合格后能否进行下一步试验。平均富集度 >60时，文库合格，可以进行下一步测序。富集度计算公式见表 2。表 2

QPCR引物产物长度 QPCR效率 △Ct 水浴温度

NSC1 80 nt 1.84 Ct前 -Ct后 (1.84)ACt

NSC2 74 nt 1.80 Ct前 -Ct后 (1.80)ACt

NSC3 75 nt 1.78 Ct前 -Ct后 (1.78)ACt

NSC4 71 nt 1.93 Ct前 -Ct后 (1.93)ACt 平均富集率 =(NSCl+NSC2+NSC3+NSC4)/4 高通量测序

基因组的"再测序"使得人类能够尽早地发现与疾病相关基因的异常变化，有助于对个体疾病的诊断和治疗进行深入的研究。本领域技术人员通常可以采用三种第二代测序平台进行高通量测序： 454 FLX(Roche 公司)、 Solexa Genome Analyzer(Illumina 公司)禾口 Applied Biosystems公司的 SOLID等。这些平台共同的特点是极高的测序通量，相对于传统测序的 96道毛细管测序，高通量测序一次实验可以读取 40万到 400万条序列，根据平台的不同，读取长度从 25 nt到 450 nt不等，因此不同的测序平台在一次实验中，可以读取 1G到 14G不等的碱基数。

其中， Solexa高通量测序包括 DNA簇形成和上机测序两个步骤： PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交，并进行固相桥式 PCR扩增，形成测序簇；对所述测序簇用"边合成 -边测序法"进行测序，从而得到待检测样本中疾病相关核酸分子的核苷酸序列。

DNA簇的形成是使用表面连有一层单链引物 (primer)的测序芯片 (flow cell),单链状态的 DNA片段通过接头序列与测序芯片上的引物通过碱基互补配对的原理被固定在测序芯片的表面，通过扩增反应，固定的单链 DNA变为双链 DNA，双链再次变性成为单链，其一端锚定在测序芯片上，另一端随机和附近的另一个引物互补从而被锚定，形成"桥"；在测序芯片上同时有上千万个 DNA单分子发生以上的反应；形成的单链桥，以周围的引物为扩增引物，在测序芯片的表面再次扩增，形成双链，双链经变性成单链，再次成为桥，称为下一轮扩增的模板继续扩增；反复进行了多轮例如 30轮扩增后，每个单分子得到例如 1000倍扩增，称为单克隆的 DNA簇。

DNA簇在 Solexa测序仪上进行边合成边测序，测序反应中，四种碱基分别标记不同的荧光，每个碱基末端被保护碱基封闭，单次反应只能加入一个碱基，经过扫描，读取该次反应的颜色后，该保护基团被除去，下一个反应可以继续进行，如此反复，即得到碱基的精确序列。在 Solexa多重测序 (Multiplexed Sequencing)过程中会使用 Index(标签)来区分样品，并在常规测序完成后，针对 Index部分额外进行多个循环例如 7个循环的测序，通过 Index的识别，可以在 1条测序通道中区分例如 12种不同的样品。本发明提供了一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法。参见图 1，本发明的一个优选例包括 (但不局限于;)以下步骤：

将所述待检测样本中的基因组打断成为主带在 200-250 bp的双链 DNA片段，对这些双链 DNA片段进行末端修复成为平末端的双链 DNA片段，在每一条链的 3'端加入一个 "A"，并与带有一个 "T"的接头相连，成为两端都带有接头的双链的 DNA片段混合物；将所述混合物与固定有疾病特异性探针的芯片进行杂交，捕获疾病特异性的 DNA片段，将捕获的 DNA片段富集后进行固相桥式 PCR扩增，形成测序簇；对所述测序簇用"边合成边测序" 的方法，上机测序，最后进行数据分析。

测序结果分析：

( 1 )根据测序仪的使用说明，将测序结果原始 read质控，其中原始 read质控包括的项目见表 3; 表 3

质控指标质控标准

Read碱基 Q20统计 90%以上为合格，低于 85%不合格插入片段长度波动幅度上下均小于插入片段长度的一半为合格

Read上 AT及 CG的统计量吻合度通过质控图判断

Read上的碱基错误率分布尾部最高不超过 5%为合格

Insertsize分布均匀度通过质控图判断

(2)进行短序列比对，输出，原始比对结果一 SAM文件（BWA软件（Burrows Wheeler Aligner; http：〃 sourceforge.net/projects/bio-bwa/) 比对后产生的结果文件）；

(3 )使用 samtools工具 (http：〃 sourceforge.net/projects/samtools/)将比对结果处理，包括步骤：格式转换、压缩；比对结果按染色体号及坐标进行排序；同一个文库的泳道结果进行合并；分别对每一个文库去重复（duplication); 将所有文库合并到一起，最后，使用 soapsnp 工具 (http：〃 soap.genomics.org.cn/)进亍 SNP检则。试剂盒本发明还提供了一种用于测定待检测样本中疾病相关核酸分子的核苷酸序列的试剂盒，所述试剂盒包括：

(1)第一容器以及位于容器内的核酸芯片；

(2)第二容器以及位于容器内的接头；

(4)第四容器以及位于容器内的封闭分子；

(5)可选的检测说明书。

在本发明的一个优选例中，试剂盒还包括任选自下组的试剂：

用于进行 PCR扩增所需的试剂、用于进行封闭反应所需的试剂、用于进行杂交反应所需的试剂、或其组合。本发明的主要优点包括：

1.通过固定有核酸探针的芯片对目的 DNA片段进行捕获，覆盖全面；

2.使用特异性与 DNA片段两端接头结合的一对引物对所有捕获的片段进行扩增，获得具有同样的接头序列而中间片段不同的扩增混合物；

3.将扩增产物先合成测序簇，再进行边合成边测序，因此效率高，可以精确读取重复序列，可以达到很高测序深度；

4.可以同时检测多个待检测样品，且没有荧光背景的干扰；

5.试验费用低，只有传统方法的 1/100;

6. 不受物种的限制，人、动物、微生物、植物等都可以进行个体式检测；

7.灵敏度高、精确度高、重复性好。下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不是用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如 Sambrook等人，分子克隆：实验室手册 (New York: Cold Spring Harbor Laboratory Press, 1989)中所述的条件，或按照制造厂商所建议的条件。实施例 1

建立芯片杂交平台

探针设计自单基因病已知致病基因的外显子序列及外显子前后 100 bp, 共 7万多个探针，其 SEQ ID NO.、染色体坐标、捕获位置、长度和所涉及的疾病种类见表 4。表 4

SEQ ID

染色体坐标捕获位置长度 (bp) 疾病种类

NO.

7 CHR05FS112073411 112073411 77 家族性腺瘤样息肉

8 CHR06FS051479999 51479999 69 多囊肾综合症

9 CHR09FS 135766620 135766620 70 节性脑硬化综合症

10 CHR12FS103231969 103231969 76 苯丙酮尿症

11 CHR15FS048700368 48700368 70 马凡综合症

12 CHRXFS031137199 31137199 72 杜氏肌营养不良实施例 2

制备 DNA文库

1. 基因组 DNA获得

取人的外周血，提取基因组 DNA，获得 3 μ_§ ϋΝΑ。

2. DNA片段化

将抽提获得的人基因组 DNA样品，在 Covaris S2仪器 (购自美国 Covaris公司)上进行片段化，最终打断成为主带在 200 bp的 DNA双链片段的混合物，并将片段进行纯化，纯化过程采用 Ampure Beads方法，按照 Agencourt AMPure protocol进行 (；美国 Beckman公司）。

3. DNA片段接头化

将 DNA片段进行末端修复，成为带有平末端的片段混合物，并在每一条单链的 3'端添加一个 "A"，以便于与带有 "T"的接头相连，连接后进行纯化，纯化方法采用 Ampure Beads, 按照 Agencourt AMPure protocol (；美国 Beckman公司)进行。纯化后，去除多余试剂如缓冲物、酶、 ΑΓΡ等，最终只剩下连有接头的 DNA样品。

4. 扩增 DNA片段

由于连有接头的 DNA样品浓度很低，需要进行扩增富集， PCR反应在 Bio-Rad公司的 PTC-200PCR仪上运行。 PCR扩增反应试剂的配置见表 5。

PCR反应体系如下: 94 V , 2 min; 94°C变性 15 s， 62°C退火 30 s， 72°C延伸 30 s，共扩增 4个循环；最终 72°C延伸 5 min。表

ddH₂0 (来自 PROMEGA的 Nuclease-Free water) 34 μL 10 pfe Amplification Buffer (*) 10

dNTP (lOmM) (*) 4

MgS0₄ (50mM) (*) 4

Platimum Pfe DNA polymerase (*) 2 第一引物 (SEQIDNO:l) (ΙΟμΜ) 8 第二引物 (SEQIDNO:2) (ΙΟμΜ) 8 连接接头后的 DNA样品 30 μL 总体积 100 μL·

( * )来自 INVITROGEN公司的 Platinum® P& DNA Polymerase试剂盒

经扩增的 DNA都带有接头，使用 Ampure beads法，按照 Agencourt AMPure protocol的程序 (；美国 Beckman公司)纯化 PCR产物。

5. 将纯化的产物溶解于 25μ1纯水中，使用 NanoDroplOOO检测 PCR产物浓度，即构成 DNA文库， DNA文库可在 4°C保存数天，也可在 -20°C保存数周，也可直接用于后续程序。实施例 3

序列捕获

1. 文库变性

将准备好的 DNA样品置于 SpeedVac (来自 Eppendorf; 型号： Concentrator plus 5305) 中 60°C蒸干，然后加入 11.2 的超纯水，充分溶解。全速离心样品 30秒，分别加入以下两种试剂： 18.5 μL·的 2xSC Hybridiation Buffer (购于美国 Roche NimbleGen公司)和 7.3 μL·的 1 SC Hybridiation Component A (购于美国 Roche NimbleGen公司）。震荡混匀后置于离心机上全速离心 30秒，然后于 95°C使 DNA充分变性，变性过程 10分钟，得到单链的带有接头的 DNA文库。

2. 杂¾ /序列捕获

将实施例 1中带有相应探针的芯片固定在杂交仪 (美国 Roche NimbleGen公司)上，将上一步骤变性后的样品加入芯片中，封闭芯片，于 42°C杂交 64小时。在杂交体系中，基因芯片上探针分子的浓度要远远高于靶分子浓度。

杂交反应体系如表 6所示： ¾6

组分重量 /体积 Cot-1 DNA 450 μg

DNA文库 5 μ_β 封闭分子 1(SEQ ID NO:3) ( 100 μΜ) 10 μL· 封闭分子 2(SEQ ID NO:4) ( ΙΟΟ μΜ) \0 μL· 其中， Cot-1 DNA通过 Human Cot-1 DNA®-Fluorometric QC (Invitrogen)按照提供商说明书获取，它可以很好地封闭来自基因组重复序列的非特异性杂交，在最大程度上提高杂交的效率；封闭分子 1(SEQ ID NO:3)和封闭分子 2(SEQ ID NO:4)可以将实施例 2中的第一弓 I物 (SEQ ID ΝΟ:1)和第二引物 (SEQ ID NO:2)封闭，避免非特异性捕获。

3. 芯片洗漆与样品纯化

芯片洗涤与样品纯化根据美国 Roche NimbleGen公司的试剂盒（ Sequemce Capture Array Hybridization and wash kit Catlog Number: 05853257001 ) 说明书进行，具体步骤见表 7 (缓冲液来自 Roche NimbleGen公司的试剂盒）。

表 7 次序洗涤 /洗脱缓冲液颠倒洗脱次数水浴时间水浴温度

1 l xWash Buffer II 10次 1

2 1 x Stringent Wash Buffer 10次 5 分钟 47.5 °C

3 1 x Stringent Wash Buffer 10次 5分钟 47.5 °C

3 l Wash Buffer I 2分钟 (1稱、 1

5 l Wash Buffer II 1分钟 (1稱、 1

6 l x Wash Buffer III 10 1 i¾ ¾m

7 NaOH (900 μί) 1 10分钟将 NaOH洗脱液回收后用 40 μL 的 20%冰醋酸中和，中和液用德国 Qiagen公司的 MinElute PCR Purification Kit进行纯化，得到捕获后的样品，最后溶解于 165 纯水中。实施例 4

PCR扩增捕获的序列

由于捕获的含有特定序列的 DNA片段浓度很低，需要进行 PCR扩增，每管的反应体系为 50 μί，反应组分见表 8。表 8

捕获的 DNA 28.8 μL

2xPhusion Mix 25 μL· 第三引物 (SEQ ID NO: 5) ( ΙΟ μΜ) 0.6μί 第四引物 (SEQ ID NO:6) ( ΙΟ μΜ) 0.6μί 总体积 50 μL·

Phusion Mix: 来自 FINNZYMES 的 F-531L (含 Phusion DNApolymerase、 2x Phusion High-Fidelity PCR Master x with HF Buffer, 500 reactions in 50 μΐ volume )。

反应条件：

98°C预变性 30s， 98°C变性 10s， 60°C退火 30s， 72°C延伸 30s，循环 15次；最终 72°C延伸 5min，可 4°C静置过夜。

PCR产物使用 Ampure Beads流程 (BECKMAN COULTER;型号： Agencourt AMPurebeads XP)进行纯化。

完成后溶于 32μ1洗脱缓冲液 (Elution Buffer，来自 QIAGEN ： QIAquick PCR Purification Kit (Cat. no.28106)或 MinElute PCR Purification Kit (Cat. no.28006)) 中，使用 NanoDrop

(Thermo Fisher Scientific Inc.；型号： Nanodrop 8000)及 Bioanalyzer 2100 (Agilent; 型号： 2100)检测浓度。实施例 5

检测捕获序列的富集度

1. 将稀释好的 4种 NSC Assay mix (购于美国 Roche NimbleGen公司)，根据试剂盒内的说明书进行)取出在冰上溶解。将未捕获的以及捕获的 LM-PCR产物稀释至 20_η§/μ1，最后体积〉 5μ1。

2. 在 1.5 ml的离心管中配制 qPCR反应混合液，并分配转移至 96孔 qPCR反应板中，向其中加入 3μ1稀释的 lng^l LM-PCR产物，把所有的试剂和样品加完后使用封口膜将平板封口， 4000rpm离心 2min。

3. 将 96 ?L板置于 qPCR仪上，按说明书操作手册进行操作。

4. 实验完成，整理分析 qPCR试验数据，计算富集度 (Enrichment), 结果表明，人基因组

DNA样品 (n= 10)经实施例 1-5所述方法处理后，其富集度均 > 60，可用于后续测序。实施例 6

Solexa高通量测序及数据分析

PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交，并进行固相桥式 PCR 扩增，形成测序簇；对所述测序簇用"边合成 -边测序法"进行测序，从而得到所述待检测样本中疾病相关核酸分子的核苷酸序列，包括步骤：

Solexa测序专用的测序芯片（flow cell)上连接有单链引物，单链状态的 DNA片段与测序芯片通过碱基互补被一端 "锚定 "在测序芯片上;通过扩增反应的单链 DNA成为双链 DNA; 双链 DNA再次变性后成为单链 DNA，其一端 "锚定 "在测序芯片上，另一端（5'或 3' ) 随机和附近的另外一个弓 I物互补，被"锚定"住，形成"桥" (bridge);在测序芯片上同事有上千万 DNA 单分子发生以上的反应；形成的单链桥，以周围的引物为扩增引物，在测序芯片表面再次进行扩增，形成双链；双链经变性成单链，再次形成桥，成为下一轮扩增的模板继续扩增反应; 在反复进行 30轮扩增，每个单分子得到了 1000倍的扩增，成为单克隆" DNA簇群"； "DNA 簇群"在 Solexa测序仪上进行序列分析；测序反应： "可逆性末端终止反应"提高碱基合成来进行测序。四种碱基分别标记四种不同荧光，每个碱基末端被保护基团封闭，单次反应只能加入一个碱基，经过扫描，读取该次反应颜色后，该保护基团被除去，下一个反应可继续进行，如此反复，得出碱基的精确序列；自动读取碱基，数据被转移到自动分析通道进行二次分析。实施例 7

用四种方法检测样本是否携带以下三种单基因病。

具体地，重复实施例 1-5，其不同点在于测序法和接头连接区域。其不同点和检测结果见表 9。

¾ 9

编

测序方法接头连接序列杜氏肌营养不良苯丙酮尿症多囊肾综合症

12号染色体上

X染色体上发生

1 Solexa法 AAA 发生突变未发现突变突变 R3381X

R241C

12号染色体上

X染色体上发生

2 454法 A 发生突变未发现突变突变 R3381X

R241C 12号染色体上

X染色体上发生

3 SOLID法 GCTT 发生突变未发现突变突变 R3381X

R241C

4 Sanger法 TT 阳性阳性阴性由表 9可以看出，本发明的方法制得带有不同接头连接区的 DNA文库，与二代测序方法结合进行分析，通过 Sanger法验证，表明本发明方法可以获得准确的筛查结果。实施例 8

试剂盒制备

一种测定待检测样本中疾病相关核酸分子的核苷酸序列的试剂盒，包括组分：

(1)第一容器以及位于容器内的核酸芯片；

(2)第二容器以及位于容器内的接头；

(3)第三容器以及位于容器内的第一弓 I物和 /或第二弓 I物；和第三弓 I物和 /或第四引物;

(4)第四容器以及位于容器内的封闭分子；

(5)第五容器以及位于容器内的用于进行 PCR扩增所需的试剂；

(6)第六容器以及位于容器内的用于进行封闭反应所需的试剂；

(7)第七容器以及位于容器内的用于杂交反应所需的试剂；

(5；)任选的检测说明书。在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作多种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

权利要求书

1. 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法，其特征在于，包括步骤：

a. 提供一待检测样本，所述待检测样品含有经打断的、源自基因组的 DNA双链核酸片段，并且所述 DNA双链核酸片段具有平末端；

c 对步骤 b获得的带有接头的 DNA双链核酸片段，用第一引物和第二引物进行 PCR扩增，从而获得第一 PCR扩增产物的混合物，其中所述的第一弓 I物和第二弓 I物具有对应于所述接头的引物结合区的接头结合区，以及位于接头结合区外侧的测序探针结合区；

2. 如权利要求 1所述的方法，其特征在于，在步骤 g中，将所述的第二 PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交，并进行固相桥式 PCR扩增，形成测序簇；然后对所述测序簇用 "边合成-边测序"法进行测序，从而得到所述待检测样本中疾病相关核酸分子的核苷酸序列。

3. 如权利要求 1 所述的方法，其特征在于，步骤 a中所述的经打断的、源自基因组的 DNA双链核酸片段长度为 100-1000 bp或者平均长度为 800-1000 bp;

较佳地，所述片段长度为 150-500 bp，较佳地为 200-300 bp。

4. 如权利要求 1所述的方法，其特征在于，所述 DNA双链核酸片段具有的平末端是通过末端修复的方法制备。

5. 如权利要求 1所述的方法，其特征在于，步骤 b中所述的接头连接序列为 poly(N)_n，其中各个 N分别独立地选自、 T、 G或 C， n为选自 1-20的任一正整数；较佳地，所述的接头连接序列为 poly(A)_n，其中， n为 1-20的正整数，较佳地 n=l-2。

6. 如权利要求 1 所述的方法，其特征在于，步骤 b 中所述的接头连接互补区序列为 poly(N')_m，其中各个 N'分别独立地选自 A、 T、 G或 C， m为选自 1-20的任一正整数，并且 poly(N) P poly(N')_m为互补序列；

较佳地， m为选自 1-3的任一正整数；或较佳地，所述的接头连接互补区的长度与所述接头连接序列的长度相同，即 poly(N) P poly(N')_m为完全互补序列；或较佳地，所述的接头连接互补区为 poly(T)_m，其中 m为 1-20的正整数，更佳地 m=l-2。

7. 如权利要求 1所述的方法，其特征在于，步骤 b中所述的接头连接序列为 A，所述的接头连接互补区序列为 T。

8. 如权利要求 1所述的方法，其特征在于，步骤 c中所述的第一引物和第二引物为长度

30-80 nt的寡核苷酸；更佳地，第一引物和第二引物长度为 55-65 nt。

9. 如权利要求 1 所述的方法，其特征在于，所述的第一引物和第二引物是不同的，和 / 或所述的第三弓 I物和第四弓 I物是不同的。

10. 如权利要求 1所述的方法，其特征在于，步骤 d中所述的封闭分子封闭第一 PCR扩增产物中对应于第一弓 I物和第二弓 I物的 70%-100%区域；

较佳地，步骤 d中所述的封闭分子封闭第一 PCR扩增产物中对应于第一引物和第二引物的 100%区域。

11. 如权利要求 1所述的方法，其特征在于，步骤 e中所述的核酸芯片上固定有 5-200,000 种对应于所述疾病的特异性探针；

较佳地，步骤 e中所述核酸芯片上特异性探针的种类为 50-150,000种，更佳地 500-100,000 种，最佳地 5000-80,000种。

12. 如权利要求 1所述的方法，其特征在于，步骤 e中所述的核酸芯片上固定有对应于疾病致病基因的以下区域的特异性探针：外显子和 /或外显子前后两端 200 bp;

优选地，所述特异性探针的长度为 20-120 nt，较佳地， 50-100 nt，更佳地， 60-80 nt。

13. 如权利要求 1所述的方法，其特征在于，所述方法具有选自下组的一个或多个特征: 所述特异性探针为全人工合成或体外克隆合成；

步骤 f 所述的第三引物和第四引物分别特异性结合于所述的第一引物和第二引物的外侧，并且长度小于第一引物和第二引物；

所述的第三引物和第四引物长度为 15-40 nt，较佳地为 20-25 nt;

所述待检测样本来源于人、动物、植物，或微生物；

所述待检测样本来源于人或非人哺乳动物，较佳地，来源于人；

所述待检测样本含有人基因组 DNA; 所述疾病为孟德尔单基因病。

14. 一种可用于权利要求 1所述方法的、用于测定待检测样本中疾病相关核酸分子的核苷酸序列的试剂盒，其特征在于，所述试剂盒包括：

(1)第一容器以及位于容器内的核酸芯片；

(2)第二容器以及位于容器内的接头；

(4)第四容器以及位于容器内的封闭分子；

(5)可选的检测说明书。

15.如权利要求 14所述的试剂盒，其特征在于，所述疾病为孟德尔单基因病；较佳地，所述疾病选自下组：家族性腺瘤样息肉病、软骨发育不良、家族性高胆固醇血症、多指畸形、马凡综合症、遗传性舞蹈病、秃发、苯丙酮尿症、胱氨酸尿症、遗传性高度近视、抗 D佝偻病、遗传性肾炎、血友病、地中海贫血、节性脑硬化综合症、杜氏肌营养不良、进行性肌营养不良、多囊肾综合症、性别决定基因突变所致的性反转，或其组合。

16. 如权利要求 14所述的试剂盒，其特征在于，所述试剂盒还包括选自下组的试剂：用于进行 PCR扩增所需的试剂、用于进行封闭反应所需的试剂、用于进行杂交反应所需的试剂、或其组合；和 /或

所述的核酸芯片上固定有选自下组的一个或多个探针：

探针 1 : 序列如 SEQ ID NO: 7所示，捕获位置 112073411，检测家族性腺瘤样息肉；探针 2: 序列如 SEQ ID NO: 8所示，捕获位置 51479999，检测多囊肾综合症；探针 3: 序列如 SEQ ID NO: 9所示，捕获位置 135766620，检测节性脑硬化综合症；探针 4: 序列如 SEQ ID NO: 10所示，捕获位置 103231969，检测苯丙酮尿症；探针 5: 序列如 SEQ ID NO: 11所示，捕获位置 48700368，检测马凡综合症；探针 6: 序列如 SEQ ID NO: 12所示，捕获位置 31137199，检测杜氏肌营养不良。