WO2013071876A1

WO2013071876A1 - 高通量测序文库的构建方法及其应用

Info

Publication number: WO2013071876A1
Application number: PCT/CN2012/084691
Authority: WO
Inventors: 高飞; 王君文; 王童; 蒋慧; 武靖华; 吴红龙
Original assignee: 深圳华大基因科技有限公司; 深圳华大基因研究院
Priority date: 2011-11-15
Filing date: 2012-11-15
Publication date: 2013-05-23
Also published as: US20140329697A1; CN103103624B; CN103103624A; US9920363B2

Abstract

本发明提供了一种构建高通量测序文库的方法，包括：将基因组DNA片段化，将DNA片段进行末端修复，在3'末端添加碱基A，将具有粘性末端A的DNA片段与甲基化接头相连，利用特异性探针对连接产物进行杂交捕获，以获得目的片段，将目的片段进行重亚硫酸盐处理，以将非甲基化的胞嘧啶转换为尿嘧啶，将经过转换的目的片段进行PCR扩增，分离纯化的扩增产物构成高通量测序文库。本发明还提供了应用所述高通量测序文库确定样本的基因组特定区域的甲基化信息的方法和装置。

Description

高通量測序文库的构建方法及其应用

优先权信息

本申请请求 20Π 年 U 月 .5 曰向中国国家知识产权局提交的，专利申请号为

2011 10362032.2的专利申请的优先权和权益，并且通过参照将其全文并入此处技术领域

本发明涉及生物技术领域具体地，涉及甲基化检测技术特^是涉及基因组特定区域的甲基化检测更具体地，本发明提供了一种构建高通量测序文库的方法，一种确定样本的基因组特定区域的甲基化信息的方法、一种用于确定祥本的基因组特定区域的甲基化信息的装置以及一种用于构建祥本的基因组特定区域高通量测序文庠的试剩盒。背景技术

D A甲基化是研究最为深入的表观遗传学机 , DNA甲基化在维持正常细胞功能抑制寄生 DNA成分对基因组完整性的损害、染色质结构修饰、 X染色体失活、基因组印记，胚胎发育以及人类胂瘤发生中起着重要伟用，是前新的研究热点之一

然而, 目前对基因组待定区域如启动子区域、 CpG 岛区域、 CpG 岛外区域以及印记基因区域的甲基化检测的研究，仍有待改进。发明内容

本发明旨在解决现有技术问题的至少之一由此，为了代表检测基因组上特定区域的甲基化信息，本发明提供了高通量测序文库的构建方法及其应用

根据本发明的一个方面，本发明提供了一种构建高通量测序文庠的方法.. 根据本发明的实施例，该方法包括以下步疆：将基因组 0 A片段化，以便获得 DMA片段；将该 DNA片段进行末端修复，以便获得经过末端修复的 DNA片段；在该经过末端修复的 DNA片段的 3'末端添加碱基 A，以便荻得具有粘姓末端 A的 DNA片段；将该具有粘性東端 A的 DNA 段与甲基化接头相连，以便获得连接产物；利用特异性探针对 * 连接产物进行杂交捕获、以便荻得目的片段；将该目的片段进行 PCR扩增，以使荻得增产物；以及分离純化所迷扩增产物，该扩增产物构成该高通量测序文库根据本发明的实施例，可以采用的特异性探针是对已知甲基化位点特异性的，例如，该特异¾探针是基于采用人类基因组伟为参考序列，并且采用已知具有甲基化位点的基因区域作为靶序列而设计的，其中，该已知具有甲基化位点的基因区域可以为下表 1:中所列出基因的至少一科的编码区和启动子区表！ 4分子功能相关基因

子功 & GO iD ( GO编号） Gene names i基. 名 ,1

CDYm AR B i ELP3 KA'OA SAP130 CREBBP ΚΛΤ8 |

MKTTLS TADA3 TADA2A TAF6L GEA5 «ΑΤ6Β 'TAF .ΛΤ5 |

Hisione (纽蛋 NC:OAi SUPT3H TAF5 SRC:AP HAT! CDY2B EPCi AT6A |

C(O:00ti4402

CLOCK EP300 TAF12 TAF i GTF3C4 MED24 KAT2B CDYL | TAF5L SNG3 PET! S? BRCA2 ELM EDFI BAZ1ASUPT7L TAFIO |

NCOA2 ΚΛΤ7 TAF SI.. TADAi |

SALLf HDACI ! HDACi HDAC8 HDAC2 HDACH) HDAC5

C;O:0<) 44{t7

HDAC'3 H1>AC4 HDAC6 iVSTA2 SiRTl Hi:)AC9

GO :0008469 PR T5 PSMTS PR T7

(¾>細 (i4M ΚΑ'ΠΑ B CA2

00:0010485 BRCA2 USP22

O:0(tI7!36 SiRT6Si T2 SI T!

EZH2 EH T2 SETD7 SUV3 H2 ASHiL MEN! SETDfi ΕΗΜ'Π

C3 ;0iH 024 OOTIL SU 3¾>Hi P DM2 SMYE SETDBi SETMA Sl;V42 H!

PRD 9 PRDM6 MLL2 WHSC1 WHSCIL! SETD A SETD2

GO:(M 1 ¾ L3MBi:iJ

HDAC? HDAC! 1 HSJAC! fflMCS. HDAC2 HDAC") HDAC5

00:0032041

HD— ΛΟ i-JDAC4 HDAC6 i«)AC9

00:0032452 KD 2 PHFS DMIA PHP2 JARED2

<K):(K>3245 'I4ori ->9KD iA

GO :0032454 M4C PHFS JHDMiD KDM 1 A ΡΉΡ2

GO:0«33?46 JMJD6

(¾)細 3749 JMJD6

<K):(K>34647 KDMSB

GO :()«34648

G :0«34 49 KDMiB

HDAC'? HDACi i HDAtM HDAC8 HDAO HDACH) HDAC 5

HDAC3 HDAC4 HDAC6 i-JDAC

GO :00 5033 Nt:OR! MAP 'i'P53

GO :(«35034 EIDI

G i SPi SH«2 Z8T87A EiDS TP53 MEF2A FOXP3

GO :0035035

EPASI GLG H!FiATAF?

CHDS CHDi CBX21NG4 KAT8 SUZI2 i Gl L3MBTL2 L.RWD ! |

PHF13 CBX5 NCAPD3 PHF8 ΪΝ02 CCDCtOS CSX4 WDR92 j

GO舰； 5064

GLY ί JHDMID CBX8 SP5NS. B8P51NG3 i C.5 TR.iM2 |

TDRD3 MSL3 UHRPI CBX7 PH 2 L3MBi:LS 腿 I

表 1-2生物学加工相关基因生 ¾5学加工 GO ΪΙ) (GO编号 ) 基 ¾名

ϋυ/:i O Ϊ61£/-8oiAV

KUVBU I„BFI ARRBI MOR 4:SJ RUVBU D AP3: EPCi EPSOO TR5MI6 ΛΡΒΒί iRR TRRAP TCF3

(30:0043967

1NG3 BRCA2 USP22 YEATS-4 EP400 BROS UVBL2 EAF ORF4L1 DMAPi

00:0043968

EPCS TRRAP iKC;3 YEATS4 i3O:0»43973 L!>BS

GO:麵 3 ! INCM PHF16 PHFi 7 PHFi 5 KAT7

GO:0043¾82 ING4 MEAP6 PHFI6 ΡΗΠ7 PHFI 5 KAT?

!NC ΜΕΛΡ6 PHF16 PHFi? BRIM PHF15 AT7

SNG4 M AP6 PHF!ft KATS MSU MIX PHFi 7

<K>:0043984

S 1.3 PHF!.5 KAT? MSL2

GO:0(}43«)S5 PBMT5 PRMTl P KC!¾ COPRS

GO:0043¾8? PS6KA4 PS6 A5

RPS6KA4 PS6KA5

GO:0fM3 ^t>0 PS6i<Ai

€.0:004 154 KA1'2A Mi-AF BRD4

EHMT2 SUV39H2. S5-TDB2 ΚΗ Ί'ί SUV39HI

P DM5

CX MUA DPY30 Mil. KDM6A ASH2L WDR5 SETD!B LI..2 PAXfP! RHBP5 WD 82 MU..5

SETDiA

GO:翻 569 MLLCTCFL

<jO:005i57i D M'BB BRCAi MYB PAXIPf OCT DNMTi

CiO: t«!572 tlPISB CO

<;O: 05i5?3 D M'llB BRCAi PAX5 DN 'i'l

GO:«05J57 GFJiB MYB JA I 2

UB 2B

.fD

C.O:00 0i*?9 層: D6

GO:00705I2 BRCAI

GO.0070535 K S.6S

GO: 07(!537 U!MC! BRCC3

<;O: 0?0544 P11F8 JMJD5.ffli 'm) N()66 DM4A

G():<}070734 ΕΗ 'Π

GO:0i)?0932 HDA l HDAC4 Si T! HDAC:9 ί30:ί>ί}7(!933 HDAC'i RCO i I-ST eDAC4 Hf>AC<i

(30:007 i! 10 HLi::S

<K>: 0?i557

GO:«07JS9 WAC GO:!5072355 C.SG2

ίΚ»:0額) ·24). SPSi CT'BPl

ί3Ο:2('Κ)0 1 α.ΐΕί"

GO:20006I7 B CAl

<Χ):20{!()620 BRC.'Ai

GO:0( 0029 GPXI BAZJB GLMN CTCF

(:'Ο:(>ίΜ(ΚΒ0 ASIP CTCF

炎.現 j 传学

GO舰 34 SPIi T I.M27 DNK-1T3 (IPC! C&EBZf

00:0045815 SLC50AS

D!RAS3 DNMT3L D MT3A GS 3A EKD KDM 1 B

GO:«0034 DHMT3B KDM！ R ZFP57 CTCFL KC QS CTCF 基因印记

10F2 P MT7

GO:007!514 ASiP ND C5NAS AX!KI

€ιΟ;0Ι )(!ΐ:ΐ3 LW-2A SiRT2 SMARCAS SUV39HI S!RTl PB

<;O: (KH672 TLK 1 ΎΙΚ2

SA B EZH2 VCX S0X2 L WOi HN-iG2()B H.DAC5 HMGA2 SUV39H1 SOX 1 SO i

<;O: (Ki6325 ：

MiSr!H4K TC iF?LI HMQ HMG2 A MiMi

ACTL6B SATBl

ASFIA SUV39H.2 HD S iAC8 SMARCAS ASF IB

BAZIB 'HD3服 ΪΡ3. TA2

CHDl HDACi RSFi ARID t i ¾ A SM A CC2 S A CDi SATB2 AT2A BAZ2A SUV39H2 t'HDiL RESE I OSO SMARCBI TAF6L MEN i BPTF .KJXAl HDAC'2 S¾JIT6B: SMYD SMARCCi SUP'f'SH SMA ；: A5 P. 2 SMA C!-I HDACS

GO:6006338

HiLSl RBBP4 S ARCA2 S ARCD3 FOXP3 S ARCA4 ΜΎΒ <Ήί>6 H FiA SMARCAI H AC4 A'"i'2BPBR.Mi Β ΪΡ3 A(:'Ti..6B SL;PT }li C!I!RA '! SOX CBX3 TTFl BAZlARBi T F! ACTLAA

KLFi SMA C:D2

SI 7'2 HDACS HiLSi SI T4 MU.2 SI T5 UBS2

G():<K !6342

SiRTi TNP1

i3O:0t;06.¼S SIET!

(;0:《 W)344

！ MT5A HELLS MBD3 DNMT3B SMARCM

GO:糊 6346

SiSTS

00:0006348 SS T2 HATS 丽D/：/ O Ϊ69 ZIOZX工) d 9.8ΐ.0εΐΟΖAV

Ϊ69丽 ZIOZXD/工：) d 9.8ΐ.0/εΐΟΖ OAV

LHDC3 CREB! TALS NCO i ARlDi A PPPI RIO RCCi LDB i M EI ί A SARA HDAC2 CEBP8 X3 CT!'£D2 UBE2A議 Λ PM2 JU AR POCiZ BA D2 GATA3 TiMELESS ΊΤ53 RJH3 I3F2A PHOX2H S ARCA2 S A12 SR VSP3 S ARCD3 SCRT2 HNRNFK PAX6 SMARCA4 RIDI MEF2C UBE28 H！ PNT D Xl \ TiPiN PHOX2A CBXfi PLCBl BKi)4 RXRA KDM! A PCGF2 STAT6 SS..X4 MSH6 MYOD APT.X

CBX7 PER Si Ti

GO ;000079] D MT3A

SALI.J MBD2 C8X2 CBX6 HDAC2 DAXX (H«2 MBD3 SUVi«HI SMAHCA4 MECP2 TOP2B CBX8 SALL4 UHB.Fi CB 7

Ρί . SUZ!2 BED F2 PMC!B K.iNG!

CK):0 O56?7 B,<\Z2A Si T2 BAHDI SMA CA5 SiJV39H! SiRTS

(K):i聽 6?S NAPi L3 CHAFIB ΝΛΡΙ1.2 NAP I Li Ci-iAF!A NAPH.

SMAKCA4 RBMX CEC 2 TRI 28 T 24 CBX3 ALKSHJ

GO細 57 ΐ 9

Sffi.I'l

TCP! D MT3I, SUV39H2 D MT3A VDR C X5 DNMT3B ATRX AiCFCBXS PSSPi TR1M28 CBX3 SI Ti SATSI FOXCI

HELLS LRWDI BAZiH S CEN? 8XI IKZFI D Mll

«): (励 5 ?24 SIRT6 T KSS 8P!

GO :0005 ?26 NUFSF! S.V1ASCA4 TH.i. 24

CK):0OO8623 C'HRAC'i AZ!A

ASFiA. SM— ARC.D'i S MARCH! BMiO lFi ί MAEL ΒΛ.Ζ1 B CHD3 ESR1 SMARCA1 AT2B SOX9 MVS Ml ACT A

(；；0:(»3!6!8 C.BX5 NCAPD3 CBX3

<):CK 1933 S..RWD1

GO:0i)33553 BAZ2ASUV3 Hi Si TS RRP8 eXOSO EXi)SC:i0 PSIPi EXOSCS EXOSC:4

GO: 0SS9B5 HKIGAI CDK 2A HMGA2

Ϊ69丽 ZIOZXD/工：) d 9.8l.0/ClOZ OAV

利用根据.本发明实施倒的构建高通量测序文库的方法，能够有效地构建基因组

DNA样品的高通量測序文库 ,特^是能够有效地构建基因组 DNA祥品的已知甲基化位点的特定区域的高通量测序文戽, 从能够有效，充分地应用于高¾量测序技术通过对文库的测序，然后基于对测序结果的数据分析，能够有效地获得基因组特定区域的甲基化位点信息，实现对基因纽 DNA样品的基因组特定区域的甲基化检測

根椐本发明的另一方面，本发明提供了一种确定样本的基因组特定区域的甲基化信息的方法„ 根据本发明的实旄例，该方法包括下列步骤：根据前面所述.构建高通量测序文库的方法，构建该祥本的基因组特定区域的髙通量测序文库；对该样本的基组特定 E域的高通量測序文库进行测序，以便得到测序结杲；以及对该测序结栗进行数据分析以便确定该样本的基因组特定区域的甲基化信息

利用根据本发明实施例的确定祥本的基因组特定区域的甲基化信息的方法 ₅能够准确地确定祥本的基组特定区域的甲基化信息，从而实现对样本的基因組特定区域的甲基化检测,：

裉据本发明的再一方面，本发明提供了一种用于确定祥本的基因组特定区域的甲基化信息的装置根椐本发明的实滬例，该装置包括：文戽制备单该文库制备单元用于制备样本的基因,组特定区域的高通量测序文库，该文库制备单元内设置有特异姓探针；测序单元，该測序单元与读文库制备单元相连，并且从该文库制备单元接收该祥本的基因组特定区域的高通量測序文库，以便用亍对 ¾样本的基因组特定区域的 ¾通量测序文库进行測序，获得测序结果；以及数据分析单元该数据分析单无与该测序单元相连、并且从该測序单元接收该测序结果、以便对该測序结果进行数据分析，确定该祥本的基因纽特定区域的甲基化信息

利用根据本发明实施例的用于确定样本的基因组特定区域的甲基化信息的装置，能够方便准确地确定祥本的基因组特定区域的甲基化信息，可以应用亍多种针对基因组特定区域的甲基化的研究

裉椐本发明的又一方面，本发明提供了一种用于构建祥本的基因组特定 S域的高通量测序文库的试剂盒根据本发明的实旄例，该试剂盒包括：特异性探针，该特异姓探针是对已知甲基化位点特异性的„利用根据本发明实拖倒的用于构建样本的基因组特定区域的高通量测序文库的试剖盒，能够方便有效地构建祥本的基. 组特定区域的高通量測序文库

本发明的附加方面和优点将在下面的描述中部分给出部分将从下面的描述中变得明显，或通过本发明的实践了解到附图说明

本发明的上迷和 /或附加的方面和优点从结合下面附 S对实施例的描迷中将变得明显和容易理解，其中：

图： 1：显示了 ^据本发明一个实施例的构建高通量测序文库的方法的流程示意 S; 图 2: 嚴示了根据本发明一个实旄例的方法确定基 S组特定区域甲基化信息时、在不同覆盖深度下（覆盖深度》 1及覆盖深度 > 5 )，每条染色质上的捕获区域占探针靶区域的百分比 S ;

3：显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下，各条染色质中检測到甲基化信息的启动子占该染色盾的总启动子的百分比图； S3： 4：显示了根据本发明一个实施例的方法确定基因组特定域甲基化信息时，基因组上启动子区域、 CpG岛、 CpG岛外（在本文中指为 CGI shore )及印记基因区域的甲基化水平分布结 ₅ 其中， (a) 显示了银据本发明一个实旄例的确定的样本的基因组 QpG岛、 CGI shore 域的甲基化水早分布图，

(b) 显示了根据本发明一个实施例的确定的祥本的基组启动子区域的甲基化水平分布图，

(c) 显示了祥本的基 S组特定区域的原始分布和根据本发明一个实旄例的确定的祥本的基因,组特定区域的高通量测序文库的 reads分布及启动子、 CpG岛区城的甲基化水平分布 S;

5：显示了根据本发明一个实施例的用于确定祥本的基因组特定区域的甲基化信息的装置的示意 S ;

¾ 6: 显示了根据本发明一个实施例的测序读段（在本文中也成为 "reads" ) 的插入片段长度分布；

图 7: .¾示了根据本发明一个实施例的捕获区域的各碱基的测序深度和累积测序深度统计图；

S 8:显示了根据本发明一个实施例的在读段比对过程中各位置減基错配发生頻数的示意 S;

9:显示了根据本发明一个实施例的炎黄细皰系捕获的各表 51相关基因在不 1 深度下的覆盖 t和累计覆盖度的示意图；以及

围 10; 显示了根据本发明一个实施例的个别捕获基 ®的测序覆盖的直观, ¾示结果发明详细描述

下面详细描述.本发明的实施例，所迷实旄例的示例在附图中示出，其中自始至终相同或类拟的标号表示相或类似的件或具有相同,或类功能的元件下面通过参考图描述的实旄例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制构建高通量測序文库的方法

根据本发明的一个方面，本发明提供了一种构建¾遢量測序文库的方法参考图 1 , 银据本发明的实施例，该方法包括以下步疆：

首先，将基因组 DNA片段化，以便获得 DNA片段。在本发明中所使用的术.语 "DNA" 可以是任何包含脱氣核糖核苷酸的聚合物 ,包括但不限于经过修傳的或者未经修饰的 DN A。本领域的技术人员可以理解,，基因组 DNA的来源不受特别限制，可以从任何可能的途径获得, 可以是通过市售直接获得，也可以是从其他实验室直接获取，还可以是直接从祥本中提取 _Λ 根据本发明的实旄例 , 可以从样本中提取获得基 !¾组0！^^ 根据本发明的一个实施例，抅建高通量剩序文库的方法可以进一步包括从祥本中提取基因组 DNA的步 t 根据本发明的一些具体示例，祥本可以来源于哺乳动物、植物、和凝生物的至少一种。木发明的一些实旄例，哺乳动物可以为人和小鼠的至少一种根据本发明的一个实施例，基因组: DNA可以为人类全血基因组: DNA，优逸为外周血单核细胞基.因組 DNA 发明人发现，当采用 YH ceil基組 DNA构建高通量 ¾序文库时，从样本中提取基因组的操作方

is 便易行，且获得的 DMA质量好、甲基化信息完整，由其构建的样本的基因组特定区域的髙通量测序文库能够方便地应用于髙通量测序技术，从而基于对测序结杲的数据分斩就能方便有效地荻.得祥本的基因组特定区域的甲基化信息，根据本发明的实旄例,，基因组 DNA的量不受特別限制，根据本发明的具体示倒，优逸基因組: D A的量为 2 g 发明人惊奇地发现，当基因組 DNA的量为 2 g时，根椐本发明实施例的构建高通量测序文库的方法构建的祥本的基因,组特定区城的高通量测序文库，能够非常方便地应用于高通量測序技术，如 Sotexa測序技术，且文戽测序结果准确，，可重复性好，包含的特定区域的甲基化信息准扇、甲基化位点覆盖率高

其次，将 DNA片段进行末端修复，以便获得经过末端修复的 DMA片段 _Λ 根据本发明的一个实施例，在将 DNA片段进行束端修复前，可以进一歩包括純化 DMA片段的步驟，由此，使得后续的末端修复易于进行裉据本发明的实旄例，将： DN A片段进行末端修复可以利用 Kkmow片段、 T4： DNA聚合酶和 T4多核苷酸激酶进行，其中，所述 Kienow片段具有 5，- 3，聚合酶活姓和 3'→5，聚合酶活性，但缺少 5'→3'外切酶活性由此，能够方便准确地对 ί)ΝΑ片段进行末端修复根据本发明的实施例，还可以进一步包括对经过末端修复的 DMA片段进行纯化的步黎，由此能够方便地进行：后续处理

接下来，在经过末端修复的 DMA片段的 3'末端添加碱基 A, 以便获.得具有粘性末端 A 的 DNA片段根据本发明的一个实施例，可以利用 Klerrow (3'- 5，exo- )，即具有 3，→5'外切鵄活性的 Kkmow, 在经过末端修复的 DNA片段的 3'束端添加碱基由此，能够方便准确地将.减基 A添加到经过末镇修复的 DNA片段的 Γ末端根据本发明的实施例，还可以进一步包括对具有粘性末端 A的 DNA片段进行純化的步 f 由此能够方便地进行后续赴理„ 接着，将具有粘姓末端 A的 DNA片段与甲基化接头相连，以便获得连接产物本发明中所使用的术语 "甲基化接头 ⁵' 是指这祥的一种接头，在其核苷酸序列中，所有 C位点均被甲基化修饰根据本发明的一个实滬^ ,在将具有粘' ϋ末端 A的 DNA片段与甲基化接头相连前，可以进一步包括对常规测序所使用的接头进行甲基化的步骤由此，能够有效避免测序接头对后续重亚硫酸盐处理等操作带来的千扰;，例如重亚疏酸盐处理处理过程中接头序列可能会被改变本领域的技术人员可以理解，对接头进行甲基化的方法不受特別限制，可以利用本领域已知的任何方法对测序接头进行甲基化

根据本发明的一些实施例，甲基化接头中还可以进一步包舍标签，由此可以方便地同时构建多种样本的基因组待定区域的高通量测序文库，并能够有效地应用于高通量测序平台, 从在对测序结果进行数据分析后，基于标签的序列信息，就能够准确地区分多种样本的基因,组特定区域的高通量测序文戽的序列信息以及样本的基因组特定区域的甲基化信息，由此能够充分地利用高通量测序平台，且能够节省时间、降低成本

根本发明的实施倒，标签的长度为 6bj>, 在文库制备时不同祥品分别连接不同的标签接头，捕获前将多个不同文库混合到一起形成一个新文库，使用该新文库进行探针捕获并测序測序所得数据是多个样品混合在一起的，此时根据每段 reads (测序仪所读出的序列结杲）中不同的标签序列将不同祥品分开此方法可以大大降低成本、时间、人力根据本发明的实施例

根据本发明的一个实旎倒，将具有粘性末端 A的 UNA片段与甲基化接头相连是利用 T4 DNA连接 ¾进行的, 由此可以方便地获得连接产物根据本发明的实旄例，还可以进一步包括对连接产物进行純化的步骤，甴此能够方便地进行后续处理,：

然后，利用特异性探针对所述连接产物进行杂交捕获 > 以便获得目的片段根据本发明的实滬例；这里的术语 "特异性探针" 是指探针是对已知甲基化位点特异性的裉据本发明的具体示倒，特异性探针是基于采用人类基组作为参考序列，并且采用基组上已知具有甲基化位点的特定基 S区域作为耙序列而设计的，具体地，已知具有甲基化位点的基因区域包括逸自启动子区域, CpG岛区域、 CpG岛外区域以及印记基因区域的至少一种，由此，剩用根据本发明实旄倒的特异牲探针迸行杂交捕获，能够有效地捕获样本中与耙序列互补的序列、即祥本中已知具有甲基化位点的基因区域（在本说明书中，有时也称为 "基因组特定区域" λ

根据本发明的实施例，可以用于设计特异性探针的已知具有甲基化位点的基 ®区域为表 .!中所列出基因的至少一种的编码区和启动子区 ,根据本发明的实施例、所述编码区为外显子区域序列 , 所迷启动子区为基 S3转录起始位点的上游 2200bp到下游 50«bp的区域根据本发明的实施例,，所迷特异性探针是采用 eAxray系统设计的、' 银据本发明的实旄倒任逸地，所述.探针的长度为 i 2mer

如前面表！所示的基因是发明人利用 gem? tmto!ogy等数据库资源，经过大量试验鋒选荻得的。发明人意^发现采用这些基因制备的探针能够最有效地捕获所期望的的片段，并且有助于后续的研究根据本发明的实施例，可以采用基 S TSS (转录起始位点）上游 2200bp到下游 500bp作为 promoter (启动子）区域，以及 excm (外显子）域序列传为基因的编码区，并针对这些区域的序列信息进行捕获探针的设计另外，令人吃惊地，利用这些基座位靶篩选得到的测序结杲 ,，对于各染色体的覆盖不存在偏差

根据插黢的互补配对原则，单链状态的捕荻探针可以与单链状态的目的序列互补结合，从而成功地将 11标区域捕获根据本发明的实施例，探针设计可逸择固相捕荻芯片（探针固定在闺体载体上）或液相捕获探针（探针游离在液体中），然而相捕获芯片因探针长度、探针密度、价格偏高等诸多因素制，液相捕获即作为首选 _¾

根据本发明的实施例，采用安捷伦公司（ AgiieM ) 的探针设计系统 eA y设计探针，探针长度 120i r, 探针可覆盖长度范围大, 从小于 200kb到 24Mb甚至更长,， eAn'ay探针设奸系统可以方便地使用生物信息学工具 window masker (窗《序列屏蔽, )和 repeat masker (重复序列屏蔽）对标区域分析并进行屏蔽，由此 , 可以避免对这些区域进行 #针设计，非常有效地减少实验中的捕获千扰以及后续序列分柝时发生的比对千扰；并且縮短覆盖长度可以在一定程度上减少成本,：

根据本发明的实施例，核酸中高 CG ( CG碱基含量高于 60% )序由于碱基 C、 G的分子結构不同会导致捕获效率低于常规（ ATCG碱基平均含量各 25% )序列 , 对于重点研究对象 CGI ( CpG island, CpG岛）区域，可以通过提高探针设计量更.好更多地得到（数据

此外根据本发明的一个实施例，在杂交捕获前，可以进一步包括利用诸如 c / DNA 和接头封闭序列的单链寡核苷酸对连接产物（尤其是连接产物的基因组序列中的重复区域）和连接产物上的甲基化接头进行杂交封闭的步骤,：发明人俅奇地发现，当使用 d/ DNA和接头封闭序列分別对连接产物（尤其是.连接产物的基因组序列中的重复区域）和连接产物上的甲基化接头进行杂交封闭后，能够显著地增强对连接产物的杂交捕获根.据本发明的实施例， cj-ί ί》ΝΑ的使用量不受特別限制，根据具体的示例，优选采用过量的 DNA 对连接产物的基组序列中的重复区域进行杂交封闭其中，这里所使用的术语 "过量'' 是指 c -! DNA的量远大亍待进行杂交捕获的连接产物的量即采用 cj-l D A的量可以是待进行杂交捕获的连.接产物的量的 2倍以上根据本发明的具体示例优选,,采用 cj-ί DNA 的量为待进行杂交捕获的连接产物的量的 5倍，根椐本发明的一些实施例，采用 cj- / DNA. 的量小于待进行杂交捕获的连接产物的量的 5 倍，则封闭杂交不彻底，重复序列的非特异性强杂交背景信号干扰强烈，严重影响核酸杂交的效率；采用 C/ DNA的量大予待进行杂交捕获的连接产物的量的 5倍，则过多的 c -l DNA会影响探针与连接产物的结合，同祥会影 ^核酸杂交的效率由此，采用待进行杂交捕获的连 4^产物的量的 5倍的 cj DNA对连接产物的基因组区域重复序列进行杂交封闭，能够方便、有效地进行封闭，以去摔重复序列 DNA, 从而在后续的核酸杂交过程中，能够有效避免重复序列产生的非特异 ¾强杂交背景信号的千扰， . 著提髙核酸杂交的效率，增强杂交效果根据本发明的实施例接头封闭序列包括逸自 B!ock l和 Btock2的至少一种，由此，能够有效地对连接产物上的甲基化接头进行封根椐本发明的实旄例，可以采用！ ig的连接产物进行所述杂交捕获、由此能够提高杂交捕获的效率根据本发明的具体示例，利用特异姓探针对所述-连接产物进行杂交捕获，，可以进一步包括利用链尊素磁珠捕荻目的片段，由此，能够高效地捕获的片然后，将目的片段进行 PCR扩增，以便获得扩增产物根据本明的实施例，可以使用热启动 taq DNA聚合酶对经过转换的 ϋ的片段进行 PCR扩增根据 ·本发明的实施例，热启动 taq DNA聚合酶的种类不受特別限制，根据本发明的具体示例> 热启动 iaq DNA聚合酶可以为 r-taq聚.合酶，由此 PCR扩增效率高、用时少

最后，分离純化扩增产物，所得到的扩增产物构成全基 ®组甲基化高通量测序文库根据本发明的实旄倒，分离純化扩增产物的方法不受特躬限制，根据本发明的具体示例，可以通过逸自磁珠純化、純化柱純化和 2%的琼腊糖凝胶电泳的至少一种进行，忧选通过; 2% 的琼腊糖凝胶电泳进行根据本发明的一些具体示例 , 高通量測序文库的文库片段长度为 300~450bp, 由此，高通量测序文库能够方便有效地应用于高通量測序平台如 Soiexa测序年台，且可重复性好測序结果真实可靠包含特异性探针所针对的基 ®组特定区域的甲基化信息较完整，根据本发明的实旄例，在得到的片段之后，可以将目的片段进行重亚硫酸盐处理 , 以便将 §的片段中非甲基化的胞嘧啶转换为尿嘧啶，获得经过转换的的片段根据本发明的实施例，在将的片段进行重硫酸盐处理之前 , 可以进一步包括将 !3的片段与片段化的 λ -DNA混合。发明人发现,通过添加外源 DNA ( λ -D A h即将目的片段与外源 DNA 混合，然后进行重亚酸盐高效共处理，对标 DNA片段能够起到保护诈用，最大限度地降低重亚硫酸盐对徵量 DNA的破坏，可以进一步提高检测精度，使得较少量的基因组 DNA, 甚至纳克级，例如 5(M5(hig基组的甲基化检測成为现实根椐本发明的实施例，片段化的 λ -D A 的添加量不受特 »\限制 ₅ 根据具体的示例优选片段化的 λ -D A 的量为 2{K}-40Ctag, 更优选为 20( g 本领域技术人员能够理解可以通过本领域已知的任意方法制备这些片段化的 λ -DNA, 倒如可以随同前面的 DNA片段化处理一起进行制备。

重碗酸盐处理可以通过本领域已知的任何方法进行根据本发明的具体示例可以采用商品化的试剂盒进行，优选地采用 EZ DNA Methylation-Gold Kit™ ( YMO )进行发明人惊奇地发现，采用 EZ DNA Methylaiion-Goid Kit™ ( ZYMO )对 U的片段进行重亚硫酸 Ik处理时，方便快捷，且处理效杲好， 3的片段中非甲基化的胞嘧啶能够高效准确地转换为尿嘧啶并且剁于后续处理

由此，根据本发明的实施例 ₅ 可以在捕获后直接测序> 进而 > 基于测序結果可以进行基因的单核苷酸多态性（ SNPs )、核苷酸突变、插入、缺失 ( iiidel )或拷 . 数变化 ( CNVs ) 分析也可以在捕获后经重亚碇酸盐处理及测序进行 DNA甲基化状态分柝，由此，可以进行如甲基化密度, 不同元件甲基化氷平、胞嘧啶甲基化分析和差异性甲基化区域（ DMRs ) 分析等

利用才据本发明实施例的构建高通量测序文库的方法能够有效地构建样本的基园组特定区域的高通量测序文库，，从而能够有效、充分地应用于高通量测序技术，通过 f高通量测序文库的测序，然后基于对测序结果的数据分折就能够有效地获得样本的基因组特定区域的甲基化信息，实现对祥本的基因組特定区域的甲基化检测确定样本的基因组特定区域的甲基化信息的方法和装置

根据本发明的另一方面 ₅ 本发明提供了一种确定样本的基因组特定区域的甲基化信息的方法。根据本发明的实施倒，该方法包括下列步槳：根据本发明实旅例的构建高通量¾ 序文库的方法构建祥本的基因组待定区域的高通量测序文库；对读样本的基因组特定区域的高通量测序文库进行测序，以使得到測序结果；以及对测序结果进行数据分树以便确定祥本的基组特定区域的甲基化信息

根据本发明的一些实施例測序是利用高通量^序技术进行的,. 本領域的技术人员可以理解，可以通过本領域已知的任何高通量测序技术进衧测序、裉据本发明的具体示例 , 优选地利用 H o OOO測序仅进行测序发明人发现， ^用 ffis¾|2000测序仪对样本的基因组特定区域的高遏量测序文库进行測序，能够有效地获得测序结果，且¾序用时少、效率高、测序结果准确，可重复性好利用 .根据本发明实施倒的确定祥本的基因组特定区域的甲基化信息的方法，能够有效地构建样本的基组特定区域的高通量测序文库，并且能够通过高通量測序技求如 Sokxa 剩序技术实现对文库的准确測序，基于对測序结果的数据分析就能够准确地确定祥本的基 ¾组特定区域的甲基化信息，从而实现对.祥本的基因组特定区域的甲基.化检，且特定区域的甲基化位点覆盖多，获得甲基化信息完整,：

根据本发明的再一方面，本发明提供了一种用于确定祥本的基因组特定区域的甲基化信息的装置参考图 5，根据本发明的一个实旄例，该装置 1000包括：文库制备单元 100、剩序单元 200以及数据分析单元 3()0,,

根据本发明的实旎倒，文戽制备单元 100 用于制备祥本的基因组特定区域的高通量测序文库，其中，文库制备单元 00 内设置有特异性探针根据本发明的实旄例特异姓探针是对已知甲基化位点特异性的根据本发明的具体示例，特异性探针是基于采用人类基因,组作为参考序列、并且采用基因组上已知具有甲基化位点的特定基因区域作为靶序列而设计的，具体地，已知具有甲基化位点的基因区域包括逸自启动子区域、 CpG岛区域、 Cp<3 岛外区域以及印记基因区域的至少一科由此，利用根据本发明实施例的特异性探针进行杂交捕荻，能够有效地捕获榉本中与靶序列互补的序列即样本中已知具有甲基化位点的基 ®区域。由此，文库制备单元 100 可以适于实旄前面所迷的高通量测序文库构建方法根据本发明的实施例，可以用于设许特异性探针的已知具有甲基化位点的基因区域为表！: 中所列出基因的至少一种的編码区和启动子区,，根椐本发明的实施例，所述缟码区为外显子区域序，所迷启动子 E为基因转录起始位点的上游 2200bp到下游 500bp的 S域„ 根据本发明的实施，所述特异性探针是采用 eArray系统设计的。根据本发明的实施例，任选地₅ 所迷探 |-的长度为 12mer。关于探针，前面已经进行了详细描述，在此，不再赘迷

测序单 200与文库制备单 100相连，可以从文库制备单元 100接收所制备的样本的基因组特定区域的高通量测序文库，并对所接收的样本的基 ®组特定域的高通量 *序文库进行測序 , 从¾可以获得测序结果

数据分析单元 300与剩序单元 200相连，可以从测序单元 200接收所获得的测序結果，并且能够进一步对测序结杲进行数据分析，从而基于分析结果确定样本的基因組特定区域的甲基化信息 , 最终实现对样本的基因纽特定区域的甲基化检测》

本領域技术人员,能够理解的是，可以采用本领域中已知的任何适于进行上迷搡作的装置作为上述各个单元的组成部件在本文中所使用的术语 "相连" 应作广义理解，可以是直接相连, 也可以通过中闽媒介闽接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义

利用根据本发明实施例的用于确定样本的基固组特定区域的甲基化信息的装置 > 能够方便准确地确定样本的基因组特定区域的甲基化信息 , 从而可以应用于多种针对基因组特定区域，如已知甲基化位点的基因,组区域的甲基化的研究，例如可以用于对基因组特定区域的甲基化异常进行检测 , 试剂盒

恨据本发明的另一方面，本发明提供了一种用于构建样本的基因組特定城的高通量剩序文库的试剂盒根据本发明的实施例，该试剂盒包括：特异性探针, 该特异性探针是对已知甲基化位点特异性的，根据本发明的一些具体示例，特异性探针是基于采用人类基因組作为参考序列，并且采用基因组上已知具有甲基化位点的特定基区域作为靶序列 ¾ 设计的，具体地，已知具有甲基化位点的基因区域包括逸自启动子区城、 CpG岛区域、 Cp(3 岛外区域以及印记基困区域的至少一种，由此，利用根据本发明实旄例的特异性探针透行杂交捕荻，能够有效地捕获榉本中与靶序列互补的序列即样本中已知具有甲基化位点的基 s区域根据本发明的实施例可以用于设计特异性探针的已知具有甲基化位点的基 a 区域为表】中所列出基因的至少一种的编码区和启动子区才据本发明的实旄例所迷编码区为显子区净列，所迷启动子区为基因转录起始位点的上游 220衡 p到下游 500bjp的区域根据本发明的实旄例，所述特异性探针是采用 eArray系统设计的根据本发明的实施例，任选地，所迷探针的长度为 i2me 关于探针，前面已经进行了详细描述，在此，不再赘述

本领域的技术人员可以理解，试躬盒中还可以进一步包括构建祥本的基因组特定区域的高通量測序文库所需的任何其他组分，在此不再贅述 ^用根据本发明实旄例的用于抅建样本的基因组特定区域的高通量測序文库的试剂盒，能够方便有效地构建样本的基因组特定区域的高通量测序文戽

需要£明的是 , 根据本发明实施倒的构建样本的基因组特定区域的高通量测序文库的方法及其应用，是本申请的发明人经过艰苦的创造性劳动和优化工作完成的。下面将结合实施例对本发明的实施方案进行详细描述，但是本領域^ ¾术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围、' 实施例中未注明具体技术或条件的，按照本领域内的文献所描迷的技术或条件（例如参考 1萨姆布鲁克等著，黄培堂等译-的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行,. 所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，，例如可以采钩自！ita! a 公司

实施例 1:

本实施例以 2pg的人类外周血单核细胞基因组 DN A为祥本，按照下列'步骤实施一、基因组 DNA片段化：

利用 covaris-S2打断仪 , 按照下表设置的参数，将祥本基因组 DN A进行片段化处理，以便获得 DMA片段

将获得的 DNA片段进行电泳检測，要求 DNA片段主带集中在〗50-300 之间 , 无蛋白 RNA污染利用 QIAquick; PCR純化试剂盒（ Qiagra )或磁珠 ft化，将检測合格的 DNA 片段纯化回溶到 32μ1的洗脱緩冲液中，备用，

用同样的方法制备 200- 400ng的片段化的 λ -DNA , 其中 λ -DNA为外源非甲基化的

I)将上一步获得的 DNA片段按照下表在〗 .5mL的离心管中配制末端修复反应体系：

D A片段 30 ΐ.

IhO 45 μΐ

ΙΟχ多核苷酸激時緩冲液 10 μί

dNTPs (每种成分均为 10mM ) 4 μΐ,

T4 DNA聚合酶 5 μΐ

Kienow片段 1 μΐ,

T 多核苷酸激酶 5 μί

总体积 100 μ∑

2) 将上述反应体系置子 20 的 Tterawmixer ( !Sppendwi)上 , 进行虚 30 mm , 反应完后用 QIAquick PCR纯化试剂盒（Qiagen )进行純化，最后将纯化产物溶于 34μ .洗脱緩冲液三、添加碱基 Α:

1) 将上一步得到的 DNA按下表在 1 ,5 niL的离心管中配制添加域基 A的反应体系：

D A 32 μί

Η)χ Bkie緩冲液 5 ,uL

!AIP (稀释为 ItnM, G£公司） Ι Ο Ι.

Kienow (3' 5, exo-) 3 μΐ 总体积 50 μΐ

2) 将上述反应体系置于 37 C的 Thermomke Eppei lorf)上，进行反应 30 mm, 反应完后用 MiniE!ute K:R.純化试剂盒（ Qiagen )进行純化；最后将純化产物溶于 2{)μ】_洗脱緩冲液,. 四. 连接甲基化接头：

1)将上一步得到的 DNA按下表配飼甲基化接头（有时也称为 "甲基化标签接头"）的连接反应体系：

DNA Ϊ 8 μϊ,

2x apid连接緩冲液 25 μί...

甲基化标签接头 * 4 μΐ..

T4 DNA连接酶（Rapid, L603-HC-L) 3 μΐ 总体积 50 μΐ

甲基化接头序列为：

接头 i : S' Piios/G CGGAAGAGCACACGTCTGAACTCCAGTCAC

接头 2: 5' 'aCACTCTTTCCClACACGACGC X'TTCCG T'CT

或采用以下标签接头进行混合杂交（ Poo ng杂交. ): 接头 2'： 5 ' mC:ACTCTTTCCCTACACGAC:GC1X:TTC:CG VrC:TNNNNNNT

接头 1和接头 2或接头〗 '和接头 2'序列中的 C均进行了甲基化修饰保护

2) 将上述反应体系置于 201:的 Thermoniixer ( Eppemtori)上 - 进行:反应 15 niin , 获得 '连接产物反应完后用 MiniEiute PCR 纯化试剂盒（Qiager 进行純化，最后将純化的连接产物溶于 22μ[ 洗脫緩冲液„

五、杂交捕获 S的片段：

1、设-计获得特异姓探针：通过 SSAHA算法，设计确定一套仅由唯一序列組成的特异性探针具体地，以人类基因組 hg,19为参考序列,选取全基¾组已知甲基化位点的约 to,ooo 个启动予、 28,000个 CpO岛、 28,000个 CpG岛外和 61个印记基因的区域作为靶序列设计探针其中，将少于 200b 的区域通过填充朴足修改为 200bp的长度，并且去除重迭 2域，且要求探针的序列不存在重迭序列，所有探针要满足在允许高达 3 个插入、炔失或错配下仍为唯一序列的条件，并且合成的每一条 DMA探针序列上分别通过偶联生物素作为后续的捕获标记然后，通过 Rocte Nirab:te( en生产获得设计好的特异性探针，备用

表 i 显示了根据本发明一个实滬^的特异性探针对靶区域覆盖度的评估结杲由表 1 可知，该探针几乎覆盖了基因纽全部的启动子区域、绝大部分的印记基和 CpG 岛、 CGI shore区域发明人发现，未覆盖到的区域大多是一些存在一定重复性的短序列区域，若将其增加到探针可获范围内, 不仅会增加许多非 fc区域的数据信息，时重复序列的存在还可能影响到对其它区域的捕获效果，而这些区域的甲基化信息含量较少，且不会显箸影响甲基化的整体水平，因此不将这些区域作为探针的序列

2、杂交

I) 将上一步得到的连接产物，按下表配制杂交反应体系：用 Qubit i uorometer和相应的 dsDNA HS检測试躬盒 (liivitrogen)对所得到的连接产物进行定量，然后取 l g的连接产物于一个新的 j .5mL的管中，并加入 10 _tuL Img/mL 的 CJ-J DNA和各 i nmoi的接头封闭序列 ₅ 然后置于 SpeeciVac中于 60€下蒸干 > 备用然后，在蒸千的管中分別加入 2xSC杂交緩冲液和 SC杂交組合物

cj-1 DNA 5 g

连接产物

接头封闭序列 Block 1和 Block2*

2.xSC杂交緩冲液 7.5μί...

SC杂交組合物 A 3 ttL

总体积

*接头封闭序列为：

Block [： 5' GTGACTGOAGWCAGACGTGTGCTCTTCC'G ATC

Block2: 5' A<1AFCGGAA<1AGCGTCGTGT¾GGGAAAGAGTGX

或采用以下接头封闭序列进行混合杂交：

Blockl': 5' GTGACTGGAGTTCAGACGTCTGCTCTTCCGATCTNNNNNN

B1ock2': 5\A AGA GGAAGAGCGTCGl 'rA:GGGAAAGAGTGm

其中， Block; '和 8iock2'中的碱基 NNNNN'N分^和接头 1 '和接头 2'序列中的疾基 N旦 #配对。将上迷反应体系混匀后置于离心机上全速离心 0秒，然后将其转移至 teai bfock中于 95 下育 10分钟，使 D A变姓 ,.

4 )取出上述样品，震荡混勾后于下室温全速离心 10秒，然后将其转移至一个 CO mL 的 PCR管中或 96孔 PCR板中，并加入 4.5 iL前面所述的探针文库、震荡混匀，然后置于离心权上全速离心 10秒，再将该 PCR管或 6孔 PCR板置于 PCR仅上, 于 4 C下杂交 64 -72:h, 其中 K:R,仅的热盖温度设置为

3、序列捕获

1 ) 准备洗涤緩冲液

a)将以下四种洗漆緩冲液进行标释： lOxSC洗涤緩冲液 1. 10xSC洗涤緩冲液！ I、 lO^SC 洗涂緩冲液 m和 2xStriiigeiii洗涤緩冲液，稀释到 1 χ溶液后 ώ存，其中! &存时间不宜超过 2周

h) 于 47 'C下预热配制好的 ί ml Stringent洗涂緩冲液和 1 mL SC洗涤緩冲液 ί两种溶液

2 )准备链霉素磁珠

a)从本箱中取出 Dynabeads M- 2 Str piavidin (invitrageft)磁珠，充分混匀后取 Ι ΟΟμΙ 于一个新的 1.5mL的管中； b) 将 EP 管置于磁力架上至澄清，用移液 II小心的去除上清，然后加入 ΙΟΟμΙ 的 Sirepiavidin Dyiiabead 结合洗涂缓冲液；

c) 将上述反应体系震荡（Vertex) H)s，混匀后，将 EP管重新放回磁力架至液体澄清，用移液器小心的去除上清;

d) 将上一步得到的反应体系进行两次洗涤；

e) 用 100μ£ 的 SircptavKfc Dynab ad 结合洗涂緩冲液将上述反应体系的磁珠进行重悬，并将其转入（L2 niL的小管中；

f) 用磁力架结合磁珠（将小管靠到磁力架上），直到液体澄清，用移液器小心地去除上清

3 ) 利用链.霧素磁珠捕获的片段

将杂交混合物吸出来（记录杂交后剩余体积）加入到准备好的磁珠中，吹打混匀〗0次后将小管放在 PCR仪上， 47€下孵育 45 rain (PGR仪热盖温度应设为 57Ό, 每隔〗5 ηώ, 取出震荡 3s, 以防止磁珠沉淀）

4 ) 洗涤结合了捕获 ί)ΝΑ的链霉素磁珠

a)粹育 45 min后，将混合物从 .lmL的小管转入 1.5 ml的 EP營中， # EP管置于磁力架上至液体澄清，小心的去除上清；

b)加入 100 μΐ·预热到 471：的 ^洗涤緩冲液 L 震荡混勾 10s, 将 EP管置于磁力架上至液体澄清，小心的去除上清;

C) 从磁力架上取下 EP管，加入: 200μί 顼热到 47r的】 x ½gCTt洗涤緩冲液移液器吹打混匀 10次（该操作应迅速以便管中的液体不低于 47 Ό };

d) 47X:T»育 5mi«后，将: 管置于磁力架上至液体澄清，小心的去除上清； e) 重复步驟 c)-d), 共用 IxSlrijigejit洗涂緩冲液洗两次；

ί)加 2W L室温放置的 _χ洗涤缓冲液 L 震荡混匀 2m¾, 如果液体減到管盖上、用手指轻弹 EP管使其集中到管底，将 EP管置于磁力架上至波体澄清，小心地去除上清；

g) 加 2«0μ. 室温放置的 .>：洗涂緩冲液 D 震荡混匀 1mm, 将 BP管置于磁力架上至液体澄清, 小心的去除上清；

b)加 2()ί)μ ¾:温放置的 ί-χ洗涤緩冲液 m, 震荡混匀 30s, 将 EPf置于.磁力架上至液体澄清，小心的去除上清„

4) 洗脱结合了 13的片段的链-零素磁珠

a)在以上冼涤好的磁珠中加入 SO LSureSek^i:洗脱緩沖液振荡 5s, 重悬磁珠； h )将上述反应体系于室温下孵育 )min₅ 将 EP管置于磁力架上 i(hxiin至液体澄清； c) 用移液器将上清液转移到一个新的 1.5mL 离心管中（此时的上清液中含有捕获的 D A, 磁珠可丢弃）；

d ) 向上清液中加入 5( iLSOTeSeieet中和緩冲液，混匀；

e )用 MiniE!uie PCR純化试剂盒（ Qiagen } 純化后 , 溶于 22μ11的洗¾緩沖液中。六、重亚硫酸盐处 -理：

2S 以前面制备好的 200- 400ng 片段化的 λ ΝΑ 作为夕 i、源 DNA 采用 EZ DNA Methy!atioii-Go!d Kit (ZYMO),将杂交翁荻的的片段 DNA和外源 DNA—起进行重亚硗酸盐共处理，具体步驟如下：

1 )制备 CT转换试剂 ( CT Conversion Reagent )溶液：从试剂盒中馭出 CT转换试 j (面体混合物），分別加入 900μΙ的水、 50 L的 M-溶解緩冲液（ M- Dissoivittg Buffer )和 30 iL 的 M-稀释緩冲液（M- D¾ilion Biifi¾ ), 室温下溶解并且震荡 10分钟或在摇床上摇动 10分钟

2 ) 洗涤緩冲液的制备：向 M-洗漆緩冲液中添加 24mL 100¾的乙醇，备用„

3 )将待转换的标片段 DNA与 λ -DNA混合物加入同一 FCR管中，若不足 20μί.的则用水朴足

4 )在 PCR管中加入 130μΙ_,的 CT转换试溶液，轻弹或移液器吹悬混合样品，

5 )将祥品管放到 PCR仪上按以下 ·歩骤搡作：

98 C下持续 5分钟

64 X：下持续 2.5小时

完成上迷搡作后，立刻进行下一步搡作或者在 4 下存储 (最多 2(小时)备用》

6 ) 将 Zynio- Spin 1C™ Cotoim放入收集管 ( Collectioo Tube ) 中，并加入 «)0μ1的 Μ-结合缓冲液（ M- Binding Buffer )

7 )将重亚破酸盐处理的样品加入到含 M-结合緩冲液的 Zymo-Sphi !C Coiumn中，盖上盖子颠倒混匀.，

8 )全速 (>1 (),«M) x g)离心 30秒，弃收集管中的收集液。

9 )向柱中加入 lOOpL的 M-洗涤緩冲液，全速 (>i0,000 x g)离心 30秒，弃收集管中的液体

10 )向柱中添加 200μΙ.的 M-Desdpkmaikm Bu¾r_s 室温放置 i Sniin , 全速 (ΜΟ,ΟΟΟ x g) 离心 3()s, 畀收集管中的液体 ,.

11 }向柱中添加 2《)0μ1的 Μ-洗涤緩冲液，全速 (>1«，0()0 x g)离心 30s、弃收集管中的液体，并.再重复此步骤 i 次:,

12 )将 Zymo-Spin IC^T¾ CoSimm置于新的 l ,5 L P管中，加入 i2 L的 M-洗脱缓沖液 r到柱基盾中，室温放置 2mi 全速 (>] 0,000 x g)离心洗脱 §的片段 D A,.

七 PO 扩增及扩增产物分离純化：

1 )将上一步得到的 g的片段 DNA按以下体系配制 PCR反应体系：

目的片段 DNA 10 μΐ

dNTP (每种成分均为 2.5mM) 4 μΙ

lOxPCR緩冲液 5 μΐ,

juHipSiari Taq DMA聚合酶 0.5 μΐ

PI公用引物 * 1 μί, 标签 N 1 μϊ- 28,5 μΐ,

总体积 50 μΐ

*其中 Pi .公用引物

'CITrc:CC-IACACGACGCl'CTTCCGATCT

标签 N的序列为: T, 其中碱基为、 T, C、个碱基的任意组合、作为区別标识

PCR.反应条件：

94 V 1 min

】8个循环

72 r Smiii

12 保持

2 )将 PCR扩增产物经 2%琼脂糖电泳后，使用 Q Aquiek凝胶提取试剂盒 (Qiagen)回收纯化 300-450b 片段的文库，备用

八、文库.检测：

使用 Bioanaty^er分析系统 (Agi M, Santa Clara, USA)检测文库插入片段的大小及舍量；并利用 Q-K:R精确定量文库的浓度„

由此，构建的样本的基因组特定区域的高通量序文库经检合格备用实旄例 2:

利用 ffiseq2000測序仅，按照双末端 90个戚基的读长，将实旄例〗构建的祥本的基因组特定区域的高通量测序文库进行测序，以便获得测序结杲

在上述测序后, 直接获得的是原始数据，通过对原始数据进行基本分析可以获得上述剩序结果其中，该基本分柝过程包括以下主要步踝：首先通过接头或 PCR引物上的序 ^标签区分不同样本的文库数据；然后，对测序所得的原始数据进行去污染、去接头和去低量过滤；最后，，将经过前迷处理的数据进行碱基转化，具体地，将正链的 C全部转化成 T, 互链的 G全部转化成 A，, 由此，获得实旄例 i.构建的祥本的基因组特定区域的高通量剩序文库的测序结果

将获.得的測序结果进行数据分析以便确定祥本的基因组特定区域的甲基化信息其中，数据分析包括：使用 SOAP2.01软件，将測序结杲中的 reads与参考基 ®组进行比对，其中容许错配率设置为 2, 以便确定唯一比对上的 rea s, 基于对这些 reads的分析，获得祥本的基组特定区域的序列信息及读域的甲基化信息 _s. 本实旄例的一个方面，以非 C|)<3处的单个的 C作为标准，计算实旄例！的重亚砬酸盐处理的转换效率；以及，基于測序结果，进行测序深度和覆盖度的分柝其中，在本实旄例中，是对 hgl 全基 S3组所有启动子区域、 CpG岛、 CG! shore和印记基因区域的覆盖度，及不同区域的覆盖深度的分析，由此确定不同覆.盖域的甲基化水平

此外，本实施例由测序结杲确定了实； ¾例 I 中的特异性探针的捕获效率图 2显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下（覆盖深度》 ί及覆.盖深度 > 5 )，每条染色质上的捕获区域占探针靶 g域的百分比图图 2所依据的測序数据为：測序原始数据序列为比对率为 75,27%, 唯一比对测序序列约为 14.9M, 唯一比对率为 57,78% 由 ¾ 2可知，在覆盖深度 > 1的条件下₅ 99%以上的探针均可检測到其捕获区域的甲基化信息，而当覆盖深度 > 5的时候，也有约 90%的探针可以检测到其捕获区域的甲基化信息，（》1是指》〗的所有其包含了 > 5 ) 同祥表明、可以通过适当的增加测序数据量来进一步提高探针捕获的实际检測范 ¾ , 这表明根据本发明实施例的探针可以稳定可靠的捕获靶区域 ,，结合重亚碇酸盐处理即可准确地进行甲基化检测

本实施例还分柝了检测到甲基化信息的不元件的实验数据占基因组该区域的百分率，分析结果如图 3和表 2所示基因组经过杂交捕获和重亚硤酸盐处理之后依据以下 ¾序数据进行分析及作图，从而得到图 3 和表 2: 测序原始数据序列为 25.5M , 比对率为 75.2.7%' 唯一比对测序序列约为 14, M > 唯一比对率为 57,78%., 图 3显示了根据本发明一个实旄例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下，各条染色质中检 ^到甲基化信息的启动子占读染色盾的总启动子的百分比¾ 由图 3 可知当覆盖深度大于 5，各条染色质中可检測到甲基化信息的启动子占该染色质上总启动子的百分比均大于 70%, 与理论值接近， <¾且覆盖深度大于 10时（大亍 5以上的所有, 包含了大于 10请发明人解鋒一下，大于 5的具体范围是多少，因为大于 5也包舍了大于 i0 )，各条染色质中可检测到甲基化信息的启动子仍可占该染色质上总启动子的 60%以上表 2显示了根据本发明 ―个实施的方法确定基组特定区域甲基化信息时 , 各条染色质中可检测到的印记基因在兹染色质上的分布分析结杲。由表 2可知，当覆盖深度 > 1的时候， 97.6%的印记基因的甲基化信息均可被检测到，而保持測序数据量不变的奈件下，，随着覆盖深度过滤的增加 , 检测到的基因个数明显降低, 这表明，在高测序深度下分析印记基园的甲基化信息时，应该加大现有的测序数椐量，提高每一个印记基因的覆盖深度

另外，本实施例还分析了基因组上启动子区域、 Cp J岛， CGi shore及印记基因区域的甲基化水平分布，分析结果如图 4所示。

表 ί 设计探针在全基因组各靶区域的覆盖信息靶区域名称靶区域量耙区域覆盖量探针覆盖率（％) 启动子 10018 9449 94.32

印记基因 61 41 67.21

CpG岛 27623 Π 90 43.41 CpG鳥外 27628 11076 4( 09 表 2 检测到的印记基在每一条染色质上的分布分析染色质. 每条染色膚印记基检測到的印记基因个数检测到的印记基因个数总数 ( >| X ) f > .) c rl 2 2 0

c r4 1 I 0

chr6 4 4 0

chrl 12 12

c r8 2 0

chr 1 Ϊ {

chrlO 1 I 0

chrl 1 1 1 1 1 4

chrl 2 1 i I

chrl 4 2 1

chrl 5 15 13 0

chrl 6 1 1 0

chrl 8 1 ί i

chrl 9 2 0

c r20 5 5 3

总数统计 61 59 12

其中、图 4(a)显示了根据本发明一个实施例的确定的样本的基因组 CpG岛、 CCS1 shore 区域的甲基化水平分布图。由图 4(a)可知，高 CG含量的 CpG岛处于低甲基化氷平； ¾ CGI shore区域的甲基化水平，相对于 Q>G岛甲基化水平显著增高。 ¾ 4 (b)显示了很据本发明一个实族例的确定的祥本的基因组启动子区域的甲基化水平分布图由图 4(b)可知启动子区域中，其转录起始位点处的甲基化水半处于低水平；所有结杲与理论相符图 4(c)显示了样本的基因组特定区域的原始分布和裉据本发明一个实旄例的样本的基因组特定区域的高通量测序文库的 reacfe分布及确定的动子、 CpG岛区域的甲基化水平分布 IK 由图 4(c)可知, 根据本发明实拖例的确定祥本的基因组特定区域的甲基化信息的方法，能有效地捕获每一个特定区域，并能够准确检 ¾ [到该区域的甲基化信息实施例 3:

采用炎黄细孢系样品（ Jira Wang ei al. 2008 ), 重复实施例〗 , 只是，用于设计特异性探针的已知具有甲基化位点的基因区域为表中所出基的编码区和启动子区（合并重复基因后共 867个基因），采用 eArray系统设计，由安捷伦公司制备的，探针的长度为 .2raer 另外，对于重測序和非甲基化测序文库不需要进行重: 硫酸盐处理步艨

采用混合标签测序，读段长度 49bp，标签长度 6bp, 下机序列片段数量 2.67Mb对测试数据量产出约 240M 使用 bwa比对程序，将过滤了低盾量和污染接头的测序片段比对到人类全基组上，并对比对结果做了初步的分析 ,

检測結果：

表 3 给出了炎黄细應系祥品具体的下机的数据总量、通过过滤和獰选之后得到的数 t 量，以及通过比对之后最终能够比对到人类基因组上的序列总数，以及比对率和芯片捕获效率等

表 3数据产出以及比对基本情况统计

统计奈 a 水平

标区域城基数 (sv¾) 3.413

原始下机序列数 (n) 5520814

原始数据产量 (bp) 231874188

过滤后序列数 (n) 5376398

可用的数据产量 (bp) 225777680

平均序列片段长度 (bp) 4.1.99

质量值大于 20的碱基比 (¾) 99.31

比对到基.因,组的序列数 (11) 5283168

比对率 (％) 98.68

唯一比对的序 ^数 (Ώ) 4762261

唯一比对率(％) 88.88

比对到目标区域内的序列数， (n) 2480823

捕获效率 (％) 52.09

平均深度. 28.9387

覆盖度(¾》 ^ss£ 1 X 98.67

覆盖度(％) > 1 (« 8.1.26

覆盖度(％.) >=30X 39.75

序列重复率 ί%) 0.34

表 4 给出了各染色体和基因元件统计的标区域的深度和覆盖度，从整体上看所捕获到的数据在各个染色体的覆盖情况不存在差別。

表 4 比对序列在各个染色体上的分布情况

外显子启动子

染色体覆盖度

平均深度平均深度

>^ιχ =ΪΘΧ >^ιχ >^10Χ e rl 32.5643 99.1 1 85.5 31.6014 99 84.42 chr2 28.6142 98.73 29.2488 99.21 84,77 c r3 30. Ϊ 98,94 84.73 28.2216 99,2 82.6 c ir4 28,2252 98,77 82.62 28.186 99, 13 83.39 c rS 30.552 98.54 84,1 30.092 99.32 86,92 chr( 33,0796 98.29 85.21 34.0625 99.54 85.72

。'

chr7 27.0121 98.48 80,3 30,5068 98.56 84,78 chrS 31.0447 99,74 88.57 98,62 76.71 c ir9 29,0676 99,02 82.61 98,25 75.31 chri O 27.8786 99.16 82,83 27,7149 98.6 80,43 cbrll 29.45 99, 13 82.79 98,92 82.33 chrl 2 29,4246 98.67 82.26 32.291 ) 98.84 83:73 c ri3 23.7642 97.54 74,79 345168 98.73 86,93 chrl4 29.7016 99.67 82.25 30.5752 85.76 c ri S 29.6648 99.01 80,93 29,7592 99.66 84,85 chrl 28,2079 98,26 79.6! 29,2325 98,36 83.27

卜

chri 7 98.63 86.27 30,4981 98.48 82,02 ehr!8 25.0695 98.73 75.49 34.6129 98.26 85.97 chrl 9 26.088 97.57 ?2.98 28.1044 95.73 ?2.88 chr20 30.171 98.08 81 ,9 30.3635 98.83 84,5.1 clirll 23,7753 94.16 7336 26.8191 98.47 75.99 chr22 30.6012 98.26 81 ,74 27.5009 74.69 ehrX 16.93? 98.66 67.18 14.918 98.79 62.83 chrY 34.6212 100 97.14 21.3816 S>9.78 ?5.94 图 6 示出了测序下机数据插入片段长度的分布，从图中可以看出，虽然未经过片段逸择，但插入片段大小在 0bp左右围 7示出了目标区域各个碱基的测序深度的分布情况，从 S中可以看出，大部分碱基（约 75¾ )的覆盖深度在 20X以上，如果继续加大测序量，則能保 »剩序覆盖深度的一个要求。图 8 展示了在数据比对过程中，所有比对上的 Reads 各个碱基位置发生错配的频率，根据测序原理,，測序质量随读长的增加而降低，測序錯误率随读长的增加西增加从图 8中也可以看出, 末端 Reads的错配数比较多，园此在后续变异检中应考虑末端測序质量问题图 9展示了目标基 ¾的测序覆盖情况，从图 9中可以看出，深度 i0:X以上，覆盖度达到 60%以上的基因达到了 80%, 说明探针对基 a的捕获无误, 继续加大測序量，别可满足在一定深上， 100⁽½覆盖所有的涉及到的基因， ¾ 10 展示了，探针芯片对组蛋白基因 MST2H3A基因及其启动子的捕获情况

至此，本实施例说明了剩用芯片摘获表观基 S组基 ¾启动子区和外显子区域的可行性，可以用于后续的变异检测分析和胞嘧啶甲基化检測的分析为能提高检测的准确姓，建议提高上.机祥品量，增加测序深度工业实用性

本发明的通量测序文库的构建方法及其应用，能够方便有效地应用子祥本的基因组特定区域的高通量測序文库的构建以及测序，进而，能够有效地用于后续的变异检测分析和胞嘧啶甲基化检測的分析，并且获得的文專质量好，测序及.分析結果准确尽管本发明的具体实旄方式已经得到详细的描迷，本領域技术人员将会理解根据已经公开的所有教导，可以对那些细节进行各转修改和替换这些改变均在本发明的保护范围之内本发明的全部范围由所附权利要求及其任何等同物给出

在本说明书的描述中，参考术语 "一个实施例 "、 "一些实施例"、 "示意性实施例"、 "示例"， "具体示例"、或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中在本说明书中对上述术语的示意性表述不一定指的是相同的实旄例或示例且，描迷的具体特征、结构、材料或者特点可以在任何的一个或多个实.途例或示例中以合适的方式结合 ·。

Claims

权利要求书

1 , 一种构建高通量測序文库的方法，其特征在于，包括以下步樣.：

将基因组 DNA片段化，以便获得 D A片段；

将所述 DNA片段进行末¾修复，以便获得经过末竑修复的 DNA片段;，

在所述经过末¾修复的 DNA片段的 3，末端添加碱基 A, 以便获得具有粘性末端 A的 DMA片段；

将所述真有粘性末端 A的 DNA片段与甲基化接头相连，以便获得连接产物；剩用特异性探针对所述连接产物进行杂交捕荻以便获得目的片段；

将所述 g的片段进行 PCR扩增，以便获得扩增产物；以及

分离純化所述扩增产物所迷 4广增产物构成所迷高通量测序文库

2, 根椐权利要求 1所述的方法，其特扭在于 ₅ 在进行杂交捕荻之后，在进行 PCR 增之前，将所述目的片段进行重亚减酸盐处理，以便将所述目的片段中非甲基化的胞嘧啶转换为尿嘧啶；

3 , 根据权 ^要求所迷的方法, 其特征在于，进一步包括从样本中提取基因组 DMA 的步驟

4, 根据权利要求 2所述的方法，其特征在于，所述样本来源于哺乳动物 > 植物，和微生物的至少一种。

5, 根椐权到要求 4所述的方法，其特征在于，所述哺乳动物为人和小鼠的至少一种 6,,根据权利要求 5所迷的方法，其特征在于，所迷基組 DNA为人类全血基组 ί)ΝΑ

7. 根据权利要求 6所述的方法，其特征在于，所述基 ®组 DNA为外周血单核细皰基

8、根据权利要求 I所述的方法，其特征在于 ₅ 所迷基因组 DNA的量为 2μ§:

9, 根据权利要求 1 所述的方法，其特征在于，利用 ccn ris S2打断仪将基组 DNA 片段化；

10、根据权利要求 1所述的方法，其特征在于，所述 D A片段的长度为约〖50- 30(¾p

11 ,很据权利要求 10所述的方法，其特征在于，所述. DNA片段的长度为约 200- 3(K¾jp; !2、根据权利要求 1所迷的方法，其特征在于, 在将所述: DNA片段进行末端修复前，进一步包括纯化 A片段的步 13、根据权利要求 12所述的方法其特扭在子, 将所述 DMA片段进行末端修复是利用 Klenow片段 > T4 DNA聚-合酶和 T4多核苷酸激酶进行的，其中；所述 Ktenow片段具有 5、 3'聚合酶活性和 3' 5、聚合錄活' I生,，但缺少 5' 3'外切酶活性；

14、根据权利要求 3所述的方法，其特征在于，将所述经过末端修复的 DNA片段的 3' 東端添加碱基 A是利用 I Ienow (3^!-5' exo-)进行的 ,.

15、根据权利要求 1所述的方法，其特征在于, 所述甲基化接头中包含标签

½、根据权利要求〗所述的方法 ₅ 其特征在于，将所迷具有粘性末端 A的 ϋΝΑ片段与甲基化接头相连前 ₅ 进一步包括对接头进行甲基化的步骤 ,

17、根椐权利要求〗所述的方法，其特征在亍，将所迷具有粘性末 ¾八的 0NA片段与甲基化接头相连是利用 Τ4 D A连接酶进行的 _:，

18. 根据权利要求 1. 所述的方法，其特征在于，在获得连接产物后，进一步包括对连接产物进行纯化的步璨

19, 根据权剁要求 1. 所述的方法，其特征在于所述特异性探针是对已知甲基化位点特异性的

20, 根据权利要求 19所述的方法，其特征在于，所述特异性！是基于采用人类基因组作为参考序列，并且采用已知具有甲基化位点的基 ®区域作为靶序列而设计的 .

21 , 根据权利要求 20所述的方法，其特征在于，所述已知具有甲基化位点的基因域包括逸自启动子区域、 Cp(3岛区域、 CpG岛外 S域以及印记基因区域的至少一种

22. 根据权 ^要求 20所述的方法，其特征在于，所述已知具有甲基.化位点的基因区域为表 1中所列出基因的至少一种的编码区和启动子区。

23 , 根据权刹要求 22所述的方法，其特征在于，所述编码区为外显子区域序列，所迷启动子区为基转录起始位点的上游 2200bf 到下游 5(Κ¾ρ的区域；

24、根据权利要求 23所迷的方法，其特征在于，所迷特异性探针是采用 eArray系统设计的 _s

25、根据权利要求 24所迷的方法，其特粗在子任逸地，所迷探针的长度为 12mar,

26、根据权利要求 1 所迷的方法，其特征在于，在所述杂交捕获前 _s 进一步包括利用 d DNA和接头封闭序列分別对所述连接产物和所述连接产物上的甲基化接头进行杂交封闭的步骤

1Ί、根据权利要求 26所迷的方法，其特征在于，采用过量的 c - / DNA对所述连接产物进行杂交封闭,： 28、根据权利要求 27 所述的方法，其特征在于，所述接头封闭序列包括选自 Blocki 和 Btoc 的至少一种，

29、根据权利要求 1所述的方法，其特征在于采用 Ι μ 的连接产物进行所述杂交捕歡。

30、根据权利要求 1 所述的方法，其特征在于，利用特异性探针对所述连接产物进行杂交捕获进一步包括利用链霉素磁珠捕获所述 Θ的片段

31. 根据权利要求 2 所述的方法，其特征在于，在将所迷目的片段进行重亚碇酸盐处理之前，进一步包括将所迷的片段与片段化的 λ -DNA混合

32、根据权利要求 31所述的方法，其特征在于所迷片段化的 λ -DNA的量为 200- 4«)ftg 33、根据权利要求 32所述的方法，其特征在于，所述片段化的 λ— DNA的量为 200«g

34、根据权利要求 2 所述的方法，其特征在于，将所述 ϋ的片段进行重 £¾酸盐处理是采用 EZ DNA Meihylation-Ciokl Kit™ ( ZYMO )进行的。

35、根据权剁要求】所述的方法，其特征在亍，使用热启动 taq DNA聚合酶进行所述 PCR扩增

36, 根据权利要求 1 所述的方法，其特征在于，分离純化所述扩增产物是通过选自磁珠純化、纯化柱純化和 2%的琼腐糖凝胶电泳的至少一种进行的.，

37, 根据权利要求 i所述的方法，其特征在于，分离純化所述扩增产物是通过 2%的琼脂糖凝狡电泳进行的

38. 根据权利要求 1 所述的方法，其特征在于，所述高通量测序文库的文库片段长度为 300- 45()bjp,.

39 , 一种确定样本的基 Θ组特定区域的甲基化信息的方法 _s 其特征在于，包括下列-歩 :

根据权利要求 1 -38任一項所迷的方法构建所述祥本的基因组特定区域的高通量测序文库；

对所迷祥本的基因组特定区域的高通量测序文库进行測序以便得到测序结果；以及对所迷測序结果进行数据分柝，以便确定所迷祥本的基 S组特定区域的甲基化信息

40、根据权利要求 39所迷的方法，其特征在于 ₅ 所述.测序是利用高通量测序技术进行的

41、根据权利要求 39所述的方法, 其特征在于所述测序是利用 Hisei|20C )测序仪进行的 _:，

42, 一种用于确定样本的基因纽特定区域的甲基化信息的装置，其特征在于，包括：

3S 文戽制备单元所迷丈库制备单元用于制备祥本的基因组特定区域的高通量測序文庠，所述文库制备单元内设置有特异性探针;

測序单元，所述測序单元与所迷文库制备单元相连，并且从所述文库制备单元 ¾收所述样本的基因組特定区域的高通量測序文库，以便.用于对所述样本的基因组特定区域的高通量測序文库进行测序, 获得测序结果; 以及

数据分析举元, 所述数据分析举元与所述測序单元相连，并且从所述測序单元 ¾收所述測序結果，以便对所述測序结果进行数据分析，确定所述样本的基 ®组特定区域的甲基化信息

43、根据权利要求 5 所述的装置，其特征在于所述特异性探 |·是对已知甲基化位点特异性的_:，

44、根据权 ^要求 43所述的装置，其特征在于所述特异性探针是基于采用人类基因组作为参考序列，并且采用已知具有甲基化位点的基因区域作为靶序列 > 设计的

45、根据权利要求 44所述的装置，其特征在于，所迷已知具有甲基化位点的基因区域包括逸自启动子 g域、 CpG岛区域、 CpG岛外区域以及印记基因区域的至少一种，

46 , 根据权利要求 44所述的装置，其特征在于，所述已知具有甲基化位点的基因 li域为表 ί中所列出基 S的至少一种的编码区和启动子区

47 , 根据权利要求 46所述的装置,，其特征在于，所述编码区为外显子区域序列，所迷启动子区为基因转录起始位点的上游 220( ρ到下游 500bp的区域

48 ,根据权利要求 47 .所述的装置，其特征在于，所述特异性探针是采用 eAr y系统设计的。

49 , 根据权利要求 48所述的装置，其特征在于，所迷探针的长度为 12mei;

50 , —种用于构建祥本的基组特定区域的高通量测序文库的试剖盒，其特征在于，包括：

特异性探针，所迷特异性探针是对已知甲基化位点特异性的

5 根据权利要求 50所迷的试^盒，其特粗在于所迷特异性探针是基于采用人类基因组伟为参考序列，并且采用已知具有甲基化位点的基 ®区域作为耙序列而设计的.

52、根据权利要求 51所迷的试剂盒，其特粗在于，所迷已知具有甲基化位点的基园区域包括选自启动子区域、 CpG岛区域,， CpG岛外区域以及印记基因区域的至少一种

53、根椐权利要求 52所迷的试剂盒，其特扭在于，所迷已知具有甲基化位点的基¾区域为表 ί中所列出基因的至少一种的编码区和启动子区。 54、根据权利要求 53所述.的试躬盒，其特征在于，所述编码 K为外显子区域序列所述启动子区为基因转录起始位点的上游 2200bp到下游 500l)p的区域

55、根据权 ^要求 54所迷的试剂盒，其特狃在于所迷特异性探针是采用 eArray系统设计的

56、根据权利要求 55所述的试剂盒，其特征在于，所迷探针的长度为 }2me