高通量測序文库的构建方法及其应用
优先权信息
本申请请求 20Π 年 U 月 .5 曰向中国国家知识产权局提交的, 专利申请号为
2011 10362032.2的专利申请的优先权和权益, 并且通过参照将其全文并入此处 技术领域
本发明涉及生物技术领域 具体地, 涉及 甲基化检测技术 特^是涉及基因 组特定区域的甲基化检测 更具体地, 本发明提供了一种构建高通量测序文库的方法, 一种确定样本的基因组特定区域的甲基化信息的方法、一种用于确定祥本的基因组特定 区域的甲基化信息的装置以及一种用于构建祥本的基因组特定区域高通量测序文庠的 试剩盒。 背景技术
D A甲基化是研究最为深入的表观遗传学机 , DNA甲基化在维持正常细胞功能 抑制寄生 DNA成分对基因组完整性的损害、 染色质结构修饰、 X染色体失活、 基因组 印记, 胚胎发育以及人类胂瘤发生中起着重要伟用, 是 前新的研究热点之一
然而, 目前对基因组待定区域如启动子区域、 CpG 岛区域、 CpG 岛外区域以及印 记基因区域的甲基化检测的研究, 仍有待改进。 发明内容
本发明旨在解决现有技术问题的至少之一 由此, 为了代表 检测基因组上特定区 域的甲基化信息, 本发明提供了高通量测序文库的构建方法及其应用
根据本发明的一个方面, 本发明提供了一种构建高通量测序文庠的方法.. 根据本发 明的实施例, 该方法包括以下步疆: 将基因组 0 A片段化, 以便获得 DMA片段; 将 该 DNA片段进行末端修复, 以便获得经过末端修复的 DNA片段; 在该经过末端修复 的 DNA片段的 3'末端添加碱基 A, 以便荻得具有粘姓末端 A的 DNA片段; 将该具有 粘性東端 A的 DNA 段与甲基化接头相连, 以便获得连接产物; 利用特异性探针对 * 连接产物进行杂交捕获、 以便荻得目的片段; 将该目的片段进行 PCR扩增, 以使荻得 增产物; 以及分离純化所迷扩增产物, 该扩增产物构成该高通量测序文库 根据本发 明的实施例, 可以采用的特异性探针是对已知甲基化位点特异性的, 例如, 该特异¾探 针是基于采用人类基因组伟为参考序列,并且采用已知具有甲基化位点的基因区域作为 靶序列而设计的, 其中, 该已知具有甲基化位点的基因区域可以为下表 1:中所列出基因 的至少一科的编码区和启动子区
表! 4分子功能相关基因
子功 & GO iD ( GO编号) Gene names i基. 名 ,1
CDYm AR B i ELP3 KA'OA SAP130 CREBBP ΚΛΤ8 |
MKTTLS TADA3 TADA2A TAF6L GEA5 «ΑΤ6Β 'TAF .ΛΤ5 |
Hisione (纽蛋 NC:OAi SUPT3H TAF5 SRC:AP HAT! CDY2B EPCi AT6A |
C(O:00ti4402
CLOCK EP300 TAF12 TAF i GTF3C4 MED24 KAT2B CDYL | TAF5L SNG3 PET! S? BRCA2 ELM EDFI BAZ1ASUPT7L TAFIO |
NCOA2 ΚΛΤ7 TAF SI.. TADAi |
SALLf HDACI ! HDACi HDAC8 HDAC2 HDACH) HDAC5
C;O:0<) 44{t7
HDAC'3 H1>AC4 HDAC6 iVSTA2 SiRTl Hi:)AC9
GO :0008469 PR T5 PSMTS PR T7
(¾>細 (i4M ΚΑ'ΠΑ B CA2
00:0010485 BRCA2 USP22
O:0(tI7!36 SiRT6Si T2 SI T!
EZH2 EH T2 SETD7 SUV3 H2 ASHiL MEN! SETDfi ΕΗΜ'Π
C3 ;0iH 024 OOTIL SU 3¾>Hi P DM2 SMYE SETDBi SETMA Sl;V42 H!
PRD 9 PRDM6 MLL2 WHSC1 WHSCIL! SETD A SETD2
GO:(M 1 ¾ L3MBi:iJ
HDAC? HDAC! 1 HSJAC! fflMCS. HDAC2 HDAC") HDAC5
00:0032041
HD— ΛΟ i-JDAC4 HDAC6 i«)AC9
00:0032452 KD 2 PHFS DMIA PHP2 JARED2
<K):(K>3245 'I4ori ->9KD iA
GO :0032454 M4C PHFS JHDMiD KDM 1 A ΡΉΡ2
GO:0«33?46 JMJD6
(¾)細 3749 JMJD6
<K):(K>34647 KDMSB
GO :()«34648
G :0«34 49 KDMiB
HDAC'? HDACi i HDAtM HDAC8 HDAO HDACH) HDAC 5
HDAC3 HDAC4 HDAC6 i-JDAC
GO :00 5033 Nt:OR! MAP 'i'P53
GO :(«35034 EIDI
G i SPi SH«2 Z8T87A EiDS TP53 MEF2A FOXP3
GO :0035035
EPASI GLG H!FiATAF?
CHDS CHDi CBX21NG4 KAT8 SUZI2 i Gl L3MBTL2 L.RWD ! |
PHF13 CBX5 NCAPD3 PHF8 ΪΝ02 CCDCtOS CSX4 WDR92 j
GO舰; 5064
GLY ί JHDMID CBX8 SP5NS. B8P51NG3 i C.5 TR.iM2 |
TDRD3 MSL3 UHRPI CBX7 PH 2 L3MBi:LS 腿 I
表 1-2生物学加工相关基因 生 ¾5学加工 GO ΪΙ) (GO编号 ) 基 ¾名
ϋυ/:i O Ϊ61£/-8oiAV
KUVBU I„BFI ARRBI MOR 4:SJ RUVBU D AP3: EPCi EPSOO TR5MI6 ΛΡΒΒί iRR TRRAP TCF3
(30:0043967
1NG3 BRCA2 USP22 YEATS-4 EP400 BROS UVBL2 EAF ORF4L1 DMAPi
00:0043968
EPCS TRRAP iKC;3 YEATS4 i3O:0»43973 L!>BS
GO:麵 3 ! INCM PHF16 PHFi 7 PHFi 5 KAT7
GO:0043¾82 ING4 MEAP6 PHFI6 ΡΗΠ7 PHFI 5 KAT?
!NC ΜΕΛΡ6 PHF16 PHFi? BRIM PHF15 AT7
SNG4 M AP6 PHF!ft KATS MSU MIX PHFi 7
<K>:0043984
S 1.3 PHF!.5 KAT? MSL2
GO:0(}43«)S5 PBMT5 PRMTl P KC!¾ COPRS
GO:0043¾8? PS6KA4 PS6 A5
RPS6KA4 PS6KA5
GO:0fM3 t>0 PS6i<Ai
€.0:004 154 KA1'2A Mi-AF BRD4
EHMT2 SUV39H2. S5-TDB2 ΚΗ Ί'ί SUV39HI
P DM5
CX MUA DPY30 Mil. KDM6A ASH2L WDR5 SETD!B LI..2 PAXfP! RHBP5 WD 82 MU..5
SETDiA
GO:翻 569 MLLCTCFL
<jO:005i57i D M'BB BRCAi MYB PAXIPf OCT DNMTi
CiO: t«!572 tlPISB CO
<;O: 05i5?3 D M'llB BRCAi PAX5 DN 'i'l
GO:«05J57 GFJiB MYB JA I 2
UB 2B
.fD
C.O:00 0i*?9 層: D6
GO:00705I2 BRCAI
GO.0070535 K S.6S
GO: 07(!537 U!MC! BRCC3
<;O: 0?0544 P11F8 JMJD5.ffli 'm) N()66 DM4A
G():<}070734 ΕΗ 'Π
GO:0i)?0932 HDA l HDAC4 Si T! HDAC:9 ί30:ί>ί}7(!933 HDAC'i RCO i I-ST eDAC4 Hf>AC<i
(30:007 i! 10 HLi::S
<K>: 0?i557
GO:«07JS9 WAC
GO:!5072355 C.SG2
ίΚ»:0額) ·24). SPSi CT'BPl
ί3Ο:2('Κ)0 1 α.ΐΕί"
GO:20006I7 B CAl
<Χ):20{!()620 BRC.'Ai
GO:0( 0029 GPXI BAZJB GLMN CTCF
(:'Ο:(>ίΜ(ΚΒ0 ASIP CTCF
炎.現 j 传学
GO舰 34 SPIi T I.M27 DNK-1T3 (IPC! C&EBZf
00:0045815 SLC50AS
D!RAS3 DNMT3L D MT3A GS 3A EKD KDM 1 B
GO:«0034 DHMT3B KDM! R ZFP57 CTCFL KC QS CTCF 基因印记
10F2 P MT7
GO:007!514 ASiP ND C5NAS AX!KI
€ιΟ;0Ι )(!ΐ:ΐ3 LW-2A SiRT2 SMARCAS SUV39HI S!RTl PB
<;O: (KH672 TLK 1 ΎΙΚ2
SA B EZH2 VCX S0X2 L WOi HN-iG2()B H.DAC5 HMGA2 SUV39H1 SOX 1 SO i
<;O: (Ki6325 :
MiSr!H4K TC iF?LI HMQ HMG2 A MiMi
ACTL6B SATBl
ASFIA SUV39H.2 HD S iAC8 SMARCAS ASF IB
BAZIB 'HD3服 ΪΡ3. TA2
CHDl HDACi RSFi ARID t i ¾ A SM A CC2 S A CDi SATB2 AT2A BAZ2A SUV39H2 t'HDiL RESE I OSO SMARCBI TAF6L MEN i BPTF .KJXAl HDAC'2 S¾JIT6B: SMYD SMARCCi SUP'f'SH SMA ;: A5 P. 2 SMA C!-I HDACS
GO:6006338
HiLSl RBBP4 S ARCA2 S ARCD3 FOXP3 S ARCA4 ΜΎΒ <Ήί>6 H FiA SMARCAI H AC4 A'"i'2BPBR.Mi Β ΪΡ3 A(:'Ti..6B SL;PT }li C!I!RA '! SOX CBX3 TTFl BAZlARBi T F! ACTLAA
KLFi SMA C:D2
SI 7'2 HDACS HiLSi SI T4 MU.2 SI T5 UBS2
G():<K !6342
SiRTi TNP1
i3O:0t;06.¼S SIET!
(;0:《 W)344
! MT5A HELLS MBD3 DNMT3B SMARCM
GO:糊 6346
SiSTS
00:0006348 SS T2 HATS
丽D/:/ O Ϊ69 ZIOZX工) d 9.8ΐ.0εΐΟΖAV
Ϊ69丽 ZIOZXD/工:) d 9.8ΐ.0/εΐΟΖ OAV
LHDC3 CREB! TALS NCO i ARlDi A PPPI RIO RCCi LDB i M EI ί A SARA HDAC2 CEBP8 X3 CT!'£D2 UBE2A議 Λ PM2 JU AR POCiZ BA D2 GATA3 TiMELESS ΊΤ53 RJH3 I3F2A PHOX2H S ARCA2 S A12 SR VSP3 S ARCD3 SCRT2 HNRNFK PAX6 SMARCA4 RIDI MEF2C UBE28 H! PNT D Xl \ TiPiN PHOX2A CBXfi PLCBl BKi)4 RXRA KDM! A PCGF2 STAT6 SS..X4 MSH6 MYOD APT.X
CBX7 PER Si Ti
GO ;000079] D MT3A
SALI.J MBD2 C8X2 CBX6 HDAC2 DAXX (H«2 MBD3 SUVi«HI SMAHCA4 MECP2 TOP2B CBX8 SALL4 UHB.Fi CB 7
Ρί . SUZ!2 BED F2 PMC!B K.iNG!
CK):0 O56?7 B,<\Z2A Si T2 BAHDI SMA CA5 SiJV39H! SiRTS
(K):i聽 6?S NAPi L3 CHAFIB ΝΛΡΙ1.2 NAP I Li Ci-iAF!A NAPH.
SMAKCA4 RBMX CEC 2 TRI 28 T 24 CBX3 ALKSHJ
GO細 57 ΐ 9
Sffi.I'l
TCP! D MT3I, SUV39H2 D MT3A VDR C X5 DNMT3B ATRX AiCFCBXS PSSPi TR1M28 CBX3 SI Ti SATSI FOXCI
HELLS LRWDI BAZiH S CEN? 8XI IKZFI D Mll
«): (励 5 ?24 SIRT6 T KSS 8P!
GO :0005 ?26 NUFSF! S.V1ASCA4 TH.i. 24
CK):0OO8623 C'HRAC'i AZ!A
ASFiA. SM— ARC.D'i S MARCH! BMiO lFi ί MAEL ΒΛ.Ζ1 B CHD3 ESR1 SMARCA1 AT2B SOX9 MVS Ml ACT A
(;;0:(»3!6!8 C.BX5 NCAPD3 CBX3
<):CK 1933 S..RWD1
GO:0i)33553 BAZ2ASUV3 Hi Si TS RRP8 eXOSO EXi)SC:i0 PSIPi EXOSCS EXOSC:4
GO: 0SS9B5 HKIGAI CDK 2A HMGA2
Ϊ69丽 ZIOZXD/工:) d 9.8l.0/ClOZ OAV
利用根据.本发明实施倒的构建高通量测序文库的方法, 能够有效地构建基因组
DNA样品的高通量測序文库 ,特^是能够有效地构建基因组 DNA祥品的已知甲基化位 点的特定区域的高通量测序文戽, 从 能够有效, 充分地应用于高¾量测序技术 通过 对文库的测序, 然后基于对测序结果的数据分析, 能够有效地获得基因组特定区域的甲 基化位点信息, 实现对基因纽 DNA样品的基因组特定区域的甲基化检測
根椐本发明的另一方面,本发明提供了一种确定样本的基因组特定区域的甲基化信 息的方法„ 根据本发明的实旄例, 该方法包括下列步骤: 根据前面所述.构建高通量测序 文库的方法, 构建该祥本的基因组特定区域的髙通量测序文库; 对该样本的基 组特定
E域的高通量測序文库进行测序,以便得到测序结杲;以及对该测序结栗进行数据分析 以便确定该样本的基因组特定区域的甲基化信息
利用根据本发明实施例的确定祥本的基因组特定区域的甲基化信息的方法 5能够准 确地确定祥本的基 组特定区域的甲基化信息,从而实现对样本的基因組特定区域的甲 基化检测,:
裉据本发明的再一方面,本发明提供了一种用于确定祥本的基因组特定区域的甲基 化信息的装置 根椐本发明的实滬例, 该装置包括: 文戽制备单 该文库制备单元用 于制备样本的基因,组特定区域的高通量测序文库, 该文库制备单元内设置有特异姓探 针; 测序单元, 该測序单元与读文库制备单元相连, 并且从该文库制备单元接收该祥本 的基因组特定区域的高通量測序文库,以便用亍对 ¾样本的基因组特定区域的 ¾通量测 序文库进行測序, 获得测序结果; 以及数据分析单元 该数据分析单无与该测序单元相 连、 并且从该測序单元接收该测序结果、 以便对该測序结果进行数据分析, 确定该祥本 的基因纽特定区域的甲基化信息
利用根据本发明实施例的用于确定样本的基因组特定区域的甲基化信息的装置,能 够方便准确地确定祥本的基因组特定区域的甲基化信息,可以应用亍多种针对基因组特 定区域的甲基化的研究
裉椐本发明的又一方面,本发明提供了一种用于构建祥本的基因组特定 S域的高通 量测序文库的试剂盒 根据本发明的实旄例, 该试剂盒包括: 特异性探针, 该特异姓探 针是对已知甲基化位点特异性的„利用根据本发明实拖倒的用于构建样本的基因组特定 区域的高通量测序文库的试剖盒,能够方便有效地构建祥本的基. 组特定区域的高通量 測序文库
本发明的附加方面和优点将在下面的描述中部分给出 部分将从下面的描述中变得 明显, 或通过本发明的实践了解到 附图说明
本发明的上迷和 /或附加的方面和优点从结合下面附 S对实施例的描迷中将变得明 显和容易理解, 其中:
图: 1: 显示了 ^据本发明一个实施例的构建高通量测序文库的方法的流程示意 S; 图 2: 嚴示了根据本发明一个实旄例的方法确定基 S组特定区域甲基化信息时、 在不同 覆盖深度下(覆盖深度》 1及覆盖深度 > 5 ), 每条染色质上的捕获区域占探针靶区域的百分 比 S ;
3: 显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时, 在不同 覆盖深度下, 各条染色质中检測到甲基化信息的启动子占该染色盾的总启动子的百分比图; S3: 4: 显示了根据本发明一个实施例的方法确定基因组特定 域甲基化信息时, 基因组 上启动子区域、 CpG岛、 CpG岛外(在本文中指为 CGI shore )及印记基因区域的甲基化水 平分布结 5 其中,
(a) 显示了银据本发明一个实旄例的确定的样本的基因组 QpG岛、 CGI shore 域 的甲基化水早分布图,
(b) 显示了根据本发明一个实施例的确定的祥本的基 组启动子区域的甲基化水 平分布图,
(c) 显示了祥本的基 S组特定区域的原始分布和根据本发明一个实旄例的确定的 祥本的基因,组特定区域的高通量测序文库的 reads分布及启动子、 CpG岛区城的甲基化水平 分布 S;
5:显示了根据本发明一个实施例的用于确定祥本的基因组特定区域的甲基化信息的 装置的示意 S ;
¾ 6: 显示了根据本发明一个实施例的测序读段(在本文中也成为 "reads" ) 的插入片 段长度分布;
图 7: .¾示了根据本发明一个实施例的捕获区域的各碱基的测序深度和累积测序深度统 计图;
S 8:显示了根据本发明一个实施例的在读段比对过程中各位置減基错配发生頻数的示 意 S;
9:显示了根据本发明一个实施例的炎黄细皰系捕获的各表 51相关基因在不 1 深度下 的覆盖 t和累计覆盖度的示意图; 以及
围 10; 显示了根据本发明一个实施例的个别捕获基 ®的测序覆盖的直观, ¾示结果 发明详细描述
下面详细描述.本发明的实施例, 所迷实旄例的示例在附图中示出, 其中自始至终相 同或类拟的标号表示相 或类似的 件或具有相同,或类 功能的元件 下面通过参考 图描述的实旄例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制 构建高通量測序文库的方法
根据本发明的一个方面, 本发明提供了一种构建¾遢量測序文库的方法 参考图 1 , 银 据本发明的实施例, 该方法包括以下步疆:
首先, 将基因组 DNA片段化, 以便获得 DNA片段。 在本发明中所使用的术.语 "DNA" 可以是任何包含脱氣核糖核苷酸的聚合物 ,包括但不限于经过修傳的或者未经修饰的 DN A。 本领域的技术人员可以理解,, 基因组 DNA的来源不受特别限制, 可以从任何可能的途径获 得, 可以是通过市售直接获得, 也可以是从其他实验室直接获取, 还可以是直接从祥本中 提取 Λ 根据本发明的实旄例 , 可以从样本中提取获得基 !¾组0!^^ 根据本发明的一个实施 例, 抅建高通量剩序文库的方法可以进一步包括从祥本中提取基因组 DNA的步 t 根据本 发明的一些具体示例, 祥本可以来源于哺乳动物、 植物、 和凝生物的至少一种。 木发 明的一些实旄例, 哺乳动物可以为人和小鼠的至少一种 根据本发明的一个实施例, 基因 组: DNA可以为人类全血基因组: DNA, 优逸为外周血单核细胞基.因組 DNA 发明人发现, 当采用 YH ceil基 組 DNA构建高通量 ¾序文库时, 从样本中提取基因组 的操作方
is
便易行, 且获得的 DMA质量好、 甲基化信息完整, 由其构建的样本的基因组特定区域的髙 通量测序文库能够方便地应用于髙通量测序技术, 从而基于对测序结杲的数据分斩就能方 便有效地荻.得祥本的基因组特定区域的甲基化信息, 根据本发明的实旄例,, 基因组 DNA的 量不受特別限制, 根据本发明的具体示倒, 优逸基因組: D A的量为 2 g 发明人惊奇地发 现, 当基因組 DNA的量为 2 g时, 根椐本发明实施例的构建高通量测序文库的方法构建的 祥本的基因,组特定区城的高通量测序文库, 能够非常方便地应用于高通量測序技术, 如 Sotexa測序技术, 且文戽测序结果准确,, 可重复性好, 包含的特定区域的甲基化信息准扇、 甲基化位点覆盖率高
其次, 将 DNA片段进行末端修复, 以便获得经过末端修复的 DMA片段 Λ 根据本发明 的一个实施例, 在将 DNA片段进行束端修复前, 可以进一歩包括純化 DMA片段的步驟, 由此, 使得后续的末端修复易于进行 裉据本发明的实旄例, 将: DN A片段进行末端修复可 以利用 Kkmow片段、 T4: DNA聚合酶和 T4多核苷酸激酶进行, 其中, 所述 Kienow片段具 有 5,- 3,聚合酶活姓和 3'→5,聚合酶活性, 但缺少 5'→3'外切酶活性 由此, 能够方便准确 地对 ί)ΝΑ片段进行末端修复 根据本发明的实施例, 还可以进一步包括对经过末端修复的 DMA片段进行纯化的步黎, 由此能够方便地进行:后续处理
接下来, 在经过末端修复的 DMA片段的 3'末端添加碱基 A, 以便获.得具有粘性末端 A 的 DNA片段 根据本发明的一个实施例, 可以利用 Klerrow (3'- 5,exo- ), 即具有 3,→5'外切 鵄活性的 Kkmow, 在经过末端修复的 DNA片段的 3'束端添加碱基 由此, 能够方便准 确地将.减基 A添加到经过末镇修复的 DNA片段的 Γ末端 根据本发明的实施例, 还可以 进一步包括对具有粘性末端 A的 DNA片段进行純化的步 f 由此能够方便地进行后续赴理„ 接着, 将具有粘姓末端 A的 DNA片段与甲基化接头相连, 以便获得连接产物 本发明 中所使用的术语 "甲基化接头 5' 是指这祥的一种接头, 在其核苷酸序列中, 所有 C位点均 被甲基化修饰 根据本发明的一个实滬^ ,在将具有粘' ϋ末端 A的 DNA片段与甲基化接头 相连前, 可以进一步包括对常规测序所使用的接头进行甲基化的步骤 由此, 能够有效避 免测序接头对后续重亚硫酸盐处理等操作带来的千扰;, 例如重亚疏酸盐处理处理过程中接 头序列可能会被改变 本领域的技术人员可以理解, 对接头进行甲基化的方法不受特別限 制, 可以利用本领域已知的任何方法对测序接头进行甲基化
根据本发明的一些实施例, 甲基化接头中还可以进一步包舍标签, 由此可以方便地同 时构建多种样本的基因组待定区域的高通量测序文库, 并能够有效地应用于高通量测序平 台, 从 在对测序结果进行数据分析后, 基于标签的序列信息, 就能够准确地区分多种样 本的基因,组特定区域的高通量测序文戽的序列信息以及样本的基因组特定区域的甲基化信 息, 由此 能够充分地利用高通量测序平台, 且能够节省时间、 降低成本
根 本发明的实施倒, 标签的长度为 6bj>, 在文库制备时不同祥品分别连接不同的标签 接头, 捕获前将多个不同文库混合到一起形成一个新文库, 使用该新文库进行探针捕获并 测序 測序所得数据是多个样品混合在一起的, 此时根据每段 reads (测序仪所读出的序列
结杲) 中不同的标签序列将不同祥品 分开 此方法可以大大降低成本、 时间、 人力 根 据本发明的实施例
根据本发明的一个实旎倒, 将具有粘性末端 A的 UNA片段与甲基化接头相连是利用 T4 DNA连接 ¾进行的, 由此可以方便地获得连接产物 根据本发明的实旄例, 还可以进一 步包括对连接产物进行純化的步骤, 甴此能够方便地进行后续处理,:
然后, 利用特异性探针对所述连接产物进行杂交捕获 > 以便获得目的片段 根据本发 明的实滬例; 这里的术语 "特异性探针" 是指探针是对已知甲基化位点特异性的 裉据本 发明的具体示倒, 特异性探针是基于采用人类基 组作为参考序列, 并且采用基 组上已 知具有甲基化位点的特定基 S区域作为耙序列而设计的, 具体地, 已知具有甲基化位点的 基因区域包括逸自启动子区域, CpG岛区域、 CpG岛外区域以及印记基因区域的至少一种, 由此, 剩用根据本发明实旄倒的特异牲探针迸行杂交捕获, 能够有效地捕获样本中与耙序 列互补的序列、 即祥本中已知具有甲基化位点的基因区域(在本说明书中, 有时也称为 "基 因组特定区域" λ
根据本发明的实施例, 可以用于设计特异性探针的已知具有甲基化位点的基 ®区域为 表 .!中所列出基因的至少一种的编码区和启动子区 ,根据本发明的实施例、 所述编码区为外 显子区域序列 , 所迷启动子区为基 S3转录起始位点的上游 2200bp到下游 50«bp的区域 根 据本发明的实施例,, 所迷特异性探针是采用 eAxray系统设计的、' 银据本发明的实旄倒 任 逸地, 所述.探针的长度为 i 2mer
如前面表!所示的基因是发明人利用 gem? tmto!ogy等数据库资源, 经过大量试验鋒选 荻得的。 发明人意^发现采用这些基因制备的探针能够最有效地捕获所期望的 的片段, 并且有助于后续的研究 根据本发明的实施例, 可以采用基 S TSS (转录起始位点)上游 2200bp到下游 500bp作为 promoter (启动子) 区域, 以及 excm (外显子) 域序列传为基 因的编码区, 并针对这些区域的序列信息进行捕获探针的设计 另外, 令人吃惊地, 利用 这些基 座位靶篩选得到的测序结杲 ,, 对于各染色体的覆盖不存在偏差
根据插黢的互补配对原则, 单链状态的捕荻探针可以与单链状态的目的序列互补结合, 从而成功地将 11标区域捕获 根据本发明的实施例, 探针设计可逸择固相捕荻芯片 (探针 固定在闺体载体上)或液相捕获探针(探针游离在液体中), 然而 相捕获芯片因探针长度、 探针密度、 价格偏高等诸多因素 制, 液相捕获即作为首选 ¾
根据本发明的实施例, 采用安捷伦公司 ( AgiieM ) 的探针设计系统 eA y设计探针, 探针长度 120i r, 探针可覆盖长度范围大, 从小于 200kb到 24Mb甚至更长,, eAn'ay探针 设奸系统可以方便地使用生物信息学工具 window masker (窗《序列屏蔽, )和 repeat masker (重复序列屏蔽)对 标区域分析并进行屏蔽, 由此 , 可以避免对这些区域进行 #针设计, 非常有效地减少实验中的捕获千扰以及后续序列分柝时发生的比对千扰; 并且縮短覆盖长 度可以在一定程度上减少成本,:
根据本发明的实施例, 核酸中高 CG ( CG碱基含量高于 60% )序 由于碱基 C、 G的 分子結构不同会导致捕获效率低于常规( ATCG碱基平均含量各 25% )序列 , 对于重点研究
对象 CGI ( CpG island, CpG岛) 区域, 可以通过提高探针设计量 更.好更多地得到( 数据
此外 根据本发明的一个实施例, 在杂交捕获前, 可以进一步包括利用诸如 c / DNA 和接头封闭序列的单链寡核苷酸对连接产物(尤其是连接产物的基因组序列中的重复区域) 和连接产物上的甲基化接头进行杂交封闭的步骤,:发明人俅奇地发现, 当使用 d/ DNA和 接头封闭序列分別对连接产物 (尤其是.连接产物的基因组序列中的重复区域)和连接产物 上的甲基化接头进行杂交封闭后, 能够显著地增强对连接产物的杂交捕获 根.据本发明的 实施例, cj-ί ί》ΝΑ的使用量不受特別限制, 根据具体的示例, 优选采用过量的 DNA 对连接产物的基 组序列中的重复区域进行杂交封闭 其中, 这里所使用的术语 "过量'' 是指 c -! DNA的量远大亍待进行杂交捕获的连接产物的量 即采用 cj-l D A的量可以是 待进行杂交捕获的连.接产物的量的 2倍以上 根据本发明的具体示例 优选,,采用 cj-ί DNA 的量为待进行杂交捕获的连接产物的量的 5倍, 根椐本发明的一些实施例, 采用 cj- / DNA. 的量小于待进行杂交捕获的连接产物的量的 5 倍, 则封闭杂交不彻底, 重复序列的非特异 性强杂交背景信号干扰强烈,严重影响核酸杂交的效率; 采用 C/ DNA的量大予待进行 杂交捕获的连接产物的量的 5倍, 则过多的 c -l DNA会影响探针与连接产物的结合, 同祥 会影 ^核酸杂交的效率 由此,采用待进行杂交捕获的连 4^产物的量的 5倍的 cj DNA对 连接产物的基因组区域重复序列进行杂交封闭, 能够方便、 有效地进行封闭, 以去摔重复 序列 DNA, 从而在后续的核酸杂交过程中, 能够有效避免重复序列产生的非特异 ¾强杂交 背景信号的千扰, . 著提髙核酸杂交的效率, 增强杂交效果 根据本发明的实施例 接头 封闭序列包括逸自 B!ock l和 Btock2的至少一种, 由此, 能够有效地对连接产物上的甲基化 接头进行封 根椐本发明的实旄例, 可以采用 ! ig的连接产物进行所述杂交捕获、 由此 能够提高杂交捕获的效率 根据本发明的具体示例, 利用特异姓探针对所述-连接产物进行 杂交捕获,, 可以进一步包括利用链尊素磁珠捕荻目的片段, 由此, 能够高效地捕获 的片 然后, 将目的片段进行 PCR扩增, 以便获得扩增产物 根据本 明的实施例, 可以使 用热启动 taq DNA聚合酶对经过转换的 ϋ的片段进行 PCR扩增 根据 ·本发明的实施例, 热 启动 taq DNA聚合酶的种类不受特別限制, 根据本发明的具体示例> 热启动 iaq DNA聚合 酶可以为 r-taq聚.合酶, 由此 PCR扩增效率高、 用时少
最后, 分离純化扩增产物, 所得到的扩增产物构成全基 ®组甲基化高通量测序文库 根据本发明的实旄倒, 分离純化扩增产物的方法不受特躬限制, 根据本发明的具体示例, 可以通过逸自磁珠純化、純化柱純化和 2%的琼腊糖凝胶电泳的至少一种进行,忧选通过; 2% 的琼腊糖凝胶电泳进行 根据本发明的一些具体示例 , 高通量測序文库的文库片段长度为 300~450bp, 由此, 高通量测序文库能够方便有效地应用于高通量測序平台如 Soiexa测序年 台, 且可重复性好 測序结果真实可靠 包含特异性探针所针对的基 ®组特定区域的甲基 化信息较完整,
根据本发明的实旄例, 在得到 的片段之后, 可以将目的片段进行重亚硫酸盐处理 , 以便将 §的片段中非甲基化的胞嘧啶转换为尿嘧啶, 获得经过转换的 的片段 根据本发 明的实施例, 在将 的片段进行重 硫酸盐处理之前 , 可以进一步包括将 !3的片段与片段 化的 λ -DNA混合。发明人发现,通过添加外源 DNA ( λ -D A h即将目的片段与外源 DNA 混合, 然后进行重亚 酸盐高效共处理, 对 标 DNA片段能够起到保护诈用, 最大限度地 降低重亚硫酸盐对徵量 DNA的破坏,可以进一步提高检测精度,使得较少量的基因组 DNA, 甚至纳克级, 例如 5(M5(hig基 组的甲基化检測成为现实 根椐本发明的实施例, 片段化 的 λ -D A 的添加量不受特 »\限制 5 根据具体的示例 优选片段化的 λ -D A 的量为 2{K}-40Ctag, 更优选为 20( g 本领域技术人员能够理解 可以通过本领域已知的任意方法 制备这些片段化的 λ -DNA, 倒如可以随同前面的 DNA片段化处理一起进行制备。
重 碗酸盐处理可以通过本领域已知的任何方法进行 根据本发明的具体示例 可以 采用商品化的试剂盒进行, 优选地采用 EZ DNA Methylation-Gold Kit™ ( YMO )进行 发 明人惊奇地发现, 采用 EZ DNA Methylaiion-Goid Kit™ ( ZYMO )对 U的片段进行重亚硫酸 Ik处理时, 方便快捷, 且处理效杲好, 3的片段中非甲基化的胞嘧啶能够高效准确地转换 为尿嘧啶 并且剁于后续处理
由此, 根据本发明的实施例 5 可以在捕获后直接测序> 进而 > 基于测序結果可以进行 基因的单核苷酸多态性( SNPs )、 核苷酸突变、 插入、 缺失 ( iiidel )或拷 . 数变化 ( CNVs ) 分析 也可以在捕获后经重亚碇酸盐处理及测序进行 DNA甲基化状态分柝, 由此, 可以进 行如甲基化密度, 不同元件甲基化氷平、 胞嘧啶甲基化分析和差异性甲基化区域( DMRs ) 分析等
利用才 据本发明实施例的构建高通量测序文库的方法 能够有效地构建样本的基园组 特定区域的高通量测序文库,, 从而能够有效、 充分地应用于高通量测序技术, 通过 f高通 量测序文库的测序, 然后基于对测序结果的数据分折 就能够有效地获得样本的基因组特 定区域的甲基化信息, 实现对祥本的基因組特定区域的甲基化检测 确定样本的基因组特定区域的甲基化信息的方法和装置
根据本发明的另一方面 5 本发明提供了一种确定样本的基因组特定区域的甲基化信息 的方法。 根据本发明的实施倒, 该方法包括下列步槳: 根据本发明实旅例的构建高通量¾ 序文库的方法构建祥本的基因组待定区域的高通量测序文库; 对读样本的基因组特定区域 的高通量测序文库进行测序, 以使得到測序结果; 以及对测序结果进行数据分树 以便确 定祥本的基 组特定区域的甲基化信息
根据本发明的一些实施例 測序是利用高通量^序技术进行的,. 本領域的技术人员可 以理解, 可以通过本領域已知的任何高通量测序技术进衧测序、 裉据本发明的具体示例 , 优选地利用 H o OOO測序仅进行测序 发明人发现, ^用 ffis¾|2000测序仪对样本的基因 组特定区域的高遏量测序文库进行測序, 能够有效地获得测序结果, 且¾序用时少、 效率 高、 测序结果准确, 可重复性好
利用 .根据本发明实施倒的确定祥本的基因组特定区域的甲基化信息的方法, 能够有效 地构建样本的基 组特定区域的高通量测序文库, 并且能够通过高通量測序技求如 Sokxa 剩序技术实现对文库的准确測序, 基于对測序结果的数据分析 就能够准确地确定祥本的 基 ¾组特定区域的甲基化信息, 从而实现对.祥本的基因组特定区域的甲基.化检 , 且特定 区域的甲基化位点覆盖多, 获得甲基化信息完整,:
根据本发明的再一方面, 本发明提供了一种用于确定祥本的基因组特定区域的甲基化 信息的装置 参考图 5, 根据本发明的一个实旄例, 该装置 1000包括: 文库制备单元 100、 剩序单元 200以及数据分析单元 3()0,,
根据本发明的实旎倒, 文戽制备单元 100 用于制备祥本的基因组特定区域的高通量测 序文库, 其中, 文库制备单元 00 内设置有特异性探针 根据本发明的实旄例 特异姓探 针是对已知甲基化位点特异性的 根据本发明的具体示例, 特异性探针是基于采用人类基 因,组作为参考序列、 并且采用基因组上已知具有甲基化位点的特定基因区域作为靶序列而 设计的, 具体地, 已知具有甲基化位点的基因区域包括逸自启动子区域、 CpG岛区域、 Cp<3 岛外区域以及印记基因区域的至少一科 由此, 利用根据本发明实施例的特异性探针进行 杂交捕荻, 能够有效地捕获榉本中与靶序列互补的序列 即样本中已知具有甲基化位点的 基 ®区域。 由此, 文库制备单元 100 可以适于实旄前面所迷的高通量测序文库构建方法 根据本发明的实施例, 可以用于设许特异性探针的已知具有甲基化位点的基因区域为表 !: 中所列出基因的至少一种的編码区和启动子区,, 根椐本发明的实施例, 所述缟码区为外显 子区域序 , 所迷启动子 E为基因转录起始位点的上游 2200bp到下游 500bp的 S域„ 根据 本发明的实施 , 所述特异性探针是采用 eArray系统设计的。 根据本发明的实施例, 任选 地5 所迷探 |-的长度为 12mer。 关于探针, 前面已经进行了详细描述, 在此, 不再赘迷
测序单 200与文库制备单 100相连, 可以从文库制备单元 100接收所制备的样本 的基因组特定区域的高通量测序文库, 并对所接收的样本的基 ®组特定 域的高通量 *序 文库进行測序 , 从¾可以获得测序结果
数据分析单元 300与剩序单元 200相连, 可以从测序单元 200接收所获得的测序結果, 并且能够进一步对测序结杲进行数据分析, 从而基于分析结果确定样本的基因組特定区域 的甲基化信息 , 最终实现对样本的基因纽特定区域的甲基化检测》
本領域技术人员,能够理解的是, 可以采用本领域中已知的任何适于进行上迷搡作的装 置作为上述各个单元的组成部件 在本文中所使用的术语 "相连" 应作广义理解, 可以是 直接相连, 也可以通过中闽媒介闽接相连, 对于本领域的普通技术人员而言, 可以根据具 体情况理解上述术语的具体含义
利用根据本发明实施例的用于确定样本的基固组特定区域的甲基化信息的装置 > 能够 方便准确地确定样本的基因组特定区域的甲基化信息 , 从而可以应用于多种针对基因组特 定区域, 如已知甲基化位点的基因,组区域的甲基化的研究, 例如可以用于对基因组特定区 域的甲基化异常进行检测 ,
试剂盒
恨据本发明的另一方面, 本发明提供了一种用于构建样本的基因組特定 城的高通量 剩序文库的试剂盒 根据本发明的实施例, 该试剂盒包括: 特异性探针, 该特异性探针是 对已知甲基化位点特异性的, 根据本发明的一些具体示例, 特异性探针是基于采用人类基 因組作为参考序列, 并且采用基因组上已知具有甲基化位点的特定基 区域作为靶序列 ¾ 设计的, 具体地, 已知具有甲基化位点的基因区域包括逸自启动子区城、 CpG岛区域、 Cp(3 岛外区域以及印记基困区域的至少一种, 由此, 利用根据本发明实旄例的特异性探针透行 杂交捕荻, 能够有效地捕获榉本中与靶序列互补的序列 即样本中已知具有甲基化位点的 基 s区域 根据本发明的实施例 可以用于设计特异性探针的已知具有甲基化位点的基 a 区域为表】中所列出基因的至少一种的编码区和启动子区 才据本发明的实旄例 所迷编码 区为 显子区 净列, 所迷启动子区为基因转录起始位点的上游 220衡 p到下游 500bjp的区 域 根据本发明的实旄例, 所述特异性探针是采用 eArray系统设计的 根据本发明的实施 例, 任选地, 所迷探针的长度为 i2me 关于探针, 前面已经进行了详细描述, 在此, 不再 赘述
本领域的技术人员可以理解, 试躬盒中还可以进一步包括构建祥本的基因组特定区域 的高通量測序文库所需的任何其他组分, 在此不再贅述 ^用根据本发明实旄例的用于抅 建样本的基因组特定区域的高通量測序文库的试剂盒, 能够方便有效地构建样本的基因组 特定区域的高通量测序文戽
需要£明的是 , 根据本发明实施倒的构建样本的基因组特定区域的高通量测序文库的 方法及其应用, 是本申请的发明人经过艰苦的创造性劳动和优化工作完成的。 下面将结合实施例对本发明的实施方案进行详细描述, 但是本領域^ ¾术人员将会理解, 下列实施例仅用于说明本发明, 而不应视为限定本发明的范围、' 实施例中未注明具体技术 或条件的, 按照本领域内的文献所描迷的技术或条件(例如参考 1萨姆布鲁克等著, 黄培堂 等译-的 《分子克隆实验指南》, 第三版, 科学出版社)或者按照产品说明书进行,. 所用试剂 或仪器未注明生产厂商者, 均为可以通过市购获得的常规产品,, 例如可以采钩自 !ita! a 公司
实施例 1:
本实施例以 2pg的人类外周血单核细胞基因组 DN A为祥本, 按照下列'步骤实施 一、 基因组 DNA片段化:
利用 covaris-S2打断仪 , 按照下表设置的参数, 将祥本基因组 DN A进行片段化处理, 以便获得 DMA片段
将获得的 DNA片段进行电泳检測, 要求 DNA片段主带集中在〗50-300 之间 , 无蛋 白 RNA污染 利用 QIAquick; PCR純化试剂盒( Qiagra )或磁珠 ft化,将检測合格的 DNA 片段纯化回溶到 32μ1的洗脱緩冲液中, 备用,
用同样的方法制备 200- 400ng的片段化的 λ -DNA , 其中 λ -DNA为外源非甲基化的
I)将上一步获得的 DNA片段按照下表在〗 .5mL的离心管中配制末端修复反应体系:
D A片段 30 ΐ.
IhO 45 μΐ
ΙΟχ多核苷酸激時緩冲液 10 μί
dNTPs (每种成分均为 10mM ) 4 μΐ,
T4 DNA聚合酶 5 μΐ
Kienow片段 1 μΐ,
T 多核苷酸激酶 5 μί
总体积 100 μ∑
2) 将上述反应体系置子 20 的 Tterawmixer ( !Sppendwi)上 , 进行 虚 30 mm , 反应完 后用 QIAquick PCR纯化试剂盒(Qiagen )进行純化,最后将纯化产物溶于 34μ .洗脱緩冲液 三、 添加碱基 Α:
1) 将上一步得到的 DNA按下表在 1 ,5 niL的离心管中配制添加域基 A的反应体系:
D A 32 μί
Η)χ Bkie緩冲液 5 ,uL
!AIP (稀释为 ItnM, G£公司) Ι Ο Ι.
Kienow (3' 5, exo-) 3 μΐ 总体积 50 μΐ
2) 将上述反应体系置于 37 C的 Thermomke Eppei lorf)上, 进行反应 30 mm, 反应完 后用 MiniE!ute K:R.純化试剂盒( Qiagen )进行純化; 最后将純化产物溶于 2{)μ】_洗脱緩冲 液,.
四. 连接甲基化接头:
1)将上一步得到的 DNA按下表配飼甲基化接头 (有时也称为 "甲基化标签接头") 的连接反应体系:
DNA Ϊ 8 μϊ,
2x apid连接緩冲液 25 μί...
甲基化标签接头 * 4 μΐ..
T4 DNA连接酶(Rapid, L603-HC-L) 3 μΐ 总体积 50 μΐ
甲基化接头序列为:
接头 i : S' Piios/G CGGAAGAGCACACGTCTGAACTCCAGTCAC
接头 2: 5' 'aCACTCTTTCCClACACGACGC X'TTCCG T'CT
或采用以下标签接头进行混合杂交( Poo ng杂交. ): 接头 2': 5 ' mC:ACTCTTTCCCTACACGAC:GC1X:TTC:CG VrC:TNNNNNNT
接头 1和接头 2或接头〗 '和接头 2'序列中的 C均进行了甲基化修饰保护
2) 将上述反应体系置于 201:的 Thermoniixer ( Eppemtori)上 - 进行:反应 15 niin , 获得 '连 接产物 反应完后用 MiniEiute PCR 纯化试剂盒(Qiager 进行純化, 最后将純化的连接 产物溶于 22μ[ 洗脫緩冲液„
五、 杂交捕获 S的片段:
1、 设-计获得特异姓探针: 通过 SSAHA算法, 设计确定一套仅由唯一序列組成的特异 性探针 具体地,以人类基因組 hg,19为参考序列,选取全基¾组已知甲基化位点的约 to,ooo 个启动予、 28,000个 CpO岛、 28,000个 CpG岛外和 61个印记基因的区域作为靶序列设计 探针 其中, 将少于 200b 的区域通过填充朴足修改为 200bp的长度, 并且去除重迭 2域, 且要求探针的序列不存在重迭序列, 所有探针要满足在允许高达 3 个插入、 炔失或错配下 仍为唯一序列的条件,并且合成的每一条 DMA探针序列上分别通过偶联生物素作为后续的 捕获标记 然后, 通过 Rocte Nirab:te( en生产获得设计好的特异性探针, 备用
表 i 显示了根据本发明一个实滬^的特异性探针对靶区域覆盖度的评估结杲 由表 1 可知, 该探针几乎覆盖了基因纽全部的启动子区域、 绝大部分的印记基 和 CpG 岛、 CGI shore区域 发明人发现, 未覆盖到的区域大多是一些存在一定重复性的短序列区域, 若将 其增加到探针可 获范围内, 不仅会增加许多非 fc区域的数据信息, 时重复序列的存在 还可能影响到对其它区域的捕获效果, 而这些区域的甲基化信息含量较少, 且不会显箸影 响甲基化的整体水平, 因此不将这些区域作为探针的 序列
2、 杂交
I) 将上一步得到的连接产物, 按下表配制杂交反应体系:
用 Qubit i uorometer和相应的 dsDNA HS检測试躬盒 (liivitrogen)对所得到的连 接产物进行定量,然后取 l g的连接产物于一个新的 j .5mL的 管中,并加入 10 tuL Img/mL 的 CJ-J DNA和各 i nmoi的接头封闭序列 5 然后置于 SpeeciVac中于 60€下蒸干 > 备用 然 后, 在蒸千的 管中分別加入 2xSC杂交緩冲液和 SC杂交組合物
cj-1 DNA 5 g
连接产物
接头封闭序列 Block 1和 Block2*
2.xSC杂交緩冲液 7.5μί...
SC杂交組合物 A 3 ttL
总体积
*接头封闭序列为:
Block [: 5' GTGACTGOAGWCAGACGTGTGCTCTTCC'G ATC
Block2: 5' A<1AFCGGAA<1AGCGTCGTGT¾GGGAAAGAGTGX
或采用以下接头封闭序列进行混合杂交:
Blockl': 5' GTGACTGGAGTTCAGACGTCTGCTCTTCCGATCTNNNNNN
B1ock2': 5\A AGA GGAAGAGCGTCGl 'rA:GGGAAAGAGTGm
其中, Block; '和 8iock2'中的碱基 NNNNN'N分^和接头 1 '和接头 2'序列中的疾基 N旦 #配对。 将上迷反应体系混匀后置于离心机上全速离心 0秒, 然后将其转移至 teai bfock中于 95 下 育 10分钟, 使 D A变姓 ,.
4 )取出上述样品, 震荡混勾后于下室温全速离心 10秒, 然后将其转移至一个 CO mL 的 PCR管中或 96孔 PCR板中, 并加入 4.5 iL前面所述的探针文库、 震荡混匀, 然后置于 离心权上全速离心 10秒, 再将该 PCR管或 6孔 PCR板置于 PCR仅上, 于 4 C下杂交 64 -72:h, 其中 K:R,仅的热盖温度设置为
3、 序列捕获
1 ) 准备洗涤緩冲液
a)将以下四种洗漆緩冲液进行标释: lOxSC洗涤緩冲液 1. 10xSC洗涤緩冲液! I、 lO^SC 洗涂緩冲液 m和 2xStriiigeiii洗涤緩冲液, 稀释到 1 χ溶液后 ώ存, 其中! &存时间不宜超过 2周
h) 于 47 'C下预热配制好的 ί ml Stringent洗涂緩冲液和 1 mL SC洗涤緩冲液 ί两种溶 液
2 )准备链霉素磁珠
a)从本箱中取出 Dynabeads M- 2 Str piavidin (invitrageft)磁珠, 充分混匀后取 Ι ΟΟμΙ 于一个新的 1.5mL的 管中;
b) 将 EP 管置于磁力架上至澄清, 用移液 II小心的去除上清, 然后加入 ΙΟΟμΙ 的 Sirepiavidin Dyiiabead 结合洗涂缓冲液;
c) 将上述反应体系震荡 (Vertex) H)s, 混匀后, 将 EP管重新放回磁力架至液体澄清, 用移液器小心的去除上清;
d) 将上一步得到的反应体系进行两次洗涤;
e) 用 100μ£ 的 SircptavKfc Dynab ad 结合洗涂緩冲液将上述反应体系的磁珠进行重 悬, 并将其转入(L2 niL的小管中;
f) 用磁力架结合磁珠(将小管靠到磁力架上), 直到液体澄清, 用移液器小心地去除上 清
3 ) 利用链.霧素磁珠捕获 的片段
将杂交混合物吸出来 (记录杂交后剩余体积)加入到准备好的磁珠中, 吹打混匀 〗0次 后将小管放在 PCR仪上, 47€下孵育 45 rain (PGR仪热盖温度应设为 57Ό, 每隔〗5 ηώ, 取出震荡 3s, 以防止磁珠沉淀)
4 ) 洗涤结合了捕获 ί)ΝΑ的链霉素磁珠
a)粹育 45 min后, 将混合物从 .lmL的小管转入 1.5 ml的 EP營中, # EP管置于磁 力架上至液体澄清, 小心的去除上清;
b)加入 100 μΐ·预热到 471:的 ^洗涤緩冲液 L 震荡混勾 10s, 将 EP管置于磁力架上 至液体澄清, 小心的去除上清;
C) 从磁力架上取下 EP管, 加入: 200μί 顼热到 47r的】 x ½gCTt洗涤緩冲液 移液器 吹打混匀 10次(该操作应迅速以便管中的液体不低于 47 Ό };
d) 47X:T»育 5mi«后, 将: 管置于磁力架上至液体澄清, 小心的去除上清; e) 重复步驟 c)-d), 共用 IxSlrijigejit洗涂緩冲液洗两次;
ί)加 2W L室温放置的 _χ洗涤缓冲液 L 震荡混匀 2m¾, 如果液体減到管盖上、 用手 指轻弹 EP管使其集中到管底, 将 EP管置于磁力架上至波体澄清, 小心地去除上清;
g) 加 2«0μ. 室温放置的 .>:洗涂緩冲液 D 震荡混匀 1mm, 将 BP管置于磁力架上至液 体澄清, 小心的去除上清;
b)加 2()ί)μ ¾:温放置的 ί-χ洗涤緩冲液 m, 震荡混匀 30s, 将 EPf置于.磁力架上至液 体澄清, 小心的去除上清„
4) 洗脱结合了 13的片段的链-零素磁珠
a)在以上冼涤好的磁珠中加入 SO LSureSek^i:洗脱緩沖液 振荡 5s, 重悬磁珠; h )将上述反应体系于室温下孵育 )min5 将 EP管置于磁力架上 i(hxiin至液体澄清; c) 用移液器将上清液转移到一个新的 1.5mL 离心管中 (此时的上清液中含有捕获的 D A, 磁珠可丢弃);
d ) 向上清液中加入 5( iLSOTeSeieet中和緩冲液, 混匀;
e )用 MiniE!uie PCR純化试剂盒 ( Qiagen } 純化后 , 溶于 22μ11的洗¾緩沖液中。 六、 重亚硫酸盐处 -理:
2S
以前面制备好的 200- 400ng 片段化的 λ ΝΑ 作为夕 i、源 DNA 采用 EZ DNA Methy!atioii-Go!d Kit (ZYMO),将杂交翁荻的 的片段 DNA和外源 DNA—起进行重亚硗 酸盐共处理, 具体步驟如下:
1 )制备 CT转换试剂 ( CT Conversion Reagent )溶液:从试剂盒中馭出 CT转换试 j (面 体混合物), 分別加入 900μΙ的水、 50 L的 M-溶解緩冲液( M- Dissoivittg Buffer )和 30 iL 的 M-稀释緩冲液(M- D¾ilion Biifi¾ ), 室温下溶解并且震荡 10分钟或在摇床上摇动 10分 钟
2 ) 洗涤緩冲液的制备: 向 M-洗漆緩冲液中添加 24mL 100¾的乙醇, 备用„
3 )将待转换的 标片段 DNA与 λ -DNA混合物加入同一 FCR管中, 若不足 20μί.的 则用水朴足
4 )在 PCR管中加入 130μΙ_,的 CT转换试 溶液, 轻弹或移液器吹悬混合样品,
5 )将祥品管放到 PCR仪上按以下 ·歩骤搡作:
98 C下持续 5分钟
64 X:下持续 2.5小时
完成上迷搡作后, 立刻进行下一步搡作或者在 4 下存储 (最多 2(小时)备用》
6 ) 将 Zynio- Spin 1C™ Cotoim放入收集管 ( Collectioo Tube ) 中, 并加入 «)0μ1的 Μ-结合缓冲液( M- Binding Buffer )
7 )将重亚破酸盐处理的样品加入到含 M-结合緩冲液的 Zymo-Sphi !C Coiumn中, 盖上盖子颠倒混匀.,
8 )全速 (>1 (),«M) x g)离心 30秒, 弃收集管中的收集液。
9 )向柱中加入 lOOpL的 M-洗涤緩冲液, 全速 (>i0,000 x g)离心 30秒, 弃收集管中的 液体
10 )向柱中添加 200μΙ.的 M-Desdpkmaikm Bu¾rs 室温放置 i Sniin , 全速 (ΜΟ,ΟΟΟ x g) 离心 3()s, 畀收集管中的液体 ,.
11 }向柱中添加 2《)0μ1的 Μ-洗涤緩冲液, 全速 (>1«,0()0 x g)离心 30s、 弃收集管中的液 体, 并.再重复此步骤 i 次:,
12 )将 Zymo-Spin ICT¾ CoSimm置于新的 l ,5 L P管中, 加入 i2 L的 M-洗脱缓沖液 r到柱基盾中, 室温放置 2mi 全速 (>] 0,000 x g)离心洗脱 §的片段 D A,.
七 PO 扩增及扩增产物分离純化:
1 )将上一步得到的 g的片段 DNA按以下体系配制 PCR反应体系:
目的片段 DNA 10 μΐ
dNTP (每种成分均为 2.5mM) 4 μΙ
lOxPCR緩冲液 5 μΐ,
juHipSiari Taq DMA聚合酶 0.5 μΐ
PI公用引物 * 1 μί,
标签 N 1 μϊ- 28,5 μΐ,
总体积 50 μΐ
*其中 Pi .公用引物
'CITrc:CC-IACACGACGCl'CTTCCGATCT
标签 N的序列为: T, 其中碱基 为 、 T, C、 个碱基的任意组合、 作为区別标识
PCR.反应条件:
94 V 1 min
】8个循环
72 r Smiii
12 保持
2 )将 PCR扩增产物经 2%琼脂糖电泳后, 使用 Q Aquiek凝胶提取试剂盒 (Qiagen)回收 纯化 300-450b 片段的文库, 备用
八、 文库.检测:
使用 Bioanaty^er分析系统 (Agi M, Santa Clara, USA)检测文库插入片段的大小及舍量; 并利用 Q-K:R精确定量文库的浓度„
由此, 构建的样本的基因组特定区域的高通量 序文库经检 合格 备用 实旄例 2:
利用 ffiseq2000測序仅, 按照双末端 90个戚基的读长, 将实旄例〗构建的祥本的基因 组特定区域的高通量测序文库进行测序, 以便获得测序结杲
在上述测序后, 直接获得的是原始数据, 通过对原始数据进行基本分析可以获得上述 剩序结果 其中, 该基本分柝过程包括以下主要步踝: 首先 通过接头或 PCR引物上的序 ^标签区分不同样本的文库数据; 然后, 对测序所得的原始数据进行去污染、 去接头和去 低 量过滤; 最后,, 将经过前迷处理的数据进行碱基转化, 具体地, 将正链的 C全部转化 成 T, 互 链的 G全部转化成 A,, 由此, 获得实旄例 i.构建的祥本的基因组特定区域的高 通量剩序文库的测序结果
将获.得的測序结果进行数据分析 以便确定祥本的基因组特定区域的甲基化信息 其 中, 数据分析包括: 使用 SOAP2.01软件, 将測序结杲中的 reads与参考基 ®组进行比对, 其中容许错配率设置为 2, 以便确定唯一比对上的 rea s, 基于对这些 reads的分析, 获得祥 本的基 组特定区域的序列信息及读 域的甲基化信息 s.
本实旄例的一个方面, 以非 C|)<3处的单个的 C作为标准, 计算实旄例!的重亚砬酸盐 处理的转换效率; 以及, 基于測序结果, 进行测序深度和覆盖度的分柝 其中, 在本实旄 例中, 是对 hgl 全基 S3组所有启动子区域、 CpG岛、 CG! shore和印记基因区域的覆盖度, 及不同区域的覆盖深度的分析, 由此确定不同覆.盖 域的甲基化水平
此外, 本实施例由测序结杲确定了实; ¾例 I 中的特异性探针的捕获效率 图 2显示了 根据本发明一个实施例的方法确定基因组特定区域甲基化信息时, 在不同覆盖深度下 (覆 盖深度》 ί及覆.盖深度 > 5 ), 每条染色质上的捕获区域占探针靶 g域的百分比图 图 2所依 据的測序数据为: 測序原始数据序列为 比对率为 75,27%, 唯一比对测序序列约为 14.9M, 唯一比对率为 57,78% 由 ¾ 2可知, 在覆盖深度 > 1的条件下5 99%以上的探针均 可检測到其捕获区域的甲基化信息, 而当覆盖深度 > 5的时候,也有约 90%的探针可以检测 到其捕获区域的甲基化信息, (》1是指》〗的所有 其包含了 > 5 ) 同祥表明、 可以通过适 当的增加测序数据量来进一步提高探针捕获的实际检測范 ¾ , 这表明根据本发明实施例的 探针可以稳定可靠的捕获靶区域 ,, 结合重亚碇酸盐处理即可准确地进行甲基化检测
本实施例还分柝了检测到甲基化信息的不 元件的实验数据占基因组该区域的百分 率, 分析结果如图 3和表 2所示 基因组经过杂交捕获和重亚硤酸盐处理之后 依据以下 ¾序数据进行分析及作图, 从而得到图 3 和表 2: 测序原始数据序列为 25.5M , 比对率为 75.2.7%' 唯一比对测序序列约为 14, M > 唯一比对率为 57,78%., 图 3显示了根据本发明一 个实旄例的方法确定基因组特定区域甲基化信息时, 在不同覆盖深度下, 各条染色质中检 ^到甲基化信息的启动子占读染色盾的总启动子的百分比¾ 由图 3 可知 当覆盖深度大 于 5, 各条染色质中可检測到甲基化信息的启动子占该染色质上总启动子的百分比均大于 70%, 与理论值接近, <¾且覆盖深度大于 10时(大亍 5以上的所有, 包含了大于 10请发明 人解鋒一下, 大于 5的具体范围是多少, 因为大于 5也包舍了大于 i0 ), 各条染色质中可检 测到甲基化信息的启动子仍可占该染色质上总启动子的 60%以上 表 2显示了根据本发明 ―个实施 的方法确定基 组特定区域甲基化信息时 , 各条染色质中可检测到的印记基因 在兹染色质上的分布分析结杲。 由表 2可知, 当覆盖深度 > 1的时候, 97.6%的印记基因的 甲基化信息均可被检测到, 而保持測序数据量不变的奈件下,, 随着覆盖深度过滤的增加 , 检测到的基因个数明显降低, 这表明, 在高测序深度下分析印记基园的甲基化信息时, 应 该加大现有的测序数椐量, 提高每一个印记基因的覆盖深度
另外, 本实施例还分析了基因组上启动子区域、 Cp J岛, CGi shore及印记基因区域的 甲基化水平分布, 分析结果如图 4所示。
表 ί 设计探针在全基因组各靶区域的覆盖信息 靶区域名称 靶区域量 耙区域覆盖量 探针覆盖率 (%) 启动子 10018 9449 94.32
印记基因 61 41 67.21
CpG岛 27623 Π 90 43.41
CpG鳥外 27628 11076 4( 09 表 2 检测到的印记基 在每一条染色质上的分布分析 染色质. 每条染色膚印记基 检測到的印记基因个数 检测到的印记基因个数 总数 ( >| X ) f > .) c rl 2 2 0
c r4 1 I 0
chr6 4 4 0
chrl 12 12
c r8 2 0
chr 1 Ϊ {
chrlO 1 I 0
chrl 1 1 1 1 1 4
chrl 2 1 i I
chrl 4 2 1
chrl 5 15 13 0
chrl 6 1 1 0
chrl 8 1 ί i
chrl 9 2 0
c r20 5 5 3
总数统计 61 59 12
其中、 图 4(a)显示了根据本发明一个实施例的确定的样本的基因组 CpG岛、 CCS1 shore 区域的甲基化水平分布图。 由图 4(a)可知, 高 CG含量的 CpG岛处于低甲基化氷平; ¾ CGI shore区域的甲基化水平, 相对于 Q>G岛甲基化水平显著增高。 ¾ 4 (b)显示了很据本发明 一个实族例的确定的祥本的基因组启动子区域的甲基化水平分布图 由图 4(b)可知 启动子 区域中, 其转录起始位点处的甲基化水半处于低水平; 所有结杲与理论相符 图 4(c)显示了 样本的基因组特定区域的原始分布和裉据本发明一个实旄例的样本的基因组特定区域的高 通量测序文库的 reacfe分布及确定的 动子、 CpG岛区域的甲基化水平分布 IK 由图 4(c)可 知, 根据本发明实拖例的确定祥本的基因组特定区域的甲基化信息的方法, 能有效地捕获 每一个特定区域, 并能够准确检 ¾ [到该区域的甲基化信息 实施例 3:
采用炎黄细孢系样品( Jira Wang ei al. 2008 ), 重复实施例〗 , 只是, 用于设计特异性探 针的已知具有甲基化位点的基因区域为表 中所 出基 的编码区和启动子区(合并重复基 因后共 867个基因), 采用 eArray系统设计, 由安捷伦公司制备的, 探针的长度为 .2raer
另外, 对于重測序和非甲基化测序文库不需要进行重: 硫酸盐处理步艨
采用混合标签测序, 读段长度 49bp, 标签长度 6bp, 下机序列片段数量 2.67Mb对 测 试数据量产出约 240M 使用 bwa比对程序, 将过滤了低盾量和污染接头的测序片段比对 到人类全基 组上, 并对比对结果做了初步的分析 ,
检測結果:
表 3 给出了炎黄细應系祥品具体的下机的数据总量、 通过过滤和獰选之后得到的数 t 量, 以及通过比对之后最终能够比对到人类基因组上的序列总数, 以及比对率和芯片捕获 效率等
表 3数据产出以及比对基本情况统计
统计奈 a 水平
标区域城基数 (sv¾) 3.413
原始下机序列数 (n) 5520814
原始数据产量 (bp) 231874188
过滤后序列数 (n) 5376398
可用的数据产量 (bp) 225777680
平均序列片段长度 (bp) 4.1.99
质量值大于 20的碱基比 (¾) 99.31
比对到基.因,组的序列数 (11) 5283168
比对率 (%) 98.68
唯一比对的序 ^数 (Ώ) 4762261
唯一比对率(%) 88.88
比对到目标区域内的序列数, (n) 2480823
捕获效率 (%) 52.09
平均深度. 28.9387
覆盖度(¾》 ss£ 1 X 98.67
覆盖度(%) > 1 (« 8.1.26
覆盖度(%.) >=30X 39.75
序列重复率 ί%) 0.34
表 4 给出了各染色体和基因元件统计的 标区域的深度和覆盖度, 从整体上看 所捕 获到的数据在各个染色体的覆盖情况不存在差別。
表 4 比对序列在各个染色体上的分布情况
外显子 启动子
染色体 覆盖度
平均深度 平均深度
>^ιχ =ΪΘΧ >^ιχ >^10Χ e rl 32.5643 99.1 1 85.5 31.6014 99 84.42
chr2 28.6142 98.73 29.2488 99.21 84,77 c r3 30. Ϊ 98,94 84.73 28.2216 99,2 82.6 c ir4 28,2252 98,77 82.62 28.186 99, 13 83.39 c rS 30.552 98.54 84,1 30.092 99.32 86,92 chr( 33,0796 98.29 85.21 34.0625 99.54 85.72
。'
chr7 27.0121 98.48 80,3 30,5068 98.56 84,78 chrS 31.0447 99,74 88.57 98,62 76.71 c ir9 29,0676 99,02 82.61 98,25 75.31 chri O 27.8786 99.16 82,83 27,7149 98.6 80,43 cbrll 29.45 99, 13 82.79 98,92 82.33 chrl 2 29,4246 98.67 82.26 32.291 ) 98.84 83:73 c ri3 23.7642 97.54 74,79 345168 98.73 86,93 chrl4 29.7016 99.67 82.25 30.5752 85.76 c ri S 29.6648 99.01 80,93 29,7592 99.66 84,85 chrl 28,2079 98,26 79.6! 29,2325 98,36 83.27
卜
chri 7 98.63 86.27 30,4981 98.48 82,02 ehr!8 25.0695 98.73 75.49 34.6129 98.26 85.97 chrl 9 26.088 97.57 ?2.98 28.1044 95.73 ?2.88 chr20 30.171 98.08 81 ,9 30.3635 98.83 84,5.1 clirll 23,7753 94.16 7336 26.8191 98.47 75.99 chr22 30.6012 98.26 81 ,74 27.5009 74.69 ehrX 16.93? 98.66 67.18 14.918 98.79 62.83 chrY 34.6212 100 97.14 21.3816 S>9.78 ?5.94 图 6 示出了测序下机数据插入片段长度的分布, 从图中可以看出, 虽然未经过片段逸 择, 但插入片段大小在 0bp左右 围 7示出了目标区域各个碱基的测序深度的分布情况, 从 S中可以看出, 大部分碱基(约 75¾ )的覆盖深度在 20X以上, 如果继续加大测序量, 則能保 »剩序覆盖深度的一个要求。 图 8 展示了在数据比对过程中, 所有比对上的 Reads 各个碱基位置发生错配的频率, 根据测序原理,, 測序质量随读长的增加而降低, 測序錯误 率随读长的增加西增加 从图 8中也可以看出, 末端 Reads的错配数比较多, 园此在后续变 异检 中 应考虑末端測序质量问题 图 9展示了目标基 ¾的测序覆盖情况, 从图 9中可 以看出, 深度 i0:X以上, 覆盖度达到 60%以上的基因达到了 80%, 说明探针对基 a的捕获 无误, 继续加大測序量, 别可满足在一定深 上, 100(½覆盖所有的涉及到的基因, ¾ 10 展示了, 探针芯片对组蛋白基因 MST2H3A基因及其启动子的捕获情况
至此, 本实施例说明了剩用芯片摘获表观基 S组基 ¾启动子区和外显子区域的可行性,
可以用于后续的变异检测分析和胞嘧啶甲基化检測的分析 为能提高检测的准确姓, 建议 提高上.机祥品量, 增加测序深度 工业实用性
本发明的通量测序文库的构建方法及其应用, 能够方便有效地应用子祥本的基因组特 定区域的高通量測序文库的构建以及测序, 进而, 能够有效地用于后续的变异检测分析和 胞嘧啶甲基化检測的分析, 并且获得的文專质量好, 测序及.分析結果准确 尽管本发明的具体实旄方式已经得到详细的描迷, 本領域技术人员将会理解 根据已 经公开的所有教导, 可以对那些细节进行各转修改和替换 这些改变均在本发明的保护范 围之内 本发明的全部范围由所附权利要求及其任何等同物给出
在本说明书的描述中, 参考术语 "一个实施例 "、 "一些实施例"、 "示意性实施例"、 "示 例", "具体示例"、 或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、 结 构、 材料或者特点包含于本发明的至少一个实施例或示例中 在本说明书中 对上述术语 的示意性表述不一定指的是相同的实旄例或示例 且, 描迷的具体特征、 结构、 材料或 者特点可以在任何的一个或多个实.途例或示例中以合适的方式结合 ·。