TW202330938A - 用於評估腫瘤的物質及其方法 - Google Patents

用於評估腫瘤的物質及其方法 Download PDF

Info

Publication number
TW202330938A
TW202330938A TW111128173A TW111128173A TW202330938A TW 202330938 A TW202330938 A TW 202330938A TW 111128173 A TW111128173 A TW 111128173A TW 111128173 A TW111128173 A TW 111128173A TW 202330938 A TW202330938 A TW 202330938A
Authority
TW
Taiwan
Prior art keywords
seq
human
region
fragment
nucleic acid
Prior art date
Application number
TW111128173A
Other languages
English (en)
Inventor
劉蕊
馬成城
徐敏杰
孫津
劉軼穎
蘇志熙
蘇明揚
何其曄
鞏成相
Original Assignee
大陸商江蘇鵾遠生物技術有限公司
大陸商江蘇鵾遠生物科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202111191903.9A external-priority patent/CN115985486A/zh
Priority claimed from PCT/CN2022/099311 external-priority patent/WO2022262831A1/zh
Application filed by 大陸商江蘇鵾遠生物技術有限公司, 大陸商江蘇鵾遠生物科技股份有限公司 filed Critical 大陸商江蘇鵾遠生物技術有限公司
Publication of TW202330938A publication Critical patent/TW202330938A/zh

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本揭露關於一種用於評估腫瘤的物質及其方法。具體地,本揭露提供了用於評估受試者中的腫瘤形成風險和/或腫瘤進展的物質、試劑盒、裝置、系統和方法。例如,本揭露提供了基於來自受試者的所選靶多核苷酸序列的甲基化狀態,評估該受試者的腫瘤形成風險和/或腫瘤進展的方法。

Description

用於評估腫瘤的物質及其方法
本揭露關於生物醫學領域,具體的關於一種用於評估腫瘤的物質及其方法。
胰腺癌(例如胰腺導管腺癌(PDAC))是世界上最致命的疾病之一。5年相對生存率為9%,對於有遠處轉移的患者,這一比率進一步降低到只有3%。高死亡率的一個主要原因是早期檢測PDAC的方法仍然有限,這對於PDAC患者接受手術切除至關重要。內鏡超聲引導細針穿刺術(EUS-FNA)是另一種不用開腹手術就可獲得病理診斷的常用方法,但它具有侵襲性,需要清晰的影像學證據,這通常意味著PDAC已經有進展。在腫瘤發生和發展過程中,惡性細胞基因組DNA的DNA甲基化模式和水準發生了深刻變化。一些腫瘤特異性DNA甲基化已經被證明在腫瘤發生的早期就發生了,並可能成為腫瘤發生的“驅動因素”。迴圈腫瘤DNA(ctDNA)分子來源於凋亡或壞死的腫瘤細胞,攜帶來自早期惡性腫瘤的腫瘤特異性DNA甲基化標記,近年來被研究為開發多種癌症的無創早期篩查工具的有前景的新靶點。然而,大多數這些研究未取得有效的結果。
因此,本領域急需一種能夠從血漿DNA中識別胰腺癌腫瘤特異性標記物的物質及方法。
本揭露提供了一種對樣品的靶基因和/或靶序列的甲基化水準進行檢測,利用檢測結果的差異基因甲基化水準分辨胰腺癌,實現更高準確率更低成本的胰腺癌無創精准診斷的目的。
一方面,本揭露提供了一種檢測DNA甲基化的試劑,該試劑包含檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑,該DNA序列選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2。本揭露還提供了選自上述基因的靶序列作為胰腺癌相關基因的甲基化標誌物,包括SEQ ID NO:1-56所示的序列。本揭露還提供了記載有上述靶基因和/靶序列DNA序列或其片段和/或其甲基化資訊的介質以及裝置。本揭露還提供了上述靶基因和/靶序列DNA序列或其片段和/或其甲基化資訊在製備用於診斷物件的胰腺癌的試劑盒中的用途。本揭露還提供了上述試劑盒。
另一方面,本揭露提供了一種檢測DNA甲基化的試劑,該試劑包含檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑,該DNA序列選自以下一個或多個(例如至少7個)或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、和CILP2。本揭露還提供了選自上述基因的靶序列作為胰腺癌相關基因的甲基化標誌物,包括SEQ ID NO:57-59所示的序列。本揭露還提供了記載有上述靶基因和/靶序列DNA序列或其片段和/或其甲基化資訊的介質以及裝置。本揭露還提供了上述靶基因和/靶序列DNA序列或其片段和/或其甲基化資訊在製備用於診斷物件的胰腺癌的試劑盒中的用途。本揭露還提供了上述試劑盒。
另一方面,本揭露提供了一種檢測DNA甲基化的試劑,該試劑包含檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑,該DNA序列選自以下一個或多個(例如至少7個)或所有基因序列,或其上游或下游20kb以內的序列:ARHGEF16、PRDM16、NFIA、ST6GALNAC5、PRRX1、LHX4、ACBD6、FMN2、CHRM3、FAM150B、TMEM18、SIX3、CAMKMT、OTX1、WDPCP、CYP26B1、DYSF、HOXD1、HOXD4、UBE2F、RAMP1、AMT、PLSCR5、ZIC4、PEX5L、ETV5、DGKG、FGF12、FGFRL1、RNF212、DOK7、HGFAC、EVC、EVC2、HMX1、CPZ、IRX1、GDNF、AGGF1、CRHBP、PITX1、CATSPER3、NEUROG1、NPM1、TLX3、NKX2-5、BNIP1、PROP1、B4GALT7、IRF4、FOXF2、FOXQ1、FOXC1、GMDS、MOCS1、LRFN2、POU3F2、FBXL4、CCR6、GPR31、TBX20、HERPUD2、VIPR2、LZTS1、NKX2-6、PENK、PRDM14、VPS13B、 OSR2、NEK6、LHX2、DDIT4、DNAJB12、CRTAC1、PAX2、HIF1AN、ELOVL3、INA、HMX2、HMX3、MKI67、DPYSL4、STK32C、INS、INS-IGF2、ASCL2、PAX6、RELT、FAM168A、OPCML、ACVR1B、ACVRL1、AVPR1A、LHX5、SDSL、RAB20、COL4A2、CARKD、CARS2、SOX1、TEX29、SPACA7、SFTA3、SIX6、SIX1、INF2、TMEM179、CRIP2、MTA1、PIAS1、SKOR1、ISL2、SCAPER、POLG、RHCG、NR2F2、RAB40C、PIGQ、CPNE2、NLRC5、PSKH1、NRN1L、SRR、HIC1、HOXB9、PRAC1、SMIM5、MYO15B、TNRC6C、9-Sep、TBCD、ZNF750、KCTD1、SALL3、CTDP1、NFATC1、ZNF554、THOP1、CACTIN、PIP5K1C、KDM4B、PLIN3、EPS15L1、KLF2、EPS8L1、PPP1R12C、NKX2-4、NKX2-2、TFAP2C、RAE1、TNFRSF6B、ARFRP1、MYH9、和TXN2。本揭露還提供了選自上述基因的靶序列作為胰腺癌相關基因的甲基化標誌物,包括SEQ ID NO:60-160所示的序列。本揭露還提供了記載有上述靶基因和/靶序列DNA序列或其片段和/或其甲基化資訊的介質以及裝置。本揭露還提供了上述靶基因和/靶序列DNA序列或其片段和/或其甲基化資訊在製備用於診斷物件的胰腺癌的試劑盒中的用途。本揭露還提供了上述試劑盒。
另一方面,本揭露提供了一種對患者血漿樣本的DNA甲基化進行檢測,並根據目標甲基化標誌物的甲基化水準資料和CA19-9的檢測結果構建機器學習模型診斷胰腺癌,以實現更高準確率更低成本的胰腺癌無創精準診斷的目的。另外,本揭露提供了一種診斷胰腺癌或構建胰腺癌診斷模型的方法,包括:(1)獲取物件樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和物件的CA19-9水準,(2)利用數學模型使用甲基化狀態或水準計算獲得甲基化評分,(3)將甲基化 評分與CA19-9水準合併資料矩陣,(4)基於資料矩陣構建胰腺癌診斷模型,視需要的(5)獲得胰腺癌評分;根據胰腺癌評分診斷胰腺癌。在一個或多個實施方案中,該DNA序列選自以下一個或多個(例如至少2個)或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2。較佳地,該DNA序列包含選自以下任一組的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。另外,本揭露提供了一種診斷胰腺癌方法,包括:(1)獲取物件樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和物件的CA19-9水準,(2)利用數學模型使用甲基化狀態或水準計算獲得甲基化評分,(3)根據如下所示的模型獲得胰腺癌評分,根據胰腺癌評分診斷胰腺癌:
Figure 111128173-A0202-12-0005-1
其中M為步驟(2)中計算的樣品的甲基化評分,C為樣品的CA19-9水準。在一個或多個實施方案中,該DNA序列選自以下一個或多個(例如至少2個)或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2。較佳地,該DNA序列包含選自以下任一組的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。另外,本揭露提供了一種構建胰腺癌診斷模型的方法,包括:(1)獲取對象基因組DNA區段的甲基化單倍型比值和測序深度,視需要的(2)對該甲基化單倍型比值和測序深度資料進行預處理,(3)進行交叉驗證增量特徵篩選,獲得特徵甲基化區段,(4)對特徵甲基化區段的甲基化檢測結果構建數學模型,得到甲基化評分,(5)根據甲基化評分與對應的CA19-9水準構建胰腺癌診斷模型。在一個或多個實施方案中,步驟(1)包括:1.1)對物件樣品進行DNA甲 基化檢測,獲得測序讀段(read)資料,1.2)視需要對測序數據進行預處理,例如去接頭和/或拼接處理,1.3)將測序數據比對到參考基因組,獲得甲基化區段的位置和測序深度資訊,1.4)根據下式計算區段的甲基化單倍型比值(MHF):
Figure 111128173-A0202-12-0006-2
其中i表示目標甲基化區域,h表示目標甲基化單倍型,N i 表示位於目標甲基化區域的read數目,N i,h 表示包含目標甲基化單倍型的reads數目。本揭露還提供了檢測DNA甲基化的試劑或裝置和檢測CA19-9水準的試劑或裝置在製備診斷胰腺癌的試劑盒中的用途,該檢測DNA甲基化的試劑或裝置用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準。本揭露還提供了上述試劑盒。本揭露還提供了一種用於診斷胰腺癌或構建胰腺癌診斷模型的裝置,該裝置包括記憶體、處理器以及存儲在記憶體上並可在處理器上運行的電腦程式,其特徵在於,該處理器執行該程式時實現上述步驟。
另一方面,本揭露提供了一種確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,包含確定待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、和/或TWIST1基因所在DNA區域或其片段的修飾狀態的存在和/或含量。另外,本揭露提供了一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849- 25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277。另外,本揭露提供了一種確認上述片段的修飾狀態的探針和/或引子組。另外,本揭露提供了一種包含上述物質的試劑盒。另一方面,本揭露提供了本揭露所述的核酸、本揭露所述的核酸組和/或本揭露所述的試劑盒,在製備疾病檢測產品中的應用。另一方面,本揭露提供了本揭露所述的核酸、本揭露所述的核酸組和/或本揭露所述的試劑盒,在製備確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用。另一方面,本揭露提供了一種儲存介質,其記載可以運行本揭露所述的方法的程式。另一方面,本揭露提供了一種設備,其包含本揭露所述的儲存介質。
另一方面,本揭露提供了一種確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,包含確定待測樣本中EBF2和CCNA1、或者KCNA6、TLX2和EMX1、或者TRIM58、TWIST1、FOXD3和EN2、或者TRIM58、TWIST1、CLEC11A、HOXD10和OLIG3基因所在DNA區域或其片段的修飾狀態的存在和/或含量。另外,本揭露提供了一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在 和/或含量:來源於人chr8:25907849-25907950、和來源於人chr13:37005635-37005754,或者來源於人chr12:4919142-4919289、來源於人chr2:74743035-74743151、和來源於人chr2:73147525-73147644,或者來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr1:63788812-63788952、和來源於人chr7:155167513-155167628,或者來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr19:51228168-51228782、來源於人chr2:176945511-176945630、和來源於人chr6:137814700-137814853。另外,本揭露提供了一種確認上述片段的修飾狀態的探針和/或引子組。另外,本揭露提供了一種包含上述物質組合的試劑盒。另一方面,本揭露提供了本揭露所述的核酸、本揭露所述的核酸組和/或本揭露所述的試劑盒,在製備疾病檢測產品中的應用。另一方面,本揭露提供了本揭露所述的核酸、本揭露所述的核酸組和/或本揭露所述的試劑盒,在製備確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用。另一方面,本揭露提供了一種儲存介質,其記載可以運行本揭露所述的方法的程式。另一方面,本揭露提供了一種設備,其包含本揭露所述的儲存介質。
所屬技術領域中具有通常知識者能夠從下文的詳細描述中容易地洞察到本揭露的其它方面和優勢。下文的詳細描述中僅顯示和描述了本揭露的示例性實施方式。如所屬技術領域中具有通常知識者將認識到的,本揭露的內容使得所屬技術領域中具有通常知識者能夠對所公開的具體實施方式進行改動而不脫離本揭露所涉及發明的精神和範圍。相應地,本揭露的圖式和說明書中的描述僅僅是示例性的,而非為限制性的。
本揭露所涉及的發明的具體特徵如所附申請專利範圍所顯示。藉由參考下文中詳細描述的示例性實施方式和圖式能夠更好地理解本揭露所涉及發明的特點和優勢。對圖式簡要說明如下:
圖1是本揭露根據一個實施方式的技術方案流程圖。
圖2是胰腺癌預測模型Model CN在測試組中診斷胰腺癌的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖3是胰腺癌預測模型Model CN在各組的預測得分分佈,縱坐標為“模型預測值”。
圖4是56個序列SEQ ID NO:1-56在訓練組中的甲基化水準,縱坐標為“甲基化水準”。
圖5是56個序列SEQ ID NO:1-56在測試組中的甲基化水準,縱坐標為“甲基化水準”。
圖6是單獨使用CA19-9、單獨使用本揭露構建的SVM模型Model CN以及本揭露構建的模型結合CA19-9的分類ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖7是單獨使用CA19-9、單獨使用本揭露構建的SVM模型Model CN以及本揭露構建的模型結合CA19-9的分類預測分值的分佈,縱坐標為“模型預測值”。
圖8是本揭露構建的SVM模型Model CN在腫瘤標誌物CA19-9判別陰性(CA19-9測量值小於37)的樣本中的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖9是七個標誌物SEQ ID NO:9、14、13、26、40、43、52組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖10是七個標誌物SEQ ID NO:5、18、34、40、43、45、46組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖11是七個標誌物SEQ ID NO:11、8、20、44、48、51、54組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖12是七個標誌物SEQ ID NO:14、8、26、24、31、40、46組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖13是七個標誌物SEQ ID NO:3、9、8、29、42、40、41組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖14是七個標誌物SEQ ID NO:5、8、19、7、44、47、53組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖15是七個標誌物SEQ ID NO:12、17、24、28、40、42、47組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖16是七個標誌物SEQ ID NO:5、18、14、10、8、19、27組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖17是七個標誌物SEQ ID NO:6、12、20、26、24、47、50組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖18是七個標誌物SEQ ID NO:1、19、27、34、37、46、47組合模型的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖19是胰腺癌預測模型在訓練組和測試組中區分慢性胰腺炎和胰腺癌的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖20是胰腺癌預測模型在各組的預測得分分佈,縱坐標為“模型預測值”。
圖21是3個甲基化標誌物在訓練組中的甲基化水準,縱坐標為“甲基化水準”。
圖22是3個甲基化標誌物在測試組中的甲基化水準,縱坐標為“甲基化水準”。
圖23是胰腺癌預測模型在傳統方法判別為陰性的樣本(即CA19-9測量值小於37)中診斷胰腺癌的ROC曲線,橫坐標為“假陽性率”,縱坐標為“真陽性率”。
圖24是本揭露根據特徵矩陣篩選甲基化標誌物的流程圖。
圖25是101個標誌物預測分值分佈圖。
圖26是101個標誌物的ROC曲線。
圖27是6個標誌物預測分值分佈圖。
圖28是6個標誌物的ROC曲線。
圖29是7個標誌物預測分值分佈圖。
圖30是7個標誌物的ROC曲線。
圖31是10個標誌物預測分值分佈圖。
圖32是10個標誌物的ROC曲線。
圖33是DUALMODEL標誌物預測分值分佈圖。
圖34是DUALMODEL標誌物的ROC曲線。
圖35是ALLMODEL標誌物預測分值分佈圖。
圖36是ALLMODEL標誌物的ROC曲線。
圖37是本發明根據一個實施方式的技術方案流程圖。
圖38是3個甲基化標誌物在訓練組中的甲基化水準分佈。
圖39是3個甲基化標誌物在測試組中的甲基化水準分佈。
圖40是CA19-9,胰腺癌和胰腺炎區分預測模型pp_model和cpp_model在測試集中ROC曲線。
圖41是CA19-9,胰腺癌和胰腺炎區分預測模型pp_model和cpp_model在測試集樣本中的預測得分分佈(數值進行了最大最小值均一化處理)。
以下由特定的具體實施例說明本揭露發明的實施方式,熟悉此技術的人士可由本說明書所公開的內容容易地瞭解本揭露發明的其他優點及效果。
術語定義
在本揭露中,術語“待測樣本”通常是指需要進行檢測的樣本。例如,可以檢測待測樣本上的一個或者多個基因區域是否存在有修飾狀態。
在本揭露中,術語“無細胞游離核酸”或“cfDNA”通常是指樣品中的DNA,當採集時,該DNA沒有包含在細胞內。例如,無細胞游離核酸可以不是指藉由細胞或組織的體外破裂而使其不在細胞內的DNA。例如,cfDNA可以包括正常細胞和源自癌細胞的DNA兩者。例如,cfDNA可以獲自血液或血漿(“循環系統”)。例如,cfDNA可以藉由分泌或細胞死亡過程,如細胞壞死或凋亡釋放到循環系統中。
在本揭露中,術語“互補核酸”通常是指與參考核苷酸序列相比具有互補的核苷酸序列。例如,互補核酸可以為視需要地具有相反方向的核酸分子。例如,該互補可以是指具有下面的互補性關聯:鳥嘌呤和胞嘧啶;腺嘌呤和胸腺嘧啶;腺嘌呤和尿嘧啶。
在本揭露中,術語“DNA區域”通常是指兩個或更多個共價鍵合的天然存在的或經修飾的去氧核糖核苷酸的序列。例如,基因的DNA區域可以是指該基因所位於的特定的去氧核糖核苷酸的序列的位置,例如該去氧核糖核苷酸的序列編碼該基因。例如,本揭露的DNA區域包含DNA區域的全長、其互補區域,或者上述的片段。例如,本揭露所提供的檢測區域的上下游至少約20kb的序列可以作為檢測的位點。例如,本揭露所提供的檢測區域的上下游至少約20kb、至少約15kb、至少約10kb、至少約5kb、至少約3kb、至少約2kb、至少約1kb、或至少約0.5kb的序列可以作為檢測的位點。例如,可以根據該微電腦設計合適的引子和探針進行樣品的甲基化檢測。
在本揭露中,術語“修飾狀態”通常是指本揭露中基因片段、核苷酸或其鹼基具有的修飾狀態。例如,本揭露中的修飾狀態可以是指胞嘧啶的修飾狀態。例如,本揭露的具有修飾狀態的基因片段可以具有改變的基因表達活性。例如,本揭露的修飾狀態可以是指鹼基具有的甲基化修飾。例如,本揭露的修飾狀態可以是指在基因組DNA的CpG區域的胞嘧啶5'碳位共價結合一個甲基基團,例如可以成為5-甲基胞嘧啶(5mC)。例如,修飾狀態可以是指DNA序列記憶體在或不存在5-甲基胞嘧啶(“5-mCyt”)。
在本揭露中,術語“甲基化”通常是指本揭露中基因片段、核苷酸或其鹼基具有的甲基化狀態。例如,本揭露中基因所在的DNA片段可以在一條 鏈或多條鏈上具有甲基化。例如,本揭露中基因所在的DNA片段可以在一個位點或多個位點上具有甲基化。
在本揭露中,術語“轉化”通常是指將一種或多種結構轉變為另一種結構。例如,本揭露的轉化可以是具有特異性。例如,不具有甲基化修飾的胞嘧啶經過轉化可以變為其它結構(例如尿嘧啶),且具有甲基化修飾的胞嘧啶經過轉化可以基本不發生變化。例如,不具有甲基化修飾的胞嘧啶經過轉化可以被剪切,且具有甲基化修飾的胞嘧啶經過轉化可以基本不發生變化。
在本揭露中,術語“脫胺基試劑”通常是指具有移除胺基能力的物質。例如,脫胺基試劑可以將未修飾的胞嘧啶的胺基脫除。
在本揭露中,術語“亞硫酸氫鹽”通常是指一種可以區分具有修飾狀態和不具有修飾狀態的DNA區域的試劑。例如,亞硫酸氫鹽可以包括亞硫酸氫鹽、或其類似物或上述的組合。例如,亞硫酸氫鹽可以使未修飾的胞嘧啶的胺基脫胺基化,以使其與修飾的胞嘧啶區分。在本揭露中,術語“類似物”通常是指具有類似結構和/或功能的物質。例如亞硫酸氫鹽的類似物可以與亞硫酸氫鹽具有類似的結構。例如,亞硫酸氫鹽的類似物可以是指一種同樣可以區分具有修飾狀態和不具有修飾狀態的DNA區域的試劑。
在本揭露中,術語“甲基化敏感限制酶”通常是指一種根據其識別位元點的甲基化狀態而選擇性消化核酸的酶。例如,對於當識別位點未被甲基化時才特異剪切的限制酶來說,當識別位點被甲基化時,可以不會發生剪切,或以顯著降低的效率剪切。對於當識別位點被甲基化時才特異剪切的限制酶來說,當識別位點未被甲基化時,可以不會發生剪切,或以顯著降低的效率剪切。例如,甲基化特異的限制酶可以識別含有CG二核苷酸(例如cgcg或cccggg)的序列。
在本揭露中,術語“腫瘤”通常是指在正常生長和/或發育中呈現出至少部分失去控制的細胞和/或組織。例如,常見的腫瘤或癌細胞通常可以是失去了接觸抑制並可能是入侵性的和/或具有轉移的能力。例如,本揭露的腫瘤可以是良性的,也可能是惡性的。
在本揭露中,術語“進展”通常是指疾病從不太嚴重狀態到較嚴重狀態的變化。例如,腫瘤進展可以包括腫瘤的數量或嚴重性、癌細胞轉移程度、癌症生長或擴散的速度等增大。例如,腫瘤進展可以包括這種癌症從不太嚴重狀態到較嚴重狀態的階段時期,例如從I期到II期、從II期到III期等的進展。
在本揭露中,術語“形成”通常是指個體體內出現病灶。例如,當腫瘤形成時,可以將該個體確診為腫瘤患者。
在本揭露中,術語“螢光PCR”通常是指一種定量或半定量的PCR技術。例如,可以是即時定量聚合酶鏈反應、定量聚合酶鏈反應或動力學聚合酶鏈反應的PCR技術。例如,可以利用PCR擴增並借助嵌入性螢光染料或序列特異性探針定量檢測起始的靶核酸量,該序列特異性探針可以含有僅與靶核酸雜交才可檢出的螢光報導分子。
在本揭露中,術語“PCR擴增”通常是指聚合酶鏈擴增反應。例如,本揭露中的PCR擴增可以包含目前已知的用於DNA擴增的任意聚合酶鏈擴增反應。
在本揭露中,術語“螢光Ct值”通常是指一種定量或半定量評估靶核酸的測量值。例如,可以是指螢光信號到達設定的域值時所經歷的擴增反應迴圈數。
發明詳述
基於本揭露的甲基化核酸片段標誌物,可以有效鑑別胰腺癌;本揭露基於血漿cfDNA高通量甲基化測序提供了cfDNA甲基化標誌物與胰腺癌關係的診斷模型,該模型具有無創檢測、檢測安全方便、通量高、檢測特異性高的優點;基於本揭露得到的最佳測序列,可以有效在取得較好的檢測性能的同時,有效控制檢測成本。基於本發明的DNA甲基化標誌物,可以有效區分胰腺癌和慢性胰腺炎患者;本發明基於血漿cfDNA高通量甲基化測序提供了cfDNA甲基化標誌物甲基化水準與胰腺癌關係的診斷模型,該模型具有無創檢測、檢測安全方便、通量高、檢測特異性高的優點;基於本發明得到的最佳測序量,可以有效在取得較好的檢測性能的同時,有效控制檢測成本。
本揭露發現,胰腺癌的性質與選自以下的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50個基因或其上游或下游20kb以內的序列的甲基化水準有關:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2。在一個或多個實施方案中,胰腺癌的性質與選自以下任一組的選自基因的序列的甲基化水準相關:(1)LBX2、TBR1、EVX2、SFRP2、SYT10、CCNA1、ZFHX3;(2)TRIM58、HOXD4、INSIG1、SYT10、 CCNA1、ZIC2、CLEC14A;(3)EMX1、POU3F3、TOPAZ1、ZIC2、OTX2、AHSP、TIMP2;(4)EMX1、EVX2、RPL9、SFRP2、HOXA13、SYT10、CLEC14A;(5)TBX15、EMX1、LBX2、OLIG3、SYT10、AGAP2、TBX3;(6)TRIM58、VAX2、EMX1、HOXD4、ZIC2、CLEC14A、LHX1;(7)POU3F3、HOXD8、RPL9、TBX18、SYT10、TBX3、CLEC14A;(8)TRIM58、EMX1、TLX2、EVX2、HOXD4、HOXD4、IRX4;(9)SIX3、POU3F3、TOPAZ1、RPL9、SFRP2、CLEC14A、BNC1;(10)DMRTA2、HOXD4、IRX4、INSIG1、MOS、CLEC14A、CLEC14A。本發明提供上述基因或其片段的含一個或多個CpG的核酸分子。本揭露發現,胰腺癌和胰腺炎(例如慢性胰腺炎)的鑑別與選自以下的1、2、3個基因或其上游或下游20kb以內的序列的甲基化水準有關:SIX3、TLX2、CILP2。
本文中,術語“基因”包括所涉基因的在基因組上的編碼序列和非編碼序列。其中非編碼序列包括內含子、啟動子和調節元件或序列等。
進一步地,胰腺癌的性質與選自以下的任意1個區段或隨機2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55個區段或所有56個區段的甲基化水準相關:位於DMRTA2基因區域的SEQ ID NO:1、FOXD3基因區域的SEQ ID NO:2、TBX15基因區域的SEQ ID NO:3、BCAN基因區域的SEQ ID NO:4、TRIM58基因區域的SEQ ID NO:5、SIX3基因區域的SEQ ID NO:6、VAX2基因區域的SEQ ID NO:7、EMX1基因區域的SEQ ID NO:8、LBX2基因區域的SEQ ID NO:9、TLX2基因區域的SEQ ID NO:10、POU3F3基因區域的SEQ ID NO:11、SEQ ID NO:12、TBR1基因區域的SEQ ID NO:13、 EVX2基因區域的SEQ ID NO:14、SEQ ID NO:15、HOXD12基因區域的SEQ ID NO:16、HOXD8基因區域的SEQ ID NO:17、HOXD4基因區域的SEQ ID NO:18、SEQ ID NO:19、TOPAZ1基因區域的SEQ ID NO:20、SHOX2基因區域的SEQ ID NO:21、DRD5基因區域的SEQ ID NO:22、RPL9基因區域的SEQ ID NO:23、SEQ ID NO:24、HOPX基因區域的SEQ ID NO:25、SFRP2基因區域的SEQ ID NO:26、IRX4基因區域的SEQ ID NO:27、TBX18基因區域的SEQ ID NO:28、OLIG3基因區域的SEQ ID NO:29、ULBP1基因區域的SEQ ID NO:30、HOXA13基因區域的SEQ ID NO:31、TBX20基因區域的SEQ ID NO:32、IKZF1基因區域的SEQ ID NO:33、INSIG1基因區域的SEQ ID NO:34、SOX7基因區域的SEQ ID NO:35、EBF2基因區域的SEQ ID NO:36、MOS基因區域的SEQ ID NO:37、MKX基因區域的SEQ ID NO:38、KCNA6基因區域的SEQ ID NO:39、SYT10基因區域的SEQ ID NO:40、AGAP2基因區域的SEQ ID NO:41、TBX3基因區域的SEQ ID NO:42、CCNA1基因區域的SEQ ID NO:43、ZIC2基因區域的SEQ ID NO:44、SEQ ID NO:45、CLEC14A基因區域的SEQ ID NO:46、SEQ ID NO:47、OTX2基因區域的SEQ ID NO:48、C14orf39基因區域的SEQ ID NO:49、BNC1基因區域的SEQ ID NO:50、AHSP基因區域的SEQ ID NO:51、ZFHX3基因區域的SEQ ID NO:52、LHX1基因區域的SEQ ID NO:53、TIMP2基因區域的SEQ ID NO:54、ZNF750基因區域的SEQ ID NO:55、SIM2基因區域的SEQ ID NO:56。
在某些實施方案中,胰腺癌的性質與選自以下任一組的序列或其互補序列的甲基化水準相關:(1)SEQ ID NO:9、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:26、SEQ ID NO:40、SEQ ID NO:43、SEQ ID NO:52,(2)SEQ ID NO:5、SEQ ID NO:18、SEQ ID NO:34、SEQ ID NO:40、SEQ ID NO:43、SEQ ID NO:45、SEQ ID NO:46,(3)SEQ ID NO:8、SEQ ID NO:11、SEQ ID NO:20、SEQ ID NO:44、SEQ ID NO:48、SEQ ID NO:51、SEQ ID NO:54,(4)SEQ ID NO:8、SEQ ID NO:14、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:31、SEQ ID NO:40、SEQ ID NO:46,(5)SEQ ID NO:3、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:29、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42,(6)SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:19、SEQ ID NO:44、SEQ ID NO:47、SEQ ID NO:53,(7)SEQ ID NO:12、SEQ ID NO:17、SEQ ID NO:24、SEQ ID NO:28、SEQ ID NO:40、SEQ ID NO:42、SEQ ID NO:47,(8)SEQ ID NO:5、SEQ ID NO:8、SEQ ID NO:10、SEQ ID NO:14、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:27,(9)SEQ ID NO:6、SEQ ID NO:12、SEQ ID NO:20、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:47、SEQ ID NO:50,(10)SEQ ID NO:1、SEQ ID NO:19、SEQ ID NO:27、SEQ ID NO:34、SEQ ID NO:37、SEQ ID NO:46、SEQ ID NO:47。
本文所述“胰腺癌相關序列”包括上述50個基因、其上游或下游20kb以內的序列、上述56個序列(SEQ ID NO:1-56)或其互補序列、亞區域、和/或經過處理的序列。
上述56個序列在人染色體中的位置如下所述:SEQ ID NO:1:chr1的50884507-50885207bps、SEQ ID NO:2:chr1的63788611-63789152bps、SEQ ID NO:3:chr1的119522143-119522719bps、SEQ ID NO:4:chr1的156611710-156612211bps、SEQ ID NO:5:chr1的248020391-248020979bps、SEQ ID NO:6:chr2的45028796-45029378bps、SEQ ID NO:7:cbr2的71115731-71116272bps、SEQ ID NO:8:chr2的73147334-73147835bps、SEQ ID NO:9:chr2的74726401- 74726922bps、SEQ ID NO:10:chr2的74742861-74743362bps、SEQ ID NO:11:chr2的105480130-105480830bps、SEQ ID NO:12:chr2的105480157-105480659bps、SEQ ID NO:13:chr2的162280233-162280736bps、SEQ ID NO:14:chr2的176945095-176945601bps、SEQ ID NO:15:chr2的176945320-176945821bps、SEQ ID NO:16:chr2的176964629-176965209bps、SEQ ID NO:17:chr2的176994514-176995015bps、SEQ ID NO:18:chr2的177016987-177017501bps、SEQ ID NO:19:chr2的177024355-177024866bps、SEQ ID NO:20:chr3的44063336-44063893bps、SEQ ID NO:21:chr3的157812057-157812604bps、SEQ ID NO:22:chr4的9783025-9783527bps、SEQ ID NO:23:chr4的39448278-39448779bps、SEQ ID NO:24:chr4的39448327-39448879bps、SEQ ID NO:25:chr4的57521127-57521736bps、SEQ ID NO:26:chr4的154709362-154709867bps、SEQ ID NO:27:chr5的1876136-1876645bps、SEQ ID NO:28:chr6的85476916-85477417bps、SEQ ID NO:29:chr6的137814499-137815053bps、SEQ ID NO:30:chr6的150285594-150286095bps、SEQ ID NO:31:chr7的27244522-27245037bps、SEQ ID NO:32:chr7的35293435-35293950bps、SEQ ID NO:33:chr7的50343543-50344243bps、SEQ ID NO:34:chr7的155167312-155167828bps、SEQ ID NO:35:chr8的10588692-10589253bps、SEQ ID NO:36:chr8的25907648-25908150bps、SEQ ID NO37:chr8的57069450-57070150bps、SEQ ID NO:38:chr10的28034404-28034908bps、SEQ ID NO:39:chr12的4918941-4919489bps、SEQ ID NO:40:chr12的33592612-33593117bps、SEQ ID NO:41:chr12的58131095-58131654bps、SEQ ID NO:42:chr12的115124763-115125348bps、SEQ ID NO:43:chr13的37005444-37005945bps、SEQ ID NO:44:chr13的100649468-100649995bps、 SEQ ID NO:45:chr13的100649513-100650027bps、SEQ ID NO:46:chr14的38724419-38724935bps、SEQ ID NO:47:chr14的38724602-38725108bps、SEQ ID NO:48:chr14的57275646-57276162bps、SEQ ID NO:49:chr14的60952384-60952933bps、SEQ ID NO:50:chr15的83952059-83952595bps、SEQ ID NO:51:chr16的31579970-31580561bps、SEQ ID NO:52:chr16的73096773-73097473bps、SEQ ID NO:53:chr17的35299694-35300224bps、SEQ ID NO:54:chr17的76929623-76930176bps、SEQ ID NO:55:chr17的80846617-80847210bps、SEQ ID NO:56:chr21的38081247-38081752bps。本文中,各序列和甲基化位點的鹼基編號對應於參考基因組HG19。
在一個或多個實施方案中,本文所述核酸分子是選自DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2中的一個或多個基因的片段;該片段的長度為1bp-1kb,較佳1bp-700bp;該片段包含相應基因的染色體區域中的一個或多個甲基化位點。本文所述基因或其片段中的甲基化位點包括但不限於:chr1染色體的50884514、50884531、50884533、50884541、50884544、50884547、50884550、50884552、50884566、50884582、50884586、50884589、50884591、50884598、50884606、50884610、50884612、50884615、50884621、50884633、50884646、50884649、50884658、50884662、50884673、50884682、50884691、50884699、 50884702、50884724、50884732、50884735、50884742、50884751、50884754、50884774、50884777、50884780、50884783、50884786、50884789、50884792、50884795、50884798、50884801、50884804、50884807、50884809、50884820、50884822、50884825、50884849、50884852、50884868、50884871、50884885、50884889、50884902、50884924、50884939、50884942、50884945、50884948、50884975、50884980、50884983、50884999、50885001、63788628、63788660、63788672、63788685、63788689、63788703、63788706、63788709、63788721、63788741、63788744、63788747、63788753、63788759、63788768、63788776、63788785、63788789、63788795、63788804、63788816、63788822、63788825、63788828、63788849、63788852、63788861、63788870、63788872、63788878、63788881、63788889、63788897、63788902、63788906、63788917、63788920、63788933、63788947、63788983、63788987、63788993、63788999、63789004、63789011、63789014、63789020、63789022、63789025、63789031、63789035、63789047、63789056、63789059、63789068、63789071、63789073、63789077、63789080、63789083、63789092、63789094、63789101、63789106、63789109、63789124、119522172、119522188、119522190、119522233、119522239、119522313、119522368、119522386、119522393、119522409、119522425、119522427、119522436、119522440、119522444、119522446、119522449、119522451、119522456、119522459、119522464、119522469、119522474、119522486、119522488、119522500、119522502、119522516、119522529、119522537、119522548、119522550、119522559、119522563、119522566、119522571、119522577、119522579、119522582、119522594、119522599、 119522607、119522615、119522621、119522629、119522631、119522637、119522665、119522673、156611713、156611720、156611733、156611737、156611749、156611752、156611761、156611767、156611784、156611791、156611797、156611802、156611811、156611813、156611819、156611830、156611836、156611842、156611851、156611862、156611890、156611893、156611902、156611905、156611915、156611926、156611945、156611949、156611951、156611960、156611963、156611994、156612002、156612015、156612024、156612034、156612042、156612044、156612079、156612087、156612090、156612094、156612097、156612105、156612140、156612147、156612166、156612188、156612191、156612204、156612209、248020399、248020410、248020436、248020447、248020450、248020453、248020470、248020495、248020497、248020507、248020512、248020516、248020520、248020526、248020536、248020543、248020559、248020562、248020566、248020573、248020579、248020581、248020589、248020591、248020598、248020625、248020632、248020641、248020671、248020680、248020688、248020692、248020695、248020697、248020704、248020707、248020713、248020721、248020729、248020741、248020748、248020756、248020765、248020775、248020791、248020795、248020798、248020812、248020814、248020821、248020826、248020828、248020831、248020836、248020838、248020840、248020845、248020848、248020861、248020869、248020878、248020883、248020886、248020902、248020905、248020908、248020914、248020925、248020930、248020934、248020937、248020940、248020953、 248020956、248020975;chr2染色體的45028802、45028816、45028832、45028839、45028956、45028961、45028965、45028973、45029004、45029017、45029035、45029046、45029057、45029060、45029063、45029065、45029071、45029106、45029112、45029117、45029128、45029146、45029176、45029179、45029184、45029189、45029192、45029195、45029218、45029226、45029228、45029231、45029235、45029263、45029273、45029285、45029288、45029295、45029307、45029317、45029353、45029357、71115760、71115787、71115789、71115837、71115928、71115936、71115948、71115962、71115968、71115978、71115981、71115983、71115985、71115987、71115994、71116000、71116022、71116024、71116030、71116036、71116047、71116054、71116067、71116096、71116101、71116103、71116107、71116117、71116119、71116130、71116137、71116141、71116152、71116154、71116158、71116174、71116188、71116190、71116194、71116203、71116215、71116226、71116233、71116242、71116257、71116259、71116261、71116268、71116271、73147340、73147350、73147364、73147369、73147382、73147405、73147408、73147432、73147438、73147444、73147481、73147491、73147493、73147523、73147529、73147537、73147559、73147571、73147582、73147584、73147592、73147595、73147598、73147607、73147613、73147620、73147623、73147631、73147644、73147668、73147673、73147678、73147687、73147690、73147693、73147695、73147710、73147720、73147738、73147755、73147767、73147771、73147789、73147798、73147803、73147811、73147814、73147816、73147822、73147825、73147827、73147829、74726438、74726440、74726449、74726478、74726480、74726482、74726484、74726493、 74726495、74726524、74726526、74726533、74726536、74726539、74726548、74726554、74726569、74726572、74726585、74726597、74726599、74726616、74726633、74726642、74726649、74726651、74726656、74726668、74726672、74726682、74726687、74726695、74726700、74726710、74726716、74726734、74726746、74726760、74726766、74726772、74726784、74726791、74726809、74726828、74726833、74726835、74726861、74726892、74726894、74726908、74742879、74742882、74742891、74742913、74742922、74742925、74742942、74742950、74742953、74742967、74742981、74742984、74742996、74743004、74743006、74743009、74743011、74743015、74743021、74743035、74743056、74743059、74743061、74743064、74743068、74743073、74743082、74743084、74743101、74743108、74743111、74743119、74743121、74743127、74743131、74743137、74743139、74743141、74743146、74743172、74743174、74743182、74743186、74743191、74743195、74743198、74743207、74743231、74743234、74743241、74743243、74743268、74743295、74743301、74743306、74743318、74743321、74743325、74743329、74743333、74743336、74743343、74743346、74743352、74743357、105480130、105480161、105480179、105480198、105480207、105480210、105480212、105480226、105480254、105480258、105480272、105480291、105480337、105480360、105480377、105480383、105480387、105480390、105480407、105480409、105480412、105480424、105480426、105480429、105480433、105480438、105480461、105480464、105480475、105480481、105480488、105480490、105480503、105480546、105480556、105480571、105480577、105480581、105480604、105480621、105480623、 105480630、105480634、105480637、162280237、162280239、162280242、162280245、162280249、162280257、162280263、162280289、162280293、162280297、162280306、162280309、162280314、162280317、162280327、162280331、162280341、162280351、162280362、162280368、162280393、162280396、162280398、162280402、162280405、162280407、162280409、162280417、162280420、162280438、162280447、162280459、162280462、162280466、162280470、162280473、162280479、162280483、162280486、162280489、162280492、162280498、162280519、162280534、162280539、162280548、162280561、162280570、162280575、162280585、162280598、162280604、162280611、162280614、162280618、162280623、162280627、162280633、162280641、162280647、162280657、162280673、162280681、162280693、162280708、162280728、176945102、176945119、176945122、176945132、176945134、176945137、176945141、176945144、176945147、176945150、176945159、176945165、176945170、176945177、176945179、176945186、176945188、176945198、176945200、176945213、176945215、176945218、176945222、176945224、176945250、176945270、176945274、176945288、176945296、176945298、176945316、176945329、176945336、176945339、176945345、176945347、176945351、176945354、176945356、176945372、176945374、176945378、176945381、176945384、176945387、176945392、176945398、176945402、176945417、176945422、176945426、176945452、176945458、176945462、176945464、176945468、176945497、176945507、176945526、176945532、176945547、176945550、176945570、 176945580、176945582、176945585、176945604、176945609、176945647、176945679、176945695、176945732、176945747、176945750、176945761、176945770、176945789、176945791、176945795、176964640、176964642、176964663、176964665、176964667、176964670、176964672、176964685、176964690、176964694、176964703、176964709、176964711、176964720、176964724、176964736、176964739、176964747、176964769、176964778、176964805、176964811、176964834、176964838、176964843、176964847、176964863、176964865、176964869、176964875、176964879、176964886、176964892、176964930、176964946、176964959、176964966、176964969、176964978、176965003、176965021、176965035、176965062、176965065、176965069、176965085、176965099、176965102、176965109、176965125、176965130、176965140、176965186、176965196、176994516、176994525、176994528、176994531、176994537、176994546、176994557、176994559、176994568、176994570、176994583、176994586、176994623、176994637、176994654、176994661、176994665、176994682、176994688、176994728、176994738、176994747、176994750、176994753、176994764、176994768、176994773、176994778、176994780、176994783、176994793、176994801、176994804、176994807、176994809、176994811、176994822、176994830、176994832、176994837、176994839、176994848、176994851、176994853、176994859、176994864、176994867、176994871、176994880、176994890、176994905、176994909、176994911、176994931、176994934、176994936、176994938、176994942、176994944、176994948、176994952、176994961、 176994964、176994971、176994974、176994980、176994983、176994986、176994996、176995011、176995013、177017050、177017079、177017124、177017173、177017179、177017182、177017193、177017211、177017223、177017225、177017227、177017237、177017239、177017246、177017251、177017253、177017267、177017270、177017276、177017296、177017300、177017331、177017352、177017368、177017374、177017378、177017389、177017446、177017449、177017452、177017463、177017483、177017488、177024359、177024367、177024415、177024502、177024514、177024528、177024531、177024540、177024548、177024550、177024558、177024582、177024605、177024616、177024619、177024634、177024642、177024655、177024698、177024709、177024714、177024723、177024725、177024748、177024756、177024769、177024771、177024776、177024783、177024800、177024836、177024838、177024856、177024861;chr3染色體的44063356、44063391、44063404、44063411、44063417、44063423、44063450、44063516、44063541、44063544、44063559、44063565、44063567、44063574、44063586、44063593、44063602、44063606、44063620、44063633、44063638、44063643、44063649、44063657、44063660、44063662、44063682、44063686、44063719、44063745、44063756、44063768、44063779、44063807、44063821、44063832、44063836、44063858、44063877、157812071、157812085、157812092、157812117、157812131、157812152、157812170、157812173、157812175、157812184、157812206、157812212、157812226、157812256、157812259、157812275、157812277、157812287、157812294、157812296、157812302、157812305、 157812307、157812312、157812319、157812321、157812329、157812331、157812334、157812354、157812358、157812369、157812380、157812383、157812385、157812404、157812411、157812414、157812420、157812437、157812442、157812457、157812468、157812470、157812475、157812498、157812542、157812548;chr4染色體的9783036、9783050、9783059、9783075、9783080、9783097、9783105、9783112、9783120、9783126、9783142、9783144、9783153、9783160、9783166、9783185、9783192、9783196、9783198、9783206、9783213、9783218、9783220、9783233、9783244、9783246、9783252、9783271、9783275、9783277、9783304、9783322、9783327、9783342、9783348、9783354、9783358、9783361、9783363、9783376、9783398、9783409、9783425、9783427、9783442、9783449、9783467、9783492、9783494、9783496、9783501、9783508、9783511、39448284、39448302、39448320、39448323、39448340、39448343、39448347、39448365、39448422、39448432、39448453、39448464、39448473、39448478、39448481、39448503、39448516、39448524、39448528、39448549、39448551、39448557、39448562、39448568、39448575、39448577、39448586、39448593、39448613、39448625、39448629、39448633、39448647、39448653、39448662、39448665、39448670、39448683、39448695、39448697、39448729、39448732、39448748、39448757、39448759、39448767、39448773、39448796、39448800、39448809、39448811、39448836、39448845、39448857、39448864、39448869、39448874、57521138、57521209、57521237、57521297、57521304、57521310、57521336、57521348、57521377、57521397、57521411、57521419、57521426、57521442、57521449、57521486、57521506、57521518、57521537、 57521545、57521581、57521603、57521622、57521631、57521652、57521657、57521665、57521680、57521687、57521701、57521716、57521725、57521733、154709378、154709414、154709425、154709441、154709492、154709513、154709522、154709540、154709557、154709561、154709576、154709591、154709597、154709607、154709612、154709617、154709633、154709640、154709663、154709675、154709684、154709690、154709697、154709721、154709745、154709756、154709759、154709789、154709812、154709828、154709834;chr5染色體的1876139、1876168、1876200、1876208、1876213、1876215、1876286、1876290、1876298、1876308、1876311、1876337、1876339、1876347、1876354、1876368、1876372、1876374、1876386、1876395、1876397、1876399、1876403、1876420、1876424、1876432、1876436、1876449、1876456、1876459、1876463、1876483、1876498、1876525、1876527、1876557、1876563、1876570、1876576、1876605、1876630、1876634、1876638;chr6染色體的85476921、85476930、85476974、85477014、85477032、85477035、85477070、85477083、85477106、85477124、85477151、85477153、85477166、85477175、85477186、85477217、85477228、85477230、85477236、85477245、85477249、85477251、85477253、85477261、85477283、137814512、137814516、137814523、137814548、137814558、137814561、137814564、137814567、137814620、137814636、137814638、137814642、137814645、137814654、137814666、137814679、137814689、137814695、137814707、137814710、137814717、137814723、137814728、137814744、137814746、137814749、137814768、137814776、137814786、137814788、137814792、137814794、137814803、 137814807、137814818、137814824、137814837、137814860、137814920、137814935、137814952、137814957、137814960、137814969、137814971、137814986、137814988、137814995、137815016、137815024、137815030、137815034、137815036、137815040、150285620、150285634、150285641、150285652、150285659、150285661、150285670、150285677、150285688、150285695、150285697、150285706、150285713、150285715、150285724、150285731、150285733、150285742、150285760、150285767、150285769、150285775、150285778、150285788、150285813、150285815、150285826、150285829、150285844、150285860、150285887、150285890、150285892、150285901、150285908、150285910、150285926、150285928、150285937、150285944、150285956、150285963、150285966、150285974、150285981、150285983、150285992、150285999、150286001、150286010、150286017、150286019、150286028、150286035、150286038、150286046、150286055、150286063、150286073、150286082、150286089、150286091;chr7染色體的27244531、27244533、27244537、27244555、27244564、27244578、27244603、27244609、27244612、27244619、27244621、27244627、27244631、27244657、27244673、27244702、27244704、27244714、27244723、27244755、27244772、27244780、27244787、27244789、27244798、27244800、27244810、27244833、27244856、27244869、27244874、27244881、27244885、27244887、27244892、27244897、27244907、27244911、27244917、27244920、27244931、27244948、27244951、27244980、27244982、27244986、27245014、27245018、35293441、35293451、35293470、35293479、35293482、35293488、35293492、35293497、 35293502、35293506、35293514、35293531、35293537、35293543、35293588、35293590、35293621、35293652、35293656、35293658、35293670、35293676、35293685、35293687、35293690、35293692、35293700、35293717、35293721、35293731、35293747、35293750、35293753、35293759、35293767、35293780、35293783、35293790、35293796、35293809、35293812、35293815、35293821、35293827、35293829、35293834、35293838、35293840、35293847、35293849、35293860、35293863、35293867、35293869、35293879、35293884、35293892、35293940、50343545、50343548、50343552、50343555、50343562、50343566、50343572、50343574、50343577、50343579、50343587、50343603、50343605、50343608、50343611、50343624、50343628、50343630、50343635、50343637、50343639、50343648、50343651、50343654、50343656、50343659、50343663、50343669、50343672、50343674、50343678、50343682、50343693、50343696、50343699、50343702、50343714、50343719、50343725、50343728、50343731、50343736、50343739、50343758、50343765、50343768、50343770、50343785、50343789、50343791、50343805、50343813、50343822、50343824、50343826、50343829、50343831、50343833、50343838、50343847、50343850、50343853、50343858、50343864、50343869、50343872、50343883、50343890、50343897、50343907、50343909、50343914、50343926、50343934、50343939、50343946、50343950、50343959、50343961、50343963、50343969、50343974、50343980、50343990、50344001、50344007、50344011、50344028、50344041、155167320、155167333、155167340、155167343、155167345、155167347、155167350、155167357、155167379、155167382、155167394、155167401、155167423、 155167430、155167467、155167478、155167480、155167486、155167499、155167505、155167507、155167511、155167513、155167516、155167518、155167528、155167543、155167552、155167555、155167560、155167562、155167568、155167570、155167578、155167602、155167608、155167611、155167617、155167662、155167702、155167707、155167716、155167718、155167739、155167750、155167753、155167757、155167759、155167771、155167773、155167791、155167801、155167803、155167805、155167813、155167819、155167821、155167827;chr8染色體的10588729、10588742、10588820、10588833、10588841、10588851、10588857、10588865、10588867、10588883、10588888、10588895、10588938、10588942、10588946、10588948、10588951、10588959、10588992、10589003、10589007、10589009、10589016、10589034、10589060、10589062、10589076、10589079、10589093、10589152、10589193、10589206、10589241、25907660、25907702、25907709、25907724、25907747、25907752、25907754、25907757、25907769、25907796、25907800、25907814、25907818、25907821、25907824、25907838、25907848、25907866、25907874、25907880、25907884、25907893、25907898、25907900、25907902、25907906、25907918、25907947、25907976、25908055、25908057、25908064、25908071、25908098、25908101、57069480、57069544、57069569、57069606、57069631、57069648、57069688、57069698、57069709、57069712、57069722、57069735、57069739、57069755、57069764、57069773、57069775、57069784、57069786、57069791、57069793、57069800、57069812、57069816、57069823、57069825、57069827、57069839、57069842、57069847、57069851、57069853、 57069884、57069889、57069894、57069907、57069914、57069919、57069931、57069940、57069948、57069958、57069968、57069973、57069978、57070013、57070035、57070038、57070042、57070046、57070066、57070079、57070087、57070091、57070126、57070143;chr10染色體的28034412、28034415、28034418、28034442、28034444、28034467、28034469、28034494、28034501、28034505、28034545、28034556、28034559、28034568、28034582、28034591、28034596、28034599、28034605、28034616、28034619、28034622、28034624、28034645、28034651、28034654、28034658、28034669、28034682、28034687、28034697、28034711、28034714、28034727、28034729、28034739、28034741、28034751、28034757、28034760、28034763、28034768、28034787、28034790、28034792、28034794、28034797、28034801、28034816、28034843、28034853、28034856、28034867、28034871、28034873、28034882、28034888、28034892、28034907;chr12染色體的4918962、4918966、4918968、4918975、4918982、4919001、4919056、4919065、4919079、4919081、4919086、4919095、4919097、4919118、4919124、4919138、4919145、4919147、4919164、4919170、4919173、4919184、4919191、4919199、4919215、4919230、4919236、4919239、4919242、4919253、4919260、4919281、4919293、4919300、4919303、4919309、4919327、4919331、4919351、4919358、4919376、4919386、4919395、4919401、4919408、4919421、4919424、4919430、4919438、4919453、4919465、4919469、4919475、4919486、33592615、33592629、33592635、33592642、33592659、33592661、33592663、33592674、33592681、33592683、33592692、33592704、33592707、33592709、33592711、33592715、33592720、33592725、33592727、33592744、33592774、 33592798、33592803、33592811、33592831、33592848、33592859、33592862、33592865、33592867、33592875、33592882、33592885、33592887、33592891、33592905、33592908、33592913、33592915、33592923、33592931、33592933、33592953、33592955、33592977、33592981、33592986、33592989、33592998、33593004、33593017、33593035、33593049、33593090、33593093、58131100、58131102、58131111、58131133、58131154、58131168、58131175、58131181、58131224、58131242、58131261、58131277、58131300、58131303、58131306、58131309、58131312、58131318、58131321、58131331、58131345、58131348、58131384、58131390、58131404、58131412、58131414、58131426、58131429、58131445、58131453、58131475、58131478、58131487、58131503、58131510、58131523、58131546、58131549、58131553、58131557、58131564、58131571、58131576、58131586、58131605、58131608、58131624、58131642、115124768、115124773、115124782、115124811、115124838、115124853、115124871、115124874、115124894、115124904、115124924、115124930、115124933、115124935、115124946、115124970、115124973、115124981、115124999、115125013、115125034、115125053、115125060、115125098、115125107、115125114、115125121、115125131、115125141、115125151、115125177、115125192、115125225、115125305、115125335;chr13染色體的37005452、37005489、37005501、37005520、37005551、37005553、37005557、37005562、37005566、37005570、37005582、37005596、37005608、37005629、37005633、37005635、37005673、37005678、37005686、37005694、37005704、37005706、37005721、37005732、37005738、37005741、37005745、37005773、37005778、 37005794、37005801、37005805、37005814、37005816、37005821、37005833、37005835、37005844、37005855、37005857、37005878、37005881、37005883、37005892、37005899、37005909、37005924、37005929、37005934、37005939、37005941、100649486、100649489、100649519、100649538、100649567、100649569、100649577、100649584、100649601、100649603、100649605、100649623、100649625、100649628、100649648、100649671、100649673、100649686、100649689、100649691、100649701、100649705、100649715、100649718、100649721、100649725、100649731、100649734、100649738、100649740、100649745、100649763、100649769、100649777、100649785、100649792、100649800、100649847、100649886、100649912、100649915、100649917、100649941、100649945、100649949、100649965、100649975、100649982、100650005;chr14染色體的38724435、38724459、38724473、38724486、38724507、38724511、38724527、38724531、38724534、38724540、38724544、38724546、38724565、38724578、38724586、38724597、38724624、38724627、38724646、38724648、38724650、38724669、38724675、38724680、38724682、38724685、38724726、38724732、38724734、38724746、38724765、38724771、38724780、38724796、38724798、38724806、38724808、38724810、38724821、38724847、38724852、38724858、38724864、38724867、38724873、38724896、38724906、38724929、38724935、38724945、38724978、38724995、38725003、38725005、38725014、38725016、38725023、38725026、38725030、38725034、38725038、38725048、38725058、38725077、38725081、38725088、38725101、57275669、57275674、57275677、57275681、57275683、57275687、 57275690、57275706、57275725、57275749、57275752、57275761、57275768、57275772、57275778、57275785、57275821、57275823、57275827、57275829、57275831、57275835、57275852、57275874、57275876、57275885、57275896、57275908、57275912、57275914、57275924、57275956、57275967、57275969、57275971、57275981、57275988、57275993、57275995、57276000、57276031、57276035、57276039、57276057、57276066、57276073、57276090、60952394、60952398、60952405、60952418、60952421、60952425、60952464、60952468、60952482、60952500、60952503、60952505、60952517、60952522、60952544、60952550、60952554、60952593、60952599、60952615、60952618、60952634、60952658、60952683、60952687、60952730、60952738、60952755、60952762、60952781、60952791、60952799、60952827、60952829、60952836、60952839、60952841、60952848、60952855、60952857、60952870、60952876、60952878、60952887、60952896、60952898、60952908、60952919、60952921、60952931;chr15染色體的83952068、83952081、83952084、83952087、83952095、83952105、83952108、83952114、83952125、83952135、83952140、83952156、83952160、83952162、83952175、83952178、83952181、83952184、83952188、83952200、83952206、83952209、83952214、83952220、83952225、83952229、83952236、83952238、83952242、83952266、83952285、83952291、83952298、83952309、83952314、83952317、83952345、83952352、83952358、83952360、83952367、83952406、83952411、83952414、83952418、83952420、83952425、83952430、83952453、83952464、83952472、83952486、83952496、83952498、83952500、83952506、83952508、83952527、83952553、83952559、83952566、83952570、 83952582、83952592;chr16染色體的31579976、31580071、31580078、31580081、31580089、31580100、31580110、31580117、31580138、31580150、31580153、31580159、31580165、31580220、31580246、31580254、31580269、31580287、31580296、31580299、31580309、31580311、31580316、31580343、31580424、31580496、31580524、31580560、73096786、73096842、73096889、73096894、73096903、73096914、73096923、73096929、73096934、73096943、73096948、73096966、73096970、73096979、73097000、73097015、73097017、73097019、73097028、73097037、73097045、73097057、73097060、73097066、73097069、73097078、73097080、73097082、73097084、73097108、73097114、73097142、73097156、73097183、73097260、73097267、73097284、73097296、73097301、73097329、73097357、73097364、73097377、73097381、73097387、73097470;chr17染色體的35299698、35299703、35299710、35299719、35299729、35299731、35299741、35299746、35299776、35299813、35299816、35299822、35299837、35299850、35299877、35299885、35299913、35299915、35299926、35299928、35299933、35299935、35299944、35299946、35299963、35299966、35299972、35299974、35299990、35299996、35299999、35300006、35300010、35300020、35300027、35300036、35300039、35300044、35300059、35300068、35300074、35300086、35300097、35300109、35300115、35300146、35300151、35300163、35300167、35300172、35300196、35300202、35300214、35300217、35300221、76929645、76929709、76929713、76929742、76929769、76929829、76929873、76929926、76929982、76930043、76930095、76930148、76930169、80846623、80846652、80846683、80846709、80846717、80846730、80846745、80846763、 80846794、80846860、80846867、80846886、80846960、80846965、80847079、80847092、80847115、80847128、80847137、80847153、80847158、80847209;chr21染色體的38081248、38081253、38081300、38081303、38081306、38081321、38081327、38081333、38081341、38081344、38081352、38081354、38081356、38081363、38081394、38081396、38081407、38081421、38081430、38081443、38081454、38081461、38081478、38081480、38081492、38081497、38081499、38081502、38081514、38081517、38081520、38081537、38081557、38081563、38081566、38081577、38081583、38081586、38081606、38081625、38081642、38081665、38081695、38081707、38081719、38081725、38081732。上述甲基化位點的鹼基編號對應於參考基因組HG19。
在一個或多個實施方案中,胰腺癌和胰腺炎的鑑別與選自以下任一組的選自基因的序列的甲基化水準相關:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。本發明提供上述基因或其片段的含一個或多個CpG的核酸分子。
進一步地,胰腺癌和胰腺炎的鑑別與選自以下的任意1個區段或隨機2個或全部3個區段的甲基化水準相關:位於SIX3基因區域的SEQ ID NO:57,TLX2基因區域的SEQ ID NO:58,CILP2基因區域的SEQ ID NO:59。
在某些實施方案中,胰腺癌和胰腺炎的鑑別與選自以下任一組的序列或其互補序列的甲基化水準相關:(1)SEQ ID NO:57、SEQ ID NO:58,(2)SEQ ID NO:57、SEQ ID NO:59,(3)SEQ ID NO:58、SEQ ID NO:59,(4)SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59。
本文所述“胰腺癌和胰腺炎鑑別相關序列”包括上述3個基因、其上游或下游20kb以內的序列、上述3個序列(SEQ ID NO:57-59)或其互補序列。
上述3個序列在人染色體中的位置如下所述:SEQ ID NO:57:chr2的45028785-45029307,SEQ ID NO:58:chr2的74742834-74743351,SEQ ID NO:59:chr19的19650745-19651270。本文中,各序列和甲基化位點的鹼基編號對應於參考基因組HG19。
在一個或多個實施方案中,本文所述核酸分子是選自SIX3、TLX2、CILP2中的一個或多個基因的片段;該片段的長度為1bp-1kb,較佳1bp-700bp;該片段包含相應基因的染色體區域中的一個或多個甲基化位點。本文所述基因或其片段中的甲基化位點包括但不限於:chr2的45028802、45028816、45028832、45028839、45028956、45028961、45028965、45028973、45029004、45029017、45029035、45029046、45029057、45029060、45029063、45029065、45029071、45029106、45029112、45029117、45029128、45029146、45029176、45029179、45029184、45029189、45029192、45029195、45029218、45029226、45029228、45029231、45029235、45029263、45029273、45029285、45029288、45029295、74742838、74742840、74742844、74742855、74742879、74742882、74742891、74742913、74742922、74742925、74742942、74742950、74742953、74742967、74742981、74742984、74742996、74743004、74743006、74743009、74743011、74743015、74743021、74743035、74743056、74743059、74743061、74743064、74743068、74743073、74743082、74743084、74743101、74743108、74743111、74743119、74743121、74743127、74743131、74743137、74743139、 74743141、74743146、74743172、74743174、74743182、74743186、74743191、74743195、74743198、74743207、74743231、74743234、74743241、74743243、74743268、74743295、74743301、74743306、74743318、74743321、74743325、74743329、74743333、74743336、74743343、74743346;chr19的19650766、19650791、19650796、19650822、19650837、19650839、19650874、19650882、19650887、19650893、19650895、19650899、19650907、19650917、19650955、19650978、19650981、19650995、19650997、19651001、19651008、19651020、19651028、19651041、19651053、19651059、19651062、19651065、19651071、19651090、19651101、19651109、19651111、19651113、19651121、19651123、19651127、19651133、19651142、19651144、19651151、19651166、19651170、19651173、19651176、19651179、19651183、19651185、19651202、19651204、19651206、19651225、19651227、19651235、19651237、19651243、19651246、19651263、19651267。上述甲基化位點未發生突變的鹼基編號對應於參考基因組HG19。
在一個或多個實施方案中,胰腺癌和胰腺炎的鑑別與選自以下任一組的選自基因的序列的甲基化水準相關:ARHGEF16、PRDM16、NFIA、ST6GALNAC5、PRRX1、LHX4、ACBD6、FMN2、CHRM3、FAM150B、TMEM18、SIX3、CAMKMT、OTX1、WDPCP、CYP26B1、DYSF、HOXD1、HOXD4、UBE2F、RAMP1、AMT、PLSCR5、ZIC4、PEX5L、ETV5、DGKG、FGF12、FGFRL1、RNF212、DOK7、HGFAC、EVC、EVC2、HMX1、CPZ、IRX1、GDNF、AGGF1、CRHBP、PITX1、CATSPER3、NEUROG1、NPM1、TLX3、NKX2-5、BNIP1、PROP1、B4GALT7、IRF4、FOXF2、FOXQ1、FOXC1、GMDS、MOCS1、LRFN2、 POU3F2、FBXL4、CCR6、GPR31、TBX20、HERPUD2、VIPR2、LZTS1、NKX2-6、PENK、PRDM14、VPS13B、OSR2、NEK6、LHX2、DDIT4、DNAJB12、CRTAC1、PAX2、HIF1AN、ELOVL3、INA、HMX2、HMX3、MKI67、DPYSL4、STK32C、INS、INS-IGF2、ASCL2、PAX6、RELT、FAM168A、OPCML、ACVR1B、ACVRL1、AVPR1A、LHX5、SDSL、RAB20、COL4A2、CARKD、CARS2、SOX1、TEX29、SPACA7、SFTA3、SIX6、SIX1、INF2、TMEM179、CRIP2、MTA1、PIAS1、SKOR1、ISL2、SCAPER、POLG、RHCG、NR2F2、RAB40C、PIGQ、CPNE2、NLRC5、PSKH1、NRN1L、SRR、HIC1、HOXB9、PRAC1、SMIM5、MYO15B、TNRC6C、9-Sep、TBCD、ZNF750、KCTD1、SALL3、CTDP1、NFATC1、ZNF554、THOP1、CACTIN、PIP5K1C、KDM4B、PLIN3、EPS15L1、KLF2、EPS8L1、PPP1R12C、NKX2-4、NKX2-2、TFAP2C、RAE1、TNFRSF6B、ARFRP1、MYH9、和TXN2。本發明提供上述基因或其片段的含一個或多個CpG的核酸分子。
在某些實施方案中,胰腺癌和胰腺炎的鑑別與選自以下任一組的序列或其互補序列的甲基化水準相關:SEQ ID NO:60至160。
本文所述“胰腺癌和胰腺炎鑑別相關序列”包括上述101個基因、其上游或下游20kb以內的序列、上述101個序列(SEQ ID NO:60至160)或其互補序列。本文中,各序列和甲基化位點的鹼基編號對應於參考基因組HG19。
在一個或多個實施方案中,該核酸分子長度為1bp-1000bp、1bp-900bp、1bp-800bp、1bp-700bp。該核酸分子長度可以為上述任何端值之間的範圍。
本文中,檢測DNA甲基化的方法本領域周知,例如基於亞硫酸氫鹽轉化的PCR(例如甲基化特異性PCR(Methylation-specific PCR,MSP)、 DNA測序、全基因組甲基化測序、簡化甲基化測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法、基於晶片的甲基化圖譜分析、質譜。在一個或多個實施方案中,檢測包括檢測基因或位點處的任一條鏈。
因此,本發明涉及檢測DNA甲基化的試劑。本領域周知上述檢測DNA甲基化的方法中所用的試劑。在涉及DNA擴增的檢測方法中,檢測DNA甲基化的試劑包括引子。該引子序列為甲基化特異的或非特異的。該引子的序列可以包括非甲基化特異的封閉序列(Blocker)。封閉序列可以提高甲基化檢測的特異性。檢測DNA甲基化的試劑還可包括探針。通常,探針的序列的5’端標記螢光報告基團,3’端標記淬滅基團。示例性地,該探針的序列包含MGB(Minor groove binder)或者LNA(Locked nucleic acid)。MGB和LNA用於提高Tm值,增加分析的特異性,提高探針設計的靈活性。本文所述“引子”是指在核苷酸聚合作用起始時,引導合成的一種具有特定核苷酸序列的核酸分子。引子通常是人工合成的兩段寡核苷酸序列,一個引子與靶區域一端的一條DNA範本鏈互補,另一個引子與靶區域另一端的另一條DNA範本鏈互補,其功能是作為核苷酸聚合作用的起始點。引子通常至少9bp。體外人工設計的引子被廣泛用於聚合酶鏈反應(PCR)、qPCR、測序和探針合成等。通常,引子被設計為擴增的產物長度為1-2000bp、10-1000bp、30-900bp、40-800bp、50-700bp、或至少150bp、至少140bp、至少130bp、至少120bp。
本文術語“變體”或“突變體”是指與參照序列相比,藉由一個或多個核苷酸的插入、缺失或取代使核酸序列發生變化同時保留其與其他核酸雜交能力的多核苷酸。本文任一實施方案所述的突變體包括與參照序列具有至少70 %,較佳至少80%,較佳至少85%,較佳至少90%,較佳至少95%,較佳至少97%的序列相同性並保留參照序列的生物學活性的核苷酸序列。可採用例如NCBI的BLASTn計算兩條比對的序列之間的序列相同性。突變體還包括在參照序列的和核苷酸序列中具有一個或多個突變(插入、缺失或取代)、同時仍保留參照序列生物學活性的核苷酸序列。該多個突變通常指1-10個以內,例如1-8個、1-5個或1-3個。取代可以是嘌呤核苷酸與嘧啶核苷酸之間的取代,也可以是嘌呤核苷酸之間或嘧啶核苷酸之間的取代。取代較佳是保守性取代。例如,在本領域中,用性能相近或相似的核苷酸進行保守性取代時,通常不會改變多核苷酸的穩定性和功能。保守性取代例如嘌呤核苷酸之間的(A與G)的互換,嘧啶核苷酸之間的(T或U與C)的互換。因此,在本發明多核苷酸中用來自同一殘基替換一個或幾個位點,將不會在實質上影響其活性。此外,本發明的變體中的甲基化位點(例如連續的CG)未發生突變。即本發明方法檢測的是相應序列中的可甲基化位元點的甲基化情況,對於非可甲基化位點的鹼基可以發生突變。通常,甲基化位點是連續的CpG二核苷酸。
如本文所述,DNA或RNA的鹼基之間可發生轉化。本文所述“轉化”、“胞嘧啶轉化”或“CT轉化”是利用非酶促或酶促方法處理DNA,將未修飾的胞嘧啶鹼基(cytosine,C)轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基(例如尿嘧啶鹼基(uracil,U))的過程。本領域周知進行胞嘧啶轉化的非酶促或酶促方法。示例性地,非酶促方法包括使用轉化試劑例如亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽處理,例如亞硫酸氫鈣、亞硫酸氫鈉、亞硫酸氫鉀、亞硫酸氫銨、重硫酸鈉、重硫酸鉀和重硫酸銨等。示例性地,酶促方法包括脫胺酶處理。經轉化的DNA視需要經純化。適用於本文的DNA純化方法本領域周知。
本發明還提供一種用於診斷胰腺癌的甲基化檢測試劑盒,該試劑盒包括本文所述的引子和/或探針,用於檢測發明人發現的胰腺癌相關序列的甲基化水準。該試劑盒還可包含本文所述,特別是第一方面所述的核酸分子作為內標或陽性對照。本文所述“雜交”主要指在嚴謹條件下的核酸序列配對。示例性嚴謹條件為在0.1×SSPE(或0.1×SSC)、0.1%SDS的溶液中,65℃條件下雜交並洗膜。
除了該引子、探針、核酸分子之外,試劑盒還包含檢測DNA甲基化所需的其他試劑。示例性地,檢測DNA甲基化的其他試劑可包含以下的一種或多種:亞硫酸氫鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標、對照物。
該試劑盒還可包括經轉化的陽性標準品,其中未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。該陽性標準品可以是完全甲基化的。該試劑盒還可包括PCR反應試劑。較佳地,該PCR反應試劑包括Taq DNA聚合酶、PCR緩衝液(buffer)、dNTPs、Mg2+
本發明還提供一種用於胰腺癌篩查的方法,包括:(1)檢測物件的樣品中本文所述胰腺癌相關序列的甲基化水準;(2)與對照樣品和/或參考水準比較,或者藉由計算得出評分;(3)根據評分鑑定物件的胰腺癌。通常,該方法在步驟(1)之前還包括:樣品DNA的抽提、質檢、和/或將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。
在具體實施方案中,步驟(1)包括:用轉化試劑處理基因組DNA或cfDNA,使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基(例 如尿嘧啶);使用引子進行PCR擴增,該引子適用於擴增本文所述胰腺癌相關序列的經轉化的序列;藉由擴增產物的有或無、或者序列鑑定(例如基於探針的PCR檢測鑑定或DNA測序鑑定)確定至少一個CpG的甲基化狀態或水準。
或者步驟(1)還可包括:用甲基化敏感的限制性內切酶處理基因組DNA或cfDNA;使用引子進行PCR擴增,該引子適用於擴增具有本文所述胰腺癌相關序列中至少一個CpG的序列;藉由擴增產物的有或無確定至少一個CpG的甲基化狀態或水準。本文所述“甲基化水準”包括所涉序列中任意數量、和任意位置的CpG的甲基化狀態的關係。該關係可以是甲基化狀態參數(例如0或1)的加減或數學演算法的計算結果(例如均值、百分比、份數、比例、程度或利用數學模型進行的計算)、包括但不限於甲基化水準度量值、甲基化單倍型比值、或甲基化單倍型負荷。術語“甲基化狀態”顯示具體CpG位元點的甲基化,通常包括甲基化的或未甲基化的(例如甲基化狀態參數0或1)。
在一個或多個實施方案中,與對照樣品和/或參考水準比較時,物件樣品的甲基化水準升高或降低。當甲基化標誌物水準滿足某一閾值時,則鑑定為胰腺癌。或者,可對所測基因的甲基化水準進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為陽性,即為胰腺癌症,否則為陰性,即無胰腺癌血漿。本領域知曉常規數學分析的方法以及確定閾值的過程,示例性的方法是數學模型,例如,對於差異甲基化標誌物,對兩組樣本構建支援向量機(SVM)模型,利用模型統計檢測結果的準確率,敏感性和特異性以及預測值特徵曲線(ROC)下面積(AUC),統計測試集樣本預測得分。
在一個或多個實施方案中,與對照樣品和/或參考水準比較時,物件樣品的甲基化水準升高或降低。當甲基化標誌物水準滿足某一閾值時,則鑑 定為胰腺癌,否則為慢性胰腺炎。或者,可對所測基因的甲基化水準進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為陽性,即為胰腺癌症,否則為陰性,即胰腺炎。本領域知曉常規數學分析的方法以及確定閾值的過程,示例性的方法是支援向量機(SVM)數學模型。例如,對於差異甲基化標誌物,對訓練組樣本構建支援向量機(SVM),利用模型統計檢測結果的準確率,敏感性和特異性以及預測值特徵曲線(ROC)下面積(AUC),統計測試集樣本預測得分。在支持向量機的實施方案中,評分閾值為0.897,大於0.897則認為該受試者為胰腺癌患者,否則為慢性胰腺炎患者。
在較佳的實施方案中,模型訓練過程如下:首先根據每個位元點甲基化水準獲取差異甲基化區段並構建差異甲基化區域矩陣,例如可藉由例如samtools軟體從HG19基因組單個CpG雙核苷酸位置的甲基化水準資料構建甲基化資料矩陣;然後進行SVM模型訓練。
示例性的SVM模型訓練過程如下:
a)構建訓練模型模式。使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR()。
b)使用sklearn套裝軟體(0.23.1),輸入資料矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集資料矩陣,y_train表示訓練集的表型資訊。
通常,在構建模型的過程中,可將胰腺癌類型編碼為1,無胰腺癌類型編碼為0。本發明中,由python軟體(v3.6.9)、sklearn套裝軟體(0.23.1)將閾值設置為0.895。構建出的模型最終也以0.895對樣本進行有無胰腺癌的區分。
本文中,樣品來自哺乳動物,較佳人。樣品可來自任何器官(例如胰腺)、組織(例如上皮組織、結締組織、肌肉組織和神經組織)、細胞(例如胰腺癌活檢物)或者體液(例如血液、血漿、血清、組織液、尿液)。通常,只要該樣品包含基因組DNA或cfDNA(Circulating free DNA or Cell free DNA)即可。cfDNA稱為迴圈游離DNA或者細胞游離DNA,是釋放到血漿中的降解的DNA片段。示例性地,該樣品是胰腺癌活檢物,較佳是細針穿刺活檢物。或者,該樣品是血漿或cfDNA。
本文還涉及獲取與胰腺癌相關甲基化單倍型比值的方法。以甲基化靶向測序(MethylTitan)獲得的甲基化資料為例,篩選並測試標誌物位元點的過程如下:原始雙端測序讀數─讀數合併得到合併的單端讀數─去接頭得到去接頭的讀數─Bismark比對到人DNA基因組形成BAM檔─samtools提取每條讀段的CpG位點甲基化水準形成haplotype檔─統計C位點甲基化單倍型比例形成meth檔─計算MHF(Methylated Haplotype Fraction)甲基化單倍型比值─Coverage 200過濾位點形成meth.matrix矩陣檔─按照NA值大於0.1過濾位點進行過濾─隨預先將樣本分為訓練集和測試集─對於訓練集的每個單倍型對表型構建邏輯回歸模型,選取每個甲基化單倍型比值的回歸P值─統計每個MethylTitan擴增區域內選取P值最顯著的甲基化單倍型代表該區域的甲基化水準藉由支持向量機建模─形成訓練集的結果(ROC圖)並用模型預測測試集進行驗證。具體地,獲取與胰腺癌相關甲基化單倍型的方法包括如下步驟:(1)獲取待測具有或不具有胰腺癌的患者樣本的血漿,提取cfDNA,採用MethylTitan方法進行建庫測序,獲得測序讀段;(2)測序數據預處理,包括對對測序儀產生的測序數據進行去接頭和拼接處理;(3)將上述預處理之後 的測序數據,比對到人基因組的HG19參考基因組序列,確定每條片段的位置。步驟(2)的資料可來源於Illumina測序平臺雙端150bp測序。步驟(2)的去接頭是分別去除兩條雙端測序數據5’端和3’端的測序接頭,以及去除接頭之後的低品質鹼基去除處理。步驟(2)的拼接處理是,將雙端測序數據合併還原為原文庫片段。這樣可以更好地進行比對,準確定位測序片段。示例性地,測序文庫長度在180bp左右,雙端150bp可以完全覆蓋整條文庫片段。步驟(3)包括:(a)將HG19參考基因組資料分別進行CT和GA轉化,構建兩套轉化後的參考基因組,並分別對轉化後的參考基因組構建比對索引;(b)將上部合併好的測序序列資料同樣進行CT和GA轉化;(c)分別對上述轉化後的參考基因組序列進行比對,最後匯總比對結果確定測序數據在參考基因組的位置。
此外,獲取與胰腺癌相關甲基化數值的方法還包括(4)MHF的計算;(5)構建甲基化單倍型MHF數據矩陣;和(6)根據樣本分組構建每個甲基化單倍型的邏輯回歸模型。步驟(4)包括藉由步驟(3)得到的比對結果,針對HG19參考基因組的位置,獲取該位置上的甲基化單倍型狀態和測序深息。步驟(5)包括將甲基化單倍型狀態和測序深度資訊資料合併成資料矩陣。其中,對每個深度小於200的資料點當作缺失值處理,使用K最近鄰(KNN)方法對缺失值進行填充。步驟(6)包括根據使用邏輯回歸對上述矩陣中的每個位置進行統計建模,篩選在兩組之間具有顯著回歸係數的單倍型。
本發明探究了DNA甲基化和CA19-9水準與胰腺癌和胰腺炎關係。旨在藉由無創的方法利用標誌物群DNA甲基化水準和CA19-9水準作為胰腺癌和慢性胰腺炎鑑別標誌物,提高胰腺癌無創診斷的精確性。
發明人發現,如果在胰腺癌標誌物篩選以及診斷中結合CA19-9水準,可以顯著提高診斷精確性。
本發明首先提供一種物篩選胰腺癌甲基化標誌物的方法,包括:(1)獲取對象基因組(例如cfDNA)DNA區段的甲基化單倍型比值和測序深度,視需要的(2)對該甲基化單倍型比值和測序深度資料進行預處理,(3)進行交叉驗證增量特徵篩選,獲得特徵甲基化區段。
步驟(1)的獲取可以是甲基化檢測後的資料分析或者直接從檔中讀取。在進行甲基化檢測的實施方案中,步驟(1)包括:1.1)對物件樣品進行DNA甲基化檢測,獲得測序讀段(read)資料,1.3)將測序數據比對到參考基因組,獲得甲基化區段的位置和測序深度資訊,1.4)根據下式計算區段的甲基化單倍型比值(MHF):
Figure 111128173-A0202-12-0050-3
其中i表示目標甲基化區域,h表示目標甲基化單倍型,N i 表示位於目標甲基化區域的read數目,N i,h 表示包含目標甲基化單倍型的reads數目。通常,需要針對目的地區域內的每一個甲基化單倍型計算甲基化單倍型比值。該步驟還可包括1.2)對測序數據進行預處理的步驟,例如去接頭和/或拼接處理。
步驟(2)包括將甲基化單倍型比值狀態和測序深度資訊資料合併成資料矩陣的步驟。此外,為了使結果更精確,步驟(2)還包括:在資料矩陣中去除缺失值比例高於5-15%(例如10%)的位點,並且對每個深度小於300(例如小於200)的資料點當作缺失值處理,並用K最近鄰方法對缺失值進行填充。
在一個或多個實施方案中,步驟(3)包括:使用數學模型在訓練資料中進行交叉驗證增量特徵篩選,其中使數學模型的AUC增加的DNA區段為特徵甲基化區段。其中,數學模型可以是支援向量機模型(SVM)或隨機森林模型。較佳地,步驟(3)包括:(3.1)根據DNA區段的甲基化單倍型比值和測序深度對DNA區段的相關性排序,獲得相關性高的候選甲基化區段,和(3.2)進行交叉驗證增量特徵篩選,其中候選甲基化區段按照相關性排序(例如回歸係數從大到小),每次加入一個或多個候選甲基化區段資料,對測試資料進行預測,其中,交叉驗證AUC的均值增加的候選甲基化區段是特徵甲基化區段。其中,步驟(3.1)具體可為:根據DNA區段的甲基化單倍型比值和測序深度相對物件表型構建邏輯回歸模型,篩選出回歸係數大的DNA區段,組成候選甲基化區段。步驟(3.2)中的預測可藉由構建模型(例如支援向量機模型或隨機森林模型)進行。
在獲取特徵甲基化區段之後,可將其與CA19-9水準結合以構建更精確的胰腺癌診斷模型。因此,在構建胰腺癌診斷模型的方法中,除了上述步驟(1)-(3)之外,還包括(4)對特徵甲基化區段的資料構建數學模型,得到甲基化評分,和(5)將甲基化評分與CA19-9水準合併資料矩陣,基於資料矩陣構建胰腺癌診斷模型。步驟(4)中的“資料”是特徵甲基化區段的甲基化檢測結果,較佳為甲基化單倍型比值和測序深度的合併矩陣。
步驟(4)中的數學模型可以是任何通常用於診斷資料分析的數學模型,例如支援向量機(SVM)模型、隨機森林、回歸模型等。本文中,示例性的該數學模型是向量機(SVM)模型。
步驟(5)中的胰腺癌診斷模型可以是任何用於診斷資料分析的數學模型,例如支援向量機(SVM)模型、隨機森林、回歸模型等。本文中,示例性的胰腺癌診斷模型是如下所示的邏輯回歸胰腺癌模型:
Figure 111128173-A0202-12-0052-4
其中M為樣本的甲基化評分,C為樣品的CA19-9水準。在一個或多個實施方案中,模型閾值為0.885,高於該值判斷為胰腺癌,低於或等於該值則判斷為非胰腺癌。
在具體實施方案中,基於機器學習的鑑別胰腺炎和胰腺癌的方法包括:
(1)抽取待測胰腺癌或胰腺炎患者血液,並收集患者年齡,性別,CA19-9檢測值等資訊;(2)獲取待測胰腺癌或胰腺炎的患者樣本的血漿,提取cfDNA,採用MethylTitan方法進行建庫測序,獲得測序讀段;(3)測序數據預處理,包括對對測序儀產生的測序數據進行去接頭和拼接處理;(4)將上述預處理之後的測序數據,比對到參考基因組序列,確定每條片段的位置;(5)MHF(Methylated Haplotype Fraction)甲基化數值矩陣的計算:一個目標甲基化區域可能有多個甲基化單倍型(haplotype),對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
Figure 111128173-A0202-12-0052-5
其中i表示目標甲基化區間,h表示目標的甲基化haplotype,Ni表示位於目標甲基化區間的reads數目,Ni,h表示包含目標甲基化haplotype的reads數目;(6)針對參考基因組的位置,獲取該位置上的甲基化單倍型比值狀態和測序深 度資訊,將甲基化單倍型比值狀態和測序深度資訊資料合併成資料矩陣。去除缺失值比例高於10%的位點,並對每個深度小於200的資料點當作缺失值處理,使用K最近鄰(KNN)方法對缺失值進行填充;(7)將所有樣本分為兩份,一份為訓練集,另一份為測試集;(8)根據訓練集樣本分組發現特徵甲基化區段:每個甲基化區段對於表型構建邏輯回歸模型,對每個擴增的目的地區域篩選出回歸係數最顯著的甲基化區段,組成候選甲基化區段。將訓練集隨機分成十份做十倍交叉驗證增量特徵篩選。每個區域的候選甲基化區段按照回歸係數顯著性進行從大到小排序,每次加入一個甲基化區段資料,對測試資料進行預測(構建向量機(SVM)模型預測)。判別的指標為10次交叉驗證AUC的均值,如果訓練資料的AUC增加則保留該候選甲基化區段作為特徵甲基化區段,否則捨棄;(9)將步驟(8)篩選得到的特徵甲基化區段在訓練集中的資料帶入支援向量機(SVM)模型中,並在測試集中驗證模型的性能;(10)將步驟(9)中的訓練集SVM模型的預測分數同訓練集樣本對應的CA19-9的測量值的合併資料矩陣帶入邏輯回歸模型,並在測試集中驗證合併CA19-9之後模型性能。
本發明還提供一種用於診斷胰腺癌的試劑盒,該試劑盒包含檢測DNA甲基化的試劑或裝置,和檢測CA19-9水準的試劑或裝置。
檢測DNA甲基化的試劑用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準。示例性的檢測DNA甲基化的試劑包括本文所述的引子和/或探針,用於檢測發明人發現的胰腺癌和胰腺炎鑑別相關序列的甲基化水準。
本文所述CA19-9水準主要是體液(例如血液或血漿)中的CA19-9水準。檢測CA19-9水準的試劑可以是任何本領域已知可以用於CA19-9檢測 方法所用的試劑,例如基於免疫反應的檢測試劑,包括但不限於:CA19-9的抗體、和視需要的緩衝液、洗滌液等。本發明中使用的示例性檢測方法藉由化學發光免疫分析法進行CA19-9含量的檢測,具體步驟:首先用化學發光標記物(吖啶酯)標記CA19-9抗體,經標記的抗體和CA19-9抗原發生免疫反應形成CA19-9抗原-吖啶酯標記抗體複合物,然後加入氧化劑(H2O2)和NaOH形成鹼性環境,這時吖啶酯即可在不需要催化劑的情況下分解、發光,由集光器和光電倍增管(化學發光檢測儀)接收、記錄單位時間內所產生的光子能,這部分光的積分與CA19-9抗原的量成正比,根據標準曲線即可計算出CA19-9的含量。
本發明還包括診斷胰腺癌的方法,包括:(1)獲取物件樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和物件的CA19-9水準,(2)利用數學模型(例如支援向量機模型或隨機森林模型)使用甲基化狀態或水準計算獲得甲基化評分,(3)將甲基化評分與CA19-9水準合併資料矩陣,(4)基於資料矩陣構建胰腺癌診斷模型(例如邏輯回歸模型),視需要的(5)獲得胰腺癌評分;根據胰腺癌評分是否達到閾值來診斷胰腺癌。該方法在步驟(1)之前還可包含DNA抽提和/或質檢。本發明特別適合從胰腺炎患者中分辨胰腺癌,即鑑別胰腺癌和胰腺炎。
該物件例如是診斷為胰腺炎或曾經診斷患有胰腺炎(既往確診)的患者。即,在一個或多個實施方案中,該方法在診斷為慢性胰腺炎的患者(包括既往確診的患者)中鑑定胰腺癌。當然,本發明方法並不限於上述物件,也可以用於對未經診斷的物件直接進行胰腺炎或胰腺癌的診斷、鑑別。
在具體實施方案中,步驟(1)包括檢測對象的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,例如使用本文所述的引子分子和/或探針分子檢測甲基化狀態或水準。
檢測甲基化狀態或水準以及檢測CA19-9水準的方法如本文他處所述。一種具體的檢測甲基化狀態或水準的方法包括:用轉化試劑處理基因組DNA或cfDNA,使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基(例如尿嘧啶);使用引子進行PCR擴增,該引子適用於擴增本文該胰腺癌和胰腺炎鑑別相關序列的經轉化的序列;藉由擴增產物的有或無、或者序列鑑定(例如基於探針的PCR檢測鑑定或DNA測序鑑定)確定至少一個CpG的甲基化水準。
在較佳的實施方案中,模型訓練過程如下:首先根據每個位元點甲基化水準獲取差異甲基化區段並構建差異甲基化區域矩陣,例如可藉由例如samtools軟體從HG19基因組單個CpG雙核苷酸位置的甲基化水準資料構建甲基化資料矩陣;然後進行SVM模型訓練。
示例性的SVM模型訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(v0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR()。
b)使用sklearn套裝軟體(v0.23.1),輸入資料矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集資料矩陣,y_train表示訓練集的表型資訊。
根據發明人的發現,將甲基化評分與CA19-9水準結合可以顯著提高診斷精確性。具體地,甲基化評分與CA19-9水準合併成資料矩陣,然後基於資料矩陣構建胰腺癌診斷模型(例如邏輯回歸模型),獲得胰腺癌評分。
甲基化評分與CA19-9水準的資料矩陣視需要經過標準化處理。標準化可以使用本領域常規標準化方法。本發明實施例中示例性使用RobustScaler標準化方法,標準化公式如下:
Figure 111128173-A0202-12-0056-6
其中x和x’分別為均一化前後的樣本資料,median為樣本的中位數,IQR為樣本的四分位元距。
與甲基化評分類似,本領域知曉常規數學模型的方法以及藉由資料矩陣確定閾值的過程,例如藉由支持向量機(SVM)數學模型、隨機森林模型或邏輯回歸模型。示例性的方法是邏輯回歸模型。例如,對於差異甲基化標誌物,對訓練組樣本邏輯回歸模型,利用模型統計檢測結果的準確率,敏感性和特異性以及預測值特徵曲線(ROC)下面積(AUC),統計測試集樣本預測得分。當結合甲基化水準和CA19-9水準的胰腺癌評分滿足某一閾值時,則鑑定為胰腺癌,否則為慢性胰腺炎。
一方面,本揭露提供一種確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,可以包含確定待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量。例如,本揭露的方法可以包含,根據待測樣本中TLX2、EBF2、 KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量的確定結果,確認胰臟腫瘤是否存在。例如,本揭露的方法可以包含,根據待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量的確定結果,評估是否確診為胰臟腫瘤形成。例如,本揭露的方法可以包含,根據待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量的確定結果,評估是否有確診為胰臟腫瘤形成的風險和/或風險的高低。例如,本揭露的方法可以包含,根據待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量的確定結果,評估胰臟腫瘤的進展情況。
另一方面,本揭露提供一種評估胰臟腫瘤相關DNA區域甲基化狀態的方法,可以包含確定待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量。例如,根據待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量的確定情況,評估胰臟腫瘤相關DNA區域甲基化狀態。例如,胰臟腫瘤相關DNA區域甲基化狀態可以是指該DNA區域的甲基化的確認存在或相對於參考水準的數量提高,可以與胰臟腫瘤的發生有關聯。
例如,本揭露的所述DNA區域可以來源於人chr2:74740686-74744275、來源於人chr8:25699246-25907950、來源於人chr12:4918342-4960278、來源於人chr13:37005635-37017019、來源於人chr1:63788730-63790797、來源於人chr1:248020501-248043438、來源於人chr2:176945511-176984670、來源於人chr6:137813336-137815531、來源於人chr7:155167513-155257526、來源於人chr19:51226605-51228981、來源於人chr7:19155091-19157295、和來源於人chr2:73147574-73162020。例如,本揭露的基因可以藉由它們的名稱和它們的染色體座標來描述。例如,染色體座標可以與2009年2月發佈的人類基因組資料庫Hg19版(或稱作“Hg19座標”)一致。例如,本揭露的DNA區域可以是來源於由Hg19座標限定的區域。
另一方面,本揭露提供一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,可以包含確定待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域的特定的亞區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
另一方面,本揭露提供一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,可以包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人 chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。例如,本揭露的方法可以包含,根據待測樣本中該DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量的確定結果,確認疾病是否存在。例如,本揭露的方法可以包含,根據待測樣本中該DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量的確定結果,評估是否確診為疾病形成。例如,本揭露的方法可以包含,根據待測樣本中該DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量的確定結果,評估是否有確診為疾病的風險和/或風險的高低。例如,本揭露的方法可以包含,根據待測樣本中該DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量的確定結果,評估疾病的進展情況。
另一方面,本揭露提供一種確定DNA區域甲基化狀態的方法,可以包含:確定待測樣本中可以選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人 chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。例如,該DNA區域的甲基化的確認存在或相對於參考水準的數量提高,可以與疾病的發生有關聯。例如,本揭露的DNA區域可以是指基因組DNA的特定區段。例如,本揭露的DNA區域可以藉由基因名稱或一組染色體座標來指定。例如,一個基因可以藉由參考其名稱獲得其序列和染色體位置,或藉由參考其染色體座標確定其序列和染色體位置。本揭露採用這些特定DNA區域甲基化狀態作為一個系列分析指標,可以在靈敏度和/或特異性方面提供顯著的改進,並且可以簡化篩查過程。例如,“靈敏度”可以指正確鑑定的陽性結果的比例,即,正確鑑定為具有所討論疾病的個體的百分數;“特異性”可以指正確鑑定的陰性結果的比例,即,正確鑑定為不具有所討論疾病的個體的百分數。
例如,變體可以包含相對於本揭露所述的DNA區域共有至少80%、至少85%、至少90%、95%、98%、或99%序列同一性,變體可以包含一個或多個缺失、添加、置換、倒轉序列等。例如,本揭露所述變體的修飾狀態可以實現相同的評估結果。本揭露的DNA區域可以包含全部形式的任何其他的突變、多態性變異或等位變異。
例如,本揭露的方法可以包含:提供能夠結合可以包含選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:SEQ ID NO:164、168、172、176、180、184、188、192、196、200、204、208、212、216、220、224、228、和232。
另一方面,本揭露提供一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,可以包含:確定待測樣本中可以選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr2:74743042-74743113和來源於人chr2:74743157-74743253、來源於人chr2:74743042-74743113和來源於人chr2:74743157-74743253、來源於人chr8:25907865-25907930和來源於人chr8:25907698-25907814、來源於人chr12:4919188-4919272、來源於人chr12:4919036-4919164和來源於人chr12:4919341-4919438、來源於人chr13:37005652-37005721、來源於人chr13:37005458-37005596和來源於人chr13:37005694-37005824、來源於人chr1:63788850-63788913、來源於人chr1:248020635-248020731、來源於人chr2:176945521-176945603、來源於人chr6:137814750-137814815、來源於人chr7:155167531-155167610、來源於人chr19:51228620-51228722、和來源於人chr7:19156779-19157914、和來源於人chr2:73147571-73147626。
例如,上述區域的一種或多種可以作為擴增區域和/或檢測區域。
例如,本揭露的方法可以包含:提供可以選自以下組核酸或其互補核酸、或上述的片段:SEQ ID NO:165、169、173、177、181、185、189、193、197、201、205、209、213、217、221、225、229、和233。例如,該核酸可以用於檢測目的地區域。例如,該核酸可以作為探針。
例如,本揭露的方法可以包含:提供可以選自以下組核酸組或其互補核酸組、或上述的片段:SEQ ID NO:166與167、170與171、174與175、178與179、182與183、186與187、190與191、194與195、198與199、202與203、206與207、210與211、214與215、218與219、222與223、226與 227、230與231、和234與235。例如,該核酸組可以用於擴增目的地區域。例如,該核酸組可以作為引子組。
例如,該疾病可以包含腫瘤。例如,該疾病可以包含實體瘤。例如,該疾病可以包含胰臟腫瘤等任意的腫瘤。例如,視需要地本揭露的疾病可以包含胰腺癌。例如,視需要地本揭露的疾病可以包含胰腺導管腺癌。例如,視需要地本揭露的胰臟腫瘤可以包含胰腺導管腺癌。
例如,本揭露的“互補的”和“基本上互補的”可以包括在核苷酸或核酸之間,例如在雙鏈DNA分子的兩條鏈之間,或在寡核苷酸引子和單鏈核酸上的引子結合位點之間的雜交或鹼基配對或雙鏈體的形成。互補的核苷酸可以通常是A和T(或A和U)或C和G。對於兩個單鏈RNA或DNA分子,當一條鏈的核苷酸在進行最佳比對和比較並且具有適當的核苷酸插入或缺失時與另一條鏈的至少約80%(通常至少約90%至約95%,甚至約98%至約100%)成對時,可以認為它們是基本互補的。在一個方面,兩個互補的核苷酸序列能夠雜交,並且可以在反向的核苷酸之間有小於25%的錯配,更可以以小於15%的錯配,可以以小於5%的錯配,或不具有錯配。例如,兩個分子可以在高嚴格條件下雜交。
例如,本揭露的修飾狀態可以是指該修飾狀態在DNA區域內部一個特定核苷酸或多個核苷酸處的存在、不存在和/或其含量。例如,本揭露的修飾狀態可以是指特定DNA序列中每個鹼基或每個特定鹼基(例如胞嘧啶)的修飾狀態。例如,本揭露的修飾狀態可以是指特定DNA序列中鹼基對組合和/或鹼基組合的修飾狀態。例如,本揭露的修飾狀態可以是指特定DNA序列(包括 基因所在DNA區域或其特定區域片段)中關於區域修飾密度的資訊,而可以不提供該序列中何處發生修飾的精確位置資訊。
例如,本揭露的修飾狀態可以是指甲基化狀態或與甲基化類似的狀態。例如,具有或具有較高的甲基化的狀態可以是與特定區域的轉錄沉默相關的。例如,具有或具有較高的甲基化的狀態可以是與能夠被甲基化特異性轉化試劑(例如脫胺基試劑和/或甲基化敏感限制酶)轉化相關的。例如,轉化可以是指被轉變為其它物質和/或被剪切或消化。
例如,該方法還可以包含獲取待測樣本中的核酸。例如,該核酸可以包含無細胞游離核酸。例如,該待測樣本可以包含組織、細胞和/或體液。例如,該待測樣本可以包含血漿。例如,本揭露的檢測方法可以對任何適合的生物樣品進行。例如,待測樣本可以為生物材料的任何樣品,例如其可以源自動物,但不限於細胞材料、生物流體(例如血液)、排出物、組織活組織檢查標本、手術標本或已經導入動物身體中並且隨後取出的流體。例如,本揭露的待測樣本可以包含在該樣本分離後經任何形式處理的樣本。
例如,該方法還可以包含轉化該DNA區域或其片段。例如,藉由本揭露的轉化步驟,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後可以形成不同的物質。例如,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後可以改變為與該鹼基不同的其它鹼基(例如,該其它鹼基可以包含尿嘧啶)、或在轉化後被剪切。例如,該鹼基可以包含胞嘧啶。例如,該修飾狀態可以包含甲基化修飾。例如,該轉化可以包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。例如,該脫胺基試劑可以包含亞硫酸氫鹽或其類似物。例如,亞硫酸氫鈉或亞硫酸氫鉀。
例如,該方法還可以包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。例如,該擴增可以包含PCR擴增。例如,本揭露的擴增可以包含已知的任意一種擴增系統。例如,本揭露的擴增步驟可以是視需要地。例如,“擴增”可以是指產生所需序列的多個拷貝的過程。“多個拷貝”可以是指至少兩個拷貝。“拷貝”可以不意味著與範本序列具有完美的序列互補性或同一性。例如,拷貝可以包括核苷酸類似物如去氧肌苷,有意的序列改變(例如藉由包含與範本可雜交但不互補的序列的引子引入的序列改變),和/或在擴增過程中可以發生序列錯誤。
例如,該確定修飾狀態的存在和/或含量的方法可以包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。例如,該確定修飾狀態的存在和/或含量的方法可以包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。例如,可以直接檢測具有該修飾狀態的DNA區域或其片段的存在和/或含量。例如,可以藉由以下方式檢測:具有該修飾狀態的DNA區域或其片段可以在反應(例如擴增反應)的過程中可以與不具有該修飾狀態的DNA區域或其片段具有不同的特性。例如,在螢光PCR方法中,具有該修飾狀態的DNA區域或其片段可以被特異性擴增,並發出螢光;不具有該修飾狀態的DNA區域或其片段可以基本不被擴增,並基本不發出螢光。例如,確定具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量的替代方法,可以包含在本揭露的範圍之內。
例如,可以藉由該螢光PCR方法檢測的螢光Ct值,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。例如,可以藉由該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更 高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。例如,當該待測樣本的螢光Ct值相對於參考螢光Ct值更低時,可以確定該DNA區域或其片段的修飾狀態的存在和/或可以確定該DNA區域或其片段的修飾狀態的含量高於參考樣本中的修飾狀態的含量。例如,可以藉由檢測參考樣本確定該參考螢光Ct值。例如,當該待測樣本的螢光Ct值相對於參考螢光Ct值更高或基本相當時,也可以不排除該DNA區域或其片段的修飾狀態的存在;當該待測樣本的螢光Ct值相對於參考螢光Ct值更高或基本相當時,可以確認該DNA區域或其片段的修飾狀態的含量低於或基本等於參考樣本中的修飾狀態的含量。
例如,本揭露可以藉由迴圈閾值(即Ct值)來表示特定DNA區域或其片段的修飾狀態的存在和/或含量,例如包括待測樣本的甲基化水準和參考水準。例如,Ct值可以是指在背景信號以上可以檢測到PCR產物的螢光的迴圈數。例如,Ct值與樣品中目標標記物的起始數量可以成負相關關係,即Ct值越低,待測樣品中DNA區域或其片段的修飾狀態的數量越多。
例如,當待測樣品的Ct值相對於其相應的參考Ct值相同或更低可以確認為存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。例如,當待測樣品的Ct值相對於其相應的參考Ct值低至少1個迴圈、至少2個迴圈、至少5個迴圈、至少10個迴圈、至少20個迴圈、或至少50個迴圈時,可以確認為存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。
例如,當細胞樣本、組織樣本或來源於受試者的樣本的Ct值相對於其相應的參考Ct值相同或更高,可以確認為不存在特定疾病、診斷為特定 疾病的形成或具有形成風險或者評估為特定疾病的某種進展。例如,當細胞樣本、組織樣本或來源於受試者的樣本的Ct值相對於其相應的參考Ct值高至少1個迴圈、至少2個迴圈、至少5個迴圈、至少10個迴圈、至少20個迴圈、或至少50個迴圈時,可以確認為不存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。例如,當細胞樣本、組織樣本或來源於受試者的樣本的Ct值相對於其相應的參考Ct值疾病相同時,可以確認為存在或不存在特定疾病、診斷為特定疾病的形成或未形成、具有或不具有形成風險或者評估為特定疾病的某種進展,並同時可以給出需要進一步檢測的建議。
例如,本揭露的參考水準或對照水準可以是指是正常水準或健康水準。例如,該正常水準可以是來源於無該疾病的細胞、組織或個體的樣本DNA區域的修飾狀態水準。例如,當用於腫瘤的評估,該正常水準可以是來源於無腫瘤的細胞、組織或個體的樣本DNA區域的修飾狀態水準。例如,當用於胰臟腫瘤的評估,該正常水準可以是來源於無胰臟腫瘤的細胞、組織或個體的樣本DNA區域的修飾狀態水準。
例如,在本揭露中參考水準可以是指將受試者或樣本確認為存在或不存在特定疾病的閾值水準。例如,在本揭露中參考水準可以是指將受試者診斷為特定疾病的形成或具有形成風險的閾值水準。例如,在本揭露中參考水準可以是指將受試者評估為特定疾病的某種進展的閾值水準。例如,當細胞樣本、組織樣本或來源於受試者的樣本中的DNA區域的修飾狀態高於或基本等於相應參考水準時,例如此處參考水準可以是指不具有特定疾病患者的DNA區域的修飾狀態,可以確認為存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。例如,本揭露中的A與B“基本等於”可以是指A與 B的差值為1%或更少、0.5%或更少、0.1%或更少、0.01%或更少、0.001%或更少或0.0001%或更少。例如,當細胞樣本、組織樣本或來源於受試者的樣本中的DNA區域的修飾狀態高於相應參考水準至少1%、至少5%、至少10%、至少20%、至少50%、至少1倍、至少2倍、至少5倍、至少10倍、或至少20倍時,可以確認為存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。例如,當多次檢測中的至少一次、至少兩次、或至少三次的檢測中,細胞樣本、組織樣本或來源於受試者的樣本中的DNA區域的修飾狀態高於相應參考水準至少1%、至少5%、至少10%、至少20%、至少50%、至少1倍、至少2倍、至少5倍、至少10倍、或至少20倍時,可以確認為存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。
例如,當細胞樣本、組織樣本或來源於受試者的樣本中的DNA區域的修飾狀態低於或基本等於相應參考水準時,例如此處參考水準可以是指具有特定疾病患者的DNA區域的修飾狀態,可以確認為不存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。例如,當細胞樣本、組織樣本或來源於受試者的樣本中的DNA區域的修飾狀態低於相應參考水準至少1%、至少5%、至少10%、至少20%、至少50%、至少100%時,可以確認為不存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。
所屬技術領域中具有通常知識者可以根據期望的靈敏度和特異性來選擇參考水準。例如,在本揭露中各種情況下的參考水準可以是本領域人員容易確認的,如根據有限次嘗試確認合適的參考水準和/或合適的獲取參考水準 的手段,例如,參考水準可以源自一個或多個參考樣品,其中參考水準獲自與檢測目的樣品的實驗平行進行的實驗。或者,也可以在資料庫中獲得參考水準,該資料庫包括來自一個或多個參考樣品或疾病參考樣品的資料、標準或水準的集合。在一些實施方式中,資料、標準或水準的集合可以被標準化或歸一化,以便可用於與來自一個或多個樣品的資料進行比較,從而用於減少不同檢測條件下產生的誤差。
例如,參考水準可以來源於資料庫,該資料庫可以是參考資料庫,例如包括來自一個或多個參考樣品的目標標記物和/或其他實驗室和臨床資料的修飾狀態水準。例如,可以藉由匯總獲自健康個體和/或非相應疾病患者個體(即已知沒有該疾病的個體)的參考樣品的參考水準資料來建立參考資料庫。例如,可以藉由匯總獲自正在接受治療的患有相應疾病個體的參考樣品的參考水準資料來建立參考資料庫。例如,可以藉由匯總獲自疾病不同階段的個體的參考樣品的資料來建立參考資料庫。例如,例如不同階段可以是藉由本揭露目標標記物的不同的修飾狀態水準來證明的。所屬技術領域中具有通常知識者還可以基於各種因素,例如年齡、性別、病史、家族史、症狀等,來確定個體是否患相應疾病或具有患相應疾病的風險。
例如,本揭露可以藉由迴圈閾值(即Ct值)來表示特定DNA區域或其片段的修飾狀態的存在和/或含量,判讀方法可以為:根據各選自基因的序列的甲基化水準計算得分,得分大於0則結果為陽性,即樣本對應的結果可以為惡性結節;在一個或多個實施方案中,得分小於0則結果為陰性,即胰樣本對應的結果可以為良性結節。例如,在PCR實施方案中甲基化水準可以藉由以下計算,甲基化水準=2^(-△Ct待檢樣品)/2^(-△Ct陽性標準品)×100%,其中,△Ct =Ct目的基因-Ct內參基因。在測序實施方案中,甲基化水準可以藉由以下計算,甲基化水準=甲基化鹼基數/總鹼基數。
例如,本揭露的方法可以包含以下步驟:獲取待測樣本中的核酸;轉化該DNA區域或其片段;確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
例如,本揭露的方法可以包含以下步驟:獲取待測樣本中的核酸;轉化該DNA區域或其片段;擴增待測樣本中該DNA區域或其片段;確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
例如,本揭露的方法可以包含以下步驟:獲取待測樣本中的核酸;用試劑處理從待測樣品中獲得的DNA,該試劑能夠區分該DNA中的未甲基化位點和甲基化位點,從而獲得經處理的DNA;可選地擴增待測樣本中該DNA區域或其片段;定量、半定量或定性分析待測樣本中經處理的DNA的甲基化狀態的存在和/或含量;比較測樣本中經處理的DNA的甲基化水準以及相應的參考水準,當待測樣本中的DNA區域的甲基化狀態高於或基本等於相應參考水準時,可以確認為存在特定疾病、診斷為特定疾病的形成或具有形成風險或者評估為特定疾病的某種進展。
另一方面,本揭露提供一種核酸,該核酸可以包含能夠結合TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。例如,該核酸可以是本揭露的任一種探針。另一方面,本揭露提供一種製備核酸的方法,可以包含根據TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、 TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。例如,製備核酸的方法可以是本領域已知的任意合適的方法。
另一方面,本揭露提供一種核酸組,該核酸組可以包含能夠結合TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。例如,該核酸組可以是本揭露的任一種引子組。另一方面,本揭露提供一種製備核酸組的方法,可以包含根據TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠擴增該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸組。例如,製備核酸組中的核酸的方法可以是本領域已知的任意合適的方法。例如,可以使用單個探針或引子評估靶多核苷酸的甲基化狀態,該單個探針或引子被配置成與該靶多核苷酸雜交。例如,可以使用多個探針或引子評估靶多核苷酸的甲基化狀態,該多個探針或引子被配置成與該靶多核苷酸雜交。
另一方面,本揭露提供一種試劑盒,可以包含本揭露的核酸和/或本揭露的核酸組。例如,本揭露的試劑盒可以可選地包含相應用途的參考樣本或提供相應用途的參考水準。
另一方面,本揭露所述各探針還可以含有可檢測物。在一個或多個實施方案中,該可檢測物可以是5’端螢光報告基團和3’端標記淬滅基團。在一個或多個實施方案中,該螢光報告基因可以選自Cy5、Texas Red、FAM和VIC。
另一方面,本揭露所述試劑盒還可以包括經轉化的陽性標準品,其中未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,該陽性標準品可以是完全甲基化的。
另一方面,本揭露所述試劑盒還可以包括選自以下一種或多種的物質:PCR緩衝液、聚合酶、dNTP、限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標、對照物、KCl、MgCl2和(NH4)2SO4
另一方面,本揭露檢測DNA甲基化的試劑可以是選自以下方法的一個或多個中所用的試劑:基於亞硫酸氫鹽轉化的PCR(例如甲基化特異性PCR)、DNA測序(如亞硫酸氫鹽測序、全基因組甲基化測序、簡化甲基化測序)、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法、基於晶片的甲基化圖譜分析、和質譜(例如飛行質譜)。例如,該試劑可以選自以下一種或多種:亞硫酸氫鹽及其衍生物、螢光染料、螢光淬滅劑、螢光報告劑、內標、和對照物。
診斷方法、製備用途
另一方面,本揭露提供如本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒,在製備可以進行疾病檢測產品中的應用。
另一方面,本揭露提供一種疾病檢測方法,可以包括提供本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒。
另一方面,本揭露提供如本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒,其可以用於進行疾病檢測。
另一方面,本揭露提供如本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒,在製備可以確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用。
另一方面,本揭露提供一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,可以包括提供本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒。
另一方面,本揭露提供如本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒,其可以用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展。
另一方面,本揭露提供如本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒,在製備可以確定該DNA區域或其片段的修飾狀態的物質中的應用。
另一方面,本揭露提供一種確定該DNA區域或其片段的修飾狀態的方法,可以包括提供本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒。
另一方面,本揭露提供如本揭露的核酸、如本揭露的核酸組和/或本揭露的試劑盒,其可以用於確定該DNA區域或其片段的修飾狀態。
另一方面,本揭露提供用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備可以用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用,該用於確定的DNA區域 包含TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段。
另一方面,本揭露提供確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,可以包括提供確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,該用於確定的DNA區域包含TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段。
另一方面,本揭露提供用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,其可以用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展,該用於確定的DNA區域包含TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段。
另一方面,本揭露提供用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備可以用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用,該DNA區域可以包含選自以下組DNA區域、或其互補區域、或上述的片段:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人 chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
另一方面,本揭露提供確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,可以包括提供確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,該DNA區域可以包含選自以下組DNA區域、或其互補區域、或上述的片段:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
另一方面,本揭露提供用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,其可以用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展,該DNA區域可以包含選自以下組DNA區域、或其互補區域、或上述的片段:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人 chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
另一方面,本揭露提供TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合。
另一方面,本揭露提供TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,在製備可以用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用。
另一方面,本揭露提供確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,包含提供TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合。
另一方面,本揭露提供TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,其可以用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展。
另一方面,本揭露提供選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
另一方面,本揭露提供選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,在製備可以用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187 和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
另一方面,本揭露提供可以用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,包含提供選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
另一方面,本揭露提供選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,其可以用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人 chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
例如,在本揭露中該用於確定的DNA區域包含選自以下組中兩種的基因:EBF2、和CCNA1所在DNA區域或其片段。例如,包含確定待測樣本中選自以下組中兩種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr8:25907849-25907950、和來源於人chr13:37005635-37005754。
例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的2種:KCNA6、TLX2、和EMX1。例如,本揭露的方法中,該目標基因可以包含KCNA6和TLX2。
例如,本揭露的方法中,該目標基因可以包含KCNA6和EMX1。例如,本揭露的方法中,該目標基因可以包含TLX2和EMX1。例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的3種:KCNA6、TLX2、和EMX1。例如,本揭露的方法中,該目標基因可以包含KCNA6、TLX2和EMX1。例如,包含確定待測樣本中選自以下組中兩種或更多種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr12:4919142- 4919289、來源於人chr2:74743035-74743151、和來源於人chr2:73147525-73147644。
例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的2種:TRIM58、TWIST1、FOXD3、和EN2。例如,本揭露的方法中,該目標基因可以包含TRIM58和TWIST1。例如,本揭露的方法中,該目標基因可以包含TRIM58和FOXD3。例如,本揭露的方法中,該目標基因可以包含TRIM58和EN2。例如,本揭露的方法中,該目標基因可以包含TWIST1和FOXD3。例如,本揭露的方法中,該目標基因可以包含TWIST1和EN2。例如,本揭露的方法中,該目標基因可以包含FOXD3和EN2。例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的3種:TRIM58、TWIST1、FOXD3、和EN2。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1和FOXD3。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1和EN2。例如,本揭露的方法中,該目標基因可以包含TRIM58、FOXD3和EN2。例如,本揭露的方法中,該目標基因可以包含TWIST1、FOXD3和EN2。例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的4種:TRIM58、TWIST1、FOXD3、和EN2。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1、FOXD3和EN2。例如,包含確定待測樣本中選自以下組中兩種或更多種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr1:63788812-63788952、和來源於人chr7:155167513-155167628。
例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的2種:TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。例如,本揭 露的方法中,該目標基因可以包含TRIM58和TWIST1。例如,本揭露的方法中,該目標基因可以包含TRIM58和CLEC11A。例如,本揭露的方法中,該目標基因可以包含TRIM58和HOXD10。例如,本揭露的方法中,該目標基因可以包含TRIM58和OLIG3。例如,本揭露的方法中,該目標基因可以包含TWIST1和CLEC11A。例如,本揭露的方法中,該目標基因可以包含TWIST1和HOXD10。例如,本揭露的方法中,該目標基因可以包含TWIST1和OLIG3。例如,本揭露的方法中,該目標基因可以包含CLEC11A和HOXD10。例如,本揭露的方法中,該目標基因可以包含CLEC11A和OLIG3。例如,本揭露的方法中,該目標基因可以包含HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的3種:TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1和CLEC11A。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1和HOXD10。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1和OLIG3。例如,本揭露的方法中,該目標基因可以包含TRIM58、CLEC11A和HOXD10。例如,本揭露的方法中,該目標基因可以包含TRIM58、CLEC11A和OLIG3。例如,本揭露的方法中,該目標基因可以包含TRIM58、HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含TWIST1、CLEC11A和HOXD10。例如,本揭露的方法中,該目標基因可以包含TWIST1、CLEC11A和OLIG3。例如,本揭露的方法中,該目標基因可以包含TWIST1、HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含CLEC11A、HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的4種:TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。例如,本揭露的方 法中,該目標基因可以包含TRIM58、TWIST1、CLEC11A和HOXD10。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1、CLEC11A和OLIG3。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1、HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含TRIM58、CLEC11A、HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含TWIST1、CLEC11A、HOXD10和OLIG3。例如,本揭露的方法中,該目標基因可以包含選自以下組的基因中的5種:TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。例如,本揭露的方法中,該目標基因可以包含TRIM58、TWIST1、CLEC11A、HOXD10和OLIG3。
例如,包含確定待測樣本中選自以下組中兩種或更多種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr19:51228168-51228782、來源於人chr2:176945511-176945630、和來源於人chr6:137814700-137814853。
例如,本揭露的核酸可以是指分離的核酸。例如,分離的多核苷酸可以是DNA分子、RNA分子或其組合。例如,DNA分子可以是基因組DNA分子或其片段。
另一方面,本揭露提供一種儲存介質,其記載可以運行本揭露的方法的程式。
另一方面,本揭露提供一種設備,其可以包含本揭露的儲存介質。另一方面,本揭露提供了一種非易失性電腦可讀存儲介質,其上存儲有電腦程式,該程式被處理器執行以實現本揭露所述的任一種或多種的方法。例如,該非 易失性電腦可讀存儲介質可以包括軟碟、柔性盤、硬碟、固態存儲(SSS)(例如固態驅動(SSD))、固態卡(SSC)、固態模組(SSM))、企業級快閃記憶體驅動、磁帶或任何其他非臨時性磁介質等。非易失性電腦可讀存儲介質還可以包括打孔卡、紙帶、游標片(或任何其他具有孔型圖案或其他光學可識別標記的物理介質)、壓縮磁碟唯讀記憶體(CD-ROM)、可重寫式光碟(CD-RW)、數位通用光碟(DVD)、藍光光碟(BD)和/或任何其他非臨時性光學介質。
例如,本揭露的設備還可以包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介質中的程式執行以實現本揭露的方法。例如,該設備可以實現各種機制以便確保在資料庫系統上執行的本揭露所述的方法產生正確的結果。在本揭露中,該設備可以使用磁片作為永久性資料記憶體。在本揭露中,該設備可以為多個資料庫用戶端提供資料庫存儲和處理服務。該設備可以跨多個共用存放裝置存儲資料庫資料,和/或可以利用具有多個執行節點的一個或更多個執行平臺。該設備可以被組織成使得存儲和計算資源可以被有效地無限擴展。
本文所述“多個”表示任意整數。較佳地,“一個或多個”中的“多個”可為例如大於或等於2的任意整數,包括2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、30個、40個、50個、60個或更多個。
實施方案1
一種分離的來自哺乳動物的核酸分子,該核酸分子是胰腺癌相關基因的甲基化標誌物,該核酸分子的序列包括(1)選自以下一個或多個或所有序列或與其具有至少70%相同性的變體:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:56,該變體中的甲基化位點未發生突變,(2)(1)的互補序列,(3)(1)或(2)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
較佳地,該核酸分子用作檢測樣品中相應序列的DNA甲基化水準的內標或對照。
2、檢測DNA甲基化的試劑,該試劑包含檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑,該DNA序列選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、 MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2,
較佳地,
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:56,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,和/或
該試劑是與該DNA序列或其片段雜交的引子分子,該引子分子能擴增出亞硫酸鹽處理後該DNA序列或其片段,和/或
該試劑是與該DNA序列或其片段雜交的探針分子。
3、記載有DNA序列或其片段和/或其甲基化資訊的介質,該DNA序列為(i)選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、 LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2,或(ii)(i)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
較佳地,
該介質用於與基因甲基化測序數據比對以確定含該序列或其片段的核酸分子的存在、含量和/或甲基化水準,和/或
該DNA序列包括DNA正義鏈或反義鏈,和/或
該片段長度為1-1000bp,和/或
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:56,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,
更佳地,
該介質是印有該DNA序列或其片段和/或其甲基化資訊的載體,和/或
該介質是存儲有該序列或其片段和/或其甲基化資訊和電腦程式的電腦可讀介質,當該電腦程式被處理器執行時,實現下述步驟:將樣品的甲基化測序數據與該序列或其片段比較,從而獲得該樣品中含該序列或其片段的核酸分子的存在、含量和/或甲基化水準,其中,該存在、含量和/或甲基化水準用於診斷胰腺癌。
4、以下項目(a)和/或(b)在製備用於診斷物件的胰腺癌的試劑盒中的用途,
(a)用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑或裝置,
(b)該DNA序列或其片段的經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
其中,該DNA序列選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2,
較佳地,該片段長度為1-1000bp。
5、如實施方案4所述的用途,其特徵在於,該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:56,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變。
6、如實施方案4或5所述的用途,其特徵在於,
該試劑包含與該DNA序列或其片段雜交的引子分子,和/或
該試劑包含與該DNA序列或其片段雜交的探針分子,和/或
該試劑包含實施方案3所述的介質。
7、如實施方案4或5所述的用途,其特徵在於,
該樣品來自哺乳動物的組織、細胞或者體液,例如來自胰腺組織或血液,和/或
該樣品包括基因組DNA或cfDNA,和/或
該DNA序列經轉化,其中未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,和/或
該DNA序列經甲基化敏感型限制性內切酶處理。
8、如實施方案4或5所述的用途,其特徵在於,該診斷包括:與對照樣品和/或參考水準比較或者藉由計算得出評分,並根據評分診斷胰腺癌;較佳地,該計算藉由構建支援向量機模型進行。
9、一種鑑定胰腺癌的試劑盒,包含:
(a)用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑或裝置,和
視需要的(b)該DNA序列或其片段的經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
其中,該DNA序列選自以下一個或多個(例如至少7個)或所有基因序列,或其上游或下游20kb以內的序列:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2,
較佳地,
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID N O:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:56,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,和/或
該試劑盒適用於實施方案6至8中任一項所述的用途,和/或
該試劑包含與該DNA序列或其片段雜交的引子分子,和/或
該試劑包含與該DNA序列或其片段雜交的探針分子,和/或
該試劑包含實施方案3所述的介質,和/或
該樣品來自哺乳動物的組織、細胞或者體液,例如來自胰腺組織或血液,和/或
該DNA序列經轉化,其中未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,和/或
該DNA序列經甲基化敏感型限制性內切酶處理。
10、一種用於診斷胰腺癌的裝置,該裝置包括記憶體、處理器以及存儲在記憶體上並可在處理器上運行的電腦程式,其特徵在於,該處理器執行該程式時實現以下步驟:
(1)獲取物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,該DNA序列選自以下一個或多個或所有基因序列:DMRTA2、FOXD3、TBX15、BCAN、TRIM58、SIX3、VAX2、EMX1、LBX2、TLX2、POU3F3、TBR1、EVX2、HOXD12、HOXD8、HOXD4、TOPAZ1、SHOX2、DRD5、RPL9、HOPX、SFRP2、IRX4、TBX18、OLIG3、ULBP1、HOXA13、TBX20、IKZF1、INSIG1、SOX7、EBF2、MOS、MKX、KCNA6、SYT10、AGAP2、TBX3、CCNA1、ZIC2、CLEC14A、OTX2、C14orf39、BNC1、AHSP、ZFHX3、LHX1、TIMP2、ZNF750、SIM2,
(2)與對照樣品和/或參考水準比較,或者藉由計算得出評分,和
(3)根據評分診斷胰腺癌,
較佳地,
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ ID NO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:56,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,和/或
步驟(1)包括借助實施方案1所述核酸分子和/或實施方案2所述的試劑和/或實施方案3所述的介質檢測樣品中該序列的甲基化水準,和/或
該樣品包括基因組DNA或cfDNA,和/或
該序列經轉化,其中未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,和/或
該DNA序列經甲基化敏感型限制性內切酶處理,和/或
步驟(2)中的評分藉由構建支援向量機模型進行計算。
實施方案2
1、一種分離的來自哺乳動物的核酸分子,該核酸分子是與胰腺癌和胰腺炎鑑別相關的甲基化標誌物,該核酸分子的序列包括(1)選自以下一個或多個或所有序列或與其具有至少70%相同性的變體:SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59,該變體中的甲基化位點未發生突變,(2)(1)的互補序列,(3)(1)或(2)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
較佳地,該核酸分子用作檢測樣品中相應序列的DNA甲基化水準的內標或對照。
2、檢測DNA甲基化的試劑,該試劑包含檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑,該DNA序列選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
較佳地,
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,和/或
該試劑是與該DNA序列或其片段雜交的引子分子,該引子分子能擴增出亞硫酸鹽處理後該DNA序列或其片段,和/或
該試劑是與該DNA序列或其片段雜交的探針分子。
3、記載有DNA序列或其片段和/或其甲基化資訊的介質,該DNA序列為(i)選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,或(ii)(i)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
較佳地,
該介質用於與基因甲基化測序數據比對以確定含該序列或其片段的核酸分子的存在、含量和/或甲基化水準,和/或
該DNA序列包括DNA正義鏈或反義鏈,和/或
該片段長度為1-1000bp,和/或
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,
更佳地,
該介質是印有該DNA序列或其片段和/或其甲基化資訊的載體,和/或
該介質是存儲有該序列或其片段和/或其甲基化資訊和電腦程式的電腦可讀介質,當該電腦程式被處理器執行時,實現下述步驟:將樣品的甲基化測序數據與該序列或其片段比較,從而獲得該樣品中含該序列或其片段的核酸分子的存在、含量和/或甲基化水準,其中,該存在、含量和/或甲基化水準用於鑑別胰腺癌和胰腺炎。
4、以下項目(a)和/或(b)在製備用於鑑別胰腺癌和胰腺炎的試劑盒中的用途,
(a)用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑或裝置,
(b)該DNA序列或其片段的經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
其中,該DNA序列選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
較佳地,該片段長度為1-1000bp。
5、如實施方案4所述的用途,其特徵在於,該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變。
6、如實施方案4或5所述的用途,其特徵在於,
該試劑包含與該DNA序列或其片段雜交的引子分子,和/或
該試劑包含與該DNA序列或其片段雜交的探針分子,和/或
該試劑包含實施方案3所述的介質。
7、如實施方案4或5所述的用途,其特徵在於,
該樣品來自哺乳動物的組織、細胞或者體液,例如來自胰腺組織或血液,和/或
該樣品包括基因組DNA或cfDNA,和/或
該DNA序列經轉化,其中未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,和/或
該DNA序列經甲基化敏感型限制性內切酶處理。
8、如實施方案4或5所述的用途,其特徵在於,該診斷包括:與對照樣品和/或參考水準比較或者藉由計算得出評分,並根據評分鑑別胰腺癌和胰腺炎;較佳地,該計算藉由構建支援向量機模型進行。
9、一種鑑別胰腺癌和胰腺炎的試劑盒,包含:
(a)用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準的試劑或裝置,和
視需要的(b)該DNA序列或其片段的經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
其中,該DNA序列選自以下一個或多個或所有基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
較佳地,
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,和/或
該試劑盒適用於實施方案6至8中任一項所述的用途,和/或
該試劑包含與該DNA序列或其片段雜交的引子分子,和/或
該試劑包含與該DNA序列或其片段雜交的探針分子,和/或
該試劑包含實施方案3所述的介質,和/或
該樣品來自哺乳動物的組織、細胞或者體液,例如來自胰腺組織或血液,和/或
該DNA序列經轉化,其中未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,和/或
該DNA序列經甲基化敏感型限制性內切酶處理。
10、一種用於鑑別胰腺癌和胰腺炎的裝置,該裝置包括記憶體、處理器以及存儲在記憶體上並可在處理器上運行的電腦程式,其特徵在於,該處理器執行該程式時實現以下步驟:
(1)獲取物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,該DNA序列選自以下一個或多個或所有基因序列:SIX3、TLX2、CILP2,
(2)與對照樣品和/或參考水準比較,或者藉由計算得出評分,和
(3)根據評分鑑別胰腺癌和胰腺炎,
較佳地,
該DNA序列選自以下一個或多個或所有序列或其互補序列:SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59,或與其具有至少70%相同性的變體,該變體中的甲基化位點未發生突變,和/或
步驟(1)包括借助實施方案1所述核酸分子和/或實施方案2所述的試劑和/或實施方案3所述的介質檢測樣品中該序列的甲基化水準,和/或
該樣品包括基因組DNA或cfDNA,和/或
該序列經轉化,其中未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,和/或
該DNA序列經甲基化敏感型限制性內切酶處理,和/或
步驟(2)中的評分藉由構建支援向量機模型進行計算。
實施方案3
1、一種評估胰腺腫瘤的存在和/或進展的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:
Figure 111128173-A0202-12-0096-7
Figure 111128173-A0202-12-0097-8
Figure 111128173-A0202-12-0098-9
Figure 111128173-A0202-12-0099-10
2、一種評估胰腺腫瘤的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:60至160中任一項所示的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
一種評估胰腺腫瘤的存在和/或進展的方法,包含確定待測樣本中選自以下組基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量:ARHGEF16、PRDM16、NFIA、ST6GALNAC5、PRRX1、LHX4、ACBD6、FMN2、CHRM3、FAM150B、TMEM18、SIX3、CAMKMT、OTX1、WDPCP、CYP26B1、DYSF、HOXD1、HOXD4、UBE2F、RAMP1、AMT、PLSCR5、ZIC4、PEX5L、ETV5、DGKG、FGF12、FGFRL1、RNF212、DOK7、HGFAC、EVC、EVC2、HMX1、CPZ、IRX1、GDNF、AGGF1、CRHBP、PITX1、CATSPER3、NEUROG1、NPM1、TLX3、NKX2-5、BNIP1、PROP1、B4GALT7、IRF4、FOXF2、FOXQ1、FOXC1、GMDS、MOCS1、LRFN2、POU3F2、FBXL4、CCR6、GPR31、TBX20、HERPUD2、VIPR2、LZTS1、NKX2-6、PENK、PRDM14、VPS13B、OSR2、NEK6、 LHX2、DDIT4、DNAJB12、CRTAC1、PAX2、HIF1AN、ELOVL3、INA、HMX2、HMX3、MKI67、DPYSL4、STK32C、INS、INS-IGF2、ASCL2、PAX6、RELT、FAM168A、OPCML、ACVR1B、ACVRL1、AVPR1A、LHX5、SDSL、RAB20、COL4A2、CARKD、CARS2、SOX1、TEX29、SPACA7、SFTA3、SIX6、SIX1、INF2、TMEM179、CRIP2、MTA1、PIAS1、SKOR1、ISL2、SCAPER、POLG、RHCG、NR2F2、RAB40C、PIGQ、CPNE2、NLRC5、PSKH1、NRN1L、SRR、HIC1、HOXB9、PRAC1、SMIM5、MYO15B、TNRC6C、9-Sep、TBCD、ZNF750、KCTD1、SALL3、CTDP1、NFATC1、ZNF554、THOP1、CACTIN、PIP5K1C、KDM4B、PLIN3、EPS15L1、KLF2、EPS8L1、PPP1R12C、NKX2-4、NKX2-2、TFAP2C、RAE1、TNFRSF6B、ARFRP1、MYH9、和TXN2。
3、如實施方案1或2所述的方法,該方法還包含獲取待測樣本中的核酸。
4、如實施方案3所述的方法,該核酸包含無細胞游離核酸。
5、如實施方案1至4中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
6、如實施方案1至5中任一項所述的方法,該待測樣本包含血漿。
7、如實施方案1至6中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
8、如實施方案7所述的方法,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在該轉化後分別形成不同的物質。
9、如實施方案7或8所述的方法,具有該修飾狀態的鹼基在轉 化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
10、如實施方案8或9所述的方法,該鹼基包含胞嘧啶。
11、如實施方案1至10中任一項所述的方法,該修飾狀態包含甲基化修飾。
12、如實施方案9至11中任一項所述的方法,該其它鹼基包含尿嘧啶。
13、如實施方案7至12中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
14、如實施方案13所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
15、如實施方案1至14中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
16、如實施方案1至15中任一項所述的方法,藉由測序方法檢測具有該修飾狀態的DNA區域或其片段的存在和/或含量。
17、如實施方案1至16中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定腫瘤的存在和/或進展。
18、一種核酸,該核酸包含能夠結合選自實施方案1中的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
19、一種核酸,該核酸包含能夠結合選自SEQ ID NO:60至160 中任一項所示的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
20、一種核酸,該核酸包含能夠結合選自實施方案2中的基因所在的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
21、一種試劑盒,包含如實施方案18至20中任一項所述的核酸。
22、如實施方案18至20中任一項所述的核酸、和/或實施方案21所述的試劑盒,在製備疾病檢測產品中的應用。
23、如實施方案18至20中任一項所述的核酸、和/或實施方案21所述的試劑盒,在製備評估胰腺腫瘤的存在和/或進展的物質中的應用。
24、如實施方案18至20中任一項所述的核酸、和/或實施方案21所述的試劑盒,在製備確定該DNA區域或其片段的修飾狀態的物質中的應用。
25、一種製備核酸的方法,包含根據選自實施方案1中的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
26、一種製備核酸的方法,包含根據選自SEQ ID NO:60至160中任一項所示的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
27、一種製備核酸的方法,包含根據選自實施方案2中的基因所在的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
28、用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估胰腺腫瘤的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自實施方案1中的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
29、用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估胰腺腫瘤的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自SEQ ID NO:60至160中任一項所示的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
30、用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估胰腺腫瘤的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自實施方案2中的基因所在的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
31、如實施方案29或30所述的應用,該修飾狀態包含甲基化修飾。
32、一種儲存介質,其記載可以運行實施方案1至17中任一項所述的方法的程式。
33、一種設備,其包含實施方案32所述的儲存介質,以及視需要地還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存 介質中的程式執行以實現實施方案1至17中任一項所述的方法。
實施方案4
1、一種構建胰腺癌診斷模型的方法,包括:
(1)獲取物件樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和物件的CA19-9水準,
(2)利用數學模型使用甲基化狀態或水準計算獲得甲基化評分,
(3)將甲基化評分與CA19-9水準合併資料矩陣,
(4)基於資料矩陣構建胰腺癌診斷模型。
2、如實施方案1所述的方法,其特徵在於,該方法還包括選自以下的一項或多項特徵:
該DNA序列選自以下一個或多個基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
該片段包含至少一個CpG二核苷酸,
步驟(1)包括檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,
該樣品來自哺乳動物的組織、細胞或者體液,例如胰腺組織或血液,
CA19-9水準是血液或血漿CA19-9水準,
步驟(2)該數學模型是支援向量機模型,
步驟(4)該胰腺癌診斷模型是邏輯回歸模型。
3、一種構建胰腺癌診斷模型的方法,包括:
(1)獲取對象基因組DNA區段的甲基化單倍型比值和測序深度,
視需要的(2)對該甲基化單倍型比值和測序深度資料進行預處理,
(3)進行交叉驗證增量特徵篩選,獲得特徵甲基化區段,
(4)對特徵甲基化區段的甲基化檢測結果構建數學模型,得到甲基化評分,
(5)根據甲基化評分與對應的CA19-9水準構建胰腺癌診斷模型。
4、如實施方案3所述的方法,其特徵在於,該方法還包括選自以下的一項或多項特徵:
步驟(1)包括:
1.1)對物件樣品進行DNA甲基化檢測,獲得測序讀段(read)資料,
1.2)視需要對測序數據進行預處理,例如去接頭和/或拼接處理,
1.3)將測序數據比對到參考基因組,獲得甲基化區段的位置和測序深度資訊,
1.4)根據下式計算區段的甲基化單倍型比值(MHF):
Figure 111128173-A0202-12-0105-11
其中i表示目標甲基化區域,h表示目標甲基化單倍型,N i 表示位於目標甲基化區域的read數目,N i,h 表示包含目標甲基化單倍型的reads數目;
步驟(2)包括:(2.1)將甲基化單倍型比值狀態和測序深度資訊資料合併成資料矩陣;較佳地,步驟(2)還包括:2.2)在資料矩陣中去除缺失值比例高於5-15%(例如10%)的位點,和/或2.3)對每個深度小於300(例如小於200)的資料點當作缺失值處理,並對缺失值進行填充(例如使用K最近鄰方法),
步驟(3)包括:使用數學模型在訓練資料中進行交叉驗證增量特徵篩選,其中使數學模型的AUC增加的DNA區段為特徵甲基化區段,
步驟(5)包括:將甲基化評分與CA19-9水準合併資料矩陣,基於資料矩陣構建胰腺癌診斷模型。
5、如實施方案3或4所述的方法,其特徵在於,該方法還包括選自以下的一項或多項特徵:
步驟(4)中的數學模型是向量機(SVM)模型,
步驟(4)中的甲基化檢測結果是甲基化單倍型比值和測序深度的合併矩陣,
步驟(5)中的胰腺癌診斷模型是邏輯回歸模型。
6、檢測DNA甲基化的試劑或裝置和檢測CA19-9水準的試劑或裝置在製備診斷胰腺癌的試劑盒中的用途,該檢測DNA甲基化的試劑或裝置用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準。
7、如實施方案6所述的用途,其特徵在於,該用途還包括選自以下的一項或多項特徵:
該DNA序列選自以下一個或多個基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
該片段包含至少一個CpG二核苷酸,
該檢測DNA甲基化的試劑包含與該DNA序列或其片段雜交的引子分子,該引子分子能擴增出亞硫酸鹽處理後該DNA序列或其片段,
該檢測DNA甲基化的試劑包含與該DNA序列或其片段雜交的探針分子,
檢測CA19-9水準的試劑是基於免疫反應的檢測試劑,
該試劑盒還包括PCR反應試劑,
該試劑盒還包括檢測DNA甲基化的其他試劑,該其他試劑是選自以下方法的一個或多個中所用的試劑:基於亞硫酸氫鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法、基於晶片的甲基化圖譜分析、質譜,
該診斷包括:藉由構建實施方案1至5中任一項所述的胰腺癌診斷模型進行計算,並根據評分診斷胰腺癌。
8、診斷胰腺癌的試劑盒,包含:
(a)檢測DNA甲基化的試劑或裝置,用於確定物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和
(b)檢測CA19-9水準的試劑或裝置。
9、如實施方案8所述的試劑盒,其特徵在於,該試劑盒還包括選自以下的一項或多項特徵:
該DNA序列選自以下一個或多個基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
該片段包含至少一個CpG二核苷酸,
該檢測DNA甲基化的試劑包含與該DNA序列或其片段雜交的引子分子,該引子分子能擴增出亞硫酸鹽處理後該DNA序列或其片段,
該檢測DNA甲基化的試劑包含與該DNA序列或其片段雜交的探針分子,
檢測CA19-9水準的試劑是基於免疫反應的檢測試劑,
該試劑盒還包括PCR反應試劑,
該試劑盒還包括檢測DNA甲基化的其他試劑,該其他試劑是選自以下方法的一個或多個中所用的試劑:基於亞硫酸氫鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法、基於晶片的甲基化圖譜分析、質譜。
10、一種用於診斷胰腺癌或構建胰腺癌診斷模型的裝置,該裝置包括記憶體、處理器以及存儲在記憶體上並可在處理器上運行的電腦程式,其特徵在於,該處理器執行該程式時實現以下步驟:
(1)獲取物件樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和物件的CA19-9水準,
(2)利用數學模型使用甲基化狀態或水準計算獲得甲基化評分,
(3)將甲基化評分與CA19-9水準合併資料矩陣,
(4)基於資料矩陣構建胰腺癌診斷模型,
視需要的(5)獲得胰腺癌評分;根據胰腺癌評分診斷胰腺癌,
(1)獲取物件樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,和物件的CA19-9水準,
(2)利用數學模型使用甲基化狀態或水準計算獲得甲基化評分,
(3)根據如下所示的模型獲得胰腺癌評分,根據胰腺癌評分診斷胰腺癌:
Figure 111128173-A0202-12-0108-12
其中M為步驟(2)中計算的樣品的甲基化評分,C為樣品的CA19-9水準,
較佳地,該裝置還包括選自以下的一項或多項特徵:
該DNA序列選自以下一個或多個基因序列,或其上游或下游20kb以內的序列:SIX3、TLX2、CILP2,
該片段包含至少一個CpG二核苷酸,
步驟(1)包括檢測物件的樣品中DNA序列或其片段的甲基化水準或該DNA序列或其片段中一個或多個CpG二核苷酸的甲基化狀態或水準,
該樣品來自哺乳動物的組織、細胞或者體液,例如胰腺組織或血液,
CA19-9水準是血液或血漿CA19-9水準,
步驟(2)該數學模型是支援向量機模型,
步驟(4)該胰腺癌診斷模型是邏輯回歸模型。
實施方案5
1.一種確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,包含確定待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量。
2.一種評估胰臟腫瘤相關DNA區域甲基化狀態的方法,包含確定待測樣本中TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段的修飾狀態的存在和/或含量。
3.如實施方案1或2所述的方法,該DNA區域來源於人chr2:74740686-74744275、來源於人chr8:25699246-25907950、來源於人chr12:4918342-4960278、來源於人chr13:37005635-37017019、來源於人chr1:63788730-63790797、來源於人chr1:248020501-248043438、來源於人 chr2:176945511-176984670、來源於人chr6:137813336-137815531、來源於人chr7:155167513-155257526、來源於人chr19:51226605-51228981、來源於人chr7:19155091-19157295、和來源於人chr2:73147574-73162020。
4.如實施方案1至3中任一項所述的方法,該方法還包含獲取待測樣本中的核酸。
5.如實施方案4所述的方法,該核酸包含無細胞游離核酸。
6.如實施方案1至5中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
7.如實施方案1至6中任一項所述的方法,該待測樣本包含血漿。
8.如實施方案1至7中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
9.如實施方案8所述的方法,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後形成不同的物質。
10.如實施方案1至9中任一項所述的方法,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
11.如實施方案9或10所述的方法,該鹼基包含胞嘧啶。
12.如實施方案1至11中任一項所述的方法,該修飾狀態包含甲基化修飾。
13.如實施方案10至12中任一項所述的方法,該其它鹼基包含尿嘧啶。
14.如實施方案8至13中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
15.如實施方案14所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
16.如實施方案1至15中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
17.如實施方案1至16中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
18.如實施方案1至17中任一項所述的方法,藉由該螢光PCR方法檢測的螢光Ct值確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
19.如實施方案1至18中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。
20.如實施方案1至19中任一項所述的方法,該方法還包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。
21.如實施方案20所述的方法,該擴增包含PCR擴增。
22.一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾 病的進展的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
23.一種確定DNA區域甲基化狀態的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
24.如實施方案22或23所述的方法,包含提供能夠結合包含選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:SEQ ID NO:164、168、172、176、180、184、188、192、196、200、204、208、212、216、220、224、228、和232。
25.如實施方案22至24中任一項所述的方法,包含提供能夠結合包含選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:來源於人chr2:74743042-74743113和來源於人chr2:74743157-74743253、來源於人chr2:74743042-74743113和來源於人chr2:74743157-74743253、來源於人chr8:25907865-25907930和來源於人chr8:25907698-25907814、來源於人chr12:4919188-4919272、來源於人chr12:4919036-4919164和來源於人chr12:4919341-4919438、來源於人chr13:37005652-37005721、來源於人chr13:37005458-37005596和來源於人chr13:37005694-37005824、來源於人chr1:63788850-63788913、來源於人chr1:248020635-248020731、來源於人chr2:176945521-176945603、來源於人chr6:137814750-137814815、來源於人chr7:155167531-155167610、來源於人chr19:51228620-51228722、和來源於人chr7:19156779-19157914、和來源於人chr2:73147571-73147626。
26.如實施方案22至25中任一項所述的方法,包含提供選自以下組核酸或其互補核酸、或上述的片段:SEQ ID NO:165、169、173、177、181、185、189、193、197、201、205、209、213、217、221、225、229、和233。
27.如實施方案22至26中任一項所述的方法,包含提供選自以下組核酸組或其互補核酸組、或上述的片段:SEQ ID NO:166與167、170與171、174與175、178與179、182與183、186與187、190與191、194與195、 198與199、202與203、206與207、210與211、214與215、218與219、222與223、226與227、230與231、和234與235。
28.如實施方案22至27中任一項所述的方法,該疾病包含腫瘤。
29.如實施方案22至28中任一項所述的方法,該方法還包含獲取待測樣本中的核酸。
30.如實施方案29所述的方法,該核酸包含無細胞游離核酸。
31.如實施方案22至30中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
32.如實施方案22至31中任一項所述的方法,該待測樣本包含血漿。
33.如實施方案22至32中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
34.如實施方案33所述的方法,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後形成不同的物質。
35.如實施方案22至34中任一項所述的方法,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
36.如實施方案34或35所述的方法,該鹼基包含胞嘧啶。
37.如實施方案22至36中任一項所述的方法,該修飾狀態包含甲基化修飾。
38.如實施方案35至37中任一項所述的方法,該其它鹼基包含尿嘧啶。
39.如實施方案33至38中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
40.如實施方案39所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
41.如實施方案22至40中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
42.如實施方案22至41中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
43.如實施方案22至42中任一項所述的方法,藉由該螢光PCR方法檢測的螢光Ct值確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
44.如實施方案22至43中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。
45.如實施方案22至44中任一項所述的方法,該方法還包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。
46.如實施方案45所述的方法,該擴增包含PCR擴增。
47.一種核酸,該核酸包含能夠結合TLX2、EBF2、KCNA6、 CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
48.一種製備核酸的方法,包含根據TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
49.一種核酸組,該核酸組包含能夠結合TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
50.一種製備核酸組的方法,包含根據TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠擴增該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸組。
51.一種試劑盒,包含如實施方案47所述的核酸和/或實施方案49所述的核酸組。
52.如實施方案47所述的核酸、如實施方案49所述的核酸組和/或實施方案51所述的試劑盒,在製備疾病檢測產品中的應用。
53.如實施方案47所述的核酸、如實施方案49所述的核酸組和/ 或實施方案51所述的試劑盒,在製備確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用。
54.如實施方案47所述的核酸、如實施方案49所述的核酸組和/或實施方案51所述的試劑盒,在製備確定該DNA區域或其片段的修飾狀態的物質中的應用。
55.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用,該用於確定的DNA區域包含TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域或其片段。
56.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用,該DNA區域包含選自以下組DNA區域、或其互補區域、或上述的片段:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
57.TLX2、EBF2、KCNA6、CCNA1、FOXD3、TRIM58、HOXD10、OLIG3、EN2、CLEC11A、TWIST1、和/或EMX1基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,在製備用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用。
58.選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,在製備用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用:來源於人chr2:74743035-74743151和來源於人chr2:74743080-74743301、來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894、來源於人chr12:4919142-4919289、來源於人chr12:4918991-4919187和來源於人chr12:4919235-4919439、來源於人chr13:37005635-37005754、來源於人chr13:37005458-37005653和來源於人chr13:37005680-37005904、來源於人chr1:63788812-63788952、來源於人chr1:248020592-248020779、來源於人chr2:176945511-176945630、來源於人chr6:137814700-137814853、來源於人chr7:155167513-155167628、來源於人chr19:51228168-51228782、和來源於人chr7:19156739-19157277、和來源於人chr2:73147525-73147644。
59.一種儲存介質,其記載可以運行實施方案1至46中任一項所述的方法的程式。
60.一種設備,其包含實施方案59所述的儲存介質。
61.如實施方案60所述的設備,還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介質中的程式執行以實現實施方案1至 46中任一項所述的方法。
實施方案6
1.一種確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,包含確定待測樣本中選自以下組中兩種基因所在DNA區域或其片段的修飾狀態的存在和/或含量:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
2.一種評估胰臟腫瘤相關DNA區域甲基化狀態的方法,包含確定待測樣本中選自以下組中兩種基因所在DNA區域或其片段的修飾狀態的存在和/或含量:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
3.如實施方案1或2所述的方法,該DNA區域選自以下組中兩種:來源於人chr8:25699246-25907950、和來源於人chr13:37005635-37017019、來源於人chr12:4918342-4960278、來源於人chr2:74740686-74744275、和來源於人chr2:73147574-73162020、來源於人chr1:248020501-248043438、來源於人chr7:19155091-19157295、來源於人chr1:63788730-63790797、和來源於人chr7:155167513-155257526、來源於人chr1:248020501-248043438、來源於人chr7:19155091-19157295、來源於人chr19:51226605-51228981、來源於人chr2:176945511-176984670、和來源於人chr6:137813336-137815531。
4.如實施方案1至3中任一項所述的方法,該方法還包含獲取待測樣本中的核酸。
5.如實施方案4所述的方法,該核酸包含無細胞游離核酸。
6.如實施方案1至5中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
7.如實施方案1至6中任一項所述的方法,該待測樣本包含血漿。
8.如實施方案1至7中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
9.如實施方案8所述的方法,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後形成不同的物質。
10.如實施方案1至9中任一項所述的方法,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
11.如實施方案9或10所述的方法,該鹼基包含胞嘧啶。
12.如實施方案1至11中任一項所述的方法,該修飾狀態包含甲基化修飾。
13.如實施方案10至12中任一項所述的方法,該其它鹼基包含尿嘧啶。
14.如實施方案8至13中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
15.如實施方案14所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
16.如實施方案1至15中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質 的存在和/或含量。
17.如實施方案1至16中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
18.如實施方案1至17中任一項所述的方法,藉由該螢光PCR方法檢測的螢光Ct值確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
19.如實施方案1至18中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。
20.如實施方案1至19中任一項所述的方法,該方法還包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。
21.如實施方案20所述的方法,該擴增包含PCR擴增。
22.一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,包含確定待測樣本中選自以下組中兩種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr8:25907849-25907950、和來源於人chr13:37005635-37005754、來源於人chr12:4919142-4919289、來源於人chr2:74743035-74743151、和來源於人chr2:73147525-73147644、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr1:63788812-63788952、和來源於人chr7:155167513- 155167628、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr19:51228168-51228782、來源於人chr2:176945511-176945630、和來源於人chr6:137814700-137814853。
23.一種確定DNA區域甲基化狀態的方法,包含確定待測樣本中選自以下組中兩種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr8:25907849-25907950、和來源於人chr13:37005635-37005754、來源於人chr12:4919142-4919289、來源於人chr2:74743035-74743151、和來源於人chr2:73147525-73147644、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr1:63788812-63788952、和來源於人chr7:155167513-155167628、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr19:51228168-51228782、來源於人chr2:176945511-176945630、和來源於人chr6:137814700-137814853。
24.如實施方案22或23所述的方法,包含提供能夠結合包含選自以下組中兩種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:SEQ ID NO:1、和5。
25.如實施方案22至24中任一項所述的方法,包含提供能夠結合包含選自以下組中兩種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:來源於人chr8:25907865-25907930、和來源於人chr13:37005652-37005721、來源於人chr12:4919188-4919272、來源於人chr2:74743042-74743113、和來源於人chr2:73147571-73147626、來源於人chr1:248020635-248020731、來源於人chr7:19156779-19157914、來源於人chr1:63788850-63788913、和來源於人chr7:155167531-155167610、來源於人 chr1:248020635-248020731、來源於人chr7:19156779-19157914、來源於人chr19:51228620-51228722、來源於人chr2:176945521-176945603、和來源於人chr6:137814750-137814815。
26.如實施方案22至25中任一項所述的方法,包含提供選自以下組中兩種核酸或其互補核酸、或上述的片段:SEQ ID NO:173和193、181、165和233、209、229、205和221、209、229、225、213和217。
27.如實施方案22至26中任一項所述的方法,包含提供選自以下組中兩種核酸組或其互補核酸組、或上述的片段:SEQ ID NO:174與175、和194與195、182與183、166與167、和234與235、210與211、230與231、206與207、和222與223、210與211、230與231、226與227、214與215、和218與219。
28.如實施方案22至27中任一項所述的方法,該疾病包含腫瘤。
29.如實施方案22至28中任一項所述的方法,該方法還包含獲取待測樣本中的核酸。
30.如實施方案29所述的方法,該核酸包含無細胞游離核酸。
31.如實施方案22至30中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
32.如實施方案22至31中任一項所述的方法,該待測樣本包含血漿。
33.如實施方案22至32中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
34.如實施方案33所述的方法,具有該修飾狀態的鹼基以及不具 有該修飾狀態的該鹼基,在轉化後形成不同的物質。
35.如實施方案22至34中任一項所述的方法,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
36.如實施方案34或35所述的方法,該鹼基包含胞嘧啶。
37.如實施方案22至36中任一項所述的方法,該修飾狀態包含甲基化修飾。
38.如實施方案35至37中任一項所述的方法,該其它鹼基包含尿嘧啶。
39.如實施方案33至38中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
40.如實施方案39所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
41.如實施方案22至40中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
42.如實施方案22至41中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
43.如實施方案22至42中任一項所述的方法,藉由該螢光PCR方法檢測的螢光Ct值確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
44.如實施方案22至43中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。
45.如實施方案22至44中任一項所述的方法,該方法還包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。
46.如實施方案45所述的方法,該擴增包含PCR擴增。
47.一種核酸,該核酸包含能夠結合選自以下組中兩種基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
48.一種製備核酸的方法,包含根據選自以下組中兩種基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
49.一種核酸組,該核酸組包含能夠結合選自以下組中兩種基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
50.一種製備核酸組的方法,包含根據選自以下組中兩種基因所 在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠擴增該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸組:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
51.一種試劑盒,包含如實施方案47所述的核酸和/或實施方案49所述的核酸組。
52.如實施方案47所述的核酸、如實施方案49所述的核酸組和/或實施方案51所述的試劑盒,在製備疾病檢測產品中的應用。
53.如實施方案47所述的核酸、如實施方案49所述的核酸組和/或實施方案51所述的試劑盒,在製備確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用。
54.如實施方案47所述的核酸、如實施方案49所述的核酸組和/或實施方案51所述的試劑盒,在製備確定該DNA區域或其片段的修飾狀態的物質中的應用。
55.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用,該用於確定的DNA區域包含選自以下組中兩種基因所在DNA區域或其片段:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
56.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用,該DNA區域包含選自以下組中兩種DNA區域、或其互補區域、 或上述的片段:來源於人chr8:25907849-25907950、和來源於人chr13:37005635-37005754、來源於人chr12:4919142-4919289、來源於人chr2:74743035-74743151、和來源於人chr2:73147525-73147644、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr1:63788812-63788952、和來源於人chr7:155167513-155167628、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr19:51228168-51228782、來源於人chr2:176945511-176945630、和來源於人chr6:137814700-137814853。
57.選自以下組中兩種基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,在製備用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用:EBF2、和CCNA1、KCNA6、TLX2、和EMX1、TRIM58、TWIST1、FOXD3、和EN2、TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3。
58.選自以下組中兩種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合,在製備用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用:來源於人chr8:25907849-25907950、和來源於人chr13:37005635-37005754、來源於人chr12:4919142-4919289、來源於人chr2:74743035-74743151、和來源於人chr2:73147525-73147644、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr1:63788812-63788952、和來源於人chr7:155167513-155167628、來源於人chr1:248020592-248020779、來源於人chr7:19156739-19157277、來源於人chr19:51228168-51228782、來源於人chr2:176945511-176945630、和來源於人chr6:137814700-137814853。
59.一種儲存介質,其記載可以運行實施方案1至46中任一項所述的方法的程式。
60.一種設備,其包含實施方案59所述的儲存介質。
61.如實施方案60所述的設備,還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介質中的程式執行以實現實施方案1至46中任一項所述的方法。
不欲被任何理論所限,下文中的實施例僅僅是為了闡釋本揭露的方法和用途等,而不用於限制本揭露發明的範圍。
實施例
實施例1
1-1:甲基化靶向測序篩選胰腺癌差異的甲基化位點
發明人收集了總計94個胰腺癌血液樣本、80個無胰腺癌血液樣本,所有入組患者簽署知情同意書。樣本資訊見下表。
Figure 111128173-A0202-12-0129-167
藉由MethylTitan的方法獲得血漿DNA的甲基化測序數據,鑑別出其中的甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
1)文庫用Illumina Nextseq 500測序儀進行雙端測序。
2)Pear(v0.6.0)軟體將Illumina Hiseq X10/Nextseq 500/Nova seq測序儀下機 的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20bp,合併之後最短30bp。
3)使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫(UCSC:HG19,hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
1)首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
2)將預處理的資料同樣進行CT和GA轉化。
3)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、MHF的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化水準。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
Figure 111128173-A0202-12-0130-168
其中i表示目標甲基化區間,h表示目標的甲基化haplotype,Ni表示位於目標甲基化區間的reads數目,Ni,h表示包含目標甲基化haplotype的reads數目。
5、甲基化數據矩陣
1)將訓練集和測試集的各個樣本的甲基化測序數據分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
2)去除缺失值比例高於10%的位點。
3)對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6、根據訓練集樣本分組發現特徵甲基化區段
1)每個甲基化區段對於表型構建邏輯回歸模型,對每個擴增的目的地區域篩選出回歸係數最顯著的甲基化區段,組成候選甲基化區段。
2)將訓練集隨機分成十份做十倍交叉驗證增量特徵篩選。
3)每個區域的候選甲基化區段按照回歸係數顯著性進行從大到小排序,每次加入一個甲基化區段資料,對測試資料進行預測。
4)步驟3)使用2)生成的10份資料每次都計算10次,最後的AUC取10次的平均值。如果訓練資料的AUC增加則保留該候選甲基化區段作為特徵甲基化區段,否則捨棄。
5)取訓練集中不同特徵數量情況下的平均AUC中位數對應的特徵組合作為最終確定的特徵甲基化區段組合。
篩選出的特徵甲基化核酸序列分佈情況具體如下:位於DMRTA2基因區域的SEQ ID NO:1、FOXD3基因區域的SEQ ID NO:2、TBX15基因區域的SEQ ID NO:3、BCAN基因區域的SEQ ID NO:4、TRIM58基因區域的SEQ ID NO:5、SIX3基因區域的SEQ ID NO:6、VAX2基因區域的SEQ ID NO:7、EMX1基因區域的SEQ ID NO:8、LBX2基因區域的SEQ ID NO:9、TLX2基因區域的SEQ ID NO:10、POU3F3基因區域的SEQ ID NO:11、SEQ ID NO:12、 TBR1基因區域的SEQ ID NO:13、EVX2基因區域的SEQ ID NO:14、SEQ ID NO:15、HOXD12基因區域的SEQ ID NO:16、HOXD8基因區域的SEQ ID NO:17、HOXD4基因區域的SEQ ID NO:18、SEQ ID NO:19、TOPAZ1基因區域的SEQ ID NO:20、SHOX2基因區域的SEQ ID NO:21、DRD5基因區域的SEQ ID NO:22、RPL9基因區域的SEQ ID NO:23、SEQ ID NO:24、HOPX基因區域的SEQ ID NO:25、SFRP2基因區域的SEQ ID NO:26、IRX4基因區域的SEQ ID NO:27、TBX18基因區域的SEQ ID NO:28、OLIG3基因區域的SEQ ID NO:29、ULBP1基因區域的SEQ ID NO:30、HOXA13基因區域的SEQ ID NO:31、TBX20基因區域的SEQ ID NO:32、IKZF1基因區域的SEQ ID NO:33、INSIG1基因區域的SEQ ID NO:34、SOX7基因區域的SEQ ID NO:35、EBF2基因區域的SEQ ID NO:36、MOS基因區域的SEQ ID NO:37、MKX基因區域的SEQ ID NO:38、KCNA6基因區域的SEQ ID NO:39、SYT10基因區域的SEQ ID NO:40、AGAP2基因區域的SEQ ID NO:41、TBX3基因區域的SEQ ID NO:42、CCNA1基因區域的SEQ ID NO:43、ZIC2基因區域的SEQ ID NO:44、SEQ ID NO:45、CLEC14A基因區域的SEQ ID NO:46、SEQ ID NO:47、OTX2基因區域的SEQ ID NO:48、C14orf39基因區域的SEQ ID NO:49、BNC1基因區域的SEQ ID NO:50、AHSP基因區域的SEQ ID NO:51、ZFHX3基因區域的SEQ ID NO:52、LHX1基因區域的SEQ ID NO:53、TIMP2基因區域的SEQ ID NO:54、ZNF750基因區域的SEQ ID NO:55、SIM2基因區域的SEQ ID NO:56。上述甲基化標誌物的水準在胰腺癌患者cfDNA中上升或下降(表1-1)。上述56個標誌物區域的序列如SEQ ID NO:1-56所示。每個標誌物區域中的所有CpG位元點的甲基化水準都可以藉由 MethylTitan測序的方法獲得。每個區域中所有CpG位元點甲基化水準的均值,以及單個CpG位點的甲基化水準都可以作為診斷胰腺癌的標誌物。
表1-1:甲基化標誌物在訓練集的平均水準
Figure 111128173-A0202-12-0133-169
Figure 111128173-A0202-12-0134-170
測試集中胰腺癌與無胰腺癌人群的甲基化標誌物甲基化水準如表1-2所示。從表中可以看出,所選甲基化標誌物在胰腺癌與無胰腺癌人群中的分佈顯著不同,具備良好的區分效果。
表1-2:甲基化標誌物在測試集的甲基化水準
Figure 111128173-A0202-12-0135-171
Figure 111128173-A0202-12-0136-172
表1-3列出了所選每一個標誌物中隨機10個CpG位元點或組合的甲基化水準同整個標誌物甲基化水準值的相關性(Pearson相關係數)以及對應的顯著性p值,可看出標誌物內的單個CpG位點或多個CpG位元點組合的甲基化水準同整個區域的甲基化水準具有顯著的相關性(p<0.05),且相關係數都在0.8以上,具有強相關或極強相關性,說明標誌物內的單個CpG位點或者多個CpG位元點的組合同整個標誌物一樣也具備良好的區分效果。
表1-3:56個標誌物中隨機CpG位元點或多個位點組合的甲基化水準同整個標誌物甲基化水準的相關性
Figure 111128173-A0202-12-0136-173
Figure 111128173-A0202-12-0137-174
Figure 111128173-A0202-12-0138-175
Figure 111128173-A0202-12-0139-176
Figure 111128173-A0202-12-0140-177
Figure 111128173-A0202-12-0141-178
Figure 111128173-A0202-12-0142-179
Figure 111128173-A0202-12-0143-180
Figure 111128173-A0202-12-0144-181
Figure 111128173-A0202-12-0145-182
Figure 111128173-A0202-12-0146-183
Figure 111128173-A0202-12-0147-184
Figure 111128173-A0202-12-0148-185
Figure 111128173-A0202-12-0149-186
Figure 111128173-A0202-12-0150-187
Figure 111128173-A0202-12-0151-188
Figure 111128173-A0202-12-0152-189
Figure 111128173-A0202-12-0153-190
Figure 111128173-A0202-12-0154-191
1至2:單個甲基化標誌物的預測性能
為了驗證單個甲基化標誌物對有無胰腺癌患者的區分性能,使用了單個甲基化標誌物的甲基化水準的值對單個標誌物的預測性能進行驗證。
首先在訓練集樣本中分別單獨使用56個甲基化標誌物的甲基化水準的值進行訓練,確定區分有無胰腺癌的閾值以及敏感性和特異性,然後使用該閾值來統計測試集中樣本的敏感性和特異性,結果見下表1至4,可看出單個標誌物也能達到較好的區分性能。
表1至4:56個甲基化標誌物的預測性能
Figure 111128173-A0202-12-0154-192
Figure 111128173-A0202-12-0155-193
Figure 111128173-A0202-12-0156-194
Figure 111128173-A0202-12-0157-195
1-3:所有標誌物組合的預測模型
為了驗證利用甲基化核酸片段標誌物進行胰腺癌區分的潛在能力,在訓練組中,基於56個甲基化核酸片段標誌物構建支援向量機疾病分類模型,以在測試組中驗證該組甲基化標誌物的分類預測效果。按照比例來劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用發現的甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型。
1)將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2)利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型, model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
在構建模型的過程中,將胰腺癌樣本類型編碼為1,無胰腺癌樣本類型編碼為0,由sklearn套裝軟體(0.23.1)型的過程中,默認將閾值設置為0.895。構建出的模型最終也以0.895為評分閾值對樣本進有無胰腺癌區分。兩種模型對訓練集樣本的預測分數見表1-5。
表1-5:訓練集的模型預測得分
Figure 111128173-A0202-12-0158-196
Figure 111128173-A0202-12-0159-197
基於本揭露的甲基化核酸片段標誌物群,根據本實施例中藉由SVM建立的模型在測試集中預測。使用預測函數來預測測試集,輸出的是預測 結果(疾病概率:默認評分閾值為0.895,大於0.895則認為該受試者為惡性)。測試組為57例(樣本118-174),計算過程如下:
命令列:
test_pred = model.predict(test_df)
其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
測試組的預測分數見表1-6,ROC曲線如圖2所示,預測得分分佈如圖3所示,測試組在總體的AUC下面積為,0.911。在訓練集中,該模型在特異性90.7%時,敏感性可達到71.4%;在測試集中,該模型在特異性88.5%時,敏感性可達83.9%。可知,挑選出來的變數建立的SVM模型的區分度均良好。
圖4和圖5分別顯示該組56個甲基化核酸片段標誌物在訓練組和測試組中的分佈,可以發現該組甲基化標誌物在無胰腺癌物件血漿和胰腺癌患者血漿中的差異較為穩定。
表1-6:測試集樣本的模型預測分數
Figure 111128173-A0202-12-0161-198
1至4:腫瘤標誌物預測比較
基於本揭露的甲基化標誌物群,根據實施例1-3中藉由SVM建立的模型在測試集中預測。結合CA19-9標誌物進行胰腺癌預測。樣本130例(表1-7),計算過程如下:
命令列:
Combine_scalar = RobustScaler( ).fit(combine_train_df)
scaled_combine_train_df = combine_scalar.transform(combine_train_df)
scaled_combine_test_df = combine_scalar.transform(combine_test_df)
combine_model = LogisticRegression( ).fit(scaled_combine_train_df, train_ca19_pheno)
其中combine_train_df表示測試集樣本經過實施例1-3構建的SVM預測模型得到的預測分數與CA19-9合併的訓練集資料矩陣,scaled_combine_train_df表示經過標準化之後的訓練集資料矩陣。scaled_combine_test_df表示經過標準化之後的測試集資料矩陣,combine_model表示使用標準化之後的訓練集資料矩陣擬合的邏輯回歸模型
樣本的預測分數見表1-7,ROC曲線如圖6所示,預測得分分佈如圖7所示,測試組在總體的AUC為,0.935。從圖中可以知,建立的邏輯回歸模型的區分度均良好。
圖7分別顯示單獨使用CA19-9、單獨使用實例3構建的SVM模型以及實例3構建的模型結合CA19-9的分類預測分值的分佈,可以發現該方法在胰腺癌鑑定中表現更加穩定。
表1-7:CA19-9預測分值以及模型合併CA19-9的預測分值
Figure 111128173-A0202-12-0162-199
Figure 111128173-A0202-12-0163-200
Figure 111128173-A0202-12-0164-201
Figure 111128173-A0202-12-0165-202
Figure 111128173-A0202-12-0166-203
1-5:分類預測模型在傳統標誌物陰性樣本中的表現
基於本揭露的甲基化標誌物群,根據實施例1-3中藉由SVM建立的模型在傳統腫瘤標誌物CA19-9判別陰性(CA19-9測量值<37)的樣本進行測試。
相關樣本的CA19-9測量值和模型預測值見表1-8,ROC曲線見圖8。同樣使用0.895作為評分閾值,在測試集中AUC值達到了0.885,可看出對於使用CA19-9無法判別的患者,實例3構建的SVM模型仍然可以達到比較好的效果。
表1-8:CA19-9測量值以及SVM模型的預測分值
Figure 111128173-A0202-12-0167-204
Figure 111128173-A0202-12-0168-205
1-6:7個標誌物組合SEQ ID NO:9、14、13、26、40、43、52模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:9、14、13、26、40、43、52進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖9所示,所建模型的AUC為0.881,在測試集中當特異性為0.846時,敏感性可達0.774(表1-9),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-9:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0169-206
1-7:7個標誌物組合SEQ ID NO:5、18、34、40、43、45、46模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:5、18、34、40、43、45、46 進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖10所示,所建模型的AUC為0.881,在測試集中當特異性為0.692時,敏感性可達0.839(表1-10),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-10:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0170-207
1-8:7個標誌物組合SEQ ID NO:8、11、20、44、48、51、54模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:8、11、20、44、48、51、54進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖11所示,所建模型的AUC為0.880,在測試集中當特異性為0.769時,敏感性可達0.839(表1-11),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-11:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0172-208
1-9:7個標誌物組合SEQ ID NO:8、14、26、24、31、40、46模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:8、14、26、24、31、40、46進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖12所示,所建模型的AUC為0.871,在測試集中當特異性為0.885時,敏感性可達0.710(表1-12),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-12:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0173-209
1-10:7個標誌物組合SEQ ID NO:3、9、8、29、42、40、41模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:3、9、8、29、42、40、41進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖13所示,所建模型的AUC為0.866,在測試集中當特異性為0.538時,敏感性可達0.903(表1-13),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-13:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0174-210
1-11:7個標誌物組合SEQ ID NO:5、8、19、7、44、47、53模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:5、8、19、7、44、47、53進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖14所示,所建模型的AUC為0.864,在測試集中當特異性為0.577時,敏感性可達0.774(表1-14),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-14:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0176-211
1-12:7個標誌物組合SEQ ID NO:12、17、24、28、40、42、47模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:12、17、24、28、40、42、47進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖15所示,所建模型的AUC為0.862,在測試集中當特異性為0.731時,敏感性可達0.871(表1-15),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-15:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0177-212
1-13:7個標誌物組合SEQ ID NO:5、18、14、10、8、19、27模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:5、18、14、10、8、19、27進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖16所示,所建模型的AUC為0.859,在測試集中當特異性為0.615時,敏感性可達0.839(表1-16),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-16:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0178-213
1-14:7個標誌物組合SEQ ID NO:6、12、20、26、24、47、50模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:6、12、20、26、24、47、50進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖17所示,所建模型的AUC為0.857,在測試集中當特異性為0.846時,敏感性可達0.774(表1-17),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-17:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0179-214
1-15:7個標誌物組合SEQ ID NO:1、19、27、34、37、46、47模型構建和性能評估
為了驗證不同標誌物組合的預測性能,基於本揭露的56個甲基化標誌物群,從中選取了7個標誌物SEQ ID NO:1、19、27、34、37、46、47進行模型構建和性能測試。劃分訓練組與測試組,其中訓練組117例(樣本1-117),測試組為57例(樣本118-174)。
使用此7個甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型:
1.將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2.利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
3.利用測試集的資料進行測試:將上述模型帶入測試集進行測試,命令列:test_pred=model.predict(test_df),其中test_pred表示測試集樣本經過本實施例構建的SVM預測模型得到的預測分數、model表示本實施例構建的SVM預測模型、test_df表示測試集資料。
此7個marker組合模型的ROC曲線如圖18所示,所建模型的AUC為0.856,在測試集中當特異性為0.808時,敏感性可達0.742(表1-18),對胰腺癌患者和健康人可以達到較好的區分性能。
表1-18:該7個標誌物組合模型的性能
Figure 111128173-A0202-12-0181-215
本研究藉由血漿cfDNA中相關基因的甲基化水準來研究無胰腺癌物件血漿及胰腺癌人群血漿的差異,並篩選出56個具有明顯差異的甲基化核酸片段。基於上述甲基化核酸片段標誌物群,藉由支援向量機的方法,建立胰腺癌風險預測模型,可以有效鑑別胰腺癌且具有較高的靈敏度和特異性,適用於胰腺癌的篩查與診斷。
實施例2
2-1:甲基化靶向測序篩選胰腺癌差異的甲基化位點
發明人收集了總計94個胰腺癌患者血液樣本、25個慢性胰腺炎患者血液樣本,所有入組患者簽署知情同意書。胰腺癌患者具有既往胰腺炎診斷史。樣本資訊見下表。
Figure 111128173-A0202-12-0182-216
藉由MethylTitan的方法獲得血漿DNA的甲基化測序數據,鑑別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
1)文庫用Illumina Nextseq 500測序儀進行雙端測序。
2)Pear(v0.6.0)軟體將Illumina Hiseq X10/Nextseq 500/Nova seq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20bp,合併之後最短30bp。
3)使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫(UCSC:HG19,hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
1)首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
2)將預處理的資料同樣進行CT和GA轉化。
3)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、MHF的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
Figure 111128173-A0202-12-0184-217
其中i表示目標甲基化區間,h表示目標的甲基化haplotype,Ni表示位於目標甲基化區間的reads數目,Ni,h表示包含目標甲基化haplotype的reads數目
5、甲基化數據矩陣
1)將訓練集和測試集的各個樣本的甲基化測序數據分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
2)去除缺失值比例高於10%的位點。
3)對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6、根據訓練集樣本分組發現特徵甲基化區段
1)每個甲基化區段對於表型構建邏輯回歸模型,對每個擴增的目的地區域篩選出回歸係數最顯著的甲基化區段,組成候選甲基化區段。
2)將訓練集隨機分成十份做十倍交叉驗證增量特徵篩選。
3)每個區域的候選甲基化區段按照回歸係數顯著性進行從大到小排序,每次加入一個甲基化區段資料,對測試資料進行預測。
4)步驟3)使用2)生成的10份資料每次都計算10次,最後的AUC取10次的平均值。如果訓練資料的AUC增加則保留該候選甲基化區段作為特徵甲基化區段,否則捨棄。
5)取訓練集中不同特徵數量情況下的平均AUC中位數對應的特徵組合作為最終確定的特徵甲基化區段組合。
篩選出的特徵甲基化標誌物在HG19中的分佈情況具體如下:位於SIX3基因區域的SEQ ID NO:57,TLX2基因區域的SEQ ID NO:58,CILP2基因區域的SEQ ID NO:59。上述甲基化標誌物的水準在胰腺癌患者cfDNA中上升或下降(表2-1)。上述3個標誌物區域的序列如SEQ ID NO:57-59所示。每個標誌物區域中的所有CpG位元點的甲基化水準都可以藉由MethylTitan測序的方法獲得。每個區域中所有CpG位元點甲基化水準的均值,以及單個CpG位元點的甲基化狀態都可以作為診斷胰腺癌的標誌物。
表2-1:DNA甲基化標誌物在訓練集的甲基化水準
Figure 111128173-A0202-12-0185-218
測試集中胰腺癌與慢性胰腺炎人群的甲基化標誌物的甲基化水準如表2-2所示。從表中可以看出,甲基化標誌物的甲基化水準在胰腺癌和慢性胰腺炎人群中的分佈差異明顯,具備良好的區分效果。
表2-2:DNA甲基化標誌物在測試集的甲基化水準
Figure 111128173-A0202-12-0185-219
表2-3列出了所選每一個標誌物中隨機10個CpG位元點或組合的甲基化水準同整個標誌物甲基化水準值的相關性(Pearson相關係數)以及對 應的顯著性p值,可看出標誌物內的單個CpG位點或多個CpG位元點組合的甲基化狀態或水準同整個區域的甲基化水準具有顯著的相關性(p<0.05),且相關係數都在0.8以上,具有強相關或極強相關性,說明標誌物內的單個CpG位點或者多個CpG位元點的組合同整個標誌物一樣也具備良好的區分效果。
表2-3:3個標誌物中隨機CpG位元點或多個位點組合的甲基化水準同整個標誌物甲基化水準的相關性
Figure 111128173-A0202-12-0186-220
Figure 111128173-A0202-12-0187-221
2-2:單個甲基化標誌物的預測性能
為了驗證單個甲基化標誌物對胰腺炎和胰腺癌的區分性能,使用了單個甲基化標誌物的甲基化水準的值對單個標誌物的預測性能進行驗證。
首先在訓練集樣本中分別單獨使用3個甲基化標誌物的甲基化水準的值進行訓練,確定區分胰腺癌和胰腺炎的閾值以及敏感性和特異性,然後使用該閾值來統計測試集中樣本的敏感性和特異性,結果見下表2-4,可看出單個標誌物也能達到較好的區分性能。
表2-4:56個甲基化標誌物的預測性能
Figure 111128173-A0202-12-0187-222
2-3:構建分類預測模型
為了驗證利用標誌物DNA甲基化水準(如甲基化單倍型比值)進行胰腺癌-慢性胰腺炎患者分類器的潛在能力,在訓練組中,基於3個DNA甲基化標誌物的組合構建支援向量機疾病分類模型,以在測試組中驗證該組DNA甲基化標誌物的分類預測效果。按照比例來劃分訓練組與測試組,其中訓練組80例(樣本1-80),測試組為39例(樣本80-119)。
使用發現的DNA甲基化標誌物對兩組樣本在訓練集中構建支援向量機模型。
1)將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2)為了開發利用甲基化標誌物進行胰腺癌鑑別的潛力,基於基因標誌物開發了疾病分類系統。利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(v0.23.1)構建訓練模型交叉驗證訓練模型的訓練模式,命令列:model=SVR( )。
b)使用sklearn套裝軟體(v0.23.1),輸入甲基化數值矩陣,構建SVM模型,model.fit(x_train,y_train)其中,x_train表示訓練集甲基化數值矩陣,y_train表示訓練集的表型資訊。
在構建模型的過程中,將胰腺癌類型編碼為1,慢性胰腺炎類型編碼為0,由sklearn套裝軟體(v0.23.1)型的過程中,默認將閾值設置為0.897。構建出的模型最終也以0.897為評分閾值對樣本進胰腺癌和胰腺炎區分。兩種模型對訓練集樣本的預測分數見表2-5。
表2-5:模型在訓練集的預測得分
Figure 111128173-A0202-12-0189-223
Figure 111128173-A0202-12-0190-224
2-4:分類預測模型測試
利用前述胰腺癌與胰腺炎物件的血液樣品進行MethylTitan測序,根據測序結果中的特徵性甲基化標誌物信號,進行PCA、聚類等歸類分析。
基於本揭露的甲基化標誌物群,根據實施例2-3中藉由SVM建立的模型在測試集中預測。使用預測函數來預測測試集,輸出的是預測結果(疾病概率:默認評分閾值為0.897,大於0.897則認為該受試者為胰腺癌患者,否則為慢性胰腺炎患者)。測試組樣本57例(樣本118-174),計算過程如下:
命令列:
test_pred = model.predict(test_df)
其中test_pred表示測試集樣本經過實施例2-3構建的SVM預測模型得到的預測分數、model表示實施例2-3構建的SVM預測模型、test_df表示測試集資料。
測試組的預測分數見表2-6,ROC曲線如圖19所示,預測得分分佈如圖20所示,測試組在總體的AUC下面積為0.847。該模型在訓練集中,當特異性為88.2%時,敏感性可達88.9%;在測試集中,當特異性為87.5%時,敏感性可達74.2%。可知,挑選出來的變數建立的SVM模型的區分度均良好。
圖21和圖22分別顯示該組3個甲基化標誌物在訓練組和測試組中的分佈,可以發現該組甲基化標誌物在胰腺炎患者血漿和胰腺癌患者血漿中的差異較為穩定。
表2-6:測試集樣本模型的預測分數
Figure 111128173-A0202-12-0191-225
2-5:對於腫瘤標誌物陰性患者的預測效果
基於本揭露的甲基化標誌物群,根據實施例2-3中藉由SVM建立的模型在對腫瘤標誌物CA19-9判別陰性(<37)的患者進行判別。
測試組的預測分數見表2-7,ROC曲線如圖23所示。可以看出對傳統的腫瘤標誌物CA19-9無法區分的患者,使用構建的SVM模型也可以達到較好的效果。
表2-7:CA19-9測量值以及SVM模型的預測分值
Figure 111128173-A0202-12-0193-226
本研究藉由血漿cfDNA中甲基化標誌物的甲基化水準來研究慢性胰腺炎物件血漿及胰腺癌人群血漿的差異,並篩選出3個具有明顯差異的DNA甲基化標誌物。基於上述DNA甲基化標誌物群,藉由支援向量機的方法,建立惡性胰腺癌風險預測模型,可以有效區分胰腺癌和慢性胰腺炎患者且具有較高的靈敏度和特異性,適用於慢性胰腺炎患者中胰腺癌的篩查與診斷。
實施例3
3-1:甲基化靶向測序篩選胰腺癌特異性的甲基化位點
收集了總計110個胰腺癌血液樣本、110個年齡性別匹配的無胰腺癌血液樣本,所有入組患者簽署知情同意書,樣本資訊見表3-1
Figure 111128173-A0202-12-0194-227
本揭露提供一組DNA甲基化標誌物,藉由對患者血漿樣本的DNA甲基化標誌物甲基化水準進行檢測,利用檢測的甲基化水準資料根據診斷 模型預測評分,用以區分胰腺癌患者和健康人,實現早期篩查過程中更高準確率、更低成本的胰腺癌早期診斷的目的。
1.樣本cfDNA提取
所有血液樣本均在Streck管中採集,為了提取血漿,首先將血液樣本在4℃下以1600g離心10min。為了防止破壞buffy coat層,需要設置了平滑制動模式。然後將上清液轉移到新的1.5ml錐形管中,並在4℃下以16000g離心10min。將上清液再次轉移到新的1.5ml錐形管中,並在-80℃下儲存。
為了提取迴圈游離DNA(cfDNA),根據製造商的說明,將血漿等分解凍並立即使用QIAamp迴圈核酸提取試劑盒(Qiagen 55114)進行處理。提取的cfDNA濃度用qubit3.0定量。
2.亞硫酸氫鹽轉化與文庫製備
亞硫酸氫鈉轉化胞嘧啶鹼基進行了使用亞硫酸氫鹽轉化試劑盒(ThermoFisher,MECOV50)。根據製造商的說明,將20ng基因組DNA或ctDNA轉化並純化以用於下游應用。
樣品DNA的抽提、質檢、和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,該轉化使用酶促方法進行,較佳脫胺酶處理,或該轉化使用非酶促方法進行,較佳用亞硫酸氫鹽或重硫酸鹽處理,更較佳使用亞硫酸氫鈣、亞硫酸氫鈉、亞硫酸氫鉀、亞硫酸氫銨、重硫酸鈉、重硫酸鉀和重硫酸銨處理。
使用MethylTitan(專利號:CN201910515830)方法建庫,MethylTitan方法,具體如下,被亞硫酸氫鹽轉化的DNA去磷酸化後連接到帶有分子標籤(UMI)的通用illumina測序接頭上。在進行第二鏈合成和純化後,對 轉化後的DNA進行半靶向PCR反應,以靶向擴增需要的目的地區域。再次純化後,藉由PCR反應將樣本特異的條碼和全長Illumina測序接頭加到目標DNA分子上。最終形成的文庫然後使用Illumina的KAPA文庫定量試劑盒進行定量(KK4844),並在Illumina測序儀進行測序,MethylTitan建庫方式在使用較少DNA量,尤其是cfDNA的情況下可以有效的富集需要的目標片段,同時改方法可以很好的保留原始DNA的甲基化狀態,最終藉由分析相鄰的CpG甲基化胞嘧啶(一個給定的目標可能有幾個到幾十個CpG,這取決於給定的區域),該特定區域的整個甲基化模式可以作為一個獨特的標記,而不是對單個鹼基的狀態進行比較。
3.測序及數據預處理
1)使用Illumina Hiseq 2500測序儀進行雙端測序,測序量為每個樣本25~35M;使用Trim_galore v 0.6.0、cutadapt v2.1軟體對Illumina Hiseq 2500測序儀下機的雙端150bp測序數據進行去接頭處理。在Read 1的3’端去除接頭序列為“AGATCGGAAGAGCACACGTCTGAACTCCAGTC”,在Read 2的3’端去除接頭序列“AGATCGGAAGAGCGTCGTGTA GGGAAAGAGTGT”,並去除兩端測序品質值低於20的鹼基。如果5’端有3bp的接頭序列則去掉整條read。去接頭後短於30個鹼基的read也被去掉。
2)使用Pear v0.9.6軟體合併雙端序列為單端序列。合併至少重疊20個鹼基的兩端reads,如果合併之後的reads短於30個鹼基則捨棄。
4.測序數據比對
本揭露使用的參考基因組資料來自UCSC資料庫(UCSC:hg19,hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
1)首先將hg19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
2)將預處理的資料同樣進行CT和GA轉化。
3)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
5.提取甲基化資訊
對於每個目的地區域hg19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化水準。本發明涉及到的位點的核苷酸編號對應於hg19的核苷酸位置編號。
1)甲基化單倍型比例(MHF)的計算,對於每個目的地區域hg19的CpG位元點,根據上述比對結果,獲取reads中每個位點對應的鹼基序列,C表示該位點發生甲基化,T表示該位元點未甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
MHFi,h=(Ni,h)/Ni
其中i表示目標甲基化區間,h表示目標的甲基化haplotype,Ni表示位於目標甲基化區間的reads數目,Ni,h表示包含目標甲基化haplotype的reads數目
2)平均甲基化水準(AMF)的計算,對於每個目的地區域計算區域內甲基化的平均水準。公式如下:
Figure 111128173-A0202-12-0197-228
其中m為該目標中總的CpG位元點數,i為區間內每個CpG位點,NC,i為該CpG位點鹼基為C的reads數(即該位點發生甲基化的reads數),NT,i為該CpG位點鹼基為T的reads數(即該位點未甲基化的測序reads數)
6.特徵矩陣構建
1)將訓練集和測試集的各個樣本的甲基化單倍型比例(MHF)和平均甲基化水準(AMF)資料分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
2)去除缺失值比例高於10%的位點。
3)對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。首先使用訓練集利用KNN演算法訓練插補器,然後分別對訓練集矩陣和測試集矩陣進行插補。
7.根據特徵矩陣篩選甲基化標誌物(圖1)
1)對訓練集隨機分成3折,構建邏輯回歸模型,計算每個目的地區域平均AUC,對每個目的地區域篩選AUC最大的特徵作為該區域的代表特徵,並按2)將訓練集隨機分成十份做十折交叉驗證增量特徵篩選。具體過程為:留出訓練集中的一份資料作為測試資料,其餘訓練集資料作為訓練資料。按照上述順序依次將每個區域的代表特徵加入特徵組合,使用9份訓練資料構建邏輯回歸模型,對測試資料進行預測。重複10次後計算測試資料平均AUC。
3)如果訓練資料的AUC增加則保留該甲基化標誌物,否則則去掉,迴圈過後將得到的特徵組合作為甲基化標誌物組合,使用所有訓練集資料訓練新的模型,並使用測試集資料進行驗證。
共篩選出101個甲基化標誌物。使用GREAT工具(great.stanford.edu/great/public-3.0.0/html/index.php)進行基因註釋(如表3-2)。GREAT分析時,藉由把標誌物區域和相鄰的基因進行關聯,並用相鄰基因註釋該區域。關聯分成兩個過程,首先,找到每個基因的調節域,然後把覆蓋該區域的調節域的基因與該區域關聯起來。
例ARHGEF16(-60,185)、PRDM16(+325,030)表示的是距離ARHGEF16基因的轉錄起始位置(TSS)上游60,185bp、距離PRDM16基因的轉錄起始位置(TSS)下游325,030bp處的標誌物。
表3-2甲基化標誌物基因及位置
Figure 111128173-A0202-12-0199-229
Figure 111128173-A0202-12-0200-230
Figure 111128173-A0202-12-0201-231
Figure 111128173-A0202-12-0202-232
Figure 111128173-A0202-12-0203-233
Figure 111128173-A0202-12-0204-234
甲基化標誌物區域的甲基化水準在胰腺癌cfDNA中存在上升或下降(如表3-3)。得到的101個甲基化標誌物的序列如SEQ ID NO:60-160。每個甲基化標誌物的所有CpG位元點的甲基化水準都可以藉由MethylTitan甲基化測序的方法獲得。每個區域中所有CpG位元點甲基化水準的均值,以及單個CpG位點的甲基化水準都可以作為胰腺癌的標誌物。
表3-3在訓練集和測試集中甲基化標誌物在胰腺癌中的甲基化水準
Figure 111128173-A0202-12-0204-235
Figure 111128173-A0202-12-0205-236
Figure 111128173-A0202-12-0206-237
Figure 111128173-A0202-12-0207-238
Figure 111128173-A0202-12-0208-239
從表3-3中可以看出,甲基化標誌物區域內的平均甲基化水準在胰腺癌癌與無胰腺癌人群中的分佈顯著不同,具備良好的區分效果,具有顯著性的差異(P<0.01),是良好的胰腺癌甲基化標誌物。
3-2:單個甲基化標誌物判別性能
為了驗證單個甲基化標誌物的區分胰腺癌和無胰腺癌的性能,使用單個marker的甲基化水準資料在實施例3-1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證。
使用python(V3.9.7)中的sklearn(V1.0.1)包中的邏輯回歸模型:model=LogisticRegression( ),該模型的公式如下,其中x為樣本目標marker的甲基化水準值,w為不同marker的係數,b為截距值,y為模型預測分值:
Figure 111128173-A0202-12-0209-240
使用訓練集的樣本進行訓練:modal.fit(Traindata,TrainPheno),其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(胰腺癌為1,無胰腺癌為0),並根據訓練集的樣本確定模型的相關閾值。
使用測試集的樣本進行測試:TestPred=model.predict_proba(TestData)[:,1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是胰腺癌進行判斷。
本實施例中單個甲基化標誌物邏輯回歸模型的效果見表3-4,從該表中可看出,所有的甲基化標誌物的不論在測試集和訓練集都可以達到0.55以上的AUC,都是較好的胰腺癌標誌物。
本專利中單個甲基化標誌物均可作為胰腺癌標誌物,採用邏輯回歸建模,根據訓練集設置閾值,大於閾值則預測為胰腺癌,反之則預測為非胰腺癌,訓練集和測試集都能達到很好的準確性,特異性和靈敏性,採用其它機器學習模型也可達到相似效果。
表3-4.單個甲基化標誌物邏輯回歸模型的表現
Figure 111128173-A0202-12-0210-241
Figure 111128173-A0202-12-0211-242
Figure 111128173-A0202-12-0212-243
Figure 111128173-A0202-12-0213-244
Figure 111128173-A0202-12-0214-245
3-3:所有目標甲基化標誌物的機器學習模型
本實施例使用所有的101個甲基化標誌物的甲基化水準構建了邏輯回歸的機器學習模型MODEL1,資料中準確區分出胰腺癌和非胰腺癌的樣本。具體的步驟與實施例3-2基本一致,不同之處是使用了所有101個目標甲基化標誌物組合(SEQ ID NO:60-160)的資料登錄模型。
訓練集和測試集中模型預測分值分佈見圖25。ROC曲線見圖26,在訓練集中腺癌和無胰腺癌樣本區分的AUC達到了0.982,測試集中,胰腺癌和無胰腺癌樣本區分的AUC達到了0.975,設置閾值為0.600,大於該值預測為胰腺癌,反之則預測為無胰腺癌,在該閾值下,訓練集準確性為 0.939,訓練集特異性為0.984,訓練集敏感性為0.899,測試集準確性為0.886,測試集特異性為0.915,測試集敏感性為0.854,該模型可以較好地從樣本中區分出胰腺癌和無胰腺癌樣本。
3-4:甲基化標誌物組合1的機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有的101個甲基化標誌物的甲基化水準中挑選SEQ ID NO:113、SEQ ID NO:124、SEQ ID NO:67、SEQ ID NO:77、SEQ ID NO:80、SEQ ID NO:96共6個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例3-2一致,但相關樣本只使用了該實施例中的以上6個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖27,該模型ROC曲線見圖28。可看出該模型在訓練集和測試集中,胰腺癌和無胰腺癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和無胰腺癌樣本區分的AUC達到了0.925,測試集中,胰腺癌和無胰腺癌樣本區分的AUC達到了0.953,設置閾值為0.511,大於該值預測為胰腺癌,反之則預測為無胰腺癌,在該閾值下,訓練集準確性為0.886,訓練集特異性為0.921,訓練集敏感性為0.855,測試集準確性為0.886,測試集特異性為0.915,測試集敏感性為0.854,說明了該組合模型良好的性能。
3-5:甲基化標誌物組合2的機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有的101個甲基化標誌物的甲基化水準中挑選SEQ ID NO:108、SEQ ID NO:126、SEQ ID NO:136、SEQ ID NO:141、SEQ ID NO:153、SEQ ID NO:159、SEQ ID NO:82共7個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例3-2一致,但相關樣本只使用了該實施例中的以上7個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖29,該模型ROC曲線見圖30。可看出該模型在訓練集和測試集中,胰腺癌和無胰腺癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和無胰腺癌樣本區分的AUC達到了0.919,測試集中,胰腺癌和無胰腺癌樣本區分的AUC達到了0.938,設置閾值為0.581,大於該值預測為胰腺癌,反之則預測為無胰腺癌,在該閾值下,訓練集準確性為0.826,訓練集特異性為0.921,訓練集敏感性為0.754,測試集準確性為0.818,測試集特異性為0.830,測試集敏感性為0.805,說明了該組合模型良好的性能。
3-6:甲基化標誌物組合3的機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有的101個甲基化標誌物的甲基化水準中挑選SEQ ID NO:115、SEQ ID NO:109、SEQ ID NO:120、SEQ ID NO:137、SEQ ID NO:145、SEQ ID NO:147、SEQ ID NO:158、SEQ ID NO:88、SEQ ID NO:94、SEQ ID NO:101共10個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例3-2一致,但相關樣本只使用了該實施例中的以上10個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖31,該模型ROC曲線見圖32。可看出該模型在訓練集和測試集中,胰腺癌和無胰腺癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和無胰腺癌樣本區分的AUC達到了0.919,測試集中,胰腺癌和無胰腺癌樣本區分的AUC達到了0.950,設置閾值為0.587,大於該值預測為胰腺癌,反之則預測為無胰腺癌,在該閾值下,訓練集準確性為0.848,訓練集特異性為0.952, 訓練集敏感性為0.812,測試集準確性為0.886,測試集特異性為0.915,測試集敏感性為0.854,說明了該組合模型良好的性能。
3-7:所有目標甲基化標誌物模型MODEL1與其它專利預測模型融合模型預測效果
在之前專利(專利號:CN2021106792818)中我們提供了56個甲基化標誌物,使用之前專利56個甲基化標誌物構建邏輯回歸模型MODEL2,並使用實施例3-3中的模型MODEL1與MODEL2預測值進行機器學習模型建模(預測值見表3-5),構建融合模型DUALMODEL。
表3-5
Figure 111128173-A0202-12-0217-246
Figure 111128173-A0202-12-0218-247
Figure 111128173-A0202-12-0219-248
Figure 111128173-A0202-12-0220-249
Figure 111128173-A0202-12-0221-250
Figure 111128173-A0202-12-0222-251
Figure 111128173-A0202-12-0223-252
DUALMODEL模型構建與實施例3-2相似,但相關樣本使用的是MODEL1預測值和MODEL2預測值。DUALMODEL在訓練集和測試集中的模型得分見圖33,該模型ROC曲線見圖34。可看出該模型在訓練集和測試集中,胰腺癌和無胰腺癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和無胰腺癌樣本區分的AUC達到了0.983,測試集中,胰腺癌和無胰腺癌樣本區分的AUC達到了0.971,設置閾值為0.418,大於該值預測為胰腺癌,反之則預測為無胰腺癌,在該閾值下,訓練集準確性為0.939,訓練集特異性為0.984,訓練集敏感性為0.913,測試集準確性為0.909,測試集特異性為0.872,測試集敏感性為0.951,說明了本專利甲基化標誌物組合和其它專利甲基化標誌物組合構成的集合模型具有良好的性能。
3-8:所有目標甲基化標誌物與其它專利甲基化標誌物組合預測模型ALLMODEL預測效果
在之前專利申請中我們提供了56個甲基化標誌物(專利號:CN2021106792818),使用本揭露101個甲基化標誌物與之前專利中56個甲基化標誌物共同構建邏輯回歸模型ALLMODEL。ALLMODEL模型構建與實施例3-2相似,但相關樣本使用的是本專利101個甲基化標誌物和之前專利56個甲基化標誌物,共157個甲基化標誌物。ALLMODEL在訓練集和測試集中的模型得分見圖35,該模型ROC曲線見圖36。可看出該模型在訓練集和測試集中,胰腺癌和無胰腺癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和 無胰腺癌樣本區分的AUC達到了0.982,測試集中,胰腺癌和無胰腺癌樣本區分的AUC達到了0.975,設置閾值為0.599,大於該值預測為胰腺癌,反之則預測為無胰腺癌,在該閾值下,訓練集準確性為0.939,訓練集特異性為0.984,訓練集敏感性為0.899,測試集準確性為0.886,測試集特異性為0.915,測試集敏感性為0.854,說明了本專利甲基化標誌物組合和其它專利標誌物組合重新組合構建的模型具有良好的性能。
實施例4
4-1:甲基化靶向測序篩選特徵甲基化位元點
發明人收集了總計94個胰腺癌患者血液樣本、25個慢性胰腺炎患者血液樣本,所有入組患者簽署知情同意書。胰腺癌患者具有既往胰腺炎診斷史。樣本資訊見下表。
Figure 111128173-A0202-12-0225-253
藉由MethylTitan的方法獲得血漿DNA的甲基化測序數據,鑑別出其中的DNA甲基化分類標誌物,流程參考圖37,具體過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
1)文庫用Illumina Nextseq 500測序儀進行雙端測序。
2)Pear(v0.6.0)軟體將Illumina Hiseq X10/Nextseq 500/Nova seq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20bp,合併之後最短30bp。
3)使用Trim_galore v0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫(UCSC:HG19,hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
1)首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
2)將預處理的資料同樣進行CT和GA轉化。
3)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、MHF的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
Figure 111128173-A0202-12-0227-254
其中i表示目標甲基化區間,h表示目標的甲基化haplotype,Ni表示位於目標甲基化區間的reads數目,Ni,h表示包含目標甲基化haplotype的reads數目
5、甲基化數據矩陣
1)將訓練集和測試集的各個樣本的甲基化測序數據分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
2)去除缺失值比例高於10%的位點。
3)對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6、根據訓練集樣本分組發現特徵甲基化區段
1)每個甲基化區段對於表型構建邏輯回歸模型,對每個擴增的目的地區域篩選出回歸係數最顯著的甲基化區段,組成候選甲基化區段。
2)將訓練集隨機分成十份做十倍交叉驗證增量特徵篩選。
3)每個區域的候選甲基化區段按照回歸係數顯著性進行從大到小排序,每次加入一個甲基化區段資料,對測試資料進行預測(支援向量機(SVM)模型)。
4)步驟3)使用2)生成的10份資料每次都計算10次,最後的AUC取10次的平均值。如果訓練資料的AUC增加則保留該候選甲基化區段作為特徵甲基化區段,否則捨棄。
篩選出的特徵甲基化標誌物在HG19中的分佈情況具體如下:位於SIX3基因區域的SEQ ID NO:57,TLX2基因區域的SEQ ID NO:58,CILP2基因區域的SEQ ID NO:59。上述甲基化標誌物的水準在胰腺癌患者cfDNA中上升或下降(表4-1)。上述3個標誌物區域的序列如SEQ ID NO:57-59所示。
訓練集和測試集中胰腺癌與慢性胰腺炎人群的甲基化標誌物的甲基化水平均值分別如表4-1和表4-2所示。三個甲基化標誌物在訓練集和測試集中胰腺癌和慢性胰腺炎患者甲基化水準的分佈分別如圖38和圖39所示。從圖表中可以看出,三個甲基化標誌物的甲基化水準在胰腺癌和慢性胰腺炎人群中差異明顯,具備良好的區分效果。
表4-1:DNA甲基化標誌物在訓練集的甲基化水準
Figure 111128173-A0202-12-0228-255
表4-2:DNA甲基化標誌物在測試集的甲基化水準
Figure 111128173-A0202-12-0228-256
4-2:構建基於機器學習的分類預測模型
為了驗證利用標誌物DNA甲基化水準(如甲基化單倍型比值)進行胰腺癌-慢性胰腺炎患者分類器的潛在能力,在訓練組中,基於3個DNA甲基化標誌物的組合構建支援向量機疾病分類模型pp_model,同時構建了基於支援向量機模型預測分值和CA19-9測量值合併資料矩陣的邏輯回歸疾病分類模 型cpp_model,在測試組中驗證兩個模型的分類預測效果。按照比例來劃分訓練組與測試組,其中訓練組80例(樣本1-80),測試組為39例(樣本80-119)。
使用發現的DNA甲基化標誌物在訓練集中構建支援向量機模型。
1)將樣本預先分為2份,其中1份用於訓練模型,1份用於模型測試。
2)為了開發利用甲基化標誌物進行胰腺癌鑑別的潛力,基於基因標誌物開發了疾病分類系統。利用訓練集中甲基化標誌物水準進行了SVM模型訓練。具體訓練過程如下:
a)使用python軟體(v3.6.9)的sklearn套裝軟體(v0.23.1)構建訓練模型,命令列:pp_model=SVR( )。
b)使用sklearn套裝軟體(v0.23.1),輸入甲基化數值矩陣,構建SVM模型,pp_model.fit(train_df,train_pheno)其中,train_df表示訓練集甲基化數值矩陣,train_pheno表示訓練集的表型資訊,pp_model表示使用三個甲基化標誌物數值矩陣構建的SVM模型。
c)將訓練集和測試集資料分別帶入pp_model模型得到預測分值:train_pred=pp_model.predict(train_df)
test_pred = pp_model.predict (test_df)
其中train_df,test_df分別為訓練集和測試集甲基化數值矩陣,train_pred,test_pred分別是訓練集和測試集資料的pp_model模型預測分值。
3)為了提升鑑別胰腺癌和胰腺炎患者的能力,模型中納入了CA19-9的檢測值,具體的過程如下:
d)將訓練集的SVM模型預測值和對應的CA19-9測量值資料合併為資料 矩陣並進行標準化處理:
Combine_scalar_train = RobustScaler ( ).fit(combine_train_df)
Combine_scalar_test = RobustScaler ( ).fit(combine_test_df)
scaled_combine_train_df=Combine_scalar_train.transform (combine_train_df)
scaled_combine_test_df = Combine_scalar_test.transform(combine_test_df)
其中combine_train_df,combine_test_df分別表示測試集,訓練集樣本經過本實施例構建的pp_model預測模型得到的預測分數與CA19-9合併的資料矩陣;scaled_combine_train_df,scaled_combine_test_df分別表示經過標準化之後的訓練集和測試集資料矩陣。
e)使用訓練集pp_model模型預測分值和CA19-9測量值的合併標準化資料矩陣構建邏輯回歸模型,並使用該模型對測試集pp_model模型預測分值和CA19-9合併標準化資料矩陣進行預測:
cpp_model = LogisticRegression( ).fit(scaled_combine_train_df, train_pheno)
combine_test_pred = cpp_model.predict (scaled_combine_test_df)
其中cpp_model表示使用納入CA19-9檢測值並標準化之後的訓練集資料矩陣擬合的邏輯回歸模型;combine_test_pred表示cpp_model在測試集的預測分值。
在構建模型的過程中,將胰腺癌類型編碼為1,慢性胰腺炎類型編碼為0,根據模型預測分值分佈,分別將pp_model、cpp_model閾值設置為0.892、0.885,基於兩個模型,當預測分值高於閾值時判別為胰腺癌患者,反之為胰腺炎患者。
兩種模型對訓練集和測試集樣本的預測分數分別見表4-3和表4-4,預測分數的分佈狀況見圖40。兩個機器學習模型和單獨使用CA19-9測量值的ROC曲線見圖41,其中單獨使用CA19-9 AUC值為0.84,pp_model的AUC值為0.88,cpp_model的AUC值為0.90,使用三個甲基化marker構建的SVM模型(pp_model)性能明顯優於CA19-9,pp_model模型預測值加入CA19-9檢測值構建的邏輯回歸模型cpp_model性能又優於pp_model。
使用確定的閾值在測試集進行統計(CA19-9使用公認的37閾值),敏感性和特異性見表4-5,cpp_model在測試集中在特異性為100%情況下,對胰腺癌患者的敏感性可達87%,性能優於pp_model和CA19-9。
另外統計了CA19-9判別陰性(<37)的樣本中兩個模型的表現,結果見表4-6,可看出cpp_model在測試集中對於CA19-9判別陰性的胰腺癌患者仍可以達到63%的敏感性,特異性為100%。
表4-3:兩個模型在訓練集的預測得分以及判別結果
Figure 111128173-A0202-12-0231-257
Figure 111128173-A0202-12-0232-258
Figure 111128173-A0202-12-0233-259
表4-4:兩個模型在測試集的預測得分以及判別結果
Figure 111128173-A0202-12-0233-260
Figure 111128173-A0202-12-0234-261
表4-5:CA19-9和兩個機器學習模型的敏感性和特異性
Figure 111128173-A0202-12-0235-262
表4-6:兩個機器學習模型在CA19-9判別陰性樣本中的表現
Figure 111128173-A0202-12-0235-263
本研究藉由血漿cfDNA中甲基化標誌物的甲基化水準來研究慢性胰腺炎物件血漿及胰腺癌人群血漿的差異,並篩選出3個具有明顯差異的DNA甲基化標誌物。基於上述DNA甲基化標誌物群,並納入CA19-9檢測值,藉由支援向量機和邏輯回歸的方法,建立惡性胰腺癌風險預測模型,在診斷為慢性胰腺炎的患者中可以有效區分胰腺癌和慢性胰腺炎患者且具有較高的靈敏度和特異性,適用於慢性胰腺炎患者中胰腺癌的篩查與診斷。
實施例5
5-1 比較胰腺導管腺癌、癌旁組織及白細胞DNA樣本甲基化豐度
分別從來源於胰臟未見異常的健康人群的白細胞、來源於胰腺導管腺癌患者的癌組織和癌旁組織中獲得DNA樣品(其中白細胞樣品30個,癌 組織各30個),選擇白細胞DNA作為參考樣本是因為血漿游離DNA大多數來源於白細胞破裂後釋放的DNA,其本底背景可以是血漿游離DNA該檢測位點的一個基礎背景信號。按照說明書的要求,用Qiagen QIAamp DNA Mini Kit提取白細胞DNA,用Qiagen QIAamp DNA FFPE Tissue Kit提取組織DNA。使用QubitTM dsDNA HS Assay Kit(Thermo,貨號:Q32854)檢測cfDNA的濃度。
將上述步驟中獲得的DNA取20ng樣品用亞硫酸氫鹽試劑(MethylCodeTM Bisulfite Conversion Kit,Thermo,貨號:MECOV50)處理,以獲得轉化的DNA。
在PCR反應體系中,每個引子的終濃度為100nM,每個檢測探針的終濃度為100nM。例如,PCR反應體系可以包含10μL至12.50μL的2x PCR反應液,正向引子、反向引子各0.12μL,探針0.04μL,樣本DNA(約10ng)6μL,加水補齊總體積約為20μL。
其中引子和探針序列見表5-1。例如,PCR反應條件可以如下:95℃ 5分鐘;95℃ 20秒,60℃ 45秒(採集螢光),進行50個迴圈。使用ABI 7500 Real-Time PCR System在相應的螢光通道檢測不同的螢光。計算並比較從白細胞、癌旁組織和癌組織獲得的樣品Ct值,甲基化水準=2-△Ct待檢樣品/2-△Ct陽性標準品×100%。△Ct=Ct目的基因-Ct內參基因
表5-1引子和探針序列
Figure 111128173-A0202-12-0236-264
Figure 111128173-A0202-12-0237-265
Figure 111128173-A0202-12-0238-266
樣本檢測結果匯總
Figure 111128173-A0202-12-0238-267
樣本檢測AUC結果匯總
Figure 111128173-A0202-12-0239-268
結果顯示,癌組織中甲基化信號檢出率可以遠高於白細胞樣品,也代表甲基化信號強。白細胞大多數樣本不能檢出靶點甲基化信號。這些靶點都可以具備用於血液檢測胰腺癌的潛能。證明所選目標標記物對腫瘤組織具有可行性和特異性。
在大於90%特異性的情況下,檢測位元點的檢測靈敏度統計如下表所示。證明所選目標標記物對腫瘤組織具有較高的靈敏度。
檢測位點的檢測靈敏度
Figure 111128173-A0202-12-0240-269
比較胰腺導管腺癌患者、胰臟未見異常人群血漿樣本甲基化信號
選取100個胰臟未見異常健康對照血漿、100個胰腺導管腺癌患者血漿進行檢測:使用商業化QIAamp DNA Mini Kit(QIAGEN,貨號:51304)抽提上述血漿樣本中的細胞外游離DNA。使用商業化亞硫酸氫鹽轉化試劑MethylCodeTM Bisulfite Conversion Kit對抽提出的細胞外游離DNA進行亞硫酸鹽轉化處理,得到轉化後的DNA。
採用以上PCR反應體系進行螢光PCR檢測。使用如表5-1所示的引子和探針序列,並且同時對內參基因ACTB進行檢測,作為對照。引子終濃度為500nM,探針終濃度為200nM。PCR反應體系包含:10μL的預擴增稀釋產物,包含檢測位點的引子和探針預混液2.5μL;PCR試劑(Luna®Universal Probe qPCR Master Mix(NEB)12.5μL。
螢光PCR反應體系與實施例5-1相同。PCR反應條件如下:95℃ 5分鐘;95℃ 15秒,56℃ 40秒(採集螢光),50個迴圈。針對不同基因探針修 飾螢光,選擇相應檢測螢光通道。甲基化水準=2^(-△Ct待檢樣品)/2^(-△Ct陽性標準品)×100%。△Ct=Ct目的基因-Ct內參基因。
樣本檢測結果匯總
Figure 111128173-A0202-12-0241-270
樣本檢測AUC結果匯總
Figure 111128173-A0202-12-0241-271
結果顯示,本揭露的靶點都可以具備用於血液檢測胰腺導管腺癌。證明所選目標標記物對腫瘤組織具有可行性和特異性。
實施例6
6-1 EBF2、和CCNA1聯合用於胰腺癌預測
本揭露對115例胰腺癌患者和85例健康對照的血漿cfDNA進行甲基化特異的PCR,發現本揭露的基因組合的DNA甲基化水準可以用於區分胰腺癌和正常人群血漿。
使用QIAamp DNA Mini Kit(QIAGEN,貨號:51304)對115例胰腺癌患者和85例健康對照的血漿進行cfDNA抽提;使用QubitTM dsDNA HS Assay Kit(Thermo,貨號:Q32854)檢測DNA的濃度;使用1%瓊脂糖凝膠電泳進行質檢。
使用MethylCodeTM Bisulfite Conversion Kit(Thermo,貨號:MECOV50)對步驟1得到的DNA進行亞硫酸氫鹽轉化,未甲基化的胞嘧啶(cytosine,C)經過轉化變為尿嘧啶(uracil,U);甲基化的胞嘧啶轉化後不發生改變。
其中引子和探針序列見表6-1。
Figure 111128173-A0202-12-0243-272
採用多重甲基化特異的PCR法(Multiplex MSP),PCR混合物包括PCR反應液、引子混合物、探針混合物,進行單個樣本的配製。引子混合物包含本揭露的基因組合和內參基因的各一對引子。
PCR反應體系如下:5.00μL的樣本cfDNA/陽性對照/陰性對照,3.40μL的多重引子混合物(100μM),4.10μL的水,12.5μL的2x PCR反應液。
設置PCR程式為94℃預變性2min;94℃變性30s,60℃退火延伸1min,45個迴圈。60℃退火延伸階段收集螢光信號。
甲基化水準(methylation level)=Ct內參基因_-Ct目的基因
對本揭露的基因組合的甲基化水準進行二元Logistic回歸分析,擬合方程。例如示例性的公式得分大於0,則判定結果為陽性,即為惡性結節。
示例性的擬合方程可以為得分(Score)=3.54632+EBF2甲基化水準×0.04422+CCNA1甲基化水準×0.06956。
本揭露的基因組合經過ROC分析,特異性達到78%,靈敏度為62%,AUC為0.689。
結果顯示,本揭露檢測位元點組合在對照血漿和胰腺導管腺癌血漿DNA甲基化信號對比。證明所選目標標記物對腫瘤檢測具有較高的靈敏度。
6-2 KCNA6、TLX2、和EMX1聯合用於胰腺癌預測
本揭露對115例胰腺癌患者和85例健康對照的血漿cfDNA進行甲基化特異的PCR,發現本揭露的基因組合的DNA甲基化水準可以用於區分胰腺癌和正常人群血漿。
使用QIAamp DNA Mini Kit(QIAGEN,貨號:51304)對115例胰腺癌患者和85例健康對照的血漿進行cfDNA抽提;使用QubitTM dsDNA HS Assay Kit(Thermo,貨號:Q32854)檢測DNA的濃度;使用1%瓊脂糖凝膠電泳進行質檢。
使用MethylCodeTM Bisulfite Conversion Kit(Thermo,貨號:MECOV50)對步驟1得到的DNA進行亞硫酸氫鹽轉化,未甲基化的胞嘧啶(cytosine,C)經過轉化變為尿嘧啶(uracil,U);甲基化的胞嘧啶轉化後不發生改變。
其中引子和探針序列見表6-2。
Figure 111128173-A0202-12-0245-273
採用多重甲基化特異的PCR法(Multiplex MSP),PCR混合物包括PCR反應液、引子混合物、探針混合物,進行單個樣本的配製。引子混合物包含本揭露的基因組合和內參基因的各一對引子。
PCR反應體系如下:5.00μL的樣本cfDNA/陽性對照/陰性對照,3.40μL的多重引子混合物(100μM),4.10μL的水,12.5μL的2x PCR反應液。
設置PCR程式為94℃預變性2min;94℃變性30s,60℃退火延伸1min,45個迴圈。60℃退火延伸階段收集螢光信號。
甲基化水準(methylation level)=Ct內參基因_-Ct目的基因
對本揭露的基因組合的甲基化水準進行二元Logistic回歸分析,擬合方程。例如示例性的公式得分大於0,則判定結果為陽性,即為惡性結節。
示例性的擬合方程可以為得分(Score)=3.48511+KCNA6甲基化水準×0.04870+TLX2甲基化水準×0.00464+EMX1甲基化水準×0.06555。
本揭露的基因組合經過ROC分析,特異性達到81%,靈敏度為63%,AUC為0.735。
結果顯示,本揭露檢測位元點組合在對照血漿和胰腺導管腺癌血漿DNA甲基化信號對比。證明所選目標標記物對腫瘤檢測具有較高的靈敏度。
6-3 TRIM58、TWIST1、FOXD3、和EN2聯合用於胰腺癌預測
本揭露對115例胰腺癌患者和85例健康對照的血漿cfDNA進行甲基化特異的PCR,發現本揭露的基因組合的DNA甲基化水準可以用於區分胰腺癌和正常人群血漿。
使用QIAamp DNA Mini Kit(QIAGEN,貨號:51304)對115例胰腺癌患者和85例健康對照的血漿進行cfDNA抽提;使用QubitTM dsDNA HS Assay Kit(Thermo,貨號:Q32854)檢測DNA的濃度;使用1%瓊脂糖凝膠電泳進行質檢。
使用MethylCodeTM Bisulfite Conversion Kit(Thermo,貨號:MECOV50)對步驟1得到的DNA進行亞硫酸氫鹽轉化,未甲基化的胞嘧啶(cytosine,C)經過轉化變為尿嘧啶(uracil,U);甲基化的胞嘧啶轉化後不發生改變。
其中引子和探針序列見表6-3。
Figure 111128173-A0202-12-0247-274
採用多重甲基化特異的PCR法(Multiplex MSP),PCR混合物包括PCR反應液、引子混合物、探針混合物,進行單個樣本的配製。引子混合物包含本揭露的基因組合和內參基因的各一對引子。
PCR反應體系如下:5.00μL的樣本cfDNA/陽性對照/陰性對照,3.40μL的多重引子混合物(100μM),4.10μL的水,12.5μL的2x PCR反應液。
設置PCR程式為94℃預變性2min;94℃變性30s,60℃退火延伸1min,45個迴圈。60℃退火延伸階段收集螢光信號。
甲基化水準(methylation level)=Ct內參基因_-Ct目的基因
對本揭露的基因組合的甲基化水準進行二元Logistic回歸分析,擬合方程。例如示例性的公式得分大於0,則判定結果為陽性,即為惡性結節。
示例性的擬合方程可以為得分(Score)=1.76599+TRIM58甲基化水準×0.03214+TWIST1甲基化水準×0.02187+FOXD3甲基化水準×0.03075+EN2甲基化水準×0.04429。
本揭露的基因組合經過ROC分析,特異性達到80%,靈敏度為64%,AUC為0.735。
結果顯示,本揭露檢測位元點組合在對照血漿和胰腺導管腺癌血漿DNA甲基化信號對比。證明所選目標標記物對腫瘤檢測具有較高的靈敏度。
6-4 TRIM58、TWIST1、CLEC11A、HOXD10、和OLIG3聯合用於胰腺癌預測
本揭露對115例胰腺癌患者和85例健康對照的血漿cfDNA進行甲基化特異的PCR,發現本揭露的基因組合的DNA甲基化水準可以用於區分胰腺癌和正常人群血漿。
使用QIAamp DNA Mini Kit(QIAGEN,貨號:51304)對115例胰腺癌患者和85例健康對照的血漿進行cfDNA抽提;使用QubitTM dsDNA HS Assay Kit(Thermo,貨號:Q32854)檢測DNA的濃度;使用1%瓊脂糖凝膠電泳進行質檢。
使用MethylCodeTM Bisulfite Conversion Kit(Thermo,貨號:MECOV50)對步驟1得到的DNA進行亞硫酸氫鹽轉化,未甲基化的胞嘧啶 (cytosine,C)經過轉化變為尿嘧啶(uracil,U);甲基化的胞嘧啶轉化後不發生改變。
其中引子和探針序列見表6-4。
Figure 111128173-A0202-12-0249-275
採用多重甲基化特異的PCR法(Multiplex MSP),PCR混合物包括PCR反應液、引子混合物、探針混合物,進行單個樣本的配製。引子混合物包含本揭露的基因組合和內參基因的各一對引子。
PCR反應體系如下:5.00μL的樣本cfDNA/陽性對照/陰性對照,3.40μL的多重引子混合物(100μM),4.10μL的水,12.5μL的2x PCR反應液。
設置PCR程式為94℃預變性2min;94℃變性30s,60℃退火延伸1min,45個迴圈。60℃退火延伸階段收集螢光信號。
甲基化水準(methylation level)=Ct內參基因_-Ct目的基因
對本揭露的基因組合的甲基化水準進行二元Logistic回歸分析,擬合方程。例如示例性的公式得分大於0,則判定結果為陽性,即為惡性結節。
示例性的擬合方程可以為得分(Score)=1.65343+TRIM58甲基化水準×0.03638+TWIST1甲基化水準×0.02269+CLEC11A甲基化水準×0.00536-HOXD10甲基化水準×0.00435+OLIG3甲基化水準×0.02293。
本揭露的基因組合經過ROC分析,特異性達到90%,靈敏度為52%,AUC為0.726。
結果顯示,本揭露檢測位元點組合在對照血漿和胰腺導管腺癌血漿DNA甲基化信號對比。證明所選目標標記物對腫瘤檢測具有較高的靈敏度。
前述詳細說明是以解釋和舉例的方式提供的,並非要限制所附請求項的範圍。目前本揭露所列舉的實施方式的多種變化對所屬技術領域中具有通常知識者來說是顯而易見的,且保留在所附的請求項和其等同方案的範圍內。

Claims (61)

  1. 一種確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的方法,包含確定待測樣本中EBF2基因所在DNA區域或其片段的修飾狀態的存在和/或含量。
  2. 一種評估胰臟腫瘤相關DNA區域甲基化狀態的方法,包含確定待測樣本中EBF2基因所在DNA區域或其片段的修飾狀態的存在和/或含量。
  3. 如請求項1或2所述的方法,其中,該DNA區域來源於人chr8:25699246-25907950。
  4. 如請求項1至3中任一項所述的方法,其中,該方法還包含獲取待測樣本中的核酸。
  5. 如請求項4所述的方法,其中,該核酸包含無細胞游離核酸。
  6. 如請求項1至5中任一項所述的方法,其中,該待測樣本包含組織、細胞和/或體液。
  7. 如請求項1至6中任一項所述的方法,其中,該待測樣本包含血漿。
  8. 如請求項1至7中任一項所述的方法,其中,該方法還包含轉化所述DNA區域或其片段。
  9. 如請求項8所述的方法,其中,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後形成不同的物質。
  10. 如請求項1至9中任一項所述的方法,其中,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
  11. 如請求項9或10所述的方法,其中,該鹼基包含胞嘧啶。
  12. 如請求項1至11中任一項所述的方法,其中,該修飾狀態包含甲基化修飾。
  13. 如請求項10至12中任一項所述的方法,其中,該其它鹼基包含尿嘧啶。
  14. 如請求項8至13中任一項所述的方法,其中,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
  15. 如請求項14所述的方法,其中,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
  16. 如請求項1至15中任一項所述的方法,其中,該確定修飾狀態的存在和/或含量的方法包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
  17. 如請求項1至16中任一項所述的方法,其中,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
  18. 如請求項1至17中任一項所述的方法,其中,藉由該螢光PCR方法檢測的螢光Ct值確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
  19. 如請求項1至18中任一項所述的方法,其中,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。
  20. 如請求項1至19中任一項所述的方法,其中,該方法還包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。
  21. 如請求項20所述的方法,其中,該擴增包含PCR擴增。
  22. 一種確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894。
  23. 一種確定DNA區域甲基化狀態的方法,包含確定待測樣本中選自以下組DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894。
  24. 如請求項22或23所述的方法,其中,包含提供能夠結合包含選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:SEQ ID NO:172和SEQ ID NO:176。
  25. 如請求項22至24中任一項所述的方法,其中,包含提供能夠結合包含選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸:來源於人chr8:25907865至25907930和來源於人chr8:25907698至25907814。
  26. 如請求項22至25中任一項所述的方法,其中,包含提供選自以下組核酸或其互補核酸、或上述的片段:SEQ ID NO:173和SEQ ID NO:177。
  27. 如請求項22至26中任一項所述的方法,其中,包含提供選自以下組核酸組或其互補核酸組、或上述的片段:SEQ ID NO:174與175和SEQ ID NO:178與179。
  28. 如請求項22至27中任一項所述的方法,其中,該疾病包含腫瘤。
  29. 如請求項22至28中任一項所述的方法,其中,該方法還包含獲取待測樣本中的核酸。
  30. 如請求項29所述的方法,其中,該核酸包含無細胞游離核酸。
  31. 如請求項22至30中任一項所述的方法,其中,該待測樣本包含組織、細胞和/或體液。
  32. 如請求項22至31中任一項所述的方法,其中,該待測樣本包含血漿。
  33. 如請求項22至32中任一項所述的方法,其中,該方法還包含轉化該DNA區域或其片段。
  34. 如請求項33所述的方法,其中,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後形成不同的物質。
  35. 如請求項22至34中任一項所述的方法,其中,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與所述鹼基不同的其它鹼基、或在轉化後被剪切。
  36. 如請求項34或35所述的方法,其中,該鹼基包含胞嘧啶。
  37. 如請求項22至36中任一項所述的方法,其中,該修飾狀態包含甲基化修飾。
  38. 如請求項35至37中任一項所述的方法,其中,該其它鹼基包含尿嘧啶。
  39. 如請求項33至38中任一項所述的方法,其中,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
  40. 如請求項39所述的方法,其中,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
  41. 如請求項22至40中任一項所述的方法,其中,該確定修飾狀態的存在和/或含量的方法包含,確認具有該修飾狀態的鹼基在該轉化後形成的物質的存在和/或含量。
  42. 如請求項22至41中任一項所述的方法,其中,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
  43. 如請求項22至42中任一項所述的方法,其中,藉由該螢光PCR方法檢測的螢光Ct值確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
  44. 如請求項22至43中任一項所述的方法,其中,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水準具有更高的修飾狀態的含量,確定胰臟腫瘤的存在、或者有胰臟腫瘤形成或形成的風險。
  45. 如請求項22至44中任一項所述的方法,其中,該方法還包含在確定該DNA區域或其片段的修飾的存在和/或含量之前,擴增待測樣本中該DNA區域或其片段。
  46. 如請求項45所述的方法,其中,該擴增包含PCR擴增。
  47. 一種核酸,該核酸包含能夠結合EBF2基因所在DNA區域、 或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
  48. 一種製備核酸的方法,包含根據EBF2基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
  49. 一種核酸組,該核酸組包含能夠結合EBF2基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
  50. 一種製備核酸組的方法,包含根據EBF2基因所在DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠擴增該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸組。
  51. 一種試劑盒,包含如請求項47所述的核酸和/或請求項49所述的核酸組。
  52. 一種如請求項47所述的核酸、如請求項49所述的核酸組和/或請求項51所述的試劑盒在製備疾病檢測產品中的應用。
  53. 一種如請求項47所述的核酸、如請求項49所述的核酸組和/或請求項51所述的試劑盒在製備確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用。
  54. 一種如請求項47所述的核酸、如請求項49所述的核酸組和/或請求項51所述的試劑盒在製備確定該DNA區域或其片段的修飾狀態的物質中的應用。
  55. 一種用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒 在製備用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用,該用於確定的DNA區域包含EBF2基因所在DNA區域或其片段。
  56. 一種用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒在製備用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用,該DNA區域包含選自以下組DNA區域、或其互補區域、或上述的片段:來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894。
  57. 一種EBF2基因所在DNA區域、或其轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合在製備用於確認胰臟腫瘤的存在、評估胰臟腫瘤形成或形成風險和/或評估胰臟腫瘤的進展的物質中的應用。
  58. 一種選自以下組DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸,以及上述核酸的組合在製備用於確認疾病的存在、評估疾病形成或形成風險和/或評估疾病的進展的物質中的應用:來源於人chr8:25907849-25907950和來源於人chr8:25907698-25907894。
  59. 一種儲存介質,其記載可以運行如請求項1至46中任一項所述的方法的程式。
  60. 一種設備,其包含請求項59所述的儲存介質。
  61. 如請求項60所述的設備,還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介質中的程式執行以實現如請求項1至46中任一項所述的方法。
TW111128173A 2021-10-13 2022-07-27 用於評估腫瘤的物質及其方法 TW202330938A (zh)

Applications Claiming Priority (22)

Application Number Priority Date Filing Date Title
CN202111191903.9A CN115985486A (zh) 2021-10-13 2021-10-13 一种基于机器学习的胰腺癌诊断方法
CN202111191903.9 2021-10-13
CN202111608215 2021-12-24
CN202111608215.8 2021-12-24
CN202111598099.6 2021-12-24
CN202111608328 2021-12-24
CN202111608328.8 2021-12-24
CN202111600984 2021-12-24
CN202111598099 2021-12-24
CN202111600984.3 2021-12-24
CN202210047980 2022-01-17
CN202210047980.5 2022-01-17
CN202210092055.4 2022-01-26
CN202210092038 2022-01-26
CN202210092040 2022-01-26
CN202210091957 2022-01-26
CN202210092055 2022-01-26
CN202210092040.8 2022-01-26
CN202210091957.6 2022-01-26
CN202210092038.0 2022-01-26
PCT/CN2022/099311 WO2022262831A1 (zh) 2021-06-18 2022-06-17 用于评估肿瘤的物质及其方法
WOPCT/CN2022/099311 2022-06-17

Publications (1)

Publication Number Publication Date
TW202330938A true TW202330938A (zh) 2023-08-01

Family

ID=88559341

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111128173A TW202330938A (zh) 2021-10-13 2022-07-27 用於評估腫瘤的物質及其方法

Country Status (1)

Country Link
TW (1) TW202330938A (zh)

Similar Documents

Publication Publication Date Title
TWI797095B (zh) 腫瘤檢測之方法及系統
CN111742062B (zh) 用于诊断癌症的甲基化标志物
WO2021128519A1 (zh) Dna甲基化生物标志物组合、检测方法和试剂盒
JP2020010700A (ja) エピジェネティックドメインの安定性の全般的な損失を通して癌を検出する方法およびその組成物
CN112941180A (zh) 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用
KR20230025895A (ko) 순환 종양 핵산 분자의 다중모드 분석
CN112210601B (zh) 基于粪便样本的结直肠癌筛查试剂盒
CN116804218A (zh) 用于检测肺结节良恶性的甲基化标志物及其应用
WO2022262831A1 (zh) 用于评估肿瘤的物质及其方法
TW202321465A (zh) 一種腫瘤評估方法及應用
EP4294938A1 (en) Cell-free dna methylation test
CN112210602B (zh) 基于粪便样本的结直肠癌筛查方法
TW202330938A (zh) 用於評估腫瘤的物質及其方法
CN118460724B (zh) 一种早期胃癌淋巴结转移的甲基化标志物及应用
WO2024008040A1 (zh) 癌症特异性甲基化标志物及其应用
CN115772566B (zh) 用于辅助检测肺癌体细胞erbb2基因突变的甲基化生物标记物及其应用
US20240309461A1 (en) Sample barcode in multiplex sample sequencing
CN117821585A (zh) 结直肠癌早期诊断标志物及应用
WO2023116593A1 (zh) 一种肿瘤检测方法及应用
WO2024047250A1 (en) Sensitive and specific determination of dna methylation profiles
KR20240046525A (ko) 세포-유리 dna에 대한 tet-보조 피리딘 보란 시퀀싱과 관련된 조성물 및 방법
CN117385026A (zh) 乳腺癌特异性甲基化标志物及其诊断乳腺癌的应用
WO2022255944A2 (en) Method for detection and quantification of methylated dna
CN117385027A (zh) 肺癌特异性甲基化标志物及其诊断肺癌的应用
KR20240059529A (ko) 폐암 진단용 메틸화 마커 및 이의 조합