TW202417642A - 鑑別癌症的甲基化標誌物及應用 - Google Patents

鑑別癌症的甲基化標誌物及應用 Download PDF

Info

Publication number
TW202417642A
TW202417642A TW112135115A TW112135115A TW202417642A TW 202417642 A TW202417642 A TW 202417642A TW 112135115 A TW112135115 A TW 112135115A TW 112135115 A TW112135115 A TW 112135115A TW 202417642 A TW202417642 A TW 202417642A
Authority
TW
Taiwan
Prior art keywords
methylation
seq
sequence
dna
marker
Prior art date
Application number
TW112135115A
Other languages
English (en)
Inventor
徐敏杰
陳樺
孫津
馬成城
何其曄
蘇志熙
劉蕊
Original Assignee
大陸商江蘇鵾遠生物科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202211129987.8A external-priority patent/CN117821585A/zh
Priority claimed from CN202211190564.7A external-priority patent/CN117778568A/zh
Application filed by 大陸商江蘇鵾遠生物科技股份有限公司 filed Critical 大陸商江蘇鵾遠生物科技股份有限公司
Publication of TW202417642A publication Critical patent/TW202417642A/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申請涉及鑑別癌症的甲基化標誌物及應用。具體涉及一種癌症鑑別方法,以及甲基化標誌物及其檢測試劑在製備用於診斷對象的癌症的試劑盒中的用途。

Description

鑑別癌症的甲基化標誌物及應用
本申請關於生物醫藥領域,具體的關於一種癌症早期診斷和篩查方法
根據世界衛生組織國際癌症研究機構(IARC)最新發佈的《2020年全球最新癌症負擔數據》顯示:2020年全球新發癌症病例1929萬例,其中中國新發癌症457萬人。惡性腫瘤已經成為嚴重威脅人民生命健康的第一殺手,“早發現、早診斷、早治療”是目前公認的對抗癌症最有效的手段。
結直腸癌是世界上第三高發和致死癌症,而且近年來隨著飲食結構等生活方式變化,結直腸癌的發病率逐漸提高,極大危害人類的身體健康。結直腸癌治癒率與癌症分期密切相關,I期和II期結直腸癌患者五年生存期達到80%,而III期患者五年生存期下降至50%,IV期患者五年生存期僅為8%。遺憾的是,多數患者在結直腸癌早期無明顯症狀,就診時已處於癌症中晚期,錯失最佳治療時期。因此,風險人群定期篩查結直腸癌,對於提高結直腸癌治療效果,挽救患者生命具有重要意義。臨床應用中,腸鏡(colonoscopy)是結直腸癌診斷的金標準,但其具有操作難度高,前期準備耗時久,患者痛苦較大,花費高等缺點, 不適合進行大規模篩查。目前有多種無創檢測的方式可用於結直腸癌篩查,如基於糞便的糞便免疫化學試驗(FIT)等,這些方法具有方便快捷等優點,但其檢測性能較差,容易受到飲食等因素干擾,靈敏性和特異性都比較低。
胃癌是全球範圍內第二普遍發生的癌症類型,而且幾乎三分之二的病發案例都是在發展中國家。根據現有數據,胃癌是男性人群中發病率第四的癌種,在女性人群的癌症癌種發病率排名第七。目前,胃癌已經成為人們健康的嚴重威脅。尋找便捷有效的早期胃癌診斷方法,對降低其導致的病死率以及提高其生存率起到至關重要的作用。其中腫瘤標誌物是一種重要的檢查手段,可在簡單、經濟的條件下,為臨床診斷及治療、為病人減輕篩查費用提供有效的證據。血液是胃癌篩查候選腫瘤標誌物的首選來源,基於血液的生物標誌物提供了整個患者身體的概況,包括原發性腫瘤、轉移性疾病、免疫應答和腫瘤周圍基質。常見的胃癌血液標誌物包括CEA、CA19-9、CA72-4等。這幾種腫瘤標誌物都存在敏感性不高的特點,檢出率僅在50%左右。另外,特異性較差也是一項很大的缺陷。比如,CA19-9血清水平在多種腺癌(B包括胰腺癌、肝膽管癌、胃癌)中均有升高。CEA在多種癌症甚至非癌疾病中均有升高等。由於敏感性不高、特異性較差,在實際臨床,尤其作為胃癌的早期篩查應用中,這些血液標誌物的使用較為受限。
食管癌是全世界最常見的惡性腫瘤之一,其具有高發病率,高死亡率的特點,成為人們健康的嚴重威脅。早期食管癌症狀不明顯,並且無特異性診斷方法,因此大部分食管癌患者確診時已屬中晚期。腫瘤標誌物也是一種食管癌的重要檢查手段。之前已有的研究主要是單一的血清標誌物在食管癌患者與正常對照的前後差異,比如miR-138,但其敏感性和特異性還不能達到預期。但 也有部分研究對血清標誌物進行組合檢測,比如多個小RNA聯合檢測,儘管如此,其敏感性和特異性提升有限。此外,儘管近幾十年來關於幾種血清生物標誌物的功效有了的大量數據積累,但缺乏實施其用於食管癌患者的指南和標準早起檢測方案。循環腫瘤DNA(ctDNA)分子來源於凋亡或壞死的腫瘤細胞,攜帶來自早期惡性腫瘤的腫瘤特異性DNA甲基化標記,近年來被研究為開發多種癌症的無創早期篩查工具的有前景的新靶點。然而,大多數這些研究未取得有效的結果。
肝癌在我國是一種嚴重威脅健康的一種癌症,肝癌起病隱匿,患者一旦出現臨床症狀,病情往往已經處於中晚期而失去根治性治療的機會,預後極其兇險;因此肝癌患者越早得到確診,治療效果越好,生存率才能越高。目前常見的檢測手段如甲胎蛋白測定:是用免疫方法測定產生的胚胎性抗原,為目前診斷肝細胞癌特異性最高的方法之一,對診斷肝細胞肝癌具有相對專一性。對無肝癌其它證據,α-FP對流免疫電泳法陽性或定量>500ng/ml持續一個月以上,並能排除妊娠,活動性肝病,生殖腺胚胎性腫瘤等即可診斷為肝細胞癌。血液酶學檢查:肝癌病人血清中γ-穀胺醯轉肽酶,鹼性磷酸酶和乳酸脫氫酶的同功酶等可高於正常,但由於缺乏特異性,多作為輔助診斷。
因此,尋找便捷有效的癌症診斷或預後復發監控的方法,對降低其導致的病死率以及提高其生存率起到至關重要的作用。
本申請提供一種早期非侵入性鑑別癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)的甲基化標誌物及應用,基於本申請的生物標誌物組群在血 漿中的甲基化水平,可以便捷、準確、高效地鑑別(例如,結直腸癌、胃癌、食管癌和/或肝癌)患者,為(例如,結直腸癌、胃癌、食管癌和/或肝癌)的早期診斷提供了新方法,本申請的檢測過程無創,安全性高,便於大規模臨床應用。本申請只需檢測數個甚至一個基因的甲基化水平即可檢測良惡性,顯著減少了目標檢測區域,提升了技術的應用範圍,可以囊括更多的樣本。本申請的甲基化標誌物、檢測方法和/或試劑盒在癌症的早期診斷和復發監控等應用中具有稿靈敏性和特異性的特點。
本申請藉由對患者樣品的DNA甲基化標誌物甲基化水平進行檢測,利用檢測的甲基化水平數據根據診斷模型預測評分,用以區分結癌症患者和非癌症患者,可以實現早期篩查過程中更高準確率、更低成本的癌症早期診斷的目的。
一方面,本申請提供了一種結直腸癌甲基化標誌物,其是分離的來自哺乳動物的核酸分子,該核酸分子的序列包括:(1)SEQ ID NO:1-47中任一種或多種(例如至少6個、至少7個、至少8個或至少9個)或全部所示的序列或其互補序列或變體,該變體是與相應序列具有至少70%序列同一性的變體,並且該變體中的甲基化位點未發生突變,或(2)(1)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基。
在一個或多個實施方案中,該(1)選自以下任一組:
(1.1)以下序列中任一種或多種或全部:SEQ ID NO:4或其互補序列或變體、SEQ ID NO:11或其互補序列或變體、SEQ ID NO:15或其互補序列或變體、SEQ ID NO:18或其互補序列或變體、SEQ ID NO:19或其互補序列或變體、SEQ ID NO:30或其互補序列或變體、SEQ ID NO:34或其互補序列或變體、SEQ ID NO:37或其互補序列或變體、SEQ ID NO:41或其互補序列或變體,視需要還包括SEQ ID NO:1-47中其餘序列的任一種或多種或其互補序列或變體,
(1.2)以下序列中任一種或多種或全部:SEQ ID NO:1或其互補序列或變體、SEQ ID NO:21或其互補序列或變體、SEQ ID NO:29或其互補序列或變體、SEQ ID NO:36或其互補序列或變體、SEQ ID NO:44或其互補序列或變體、SEQ ID NO:47或其互補序列或變體,視需要還包括SEQ ID NO:1-47中其餘序列的任一種或多種或其互補序列或變體,
(1.3)以下序列中任一種或多種或全部:SEQ ID NO:6或其互補序列或變體、SEQ ID NO:10或其互補序列或變體、SEQ ID NO:13或其互補序列或變體、SEQ ID NO:14或其互補序列或變體、SEQ ID NO:22或其互補序列或變體、SEQ ID NO:28或其互補序列或變體、SEQ ID NO:43或其互補序列或變體,視需要還包括SEQ ID NO:1-47中其餘序列的任一種或多種或其互補序列或變體。
在一個或多個實施方案中,該甲基化位點是連續的CpG。
在一個或多個實施方案中,該甲基化標誌物可以是該序列區域中任意一個或者多個CpG位點。
在一個或多個實施方案中,該核酸分子用作檢測樣品中相應序列的DNA甲基化水平的內標或對照。
另一方面,本申請提供了檢測DNA甲基化的試劑,用於篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後,該試劑包含檢測對象的樣品中標誌物的甲基化水平的試劑,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、 CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。
在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該標誌物包含至少3個CpG二核苷酸。
在一個或多個實施方案中,該DNA序列包括DNA正義鏈或反義鏈。
在一個或多個實施方案中,該片段長度為1-1000bp,較佳1-700bp。在一個或多個實施方案中,該片段是基因序列的啟動子區域或其部分。在一個或多個實施方案中,該片段包含至少1個,較佳至少3個CpG二核苷酸。較佳地,該標誌物具有本申請所述的核酸分子的序列。
在一個或多個實施方案中,該試劑是與該標誌物或其經轉化的序列雜交的引子分子。該引子分子能擴增出該標誌物或其經轉化的變體。在一個或多個實施方案中,該引子序列為甲基化特異的或非特異的。該引子分子至少9bp。
在一個或多個實施方案中,該試劑是與標誌物或其經轉化的序列雜交的探針分子。在一個或多個實施方案中,該探針還含有可檢測物。在一個或多個實施方案中,該可檢測物是5’端螢光報告基團和3’端標記淬滅基團。在一個或多個實施方案中,該螢光報告基因選自Cy5、FAM和VIC。該探針分子至少12bp。
在一個或多個實施方案中,該樣品來自哺乳動物,較佳人。
另一方面,本申請提供了記載有DNA序列或其片段和/或其甲基化信息的介質,該DNA序列包括:
(i)以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1和SIM2,
或(ii)(i)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基。
在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該介質用於與基因甲基化測序數據比對以確定含該序列或其片段的核酸分子的存在、含量和/或甲基化水平。
在一個或多個實施方案中,該標誌物包含至少3個CpG二核苷酸。
在一個或多個實施方案中,該DNA序列包括DNA正義鏈或反義鏈。
在一個或多個實施方案中,該片段長度為1-1000bp,較佳1-700bp。在一個或多個實施方案中,該片段是基因序列的啟動子區域或其部分。在一個或多個實施方案中,該片段包含至少1個,較佳至少3個CpG二核苷酸。較佳地,該標誌物具有本申請所述的核酸分子SEQ ID NO:1-47中任一項所示的序列。
在一個或多個實施方案中,該介質是印有該DNA序列或其片段和/或其甲基化信息的載體,包括卡片,例如紙質、塑料、金屬、玻璃卡片。
在一個或多個實施方案中,該介質是存儲有該序列和/或其甲基化信息和計算機程序的計算機可讀介質,當該計算機程序被處理器執行時,實現下述步驟:將樣品的甲基化測序數據與該序列或信息比較,從而獲得該樣品中含 該序列的核酸分子的存在、含量和/或甲基化水平。含該序列的核酸分子的存在、含量和/或甲基化水平用於篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後。
另一方面,本申請還提供了以下(a)和視需要的(b)在製備用於篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後的試劑盒中的用途,
(a)用於確定對象的樣品中標誌物的甲基化水平的試劑或裝置,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,
(b)該標誌物或其經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
其中,該DNA序列包括以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1和SIM2。
在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該標誌物包含至少3個CpG二核苷酸。
在一個或多個實施方案中,該DNA序列包括DNA正義鏈或反義鏈。
在一個或多個實施方案中,該片段長度為1-1000bp,較佳1-700bp。在一個或多個實施方案中,該片段是基因序列的啟動子區域或其部分。在一個或多個實施方案中,該片段包含至少1個,較佳至少3個CpG二核苷酸。較佳地,該標誌物具有本申請所述的核酸分子SEQ ID NO:1-47中任一項所示的序列。
在一個或多個實施方案中,(b)該核酸分子是包含SEQ ID NO:1-47中任一項所示序列的核酸分子。
在一個或多個實施方案中,該試劑包含引子分子和/或探針分子。
在一個或多個實施方案中,該試劑包含與該標誌物或其經轉化的序列雜交的引子分子。該引子分子能擴增出該DNA序列或其片段或它們的經轉化的變體。在一個或多個實施方案中,該引子序列為甲基化特異的或非特異的。該引子分子至少9bp。
在一個或多個實施方案中,該試劑是與該標誌物或其經轉化的序列雜交的探針分子。在一個或多個實施方案中,該探針還含有可檢測物。在一個或多個實施方案中,該可檢測物是5’端螢光報告基團和3’端標記淬滅基團。在一個或多個實施方案中,該螢光報告基因選自Cy5、FAM和VIC。該探針分子至少12bp。
在一個或多個實施方案中,該試劑包含本文任一實施方案所述的介質。
在一個或多個實施方案中,該試劑盒是非侵入性診斷試劑盒。
在一個或多個實施方案中,該對象是哺乳動物,較佳人。
在一個或多個實施方案中,該樣品來自哺乳動物的組織、細胞或體液,例如腸組織樣本、血液、血清或血漿。該哺乳動物較佳為人。在一個或多個實施方案中,該樣品包括基因組DNA。較佳地,該樣品是血液。
在一個或多個實施方案中,該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基。該轉化使用酶促方法進行,較佳脫胺酶處理,或該轉化使用非酶促方法進行,較佳用亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其組合處理。
在一個或多個實施方案中,該試劑盒還包括PCR反應試劑。較佳地,該PCR反應試劑包括DNA聚合酶、PCR緩衝液、dNTP、Mg2+
在一個或多個實施方案中,該試劑盒還包括檢測DNA甲基化的其他試劑,該其他試劑是選自以下方法的一個或多個中所用的試劑:基於重亞硫酸鹽轉化的PCR(例如甲基化特異性PCR)、DNA測序(如亞硫酸氫鹽測序、 全基因組甲基化測序、簡化甲基化測序)、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析和質譜(例如飛行質譜)。較佳地,該其他試劑選自以下一種或多種:重亞硫酸鹽、亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其衍生物、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標和對照物。
在一個或多個實施方案中,PCR的反應液包含Taq DNA聚合酶、PCR緩衝液、dNTPs、KCl、MgCl2和(NH4)2SO4。較佳地,Taq DNA聚合酶為熱啟動Taq DNA聚合酶。較佳地,Mg2+終濃度為1.0-10.0mM。
在一個或多個實施方案中,該篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後包括:比較標記物的甲基化水平和相應的參考水平,並根據評分篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後。
在一個或多個實施方案中,該比較包括:直接比較標記物的甲基化水平和參考水平,或者藉由計算得出評分並比較標記物的甲基化水平的評分和相應的參考評分。較佳地,該計算藉由構建邏輯回歸模型進行。
另一方面,本申請還提供了一種用於篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後的方法,包括:
(1)檢測對象的樣品中標誌物的甲基化水平,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括以下基因序列中的一個或多個或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、 TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
(2)比較步驟(1)中標記物的甲基化水平和相應的參考水平,
(3)根據比較結果篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後。
在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該標誌物包含至少3個CpG二核苷酸。
在一個或多個實施方案中,該DNA序列包括DNA正義鏈或反義鏈。
在一個或多個實施方案中,該片段長度為1-1000bp,較佳1-700bp。在一個或多個實施方案中,該片段是基因的啟動子區域。在一個或多個 實施方案中,該片段包含至少1個,較佳至少3個CpG二核苷酸。較佳地,該標誌物具有本發明第一方面所述的核酸分子的序列。
在一個或多個實施方案中,該方法在步驟(1)之前還包含從對象獲取含有DNA的生物樣品的步驟,例如DNA抽提和/或質檢。
在一個或多個實施方案中,步驟(1)包括使用本申請所述的引子分子、探針分子和/或介質,和視需要的本申請所述的核酸分子,進行該檢測。
在一個或多個實施方案中,該檢測包括但不限於:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜。
在一個或多個實施方案中,該檢測是DNA測序。在一個或多個實施方案中,該DNA測序的測序深度至少10X,較佳20X,更佳30X。
在一個或多個實施方案中,該樣品來自哺乳動物的組織、細胞、體液,例如腸組織樣本、血液、血清或血漿。該哺乳動物較佳為人。較佳地,該樣品是血液。
在一個或多個實施方案中,該樣品包括基因組DNA。
在一個或多個實施方案中,該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使其中未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。該轉化使用酶促方法進行,較佳脫胺酶處理,或該轉化使用非酶促方法進行,較佳用亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其組合處理。
在一個或多個實施方案中,步驟(2)中的比較包括:直接比較步驟(1)中標記物的甲基化水平和參考水平,或者藉由計算得出評分並比較標 記物的甲基化水平的評分和相應的參考評分。較佳地,該評分藉由邏輯回歸模型進行計算。
在一個或多個實施方案中,步驟(3)包括:當標記物的甲基化水平大於參考水平,或者甲基化水平的評分大於參考評分,則該對象有形成結直腸癌的風險、患有結直腸癌或結直腸癌預後不良。
另一方面,本申請還提供了篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後的試劑盒,包含:
(a)用於確定對象的樣品中標誌物的甲基化水平的試劑或裝置,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,和
視需要的(b)該標誌物或其經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
其中,該DNA序列包括以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。
在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該標誌物包含至少3個CpG二核苷酸。
在一個或多個實施方案中,該DNA序列包括DNA正義鏈或反義鏈。
在一個或多個實施方案中,該片段長度為1-1000bp,較佳1-700bp。在一個或多個實施方案中,該片段是基因的啟動子區域。在一個或多個實施方案中,該片段包含至少1個,較佳至少3個CpG二核苷酸。較佳地,該標誌物包含本申請所述的核酸分子的序列。
在一個或多個實施方案中,該試劑盒適用於本申請任一實施方案所述的用途。
在一個或多個實施方案中,該核酸分子是本申請所述的核酸分子。
在一個或多個實施方案中,該試劑包含引子分子和/或探針分子。
在一個或多個實施方案中,該試劑包含與該DNA序列或其片段或它們的經轉化的序列雜交的引子分子。該引子分子能擴增出該DNA序列或其 片段或它們的經轉化的變體。在一個或多個實施方案中,該引子序列為甲基化特異的或非特異的。該引子分子至少9bp。
在一個或多個實施方案中,該試劑是與該DNA序列或其片段或它們的經轉化的序列雜交的探針分子。在一個或多個實施方案中,該探針還含有可檢測物。在一個或多個實施方案中,該可檢測物是5’端螢光報告基團和3’端標記淬滅基團。在一個或多個實施方案中,該螢光報告基因選自Cy5、FAM和VIC。該探針分子至少12bp。
在一個或多個實施方案中,該試劑包含本申請任一實施方案所述的介質。
在一個或多個實施方案中,該試劑盒是非侵入性診斷試劑盒。
在一個或多個實施方案中,該對象是哺乳動物,較佳人。
在一個或多個實施方案中,該樣品來自哺乳動物的組織、細胞或體液,例如腸組織樣本、血液、血清或血漿。該哺乳動物較佳為人。該樣品包括基因組DNA。較佳地,該樣品是血液。
在一個或多個實施方案中,該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基。該轉化使用酶促方法進行,較佳脫胺酶處理,或該轉化使用非酶促方法進行,較佳用亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其組合處理。
在一個或多個實施方案中,該試劑盒還包括PCR反應試劑。較佳地,該PCR反應試劑包括DNA聚合酶、PCR緩衝液、dNTP、Mg2+
在一個或多個實施方案中,該試劑盒還包括檢測DNA甲基化的試劑,該試劑是選自以下方法的一個或多個中所用的試劑:基於重亞硫酸鹽轉化的PCR(例如甲基化特異性PCR)、DNA測序(如亞硫酸氫鹽測序、全基因組甲基化測序、簡化甲基化測序)、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜(例如飛行質譜)。較佳地,該試劑選自以下一種或多種:重亞硫酸鹽及其衍生物、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標、對照物。
另一方面,本申請還提供了一種用於篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後的裝置,該裝置包括存儲器、處理器以及存儲在存儲器上並可在處理器上運行的計算機程序,其特徵在於,該處理器執行該程序時實現以下步驟:
(1)獲取對象的樣品中標誌物的甲基化水平,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括以下基因序列中的一個或多個或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
(2)比較步驟(1)中標記物的甲基化水平和相應的參考水平,
(3)根據比較結果篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後。
在一個或多個實施方案中,該DNA序列包括以下基因序列:
在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
在一個或多個實施方案中,該標誌物包含至少3個CpG二核苷酸。
在一個或多個實施方案中,該DNA序列包括DNA正義鏈或反義鏈。
在一個或多個實施方案中,該片段長度為1-1000bp,較佳1-700bp。在一個或多個實施方案中,該片段是基因的啟動子區域。在一個或多個實施方案中,該片段包含至少1個,較佳至少3個CpG二核苷酸。較佳地,該標誌物具有本申請所述的核酸分子的序列。
在一個或多個實施方案中,步驟(1)之前還包含獲取DNA的步驟,例如DNA抽提和/或質檢。
在一個或多個實施方案中,步驟(1)包括使用本申請所述的引子分子、探針分子和/或介質,和視需要的本申請所述的核酸分子,檢測樣品中該序列的甲基化水平。在一個或多個實施方案中,該檢測包括但不限於:基於重亞硫酸鹽轉化的PCR、DNA測序(如亞硫酸氫鹽測序、全基因組甲基化測序、簡化甲基化測序)、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜(例如飛行質譜)。在一個或多個實施方案中,該檢測是DNA測序。較佳地,該DNA測序的測序深度至少10X,較佳20X,更佳30X。
在一個或多個實施方案中,該樣品來自哺乳動物的組織、細胞或體液,例如腸組織樣本、血液、血清或血漿。該哺乳動物較佳為人。在一個或多個實施方案中,該樣品包括基因組DNA。較佳地,該樣品是血液。
在一個或多個實施方案中,該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。該轉化使用酶促方法進行,較佳脫胺酶處理,或該轉化使用非酶促方法進行,較佳用亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其組合處理。
在一個或多個實施方案中,步驟(2)中的比較包括:直接比較步驟(1)中標記物的甲基化水平和參考水平,或者藉由計算得出評分並比較標記物的甲基化水平的評分和相應的參考評分。較佳地,該評分藉由邏輯回歸模型進行計算。
在一個或多個實施方案中,步驟(3)包括:當標記物的甲基化水平大於參考水平,或者甲基化水平的評分大於參考評分,則該對象有形成結直腸癌的風險、患有結直腸癌或結直腸癌預後不良。
另一方面,本申請提供檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑在製備診斷胃癌的檢測試劑或診斷試劑盒中的應用,以及用於確定一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的裝置在製備診斷胃癌的診斷試劑盒中的應用;其中,該一個或多個目標標誌物選自以下序列(1)-(48)中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47條或全部48條序列:
(1)含chr6:166970625:166970825(SEQ ID NO:48)及其上游5kb以內和/或下游5kb以內的序列;
(2)含chr11:11600237:11600617(SEQ ID NO:49)及其上游5kb以內和/或下游5kb以內的序列;
(3)含chr17:76929754:76929954(SEQ ID NO:50)及其上游5kb以內和/或下游5kb以內的序列;
(4)含chr6:391738:391938(SEQ ID NO:51)及其上游5kb以內和/或下游5kb以內的序列;
(5)含chr12:2282090:2282290(SEQ ID NO:52)及其上游5kb以內和/或下游5kb以內的序列;
(6)含chr2:177030134:177030449(SEQ ID NO:53)及其上游5kb以內和/或下游5kb以內的序列;
(7)含chr7:35301095:35301411(SEQ ID NO:54)及其上游5kb以內和/或下游5kb以內的序列;
(8)含chr7:8482114:8482413(SEQ ID NO:55)及其上游5kb以內和/或下游5kb以內的序列;
(9)含chr2:72371208:72371433(SEQ ID NO:56)及其上游5kb以內和/或下游5kb以內的序列;
(10)含chr5:134364359:134364559(SEQ ID NO:57)及其上游5kb以內和/或下游5kb以內的序列;
(11)含chr10:118892523:118892723(SEQ ID NO:58)及其上游5kb以內和/或下游5kb以內的序列;
(12)含chr12:113901298:113901498(SEQ ID NO:59)及其上游5kb以內和/或下游5kb以內的序列;
(13)含chr8:143613755:143613955(SEQ ID NO:60)及其上游5kb以內和/或下游5kb以內的序列;
(14)含chr8:20375580:20375780(SEQ ID NO:61)及其上游5kb以內和/或下游5kb以內的序列;
(15)含chr7:107499318:107499518(SEQ ID NO:62)及其上游5kb以內和/或下游5kb以內的序列;
(16)含chr6:1378941:1379141(SEQ ID NO:63)及其上游5kb以內和/或下游5kb以內的序列;
(17)含chr15:34786976:34787337(SEQ ID NO:64)及其上游5kb以內和/或下游5kb以內的序列;
(18)含chr1:156405314:156405514(SEQ ID NO:65)及其上游5kb以內和/或下游5kb以內的序列;
(19)含chr8:10588811:10589173(SEQ ID NO:66)及其上游5kb以內和/或下游5kb以內的序列;
(20)含chr4:85418610:85418919(SEQ ID NO:67)及其上游5kb以內和/或下游5kb以內的序列;
(21)含chr5:140871317:140871517(SEQ ID NO:68)及其上游5kb以內和/或下游5kb以內的序列;
(22)含chr5:92906255:92906617(SEQ ID NO:69)及其上游5kb以內和/或下游5kb以內的序列;
(23)含chr14:57265398:57265598(SEQ ID NO:70)及其上游5kb以內和/或下游5kb以內的序列;
(24)含chr19:19650947:19651147(SEQ ID NO:71)及其上游5kb以內和/或下游5kb以內的序列;
(25)含chr11:20618486:20618686(SEQ ID NO:72)及其上游5kb以內和/或下游5kb以內的序列;
(26)含chr7:73407894:73408161(SEQ ID NO:73)及其上游5kb以內和/或下游5kb以內的序列;
(27)含chr16:82660460:82660774(SEQ ID NO:74)及其上游5kb以內和/或下游5kb以內的序列;
(28)含chr13:24844736:24844936(SEQ ID NO:75)及其上游5kb以內和/或下游5kb以內的序列;
(29)含chr20:55500358:55500677(SEQ ID NO:76)及其上游5kb以內和/或下游5kb以內的序列;
(30)含chr10:123923943:123924143(SEQ ID NO:77)及其上游5kb以內和/或下游5kb以內的序列;
(31)含chr20:59827678:59827907(SEQ ID NO:78)及其上游5kb以內和/或下游5kb以內的序列;
(32)含chr20:62330559:62330808(SEQ ID NO:79)及其上游5kb以內和/或下游5kb以內的序列;
(33)含chr19:13209774:13209974(SEQ ID NO:80)及其上游5kb以內和/或下游5kb以內的序列;
(34)含chr16:2085778:2086156(SEQ ID NO:81)及其上游5kb以內和/或下游5kb以內的序列;
(35)含chr6:108488634:108488917(SEQ ID NO:82)及其上游5kb以內和/或下游5kb以內的序列;
(36)含chr12:115124911:115125191(SEQ ID NO:83)及其上游5kb以內和/或下游5kb以內的序列;
(37)含chr10:124896740:124897020(SEQ ID NO:84)及其上游5kb以內和/或下游5kb以內的序列;
(38)含chr14:55243006:55243206(SEQ ID NO:85)及其上游5kb以內和/或下游5kb以內的序列;
(39)含chr13:36729096:36729334(SEQ ID NO:86)及其上游5kb以內和/或下游5kb以內的序列;
(40)含chr2:10444997:10445197(SEQ ID NO:87)及其上游5kb以內和/或下游5kb以內的序列;
(41)含chr9:2157701:2157901(SEQ ID NO:88)及其上游5kb以內和/或下游5kb以內的序列;
(42)含chr12:57529619:57529819(SEQ ID NO:89)及其上游5kb以內和/或下游5kb以內的序列;
(43)含chr1:119527250:119527450(SEQ ID NO:90)及其上游5kb以內和/或下游5kb以內的序列;
(44)含chr1:119532788:119532988(SEQ ID NO:91)及其上游5kb以內和/或下游5kb以內的序列;
(45)含chr15:96909441:96909641(SEQ ID NO:92)及其上游5kb以內和/或下游5kb以內的序列;
(46)含chr1:146551463:146551747(SEQ ID NO:93)及其上游5kb以內和/或下游5kb以內的序列;
(47)含chr17:35293755:35293955(SEQ ID NO:94)或其上下游各5kb以內的序列;和
(48)含chr17:59482763:59482963(SEQ ID NO:95)或其上下游各5kb以內的序列。
在一個或多個實施方案中,該一個或多個胃癌目標標誌物包括該第(3)、(8)、(13)、(15)、(17)、(19)、(22)、(25)、(29)、 (31)、(37)、(38)、(40)、(41)、(42)、(43)、(45)、(47)和(48)項所述的序列。
在一個或多個實施方案中,該一個或多個胃癌目標標誌物包括該第(2)、(6)、(7)、(8)、(12)、(15)、(19)、(25)、(28)、(32)、(33)、(36)、(37)、(40)、(42)、(43)、(44)、(46)和(48)項所述的序列。
在一個或多個實施方案中,該一個或多個胃癌目標標誌物包括該第(3)、(13)、(14)、(20)、(22)、(28)、(30)和(36)項所述的序列;或
在一個或多個實施方案中,該一個或多個胃癌目標標誌物包括該第(3)、(13)、(27)、(30)和(35)項所述的序列。
在一個或多個實施方案中,該一個或多個胃癌目標標誌物包括該第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)項所述的序列。
在一個或多個實施方案中,該一個或多個胃癌目標標誌物選自該第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)項中任意1、2、3、4、5、6、7、8或9項所述的序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(40)項所述序列,以及第(1)-(39)和(41)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(47)項所述序列,以及第(1)-(46)和(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(43)項所述序列,以及第(1)-(42)和(44)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(26)項所述序列,以及第(1)-(25)和(27)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(35)項所述序列,以及第(1)-(34)和(36)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(14)項所述序列,以及第(1)-(13)和(15)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(38)項所述序列,以及第(1)-(37)和(39)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(22)項所述序列,以及第(1)-(21)和(23)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(7)項所述序列,以及第(1)-(6)和(8)-(48)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括第(48)項所述序列,以及第(1)-(47)中的任意一條或多條序列。
在一個或多個實施方案中,該胃癌目標標誌物包括該SEQ ID NO:48-95中任一項序列各起始位點的上游1kb以內、較佳500bp以內、更佳300bp以內、更佳100bp以內的序列和/或各末端位點的下游1kb以內、較佳500bp以內、較佳300bp以內、較佳100bp以內的序列;較佳地,該目標標誌物是含有該SEQ ID NO:48-95任一序列且長度為400bp以內的基因序列。
在一個或多個實施方案中,該第(1)到第(48)項所述的序列分別是SEQ ID NO:48-95所示的序列。
另一方面,本申請提供檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑在製備診斷食管癌的檢測試劑或診斷試劑盒中的應用,以及用於確定一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的裝置在製備診斷食管癌的診斷試劑盒中的應用;其中,該一個或多個食管癌目標標誌物選自SEQ ID NO:96-138中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42或全部43條序列,以及其上游5kb以內和/或下游5kb以內的序列。在一個或多個實施方案中,該目標標誌物包括該SEQ ID NO:96-138中任一項序列各起始位點的上游1kb以內、較佳500bp以內、更佳300bp以內、更佳100bp以內的序列和/或各末端位點的下游1kb以內、較佳500bp以內、較佳300bp以內、較佳100bp以內的序列;較佳地,該目標標誌物是含有該SEQ ID NO:96-138任一序列且長度為400bp以內的基因序列。
另一方面,本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自下表1的染色體範圍編號1至43的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量:
表1
Figure 112135115-A0202-12-0028-1
Figure 112135115-A0202-12-0029-2
另一方面,本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:96至138中任一項所示上游或下游 5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
另一方面,本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:105上游或下游5k bp以內的區域以及下表2基因編號為1至76的基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。
表2
Figure 112135115-A0202-12-0031-3
另一方面,本申請提供了一種核酸,該核酸包含能夠結合選自本申請上表1的染色體範圍編號1至43的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
另一方面,本申請提供了一種核酸,該核酸包含能夠結合選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
另一方面,本申請提供了一種核酸,該核酸包含能夠結合選自SEQ ID NO:105上游或下游5k bp以內的區域以及本申請上表2的基因編號為1至76的基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。
另一方面,本申請提供了一種試劑盒,包含本申請所述的核酸。
另一方面,本申請提供了一種製備核酸的方法,包含根據選自本申請上述的染色體範圍編號1至43的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
另一方面,本申請提供了一種製備核酸的方法,包含根據選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
另一方面,本申請提供了一種製備核酸的方法,包含根據選自SEQ ID NO:105上游或下游5k bp以內的區域以及本申請上表2的基因編號為1至76的基因所在的DNA區域、或其片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
另一方面,本申請提供了用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估食管癌的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自本申請上表1的染色體範圍編號1至43的 DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
另一方面,本申請提供了用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估食管癌的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
另一方面,本申請提供了用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估食管癌的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自SEQ ID NO:105上游或下游5k bp以內的區域以及本申請上表2的基因編號為1至76的基因所在的DNA區域、或其片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
另一方面,本申請提供檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑在製備診斷肝癌的檢測試劑或診斷試劑盒中的應用,以及用於確定一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的裝置在製備診斷肝癌的診斷試劑盒中的應用;其中,該一個或多個肝癌目標標誌物選自SEQ ID NO:139-340中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、 61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201或全部202條序列,以及其上游5kb以內和/或下游5kb以內的序列。在一個或多個實施方案中,該目標標誌物包括該SEQ ID NO:139-340中任一項序列各起始位點的上游1kb以內、較佳500bp以內、更佳300bp以內、更佳100bp以內的序列和/或各末端位點的下游1kb以內、較佳500bp以內、較佳300bp以內、較佳100bp以內的序列;較佳地,該目標標誌物是含有該SEQ ID NO:139-340任一序列且長度為400bp以內的基因序列。
另一方面,本申請提供了一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自下表3染色體範圍編號44至245上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
表3
Figure 112135115-A0202-12-0034-4
Figure 112135115-A0202-12-0035-5
Figure 112135115-A0202-12-0036-6
Figure 112135115-A0202-12-0037-7
Figure 112135115-A0202-12-0038-8
Figure 112135115-A0202-12-0039-9
本申請提供了一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
本申請提供了一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自表4基因編號為77至354的基因所在上游或下游5k bp以內的DNA區域、或其片段的修飾狀態的存在和/或含量。
表4
Figure 112135115-A0202-12-0039-10
Figure 112135115-A0202-12-0040-11
Figure 112135115-A0202-12-0041-12
Figure 112135115-A0202-12-0042-13
本申請提供了一種核酸,該核酸包含能夠結合選自上表3的染色體範圍編號44至245上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
本申請提供了一種核酸,該核酸包含能夠結合選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
本申請提供了一種核酸,該核酸包含能夠結合選自上表4基因編號為77至354的基因所在上游或下游5k bp以內的DNA區域、或其片段的修飾狀態的存在和/或含量。
本申請提供了一種試劑盒,包含本申請所述的核酸。
本申請提供了一種製備核酸的方法,包含根據選自上表3的染色體範圍編號44至245上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
本申請提供了一種製備核酸的方法,包含根據選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
本申請提供了一種製備核酸的方法,包含根據選自上表4基因編號為77至354的基因所在上游或下游5k bp以內的DNA區域、或其片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
本申請提供了用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估肝癌的存在和/或進展的物質中的應用,該用於確定上游或下游5k bp以內的DNA區域包含選自上表3的染色體範圍編號44至245上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
本申請提供了用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估肝癌的存在和/或進展的物質中的應用,該用於確定上游或下游5k bp以內的DNA區域包含選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
本申請提供了用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估肝癌的存在和/或進展的物質中的應用,該用於確定上游或下游5k bp以內的DNA區域包含選自本申請基因編號為77至354的基因所在上游或下游5k bp以內的DNA區域、或其片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
在一個或多個實施方案中,該試劑包括引子和/或探針分子;較佳地,該引子分子相同於、互補於或在嚴謹條件下雜交於該一個或多個目標標誌物並包含至少9個連續的核苷酸,該探針分子與該一個或多個目標標誌物的擴增產物在嚴謹條件下雜交。
在一個或多個實施方案中,該試劑為實施基因組簡化甲基化測序技術所需的試劑。
另一方面,本申請還提供用於檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或甲基化水平以診斷癌症的診斷試劑或診斷試劑盒,其包含用於檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑;其中,該一個或多個目標標誌物如上述所述。
在一個或多個實施方案中,該診斷試劑或診斷試劑盒包括引子和/或探針分子;較佳地,該引子分子相同於、互補於或在嚴謹條件下雜交於該一個或多個目標標誌物並包含至少9個連續的核苷酸,該探針分子與該一個或多個目標標誌物的擴增產物在嚴謹條件下雜交。
在一個或多個實施方案中,該診斷試劑或診斷試劑盒還包括檢測內參基因ACTB的引子分子和/或探針分子。
在一個或多個實施方案中,該診斷試劑或診斷試劑盒還包括選自以下的一種或多種物質:PCR緩衝液、聚合酶、dNTP、限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標、對照物、KCl、MgCl2和(NH4)2SO4
在一個或多個實施方案中,該試劑還包括下述一個或多個方法中所用的試劑:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析和質譜。
在一個或多個實施方案中,該試劑選自以下一種或多種:重亞硫酸鹽及其衍生物、螢光染料、螢光淬滅劑、螢光報告劑、內標和對照物。
另一方面,本申請還提供區分基因組DNA至少一個靶區域內甲基化和未甲基化CpG二核苷酸的至少一種試劑或成組試劑在製備用於檢測和/或分類個體中癌症的方法的試劑盒中的用途,其中該方法包括使從該個體生物樣品中分離的基因組DNA與該至少一種試劑或成組試劑接觸,其中該靶區域相同於、等同於或互補於一個或多個目標標誌物的至少16個連續核苷酸的序列,其 中該連續核苷酸包含至少一個CpG二核苷酸序列,由此至少部分地提供對癌症的檢測和/或分類,其中,該一個或多個目標標誌物如上述所述。
另一方面,本申請還提供將5位未甲基化的胞嘧啶鹼基轉化為尿嘧啶或在雜交性能方面可檢測地不同於胞嘧啶的其它鹼基的一種或多種試劑、擴增酶以及至少一種包含至少9個連續核苷酸的引子在製備用於檢測和/或分類個體中胃癌的方法的試劑盒中的用途,其中該方法包括:
a)從該個體生物樣品分離基因組DNA;
b)用該一種或多種試劑處理a)的該基因組DNA或其片段;
c)使該經處理的基因組DNA或其經處理的片段與該擴增酶和該至少一種引子接觸,該引子相同於、互補於或在嚴謹條件下雜交於一個或多個目標標誌物,其中該經處理的基因組DNA或其片段被擴增以產生至少一種擴增產物或不被擴增;以及
d)基於該擴增物是否存在或其性質,確定該一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平,或者反映該一個或多個目標標誌物的多個CpG二核苷酸平均甲基化狀態或水平的均值或值,由此至少部分地檢測和/或分類個體中的癌症;
其中,該一個或多個目標標誌物如上述所述。
在一個或多個實施方案中,其中步驟b)中,使用選自亞硫酸氫鹽、酸式亞硫酸鹽、焦亞硫酸鹽及其組合的試劑處理該基因組DNA或其片段。
在一個或多個實施方案中,其中c)中,藉由使用耐熱DNA聚合酶作為該擴增酶、使用缺乏5’-3’外切酶活性的聚合酶、使用聚合酶鏈式反應和/或產生帶有可檢測標記的擴增產物進行核酸分子的接觸或擴增。
在一個或多個實施方案中,其中c)中的接觸或擴增包括使用甲基化特異的引子。
另一方面,本申請還提供一種或多種甲基化敏感限制酶和擴增酶以及至少一種包含至少9個連續核苷酸的引子在製備用於檢測和/或分類個體中癌症的方法的試劑盒中的用途,其中,該引子相同於、互補於或在嚴謹條件下雜交於一個或多個目標標誌物;該方法包括:
a)從該個體生物樣品分離基因組DNA;
b)以該一種或多種甲基化敏感限制酶消化a)該基因組DNA或其片段,使所得消化產物與該擴增酶和該至少一種引子接觸;和
c)基於該擴增物是否存在或其性質,確定該一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平,由此至少部分地檢測和/或分類個體中的癌症;
其中,該一個或多個目標標誌物如上述所述。
在一個或多個實施方案中,藉由雜交至少一種核酸或肽核酸來確定擴增產物的存在與否,該至少一種核酸或肽核酸等同於或互補於選自該一個或多個目標標誌物的序列的至少16鹼基長片段。
另一方面,本申請還提供一種在個體中檢測和/或分類個體中癌症的方法,該方法包括如下步驟:
a)從該個體生物樣品分離基因組DNA;
b)b1)用一種或多種試劑處理a)的該基因組DNA或其片段,該一種或多種試劑能將5位未甲基化的胞嘧啶鹼基轉化為尿嘧啶或在雜交性能方面可檢測 地不同於胞嘧啶的其它鹼基;或b2)以一種或多種甲基化敏感限制酶消化a)該基因組DNA或其片段,
c)使b)所得處理產物或消化產物與擴增酶和至少一種包含至少9個連續核苷酸的引子接觸,該引子相同於、互補於或在嚴謹條件下雜交於一個或多個目標標誌物,其中該處理產物或消化產物被擴增以產生至少一種擴增產物或不被擴增;和
d)基於該擴增物是否存在或其性質,確定該一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平,或者反映該一個或多個目標標誌物的多個CpG二核苷酸平均甲基化狀態或水平的均值或值,由此至少部分地檢測和/或分類個體中的癌症;
其中,該一個或多個目標標誌物如上述所述。
在一個或多個實施方案中,其中步驟b1)中,使用選自亞硫酸氫鹽、酸式亞硫酸鹽、焦亞硫酸鹽及其組合的試劑處理該基因組DNA或其片段。
在一個或多個實施方案中,其中c)中,藉由使用耐熱DNA聚合酶作為該擴增酶、使用缺乏5’-3’外切酶活性的聚合酶、使用聚合酶鏈式反應和/或產生帶有可檢測標記的擴增產物來進行核酸分子的接觸或擴增。
在一個或多個實施方案中,其中c)中的接觸或擴增包括使用甲基化特異的引子。
在一個或多個實施方案中,藉由雜交至少一種核酸或肽核酸來確定擴增產物的存在與否,該至少一種核酸或肽核酸相同於、等同於或互補於選自該一個或多個目標標誌物的序列的至少16鹼基長片段。
另一方面,本申請還提供衍生自一個或多個目標標誌物的經處理的核酸在製備用於診斷癌症的試劑盒中的用途,其中該處理適合於將該一個或多個目標標誌物的至少一個未甲基化的胞嘧啶鹼基轉化至尿嘧啶或在雜交上可檢測地不同於胞嘧啶的其它鹼基,該一個或多個目標標誌物如上述所述。
另一方面,本申請還提供用於檢測並診斷個體癌症的裝置,該裝置包括存儲器、處理器以及存儲在存儲器上並可在處理器上運行的計算機程序,該處理器執行該程序時實現以下步驟:(1)獲取樣品中一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化水平或甲基化狀態,和(2)根據(1)的甲基化水平或甲基化狀態判讀癌症;其中,該一個或多個目標標誌物如上述所述。
另一方面,本申請提供了一種儲存介質,其記載可以運行本申請所述的方法的程序。
另一方面,本申請提供了一種設備,其包含本申請所述的儲存介質,以及視需要地還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介質中的程序執行以實現本申請所述的方法。
所屬技術領域中具有通常知識者能夠從下文的詳細描述中容易地洞察到本申請的其它方面和優勢。下文的詳細描述中僅顯示和描述了本申請的示例性實施方式。如所屬技術領域中具有通常知識者將認識到的,本申請的內容使得所屬技術領域中具有通常知識者能夠對所揭露的具體實施方式進行改動而不脫離本申請所涉及發明的精神和範圍。相應地,本申請的圖式和說明書中的描述僅僅是示例性的,而非為限制性的。
本申請所涉及的發明的具體特徵如所附申請專利範圍所顯示。藉由參考下文中詳細描述的示例性實施方式和圖式能夠更好地理解本申請所涉及發明的特點和優勢。對圖式簡要說明書如下:
圖1顯示的是篩選結直腸癌甲基化標誌物流程。
圖2顯示的是訓練集結直腸癌和非結直腸癌樣品甲基化水平分佈。
圖3顯示的是測試集結直腸癌和非結直腸癌樣品甲基化水平分佈。
圖4顯示的是結直腸癌ALLMODEL預測分值分佈圖。
圖5顯示的是結直腸癌ALLMODEL ROC曲線圖。
圖6顯示的是結直腸癌SUBMODEL1預測分值分佈圖。
圖7顯示的是結直腸癌SUBMODEL1 ROC曲線圖。
圖8顯示的是結直腸癌SUBMODEL2預測分值分佈圖。
圖9顯示的是結直腸癌SUBMODEL2 ROC曲線圖。
圖10顯示的是結直腸癌SUBMODEL3預測分值分佈圖。
圖11顯示的是結直腸癌SUBMODEL3 ROC曲線圖。
圖12顯示的是胃癌單個甲基化標誌物性能判別流程圖。
圖13顯示的是胃癌所有目標標誌物構建的模型在訓練集和測試集樣本中的模型預測分值分佈圖。
圖14顯示的是胃癌所有目標標誌物構建的模型在訓練集和測試集樣本中診斷胃癌的ROC曲線圖。
圖15顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中的模型預測分值分佈圖。
圖16顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中診斷胃癌的ROC曲線。
圖17顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中的模型預測分值分佈圖。
圖18顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中診斷胃癌的ROC曲線。
圖19顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中的模型預測分值分佈圖。
圖20顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中診斷胃癌的ROC曲線。
圖21顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中的模型預測分值分佈圖。
圖22顯示的是胃癌標誌物構建的模型在訓練集和測試集樣本中診斷胃癌的ROC曲線。
圖23顯示的是預測模型診斷食管癌的ROC曲線。
圖24顯示的是食管癌預測模型在各組的預測得分分佈。
圖25顯示的是16個食管癌甲基化標誌物組合的預測模型診斷食管癌的ROC曲線。
圖26顯示的是16個食管癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖27顯示的是16個食管癌甲基化標誌物組合的預測模型診斷食管癌的ROC曲線。
圖28顯示的是16個食管癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖29顯示的是預測模型診斷食管癌的ROC曲線。
圖30顯示的是食管癌預測模型在各組的預測得分分佈。
圖31顯示的是7個食管癌甲基化標誌物組合的預測模型診斷食管癌的ROC曲線。
圖32顯示的是7個食管癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖33顯示的是7個食管癌甲基化標誌物組合的預測模型診斷食管癌的ROC曲線。
圖34顯示的是7個食管癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖35顯示的是預測模型診斷食管癌的ROC曲線。
圖36顯示的是食管癌預測模型在各組的預測得分分佈。
圖37顯示的是17個食管癌甲基化標誌物組合的預測模型診斷食管癌的ROC曲線。
圖38顯示的是17個食管癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖39顯示的是15個食管癌甲基化標誌物組合的預測模型診斷食管癌的ROC曲線。
圖40顯示的是15個食管癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖41顯示的是預測模型診斷肝癌的ROC曲線。
圖42顯示的是肝癌預測模型在各組的預測得分分佈。
圖43顯示的是25個肝癌甲基化標誌物組合的預測模型診斷肝癌的ROC曲線。
圖44顯示的是25個肝癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
圖45顯示的是52個肝癌甲基化標誌物組合的預測模型診斷肝癌的ROC曲線。
圖46顯示的是52個肝癌甲基化標誌物組合的預測模型在各組的預測得分分佈。
以下由特定的具體實施例說明本申請發明的實施方式,熟悉此技術的人士可由本說明書所揭露的內容容易地瞭解本申請發明的其他優點及效果。
術語定義
需注意的是,在本申請的說明書和申請專利範圍中,單數形式的“一個”、“一種”和“該”均包括其複數形式,除非上下文另有說明。因此,例如,“一種試劑”包括多種試劑。
在本申請的說明書和申請專利範圍,除非另有說明,否則術語“包含”、“包括”或“含有”是指含有所列出的數值、步驟或成分,但也不排除還含有其他數值、步驟或成分。
如本申請所用,術語“甲基化標誌物”是指這樣的目的核酸或基因區域、甲基化位點:其甲基化水平或基於甲基化水平的計算模型的得分指示癌症狀態。如本文所用,術語“目標標誌物”是指這樣的目的核酸或基因區域:其甲基化水平指示著對象是否患有癌症。術語“甲基化標誌物”或“目標標誌物”應被認為包括其所有轉錄變體及其所有啟動子和調控元件。如所屬技術領域中具有通常知識者所理解的,已知某些基因在個體之間表現出等位基因變異或單核苷酸多態性(“SNP”)。SNP包括不同長度的簡單的重複序列(例如二核苷酸和三核苷酸重複)的插入和缺失。因此,本申請應被理解為擴展到由任何其他突變、多態性或等位基因變異產生的標誌物/基因的所有形式。另外,應當理解,術語“甲基化標誌物”應既包括標誌物或基因的正義鏈序列,也包括標誌物或基因的反義鏈序列。
本申請所用的術語“甲基化標誌物”或“目標標誌物”被寬泛地解釋為既包括1)在生物樣品或基因組DNA中發現的原始標誌物(處於特定的甲基化),也包括2)其經過處理的序列(例如亞硫酸氫鹽轉化後的對應區域或甲基化敏感的限制性內切酶MSRE處理後的對應區域)。亞硫酸氫鹽轉化後的對應區域與基因組序列中的目標標誌物不同之處在於,一個或多個未甲基化的胞嘧啶殘基被轉化為尿嘧啶鹼基、胸腺嘧啶鹼基或在雜交行為上與胞嘧啶不同的其他鹼基。經MSRE處理的對應區域與基因組序列中的目標標誌物不同之處在於,該序列在一個或多個MSRE切割位點處被切割。本申請的甲基化標誌物或目標標誌物還包括非酶促法轉化(如亞硫酸氫鹽轉化後的對應區域),以及酶促法轉化(如MSRE轉化)後獲得的對應區域。
在一些實施方式中,本申請的目標標誌物也包括上述各基因的各類變體。變體包括來自相同區域的、與本文所述的基因或區域具有至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的序列同一性(即,具有一個或多個缺失、插入、取代、反向序列等)的核酸序列。因此,本申請內容應理解為延伸至實現相同結果的此類變體,儘管事實上個體間的實際核酸序列具有微小的遺傳變異。
如本文所用,術語“序列同一性的百分比(%)”是指候選序列的胺基酸(或核酸)殘基和參考序列的胺基酸(或核酸)殘基進行序列比對後的相同百分比,比對時可以引入間隔(如有必要)以使得相同的胺基酸(或核酸)數目達到最多。換言之,胺基酸序列(或核酸序列)的序列同一性百分比(%)可以藉由用與參考序列相同的胺基酸殘基(或鹼基)的數目除以候選序列或參考序列中胺基酸殘基(或鹼基)的總數(以較短者為准)來計算。胺基酸殘基的保守取代可以被認為或可以不被認為是相同的殘基。可以藉由以下方式來確定胺基酸(或核酸)序列同一性的百分比,例如,可以使用公開的工具如BLASTN、BLASTp(可在美國國家生物技術信息中心(NCBI)的網站上獲得,也可參見Altschul S.F.et al.,J.Mol.Biol.,215:403-410(1990);Stephen F.et al.,Nucleic Acids Res.,25:3389-3402(1997))、ClustalW2(可在歐洲生物信息研究所的網站上找到),也可參見Higgins D.G.et al.,Methods in Enzymology,266:383-402(1996);Larkin M.A.et al.,Bioinformatics(Oxford,England),23(21):2947-8(2007))和ALIGN或Megalign(DNASTAR)軟體。所屬技術領域中具有通常知識者可以使用該工具提供的默認參數,或者可以(例如,藉由選擇合適的算法)定製適合比對的參數。
本申請的甲基化標誌物或目標標誌物也包括上述基因的起始位點上游5kb和末端位點下游5kb經非酶促法轉化(如亞硫酸氫鹽轉化)後的對應區域或經酶促方法處理(如甲基化敏感限制酶處理)後的對應區域。
本申請所述“甲基化水平”指所涉CpG位點的甲基化水平或所涉序列中多個或所有CpG位點的平均甲基化水平。本發明的示例性實施方案中,位點的甲基化水平通常是指該位點甲基化C的百分比,如果該CpG位點所有C都是未甲基化的,其甲基化水平就為零。甲基化水平還可以是其他類型的計算結果,這在所屬技術領域中具有通常知識者的知識範圍內。此外,序列的甲基化水平上升或下降並不表示區域中所有CpG位點的甲基化水平都上升或下降。本領域知曉將檢測DNA甲基化的方法(例如簡化甲基化測序)所得結果轉化為甲基化水平的過程。例如,根據每個基因啟動子區檢測到的CpG位點的甲基化水平,計算平均甲基化,將其作為該基因啟動子區DNA甲基化水平。在一些實施方案中,藉由MethylTitan(CN201910515830,鶤遠)甲基化測序方法獲得甲基化水平。甲基化水平可經標準化。
本申請所述“甲基化信息”包括與序列中可能被甲基化的胞嘧啶相關的特徵信息。該可能被甲基化的胞嘧啶通常是CpG中的C。此類特徵包括但不限於:序列內的任何胞嘧啶(C)殘基是否為甲基化的,一個或多個甲基化位點(如CpG二核苷酸)的位置和/或其甲基化水平,核酸的任何特定區域的甲基化水平、甲基化C的頻率或百分比、甲基化C或未甲基化C的相對濃度、絕對濃度或模式、甲基化單倍型比值(MHL)、平均甲基化水平(AMF),以及由於例如等位基因起點的差異而導致的甲基化等位基因差異。例如,如果核酸序列內的一個或多個胞嘧啶(C)殘基是甲基化的,則其可稱為“超甲基化”或具有 “增加的甲基化”,而如果DNA序列內的一個或多個胞嘧啶(C)殘基是未甲基化的,則其可稱為“去甲基化”或具有“減少的甲基化”。
可對所測基因的甲基化水平進行數學分析,獲得評分。術語“甲基化評分”表示使用數學方法(例如數學模型)對甲基化水平進行計算獲得的數值。對於檢測的樣品而言,當評分大於閾值,則判定結果為陽性,即為癌症或具有患癌症風險或癌症預後不良,否則為陰性。本領域知曉常規數學分析的方法以及確定閾值的過程,示例性的方法是數學模型,包括但不限於回歸模型、支持向量機、隨機森林等。例如,對於差異甲基化標誌物,對訓練組樣本構建支持向量機(SVM),利用模型統計檢測結果的準確率,敏感性和特異性以及預測值特徵曲線(ROC)下面積(AUC),統計測試集樣本預測得分。又如,對於差異甲基化標誌物的甲基化水平構建邏輯回歸(Logistic Regression),利用模型統計檢測結果的準確率,敏感性和特異性以及預測值特徵曲線(ROC)下面積(AUC),統計測試集樣本預測得分。
本申請所用的術語“對象”或“個體”包括人類和非人類的動物。非人類動物包括所有脊椎動物,例如哺乳動物和非哺乳動物。在一些實施方式中,對象是人類。
本申請中,術語“基因”包括所涉基因的在基因組上的編碼序列和非編碼序列。其中非編碼序列包括內含子、啟動子和調節元件或序列等。
本發明中的分子診斷,除了癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)的早期診斷,還包括癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)晚期診斷,且也包括癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)篩 選、風險評估、預後、疾病識別。早期診斷指的是在發生和/或轉移之前發現癌症的可能性,較佳在可觀察到組織或者細胞的形態學變化之前。
本申請術語“變體”或“突變體”是指與參照序列相比,藉由一個或多個核苷酸的插入、缺失或取代使核酸序列發生變化同時保留其與其他核酸雜交能力的多核苷酸。本申請任一實施方案所述的突變體包括與參照序列具有至少70%,較佳至少80%,較佳至少85%,較佳至少90%,較佳至少95%,較佳至少97%的序列相同性並保留參照序列的生物學活性的核苷酸序列。可採用例如NCBI的BLASTn計算兩條比對的序列之間的序列相同性。突變體還包括在參照序列的和核苷酸序列中具有一個或多個突變(插入、缺失或取代)、同時仍保留參照序列生物學活性的核苷酸序列。該多個突變通常指1-10個以內,例如1-8個、1-5個或1-3個。取代可以是嘌呤核苷酸與嘧啶核苷酸之間的取代,也可以是嘌呤核苷酸之間或嘧啶核苷酸之間的取代。取代較佳是保守性取代。例如,在本領域中,用性能相近或相似的核苷酸進行保守性取代時,通常不會改變多核苷酸的穩定性和功能。保守性取代例如嘌呤核苷酸之間的(A與G)的互換,嘧啶核苷酸之間的(T或U與C)的互換。因此,在本發明多核苷酸中用來自同一殘基替換一個或幾個位點,將不會在實質上影響其活性。此外,本發明的變體中的甲基化位點(例如連續的CG)未發生突變。即本發明方法檢測的是相應序列中的可甲基化位點的甲基化情況,對於非可甲基化位點的鹼基可以發生突變。通常,甲基化位點是連續的CpG二核苷酸。
如本申請所述,DNA或RNA的鹼基可發生轉化。本申請所述“轉化”、“胞嘧啶轉化”或“CT轉化”是利用非酶促或酶促方法處理DNA,將未修飾的胞嘧啶鹼基(cytosine,C)轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基(例如 尿嘧啶鹼基(uracil,U))的過程。本領域周知進行胞嘧啶轉化的非酶促或酶促方法。示例性地,非酶促方法包括使用轉化試劑例如亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽處理,例如亞硫酸氫鈣、亞硫酸氫鈉、亞硫酸氫鉀、亞硫酸氫銨、亞硫酸氫鎂、亞硫酸氫鋁、亞硫酸氫根離子、重硫酸鈉、重硫酸鉀和重硫酸銨,及其任意組合。示例性地,酶促方法包括脫胺酶處理。經轉化的DNA視需要經純化。適用於本申請的DNA純化方法本領域周知。
本發明中的“診斷”,除了結直腸癌的早期診斷,還包括結直腸癌晚期診斷,且也包括結直腸癌篩選、風險評估、預後、疾病識別。早期診斷指的是在轉移之前發現癌症的可能性,較佳在可觀察到組織或者細胞的形態學變化之前。
發明詳述
I 標誌物
a)結直腸癌甲基化標誌物
發明人經過研究,從大量基因中篩選出47個基因,發現這些基因(例如啟動子區域)的甲基化水平與結直腸癌的性質有關:TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。本發明提供了對樣品(特別是血液)的上述基因進行甲基化檢 測,基於其甲基化水平利用數學模型分辨結直腸癌,實現結直腸癌非侵入性精准診斷的目的。
因此,本申請中,結直腸癌的甲基化標誌物包括DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括上述基因序列中的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46或47種,例如至少6個、至少7個、至少8個或至少9個。在一個或多個實施方案中,該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的1、2、3、4、5、6、7或8種,視需要還包括(p)中的其他基因序列中的一種或多種或全部。在一個或多個實施方案中,該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的1、2、3、4、5或6種,視需要還包括(p)中的其他基因序列中的一種或多種或全部。在一個或多個實施方案中,該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的1、2、3、4、5、6或7種,視需要還包括(p)中的其他基因序列中的一種或多種或全部。本發明提供這些標誌物及其檢測試劑在篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後中的用途和方法。本申請中所使用的術語“結直腸癌”具有本領域通常的含義,包括存在於結腸、直腸和/或闌尾的腫瘤。
在一個或多個實施方案中,結直腸癌的性質與上述基因的片段的甲基化有關。這樣的片段可以來自一種或多種該基因序列。該片段的長度為1bp-1kb,較佳1bp-700bp;該片段包含相應基因的染色體區域中的一個或多個甲基 化位點。該片段例如是上述基因的啟動子區域。通常,轉錄起始位點(Transcription Start Sites,TSS)上游1k bp、下游200bp的DNA序列界定為啟動子區。如果一個基因有多個轉錄本(即有多個啟動子區),則可選擇其中任意啟動子區。在一些實施方案中,檢測的片段含有至少3個CpG二核苷酸。因此,進一步地,結直腸癌的性質與表5所示的各基因的SEQ ID NO:1-47所示的片段的甲基化水平相關。
本申請所述“結直腸癌相關序列”包括上述47個基因中任意、其上游或下游20kb以內(較佳5kb以內)的序列、或它們的片段、或上述47個序列(SEQ ID NO:1-47)或其互補序列的任意組合。在公共數據庫(例如NCBI網站)中可以獲得上述基因在Hg19基因組中的序列,以及各基因上游或下游20kb的序列。
上述基因在人染色體中的位置如下表5所示,其中鹼基編號對應於參考基因組HG19:
表5甲基化標誌物基因及位置
Figure 112135115-A0202-12-0061-14
Figure 112135115-A0202-12-0062-15
b)胃癌甲基化標誌物
本申請所述的胃癌甲基化標誌物選自下組基因序列(Hg19坐標)中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47個或全部48個:
含chr6:166970625:166970825(SEQ ID NO:48)及其上游5kb以內和/或下游5kb以內的序列;
含chr11:11600237:11600617(SEQ ID NO:49)及其上游5kb以內和/或下游5kb以內的序列;
含chr17:76929754:76929954(SEQ ID NO:50)及其上游5kb以內和/或下游5kb以內的序列;
含chr6:391738:391938(SEQ ID NO:51)及其上游5kb以內和/或下游5kb以內的序列;
含chr12:2282090:2282290(SEQ ID NO:52)及其上游5kb以內和/或下游5kb以內的序列;
含chr2:177030134:177030449(SEQ ID NO:53)及其上游5kb以內和/或下游5kb以內的序列;
含chr7:35301095:35301411(SEQ ID NO:54)及其上游5kb以內和/或下游5kb以內的序列;
含chr7:8482114:8482413(SEQ ID NO:55)及其上游5kb以內和/或下游5kb以內的序列;
含chr2:72371208:72371433(SEQ ID NO:56)及其上游5kb以內和/或下游5kb以內的序列;
含chr5:134364359:134364559(SEQ ID NO:57)及其上游5kb以內和/或下游5kb以內的序列;
含chr10:118892523:118892723(SEQ ID NO:58)及其上游5kb以內和/或下游5kb以內的序列;
含chr12:113901298:113901498(SEQ ID NO:59)及其上游5kb以內和/或下游5kb以內的序列;
含chr8:143613755:143613955(SEQ ID NO:60)及其上游5kb以內和/或下游5kb以內的序列;
含chr8:20375580:20375780(SEQ ID NO:61)及其上游5kb以內和/或下游5kb以內的序列;
含chr7:107499318:107499518(SEQ ID NO:62)及其上游5kb以內和/或下游5kb以內的序列;
含chr6:1378941:1379141(SEQ ID NO:63)及其上游5kb以內和/或下游5kb以內的序列;
含chr15:34786976:34787337(SEQ ID NO:64)及其上游5kb以內和/或下游5kb以內的序列;
含chr1:156405314:156405514(SEQ ID NO:65)及其上游5kb以內和/或下游5kb以內的序列;
含chr8:10588811:10589173(SEQ ID NO:66)及其上游5kb以內和/或下游5kb以內的序列;
含chr4:85418610:85418919(SEQ ID NO:67)及其上游5kb以內和/或下游5kb以內的序列;
含chr5:140871317:140871517(SEQ ID NO:68)及其上游5kb以內和/或下游5kb以內的序列;
含chr5:92906255:92906617(SEQ ID NO:69)及其上游5kb以內和/或下游5kb以內的序列;
含chr14:57265398:57265598(SEQ ID NO:70)及其上游5kb以內和/或下游5kb以內的序列;
含chr19:19650947:19651147(SEQ ID NO:71)及其上游5kb以內和/或下游5kb以內的序列;
含chr11:20618486:20618686(SEQ ID NO:72)及其上游5kb以內和/或下游5kb以內的序列;
含chr7:73407894:73408161(SEQ ID NO:73)及其上游5kb以內和/或下游5kb以內的序列;
含chr16:82660460:82660774(SEQ ID NO:74)及其上游5kb以內和/或下游5kb以內的序列;
含chr13:24844736:24844936(SEQ ID NO:75)及其上游5kb以內和/或下游5kb以內的序列;
含chr20:55500358:55500677(SEQ ID NO:76)及其上游5kb以內和/或下游5kb以內的序列;
含chr10:123923943:123924143(SEQ ID NO:77)及其上游5kb以內和/或下游5kb以內的序列;
含chr20:59827678:59827907(SEQ ID NO:78)及其上游5kb以內和/或下游5kb以內的序列;
含chr20:62330559:62330808(SEQ ID NO:79)及其上游5kb以內和/或下游5kb以內的序列;
含chr19:13209774:13209974(SEQ ID NO:80)及其上游5kb以內和/或下游5kb以內的序列;
含chr16:2085778:2086156(SEQ ID NO:81)及其上游5kb以內和/或下游5kb以內的序列;
含chr6:108488634:108488917(SEQ ID NO:82)及其上游5kb以內和/或下游5kb以內的序列;
含chr12:115124911:115125191(SEQ ID NO:83)及其上游5kb以內和/或下游5kb以內的序列;
含chr10:124896740:124897020(SEQ ID NO:84)及其上游5kb以內和/或下游5kb以內的序列;
含chr14:55243006:55243206(SEQ ID NO:85)及其上游5kb以內和/或下游5kb以內的序列;
含chr13:36729096:36729334(SEQ ID NO:86)及其上游5kb以內和/或下游5kb以內的序列;
含chr2:10444997:10445197(SEQ ID NO:87)及其上游5kb以內和/或下游5kb以內的序列;
含chr9:2157701:2157901(SEQ ID NO:88)及其上游5kb以內和/或下游5kb以內的序列;
含chr12:57529619:57529819(SEQ ID NO:89)及其上游5kb以內和/或下游5kb以內的序列;
含chr1:119527250:119527450(SEQ ID NO:90)及其上游5kb以內和/或下游5kb以內的序列;
含chr1:119532788:119532988(SEQ ID NO:91)及其上游5kb以內和/或下游5kb以內的序列;
含chr15:96909441:96909641(SEQ ID NO:92)及其上游5kb以內和/或下游5kb以內的序列;
含chr1:146551463:146551747(SEQ ID NO:93)及其上游5kb以內和/或下游5kb以內的序列;
含chr17:35293755:35293955(SEQ ID NO:94)或其上下游各5kb以內的序列;和
含chr17:59482763:59482963(SEQ ID NO:95)或其上下游各5kb以內的序列。
在一些實施方案中,本申請所述的一個或多個胃癌甲基化標誌物包括:含chr17:76929754:76929954(SEQ ID NO:50)及其上游5kb以內和/或下游5kb以內的序列;含chr7:8482114:8482413(SEQ ID NO:55)及其上游5kb以內和/或下游5kb以內的序列;含chr8:143613755:143613955(SEQ ID NO:60)及其上游5kb以內和/或下游5kb以內的序列;含chr7:107499318:107499518(SEQ ID NO:62)及其上游5kb以內和/或下游5kb以內的序列;含chr15:34786976:34787337(SEQ ID NO:64)及其上游5kb以內和/或下游5kb以內的序列;含chr8:10588811:10589173(SEQ ID NO:66)及其上游5kb以內和/或下游5kb以內的序列;含chr5:92906255:92906617(SEQ ID NO:69)及其上游5kb以內和/或下游5kb以內的序列;含chr11:20618486:20618686(SEQ ID NO:72)及其上游5kb以內和/或下游5kb以內的序列;含chr20:55500358:55500677(SEQ ID NO:76)及其上游5kb以內和/或下游5kb以內的序列;含chr20:59827678:59827907(SEQ ID NO:78)及其上游5kb以內和/或下游5kb以內的序列;含chr10:124896740:124897020(SEQ ID NO:84) 及其上游5kb以內和/或下游5kb以內的序列;含chr14:55243006:55243206(SEQ ID NO:85)及其上游5kb以內和/或下游5kb以內的序列;含chr2:10444997:10445197(SEQ ID NO:87)及其上游5kb以內和/或下游5kb以內的序列;含chr9:2157701:2157901(SEQ ID NO:88)及其上游5kb以內和/或下游5kb以內的序列;含chr12:57529619:57529819(SEQ ID NO:89)及其上游5kb以內和/或下游5kb以內的序列;含chr1:119527250:119527450(SEQ ID NO:90)及其上游5kb以內和/或下游5kb以內的序列;含chr15:96909441:96909641(SEQ ID NO:92)及其上游5kb以內和/或下游5kb以內的序列;含chr17:35293755:35293955(SEQ ID NO:94)或其上下游各5kb以內的序列;和含chr17:59482763:59482963(SEQ ID NO:95)或其上下游各5kb以內的序列。
在一些實施方案中,本申請所述的一個或多個胃癌甲基化標誌物包括:含chr11:11600237:11600617(SEQ ID NO:40)及其上游5kb以內和/或下游5kb以內的序列;含chr2:177030134:177030449(SEQ ID NO:53)及其上游5kb以內和/或下游5kb以內的序列;含chr7:35301095:35301411(SEQ ID NO:54)及其上游5kb以內和/或下游5kb以內的序列;含chr7:8482114:8482413(SEQ ID NO:55)及其上游5kb以內和/或下游5kb以內的序列;含chr12:113901298:113901498(SEQ ID NO:59)及其上游5kb以內和/或下游5kb以內的序列;含chr7:107499318:107499518(SEQ ID NO:62)及其上游5kb以內和/或下游5kb以內的序列;含chr8:10588811:10589173(SEQ ID NO:66)及其上游5kb以內和/或下游5kb以內的序列;含chr11:20618486:20618686(SEQ ID NO:72)及其上游5kb以內和/或下游5kb以內的序列;含chr13: 24844736:24844936(SEQ ID NO:75)及其上游5kb以內和/或下游5kb以內的序列;含chr20:62330559:62330808(SEQ ID NO:79)及其上游5kb以內和/或下游5kb以內的序列;含chr19:13209774:13209974(SEQ ID NO:80)及其上游5kb以內和/或下游5kb以內的序列;含chr12:115124911:115125191(SEQ ID NO:83)及其上游5kb以內和/或下游5kb以內的序列;含chr10:124896740:124897020(SEQ ID NO:84)及其上游5kb以內和/或下游5kb以內的序列;含chr2:10444997:10445197(SEQ ID NO:87)及其上游5kb以內和/或下游5kb以內的序列;含chr12:57529619:57529819(SEQ ID NO:89)及其上游5kb以內和/或下游5kb以內的序列;含chr1:119527250:119527450(SEQ ID NO:90)及其上游5kb以內和/或下游5kb以內的序列;含chr1:119532788:119532988(SEQ ID NO:91)及其上游5kb以內和/或下游5kb以內的序列;含chr1:146551463:146551747(SEQ ID NO:93)及其上游5kb以內和/或下游5kb以內的序列;和含chr17:59482763:59482963(SEQ ID NO:95)或其上下游各5kb以內的序列。
在一些實施方案中,本申請所述的一個或多個胃癌甲基化標誌物包括:含chr17:76929754:76929954(SEQ ID NO:50)及其上游5kb以內和/或下游5kb以內的序列;含chr8:143613755:143613955(SEQ ID NO:60)及其上游5kb以內和/或下游5kb以內的序列;含chr8:20375580:20375780(SEQ ID NO:61)及其上游5kb以內和/或下游5kb以內的序列;含chr4:85418610:85418919(SEQ ID NO:67)及其上游5kb以內和/或下游5kb以內的序列;含chr5:92906255:92906617(SEQ ID NO:69)及其上游5kb以內和/或下游5kb以內的序列;含chr13:24844736:24844936(SEQ ID NO:75)及其上游5kb 以內和/或下游5kb以內的序列;含chr10:123923943:123924143(SEQ ID NO:77)及其上游5kb以內和/或下游5kb以內的序列;和含chr12:115124911:115125191(SEQ ID NO:83)及其上游5kb以內和/或下游5kb以內的序列。
在一些實施方案中,本申請所述的一個或多個胃癌甲基化標誌物包括:含chr17:76929754:76929954(SEQ ID NO:50)及其上游5kb以內和/或下游5kb以內的序列;含chr8:143613755:143613955(SEQ ID NO:60)及其上游5kb以內和/或下游5kb以內的序列;含chr16:82660460:82660774(SEQ ID NO:74)及其上游5kb以內和/或下游5kb以內的序列;含chr10:123923943:123924143(SEQ ID NO:77)及其上游5kb以內和/或下游5kb以內的序列;和含chr6:108488634:108488917(SEQ ID NO:82)及其上游5kb以內和/或下游5kb以內的序列。
在一些實施方案中,本申請所述的一個或多個胃癌甲基化標誌物的Hg坐標區域選自以下序列中的任意一個或任意多個的組合:含chr7:35301095:35301411(SEQ ID NO:54)及其上游5kb以內和/或下游5kb以內的序列;含chr8:20375580:20375780(SEQ ID NO:61)及其上游5kb以內和/或下游5kb以內的序列;含chr5:92906255:92906617(SEQ ID NO:69)及其上游5kb以內和/或下游5kb以內的序列;含chr7:73407894:73408161(SEQ ID NO:73)及其上游5kb以內和/或下游5kb以內的序列;含chr6:108488634:108488917(SEQ ID NO:82)及其上游5kb以內和/或下游5kb以內的序列;含chr14:55243006:55243206(SEQ ID NO:85)及其上游5kb以內和/或下游5kb以內的序列;含chr2:10444997:10445197(SEQ ID NO:88)及其上游5kb以內和/或下游5kb以內的序列;含chr1:119527250:119527450(SEQ ID NO: 50)及其上游5kb以內和/或下游5kb以內的序列;含chr17:35293755:35293955(SEQ ID NO:84)或其上下游各5kb以內的序列;和含chr17:59482763:59482963(SEQ ID NO:95)或其上下游各5kb以內的序列。
該染色體坐標與2009年2月發佈的人類基因組數據庫Hg19版本一致(在本申請中稱為“Hg19坐標”)。在一些實施方案中,本申請所述的胃癌甲基化標誌物包括上述SEQ ID NO:48-95各序列各起始位點的上游3kb以內、較佳2kb以內、更佳1kb以內、更佳500bp以內、更佳300bp以內、更佳100bp以內的序列和/或各末端位點的下游3kb以內、較佳2kb以內、較佳1kb以內、較佳500bp以內、較佳300bp以內、較佳100bp以內的序列。在一些實施方案中,本申請所述的胃癌甲基化標誌物是含有上述SEQ ID NO:48-95任一序列且長度為1000bp以內、較佳600bp以內、更佳400bp以內的基因序列。
在一些實施方案中,本申請所述的胃癌甲基化標誌物選自SEQ ID NO:48-95中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47條或全部48條序列。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括:SEQ ID NO:50、SEQ ID NO:55、SEQ ID NO:60、SEQ ID NO:62、SEQ ID NO:64、SEQ ID NO:66、SEQ ID NO:69、SEQ ID NO:72、SEQ ID NO:76、SEQ ID NO:78、SEQ ID NO:84、SEQ ID NO:85、SEQ ID NO:87、SEQ ID NO:88、SEQ ID NO:89、SEQ ID NO:90、SEQ ID NO:92、SEQ ID NO:94和SEQ ID NO:95。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括:SEQ ID NO:49、SEQ ID NO:53、SEQ ID NO:54、SEQ ID NO:55、SEQ ID NO:59、SEQ ID NO:62、SEQ ID NO:66、SEQ ID NO:74、SEQ ID NO:75、SEQ ID NO:79、SEQ ID NO:80、SEQ ID NO:83、SEQ ID NO:84、SEQ ID NO:87、SEQ ID NO:89、SEQ ID NO:90、SEQ ID NO:91、SEQ ID NO:93和SEQ ID NO:95。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括:SEQ ID NO:50、SEQ ID NO:60、SEQ ID NO:61、SEQ ID NO:67、SEQ ID NO:69、SEQ ID NO:75、SEQ ID NO:77和SEQ ID NO:83。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括:SEQ ID NO:50、SEQ ID NO:60、SEQ ID NO:74、SEQ ID NO:77和SEQ ID NO:82。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括以下序列中的任意一條或任意多條的組合:SEQ ID NO:54、SEQ ID NO:61、SEQ ID NO:69、SEQ ID NO:73、SEQ ID NO:82、SEQ ID NO:85、SEQ ID NO:87、SEQ ID NO:90、SEQ ID NO:94和SEQ ID NO:95。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:87,以及SEQ ID NO:1-39和448-95中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:94,以及SEQ ID NO:1-46和48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:90,以及SEQ ID NO:1-42和44-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:73,以及SEQ ID NO:1-25和27-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:82,以及SEQ ID NO:1-34和36-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:61,以及SEQ ID NO:1-13和15-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:85,以及SEQ ID NO:1-37和39-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:67,以及SEQ ID NO:1-21和23-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:54,以及SEQ ID NO:1-6和8-48中的任意一條或多條。
在一些實施方案中,本申請所述的胃癌甲基化標誌物包括SEQ ID NO:95,以及SEQ ID NO:1-47中的任意一條或多條。
可在公共數據庫(例如UCSC Genome Browser、Ensemble和NCBI網站)中獲得上述Hg19坐標的特定核苷酸序列,以及每個區域的各個起始位點的上游5kb和各個末端位點的下游5kb。
c)食管癌甲基化標誌物
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自本申請的染色體範圍編號1至43的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個或更多個選自本申請的染色體範圍編號1至43的DNA區域。例 如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、或43個選自本申請的染色體範圍編號1至43的DNA區域。上述染色體範圍編號1至43的DNA區域中的一個或多個可以是食管癌的甲基化標誌物。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、或43個選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域。上述一個或多個選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域或片段可以是食管癌的甲基化標誌物。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:105上游或下游5k bp以內的區域以及本申請基因編號為1至76的基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中選自SEQ ID NO:105上游或下游5k bp以內的區域以及本申請基因編號為1至76的基因的1個、2個、3個、4個、 5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、48個、49個、50個、51個、52個、53個、54個、55個、56個、57個、58個、59個、60個、61個、62個、63個、64個、65個、66個、67個、68個、69個、70個、71個、72個、73個、74個、75個、或76個基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。上述選自SEQ ID NO:105上游或下游5k bp以內的區域以及本申請基因編號為1至76的基因所在的DNA區域或片段可以是食管癌的甲基化標誌物。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自本申請的染色體範圍編號3、5、7、8、12、13、14、16、17、18、19、21、22、26、28、29、30、32、33、35、36、38、39、40、41、42和43的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個或更多個選自本申請的染色體範圍編號1至27的DNA區域。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、或27個選自本申請的染色體範圍編號1至27的DNA區域。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:98、100、102、103、107、108、109、111、112、113、114、116、117、121、123、124、125、127、128、130、131、133、134、 135、136、137和138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、或27個選自SEQ ID NO:1至27中任一項所示上游或下游5k bp以內的DNA區域。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自以下組的基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量:IRF2BP2、LZTS1、DMRTA2、CLVS1、CSNK2A3、HOXD12、FAM109A、HOXD13、FKBP4、TOMM20、AVPR1A、ELAVL4、CARKD、GALNT18、DLL4、CUX2、NR2F2、CACNA1C、ZSCAN10、CARS2、MTSS1L、VPS18、TIMP2、IL32、TBCD、VAC14、RAB3D、LGALS3BP、HOXD10、ZNF750、HOXD1、HOXD11、FAM150B、HOXD4、TNFRSF6B、TMEM18、ETV5、ARFRP1、BDH1、DGKG、PCDHGC5、DIAPH1、MPC1、RPS6KA2、ELN、WBSCR28、SOX7、和CHD7。。例如,本申請的方法確定待測樣本中選自上述基因的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、或48個基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自本申請的染色體範圍編號1、2、4、6、9、10、11、15、20、 23、24、25、26、27、30、31、34、35、37、38、39、40、和42的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個或更多個選自本申請的染色體範圍編號1至23的DNA區域。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、或23個選自本申請的染色體範圍編號1至23的DNA區域或片段。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:96、97、99、101、104、105、106、110、115、118、119、120、121、122、125、126、129、130、132、133、134、135和137中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、或23個選自SEQ ID NO:96至118中任一項所示上游或下游5k bp以內的DNA區域或片段。
本申請提供了一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:111上游或下游5k bp以內的區域以及CSF1、DNM2、EPS8L3、RAB3D、RER1、RPL18、SKI、DBP、ARHGEF16、HOXD1、PRDM16、HOXD4、RNF207、PDCD1、ICMT、EP300、TBX5、RBX1、TBX3、ETV5、CHFR、DGKG、ZNF605、SLC2A9、DIO3、DRD5、ENSG00000269375、PCDHGC5、CTU2、DIAPH1、RNF166、MPC1、MBP、RPS6KA2、ZNF236、ELN、ICAM5、WBSCR28、ZGLP1、和LZTS1所在的DNA區域、或其片段的 修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中選自SEQ ID NO:111上游或下游5k bp以內的區域以及本申請提供的上述的基因的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、或40個基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。
d)肝癌甲基化標誌物
本申請提供了一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自本申請的染色體範圍編號44至245(SEQ ID NO:139-340)上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個或更多個選自本申請的染色體範圍編號44至245(SEQ ID NO:139-340)上游或下游5k bp以內的DNA區域。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、50個、60個、70個、80個、90個、100個、150個、200個、或202個選自本申請的染色體範圍編號44至245(SEQ ID NO:139-340)上游或下游5k bp以內的DNA區域。染色體範圍編號44至245(SEQ ID NO:139-340)上游或下游5k bp以內的DNA區域、或其互補區域或片段可以是肝癌甲基化標誌物。
本申請提供了一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、50個、60個、70個、80個、90個、100個、150個、200個、或202個選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域。選自SEQ ID NO:139至340中任一項所示上游或下游5k bp以內的DNA區域或其互補區域或片段可以是肝癌甲基化標誌物。
本申請提供了一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自本申請基因編號為77至354的基因所在上游或下游5k bp以內的DNA區域、或其片段的修飾狀態的存在和/或含量。例如,本申請的方法確定待測樣本中選自本申請基因編號為77至354的基因的1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、48個、49個、50個、51個、52個、53個、54個、55個、56個、57個、58個、59個、60個、61個、62個、63個、64個、65個、66個、67個、68個、69個、70個、80個、 90個、100個、150個、200個、201個、或202個基因所在上游或下游5k bp以內的DNA區域、或其片段的修飾狀態的存在和/或含量。
II 樣本來源及製備
在本申請中,該標誌物可以來自任何感興趣的個體的生物樣品。本文所用的術語“個體”包括人類和非人類的動物。非人類動物包括所有脊椎動物,例如哺乳動物和非哺乳動物。“個體”也可以是家畜,例如牛、豬、綿羊、家禽和馬;或齧齒動物,例如大鼠、小鼠;或非人類靈長類動物,例如猿、猴、恆河猴;或家養的動物,例如狗或貓。在一些實施方式中,個體是人類或非人類靈長類動物。在一些實施方式中,個體是人類。在本申請中,“個體”、“對象”和“受試者”可互換使用。
應理解,上述第I部分“標誌物”給出的序列為人的序列。當涉及非人動物的序列時,可採用現有技術容易地確定上述基因在非人動物基因組中的對應位置和對應序列。
本文所用的術語“樣品”、“樣本”、“待測樣本”或“生物樣品”是指獲自或衍生自個體的生物組成物,其包含基於物理、生化、化學和/或生理特徵待表徵或待識別的細胞和/或其他分子實體(例如DNA)。生物樣品包括但不限於藉由所屬技術領域中具有通常知識者已知的任何方法獲得的個體的細胞、組織、器官和/或生物體液。在一些實施方式中,該待測樣本或生物樣品選自下組:組織學切片、組織活檢、石蠟包埋的組織、體液、手術切除樣本、分離的血細胞、分離自血液的細胞,及其任意組合。在一些實施方式中,該體液選自下組:全血、血清、血漿,及其任意組合。選擇最適合的樣品將取決於情境的性質。在一些實施方式中,該待測樣本或生物樣品為個體的全血。在一些實施方 式中,該待測樣本或生物樣品為個體的血漿。所屬技術領域中具有通常知識者知道從全血製備血漿的各種方法。例如,在一些實施方式中,血漿藉由將來自個體的全血離心一次、兩次、三次、四次、五次或更多次來獲得。在一些實施方式中,該待測樣本或生物樣品是胃癌活檢物。
待檢測的DNA可分離自該生物樣品。可以藉由使用本領域已知的各種方法從生物樣品中分離和純化出待檢測的DNA。可使用市售試劑盒來進行分離和純化。例如,藉由以下方式從細胞和組織中分離DNA:在高度變性和還原條件下裂解原材料、部分使用蛋白質降解酶、純化藉由苯酚/氯仿提取工藝獲得的核酸組分,並藉由滲析或乙醇沉澱從水相中回收核酸(參見例如Sambrook,J.,Fritsch,E.F.in T.Maniatis,C S H,Molecular Cloning,1989)。又例如,現在有許多試劑體系特別適用於從瓊脂糖凝膠中純化DNA片段、從細菌裂解物中分離質粒DNA,以及從血液、組織或細胞培養物中分離較長鏈的核酸(基因組DNA、總細胞RNA)。許多這些可商購的純化體系中是基於相當眾所周知的原理,即,在不同離液鹽的溶液的存在下將核酸與礦物載體相結合。在這些體系中,細磨的玻璃粉、矽藻土或矽膠的懸浮液被用作載體材料。在例如US7888006B2和EP1626085A1中描述了從生物樣品中分離和純化DNA的一些其他方法。在方法之間進行選擇將受到幾個因素的影響,包括時間、費用和所需的DNA數量。
在一些實施方式中,待測樣本或生物樣品中包含的DNA包括基因組DNA。本文所用的術語“基因組DNA”是指包含細胞或生物體的完整基因組及其片段或部分的DNA。基因組DNA是來源於個體的大段DNA(例如長於 大約10、20、30、40、50、60、70、80、90、100、200或300kb),並且可以具有天然修飾,例如DNA甲基化。
在一些實施方式中,待測樣本或生物樣品中包含的DNA包括細胞DNA。本文所用的術語“細胞DNA”是指存在於細胞內的DNA,或從體內細胞中獲取DNA並在體外分離、或以其他方式在體外操作,只要該DNA未從體內細胞中移除。
在一些實施方式中,待測樣本或生物樣品中包含的DNA包括細胞外游離DNA。本文所用的術語“細胞外游離DNA”是指在體內的細胞外存在的DNA片段。該術語也可以被用於指代獲取自體內的細胞外來源並在體外分離、或操作的DNA片段。細胞外游離DNA中的DNA片段通常具有約100到200bp的長度,推測與被包裹於核小體的DNA片段的長度有關。細胞外游離DNA(cfDNA)包括例如細胞外游離胎兒DNA和循環腫瘤DNA。細胞外游離胎兒DNA在孕婦的體內(例如血液)中循環,代表胎兒基因組,而循環腫瘤DNA在癌症患者的體內(例如血液)中循環。在一些實施方式中,細胞外游離DNA可基本上不含個體的細胞DNA。例如,該細胞外游離DNA可包含小於約1,000ng/mL、小於約100ng/mL、小於約10ng/mL、小於約1ng/mL的細胞DNA。
可以藉由使用本領域已知的常規技術來製備細胞外游離DNA。例如,可以藉由以約200-20,000g、約200-10,000g、約200-5,000g、約300-4000g等的速度離心血液樣品約3-30分鐘、約3-15分鐘、約3-10分鐘、約3-5分鐘來獲得血液樣品的細胞外游離DNA。例如,在一些實施方式中,可以藉由將個體的血漿或血清離心一、二、三、四、五次或更多次來獲得血液樣本的細胞外游離DNA。在一些實施方式中,為了從包含可溶性DNA的無細胞組分中分離細胞及 其片段,可以藉由微濾來獲得該生物樣品。通常來說,微濾可以藉由使用過濾器來進行,例如,0.1微米~0.45微米的膜過濾器,諸如0.22微米的膜過濾器。
在一些實施方式中,使用商購的DNA提取產品從全血、血清或血漿中提取細胞外游離DNA用於分析。這種提取方法據稱對循環DNA的回收率高(>50%),某些產品(例如Qiagen生產的QIAamp Circulating Nucleic Acid Kit)據稱可提取小尺寸的DNA片段。所使用的典型樣品量為1-5mL血清或血漿。
在一些實施方式中,細胞外游離DNA包括循環腫瘤DNA。循環腫瘤DNA(“ctDNA”)是與細胞無關的體液(例如血液、尿液、唾液、痰、糞便、胸膜液、腦脊液等)中腫瘤來源的片段化DNA。通常,ctDNA高度片段化,平均長度約為150個鹼基對。ctDNA通常包括體液(例如血漿)中細胞外游離DNA的極小部分,例如ctDNA可能構成血漿DNA的不到約10%。通常,該百分比小於約1%,例如小於約0.5%或小於約0.01%。另外,血漿DNA的總量通常非常低,例如約10ng/mL血漿。ctDNA的數量因人而異,並且取決於腫瘤的類型、位置,對於癌性腫瘤,則取決於癌症的階段。但是,ctDNA通常在體液中非常罕見,只能藉由極其敏感和特異性的技術進行檢測。檢測ctDNA可能有助於檢測和診斷腫瘤、指導腫瘤特異性治療、監測治療以及監測癌症的緩解。
III 鹼基轉化
DNA甲基化是(例如,藉由DNA甲基轉移酶的作用)將甲基添加到DNA分子上(例如,添加至DNA分子的一個或多個胞嘧啶鹼基)的生物學過程。在哺乳動物中,DNA甲基化出現於胞嘧啶-磷酸-鳥嘌呤(CpG)二核苷酸(即“CpG位點”)的5’位置,當其出現在基因的啟動子或第一個外顯子中 的5’-CpG-3’二核苷酸中時,會導致基因的表觀遺傳失活。已充分證明了DNA甲基化在調節基因表達、腫瘤發生、以及其他遺傳和表觀遺傳疾病中起重要作用。
如本文所用,術語“甲基化的胞嘧啶殘基”是指胞嘧啶殘基的衍生物,其中一個甲基連接至胞嘧啶環的碳原子上(例如C5)。術語“未甲基化的胞嘧啶殘基”是指未衍生化的胞嘧啶殘基,其中與“甲基化的胞嘧啶殘基”相反,在胞嘧啶環的碳原子(例如C5)上沒有甲基連接。其內的胞嘧啶殘基被甲基化的CpG位點就是甲基化的CpG位點,而其內的胞嘧啶殘基未被甲基化的CpG位點是未甲基化的CpG位點。
如本文所述,DNA或RNA的鹼基之間可發生轉化。本文所述“轉化”、“胞嘧啶轉化”或“CT轉化”是利用非酶促或酶促方法處理DNA,將未修飾的胞嘧啶鹼基(cytosine,C)轉化為不與鳥嘌呤(G)結合的鹼基(例如尿嘧啶鹼基(uracil,U))的過程。一些試劑能夠區分DNA中的未甲基化和甲基化的CpG位點,從而獲得經處理的DNA。該試劑可以選擇性地作用於未甲基化的胞嘧啶殘基,但不能顯著地作用於甲基化的胞嘧啶殘基。或者該試劑可以選擇性地作用於甲基化的胞嘧啶殘基,而不顯著地作用於未甲基化的胞嘧啶殘基。例如,一些試劑可以選擇性地將未甲基化的胞嘧啶殘基轉化為尿嘧啶、胸腺嘧啶或雜交上與胞嘧啶不同的另一鹼基,而甲基化的胞嘧啶殘基依然處於未轉化狀態;又例如,一些試劑可以選擇性地切割甲基化的殘基,或者選擇性地切割未甲基化的殘基。由此,原始DNA以取決於是否被甲基化的方式轉化為經處理的DNA,從而可以藉由其雜交行為將經處理的DNA與原始DNA區分開。
如本文所用,“經處理的DNA”、“經處理的序列”、“經處理的片段”是指已經用能夠區分DNA、核酸序列、基因片段中的未甲基化和甲基化的CpG位點的試劑處理後的DNA、核酸序列、基因片段。
更具體而言,可採用非酶促或酶促方法進行胞嘧啶轉化。示例性地,非酶促方法包括亞硫酸氫鹽或重硫酸鹽處理。在一些實施方式中,非酶促方法所用的試劑包括亞硫酸氫鹽試劑。如本文所用,術語“亞硫酸氫鹽試劑”是指,例如本申請所揭露的可用於區分甲基化和未甲基化的CpG二核苷酸序列的包括亞硫酸氫鹽、亞硫酸氫根離子或其任意組合的試劑。在本申請中,用亞硫酸氫鹽試劑處理DNA也被描述為“亞硫酸氫鹽反應”或“亞硫酸氫鹽處理”,指的是轉化未甲基化的胞嘧啶殘基的反應,特別是在亞硫酸氫根離子存在的情況下,核酸中未甲基化的胞嘧啶殘基被轉化為尿嘧啶鹼基、胸腺嘧啶鹼基或在雜交行為上與胞嘧啶不同的其他鹼基,而其中甲基化的胞嘧啶殘基未被顯著地轉化。換言之,亞硫酸氫鹽處理可用於區分甲基化的CpG二核苷酸和未甲基化的CpG二核苷酸。Frommer,M.,et al.,Proc Natl Acad Sci USA 89(1992)1827-31和Grigg,G.,Clark,S.,Bioessays 16(1994)431-6中詳細描述了用於檢測甲基化的胞嘧啶殘基的亞硫酸氫鹽反應。亞硫酸氫鹽反應包括脫胺基步驟和脫磺酸基步驟(參見Grigg and Clark,同上)。“甲基化的胞嘧啶殘基未被顯著地轉化”這一陳述,不排除非常小的百分比(例如,小於0.1%、小於0.2%、小於0.3%、小於0.4%、小於0.5%、小於0.6%、小於0.7%、小於0.8%、小於0.9%、小於1%、小於2%、小於3%、小於4%、小於5%、小於6%、小於7%、小於8%、小於9%、小於10%、小於11%、小於12%、小於13%、小於14%、小於15%、小於16%、小於17%、小於18%、小於19%、小於20%)的甲基化的胞嘧啶 殘基被轉化為尿嘧啶、胸腺嘧啶或在雜交行為上與胞嘧啶不同的其他鹼基,儘管其意在僅僅轉化未甲基化的胞嘧啶殘基。
在例如參考Frommer M.,et al.(同上)或Grigg and Clark(同上)的情況下(它們揭露了亞硫酸氫鹽處理的基本參數),所屬技術領域中具有通常知識者知道如何進行亞硫酸氫鹽處理,特別是脫胺基步驟和脫磺酸基步驟。孵育時間和溫度對脫胺基效率的影響、以及影響DNA降解的參數都已公開。
在一些實施方式中,該亞硫酸氫鹽試劑選自下組:亞硫酸氫銨、亞硫酸氫鈉、亞硫酸氫鉀、亞硫酸氫鈣、亞硫酸氫鎂、亞硫酸氫鋁、亞硫酸氫根離子,及其任意組合。在一些實施方式中,該亞硫酸氫鹽試劑是亞硫酸氫鈉。在一些實施方式中,亞硫酸氫鹽試劑是可商購的,例如,MethylCodeTM Bisulfite Conversion Kit、EpiMarkTM Bisulfite Conversion Kit、EpiJETTM Bisulfite Conversion Kit、EZDNAMethylation-GoldTM Kit等。在一些實施方式中,根據試劑盒的使用說明書進行亞硫酸氫鹽反應。
示例性的酶促方法包括脫胺酶處理,以及使用試劑選擇性地切割未甲基化的殘基但不切割甲基化的殘基,或者選擇性地切割甲基化的殘基但不切割未甲基化的殘基。較佳地,該試劑是甲基化敏感限制酶(MSRE)。
術語“甲基化敏感限制酶”是指根據其識別位點的甲基化狀態而選擇性地消化核酸的酶。對於當識別位點未被甲基化或半甲基化時才特異剪切的限制酶來說,當識別位點被甲基化時,不會發生剪切,或以顯著降低的效率剪切。對於當識別位點被甲基化時才特異剪切的限制酶來說,當識別位點未被甲基化時,不會發生剪切,或以顯著降低的效率剪切。在一些實施方式中,甲基化敏感限制酶的識別序列含有CG二核苷酸(例如cgcg或cccggg)。在一些實施 方式中,當該CG二核苷酸中的胞嘧啶在C5碳原子處被甲基化時,甲基化敏感限制酶不進行剪切。
示例性的MSRE選自下組:HpaII酶、SalI酶、SalI-HF®酶、ScrFI酶、BbeI酶、NotI酶、SmaI酶、XmaI酶、MboI酶、BstBI酶、ClaI酶、MluI酶、NaeI酶、NarI酶、PvuI酶、SacII酶、HhaI酶及其任意組合。
使用本領域已知的方法,使用能區分目標區域內的甲基化的CpG二核苷酸和未甲基化的CpG二核苷酸的甲基化敏感限制酶或包含甲基化敏感限制酶的一系列限制酶試劑來確定甲基化,例如但不限於,差異性甲基化雜交(“DMH”)。
在一些實施方式中,生物樣品中的DNA可以在用甲基化敏感限制酶處理之前被切割。這樣的方法是本領域已知的,並且可以既包括物理方式也包括酶促方式。特別佳的是使用一種或多種對甲基化不敏感的並且其識別位點富含AT並且不包含CG二核苷酸的限制酶。使用此類酶使得DNA片段中的CpG位點和CpG富集區域得以保存。在一些實施方式中,此類限制酶選自MseI酶、BfaI酶、Csp6I15酶、Tru1I酶、Tru9I酶、MaeI酶、XspI酶及其任意組合。
經轉化的DNA視需要地經純化。適用於本文的DNA純化方法本領域周知。
IV 定量分析
可檢測本文第I部分第a)小結中所述任意1種、任意2種、任意3種、任意4種、任意5種、任意6種、任意7種、任意8種、任意9種、任意10種、任意11種、任意12種、任意13種、任意14種、任意15種、任意16種、任意17種、任意18種、任意19種、任意20種以上、任意21種以上、任 意22種以上、任意23種以上、任意24種以上、任意25種以上、任意26種以上、任意27種以上、任意28種以上、任意29種以上、任意30種以上、任意31種以上、任意32種以上、任意33種以上、任意34種以上、任意35種以上、任意36種以上、任意37種以上、任意38種以上、任意39種以上、任意40種以上、任意41種以上、任意42種以上、任意43種以上、任意44種以上、任意45種以上、任意46種以上、任意47種以上或全部48種所述目標標誌物中的至少一個CpG二核苷酸的甲基化狀態或甲基化水平,用以鑑別對象是否患有胃癌。
可檢測本文第I部分第b)小結中所述任意1種、任意2種、任意3種、任意4種、任意5種、任意6種、任意7種、任意8種、任意9種、任意10種、任意11種、任意12種、任意13種、任意14種、任意15種、任意16種、任意17種、任意18種、任意19種、任意20種以上、任意21種以上、任意22種以上、任意23種以上、任意24種以上、任意25種以上、任意26種以上、任意27種以上、任意28種以上、任意29種以上、任意30種以上、任意31種以上、任意32種以上、任意33種以上、任意34種以上、任意35種以上、任意36種以上、任意37種以上、任意38種以上、任意39種以上、任意40種以上、任意41種以上、任意42種以上、任意43種以上、任意44種以上、任意45種以上、任意46種以上或全部47種所述目標標誌物中的至少一個CpG二核苷酸的甲基化狀態或甲基化水平,用以鑑別對象是否患有結直腸癌。
可檢測本文第I部分第c)小結中所述任意1種、任意2種、任意3種、任意4種、任意5種、任意6種、任意7種、任意8種、任意9種、任意10種、任意11種、任意12種、任意13種、任意14種、任意15種、任意16種、任意17種、任意18種、任意19種、任意20種以上、任意21種以上、任 意22種以上、任意23種以上、任意24種以上、任意25種以上、任意26種以上、任意27種以上、任意28種以上、任意29種以上、任意30種以上、任意31種以上、任意32種以上、任意33種以上、任意34種以上、任意35種以上、任意36種以上、任意37種以上、任意38種以上、任意39種以上、任意40種以上、任意41種以上、任意42種以上或全部43種所述目標標誌物中的至少一個CpG二核苷酸的甲基化狀態或甲基化水平,用以鑑別對象是否患有食管癌。
可檢測本文第I部分第d)小結中所述任意1種、任意2種、任意3種、任意4種、任意5種、任意6種、任意7種、任意8種、任意9種、任意10種、任意11種、任意12種、任意13種、任意14種、任意15種、任意16種、任意17種、任意18種、任意19種、任意20種以上、任意21種以上、任意22種以上、任意23種以上、任意24種以上、任意25種以上、任意26種以上、任意27種以上、任意28種以上、任意29種以上、任意30種以上、任意31種以上、任意32種以上、任意33種以上、任意34種以上、任意35種以上、任意36種以上、任意37種以上、任意38種以上、任意39種以上、任意40種以上、任意41種以上、任意42種以上、任意43種以上、任意44種以上、任意45種以上、任意46種以上、任意47種、任意48種、任意49種、任意50種、任意51種、任意52種、任意53種、任意54種、任意55種、任意56種、任意57種、任意58種、任意59種、任意60種、任意65種、任意70種、任意75種、任意80種、任意85種、任意90種、任意95種以上、任意100種以上、任意105種、任意110種、任意120種、任意130種、任意140種、任意145種、任意150種、任意155種以上、任意160種、任意170種、任意180種、任意190 種、任意200種以上或全部202種所述目標標誌物中的至少一個CpG二核苷酸的甲基化狀態或甲基化水平,用以鑑別對象是否患有肝癌。
本申請所述的檢測試劑和診斷試劑盒可用於該甲基化狀態或甲基化水平的檢測。
本文中,“甲基化狀態”是指一種或多種甲基化核苷酸鹼基在核酸分子中的存在或不存在。例如,含有甲基化胞嘧啶的核酸分子被認為是甲基化的(例如核酸分子的甲基化狀態是甲基化的)。不含有任何甲基化核苷酸的核酸分子被認為是未甲基化的。在一些實施方案中,如果核酸在特定基因座(例如特定單一CpG二核苷酸的基因座)或基因座特定組合處不是甲基化的,則核酸可表徵為“未甲基化”,即使它在相同基因或分子的其他基因座處為甲基化的,也如此。
因此,甲基化狀態描述了核酸(例如基因組序列或本文所述的目標標誌物、DNA區域或其片段)的甲基化的狀態。另外,甲基化狀態是指在特定基因組基因座處的核酸區段與甲基化相關的特徵。此類特徵包括但不限於此DNA序列內的任何胞嘧啶(C)殘基是否為甲基化的、一個或多個甲基化C殘基的位置、貫穿核酸的任何特定區域的甲基化C的頻率或百分比以及由於例如等位基因起點的差異而導致的甲基化等位基因差異。“甲基化狀態”是指在生物樣品中貫穿核酸的任何特定區域的甲基化C或未甲基化C的相對濃度、絕對濃度或模式。例如,如果核酸序列內的一個或多個胞嘧啶(C)殘基是甲基化的,則其可稱為“超甲基化”或具有“增加的甲基化”,而如果DNA序列內的一個或多個胞嘧啶(C)殘基是未甲基化的,則其可稱為“去甲基化”或具有“減少的甲基化”。同樣地,如果核酸序列內的一個或多個胞嘧啶(C)殘基與另一個 核酸序列(例如來自不同區域或來自不同個體等)相比是甲基化的,則該序列被認為與其他核酸序列相比是超甲基化的或具有增加的甲基化。或者,如果DNA序列內的一個或多個胞嘧啶(C)殘基與另一個核酸序列(例如來自不同區域或來自不同個體等)相比是未甲基化的,則該序列被認為與其他核酸序列相比是去甲基化的或具有減少的甲基化。
甲基化水平代表一個或多個位點處於甲基化狀態的比例(或百分比、份數、比率、程度)。一個區域(或一組位點)的甲基化水平是該區域中所有位點(或組中所有位點)的甲基水平的均值。因此,區域的甲基化水平上升或下降並不表示區域中所有甲基化位點的甲基化水平都上升或下降。本領域知曉將檢測DNA甲基化的方法(例如簡化甲基化測序)所得結果轉化為甲基化水平的過程。甲基化水平可以藉由例如定量分析在用甲基化敏感性限制性酶進行限制性消化後存在的完整DNA的量來確定。在該例中,如果使用定量PCR對DNA中的特定序列進行定量分析,模板DNA的量大約等於模擬處理的對照則表明該序列未高度甲基化,而模板量明顯少於模擬處理的樣品中的模板量則表明該序列中存在甲基化DNA。因此,如上述例子中的甲基化水平可以用作甲基化狀態的定量指標。當需要將樣品中序列的甲基化水平與閾值水平進行比較時,這尤其有用。
DNA序列(例如目標標誌物)內的一個或多個CpG二核苷酸序列的甲基化水平/狀態可以藉由本領域中已知的各種分析方法來確定,較佳為定量分析方法。示例性的分析方法包括:聚合酶鏈式反應、包括實時聚合酶鏈式反應、數字聚合酶鏈式反應和基於重亞硫酸鹽轉化的PCR(例如甲基化特異性PCR(Methylation-specific PCR,MSP))及其上游5kb以內和/或下游5kb以內的序 列;核酸測序;全基因組甲基化測序(RRBS)及其上游5kb以內和/或下游5kb以內的序列;簡化甲基化測序;基於質量的分離(例如電泳法、質譜法)及其上游5kb以內和/或下游5kb以內的序列;靶標捕獲(例如雜交、微陣列)及其上游5kb以內和/或下游5kb以內的序列;甲基化敏感的限制性內切酶分析法;甲基化敏感性高分辨率熔解曲線法;基於芯片的甲基化圖譜分析;質譜;和螢光定量法。本文中,檢測包括檢測基因或位點處的任一條鏈。
在一些實施方式中,藉由實時PCR進行定量分析。實時PCR的非限制性實例包括Cottrell et al.,Nucl.Acids Res.32:e10,2003描述的HeavyMethylTM PCR;Eads et al.,Cancer Res.59:2302-2306,1999描述的MethyLightTM PCR;Rand et al.,Nucl.Acids Res.33:e 127,2005描述的Headloop PCR。
如本文所用,術語“HeavyMethylTM PCR”是指本領域公認的一種實時PCR技術,其中一個或多個不可延伸性核酸(例如,寡核苷酸)封閉物以甲基化特異性方式與亞硫酸氫鹽處理的核酸結合(即,封閉物在中等至高等嚴謹條件下與未突變的DNA特異性結合)。使用一種或多種引子進行擴增反應,該引子可以視需要地是甲基化特異性的,但旁側分佈一個或多個封閉物。在未甲基化的核酸(即突變的DNA)存在的情況下,封閉物結合並且無PCR產物產生。使用基本上像例如Holland et al.,Proc.Natl.Acad.Sci.USA,88:7276-7280,1991所述的TaqManTM分析方法,樣品中核酸的甲基化水平得以確定。
如本文所用,術語“MethyLightTM PCR”是指基於本領域公認的一種基於螢光的實時PCR技術,其中採用了稱為TaqManTM探針的雙標記螢光寡核苷酸探針,並且被設計為可同位於正向和反向擴增引子之間的富含CpG的 序列雜交。該TaqManTM探針包含一個螢光“報告因子部分”和“淬滅劑部分”共價結合到與TaqManTM寡核苷酸的核苷酸相連的接頭部分(例如,亞磷醯胺)。在PCR擴增過程中,與富含CpG的序列雜交的TaqManTM探針被Taq聚合酶的5’核酸酶活性切割,從而在PCR反應過程中產生以實時方式檢測的信號。在該方法中,可以將分子信標用作可檢測的探針,並且該系統不依賴於所使用的DNA聚合酶的5’-3’核酸外切酶活性(參見Mhlanga and Malmberg,Methods 25:463-471,2001)。
如本文所用,術語“Headloop PCR”是指本領域公認的一種實時PCR,其選擇性地擴增目標核酸,但是藉由將3’莖環延伸形成不能進一步提供擴增模板的髮卡結構來抑制非擴增目標變體的擴增。
在一些實施方式中,該實時PCR是多重實時PCR。如本文所用,術語“多重”可指,藉由使用一個以上的標誌物,每個標誌物具有至少一個不同的檢測特徵,例如螢光特徵(例如,激發波長、發射波長、發射強度、FWHM(半峰高處的全寬度)或螢光壽命)或獨特的核酸或蛋白序列特徵,可以同時對多個標誌物(例如多個核酸序列)的存在和/或量進行測定的分析或其他分析方法。
在一些實施方式中,藉由核酸測序進行定量分析。核酸測序的示例性方法是本領域已知的,參見,例如Frommer et al.,Proc.Natl.Acad.Sci.USA 89:1827-1831,1992;Clark et al.,Nucl.Acids Res.22:2990-2997,1994。例如,藉由將未使用亞硫酸氫鹽處理的樣品獲得的序列或目標區域的已知核苷酸序列與使用亞硫酸氫鹽處理的樣品獲得的序列進行比較,有助於鑑定DNA序列中甲基化胞嘧啶。與未處理的樣品相比,在亞硫酸氫鹽處理的樣品中的任意胞嘧啶位點檢 測到的胸腺嘧啶殘基都可以認為是由亞硫酸氫鹽處理而引起的突變,即該位點存在甲基化的胞嘧啶。
用於測序DNA的方法是本領域已知的,包括例如雙脫氧鏈終止法或Maxam-Gilbert法(參見Sambrook et al.,Molecular Cloning,A Laboratory Manual(2nd Ed.,CSHP,New York 1989))、焦磷酸測序(參見Uhlmann et al.,Electrophoresis,23:4072-4079,2002)、固相焦磷酸測序(參見Landegren et al.,Genome Res.,8(8):769-776,1998)、固相微測序(參見例如,Southern et al.,Genomics,13:1008-1017,1992)、採用FRET的微測序(參見例如,Chen and Kwok,Nucleic Acids Res.25:347-353,1997)、連接法測序或超深度測序(參見Marguiles et al.,Nature 437(7057):376-80(2005))。
在一些實施方式中,藉由基於質量的分離(例如電泳、質譜法)進行定量分析。例如,甲基化胞嘧啶殘基的存在可以藉由聯合亞硫酸氫鹽限制分析法(COBRA)進行檢測,基本如Xiong and Laird,Nucl.Acids Res.,25:2532-2534,2001所述。這種方法利用了在使用可以選擇性地突變未甲基化的胞嘧啶殘基的化合物(例如,亞硫酸氫鹽)處理之後,在甲基化和未甲基化的核酸之間的限制酶識別位點的差異。例如,限制性核酸內切酶Taq1切割序列TCGA,在對未甲基化核酸進行亞硫酸氫鹽處理後該序列將是TTGA,因此將不被切割。然後使用本領域已知的檢測手段例如電泳和/或質譜法,檢測消化的和/或未消化的核酸。又例如,在用選擇性突變未甲基化胞嘧啶殘基的化合物處理後,基於核苷酸序列和/或二級結構的差異,使用不同的技術來檢測擴增產物中核酸差異,例如甲基化特異性單鏈構象分析(MS-SSCA)(Bianco et al.,Hum.Mutat.,14:289-293,1999)、甲基化特異性變性梯度凝膠電泳(MS-DGGE)(Abrams and Stanton, Methods Enzymol.,212:71-74,1992)和甲基化特異性變性高效液相色譜(MS-DHPLC)(Deng et al.,Chin.J.Cancer Res.,12:171-191,2000)。
在一些實施方式中,藉由靶標捕獲(例如雜交、微陣列)進行定量分析。藉由雜交的合適的檢測方法是本領域已知的,例如Southern、斑點印跡、狹縫印跡或其他核酸雜交方式(Kawai et al.,Mol.Cell.Biol.14:7421-7427,1994;Gonzalgo et al.,Cancer Res.57:594-599,1997)。在一些實施方式中,用於雜交分析的探針被可檢測地標記。在一些實施方式中,用於雜交分析的基於核酸的探針是未標記的。這種未標記的探針可以固定在固體載體如微陣列上,並且可以與被可檢測地標記的目標核酸分子雜交。微陣列的一個實例是甲基化特異性微陣列,其可用於區分具有轉化的胞嘧啶殘基的序列和具有未轉化的胞嘧啶殘基的序列(參見Adorjan et al.,Nucl.Acids Res.,30:e21,2002)。基於雜交的分析還可被用於用甲基化敏感的限制酶處理後的核酸。又例如,可藉由寡核苷酸探針確定DNA序列內CpG二核苷酸序列的甲基化狀態,該寡核苷酸探針與PCR擴增引子同時與亞硫酸氫鹽處理的DNA雜交(其中該引子可以是甲基化特異性引子或標準引子)。
在一些實施方式中,定量分析在檢測試劑的存在下進行。如本文所用,術語“檢測試劑”是在定量分析步驟中用於檢測核酸的存在、不存在或量的試劑。本領域已知的各種檢測試劑在本申請中都可使用。在一些實施方式中,檢測試劑選自下組:螢光探針、嵌入染料、生色團標記的探針、放射性同位素標記的探針和生物素標記的探針。
在一些實施方式中,定量分析包含使用定量引子對和DNA聚合酶對經處理的DNA進行擴增。如本文所用,術語“定量引子對”是指在定量分 析步驟中使用的一個或多個引子對。較佳地,該定量引子對能夠與該經處理的DNA的至少9個連續核苷酸在嚴謹條件下、中等嚴謹條件下或高度嚴謹條件下雜交。
在一些實施方式中,該定量分析包括基於經處理的DNA中多個CpG二核苷酸、TpG二核苷酸或CpA二核苷酸的存在或水平,確定一個或多個目標標誌物的甲基化水平。在一些實施方式中,該定量分析包括基於經處理的DNA中一個或多個CpG二核苷酸的存在或水平來確定胞嘧啶殘基的甲基化水平。在一些實施方式中,該定量分析包括基於該經處理的DNA中一個或多個TpG二核苷酸的存在或水平來確定胞嘧啶殘基的甲基化水平。在一些實施方式中,該定量分析包括基於該經處理的DNA中CpA二核苷酸的存在來確定胞嘧啶殘基的甲基化水平。
在一些實施方式中,定量分析步驟是藉由將經處理的DNA產物分為多個組分來進行的。在一些實施方式中,對多個組分進行多個不同的定量分析測試,其中在多個組分之一中定量分析該經處理的DNA產物(如果存在於該組分中的話)的不同組合。在一些實施方式中,定量分析每個組分中的對照標誌物。
在一些實施方式中,基於預擴增的DNA藉由使用MSP(參見Herman et al.,Methylation-specific PCR:a novelPCRassay for methylation status ofCpGislands.Proc Natl Acad Sci USA.1996 September 3;93(18):9821-6和United States Patent No.6,265,171)分別定量分析每個目標標誌物的甲基化水平。例如,藉由使用在中等和/或高度嚴謹條件下與未轉化序列特異性雜交的一種或多種引子,僅當模板在CpG位點包含甲基化胞嘧啶時才產生擴增產物。
在一些實施方式中,該定量引子對被設計為擴增該經處理的DNA產物中的至少一部分,即定量分析被設計為巢式PCR。巢式PCR是PCR的一種改進,旨在提高靈敏度和特異性。巢式PCR涉及使用兩個引子組和兩個連續的PCR反應。進行第一輪擴增以產生第一擴增子,並使用一個引子對進行第二輪擴增,其中一個或兩個引子與由初始引子對界定的區域內的位點退火,即第二個引子對被認為是“嵌套”在第一對引子中。以這種方式,不包含正確內部序列的來自第一次PCR反應的背景擴增產物在第二次PCR反應中不再被進一步擴增。
通常,PCR的反應液包含Taq DNA聚合酶、PCR緩衝液、引子、探針、dNTPs、Mg2+。較佳地,Taq DNA聚合酶為熱啟動Taq DNA聚合酶。示例性地,Mg2+終濃度為1.0-20.0mM;各引子濃度為100-500nM;各探針濃度為100-500nM。示例性的PCR反應條件為,95℃預變性5min;95℃變性15s,60℃退火延伸60s,50個循環。
在一些實施方案中,本申請的方法包括預擴增步驟。對目標標誌物進行預擴增的目的之一是增加經處理的DNA中的目標標誌物的數量。如本文所用,術語“擴增”大體上指任何能夠導致分子或一組相關分子的拷貝數增加的過程。當“擴增”被用於多核苷酸分子時,是指通常從少量多核苷酸開始產生多拷貝的多核苷酸分子或多核苷酸分子的一部分的多份拷貝,其中被擴增的物質(擴增子,PCR擴增子)通常是可被檢測到的。多核苷酸的擴增涵蓋多個化學和酶促過程。擴增的形式包括藉由聚合酶鏈式反應(逆轉錄PCR、PCR)、鏈置換擴增(SDA)反應、轉錄介導擴增(TMA)反應、基於核酸序列的擴增(NASBA) 反應或連接酶鏈反應(LCR),從一個或幾個拷貝的模板RNA或DNA分子生成多個DNA拷貝。
可用預擴增引子預擴增經處理的DNA中的該標誌物。如本文所用,術語“引子”是指這樣的單鏈寡核苷酸,其能夠在合適的條件(例如緩衝液和溫度)下,在四種不同的三磷酸核苷和用於聚合的試劑(例如DNA聚合酶)的存在下,作為模板指導的DNA合成的起始點。在任何給定的情況下,引子的長度取決於例如引子的預期用途,並且通常在15至30個核苷酸的範圍內。短的引子分子通常需要較低的溫度才能與模板形成足夠穩定的雜交複合物。引子不必反映模板的確切序列,但必須足夠互補以能與該模板雜交。引子位點是模板上與引子雜交的區域。引子對是一組引子,其包括與待擴增的序列的5’末端雜交的5’正向引子和與待擴增的序列的3’末端的互補鏈雜交的3’反向引子。所屬技術領域中具有通常知識者可以基於本領域的公知常識根據待擴增的標誌物設計引子(參見,例如PCR Primer:A Laboratory Manual,Cold Spring Harbor Laboratories,NY,1995)。此外,一些用於設計在各種各樣分析中使用的最佳探針和/或引子的套裝軟體是公開的,例如可從美國馬薩諸塞州劍橋市的基因組研究中心(the Center for Genome Research,Cambridge,Mass.,USA)獲得的Primer 3。顯然,在設計探針或引子時其潛在用途也應考慮在內。例如,設計用於本發明目的的引子可以包括至少一個CpG位點,或者從該引子獲得的擴增產物可以包括至少一個CpG位點。用於設計檢測DNA甲基化狀態的引子的工具也是本領域已知的,例如MethPrimer(Li LC and Dahiya R.MethPrimer:designing primers for methylation PCRs.Bioinformatics.2002 Nov;18(11):1427-31)。在本申請中, 藉由將預擴增引子作為引子池,經處理的DNA中的任何目標標誌物(目標標誌物的每至少一部分或目標標誌物的一個亞區域)均可以被預擴增。
如本文所用,術語“互補”是指核苷酸或核酸之間的雜交或鹼基配對,例如,雙鏈DNA分子的兩條鏈之間,或待測序或擴增的單鏈核酸上的引子結合位點和寡核苷酸引子之間。互補核苷酸通常是A和T(或A和U),或C和G。當一條鏈的核苷酸以最佳的方式對齊、並比較、並有適當的核苷酸插入或缺失後,與另一鏈的至少約80%(通常至少約90%至95%,更佳地為約98%至100%)的核苷酸配對,兩條單鏈RNA或DNA分子就被稱為是互補的。或者,當RNA鏈或DNA鏈在選擇性雜交條件下與其互補序列雜交時,互補存在。通常,當在至少14至25個核苷酸的一段上具有至少約65%(較佳至少約75%、更佳至少約90%)的互補性時,將發生選擇性雜交。參見M.Kanehisa,Nucleic Acids Res.12:203(1984),作為參考併入本文。
在一些實施方式中,預擴增引子池包含至少一個甲基化特異性引子對。在一些實施方式中,預擴增引子池包含多個甲基化特異性引子對。在一些實施方式中,預擴增步驟藉由甲基化特異性PCR(“MSP”)進行,甲基化特異性PCR是使用甲基化特異性引子的PCR。Herman et al.,(同上)中已描述了該技術(即MSP)。
如本文所用,術語“甲基化特異性引子對”是指經特異性設計以識別CpG位點以利用甲基化的差異來擴增經處理的DNA中的特定目標標誌物的引子對。引子僅作用於具有特定甲基化狀態或沒有特定甲基化狀態的分子。例如,引子可以是寡核苷酸,在嚴謹條件、中等嚴謹條件或高度嚴謹條件下,其可以以甲基化特異性方式與具有甲基化的特定CpG位點特異性雜交,但不能與沒 有甲基化的特定CpG位點雜交。因此,引子將特異性擴增在特定CpG位點具有甲基化的目標標誌物。又例如,引子可以是寡核苷酸,在嚴謹條件、中等嚴謹條件或高度嚴謹條件下,其可以以甲基化特異性的方式與未甲基化的特定的CpG位點特異性雜交,但是不能與甲基化的特定的CpG位點雜交。因此,引子將特異性擴增在特定CpG位點沒有甲基化的目標標誌物。因此,在本申請中,對在經處理的DNA內的至少一個目標標誌物的預擴增中使用甲基化特異性引子,可以區分甲基化的和未甲基化的CpG位點。本申請的甲基化特異性引子對包含至少一個與亞硫酸氫鹽處理的CpG二核苷酸雜交的引子。因此,該特異性針對甲基化DNA的引子的序列包含至少一個CpG二核苷酸,並且該特異性針對未甲基化DNA的引子的序列在CpG的C位置上包含“T”,和/或在CpG中G位置上包含“A”。
甲基化特異性引子對通常包含正向引子和反向引子,該引子均包含寡核苷酸序列,該寡核苷酸序列與該目標標誌物之一(或目標標誌物的亞區域)的至少9個連續核苷酸在嚴謹條件下、中等嚴謹條件下或高度嚴謹條件下雜交,其中該目標標誌物之一(或目標標誌物的亞區域)的至少9個連續核苷酸包含至少一個(例如1、2、3、4、5、6、7、8、9、10或更多個)CpG位點。
如本文所用,術語“雜交”可以指其中兩條單鏈多核苷酸非共價形式結合以形成穩定的雙鏈多核苷酸的過程。在一個方面,所得的雙鏈多核苷酸可以是“雜交物”或“雙鏈”。“雜交條件”中的鹽濃度通常約小於1M,經常小於約500mM並且可以小於約200mM。“雜交緩衝液”包括緩衝鹽溶液,例如5%SSPE,或本領域已知的其他此類緩衝液。雜交溫度可以低至5℃,但是通常高於22℃,並且更為通常地高於約30℃,並且通常超過37℃。雜交通常在嚴 謹條件下進行,即在該條件下序列將與其目標序列雜交但不與其他非互補序列雜交。嚴謹條件取決於序列,且在不同情況下有所不同。例如,更長的片段可能需要比短片段更高的雜交溫度才能進行特異性雜交。由於其他因素可能會影響雜交的嚴謹性,包括鹼基組成和互補鏈的長度,有機溶劑的存在以及鹼基錯配的程度,因此參數組合比單獨使用任何一個參數的絕對測量更為重要。通常嚴謹條件被選定為比特定序列在特定的離子強度和pH下的解鏈溫度(Tm)低約5℃。Tm可以是雙鏈核酸分子群體中的一半被分離成單鏈的溫度。用於計算核酸的Tm的幾個方程式是本領域眾所周知的。如標準參考文獻所示,當核酸在1M NaCl水溶液中時,可以藉由公式Tm=81.5+0.41(%G+C)計算出簡單估算的Tm值(參見例如Anderson and Young,Quantitative Filter Hybridization,in Nucleic Acid Hybridization(1985))。其他參考文獻(例如Allawi and SantaLucia,Jr.,Biochemistry,36:10581-94(1997))包括替代的計算方法,其計算Tm時將結構和環境以及序列特徵等考慮在內。
通常,雜交物的穩定性是關於離子濃度和溫度的函數。通常,雜交反應在較低嚴謹條件下進行,然後在具有不同但較高嚴謹性的洗滌液中洗滌。示例性的嚴謹條件包括pH約7.0至約8.3、溫度至少25℃、鈉離子(或其他鹽)濃度為至少0.01M至不超過1M。例如,5 x SSPE(750mM NaCl,50mM磷酸鈉,5mM EDTA,pH 7.4)和約30℃的溫度適合於等位基因特異性雜交,儘管合適的溫度取決於雜交區域的長度和/或GC含量。在一個方面,確定錯配百分比的“雜交嚴謹性”可以如下:1)高度嚴謹性:0.1 x SSPE,0.1% SDS,65℃;2)中等嚴謹性(也稱為中度嚴謹性):0.2 x SSPE,0.1% SDS,50℃;3)低嚴謹性:1.0 x SSPE,0.1% SDS,50℃。應當理解,使用替代的緩衝劑、鹽和溫度 可以達到相同的嚴謹性。例如,中等嚴謹雜交可以是指允許核酸分子(例如探針)結合互補核酸分子的條件。雜交的核酸分子通常具有至少60%的同一性,包括例如至少70%、75%、80%、85%、90%或95%的同一性。中等嚴謹條件可以是與下述條件達到同等效果的條件:42℃,50%甲醯胺,5 x Denhardt溶液,5x SSPE,0.2% SDS雜交,然後用42℃,0.2x SSPE,0.2% SDS進行洗滌。高度嚴謹條件可以藉由如下條件提供,例如,42℃,50%甲醯胺,5 x Denhardt溶液,5 x SSPE,0.2% SDS雜交,然後65℃,0.1x SSPE和0.1% SDS中洗滌。低嚴謹性雜交可以是與下述條件達到同等效果的條件:22℃,10%甲醯胺,5 x Denhardt溶液,6 x SSPE,0.2%SDS雜交,然後在1 x SSPE,0.2% SDS中於37℃洗滌。Denhardt的溶液包含1%聚蔗糖,1%聚乙烯吡咯烷酮和1%牛血清白蛋白(BSA)。20 x SSPE(氯化鈉,磷酸鈉,EDTA)包含3M氯化鈉、0.2M磷酸鈉和0.025M EDTA。其他合適的中等嚴謹性和高度嚴謹性雜交緩衝液和條件是所屬技術領域中具有通常知識者眾所周知的,並且描述於例如Sambrook et al.,Molecular Cloning:A Laboratory Manual,2nd ed.,Cold Spring Harbor Press,Plainview,N.Y.(1989)和Ausubel et al.,Short Protocols in Molecular Biology,4th ed.,John Wiley & Sons(1999)。
在一些實施方式中,預擴增引子池還包含用於擴增對照標誌物的對照引子對。通常,對照標誌物是具有已知特徵(例如,序列已知,每個細胞的拷貝數已知)的核酸,用於與實驗目標(例如,濃度未知的核酸)進行比較。對照可以是內源的,較佳為不變的基因,可以將分析中的實驗核酸或目標核酸相對其進行標準化。此類因為樣品間差異而標準化的對照可能發生在例如樣品處理,分析效率等,並且允許精確的樣品間數據比較,定量分析擴增效率和偏差。
在一些實施方案中,本申請採用RRBS技術檢測感興趣目標標誌物的CpG位點的甲基化水平,然後計算該標誌物的甲基化單倍型比值(MHF),將其作為該標誌物的DNA甲基化水平。MHF的計算可如本申請所述進行。
V 對象是否患有癌症的鑑定
本申請的發明人發現,本文所述的一個或多個目標標誌物的甲基化水平可用於確定癌症。在一個或多個實施方案中,可檢測樣品中本文所述目標標誌物中CpG位點的甲基化水平,然後計算該目標標誌物的甲基化單倍型比值(MHF),將其作為該標誌物的DNA甲基化水平。
本文中,MHF可由以下公式計算得到:
MHFi,h=(Ni,h)/Ni
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,Ni表示位於目標甲基化區間的讀數數目,Ni,h表示包含目標甲基化單倍型的讀數數目。
也可以計算平均甲基化水平(AMF),對於每個目標區域計算區域內甲基化的平均水平。公式如下:
Figure 112135115-A0202-12-0103-16
其中m為該目標中總的CpG位點數,i為區間內每個CpG位點,NC,i為該CpG位點鹼基為C的reads數(即該位點發生甲基化的reads數),NT,i為該CpG位點鹼基為T的reads數(即該位點未甲基化的測序reads數)。
可使用python(V3.9.7)中的sklearn(V1.0.1)包中的邏輯回歸模型計算每個目標標誌物或多個目標標誌物的模型預測分值y:model=LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值(MHF),w為不同標誌物的係數,b為截距值,T表示轉置:
Figure 112135115-A0202-12-0104-121
本文分別以每個標誌物在訓練集樣本中的DNA甲基化水平構建訓練集,以訓練集的約登指數界定的閾值作為癌症預測閾值,分別獲得了本文所述各個標誌物的癌症預測閾值,每一個標誌物的癌症預測閾值可見本文表8、表11、表15和表19。
在一些實施方案中,以本文所述的單個目標標誌物的甲基化水平為判斷依據,根據上述公式計算得到每個樣本中該目標標誌物的MHF,並藉由訓練的模型得到該目標標誌物的預測分值,若該值高於表8中所示的該目標標誌物的閾值,則判斷為患有結直腸癌,或存在患有結直腸癌的風險。
在一些實施方案中,以本文所述的單個目標標誌物的甲基化水平為判斷依據,根據上述公式計算得到每個樣本中該目標標誌物的MHF,並藉由訓練的模型得到該目標標誌物的預測分值,若該值高於表11中所示的該目標標誌物的閾值,則判斷為患有胃癌,或存在患有胃癌的風險。
在一些實施方案中,以本文所述的單個目標標誌物的甲基化水平為判斷依據,根據上述公式計算得到每個樣本中該目標標誌物的MHF,並藉由訓練的模型得到該目標標誌物的預測分值,若該值高於表15中所示的該目標標誌物的閾值,則判斷為患有食管癌,或存在患有食管癌的風險。
在一些實施方案中,以本文所述的單個目標標誌物的甲基化水平為判斷依據,根據上述公式計算得到每個樣本中該目標標誌物的MHF,並藉由訓練的模型得到該目標標誌物的預測分值,若該值高於表19中所示的該目標標誌物的閾值,則判斷為患有肝癌,或存在患有肝癌的風險。
應理解,當使用兩個及以上目標標誌物時,每個樣本都可由檢測得到的各目標標誌物中的CpG位點的甲基化水平計算獲得各自的MHF。在訓練集的樣本中,使用所有樣本得到的該兩個及以上的目標標記物的MHF進行訓練,得到上述預測模型公式的參數。對於待測樣本,藉由將計算得到該樣本的MHF帶入到由訓練集確定的預測模型的公式中,獲得預測模型分值y,並將該y與以由訓練集中該兩個及以上目標標記物獲得的約登指數界定的閾值相比,其中,高於該閾值則判斷為患有癌症,或存在患有癌症的風險。
除上述比較之外,所屬技術領域中具有通常知識者還可以基於各種因素,例如年齡、性別、病史、家族史、症狀等,來確定個體患有癌症的風險。
VI組成物和試劑盒
本發明提供一種用於癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)鑑別的甲基化檢測或診斷試劑盒和診斷試劑或診斷組成物,該試劑盒和組成物包括用於檢測本文該一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑。根據待檢測的目標標誌物,試劑盒和組成物中可含有引子和/或探針分子。較佳地,引子包括能夠與該待檢測的目標標誌物或其目標區域在嚴謹條件下、中等嚴謹條件下或高度嚴謹條件下雜交的引子對。引子還可包括檢測內參如ACTB的引子。
在一些實施方式中,該引子被包裝在單一容器內或被包裝在獨立容器內。在一些實施方式中,該試劑盒進一步包含一個或多個封閉寡核苷酸。
在一些實施方式中,該試劑盒和組成物進一步包含檢測試劑。在一些實施方式中,該檢測試劑選自下組:螢光探針,嵌入染料、生色團標記的探針、放射性同位素標記的探針和生物素標記的探針。
在一些實施方式中,該試劑盒還可包含DNA聚合酶和/或適合存放從個體獲取的生物樣品的容器。在一些實施方式中,該試劑盒進一步含使用說明書和/或對試劑盒檢測結果的解釋。
在一些實施方式中,該試劑盒和組成物還可包括用於酶促法或非酶促法進行轉化的試劑。在較佳的實施方案中,所示試劑盒還包括亞硫酸氫鹽試劑或甲基化敏感限制酶(MSRE)。在一些實施方式中,該亞硫酸氫鹽試劑選自下組:亞硫酸氫銨、亞硫酸氫鈉、亞硫酸氫鉀、亞硫酸氫鈣、亞硫酸氫鎂、亞硫酸氫鋁、亞硫酸氫根離子,及其任意組合。在一些實施方式中,亞硫酸氫鹽試劑是亞硫酸氫鈉。在一些實施方式中,該MSRE選自下組:HpaII酶、SalI酶、SalI-HF®酶、ScrFI酶、BbeI酶、NotI酶、SmaI酶、XmaI酶、MboI酶、BstBI酶、ClaI酶、MluI酶、NaeI酶、NarI酶、PvuI酶、SacII酶、HhaI酶及其任意組合。
該試劑盒和組成物還可包括經轉化的陽性標準品,其中未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。該陽性標準品可以是完全甲基化的。
該試劑盒和組成物還可包括PCR反應試劑。較佳地,該PCR反應試劑包括Taq DNA聚合酶、PCR緩衝液(buffer)、dNTPs、Mg2+
在一些實施方式中,該試劑盒和組成物還包含可用於進行CpG位置特異性甲基化分析的標準試劑,其中該分析包括以下一種或多種技術:MS-SNuPE、MSP、MethyLightTM、HeavyMethylTM、COBRA和核酸測序。
在一些實施方式中,該試劑盒和組成物可包含選自下組的額外的試劑:緩衝液(例如限制酶、PCR、保存或洗滌緩衝液)、DNA回收試劑或試劑盒(例如沉澱、超濾、親和管柱)和DNA回收組件等。
本申請的試劑盒可進一步包含在DNA富集領域中已知的以下組分的一種或幾種:蛋白組分,該蛋白選擇性地結合甲基化的DNA;三鏈形成核酸組分,一個或多個接頭,視需要地在合適的溶液中;用於進行連接的物質或溶液,例如連接酶、緩衝液;用於進行管柱層析的物質或溶液;用於進行免疫學為基礎的富集(例如免疫沉澱)的物質或溶液;用於進行核酸擴增的物質或溶液,例如PCR;一種染料或幾種染料,若適用於偶聯劑,若適用於溶液中;用於進行雜交的物質或溶液;和/或用於進行洗滌步驟的物質或溶液。
在其他一些實施方案中,本申請的組成物含有分離的核酸分子,該分離的核酸分子選自以下的一種或多種:SEQ ID NO:1-47中任一項所示。。
在其他一些實施方案中,本申請的組成物含有分離的核酸分子,該分離的核酸分子選自以下的一種或多種:SEQ ID NO:48-95中任一項所示。
在其他一些實施方案中,本申請的組成物含有分離的核酸分子,該分離的核酸分子選自以下的一種或多種:SEQ ID NO:96-138中任一項所示。
在其他一些實施方案中,本申請的組成物含有分離的核酸分子,該分離的核酸分子選自以下的一種或多種:SEQ ID NO:139-340中任一項所示。
本申請還包括記載有本文所述分離的核酸分子的序列和視需要的其甲基化信息的介質,該介質用於與基因甲基化測序數據比對以確定該核酸分子的存在、含量和/或甲基化水平。較佳地,該介質是印有該序列和視需要的其甲基化信息的卡片,例如紙質、塑料、金屬、玻璃卡片。較佳地,該介質是存儲有該序列和視需要的其甲基化信息和計算機程序的計算機可讀介質,當該計算機程序被處理器執行時,實現下述步驟:將樣品的甲基化測序數據與該序列比較,從而獲得該樣品中含該序列的核酸分子的存在、含量和/或甲基化水平。
本申請還包括一種用於鑑別癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)的裝置,該裝置包括存儲器、處理器以及存儲在存儲器上並可在處理器上運行的計算機程序,該處理器執行該程序時實現以下步驟:(1)獲取樣品中選自以下一種或多種本文所述的目標標誌物或其目標區域的甲基化水平,(2)根據(1)的甲基化水平判讀是否為癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)。較佳地,該獲取步驟採用本申請第IV部分所述的任意一種方法進行;較佳地,該判讀採取本申請第V部分所述的任意一種方法進行。
VII 用途
本申請還提供本申請所述的分離的核酸分子做為檢測靶標在癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)診斷中的應用。
與現有的分子診斷癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)技術相比,本申請提供的甲基化標誌物和技術方案有效地解決了目前診斷技術敏感性低的問題,有助於癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)的早診早治,以提高治癒率。
基於發明人的發現,本發明提供一種用於篩查癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)風險、診斷癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)、評估癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)預後的方法,包括:(1)檢測對象的樣品中本申請所述癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)相關序列(一個或多個標誌物)的甲基化水平,例如藉由測序;(2)比較步驟(1)中標記物的甲基化水平和相應的參考水平,(3)根據比較結果篩查癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)風險、診斷癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)或評估癌症(例如,結直腸癌、 胃癌、食管癌和/或肝癌)預後。通常,該方法在步驟(1)之前還包括:樣品DNA的抽提、質檢、和/或將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。
步驟(1)的檢測可以是任何適用於檢測基因組DNA甲基化的檢測方法。在具體實施方案中,步驟(1)包括:用轉化試劑處理基因組DNA,使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基(例如尿嘧啶);使用引子進行PCR擴增,該引子適用於擴增本申請所述癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)相關序列的經轉化的序列;藉由擴增產物的有或無、或者序列鑑定(例如基於探針的PCR檢測鑑定或DNA測序鑑定)確定至少一個CpG的甲基化水平。或者步驟(1)還可包括:用甲基化敏感的限制性內切酶處理基因組DNA;使用引子進行PCR擴增,該引子適用於擴增具有本申請所述結直腸癌相關序列中含有至少一個CpG二核苷酸的序列;藉由擴增產物的含量確定至少一個CpG的甲基化水平。
在一些實施方案中,步驟(2)中的比較包括:直接比較步驟(1)中標記物的甲基化水平和參考水平,或者藉由計算得出評分並比較標記物的甲基化水平的評分和相應的參考評分。較佳地,該評分藉由邏輯回歸模型進行計算。在一些實施方案中,步驟(3)包括:當標記物的甲基化水平大於參考水平,或者甲基化水平的評分大於參考評分,則該對象有形成癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)的風險、患有癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)或癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)預後不良。
本申請中,參考水平或參考評分是可作為診斷或篩查依據的參照甲基化水平或評分。這樣的水平或評分可以藉由基於癌症(例如,結直腸癌、胃 癌、食管癌和/或肝癌)或風險對象的樣品與健康對象、無癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)或風險的對象的樣品之間的比較來獲得。此外,參考水平或參考評分也可以是健康對象、無癌症(例如,結直腸癌、胃癌、食管癌和/或肝癌)或風險的對象的水平或評分。參考水平或參考評分可以源自一個對象或至少兩個對象的群。所屬技術領域中具有通常知識者可以根據期望的靈敏度和特異性來選擇參考水平。
實施方案A
另一方面,本申請提供了如下實施方案:
1.檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑在製備診斷胃癌的檢測試劑或診斷試劑盒中的應用,以及用於確定一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的裝置在製備診斷胃癌的診斷試劑盒中的應用;其中,該一個或多個目標標誌物選自以下序列(1)-(48)中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47條或全部48條序列:
((1)含chr6:166970625:166970825(SEQ ID NO:48)及其上游5kb以內和/或下游5kb以內的序列;
(2)含chr11:11600237:11600617(SEQ ID NO:49)及其上游5kb以內和/或下游5kb以內的序列;
(3)含chr17:76929754:76929954(SEQ ID NO:50)及其上游5kb以內和/或下游5kb以內的序列;
(4)含chr6:391738:391938(SEQ ID NO:51)及其上游5kb以內和/或下游5kb以內的序列;
(5)含chr12:2282090:2282290(SEQ ID NO:52)及其上游5kb以內和/或下游5kb以內的序列;
(6)含chr2:177030134:177030449(SEQ ID NO:53)及其上游5kb以內和/或下游5kb以內的序列;
(7)含chr7:35301095:35301411(SEQ ID NO:54)及其上游5kb以內和/或下游5kb以內的序列;
(8)含chr7:8482114:8482413(SEQ ID NO:55)及其上游5kb以內和/或下游5kb以內的序列;
(9)含chr2:72371208:72371433(SEQ ID NO:56)及其上游5kb以內和/或下游5kb以內的序列;
(10)含chr5:134364359:134364559(SEQ ID NO:57)及其上游5kb以內和/或下游5kb以內的序列;
(11)含chr10:118892523:118892723(SEQ ID NO:58)及其上游5kb以內和/或下游5kb以內的序列;
(12)含chr12:113901298:113901498(SEQ ID NO:59)及其上游5kb以內和/或下游5kb以內的序列;
(13)含chr8:143613755:143613955(SEQ ID NO:60)及其上游5kb以內和/或下游5kb以內的序列;
(14)含chr8:20375580:20375780(SEQ ID NO:61)及其上游5kb以內和/或下游5kb以內的序列;
(15)含chr7:107499318:107499518(SEQ ID NO:62)及其上游5kb以內和/或下游5kb以內的序列;
(16)含chr6:1378941:1379141(SEQ ID NO:63)及其上游5kb以內和/或下游5kb以內的序列;
(17)含chr15:34786976:34787337(SEQ ID NO:64)及其上游5kb以內和/或下游5kb以內的序列;
(18)含chr1:156405314:156405514(SEQ ID NO:65)及其上游5kb以內和/或下游5kb以內的序列;
(19)含chr8:10588811:10589173(SEQ ID NO:66)及其上游5kb以內和/或下游5kb以內的序列;
(20)含chr4:85418610:85418919(SEQ ID NO:67)及其上游5kb以內和/或下游5kb以內的序列;
(21)含chr5:140871317:140871517(SEQ ID NO:68)及其上游5kb以內和/或下游5kb以內的序列;
(22)含chr5:92906255:92906617(SEQ ID NO:69)及其上游5kb以內和/或下游5kb以內的序列;
(23)含chr14:57265398:57265598(SEQ ID NO:70)及其上游5kb以內和/或下游5kb以內的序列;
(24)含chr19:19650947:19651147(SEQ ID NO:71)及其上游5kb以內和/或下游5kb以內的序列;
(25)含chr11:20618486:20618686(SEQ ID NO:72)及其上游5kb以內和/或下游5kb以內的序列;
(26)含chr7:73407894:73408161(SEQ ID NO:73)及其上游5kb以內和/或下游5kb以內的序列;
(27)含chr16:82660460:82660774(SEQ ID NO:74)及其上游5kb以內和/或下游5kb以內的序列;
(28)含chr13:24844736:24844936(SEQ ID NO:75)及其上游5kb以內和/或下游5kb以內的序列;
(29)含chr20:55500358:55500677(SEQ ID NO:76)及其上游5kb以內和/或下游5kb以內的序列;
(30)含chr10:123923943:123924143(SEQ ID NO:77)及其上游5kb以內和/或下游5kb以內的序列;
(31)含chr20:59827678:59827907(SEQ ID NO:78)及其上游5kb以內和/或下游5kb以內的序列;
(32)含chr20:62330559:62330808(SEQ ID NO:79)及其上游5kb以內和/或下游5kb以內的序列;
(33)含chr19:13209774:13209974(SEQ ID NO:80)及其上游5kb以內和/或下游5kb以內的序列;
(34)含chr16:2085778:2086156(SEQ ID NO:81)及其上游5kb以內和/或下游5kb以內的序列;
(35)含chr6:108488634:108488917(SEQ ID NO:82)及其上游5kb以內和/或下游5kb以內的序列;
(36)含chr12:115124911:115125191(SEQ ID NO:83)及其上游5kb以內和/或下游5kb以內的序列;
(37)含chr10:124896740:124897020(SEQ ID NO:84)及其上游5kb以內和/或下游5kb以內的序列;
(38)含chr14:55243006:55243206(SEQ ID NO:85)及其上游5kb以內和/或下游5kb以內的序列;
(39)含chr13:36729096:36729334(SEQ ID NO:86)及其上游5kb以內和/或下游5kb以內的序列;
(40)含chr2:10444997:10445197(SEQ ID NO:87)及其上游5kb以內和/或下游5kb以內的序列;
(41)含chr9:2157701:2157901(SEQ ID NO:88)及其上游5kb以內和/或下游5kb以內的序列;
(42)含chr12:57529619:57529819(SEQ ID NO:89)及其上游5kb以內和/或下游5kb以內的序列;
(43)含chr1:119527250:119527450(SEQ ID NO:90)及其上游5kb以內和/或下游5kb以內的序列;
(44)含chr1:119532788:119532988(SEQ ID NO:91)及其上游5kb以內和/或下游5kb以內的序列;
(45)含chr15:96909441:96909641(SEQ ID NO:92)及其上游5kb以內和/或下游5kb以內的序列;
(46)含chr1:146551463:146551747(SEQ ID NO:93)及其上游5kb以內和/或下游5kb以內的序列;
(47)含chr17:35293755:35293955(SEQ ID NO:94)或其上下游各5kb以內的序列;和
(48)含chr17:59482763:59482963(SEQ ID NO:95)或其上下游各5kb以內的序列。
2.如實施方式1所述的應用,其特徵在於,
該一個或多個目標標誌物包括該第(3)、(8)、(13)、(15)、(17)、(19)、(22)、(25)、(29)、(31)、(37)、(38)、(40)、(41)、(42)、(43)、(45)、(47)和(48)項所述的序列;或
該一個或多個目標標誌物包括該第(2)、(6)、(7)、(8)、(12)、(15)、(19)、(25)、(28)、(32)、(33)、(36)、(37)、(40)、(42)、(43)、(44)、(46)和(48)項所述的序列;或
該一個或多個目標標誌物包括該第(3)、(13)、(14)、(20)、(22)、(28)、(30)和(36)項所述的序列;或
該一個或多個目標標誌物包括該第(3)、(13)、(27)、(30)和(35)項所述的序列;或
該一個或多個目標標誌物包括該第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)項所述的序列。
3.如實施方式1所述的應用,其特徵在於,該一個或多個目標標誌物選自該第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)項中任意1、2、3、4、5、6、7、8或9項所述的序列。
4.如實施方式1所述的應用,其特徵在於,
該目標標誌物包括第(40)項所述序列,以及第(1)-(39)和(41)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(47)項所述序列,以及第(1)-(46)和(48)中的任意一條或多條序列;或
該目標標誌物包括第(43)項所述序列,以及第(1)-(42)和(44)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(26)項所述序列,以及第(1)-(25)和(27)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(35)項所述序列,以及第(1)-(34)和(36)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(14)項所述序列,以及第(1)-(13)和(15)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(38)項所述序列,以及第(1)-(37)和(39)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(22)項所述序列,以及第(1)-(21)和(23)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(7)項所述序列,以及第(1)-(6)和(8)-(48)中的任意一條或多條序列;或
該目標標誌物包括第(48)項所述序列,以及第(1)-(47)中的任意一條或多條序列。
5.如實施方式1至4中任一項所述的應用,其特徵在於,該目標標誌物包括該SEQ ID NO:48-95各序列各起始位點的上游1kb以內、較佳500bp以內、更佳300bp以內、更佳100bp以內的序列和/或各末端位點的下游1kb以內、較佳500bp以內、較佳300bp以內、較佳100bp以內的序列;較佳地, 該目標標誌物是含有該SEQ ID NO:48-95任一序列且長度為400bp以內的基因序列。
6.如實施方式1至4中任一項所述的應用,其特徵在於,該第(1)到第(48)項該序列分別是SEQ ID NO:48-95所示的序列。
7.如實施方式1至6中任一項所述的應用,其特徵在於,該試劑包括引子和/或探針分子;
較佳地,該引子分子相同於、互補於或在嚴謹條件下雜交於該一個或多個目標標誌物並包含至少9個連續的核苷酸,該探針分子與該一個或多個目標標誌物的擴增產物在嚴謹條件下雜交。
8.如實施方式1至6中任一項所述的應用,其特徵在於,該試劑為實施基因組簡化甲基化測序技術所需的試劑。
9.一種用於檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或甲基化水平以診斷胃癌的診斷試劑或診斷試劑盒,其包含用於檢測一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平的試劑;其中,該一個或多個目標標誌物如實施方式1至6中任一項所述。
10.如實施方式9所述的診斷試劑或診斷試劑盒,其特徵在於,該診斷試劑或診斷試劑盒包括引子和/或探針分子;較佳地,該引子分子相同於、互補於或在嚴謹條件下雜交於該一個或多個目標標誌物並包含至少9個連續的核苷酸,該探針分子與該一個或多個目標標誌物的擴增產物在嚴謹條件下雜交;
視需要地,該診斷試劑或診斷試劑盒還包括檢測內參基因ACTB的引子分子和/或探針分子。
11.如實施方式9所述的診斷試劑或診斷試劑盒,其特徵在於,該診斷試劑或診斷試劑盒還包括選自以下的一種或多種物質:PCR緩衝液、聚合酶、dNTP、限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標、對照物、KCl、MgCl2和(NH4)2SO4
12.如實施方式9所述的診斷試劑或診斷試劑盒,其特徵在於,該試劑還包括下述一個或多個方法中所用的試劑:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析和質譜。
13.如實施方式12所述的診斷試劑或診斷試劑盒,其特徵在於,該試劑選自以下一種或多種:重亞硫酸鹽及其衍生物、螢光染料、螢光淬滅劑、螢光報告劑、內標和對照物。
14.區分基因組DNA至少一個靶區域內甲基化和未甲基化CpG二核苷酸的至少一種試劑或成組試劑在製備用於檢測和/或分類個體中胃癌的方法的試劑盒中的用途,其中該方法包括使從該個體生物樣品中分離的基因組DNA與該至少一種試劑或成組試劑接觸,其中該靶區域等同於或互補於一個或多個目標標誌物的至少16連續核苷酸的序列,其中該連續核苷酸包含至少一個CpG二核苷酸序列,由此至少部分地提供對胃癌的檢測和/或分類,其中,該一個或多個目標標誌物如實施方式1至6中任一項所述。
15.將5位未甲基化的胞嘧啶鹼基轉化為尿嘧啶或在雜交性能方面可檢測地不同於胞嘧啶的其它鹼基的一種或多種試劑、擴增酶以及至少一種包含至少9個連續核苷酸的引子在製備用於檢測和/或分類個體中胃癌的方法的試劑盒中的用途,其中該方法包括:
a)從該個體生物樣品分離基因組DNA;
b)用該一種或多種試劑處理a)的該基因組DNA或其片段;
c)使該經處理的基因組DNA或其經處理的片段與該擴增酶和該至少一種引子接觸,該引子相同於、互補於或在嚴謹條件下雜交於一個或多個目標標誌物,其中該經處理的基因組DNA或其片段被擴增以產生至少一種擴增產物或不被擴增;以及
d)基於該擴增物是否存在或其性質,確定該一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平,或者反映該一個或多個目標標誌物的多個CpG二核苷酸平均甲基化狀態或水平的均值或值,由此至少部分地檢測和/或分類個體中的胃癌;
其中,該一個或多個目標標誌物如實施方式1至6中任一項所述。
16.如實施方式15所述的用途,其中步驟b)中,使用選自亞硫酸氫鹽、酸式亞硫酸鹽、焦亞硫酸鹽及其組合的試劑處理該基因組DNA或其片段。
17.如實施方式16所述的用途,其中c)中,藉由使用耐熱DNA聚合酶作為該擴增酶、使用缺乏5’-3’外切酶活性的聚合酶、使用聚合酶鏈式反應和/或產生帶有可檢測標記的擴增產物進行核酸分子的接觸或擴增。
18.如實施方式15所述的用途,其中c)中的接觸或擴增包括使用甲基化特異的引子。
19.一種或多種甲基化敏感限制酶和擴增酶以及至少一種包含至少9個連續核苷酸的引子在製備用於檢測和/或分類個體中胃癌的方法的試劑盒 中的用途,其中,該引子相同於、互補於或在嚴謹條件下雜交於一個或多個目標標誌物;該方法包括:
a)從該個體生物樣品分離基因組DNA;
b)以該一種或多種甲基化敏感限制酶消化a)該基因組DNA或其片段,使所得消化產物與該擴增酶和該至少一種引子接觸;和
c)基於該擴增物是否存在或其性質,確定該一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化狀態或水平,由此至少部分地檢測和/或分類個體中的胃癌;
其中,該一個或多個目標標誌物如實施方式1至6中任一項所述。
20.如實施方式19所述的用途,其特徵在於,藉由雜交至少一種核酸或肽核酸來確定擴增產物的存在與否,該至少一種核酸或肽核酸等同於或互補於選自該一個或多個目標標誌物的序列的至少16鹼基長片段。
21.衍生自一個或多個目標標誌物的經處理的核酸在製備用於診斷胃癌的試劑盒中的用途,其中該處理適合於將該一個或多個目標標誌物的至少一個未甲基化的胞嘧啶鹼基轉化至尿嘧啶或在雜交上可檢測地不同於胞嘧啶的其它鹼基,該一個或多個目標標誌物如實施方式1至6中任一項所述。
22.用於檢測並診斷個體胃癌的裝置,該裝置包括存儲器、處理器以及存儲在存儲器上並可在處理器上運行的計算機程序,該處理器執行該程序時實現以下步驟:(1)獲取樣品中一個或多個目標標誌物的至少一個CpG二核苷酸的甲基化水平或甲基化狀態,和(2)根據(1)的甲基化水平或甲基化狀態判讀胃癌;
其中,該一個或多個目標標誌物如實施方式1至6中任一項所述。
實施方案B
另一方面,本申請提供了以下實施方案:
1.一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自表1中任意一種或多種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
2.一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
3.一種評估食管癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:105上游或下游5k bp以內的區域以及表2中任意一種或多種基因所在的DNA區域、或其片段的修飾狀態的存在和/或含量。
4.如實施方式1至3中任一項所述的方法,該方法還包含獲取待測樣本中的核酸。
5.如實施方式4所述的方法,該核酸包含無細胞游離核酸。
6.如實施方式1至5中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
7.如實施方式1至6中任一項所述的方法,該待測樣本包含血漿。
8.如實施方式1至7中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
9.如實施方式8所述的方法,具有該修飾狀態的鹼基以及不具有該修飾狀態的該鹼基,在轉化後分別形成不同的物質。
10.如實施方式1至9中任一項所述的方法,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
11.如實施方式9或10所述的方法,該鹼基包含胞嘧啶。
12.如實施方式1至11中任一項所述的方法,該修飾狀態包含甲基化修飾。
13.如實施方式10至12中任一項所述的方法,該其它鹼基包含尿嘧啶。
14.如實施方式8至13中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
15.如實施方式14所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
16.如實施方式1至15中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
17.如實施方式1至16中任一項所述的方法,藉由測序方法檢測具有該修飾狀態的DNA區域或其片段的存在和/或含量。
18.如實施方式1至17中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水平具有更高的修飾狀態的含量,確定腫瘤的存在和/或進展。
19.一種核酸,該核酸包含能夠結合選自表1中任意一種或多種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
20.一種核酸,該核酸包含能夠結合選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
21.一種核酸,該核酸包含能夠結合選自SEQ ID NO:105上游或下游5k bp以內的區域以及表2中任意一種或多種基因所在的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
22.一種試劑盒,包含如實施方式19至21中任一項所述的核酸。
23.如實施方式19至21中任一項所述的核酸、和/或實施方式22所述的試劑盒,在製備疾病檢測產品中的應用。
24.如實施方式19至21中任一項所述的核酸、和/或實施方式22所述的試劑盒,在製備評估食管癌的存在和/或進展的物質中的應用。
25.如實施方式19至21中任一項所述的核酸、和/或實施方式22所述的試劑盒,在製備確定該DNA區域或其片段的修飾狀態的物質中的應用。
26.一種製備核酸的方法,包含根據選自表1中任意一種或多種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
27.一種製備核酸的方法,包含根據選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
28.一種製備核酸的方法,包含根據選自SEQ ID NO:105上游或 下游Sk bp以內的區域以及表2中任意一種或多種基因所在的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
29.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估食管癌的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自表1中任意一種或多種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
30.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估食管癌的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自SEQ ID NO:96至138中任一項所示上游或下游5k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
31.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估食管癌的存在和/或進展的物質中的應用,該用於確定的DNA區域包含選自SEQ ID NO:105上游或下游5k bp以內的區域以及表2中任意一種或多種基因所在的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
32.如實施方式29至31中任一項所述的應用,該修飾狀態包含甲基化修飾。
33.一種儲存介質,其記載可以運行實施方式1至18中任一項所述的方法的程序。
34.一種設備,其包含實施方式33所述的儲存介質,以及視需要地還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介 質中的程序執行以實現實施方式1至18中任一項所述的方法。
實施方案C
另一方面,本申請提供了以下實施方案:
1.一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自表3中任意一種或多種DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
2.一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自SEQ ID NO:139至340中任一項所示上游或下游1k bp以內的DNA區域、或其互補區域、或上述的片段的修飾狀態的存在和/或含量。
3.一種評估肝癌的存在和/或進展的方法,包含確定待測樣本中選自表4中任意一種或多種基因所在上游或下游1k bp以內的DNA區域、或其片段的修飾狀態的存在和/或含量。
4.如實施方式1至3中任一項所述的方法,該方法還包含獲取待測樣本中的核酸。
5.如實施方式4所述的方法,該核酸包含無細胞游離核酸。
6.如實施方式1至5中任一項所述的方法,該待測樣本包含組織、細胞和/或體液。
7.如實施方式1至6中任一項所述的方法,該待測樣本包含血漿。
8.如實施方式1至7中任一項所述的方法,該方法還包含轉化該DNA區域或其片段。
9.如實施方式8所述的方法,具有該修飾狀態的鹼基以及不具有 該修飾狀態的該鹼基,在轉化後分別形成不同的物質。
10.如實施方式1至9中任一項所述的方法,具有該修飾狀態的鹼基在轉化後基本不發生改變,且不具有該修飾狀態的該鹼基在轉化後改變為與該鹼基不同的其它鹼基、或在轉化後被剪切。
11.如實施方式9或10所述的方法,該鹼基包含胞嘧啶。
12.如實施方式1至11中任一項所述的方法,該修飾狀態包含甲基化修飾。
13.如實施方式10至12中任一項所述的方法,該其它鹼基包含尿嘧啶。
14.如實施方式8至13中任一項所述的方法,該轉化包含藉由脫胺基試劑和/或甲基化敏感限制酶轉化。
15.如實施方式14所述的方法,該脫胺基試劑包含亞硫酸氫鹽或其類似物。
16.如實施方式1至15中任一項所述的方法,該確定修飾狀態的存在和/或含量的方法包含,確定具有該修飾狀態的DNA區域或其片段的存在和/或含量。
17.如實施方式1至16中任一項所述的方法,藉由測序方法檢測具有該修飾狀態的DNA區域或其片段的存在和/或含量。
18.如實施方式1至17中任一項所述的方法,藉由確認該DNA區域或其片段的修飾狀態的存在和/或該DNA區域或其片段相對於參考水平具有更高的修飾狀態的含量,確定腫瘤的存在和/或進展。
19.一種核酸,該核酸包含能夠結合選自表3中任意一種或多種 DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
20.一種核酸,該核酸包含能夠結合選自SEQ ID NO:139至340中任一項所示上游或下游1k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
21.一種核酸,該核酸包含能夠結合選自表4中任意一種或多種基因所在上游或下游1k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
22.一種試劑盒,包含如實施方式19至21中任一項所述的核酸。
23.如實施方式19至21中任一項所述的核酸、和/或實施方式22所述的試劑盒,在製備疾病檢測產品中的應用。
24.如實施方式19至21中任一項所述的核酸、和/或實施方式22所述的試劑盒,在製備評估食管癌的存在和/或進展的物質中的應用。
25.如實施方式19至21中任一項所述的核酸、和/或實施方式22所述的試劑盒,在製備確定該DNA區域或其片段的修飾狀態的物質中的應用。
26.一種製備核酸的方法,包含根據選自表3中任意一種或多種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
27.一種製備核酸的方法,包含根據選自SEQ ID NO:139至340中任一項所示上游或下游1k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
28.一種製備核酸的方法,包含根據選自表4中任意一種或多種基因所在上游或下游1k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的修飾狀態,設計能夠結合該DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的核酸。
29.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估肝癌的存在和/或進展的物質中的應用,該用於確定上游或下游1k bp以內的DNA區域包含選自表3中任意一種或多種DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
30.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估肝癌的存在和/或進展的物質中的應用,該用於確定上游或下游1k bp以內的DNA區域包含選自SEQ ID NO:139至340中任一項所示上游或下游1k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
31.用於確定DNA區域修飾狀態的核酸、核酸組和/或試劑盒,在製備用於評估肝癌的存在和/或進展的物質中的應用,該用於確定上游或下游1k bp以內的DNA區域包含選自表4中任意一種或多種基因所在上游或下游1k bp以內的DNA區域、或其互補區域、或上述的轉化而來的區域、或上述的片段的序列。
32.如實施方式29至31中任一項所述的應用,該修飾狀態包含甲基化修飾。
33.一種儲存介質,其記載可以運行實施方式1至18中任一項所述的方法的程序。
34.一種設備,其包含實施方式33所述的儲存介質,以及視需要地還包含耦接至該儲存介質的處理器,該處理器被配置為基於存儲在該儲存介質中的程序執行以實現實施方式1至18中任一項所述的方法。
不欲被任何理論所限,下文中的實施例僅僅是為了闡釋本申請的融合蛋白、製備方法和用途等,而不用於限制本申請發明的範圍。
實施例
實施例1結直腸癌樣本處理及甲基化標誌物篩選
實驗樣本
收集了總計108個結直腸癌血液樣本、108個年齡性別匹配的無結直腸癌血液樣本,所有入組患者簽署知情同意書,樣本信息見表6:
表6
Figure 112135115-A0202-12-0129-122
實驗方法
1.樣本cfDNA提取
所有血液樣本均在Streck管中採集,為了提取血漿,首先將血液樣本在4℃下以1600g離心10min。為了防止破壞buffy coat層,需要設置了平滑制動模式。然後將上清液轉移到新的1.5ml錐形管中,並在4℃下以16000g離心10min。將上清液再次轉移到新的1.5ml錐形管中,並在-80℃下儲存。
為了提取循環游離DNA(cfDNA),根據製造商的說明,將血漿等分解凍並立即使用QIAamp循環核酸提取試劑盒(Qiagen 55114)進行處理。提取的cfDNA濃度用qubit3.0定量。
2.亞硫酸氫鹽轉化與文庫製備
亞硫酸氫鈉轉化胞嘧啶鹼基進行了使用亞硫酸氫鹽轉化試劑盒(ThermoFisher,MECOV50)。根據製造商的說明,將20ng基因組DNA或ctDNA轉化並純化以用於下游應用。
樣品DNA的抽提、質檢、和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,該轉化使用酶促方法進行,較佳脫胺酶處理,或該轉化使用非酶促方法進行,較佳用亞硫酸氫鹽或重硫酸鹽處理,更佳使用亞硫酸氫鈣、亞硫酸氫鈉、亞硫酸氫鉀、亞硫酸氫銨、重硫酸鈉、重硫酸鉀和重硫酸銨處理。
使用MethylTitan(CN201910515830)方法建庫,MethylTitan方法,具體如下,被亞硫酸氫鹽轉化的DNA去磷酸化後連接到帶有分子標簽(UMI)的通用illumina測序接頭上。在進行第二鏈合成和純化後,對轉化後的DNA進行半靶向PCR反應,以靶向擴增需要的目標區域。再次純化後,藉由PCR反應將樣本特異的條形碼和全長Illumina測序接頭加到目標DNA分子上。最終形成的文庫然後使用Illumina的KAPA文庫定量試劑盒進行定量(KK4844),並在 Illumina測序儀進行測序,MethylTitan建庫方式在使用較少DNA量,尤其是cfDNA的情況下可以有效的富集需要的目標片段,同時改方法可以很好的保留原始DNA的甲基化狀態,最終藉由分析相鄰的CpG甲基化胞嘧啶(一個給定的目標可能有幾個到幾十個CpG,這取決於給定的區域),該特定區域的整個甲基化模式可以作為一個獨特的標記,而不是對單個鹼基的狀態進行比較。
3.測序及數據預處理
1)使用Illumina Hiseq 2500測序儀進行雙端測序,測序量為每個樣本25~35M;使用Trim_galore v 0.6.0、cutadapt v2.1軟體對Illumina Hiseq 2500測序儀下機的雙端150bp測序數據進行去接頭處理。在Read 1的3’端去除接頭序列為“AGATCGGAAGAGCACACGTCTGAACTCCAGTC(SEQ ID NO:341)”,在Read 2的3’端去除接頭序列“AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT(SEQ ID NO:342)”,並去除兩端測序質量值低於20的鹼基。如果5’端有3bp的接頭序列則去掉整條read。去接頭後短於30個鹼基的read也被去掉。
2)使用Pear v0.9.6軟體合併雙端序列為單端序列。合併至少重疊20個鹼基的兩端reads,如果合併之後的reads短於30個鹼基則捨棄。
4.測序數據比對
本實施例使用的參考基因組數據來自UCSC數據庫(UCSC:hg19,http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
1)首先將hg19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
2)將預處理的數據同樣進行CT和GA轉化。
3)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
5.提取甲基化信息
對於每個目標區域hg19的CpG位點,根據上述比對結果,獲取每個位點對應的甲基化水平。本發明涉及到的位點的核苷酸編號對應於hg19的核苷酸位置編號。
1)甲基化單倍型比例(MHF)的計算,對於每個目標區域hg19的CpG位點,根據上述比對結果,獲取reads中每個位點對應的鹼基序列,C表示該位點發生甲基化,T表示該位點未甲基化狀態。本申請中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目標區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
MHFi,h=(Ni,h)/Ni
其中i表示目標甲基化區間,h表示目標的甲基化haplotype,Ni表示位於目標甲基化區間的reads數目,Ni,h表示包含目標甲基化haplotype的reads數目
2)平均甲基化水平(AMF)的計算,對於每個目標區域計算區域內甲基化的平均水平。公式如下:
Figure 112135115-A0202-12-0132-123
其中m為該目標中總的CpG位點數,i為區間內每個CpG位點,NC,i為該CpG位點鹼基為C的reads數(即該位點發生甲基化的reads數),NT,i為該CpG位點鹼基為T的reads數(即該位點未甲基化的測序reads數)
6.甲基化單倍型數據矩陣
1)將訓練集和測試集的各個樣本的甲基化單倍型比例(MHF)和平均甲基化水平(AMF)數據分別合併成數據矩陣,對每個深度低於200的位點做缺失值處理。
2)去除缺失值比例高於10%的位點。
3)對於數據矩陣的缺失值,利用KNN算法進行缺失數據插補。首先使用訓練集利用KNN算法訓練插補器,然後分別對訓練集矩陣和測試集矩陣進行插補。
7.根據特徵矩陣篩選甲基化標誌物(圖1)
1)對訓練集隨機分成3折,取其中2份作為訓練集構建邏輯回歸模型,其中1份作為驗證數據,對驗證數據進行預測。重複5次後,計算每個目標區域驗證集平均AUC。對每個目標區域篩選AUC最大的特徵作為該區域的代表特徵,並按照AUC從大到小排序。
2)將訓練集隨機分成5份做5折交叉驗證,重複10次,進行增量特徵篩選。具體過程為:留出訓練集中的一份數據作為驗證數據,其餘訓練集數據作為訓練數據。按照上述順序依次將每個區域的代表特徵加入特徵組合,使用4份訓練數據構建邏輯回歸模型,對驗證數據進行預測。重複10次後計算驗證數據平均AUC。
3)如果訓練數據的AUC增加則保留該甲基化標誌物,否則則去掉,循環過後將得到的特徵組合作為甲基化標誌物組合,使用所有訓練集數據訓練新的模型,並使用測試集數據進行驗證。
實施例2甲基化靶向測序篩選結直腸癌特異性的甲基化位點
發明人從大量候選區域中篩選出47個甲基化標誌物,其基因組位置和關聯基因如表1所示,甲基化標誌物基因組位置指該甲基化標誌物在UCSC(https://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19)HG19基因組位置。甲基化標誌物關聯基因指TSS距離甲基化標誌物100Kb內,並且距離最近的基因。
選擇SEQ ID NO:1-47所示的序列作為實施例中使用的甲基化標誌物,每個甲基化標誌物的所有CpG位點的甲基化水平都可以藉由MethylTitan甲基化測序的方法獲得。每個區域中所有CpG位點甲基化水平的均值,單個CpG位點的甲基化水平,以及區域內CpG位點甲基化單倍型組合都可以作為結直腸癌的標誌物。
圖2箱線圖展示訓練集結直腸癌和非結直腸癌47個甲基化標誌物甲基化水平分佈。圖3箱線圖展示測試集結直腸癌和非結直腸癌47個甲基化標誌物甲基化水平分佈。從圖2和圖3的箱線圖中可以看出,甲基化標誌物區域內的平均甲基化水平在結直腸癌癌與無結直腸癌cfDNA樣品中的分佈顯著不同,具備良好的區分效果。
表7中P值為Mann Whitney U Test P value,甲基化水平表示該組cfDNA樣品甲基化水平中位數。表7的統計結果也顯示本申請的47個甲基化標誌物,甲基化水平在結直腸癌和非結直腸癌樣本間具有顯著性的差異(P<0.001),是良好的結直腸癌甲基化標誌物。
表7在訓練集和測試集中甲基化標誌物在結直腸癌中的甲基化水平
Figure 112135115-A0202-12-0134-124
Figure 112135115-A0202-12-0135-125
Figure 112135115-A0202-12-0136-126
實施例3單個甲基化標誌物判別結直腸癌是否存在的性能
為了驗證單個甲基化標誌物的區分結直腸癌和無結直腸癌的性能,使用單個marker的甲基化水平數據在實施例1訓練集數據中訓練模型,並使用測試集樣本對模型的性能進行驗證。
使用python(V3.9.7)中的sklearn(V1.0.1)包中的邏輯回歸模型:model=LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為不同marker的係數,b為截距值,y為模型預測分值:
Figure 112135115-A0202-12-0136-127
使用訓練集的樣本進行訓練:model.fit(Traindata,TrainPheno),其中TrainData是訓練集樣本中目標甲基化位點的數據,TrainPheno是訓練集樣本的性狀(結直腸癌為1,無結直腸癌為0),並根據訓練集的樣本確定模型的相關閾值。
使用測試集的樣本進行測試:TestPred=model.predict_proba(TestData),其中TestData為測試集樣本中目標甲基化位點的數據,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是結直腸癌進行判斷。
本實施例中單個甲基化標誌物邏輯回歸模型的效果見表8,從該表中可看出,所有的甲基化標誌物的不論在測試集和訓練集都可以達到0.75以上的AUC,都是較好的結直腸癌標誌物。
本申請中單個甲基化標誌物均可作為結直腸癌標誌物,採用邏輯回歸建模,根據訓練集設置閾值,大於閾值則預測為結直腸癌,反之則預測為非結直腸癌,訓練集和測試集都能達到很好的準確性,特異性和靈敏性,採用其它機器學習模型也可達到相似效果。
表8單個甲基化標誌物邏輯回歸模型的表現
Figure 112135115-A0202-12-0137-128
Figure 112135115-A0202-12-0138-129
實施例4結直腸癌所有目標甲基化標誌物的預測結果
本實施例使用所有的47個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型ALLMODEL,數據中準確區分出結直腸癌和非結直腸癌的樣本。具體的步驟與實施例2基本一致,不同之處是使用了所有47個目標甲基化標誌物組合(SEQ ID NO:1-47)的數據輸入模型。
訓練集和測試集中模型預測分值分佈見圖4。ROC曲線見圖5,在訓練集中結直腸癌和無結直腸癌樣本區分的AUC達到了0.965,測試集中,結直腸癌和無結直腸癌樣本區分的AUC達到了0.965,設置閾值為0.441,大於該值預測為結直腸癌,反之則預測為無結直腸癌,在該閾值下,訓練集準確性為0.894,訓練集特異性為0.932,訓練集敏感性為0.859,測試集準確性為0.892,測試集特異性為0.914,測試集敏感性為0.867,該模型可以較好地從樣本中區分出結直腸癌和無結直腸癌樣本。
實施例5結直腸癌9個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的47個甲基化標誌物的甲基化水平中挑選SEQ ID NO:4、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:30、SEQ ID NO:34、SEQ ID NO:37、SEQ ID NO:41共9個甲基化標誌物構建了邏輯回歸的機器學習模型SUBMODEL1。
機器學習模型構建的方法也同實施例3一致,但相關樣本只使用了該實施例中的以上9個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖6,該模型ROC曲線見圖7。可看出該模型在訓練集和測試集中,結直腸癌和無結直腸癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和無結直腸癌樣本區分的AUC達到了0.921,測試集中,結直腸癌和無結直腸癌樣本區分的AUC達到了0.917,設置閾值為0.502,大於該值預測為結直腸癌,反之則預測為無結直腸癌,在該閾值下,訓練集準確性為0.854,訓練集特異性為0.822,訓練集敏感性為0.885,測試集準確性為0.800,測試集特異性為0.800,測試集敏感性為0.800,說明了該組合模型良好的性能。
實施例6結直腸癌6個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的47個甲基化標誌物的甲基化水平中挑選SEQ ID NO:1、SEQ ID NO:21、SEQ ID NO:29、SEQ ID NO:36、SEQ ID NO:44、SEQ ID NO:47共6個甲基化標誌物構建了邏輯回歸的機器學習模型SUBMODEL2。
機器學習模型構建的方法也同實施例3一致,但相關樣本只使用了該實施例中的以上6個標誌物的數據,該模型在訓練集和測試集中的模型得 分見圖8,該模型ROC曲線見圖9。可看出該模型在訓練集和測試集中,結直腸癌和無結直腸癌樣本分值具有顯著差異,該模型訓練集中結直腸癌和無結直腸癌樣本區分的AUC達到了0.916,測試集中,結直腸癌和無結直腸癌樣本區分的AUC達到了0.879,設置閾值為0.392,大於該值預測為結直腸癌,反之則預測為無結直腸癌,在該閾值下,訓練集準確性為0.841,訓練集特異性為0.877,訓練集敏感性為0.822,測試集準確性為0.785,測試集特異性為0.714,測試集敏感性為0.867,說明了該組合模型良好的性能。
實施例7結直腸癌7個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的47個甲基化標誌物的甲基化水平中挑選SEQ ID NO:6、SEQ ID NO:10、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:22、SEQ ID NO:28、SEQ ID NO:43共7個甲基化標誌物構建了邏輯回歸的機器學習模型SUBMODEL3。
機器學習模型構建的方法也同實施例3一致,但相關樣本只使用了該實施例中的以上7個標誌物的數據,該模型在訓練集和測試集中的模型得.分見圖10,該模型ROC曲線見圖11。可看出該模型在訓練集和測試集中,結直腸癌和無結直腸癌樣本分值同其他癌種分值具有顯著差異,該模型訓練集中腺癌和無結直腸癌樣本區分的AUC達到了0.911,測試集中,結直腸癌和無結直腸癌樣本區分的AUC達到了0.932,設置閾值為0.507,大於該值預測為結直腸癌,反之則預測為無結直腸癌,在該閾值下,訓練集準確性為0.848,訓練集特異性為0.973,訓練集敏感性為0.731,測試集準確性為0.815,測試集特異性為0.971,測試集敏感性為0.633,說明了該組合模型良好的性能。
實施例8胃癌樣本處理及甲基化標誌物篩選
收集了總計206個胃癌患者,以及393個正常人,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本信息見下表9。
表9
Figure 112135115-A0202-12-0141-130
樣本處理、策略及數據預處理過程同實施例1,計算MHF提取甲基化信息後,進行甲基化單倍型數據矩陣:
1)將訓練集和測試集的各個樣本的甲基化單倍型數據分別合併成數據矩陣,對每個深度低於100的位點做缺失值處理。
2)去除缺失值比例高於10%的位點。
3)對於數據矩陣的缺失值,利用KNN算法進行缺失數據插補。
然後根據訓練集樣本分組發現特徵甲基化單倍型:
1)將數據集按年齡匹配隨機分成三份。
2)留出數據集中的一份數據作為測試數據,其餘數據作為訓練數據。
3)訓練集內部進一步分成3分,進行3折交叉驗證。基於3折交叉驗證的平均AUC,篩選marker。
4)步驟3中得到的marker,基於Logistic Regression模型,使用訓練數據進行模型訓練,並在測試數據中進行模型效果的驗證。
5)將得到的甲基化標誌物用Great進行基因註釋。
篩選出的胃癌特異性的甲基化標誌物具體如下:位於MPC1內或者該基因上下游的SEQ ID NO:48;位於GALNT18內或者該基因上下游的SEQ ID NO:49;位於TIMP2內或者該基因上下游的SEQ ID NO:50;位於IRF4內或者該基因上下游的SEQ ID NO:51;位於CACNA1C內或者該基因上下游的SEQ ID NO:52;位於HOXD4內或者該基因上下游的SEQ ID NO:53;位於TBX20內或者該基因上下游的SEQ ID NO:54;位於NXPH1內或者該基因上下游的SEQ ID NO:55;位於CYP26B1內或者該基因上下游的SEQ ID NO:56;位於PITX1內或者該基因上下游的SEQ ID NO:57;位於VAX1內或者該基因上下游的SEQ ID NO:58;位於LHX5內或者該基因上下游的SEQ ID NO:59;位於ARC內或者該基因上下游的SEQ ID NO:60;位於LZTS1內或者該基因上下游的SEQ ID NO:61;位於DLD內或者該基因上下游的SEQ ID NO:62;位於FOXF2內或者該基因上下游的SEQ ID NO:63;位於GOLGA8A內或者該基因上下游的SEQ ID NO:64;位於Clorf61內或者該基因上下游的SEQ ID NO:65;位於SOX7內或者該基因上下游的SEQ ID NO:66;位於NKX6-1內或者該基因上下游的SEQ ID NO:67:位於PCDHGC5內或者該基因上下游的SEQ ID NO:68;位於NR2F1內或者該基因上下游的SEQ ID NO:69;位於OTX2內或者該基因上下游的SEQ ID NO:70;位於CILP2內或者該基因上下游的SEQ ID NO:71;位於SLC6A5內或者該基因上下游的SEQ ID NO:72;位於ELN內或者該基因上下游的SEQ ID NO:73;位於CDH13內或者該基因上下游的SEQ ID NO:74;位於C1QTNF9內 或者該基因上下游的SEQ ID NO:75;位於TFAP2C內或者該基因上下游的SEQ ID NO:76;位於TACC2內或者該基因上下游的SEQ ID NO:77;位於CDH4內或者該基因上下游的SEQ ID NO:78;位於TNFRSF6B內或者該基因上下游的SEQ ID NO:79;位於LYL1內或者該基因上下游的SEQ ID NO:80;位於SLC9A3R2內或者該基因上下游的SEQ ID NO:S1;位於NR2E1內或者該基因上下游的SEQ ID NO:82;位於TBX3內或者該基因上下游的SEQ ID NO:83;位於HMX3內或者該基因上下游的SEQ ID NO:84;位於GCH1內或者該基因上下游.的SEQ ID NO:85;位於DCLK1內或者該基因上下游的SEQ ID NO:86;位於HPCAL1內或者該基因上下游的SEQ ID NO:87;位於SMARCA2內或者該基因上下游的SEQ ID NO:88;位於LRP1內或者該基因上下游的SEQ ID NO:89;位於TBX15內或者該基因上下游的SEQ ID NO:90;位於TBX15內或者該基因上下游的SEQ ID NO:91;位於NR2F2內或者該基因上下游的SEQ ID NO:92;位於PRKAB2內或者該基因上下游的SEQ ID NO:95;位於LHX1內或者該基因上下游的SEQ ID NO:94;位於TBX2內或者該基因上下游的SEQ ID NO:95。
甲基化標誌物區域的甲基化水平在胃癌患者cfDNA中上升或下降(如表10)。得到的48個甲基化標誌物的序列如SEQ ID NO:48-95。每個甲基化標誌物的所有CpG位點的甲基化水平都可以藉由MethylTitan甲基化測序的方法獲得。每個區域中藉由MHF計算得到的甲基化水平都可以作為胃癌的標誌物。
表10在訓練集和測試集中甲基化標誌物在胃癌中的甲基化水平
Figure 112135115-A0202-12-0143-131
Figure 112135115-A0202-12-0144-132
Figure 112135115-A0202-12-0145-133
測試集中胃癌與非胃癌人群的甲基化標誌物區域內的甲基化水平如表10所示。從表10中可以看出,甲基化標誌物區域內的甲基化水平在胃癌與無胃癌人群中的分佈顯著不同,具備良好的區分效果,具有顯著性的差異(P<0.01),是良好的胃癌甲基化標誌物。
實施例9單個甲基化標誌物判別胃癌是否存在的性能
為了驗證單個甲基化標誌物區分對象是否患有胃癌的性能,使用單個marker的甲基化水平數據在實施例8訓練集數據中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下(圖12):
1.序列預處理,針對每一個目標區域,計算該區域內的每一個MHF(Methylated Haplotype Fraction)甲基化單倍型比值數值。
2.使用python(V3.9.7)中的sklearn(V1.0.1)包中的邏輯回歸模型:model=LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為不同marker的係數,b為截距值,y為模型預測分值:
Figure 112135115-A0202-12-0146-135
3.使用訓練集的樣本進行訓練:model.fit(Traindata,TrainPheno),其中TrainData是訓練集樣本中目標甲基化位點的數據,TrainPheno是訓練集樣本的性狀(胃癌為1,非胃癌為0),並根據訓練集的樣本確定模型的相關閾值。
4.使用測試集的樣本進行測試:TestPred=model.predict_proba(TestData),其中TestData為測試集樣本中目標甲基化位點的數據,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是胃癌進行判斷。
5.統計模型的AUC指標。
本實施例中單個目標標誌物邏輯回歸模型的效果見表11。從表11中可看出,所有的目標標誌物不論在測試集和訓練集都可以達到0.5以上的AUC,都是較好的胃癌標誌物。
表11單個marker邏輯回歸模型的表現
Figure 112135115-A0202-12-0146-134
Figure 112135115-A0202-12-0147-136
實施例10胃癌所有甲基化標誌物的預測結果
本實施例使用所有的胃癌48個目標標誌物的甲基化水平構建了邏輯回歸的機器學習模型,數據中準確區分出對象是否患有胃癌的樣本。具體的步驟與實施例2基本一致,不同之處是使用了所有48個目標標誌物組合(SEQ ID NO:48-95)的數據輸入模型。
訓練集和測試集中模型預測分值分佈見圖13。ROC曲線見圖14,在測試集中,胃癌和無胃癌樣本區分的AUC達到了0.922,可以較好地樣本中區分出胃癌和無胃癌樣本。閾值設成0.53時,大於該值預測為胃癌,小於該值預測為無胃癌,在訓練集中特異性為95%,測試集敏感性達到了73%,說明了該組合模型良好的性能。
實施例11胃癌19個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的48個甲基化標誌物的甲基化水平中挑選SEQ ID NO:50、55、60、62、64、66、69、72、76、78、84、85、87、88、89、90、92、94和95共19個目標標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例9一致,但相關樣本只使用了上述19個目標標誌物的數據,該模型在訓練集和測試集中的模型得分見圖15,該模型ROC曲線見圖16。可看出該模型在訓練集和測試集中,胃癌和無胃癌樣本分值具有顯著差異,該模型測試集AUC達到了0.919,說明了該組合模型良好的性能。閾值設成0.54時,大於該值預測為胃癌,小於該值預測為無胃癌,在訓練集中特異性為95%,測試集敏感性達到了78%,說明了該組合模型良好的性能。
實施例12胃癌19個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的48個甲基化標誌物的甲基化水平中挑選SEQ ID NO:49、53、54、55、59、62、66、72、75、79、80、83、84、87、89、90、91、93和95共19個目標標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例2一致,但相關樣本只使用了上述19個目標標誌物的數據,該模型在訓練集和測試集中的模型得分見圖17,該模型ROC曲線見圖18。可看出該模型在訓練集和測試集中,胃癌和無胃癌樣本分值具有顯著差異,該模型測試集AUC達到了0.913,說明了該組合模型良好的性能。閾值設成0.49時,大於該值預測為胃癌,小於該值預測為無胃癌,在訓練集中特異性為95%,測試集敏感性達到了65%,說明了該組合模型良好的性能。
實施例13胃癌8個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的48個甲基化標誌物的甲基化水平中挑選SEQ ID NO:50、SEQ ID NO:60、SEQ ID NO:61、SEQ ID NO:67、SEQ ID NO:69、SEQ ID NO:75、SEQ ID NO:77、SEQ ID NO:84共8個目標標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例9一致,但相關樣本只使用了上述8個目標標誌物的數據,該模型在訓練集和測試集中的模型得分見圖19,該模型ROC曲線見圖20。可看出該模型在訓練集和測試集中,胃癌和無胃癌樣本分值具有顯著差異,該模型測試集AUC達到了0.872,說明了該組合模型良好的性能。閾值設成0.46時,大於該值預測為胃癌,小於該值預測為無胃癌,在訓練集中特異性為95%,測試集敏感性達到了56%,說明了該組合模型良好的性能。
實施例14胃癌5個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的48個甲基化標誌物的甲基化水平中挑選SEQ ID NO:50、SEQ ID NO:60、SEQ ID NO:74、 SEQ ID NO:77、SEQ ID NO:82共5個目標標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例9一致,但相關樣本只使用了上述5個目標標誌物的數據,該模型在訓練集和測試集中的模型得分見圖21,模型ROC曲線見圖22。看出該模型在訓練集和測試集中,胃癌和無胃癌樣本分值具有顯著差異,該模型測試集AUC達到了0.856,說明了該組合模型良好的性能。閾值設成0.52,大於該值預測為胃癌,小於該值預測為無胃癌,在訓練集中特異性為95%,測試集敏感性達到了48%,說明了該組合模型良好的性能。
實施例15食管癌樣本處理及甲基化標誌物篩選
收集了總計162個食管癌血液樣本、393個無食管癌血液樣本,所有入組患者簽署知情同意書,樣本信息見表12。
表12
Figure 112135115-A0202-12-0150-137
樣本處理、策略及數據預處理過程同實施例1,甲基化單倍型數據矩陣後,根據訓練集樣本分組發現特徵甲基化單倍型:
1)對每個甲基化單倍型對於表型進行邏輯回歸分析,構建邏輯回歸模型,具體為:針對每一個目標區域,計算該區域內的每一個MHF(Methylated Haplotype Fraction)甲基化單倍型比值數值,使用python軟體(v3.6.9)的statmodels套裝軟體(0.12.0)構建邏輯回歸模型並計算邏輯回歸係數,命令行:
import statsmodels.api as sm
logist_model=sm.Logit(Y,sm.add_constant(X)).fit
pvlaue=logist_model.pvalues。其中X表示每個樣本對應的甲基化單倍型數值,Y表示每個樣本對應的分類標簽,pvalue表示為邏輯回歸的顯著性檢驗值,對每個擴增的目標區域篩選出最回歸係數最小的MHF對應的甲基化標誌物,組成候選甲基化單倍型。
2)將訓練集隨機分成十份做十倍交叉驗證增量特徵篩選。
3)留出訓練集中的一份數據作為測試數據,其餘訓練集數據作為訓練數據。每個區域的候選甲基化單倍型按照回歸係數顯著性進行從大到小排序,每次加入一個甲基化單倍型,使用9份訓練數據構建多項式內核的SVM模型,對測試數據進行預測。
4)步驟3重複10次將所有數據遍歷一遍,每次計算測試數據的AUC,重複10次之後計算10次的平均AUC。如果訓練數據的AUC增加則保留該候選甲基化單倍型作為特徵甲基化標誌物,否則捨棄,將得到的甲基化標誌物使用GREAT工具(great.stanford.edu/great/public-3.0.0/html/index.php)進行基因註釋(如表13)。
該甲基化標誌物中靶標基因使用GREAT工具(great.stanford.edu/great/public-3.0.0/html/3.0.0/html/index.php)進行基因註釋。 GREAT分析時,藉由把標誌物區域和相鄰的基因進行關聯,並用相鄰基因註釋該區域。關聯分成兩個過程,首先,找到每個基因的調節域,然後把覆蓋該區域的調節域的基因與該區域關聯起來。例SKI(+2024)可以表示的是距離SKI基因的轉錄起始位置(TSS)下游93bp處的標誌物,EPS8L3(-28150)可以表示的是距離EPS8L3基因的轉錄起始位置(TSS)上游28150bp處的標誌物。
5)取訓練集中不同特徵數量情況下的平均AUC中位數對應的特徵組合作為最終確定的甲基化標誌物(表13)。
表13
Figure 112135115-A0202-12-0152-138
Figure 112135115-A0202-12-0153-139
Figure 112135115-A0202-12-0154-140
甲基化標誌物區域的甲基化水平在食管癌患者cfDNA中上升或下降(如表14)。得到的43個甲基化標誌物的序列如SEQ ID NO:96-138。每個甲基化標誌物的所有CpG位點的甲基化水平都可以藉由MethylTitan甲基化測序的方法獲得。每個區域中所有CpG位點甲基化水平的均值,以及單個CpG位點的甲基化水平都可以作為食管癌的標誌物。
表14在訓練集和測試集中甲基化標誌物在食管癌中的甲基化水平
Figure 112135115-A0202-12-0154-141
Figure 112135115-A0202-12-0155-142
Figure 112135115-A0202-12-0156-143
Figure 112135115-A0202-12-0157-144
測試集中食管癌與無食管癌人群的甲基化標誌物區域內的平均甲基化水平如表14所示。從表14中可以看出,甲基化標誌物區域內的平均甲基化水平在食管癌與無食管癌人群中的分佈顯著不同,具備良好的區分效果,具有顯著性的差異(P<0.01),是良好的食管癌甲基化標誌物。
實施例16單個甲基化標誌物判別食管癌是否存在的性能
為了驗證單個甲基化標誌物的區分食管癌和無食管癌的性能,使用單個marker的甲基化水平數據在實施例1訓練集數據中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下(圖12):
1.序列預處理,針對每一個目標區域,計算該區域內的每一個MHF(Methylated Haplotype Fraction)甲基化單倍型比值數值。
2.使用python(V3.9.7)中的sklearn(V1.0.1)包中的邏輯回歸模型:model=LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為不同marker的係數,b為截距值,y為模型預測分值:
Figure 112135115-A0202-12-0158-145
3.使用訓練集的樣本進行訓練:model.fit(Traindata,TrainPheno),其中TrainData是訓練集樣本中目標甲基化位點的數據,TrainPheno是訓練集樣本的性狀(食管癌為1,無食管癌為0),並根據訓練集的樣本確定模型的相關閾值’
4.使用測試集的樣本進行測試:TestPred=model.predict_proba(TestData)[:,1],其中TestData為測試集樣本中目標甲基化位點的數據,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是 否是食管癌進行判斷。
5.統計模型的AUC指標。
本實施例中單個marker邏輯回歸模型的效果見表15,從該表中可看出,所有的marker的不論在測試集和訓練集都可以達到0.55以上的AUC,都是較好的食管癌標誌物。
表15單個marker邏輯回歸模型的表現
Figure 112135115-A0202-12-0160-146
實施例17食管癌所有甲基化標誌物的預測結果
本實施例使用所有的43個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,數據中準確區分出食管癌和非食管癌的樣本。具體的步驟與實施例16基本一致,不同之處是使用了所有43個目標甲基化標誌物組合(SEQ ID No:96-138)的數據輸入模型。
訓練集和測試集中模型預測分值分佈見圖23。ROC曲線見圖24,在測試集中,食管癌和無食管癌樣本區分的AUC達到了0.935,在訓練集特異性為95%時,測試集敏感性達到了84.3%,設置閾值為0.383,大於該值則預測為食管癌,反之預測為無食管癌,說明了從本申請的甲基化標誌物可以較好地從樣本中區分出食管癌和無食管癌樣本。
實施例18食管癌16個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的43個甲基化標誌物的甲基化水平中視需要SEQ ID No:100、103、109、110、113、120、121、125、128、130、132、133、134、135、137和138共16個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例16一致,但相關樣本只使用了該實施例中的以上16個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖25,該模型ROC曲線見圖26。可看出該模型在訓練集和測試集中,食管癌和無食管癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.920,閾值設成0.431時,大於該值預測為食管癌,小於該值預測為無食管癌,在訓練集中特異性為95%,測試集敏感性達到了75.8%,說明了從本申請的甲基化標誌物中視需要多個標誌物組成的組合,其模型具有良好的性能。
實施例19食管癌17個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的43個甲基化標誌物的甲基化水平中視需要SEQ ID No:102、107、108、110、112、120、121、123、124、125、130、131、132、133、134、135和137共17個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例16一致,但相關樣本只使用了該實施例中的以上16個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖27,該模型ROC曲線見圖28。可看出該模型在訓練集和測試集中,食管癌和無食管癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.916,閾值設成0.431時,大於該值預測為食管癌,小於該值預測為無食管癌,在訓練集中特異性為95%,測試集敏感性達到了59.4%,說明了從本申請的甲基化標誌物中視需要多個標誌物組成的組合,其模型具有良好的性能。
本申請藉由血漿cfDNA中相關基因的甲基化水平得到43個具有明顯差異的甲基化核酸片段。基於上述單個甲基化核酸片段標誌物,或者多個甲基化核酸片段組成的標誌物群,建立食管癌風險預測模型,可以有效鑑別食管癌且具有較高的靈敏度和特異性,適用於食管癌的篩查與診斷。
實施例20食管癌27個甲基化標誌物的預測結果
本實施例使用27個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,數據中準確區分出食管癌和非食管癌的樣本。具體的步驟與實施例16基本一致,不同之處是使用了27個目標甲基化標誌物組合(SEQ ID No:98、100、102、103、107、108、109、111、112、113、114、116、117、121、 123、124、125、127、128、130、131、133、134、135、136、137和138)的數據輸入模型。
訓練集和測試集中模型預測分值分佈見圖29。ROC曲線見圖30,在測試集中,食管癌和無食管癌樣本區分的AUC達到了0.930,在訓練集特異性為95%時,測試集敏感性達到了57.6%,設置閾值為0.425,大於該值則預測為食管癌,反之預測為無食管癌,說明了從本申請的甲基化標誌物可以較好地從樣本中區分出食管癌和無食管癌樣本。
實施例21食管癌7個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從實施例20的27個甲基化標誌物的甲基化水平中挑選SEQ ID No:102、109、116、117、127、134和135共7個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例16一致,但相關樣本只使用了該實施例中的以上7個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖31,該模型ROC曲線見圖32。可看出該模型在訓練集和測試集中,食管癌和無食管癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.900,閾值設成0.50時,大於該值預測為食管癌,小於該值預測為無食管癌,在訓練集中特異性為95%,測試集敏感性達到了57.6%,說明了從本申請的甲基化標誌物中視需要多個標誌物組成的組合,其模型具有良好的性能。
實施例22食管癌7個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從實施例20的27個甲基化標誌物的甲基化水平中挑選SEQ ID No:121、125、130、133、134、135和136共7個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例16一致,但相關樣本只使用了該實施例中的以上7個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖33,該模型ROC曲線見圖34。可看出該模型在訓練集和測試集中,食管癌和無食管癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.890,閾值設成0.594時,大於該值預測為食管癌,小於該值預測為無食管癌,在訓練集中特異性為95%,測試集敏感性達到了65.6%,說明了從本申請的甲基化標誌物中視需要多個標誌物組成的組合,其模型具有良好的性能。
實施例23食管癌23個甲基化標誌物的預測結果
本實施例使用的23個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,數據中準確區分出食管癌和非食管癌的樣本。具體的步驟與實施例16基本一致,不同之處是使用了所有23個目標甲基化標誌物組合(SEQ ID No:96、97、99、101、104、105、106、110、115、118、119、120、121、122、125、126、129、130、132、133、134、135和137)的數據輸入模型。
訓練集和測試集中模型預測分值分佈見圖35。ROC曲線見圖36,在測試集中,食管癌和無食管癌樣本區分的AUC達到了0.934,在訓練集特異性為95%時,在訓練集特異性為95%時,測試集敏感性達到了64%,設置閾值為0.41,大於該值則預測為食管癌,反之預測為無食管癌,說明了從本申請的甲基化標誌物可以較好地從樣本中區分出食管癌和無食管癌樣本。
實施例24食管癌17個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從實施例23的甲基化標誌物的甲基化水平中挑選SEQ ID No:96、97、99、104、105、106、110、 118、120、122、125、126、129、130、132、133和135共17個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例16一致,但相關樣本只使用了該實施例中的以上17個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖37,該模型ROC曲線見圖38可看出該模型在訓練集和測試集中,食管癌和無食管癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.900,閾值設成0.508時,大於該值預測為食管癌,小於該值預測為無食管癌,在訓練集中特異性為95%,測試集敏感性達到了56.3%,說明了從本申請的甲基化標誌物中視需要多個標誌物組成的組合,其模型具有良好的性能。
實施例25食管癌15個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從實施例23的的甲基化水平中挑選SEQ ID No:96、97、99、105、110、118、119、120、121、122、129、130、134、135和137共15個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例16一致,但相關樣本只使用了該實施例中的以上15個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖39,該模型ROC曲線見圖40。可看出該模型在訓練集和測試集中,食管癌和無食管癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.906,閾值設成0.511時,大於該值預測為食管癌,小於該值預測為無食管癌,在訓練集中特異性為95%,測試集敏感性達到了59.4%,說明了從本申請的甲基化標誌物中視需要多個標誌物組成的組合,其模型具有良好的性能。
實施例26肝癌樣本處理及甲基化標誌物篩選
收集了總計276個肝癌血液樣本、393個無肝癌血液樣本,所有入組患者簽署知情同意書,樣本信息見表16。
表16
Figure 112135115-A0202-12-0166-147
樣本處理、策略及數據預處理過程同實施例1,甲基化單倍型數據矩陣後,根據訓練集樣本分組發現特徵甲基化單倍型:
1)對每個甲基化單倍型對於表型進行邏輯回歸分析,構建邏輯回歸模型,具體為:針對每一個目標區域,計算該區域內的每一個MHF(Methylated Haplotype Fraction)甲基化單倍型比值數值,使用python軟體(v3.6.9)的statmodels套裝軟體(0.12.0)構建邏輯回歸模型並計算邏輯回歸係數,命令行:
import statsmodels.api as sm
logist_model=sm.Logit(Y,sm.add_constant(X)).fit
pvlaue=logist_model.pvalues。其中X表示每個樣本對應的甲基化單倍型數值,Y表示每個樣本對應的分類標簽,pvalue表示為邏輯回歸的顯著性檢驗值, 對每個擴增的目標區域篩選出最回歸係數最小的MHF對應的甲基化標誌物,組成候選甲基化單倍型。
2)將訓練集隨機分成十份做十倍交叉驗證增量特徵篩選。
3)留出訓練集中的一份數據作為測試數據,其餘訓練集數據作為訓練數據。每個區域的候選甲基化單倍型按照回歸係數顯著性進行從大到小排序,每次加入一個甲基化單倍型,使用9份訓練數據構建多項式內核的SVM模型,對測試數據進行預測。
4)步驟3重複10次將所有數據遍歷一遍,每次計算測試數據的AUC,重複10次之後計算10次的平均AUC。如果訓練數據的AUC增加則保留該候選甲基化單倍型作為特徵甲基化標誌物,否則捨棄,將得到的甲基化標誌物使用GREAT工具(great.stanford.edu/great/public-3.0.0/html/index.php)進行基因註釋(如表17)。
該甲基化標誌物中靶標基因使用GREAT工具(great.stanford.edu/great/public-3.0.0/html/3.0.0/html/index.php)進行基因註釋。GREAT分析時,藉由把標誌物區域和相鄰的基因進行關聯,並用相鄰基因註釋該區域。關聯分成兩個過程,首先,找到每個基因的調節域,然後把覆蓋該區域的調節域的基因與該區域關聯起來。例SKI(+2024)可以表示的是距離SKI基因的轉錄起始位置(TSS)下游93bp處的標誌物,EPS8L3(-28150)可以表示的是距離EPS8L3基因的轉錄起始位置(TSS)上游28150bp處的標誌物。
5)取訓練集中不同特徵數量情況下的平均AUC中位數對應的特徵組合作為最終確定的甲基化標誌物(表17)。
表17
Figure 112135115-A0202-12-0168-148
Figure 112135115-A0202-12-0169-149
Figure 112135115-A0202-12-0170-150
Figure 112135115-A0202-12-0171-151
Figure 112135115-A0202-12-0172-152
甲基化標誌物區域的甲基化水平在肝癌患者cfDNA中上升或下降(如表18)。得到的202個甲基化標誌物的序列如SEQ ID NO:139-340。每個甲基化標誌物的所有CpG位點的甲基化水平都可以藉由MethylTitan甲基化測序的方法獲得。每個區域中所有CpG位點甲基化水平的均值,以及單個CpG位點的甲基化水平都可以作為肝癌的標誌物。
表18在訓練集和測試集中甲基化標誌物在肝癌中的甲基化水平
Figure 112135115-A0202-12-0172-153
Figure 112135115-A0202-12-0173-154
Figure 112135115-A0202-12-0174-155
Figure 112135115-A0202-12-0175-156
Figure 112135115-A0202-12-0176-157
Figure 112135115-A0202-12-0177-158
Figure 112135115-A0202-12-0178-159
Figure 112135115-A0202-12-0179-160
Figure 112135115-A0202-12-0180-161
Figure 112135115-A0202-12-0181-162
Figure 112135115-A0202-12-0182-163
Figure 112135115-A0202-12-0183-164
Figure 112135115-A0202-12-0184-165
Figure 112135115-A0202-12-0185-166
Figure 112135115-A0202-12-0186-167
Figure 112135115-A0202-12-0187-168
Figure 112135115-A0202-12-0188-169
測試集中肝癌與無肝癌人群的甲基化標誌物區域內的平均甲基化水平如表18所示。從表18中可以看出,甲基化標誌物區域內的平均甲基化水平在肝癌與無肝癌人群中的分佈顯著不同,具備良好的區分效果,具有顯著性的差異(P<0.01),是良好的肝癌甲基化標誌物。
實施例27單個甲基化標誌物判別肝癌是否存在的性能
為了驗證單個甲基化標誌物的區分肝癌和無肝癌的性能,使用單個marker的甲基化水平數據在實施例26訓練集數據中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下(圖12):
1.序列預處理,針對每一個目標區域,計算該區域內的每一個MHF(Methylated Haplotype Fraction)甲基化單倍型比值數值。
2.使用python(V3.9.7)中的sklearn(V1.0.1)包中的邏輯回歸模型:model=LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為不同marker的係數,b為截距值,y為模型預測分值:
Figure 112135115-A0202-12-0188-170
3.使用訓練集的樣本進行訓練:model.fit(Traindata,TrainPheno),其中TrainData是訓練集樣本中目標甲基化位點的數據,TrainPheno是訓練集樣本的性狀(肝癌為1,無肝癌為0),並根據訓練集的樣本確定模型的相關閾值。
4.使用測試集的樣本進行測試:TestPred=model.predict_proba(TestData)[:,1],其中TestData為測試集樣本中目標甲基化位 點的數據,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肝癌進行判斷。
5.統計模型的AUC指標。
本實施例中單個marker邏輯回歸模型的效果見表19,從該表中可看出,所有的marker的不論在測試集和訓練集都可以達到0.55以上的AUC,都是較好的肝癌標誌物。
表19單個marker邏輯回歸模型的表現
Figure 112135115-A0202-12-0189-171
Figure 112135115-A0202-12-0190-172
Figure 112135115-A0202-12-0191-173
Figure 112135115-A0202-12-0192-174
Figure 112135115-A0202-12-0193-175
實施例28肝癌所有甲基化標誌物的預測結果
本實施例使用所有的202個肝癌甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,數據中準確區分出肝癌和非肝癌的樣本。具體的步驟與實施例27基本一致,不同之處是使用了所有202個目標甲基化標誌物組合(SEQ ID No:139-340)的數據輸入模型。
訓練集和測試集中模型預測分值分佈見圖41。ROC曲線見圖42,在測試集中,肝癌和無肝癌樣本區分的AUC達到了0.986,在訓練集特異性為99%時,測試集敏感性達到了91%,設置閾值為0.58,大於該值則預測為肝癌,反之預測為無肝癌,可以較好地樣本中區分出肝癌和無肝癌樣本。
實施例29肝癌25個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的202個甲基化標誌物的甲基化水平中視需要SEQ ID No:176、183、187、195、196、209、210、214、220、225、227、228、241、245、246、269、270、286、293、299、 301、302、326、329和337共25個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例27一致,但相關樣本只使用了該實施例中的以上25個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖43,該模型ROC曲線見圖44。可看出該模型在訓練集和測試集中,肝癌和無肝癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.938,閾值設成0.673時,大於該值預測為肝癌,小於該值預測為無肝癌,在訓練集中特異性為99%,測試集敏感性達到了76%,說明了該組合模型良好的性能。
實施例30肝癌52個甲基化標誌物的預測結果
為了驗證相關標誌物組合的效果,本實施例從所有的202個甲基化標誌物的甲基化水平中挑選SEQ ID No:139、140、143、144、164、165、175、176、178、183、184、190、192、194、195、199、203、204、206、208、210、213、215、216、218、220、224、234、235、237、253、265、266、267、269、270、271、272、281、286、301、306、314、315、317、320、321、322、323、333、336和338共52個甲基化標誌物構建了邏輯回歸的機器學習模型。
機器學習模型構建的方法也同實施例27一致,但相關樣本只使用了該實施例中的以上52個標誌物的數據,該模型在訓練集和測試集中的模型得分見圖45,該模型ROC曲線見圖46。可看出該模型在訓練集和測試集中,肝癌和無肝癌樣本分值同其他癌種分值具有顯著差異,該模型測試集AUC達到了0.959,閾值設成0.58時,大於該值預測為肝癌,小於該值預測為無肝癌,在訓 練集中特異性為99%,測試集敏感性達到了71%,說明了該組合模型良好的性能。
本申請藉由血漿cfDNA中相關基因的甲基化水平得到202個具有明顯差異的甲基化核酸片段。基於上述單個甲基化核酸片段標誌物,或者多個甲基化核酸片段組成的標誌物群,建立肝癌風險預測模型,可以有效鑑別肝癌且具有較高的靈敏度和特異性,適用於肝癌的篩查與診斷。
前述詳細說明是以解釋和舉例的方式提供的,並非要限制所附申請專利範圍的範圍。目前本申請所列舉的實施方式的多種變化對所屬技術領域中具有通常知識者來說是顯而易見的,且保留在所附的申請專利範圍和其等同方案的範圍內。
TW202417642A_112135115_SEQL.xml

Claims (10)

  1. 一種結直腸癌甲基化標誌物,其是分離的來自哺乳動物的核酸分子,該核酸分子的序列包括:(1)SEQ ID NO:1-47中任一種或多種或全部所示的序列或其互補序列或變體,該變體是與相應序列具有至少70%序列同一性的變體,並且該變體中的甲基化位點未發生突變,或(2)(1)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
    較佳地,項目(1)選自以下任一組:
    (1.1)以下序列中任一種或多種或全部:SEQ ID NO:4、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:30、SEQ ID NO:34、SEQ ID NO:37、SEQ ID NO:41,或其互補序列或變體,視需要還包括SEQ ID NO:1-47中其餘序列的任一種或多種或其互補序列或變體,
    (1.2)以下序列中任一種或多種或全部:SEQ ID NO:1、SEQ ID NO:21、SEQ ID NO:29、SEQ ID NO:36、SEQ ID NO:44、SEQ ID NO:47,或其互補序列或變體,視需要還包括SEQ ID NO:1-47中其餘序列的任一種或多種,
    (1.3)以下序列中任一種或多種或全部:SEQ ID NO:6、SEQ ID NO:10、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:22、SEQ ID NO:28、SEQ ID NO:43,或其互補序列或變體,視需要還包括SEQ ID NO:1-47中其餘序列的任一種或多種或其互補序列或變體。
  2. 一種藉由檢測DNA甲基化篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後的試劑,該試劑包含待測樣品中標誌物的甲基化水平的試劑,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括以下基因序列中的一種或多 種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
    較佳地,
    該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部;或者
    該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部;或者
    該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,
    更佳地,該試劑具有選自以下的一項或多項特徵:
    該標誌物包含至少3個CpG二核苷酸,
    該片段長度為1-1000bp,較佳1-700bp,
    該片段是基因序列的啟動子區域或其部分,
    該試劑包含與該標誌物或其經轉化的序列雜交的引子分子,
    該試劑包含與標誌物或其經轉化的序列雜交的探針分子,
    該樣品來自哺乳動物。
  3. 一種記載有DNA序列或其片段和/或其甲基化信息的介質,該DNA序列包括:
    (i)以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
    或(ii)(i)的經處理的序列,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
    較佳地,
    該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部;或者
    該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部;或者
    該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,
    更佳地,該介質具有選自以下的一項或多項特徵:
    該標誌物包含至少3個CpG二核苷酸,
    該片段長度為1-1000bp,較佳1-700bp,
    該片段是基因序列的啟動子區域或其部分,
    該介質是印有該DNA序列或其片段和/或其甲基化信息的載體,包括卡片,例如紙質、塑料、金屬、玻璃卡片,
    該介質是存儲有該序列和/或其甲基化信息和計算機程序的計算機可讀介質,當該計算機程序被處理器執行時,實現下述步驟:將樣品的甲基化測序數據與該序列或信息比較,從而獲得該樣品中含該序列的核酸分子的存在、含量和/或甲基化水平,並據此篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後。
  4. 一種以下(a)和視需要的(b)在製備用於篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後的試劑盒中的用途,
    (a)用於確定對象的樣品中標誌物的甲基化水平的試劑或裝置,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,
    (b)該標誌物或其經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
    其中,該DNA序列包括以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、 ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。
  5. 如請求項4所述的用途,其中,
    該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或者
    該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或者
    該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部。
  6. 如請求項4或5所述的用途,其中,該試劑包含與該標誌物或其經轉化的序列雜交的引子分子,和/或該試劑包含與該標誌物或其經轉化的序列雜交的探針分子,
    較佳地,該用途還具有選自以下的一項或多項特徵:
    該標誌物包含至少3個CpG二核苷酸,
    該片段長度為1-1000bp,較佳1-700bp,
    該片段是基因序列的啟動子區域或其部分,
    該裝置包含請求項3所述的介質,
    該對象是哺乳動物,
    該樣品來自哺乳動物的組織、細胞或體液,較佳血液,
    該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
    該試劑盒還包括PCR反應試劑,
    該試劑盒還包括檢測DNA甲基化的其他試劑,該其他試劑是選自以下方法的一個或多個中所用的試劑:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜;較佳地,該其他試劑選自以下一種或多種:重亞硫酸鹽、亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其衍生物、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標和對照物;
    較佳地,該篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後包括:比較標記物的甲基化水平和相應的參考水平,並根據評分篩查結直腸癌風險、診斷結直腸癌、評估結直腸癌預後。
  7. 一種用於篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後的方法,包括:
    (1)檢測對象的樣品中標誌物的甲基化水平,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括以下基因序列中的一個或多個或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、 BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
    (2)比較步驟(1)中標記物的甲基化水平和相應的參考水平,
    (3)根據比較結果篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後,
    較佳地,
    該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或
    該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或
    該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,
    更佳地,該方法具有選自以下的一項或多項特徵:
    該標誌物包含至少3個CpG二核苷酸,
    該片段長度為1-1000bp,較佳1-700bp,
    該片段是基因序列的啟動子區域或其部分,
    較佳地,該方法在步驟(1)之前還包含從對象獲取含有DNA的生物樣品的步驟;較佳地,步驟(1)包括使用引子分子、探針分子和/或介質進行該檢測, 步驟(2)中的比較包括:直接比較步驟(1)中標記物的甲基化水平和參考水平,或者藉由計算得出評分並比較標記物的甲基化水平的評分和相應的參考評分;較佳地,該評分藉由邏輯回歸模型進行計算,
    步驟(3)包括:當標記物的甲基化水平大於參考水平,或者甲基化水平的評分大於參考評分,則該對象有形成結直腸癌的風險、患有結直腸癌或結直腸癌預後不良,
    較佳地,該檢測包括:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜,
    該樣品來自哺乳動物的組織、細胞或體液,較佳血液,
    該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使其中未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。
  8. 一種用於篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後的試劑盒,包含:
    (a)用於確定對象的樣品中標誌物的甲基化水平的試劑或裝置,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,和
    視需要的(b)該標誌物或其經處理的核酸分子,該處理使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
    其中,該DNA序列包括以下基因序列中的一種或多種或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、 EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
    較佳地,
    該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或
    該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或
    該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,
    更佳地,該方法具有選自以下的一項或多項特徵:
    該標誌物包含至少3個CpG二核苷酸,
    該片段長度為1-1000bp,較佳1-700bp,
    該片段是基因序列的啟動子區域或其部分,
    該試劑包含與該標誌物或其經轉化的序列雜交的引子分子,
    該試劑包含與該標誌物或其經轉化的序列雜交的探針分子,
    該裝置包含請求項3所述的介質,
    該對象是哺乳動物,
    該樣品來自哺乳動物的組織:細胞或體液,較佳血液,
    該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基。
  9. 如請求項8所述的試劑盒,其中,
    該試劑盒還包括PCR反應試劑,或
    該試劑盒還包括檢測DNA甲基化的其他試劑,該其他試劑是選自以下方法的一個或多個中所用的試劑:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜,
    較佳地,該檢測DNA甲基化的其他試劑選自以下一種或多種:重亞硫酸鹽、亞硫酸氫鹽、酸式亞硫酸鹽或焦亞硫酸鹽或其衍生物、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標和對照物。
  10. 一種用於篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後的裝置,該裝置包括存儲器、處理器以及存儲在存儲器上並可在處理器上運行的計算機程序,其特徵在於,該處理器執行該程序時實現以下步驟:
    (1)獲取對象的樣品中標誌物的甲基化水平,該標誌物是DNA序列以及該DNA序列的上游5kb和下游5kb、或其片段、或其中一個或多個CpG二核苷酸,該DNA序列包括以下基因序列中的一個或多個或全部:(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、 EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2,
    (2)比較步驟(1)中標記物的甲基化水平和相應的參考水平,
    (3)根據比較結果篩查結直腸癌風險、診斷結直腸癌或評估結直腸癌預後,
    較佳地,
    該DNA序列包括選自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或
    該DNA序列包括選自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,或
    該DNA序列包括選自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一種或多種或全部,視需要還包括(p)中的其他基因序列中的一種或多種或全部,
    更佳地,該方法具有選自以下的一項或多項特徵:
    該標誌物包含至少3個CpG二核苷酸,
    該片段長度為1-1000bp,較佳1-700bp,
    該片段是基因序列的啟動子區域或其部分,
    該試劑包含與該標誌物或其經轉化的序列雜交的引子分子,
    該試劑包含與該標誌物或其經轉化的序列雜交的探針分子,
    該裝置包含請求項3所述的介質,
    該對象是哺乳動物,
    該樣品來自哺乳動物的組織、細胞或體液,較佳血液,
    該DNA序列是:相應標誌物在基因組中的序列、或其經轉化的序列、或其經甲基化敏感型限制性內切酶處理的序列,該轉化使未甲基化的胞嘧啶轉化為與鳥嘌呤結合能力低於胞嘧啶的鹼基,
    較佳地,該方法在步驟(1)之前還包含從對象獲取含有DNA的生物樣品的步驟;較佳地,步驟(1)包括使用該引子分子、探針分子和/或介質進行該檢測,
    步驟(2)中的比較包括:直接比較步驟(1)中標記物的甲基化水平和參考水平,或者藉由計算得出評分並比較標記物的甲基化水平的評分和相應的參考評分;較佳地,該評分藉由邏輯回歸模型進行計算,
    步驟(3)包括:當標記物的甲基化水平大於參考水平,或者甲基化水平的評分大於參考評分,則該對象有形成結直腸癌的風險、患有結直腸癌或結直腸癌預後不良,
    該檢測包括:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高分辨率熔解曲線法、基於芯片的甲基化圖譜分析、質譜。
TW112135115A 2022-09-16 2023-09-14 鑑別癌症的甲基化標誌物及應用 TW202417642A (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
CN2022111299878 2022-09-16
CN202211129987.8A CN117821585A (zh) 2022-09-16 2022-09-16 结直肠癌早期诊断标志物及应用
CN2022111905647 2022-09-28
CN202211190564.7A CN117778568A (zh) 2022-09-28 2022-09-28 鉴别胃癌的标志物及应用
WOPCT/CN2022/124503 2022-10-11
CN2022124503 2022-10-11
WOPCT/CN2022/126559 2022-10-21
CN2022126559 2022-10-21

Publications (1)

Publication Number Publication Date
TW202417642A true TW202417642A (zh) 2024-05-01

Family

ID=90274284

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112135115A TW202417642A (zh) 2022-09-16 2023-09-14 鑑別癌症的甲基化標誌物及應用

Country Status (2)

Country Link
TW (1) TW202417642A (zh)
WO (1) WO2024056008A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118147309A (zh) * 2024-04-15 2024-06-07 广州市基准医疗有限责任公司 用于诊断膀胱癌淋巴结转移的甲基化生物标志物或组合及其应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221056A1 (en) * 2007-02-12 2008-09-11 Johns Hopkins University Early Detection and Prognosis of Colon Cancers
AU2011301770B2 (en) * 2010-09-13 2015-11-26 Clinical Genomics Pty. Ltd Epigenetic markers of colorectal cancers and diagnostic methods using the same
US11396679B2 (en) * 2019-05-31 2022-07-26 Universal Diagnostics, S.L. Detection of colorectal cancer
KR20220025749A (ko) * 2019-05-31 2022-03-03 유니버설 다이아그노스틱스, 에스.엘. 대장암의 검출
CN113493835A (zh) * 2020-03-20 2021-10-12 上海鹍远健康科技有限公司 通过检测bcan基因区域的甲基化状态筛查大肠瘤的方法和试剂盒
CN114207153B (zh) * 2020-03-20 2024-09-13 上海鹍远健康科技有限公司 筛查结直肠瘤的方法和试剂盒
WO2021202351A1 (en) * 2020-03-31 2021-10-07 Freenome Holdings, Inc. Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis
CN114908159A (zh) * 2021-02-09 2022-08-16 复旦大学附属中山医院 结直肠进展期腺瘤的筛查、风险评估及预后方法和试剂盒

Also Published As

Publication number Publication date
WO2024056008A1 (zh) 2024-03-21

Similar Documents

Publication Publication Date Title
CN109563546B (zh) 通过分析甲基化dna来检测肺肿瘤
CN110872631B (zh) Dna甲基化生物标志物组合、检测方法和试剂盒
US10544467B2 (en) Solid tumor methylation markers and uses thereof
US20170121775A1 (en) Detection and Prognosis of Lung Cancer
US20190300965A1 (en) Liver cancer methylation markers and uses thereof
EP3608421B1 (en) A method of screening for colorectal cancer
WO2018069450A1 (en) Methylation biomarkers for lung cancer
JP2022552400A (ja) 特定の遺伝子のcpgメチル化変化を利用した肝癌診断用組成物およびその使用
KR20230003560A (ko) 대장암의 조기 발견, 치료 반응의 예측 및 예후 방법
WO2024056008A1 (zh) 鉴别癌症的甲基化标志物及应用
CN113186278B (zh) 甲状腺结节良恶性相关标志物及其应用
US20230193395A1 (en) Methods and kits for screening colorectal neoplasm
US11535897B2 (en) Composite epigenetic biomarkers for accurate screening, diagnosis and prognosis of colorectal cancer
CN117778568A (zh) 鉴别胃癌的标志物及应用
CN113493835A (zh) 通过检测bcan基因区域的甲基化状态筛查大肠瘤的方法和试剂盒
WO2022170984A1 (zh) 结直肠进展期腺瘤的筛查、风险评估及预后方法和试剂盒
CN117821585A (zh) 结直肠癌早期诊断标志物及应用
EP4372103A1 (en) Substance and method for tumor assessment
JP6583817B2 (ja) 子宮平滑筋における腫瘍の診断マーカー
WO2023104136A1 (zh) 甲状腺癌良恶性结节诊断的甲基化标志物及其应用
WO2023274350A1 (zh) 甲状腺结节良恶性相关标志物及其应用
US20080213781A1 (en) Methods of detecting methylation patterns within a CpG island
KR20230105973A (ko) 특정 유전자의 CpG 메틸화 변화를 이용한 전립선암 진단용 조성물 및 이의 용도
CN118451202A (zh) 一种肿瘤检测方法及应用
CN117721203A (zh) 用于检测甲状腺癌的组合物及其用途