TW202403054A - 癌症特異性甲基化標誌物及其應用 - Google Patents

癌症特異性甲基化標誌物及其應用 Download PDF

Info

Publication number
TW202403054A
TW202403054A TW112124613A TW112124613A TW202403054A TW 202403054 A TW202403054 A TW 202403054A TW 112124613 A TW112124613 A TW 112124613A TW 112124613 A TW112124613 A TW 112124613A TW 202403054 A TW202403054 A TW 202403054A
Authority
TW
Taiwan
Prior art keywords
gene
cancer
methylation
region
sample
Prior art date
Application number
TW112124613A
Other languages
English (en)
Inventor
蘇志熙
馬成城
謝可輝
蘇明揚
劉軼穎
徐敏杰
何其曄
劉蕊
Original Assignee
大陸商江蘇鵾遠生物科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202210787313.0A external-priority patent/CN117344012A/zh
Priority claimed from CN202210787502.8A external-priority patent/CN117385028A/zh
Priority claimed from CN202210787412.9A external-priority patent/CN117385027A/zh
Priority claimed from CN202210787623.2A external-priority patent/CN118127150A/zh
Priority claimed from CN202210786398.0A external-priority patent/CN117385026A/zh
Priority claimed from CN202210787425.6A external-priority patent/CN117363728A/zh
Application filed by 大陸商江蘇鵾遠生物科技股份有限公司 filed Critical 大陸商江蘇鵾遠生物科技股份有限公司
Publication of TW202403054A publication Critical patent/TW202403054A/zh

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

提供了特定癌症,如結直腸癌等的特異性甲基化標誌物及其應用。本發明有關於試劑或組件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分特定癌症如結直腸癌患者與非特定癌症,如非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷癌症;或者(3)用於泛癌篩查過程中對特定癌症的組織溯源。例如試劑或元件包含檢測結直腸癌組織特異性甲基化標誌物諸如基因SFN,如SEQ ID No. 52-90的甲基化水平的試劑或組件。本發明用於泛癌種早期篩查過程中對結直腸癌等癌症的組織溯源,達到更好的區分結直腸癌等癌症的目的。

Description

癌症特異性甲基化標誌物及其應用
本發明主張享有以下專利申請的優先權權益:申請日2022年7月4日,申請號202210787502.8,發明名稱為“結直腸癌特異性甲基化標誌物及其應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787412.9,發明名稱為“肺癌特異性甲基化標誌物及其診斷肺癌的應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787425.6,發明名稱為“肝癌組織特異性甲基化標誌物及其診斷肝癌的應用”的中國發明專利申請;申請日2022年7月4日,申請號202210786398.0,發明名稱為“乳腺癌特異性甲基化標誌物及其診斷乳腺癌的應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787313.0,發明名稱為“胃癌及/或食管癌特異性甲基化標誌物及其應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787623.2,發明名稱為“胰腺癌特異性甲基化標誌物及其診斷胰腺癌的應用”的中國發明專利申請。這些申請的內容通過引用方式併入本文。
本發明屬於分子輔助診斷領域,並且具體地有關於癌症特異性甲基化標誌物及其應用,例如結直腸癌組織特異性甲基化標誌物及其診斷結直腸癌的應用。
結直腸癌是人類最常見的腫瘤之一,全球發病率居惡性腫瘤第三位,死亡率居第二位。在中國,結直腸癌的發病率也在不斷升高。
癌症篩查通過檢測癌症高危人群的早期相關信號,及時發現癌症早期患者,早期癌症患者可以通過手術切除達到完全治癒的目的,癌症篩查可以大大降低癌症患者的死亡率,早期結直腸癌的5年生存率為90%以上,晚期結直腸癌患者的5年生存率低於10%。從1990年到2015年,美國整體的癌症死亡率下降了25%,其中結直腸癌(男性降低了47%,女性降低了44%),乳腺癌(女性降低了39%)降低最多,癌症死亡率的降低有很重要的一部分原因就是癌症篩查技術的廣泛應用(Byers T等人,2016)。
傳統的結直腸癌篩查方法有免疫糞便潛血檢測(FIT)、腸鏡、腫瘤標誌物(癌胚抗原CEA,糖類抗原CA19-9)檢測等,但是傳統的方法都有一定的局限性,比如腸鏡篩查雖然是消化道癌種的“金標準”,但是腸鏡為侵入性檢測,檢查過程較為痛苦,患者依從性較差;FIT對結直腸癌前病變診斷效能有限;腫瘤標誌物的性能一般較差,只能作為臨床參考,難以大規模篩查應用。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等。ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點。已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020)。結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,組織特異性甲基化標誌物的發現需要多個癌種的大量甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。本領域中需要用於結直腸癌組織特異性甲基化標誌物。
肺癌作為全球最高致死原因的癌症。儘管手術、化療、靶向及免疫治療的綜合應用顯著提高了肺癌的生存率,但是與其他癌症相比,肺癌患者的預後仍然相對較差。主要原因為大部分肺癌是在晚期被診斷出來的,這與缺乏普及的肺癌早期篩查有關。
癌症篩查通過檢測癌症高危人群的早期相關信號,及時發現癌症早期患者,早期癌症患者可以通過手術切除達到完全治癒的目的,癌症篩查可以大大降低癌症患者的死亡率。約85%肺癌為非小細胞肺癌(NSCLC),早期原位癌患者五年生存率高達55.6%,而中晚期易發生轉移,轉移後患者五年生存率僅4.5%。早期NSCLC患者無明顯症狀,超80%的NSCLC患者確診時,已處於癌症中晚期,並伴隨淋巴結擴散或遠處轉移,存活率較低(Weichert W等人,2014)。從1990年到2015年,美國整體的癌症死亡率下降了25%,其中結男性肺癌患者降幅高達45%。癌症死亡率的降低有很重要的一部分原因就是癌症篩查技術的廣泛應用(Byers T等人,2016)。
傳統的癌症篩查方法有內鏡、影像學檢測(CT、MRI 等)、腫瘤標誌物(如臨床上輔助診斷原發性肝癌的甲胎蛋白,較為廣譜的腫瘤標誌物癌胚抗原,檢測肺癌的腫瘤標誌物細胞角蛋白19Cyfra21-1等)檢測等,但是傳統的方法都有一定的局限性。例如,目前臨床應用最廣泛肺癌早期篩查措施為低劑量CT(LDCT)。雖然LDCT一定程度能檢測出早期NSCLC患者,但其特異性較低,且診斷陽性患者後續需長時間隨訪,不斷複查或其他診療手段進行確診,這些措施會顯著增加患者痛苦,並因為過度診療造成醫療資源浪費。而目前腫瘤標誌物的性能一般較差,只能作為臨床參考,難以大規模篩查應用。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,組織特異性甲基化標誌物的發現需要多個癌種的大量甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。本領域中需要用於肺癌組織特異性甲基化標誌物。
肝癌在早期往往沒有明顯的臨床症狀和體征,腫瘤腫塊生長緩慢且迅速。大多數患者僅在晚期發現,導致治療選擇有限,預後極差。
最近的生存率資料顯示,中國人群癌症登記處的肝癌5年生存率約為9.8%-12.1%(Zeng H M等,2018),醫院癌症登記處的肝癌5年生存率為11.69%(Chen J G等,2018)。此外,1958-1970年、1971-1982年和1983-1994年接受手術切除的患者的5年生存率分別為4.8%、11.2%和45.4%;小肝癌切除術患者的死亡率為63.8%(Zhou X D等,1996)。在過去的4-50年中,AFP的應用價值和早期檢測的篩查效益的結果還不明確(Chen JG等,2003;Bruix J等,2005;Amarapurkar D等,2009;Santi V等,2010;Kubota H等,2002)。到目前為止,還沒有國際公認的肝癌篩查計畫,學術界也沒有形成科學共識。然而,病例報告和研究報告提供了證據,證明篩查是實現肝癌早期發現、早期診斷和早期治療的有效途徑。篩查對改善預後和降低死亡率具有積極而重要的意義,尤其是在乙型肝炎/肝癌流行區。
DNA甲基化檢測技術被認為是最有潛力的無創癌症篩查手段,已經有技術被證明可以用來進行癌症篩查和組織溯源(E. A. Klein等,2021)。這樣就可以設計出一款檢測多重癌症的檢測手段,同時對多重癌症進行早期檢測。這極大地擴大了篩查範圍,從某一種癌症的高危人群擴展到多種癌症的高危人群,盡可能在一次篩查之內對更廣泛的人群進行檢測,增加受檢者的依從性和擴大可供篩查的人群數量。但是,這種檢測的難點也在於高品質的檢測靶點,找到最具資訊的檢測靶點是此類檢測技術的重點和難點。
本領域中需要用於肝癌組織特異性甲基化標誌物。
乳腺癌是女性的頭號殺手,我國每年約27.88萬人被診斷為乳腺癌,而且隨著生活方式的改變,我國乳腺癌的發病率和死亡率不斷上升。在歐美國家,乳腺癌的5年生存率可達90%,而我國同期資料顯示,經濟發達的上海地區乳腺癌患者的5年生存率為78%,有些地區只有58%(Fan L等人,2014),這很大程度上是歸因於乳腺癌早期篩查的力度。在美國,40歲以上的女性篩查率達到了75%,而在我國,女性篩查率只有21%,84%的患者診斷時已是中晚期,錯過了最佳治療時間。世衛組織已經將早期乳腺癌列為可治癒性疾病,早期乳腺癌患者的5年生存率高達100%,而四期患者僅為21%(Li T等人,2016),因此早期篩查對於乳腺癌患者生存率的提升至關重要。
乳腺超聲,乳腺X線檢查(鉬靶)和核磁共振是常用的乳腺癌篩查方法,但是這些傳統的方法都有一定的技術限制,比較依賴於醫生的操作水平,具有較高的漏診誤診概率。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020);結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,乳腺癌組織特異性甲基化標誌物的發現需要多個癌種的大量甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。本領域中需要用於乳腺癌組織特異性甲基化標誌物。
胃癌和食管癌都是常見的消化道腫瘤。我國是胃癌和食管癌的高發國家。根據2015年中國癌症資料包告,我國胃癌發病率和致死率都在惡性腫瘤中排第二位,食管癌發病率和致死率在惡性腫瘤中分別排第四位和第五位。早期食管癌和癌前病變大部分可通過內鏡下微創治療達到根治效果,5年生存率可達到95%,早期胃癌的5年生存率也超過了90% (Sumyama K.等人 2017), 中晚期食管癌患者生存品質和預後都較差,總體5年生存率不足20%,進展期胃癌的5年生存率低於30%。目前我國食管癌和胃癌早診率都比較低,早期食管癌和胃癌患者都缺乏典型的臨床性狀,大多數患者就診時已是中晚期。因此,要想提高食管癌和胃癌患者的生存率,最有效的方法就是對高風險人群進行早期篩查。
胃癌的篩查方法主要有血清學篩查和內鏡篩查,其中血清學篩查包括血清腫瘤標誌物檢測(癌胚抗原CEA,糖類抗原CA19-9等),血清胃蛋白酶原(pepsinogen,PG)檢測,幽門螺旋桿菌感染檢測等,但是血清學相關方法靈敏度和特異性都比較低,難以大規模人群篩查使用。食管癌的篩查方法以內鏡為主。內鏡及其活檢是診斷胃癌和食管癌的金標準,但是內鏡檢查依賴設備和內鏡醫師資源,檢查費用相對較高,且為侵入性檢測,患者依從性較差,難以大規模人群篩查使用。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020);結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,組織特異性甲基化標誌物的發現需要多個癌種大量的甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。
胃和食管是人體內臨近的兩個器官,相關檢測陽性樣本可以使用胃鏡可以同時對食管和胃部的病變進行確認,因此在泛癌種篩查過程中的組織溯源階段可以將食管癌和胃癌劃分為一類,尋找兩個癌種特異性的甲基化標誌物,構建模型用以將食管癌和胃癌與其它癌種進行區分。
本領域中需要用於胃癌及/或食管癌組織特異性甲基化標誌物。
癌症篩查通過檢測癌症高危人群的早期相關信號,及時發現癌症早期患者,早期癌症患者可以通過手術切除達到完全治癒的目的,癌症篩查可以大大降低癌症患者的死亡率。胰腺癌是惡性程度最高的消化系統腫瘤,早期發現並手術切除是治癒胰腺癌的唯一途徑。據2018年全球腫瘤流行病資料,胰腺癌占所有腫瘤的2.7%,居第9位,現階段胰腺癌總的5年生存率只有5%左右,主要原因就是胰腺癌難以早期診斷,待確診時大多已達晚期,而I期或者腫瘤直徑小於1cm的早期胰腺癌患者5年生存率可達75%,只有實現對該類患者的早期篩查,才能實現提高胰腺癌生存率的目的。
傳統的胰腺癌篩查方法主要有影像學篩查(彩超,CT,核磁共振等)及血液腫瘤標誌物(主要是糖類抗原CA199檢查)。如果彩超和CT有檢查到胰腺腫塊,或者腫瘤指標CA199明顯升高的情況下,則考慮是胰腺癌的可能性。但是,CA199僅在65%的可切除胰腺癌患者中表達升高,不適用於大規模人群早篩。彩超可以發現直徑2cm以上的腫瘤,CT/核磁共振可以發現1cm以上的胰腺腫瘤,對於低於1cm的胰腺癌早期腫瘤會有漏診,同樣難以應用於大規模人群篩查。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020)。結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是組織特異性甲基化標誌物的發現需要多個癌種大量的甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。
本領域中需要用於胰腺癌組織特異性甲基化標誌物。
現有技術中結直腸癌診斷存在上述諸多缺陷。針對本領域中缺乏針對結直腸癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,結直腸癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到結直腸癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對結直腸癌的組織溯源,達到更好的區分結直腸癌的目的。
一方面,本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是結直腸癌組織特異性甲基化標誌物。在一個實施方案中,分離的核酸是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從結直腸癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。在一個實施方案中,變體包含與任一種基因的序列具有至少50%同一性的序列。例如,變體包含與任一種基因的序列具有至少60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。在一個實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區。在一個實施方案中,上游區是基因上游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是140bp-510bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。在一個實施方案中,分離的核酸包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體:SEQ ID No. 52-90。在一個實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中結直腸癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是140bp-510bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 52-90。在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物及/或血漿。在一個實施方案中,樣品基因組DNA是血漿中的游離DNA。
在一個方面,本發明提供了一種構建區分結直腸癌與其他非結直腸癌的預測模型的方法,其包括:(1)獲得結直腸癌樣品和非結直腸癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是140bp-510bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,方法包括(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。在一個實施方案中,通過MethylTitan的方法獲得樣品DNA的甲基化測序數據。在一個實施方案中,步驟(2)包括使用邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,可以使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 。可以使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中結直腸癌為1,其它癌種為0。可以根據訓練集的樣本確定模型的相關閾值。
在一個方面,本發明提供了本文的方法構建的結直腸癌預測模型。
在一個方面,本發明提供了診斷結直腸癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行本文所述的方法以構建結直腸癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷。可以使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷,大於閾值預測為結直腸癌,反之預測為其它癌種。
在一個方面,本發明提供了方法,其(1)區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種結直腸癌特異性甲基化標誌物的甲基化水平。
在一個方面,本發明提供了一種試劑盒或裝置,其在(1)區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源中應用。在一個實施方案中,該應用包括測定樣品基因組DNA中的本文中所述的一種或多種結直腸癌特異性甲基化標誌物的甲基化水平。
在另一個方面,本發明提供了一種用於檢測結直腸癌組織特異性甲基化標誌物的試劑盒或裝置。在一個實施方案中,試劑盒或裝置包含檢測來自樣品的基因組DNA中的本文所述的一種或多種結直腸癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑包含用於檢測結直腸癌特異性甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非結直腸癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
本發明的結直腸癌特異性甲基化標誌物的優勢包括: 1. 本發明提供了新的結直腸癌特異性甲基化標誌物,可以用於泛癌種早期篩查過程中對結直腸癌的組織溯源,達到更好的區分結直腸癌的目的; 2. 以結直腸癌腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現結直腸癌早篩; 3. 本發明的結直腸癌特異性甲基化標誌物可以以高的敏感性和特異性檢出結直腸癌。
針對本領域中缺乏針對肺癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,肺癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到肺癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對肺癌的組織溯源,達到更好的區分肺癌的目的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,非肺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分肺癌與其他非肺癌的癌症的預測模型的方法,其包括: (1)獲得肺癌樣品和非肺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。在一個實施方案中,步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,可以使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 。可以使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肺癌為1,其它癌種為0。可以據訓練集的樣本確定模型的相關閾值。
在另一個方面,提供了根據本發明的方法構建的肺癌預測模型。
在另一個方面,提供了診斷肺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建肺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肺癌進行判斷,大於閾值預測為肺癌,反之預測為其它癌種。可以使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值。
在另一個方面,提供了用於檢測肺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肺癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是肺癌組織特異性甲基化標誌物。在一個實施方案中,所述肺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從肺癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區。在一個實施方案中,上游區是基因上游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是120bp-500bp,優選200bp-480bp。在一個實施方案中,位點的長度可以是130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的肺癌預測模型進行該方法。
本發明的肺癌組織特異性甲基化標誌物的優勢包括: 1. 本發明提供了新的肺癌組織特異性甲基化標誌物,可以用於泛癌種早期篩查過程中對肺癌的組織溯源,達到更好的區分肺癌的目的; 2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現肺癌早篩; 3. 本發明的肺癌組織特異性甲基化標誌物可以以高的敏感性和特異性檢出肺癌。
急需用於針對肝癌的組織特異性甲基化標誌物。本發明人從7個癌種(肺癌,結直腸癌,肝癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到肝癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對肝癌的組織溯源,達到更好的區分肝癌的目的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肝癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1(T-cell acute lymphocytic leukemia protein 1)基因;TRIM58基因;LBH基因;ABCG5 (ATP Binding Cassette Subfamily G Member 5)基因;PAX8 (Paired Box 8)基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,非肝癌的癌症或泛癌包括結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分肝癌與其他非肝癌的預測模型的方法,其包括: (1)獲得肝癌樣品和非肝癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2)包括建立邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型),例如AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,使用AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肝癌為1,其它癌種為0。
在另一個方面,提供了根據本發明的方法構建的肝癌預測模型。
在另一個方面,提供了診斷肝癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建肝癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肝癌進行判斷,大於閾值預測為肝癌,反之預測為其它癌種。模型預測分值可以使用TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值。
在另一個方面,提供了用於檢測肝癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肝癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肝癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針;
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肝癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是肝癌組織特異性甲基化標誌物。在一個實施方案中,所述肝癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從肝癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少60%同一性的序列。例如,變體包含與任一種基因的序列具有至少65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區。在一個實施方案中,上游區是基因上游的2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,位點的長度可以是110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp、500bp、510bp、520bp、530bp或540bp。
在在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的肝癌預測模型進行該方法。
本發明的肝癌甲基化標誌物的優勢包括: 1. 本發明提供了新的甲基化標誌物,可以用於泛癌種早期篩查過程中對肝癌的組織溯源,達到更好的區分肝癌的目的; 2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現肝癌早篩; 3. 本發明的甲基化標誌物可以以高的敏感性和特異性檢出肝癌。
乳腺超聲,乳腺X線檢查(鉬靶)和核磁共振是常用的乳腺癌篩查方法,但是這些傳統的方法都有一定的技術限制,比較依賴於醫生的操作水平。本領域中缺乏針對乳腺癌組織特異性甲基化標誌物。針對這些技術問題,發明人從7個癌種(肺癌,肝癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到乳腺癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對乳腺癌的組織溯源,達到更好的區分乳腺癌的目的。本發明的乳腺癌組織特異性甲基化標誌物是先前沒有描述的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中乳腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為150bp-500bp。在一個實施方案中,位點的長度為200bp-470bp。
在一個實施方案中,非乳腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分乳腺癌與其他非乳腺癌的預測模型的方法,其包括: (1)獲得乳腺癌樣品和非乳腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為150bp-500bp,優選200bp-470bp。在一個實施方案中,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2)包括建立邏輯回歸模型以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練並根據訓練集的樣本確定模型的相關閾值。
例如,使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中乳腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。
在另一個方面,提供了根據本發明的方法構建的乳腺癌預測模型。
在另一個方面,提供了診斷乳腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建乳腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得預測分值並根據閾值對樣本是否是乳腺癌進行判斷。例如,使用TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是乳腺癌進行判斷,大於閾值預測為乳腺癌,反之預測為其它癌種。
在另一個方面,提供了用於檢測乳腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種乳腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述乳腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為150bp-500bp。在一個實施方案中,位點的長度為200bp-470bp。
在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 1-51。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非乳腺癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是乳腺癌組織特異性甲基化標誌物。在一個實施方案中,所述乳腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為150bp-500bp。在一個實施方案中,位點的長度為200bp-470bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 1-51。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從乳腺癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區。在一個實施方案中,上游區是基因上游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的乳腺癌預測模型進行該方法。
本發明的優勢包括: 1. 本發明提供了新的甲基化標誌物,可以用於泛癌種早期篩查過程中對乳腺癌的組織溯源,達到更好的區分乳腺癌的目的; 2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現乳腺癌早篩; 3. 本發明的甲基化標誌物可以以高的敏感性和特異性檢出乳腺癌。
針對本領域中缺乏針對胃癌及/或食管癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,結直腸癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到胃癌及/或食管癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對胃癌及/或食管癌的組織溯源,達到更好的區分胃癌及/或食管癌的目的。
一方面,本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是胃癌及/或食管癌組織特異性甲基化標誌物。在一個實施方案中,分離的核酸是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從胃癌及/或食管癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在一個實施方案中,變體包含與任一種胃癌及/或食管癌組織特異性甲基化標誌物基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在一個實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區。在一個實施方案中,上游區是基因上游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在一個實施方案中,分離的核酸包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體:SEQ ID No. 23、72、143、150、152、157和160-187。
在一個實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胃癌及/或食管癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。
在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 23、72、143、150、152、157和160-187。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物及/或血漿。在一個實施方案中,樣品基因組DNA是血漿中的游離DNA。
在一個方面,本發明提供了一種構建區分胃癌及/或食管癌與除胃癌和食管癌以外的癌症的預測模型的方法,其包括:(1)獲得胃癌及/或食管癌樣品和除胃癌和食管癌以外的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。
在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
在一個實施方案中,方法包括(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。
在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。在一個實施方案中,通過MethylTitan的方法獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,可以使用邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 。可以使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胃癌及/或食管癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。
在一個方面,本發明提供了本文的方法構建的胃癌及/或食管癌預測模型。
在一個方面,本發明提供了診斷胃癌及/或食管癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行本文所述的方法以構建胃癌及/或食管癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。可以使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。
在一個方面,本發明提供了方法,其(1)區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。
在一個方面,本發明提供了一種試劑盒或裝置,其在(1)區分胃癌及/或食管癌癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源中應用。在一個實施方案中,該應用包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。
在另一個方面,本發明提供了一種用於檢測胃癌及/或食管癌組織特異性甲基化標誌物的試劑盒或裝置。
在一個實施方案中,試劑盒或裝置包含檢測來自樣品的基因組DNA中的本文所述的一種或多種胃癌及/或食管癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或除胃癌和食管癌以外的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
本發明的優勢包括: 1. 本發明提供了新的胃癌及/或食管癌組織特異性甲基化標誌物,可以用於泛癌種早期篩查過程中對胃癌及/或食管癌的組織溯源,達到更好的區分胃癌及/或食管癌的目的; 2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現胃癌及/或食管癌早篩; 3. 本發明的胃癌及/或食管癌組織特異性甲基化標誌物可以以高的敏感性和特異性檢出胃癌及/或食管癌。
針對本領域中缺乏針對胰腺癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,胃癌,食管癌,胰腺癌,乳腺癌,結直腸癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到胰腺癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對胰腺癌的組織溯源,達到更好的區分胰腺癌的目的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胰腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因PGM1 (Phosphoglucomutase 1);基因CELF3 (CUGBP Elav-Like Family Member 3);基因ATP2B4 (ATPase Plasma Membrane Ca2+ Transporting 4);基因SF3B6 (Splicing Factor 3b Subunit 6);基因CNNM4 (Cyclin And CBS Domain Divalent Metal Cation Transport Mediator 4) ;基因SP9(Sp9 Transcription Factor);基因C2orf82(chromosome 2 open reading frame 82);基因NEU4 (Neuraminidase 4);基因RPL35A(Ribosomal Protein L35a);基因HGFAC;基因EXOC3 (Exocyst Complex Component 3);基因GDNF(Glial cell line-derived neurotrophic factor);基因NEUROG1 (Neurogenin 1);基因HIST1H2BA;基因OSTM1 (Osteoclastogenesis Associated Transmembrane Protein 1);基因CCR6 (C-C Motif Chemokine Receptor);基因CCAR2;基因TNFRSF10D(TNF Receptor Superfamily Member 10d);基因TJP2 (Tight Junction Protein 2);基因DAB2IP (DAB2 Interacting Protein);基因NTMT1 (N-Terminal Xaa-Pro-Lys N-Methyltransferase 1);基因MKI67 (Marker Of Proliferation Ki-67);基因PTGDR2 (Prostaglandin D2 Receptor 2);基因CCDC77 (Coiled-Coil Domain Containing 77);基因MYL2 (Myosin Light Chain 2);基因FRY;基因SMEK1;基因BTBD6 (BTB Domain Containing 6);基因PIF1;基因SRL;基因SPNS1;基因DNM2 (Dynamin 2);基因ZNF569 (Zinc Finger Protein 569);基因SDF2L1 (Stromal Cell Derived Factor 2 Like 1);或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為130bp-530bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,非胰腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分胰腺癌與其他非胰腺癌的癌症的預測模型的方法,其包括: (1)獲得胰腺癌樣品和非胰腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為130bp-530bp,優選150bp-480bp。在一個實施方案中,非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練並根據訓練集的樣本確定模型的閾值。
在一個實施方案中,步驟(2)包括使用邏輯回歸模型(python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胰腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。
在另一個方面,提供了根據本發明的方法構建的胰腺癌預測模型。
在另一個方面,提供了診斷胰腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建胰腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷。在一個實施方案中,使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷,大於閾值預測為胰腺癌,反之預測為其它癌種。
在另一個方面,提供了用於檢測胰腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種胰腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述胰腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為130bp-530bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針;
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非胰腺癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是胰腺癌組織特異性甲基化標誌物。在一個實施方案中,所述胰腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為130bp-530bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從胰腺癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區。在一個實施方案中,上游區是基因上游的2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是130bp-530bp。在一個實施方案中,位點的長度可以是150bp-480bp。在一個實施方案中,位點的長度可以是140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp、500bp、510bp或520bp。
在在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的胰腺癌預測模型進行該方法。
本發明的優勢包括: 1. 本發明提供了新的甲基化標誌物,可以用於泛癌種早期篩查過程中對胰腺癌的組織溯源,達到更好的區分胰腺癌的目的; 2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現胰腺癌早篩; 3. 本發明的甲基化標誌物可以以高的敏感性和特異性檢出胰腺癌。
本發明人從7個癌種大量的NGS甲基化測序數據中篩選到了結直腸癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中結直腸癌的組織溯源提供了重要的技術支援。
本發明人從7個癌種大量的NGS甲基化測序數據中篩選到了肺癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中肺癌的組織溯源提供了重要的技術支援。
本發明從7個癌種的大量NGS甲基化測序數據中篩選到了肝癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中肝癌的組織溯源提供了重要的技術支援。
本發明從7個癌種的大量NGS甲基化測序數據中篩選到了乳腺癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中乳腺癌的組織溯源提供了重要的技術支援。
本發明人從7個癌種的大量的NGS甲基化測序數據中篩選到了胃癌及/或食管癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中胃癌及/或食管癌的組織溯源提供了重要的技術支援。發明人發現,胃癌及/或食管癌與以下基因區域的甲基化水平相關:SEQ ID No. 23、72、143、150、152、157和160-187。
本發明從7個癌種大量的NGS甲基化測序數據中篩選到了胰腺癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中胰腺癌的組織溯源提供了重要的技術支援。
機器學習建模是為輸入的資料特徵尋找最合適的表現形式的過程,使其能夠解決具體問題,例如分類問題。經過建模之後的資料要比每一個輸入的單個資料特徵具備更佳的區分能力。本文展示了最佳模型以及模型中每個標誌物的分類效果,選擇任意的特徵組合進行建模的區分效果介於最優模型與單個特徵之間。如本文中所示,每一個單獨的標誌物都具備區分效果,在本專利申請實施例中也展示了隨機選擇標誌物進行分類的結果。因此,本專利申請對全部標誌物組合模型進行保護。
發明人發現,結直腸癌與以下基因區域(SEQ ID No. 52-90)的甲基化水平相關:第1號染色體第27189993-27190207位;第1號染色體第27732194-27732394位;第1號染色體第121260989-121261197位;第2號染色體第469568-469933位;第2號染色體第106959197-106959397位;第3號染色體第13323366-13323566位;第3號染色體第69230395-69230599位;第6號染色體第1393206-1393469位;第6號染色體第166580183-166580476位;第7號染色體第29605610-29605810位;第7號染色體第73407894-73408161位;第7號染色體第93519986-93520213位;第7號染色體第150069569-150069875位;第8號染色體第22438141-22438341位;第8號染色體第97506340-97506540位;第8號染色體第141231103-141231303位;第9號染色體第71788926-71789126位;第10號染色體第518081-518444位;第10號染色體第74069147-74069510位;第11號染色體第-1955139-1955372位;第11號染色體第31848632-31848877位;第12號染色體第94605804-94606004位;第13號染色體第49795241-49795441位;第13號染色體第109147964-109148164位;第14號染色體第105102434-105102644位;第15號染色體第45670805-45671005位;第16號染色體第1202353-1202553位;第16號染色體第57025884-57026193位;第17號染色體第11143843-11144043位;第17號染色體第21300616-21300930位;第17號染色體第46796372-46796572位;第17號染色體第73607909-73608115位;第17號染色體第76991129-76991518位;第18號染色體第76150778-76150991位;第19號染色體第2790947-2791147位;第19號染色體第4059528-4059746位;第19號染色體第10823485-10823947位;第19號染色體第39306255-39306455位;第20號染色體第43331809-43332099位元,其中甲基化標誌物的物理位置是參照人全基因組序列hg19確定的。
發明人發現,肺癌與以下基因區域或其上下游區域的甲基化水平相關:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9。
發明人發現,肝癌與以下基因區域或其上下游區域的甲基化水平相關:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;或WISP2基因。
發明人發現,乳腺癌與以下基因區域或其上下游區域的甲基化水平相關:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81。
發明人發現,胰腺癌與以下基因區域或其上下游區域的甲基化水平相關:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1。
DNA甲 基化是表觀遺傳的一種機制,是真核細胞基因組常見的表觀遺傳學修飾,能夠在不改變DNA序列的情況下改變遺傳表現。所謂DNA甲基化是指在DNA甲基化轉移酶(methyltransferase)的作用下,在基因組CpG二核苷酸的胞嘧啶5號碳位共價結合一個甲基基團。DNA甲基化在細胞增殖、分化、發育等方面起重要作用,與腫瘤的發生、發展關係密切,其效應有轉錄抑制、染色質結構調節、X染色體失活、基因組印記等。DNA甲基化異常可以通過影響染色質結構以及癌基因和抑癌基因的表達而參與腫瘤的發生和進展。
如本文所用,“引物”是指在核苷酸聚合作用起始時引導合成的具有特定核苷酸序列的核酸分子。引物通常是人工合成的兩段寡核苷酸序列,一個引物與靶區域一端的一條DNA範本鏈互補,另一個引物與靶區域另一端的另一條DNA範本鏈互補,其功能是作為核苷酸聚合作用的起始點。體外人工設計的引物廣泛用於聚合酶鏈反應(PCR)、qPCR、測序和探針合成等。通常,引物設計為擴增的產物長度為50-150bp、60-140、70-130、80-120bp。本文試劑中所含引物可以是基因組測序的引物,例如全基因組測序引物或針對基因組某一區域的測序引物,也可以是用於擴增特定區域的PCR引物或用於擴增區域中一個或多個甲基化位點的PCR引物。引物可以是全基因組測序引物,所述引物可以獲得很多擴增產物,這些擴增產物可以包含所述區域或在拼接後包含所述區域。根據全基因組測序結果,在測序後獲得該區域中的每個甲基化位元點(CpG)的甲基化狀態,從而獲取整個區域的甲基化水平。引物與感興趣的基因或區域是互補或基本上互補的。
如本文所用,術語“變體”是指與參照序列相比,通過一個或多個核苷酸的插入、缺失或取代使核酸序列發生變化,同時保留其與其他核酸雜交能力的多核苷酸。本文任一實施方案所述的變體包括與參照序列或參照基因具有至少70%,優選至少80%,優選至少85%,優選至少90%,優選至少95%,優選至少97%的序列同一性並保留參照序列或參照基因的甲基化位點的核苷酸序列。可採用例如NCBI的BLASTn計算兩條比對的序列之間的序列同一性。變體還包括在參照序列的核苷酸序列中具有一個或多個突變(插入、缺失或取代)、同時仍保留參照序列甲基化位點的核苷酸序列。多個突變通常指1-10個以內,例如1-8個、1-5個或1-3個。取代可以是嘌呤核苷酸與嘧啶核苷酸之間的取代,也可以是嘌呤核苷酸之間或嘧啶核苷酸之間的取代。取代優選是保守性取代。例如,在本領域中,用性能相近或相似的核苷酸進行保守性取代時,通常不會改變多核苷酸的穩定性和功能。保守性取代例如嘌呤核苷酸之間的(A與G)的互換,嘧啶核苷酸之間的(T或U與C)的互換。因此,在本發明多核苷酸中用來自同一殘基替換一個或幾個位點,將不會在實質上影響其活性。此外,本發明的變體中所含有的本文所述的甲基化位點未發生突變。即本發明方法檢測的是相應序列中的甲基化位元點的甲基化情況,對於這些位元點之外的堿基可以發生突變。
如本文所用,術語“生物樣品”或“樣品”通常指從感興趣的生物來源(例如組織或生物體或細胞培養物)獲得或衍生的樣品。在一些實施方案中,作為樣品來源的生物體是動物或人,優選是人。在一些實施方案中,樣品是或包括生物組織或流體。在一些實施方案中,生物樣品可以是或包括細胞、組織或體液。在一些實施方案中,生物樣品可以是或包括血液、血細胞、無細胞DNA、游離的漂浮核酸、腹水、活組織檢查樣品、外科樣品、含細胞體液、痰、唾液、糞便、尿液、腦脊液、腹膜液、胸膜液、淋巴液、婦科液、分泌物、排泄物、皮膚拭子、陰道拭子、口腔拭子、鼻拭子、洗液如導管洗液或支氣管肺泡洗液、吸出物、刮片等。在一些實施方案中,生物樣品是或包括從單個受試者或從多個受試者獲得的細胞。樣品可以是直接從生物來源獲得的“初級樣品”,或者可以是“處理過的樣品”。
如本文所用,術語“癌症”用於指細胞表現出異常、失控和/或自主生長,使得它們表現出異常升高的增殖速率和/或異常生長表型的疾病或病症。在本發明中,感興趣的癌症可以是結直腸癌。在本發明中,感興趣的癌症可以是肺癌。在本發明中,感興趣的癌症可以是肝癌。在本發明中,感興趣的癌症可以是乳腺癌。在本發明中,感興趣的癌症可以是胃癌和/或食管癌。在本發明中,感興趣的癌症可以是胰腺癌。
如本文所用,術語“診斷”是指確定受試者是否患有或有風險形成癌症的定量概率和/或定性概率。例如,在癌症的診斷中,診斷可包括關於癌症的風險、類型、階段、惡性等的確定。
如本文所用,術語“標誌物”與其在本領域中的用途一致,是指其存在,水平或形式與特定的感興趣的生物事件或狀態相關聯的實體,從而認為是該事件或狀態的“標誌”。本領域技術人員將認識到,在甲基化標誌物的上下文中,甲基化標誌物可以是或包括基因座(例如一個或多個甲基化基因座)和/或基因座的狀態(例如一個或多個甲基化基因座的狀態)。標誌物可以是或包括特定疾病的標誌物,或者可以是特定疾病在受試者中發展、發生或復發的定量概率的標誌物。本發明的甲基化標誌物可以是結直腸癌、肺癌、肝癌、乳腺癌、胃癌和/或食管癌,以及胰腺癌之一的預測、預後和/或診斷的標誌物。
如本文所用,“DNA區域”或“區域”是指較大DNA分子的任何連續部分。在本文中,DNA區域是指感興趣的基因以及其上游和下游的區域。基因或區域的“上游”是指相對于基因或區域5’端的區域。基因或區域的“下游”是指相對于基因或區域3’端的區域。
如本文所用,術語“同一性”是指核酸分子(例如DNA分子和/或RNA分子)之間的總體相關性。用於計算兩個提供的序列之間的同一性百分比的方法是本領域已知的。例如,可以如下計算兩個核酸的同一性百分比:比對兩個序列以達到最佳的比較目的(例如,可以在第一和第二序列中的一個或兩個序列中引入缺口以進行最佳比對,並且為了比較的目的可以忽略不相同的序列);然後比較相應位置的核苷酸;當第一序列中的位置被與第二序列中的相應位置相同的殘基(例如核苷酸或氨基酸)佔據時,那麼分子在該位置是相同的。兩個序列之間的同一性百分數是序列共用的相同位置的數目的函數(考慮到為了最佳比對引入的缺口的數目和每個缺口的長度)。序列的比較和兩個序列之間同一性百分比的確定可以使用諸如BLAST(基本局部比對搜索工具)之類的計算演算法來完成。
如本文所用,術語“甲基化”包括(i)胞嘧啶的任何C5位;(ii)胞嘧啶的N4位;(iii)腺嘌呤的N6位的甲基化;和(iv)其它類型的核苷酸甲基化。甲基化的核苷酸可以稱作“甲基化核苷酸”或“甲基化核苷酸堿基”。在某些實施方案中,如本文所述的甲基化具體指胞嘧啶殘基的甲基化。在一些情況下,甲基化指存在於CpG位點中的胞嘧啶殘基的甲基化。
如本文所用,術語“甲基化分析”指可用於確定甲基化位元點的甲基化狀態或水平的任何技術。
如本文所用,術語“甲基化標誌物”指至少一個甲基化位點和/或至少一個甲基化位元點的甲基化狀態(例如超甲基化位元點)的標誌物。特別地,甲基化標誌物的特徵在於一個或多個核酸位元點的甲基化狀態在第一狀態和第二狀態(例如,在癌變狀態和非癌變狀態之間)之間變化。
如本文所用,“甲基化狀態”指甲基化基因座內的甲基化位點的甲基化數量,頻率或模式。因此,在第一狀態和第二狀態之間甲基化狀態的變化可以是或包括甲基化位元點的數目,頻率或模式的增加,或者可以是或包括甲基化位元點的數目,頻率或模式的減少。在各種情況下,甲基化狀態的改變是甲基化值的改變。在本文中,甲基化狀態可以以甲基化單倍型頻率表示。
如本文所用,術語“甲基化值”是指甲基化狀態的數位表示,例如,以表示甲基化基因座的甲基化頻率或比率的數位的形式。在一些情況下,甲基化值可以通過如下的方法產生,該方法包括在用甲基化依賴性限制性內切酶限制性消化樣品之後定量樣品中存在的完整核酸的量。在一些情況下,甲基化值可以通過包括比較樣品的亞硫酸氫鹽反應後的擴增概況的方法產生。在一些情況下,可以通過比較亞硫酸氫鹽處理和未處理核酸的序列來產生甲基化值。在一些情況下,甲基化值是定量PCR結果,包括定量PCR結果或基於定量PCR結果。本文中,甲基化水平代表一個或多個位點處於甲基化狀態的比例。一個區域(或一組位元點)的甲基化水平是該區域中所有位元點(或組中所有位點)的甲基水平的均值。因此,區域的甲基化水平上升或下降並不表示區域中所有甲基化位元點的甲基化水平都上升或下降。本領域知曉將檢測DNA甲基化的方法(例如簡化甲基化測序)所得結果轉化為甲基化水平的過程。例如,可以利用軟體Bismark(v0.17.0)獲得CpG位點的甲基化水平。檢測DNA甲基化的方法在本領域中是已知的,包括但不限於基於重亞硫酸鹽轉化的PCR(例如甲基化特異性PCR(Methylation-specific PCR, MSP))、DNA測序(如亞硫酸氫鹽測序(Bisulfite sequencing, BS)、全基因組甲基化測序(Whole-genome bisulfite sequencing, WGBS)、簡化甲基化測序(Reduced Representation Bisulfite Sequencing, RRBS))、甲基化敏感的限制性內切酶分析法(Methylation-Sensitive Dependent Restriction Enzymes)、螢光定量法、甲基化敏感性高解析度熔解曲線法(Methylation-sensitivity High-resolution Melting, MS-HRM)、基於晶片的甲基化圖譜分析或質譜(例如飛行質譜)、大規模平行測序技術(例如下一代測序技術),例如合成測序、即時(例如單分子)測序、珠粒乳液測序、奈米孔測序等。在一個或多個實施方案中,檢測包括檢測基因或位點處的任一條鏈。也可以使用簡化基因組甲基化測序(RRBS)檢測DNA甲基化。簡化基因組甲基化測序是利用限制性內切酶對基因組進行酶切,經亞硫酸氫鹽處理,對基因組CpG區域進行測序的技術。例如,簡化基因組甲基化測序所用試劑包括:血漿核酸純化試劑盒、連接酶、重亞硫酸鹽及其衍生物、dNTP、聚合酶、引物、無核酸酶水和/或磁珠等。
如本文所用,標誌物的“特異性”是指以不存在感興趣的事件或狀態為特徵的樣品的百分比,其中標誌物的測量精確地指示不存在感興趣的事件或狀態(真實陰性率)。在各種實施方案中,陰性樣品的表徵不依賴於標誌物,並且可以通過任何相關的測量,例如本領域技術人員已知的任何相關測量來實現。因此,特異性反映當在不表徵感興趣的事件或狀態的樣品中測量時標誌物將檢測到感興趣的事件或狀態的不存在的概率。在感興趣的事件或狀態是結直腸癌的特定實施方案中,特異性指標志物將檢測缺乏結直腸癌的受試者中結直腸癌的不存在的概率。結直腸癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是肺癌的特定實施方案中,特異性指標志物將檢測缺乏肺癌的受試者中肺癌的不存在的概率。肺癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是肝癌的特定實施方案中,特異性指標志物將檢測缺乏肝癌的受試者中肝癌的不存在的概率。肝癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是乳腺癌的特定實施方案中,特異性指標志物將檢測缺乏乳腺癌的受試者中乳腺癌的不存在的概率。乳腺癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是胃癌和/或食管癌的特定實施方案中,特異性指標志物將檢測缺乏胃癌和/或食管癌的受試者中胃癌和/或食管癌的不存在的概率。胃癌和/或食管癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是胰腺癌的特定實施方案中,特異性指標志物將檢測缺乏胰腺癌的受試者中胰腺癌的不存在的概率。胰腺癌的不存在可以例如通過組織學來確定。
如本文所用,標誌物的“敏感性”是指以存在感興趣的事件或狀態為特徵的樣品的百分比,其中標誌物的測量精確地指示存在感興趣的事件或狀態(真實陽性率)。在各種實施方案中,陽性樣品的表徵不依賴於標誌物,並且可以通過任何相關的測量,例如本領域技術人員已知的任何相關測量來實現。因此,敏感性反映了當在以感興趣事件或狀態的存在為特徵的樣品中測量時標誌物將檢測到感興趣的事件或狀態的存在的概率。在感興趣的事件或狀態是結直腸癌的特定實施方案中,敏感性指標志物將檢測患有結直腸癌的受試者中結直腸癌的存在的概率。結直腸癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是肺癌的特定實施方案中,敏感性指標志物將檢測患有肺癌的受試者中肺癌的存在的概率。肺癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是肝癌的特定實施方案中,敏感性指標志物將檢測患有肝癌的受試者中肝癌的存在的概率。肝癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是乳腺癌的特定實施方案中,敏感性指標志物將檢測患有乳腺癌的受試者中乳腺癌的存在的概率。乳腺癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是胃癌和/或食管癌的特定實施方案中,敏感性指標志物將檢測患有胃癌和/或食管癌的受試者中胃癌和/或食管癌的存在的概率。胃癌和/或食管癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是胰腺癌的特定實施方案中,敏感性指標志物將檢測患有胰腺癌的受試者中胰腺癌的存在的概率。胰腺癌的存在可以例如通過組織學來確定。
本文所用術語“受試者”指的是生物體,通常是哺乳動物(例如人)。 在一些實施方案中,在一個實施方案中,受試者患有癌症。在一個實施方案中,受試者患有結直腸癌。在一個實施方案中,受試者患有肺癌。在一個實施方案中,受試者患有肝癌。在一個實施方案中,受試者患有乳腺癌。在一個實施方案中,受試者患有胃癌和/或食管癌。在一個實施方案中,受試者患有胰腺癌。 從結直腸癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從結直腸癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選結直腸癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2.3kb上游區和2.3kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 染色體 起始位置 終止位置
Seq ID NO:52 chr1 27189993 27190207
Seq ID NO:53 chr1 27732194 27732394
Seq ID NO:54 chr1 121260989 121261197
Seq ID NO:55 chr2 469568 469933
Seq ID NO:56 chr2 106959197 106959397
Seq ID NO:57 chr3 13323366 13323566
Seq ID NO:58 chr3 69230395 69230599
Seq ID NO:59 chr6 1393206 1393469
Seq ID NO:60 chr6 166580183 166580476
Seq ID NO:61 chr7 29605610 29605810
Seq ID NO:62 chr7 73407894 73408161
Seq ID NO:63 chr7 93519986 93520213
Seq ID NO:64 chr7 150069569 150069875
Seq ID NO:65 chr8 22438141 22438341
Seq ID NO:66 chr8 97506340 97506540
Seq ID NO:67 chr8 141231103 141231303
Seq ID NO:68 chr9 71788926 71789126
Seq ID NO:69 chr10 518081 518444
Seq ID NO:70 chr10 74069147 74069510
Seq ID NO:71 chr11 1955139 1955372
Seq ID NO:72 chr11 31848632 31848877
Seq ID NO:73 chr12 94605804 94606004
Seq ID NO:74 chr13 49795241 49795441
Seq ID NO:75 chr13 109147964 109148164
Seq ID NO:76 chr14 105102434 105102644
Seq ID NO:77 chr15 45670805 45671005
Seq ID NO:78 chr16 1202353 1202553
Seq ID NO:79 chr16 57025884 57026193
Seq ID NO:80 chr17 11143843 11144043
Seq ID NO:81 chr17 21300616 21300930
Seq ID NO:82 chr17 46796372 46796572
Seq ID NO:83 chr17 73607909 73608115
Seq ID NO:84 chr17 76991129 76991518
Seq ID NO:85 chr18 76150778 76150991
Seq ID NO:86 chr19 2790947 2791147
Seq ID NO:87 chr19 4059528 4059746
Seq ID NO:88 chr19 10823485 10823947
Seq ID NO:89 chr19 39306255 39306455
Seq ID NO:90 chr20 43331809 43332099
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的結直腸癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:位於基因SFN區域內或上下游;位於基因GPR3區域內或上下游;位於基因FCGR1B區域內或上下游;位於基因FAM150B區域內或上下游的;位於基因RGPD3區域內或上下游;位於基因NUP210區域內或上下游;位於基因LMOD3區域內或上下游;位於基因FOXF2區域內或上下游;位於基因TBXT區域內或上下游;位於基因PRR15區域內或上下游;位於基因ELN區域內或上下游;位於基因TFPI2區域內或上下游;位於基因REPIN1區域內或上下游;位於基因PDLIM2區域內或上下游;位於基因SDC2區域內或上下游;位於基因TRAPPC9區域內或上下游;位於基因TJP2區域內或上下游;位於基因DIP2C區域內或上下游;位於基因DDIT4區域內或上下游;位於基因MRPL23區域內或上下游;位於基因PAX6區域內或上下游;位於基因PLXNC1區域內或上下游;位於基因MLNR區域內或上下游;位於基因MYO16區域內或上下游;位於基因TMEM179區域內或上下游;位於基因GATM區域內或上下游;位於基因CACNA1H區域內或上下游;位於基因NLRC5區域內或上下游;位於基因SHISA6區域內或上下游;位於基因KCNJ12區域內或上下游;位於基因PRAC1區域內或上下游;位於基因MYO15B區域內或上下游;位於基因CANT1區域內或上下游;位於基因SALL3區域內或上下游;位於基因THOP1區域內或上下游;位於基因ZBTB7A區域內或上下游;位於基因DNM2區域內或上下游;位於基因LGALS4區域內或上下游;位於基因WISP2區域內或上下游。單獨一個或者多個甲基化標誌物的組合都可以用作結直腸癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。 從肺癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從肺癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選肺癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明人發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2.2kb上游區和2.2kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 染色體 起始位置 終止位置
Seq ID NO:91 chr1 3331940 3332307
Seq ID NO:92 chr1 10813808 10814072
Seq ID NO:93 chr1 27687058 27687449
Seq ID NO:94 chr1 248020790 248021176
Seq ID NO:95 chr2 39187516 39187716
Seq ID NO:96 chr2 113931508 113931708
Seq ID NO:97 chr2 177030134 177030449
Seq ID NO:98 chr3 124860729 124860929
Seq ID NO:99 chr3 185973717 185973917
Seq ID NO:100 chr5 1291139 1291339
Seq ID NO:101 chr5 92906255 92906617
Seq ID NO:102 chr5 140892824 140893033
Seq ID NO:103 chr5 169805839 169806039
Seq ID NO:24 chr6 1625055 1625255
Seq ID NO:104 chr6 26240701 26240901
Seq ID NO:105 chr7 67016160 67016360
Seq ID NO:106 chr7 127744150 127744731
Seq ID NO:107 chr7 137347054 137347254
Seq ID NO:65 chr8 22438141 22438341
Seq ID NO:108 chr8 22876154 22876354
Seq ID NO:109 chr8 129103499 129103699
Seq ID NO:110 chr8 145105489 145105984
Seq ID NO:111 chr9 127257997 127258338
Seq ID NO:112 chr10 22634278 22634478
Seq ID NO:113 chr10 88296342 88296594
Seq ID NO:114 chr10 123923943 123924143
Seq ID NO:115 chr10 134016194 134016408
Seq ID NO:116 chr10 134734173 134734395
Seq ID NO:117 chr10 135090209 135090425
Seq ID NO:118 chr11 64333172 64333372
Seq ID NO:119 chr11 68622069 68622269
Seq ID NO:120 chr12 58021334 58021534
Seq ID NO:121 chr12 133029845 133030045
Seq ID NO:122 chr13 21520235 21520435
Seq ID NO:123 chr13 114214669 114214869
Seq ID NO:124 chr14 55243006 55243206
Seq ID NO:76 chr14 105102434 105102644
Seq ID NO:125 chr15 41793866 41794364
Seq ID NO:126 chr16 1037548 1037773
Seq ID NO:127 chr16 2085778 2086156
Seq ID NO:128 chr17 75370344 75370592
Seq ID NO:129 chr18 74818217 74818417
Seq ID NO:130 chr18 77159233 77159590
Seq ID NO:131 chr19 10824035 10824235
Seq ID NO:132 chr19 15580341 15580719
Seq ID NO:133 chr20 60447728 60447992
Seq ID NO:134 chr20 61318785 61319012
Seq ID NO:135 chr20 61606676 61606962
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的肺癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:位於基因ARHGEF16內或者上游區或下游區;位於基因CASZ1內或者上游區或下游區;位於基因MAP3K6內或者上游區或下游區;位於基因TRIM58內或者上游區或下游區;位於基因ARHGEF33內或者上游區或下游區;位於基因PSD4內或者上游區或下游區;位於基因HOXD4內或者上游區或下游區;位於基因SLC12A8內或者上游區或下游區;位於基因DGKG內或者上游區或下游區;位於基因TERT內或者上游區或下游區;位於基因NR2F1內或者上游區或下游區;位於基因PCDHGC5內或者上游區或下游區;位於基因KCNMB1內或者上游區或下游區;位於基因FOXC1內或者上游區或下游區;位於基因HIST1H4F內或者上游區或下游區;位於基因TYW1內或者上游區或下游區;位於基因LRRC4內或者上游區或下游區;位於基因DGKI內或者上游區或下游區;位於基因PDLIM2內或者上游區或下游區;位於基因RHOBTB2內或者上游區或下游區;位於基因TMEM75內或者上游區或下游區;位於基因OPLAH內或者上游區或下游區;位於基因NR5A1內或者上游區或下游區;位於基因SPAG6內或者上游區或下游區;位於基因WAPAL內或者上游區或下游區;位於基因BTBD16內或者上游區或下游區;位於基因DPYSL4內或者上游區或下游區;位於基因TTC40內或者上游區或下游區;位於基因ADAM8內或者上游區或下游區;位於基因SLC22A11內或者上游區或下游區;位於基因CPT1A內或者上游區或下游區;位於基因B4GALNT1內或者上游區或下游區;位於基因FBRSL1內或者上游區或下游區;位於基因XPO4內或者上游區或下游區;位於基因TFDP1內或者上游區或下游區;位於基因GCH1內或者上游區或下游區;位於基因TMEM179內或者上游區或下游區;位於基因ITPKA內或者上游區或下游區;位於基因SOX8內或者上游區或下游區;位於基因SLC9A3R2內或者上游區或下游區;位於基因SEPT-9內或者上游區或下游區;位於基因MBP內或者上游區或下游區;位於基因NFATC1內或者上游區或下游區;位於基因DNM2內或者上游區或下游區;位於基因RASAL3內或者上游區或下游區;位於基因TAF4內或者上游區或下游區;位於基因NTSR1內或者上游區或下游區;位於基因SLC17A9內或者上游區或下游區。單獨一個或者多個甲基化標誌物的組合都可以用作肺癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。 從肝癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從肝癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選肝癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;或WISP2基因。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是100bp-550bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的3kb上游區和3kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 染色體 起始位置 終止位置
Seq ID NO:136 chr1 47691646 47691993
Seq ID NO:94 chr1 248020790 248021176
Seq ID NO:7 chr2 30453572 30453772
Seq ID NO:137 chr2 44058865 44059175
Seq ID NO:138 chr2 114034391 114034591
Seq ID NO:139 chr3 38080591 38080791
Seq ID NO:140 chr3 49756830 49757030
Seq ID NO:141 chr3 50377975 50378564
Seq ID NO:18 chr3 170137183 170137383
Seq ID NO:142 chr4 10020751 10020951
Seq ID NO:143 chr5 508551 508751
Seq ID NO:23 chr5 139047806 139048006
Seq ID NO:144 chr6 1614911 1615144
Seq ID NO:104 chr6 26240701 26240901
Seq ID NO:145 chr6 30095659 30095859
Seq ID NO:146 chr7 27252672 27252872
Seq ID NO:147 chr7 30722316 30722516
Seq ID NO:148 chr8 41424527 41424742
Seq ID NO:29 chr8 67874783 67874983
Seq ID NO:149 chr8 145106299 145106499
Seq ID NO:150 chr10 113943613 113943813
Seq ID NO:117 chr10 135090209 135090425
Seq ID NO:41 chr12 52401109 52401309
Seq ID NO:120 chr12 58021334 58021534
Seq ID NO:151 chr12 58021577 58021823
Seq ID NO:152 chr12 131303645 131303958
Seq ID NO:153 chr14 51027707 51028060
Seq ID NO:125 chr15 41793866 41794364
Seq ID NO:154 chr15 65116254 65116454
Seq ID NO:155 chr16 73097098 73097298
Seq ID NO:156 chr17 43037283 43037636
Seq ID NO:128 chr17 75370344 75370592
Seq ID NO:157 chr18 24130835 24131035
Seq ID NO:158 chr19 3688030 3688230
Seq ID NO:132 chr19 15580341 15580719
Seq ID NO:159 chr19 41641405 41641605
Seq ID NO:90 chr20 43331809 43332099
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的肝癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:TAL1基因內以及其上游區或下游區;TRIM58基因內以及其上游區或下游區;LBH基因內以及其上游區或下游區;ABCG5基因內以及其上游區或下游區;PAX8基因內以及其上游區或下游區;DLEC1基因內以及其上游區或下游區;AMIGO3基因內以及其上游區或下游區;RASSF1基因內以及其上游區或下游區;CLDN11基因內以及其上游區或下游區;SLC2A9基因內以及其上游區或下游區;SLC9A3基因內以及其上游區或下游區;CXXC5基因內以及其上游區或下游區;FOXC1基因內以及其上游區或下游區;HIST1H4F基因內以及其上游區或下游區;TRIM40基因內以及其上游區或下游區;HOXA13基因內以及其上游區或下游區;CRHR2基因內以及其上游區或下游區;AGPAT6基因內以及其上游區或下游區;TCF24基因內以及其上游區或下游區;OPLAH基因內以及其上游區或下游區;GPAM基因內以及其上游區或下游區;ADAM8基因內以及其上游區或下游區;GRASP基因內以及其上游區或下游區;B4GALNT1基因內以及其上游區或下游區;STX2基因內以及其上游區或下游區;ATL1基因內以及其上游區或下游區;ITPKA基因內以及其上游區或下游區;PIF1基因內以及其上游區或下游區;ZFHX3基因內以及其上游區或下游區;C1QL1基因內以及其上游區或下游區;SEPT-9基因內以及其上游區或下游區;KCTD1基因內以及其上游區或下游區;PIP5K1C基因內以及其上游區或下游區;RASAL3基因內以及其上游區或下游區;CYP2F1基因內以及其上游區或下游區;WISP2基因內以及其上游區或下游區。單獨一個或者多個甲基化標誌物的組合都可以用作肝癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的3kb或2kb上游和3kb或2kb下游區內。 從乳腺癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從乳腺癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選乳腺癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2kb上游區和2kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 染色體 起始位置 終止位置
Seq ID NO:1 chr1 91182896 91183268
Seq ID NO:2 chr1 91185256 91185556
Seq ID NO:3 chr1 110611583 110611783
Seq ID NO:4 chr1 119549342 119549542
Seq ID NO:5 chr1 151811354 151811554
Seq ID NO:6 chr1 237205513 237205713
Seq ID NO:7 chr2 30453572 30453772
Seq ID NO:8 chr2 45028929 45029292
Seq ID NO:9 chr2 45227849 45228049
Seq ID NO:10 chr2 63275030 63275230
Seq ID NO:11 chr2 73147428 73147715
Seq ID NO:12 chr2 74726373 74726801
Seq ID NO:13 chr2 111876734 111876934
Seq ID NO:14 chr2 114034788 114034988
Seq ID NO:15 chr2 177043062 177043477
Seq ID NO:16 chr2 200327248 200327458
Seq ID NO:17 chr3 38036014 38036227
Seq ID NO:18 chr3 170137183 170137383
Seq ID NO:19 chr3 184301379 184301579
Seq ID NO:20 chr4 13543558 13543849
Seq ID NO:21 chr4 44449557 44449757
Seq ID NO:22 chr5 134374689 134374889
Seq ID NO:23 chr5 139047806 139048006
Seq ID NO:24 chr6 1625055 1625255
Seq ID NO:25 chr6 6003896 6004283
Seq ID NO:26 chr7 27204459 27204659
Seq ID NO:27 chr7 96622040 96622409
Seq ID NO:28 chr8 57069546 57069746
Seq ID NO:29 chr8 67874783 67874983
Seq ID NO:30 chr8 86350778 86350978
Seq ID NO:31 chr8 97157461 97157847
Seq ID NO:32 chr9 117804 118004
Seq ID NO:33 chr10 23480625 23480825
Seq ID NO:34 chr10 102895034 102895234
Seq ID NO:35 chr10 105036590 105036794
Seq ID NO:36 chr10 134597986 134598186
Seq ID NO:37 chr11 31820260 31820460
Seq ID NO:38 chr11 31839396 31839726
Seq ID NO:39 chr12 25056205 25056405
Seq ID NO:40 chr12 50297535 50297964
Seq ID NO:41 chr12 52401109 52401309
Seq ID NO:42 chr13 37005935 37006328
Seq ID NO:43 chr14 61104459 61104820
Seq ID NO:44 chr16 23847490 23847690
Seq ID NO:45 chr17 70112878 70113078
Seq ID NO:46 chr18 44336540 44336814
Seq ID NO:47 chr19 13123416 13123616
Seq ID NO:48 chr19 55593530 55593730
Seq ID NO:49 chr19 58095530 58095874
Seq ID NO:50 chrX 8698966 8699166
Seq ID NO:51 chrX 47666446 47666658
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的乳腺癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:基因BARHL2以及其上游區或下游區;基因ALX3以及其上游區或下游區;基因TBX15以及其上游區或下游區;基因C2CD4D以及其上游區或下游區;基因RYR2以及其上游區或下游區;基因LBH以及其上游區或下游區;SIX3以及其上游區或下游區;基因SIX2以及其上游區或下游區;基因OTX1以及其上游區或下游區;基因EMX1以及其上游區或下游區;基因LBX2以及其上游區或下游區;基因BCL2L11以及其上游區或下游區;基因PAX8以及其上游區或下游區;基因HOXD1以及其上游區或下游區;基因SATB2以及其上游區或下游區;基因VILL以及其上游區或下游區;基因CLDN11以及其上游區或下游區;基因EPHB3以及其上游區或下游區;基因NKX3-2以及其上游區或下游區;基因KCTD8以及其上游區或下游區;基因PITX1以及其上游區或下游區;基因CXXC5以及其上游區或下游區;基因FOXC1以及其上游區或下游區;基因NRN1以及其上游區或下游區;基因HOXA9以及其上游區或下游區;基因DLX6以及其上游區或下游區;基因MOS以及其上游區或下游區;基因TCF24以及其上游區或下游區;基因CA3以及其上游區或下游區;基因GDF6以及其上游區或下游區;基因FOXD4以及其上游區或下游區;基因PTF1A以及其上游區或下游區;基因TLX1以及其上游區或下游區;基因INA以及其上游區或下游區;基因NKX6-2以及其上游區或下游區;基因PAX6以及其上游區或下游區;基因BCAT1以及其上游區或下游區;基因FAIM2以及其上游區或下游區;基因GRASP以及其上游區或下游區;基因CCNA1以及其上游區或下游區;基因SIX1以及其上游區或下游區;基因PRKCB以及其上游區或下游區;基因SOX9以及其上游區或下游區;基因ST8SIA5以及其上游區或下游區;基因NFIX以及其上游區或下游區;基因EPS8L1以及其上游區或下游區;基因ZIK1以及其上游區或下游區;基因KAL1以及其上游區或下游區;基因ZNF81。單獨一個或者多個甲基化標誌物的組合都可以用作乳腺癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。 從胃癌及 / 或食管癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從胃癌及/或食管癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選胃癌及/或食管癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2kb上游區和2kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 染色體編號 起始位置 終止位置
Seq ID NO: 160 chr1 47698162 47698362
Seq ID NO: 161 chr1 108507595 108507795
Seq ID NO: 162 chr1 156186299 156186499
Seq ID NO: 163 chr1 203600773 203600973
Seq ID NO: 164 chr2 264146 264484
Seq ID NO: 143 chr5 508551 508751
Seq ID NO: 23 chr5 139047806 139048006
Seq ID NO: 165 chr5 140800889 140801089
Seq ID NO: 166 chr6 1384272 1384610
Seq ID NO: 167 chr7 64349788 64349988
Seq ID NO: 168 chr7 139168541 139168844
Seq ID NO: 169 chr9 126348875 126349266
Seq ID NO: 170 chr9 139393876 139394111
Seq ID NO: 150 chr10 113943613 113943813
Seq ID NO: 171 chr11 2292332 2292651
Seq ID NO: 72 chr11 31848632 31848877
Seq ID NO: 172 chr11 60620057 60620257
Seq ID NO: 173 chr11 73371736 73371944
Seq ID NO: 174 chr12 114840811 114841011
Seq ID NO: 152 chr12 131303645 131303958
Seq ID NO: 175 chr12 133030159 133030359
Seq ID NO: 176 chr13 113350703 113351027
Seq ID NO: 177 chr14 105714973 105715224
Seq ID NO: 178 chr14 105933578 105934099
Seq ID NO: 179 chr15 53087384 53087584
Seq ID NO: 180 chr16 30566925 30567182
Seq ID NO: 181 chr16 33964869 33965069
Seq ID NO: 182 chr16 51168473 51168843
Seq ID NO: 183 chr17 79482394 79482623
Seq ID NO: 184 chr18 19780648 19781005
Seq ID NO: 157 chr18 24130835 24131035
Seq ID NO: 185 chr19 41641357 41641557
Seq ID NO: 186 chr21 9825785 9826676
Seq ID NO: 187 chr22 19512066 19512266
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的胃癌及/或食管癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:基因TAL1區域內或上游區和下游區;基因VAV3區域內或上游區和下游區;基因PMF1區域內或上游區和下游區;基因ATP2B4區域內或上游區和下游區;基因SH3YL1區域內或上游區和下游區;基因SLC9A3區域內或上游區和下游區;基因CXXC5區域內或上游區和下游區;基因PCDHGA11區域內或上游區和下游區;基因FOXF2區域內或上游區和下游區;基因ZNF273區域內或上游區和下游區;基因KLRG2區域內或上游區和下游區;基因CRB2區域內或上游區和下游區;基因SEC16A區域內或上游區和下游區;基因GPAM區域內或上游區和下游區;基因ASCL2區域內或上游區和下游區;基因PAX6區域內或上游區和下游區;基因PTGDR2區域內或上游區和下游區;基因PLEKHB1區域內或上游區和下游區;基因TBX5區域內或上游區和下游區;基因STX2區域內或上游區和下游區;基因FBRSL1區域內或上游區和下游區;基因ATP11A區域內或上游區和下游區;基因BTBD6區域內或上游區和下游區;基因CRIP2區域內或上游區和下游區;基因ONECUT1區域內或上游區和下游區;基因ZNF764區域內或上游區和下游區;基因IGHV3OR16-17區域內或上游區和下游區;基因SALL1區域內或上游區和下游區;基因ACTG1區域內或上游區和下游區;基因GATA6區域內或上游區和下游區;基因KCTD1區域內或上游區和下游區;基因CYP2F1區域內或上游區和下游區;基因TPTE區域內或上游區和下游區;基因CLDN5內或上游區和下游區。單獨一個或者多個甲基化標誌物的組合都可以用作胃癌及/或食管癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。 從胰腺癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從胰腺癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選胰腺癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是130bp-530bp。例如,位點的長度可以是140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp、500bp、510bp或520bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2.5kb上游區和2.5kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 染色體 起始位置 終止位置
Seq ID NO:188 chr1 2478439 2478810
Seq ID NO:189 chr1 64059515 64059716
Seq ID NO:190 chr1 151693837 151694148
Seq ID NO:163 chr1 203600773 203600973
Seq ID NO:191 chr2 24300144 24300422
Seq ID NO:192 chr2 97427786 97428040
Seq ID NO:193 chr2 175202377 175202577
Seq ID NO:194 chr2 233792902 233793102
Seq ID NO:195 chr2 242743582 242743782
Seq ID NO:196 chr3 197639716 197639916
Seq ID NO:197 chr4 3447856 3448097
Seq ID NO:198 chr5 472963 473163
Seq ID NO:199 chr5 37840176 37840376
Seq ID NO:200 chr5 134870613 134870990
Seq ID NO:201 chr6 25726976 25727176
Seq ID NO:202 chr6 108353117 108353317
Seq ID NO:203 chr6 167544878 167545117
Seq ID NO:204 chr8 22457089 22457293
Seq ID NO:205 chr8 22457092 22457292
Seq ID NO:206 chr8 23020937 23021137
Seq ID NO:68 chr9 71788926 71789126
Seq ID NO:207 chr9 124461377 124461663
Seq ID NO:208 chr9 132382275 132382649
Seq ID NO:209 chr10 130084908 130085108
Seq ID NO:172 chr11 60620057 60620257
Seq ID NO:210 chr12 518125 518325
Seq ID NO:211 chr12 111404033 111404233
Seq ID NO:212 chr13 32605445 32605645
Seq ID NO:213 chr14 92040784 92040984
Seq ID NO:177 chr14 105714973 105715224
Seq ID NO:154 chr15 65116254 65116454
Seq ID NO:214 chr16 4253135 4253487
Seq ID NO:215 chr16 28984534 28984734
Seq ID NO:88 chr19 10823485 10823947
Seq ID NO:216 chr19 37957790 37957990
Seq ID NO:217 chr22 22006617 22006817
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的胰腺癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:基因TNFRSF14以及其上游區或下游區;基因PGM1以及其上游區或下游區;基因CELF3以及其上游區或下游區;基因ATP2B4以及其上游區或下游區;基因SF3B6以及其上游區或下游區;基因CNNM4以及其上游區或下游區;基因SP9以及其上游區或下游區;基因C2orf82以及其上游區或下游區;基因NEU4以及其上游區或下游區;基因RPL35A以及其上游區或下游區;基因HGFAC以及其上游區或下游區;基因EXOC3以及其上游區或下游區;基因GDNF以及其上游區或下游區;基因NEUROG1以及其上游區或下游區;基因HIST1H2BA以及其上游區或下游區;基因OSTM1以及其上游區或下游區;基因CCR6以及其上游區或下游區;基因CCAR2以及其上游區或下游區;基因TNFRSF10D以及其上游區或下游區;基因TJP2以及其上游區或下游區;基因DAB2IP以及其上游區或下游區;基因NTMT1以及其上游區或下游區;基因MKI67以及其上游區或下游區;基因PTGDR2以及其上游區或下游區;基因CCDC77以及其上游區或下游區;基因MYL2以及其上游區或下游區;基因FRY以及其上游區或下游區;基因SMEK1以及其上游區或下游區;基因BTBD6以及其上游區或下游區;基因PIF1以及其上游區或下游區;基因SRL以及其上游區或下游區;基因SPNS1以及其上游區或下游區;基因DNM2以及其上游區或下游區;基因ZNF569以及其上游區或下游區;基因SDF2L1以及其上游區或下游區。單獨一個或者多個甲基化標誌物的組合都可以用作胰腺癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。
表觀遺傳界的先驅Andy Fienberg曾經指出結腸癌中的大多數甲基化改變不僅發生在啟動子中,也不僅是發生在CpG島上,而是發生在其上游2kb的序列中,我們稱之為“CpG島海岸”(Andy Fienberg等人,2009)。CpG島岸甲基化與基因表達密切相關,在哺乳動物中高度保守,可以區分組織類型。在隨後的研究中,研究者們不僅在腸癌種發現了這一現象,在乳腺癌、胃癌、膀胱癌以及一些組織分型中均發現了這些目標甲基化位元點的臨近區域同樣具有重要作用(Guo YL等人,2016;Rao X等人,2013;Dudziec E等人,2011; Chae H等人, 2016)。因此,對這些鄰近區域的保護和目的地區域的保護同樣重要。 用於診斷癌症(結直腸癌、肺癌、肝癌、乳腺癌、或胃癌及 / 或食管癌、或胰腺癌之一)組織的試劑盒
根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷結直腸癌,或區分結直腸癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種結直腸癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷肺癌,或區分肺癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種肺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷肝癌,或區分肝癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種肝癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷乳腺癌,或區分乳腺癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種乳腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷胃癌及/或食管癌,或區分胃癌及/或食管癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種胃癌及/或食管癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷胰腺癌,或區分胰腺癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種胰腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。例如,試劑或元件可以包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。試劑可以包含用於檢測甲基化標誌物的寡核苷酸。例如,寡核苷酸是引子及/或探針。優選地,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。優選地,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物。對照物可以是來自正常受試者或非結直腸癌的癌症患者的前述特異性甲基化標誌物。優選地,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。對照物可以來自正常受試者或非肺癌的癌症患者的前述特異性甲基化標誌物。優選地,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。對照物可以是來自正常受試者或非肝癌的癌症患者的前述特異性甲基化標誌物。優選地,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。對照物可以是來自正常受試者或非乳腺癌的癌症患者的前述特異性甲基化標誌物。優選地,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。對照物可以是來自正常受試者或除胃癌和食管癌以外的癌症患者的前述特異性甲基化標誌物。優選地,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。對照物可以是來自正常受試者或非胰腺癌的癌症患者的前述特異性甲基化標誌物。優選地,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。 用於診斷結直腸癌組織的方法
本發明提供了診斷受試者的結直腸癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種結直腸癌組織特異性甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定結直腸癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷結直腸癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定物件的結直腸癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為結直腸癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為結直腸癌,否則為陰性,即除結直腸癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得結直腸癌樣品和非結直腸癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括MethylTitan的方法獲得樣品DNA的甲基化測序數據,並且步驟(2)可以包括使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中結直腸癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷,大於閾值預測為結直腸癌,反之預測為其它癌種。方法可以用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源。 用於診斷肺癌的方法
本發明提供了診斷受試者的肺癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種肺癌組織特異性甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的肺癌組織特異性甲基化狀態或水平確定肺癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷肺癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定物件的肺癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為肺癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為肺癌,否則為陰性,即除肺癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得肺癌樣品和非肺癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括MethylTitan的方法獲得樣品DNA的甲基化測序數據,並且步驟(2)可以包括使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是肺癌進行判斷,大於閾值預測為肺癌,反之預測為其它癌種。方法可以用於(1) 區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源。 用於診斷肝癌的方法
本發明提供了診斷受試者的肝癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定肝癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷肝癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定物件的肝癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為肝癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為肝癌,否則為陰性,即除肝癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得肝癌樣品和非肝癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括獲得樣品DNA的甲基化測序數據(例如使用MethylTitan的方法),並且步驟(2)可以包括使用邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肝癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是肝癌進行判斷,大於閾值預測為肝癌,反之預測為其它癌種。方法可以用於(1) 區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源。 診斷受試者的乳腺癌的方法
本發明提供了診斷受試者的乳腺癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定乳腺癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷乳腺癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定受試者的乳腺癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為乳腺癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為乳腺癌,否則為陰性,即除乳腺癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得乳腺癌樣品和非乳腺癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括MethylTitan的方法獲得樣品DNA的甲基化測序數據,並且步驟(2)可以包括使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中乳腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是乳腺癌進行判斷,大於閾值預測為乳腺癌,反之預測為其它癌種。方法可以用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源。 診斷受試者的胃癌及 / 或食管癌的方法
本發明提供了診斷受試者的胃癌及/或食管癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定胃癌及/或食管癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷胃癌及/或食管癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定受試者的胃癌及/或食管癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為胃癌及/或食管癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為胃癌及/或食管癌,否則為陰性,即除胃癌和食管癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得胃癌及/或食管癌樣品和除胃癌和食管癌以外的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括獲得樣品DNA的甲基化測序數據(例如MethylTitan的方法),並且步驟(2)可以包括使用邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胃癌及/或食管癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。方法可以用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源。 用於診斷胰腺癌的方法
本發明提供了診斷受試者的胰腺癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定胰腺癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷胰腺癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定受試者的胰腺癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為胰腺癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為胰腺癌,否則為陰性,即非胰腺癌的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得胰腺癌樣品和非胰腺癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括獲得樣品DNA的甲基化測序數據(例如使用MethylTitan的方法),並且步驟(2)可以包括使用邏輯回歸模型(例如使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值 ;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胰腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷,大於閾值預測為胰腺癌,反之預測為其它癌種。方法可以用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源。 系統或裝置
本發明還提供了系統或裝置。系統或裝置可以包含電腦可讀存儲介質或記憶體,用於存儲程式或指令。程式或指令可以用於執行由本發明的一種或多種結直腸癌組織特異性甲基化標誌物構建的區分結直腸癌與其他非結直腸癌的預測模型,或者用於執行本發明的方法。程式或指令可以用於執行由本發明的區分肺癌與其他非肺癌的預測模型,或者用於執行本發明的方法。程式或指令可以用於執行由本發明的區分肝癌與其他非肝癌的預測模型,或者用於執行本發明的方法。程式或指令用於執行由本發明的區分乳腺癌與其他非乳腺癌的預測模型,或者用於執行本發明的方法。程式或指令用於執行由本發明的一種或多種甲基化標誌物構建的區分胃癌及/或食管癌與除胃癌和食管癌外的癌症的預測模型,或者用於執行本發明的方法。程式或指令用於執行由本發明的區分胰腺癌與其他非胰腺癌的癌症的預測模型,或者用於執行本發明的方法。電腦可讀存儲介質或記憶體包括但不限於有形存儲介質、載波介質或物理傳輸介質。非易失性存儲介質包括例如光碟或磁片,諸如在任何電腦等中的任何存放裝置,易失性存儲介質包括動態儲存裝置器,諸如此類電腦平臺的主記憶體。有形的傳輸介質包括同軸電纜;銅線和光纖,包括構成電腦系統內的匯流排的導線。載波傳輸介質可以採取電信號或電磁信號或者聲波或光波的形式,諸如在射頻和紅外資料通信期間生成的那些。因此,電腦可讀介質的常見形式包括例如:軟碟、軟性磁片、硬碟、磁帶、任何其他磁介質、CD-ROM、DVD或DVD-ROM、任何其他光學介質、穿孔卡片紙帶、具有孔模式的任何其他物理存儲介質、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他記憶體晶片或盒、傳輸資料或指令的載波、傳輸此類載波的纜線或鏈路,或者電腦可以從其讀取程式設計代碼及/或資料的任何其他介質。這些電腦可讀介質的形式中的許多形式可以參與向處理器傳送一個或更多個指令的一個或更多個序列以用於執行。記憶體和處理器可為物理上分離的。在這種情況下,可以經由允許資料傳輸的單元之間的有線和無線連接來實現操作連接。無線連接可使用無線LAN(WLAN)或互聯網。有線連接可通過單元之間的光學和非光學電纜連線實現。用於有線連接的電纜進一步適於高通量資料傳輸。 診斷結直腸癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者;(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源。優選地,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。 用於診斷肺癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肺癌患者與非肺癌的癌症患者;(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源。優選地,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。 用於診斷肝癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肝癌患者與非肝癌的癌症患者;(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源。優選地,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。 用於診斷乳腺癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者;(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源。優選地,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。 診斷胃癌及 / 或食管癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者;(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源。優選地,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。 用於診斷胰腺癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者;(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源。優選地,非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。 實施例
下面結合附圖和具體實施例對本發明作進一步詳細的說明。下列實施例中,未注明具體條件的實驗方法,通常按常規條件中所述的方法進行。 實施例 1.1 :甲基化靶向測序篩選結直腸癌特異性的甲基化位點
發明人收集了總計539個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表1.1。
表1.1:各個癌種血漿樣本數量統計表
  訓練集 測試集
總數 352 187
癌症類型
食管癌 41 26
肝癌 112 67
胃癌 50 26
肺癌 61 24
乳腺癌 35 21
胰腺癌 35 17
結直腸癌 18 6
年齡    
  62 (25-87) 62 (29-89)
性別    
203 116
147 69
NA 2 2
通過申請人自主研發的MethylTitan TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、Illumina常規測序及數據預處理
a) 文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫(UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下: 其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N i表示位於目標甲基化區間的讀段(reads)數目,N i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於100的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6、根據訓練集樣本找出結直腸癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中結直腸癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分結直腸癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟: 1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差; 2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型; 3. 將標準化公式應用到測試集資料對測試集進行標準化; 4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的結直腸癌組織特異性的甲基化標誌物具體見表1.2。
這些結直腸癌組織特異性甲基化標誌物在結直腸癌與其他6種癌種中的甲基化水平如下表1.2和圖1。圖2顯示了這些結直腸癌組織特異性甲基化標誌物在訓練集和測試集中結直腸癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表1.2 在訓練集和測試集中甲基化標誌物在結直腸癌和其他6種癌種中的甲基化水平均值
序列編號 染色體 起始位置 終止位置 訓練集結直腸癌甲基化水平 訓練集其它癌種甲基化水平 訓練集檢驗P值 測試集結直腸癌甲基化水平 測試集其它癌種甲基化水平 測試集檢驗P值
Seq ID NO:52 chr1 27189993 27190207 0.0745 0.1091 1.07E-06 0.0688 0.1058 4.32E-03
Seq ID NO:53 chr1 27732194 27732394 0.3636 0.3155 6.13E-04 0.3641 0.3192 9.39E-03
Seq ID NO:54 chr1 121260989 121261197 0.0514 0.0059 3.12E-07 0.1942 0.0073 2.15E-03
Seq ID NO:55 chr2 469568 469933 0.1970 0.2414 7.38E-05 0.1716 0.2324 9.39E-04
Seq ID NO:56 chr2 106959197 106959397 0.0455 0.0157 6.03E-04 0.1178 0.0153 5.40E-03
Seq ID NO:57 chr3 13323366 13323566 0.1386 0.0996 7.85E-04 0.2158 0.1011 6.85E-04
Seq ID NO:58 chr3 69230395 69230599 0.0478 0.0198 1.32E-04 0.1510 0.0188 2.89E-02
Seq ID NO:59 chr6 1393206 1393469 0.1268 0.0953 7.66E-04 0.1520 0.0954 4.83E-03
Seq ID NO:60 chr6 166580183 166580476 0.0099 0.0045 2.11E-04 0.0982 0.0043 2.12E-02
Seq ID NO:61 chr7 29605610 29605810 0.0525 0.0768 1.00E-03 0.0453 0.0741 3.10E-02
Seq ID NO:62 chr7 73407894 73408161 0.8797 0.9032 2.02E-05 0.8307 0.9016 2.79E-03
Seq ID NO:63 chr7 93519986 93520213 0.8777 0.9536 1.48E-04 0.7874 0.9456 2.60E-02
Seq ID NO:64 chr7 150069569 150069875 0.2240 0.2610 1.72E-04 0.2145 0.2532 1.30E-02
Seq ID NO:65 chr8 22438141 22438341 0.2437 0.1898 4.34E-04 0.3034 0.1929 7.15E-03
Seq ID NO:66 chr8 97506340 97506540 0.0442 0.0020 1.91E-08 0.1432 0.0032 1.15E-04
Seq ID NO:67 chr8 141231103 141231303 0.0045 0.0045 7.85E-05 0.0039 0.0014 4.13E-03
Seq ID NO:68 chr9 71788926 71789126 0.0997 0.0283 4.58E-06 0.2984 0.0332 9.39E-03
Seq ID NO:69 chr10 518081 518444 0.8334 0.8790 3.56E-04 0.7317 0.8751 3.15E-02
Seq ID NO:70 chr10 74069147 74069510 0.2333 0.2977 1.00E-04 0.2215 0.2922 2.84E-02
Seq ID NO:71 chr11 1955139 1955372 0.0600 0.0886 2.40E-04 0.0543 0.0835 2.99E-02
Seq ID NO:72 chr11 31848632 31848877 0.7953 0.8574 3.77E-04 0.7137 0.8562 3.67E-02
Seq ID NO:73 chr12 94605804 94606004 0.8280 0.8066 2.31E-03 0.8271 0.8041 3.99E-02
Seq ID NO:74 chr13 49795241 49795441 0.3309 0.4102 1.32E-04 0.2944 0.4093 1.46E-02
Seq ID NO:75 chr13 109147964 109148164 0.1532 0.0706 7.70E-05 0.2773 0.0705 6.43E-03
Seq ID NO:76 chr14 105102434 105102644 0.0853 0.1092 6.03E-04 0.0533 0.1050 3.06E-03
Seq ID NO:77 chr15 45670805 45671005 0.3644 0.1164 3.80E-05 0.5362 0.1532 7.37E-03
Seq ID NO:78 chr16 1202353 1202553 0.0071 0.0110 2.53E-04 0.0068 0.0115 2.74E-02
Seq ID NO:79 chr16 57025884 57026193 0.0960 0.0521 8.52E-06 0.1549 0.0568 2.15E-03
Seq ID NO:80 chr17 11143843 11144043 0.9656 0.9577 9.23E-04 0.9670 0.9597 3.21E-02
Seq ID NO:81 chr17 21300616 21300930 0.1674 0.1465 1.37E-03 0.2256 0.1483 3.15E-02
Seq ID NO:82 chr17 46796372 46796572 0.0249 0.0348 3.60E-04 0.0076 0.0380 3.17E-02
Seq ID NO:83 chr17 73607909 73608115 0.0800 0.1190 3.14E-06 0.0691 0.1146 2.48E-03
Seq ID NO:84 chr17 76991129 76991518 0.1856 0.2014 6.13E-04 0.2812 0.1950 2.74E-02
Seq ID NO:85 chr18 76150778 76150991 0.0427 0.0681 1.51E-04 0.0303 0.0641 5.38E-04
Seq ID NO:86 chr19 2790947 2791147 0.0700 0.0555 1.39E-03 0.0774 0.0575 3.86E-02
Seq ID NO:87 chr19 4059528 4059746 0.4205 0.4580 3.50E-04 0.3743 0.4532 4.62E-03
Seq ID NO:88 chr19 10823485 10823947 0.0320 0.0042 2.99E-06 0.1698 0.0043 1.33E-04
Seq ID NO:89 chr19 39306255 39306455 0.2731 0.3094 3.36E-04 0.2454 0.3071 2.60E-02
Seq ID NO:90 chr20 43331809 43332099 0.4648 0.5273 2.94E-04 0.4661 0.5213 4.40E-02
以單個結直腸癌組織特異性甲基化標誌物Seq ID NO:52為例,查看該結直腸癌組織特異性標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖3和圖4所示,可看出該結直腸癌組織特異性標誌物的甲基化水平在結直腸癌中和其他癌種相比具有顯著性的差異(wilcox檢驗:P <= 0.05),是良好的結直腸癌組織特異性甲基化標誌物。
實施例 1.2 :單個結直腸癌組織特異性甲基化標誌物的判別性能
為了驗證單個結直腸癌組織特異性甲基化標誌物的判別性能,在實施例1.1劃分的訓練集中使用單個結直腸癌組織特異性甲基化標誌物甲基化水平的資料構建邏輯回歸模型,並確定閾值後,然後在測試集進行預測。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(結直腸癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是結直腸癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
39個結直腸癌組織特異性的甲基化標誌物在訓練集和測試集中的表現如表1.3所示,在訓練集中每個結直腸癌組織特異性甲基化標誌物都可以達到0.70以上的AUC,準確率達到了77%以上,在測試集中單個結直腸癌組織特異性甲基化標誌物最低AUC也達到了0.70以上,準確率達到了70%以上,可看出這些結直腸癌組織特異性甲基化標誌物都是較好的結直腸癌組織特異性的標誌物,可以較好地區分結直腸癌與其它癌種。
表1.3 單個結直腸癌組織特異性甲基化標誌物的判別性能
序列編號 訓練集AUC 訓練集敏感性 訓練集特異性 閾值 訓練集準確率 測試集AUC 測試集敏感性 測試集特異性 測試集準確率
Seq ID NO:52 0.8317 0.6111 0.8024 0.0518 0.7926 0.8158 0.6667 0.7845 0.7807
Seq ID NO:53 0.7262 0.4444 0.8024 0.0532 0.7841 0.7827 0.3333 0.8785 0.8610
Seq ID NO:54 0.8018 0.6667 0.8024 0.0509 0.7955 0.8209 0.8333 0.7072 0.7112
Seq ID NO:55 0.7656 0.6111 0.8024 0.0527 0.7926 0.8738 0.8333 0.8122 0.8128
Seq ID NO:56 0.7265 0.4444 0.8024 0.0511 0.7841 0.8066 0.5000 0.7293 0.7219
Seq ID NO:57 0.7212 0.4444 0.8024 0.0519 0.7841 0.8849 0.8333 0.8066 0.8075
Seq ID NO:58 0.7553 0.4444 0.8024 0.0512 0.7841 0.7284 0.5000 0.7901 0.7807
Seq ID NO:59 0.7217 0.4444 0.8024 0.0517 0.7841 0.8112 0.6667 0.8564 0.8503
Seq ID NO:60 0.7415 0.5000 0.8024 0.0511 0.7869 0.7394 0.6667 0.7735 0.7701
Seq ID NO:61 0.7162 0.5556 0.8024 0.0517 0.7898 0.7247 0.6667 0.7459 0.7433
Seq ID NO:62 0.7873 0.5556 0.8024 0.0514 0.7898 0.8333 0.6667 0.7624 0.7594
Seq ID NO:63 0.7532 0.5556 0.8024 0.0514 0.7898 0.7339 0.5000 0.7735 0.7647
Seq ID NO:64 0.7505 0.5000 0.8024 0.0522 0.7869 0.7680 0.6667 0.8453 0.8396
Seq ID NO:65 0.7330 0.3889 0.8024 0.0538 0.7813 0.7947 0.3333 0.8453 0.8289
Seq ID NO:66 0.8113 0.7222 0.8024 0.0510 0.7983 0.8499 0.8333 0.8232 0.8235
Seq ID NO:67 0.7645 0.5000 0.8024 0.0511 0.7869 0.8177 0.5000 0.8343 0.8235
Seq ID NO:68 0.8104 0.6667 0.8024 0.0499 0.7955 0.7827 0.8333 0.7680 0.7701
Seq ID NO:69 0.7369 0.5000 0.8024 0.0516 0.7869 0.7238 0.5000 0.7569 0.7487
Seq ID NO:70 0.7601 0.5000 0.8024 0.0543 0.7869 0.7293 0.3333 0.8287 0.8128
Seq ID NO:71 0.7443 0.5556 0.8024 0.0519 0.7898 0.7265 0.5000 0.7901 0.7807
Seq ID NO:72 0.7358 0.4444 0.8024 0.0525 0.7841 0.7155 0.5000 0.8177 0.8075
Seq ID NO:73 0.6989 0.5556 0.8024 0.0516 0.7898 0.7109 0.5000 0.8177 0.8075
Seq ID NO:74 0.7553 0.4444 0.8024 0.0550 0.7841 0.7624 0.5000 0.8011 0.7914
Seq ID NO:75 0.7648 0.3889 0.8024 0.0514 0.7813 0.7993 0.6667 0.8287 0.8235
Seq ID NO:76 0.7265 0.5000 0.8024 0.0519 0.7869 0.8297 0.5000 0.7680 0.7594
Seq ID NO:77 0.7622 0.6111 0.8024 0.0505 0.7926 0.7845 0.8333 0.7403 0.7433
Seq ID NO:78 0.7433 0.6111 0.8024 0.0512 0.7926 0.7311 0.6667 0.7845 0.7807
Seq ID NO:79 0.8009 0.6111 0.8024 0.0517 0.7926 0.8435 0.8333 0.7293 0.7326
Seq ID NO:80 0.7179 0.4444 0.8024 0.0512 0.7841 0.7228 0.6667 0.7790 0.7754
Seq ID NO:81 0.7096 0.3889 0.8024 0.0516 0.7813 0.7238 0.5000 0.8066 0.7968
Seq ID NO:82 0.7362 0.6667 0.8024 0.0514 0.7955 0.7233 0.5000 0.7569 0.7487
Seq ID NO:83 0.8160 0.6667 0.8024 0.0522 0.7955 0.8379 0.5000 0.7901 0.7807
Seq ID NO:84 0.7262 0.6667 0.8024 0.0516 0.7955 0.7311 0.1667 0.7790 0.7594
Seq ID NO:85 0.7529 0.5000 0.8024 0.0517 0.7869 0.8932 0.6667 0.7901 0.7861
Seq ID NO:86 0.7093 0.3333 0.8024 0.0512 0.7784 0.7127 0.5000 0.7680 0.7594
Seq ID NO:87 0.7372 0.5000 0.8024 0.0522 0.7869 0.8131 0.8333 0.7459 0.7487
Seq ID NO:88 0.8167 0.6111 0.8024 0.0511 0.7926 0.9383 1.0000 0.7735 0.7807
Seq ID NO:89 0.7379 0.5556 0.8024 0.0521 0.7898 0.7339 0.5000 0.8011 0.7914
Seq ID NO:90 0.7405 0.5556 0.8024 0.0537 0.7898 0.7053 0.5000 0.7735 0.7647
實施例 1.3 :所有目標結直腸癌組織特異性甲基化標誌物的機器學習模型
本實施例使用所有的39個結直腸癌組織特異性甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分結直腸癌的樣本。使用實施例1.1中訓練集的樣本進行模型訓練,再使用測試集的樣本對模型的效果進行測試,具體步驟如下:
使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(結直腸癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是結直腸癌進行判斷。
訓練集和測試集中模型預測分值分佈分別見圖5,從圖中可看出結直腸癌和其它癌種樣本模型分值具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖6,在測試集中,結直腸癌與其它癌種區分的AUC達到了0.902,設置閾值為0.076,大於該值預測為結直腸癌,反之預測為其它癌種,在特異性為85%時,敏感性達到了66.7%,樣本整體預測的準確率達到了84.5%, 可以較好的區分從7種癌症樣本中區分出結直腸癌。
實施例 1.4 :結直腸癌組織特異性標誌物組合 1 機器學習模型
為了驗證相關結直腸癌組織特異性甲基化標誌物組合的效果,本實施例從所有39個結直腸癌組織特異性甲基化標誌物中選取了Seq ID NO:52, Seq ID NO:59, Seq ID NO:62, Seq ID NO:64, Seq ID NO:73, Seq ID NO:83,一共6個結直腸癌組織特異性甲基化標誌物構建新的機器學習模型。
機器學習模型構建的方法同實施例1.3一致,相關樣本只選用了目標的6個結直腸癌組織特異性甲基化位元點的資料,該模型在訓練集和測試集中的模型得分見圖7,該模型ROC曲線見圖8。可看出該模型在訓練集和測試集中,結直腸癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.931,閾值設成0.055時,大於該值預測為結直腸癌,小於該值預測為其他癌種,在特異性為93.4%時,敏感性達到了66.7%,整體的準確率達到了92.5%,說明了該結直腸癌組織特異性標誌物組合構建模型良好的性能。
實施例 1.5 :結直腸癌組織特異性標誌物組合 2 機器學習模型
該實施例從39個結直腸癌組織特異性甲基化標誌物中選擇了另一個結直腸癌組織特異性甲基化標誌物的組合:Seq ID NO:52, Seq ID NO:54, Seq ID NO:61, Seq ID NO:64, Seq ID NO:66, Seq ID NO:69, Seq ID NO:71, Seq ID NO:74, Seq ID NO:76, Seq ID NO:87,一共10個結直腸癌組織特異性甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例1.3一致,相關樣本只使用了目標10個結直腸癌組織特異性甲基化位元點的資料。該模型在訓練集和測試集中的模型得分見圖9,ROC曲線見圖10。從圖中可看出該模型在訓練集和測試集中,結直腸癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),該模型測試集的AUC達到了0.902,閾值設置為0.059時,在特異性為90.6%時,敏感性達到了66.7%,整體的準確性可達到89.8%,同樣可以較好的區分結直腸癌和其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了39個結直腸癌特異性的甲基化標誌物,根據這些結直腸癌組織特異性甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中較好的區分出結直腸癌的樣本,對泛癌種早篩過程中結直腸癌的組織溯源提供了重要的參考。 >Seq ID NO:52 ACACCGTGCTGGGCCTGCTGGACAGCCACCTCATCAAGGAGGCCGGGGACGCCGAGAGCCGGGTCTTCTACCTGAAGATGAAGGGTGACTACTACCGCTACCTGGCCGAGGTGGCCACCGGTGACGACAAGAAGCGCATCATTGACTCAGCCCGGTCAGCCTACCAGGAGGCCATGGACATCAGCAAGAAGGAGATGCCGCCCACCAACCCCATC >Seq ID NO:53 GAGGCTTCGCAAGGCCGGCTGCTACAAAGTGCCGAGCTTGGCTGCATAGATTTTAATGAGAGCGTCAGGCAGAGCTGTGCTGTTGCTCTCCGGGACTTGCAGATCATTACCAAACCAACTGTAGGATGAGAACATAGCACATCGAAACCCTAGGAGGTCACTGAGCTAATGATCTAATCCTACCTTCCGCAGGCAGTGCCC >Seq ID NO:54 GGCCCCTCCCATTCCGCCTTTTCTTCAGCGTCCTGCCCGCGGCACTGGCTGCGGGTGCCGGGCCACCTGCGAGTGTGCGGAGGGATTCCGGACACCCGCGGCGGCGAGCTGAGGGAGCAGTCTCCACGAGAACTGAGGCGGACCCTCTGGCGCCATGCGCGCCCTCCCCGGCCTGCTGGGGGCGAGGGCGCCTACGCCCCGGCTGCTTC >Seq ID NO:55 TGTGTGCACATTGGGGAGCCTCCGCATGGGTGAGTTCAATGCTCTGTTCTTCGTGCTGAAGGTGGAACTCATATGCAATGGCGTTTATTTTTCCCCTGACGACTATAAATTTTCCCTGATAATCTGGGGCCAGAGTCCACTGGTGCAGCAGGTGGGATGCGGGCGGCGGATGGAGTCCCTGAGCTGGGGAGGACTGTGCAGCTCCCTCGGTGACGCTGAGCCCGTCTGGGCATTCATGCGATACGCAGCGCTCTTTACTGCGGGTCCCATCTACAATAATGTTTATCCCGCAGGTGTTTAATTCTCATAGCACAGCTAGGCTAGCAGAGTTTTTAAGGTAAATTAACCAGAATAGACATGATCATG >Seq ID NO:56 ACTTCAGTCGTTCCGTGTCAGCCTCCACCCCTGGTAGCACCAGAGCCTCCCAGGCGTCCCCGCAGTCCGAGCCAGCCTTAGCACCCAGCGCTTTCTTGCTGTCGCCTGGTTGTTCCCGCGGCGGCCGAGCTCAGCACCTCTCACACTCCCTGCCTCTCGAGGACTCTGCTTGTTCCTCATCACAGCACGGTTGCTCTCGCA >Seq ID NO:57 GGGCACAGAGCAGCAGAAACCCCGCCCCAGAGACACCGAAGCCTCCCAGCCCCCTTGTCCTGCCCCAGATGGGCGCCCGAAGGTCCACACGGTGAGGCTGCTCCGGGTTTCGACACCGACACTCATGGGAGGCAAACGGGAACCCGGCTGGCGGGCTGCGAGCCGGTAGGGACGCTGGGGTCCAGGGCTGCTGGACAGCCC >Seq ID NO:58 TGACACTATACTGTCCCTCGGTGTCATTCTCATAGACATAACCACCACTGTAATAAAAGTCACACTCTGCATAGGGTGTGTACCCGGCAATGTAGTAACTGGAAGACGGTGGCTCCTGACTCTTTGAGTAAACACCATTCCTCAAACTATCCTTTTGTGCTAGGTTGGGCATGCTTCCTGAATTTGAAGTAGAAACATTCTGTTT >Seq ID NO:59 CCGGCCCTGTTGCCATCTCCCTGGAGCGCCAGCGGTGGAGGCTTCGGAGGAGCCGGCCGGATGCACCGGGACCCCGCGGGGCCTAGTTGGGAGCGCGCCGCCCACTGAGGCCTGGGGGCCCGGCGAGGCGCGGGGGTGGCCAAGGCAGTCTCCCCGGCACACAGATCAGCACATGTCTACGCGCACACACCCAGCACGACCCTCCCTCCCCCAGCACACCCCAAGGGCCGCGCCCTCCGCTCCTGGGCCTGGTGGCCATGGTCC >Seq ID NO:60 ACGCAGCTGGGCGCCTGCGGCTCCGGCTTGCCCCCCGGCACCCATTCCCCGTTCACGTACTTCCAGCGGTGGTTGTCCGCCGCCACGAAGTCCAGCAGGAAGGAGTACATGGCGTTGGGGTCCAGGCCAGACACGTTCACCTTCAGCACCGGAAACATCCTCCTGGAAAACACGGGGCGGGCGCAGGAGGACCCCGACACTGACCAGGTAGGCCGGAGGCAGAAGCTGGGCACAGAGGCCTCAGTTATTTCGGGGCACAGAGGAGCCCCCTGGGGAACGTCCGAGGGTGACTCC >Seq ID NO:61 CTGGAAGACACTTCCGCCAGCACCCTATGGGGCGCAGTGGCGTCTAATGCTAATGTGGGCTACGTAGCTACGGGATTGGGTCGCTCCGACCCTGGCCGATCCGGTGCCAGACAGCATAAGGGAGGAAAGGGGACTGGGGGGGGCACGTGACTTCAACCAACCCAGTAACCAAGTTTTGTTTTCTTCCCCAGCACAGGCCGC >Seq ID NO:62 CAAGGGAGTAAGTGTTCCTAAAGGTGTGACTTGTGTGACCATCCAAAGGCTGCCGGGGCGGGGGGATCCCAGAGAGCACAACATGGCAATCACGAAAATATGTTGGTGTCATTTCTCGGTCTTCAAAAATGACGGACACTGCTGGTCGCTGTGGCTTCCTCCTACGCGTTCGGTCACTCCTGCACATGTCCGCAGTAGTGGTGCTCTCGGGGACCCCCTCGCCACCCCACAATACCGCTCACCACATGGCCAAACAGGTTCGTCTTTT >Seq ID NO:63 TCCATGGTGCAGGGGGTCGGGCGGCCCGCTGGGCAAGGCGTCCGAGAAAGCGCCTGGCGGGAGGAGGTGCGCGGCTTTCTGCTCCAGGCGGCCCGGGTGCCCGCTTTATGCGGGGCGAGCGTCCGGCCGACCCCCGCCGGGGCGGAGCCTGAGGGGTGGCTGATTCATGCACGGGGACTGTCACCCCGCCGCCCCCGCGCTGCAAACTGTGTAAGAGGGAGAGGAATT >Seq ID NO:64 CAAGAAGACGCACCTGGTGGCGCACTCGCGCGTGCACTCCGGCGAGCGGCCCTTCGCCTGCGAGGAGTGCGGCCGCCGCTTCTCCCAGGGCAGCCATCTGGCGGCGCATCGGCGCGACCACGCCCCCGATCGGCCCTTCGTGTGTCCCGACTGCGGCAAGGCCTTCCGCCACAAACCCTACCTGGCGGCGCACCGGCGCATCCACACCGGCGAGAAGCCCTACGTCTGCCCCGACTGCGGCAAAGCCTTCAGCCAGAAGTCCAACCTGGTGTCGCACCGGCGCATCCACACGGGCGAGCGGCCCTAC >Seq ID NO:65 CGGGCCAGCGCCCTGGGGCTTCCGTATCACAGGGGGCAGGGATTTCCACACGCCCATCATGGTGACTAAGGTAAGGATGGTGGCTCAAAGAGATGAGAAGGTCCTGCCAGAAGCGAGGTCGGCCCTGTTCACCCCACTCTGCACAGATGGCTTGCTTTTTCTGTTCTGGAGCTAGGGATCTGCTGCTGCCTGGCGTGCTGG >Seq ID NO:66 GCGCCCCCGAGCCCCGAGCCCGAGTCCCCGAGCCTGAGCCGCAATCGCTGCGGTACTCTGCTCCGGATTCGTGTGCGCGGGCTGCGCCGAGCGCTGGGCAGGAGGCTTCGTTTTGCCCTGGTTGCAAGCAGCGGCTGGGAGCAGCCGGTCCCTGGGGAATATGCGGCGCGCGTGGATCCTGCTCACCTTGGGCTTGGTGGC >Seq ID NO:67 GCCCGCGGCACGTAGCtttgcactgacattcacttgctaccggcatatctgtcttggcttccttggtgcttccaaaccaacaattgggaagggttgccaaaagattaagaaaaatgtacagggtaaacatccgaactgaggtatgcaataaataaacttttcaaatgaatagagaaacggcaggagagagtctgctttaat >Seq ID NO:68 CCTgccgccgccgccgcctcccgcccccggccAGGAGTCGCGCGTGACGCGGTTCGCCGCAGGAGCCTCGAAGGCGCGGCGCCGGCGAGCCCTTCCCCGGCAGGCGCGTGGGTGGTAGCGGCCAATTTGACAGTTTcccgggccgggcggccagcgcggaggcgccacgctcgggtcgggggcgggctgacgccgccgccg >Seq ID NO:69 ATTAAAAAGTTATTTAACAGTGACACCTAAAAAAGAAAAATTTGGCACGAGATTATAATCTTTTTAATTAATATGCAATTCTGAATAGTAGCCAACATGGGCTTGTAAACCACGTGAAGAGCTATTTACCGGACACTGGCGTCTCCCGAGAGGGTGTGTCCGTGCAGAAAGCTGGAGGCCCCTCGCGTGCTGCAGGTCCACGCCCACTGCACTTCTGCCTCGCCCAGTGGCTGGGCACAGGCACCGTCCTGGCACAGGTGGCAGATGGACGTATTGTATCACCCCACCCCGTGCTTACCTGACCGATAGCGCTCATCTCGTGACCCTGAAGACCGTCGGCGGTGGTAGCGAGAGGCGGAGGAAG >Seq ID NO:70 CTGATTACAGTCCGGAGCCATGATGGGCTCCCAGTTGCCACCTTTTCCAAGAAGCTGACTTTTGAGGAATCCGCCTGGCCACGGGAATCACACCATGTTTGCACTGCCCTCAGCTGTTGATTACACCCTCATCCGCGCAACCGGCATCCAGGAAGAACACTTTCTTCCTCACAGGGTGTCTCCTCTCCTGTTTTCATGTTTATGGCATCAGGTGGTTTGCAGAGTGCTCCACACCCAGACATGTGCGTCCAGTGAGGTCAGCTGAGAAAACAACAGCTTGCCCACCACCCTGCTCCCCCCTCATTCTGGGAGCTACAGGCTGGGGCCACGGTCACCCCTGGGCACACGCCCCCACCCCCACCTT >Seq ID NO:71 AGACCCCCTTCTCTGGCTGCAGGAGAAGCGCCGTGCAGAGAGAGCGGAGCAGCAGAGGATTCGTGCAGAGAAGGAGAGGGAGCGCCAGAACAGACTGGCGGTGAGGGCACCATCCGCACTGCTGCCTCATCAGAGAATGAGCCCCAGGCCCAGAGAAATGCAGGGGGCTGAGGCCTTCCTTCTCCCGGGGTTCCCATTGTCATTGGCCAATGATCAGAACCACTGGCTAAGGCC >Seq ID NO:72 TCTGCTGGTCGTGGGCTCGGCCCCCAGGCGCCAGGCCGAGTGCCCACCTCGGCTTCTTTAGGGGGCCTACAGCGGGCAGCCGAGCGGCTGGCGGACCCGGAGCTTGGGAGGCGACCGCCAGGCTGGTGCCCGGCCTGACCCGGCGTTcgcggccgcccgctcgcccgccgcgggccgggAGCGTACAGGAGTGTGACGCAGATTGTGAAAACAGAAGGGAGGGAGTTGGGTCATTTCCTTCGCTAA >Seq ID NO:73 acgttgggaggccgaggcgggcggatcacgaggtcaggagatcgagaccaccccggctaaaacggtgaaaccccgtctctactaaaaatacaaaaaattagccgggcgtggtggcgggcgcctgtagtcccagctacttgggaggctgaggcaggagaatggcgtgaacccgggaggcggagcttgcagtgagccgagatc >Seq ID NO:74 CTTCCTGCCCTTTCTGTGCCTCAGCATCCTCTACGGGCTCATCGGGCGGGAGCTGTGGAGCAGCCGGCGGCCGCTGCGAGGCCCGGCCGCCTCGGGGCGGGAGAGAGGCCACCGGCAGACCGTCCGCGTCCTGCGTAAGTGGAGCCGCCGTGGTTCCAAAGACGCCTGCCTGCAGTCCGCCCCGCCGGGGACCGCGCAAAC >Seq ID NO:75 ACGACCCGCGCTGCGGCGGGCACCAcgcggggggcgcgcggggaggggagaggcggggccggcggggACTGTGTCGCCGCCGACGCCGCGGCTGCGGGTCGCAGAGGCGGGCAGAGAGAGCCGCCGCCGAGCGGGTGGCGGAGCAGTCCCCAGCCTCCAGCCGGCCTGGCTGCGCGCAACCGCGCCGGCCCCGGGCACAGG >Seq ID NO:76 AGTGCTGCACTGGGGCCCCGGGAAGCAGAAGACGGCTCCTGGCACATCTCCTGGGTGCATCTGTGGATTGCTGGGGCCCCCAGCAGCTCTCCCAATCCCCAGAAACCCCTCCTGGATCTGCTGTATCCACCTGGAGCCTCTTGGTGCACAGCGGCACACACAATACCTCCACTCTCCACCCCGAAGGATGCCCACTGCAGCGGGGTCCTCA >Seq ID NO:77 ccccATTGGCTGCCGGGAACAGGTGGTGGGGCCGGCGTAGCGCCCCGAATTAGGAACTGTCGGGAAGCGCCGCGGCCGCTGGCTCGAGCCTCCGATGCTTGCCCTTTTTTAGCCAGCGGGGCCACTGACGGCTTCTGTTGCACGTCCGGACCCGGACCCAGACCCGAGCGTCGCAAGAAGGCCCGTTGGAGTCTCGCGCAA >Seq ID NO:78 GCAGCGGGGTTGGAGGATGCAGGAGCACCAGGCTGCCGTCCCCAGGGTCCCCCAGATCCCCACGCGGGAGGGGACCGGAGACGAGGACAAGTTCGCGGAAACTGCCCGTGCGTGTCGGGGAGAGATGCGAGTGCAGGAGCGCCCAGCCGTAAAGCACAcccccgcccgcccccgcgccccATCACACACGCGCGCGCGGGC >Seq ID NO:79 aatccaataggaccggtgtccttataagagaggagatggacacatgaagacagagacatacggggatcagacaatcatggacggaggaggaagagagtgcggcgatgcatctaggagccacaggacacctagaatggccagcagccggtgggaaccaggagaggcaaggacggatcctctcctccagccttcagagggagcccggccctgaccacacctcgatctcagactctgacctccagaactgcgagagaagaaatctcagttgttttaatgtacgcagcttgtggcactttgtgacagcagATAC >Seq ID NO:80 GCGTGTGTCTCCCTCGCTCACTCTCGCACACGTTCCGGCACTAGTGCAGGCGGCGAGCCGGCGGCTCTCCGCTCGCTCGCTCCGGCAGCTGCGTTCCCGCCTcgccccgccgccgccgccgccgccgccgccgccgcctctgcagtcgcagccgGGCATGGTGAGTGAGTGAGGTCCAGCCGCCGCGCGCTCTCCCGGCTC >Seq ID NO:81 CTGCAGGCTCTCGAGCAAGGGCCACCCCAAAGAACGCAGGAGGCCTCAGCTTCTCTTGCCTGAGATCGCTGCCGTGTGGGGCTTCAGCGCCCGGCTGCCTGTGGGGAGCGGATCACCGGCGGTTTCATCCCCGTGCACTCTTGTCTGATGAAATATAAATAGCACGCGATGTTTTCGAGCAAGGCTAGGGAAGCGTCTGTGGGTCGTCCTCCCGCCCGGCAGAGGCTGATGAGCTGGCCTGGGGACGGGAAGGAGATGGGAGCTCCTGAATAAATCATCGTGGGAGCTGGGCTAATGCACTGGCCACGGGCAGCG >Seq ID NO:82 TCCCGGCTGGAAAGGAAGCCCTGCGCTCGAAGCGCCCCACGCCAGACGGAGTGGCCCCTGCGCCTCCCCGCGCGCCGGCGCGCCCTGTTCACCTTCGACTGGATGTTACCGAGCCAGGGAGAGACCCGGAGATCGAGTGTTTGATCTTCCCTTGCTCCAGGATCCTGAATTCTTTAAacacactcgcacgcgctcgcacac >Seq ID NO:83 CCAGGGCCAGGTACCACACCTGGATGCTCCTGGGCTGCCTCCCGGTGCTTGTTCCCAGGCCATCGGGACGCCCTGGCTGGGAGCATCACCGAGTGCCTGCCGCCTGAGGTTCCTGCCCGGCCCAGCCTGACTCTCCCAGCAGACATTGACCTGTTCCCTTTCTCCAGCTTCGTCGCCATCGGCTTTCAGGTGGGCGCCCAGGCCTAA >Seq ID NO:84 AGGGCGTTGTAGTTGGACACCCAGTTCTCGTGGTCCACGCTGCCCTTGTAGCCCACCACCTTCACCCACTCCGGGTTCTCGTTCACCACATCACCCGTAGTGGTCGTCCACTCCTTGCCCAGGCCGCCCACGTACAGACGCTCGTCCTTCACTGCCAGCCATTCGGCCTTGAAGCCTGGCCAAGCAGAGTGTCCTTAGGccccgcacccagctcccgccgcacccctgcacctggctcccacccggccccgcacctgtccttagaccccgcacctgactcccgcccggctccacacctgcctcccctccggcccgcacctggctcccgcccAGGGCCGGCCGGCTGCCCTCCCCTCAGCTCCTGAAGGTTCAGTGACCACTCTCAAGTCT >Seq ID NO:85 CGGAGCTGCCGGCCTTTGCAGCCTTCAGAGTCTCCAGGTTCTTCCTCCGCACTTGTGGGACTGAAGGCCGCTGGAGCAGATGACTCACGCTCCCACAGGCTTCGGTCCACACTTTCAGAGAACACGGTGGCTGTGACCGGAGGCTCCACGCGCCTGTCTGAGGAAGATCCTGCTTCCTCCCTGCAGTTTCTGCCGCTTCGCTCCGGCCTCACCG >Seq ID NO:86 TGAGAAAATATGTCTAAACAGCACGCCTCTCCAGCCTCTCCCAGAGCCAGCAGCCTTGAACCCTGACCCCGTCTGGCCTCTTTCCCTGGCCCGGGAAGGCGGGTATTTGTTTCTCTCTGAATGACTGAACTTGGCCCCCTTGGCTTCTGCCTCTGCGCCCTCCGGCGGGGGTGACCTCATGTCCTCGGGCGTCCTCCTCAC >Seq ID NO:87 tttacagatgagaatgccggggcccagagagggctgcagtcctggcctaaggatgcccggcAGGGCTGACTCCCAGGGGCTGGGGGCCAGGAAATGATGGAGGGGCCGGTCCCCCCACCCACCCAGGGCAAGGCCCTGCCCTCGCCCTGGAAACTAAACTCGCTCTGAGACAACTGACCCACGCCCTCACTCCAGGAACACAAGCCACCTGCCGGCCAC >Seq ID NO:88 GTGTTTGAGAAGGACTTCGGCCCCATAGACCCGGAGTGCACCTGCCCCACGTGCCAAAAGTAGGCAGGATGGCACTGGGAGCTGGGGCAGGGCATGGAGGGGACAGGGCCTGGCCGTGCTGAGCTGTCCCCTGCCGCTCTACAGGCACAGCCGCGCCTTCCTGCACGCACTGCTGCACAGTGACAACACGGCCGCGCTGCACCACCTCACGGTCCACAACATCGCCTACCAGGTGAGCCAGTGCCCGGGGCAAGGTGGGCGGGGGTGTCCTAGGTGCGTATGCCCCACGCTGACCTCCCCTCCCCGCAGCTGCAGCTCATGAGCGCCGTCCGCACCAGCATCGTGGAGAAGCGCTTCCCGGACTTCGTGCGGGACTTCATGGGCGCCATGTACGGGGATCCCACCCTCTGTCCCACCTGGGCCACTGACGCTCTGGCCTCTGTGGGAATCACACTGGGCTGAC >Seq ID NO:89 AGAGCTTGGAGAAGGTGACGGTTTTCAGTTCCTTGTTCTCAGTCGTGGCCTGGACCGACTTCACGAGGTCTTGGGTCTGCAGCATGCTCATGTTCCAGGACGCCTGGTACCGAGGGTGTTGAGAGAGAACGAGGAGAGAGATTAGCAGGGGCCAATCAGGATAAAGCATGAGAGCACCCTGCACCCTGGTTGGTCGCCTGG >Seq ID NO:90 TGGGGCACTGGGGTCTTCCTGTCCCACGTGCCCTCCACCCTGGGCTTCTGGAAGCTGGTCTAGATGCCCCTAGCTGCCGCCTGGGCAGCCCATATGCCCACGCCGGTCCCTGATAGTGAACTGGCCCGTAAGGGGACCAGGTCTCGGGATCTGAGCATGGAGCAGGGGCTGCGCCCAGGAGATAGGGTGTGGCTAGACTTTCCCCTGCTGGTCCTTTCCGGGGATCTGAGGGGAAACTTCTCCTGGGGACACACCCGGGTAGCTCAGAGATGGAAGAAAAGGTCTCCATTA
實施例 2.1 :甲基化靶向測序篩選肺癌特異性的甲基化位點
發明人收集了總計490例各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表2.1,訓練集中肺癌樣本總數為51個,測試集中肺癌樣本總數為20個。
表2.1 各個癌種血漿樣本數量統計表
  訓練集 測試集
總數 319 171
癌症類型    
食管癌 37 21
肝癌 113 66
胃癌 46 25
肺癌 51 20
乳腺癌 20 20
胰腺癌 33 13
結直腸癌(也稱腸癌) 19 6
年齡    
中值(最小值-最大值) 62.5 (25-87) 61.5 (29-89)
性別    
193 107
123 63
NA 3 1
通過申請人自主研發的MethylTitan TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
a) 文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料預處理的資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N i表示位於目標甲基化區間的讀段(reads)數目,N i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出肺癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中肺癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分肺癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟: 1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差; 2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型; 3. 將標準化公式應用到測試集資料對測試集進行標準化; 4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
這些甲基化標誌物在肺癌與其他6種癌種中的甲基化水平如下表2.2和圖11和圖12所示。這些甲基化標誌物在訓練集和測試集中肺癌與其它癌種相比都具有顯著性的差異(u檢驗,p值小於0.05),且甲基化水平也具有較大差別。
表2.2 在訓練集和測試集中甲基化標誌物在肺癌與其他6種癌種中的甲基化水平均值
序列編號 染色體 起始位置 終止位置 訓練肺癌甲基化水平 訓練集其它癌種甲基化水平 訓練集P值 測試集肺癌甲基化水平 測試集其它癌種甲基化水平 測試集P值
Seq ID NO:91 chr1 3331940 3332307 0.9065 0.8441 6.27E-17 0.9010 0.8496 2.39E-07
Seq ID NO:92 chr1 10813808 10814072 0.9243 0.8983 6.34E-10 0.9200 0.8978 0.000348
Seq ID NO:93 chr1 27687058 27687449 0.7343 0.5534 3.55E-15 0.7266 0.5554 1.52E-07
Seq ID NO:94 chr1 248020790 248021176 0.9819 0.9268 1.70E-15 0.9822 0.9224 1.78E-06
Seq ID NO:95 chr2 39187516 39187716 0.0851 0.1521 1.13E-11 0.0772 0.1458 1.06E-06
Seq ID NO:96 chr2 113931508 113931708 0.9253 0.7354 2.56E-17 0.8978 0.7491 3.39E-07
Seq ID NO:97 chr2 177030134 177030449 0.7891 0.6280 9.10E-18 0.7666 0.6282 3.84E-07
Seq ID NO:98 chr3 124860729 124860929 0.0221 0.1243 4.18E-14 0.0394 0.1213 6.17E-06
Seq ID NO:99 chr3 185973717 185973917 0.1360 0.2115 4.38E-15 0.1520 0.2187 9.34E-06
Seq ID NO:100 chr5 1291139 1291339 0.8525 0.8181 6.73E-15 0.8471 0.8141 4.05E-06
Seq ID NO:101 chr5 92906255 92906617 0.0866 0.2398 2.79E-17 0.1143 0.2239 6.26E-07
Seq ID NO:102 chr5 140892824 140893033 0.0036 0.0474 9.42E-15 0.0038 0.0435 4.13E-07
Seq ID NO:103 chr5 169805839 169806039 0.0026 0.0248 7.53E-12 0.0031 0.0174 2.46E-05
Seq ID NO:24 chr6 1625055 1625255 0.0035 0.0694 7.97E-13 0.0018 0.0622 8.32E-06
Seq ID NO:104 chr6 26240701 26240901 0.8681 0.6695 2.37E-14 0.8370 0.6826 7.85E-06
Seq ID NO:105 chr7 67016160 67016360 0.0167 0.0500 3.29E-08 0.0299 0.0493 0.004434
Seq ID NO:106 chr7 127744150 127744731 0.0251 0.0576 3.62E-15 0.0321 0.0597 5.54E-07
Seq ID NO:107 chr7 137347054 137347254 0.0222 0.0357 1.27E-16 0.0250 0.0355 0.000189
Seq ID NO:65 chr8 22438141 22438341 0.0542 0.1723 1.47E-18 0.0724 0.1687 2.39E-07
Seq ID NO:108 chr8 22876154 22876354 0.0453 0.1601 1.55E-14 0.0426 0.1474 8.98E-07
Seq ID NO:109 chr8 129103499 129103699 0.9196 0.8333 3.08E-15 0.9165 0.8475 3.09E-06
Seq ID NO:110 chr8 145105489 145105984 0.9238 0.7506 1.08E-13 0.9013 0.7626 2.05E-05
Seq ID NO:111 chr9 127257997 127258338 0.1914 0.3323 7.34E-16 0.1992 0.3263 2.84E-08
Seq ID NO:112 chr10 22634278 22634478 0.0520 0.2211 4.90E-12 0.0414 0.2117 1.62E-07
Seq ID NO:113 chr10 88296342 88296594 0.2455 0.4593 6.24E-16 0.2603 0.4507 2.64E-07
Seq ID NO:114 chr10 123923943 123924143 0.0186 0.0731 2.13E-15 0.0266 0.0707 3.93E-07
Seq ID NO:115 chr10 134016194 134016408 0.0020 0.0209 1.70E-14 0.0020 0.0226 4.23E-06
Seq ID NO:116 chr10 134734173 134734395 0.0055 0.0349 1.90E-13 0.0133 0.0352 0.001343
Seq ID NO:117 chr10 135090209 135090425 0.0034 0.0544 8.09E-09 0.0037 0.0485 0.000708
Seq ID NO:118 chr11 64333172 64333372 0.0298 0.0551 2.50E-12 0.0315 0.0616 2.32E-05
Seq ID NO:119 chr11 68622069 68622269 0.9370 0.8254 2.94E-14 0.9449 0.8403 1.24E-07
Seq ID NO:120 chr12 58021334 58021534 0.9297 0.8120 3.46E-15 0.9067 0.8419 4.23E-06
Seq ID NO:121 chr12 133029845 133030045 0.0083 0.0577 1.22E-14 0.0120 0.0526 1.16E-05
Seq ID NO:122 chr13 21520235 21520435 0.9415 0.7899 3.13E-14 0.9246 0.7933 4.33E-06
Seq ID NO:123 chr13 114214669 114214869 0.0022 0.0128 1.19E-13 0.0024 0.0115 7.20E-06
Seq ID NO:124 chr14 55243006 55243206 0.9292 0.7749 3.53E-18 0.9058 0.7895 2.11E-07
Seq ID NO:76 chr14 105102434 105102644 0.9126 0.8633 3.58E-11 0.9079 0.8671 5.29E-06
Seq ID NO:125 chr15 41793866 41794364 0.0452 0.2092 2.65E-14 0.0689 0.1965 1.09E-05
Seq ID NO:126 chr16 1037548 1037773 0.9153 0.8697 4.58E-16 0.9113 0.8726 3.09E-06
Seq ID NO:127 chr16 2085778 2086156 0.0384 0.1241 1.08E-15 0.0444 0.1177 1.04E-06
Seq ID NO:128 chr17 75370344 75370592 0.0022 0.0568 1.25E-12 0.0133 0.0624 0.004994
Seq ID NO:129 chr18 74818217 74818417 0.8893 0.7320 4.95E-17 0.8785 0.7391 6.81E-08
Seq ID NO:130 chr18 77159233 77159590 0.9140 0.8171 2.45E-18 0.8941 0.8148 7.78E-07
Seq ID NO:131 chr19 10824035 10824235 0.5478 0.4511 1.18E-13 0.5446 0.4558 9.56E-08
Seq ID NO:132 chr19 15580341 15580719 0.9229 0.8061 5.76E-16 0.9165 0.8158 2.84E-08
Seq ID NO:133 chr20 60447728 60447992 0.0094 0.0535 2.74E-10 0.0145 0.0527 0.00069
Seq ID NO:134 chr20 61318785 61319012 0.0252 0.0583 1.32E-12 0.0335 0.0575 0.001949
Seq ID NO:135 chr20 61606676 61606962 0.0055 0.0329 5.92E-16 0.0077 0.0299 6.11E-07
以單個肺癌組織特異性甲基化標誌物Seq ID NO:91為例查看該肺癌組織特異性標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖13和圖14所示,可看出該肺癌組織特異性標誌物的甲基化水平在肺癌中相比其它6個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的肺癌組織特異性甲基化標誌物。
實施例 2.2 :單個肺癌組織特異性甲基化標誌物判別性能
為了驗證單個肺癌組織特異性甲基化標誌物的區分肺癌與其它6個癌種的潛力,使用單個肺癌組織特異性甲基化標誌物的甲基化水平資料在實施例2.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標肺癌組織特異性甲基化標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(肺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肺癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個肺癌組織特異性甲基化標誌物邏輯回歸模型的效果見表2.3,從該表中可看出,所有的肺癌組織特異性甲基化標誌物在測試集和訓練集都可以達到0.67以上的AUC和0.58以上的準確率,都是較好的肺癌組織特異性標誌物,其中表現優異的標誌物如Seq ID NO: 132,Seq ID NO: 111,Seq ID NO: 129都可以在測試集中80%以上的特異性下達到75%以上的敏感性,整體準確性達到80%以上。
表2.3 單個肺癌組織特異性甲基化標誌物邏輯回歸模型的表現
訓練集AUC 訓練集敏感性 訓練集特異性 閾值 訓練集準確率 測試集AUC 測試集敏感性 測試集特異性 測試集準確率
Seq ID NO:91 0.8657 0.8235 0.7687 0.1709 0.7774 0.8470 0.8500 0.7616 0.7719
Seq ID NO:92 0.7682 0.8431 0.5784 0.1613 0.6207 0.7338 0.7500 0.6026 0.6199
Seq ID NO:93 0.8438 0.7647 0.8097 0.2094 0.8025 0.8530 0.8000 0.8477 0.8421
Seq ID NO:94 0.8479 0.7843 0.8396 0.1700 0.8307 0.8195 0.7000 0.7748 0.7661
Seq ID NO:95 0.7954 0.8235 0.7015 0.1702 0.7210 0.8268 0.8000 0.7020 0.7135
Seq ID NO:96 0.8704 0.8235 0.7985 0.2131 0.8025 0.8424 0.7500 0.7947 0.7895
Seq ID NO:97 0.8757 0.8431 0.8246 0.2006 0.8276 0.8407 0.7500 0.7881 0.7836
Seq ID NO:98 0.8297 0.8431 0.7276 0.1835 0.7461 0.8013 0.7500 0.7086 0.7135
Seq ID NO:99 0.8426 0.8627 0.7164 0.1710 0.7398 0.7950 0.8000 0.7152 0.7251
Seq ID NO:100 0.8402 0.8431 0.7612 0.1633 0.7743 0.8076 0.9000 0.7550 0.7719
Seq ID NO:101 0.8699 0.8235 0.7910 0.1992 0.7962 0.8341 0.8000 0.7616 0.7661
Seq ID NO:102 0.8383 0.8431 0.6978 0.1665 0.7210 0.8397 0.8500 0.7483 0.7602
Seq ID NO:103 0.7981 0.7647 0.6940 0.1619 0.7053 0.7798 0.7500 0.7152 0.7193
Seq ID NO:24 0.8109 0.8039 0.7127 0.1719 0.7273 0.7955 0.9000 0.6490 0.6784
Seq ID NO:104 0.8330 0.8235 0.7575 0.2106 0.7680 0.7977 0.7000 0.7616 0.7544
Seq ID NO:105 0.7387 0.7451 0.6604 0.1635 0.6740 0.6805 0.5000 0.7351 0.7076
Seq ID NO:106 0.8437 0.8431 0.7313 0.1633 0.7492 0.8358 0.8500 0.7682 0.7778
Seq ID NO:107 0.8619 0.8431 0.7836 0.1606 0.7931 0.7450 0.5000 0.7748 0.7427
Seq ID NO:65 0.8849 0.9020 0.7724 0.1862 0.7931 0.8470 0.8500 0.7682 0.7778
Seq ID NO:108 0.8355 0.7843 0.8172 0.1919 0.8119 0.8291 0.7500 0.7947 0.7895
Seq ID NO:109 0.8446 0.8824 0.7090 0.1754 0.7367 0.8116 0.8000 0.7020 0.7135
Seq ID NO:110 0.8242 0.8039 0.7388 0.2037 0.7492 0.7828 0.7500 0.7152 0.7193
Seq ID NO:111 0.8525 0.8235 0.8060 0.1954 0.8088 0.8742 0.8000 0.8543 0.8480
Seq ID NO:112 0.8008 0.8431 0.6642 0.1886 0.6928 0.8522 0.9500 0.6093 0.6491
Seq ID NO:113 0.8534 0.7843 0.8097 0.2131 0.8056 0.8457 0.8000 0.8013 0.8012
Seq ID NO:114 0.8466 0.8627 0.7201 0.1675 0.7429 0.8404 0.9000 0.7152 0.7368
Seq ID NO:115 0.8349 0.8235 0.7761 0.1614 0.7837 0.8070 0.7500 0.7285 0.7310
Seq ID NO:116 0.8208 0.7451 0.7985 0.1629 0.7900 0.7070 0.4500 0.8212 0.7778
Seq ID NO:117 0.7445 0.7843 0.6381 0.1680 0.6614 0.7139 0.7500 0.5629 0.5848
Seq ID NO:118 0.8051 0.7647 0.7276 0.1621 0.7335 0.7808 0.5500 0.7616 0.7368
Seq ID NO:119 0.8318 0.8235 0.7799 0.1873 0.7868 0.8556 0.8000 0.7483 0.7544
Seq ID NO:120 0.8439 0.8627 0.7239 0.1863 0.7461 0.8070 0.8500 0.7020 0.7193
Seq ID NO:121 0.8368 0.8235 0.7164 0.1668 0.7335 0.7917 0.8000 0.7152 0.7251
Seq ID NO:122 0.8314 0.8627 0.7127 0.1935 0.7367 0.8066 0.8500 0.6821 0.7018
Seq ID NO:123 0.8236 0.6863 0.7836 0.1604 0.7680 0.7990 0.7000 0.8079 0.7953
Seq ID NO:124 0.8805 0.8431 0.8172 0.2016 0.8213 0.8487 0.8000 0.8543 0.8480
Seq ID NO:76 0.7879 0.7255 0.7239 0.1667 0.7241 0.8036 0.8000 0.7219 0.7310
Seq ID NO:125 0.8324 0.7255 0.8097 0.2132 0.7962 0.7927 0.6500 0.8013 0.7836
Seq ID NO:126 0.8551 0.7843 0.7873 0.1665 0.7868 0.8116 0.7000 0.7417 0.7368
Seq ID NO:127 0.8504 0.7451 0.8657 0.1824 0.8464 0.8272 0.4000 0.9073 0.8480
Seq ID NO:128 0.8074 0.8431 0.7090 0.1684 0.7304 0.6768 0.4500 0.6689 0.6433
Seq ID NO:129 0.8669 0.8431 0.7985 0.1990 0.8056 0.8632 0.8000 0.8212 0.8187
Seq ID NO:130 0.8824 0.8824 0.8022 0.1805 0.8150 0.8311 0.7500 0.7616 0.7602
Seq ID NO:131 0.8236 0.7451 0.7910 0.1788 0.7837 0.8589 0.7500 0.8278 0.8187
Seq ID NO:132 0.8538 0.8431 0.8134 0.1906 0.8182 0.8742 0.7500 0.8411 0.8304
Seq ID NO:133 0.7741 0.8235 0.6530 0.1657 0.6803 0.7205 0.8000 0.6093 0.6316
Seq ID NO:134 0.8090 0.8431 0.6828 0.1634 0.7085 0.6990 0.6000 0.7020 0.6901
Seq ID NO:135 0.8537 0.7843 0.7836 0.1628 0.7837 0.8344 0.8000 0.7881 0.7895
實施例 2.3 :所有目標肺癌組織特異性甲基化標誌物的機器學習模型
本實施例使用所有的48個肺癌組織特異性甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出肺癌的樣本。具體的步驟與實施例2.2一致,只是相關樣本帶入了所有48個目標甲基化標誌物的資料。具體如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(肺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3.使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肺癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖15,從圖中可看出肺癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖16,在測試集中,肺癌與其它癌種區分的AUC達到了0.903,設置閾值為0.336,大於該值則預測為肺癌,反之預測為其它癌種,在特異性為94.7%時,敏感性達到了80.0%,樣本整體預測的準確率達到了85.0%, 可以很好地從7種癌症樣本中區分出肺癌樣本。
實施例 2.4: 肺癌組織特異性甲基化標誌物組合 1 機器學習模型
為了驗證相關肺癌組織特異性甲基化標誌物組合的效果,本實施例從所有48個肺癌組織特異性甲基化標誌物中隨機選取了一共10個肺癌組織特異性甲基化標誌物Seq ID NO:92, Seq ID NO:95, Seq ID NO:99, Seq ID NO:103, Seq ID NO:112, Seq ID NO:76, Seq ID NO:126, Seq ID NO:128, Seq ID NO:133, Seq ID NO:135的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例2.2一致,但相關樣本只使用了該實施例中的10個肺癌組織特異性甲基化標誌物的資料,該模型在訓練集和測試集中的模型得分見圖17,該模型ROC曲線見圖18。可看出該模型在訓練集和測試集中,肺癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.895,閾值設成0.226時,大於該預測值為肺癌,小於該預測值為其他癌種,特異性為88.7%時,敏感性達到了80.0%,整體的準確率達到了87.7%,說明了該組合模型良好的性能。
實施例 2.5 :肺癌組織特異性甲基化標誌物組合 2 機器學習模型
該實施例使用另一肺癌組織特異性甲基化標誌物組合:Seq ID NO:112, Seq ID NO:124, Seq ID NO:128, Seq ID NO:130, Seq ID NO:133一共5個肺癌組織特異性甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例2.2一致,但相關樣本只使用了該實施例中的5個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖19,ROC曲線見圖20。從圖中可看出該模型在訓練集和測試集中,肺癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),閾值設置為0.253時,測試集中在特異性為95.4%時,敏感性達到了75.0%,整體的準確性可達到93.0%,同樣可以較好的區分肺癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了48個肺癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出肺癌的樣本,這些甲基化標誌物都是良好的肺癌組織特異性的甲基化標誌物,對泛癌種早篩過程中肺癌的組織溯源提供了重要的參考。
本文中使用的序列: >Seq ID NO:91 CTGGCCCTGACAGACTGCAGACCAGACCGGGGCATTGTTCTCTTTCTCGGCCTTCCCCGCCGTGGACGGGCCCCCCACCTGGTTTGTGAAACCTGCGCCCAGGCTGAGTTCACAGCTAAACTTAGCGCCTCCCATTGTTTCCCCGGGGCCGTGGAGTTTGGTTAATAACTTCCCCTGATTTTCCTCGGGATGGGCTGGAAAGAGCCACGAGCCAGCCAGGCGCATCCTGCGTTTGTTTGTGCGGGGAGCGAGGCCGGGAATATCTGATCGGGCGGAGCAAGCCGGGCGGGAGAGGCCCACCCAGGCCCGAGGAAGGGAGCCCAGCGGGGGGCAGTTTCCATTGTCCCTCCTGCCCGCTGCCCCCACGG >Seq ID NO:92 CGAGAGAGTGCATTCAAGAAGGGCGATCCGGGCACATATGCGACCTGTGAGAGGCGGAGTCGGTGACAGGTGGGTCTTGTTTTTTAATAAAGAGCTTGTTCCTaatcagatcatggcactcagaactcttcaaaaagcttcttatttcactctgggtaaaagccagagttctcacaatggcctgcaaggcctacgggatctgagggccccccaccctgaccccctcgacttcagatggcatctgcccctcactctgctctagcca >Seq ID NO:93 CCCAGTCCACAGGGCTCGAACTCTCAGGTCCTACGAGCCCGCCCACTAGGCCCCGCCCACAGGAGCCGCTCCGCTCGTGGCCCGGCTCACTCGGCCCTCGCGAGCCCTCAGCCCCACCCGCGCTGCCACGCACCGCACCTGCTGTCCCGCTCCGGGATCTCCTTGATGGCGATGCGCACCCTCGTGTGGCGATCGCGGCCCGCGTACACCACCCCATACGTGCCCTTGCCCAGCACCAGCCGCTCGCCCGTCTCCGTGTACTCATAATCAAACTGCCGGGCGCGGGGTGAGATGGGAGTTCAGCAGGGCCCGCGGCCCCTCGCCCTCCGCGAGCTCCCAGTCCCGCGTCCTCACCTCCAACATCTCCCCCGCGCCCTCCGCCTCCTCCGCGG >Seq ID NO:94 GCGTGCGGCGGCTGGGGTTgggcgcggggcccggggcgcggcgATGCGCGCGGCACGGCGAGGACCTGAGCCGCTTCTGCGAGGAGGACGAGGCGGCGCTGTGCTGGGTGTGCGACGCCGGCCCCGAGCACAGGACGCACCGCACGGCGCCGCTGCAGGAGGCCGCCGGCAGCTACCAGGTGAggcgccccccggcgggggctgcgggcgcTGCGGTGACCGGGAAGCGGGCGACAGTCCGGAGCGGAGCCGCCGAGGCCACCCGTCTCCTGAGCGGCTCCCACGGCCGCTCCCCCCACCGCGCGCCGTCCCCCCCGCCCACGCGGCTCACTCAGTGTGGGTCTCTTTGCCTTGGCTGTGGTAACCCCCTTTGCGACACACACCCAT >Seq ID NO:95 CAAACTGGAGGCGGCGGCGCAGGCGCACGGCAAGGCCAAGCCGCTGAGCCGCTCTCTCAAAGAGTTCCCGCGTGCGCCGCCAGCCGACGGCGTGGCCCCACGCCTCTACAGCACGCGCAGCAGCAGCGGCGGCCGCGCGCCCATCAAGGCCGAgcgcgccgcgcaggcgcacggcccggccgccgccgccgtcgccgcccg >Seq ID NO:96 TGAGGAGGAGCGGAAGTCGGAAGCTCCAGCCGTCACAGCCACATTCACTGGGCAAGCCGACTGTGAGCCAGGAAGTGCTCTTGGGGAGCCCAGGCCAAGCCATCCATTCTTGGGTCCTTTGGAGGTGAGCTAAGTGGGTCTGCCTAGGTTGGGGCTGGTGGAACCTGTGGGAGCAGGGAATGTGGAGAGTCACATGTGGGT >Seq ID NO:97 AGCGGTTgcggcgggccggcgggcccggggAAGCGGGCGGTGGCCGCTCAGAGAATACCTTCCTTCCGGCAGGAGACCGTTTGGCCCTGTATTCCGGGCCTGCGGTTGGGCCTCCAAGCTGAGTTGGGCAACTTCCCAGCACCGCAAGAAAGGGCGAGCCAGACCTATTTGGCACCCCTTTCCCAGGAGGAGCAGGGGATGGCGCCGGCGGAGTTTGGGGAGGCTGCCCTGGCCAGTTCCCCGGGCTAGAGGGTGGAGGAGAGGAGGAGGGAGAGGAAAGGGCAGCTGAGGACTTGGAAGAAATGAGAAGCCGTGC >Seq ID NO:98 GGGCGCAGGAAGAGCGGCTCTGCGAGGAAAGGGAAAGGAGAGGCCGCTTCTGGGAAGGGACCCGCACGACGACGCCCGAAGGGCGTCGGGGGAAGTGGTAGGCCCCGGAGACTGCGCGAGGCTCCTCAGCAAAGGAAGTGGGCGCGGCGCGCACGCAAGACCTCGCACCCGGCCTCGCGCGCCGCCTCTGGACAGCCCAGC >Seq ID NO:99 AAAACTAATGTTTCTTCCTCCTTCTGTGATCTTCCTTCTTTCTGTTTTGAGCAGCTTCTATCACCTGTGTCCTCTGCGGATGAACTGCATAAAGCTCTCCGCCAAAGCCTACTTCTCCCTCATGGTGGAGAGGGAGCCGTGTGAGTAGTCCGGTACCGCAGCCATCCACCCTCTGCAGATCAGCTTTTCCTTCCTTGGCTC >Seq ID NO:100 ACTCACCCTGCACGGGACAGGGACACCCGGGGACAGTGCCTCACTCACCCTACACGTGACAGGGACACCTGGGGACCGCGCCTCACTCACCCTGCACGTGACAGGGACACCCGGGGACAGTGCCTCACTCACCCTATACCTGGGAGGGACACCCAGGGACGGTGCCTCACTCACCCTACACGTGACAGGGACACCTGGGGC >Seq ID NO:101 CCAACTGCCCGCGCGGAACCGGGCCGTGGGCCTGGGGTTCGGGAAGCGTGCGCCACCCCCGGTCGGGCCTGGCTTCCTTCTTGAATGCCCCCGGCGCAGGCCCGGTGCTTTGTCCCTCCGGCCTTCTCAAGGAGTGGTGGCCTTCTGCGGGGGCGAGAGCACGGCCTCTAGCCTTCCGCCGACGTCTCAGTGCGCAGATAccgcggcccgggcccctccgccgcgcgggggACCGCACTAGCGTCGACCTCCCGGCAGCCAACCCCGCGCGCAAGGCTCCGCGGCCGGATATGGGCCTAGCTTCCGGGATCCGCTCCCTGCGGGGCCGCGCTTAGGGTCGGAGTTCGCTAGTCCAGGGAAAGG >Seq ID NO:102 GCGTGTCAGTGTGCAGTGGAGTGTGCAGTCTAAGCTTGCGGCTGTCTCCAGGCAGAAGAGGAGAccccggcgcgggcgggggcgggTTGGCGCCGGGCAAACGCCTTGGGTAGAGGGGAGAGGACGTTTCGTTAGTTCCCGCCCCTTCCTGACTAAAATTGCCTACCCGAAGCGCCCCGGAGGGCTTCACGGGAGGAGGGTAGACTCTCC >Seq ID NO:103 GGAATAGGACGCTGGTTTCGTTCCCCCGAGGTGCGGAGAAGCAGTAGAAGACCTGCTGCTCTTGGAATTTGGCTCTGACCTTCTCCACGTCGGCCCGGGCCGTCTGGTAATTGTCCACGCTGCCTGGGATGTAGGAGCACTGTGGGGAGAAACAAGAGCAGCTGTGGGCTTGGAAATCCCCATTTCTTAGCCAAGGGCTTG >Seq ID NO:24 CTTAATGCtttttttttttttttttttttttttttATAACATGAAGTTGTCAGGGACGCTCCTATGAGAACTGTTTGGAATTGCTGCACTTCTCTGGCTAGGAGGGAAGTGAGTAAATCACCAGGCGCCCCTCCCAGCTGCCCGTGTCCCTGCGCCGCTCAGCTCCTGCCGCAGGGCTGGCCGCGCCAAGCGCGCGTCCTA >Seq ID NO:104 CAAGCGCCATCGCAAAGTGCTGCGTGACAACATACAGGGCATCACGAAGCCCGCCATCCGTCGCTTGGCCCGACGCGGCGGCGTGAAACGCATTTCGGGCCTCATTTATGAGGAGACCCGCGGTGTTCTTAAGGTGTTCCTGGAGAATGTGATACGGGACGCCGTAACCTACACGGAGCACGCCAAGCGTAAGACAGTCAC >Seq ID NO:105 AGCCGTGGCTTCCCGTGGCTGCACTTGGAAAAAGCACTCGACGCTGCCCGGGCAGCTTTCCATCTCAAGTGGGAACGCGGCTGCCGGCTGTCTCCGCTCTTCAAAGTTAGTGGAGGCTCATTTGGAATAAACTCTTCTCTTCTGCTTCCCAGTCAGGCCCTGGTGGAATACAGAGTCTGTCCTGATCCCTGCCCTTTGACA >Seq ID NO:106 ctcggcaacgcgccctcggcccgcagcctcctgccCCCTGTGCCCCGCTTCGGCCCCCAGCGCAGCTGCAGAGGGGCCCCCCTCGACGCATACACTCAAGAGCCCGACCGCGCGGCTGAAATCGCGGAGCTCGGAGCCGCGGCTGGCTGAGCGATCGCGGTTCCTGGGCTGCGTGCGCGCCCCTTGGAGCTGAAAGGAGCGCCAGGATCGGGGGCGCTGCACCGGGCTGGGCCCCTCAACGCTCGCAGACCGGGCCGGGCTGCAGCTGGAGATGGCAGCAATCCCGGGAGGTCTCCGGGCCTCTTCAGGGTGCGTCCAGGAGGCGGGTTCCGTGCGACGCGGCGCAGCCCACCCCCACGAGACCGCTTAACTTCGCGGGGGCAGCCTCGGGCGCTCGGAGACGCGGAGGCCCAGACTGCAGCCTCCGGATGCTGGAAGCCCAGACTCCCTGGGGTCACCGGCTCTCCCGCCACCCCAGCTGCAAAGAGTCCCATTGCTTCACCGTCCGGAGCTTAGTCTCCTTGTTCCTCTACCAGTCCCTCCCTCCGCAGGTCTCTGGGGACTTCTGACCGCCTGTTCTTA >Seq ID NO:107 atctcggctcactgcaagctctgcctcccgggttcacgccattctcctgcctcagcctcccaagtagctgggactacaggtgcccgccaccacgcccggctaattttttgtatttttagtagagacggggtttcactgtgttagccgggatggtctcgatctcctgatctcgtgatccacctgccttggcctcccaaagtg >Seq ID NO:65 CGGGCCAGCGCCCTGGGGCTTCCGTATCACAGGGGGCAGGGATTTCCACACGCCCATCATGGTGACTAAGGTAAGGATGGTGGCTCAAAGAGATGAGAAGGTCCTGCCAGAAGCGAGGTCGGCCCTGTTCACCCCACTCTGCACAGATGGCTTGCTTTTTCTGTTCTGGAGCTAGGGATCTGCTGCTGCCTGGCGTGCTGG >Seq ID NO:108 TGGCGGCAAAGAGGGGTTTGGTCTCGGGGCTTAAATGGCACCAGACTCTTGCTTTTGCCCATCTGGAGACTGCAGGCTCCCTTCCTTACCCTCAGAGAGTGCTTATGGTGGGTGTTTTTGCGGGGCTGCAATAGGGGCCAAAAGTCAGGGAAAGGGGCACTGACCTGTAGTGAAAGGCCACAGGACACAGCCTTATTACTG >Seq ID NO:109 CTGGTGCTCTGCAGTGGCAGGGCTGAGATGATTATACAACCTGCACTCCAGGCCAAGTCCGGTACTCGTCCCAGCTGTCGGCTAAGCCTGCACTGCTATGGGTGAGGGAATCACTCCTCTCCAGCTGGCTTTCTCACGCTGGAGAAGCCTGACCTTTATTCAGAATCATCCTCCAGCGCCCACATCACACAGCACCCTGGC >Seq ID NO:110 CTGCCGGCTGGGCACGCGCCAAAAGCAGCCCTGGGCCCTGGGTATCGCGCTTGGGGGGAGGGTACCCCCGCCGGCTGGGCACGCGCCAAGAGCAGCCCTGGGCCCTGGGTATCGTGCTTAGGGGGAGGGTATCGGAGCGGGAAGTGGACCTGGGGAGCGCCGTCGGCTGAGGCTCTGGCTGATGCCGCCCTCCCCCGGATCCCCCAGGGACCGCGCTGAGCACCTCCGTGCTCCACCAGTCCATGGCCTCCTCCCCCAAGATGCCGAGGCGGTGAGTTGCGACCTGGATGTAGGCACTGCCCGCCCGAAGCGCGCGGAGGGGCCCTGGCCTTGATGACACCGCCCCCCTACCAGGGCCCTGGAGCAGGAGAAAGGGCGCCACCTCTACCTGGCCGGCCTTCCCGGCAGAAGCCGCCGAGCTAAGCCCTGGAGAGGTCGGCGCCTGGACTACATCACGTACCGCGGAGTTCCCGGGTGGCTGGGCCTGCGGCACTGG >Seq ID NO:111 TGAGGAGATAAGGCTTCAGGCCAAAAGCAGATGGGTCACGGTGACCCGGCTGGCCCAGCCCTGGGAGCAGGCTCTGTACCCAGACCTTAGACCCTGGATGGGGCAGCCCTGCCCAGTGAGGCTGATAGGGGTGCCAGGGGCACAGAGCCACAATATGGTCGCTGAGGCTTTGGTGCCCCGTGCCCTGCATTCGAGCCCCCATCCGGCCATGCATCCTCCACCCTAATTTCCTGTTTTGTGAAGCAGGAAATGTAATTTCTCTCTTTTTTGGTTAAAACGTAAGAACACACATTGGGATGTATGGGAATCGGTGGACCTGCTGTTGGTTCTTACGTGGATGCT >Seq ID NO:112 CGAGTCCTCGAGCTCGGGCGTCTTCGCGCCGCCGCCCCGCTCAGTGCGCCCAGGCACCGCGGCCGTGACGTCACGCCCGGGACTGGCCGTTGCAGCAAGACGGCCGCGTTCCGGTTCCGGTAGGTTGCCCGGGAGACGCGGGTACACAGAGAAGCGGCTCCCGTCGGAGGCCGAGTCGTCGCCACGATCGCCCCCTTGGTG >Seq ID NO:113 AGCCGCGGCGGATTAGGCCGCCCGCCCCAACCTGGGCTTTGATCTTATCTGAGACTTGTGAGTCCAAAAGGGCTTAGCAACCGCAGCCATGGCAGCCCCAACGACGTGAACATCCGCACCTCTGAGCCTCCCCCTGAGAAGTACCTTCGAGGTGAGGCCTGCGCAGCCCCAGGAAGAGGGTGTGGGCGCAAACCTGAGGTGGGGAGCAAGGCCCGCCGGCTACACGGTTCCTGCCATCCTCGCTGCGCCCTTT >Seq ID NO:114 TGCGCTCTGGTGGACGTTCCGTCTAGTTAGCCTAAGCATCATCCACATACTCTGGTGAACACTCGAGGACAAGGCCGCTTGCTATTATTAGTAAAGGGCCGAACCGTCCTGTCATTGGTGGAGGCAGTGCTTGACTGTGCATCGATCCAGGAATCCGATCTTTTCTCTCAACCACAGAGCTAACGTGCTCAGAAGTGGCCT >Seq ID NO:115 GCCTGCCGTGGTCATAAGTCAGGGCCGAGTGGCGCTGGAGGACGGGAAGATGTTTGTCACCCCGGGGGCGGGCCGCTTCGTCCCTCGGAAAACATTCCCGGACTTTGTCTACAAGAGGATCAAAGCTCGCAACAGGGTAGGGCGGCACCCGCAAGGGTGTTGTGCAGGTAGGCAGGTGGGCGCTGAGTTCTAGGCCCAGAACGCACCCCTGGTCA >Seq ID NO:116 GGGCGACCCCGGGGGCTGGGCCTCCCCTGGCTGGTGTCCACCCTCTCGGCCAGCACAGGGGTTCACCTTCAGGAGCCACTCAACGGCATCCTCCCCTGGAGCCCGTGCCGCCCTCACTGCCCCTGGGCAGGGCCCCGCAGCACCTCCTGCTGGGTGTAGGTGCTGTCTCGGCCCCACAGCCAGCAGTGGACATGCACCTGACCCCCAGGCAGCCAGCAGCACA >Seq ID NO:117 TCGCGTCCTGCGGGGAGAGCCACCCTGCCCCGCGCTGCGCCCGGGACGGTTCCCTGGAACCACTCACCAGGCAGCATCATCGCGCCCAGCAGCCAGAGCCCGAGGCCGCGCATGGCCGGGTCGGGGAGCAGAGGCGGAGGTGACAGCCCCGCGGGACACGGTCTGGTTCCTGCGCTCCTGGCCCGAGGCTCTTTTccgcgcgccccgccccggcgcc >Seq ID NO:118 TACCACTTTCCTAGAGACCATGGCCATGCTCCTAGAGGGTGAACCTGCATTCGCTGACCCCTCCATGCAAccccacttcactgatggggaaagaggatcccagaggggtaaggaacaagcccaaaataatagagcCTGCATTGGAACCGGGCTGAGCTAACACTTGGCTTACCGGCACTGTCACTGCCAGGGCCCGCGCGA >Seq ID NO:119 CCTCCTCTAAGGCCCAGGGTCGGGGGAGGTGGGGAGGGAGCGGCCGACCGGCCGAATAGCGCTGCTTTCTTTGTTTTTCATGCAACATAATTCCATGGCCAGTCCAGGCGCTGCAGCCCCCTCCCCTGCCGGCCCCGGCGCCCGCGCAGGACCGCAGAGGGGCTGGGGGTCCAGGGCGCAGTCTAGTTCCAGGGCGCCCGC >Seq ID NO:120 CGCGTGACCGTGCGCCAGCTCCCCGTGGGGCTCCTGCCAGGGTCGACCGGGAGGGGGTGCCACTCACCCAGATGAGCCACGCGGCTGAGGCGGGGGTCGAAACCGACCTCGCGCACCTTGTCAGTCCGCGCCAGGAAGAAGTTAACCACGCCGTCGGTGACCACGCAGCCTGGGAAGCCGACGAGCTCGTGGTGGAAGCCG >Seq ID NO:121 CCATCCTCAGGCCTGGCGTTGGCTGCTCCTTGGCTTGTGTGCCCCTCCCTGCACCCCAATATGCCAGGATCTCCCCGCACCTCCTCATTCTACCATCACCTCACGGAGACATCCTGGTCACCCCGTGAGGCATTGCTCACGCCCTCCCCGGCACTCCACAGCCTTGAAGGGCACTGACCGCCAGTGCCTCCACCCACTGTG >Seq ID NO:122 AGGGCTCCGGAAAACTGCGTTCTCACAAGACCAAAGGGAGGGGAGGGAGGGGGAGATGTGGCTGCAAGTGCAGTTGGAGAGGGTGTGAAGAGATCGGGAGTCCTCTGCGAGGCTCTGGAGCACCCGGCGCCTAAGAGGCTAGTGCGCCCCGTGCCGCTGCGGTAGGACCTGGCGGTCCGCAGCTCCTGAAGGGCCTGGCCG >Seq ID NO:123 GTCACGGGTCTGGACGGGGTCGCAGGTCTGGACGGGGTCGCAGGTCTGGATGGGGTCGCACAGCTTTGGACCGGGTCGCGGGTCTGGACGGGGTCGCGGGTCTGGACGGGGTTGCACAGGTCTGGATGGGGTCGCACAGGTCTGGACGGGGTCGCGAAGGTCTGGACAGGGTCGTGGGTCTGGACAGGGTCGCAGGTCTGG >Seq ID NO:124 TGCAAGCCCCTTTTCTAGAAGTTAGAGTTCTCCTGGGATCTTTGCCTCCCAAATTCTTGCTGGCGGCTCTGCTCTCCACCCCAGTGGGGCTGAACTAACAAGTTCCCCTTTTGCTTTTCTCACCAGAACCTGTGGTTTGCCAACCCCGGGGGCAGCAATAGCATGCCAAGCCGCACCCACAGCTCAGTCCAGAGGACCCGC >Seq ID NO:76 AGTGCTGCACTGGGGCCCCGGGAAGCAGAAGACGGCTCCTGGCACATCTCCTGGGTGCATCTGTGGATTGCTGGGGCCCCCAGCAGCTCTCCCAATCCCCAGAAACCCCTCCTGGATCTGCTGTATCCACCTGGAGCCTCTTGGTGCACAGCGGCACACACAATACCTCCACTCTCCACCCCGAAGGATGCCCACTGCAGCGGGGTCCTCA >Seq ID NO:125 TCCTGAAGCGCTGCTCGGAGCCGGAGCGCTACTGCCTGGCGCGGCTGATGGCTGACGCGCTGCGCGGCTGCGTGCCTGCCTTCCACGGCGTGGTGGAGCGCGACGGCGAAAGCTACCTGCAGCTGCAGGACCTGCTCGATGGCTTCGACGGACCTTGTGTGCTCGACTGCAAAATGGGCGTCAGGTATGCGTGCCCTGCCAGGTCGGTTGGGGGGATCAAGTAGGGGTCCGGGGCCGGGACAGCTGCTTGAGGGGGACCCGGGGCGAGTGCTCGAAGGGGTCTCCGTGTGCGCCCCCTCATGCCCTGGCCGCTGCCTGCGCCCCCACAGGACTTACCTAGAGGAGGAGCTGACCAAGGCCCGTGAGCGGCCCAAGCTGCGGAAGGACATGTACAAGAAAATGCTGGCGGTGGATCCTGAAGCTCCCACGGAGGAGGAGCACGCGCAGCGCGCCGTCACCAAGCCGCGCTACATGCAGTGGCGGGAAGGCATCAGCTCCA >Seq ID NO:126 ACCTGAGGCTGGTGCGGGGGCGTCTCGGGGCTGGGGGCCACCCCTGGGGTGCAGACACCCGGCTTCTCAAGGCATCTTGGTCGGGGGTGGCAGAGGATGCACTGCTCACAGGAACCCAAATTCGAAAGACAGCCGCATCTACAATTTTAACACGGTGGCCTGGGTAGGGGGCCACCCACCCCGTCTCCTTGCCCGCCTGGCCGCCCTGCCCCTCACCCCACAGTGG >Seq ID NO:127 CCTGCCCCAGCCCCTGCTTGCTGGGCCCACGGGGGTGGGGCGGCTCATTTTCCTGGAATGTGAAAGCAAACAGAGCCGCCACCGCAGCCAGCCCCACGGAGGCCTCTGGAGAGAAAACAAAACTGCTGGCCTAGGAGCGCCTGCCCCACGCTCTGGAGGAGAGCCCGGGGCAGGGGGACGCACAGGCAGAGCCCTCAGGGACAACCGCCCCAGGAGGCCAACGGCGACAGTTCATCCCACCTGGTGCTTCCTCCCACCCTGCCTGTGCGCCACGCTGGCCTCGAGCCAAAGGAATTCTCCCAGCAACCCGGGAAGGCGGCTGGGCCCGTCGGGGAGGCTTCTGGGTTTGAAAACAGGCTTTGCCCAAGTTCCCACAGCT >Seq ID NO:128 TTTGGCTCTCTCCTGTCTTCGGGGTTTACAAAGTGTGTTGGGACTTGCGGGGCTGCTCTGTCCAAGCCTGGGTCTGGCGTCCGCGTCTCTGAGCCTGTGAGTGCGTGCGCTTTCCTGCGTCCTCTTGACTGCCGGTGCTGGGGCTCTGCGTCCTGCGTCCGCGGGAGTAAATACAGCAGGCGAAGGGGAAGCTCACACAATGGTCTCCAGCGCTCTGGGGCAGGGCTTCTGAGGGGCGGGCCTGCCTCT >Seq ID NO:129 ATTGTGTTCCTCAAAAGTCTCTCTTTAGAAAAGAGAATTGCCTGACAGCTGAGCTTTTCCATCTCCCATGTTACCGGGGTCCCTTTTTGGTGGCTCAGGAAGACTGGCTGAGGACACTTTTCTGCAGGCGGGCACCCCCATCACCCCACAGCCACTGGAAGGATTGCTGAGAAGAGAAGCAAACGCCTACAGCACAGTCGC >Seq ID NO:130 CCACACGGAACGATGGCTTATCACTGGAGAAAACCAGCCAGTGAAAGGGTCGCGGGAGAAGCCCGGGGACGACCCTGGGACTGGAGGGTTTCTCGCCTCTGGAAAAGGCAGTGCCCGCGGGGCAGGCCAGAGGGAGCGCTCCGAGGAGCTTTGGGGTTGCCAGCCTTGACACGCGCACCCCTCCGCCCGGGCCGGCTCCCCTCCGCCCTCAGACTCCCACCATCCTCCTACTATTCCACATGTCGGGTGTATATGGTGCGGAGAGCCCGGGGGAAGTTAGAACACGCGGCGGGAGAGGCAGGCCCAGGGCGGCCTCAGCTAAGCAGCCCGGCTTTCCGGATCCCCGCCGCGCACAGGC >Seq ID NO:131 TAACTTACAGAGTGTGTCTGTGTCTTCTTGAGGAAGTGGCCTGTCTGGGTCCCCCTCCCAGTCTGAGCGTCATTGCAGTGGAATATCTCCCCTTCTCACCAATCATAACACGTCACTGTGGCAGCAGCGGATAGCTGGAAACCACCTGCCAGTGCCCAGCATGTAGGGCGTGCCCCTAGAGCGGGAGCTGCCACCTGCTTC >Seq ID NO:132 GGCTGTGCGGGCACAGCTGTTACAGGCAGGGGGCAGGGGCCTCGTGGAGCTTGTGTAGACGGAGGGGCGGCGGGCCGTGTAGTGCAGGCTGCGAAGACTCACCGCGGTGAAGTGCGGCCAGGTGCGCAGCAGGTCGAAGAGCGCGTCGCCGGGGCAGTCGGTGCGCACCAGCTGGCGGTGGCCCAGCAGCGCGTAGTCTGGCCGCAGGAGGCCGGCGCGCACCGCACAACTCGGGAGCGTGTCGCGCACCGTGCGCAGAGCGGCCTCGGTGGGCAGCGCCGCGGTGTAGTTGCCCACTATGGCCACGCCGAAGCCCCGGGAGTTGTGGCCGAGCGTGTGGGCGCCCACCCAGTGCCAGCCGCGTCCCTCGTACACGTAG >Seq ID NO:133 CAGCAGGGCAAGCTGAGCACACACGTGTGCAGAGCCAGGGCAGGAACACCGGAAGGTGGCGGGCAGAGTCCAGCCCCAGGACTTCCAGGTGAGAGAGCCCGCCGTGCCAGCATCAGGAGACAGCAGTCAGGAGCTCACAGAGCGGGGCCTCCACCGGGTACAGCGCTAGCACAGAGTTGGTGCTCAGTAGGCAGGGACTAAAGCCCCCACCCACCACTGCTCCCAGCAGAGCTTGGTCCTCAGACCTGGAGATGTCCTGAGGCCA >Seq ID NO:134 GTGGCGTCCAGGGCAGGGCAGGTGCGTCATCCGGGCGGGATGCAGAGACACGTCCTTCCACCAACCATCTGAGGAGCACTTGGCACCCACACAATGAGCCCGGCAAGGGCCACGCCAGGAGGCAGCGCACGGGGCAGAGCCTCTGAGCCAGAGAGGGGGAGGTCCCTTGGGAGGCCCCTGCCATCCCCCGCTCTGGGTGGGCCTCTCCAGCCAGACTCTGCGCCCCAA >Seq ID NO:135 GTTGGAGGAGGGAAGGCTGTTCACTGAGAGAGCAGACCCAGGAGCCCCAGTGGCAGAAGGGGCCCGGCAGGGAGTGCTGGGCAGGGAGCGCCCATGTGCCCACCCGAGTGCCAGTGCCAGCCAGCTGCTGCCCGGAGAGCCCCGGCCCTCTGTAGCTATCTGGCCTCTGCTCATGGCTGTTGCTCAGAGAGAATCTGACCAGCACTGACTTCACCTCCGCCCACCCCCTGAGGCGGCAGCTGGACCTCAGCGTTGCTTCAGGAAGAAGTCCTCAGCCAATAGTGTCC
實施例 3.1 :甲基化靶向測序篩選肝癌特異性的甲基化位點
發明人收集了總計494個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表3.1,訓練集中肝癌樣本總數為104個,測試集中肝癌樣本總數為59個。
表3.1 各個癌種血漿樣本數量統計表
  訓練集 測試集
總數 329 165
癌症類型    
食管癌 40 22
肝癌 104 59
胃癌 46 23
肺癌 60 23
乳腺癌 35 21
胰腺癌 29 12
結直腸癌(也稱為腸癌) 15 5
年齡    
  62 (25-87) 61 (29-89)
性別    
185 103
141 60
NA 3 2
通過申請人自主研發的MethylTitan TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2. Illumina測序及數據預處理
a)文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c)使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a)   首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b)    將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c)     使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N i表示位於目標甲基化區間的讀段數目,N i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a)     將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b)    去除缺失值比例高於10%的位點。
c)     對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出肝癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中肝癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分肝癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟: 1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差; 2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型; 3. 將標準化公式應用到測試集資料對測試集進行標準化; 4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的肝癌組織特異性的甲基化標誌物具體見表3.2。
這些甲基化標誌物在肝癌與其他6種癌種中的甲基化水平如下表3.2和圖21,圖22所示:這些甲基化標誌物在訓練集和測試集中肝癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表3.2 在訓練集和測試集中甲基化標誌物在肝癌與其他6種癌種中的甲基化水平均值
序列編號 染色體 起始位置 終止位置 訓練集肝癌甲基化水平 訓練集其它癌種甲基化水平 訓練集P值 測試集肝癌甲基化水平 測試集其它癌種甲基化水平 測試集P值
Seq ID NO:136 chr1 47691646 47691993 0.0804 0.0279 9.09E-23 0.0772 0.0247 8.95E-15
Seq ID NO:94 chr1 248020790 248021176 0.1135 0.0183 6.61E-26 0.1173 0.0159 4.47E-14
Seq ID NO:7 chr2 30453572 30453772 0.1455 0.0270 1.29E-26 0.1623 0.0255 2.51E-15
Seq ID NO:137 chr2 44058865 44059175 0.3151 0.5156 6.91E-28 0.3330 0.5176 2.08E-16
Seq ID NO:138 chr2 114034391 114034591 0.0619 0.0101 4.50E-23 0.0759 0.0078 3.42E-15
Seq ID NO:139 chr3 38080591 38080791 0.1816 0.0477 6.25E-29 0.1711 0.0413 9.29E-16
Seq ID NO:140 chr3 49756830 49757030 0.4504 0.1095 3.59E-25 0.4547 0.1091 1.48E-14
Seq ID NO:141 chr3 50377975 50378564 0.1625 0.0181 1.82E-25 0.1571 0.0184 1.56E-15
Seq ID NO:18 chr3 170137183 170137383 0.8731 0.9790 1.02E-28 0.8809 0.9813 1.61E-12
Seq ID NO:142 chr4 10020751 10020951 0.6689 0.2845 5.26E-26 0.6362 0.2836 5.63E-13
Seq ID NO:143 chr5 508551 508751 0.8746 0.9060 2.93E-20 0.8764 0.9084 5.97E-12
Seq ID NO:23 chr5 139047806 139048006 0.8805 0.9690 1.02E-24 0.8623 0.9696 1.64E-09
Seq ID NO:144 chr6 1614911 1615144 0.5692 0.7574 5.62E-27 0.5792 0.7600 5.36E-13
Seq ID NO:104 chr6 26240701 26240901 0.2864 0.0631 5.81E-26 0.2600 0.0593 2.16E-15
Seq ID NO:145 chr6 30095659 30095859 0.1131 0.0110 9.49E-31 0.1204 0.0098 2.62E-18
Seq ID NO:146 chr7 27252672 27252872 0.0710 0.0064 1.01E-28 0.0785 0.0044 1.88E-14
Seq ID NO:147 chr7 30722316 30722516 0.0545 0.0289 7.83E-19 0.0697 0.0231 9.04E-14
Seq ID NO:148 chr8 41424527 41424742 0.1419 0.0309 2.02E-25 0.1444 0.0250 1.20E-14
Seq ID NO:29 chr8 67874783 67874983 0.1321 0.0442 4.88E-22 0.1261 0.0451 5.21E-14
Seq ID NO:149 chr8 145106299 145106499 0.2748 0.0596 3.56E-25 0.2752 0.0574 8.28E-16
Seq ID NO:150 chr10 113943613 113943813 0.2241 0.0190 3.83E-34 0.1883 0.0155 1.63E-17
Seq ID NO:117 chr10 135090209 135090425 0.0761 0.0035 4.97E-23 0.0757 0.0026 1.05E-13
Seq ID NO:41 chr12 52401109 52401309 0.0661 0.0037 4.38E-27 0.0469 0.0043 1.02E-14
Seq ID NO:120 chr12 58021334 58021534 0.2416 0.0780 2.40E-27 0.1946 0.0694 2.03E-13
Seq ID NO:151 chr12 58021577 58021823 0.2200 0.0341 1.82E-25 0.1711 0.0319 3.14E-12
Seq ID NO:152 chr12 131303645 131303958 0.0457 0.0016 6.38E-27 0.0358 0.0018 5.30E-14
Seq ID NO:153 chr14 51027707 51028060 0.0915 0.0074 9.60E-28 0.1047 0.0070 1.33E-14
Seq ID NO:125 chr15 41793866 41794364 0.3178 0.0928 5.33E-28 0.2990 0.0899 6.17E-15
Seq ID NO:154 chr15 65116254 65116454 0.0811 0.0072 5.36E-27 0.0725 0.0062 3.26E-13
Seq ID NO:155 chr16 73097098 73097298 0.0972 0.0264 3.14E-23 0.1062 0.0271 2.20E-12
Seq ID NO:156 chr17 43037283 43037636 0.1007 0.0119 5.00E-29 0.1100 0.0092 1.27E-19
Seq ID NO:128 chr17 75370344 75370592 0.1036 0.0082 1.51E-25 0.1128 0.0091 4.00E-15
Seq ID NO:157 chr18 24130835 24131035 0.7455 0.8084 5.08E-17 0.7542 0.8159 8.92E-09
Seq ID NO:158 chr19 3688030 3688230 0.8134 0.9352 6.24E-23 0.8200 0.9413 1.48E-14
Seq ID NO:132 chr19 15580341 15580719 0.1309 0.0355 4.88E-27 0.1295 0.0315 4.53E-16
Seq ID NO:159 chr19 41641405 41641605 0.1689 0.0218 1.70E-27 0.1463 0.0171 6.17E-15
Seq ID NO:90 chr20 43331809 43332099 0.3645 0.4339 1.55E-20 0.3621 0.4294 1.32E-11
根據上表可知,以單個肝癌甲基化標誌物Seq ID NO:137為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖23和圖24所示,可看出該肝癌標誌物的甲基化水平在肝癌中相比其它癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的肝癌組織特異性甲基化標誌物。類似地,其他肝癌甲基化標誌物也是良好的肝癌組織特異性甲基化標誌物。
實施例 3.2 :單個肝癌甲基化標誌物判別性能
為了驗證單個肝癌甲基化標誌物的區分肝癌與其它6個癌種的潛力,使用單個肝癌甲基化標誌物的甲基化水平資料在實施例3.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(肝癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3.使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肝癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個肝癌甲基化標誌物邏輯回歸模型的效果見表3.3,從該表中可看出,所有的肝癌甲基化標誌物在測試集和訓練集都可以達到0.76以上的AUC和0.70以上的準確率,都是較好的肝癌組織特異性標誌物,其中表現優異的肝癌標誌物如Seq ID NO: 156,Seq ID NO: 145,Seq ID NO: 150都可以在80%左右的特異性下達到83%以上的敏感性,整體準確性達到80%左右。
表3.3 單個肝癌甲基化標誌物邏輯回歸模型的表現
序列編號 訓練集AUC 訓練集敏感性 訓練集特異性 閾值 訓練集準確率 測試集AUC 測試集敏感性 測試集特異性 測試集準確率
Seq ID NO:136 0.8343 0.7115 0.8000 0.3097 0.7720 0.8606 0.6949 0.8585 0.8000
Seq ID NO:94 0.8582 0.7692 0.8000 0.2897 0.7903 0.8507 0.7966 0.7925 0.7939
Seq ID NO:7 0.8637 0.7596 0.8000 0.2800 0.7872 0.8681 0.7797 0.7642 0.7697
Seq ID NO:137 0.8731 0.8558 0.8000 0.2842 0.8176 0.8823 0.8136 0.8019 0.8061
Seq ID NO:138 0.8368 0.7692 0.8000 0.3011 0.7903 0.8663 0.7797 0.8019 0.7939
Seq ID NO:139 0.8806 0.8558 0.8000 0.2717 0.8176 0.8740 0.7288 0.8019 0.7758
Seq ID NO:140 0.8528 0.7692 0.8000 0.2375 0.7903 0.8572 0.7627 0.7075 0.7273
Seq ID NO:141 0.8553 0.7981 0.8000 0.2680 0.7994 0.8710 0.8475 0.7736 0.8000
Seq ID NO:18 0.8791 0.7981 0.8000 0.2865 0.7994 0.8278 0.7288 0.7642 0.7515
Seq ID NO:142 0.8593 0.8173 0.8000 0.2675 0.8055 0.8347 0.7966 0.7925 0.7939
Seq ID NO:143 0.8136 0.6058 0.8000 0.3190 0.7386 0.8190 0.5593 0.8208 0.7273
Seq ID NO:23 0.8496 0.7500 0.8000 0.2967 0.7842 0.7784 0.6102 0.8208 0.7455
Seq ID NO:144 0.8665 0.8173 0.8000 0.2728 0.8055 0.8350 0.7458 0.7358 0.7394
Seq ID NO:104 0.8590 0.8077 0.8000 0.2530 0.8024 0.8690 0.8136 0.8208 0.8182
Seq ID NO:145 0.8856 0.8558 0.8000 0.2826 0.8176 0.9050 0.8475 0.8208 0.8303
Seq ID NO:146 0.8742 0.7788 0.8000 0.2998 0.7933 0.8527 0.7966 0.7925 0.7939
Seq ID NO:147 0.8012 0.7404 0.8000 0.3130 0.7812 0.8463 0.6610 0.8396 0.7758
Seq ID NO:148 0.8550 0.7500 0.8000 0.2830 0.7842 0.8588 0.7288 0.8113 0.7818
Seq ID NO:29 0.8284 0.7308 0.8000 0.2940 0.7781 0.8498 0.7119 0.8585 0.8061
Seq ID NO:149 0.8507 0.7596 0.8000 0.2740 0.7872 0.8729 0.7797 0.8113 0.8000
Seq ID NO:150 0.9148 0.8462 0.8044 0.2464 0.8176 0.8961 0.8305 0.8585 0.8485
Seq ID NO:117 0.8364 0.6923 0.8000 0.2971 0.7660 0.8454 0.6441 0.8774 0.7939
Seq ID NO:41 0.8673 0.8077 0.8000 0.3009 0.8024 0.8598 0.7288 0.8019 0.7758
Seq ID NO:120 0.8692 0.8173 0.8000 0.2739 0.8055 0.8412 0.7119 0.8585 0.8061
Seq ID NO:151 0.8550 0.7404 0.8000 0.2646 0.7812 0.8232 0.7627 0.8113 0.7939
Seq ID NO:152 0.8554 0.7981 0.8000 0.3080 0.7994 0.8388 0.7458 0.7358 0.7394
Seq ID NO:153 0.8721 0.8077 0.8000 0.2907 0.8024 0.8582 0.7797 0.7925 0.7879
Seq ID NO:125 0.8739 0.8558 0.8000 0.2613 0.8176 0.8628 0.8305 0.7830 0.8000
Seq ID NO:154 0.8667 0.7788 0.8000 0.2941 0.7933 0.8382 0.7288 0.8019 0.7758
Seq ID NO:155 0.8380 0.7500 0.8000 0.2984 0.7842 0.8257 0.7797 0.7642 0.7697
Seq ID NO:156 0.8812 0.8654 0.8000 0.2861 0.8207 0.9228 0.8305 0.7925 0.8061
Seq ID NO:128 0.8533 0.7212 0.8000 0.2910 0.7751 0.8639 0.7797 0.8302 0.8121
Seq ID NO:157 0.7847 0.5769 0.8000 0.3254 0.7295 0.7650 0.5424 0.8019 0.7091
Seq ID NO:158 0.8356 0.7404 0.8000 0.2863 0.7812 0.8575 0.7627 0.7925 0.7818
Seq ID NO:132 0.8670 0.8462 0.8000 0.2940 0.8146 0.8782 0.7966 0.8491 0.8303
Seq ID NO:159 0.8691 0.7692 0.8000 0.2707 0.7903 0.8620 0.7458 0.8208 0.7939
Seq ID NO:90 0.8159 0.6250 0.8000 0.3336 0.7447 0.8136 0.6441 0.7453 0.7091
實施例 3.3 :所有目標肝癌甲基化標誌物的機器學習模型
本實施例使用所有的37個肝癌甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出肝癌的樣本。具體的步驟與實施例3.2一致,只是相關資料帶入了所有37個目標肝癌甲基化標誌物的資料。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(肝癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肝癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖25,從圖中可看出肝癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖26,在測試集中,肝癌與其它癌種區分的AUC達到了0.906,設置閾值為0.297,大於該值則預測為肝癌,反之預測為其它癌種,在特異性為91.5%時,敏感性達到了76.3%,樣本整體預測的準確率達到了86.1%, 可以很好地從7種癌症樣本中區分出肝癌樣本。
實施例 3.4: 肝癌甲基化標誌物組合 1 機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有37個肝癌甲基化標誌物中隨機選取了一共9個肝癌甲基化標誌物Seq ID NO:18, Seq ID NO:143, Seq ID NO:23, Seq ID NO:147, Seq ID NO:150, Seq ID NO:117, Seq ID NO:153, Seq ID NO:156, Seq ID NO:157的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例3.2一致,但相關樣本只使用了該實施例中的9個肝癌甲基化標誌物的資料,該模型在訓練集和測試集中的模型得分見圖27,該模型ROC曲線見圖28。可看出該模型在訓練集和測試集中,肝癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.955,閾值設成0.265時,大於該值預測為肝癌,小於該值預測為其他癌種,特異性為93.4%時,敏感性達到了76.3%,整體的準確率達到了87.3%,說明了該組合模型良好的性能。
實施例 3.5 :肝癌甲基化標誌物組合 2 機器學習模型
該實施例使用另一肝癌甲基化標誌物組合:Seq ID NO:138, Seq ID NO:143, Seq ID NO:23, Seq ID NO:145, Seq ID NO:150, Seq ID NO:151, Seq ID NO:152, Seq ID NO:125, Seq ID NO:156, Seq ID NO:132一共10個肝癌甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例3.2一致,但相關樣本只使用了該實施例中的10個肝癌甲基化標誌物的資料。該模型在訓練集和測試集中的模型得分見圖29,ROC曲線見圖30。從圖中可看出該模型在訓練集和測試集中,肝癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),閾值設置為0.279時,在特異性為91.5%時,敏感性達到了74.6%,整體的準確性可達到85.5%,同樣可以較好的區分肝癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了37個肝癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出肝癌的樣本,這些甲基化標誌物都是良好的肝癌組織特異性的甲基化標誌物,對泛癌種早篩過程中肝癌的組織溯源提供了重要的參考。 >Seq ID NO:136 GGGCAGAGAGAGGAACTCACGCACCGAGACGTGAGAAGAGGCAGACAAAGTTAGCGCCACGTGGGGCTAGGGCGGGAGGCCGGTTGGGGCTAGGGTGGGAGGGAAAGAGGGTCTCTGGATTGGGAGAAGGGAGGGGTGCCTGGGagacacagagactgagggccaaaaggacagagatggaggaagacgacagagacaccggaagaaaaggaatacagccagcgacagaaacacagaAGGGGAAATCAGGAGGAAGGAAATGTACAAGGAGGCAAGAAAGAGATTACTCTGTCCCCTTTCTCAGGCCTAAAGGGAAGAGGAGGGAACAAATTCCGGATCGTGCTCTTT >Seq ID NO:94 GCGTGCGGCGGCTGGGGTTgggcgcggggcccggggcgcggcgATGCGCGCGGCACGGCGAGGACCTGAGCCGCTTCTGCGAGGAGGACGAGGCGGCGCTGTGCTGGGTGTGCGACGCCGGCCCCGAGCACAGGACGCACCGCACGGCGCCGCTGCAGGAGGCCGCCGGCAGCTACCAGGTGAggcgccccccggcgggggctgcgggcgcTGCGGTGACCGGGAAGCGGGCGACAGTCCGGAGCGGAGCCGCCGAGGCCACCCGTCTCCTGAGCGGCTCCCACGGCCGCTCCCCCCACCGCGCGCCGTCCCCCCCGCCCACGCGGCTCACTCAGTGTGGGTCTCTTTGCCTTGGCTGTGGTAACCCCCTTTGCGACACACACCCAT >Seq ID NO:7 CCTCGGAGAAGACGTGGGAGTCAAGGATGGGGGGCGGCGTGCACACCGCCCGCCCACACCTTCTGCCCCCGCTGCAGACCGGGCGTATGTGTGTCTCCAATGGAAAAATCCTACCCAGGACGACACCACATCCTTGCTCCCACAAATAAAACCTTCCACGGAACTCAGGGCTGCAGACCAGCCCTTCGCAAGCCAACGCGC >Seq ID NO:137 AAGGTACTCAGTTTGCCCTCTGTGAGCGGGGGGCTGCACCCACCTTCTTCTGGAAGGAGCCGGGATTGCCGCGGCGGATGGCCAGCAGCGCGGTGTAGTGCAGCGTCTCGCGCACGGTGAGGCTGCTCAGCAGGGTGTCGCTCTGCAGGAGACTCGGGCGTCAGTGTAGCCTAAgcccccggggcgggcgggggggccAGGGGTGTGGGGGACGCGCCCACCTGCAGGACGTAGGAGAAGCAGTCCTGGAACTGCTCCCGGCGCAGCGCCCGGCCGTTCACATACACCTCCCCCAGGAAGGTCCCCGCGCG >Seq ID NO:138 AGGAAAGATGGACCTCCAGAGCCGAGCAGAAGTGCCATTGCACCAGCTTGGCGCAGAAGTGCCATTGCACCAGCTTGGCATGGGCACCGGGCACTGCACATTAGGCCTCAGGGATGGTCCTGGCGATGTCTGGTATCGTACCACGGTTTGGCTAAAGATTAAGGGACTAAAACCTGATCCTGACCTTAGATAGTGGCCTAG >Seq ID NO:139 GACAATGCTGAAGACACAAATGTTTACAATGACCACAGCGATGACGGGATCCGAGAGAAAGGCAAGGCGGAAGGGGTGAGGCCGGAAGCCGAAGTGCCGCAGGGAGTTAGCGGCGTCTCGGTTGCCATGGAGACCAGGAGCTCCAAAACGCGGAGGTCTTTAGCGTCCCGGACCAACGAGTGCCAGGGGACAATGTGGGCG >Seq ID NO:140 GGAGTCCGGGGTGCCTAACCCAACGCGCAGCATGCAGAGCAGTGTCCCCAGCAGCACCAACCAGGTCATGGCGGCGACCACCAGGGACAGTACAGAGCAGCTCTGTGCAGGTTGCAGTTCCAGGACTCACCCTCTTCTGCTCTAGTGCGACATGGGTGGCACCGGATGGCCCTTGCCGAGGAGGCACGGCGGGTTCTTGCC >Seq ID NO:141 GCCACTACTCACGCGCGCACTGCAGGCCTTTGCGCACGACGCCCCAGATGAAGTCGCCACAGAGGTCGCACCACGTGTGCGTGGCGGGCCCCGCGGGCTGGAAGCGGTGGCCACGGCCAGGGACCAGCTGCCGTGTGGGGTTGCACGCGGTGCCCCGCGCGATGCGCAGCGCGTTGGCACGCTCCAGCCGGGTGCGGCCCTTCCCAGCGCGCCCAGCGGGTGCCAGCTCCCGCAGCTCAATGAGCTCAGGCTCCCCCGACATGGCCCGGTTGGGCCCGTGCTTCGCTGGCTTTGGGCGCTAGCAAGCGCGGGCCGGGCGGGGCCACAGGGCGGGCCCCGACTTCAGCGCCTCCCCCAGGATCCAGACTGGGCGGCGGGAAGGAGCTGAGGAGAGCCGCGCAATGGAAACCTGGGTGCAGGGACTGTGGGGCCCGAAGGCGGGGCTGGGCGCGCTCTCGCAGAGCCCCCCCCGCCTTGCCCTTCCTTCCCTCCTTCGTCCCCTCCTCACACCCCACCCCGGACGGCCACAACGACGGCGACCGCAAAGCACCACGCGGAGATACCCGTGTTTCTGGAGGCCAGCTTTACTG >Seq ID NO:18 TTGGGTACGTTTTTGACATCCCTAGTCCCACCTTGTTGTAAAAGAATTAGGCAGCCCCGAacttaacttctctaggccgcagtattcttatctggaatttgagataatagtggcaATGTGGCCGGTGGTAACACTGGCCGGGTCCCTTTGAGAATGAACAAACCGGAACACCTAATAGGAACTGAGTCCGTGTTAATTACT >Seq ID NO:142 GAGGGAAGACCTGGAACGTTCCCTCAGCTGGGGGAGGCCTTCCGGAGGAGAAGTCTTTGTCCTTGGCTGGGGTAGAGACAGAGAGAAGAGACGCAAGTTGGGGACCTGCAAGTAGGGTTCCAGTCCAGGTCCGCGTGCGCAGGCCGGGCGCCCTCAGGTTTAGCGGCCACGCCCTTGCGTTCCTTCCGGGTTGCGTGAGGA >Seq ID NO:143 CAGCCCATAGCGCGCCTGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAAACTCAGGCCTCAGCGCGCCCGGGGATGGAGATGCCGCAGGGAGACGCAGCCCATAGCGCGCCTGGGATGGAGATGCCG >Seq ID NO:23 TTGAAAGCCTCTAATTGCTGCGCCTGGTGGCACCGTGGAATGAGGGGAGGCCAGCCTTCTCGGTGCGGAATCTCCTTGGCCCAGGCCTTCCCAGGCTGCCCGTCCCGCCGCGGCTCAGGGCGCCTCCCGGCTCCCTGCCGCCTCCCAGCCGGACGCGGACGTGCCTGCGCGGCTCTGGCGGCCGCGTCTgccgccccggcg >Seq ID NO:144 TGTTAGTTTCGCTGGGTTCCTCGCGGGCTGGGTCGGGGTGCCGGGAAGCGCGCGCTGAGGGAGGGTGGCAGGCGCGCGGTGCCGGGGACGGGGACGGGGCGGGGGGCGCCGAGCCGGGAGAAGCGCCCTCGGGGCTCCGGCCGAGAAGCTCGGAGGAGCCCGCTCCCTCGCCCGGTCACCCCGCGTCTCCGCCTGGCGCCGCAGGGCCCCGCCGAGCTCTCACTTCCTCCTCGC >Seq ID NO:104 CAAGCGCCATCGCAAAGTGCTGCGTGACAACATACAGGGCATCACGAAGCCCGCCATCCGTCGCTTGGCCCGACGCGGCGGCGTGAAACGCATTTCGGGCCTCATTTATGAGGAGACCCGCGGTGTTCTTAAGGTGTTCCTGGAGAATGTGATACGGGACGCCGTAACCTACACGGAGCACGCCAAGCGTAAGACAGTCAC >Seq ID NO:145 CTCACCTGTTCCTTCTCTATCCACTGAGCCCTGACACGTAGGACCAGCGCTACTAACAGACTTGTTTTCCGGTTCAGCTCCCCTTAGGGCTCCTGTTGGAAACCGACCCTATCTGGGGAGCCTGTCTGGGCCACTCCCATTGCCGGAGAACTCTCCTGGGGCGGGGAGATGGCccaggtttgtggggcttgaaagcttaca >Seq ID NO:146 ATAATTATGTCGTACAGTCGCAAACATTATTCCGTTCTTACTGTAAACGGCCCCGGCCACCTTTACGAGAAACCAGGAAACTTCTGAGAGTTACTAGCAGCGTTTACGCGGGCAAACTGAGTTCTTTTTCTTTCTCTCCCGGATTGTTCGAAGTATCTATCGGGCGGCTTCGATGCCAGGTTCAGAGGCGCGCCAGGGAGA >Seq ID NO:147 TGTGCGGGGATCGCAGGCCCCCGAGCTGCAGGGGGCAGCAAAGCGCGCCCACCTGCCCGCCTGCCCGAGGAGAACACCGCAGCTCTGCTAATCGAGGGACAGCCGCAACCCAAAGTTCGGCAGCTTTCCGCCTGAGCTTCCCCTCCCTGAGCGAGGACACTGGAGGGAGGCAGAGACGGAGAGCCCATGGGCAGATCTGCA >Seq ID NO:148 GGGGTGTGCGAGCCCGGGGGAGCGCAGGGAAGGGCGGGTTGGGCTGCAGGTGGGAATGTGCGGTCCTTCTGCGCCCTCAACAGAGCTTCCTTCCTTTTTGCCAAGGTCCCCGTGCCGCCTTCAGCGCGCCTCCTTATGCACCTCTACCTCTGCTGCAGCGTACCTCTTCCGCAGCCCTAGCGGCCTCCCCGAGGGGCGCCGCGGCCTCGGCTGTCC >Seq ID NO:29 GACCTGGCCCACCGGAGAGGCTACGCCGGGGGCTGAGGCGGCTTAGAGGGTCATTAATCAAACCCTccggcggggcgggctcgggggcggggcgTCCTCCTGGCCCCGCCCCTCGGCTCACTGCCTCACGCTGCTTTCCCCGAGGCGCCTCGCTGAGGGCGGCGTGTGGAGAGTTTGGGGTGTCTGCCGCCGGCTGCGGTG >Seq ID NO:149 CGACCCCGGCGGTGGGGCGGGGTCCTCCGGGTCCCCATAGCCACCGCCGCCGGGCGTGTGGAGACAGAACACATCCTGTTGGCGCGGGGGGGGGCGGGGAGGCGGGCTCAGTGCAGGCGTGGCCCCTCCCTGTCACCTGCGCAGTCCCCTCCCCACCGGGCAGCGTCCATCACCCGCCCCCATGGACCACGGAGGCCCGGT >Seq ID NO:150 AGCGTGAGCGGATCCGAGGGTGTAATGTGTGTACTCGAGTGTGCGTGCCTGTGTGTGGCTAAAGATAGTGTGTGAGCGCCTGGACAGATGGTTACCCTGCCTAGGCCATGCGTGTGTGAGTGTGTGTGGGTACCTCATTCTGCTTTGTGTAAATTCAGCTTATCCGGGAGCTTGTCCCTCTTCCAGGCTCTGTTGGGAATG >Seq ID NO:117 TCGCGTCCTGCGGGGAGAGCCACCCTGCCCCGCGCTGCGCCCGGGACGGTTCCCTGGAACCACTCACCAGGCAGCATCATCGCGCCCAGCAGCCAGAGCCCGAGGCCGCGCATGGCCGGGTCGGGGAGCAGAGGCGGAGGTGACAGCCCCGCGGGACACGGTCTGGTTCCTGCGCTCCTGGCCCGAGGCTCTTTTccgcgcgccccgccccggcgcc >Seq ID NO:41 TGCTGACTCCGCAGTGCCCTCTCCTCGGCGTCCGCGGAGTCCCCCACCTTCTTCCCCGGCCCGCTGGGTGCCTCGACTCCCCGCGTTCCCCGCTGCTGCGAAGGCCGTGGCCCTCGCCTGCACACCGCGCCCAGGCTCGGTGGCTCTTAACTCCGCGCCCCATGCACGCCCCCTCTCTCCCTCCTTGACTCCTCCCAGCAC >Seq ID NO:120 CGCGTGACCGTGCGCCAGCTCCCCGTGGGGCTCCTGCCAGGGTCGACCGGGAGGGGGTGCCACTCACCCAGATGAGCCACGCGGCTGAGGCGGGGGTCGAAACCGACCTCGCGCACCTTGTCAGTCCGCGCCAGGAAGAAGTTAACCACGCCGTCGGTGACCACGCAGCCTGGGAAGCCGACGAGCTCGTGGTGGAAGCCG >Seq ID NO:151 TCCACGCTCAGCAGCTGCCGATAAGTGGTGGCAAAGCCGGAGATCTCGCGCACCGCGCCCCCCACCTGCAGGGAGAGGGAGGTTGCCTCCAGGCGGGCCTGGGATAGGGGACCCGAAGGGGTCAAGGTCTGCGCTCCGGTGCCTTCGGGGGTACCCCTGCCCCATCCTCTTCCGCTTCACCCCTGCAGGACCCAGACAGTTCCCAGGCCCCACTTCGTGGTTCTCTCTTTGTCCTAGGGCTGGCCGT >Seq ID NO:152 GGCGGTGCTGGGACCGGGGACCCGCCCAGGACCGGCTGCCTCTGGCGCCACCTGGCGGCCGCCGTGCCCAGCCCTGCCCCGGGTCCTGAGGTTGACGGGGGACCTCCGGGAGGGCAGCAGCCCGGGGATCGCCCTGCTCACCGGGACCTAAGCAGAGCGCCTGCCCGAGAATAGGGAGACACGCGGGAGGCGGAGCACAGTAGTCCCCCTTCCTCCCTCCCACCCTCCCCTCTTCCTTTAGGAACAAGGCGGGAAGGCCAAGAGCCTGTCCCTCTCTGCGTTACCCCGGGCCCATCACTGGGAGAGAGGAATCA >Seq ID NO:153 TGGTACCCCATTCAGACCAGCCCCAAGGGTGGCTTTGTTCTTTGATTTTACCTTTTGGAGACATTGGGCTCATGATTCAGCACCAGGCCGAGGGGAGGGGAAAGGAGAGGCGAGACCCAGTATGTTCACACCGCGAGTGGGTGGGCGGTGCTCACGCAGGCGGAGAAGAACGGGCGCAGCGATGCGGAAGAAATCGCGGCCCCGCCCGCCTTGCTGCTCCAGACCTAGTTCTGGACGGTTAGTGTGGGCAGGCTGGGCGTCTTTTTGTCGTAGGTTCCCGATTTCTTGCAGTCACAGTGCTAAACTCACCAGCATCTTAGGAACGAAAGCCCTCTAAGGCATTTATTTTATTAT >Seq ID NO:125 TCCTGAAGCGCTGCTCGGAGCCGGAGCGCTACTGCCTGGCGCGGCTGATGGCTGACGCGCTGCGCGGCTGCGTGCCTGCCTTCCACGGCGTGGTGGAGCGCGACGGCGAAAGCTACCTGCAGCTGCAGGACCTGCTCGATGGCTTCGACGGACCTTGTGTGCTCGACTGCAAAATGGGCGTCAGGTATGCGTGCCCTGCCAGGTCGGTTGGGGGGATCAAGTAGGGGTCCGGGGCCGGGACAGCTGCTTGAGGGGGACCCGGGGCGAGTGCTCGAAGGGGTCTCCGTGTGCGCCCCCTCATGCCCTGGCCGCTGCCTGCGCCCCCACAGGACTTACCTAGAGGAGGAGCTGACCAAGGCCCGTGAGCGGCCCAAGCTGCGGAAGGACATGTACAAGAAAATGCTGGCGGTGGATCCTGAAGCTCCCACGGAGGAGGAGCACGCGCAGCGCGCCGTCACCAAGCCGCGCTACATGCAGTGGCGGGAAGGCATCAGCTCCA >Seq ID NO:154 TCGTGGGCGGGGAGCCGCAGGGTGCTGCGCCCGGCCTCGGCGAAACGCGTGAAGAGGCGCGCGGCGCGCAGAGGAAAGCAgcgcggccgccccgcgggcccTGGCGCTTGCAGCCGCAGCATCAACTCGCGGCGCTCGTTGCGACCCAGGCTCAGCTCCGCGGTGCGCAGGGCCTGGCGCCTTCGCGGCTGCCCGCCCGGG >Seq ID NO:155 TTAAGCTGCCCGAGCCCGGGGAAGGGGCTGCTCTCATCCTGGAGCGAGGTGCAGCCACCGGCAGCTGTGATTTAGGGGTCAAGTCCGAGATCACCTTTCTCCTGCCTCTGGAAATGGCAGAAGATGAGATAGGGAGGGAGAAACTAGAGAGTGGCAGCCAGGCGCAGCACGTGGGCTCCATCCATCCGACACCCCCATCGC >Seq ID NO:1156 AACAGTCCTATTGTACAAATATATAGCGCGGGCTGGGCGGGGGCGGTCAACCCCGGTTCCCTGGCACGGGGACAGGGCGCGCTGGGCCCGGCTCTGCAGCGAGCCGGTGGGAGGGCCTAGCTGTGGCCCAGGCGGTGTTGAGCACGGGCCGGGGGCGTCATAGCCGGGGAGGGCCGGGCAGCGAGCGGGTGGGCGAGGGGCGAGTCATCGTCTGCCCCGCCCGGAGGGGACCCCGGCGGGTGAGGGACGTGGGTGGAGGGAGACGTGGGGAGCTCAGTCGGAGTAGATGATGAAGCCAGAGAACGTGCTGTATTTGTTGCTGTTGCCGCCGTGTGCTTTGCCTCCATCCAGCTT >Seq ID NO:128 TTTGGCTCTCTCCTGTCTTCGGGGTTTACAAAGTGTGTTGGGACTTGCGGGGCTGCTCTGTCCAAGCCTGGGTCTGGCGTCCGCGTCTCTGAGCCTGTGAGTGCGTGCGCTTTCCTGCGTCCTCTTGACTGCCGGTGCTGGGGCTCTGCGTCCTGCGTCCGCGGGAGTAAATACAGCAGGCGAAGGGGAAGCTCACACAATGGTCTCCAGCGCTCTGGGGCAGGGCTTCTGAGGGGCGGGCCTGCCTCT >Seq ID NO:157 TTTTCGGGCCGCGGTGCGGAGAACTCAGGTGGGTGCCCGGCAAGTTACCTACCAGGGGCTGTTCCCCCGCGACCCTCGCCATAAGCGCAGGGACCCGGGGGCCGCGCTGGCTCCGGGCTGCGCTCCTGGCTTGGCAGGGGACCAGGCCCACGCTGCAGCCTGGGAGCGGAGCCGCCCCCCAGGTCTCCCCACCTCTGCGGG >Seq ID NO:158 CGGGGCCGACGGGATGGGTCAGGGTGCACAGAGCACACGCCAGCCCCTGGGGGAAGCCCGGCCCGTGCGGGCTGCGGGAGATCCTGATGGGCCCCGAGCTGAGGCTCCCGCAGCCAGGGTCTGCGCGTGGTCCCCACCTCCTTGCGCGCTCCGTCTCCAGCACAGCAGAGGTGGACGCCCCTCGCGGCTGGCTCCCCAGCG >Seq ID NO:132 GGCTGTGCGGGCACAGCTGTTACAGGCAGGGGGCAGGGGCCTCGTGGAGCTTGTGTAGACGGAGGGGCGGCGGGCCGTGTAGTGCAGGCTGCGAAGACTCACCGCGGTGAAGTGCGGCCAGGTGCGCAGCAGGTCGAAGAGCGCGTCGCCGGGGCAGTCGGTGCGCACCAGCTGGCGGTGGCCCAGCAGCGCGTAGTCTGGCCGCAGGAGGCCGGCGCGCACCGCACAACTCGGGAGCGTGTCGCGCACCGTGCGCAGAGCGGCCTCGGTGGGCAGCGCCGCGGTGTAGTTGCCCACTATGGCCACGCCGAAGCCCCGGGAGTTGTGGCCGAGCGTGTGGGCGCCCACCCAGTGCCAGCCGCGTCCCTCGTACACGTAG >Seq ID NO:159 AGCGCTGCGGGACGCGTTAGTGCTACAGGCGGATGCGGTCTCCGGCCGCGGGTCCATGGCAGTCTTCGAACGCTTCACACGCGGAAACAGTGAGGCCCCGGCGCTGGACTTGCCGGTCCGGACGCTCCAGGCTGGGCGGGTAAATGGTAGAGGCGGGCAAATGGGGGCGGGGCCTAATAGAGACTCCAGCTAATGAGGTGC >Seq ID NO:90 TGGGGCACTGGGGTCTTCCTGTCCCACGTGCCCTCCACCCTGGGCTTCTGGAAGCTGGTCTAGATGCCCCTAGCTGCCGCCTGGGCAGCCCATATGCCCACGCCGGTCCCTGATAGTGAACTGGCCCGTAAGGGGACCAGGTCTCGGGATCTGAGCATGGAGCAGGGGCTGCGCCCAGGAGATAGGGTGTGGCTAGACTTTCCCCTGCTGGTCCTTTCCGGGGATCTGAGGGGAAACTTCTCCTGGGGACACACCCGGGTAGCTCAGAGATGGAAGAAAAGGTCTCCATTA
實施例 4.1 :甲基化靶向測序篩選乳腺癌特異性的甲基化位點
發明人收集了總計541個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表4.1,訓練集中乳腺癌樣本總數為37個,測試集中乳腺癌樣本總數為17個。
表4.1 各個癌種血漿樣本數量統計表
  訓練集 測試集
總數 354 187
癌症類型    
食管癌 41 26
肝癌 112 67
胃癌 50 26
肺癌 60 24
乳腺癌 35 21
胰腺癌 37 17
結直腸癌(附圖中稱為腸癌) 19 6
年齡    
中值(最小值-最大值) 62(25-87) 62(29-89)
性別    
202 116
149 69
NA 3 2
通過MethylTitan的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
a)     文庫用Illumina Nextseq 500測序儀進行雙端測序。
b)    Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c)     使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a)   首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b)    將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c)     使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N i表示位於目標甲基化區間的讀段(reads)數目,N i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a)     將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b)    去除缺失值比例高於10%的位點。
c)     對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出乳腺癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中乳腺癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分乳腺癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟: 1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式(公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差); 2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型; 3. 將標準化公式應用到測試集資料對測試集進行標準化; 4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的乳腺癌組織特異性的甲基化標誌物具體表4.2。這些甲基化標誌物在乳腺癌與其他6種癌種中的甲基化水平如下表4.2和圖31和圖32所示。這些甲基化標誌物在訓練集和測試集中乳腺癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表4.2 在訓練集和測試集中甲基化標誌物在乳腺癌與其他6種癌種中的甲基化水平均值
序列編號 染色體 起始位置 終止位置 訓練集中乳腺癌甲基化水平 訓練集中其它癌種甲基化水平 訓練集P值 測試集中乳腺癌甲基化水平 測試集中其它癌種甲基化水平 測試集P值
Seq ID NO:1 chr1 91182896 91183268 0.0961 0.1583 8.00E-09 0.0963 0.1670 4.72E-05
Seq ID NO:2 chr1 91185256 91185556 0.0721 0.1127 2.78E-09 0.0740 0.1198 7.66E-06
Seq ID NO:3 chr1 110611583 110611783 0.0013 0.0370 4.93E-10 0.0045 0.0388 7.37E-06
Seq ID NO:4 chr1 119549342 119549542 0.9598 0.8995 6.44E-09 0.9571 0.8965 2.65E-05
Seq ID NO:5 chr1 151811354 151811554 0.0091 0.0442 9.07E-10 0.0113 0.0546 4.89E-05
Seq ID NO:6 chr1 237205513 237205713 0.0223 0.0583 7.11E-09 0.0238 0.0572 4.78E-06
Seq ID NO:7 chr2 30453572 30453772 0.0012 0.0177 8.92E-09 0.0028 0.0250 4.17E-05
Seq ID NO:8 chr2 45028929 45029292 0.8754 0.8182 1.17E-08 0.8756 0.8164 1.55E-05
Seq ID NO:9 chr2 45227849 45228049 0.0553 0.1220 4.60E-09 0.0561 0.1297 5.39E-06
Seq ID NO:10 chr2 63275030 63275230 0.0001 0.0143 1.38E-08 0.0009 0.0105 1.55E-05
Seq ID NO:11 chr2 73147428 73147715 0.0010 0.0244 1.43E-10 0.0033 0.0243 4.08E-07
Seq ID NO:12 chr2 74726373 74726801 0.0315 0.0715 1.86E-08 0.0296 0.0752 2.78E-06
Seq ID NO:13 chr2 111876734 111876934 0.0211 0.2837 1.30E-09 0.0353 0.2986 7.63E-07
Seq ID NO:14 chr2 114034788 114034988 0.0016 0.0304 3.17E-11 0.0035 0.0363 0.000265
Seq ID NO:15 chr2 177043062 177043477 0.0190 0.0420 1.95E-08 0.0198 0.0420 2.86E-05
Seq ID NO:16 chr2 200327248 200327458 0.9730 0.8934 2.25E-09 0.9721 0.8875 3.55E-06
Seq ID NO:17 chr3 38036014 38036227 0.0093 0.0489 2.49E-08 0.0100 0.0494 1.51E-05
Seq ID NO:18 chr3 170137183 170137383 0.0206 0.0703 1.85E-08 0.0217 0.0775 1.67E-05
Seq ID NO:19 chr3 184301379 184301579 0.9705 0.9159 3.14E-09 0.9692 0.9071 1.91E-05
Seq ID NO:20 chr4 13543558 13543849 0.9537 0.9100 2.70E-09 0.9506 0.9068 1.17E-05
Seq ID NO:21 chr4 44449557 44449757 0.8543 0.7997 6.87E-09 0.8618 0.8047 1.07E-06
Seq ID NO:22 chr5 134374689 134374889 0.9213 0.8603 1.89E-09 0.9298 0.8652 4.07E-08
Seq ID NO:23 chr5 139047806 139048006 0.9774 0.9386 1.38E-06 0.9773 0.9286 0.000967
Seq ID NO:24 chr6 1625055 1625255 0.0013 0.0518 1.16E-08 0.0034 0.0506 4.64E-05
Seq ID NO:25 chr6 6003896 6004283 0.9398 0.8699 2.26E-08 0.9333 0.8641 3.27E-05
Seq ID NO:26 chr7 27204459 27204659 0.0362 0.1325 9.07E-10 0.0501 0.1448 8.24E-05
Seq ID NO:27 chr7 96622040 96622409 0.0524 0.1281 7.59E-10 0.0609 0.1341 0.000322
Seq ID NO:28 chr8 57069546 57069746 0.0216 0.0570 1.70E-10 0.0247 0.0582 2.51E-05
Seq ID NO:29 chr8 67874783 67874983 0.0306 0.0781 2.05E-08 0.0365 0.0825 4.78E-06
Seq ID NO:30 chr8 86350778 86350978 0.0015 0.0207 1.37E-08 0.0018 0.0229 5.15E-05
Seq ID NO:31 chr8 97157461 97157847 0.0039 0.0487 1.42E-09 0.0019 0.0558 4.01E-09
Seq ID NO:32 chr9 117804 118004 0.0568 0.1926 2.30E-10 0.0720 0.2057 6.37E-06
Seq ID NO:33 chr10 23480625 23480825 0.9224 0.8703 5.31E-09 0.9129 0.8700 0.000622
Seq ID NO:34 chr10 102895034 102895234 0.9497 0.8766 1.46E-09 0.9508 0.8755 7.23E-06
Seq ID NO:35 chr10 105036590 105036794 0.0111 0.0339 1.29E-09 0.0114 0.0324 3.84E-06
Seq ID NO:36 chr10 134597986 134598186 0.9558 0.8595 2.36E-09 0.9520 0.8540 1.50E-05
Seq ID NO:37 chr11 31820260 31820460 0.0475 0.1192 1.24E-08 0.0454 0.1203 2.78E-06
Seq ID NO:38 chr11 31839396 31839726 0.0377 0.0687 7.85E-09 0.0387 0.0731 1.04E-05
Seq ID NO:39 chr12 25056205 25056405 0.9542 0.8429 1.33E-08 0.9588 0.8388 4.75E-07
Seq ID NO:40 chr12 50297535 50297964 0.0134 0.0375 1.55E-08 0.0128 0.0399 1.38E-06
Seq ID NO:41 chr12 52401109 52401309 0.0011 0.0248 3.01E-09 0.0024 0.0197 1.26E-05
Seq ID NO:42 chr13 37005935 37006328 0.0142 0.0537 2.28E-08 0.0136 0.0535 2.01E-06
Seq ID NO:43 chr14 61104459 61104820 0.8405 0.7660 2.48E-08 0.8452 0.7607 2.32E-06
Seq ID NO:44 chr16 23847490 23847690 0.0003 0.0117 1.37E-08 0.0019 0.0118 4.24E-05
Seq ID NO:45 chr17 70112878 70113078 0.0644 0.1565 5.30E-11 0.0718 0.1586 1.44E-05
Seq ID NO:46 chr18 44336540 44336814 0.0241 0.0715 1.61E-08 0.0239 0.0758 1.75E-07
Seq ID NO:47 chr19 13123416 13123616 0.8069 0.6605 1.81E-08 0.7977 0.6483 9.29E-06
Seq ID NO:48 chr19 55593530 55593730 0.0026 0.0343 1.03E-09 0.0054 0.0456 1.59E-05
Seq ID NO:49 chr19 58095530 58095874 0.0473 0.1208 1.70E-10 0.0570 0.1365 3.61E-05
Seq ID NO:50 chrX 8698966 8699166 0.0953 0.0656 4.39E-07 0.0862 0.0649 0.000439
Seq ID NO:51 chrX 47666446 47666658 0.2792 0.1960 4.48E-11 0.2771 0.1943 1.97E-06
以單個甲基化標誌物Seq ID NO:21為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖33和圖34所示,可看出該標誌物的甲基化水平在乳腺癌中相比其它6個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的乳腺癌組織特異性甲基化標誌物。
實施例 4.2 :單個甲基化標誌物判別性能
為了驗證單個甲基化標誌物的區分乳腺癌與其它6個癌種的潛力,使用單個甲基化標誌物的甲基化水平資料在實施例4.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1、使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值(W TX就是每個標誌物的甲基化水平值*對應的係數,為矩陣運算,需要先轉置 T):
2、使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(乳腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3、使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是乳腺癌進行判斷。
4、統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個甲基化標誌物邏輯回歸模型的效果見表4.3,從該表中可看出,所有的甲基化標誌物的在測試集和訓練集都可以達到0.70以上的AUC和0.73以上的準確率,都是較好的乳腺癌組織特異性標誌物,其中表現優異的標誌物如Seq ID NO:31,Seq ID NO:22都可以在測試集中80%左右的特異性下達到70%以上的敏感性,AUC達到了0.85左右,整體準確性達到80%左右。
表4.3 單個甲基化標誌物邏輯回歸模型的表現
序列編號 訓練集AUC 訓練集敏感性 訓練集特異性 閾值 訓練集準確率 測試集AUC 測試集敏感性 測試集特異性 測試集準確率
Seq ID NO:1 0.7904 0.5714 0.8024 0.1030 0.7802 0.7619 0.5714 0.8012 0.7754
Seq ID NO:2 0.7997 0.6286 0.8024 0.0995 0.7857 0.7900 0.5238 0.8072 0.7754
Seq ID NO:3 0.8142 0.6286 0.8024 0.0985 0.7857 0.7906 0.6190 0.8554 0.8289
Seq ID NO:4 0.7924 0.6286 0.8024 0.1026 0.7857 0.7711 0.6190 0.8072 0.7861
Seq ID NO:5 0.8091 0.6857 0.8024 0.0988 0.7912 0.7613 0.4286 0.8012 0.7594
Seq ID NO:6 0.7915 0.6000 0.8024 0.0987 0.7830 0.7969 0.7143 0.7771 0.7701
Seq ID NO:7 0.7895 0.5714 0.8024 0.0968 0.7802 0.7639 0.3810 0.8494 0.7968
Seq ID NO:8 0.7871 0.6000 0.8024 0.1022 0.7830 0.7794 0.6190 0.8012 0.7807
Seq ID NO:9 0.7953 0.6286 0.8024 0.1042 0.7857 0.7952 0.5238 0.8373 0.8021
Seq ID NO:10 0.7856 0.5714 0.8024 0.0966 0.7802 0.7794 0.5714 0.7952 0.7701
Seq ID NO:11 0.8241 0.7429 0.8024 0.0974 0.7967 0.8308 0.6667 0.8193 0.8021
Seq ID NO:12 0.7829 0.6000 0.8024 0.0997 0.7830 0.8046 0.5714 0.8373 0.8075
Seq ID NO:13 0.8050 0.6286 0.8024 0.1450 0.7857 0.8219 0.6190 0.8253 0.8021
Seq ID NO:14 0.8356 0.7429 0.8024 0.0979 0.7967 0.7324 0.3333 0.7952 0.7433
Seq ID NO:15 0.7825 0.5714 0.8024 0.0973 0.7802 0.7699 0.4762 0.8072 0.7701
Seq ID NO:16 0.8015 0.5714 0.8024 0.1068 0.7802 0.8012 0.6667 0.8313 0.8128
Seq ID NO:17 0.7802 0.5429 0.8024 0.0994 0.7775 0.7798 0.4762 0.8253 0.7861
Seq ID NO:18 0.7830 0.6000 0.8024 0.1008 0.7830 0.7783 0.5238 0.8193 0.7861
Seq ID NO:19 0.7986 0.6571 0.8024 0.1015 0.7885 0.7762 0.4286 0.7831 0.7433
Seq ID NO:20 0.7999 0.6000 0.8024 0.0998 0.7830 0.7837 0.5238 0.8193 0.7861
Seq ID NO:21 0.7918 0.6286 0.8024 0.1016 0.7857 0.8178 0.7143 0.7590 0.7540
Seq ID NO:22 0.8030 0.4857 0.8024 0.1026 0.7720 0.8597 0.8095 0.7892 0.7914
Seq ID NO:23 0.7409 0.5429 0.8024 0.0994 0.7775 0.7080 0.4286 0.7952 0.7540
Seq ID NO:24 0.7871 0.6000 0.8024 0.1006 0.7830 0.7622 0.4762 0.8012 0.7647
Seq ID NO:25 0.7812 0.5714 0.8024 0.1043 0.7802 0.7678 0.6190 0.8253 0.8021
Seq ID NO:26 0.8091 0.5429 0.8024 0.1084 0.7775 0.7527 0.4762 0.8072 0.7701
Seq ID NO:27 0.8106 0.6571 0.8024 0.1050 0.7885 0.7289 0.4286 0.8133 0.7701
Seq ID NO:28 0.8228 0.6571 0.8024 0.0986 0.7885 0.7719 0.5714 0.7892 0.7647
Seq ID NO:29 0.7820 0.4857 0.8024 0.1004 0.7720 0.7969 0.6190 0.7952 0.7754
Seq ID NO:30 0.7857 0.6286 0.8024 0.0970 0.7857 0.7605 0.4286 0.7952 0.7540
Seq ID NO:31 0.8052 0.6857 0.8024 0.1003 0.7912 0.8867 0.7143 0.8614 0.8449
Seq ID NO:32 0.8204 0.6286 0.8024 0.1163 0.7857 0.7927 0.4762 0.8133 0.7754
Seq ID NO:33 0.7941 0.5714 0.8024 0.1011 0.7802 0.7166 0.4762 0.8253 0.7861
Seq ID NO:34 0.8051 0.6857 0.8024 0.1053 0.7912 0.7909 0.5238 0.8072 0.7754
Seq ID NO:35 0.8062 0.6000 0.8024 0.0973 0.7830 0.8001 0.5714 0.8012 0.7754
Seq ID NO:36 0.8010 0.6000 0.8024 0.1093 0.7830 0.7800 0.5238 0.8072 0.7754
Seq ID NO:37 0.7865 0.5714 0.8024 0.1045 0.7802 0.8046 0.6190 0.8133 0.7914
Seq ID NO:38 0.7906 0.6286 0.8024 0.0982 0.7857 0.7854 0.6190 0.7831 0.7647
Seq ID NO:39 0.7859 0.6000 0.8055 0.1126 0.7857 0.8287 0.5714 0.8133 0.7861
Seq ID NO:40 0.7845 0.6286 0.8024 0.0975 0.7857 0.8144 0.6190 0.8133 0.7914
Seq ID NO:41 0.7990 0.6571 0.8024 0.0974 0.7885 0.7826 0.6190 0.8434 0.8182
Seq ID NO:42 0.7811 0.6000 0.8024 0.0991 0.7830 0.8092 0.5714 0.8434 0.8128
Seq ID NO:43 0.7803 0.5714 0.8024 0.1061 0.7802 0.8072 0.6190 0.8133 0.7914
Seq ID NO:44 0.7857 0.5714 0.8024 0.0965 0.7802 0.7636 0.4762 0.8434 0.8021
Seq ID NO:45 0.8320 0.6286 0.8024 0.1079 0.7857 0.7806 0.4762 0.8313 0.7914
Seq ID NO:46 0.7842 0.4857 0.8024 0.1004 0.7720 0.8417 0.6667 0.8253 0.8075
Seq ID NO:47 0.7832 0.5714 0.8024 0.1227 0.7802 0.7871 0.5238 0.8373 0.8021
Seq ID NO:48 0.8076 0.6571 0.8024 0.0984 0.7885 0.7788 0.5238 0.8554 0.8182
Seq ID NO:49 0.8228 0.6857 0.8024 0.1046 0.7912 0.7662 0.5714 0.8072 0.7807
Seq ID NO:50 0.7528 0.3714 0.8024 0.0982 0.7610 0.7232 0.2381 0.7952 0.7326
Seq ID NO:51 0.8333 0.6857 0.8024 0.1086 0.7912 0.8095 0.5238 0.7952 0.7647
實施例 4.3 :所有目標甲基化標誌物的機器學習模型
本實施例使用所有的51個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出乳腺癌的樣本。具體的步驟與實施例4.2一致,只是相關樣本帶入了所有51個目標甲基化標誌物的資料。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(乳腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是乳腺癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖35,從圖中可看出乳腺癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖36,在測試集中,乳腺癌與其它癌種區分的AUC達到了0.921,設置閾值為0.178,大於該值則預測為乳腺癌,反之預測為其它癌種,在特異性為90.4%時,敏感性達到了85.7%,樣本整體預測的準確率達到了89.8%, 可以很好地從7種癌症樣本中區分出乳腺癌樣本。
實施例 4.4: 甲基化標誌物組合 1 機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有51個甲基化標誌物中隨機選取了一共8個甲基化標誌物Seq ID NO:16, Seq ID NO:20, Seq ID NO:22, Seq ID NO:31, Seq ID NO:32, Seq ID NO:36, Seq ID NO:48, Seq ID NO:51的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例4.2一致,但相關樣本只使用了該實施例中的8個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖37,該模型ROC曲線見圖38。可看出該模型在訓練集和測試集中,乳腺癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.893,閾值設成0.143時,大於該值預測為乳腺癌,小於該值預測為其他癌種,特異性為88.6%時,敏感性達到了66.7%,整體的準確率達到了86.1%,說明了該組合模型良好的性能。
實施例 4.5 :甲基化標誌物組合 2 機器學習模型
該實施例使用另一甲基化標誌物組合:Seq ID NO:5, Seq ID NO:11, Seq ID NO:14, Seq ID NO:27, Seq ID NO:28, Seq ID NO:32, Seq ID NO:45, Seq ID NO:49, Seq ID NO:51一共9個甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例4.2一致,但相關樣本只使用了該實施例中的9個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖39,ROC曲線見圖40。從圖中可看出該模型在訓練集和測試集中,乳腺癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05)。測試集中,AUC達到了0.894,閾值設置為0.135時,測試集中在特異性為86.7%時,敏感性達到了90.5%,整體的準確性可達到87.1%,同樣可以較好的區分乳腺癌與其它癌種。
本專利從7個癌種的甲基化NGS測序數據中篩選出了51個乳腺癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出乳腺癌的樣本,這些甲基化標誌物都是良好的乳腺癌組織特異性的甲基化標誌物,對泛癌種早篩過程中乳腺癌的組織溯源提供了重要的參考。 >Seq ID NO:1 GTAATTGGGAAGTGGCAATCTGTGGATACTTTCGACACAACTTTTTTTCTTTTATGCAAAAAGTAGGGGTGGAAAGAAAAAAGATGCGGGGGGCGGGGGGAGTTAAAAAAATTTCTGAGAAAACTCGGAACTTGCGCTCCAGGAACGACTGCGCACGTGGCgcggcggtggcggcgcggaggacccaggcgaaggcgaaggcgaaggcgaaggcgcaggcgaaggcgaaggcgcaggcggcgggaagctacgccaaagccgccgccgccgccgctgccggggtctgcccacagcctggcaccgggcggcagcggtggcggcggcggacgcggcaggtgcagcgACCGCGAAGCCCGGGCGGCCGCGCGCCCTC >Seq ID NO:2 CGGGGTTGGTGAGCCGAGGCGGGGACTCCGGACGTGCTCCATCCCGGCAGGGGCCGACAGTGGCCAGAGGGGTGCGGGGAGGCCCTCGGGAACGGGTGACTGGGCCCCGCCGGGTGGGGTCGGGCCACTGTAGGCTGGAGCGGGGTTGGATCAAATGCCTTTGGCGCGGGAACTGAGTGCTGGCCCGGGAGACCCTCCGGAGAGCTCGCGGGctcggcctcggcctcggcctcggccttcggccGCGGTTACCGAAACACAGACGGTAGACTTGTGGAGGTGGCTTATCCGAGGCCGCAGG >Seq ID NO:3 TGTCGGTGCCGGATGCGGCGCGCCTAGCAGGGACGCGGGCCTGGGGGGGTGGCTCCTGCCCGACGCGGAGCGCTGAGCCAGGCCGGGTACCTGTCTCTGGCGGTGCTCACCGCACTGCGCGGCCTCTGCCGTCTGGCTGGGATCAGAGGAGCCAGGCCAACTGCTTCTCATTAAGTCCCAACTGTGGTTTTTATCAGGAAA >Seq ID NO:4 GCGCCGGAGCCAGGCGGGAAAGGGACTACAGCCGCCCGCCGTTGTAGCGCAGGAAGCGGGCGGTGCCAACACACACCTCGCAGCTCTGCACGTTCTTCGTGTCTTGGAGGAGAGTAGAGCCTCCGTGTGAAGCTCCGTCCGCACCTGACGAAGAGGAGGGCGTCTTGCGCCACTCCAGCGACTCTGCGATGTTAAGACGCA >Seq ID NO:5 CGCTTGTGGGCGGGCCCGGGGCGCGACGCTTGGAGAACAGGCCGGAAGGCGCCCAACGGGCCGCAGGCTCCGCGGCCCCCACCTTATAGCCAGCTTTTTCCAAGAGCCACATGCGGTGGGTGGGGTAATGGAATTCCGAATTCCGCAGGGCCGAGAGGGTCCAAATCCCGTCTCAGATGGGAGTGCTCGGCGGAGCGGGGC >Seq ID NO:6 ACCGCCGGCTGCAGGCAGCGAGCGCGGCTGGGCTGCGGGGCTGCTTCCCCGCGTCCTCCGGGCCCGGGCCGCCCTCCTCCCGCACAGTGCGGAGCAGGGAGGCCCCGCGCCTCGACCACCCGCGCCCGAGCGTCCGCGCCTCCTCCTCCGCTCTGCAGGCGGGGACCGCCCGGCGCTCGGCACCCGGCAGCGCGGCCCCCT >Seq ID NO:7 CCTCGGAGAAGACGTGGGAGTCAAGGATGGGGGGCGGCGTGCACACCGCCCGCCCACACCTTCTGCCCCCGCTGCAGACCGGGCGTATGTGTGTCTCCAATGGAAAAATCCTACCCAGGACGACACCACATCCTTGCTCCCACAAATAAAACCTTCCACGGAACTCAGGGCTGCAGACCAGCCCTTCGCAAGCCAACGCGC >Seq ID NO:8 GGTGCAGCAGCTTCCTTTTAATTGTGACGGTGCGGCCGCTTGGGCGTGATCCCTTGGCTGGGGCTGCAGGGGGCCCGTCCTCCAGGGGCGCAGAGGGAAGGACCAGCGTTTCCAAGCCGGGCTCTGGCCGCCGGCGCGAGAGCGAGGCCAAGGTCTGGGGGCAGTTCAGGGGGACCCCGAAGTCGGGACGGCCCAGAAACGCTTTGCCCACAGCCACCGCCCTTTCCTTTGTGAGTTTCCCCAAAGCCGTCGGTGCGACCCGGCGCCGACTCTCCTCCTCTTCTCCCTGCGAgggcccgcgccgcccgggcccAGTCCTGGGGGATAGATCCCTCGGGGCCCAACGGCTGGGCCACCGCCGGTC >Seq ID NO:9 TGCTGCACTGCGGTCTTTGGAGGCCTAGGTCGCCCAGAGTAGGCGGAGCCCTGTATCCCTCCTGGAGCCGGCCTGCGGTGAGGTCGGTACCCAGTACTTAGGGAGGGAGGACGCGCTTGGTGCTCAGGGTAGGCTGGGCCGCTGCTAGCTCTTGATTTAGTCTCATGTCCGCCTTTGTGCCGGCCTCTCCGATTTGTGGGT >Seq ID NO:10 TCTGCGGGCCGGAGCAGAACTTCCGCCCCTGGTCAGATCCCTCGGCCTCAGATCCAAAGCCCTCCCCTTGTCCCAAGTGTCCTCCAGAGCCTGGCCGGGCCTGGAGGTCACCTGGATGCTGGATCCTTGTCTCCACACCCAGCTCCCTCGCCCCTTCCCGGCTCGAGGGCCTTGAGCTGGACGGCTTCACCTCCTCCAGTG >Seq ID NO:11 CCAGCGGGTACGTTATCGAGTAGCACAAACAGTTGGATTTTTCCCTCAAGAACCGAGTCTGGACGCGGAGATGGAGCCAAGTGTGGCTGCATTTTCGGACCCGGAAATCCGTTGGGCACTGAAGGACTTTTCGAACCCTGTAGCGCTGTTGCTTCGCGGTCCATCGTCGCCGCTGCAGACGGATGCGCTCCCCGGCGGCTCTACGCCCTCCAGTCCCGGCCAGGCCTCTGGGCTGGGAGCCGAGCCGTCTCGGGCCCTCCGGCGCCGCGTTTTCTAGAGAACCGGGTC >Seq ID NO:12 CTGGGACAAAGGTTTGAGACGGGGAACCAGGAGGAGAGAGGTGAGGAAAAGGCTAAGTCAGAGTCCGCGACCTTGCCGGCTCTATACCTTCAGAGGGCTGCAGAGCGCGCGCGTCAAGTCCGCGGAAAGTTTTACTAGTCAGCTCCTCCAGCGCGCACAGCGGCGACGTTGGACCCGGACCCGACTCTGGAAGCTGCGGCGCAGAGGGTGCTCGGGGGACCATGCGCGGGGCTAGGATGTCTGCGATGCTTAAGAGTGTCCGGGGTGTTCGGGGCTCGCGTCCCGAGTTCATGGTCGGCCGGGCTGGGGCGGTCCGGCTGTCCGTTGCGCTAGGCTCCGCAAACGCCTGGGCCCCAGTGCTCGGCTCCCAATCCGGGCCCCCAGCCTCGGACCCGCCCCCGGCTCTGGGCCCGAGTCCCGTGTGCCCCT >Seq ID NO:13 GCGGAGCATTGCGGCGTGCGGCGGGCTTCGGGCTCTCAGCCCGCGCAGCAAGTTGTGTTGCTTTTCCCCGGGTGCGACGCGGGACGGCCGCGAAGAGCAAAGTTCGTCCGCGGTAGGAACTTCGAGGCCCGGTTAGGACCGATCTCCGGCCTCCGAGTCTACTTAGCCGTGTCCACGCTCGTGCCTTTTCCCTCTTGCAGC >Seq ID NO:14 GAGCATTCGTCTGCAGCTCTAGAGAGAACCCGAGTGAGAAATCTTCCGGCGCCCCAGGGGGTTCCCGCTCCCCTCCTAGTTGGGCCATGGCCCTGGGACTGGAGACTGCGCCGCAGAGCCCGGGCCCCCGCAGTGCGCTTGGCTAAATAGAGATCTCAGCCTCGCTGCGCGCCCGATCCGACCCTCCTTATTATAACAAAT >Seq ID NO:15 TTTTCTCTGTGTGTGTCTAGGGTTGGGGGCAGGAGAGGTTAGTTCTATTAAGAGTTCATCAATCACCCGGTGTGCACTTTTCGCTCGACAGCGGTTCCTCCTACTTCAGAGCAAGTCTGGGCCAGCTGGGATCCGACCAGAAATCGCAAGCGGAGGAGACGCAGTAGCGCAGGCTGAGCGCTAACTGAAGGCGCGACCTGAGCCCGGCGCCTGCTGGGGAGCTGCGCAGCCAGGACAGCGGTCGGCAGCACAGGGCCTGGGCGCAGGGCCCGCCGTCACCACCTCACGTCGGAAGCCAGCACTGCTGCCCGCCAGCCCTGCCGCCTGCCCTCGGACTTCCCAGGGCGCCCAGGGTCCTCCCAACGCGCCTGCACCCACACCCGCCCCTGAGCCACAGTGACCTTGCATTCCCCGCC >Seq ID NO:16 GACTGACCGGAGCGCAGGGCGGGGGACACTTACTTCGTTATCCGCACGCCTTCCTCGTTGGCATCAGAGCCGGACAAATCCCAACCCGCGCCAGGCAAAGATAAATGACTCCTGGCTCCCCCGGCAGCTCAGGGGGTCTGGGCGGGGGCGGAGAGGGAAGGAAGCCGTCGGCCGCCGGAGGTAGAGACTGTGGAGGTCCTCCTCCCGGCCC >Seq ID NO:17 GGCAGTCTTGGGATGGCCATCGTCCACATCCCTGAATGGGGCAAGCCGGGAGGGGTTGGGtaacacctttattgagatacaactcatacgccatacgattcacccatttaaagtacatatacatgtcagtgatttttaacagttgtgtgcaaccatcaccacaattttagaacattttcatcaccctaaaaagaagccccatacccctttgcca >Seq ID NO:18 TTGGGTACGTTTTTGACATCCCTAGTCCCACCTTGTTGTAAAAGAATTAGGCAGCCCCGAacttaacttctctaggccgcagtattcttatctggaatttgagataatagtggcaATGTGGCCGGTGGTAACACTGGCCGGGTCCCTTTGAGAATGAACAAACCGGAACACCTAATAGGAACTGAGTCCGTGTTAATTACT >Seq ID NO:19 agcggccctggcaCAGCTGGCGGCGGCGCGGGCTCCTCAGGCCGCCCCCGTCCTTCACCGCGCGCTCCCGCGCTGGGGCTGCTCGGCGGCGCCCGCTCCTTAGTATTCCCCCCACGGAGCCCAgccgcgccgccgcagccggcccgggggaggggcgccccgcACGGCTAAGCTCTCTGCGTCCCCGGGGCGGACGCGGGG >Seq ID NO:20 gtCAGCGCCGGTCCGGAGCCGGAGCGCGGGAATCACTCGCTGCCTCAGCCCAAGCGGGTTCACTGGGTGCCTGCGGCAGCTGCGCAGGTGGAGAGCGCCCAGCCTGGGAGGCAGTAGTACGGGTAATAGTAGGAGGGCTGCAGTGGCAGAAGCGAGGGTGGCCGCAGCACTTCGCCGGGCAGGTATTGTCTCTGGTCGTCGCGCACCAGCACCTTTACGGCCACCTTCTTGGCGGCGGGCGCCGAGGCCAGCAGGTCGGCTGCCATCTGCCGGCGCTTTGTCTTGTAGCGAC >Seq ID NO:21 AAACGCCGGGGCTGCGAACTTACGGAAGAAAATGTACTCGGTGTAGCTGCTCCAGATCTTGTCGTCGCGGTACTGGTTGACGAAGGCGGCGGTGCCCGAGGAGTTACACGCCACCATGTGGAAGCCGGCCTCGGACAGGCGATCAAAGGCCTGCTCCAAGTAGGTGAACTTGAGGTAGAAGCGGGACGTGTACTTCTCCGG >Seq ID NO:22 GGCGCGGACCGACGTCTGCTGCTTTTCTGCGGCATTGCTGCCcgaacgaacgaacgaacgaacgaacgaaGCGGTTTCGTTTAGGAAAAATACCCTCTTGACGCGAAGCCACGGCTGAAGTCCCGGGCCACGCAGAGGGGCCAGCAATTCCATGGGTGGTGGGGCCCTCCATCCCTGGACGCAGCGGGGAGCAGCGGGCGG >Seq ID NO:23 TTGAAAGCCTCTAATTGCTGCGCCTGGTGGCACCGTGGAATGAGGGGAGGCCAGCCTTCTCGGTGCGGAATCTCCTTGGCCCAGGCCTTCCCAGGCTGCCCGTCCCGCCGCGGCTCAGGGCGCCTCCCGGCTCCCTGCCGCCTCCCAGCCGGACGCGGACGTGCCTGCGCGGCTCTGGCGGCCGCGTCTgccgccccggcg >Seq ID NO:24 CTTAATGCtttttttttttttttttttttttttttATAACATGAAGTTGTCAGGGACGCTCCTATGAGAACTGTTTGGAATTGCTGCACTTCTCTGGCTAGGAGGGAAGTGAGTAAATCACCAGGCGCCCCTCCCAGCTGCCCGTGTCCCTGCGCCGCTCAGCTCCTGCCGCAGGGCTGGCCGCGCCAAGCGCGCGTCCTA >Seq ID NO:25 ACGGCCAAACCCCGAGGCGCGGGACTGGAAGGACAGGTACCAGGCTGCGGGCGCGCGGCTGTGGCCATCTCTTTCCGCCCTGAGGCCGACGAACCCGGCTGGAAGCTGAGTGCCTAGCGGCCCAAAGCAGCCCGGGCGCCGGGAGGGCGCCAGAGAAGCACAGCGTTAGGGCGGGGAAGAAAGGGTGAATCTCAGAATCGAAATCCGCACTGGCGCCCACGACCCTGGGCGCCGGCCTGGTCCTCGGCAGCTTTCTGGCGGCTGCGCTTGTGTGTGAATGTGTCCCGGGAGGACCGGACACCTCAATCCCCCGGCCCCCAACGCGGGCGCCTGTCCGCGAGCGCCGGGCCAGACGCCGAAGAGGAAGGTGACCGAACCCGTAGCAGCT >Seq ID NO:26 TGGAGGCGGCGGCGGATTTGAAGGGAGGAGACACTTACTGGGATCGATGGGGGGCTTGTCTCCGCCGCTCTCATTCTCAGCATTGTTTTCAGAGAAGGCGCCTTCGCTGGGTTGTTTTTCTCTATCAACTGGAGGAGAACCACAAGCATAGTCAGTCAGGGACAAAGTGTGAGTGTCAAGCGTGGGACAGTCACCCCTTCT >Seq ID NO:27 GTCGAGGGGCTACAGATGCCCGCATTGGGCTTCTTAGCGGCCTAGGCTGATGCCTGGAGGTAGGGGGGATTGGGTTTGGCTGGCGACTAGCTTTAATGCCCATCGAGTTCCTGGGACACCCAAGTTCAGCACTTCTGCATGAAACCGAAACGGCCAGGGAGGGGCGGAGTGGGCCGAGGCTGAGGGAGCGGCGGTGTTGACGCCCTCTTCCCACCCAGGATCGATCGATCGGTAGGGAATTTTTTATCTTTGGGAAGGAGAGGTGAGGAAGCGGACCTAAAACGAGGGGAAAATTCGAATTTAATATCCTGTATAGGAGGTCAAAAGAAAAAAAATGATGGCGAGGAATGCAGAGGGCCCTAAATGGACC >Seq ID NO:28 aaaagtagaaaaacctatgtggacgcatcaacagatgctgaaaaggcatttcctagaagtcggcagccaaacttggtaaTTCTTGCGTGTGATAAAGGCAGCCGTCTGTTCTGCTCAGAAGGGGTTTCCTAACAGGAGGGGCCGAATGCAGGCGTCACATCCACGCCGCCCCAGGTCGTACACCTAGGCCGTCCGGGCTGT >Seq ID NO:29 GACCTGGCCCACCGGAGAGGCTACGCCGGGGGCTGAGGCGGCTTAGAGGGTCATTAATCAAACCCTccggcggggcgggctcgggggcggggcgTCCTCCTGGCCCCGCCCCTCGGCTCACTGCCTCACGCTGCTTTCCCCGAGGCGCCTCGCTGAGGGCGGCGTGTGGAGAGTTTGGGGTGTCTGCCGCCGGCTGCGGTG >Seq ID NO:30 CGCCTGCATTTCTGCACGTCGGCGCCGGTTAGAAACCCTGCAGTTTTGAGAGAGAAGAAGAGGAGATGGAGGGGCCAGGAGCCACGACTCCCGGGAGAGCGCAGGGAGGGGCGTGGGTGCCCCTTCGCCCACCTCCGCCCCCGTCACCTCGACAGCTGTCCCGCTCTTGGAATTCATTGGCTTCCTCTACCCGGCCTCCCA >Seq ID NO:31 AGCTCCAAGCACAGCTGCTTCCAGGGCTGGTGGCGCAGGCCCTGCCACACGTCGAAGACTTCCCAGCCGGCCGGCGGCGCCCCCTGCGGGTCCAGGGTCCGCGCGTCCAGCAGTAGGGGCGAAAGGCAAGGGAAGAGCTGCACGTGGAGCGGCCCGGCTGGTGGCCCCCAGGGCGCTGAGGGCGCCTGGCGAAAGAGCCGCAGCTCCGCGCCCACCAGCTCTTCTTTGTCTGAGAGCATGGACACATCAAACAAATACTTCTGTCTCCGGAGAGGAGTGTGCGAGAGATCGTCTGCGAGATAAAAAATAATTACAGTCAGTTTCACTTAAGGGGGAGATCAGCCCGGTGCTCTTCGGCCGCCCCGGGAGGAAAAGGGCGGGGAGTGG >Seq ID NO:32 GGGGCTTTGCCGGCTGCCGGGCATCTTCAGAGGCCGCCGCAGACCTTGGCGGTGCCCTGAACTCGGTGCCAAACTCTGAGGGGTCGCTCGGGCCGCCGCCGCCCTCGATGTGCTCTCGGGGAAGCGCAACCCCGCCCCACCGGGCCACCTGCAGCCCCGGCTGGAGCGACTGCTCTAGGAACTGCTGGCTCGCCGCCTCCT >Seq ID NO:33 TATACTCTGCAAACTGTGCAAAAGCCCTTGAAAAGTCCAGAGATGGGACAGAAGCCCCCAGCAGAACCCAGGCCGGAGCCCCGCGCACCTCGGATAAGGGGGTGGCGGAATGCACCCACCTGGTCCCTGAGGGCAGCACCCTTAGATTGCCCAGGCTGCCGCGGAGGAGGACGATCGCCGCGCGGGCTCCGCTCTCGCCGT >Seq ID NO:34 CGAAGTCGGCGGCGCCGAGACGGGCGGGCCTTGGGGCAGGAGGAAGGAATTGGAGTTTCCTCTTTTTCTGAACGAAGGCGAGGAATCTGCCTGGGATTCCGCCTACGGGGCCACAAAGGAAGCCATGGCCCCACGATTCTACCACAACATTTCTGACGCTGGGAAAGGAGTGGGGGATGCGGCCTCAGACCTTGGAACGCT >Seq ID NO:35 GCGACAGAGCTGTGTGGTTTCCGGATGGGAAACCTCAGTCGTTTAGGCACCCCTCCGCTCGAGTCACTTCCGAAGCAGTCGATTCTTGGGGAGAAGCGCTGCGGAAAGGGGCGACTCCGATGCAGATGGCCCTGTCCCGGCGCCCCAGGTCGTCGCGCGCGCAGCTGCGGTAGTCACTGCGCCTCCCCGCCCCCACTCCTGGATG >Seq ID NO:36 GGGTACGCGGCTCACCCGCCCTTTCGGGAACCCCCAAGCGCGTCCGAATCCGCCCCGAGGCGAGGCGGGCCGGGCCGTACCTGCTGCTCCGTCCCCGGCTCCGTCCCGGGCTCCTGGCGGCTGTCGCTGCGGTTCCTTCCCGCGGGCCGGGCCCCTTCCCTGCGCCTTCGCCGCCTCCTCGCGCCTGCCCGGGGCCCGCAG >Seq ID NO:37 GCGCGTTAAAGTGAAAAGCCCCTGGACTAGCTCCACCTCCGGCCCCAACCATCACAGGCGGACCCTAGCTGATTTGACTCTCACTTCCCGCCCTCAGACTGCCGGCGACGAAAATCCGCCCGAATCGGGCGCCACCTCTGGTGGAAGCTGCTGTCCTCGGCTTCTGCCCAACTCCAAGAAGCGGAAGGGGGGTGTATCCTG >Seq ID NO:38 GCCGGTTCCCACACTTCTCACCGCCGCTCGGCAGGGGAAGTGGCAGATCTGACAGCCGCGTTCTACGCGAGGACCTGCCCCAGAGTTTAAATGTCAATGATAAGAAAAGAGGGTGCTCAGGCAGGCGCTAACTTTCCTTAATATCCACGCCAGCGCCGTCCTCATTGGCTGCCCGGCCCGCGTGACGTCATGGCGGCTAGAGTTGGGCACAGCTCTGCGCCGACTAGTTTTCCGGCCGGGCGGGAGCCTGCTTCTCCCCACCCAGGGTCCGGCCGGCTCCAACCcctgctttggccttccttggcccggcctgtgactgctctagcccggc >Seq ID NO:39 CGCGCCACGAACGAGCGCCTTTCCAAGCGCAGATATTTCGCGAGCATCCTTGTTTATTAAACAACCTCTAGGTGAATGGCCGGGAAGCGCCCCTCGGTCAAGGCTAAGGAAACCTCGGAGAAACTACATTAGGGCAGCTTTTCCACCGACTCCAAATCCAACTGACAAAAAGCAGTTTCTGCCCTCGAGAGTTTGCGGGCG >Seq ID NO:40 GGTGCAGGCTGGGGAGATGCCGGTACCTTTCCCTGGGTCATGGTGCCGTCTCTCGGGGAAGGGGTCCCTGAGGCCCGGGTGGCCGCTTGGGTAACCGCAGCCTGCCTGCGTCTCTTCCTTCCTCCGCGTGGGTTCTAGCAACATCCACTGCAGCCGGGCCAGGCGAGCCGGCGCGTACCATCGGCGCGGGGGGAGGAGAGGGCCGGGCCTGGGAAGATGCTGCGGAGGACGCTGCGGATTCGCGAGCCCGGGGTAAGGCGGCGGcgcaccgccccctcccgccgcttcccccccaccccgccccccaccgccgcccttagccctcccccgGGATGAGAGAGAGTCGCGCTGCGGAGCAACCCCAGTGGATGGGTCCGCGGGGGCTGAGCGGGCGGAGGACGCGGGAACTCCGTGACACCGACCAGCTGAC >Seq ID NO:41 TGCTGACTCCGCAGTGCCCTCTCCTCGGCGTCCGCGGAGTCCCCCACCTTCTTCCCCGGCCCGCTGGGTGCCTCGACTCCCCGCGTTCCCCGCTGCTGCGAAGGCCGTGGCCCTCGCCTGCACACCGCGCCCAGGCTCGGTGGCTCTTAACTCCGCGCCCCATGCACGCCCCCTCTCTCCCTCCTTGACTCCTCCCAGCAC >Seq ID NO:42 GAGCCGCGCCCTCGGGCCAGCGTGGGCAGGGCGCCGCAGCCTGCGCAGCCCCGAGGACCCCGCGTCGCTCTCCCGAGCCAGGGTTCTCAGGAGCGGGCCGCGCAGGAGACGTTAGAGGGGGTTGTTAGCGGCTGTTGGGAGAACGGGTCACGGAAACAGTCCCTTCCAAAGCCGGGGCCATCGTGGGGTGGGCGAGTCCGCCCTCCCAGGCCGGGGGCGCGGACCAGAGGGGACGTGTGCAGACGGCCGCGGTCAGCCCCACCTCGCCCGGGCGGAGACGCACAGCTGGAGCTGGAGGGCCGTCGCCCGTTGGGCCCTCAGGGGCCTGAACGCCCAGGGGTCGCGGCGAGTCCACCCGGAGCGAGTCAGGTGAGCAGGTCGCCATGGCGATGCG >Seq ID NO:43 CCCAAGCCCCTAGAGCAGAGGCCGCGCTAGCCTGCAGGGGTCGACGCAGGGCCGGAGGCAGCGGCTTTTCCTTCCCACTCCGGGTTGACCCTAAAGACACGATTTAACGTGGCGGCGGCAGCTGCCCACGCTGTCTGGAGGAGCAGGGCGCCTGGGATGCGGCGGCGAAACTGGCCCGGAGGGGGGCCCAGGCCTCACGCGCCCGGCTCTCTCCCAGCTCTCCTCCTCCTCCTTCTCGGGCTCAGAAAGCCTTCCAGCCGCGGCCCCAGCCCTCCCCCCAGCCTGTGCTGGGCTCCGCTTTCCCTCCATCAACTCCAAGCCGAATTCAATCCGAGAAGGCTCCTTTGAGCTTTTGTGTTTGC >Seq ID NO:44 GCGCAAGATGGCTGACCCGGCTGCGGGGCCGCCGCCGAGCGAGGGCGAGGAGAGCACCGTGCGCTTCGCCCGCAAAGGCGCCCTCCGGCAGAAGAACGTGCATGAGGTCAAGAACCACAAATTCACCGCCCGCTTCTTCAAGCAGCCCACCTTCTGCAGCCACTGCACCGACTTCATCTGGTGAGCGCGCGCGCGCAGGGC >Seq ID NO:45 GGTGCCACAGCTAAGGACAGATATTTTCGCAAAACCCAGAATGAAAAAAGAGCACGCTCCCTTTGGGAGCGCTGTCCCTTTGGGACTGGGGCCTTCCACTCCCACCCCTCCTTTTTCCCTGATCGGCTCCGCAGCTCCACGACAAGCCAGCTGGTCTGGTCTCTGACTTGGGCTCCGGTCCGTACCCCCGGGGCGCCCTGC >Seq ID NO:46 cccggggggcgcgcggccgACTTGGCGCCTCACGGTGCGGTCAGGCAGGCGGGGGACTTCGAGGGGCAAAGTTTCTGGTTGGCGCGGCCGGAGCTGGGGGCATCCAAGCGTCGCAGGCGCTGGGGCGGCAAGCAGGACAGGGCCGGTGGCAGGGAGCTCTGCCGCGGCCAGGGGCCTTCCCCACCCCCGGGTACCTTTACCTCCAGGCGCCGGTGCCGGGTAGCCGCCGATTTCCCCGCGGAGGGGAGACGCCAGGTGCCACGAGCCGGAGGCGG >Seq ID NO:47 GGGGTTCAGGGCCGCCTGTGCCTCAGTTTCTCTCCTCCTGCGCCCATCCTGACATCCGACGGAGGATAATGCGCGTTGGAGGGCTTTGGCCGTGAATGCGATGTTGATGATTGCTGTGATTCTTTGGGTGCTTGGGAGAGTTTGGGGTTTAACTGCCCCCAAATCCGAGGACAGCTTGGGGGCGTCCCTTCGGAGAGGATC >Seq ID NO:48 GTACGCCTTCAGCCTGCTGGTGAGGAcgcgcccgcccctgggccggggcgcgggcACGACGAACCTGTCCCGTCCCCGCACCCACGCCAACCACCTCCCTCCCCACGCCCCAGGCCCGGCTGCGCGGCAACATCGCCGACCCCTCCTCTCCGGAGCTGTTGCACTTCCTTTTCGGGCCTCTGCAGATGGTGAGACCCGCCC >Seq ID NO:49 CAGCGCTTGGGTGCATCCAGACCGTCAGAGCTTTGGGAGCGCTTTGTTTGGCGACAGTCGGAAGGCGCGAGGGGAGGGGTCCTCCCGCTGAACAGTGGGGGTTCTAAGGGTCGGCGGCGGCGGGGTTGACGGCTTTGCCTAGGTCCCTCCGCCCGTAGCTGTCGGGTCCCGGCCCCGCTCTGCCCACAGACTCCGATGGCTGCGGCCGCGCTGAGGGCCCCGACTCAGGTGAGCGCTGCCTCTACTGGGCCTCACCCTCCATCCCCAAATTAGTGCCTTCTTGGGTCACTACGGTCGAGATCCTCATGTCCAGTACAGTGGGGGCTCGTGGGTGGGGTCCCTATT >Seq ID NO:50 CTCGCGCAAGTCCCGCGGGGGTCCGCGCCACAGGGCAGAGTCCCGGCAACCCGCTGGAGCCAAGCGCGCGGCTCCCGGAGCCTCCCACACAAGCGCGCGCGCACACACACATACTCCCCACCCTCAGGCTGAAAGAACCTACGTTCGGGGTTTGGGGGACGGTTCCCCCGGGACTCGTTGAGGAGTATCCGAATACGGCCC >Seq ID NO:51 GCAGGAGGAGGTGGGGAGGGGCACTGCCTGCGGAAGGTAGGATTAGATCATTAGCTCAGTGACCTCCTAGGGTTTCGATGTGCTGTGTTCTCATCCTACAGTTGGTTTGGTAATGATCTGCAAGTCCCGGAGAGCAACAGCAAAGCTCTGCCTGATGCTCTCATTAAAATCTATGCAGCCAAGCTCAGCACTTTGTCACAGCCGGCCTTGCGA
實施例 5.1 :甲基化靶向測序篩選食管癌 / 胃癌特異性的甲基化位點
發明人收集了總計424個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表5.1,將其中食管癌和胃癌歸為一類,訓練集中該類樣本總數為71個,測試集中該類樣本總數為40個。
表5.1 各個癌種血漿樣本數量統計表
  訓練集 測試集
總數 279 145
癌症類型    
食管癌 36 19
肝癌 112 63
胃癌 35 21
肺癌 29 8
乳腺癌 18 13
胰腺癌 33 16
結直腸癌(附圖中稱為腸癌) 16 5
年齡    
  62 (25-87) 59 (29-89)
性別    
167 94
109 50
NA 3 1
通過申請人自主研發的MethylTitan TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、Illumina常規測序及數據預處理
a)     文庫用Illumina Nextseq 500測序儀進行雙端測序。
b)    Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a)   首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b)    將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c)     使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N i表示位於目標甲基化區間的讀段(reads)數目,N i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a)     將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b)    去除缺失值比例高於10%的位點。
c)     對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出胃癌及/或食管癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中胃癌及/或食管癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分胃癌及/或食管癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟: 1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差; 2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型; 3. 將標準化公式應用到測試集資料對測試集進行標準化; 4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的胃癌及/或食管癌組織特異性的甲基化標誌物見表5.2。這些甲基化標誌物在胃癌及/或食管癌與其他5種癌種中的甲基化水平如下表5.2和圖41。如圖42所示,這些甲基化標誌物在訓練集和測試集中胃癌及/或食管癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表5.2 在訓練集和測試集中甲基化標誌物在胃癌及/或食管癌與其他5種癌種中的甲基化水平
序列編號 染色體編號 起始位置 終止位置 訓練集食管癌和胃癌甲基化水平 訓練集其它癌種甲基化水平 訓練集P值 測試集食管癌和胃癌甲基化水平 測試集其它癌種甲基化水平 測試集P值
160 chr1 47698162 47698362 0.0134 0.0364 1.39E-07 0.0131 0.0392 0.012659548
161 chr1 108507595 108507795 0.0433 0.0949 5.55E-10 0.0405 0.0805 0.000212937
162 chr1 156186299 156186499 0.5288 0.6273 1.75E-13 0.5638 0.6357 0.000107605
163 chr1 203600773 203600973 0.1142 0.1198 1.08E-13 0.1144 0.1198 7.35E-06
164 chr2 264146 264484 0.9736 0.9400 1.88E-08 0.9687 0.9457 3.18E-05
143 chr5 508551 508751 0.9095 0.8858 8.49E-12 0.9080 0.8848 4.18E-08
23 chr5 139047806 139048006 0.0346 0.0560 4.50E-08 0.0353 0.0596 0.00027747
165 chr5 140800889 140801089 0.2668 0.2331 0.000252807 0.2543 0.2284 0.005519831
166 chr6 1384272 1384610 0.0346 0.0144 1.23E-07 0.0379 0.0229 7.17E-06
167 chr7 64349788 64349988 0.0603 0.0405 0.010490338 0.0668 0.0422 0.007951273
168 chr7 139168541 139168844 0.9776 0.9512 1.50E-10 0.9760 0.9531 0.00016264
169 chr9 126348875 126349266 0.1089 0.0938 2.50E-13 0.1059 0.1005 0.032540507
170 chr9 139393876 139394111 0.2767 0.2529 1.58E-10 0.2715 0.2529 0.000107605
150 chr10 113943613 113943813 0.9807 0.8596 1.82E-14 0.9707 0.8699 2.84E-05
171 chr11 2292332 2292651 0.0187 0.0621 8.22E-07 0.0217 0.0496 0.004160485
72 chr11 31848632 31848877 0.2673 0.2362 3.01E-08 0.2572 0.2376 0.001212792
172 chr11 60620057 60620257 0.3088 0.2591 1.01E-14 0.3024 0.2630 8.23E-08
173 chr11 73371736 73371944 0.4915 0.4059 1.06E-15 0.4684 0.4023 1.34E-06
174 chr12 114840811 114841011 0.2587 0.2187 1.31E-09 0.2351 0.2152 0.001444121
152 chr12 131303645 131303958 0.0017 0.0271 2.07E-09 0.0026 0.0227 5.74E-05
175 chr12 133030159 133030359 0.2222 0.1883 2.12E-09 0.2176 0.1924 0.001046491
176 chr13 113350703 113351027 0.1885 0.1647 1.29E-11 0.1844 0.1665 0.000149358
177 chr14 105714973 105715224 0.0080 0.0196 3.01E-08 0.0078 0.0203 3.27E-05
178 chr14 105933578 105934099 0.2055 0.1807 1.64E-14 0.2003 0.1850 2.16E-05
179 chr15 53087384 53087584 0.3078 0.2601 1.42E-11 0.2886 0.2672 0.001643314
180 chr16 30566925 30567182 0.2600 0.2289 1.13E-12 0.2531 0.2291 4.47E-06
181 chr16 33964869 33965069 0.8656 0.8184 3.90E-12 0.8648 0.8174 6.65E-06
182 chr16 51168473 51168843 0.6309 0.5560 1.47E-12 0.6150 0.5498 2.51E-05
183 chr17 79482394 79482623 0.0894 0.1307 1.37E-10 0.0884 0.1178 1.23E-05
184 chr18 19780648 19781005 0.2751 0.2242 8.67E-17 0.2666 0.2289 1.80E-08
157 chr18 24130835 24131035 0.1311 0.1674 5.21E-10 0.1315 0.1704 2.02E-07
185 chr19 41641357 41641557 0.0153 0.0557 1.51E-06 0.0100 0.0444 0.001242335
186 chr21 9825785 9826676 0.7634 0.7143 4.06E-13 0.7455 0.7054 1.27E-06
187 chr22 19512066 19512266 0.0073 0.0246 3.85E-07 0.0071 0.0247 0.002545967
以單個甲基化標誌物Seq ID NO:172為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖43和圖44所示,可看出該標誌物的甲基化水平在食管癌和胃癌中相比其它5個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的食管癌和胃癌組織特異性甲基化標誌物。
實施例 5.2 :單個甲基化標誌物判別性能
為了驗證單個甲基化標誌物的區分食管癌和胃癌與其它5個癌種的潛力,使用單個甲基化標誌物的甲基化水平資料在實施例5.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(食管癌/胃癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是食管癌/胃癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個標誌物的邏輯回歸模型的效果見表5.3。從該表中可看出,所有的標誌物在測試集和訓練集中都可以達到0.59以上的AUC和0.56以上的準確率,都是較好的食管癌和胃癌組織特異性標誌物,其中表現優異的標誌物如Seq ID NO: 172,Seq ID NO: 173,Seq ID NO: 184都可以在70%以上的特異性下達到60%的敏感性,準確性達到70%左右。
表5.3 單個標誌物邏輯回歸模型的表現
序列編號 訓練集AUC 訓練集敏感性 訓練集特異性 閾值 訓練集準確率 測試集AUC 測試集敏感性 測試集特異性 測試集準確率
Seq ID NO: 160 0.7020 0.7606 0.6298 0.2590 0.6631 0.6194 0.6000 0.6190 0.6138
Seq ID NO: 161 0.7422 0.7042 0.6827 0.2670 0.6882 0.6898 0.6500 0.6286 0.6345
Seq ID NO: 162 0.7891 0.7606 0.6683 0.2641 0.6918 0.6993 0.5250 0.6667 0.6276
Seq ID NO: 163 0.7917 0.8310 0.6827 0.2545 0.7204 0.7333 0.7500 0.6381 0.6690
Seq ID NO: 164 0.7187 0.7183 0.6394 0.2601 0.6595 0.7154 0.5750 0.7524 0.7034
Seq ID NO: 143 0.7675 0.7746 0.6731 0.2566 0.6989 0.7886 0.7750 0.7238 0.7379
Seq ID NO: 23 0.7125 0.7324 0.6298 0.2567 0.6559 0.6860 0.7250 0.5524 0.6000
Seq ID NO: 165 0.6383 0.6479 0.6106 0.2510 0.6201 0.6369 0.6500 0.6381 0.6414
Seq ID NO: 166 0.7008 0.6761 0.6731 0.2519 0.6738 0.7301 0.6750 0.7143 0.7034
Seq ID NO: 167 0.5918 0.5775 0.5577 0.2526 0.5627 0.6299 0.6500 0.5333 0.5655
Seq ID NO: 168 0.7504 0.8310 0.6010 0.2575 0.6595 0.6936 0.7750 0.5429 0.6069
Seq ID NO: 169 0.7872 0.8028 0.6971 0.2546 0.7240 0.5994 0.5500 0.6095 0.5931
Seq ID NO: 170 0.7501 0.7183 0.7115 0.2560 0.7133 0.6993 0.5750 0.6762 0.6483
Seq ID NO: 150 0.8011 0.9437 0.6154 0.2861 0.6989 0.7168 0.7500 0.5714 0.6207
Seq ID NO: 171 0.6905 0.6056 0.7163 0.2671 0.6882 0.6421 0.5750 0.6857 0.6552
Seq ID NO: 72 0.7154 0.6620 0.7308 0.2567 0.7133 0.6633 0.5000 0.7048 0.6483
Seq ID NO: 172 0.8041 0.6901 0.7740 0.2601 0.7527 0.7819 0.6250 0.7238 0.6966
Seq ID NO: 173 0.8154 0.7324 0.7500 0.2644 0.7455 0.7527 0.6250 0.7524 0.7172
Seq ID NO: 174 0.7367 0.8028 0.5625 0.2515 0.6237 0.6605 0.5750 0.6190 0.6069
Seq ID NO: 152 0.7308 0.6901 0.6635 0.2585 0.6703 0.7029 0.6750 0.6571 0.6621
Seq ID NO: 175 0.7335 0.7183 0.7308 0.2566 0.7276 0.6657 0.5750 0.6381 0.6207
Seq ID NO: 176 0.7651 0.7606 0.6923 0.2547 0.7097 0.6948 0.6500 0.6476 0.6483
Seq ID NO: 177 0.7154 0.6761 0.6923 0.2553 0.6882 0.7150 0.6500 0.6952 0.6828
Seq ID NO: 178 0.8016 0.6338 0.8269 0.2567 0.7778 0.7202 0.5000 0.7333 0.6690
Seq ID NO: 179 0.7646 0.7324 0.7212 0.2577 0.7240 0.6583 0.5250 0.6381 0.6069
Seq ID NO: 180 0.7790 0.6620 0.7692 0.2573 0.7419 0.7392 0.5500 0.7524 0.6966
Seq ID NO: 181 0.7720 0.7183 0.7596 0.2652 0.7491 0.7345 0.6250 0.7238 0.6966
Seq ID NO: 182 0.7775 0.7183 0.7596 0.2766 0.7491 0.7183 0.5000 0.8095 0.7241
Seq ID NO: 183 0.7509 0.6761 0.7212 0.2638 0.7097 0.7271 0.6250 0.7333 0.7034
Seq ID NO: 184 0.8275 0.6620 0.8125 0.2623 0.7742 0.7967 0.6250 0.7429 0.7103
Seq ID NO: 157 0.7426 0.6479 0.7356 0.2599 0.7133 0.7729 0.7000 0.7238 0.7172
Seq ID NO: 185 0.6825 0.5634 0.7452 0.2668 0.6989 0.6610 0.4250 0.7524 0.6621
Seq ID NO: 186 0.7846 0.6620 0.8173 0.2661 0.7778 0.7533 0.4000 0.9048 0.7655
Seq ID NO: 187 0.6961 0.7183 0.6106 0.2569 0.6380 0.6507 0.5250 0.6286 0.6000
實施例 5.3 :所有目標甲基化標誌物的機器學習模型
本實施例使用所有的34個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出胃癌及/或食管癌的樣本。具體的步驟與實施例5.2一致,只是相關資料帶入了所有34個目標甲基化標誌物的資料。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(食管癌/胃癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是食管癌/胃癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖45,從圖中可看出胃癌及/或食管癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖46。在測試集中,胃癌及/或食管癌與其它癌種區分的AUC達到了0.922,設置閾值為0.346,大於該值則預測為胃癌及/或食管癌,反之預測為其它癌種。在特異性為95.2%時,敏感性達到了75%,樣本整體預測的準確率達到了89.7%,可以較好地從7種癌症樣本中區分出胃癌及/或食管癌。
實施例 5.4: 甲基化標誌物組合 1 機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有34個甲基化標誌物中隨機選取了一共7個甲基化標誌物Seq ID NO: 165, Seq ID NO: 167, Seq ID NO: 169, Seq ID NO: 150, Seq ID NO: 172, Seq ID NO: 174, Seq ID NO: 179的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例5.2一致,但相關樣本只使用了該實施例中的7個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖47,該模型ROC曲線見圖48。可看出該模型在訓練集和測試集中,胃癌及/或食管癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.917,閾值設成0.30時,大於該值預測為胃癌及/或食管癌,小於該值預測為其他癌種,特異性為91.4%時,敏感性達到了70%,整體的準確率達到了85.5%,說明了該組合模型良好的性能。
實施例 5.5 :甲基化標誌物組合 2 機器學習模型
該實施例使用另一甲基化標誌物組合:Seq ID NO: 143, Seq ID NO: 23, Seq ID NO: 172, Seq ID NO: 174, Seq ID NO: 177, Seq ID NO: 178, Seq ID NO: 180, Seq ID NO: 183, Seq ID NO: 186一共9個甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例5.2一致,但相關樣本只使用了該實施例中的9個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖49,ROC曲線見圖50。從圖中可看出該模型在訓練集和測試集中,胃癌及/或食管癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),閾值設置為0.285時,在特異性為91.4%時,敏感性達到了62.5%,整體的準確性可達到83.4%,同樣可以較好的區分胃癌及/或食管癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了34個食管癌和胃癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中較好地區分出胃癌及/或食管癌的樣本,這些甲基化標誌物都是良好的胃癌及/或食管癌組織特異性的甲基化標誌物,對泛癌種早篩過程中胃癌及/或食管癌的組織溯源提供了重要的參考。
本文中使用的標誌物的序列: >Seq ID NO: 160 CGGCTCCGGAACGCGCTGCGGGGAGCGTTGGACGCGCTGTCTAGGACCCAGCAGATCCAGCCCCCATCTCTAATCCCAAGGCCTCTCAGGAACCCCAGCTTCCCACAACCTCAGTCCCTTAACCTTTCAGACACCTTTCTTCAGCGACTCTCACCCCAGCACTCTGTCCCTACCTCTGAAGACCACCATGATACCAAAATC >Seq ID NO: 161 CCGGCCCTTTCCCCGCGCGGGATCGAGGGAGCAGGAGCCGCGGCTGACGGGTCGCGGGCGCCGCGCTAGGCTCGGCTCCGGTCCCGGCCCGGGTGCGCCGCGACCCGGCCGCCGCTGCAGCGAGTCCCGCGCGCTCTCCGTGCGCCCCGGCCGGCTCGGCGGCGGCTGCCGCGCACAGGCTTCCGACTCCAGCGCCCGGCC >Seq ID NO: 162 GCCTACCGGTGACCCGGCTAGCCGGCCGTGCTCCTGCTTGAGCCGCCTGCTGGGGCCCGCGGGCCTGCTGATCTCTCGCGCGTCCGAGCGTCCCGACTCCCGGTGCCGGCCCGGGTCCGGGTCTCTGACCCACCCGGGGGCGGCGGGGAAGGCGGCGAGGGCTACCCTGCCCCCGTGCGCTCTCCGCTgcgggcgcccggg >Seq ID NO: 163 TAAGACGGGCTGTTAGTATTGAGCCCgggaagttagcaatatctaacaaagctacgtacacatttacccagcaatcctacgtctaggaatttatccagaaggtgctcattcacaaatatggaaagctacgtacaaggtgatttttgtttgtttgtttgtttgttttttgagacagagtctcgctctgtcgcccaggctgga >Seq ID NO: 164 ACCACGCGCCCGCCGGGCCGCGCTCAGGCCTTCGCCCTCAGGGACTTCGGAACCGCCCCGTCCTCAAGATCGAAAAGCCCAGAGCCCCGCGGCGGCTCCAAGCACGGTGTTGGGGGTGGGGGTCTCAGGGAGCGCCCAGGCCCAAGGCCGCCCTGGTCCGGCGTGGACCCCGCGGGGCTCAAGGCAGGTTCCCCGCGTGACCCGCCCAGCCCCTCTATGCGAACTCGAACGACAGGCACCACAGCCCGCCACGTGCGCGAGACTCGCGCTGTGCCCCAACCCAGGTGGGCGGCCCGCGGAGCCGCGAGGCCTGAGCCCGCCCTGCAGGTGACCCGCGGC >Seq ID NO: 143 CAGCCCATAGCGCGCCTGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAAACTCAGGCCTCAGCGCGCCCGGGGATGGAGATGCCGCAGGGAGACGCAGCCCATAGCGCGCCTGGGATGGAGATGCCG >Seq ID NO: 23 TTGAAAGCCTCTAATTGCTGCGCCTGGTGGCACCGTGGAATGAGGGGAGGCCAGCCTTCTCGGTGCGGAATCTCCTTGGCCCAGGCCTTCCCAGGCTGCCCGTCCCGCCGCGGCTCAGGGCGCCTCCCGGCTCCCTGCCGCCTCCCAGCCGGACGCGGACGTGCCTGCGCGGCTCTGGCGGCCGCGTCTgccgccccggcg >Seq ID NO: 165 TCCGATATTCGGTGCCAGAAGAGACCGAAAAGGGCTCCTTCGTGGGCAATATCTCCAAGGACCTGGGGCTGGAGCCCCGGGAGCTGGCGAAGCGCGGAGTCCGCATCGTCTCCAGAGGGAAGACACAGCTTTTCGCTGTGAATCCGCGAAGCGGCAGCTTGATCACGGCAGGCAGGATAGACCGGGAGGAGCTCTGTGAGA >Seq ID NO: 166 AAAGCCCTGCCCGGGCTGGGTTGGGACCTCCAGGGCGCTTCCCCGCGCGGCCGCAGCCGGCCAGCCTCTGGTCTCGGTTGGAGGGCATCGCAGGCGCGGCCTGGCGACCTCCGGGCGCCTTTGGCTGGTGTCTTCCGTAGCCCTCGGCGCGCACCCTCCCGCGTGCAGTGCCCGGAGTGACCTCTTCAGGCCCCGCGGGCGCCTCCTGGGTGGGCCCCGCGGCCCCTCCAACCCTGCCCAGCGTGTGTGCGCGGCCTAGCCATCTTTCTCCCCAGCCTGGGAAGGCGGGCGGGAGGAGGGGATCCGAGGCCGGGGGCCGCGGAGCAAAAGGCACGCGGA >Seq ID NO: 167 GGAGCGCGGAGCCCCTTCCCACTCGGGCTCGGGTGGCCTCACCTTTCCTGGGGCTGCGTCCCCGCGGGACGCCAGGTTCCCGGTTTCTTCTAGGTCGCCCTGGTTCCTGGCAGCTCCTGGTGCCACGCGGTCCTCTACGGTCTCCTCTGACCTGAGAGGGACAGTGAGATGGGGCTGGCGGGGATGGGGGTCCCCGCGCTG >Seq ID NO: 168 CTGAGGTTCTGCTGCCCCGACCCCCTTCGGGACACAGCCCCGGCCTCCACCAGGCACTGGGAGGGAGCTGAGAACGGCAGCGGGGCCAGGCGAGGGTTGCAGGGTGGGCGGGAGCTCTCGGGAGAAAAGCAGAACACCAGCGGAGGCTTGTGGCAGGGAACCCGGAGCCCCGCCTGACCCTTCCCTCTTCTTTGTCTCTGACCTCACCCATTTTCCCCTCCAGCCCTATGCCGGGGTGTTGGTTTTGAGAGTTACAGTTTGGGCGGGGAAGGATTGGCCAAGCCTGTCTGGATCCTGGGACCTC >Seq ID NO: 169 TGGCAAGGCCTCTTCCAAAAGGGCTGGCGTGGACTCAAGGGCCTTCCTGAAGCTCACTGTTCCCAAGGAAAGAATTGGAGCCCAGCTCGCTGGACAGTGCCCGGTCCCCCAAAGGATCAAGGCAACTAGGGGAATGAAGAAAGGCAAGAAAAACTCAAACTGGGGGTGGGGACAGGAAGCGCGGATGAGAAGAAAGCCAGACCGTCGCCAGGTGCCGGTGCCTCTCATCTTAACCATGCCATCAGTCAGGGACACTAGCATCTCTGCATGGGAACCAAGTGggggcgcagagaggtcaaacaagctgcccaaagtcagagctaggaagcagcagtcaacttttgaacacagtcttattgcgggatctggccagcagcccgcaatgcaacggg >Seq ID NO: 170 TGAGGAGGGGCCCGGATGGGGGCAGGGGCTGTGCTGCCCACAGACAGGCCCCTTGGTGACAGTGGGATCCATCGTGACCACGTGTGGCCTCATTTAATCCTCACTGTGGTCCTAGCTGCCATGACCACCTACAAAACAGAGAGGTCAAGTCCCTGCCCCCAACGGCGGTTACAGCTGGCACTCAGGAAGCCGGGCTCACGGCCCTACAGCCGTCTCAGAACCGCCGAGCTAGTGTC >Seq ID NO: 150 AGCGTGAGCGGATCCGAGGGTGTAATGTGTGTACTCGAGTGTGCGTGCCTGTGTGTGGCTAAAGATAGTGTGTGAGCGCCTGGACAGATGGTTACCCTGCCTAGGCCATGCGTGTGTGAGTGTGTGTGGGTACCTCATTCTGCTTTGTGTAAATTCAGCTTATCCGGGAGCTTGTCCCTCTTCCAGGCTCTGTTGGGAATG >Seq ID NO: 171 GCCAGGGTCTCAGCCAATCGTGGGCCACCCGTTTGGCCAATCGCGCAGGGCGCGGCTCCACGCCCGGCCCCATTGAGGAAGCGCGTACGCGTGGCGCGTGGCTCACGGGGAGCATCGCTAACAAAGCTGGGTTCCTGCTGGGCCCCGCCCTGCTCCTCGCCCCCGCGACTGGGCTGGGCGCGCTGTCCCCTAGCGCAGCTATGTCCCGAGCGCGCCCCCACCTGTGCGTTAATCTACTGGGAATGGGGGTGGACTGCGCCTTACCTGGGGCGGGGTGGGGCTTAAGGAGTGGTCGAGACTGAGGCGGGGTGGGAGGTTCA >Seq ID NO: 72 TCTGCTGGTCGTGGGCTCGGCCCCCAGGCGCCAGGCCGAGTGCCCACCTCGGCTTCTTTAGGGGGCCTACAGCGGGCAGCCGAGCGGCTGGCGGACCCGGAGCTTGGGAGGCGACCGCCAGGCTGGTGCCCGGCCTGACCCGGCGTTcgcggccgcccgctcgcccgccgcgggccgggAGCGTACAGGAGTGTGACGCAGATTGTGAAAACAGAAGGGAGGGAGTTGGGTCATTTCCTTCGCTAA >Seq ID NO: 172 GACGCTGCGCAGCTGCCCAGCAGCCAGCCGAGGAGACGCGCGGGGCCCCGCGGTTCCTCCGGGCGGCTGCAGAGAGCTAAAGGGGAGGCCGAGCGGGCGGTGGAGGAGGTGCGGCGGCGGCGGCTGCTTCCCGCGCCACCCAGCTCGCTGTCGTCCACCAGCACGCTCTCCAGCACCGTGCGCAGCGAGCGCCGCAGCTTG >Seq ID NO: 173 GGGTAGGGGACCAAATCCGGGCCAGGGAGTTCCTGGGCACCTGACATGGTTGGATTCCCCAGGTGCGCGTCTACAGCCCGTACCAAGACTACTACGAGGTGGTGCCCCCCAATGCACACGAGGCCACGTATGTCCGCAGCTACTACGGACCGCCCTACGCAGGTAAGTCTCCAGCGTGCCCCGGGGCTTGCCTCGATCCAGCACCGATT >Seq ID NO: 174 ATGTGACACCTTATTTAAAAATTACCAGGATCTACTGAGGGGCCGACTTGAGCGCCCAGTGCGTCCTGGGTTTTGGGCGCAGAGCGCAAGGTGAGGCTCCTCCCTCTGCCTGGGCCCAGGTTGTAGCCTGGCGAACCCGAGGCTCCTGGTGCCCTCCGGGCAGAGCTCTGTGCGCTCCCAGCGGCCGGTGATGGCGCGCCA >Seq ID NO: 152 GGCGGTGCTGGGACCGGGGACCCGCCCAGGACCGGCTGCCTCTGGCGCCACCTGGCGGCCGCCGTGCCCAGCCCTGCCCCGGGTCCTGAGGTTGACGGGGGACCTCCGGGAGGGCAGCAGCCCGGGGATCGCCCTGCTCACCGGGACCTAAGCAGAGCGCCTGCCCGAGAATAGGGAGACACGCGGGAGGCGGAGCACAGTAGTCCCCCTTCCTCCCTCCCACCCTCCCCTCTTCCTTTAGGAACAAGGCGGGAAGGCCAAGAGCCTGTCCCTCTCTGCGTTACCCCGGGCCCATCACTGGGAGAGAGGAATCA >Seq ID NO: 175 TGGGGGGCAGCCTCCGTGGCCAAGGGTCTCCCAGGCTGCTGTCAGGCCAGGCTCGCCAGCCGGGCTCCTGATCACCTTCCTGGGCCAGCCTCTCCAGGAACCCAGGAGCCAGAGGGCGGCTGATGTAACTGAATTCCAGAATCCGTCATGAGCCGGGAAGTGAGTGCCTGCGGTTTGTGGGGCTGAGGTGACCGGCCAACG >Seq ID NO: 176 CGCCCCTGCCACGCCCAGCAGCCTTTCTGCCTCTGCGCTTGCCTCCTCCGGTTGGAGCGAGTGACCCGTTCTGCCGAAGTCCAGTCCCGTGTGTGCTGCGGCCCCGTCTCTCTCCCTCTCTGAGTGACACTGTCTGCCCTGCTGCTTGCCGTCCCGCTGTTGGCACCGCTTTAGACCCCATATTTCCCAGCGGTCACCGTGCTCATTTTTGGCTTCCAGCTACCGTTTTTCTTAGGTTACCCCGCGTAGCTGGCCCGTCCTTCCTTCTCCTGTCTCTTCTGTGCCTACCGCGGGGGGTTCCCTTACCAAGGTCTCCATCACCCCC >Seq ID NO: 177 ctcgggcagggtcgCAGGGGCGGGGGTGGCAGGGGAGCGGGTGGCAGCCCCGCGGGTCACAGCGCCGCCGCCGCCCATGCTGCTGCCCCTAGCCTGCCTGCACGGCCGCGTCGCTCAGTGCCTGACCTCCTTGCTTTTGCTTGCAGAGCCGCTCCCGAggccccggcgcggcgcgagggcgcggggcgcggcgtccacaggcgccgaggctgcccccgccgccccgcccgcgAAGATGGCGGCGGAACTCTA >Seq ID NO: 178 GACCCCAGGCCCCTTGGGGAAGAGCAGATAGGACCAAGCCTAGCATGAGGAGGCCAGGTGTGTGGGGCCCGGGTGTGCAAGTGCTGGGCCTGCCAGTGTGGATGTGCCTGGAGCCCCTTCGCCAGGCGGCTTTCACTGACGGTGCTGGCCAGGGCAGCAGGGCCGGTTTGGCGACCTGGAGGTGGATATGGGTAGTGGCTGCCCAGCCCAGCCAACCCTGTCCCCTTGGGGCATTCTCTCGAGGCTGCTGGGTGTCCTGGCAGGCACGTCCTGTGGGGTCAGCACGCCGGCTGCAGCGCAGGGTGGGCCTGAGATCGGGTGCCGGGCCCCCCATCTCCACCTGTCTGGACACGCACCCCTGGCCTGTCCTTGCAGCTTCCTCCCGACATCCCTTGGCGGTGTCTGTGTCTCGGCCCCAGCCCCAGCCCTCCTTTCCTGGGGCACCCTCCCAGCCATCTGGTATTGGGGCTGCCCCCATTGCCTAGTCCTGGGCCCAGGGCCAGCCCACTCTGGGCTGGCTTT >Seq ID NO: 179 CTCTGATCCACGGGGCTTGGACCAGCCACCCCACCCGAGGGCGGCTGAGGACTGGGCGGCCGAGCTCGCGGCCCACTTAGCTAATGCCGGGTAATGCCGACCCCGGCCCAAGAGCAGCAGCTGCACTTGGGAAGGAAAACTCTTTAAACAAATCATTTTGGTGTCTAATCAATTAGTGTTTGCGCAGTCAAGTACCGTAGA >Seq ID NO: 180 CAGAGCTCTGGCTGAAGCGGCGGCCACAGTCGGCGCAGCCATAGGGTTTCTCGCCGGTGTGGACGCGCAGGTGCGAAGTCAGCGCCGAGCGCTGCGTGAAGGCCCGGCCACACTCCAGACAGCGGTGGGGCCGCTCCCCACGATGGATGGCCCGGTGTTTGCTCAGGGAGGAAGCGTGGCCGAAGCCCTTGCCGCAGTCAGTGCAGTGGAAGGGCTTCTCGCCAGTGTGACTGTAGACGTGCTCCACCAGTGTGGAGC >Seq ID NO: 181 CCTTCCCGCTAGGGCGTCTCGAGGGTAGGGGGCCGGACGCCTGTCGCCCCCTCctcgtccgcccccgccgtccaggtacctagcgcgttctggcgcggaggtttaaggaccccttggggggttgtccgtccgcccatgggtcgggtgcggtgggcccgcgggGGAGTCCGTTCGGGAGGGGCCCGCCCCTCCCTCGCCTCC >Seq ID NO: 182 GCCTGCCCCTCTCGGTGGGCGGCAGCCCCCCGGATCACTTCCCTCAGATGTCCCCAGGCCCTGTCCCTGGGCGTAAAGGGCGCGCAGCCCGGGGCAGCCCCTCCTCGCCACGCCCAGCGATGGGAAGTTGTGGACGTCGTCTGTGCAACGGAAACAGCTCCATCTGGCCCGCGCAGAACCAGAGTTCTGGCTGGAACTCCGGCCTTCAATCCGTGTCCCCACTCTTGGGGAAAAAATGTCACTCCTGGAGCGGAGGGGACGGGACAGGAGAGAGGAGAGCGAGAAATCTGTCCCTCTAAATGTTCGGGTGCCAAGCCTTCGGGGTGATTCTCAGCATCAATCACGACGTCGCGCAACCCTCTCCCCTGCCC >Seq ID NO: 183 CCGGAGCCGGGAGAGTCGGCAGCTGCACTTCCGCCAGAGGTGGGTGTGTCCTTCACATTTCAGGAAGGGAGACTTGGGGCCTGGAGAAGCGATGTGATTTTTCTTTTCTAGTTCAGTGCTGGTTTTGATGGCTTTTTATCATGACCTTGTTATGTCTTATTTTAGTTTCGGCCCATTTAGTGGATACGACAACAGTGGCCCAGGGAGGTATGGCAGAGCTGAGGCTTAAC >Seq ID NO: 184 AGAGAGCACCAATCCCGAGAACAGCGAGCTCAAGTATTCGGGTCAAGATGGGCTCTACATAGGCGTCAGTCTCGCCTCGCCGGCCGAAGTCACGTCCTCCGTGCGACCGGATTCCTGGTGCGCCCTGGCCCTGGCCTGAGCCCACGCCGCCAGGAGGCAGGGAGGGCTCCGCCGCGGGCCTCACTCCACTCGTGTCTGCTTTTGTGCAGCGGTCCAGACAGTGGCGACTGCGCTGACAGAACGTGATTCTCGTGCCTTTATTTTGAAAGAGATGTTTTTCCCAAGAGGCTTGCTGAAAGAGTGAGAGAAGATGGAAGGGAAGGGCCAGTGCAACTGGGCGCTTGGGCCACTCCAGCCA >Seq ID NO: 157 TTTTCGGGCCGCGGTGCGGAGAACTCAGGTGGGTGCCCGGCAAGTTACCTACCAGGGGCTGTTCCCCCGCGACCCTCGCCATAAGCGCAGGGACCCGGGGGCCGCGCTGGCTCCGGGCTGCGCTCCTGGCTTGGCAGGGGACCAGGCCCACGCTGCAGCCTGGGAGCGGAGCCGCCCCCCAGGTCTCCCCACCTCTGCGGG >Seq ID NO: 185 CACAGTGCGGCTGGGCCCGCGCCCTGCGGTGGTGCTGTGCGGCTACGCAGCGCTGCGGGACGCGTTAGTGCTACAGGCGGATGCGGTCTCCGGCCGCGGGTCCATGGCAGTCTTCGAACGCTTCACACGCGGAAACAGTGAGGCCCCGGCGCTGGACTTGCCGGTCCGGACGCTCCAGGCTGGGCGGGTAAATGGTAGAGG >Seq ID NO: 186 TCGGCCTgcggcgcgtgcgggggaggagacggttccgggggaccggccgcgactgcggcggcggtggtggggggagccgcggggatcgccgagggccggtcggccgccccgggtgccgcgcggtgccgccggcggcggtgAGGCCCCGCGCGTGTGTCCCGGCTGCGGTCGGCCGCGCTCGAGGGGTCCCCGTGGCGTCCCCTTCCCCGCCGGCCGCCTTTCTCGCGCCTTCCCCGTCGCCCCGGCCTCGCCCGTGGTCTCTCGTCTTCTCCCGGCCCGCTCTTCCGAACCGGGTCGGCGCGTCCCCCGGGTGCGCCTCGCTTCCCGGGCCTGCCGCGGCCCTTCCCCGAGGCGTCCGTCCCGGGCGTCGGCGTCGGGGAGAGCCCGTCCTCCCCGCGTGGCGTCGCCCCGTTCGGCGCGCGCGTGCGCCCGAGCGCGGCCCGGTGGTCCCTCCCGGACAGGCGTTCGTGCGACGTGTGGCGTGGGTCGACCTCCGCCTTGCCGGTCGCTCGCCCTTTccccgggtcggggggtggggcccgggccggggcctcggccccggtcgcggtcccccgtcccgggcgggggcgggcgcgccggccggccTCGGTCGGCCCTCCCTTGGCCGTCGTGTGGCGTGTGCCACCCCTgcgcccgcgcccgccggcggggctcggagccgggcttcggccgggccccgggccctcgaccgggaccggtgcgcgggcgctgcggccgcacggcgcgactgtccccgggccgggcaccgcggtccgcctctcgctcgccgcccggacgtcggggccgccccgcggggcgggcggagcgccgtccccgcctcgccgccgcccgcgggcgccggccgcgcgcgcgcgcgcgtggccgccggtcc >Seq ID NO: 187 CTGAAGTTAGGGAAACAACGGCTCTTGAGGGGTAGCTGAGGGCGCGGGACCGCTCCCCGCCCGGCAGCCGCCCCCAGCCCCACCCGCCGTTGTCCTAGTCGCGGCCGAGCGCATTCTGGGCTGGCCTAGGGCGCGCTTCTTGGGCCGCCTCCCTGCGCGTCCCGGCCCCGTCACTTCAGAAGGCGCTCGACCCCCAGTCTG
實施例 6.1 :甲基化靶向測序篩選胰腺癌特異性的甲基化位點
發明人收集了總計541個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表6.1,訓練集中胰腺癌樣本總數為37個,測試集中胰腺癌樣本總數為17個。
表6.1 各個癌種血漿樣本數量統計表
  訓練集 測試集
總數 354 187
癌症類型    
食管癌 41 26
肝癌 112 67
胃癌 50 26
肺癌 60 24
乳腺癌 35 21
胰腺癌 37 17
結直腸癌(附圖中稱為腸癌) 19 6
年齡    
中值(最小值-最大值) 62(25-87) 62(29-89)
性別    
202 116
149 69
NA 3 2
通過申請人自主研發的MethylTitan TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、Illumina常規測序及數據預處理
a)文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c)使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a)   首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b)    將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N i表示位於目標甲基化區間的讀段(reads)數目,N i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b)去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出胰腺癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中胰腺癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分胰腺癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟: 1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差; 2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型; 3. 將標準化公式應用到測試集資料對測試集進行標準化; 4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的胰腺癌組織特異性的甲基化標誌物具體見表6.2。相關甲基化標誌物位於目標基因內或者該目標基因上游區或下游區,其中單獨一個或者多個甲基化標誌物的組合都可以用作為胰腺癌特異性的甲基化標誌物。
這些甲基化標誌物在胰腺癌與其他6種癌種中的甲基化水平如下表6.2和圖51。如圖52所示,這些甲基化標誌物在訓練集和測試集中胰腺癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表6.2 在訓練集和測試集中甲基化標誌物在胰腺癌與其他6種癌種中的甲基化水平均值
序列 編號 染色體號 起始位置 終止位置 訓練集胰腺癌甲基化水平 訓練集其它癌種甲基化水平 訓練集P值 測試集胰腺癌甲基化水平 測試集其它癌種甲基化水平 測試集P值
188 chr1 2478439 2478810 0.9710 0.9757 1.90E-05 0.9727 0.9761 0.00421757
189 chr1 64059515 64059716 6.00E-06 3.20E-06 0.000367771 3.59E-06 1.43E-05 0.000283244
190 chr1 151693837 151694148 0.0367 0.0294 1.39E-07 0.0316 0.0290 0.02656304
163 chr1 203600773 203600973 0.1207 0.1174 0.000320212 0.1210 0.1173 0.010844674
191 chr2 24300144 24300422 0.0685 0.0425 0.000608133 0.0592 0.0377 0.00266093
192 chr2 97427786 97428040 0.7339 0.7583 0.0001068 0.7381 0.7577 0.006165148
193 chr2 175202377 175202577 0.0792 0.0587 3.38E-05 0.0694 0.0561 0.009570827
194 chr2 233792902 233793102 0.2257 0.1911 0.000203849 0.2243 0.1900 0.000241991
195 chr2 242743582 242743782 0.4684 0.4437 1.01E-07 0.4583 0.4404 0.006415082
196 chr3 197639716 197639916 0.1420 0.1666 4.62E-06 0.1443 0.1678 0.004972397
197 chr4 3447856 3448097 0.6195 0.6502 0.00039985 0.6342 0.6551 0.011535211
198 chr5 472963 473163 0.2103 0.1876 1.52E-05 0.2085 0.1805 0.000674975
199 chr5 37840176 37840376 0.0926 0.0797 7.33E-06 0.0907 0.0857 0.011535211
200 chr5 134870613 134870990 0.7870 0.8070 7.59E-05 0.7974 0.8029 0.011116448
201 chr6 25726976 25727176 0.0499 0.0411 0.00016002 0.0484 0.0408 0.002420541
202 chr6 108353117 108353317 0.1415 0.1251 1.49E-06 0.1514 0.1234 2.05E-07
203 chr6 167544878 167545117 0.1394 0.1103 5.48E-06 0.1219 0.1109 0.021769949
204 chr8 22457089 22457293 0.1409 0.1162 0.000110324 0.1397 0.1122 0.00921508
205 chr8 22457092 22457292 0.1395 0.1150 0.000141349 0.1391 0.1108 0.008007897
206 chr8 23020937 23021137 0.0727 0.0563 1.06E-06 0.0641 0.0570 0.0357202
68 chr9 71788926 71789126 0.1415 0.1184 0.00017154 0.1413 0.1233 0.001680839
207 chr9 124461377 124461663 0.3620 0.3000 0.000127166 0.3604 0.2956 0.000680513
208 chr9 132382275 132382649 0.0580 0.0470 3.64E-06 0.0551 0.0474 0.001189567
209 chr10 130084908 130085108 0.1470 0.1294 0.000332034 0.1439 0.1241 0.000781175
172 chr11 60620057 60620257 0.2427 0.2777 8.53E-07 0.2486 0.2783 0.00070306
210 chr12 518125 518325 0.4681 0.4839 1.57E-06 0.4731 0.4828 0.039070472
211 chr12 111404033 111404233 0.1315 0.1501 6.17E-05 0.1317 0.1542 0.001668207
212 chr13 32605445 32605645 0.9482 0.9555 0.000680276 0.9501 0.9566 0.010318429
213 chr14 92040784 92040984 0.0422 0.0133 2.12E-05 0.0266 0.0131 0.003467684
177 chr14 105714973 105715224 0.0157 0.0147 0.000247799 0.0119 0.0153 0.01469282
154 chr15 65116254 65116454 0.0035 0.0374 0.000306421 0.0022 0.0425 0.003840347
214 chr16 4253135 4253487 0.1351 0.1157 4.38E-06 0.1334 0.1162 0.012874722
215 chr16 28984534 28984734 0.2213 0.2034 3.20E-05 0.2285 0.2030 0.003230395
88 chr19 10823485 10823947 0.9364 0.9429 4.71E-05 0.9353 0.9377 0.011535211
216 chr19 37957790 37957990 0.0104 0.0093 2.06E-06 0.0090 0.0101 0.011535211
217 chr22 22006617 22006817 0.8478 0.8776 0.000273367 0.8575 0.8723 0.011394126
以單個甲基化標誌物Seq ID NO:202為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖53和圖54所示,可看出該標誌物的甲基化水平在胰腺癌中相比其它6個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的胰腺癌組織特異性甲基化標誌物。
實施例 6.2 :單個胰腺癌甲基化標誌物判別性能
為了驗證單個胰腺癌甲基化標誌物的區分胰腺癌與其它6個癌種的潛力,使用單個胰腺癌甲基化標誌物的甲基化水平資料在實施例6.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同胰腺癌標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(胰腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是胰腺癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個胰腺癌甲基化標誌物邏輯回歸模型的效果見表6.3,從該表中可看出,所有的胰腺癌甲基化標誌物在測試集和訓練集中都可以達到0.60以上的AUC和0.68以上的準確率,都是較好的胰腺癌組織特異性標誌物,其中表現優異的胰腺癌標誌物如Seq ID NO: 194,Seq ID NO: 189都可以在測試集中75%以上的特異性下達到40%以上的敏感性,整體準確性達到73%以上。
表6.3 單個胰腺癌甲基化標誌物邏輯回歸模型的表現
序列編號 訓練集AUC 訓練集敏感性 訓練集特異性 閾值 訓練集準確率 測試集AUC 測試集敏感性 測試集特異性 測試集準確率
Seq ID NO:188 0.7061 0.5135 0.7603 0.1046 0.7345 0.6941 0.4706 0.7647 0.7380
Seq ID NO:189 0.6707 0.4595 0.7603 0.1045 0.7288 0.7540 0.4118 0.8235 0.7861
Seq ID NO:190 0.7591 0.6757 0.7603 0.1046 0.7514 0.6426 0.3529 0.7588 0.7219
Seq ID NO:163 0.6767 0.5135 0.7603 0.1046 0.7345 0.6692 0.5294 0.7353 0.7166
Seq ID NO:191 0.6718 0.4865 0.7603 0.1049 0.7316 0.7054 0.4118 0.7882 0.7540
Seq ID NO:192 0.6918 0.4865 0.7603 0.1062 0.7316 0.6844 0.4706 0.7529 0.7273
Seq ID NO:193 0.7076 0.4865 0.7603 0.1051 0.7316 0.6727 0.5294 0.8000 0.7754
Seq ID NO:194 0.6850 0.5135 0.7603 0.1066 0.7345 0.7571 0.5294 0.7529 0.7326
Seq ID NO:195 0.7695 0.6486 0.7603 0.1056 0.7486 0.6834 0.4118 0.7647 0.7326
Seq ID NO:196 0.7250 0.6216 0.7603 0.1063 0.7458 0.6900 0.6471 0.7353 0.7273
Seq ID NO:197 0.6689 0.3784 0.7603 0.1068 0.7203 0.6675 0.3529 0.8529 0.8075
Seq ID NO:198 0.7145 0.5135 0.7603 0.1057 0.7345 0.7362 0.4118 0.8000 0.7647
Seq ID NO:199 0.7189 0.5135 0.7603 0.1048 0.7345 0.6675 0.5294 0.7059 0.6898
Seq ID NO:200 0.6967 0.5135 0.7603 0.1051 0.7345 0.6685 0.4118 0.7235 0.6952
Seq ID NO:201 0.6831 0.5676 0.7603 0.1046 0.7401 0.7076 0.5294 0.7588 0.7380
Seq ID NO:202 0.7354 0.5135 0.7603 0.1050 0.7345 0.8730 0.8824 0.8176 0.8235
Seq ID NO:203 0.7207 0.6216 0.7603 0.1056 0.7458 0.6488 0.5294 0.8000 0.7754
Seq ID NO:204 0.6969 0.4054 0.7603 0.1050 0.7232 0.6737 0.4706 0.7824 0.7540
Seq ID NO:205 0.6936 0.3514 0.7603 0.1049 0.7175 0.6775 0.4706 0.7765 0.7487
Seq ID NO:206 0.7432 0.5946 0.7603 0.1052 0.7429 0.6009 0.3529 0.7412 0.7059
Seq ID NO:68 0.6837 0.4054 0.7603 0.1055 0.7232 0.7161 0.6471 0.7706 0.7594
Seq ID NO:207 0.6970 0.4054 0.7603 0.1091 0.7232 0.7360 0.5294 0.8000 0.7754
Seq ID NO:208 0.7363 0.5676 0.7603 0.1047 0.7401 0.7239 0.7059 0.7824 0.7754
Seq ID NO:209 0.6771 0.4595 0.7603 0.1052 0.7288 0.7330 0.5294 0.7882 0.7647
Seq ID NO:172 0.7428 0.5405 0.7603 0.1075 0.7373 0.7353 0.4706 0.7941 0.7647
Seq ID NO:210 0.7342 0.5946 0.7603 0.1051 0.7429 0.6152 0.4118 0.7412 0.7112
Seq ID NO:211 0.6918 0.4865 0.7603 0.1056 0.7316 0.7163 0.4706 0.8471 0.8128
Seq ID NO:212 0.6637 0.3784 0.7603 0.1047 0.7203 0.6706 0.4118 0.8176 0.7807
Seq ID NO:213 0.7045 0.4595 0.7603 0.1044 0.7288 0.6990 0.4118 0.7706 0.7380
Seq ID NO:177 0.6756 0.4865 0.7603 0.1045 0.7316 0.6606 0.5294 0.7882 0.7647
Seq ID NO:154 0.6674 0.4054 0.7603 0.1073 0.7232 0.6950 0.4118 0.7706 0.7380
Seq ID NO:214 0.7200 0.5135 0.7603 0.1052 0.7345 0.6644 0.5882 0.7647 0.7487
Seq ID NO:215 0.7041 0.5405 0.7603 0.1053 0.7373 0.7007 0.4706 0.7588 0.7326
Seq ID NO:88 0.6982 0.5405 0.7603 0.1046 0.7373 0.6675 0.5294 0.7059 0.6898
Seq ID NO:216 0.7361 0.4595 0.7603 0.1045 0.7288 0.6675 0.4118 0.7706 0.7380
Seq ID NO:217 0.6847 0.4595 0.7603 0.1063 0.7288 0.6678 0.4706 0.7941 0.7647
實施例 6.3 :所有目標胰腺癌甲基化標誌物的機器學習模型
本實施例使用所有的36個胰腺癌甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出胰腺癌的樣本。具體的步驟與實施例6.2一致,只是相關樣本帶入了所有36個目標胰腺癌甲基化標誌物的資料。
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標胰腺癌甲基化標誌物的甲基化水平值,w為不同胰腺癌甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(胰腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是胰腺癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖55,從圖中可看出胰腺癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖56,在測試集中,胰腺癌與其它癌種區分的AUC達到了0.921,設置閾值為0.124,大於該值則預測為胰腺癌,反之預測為其它癌種,在特異性為93.5%時,敏感性達到了70.6%,樣本整體預測的準確率達到了91.4%, 可以很好地從7種癌症樣本中區分出胰腺癌樣本。
實施例 6.4 :胰腺癌甲基化標誌物組合 1 機器學習模型
為了驗證胰腺癌標誌物組合的效果,本實施例從所有36個胰腺癌甲基化標誌物中隨機選取了一共11個胰腺癌甲基化標誌物Seq ID NO:190, Seq ID NO:195, Seq ID NO:202, Seq ID NO:203, Seq ID NO:206, Seq ID NO:172, Seq ID NO:210, Seq ID NO:211, Seq ID NO:213, Seq ID NO:154, Seq ID NO:214的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例6.3一致,但相關樣本只使用了該實施例中的11個胰腺癌標誌物的資料,該模型在訓練集和測試集中的模型得分見圖57,該模型ROC曲線見圖58。可看出該模型在訓練集和測試集中,胰腺癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.931,閾值設成0.114時,大於該值預測為胰腺癌,小於該值預測為其他癌種,特異性為92.4%時,敏感性達到了64.7%,整體的準確率達到了89.8%,說明了該組合模型良好的性能。
實施例 6.5 :胰腺癌甲基化標誌物組合 2 機器學習模型
該實施例使用另一胰腺癌甲基化標誌物組合:Seq ID NO:195, Seq ID NO:196, Seq ID NO:199, Seq ID NO:202, Seq ID NO:203, Seq ID NO:210, Seq ID NO:211, Seq ID NO:213, Seq ID NO:154, Seq ID NO:216一共10個胰腺癌甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例6.3一致,但相關樣本只使用了該實施例中的10個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖59,ROC曲線見圖60。從圖中可看出該模型在訓練集和測試集中,胰腺癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05)。測試集中,AUC達到了0.909,閾值設置為0.111時,測試集中在特異性為91.2%時,敏感性達到了58.8%,整體的準確性可達到88.2%,同樣可以較好的區分胰腺癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了36個胰腺癌特異性的甲基化標誌物,根據這些胰腺癌甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出胰腺癌的樣本,這些甲基化標誌物都是良好的胰腺癌組織特異性的甲基化標誌物,對泛癌種早篩過程中胰腺癌的組織溯源提供了重要的參考。
雖然已經描述了多個實施方案,但是顯而易見的是,基本公開和實施例可以提供利用或包含在本文所述的標誌物和方法中的其它實施方案。因此,應當理解的是,本發明的範圍由從公開和申請專利範圍中可以理解的範圍來限定,而不是由特定實施例來限定。
胰腺癌甲基化標誌物的序列如下: >Seq ID NO:188 CCTAGCGCCAGGGCGGGGCGTGGGCTGAGCAGCCCCTCCCATGGAGGGAGCGGCCAGTCTACATATTGGAGGTGGGGCTCTGGGGAAAGGGTGTTGTTAGGAAGGCGGTTTGAGGCAGCGGGAGGTGGGGATGCGCCCGGCGGGGAGGGGCAGGTGTGTGGGGAGGGCCTGGGGAGCGCCTCCCCAGCCGGGCAGCGCTTCCCCAGCCAGGCCCCGCAGCTGGACCCCGGCTCCGTCCAGCCTGGGAAAGGACTCCACGGTTTATGCTGAAGTGGTGGTGGGGTGGGTGAACGCTGCGCAATGGAAGGGCATGGCCCTGTGCTAATTGCCCCGGGGTGTGGGGCTGTGGAGGCACTGCGGGGGGGATGTGCT >Seq ID NO:189 GGTTTCCACCTCCCGCTCCTCCCTCTCCTTCGCGCTCGCTCTTCTGGCCTGGAGGCCCGACGGAGGTCGCCGGGCTGGGGAAAGTGGCCACGGGACCCGGCAGACCTGCTCGCCTGACTCCCGGGGCGCCGGGAGGTGCGGGCGCGGAGCCTCCCAAGGTCACGCCCGACTCTCCGTCTCTAGCCGCTGCCTTCCCTCTCCC >Seq ID NO:190 CCGGGAAAGGCGATCCTTTAGAGACCCACCCCCCAAGCCCCCGCCCCGGAGCTCACCCCTCAGTTCCCTCAGCCCCTAGCCCCTGCTTCGCTGAAGGGGCCGGGCTTGGGGGCAgggcggggccgggggcggggcctcgccggctcgcggccggTCGCCTTGACGACCGCAGCAAGATGGAGACGCTGCCAGGCTTGCTGCAGCGGCCCGACCCCGGGGCGCTTAGCGCAGCGCAGCTGGAGCAGCTGCGAAAATTCAAGGTGGGTGCGCCCGCGCCCCCATCCAGCGTCCACCAAAGTGTAGCTGCCCCAG >Seq ID NO:163 TAAGACGGGCTGTTAGTATTGAGCCCgggaagttagcaatatctaacaaagctacgtacacatttacccagcaatcctacgtctaggaatttatccagaaggtgctcattcacaaatatggaaagctacgtacaaggtgatttttgtttgtttgtttgtttgttttttgagacagagtctcgctctgtcgcccaggctgga >Seq ID NO:191 TGTGTCACGGCTGACGCTGTAACTATACCCAGAATCTCCGTCCCTGGAGGGGCCCTCAGGTTGAGCGTCAGCTGATCGGGCCTCAGTAATCCCCGCTGCGACGCCCGTCCGGACTCCCACCTCAACCCCGCCGCGGCGGCCCCAGTCCGCGTGCCACCCTTCCAGTTCACTCTTTATTTCCTCATATCAGCTTTAAACGGCTCTGGAGGAAGCACCGGGTTTCTTGGCCTGTCTATTGTGAATCTTCTCCAGGTTTGCTCTGGAAAGGCCTGGGGTGGC >Seq ID NO:192 CTATAATGACCTCGTGAAAGAGGAGCTCAATATGATCCAGGGTGCCCTGGAACTACGGACCAAAACTGTAGAGGATATCATGACCCAGCTCCAGGACTGCTTCATGATCCGCAGCGATGCCATCCTGGACTTCAACACCATGTCGGAGATAATGGAAAGCGGCTATACTCGCATCCCGGTGTTCGAAGACGAGCAGTCCAATATTGTAGATATTCTCTACGTCAAAGACTTGGCCTTTGTGGACCCCGATGACTG >Seq ID NO:193 CCCCCAGGGCCCGGGCTGGGCGCGAGGTGGAGCCGCTCAGGGCTCCCGGGCTGCGGTTCGCCCGCTGTGCGAGGAGCTCCCCTCTGCCTTCCGCGCCCGGATAAGAATCGAACGCGTGGTCCGGAAACAAAAGCGAACCATCCTCCGACACAAACACTTTAAAAACTGTACTCCCAGACGTACACATACACCGGAGACCTA >Seq ID NO:194 CACGGCAACGAGggaggcgggaggggcgcgcgcggcgggggcgaggccgggcggcggcggggcgggggcgCCCGGGCTGGGCGCGACCCGGGCCCCGCGAGCGCCGACTGCGGGCTGGGGCCTGCCGCGGGCTCGCGCCTTCCTCCCCCGCGCCGCCGTGCCCCGACCCGGAGAGGGGCAGAGCTGCGGAGGCCCTGGAGC >Seq ID NO:195 AGGGGCCGGGCCGGGGACGAGGCCTCCTGCGGACACCAGCTCCTCTCTCCGCCGTCACCGGGGAGGCCGGGGATCCTTGCAGGGCTTCTGGGGCGTTGGGAAACCCAGGCCCGCCGGCCACGGCTCTAAAATGAAGAGGGCGGAGACCCCAGTGAAGAGCACCCCCCGCAATCCGCGCAGATCCCTCCCAGAGAAGGCCCT >Seq ID NO:196 TCCCTTTACCAGCTGGGATCCCGGGCTTTCAGTTCCCTGCAACTCCTGTTCACCAACACTGCAGAGCCACGTGGCGCGGCACTGTGTGGACTGCGTGTGTCCCTAACGAGACGAGCACAATCCCGTGAGCTGAACAGAGGTGCCCACTGAAGGACAGAAACGGCGCTCCAAGGGCACAAGGCTGTGGGGCTTAAAAAGGGG >Seq ID NO:197 GGCACAAGAAGAGGACGTTCCTGCGGCCACGTATCATCGGCGGCTCCTCCTCGCTGCCCGGCTCGCACCCCTGGCTGGCCGCCATCTACATCGGGGACAGCTTCTGCGCCGGGAGCCTGGTCCACACCTGCTGGGTGGTGTCGGCCGCCCACTGCTTCTCCCACAGGTGCACCTCCTCTGGGCCCCAGTCACCTGCCCTGAGGCCCCACACACCATCCAGCGTCACTATGCGCCTGTCCCCA >Seq ID NO:198 GGAACCTTGGGCTGGTTTCACGCAAATCCGTTTGGGGCGAGCCTCGGTTTCCCGGCAGCGGTGGGAAAGGGCGCGAGCGGCCAGCCATGGCGCGCGGACCCTTCCCGCCGGCGGCGTCACAGCGGCGTCTCCTCCTGCTCCAGCGCGTGCGGCGGTGCGTGGCACGAGGGCGGCAGCGACGCCAGCTTCAGCAgcgcgggg >Seq ID NO:199 TCCGGGGTGGGGGAGGGGAGGCGCGGGGCCCCGGGAGGGAGGGGTCGGGAGGCGTCGGCTGGGCCTGGCGGTGGGGGAGGAGAGGAGAGCAGCGAGGAGGCCCTGGAGTTCCCGAGGCGGGGGGCCGGGGTGCGAGTGGGCGACGCGAGGCGCCCCTCCCTGGGCTGCAGGGAGAGCGCTGAGAGCGCGGAGACGCCGCGG >Seq ID NO:200 CATCTATTGCCTGCTGACTAGGGGAGGGGGAAAGTAACAGTGTCTACAAAGGGCCTAGTGGTAAGGAATGAAACAGGGCGTTGTGTGGAGCAAGTCTTTGGGCAGGCTTGGGAAGGAGAAAACAGGGTCGCCGGGGCGGTAGGTGAAGTCTTCGGAGGCGGCTGGGCTACTGGGGTCAGAGAGCGGGGAGGCGGCGGCGGCACCTGAGCCCCAGGACTCCGCGTCGCTGGCGGGGCTTGGGGGACCGGGCAGGCAGGGGACGCACTGCGGCGGCAGGAGGCGCTCCCGGGCACCGCCTCCGGGCAGCCCTTGATCCGCCAGGCGCAGTGTCTCGGCCAGAGCCCAGATGTAGTTGTAGGCGAAGCGCAGCGTCTCGAT >Seq ID NO:201 AAATACCGCATCTTTCATCCTCCAGTTCTGTTTGTTTACTTGGCGAGACTTGGAGCTGAGGTCATTTGGAGCTGTTTAATACTGAAGAGCTGTTGAGCACTGGAAAGTGCTGTGTAACCCTGGAAAAGAACCGTGTAACGCTGCAGAAGTGTGTGGTAGCTATGCCGGAGGTGTCATCTAAAGGTGCTACCATTTCCAAGA >Seq ID NO:202 AATTTGTTCAAAGTGTACTATTCTTTTGGCATACTGTTAAGTCCACAAATACTATATGTGACATTTTGTCTTCAGATtgatgcaggatttttcttggccccttcactggactcccaaccggagggaacacttgctcggcccaccacattcaaccccttgtgggtgggagcctgtgagcgagtgagtgcaggatccagccgg >Seq ID NO:203 GCCGTCCCTCCCTTTTTGGCCCCCGCTGCTCTTCCCATCGTCATCAACTCAGCCTCCACGTGATGGGGAGGTCACTCCCTCCCATCCGGTCCCAGCCCCACTCACCTGGGAACCCGTGCCGCTGGCCCCACCTTGGCCTAGCATCCGTCCAACCCTGCAGCGACCGCTCCCCACAGCCCCTGCTCCCTTGTTCTCCAGAGCCGCGCCCCTGCTGCAGGCCTCCCCCTCGCTGTCCCCAAG >Seq ID NO:204 ccgcccccccagccccgcTGGGAGTGTCTGGGGGCCGCGCCCAGCTGGGTCGGGACGCGCTCCCTGAGCTGCCCGAGCTCCGCGGGGACTCGGGCCGGGATCCTCGGGCGGCTGCATTGGCCGGGGCCGGGGCCGGGAGCGGGCCATGATGGGCCGGCGGCGCGCCTTCGCCGTGGACGGCCGGGGTGAGTCACCCACCCCCAGG >Seq ID NO:205 cccccccagccccgcTGGGAGTGTCTGGGGGCCGCGCCCAGCTGGGTCGGGACGCGCTCCCTGAGCTGCCCGAGCTCCGCGGGGACTCGGGCCGGGATCCTCGGGCGGCTGCATTGGCCGGGGCCGGGGCCGGGAGCGGGCCATGATGGGCCGGCGGCGCGCCTTCGCCGTGGACGGCCGGGGTGAGTCACCCACCCCCAG >Seq ID NO:206 cgaacgaacgaacgaacgaaAGAGGCAACCGCTCTGTGGCTTCCTGAGGTTCACTCCGGGGTTTCCATCTTGACTCCCTCCCTCCGCTGATTCTGGAACTTCCTCTGGGGCAGCTCAGTGCGGTCCTCGCCGCACGGGACAGCCAGGGGGAGCGCGCGCTCTGCTCCCTCGCGGCCCGGTCGCTCCTGCCCAGCCCGGGCA >Seq ID NO:68 CCTgccgccgccgccgcctcccgcccccggccAGGAGTCGCGCGTGACGCGGTTCGCCGCAGGAGCCTCGAAGGCGCGGCGCCGGCGAGCCCTTCCCCGGCAGGCGCGTGGGTGGTAGCGGCCAATTTGACAGTTTcccgggccgggcggccagcgcggaggcgccacgctcgggtcgggggcgggctgacgccgccgccg >Seq ID NO:207 gcgacgtggcgggcggggtgggctgggccgcgctgcgcgggccgggccgtcggcgctcggtcggcgggcgggcggcgcgggccgcgagctgctggggccgagcccgagcccggcccgccctcggccgcgcggccgcccagcaagggtgcgggtcccgcgcgggtcccggcccgccgccgccgcgcTAACCCCGCCTCCCCTTCCCCCTCTTGTCCCCCCGTGCGCAGGGCTTCCTCAGCCGCCGCCTCAAGGGCTCCATCAAGCGCACCAAGAGCCAGCCCAAGCTG >Seq ID NO:208 GCGGGGACACAAGGGACCACCCCCCACCGGAAATGACTcgggcccgccccccgggccccgcggggccTCACTCAGTGGCTCCGGCTCCTCGGCGCACTTCTCCTGGAGCTGGTGCAGGAACTCACGGAACCTGCTGGGGAGGAGCTCTCCTAGGAAGGCGCCCAAGAAGTCGGGGTCCTCCCTGGCCACGCGCCTCCGGGGGCGCTCGCGCTCTCCAGGCCCTGGCTGCCTGGGCGCCGATTCCCGGGACGCGCCGGCCGACAGCAGGGGAGGCGGCAGCAGGGACCGCAGCAGCCCCCGCTTCCGCACGGCCCGCCGGGTCGCGGTGAGCAAGGCGGGCAGGCGCGGCGGGAGGCGTCCGACGCCCACCCCGGG >Seq ID NO:209 CCGTAGTTGTCTCCTGGCTCCTGGGGTCCGCGGAGCTCTAGATGTACCTGCAGCTCCTCCCGAGTCCTGCAAGCCACCCTTGTCCCTCTTCTCCCGCTCACCCCCCGGCCCCCCCATCTCTTTTGCTATTCCGGGGAAGGCCACGCAGGGTGCAACCCGGACGCGCCCCCGGGGGAAGCCCGCGACGCAGCAGCCACACCC >Seq ID NO:172 GACGCTGCGCAGCTGCCCAGCAGCCAGCCGAGGAGACGCGCGGGGCCCCGCGGTTCCTCCGGGCGGCTGCAGAGAGCTAAAGGGGAGGCCGAGCGGGCGGTGGAGGAGGTGCGGCGGCGGCGGCTGCTTCCCGCGCCACCCAGCTCGCTGTCGTCCACCAGCACGCTCTCCAGCACCGTGCGCAGCGAGCGCCGCAGCTTG >Seq ID NO:210 actttgggaggccgaggcaggtggatcacaaggtcaggagttcgagaccagcctggccaatatggtgaaaccctgtctctactaaaaataacaaaaattcgccaggcgtagtggtgcacacctgtagtcccagctacttggaaggctgaggcaggagaatcgcttgaacccagaaggcagaggttgcagtgagccgagatc >Seq ID NO:211 CCTGGACGGCTCCAGGCTGCAGATGGCCATGTATAATTCACGGGATTTGTAAGACTCTGCATCTGCTCCGTTGCTCATTCTTCAGTTGTCAGACAGACATAATCCCGAGCCTCTTATTTTATAACACAGATCTGCCAACGGGAGTGGGGAGGGGAGCCGGGGAGGCAGAGCCGCTGCCAGGAGAACTCAGAAATAATTTGG >Seq ID NO:212 GCGCTCCCGGCCCATCCCTTAGCCCCGCGGCGGCCGTGTGGGCCGGAGGCTGCCTGCACCGCGTCAGGGAGGCCGGCCTAGAAACCCTCCCTCCCAGAAGAAAGCCGATCCCAGTTCAGGTGGGGTCTTCCTCGGTTGCGTACCTGGCTGGAGCCGAGCTGGTGGGCGGCCGGCAGCCGGCGTTTCTGGTGATGACAGCCC >Seq ID NO:213 CTGTTCGCTCTCTCCCGCCAGGATCCGAGTTCTTGTTCCCCGACAACTCGTGGGAGTGCCCGCTCCAGCGTGGTTTCTCCTTCTCCGGGAACGGCCCCAGTGAGCAGAAGAGCTGGGTCTGGATTGCATGGCTCTGTCTCCCAGCCATGGTTGACTAATTTAGGGACACTCATGGCTCTGGACTCCTGCAGCCAGCCAGAC >Seq ID NO:177 ctcgggcagggtcgCAGGGGCGGGGGTGGCAGGGGAGCGGGTGGCAGCCCCGCGGGTCACAGCGCCGCCGCCGCCCATGCTGCTGCCCCTAGCCTGCCTGCACGGCCGCGTCGCTCAGTGCCTGACCTCCTTGCTTTTGCTTGCAGAGCCGCTCCCGAggccccggcgcggcgcgagggcgcggggcgcggcgtccacaggcgccgaggctgcccccgccgccccgcccgcgAAGATGGCGGCGGAACTCTA >Seq ID NO:154 TCGTGGGCGGGGAGCCGCAGGGTGCTGCGCCCGGCCTCGGCGAAACGCGTGAAGAGGCGCGCGGCGCGCAGAGGAAAGCAgcgcggccgccccgcgggcccTGGCGCTTGCAGCCGCAGCATCAACTCGCGGCGCTCGTTGCGACCCAGGCTCAGCTCCGCGGTGCGCAGGGCCTGGCGCCTTCGCGGCTGCCCGCCCGGG >Seq ID NO:214 TCTCAAGCCCTACCTGTTATCTCAAGCCCTACCTGTGATCTCATGCTGCCGGAGCTCATTGTACTTGTAGGACTGCTCCAGAGGCTTGATGGATGAGTGGTAGATCTTCCGAAGCCGCTGCAGCACCGCTGGAGACAGAGAGGGCCGGGGGAAGAGCATCACGCAGGTGCGATCCAGGCAGCTCCTCCATTGTGGAGGGGCCTCACCACCCAGGGCAGCTCCACCCCTGCCTGGTGGGCAGCAAGTGCTGTTTGCAGCCCAGCGACTGTGCAATGTATTTGCATATGGGGAGCTGGCCCACATCTCAACTCGCAGAAACCTCCAAATGAAAAGGCATTCTCCTACCCACCCCC >Seq ID NO:215 ggtgggaggctgaggcgggcagatcacttgaggtcaggagttcaagaccagcctggccaacctgctgaaagcccatctctaccaaaaatacaaaaaattagccgggtgtggtggcacgtgcctgttatcccagctacttgggaggctgaggcacaagaatcgcttggaccccggaagtggaggttgcagtgagccgagatc >Seq ID NO:88 GTGTTTGAGAAGGACTTCGGCCCCATAGACCCGGAGTGCACCTGCCCCACGTGCCAAAAGTAGGCAGGATGGCACTGGGAGCTGGGGCAGGGCATGGAGGGGACAGGGCCTGGCCGTGCTGAGCTGTCCCCTGCCGCTCTACAGGCACAGCCGCGCCTTCCTGCACGCACTGCTGCACAGTGACAACACGGCCGCGCTGCACCACCTCACGGTCCACAACATCGCCTACCAGGTGAGCCAGTGCCCGGGGCAAGGTGGGCGGGGGTGTCCTAGGTGCGTATGCCCCACGCTGACCTCCCCTCCCCGCAGCTGCAGCTCATGAGCGCCGTCCGCACCAGCATCGTGGAGAAGCGCTTCCCGGACTTCGTGCGGGACTTCATGGGCGCCATGTACGGGGATCCCACCCTCTGTCCCACCTGGGCCACTGACGCTCTGGCCTCTGTGGGAATCACACTGGGCTGAC >Seq ID NO:216 GCAAATGACAGTCACTTCACGCCAGACTCTCACAGTCCTTCACACGCCACTCCCACTGCCTCAGGGAACCACAAGCACAGGCATCGCCCCGCCCGGCGTCCTCCTCCAAAGATTGGGGCACCAGGACCGCGGGCCCCCACTCCCACCCAGCACAAAGAGTCCGGCGCTCAGAGCTAGCGGTTTCCCGAGGACTCACCACCA >Seq ID NO:217 CTGCGTGAGTCAGCTGTGTCTGAGGAGGGGATCCTGGGCTGGGCTGGGCGGCCCTACTCGGCGGGTCAGGCGGAGGGGCGCGGCCGGGATCCCGGGGGCCCTCTTTGGAGCAGGGAACTCTAGAAGGGCGGGGAGCCCCCATCCTCTGCTCCACTCTGGGCCTCCAGGCAGAAGAATATGTTAGAAAAGAATCCAGAGTGT
圖1:所選結直腸癌特異性標誌物在訓練集中甲基化水平。 圖2:所選結直腸癌特異性標誌物在測試集中甲基化水平。 圖3:結直腸癌(附圖中也稱腸癌)特異性Seq ID NO:52在訓練集各個癌種中的甲基化水平。 圖4:結直腸癌特異性Seq ID NO:52在測試集各個癌種中的甲基化水平。 圖5:AllModel在訓練集和測試集中結直腸癌和其它癌種模型分值分佈。 圖6:AllModel在訓練集和測試集中的ROC曲線。 圖7:結直腸癌特異性標誌物組合1模型的分值。 圖8:結直腸癌特異性標誌物組合1模型的ROC曲線。 圖9:結直腸癌特異性標誌物組合2模型分值。 圖10:結直腸癌特異性標誌物組合2模型ROC曲線。 圖11:所選肺癌組織特異性甲基化標誌物在訓練集中甲基化水平。 圖12:所選肺癌組織特異性甲基化標誌物在測試集中甲基化水平。 圖13:肺癌組織特異性甲基化標誌物Seq ID NO:91在訓練集各個癌種中的甲基化水平。 圖14:肺癌組織特異性甲基化標誌物Seq ID NO:91在測試集各個癌種中的甲基化水平。 圖15:所有肺癌組織特異性甲基化標誌物在訓練集和測試集中肺癌和其它癌種模型分值分佈。 圖16:所有肺癌組織特異性甲基化標誌物在訓練集和測試集中的ROC曲線。 圖17:肺癌組織特異性甲基化標誌物組合1模型的分值。 圖18:肺癌組織特異性甲基化標誌物組合1模型的ROC曲線。 圖19:肺癌組織特異性甲基化標誌物組合2模型分值。 圖20:肺癌組織特異性甲基化標誌物組合2模型ROC曲線。 圖21:肝癌甲基化標誌物在訓練集中甲基化水平。 圖22:肝癌甲基化標誌物在測試集中甲基化水平。 圖23:肝癌甲基化標誌物Seq ID NO:137在訓練集各個癌種中的甲基化水平。 圖24:肝癌甲基化標誌物Seq ID NO:137在測試集各個癌種中的甲基化水平。 圖25:所有肝癌標誌物在訓練集和測試集中肝癌和其它癌種模型分值分佈。 圖26:所有肝癌甲基化標誌物在訓練集和測試集中的ROC曲線。 圖27:肝癌甲基化標誌物組合1模型分值。 圖28:肝癌甲基化標誌物組合1模型的ROC曲線。 圖29:肝癌甲基化標誌物組合2模型分值。 圖30:肝癌甲基化標誌物組合2模型ROC曲線。 圖31:所選乳腺癌甲基化標誌物在訓練集中甲基化水平。 圖32:所選乳腺癌甲基化標誌物在測試集中甲基化水平。 圖33:乳腺癌甲基化標誌物Seq ID NO:21在訓練集各個癌種中的甲基化水平。 圖34:乳腺癌甲基化標誌物Seq ID NO:21在測試集各個癌種中的甲基化水平。 圖35:所有乳腺癌甲基化標誌物在訓練集和測試集中乳腺癌和其它癌種模型分值分佈。 圖36:所有乳腺癌甲基化標誌物在訓練集和測試集中的ROC曲線。 圖37:乳腺癌甲基化標誌物組合1模型分值。 圖38:乳腺癌甲基化標誌物組合1模型的ROC曲線。 圖39:乳腺癌甲基化標誌物組合2模型分值。 圖40:乳腺癌甲基化標誌物組合2模型ROC曲線。 圖41:所選胃癌及/或食管癌組織特異性甲基化標誌物在訓練集中甲基化水平。 圖42:所選胃癌及/或食管癌組織特異性甲基化標誌物在測試集中甲基化水平。 圖43:胃癌及/或食管癌組織特異性甲基化標誌物Seq ID NO:172在訓練集各個癌種中的甲基化水平。 圖44:胃癌及/或食管癌組織特異性甲基化標誌物Seq ID NO:172在測試集各個癌種中的甲基化水平。 圖45:所有胃癌及/或食管癌組織特異性甲基化標誌物在訓練集和測試集中胃癌及/或食管癌和其它癌種模型分值分佈。 圖46:所有胃癌及/或食管癌組織特異性甲基化標誌物在訓練集和測試集中的ROC曲線。 圖47:胃癌及/或食管癌組織特異性甲基化標誌物組合1模型的分值。 圖48:胃癌及/或食管癌組織特異性甲基化標誌物組合1模型的ROC曲線。 圖49:胃癌及/或食管癌組織特異性甲基化標誌物組合2模型分值。 圖50:胃癌及/或食管癌組織特異性甲基化標誌物組合2模型ROC曲線。 圖51:胰腺癌標誌物在訓練集中甲基化水平。 圖52:胰腺癌標誌物在測試集中甲基化水平。 圖53:胰腺癌標誌物Seq ID NO:202在訓練集的各個癌種中的甲基化水平。 圖54:胰腺癌標誌物Seq ID NO:202在測試集的各個癌種中的甲基化水平。 圖55:所有胰腺癌標誌物在訓練集和測試集中胰腺癌和其它癌種模型分值分佈。 圖56:所有胰腺癌標誌物在訓練集和測試集中的ROC曲線。 圖57:胰腺癌標誌物組合1模型分值。 圖58:胰腺癌標誌物組合1模型的ROC曲線。 圖59:胰腺癌標誌物組合2模型分值。 圖60:胰腺癌標誌物組合2模型ROC曲線。
TW202403054A_112124613_SEQL.xml

Claims (84)

  1. 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中結直腸癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為140bp-510bp,優選200bp-470bp。
  2. 如請求項1所述的用途,其中所述非結直腸癌的癌症或泛癌包括肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
  3. 如請求項1或2所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 52-90。
  4. 如請求項1-3中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
  5. 如請求項1-4中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
  6. 一種構建區分結直腸癌與其他非結直腸癌的預測模型的方法,其包括: (1)獲得結直腸癌樣品和非結直腸癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為140bp-510bp,優選200bp-470bp;優選地,所述非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
  7. 如請求項6所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 52-90; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
  8. 如請求項6或7所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
  9. 如請求項6-8中任一項所述的方法,其中步驟(2)包括使用邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
  10. 如請求項6-9中任一項所述的方法構建的結直腸癌預測模型。
  11. 一種診斷結直腸癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項6-9中任一項所述的方法以構建結直腸癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷。
  12. 一種用於檢測結直腸癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種結直腸癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述結直腸癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域包含以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;或基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變; 優選地,其中所述位點的長度為140bp-510bp,優選200bp-470bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID No. 52-90。
  13. 如請求項12所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
  14. 如請求項12或13所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非結直腸癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
  15. 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為120bp-500bp,優選200bp-480bp。
  16. 如請求項15所述的用途,其中所述非肺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
  17. 如請求項15或16所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135。
  18. 如請求項15-17中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
  19. 如請求項15-18中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
  20. 一種構建區分肺癌與其他非肺癌的癌症的預測模型的方法,其包括: (1)獲得肺癌樣品和非肺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為120bp-500bp,優選200bp-480bp;優選地,所述非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
  21. 如請求項20所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
  22. 如請求項20或21所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
  23. 如請求項20-22中任一項所述的方法,其中步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
  24. 如請求項20-23中任一項所述的方法構建的肺癌預測模型。
  25. 一種診斷肺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項20-23中任一項所述的方法以構建肺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肺癌進行判斷,大於閾值預測為肺癌,反之預測為其它癌種。
  26. 一種用於檢測肺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為120bp-500bp,優選200bp-480bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 24、65、76和91-135。
  27. 如請求項26所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
  28. 如請求項26或27所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肺癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
  29. 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肝癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為100bp-550bp,優選150bp-480bp。
  30. 如請求項29所述的用途,其中所述非肝癌的癌症或泛癌包括結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
  31. 如請求項29或30所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
  32. 如請求項29-31中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
  33. 如請求項29-32中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
  34. 一種構建區分肝癌與其他非肝癌的癌症的預測模型的方法,其包括: (1)獲得肝癌樣品和非肝癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為100bp-550bp,優選150bp-480bp;優選地,所述非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
  35. 如請求項34所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
  36. 如請求項34或35所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
  37. 如請求項34-36中任一項所述的方法,其中步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
  38. 如請求項34-37中任一項所述的方法構建的肝癌預測模型。
  39. 一種診斷肝癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項34-37中任一項所述的方法以構建肝癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肝癌進行判斷,大於閾值預測為肝癌,反之預測為其它癌種。
  40. 一種用於檢測肝癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肝癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肝癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為100bp-550bp,優選150bp-480bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
  41. 如請求項40所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
  42. 如請求項40或41所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肝癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
  43. 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中乳腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp。
  44. 如請求項43所述的用途,其中所述非乳腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
  45. 如請求項43或44所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51。
  46. 如請求項43-45中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
  47. 如請求項43-46中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
  48. 一種構建區分乳腺癌與其他非乳腺癌的癌症的預測模型的方法,其包括: (1)獲得乳腺癌樣品和非乳腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp;優選地,所述非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
  49. 如請求項48所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
  50. 如請求項48或49所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
  51. 如請求項48-50中任一項所述的方法,其中步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的閾值。
  52. 如請求項48-51中任一項所述的方法構建的乳腺癌預測模型。
  53. 一種診斷乳腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項48-51中任一項所述的方法以構建乳腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得模型預測分值,使用預測分值並根據閾值對樣本是否是乳腺癌進行判斷。
  54. 一種用於檢測乳腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種乳腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述乳腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 1-51。
  55. 如請求項54所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
  56. 如請求項54或55所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非乳腺癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
  57. 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胃癌及/或食管癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp。
  58. 如請求項57所述的用途,其中所述除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
  59. 如請求項57或58所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 23、72、143、150、152、157和160-187。
  60. 如請求項57-59中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
  61. 如請求項57-60中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
  62. 一種構建區分胃癌及/或食管癌與除胃癌和食管癌以外的癌症的預測模型的方法,其包括: (1)獲得胃癌及/或食管癌樣品和除胃癌和食管癌以外的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp;優選地,所述除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
  63. 如請求項62所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 23、72、143、150、152、157和160-187; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
  64. 如請求項62或63所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
  65. 如請求項62-64中任一項所述的方法,其中步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
  66. 如請求項62-65中任一項所述的方法構建的胃癌及/或食管癌預測模型。
  67. 一種診斷胃癌及/或食管癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項62-65中任一項所述的方法以構建胃癌及/或食管癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。
  68. 一種用於檢測胃癌及/或食管癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種胃癌及/或食管癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述胃癌及/或食管癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域包含以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變; 優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID No. 23、72、143、150、152、157和160-187。
  69. 如請求項68所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
  70. 如請求項68或69所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或除胃癌和食管癌以外的癌症患者的前述特異性甲基化標誌物;優選地,所述除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
  71. 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胰腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;或基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為130bp-530bp,優選150bp-480bp。
  72. 如請求項71所述的用途,其中所述非胰腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
  73. 如請求項71或72所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
  74. 如請求項71-73中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
  75. 如請求項71-74中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
  76. 一種構建區分胰腺癌與其他非胰腺癌的癌症的預測模型的方法,其包括: (1)獲得胰腺癌樣品和非胰腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為130bp-530bp,優選150bp-480bp;優選地,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
  77. 如請求項76所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
  78. 如請求項76或77所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
  79. 如請求項76-78中任一項所述的方法,其中步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練並根據訓練集的樣本確定模型的閾值。
  80. 如請求項76-79中任一項所述的方法構建的胰腺癌預測模型。
  81. 一種診斷胰腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項76-79中任一項所述的方法以構建胰腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷。
  82. 一種用於檢測胰腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種胰腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述胰腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為130bp-530bp,優選150bp-480bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
  83. 如請求項82所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
  84. 如請求項82或83所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非胰腺癌的癌症患者的特異性甲基化標誌物;優選地,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
TW112124613A 2022-07-04 2023-06-30 癌症特異性甲基化標誌物及其應用 TW202403054A (zh)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
CN202210787313.0A CN117344012A (zh) 2022-07-04 2022-07-04 胃癌和/或食管癌特异性甲基化标志物及其应用
CN2022107874129 2022-07-04
CN2022107873130 2022-07-04
CN2022107875028 2022-07-04
CN202210787502.8A CN117385028A (zh) 2022-07-04 2022-07-04 结直肠癌特异性甲基化标志物及其应用
CN2022107876232 2022-07-04
CN202210787412.9A CN117385027A (zh) 2022-07-04 2022-07-04 肺癌特异性甲基化标志物及其诊断肺癌的应用
CN2022107874256 2022-07-04
CN202210787623.2A CN118127150A (zh) 2022-07-04 2022-07-04 胰腺癌特异性甲基化标志物及其诊断胰腺癌的应用
CN202210786398.0A CN117385026A (zh) 2022-07-04 2022-07-04 乳腺癌特异性甲基化标志物及其诊断乳腺癌的应用
CN202210787425.6A CN117363728A (zh) 2022-07-04 2022-07-04 肝癌组织特异性甲基化标志物及其诊断肝癌的应用
CN2022107863980 2022-07-04

Publications (1)

Publication Number Publication Date
TW202403054A true TW202403054A (zh) 2024-01-16

Family

ID=89454391

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112124613A TW202403054A (zh) 2022-07-04 2023-06-30 癌症特異性甲基化標誌物及其應用

Country Status (2)

Country Link
TW (1) TW202403054A (zh)
WO (1) WO2024008040A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070141582A1 (en) * 2005-12-15 2007-06-21 Weiwei Li Method and kit for detection of early cancer or pre-cancer using blood and body fluids
KR101142131B1 (ko) * 2009-11-05 2012-05-11 (주)지노믹트리 장암 진단을 위한 장암 특이적 메틸화 마커 유전자의 메틸화 검출방법
WO2016170348A2 (en) * 2015-04-22 2016-10-27 Mina Therapeutics Limited Sarna compositions and methods of use
US11851711B2 (en) * 2017-09-29 2023-12-26 Arizona Board Of Regents On Behalf Of The University Of Arizona DNA methylation biomarkers for cancer diagnosing
CN114507731B (zh) * 2020-11-16 2024-06-04 腾辰生物科技(上海)有限公司 一种用于辅助癌症诊断的甲基化标志物及试剂盒
CN112779334B (zh) * 2021-02-01 2022-05-27 杭州医学院 一种用于前列腺癌早期筛查的甲基化标志物组合及筛选方法
CN114317736B (zh) * 2021-08-19 2022-09-13 广州市基准医疗有限责任公司 用于泛癌种检测的甲基化标志物组合及其应用

Also Published As

Publication number Publication date
WO2024008040A1 (zh) 2024-01-11

Similar Documents

Publication Publication Date Title
CN108866192B (zh) 基于甲基化修饰的肿瘤标记物stamp-ep1
US20190136330A1 (en) Method for screening cancer
CN114317738B (zh) 用于检测胃癌淋巴结节转移相关的甲基化生物标记物或其组合及应用
WO2012047899A2 (en) Novel dna hypermethylation diagnostic biomarkers for colorectal cancer
CN108866191B (zh) 基于甲基化修饰的肿瘤标记物stamp-ep2
WO2022161076A1 (zh) 用于肺结节良恶性检测的甲基化标记物或其组合及应用
WO2023142630A1 (zh) 一种用于膀胱尿路上皮癌诊断的检测方法和试剂盒
CN115516110A (zh) 结直肠癌dna甲基化的检测方法及试剂
WO2023226939A1 (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
JP2023513039A (ja) 特定の遺伝子のCpGメチル化の変化を利用した膀胱癌診断用組成物およびその使用
WO2012167112A2 (en) Gastric cancer biomarkers
CN101457254B (zh) 用于肝癌预后的基因芯片和试剂盒
WO2022262831A1 (zh) 用于评估肿瘤的物质及其方法
CN113999901B (zh) 心肌特异性甲基化标记物
WO2024008040A1 (zh) 癌症特异性甲基化标志物及其应用
WO2020221314A1 (zh) 基于甲基化修饰的肿瘤标记物stamp-ep7及其应用
CN104531866B (zh) 用于结肠直肠癌中使用的生物标志物
CN115772566B (zh) 用于辅助检测肺癌体细胞erbb2基因突变的甲基化生物标记物及其应用
CN118127150A (zh) 胰腺癌特异性甲基化标志物及其诊断胰腺癌的应用
WO2022188776A1 (zh) 可用于胃癌her2伴随诊断的基因甲基化标记物或其组合和应用
CN117344012A (zh) 胃癌和/或食管癌特异性甲基化标志物及其应用
CN117385026A (zh) 乳腺癌特异性甲基化标志物及其诊断乳腺癌的应用
TWI753455B (zh) 用以評估個體罹患胃癌或癌前病變之風險的方法、其套組、其分析器及其生物標誌
CN117385027A (zh) 肺癌特异性甲基化标志物及其诊断肺癌的应用
CN117385028A (zh) 结直肠癌特异性甲基化标志物及其应用