一種膀胱癌的無創檢測及其復發監測方法
本發明涉及生物技術領域,具體地,涉及一種膀胱癌的無創檢測及其復發監測方法。
膀胱尿路上皮癌是泌尿生殖系統中最常見的惡性腫瘤,具有病灶多,復發率高的特點。由於泌尿系統的癌腫位於腹腔及盆腔,只有用特殊檢查方法檢測,故膀胱癌早期診斷率較低。因此,膀胱癌的早期診斷、早期治療顯得尤為重要。此外,膀胱腫瘤單純手術復發率較高,經尿道膀胱腫瘤切除(TURBT)後臨床面臨的一個重要問題是腫瘤復發,而且腫瘤復發後的病理分級和臨床分期將加重。如果在術後隨訪期間出現肉眼血尿,則要考慮復發的可能性。因此,膀胱癌術後在預防復發的治療期間需要每3個月進行1次膀胱鏡複查。 尿脫落細胞學檢查和膀胱鏡檢查是現有臨床診斷及監測膀胱癌復發最重要的兩種手段。其中,尿脫落細胞學檢查是對尿液或膀胱沖洗液進行癌細胞檢測。尿細胞學檢測膀胱癌雖然具有無創、特異性高的優點,但其檢測敏感性與癌細胞惡性分級密切相關,對於低級別尿路上皮病變敏感性較差,且受主觀因素影響大。 膀胱鏡目前是臨床診斷膀胱癌的金標準,也是判斷膀胱癌復發隨診的主要方法之一。但膀胱鏡檢查的局限性在於其侵入性、檢測過程造成患者痛苦難以接受並且價格昂貴,還有可能錯過平坦型病變和上尿路的病變,因此其他輔助診斷方法常伴隨膀胱鏡進行檢測。膀胱鏡針對出現血尿、脫落細胞結果有異常的患者進行檢測更合適。 很多惡性腫瘤細胞為DNA非整倍體性,並且非整倍體腫瘤的侵襲性或惡性程度往往比形態相似的二倍體腫瘤更高。針對細胞內染色體數目或結構的異常是腫瘤發生發展的根本原因,UroVysion使用螢光原位雜交技術(Fluorescence in situ hybridization,FISH)檢測技術,主要用於染色體數目和結構畸變的研究。但FISH探針特異性高但敏感性稍差,且價格也較昂貴,目前FISH檢測同類產品在中國臨床應用率並不高。 因此,本領域迫切需要開發能夠快速、高效診斷膀胱癌,並且可作為膀胱癌早期篩查及復發檢測的方法。
本發明的目的在於提供一種能夠快速、高效診斷膀胱癌,並且可作為膀胱癌早期篩查及復發檢測的方法。 在本發明第一方面,提供了一種非治療性非診斷性的檢測樣本中突變位元點的方法,包括步驟: (i)提供一待測樣本; (ii)對所述待測樣本進行測序,從而獲得所述樣本的基因組序列; (iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對,從而獲得基因組序列在參考基因組上的位置資訊; (iv)將所述的參考基因組分成M個區域片段,其中每個區域片段為一個視窗b,計算每個視窗b的拷貝數; (v)對步驟(iv)的每個視窗 b進行Z檢驗,從而計算每個視窗b的Z值;和 (vi)根據步驟(v)所得到的Z值,計算全基因組混亂度評分(WGAS,Whole genomic abnormality score);和 (vii) 基於全基因組混亂度評分(WGAS),對於評分大於預定值Vd的樣本進一步檢測所述樣本中的腫瘤相關的突變位點,從而獲得所述待測樣本中的腫瘤相關突變位元點的檢測結果。 在另一優選例中,所述的腫瘤選自下組:膀胱癌、乳腺癌、卵巢癌、胃癌、肺癌、結直腸癌、食管癌、胰腺癌、皮膚癌、前列腺癌、食管癌、膽囊癌、甲狀腺癌、肝癌、喉癌、口咽癌、白血病、或其組合。 在另一優選例中,所述預定值Vd為60。 在另一優選例中,在步驟(ii)中,對所述待測樣本無需提取其中DNA,直接進行測序,從而獲得所述樣本的基因組序列。 在另一優選例中,在步驟(ii)中,可提取所述待測樣本中的DNA,進行測序,從而獲得所述樣本的基因組序列。 在另一優選例中,可對步驟(ii)獲得的所述樣本基因組序列直接檢測樣本中的突變位元點。 在另一優選例中,所述參考基因組指該物種(如人)所有染色體的全長、單條或多條染色體的全長、單條或多條染色體的一部分、或其組合。 在另一優選例中,所述參考基因組可以是連續的,也可以是不連續的。 在另一優選例中,所述參考基因組包括全基因組。 在另一優選例中,所述參考基因組的覆蓋率達到全基因組的50%以上,較佳地,60%以上,更佳地,70%以上,更佳地,80%以上,最佳地,95%以上。 在另一優選例中,所述樣本來自待檢測個體。 在另一優選例中,所述待檢測個體為人或非人哺乳動物。 在另一優選例中,所述樣本為固體樣本或液體樣本。 在另一優選例中,所述樣本包括體液樣本。 在另一優選例中,所述樣本選自下組:血液、血漿、組織間隙液、淋巴液、腦脊液、尿液、唾液、房水、精液、胃腸道分泌液、或其組合。 在另一優選例中,所述樣本選自下組:迴圈腫瘤細胞(CTC)、細胞外游離DNA(cfDNA)、外泌體、或其組合。 在另一優選例中,所述測序選自下組:單端測序、雙端測序、或其組合。 在另一優選例中,所述步驟(iv)還包括校正每個視窗b的拷貝數,計算每個視窗b校正後的拷貝數的步驟。 在另一優選例中,所述校正方法選自下組:Loess校正、權重法、殘差法、或其組合。 在另一優選例中,根據基因組序列在參考基因組上的位置資訊,統計落到每個視窗b的序列數目、鹼基分佈、參考基因組的鹼基分佈。 在另一優選例中,根據每個視窗b的序列及鹼基含量,校正每個視窗b的拷貝數。 在另一優選例中,用下述公式計算每個窗口b的Z值:; 其中,i為1至M的任意正整數;M為參考基因組分成的視窗的總數量,其中M為≥50的正整數,較佳地,50≤M≤105
,更佳地,100≤M≤105
,最佳地,200≤M≤105
; xi
為所述待測樣本在第i個視窗bi
檢測的拷貝數值;bi
為第i個窗口。 在另一優選例中,所述正常對照樣本指同一物種的正常人的同類樣本。 在另一優選例中,用下述公式計算全基因組混亂度評分:其中,mb
為排序在第m%的視窗,pb
為排序在第p%的窗口,m為30-98,較佳地,40-97,更佳地,60-96,最佳地,80-95,最佳地,95,p為80-100,較佳地,85-100,更佳地,90-100,最佳地,100,且p-m≥2(較佳地,≥5,更佳地,≥10,更佳地,≥15,最佳地,≥20)。 在另一優選例中,所述計算全基因組混亂度評分之前,包括如下步驟: (a)根據參考基因組序列特徵去除基因組上著絲粒、端粒、隨體、異染色質等高通量測序測不到的區域,去除基因組上著絲粒、端粒、隨體、異染色質附近L長度的區域,L為小於3M的任何長度;或 (b)根據樣本的拷貝數特徵去除基因組上著絲粒、端粒、隨體、異染色質等高通量測序測不到的區域。 在另一優選例中,所述步驟(v)之前還包括如下步驟: (iv1)根據步驟(iv)的每個視窗b的拷貝數,計算正常對照樣本中每個視窗b的變異係數CVi
;和 (iv2)將所述CVi
從小到大排序,去除最大的前n%的視窗,其中,n 為大於0,小於等於5的任意數值,較佳地,n=1、2、2.5、3、3.1、4、4.2或5。 在另一優選例中,所述變異係數CVi
用下述公式進行計算:; 其中,μi
為正常對照樣本在視窗bi
的拷貝數的算術平均值,用如下公式計算:; 其中,j為1至N的任意正整數;N為正常對照樣本的總數量,其中N為≥30的正整數,較佳地,30≤N≤108
,更佳地,50≤N≤107
,最佳地,100≤N≤104
;Xj
指第j個正常對照樣本在所述視窗bi
檢測的拷貝數值; σi
為正常對照樣本在所述視窗bi
的拷貝數的標準差,用如下公式計算:; 式中,N、j、Xj
、μi
和σi
的定義如上。 在另一優選例中,所述突變位點針對選自下組的基因:FGFR3、PIK3CA、TERT、TP53、TSC1、ERBB2、ELF3、ARID1A、KDM6A、RXRA、ERCC2、STAG2、FBXW7、NFE2L2、HRAS、AKT1、或其組合。 在另一優選例中,所述的突變位點選自下表: 在另一優選例中,所述突變位點選自下組:FGFR3、S249C、Y375C、R248C、G372C、A393E、K652E, PIK3CA、E545K、E542K、H1047R、H1047L、Q546R、E545D、E545G、TERT、c.1-124C>T、c.1-146C>T、c.1-124C>A、c.1-138_1-139CC>TT、TP53、R175H、G245S、G245D、R248Q、R248W、R248L、R249S、R273H、R273C、R273L、R282W、R213X、R196X、R306X、W146X、E298X, TSC1、E636Gfs、H68R、F158C、W347X、T417I、L576C、L576_P583>C, ERBB2、S310Y、S310F、I767M、R678Q、G292R、ELF3、E262Q、R251P、ARID1A、S614L、KDM6A、Q555*、W1193*、RXRA、S427F、S427Y 、ERCC2、N238S、Y14C、STAG2、Q593*、FBXW7、R505G、S546L、NFE2L2、R18G、R18P、R34G、E79K、E63K、HRAS、Q61L、Q61R、G13R、G12C、G12V、G13V、AKT1、E17K、E49K、或其組合。 在另一優選例中,對所述全基因組混亂度評分(WGAS)<40-100,較佳地,<50-80,更佳地<60-70的所述待測樣本(例如對於WGAS值為20-100,較佳地30-80,更佳地40-70的樣本)進行突變位元點的檢測。 在另一優選例中,對所述全基因組混亂度評分(WGAS)≥60,較佳地≥70,更佳地≥80,更佳地≥100,最佳地≥120(例如在100-1000,較佳地100-500,更佳地100-200樣本)的所述待測樣本進行突變位元點的檢測。 在本發明第二方面,提供了一種無創的用於評估泌尿系統癌症復發風險的輔助診斷設備,包括: Malbac-L擴增單元(設備或模組); 測序單元(設備或模組); 泌尿系統腫瘤相關突變位元點檢測單元(設備或模組);和 全基因組混亂度評分單元(設備或模組);其中,所述全基因組混亂度評分單元(設備或模組)用於執行本發明第一方面中步驟(iii)-(vi)的任務,並輸出所得到的全基因組混亂度評分結果。 在另一優選例中,所述裝置還包括樣品預處理單元(設備或模組)。 在另一優選例中,所述預處理單元(設備或模組)用於對待測樣本進行沉澱處理、和/或裂解處理。 在另一優選例中,所述待測樣本為細胞樣本。 在另一優選例中,所述待測樣本為尿液。 在另一優選例中,所述測序單元(設備或模組)包括二代測序儀和/或三代測序儀。 在本發明協力廠商面,提供了一種診斷膀胱癌的方法,包括步驟: (i)提供一待測樣本;進行測序,從而獲得所述樣本的基因組序列; (iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對,從而獲得基因組序列在參考基因組上的位置資訊; (iv)將所述的參考基因組分成M個區域片段,其中每個區域片段為一個視窗b,計算每個視窗b的拷貝數; (v)對步驟(iv)的每個視窗b進行Z檢驗,從而計算每個視窗b的Z值;和 (vi)根據步驟(v)所得到的Z值,計算全基因組混亂度評分(WGAS,Whole genomic abnormality score); (vii) 基於全基因組混亂度評分(WGAS),對於評分大於預定值Vd的樣本進一步檢測所述樣本中的腫瘤相關的突變位點,從而獲得所述待測樣本中的腫瘤相關突變位元點的檢測結果;和 (viii)基於全基因組混亂度評分(WGAS)和所述樣本中的腫瘤相關的突變位點的綜合結果,從而診斷膀胱癌。 在另一優選例中,在步驟(viii)中,按以下判斷標準進行判斷: (a) 高風險:同時滿足標準S1:WGAS評分≥60;和標準S2:泌尿系統腫瘤相關突變位元點檢測結果呈陽性; (b) 中風險:只滿足標準S1或只滿足標準S2; (c) 低風險:標準S1和標準S2均不滿足。 在另一優選例中,所述突變位點是腫瘤復發相關突變位點。 應理解,在本發明範圍內中,本發明的上述各技術特徵和在下文(如實施例)中具體描述的各技術特徵之間都可以互相組合,從而構成新的或優選的技術方案。限於篇幅,在此不再一一累述。
本發明人通過廣泛而深入的研究,首次建立了一種有效且可提高膀胱癌檢測的靈敏性和通用性的診斷膀胱癌的方法,具體地,通過計算全基因組混亂度評分(WGAS),並結合樣本中的突變位元點,從而診斷膀胱癌。在此基礎上,本發明人完成了本發明。術語
如本文所用,術語“突變頻率”指已確診腫瘤患者的檢出頻率。 如本文所用,術語“拷貝數變異(Copy Number Variations,CNV)”是指樣本基因組染色體或染色體片段拷貝數異常,包括但不限於染色體非整倍體、缺失、重複,大於1000bp鹼基的微缺失、微重複。 如本文所用,術語“全基因組混亂度值(Whole Genomic Abnormality Score,WGAS)”是根據樣本基因組染色體或染色體片段拷貝數異常計算得到的分值,分值檢測範圍包括但不限於全基因組、特定的染色體、染色體片段、特定基因。 如本文所用,術語“Z值(Z-score)”也叫標準分值(standard score),是一個數值與平均數的差再除以標準差的過程。用公式表示為:其中x為某一具體數值,μ為算術平均值,σ為標準差;Z值代表著原始數值和參考平均值之間的距離,是以標準差為單位計算。 如本文所用,術語“系統”、“設備”為相同含義。 在本發明中,所述突變位點沒有特別限制,可以是已知的位點,也可以是將來鑒定出的與腫瘤(優選膀胱癌)相關的位點。 如本文所用,術語“設備”、“單元”、“模組”可互換使用。參考基因組
在本發明中,以人為例,所述參考基因組可以是全基因組,也可以是部分基因組。並且,所述參考基因組可以是連續的,也可以是不連續的。當所述參考基因組為部分基因組時,所述參考基因組的總覆蓋率(F)為全基因組的50%以上,較佳地,較佳地,60%以上,更佳地,70%以上,更佳地,80%以上,最佳地,95%以上,其中,所述總覆蓋率(F)指參考基因組占全基因組的百分比。 在一優選實施方式中,所述參考基因組為全基因組。 在一優選實施方式中,所述參考基因組為該物種(如人)所有染色體的全長、單條或多條染色體的全長、單條或多條染色體的一部分、或其組合。測序
在本發明中,可用常規的測序技術和平臺進行測序。測序平臺不受特別限制,其中第二代測序平臺包括(但不限於):Illumina公司的GA、GAII、GAIIx、HiSeq1000/2000/2500/3000/4000、X Ten、X Five、NextSeq500/550、MiSeq、MiSeqDx、MiSeq FGx、MiniSeq;Applied Biosystems的SOLiD;Roche的454 FLX;Thermo Fisher Scientific(Life Technologies)的Ion Torrent、Ion PGM、Ion Proton I/II;華大基因的BGISEQ1000、BGISEQ500、BGISEQ100;博奧生物集團的BioelectronSeq 4000;中山大學達安基因股份有限公司的DA8600;貝瑞和康的NextSeq CN500;紫鑫藥業旗下子公司中科紫鑫的BIGIS;華因康基因HYK-PSTAR-IIA。 第三代單分子測序平臺包括(但不限於):Helicos BioSciences公司的HeliScope系統,Pacific Bioscience的SMRT系統,Oxford Nanopore Technologies的GridION、MinION。測序類型可為單端(Single End)測序或雙端(Paired End)測序,測序長度可為30bp、40bp、50bp、100bp、300bp等大於30bp的任意長度,測序深度可為基因組的0.01、0.02、0.1、1、5、10、30倍等大於0.01的任意倍數。 在本發明中,優選Illumina公司的HiSeq2500高通量測序平臺,針對基因組混亂度評分(WGAS)的測序類型為單端(Single End)測序,測序長度41bp,測序數據量為5M,針對熱點突變檢測的測序類型為單端(Single End)測序,測序長度91bp,測序數據量為2M。資料處理
在本發明中,資料處理通常包括以下步驟: (a)對待測樣本的基因組進行核酸提取、測序,以獲得基因組序列; (b)將所述樣本的基因組序列比對到參考基因組,得到序列在參考基因組上的位置; (c)將參考基因組分成一定長度的視窗,計算每個視窗b的拷貝數; (d)對每個視窗b進行Z檢驗,計算每個視窗的Z值;和 (e)計算全基因組混亂度評分(WGAS)。 其中,在步驟(a)中,具體還包括:所述待測樣本的類型為體液,體液可以是血液、組織間隙液(簡稱組織液或細胞間液)、淋巴液、腦脊液、尿液、唾液,檢測目標為體液中的脫落細胞等。所述待測樣本基因組DNA的提取方式包括(但不限於):柱式提取、磁珠提取。對樣本進行文庫構建,採用高通量測序平臺,對樣本進行測序。 其中,在步驟(b)中,具體還包括:將測序結果去掉接頭及低質量數據,比對到參考基因組。參考基因組可為全基因組、任意染色體、染色體的一部分。參考基因組通常選擇已被公認確定的序列,如人的基因組可為NCBI或UCSC的hg18(NCBI36)、hg19(GRCh37)、hg38(GRCh38),或任意一條染色體及染色體的一部分。比對軟體可用任何一種免費或商務軟體,如BWA(Burrows-Wheeler Alignment tool)、SOAPaligner/soap2(Short Oligonucleotide Analysis Package)、Bowtie/Bowtie2。將序列比對到參考基因組,得到序列在基因組上的位置。可以選擇在基因組上唯一比對的序列,去除基因組上多處比對的序列,消除重複序列對拷貝數計算帶來的誤差。 其中,在步驟(c)中,具體還包括:將基因組分成一定長度的視窗,根據測的資料量,視窗長度也可以為100bp-3,000,000bp(3M)範圍內相同或不同的整數。視窗的數量可以是1,000-30,000,000範圍內的任意整數。根據測的序列在基因組上的位置,統計落到每個視窗的序列數目、鹼基分佈、參考基因組的鹼基分佈。根據每個視窗的序列及鹼基GC含量,校正每個視窗的拷貝數,校正方法包括但不限於Loess校正,計算每個視窗校正後的拷貝數。 其中,在步驟(d)中,具體還包括:取N(N為不少於30的自然數)個正常人的樣本,同樣的提取、建庫、測序條件,重複上述步驟(a)-(c),作為參考資料集。對於每個視窗bi
,都對應N個正常拷貝數值。 計算正常對照樣本拷貝數的算術平均值μi
,算術平均值μi
計算公式為:; 計算正常對照樣本拷貝數的標準差σi
,標準差的計算公式為:X₁,X₂,X₃,......Xj
為正常樣本的拷貝數值。 計算待檢測樣本每個視窗bi
的Z值,Z值的計算公式為:; xi
為視窗bi
檢測的拷貝數值。 其中,在步驟(e)中,具體還包括:在整個基因組、某條染色體、染色體片段或基因周圍存在高重複區域,如近著絲粒、端粒、隨體、異染色質等區域。首先去除高重複區域,以消除對混亂度計算的影響。 在一優選實施方式中,去除的方法包括(但不限於): 根據參考基因組序列特徵去除 去除基因組上著絲粒、端粒、隨體、異染色質等高通量測序測不到的區域,去除基因組上著絲粒、端粒、隨體、異染色質附近L長度的區域,L可以為小於3M的任何長度;或 根據正常樣本的拷貝數特徵去除 對於每個視窗bi,計算正常對照樣本在這個視窗的變異係數CVi
(Coefficient of Variation),CVi
計算公式為:; μi
為正常對照樣本拷貝數的算術平均值,σi
為正常對照樣本拷貝數的標準差。 CV從小到大排序,去除最大的前n%的視窗,n可以為大於0,小於等於5的任意數值。 其中,在步驟(e)中,具體還包括全基因組混亂度評分(WGAS)的計算方式: 首先確定混亂度的檢測範圍,檢測範圍包括但不限於整個基因組、特定染色體、特定染色體片段或特定的基因等1M到基因組長度(如人的基因組約3G)範圍內的任意值。在混亂度檢測範圍內,去除重複序列影響的視窗的Z值取絕對值,Z值絕對值從小到大排序,並將排好序的Z值絕對值平均分配到0%-100%範圍內,其中Z值絕對值最小值被分配至0%,Z值絕對值的最大值被分配給100%。計算對應於第m%到第p%範圍內的各視窗Z值絕對值的累計值,其中,m為30-98,較佳地,40-97,更佳地,60-96,最佳地,80-95,最佳地,95;p為80-100,較佳地,85-100,更佳地,90-100,最佳地,100,且p-m≥2(較佳地≥5,更佳地≥10,更佳地≥15,最佳地≥20),所述的累計值即為全基因組混亂度評分(WGAS),計算公式為:; mb
為排序在第m%的窗口,pb
為排序在第p%的窗口。用WGAS的值鑒定體液中腫瘤負荷。全基因組混亂度 評分 (WGAS)
根據樣本全基因組染色體或染色體片段拷貝數異常計算得到的分值,分值檢測範圍包括但不限於全基因組、特定的染色體、染色體片段、特定基因。檢測樣本中突變位元點的方法
本發明還提供了一種有效檢測樣本中突變位元點的方法,包括步驟: (i)提供一待測樣本; (ii)對所述待測樣本進行測序,從而獲得所述樣本的基因組序列; (iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對,從而獲得基因組序列在參考基因組上的位置資訊; (iv)將所述的參考基因組分成M個區域片段,其中每個區域片段為一個視窗b,計算每個視窗b的拷貝數; (v)對步驟(iv)的每個視窗 b進行Z檢驗,從而計算每個視窗b的Z值; (vi)根據步驟(v)所得到的Z值,計算全基因組混亂度評分(WGAS,Whole genomic abnormality score);和 (vii) 基於全基因組混亂度評分(WGAS),對於評分大於預定值Vd的樣本進一步檢測所述樣本中的腫瘤相關的突變位點,從而獲得所述待測樣本中的腫瘤相關突變位元點的檢測結果。 在一優選實施方式中,本發明的有效檢測樣本中突變位元點的方法,包括步驟: (i)提供一待測樣本; (ii)提取待測樣本的基因組DNA; (iii)對所提取的基因組DNA進行靶向測序,從而獲得所述樣本的涵蓋突變位元點的鹼基序列; (iv)將步驟(iii)獲得的鹼基序列與參考基因組進行比對,得到序列在基因組上的位置,選擇在基因組上唯一比對的序列; (v) Call 原始SNP,統計膀胱癌熱點突變。本發明的檢測方法可大幅度提高樣本中突變位元點的檢出率。診斷膀胱癌的方法
本發明還提供了一種診斷膀胱癌的方法,包括步驟: (i)提供一待測樣本;進行測序,從而獲得所述樣本的基因組序列; (iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對,從而獲得基因組序列在參考基因組上的位置資訊; (iv)將所述的參考基因組分成M個區域片段,其中每個區域片段為一個視窗b,計算每個視窗b的拷貝數; (v)對步驟(iv)的每個視窗b進行Z檢驗,從而計算每個視窗b的Z值;和 (vi)根據步驟(v)所得到的Z值,計算全基因組混亂度評分(WGAS,Whole genomic abnormality score); (vii) 基於全基因組混亂度評分(WGAS),對於評分大於預定值Vd的樣本進一步檢測所述樣本中的腫瘤相關的突變位點,從而獲得所述待測樣本中的腫瘤相關突變位元點的檢測結果;和 (viii)基於全基因組混亂度評分(WGAS)和所述樣本中的腫瘤相關的突變位點的綜合結果,從而診斷膀胱癌。 在一優選實施方式中,本發明的有效且可提高膀胱癌檢測的靈敏性和通用性的診斷膀胱癌的方法,包括步驟: (i)提供一待測樣本; (ii)提取待測樣本的基因組DNA; (ii)對所述待測樣本進行測序,從而獲得所述樣本的基因組序列; (iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對,從而獲得基因組序列在參考基因組上的位置資訊; (iv)將所述的參考基因組分成M個區域片段,其中每個區域片段為一個視窗b,計算每個視窗b的拷貝數; (v)對步驟(iv)的每個視窗 b進行Z檢驗,從而計算每個視窗b的Z值; (vi)根據步驟(v)所得到的Z值,計算全及基因組混亂度評分(WGAS);和 (vii) 對步驟(ii)中所獲得的基因組序列進行突變位點的檢測,從而診斷膀胱癌。 本發明的主要優點包括: (1)本發明首次建立一種膀胱癌無創檢測和復發監測方法,主要是通過檢測膀胱癌患者尿沉澱的全基因組混亂度評分(WGAS)並結合膀胱癌熱點突變,進而提供無創、有效的膀胱癌早期篩查及復發檢測的手段。 (2)本發明提供的膀胱癌診斷方法可進一步提升NGS無創檢測尿沉澱全基因組混亂度評分(WGAS)在不同分級樣本中的靈敏性。 (3)本發明提供的膀胱癌診斷方法可提高膀胱癌檢測的靈敏性和通用性。 (3)本發明的方法可減少膀胱癌患者檢測時取樣帶來的痛苦,實現無創檢測。 (4)本發明的方法可有效的檢測某些常規檢測很難取樣或者無法取樣的患者。 下面結合具體實施例,進一步陳述本發明。應理解,這些實施例僅用於說明本發明而不用於限制本發明的範圍。下列實施例中未注明詳細條件的實驗方法,通常按照常規條件如Sambrook等人,分子克隆:實驗室手冊(New York:Cold Spring Harbor Laboratory Press,1989)中所述的條件,或按照製造廠商所建議的條件。除非另外說明,否則百分比和份數按重量計算。 除非有特別說明,否則實施例所用的材料均為市售產品。實施例 1
在本實施例中,對37例來自膀胱癌患者癌組織/尿沉澱、非腫瘤泌尿系統病變患者的尿沉澱和正常人的尿沉澱進行檢測。詳細實施過程如下:1 .對樣本基因組進行核酸提取、測序
在本實施例中,檢測樣本來源為膀胱癌患者尿液,尿液經離心後取尿沉澱,再用PBS緩衝液洗過之後,提取尿沉澱中的基因組DNA(gDNA)。核酸提取採用康為世紀生物科技有限公司的CW2298核酸提取試劑盒,提取方法按照康為世紀生物科技有限公司提供的產品說明書操作。 採用康為世紀生物科技有限公司的CW2585建庫試劑盒進行文庫構建,上機測序。上機測序採用Illumina公司的HiSeq2500高通量測序平臺,按照Illumina公司提供的說明書操作。測序類型為單端(Single End)測序,測序長度41bp,測序數據量為5M。2 .將序列比對到參考基因組,得到序列在基因組上的位置
將測序結果去掉接頭及低質量數據,比對到參考基因組。參考基因組為人的基因組UCSC的hg19(GRCh37),比對軟體為BWA(Burrows-Wheeler Alignment tool),採用默認參數,將序列比對到參考基因組,得到序列在基因組上的位置,選擇在基因組上唯一比對的序列。3 .將參考基因組分成一定長度的視窗,計算每個視窗的拷貝數
將基因組分成15489個視窗b(區域),每個視窗b長度為200K,根據序列在基因組上的位置,統計落到每個視窗b的序列數目、鹼基分佈、參考基因組的鹼基分佈。根據每個視窗b的序列及鹼基GC含量,校正每個視窗b的拷貝數,校正方法為Loess,計算每個視窗b校正後的拷貝數。4 .計算每個窗口的 CV 值
取100個正常人的樣本,同樣的提取、建庫、測序條件,重複上述1、2、3步驟,獲得正常對照樣本資料,作為參考資料集,計算待檢測樣本每個視窗bi
的CV值。 對於每個視窗bi
,都對應N(本實施例N=100)個正常拷貝數值。 計算正常對照樣本拷貝數的算術平均值μi
,算術平均值μi
計算公式為:; 計算正常對照樣本拷貝數的標準差σi
,標準差的計算公式為:; X₁,X₂,X₃,......Xj
為正常樣本的拷貝數值。 計算待檢測樣本每個視窗bi
的CV值,CV值的計算公式為:。5 .對每個視窗進行 Z 檢驗,計算每個視窗的 Z 值
計算待檢測樣本每個視窗bi
的Z值,Z值的計算公式為:; xi
為視窗bi
檢測的拷貝數值。6 .計算全基因組混亂度評分 (WGAS)
在本實施例中,每個視窗CV從小到大排序,去除最大的前5%的視窗,不參與以下混亂度計算。混亂度的檢測範圍為整個基因組;Z值從小到大排序,計算第m%到第p%視窗Z值絕對值的累計值,其累計值即為基因組混亂度(GAS)。計算公式為:; mb
為排序在第m%的視窗,pb
為排序在第p%的視窗,其中,m為95,p為99。 檢測結果表明,對於膀胱癌患者的組織或者尿沉澱樣本,其WGAS值大多分佈在60-110之間(約占90%),部分病情嚴重的病人甚至大於115。對於非腫瘤泌尿系統病變患者和正常人的尿沉澱樣本,其WGAS值大多分佈在40-60之間(約占99%)。這表明,基因組混亂度(GWAS值)可有效地和較為客觀地反映膀胱癌的腫瘤負荷。 此外,為進一步提高檢測的準確度和靈敏度,可進行進一步的突變基因和位點的篩查,以便儘早診斷和更有針對性地進行治療。實施例 2 全基因組混亂度評分+膀胱癌熱點突變的檢測
在本實施例中,對部分物件同時進行全基因組混亂度評分和膀胱癌熱點突變的檢測。以FGFR3基因上的S249C、Y375C和PIK3CA基因上的E545K、H1047R為例,進行以下操作。 1.樣本基因組的提取,PCR擴增及建庫、測序 在本實施例中,檢測樣本為3例膀胱癌患者術後隨訪時採集的尿液,以及2例正常人的尿液。尿液經離心後取尿沉澱,再用PBS緩衝液洗過之後,採用康為世紀生物科技有限公司的CW2298核酸提取試劑盒,提取方法按照康為世紀生物科技有限公司提供的產品說明書操作。 選取膀胱癌突變頻率最高的熱點基因設計突變位點檢測panel,進一步提高WGAS在不同樣本中的靈敏性。以FGFR3基因上的S249C、Y375C和PIK3CA基因上的E545K為例,引物的鹼基序列如下:以提取的gDNA作為範本,用突變位元點檢測panel中的引物進行PCR擴增。再用康為世紀生物科技有限公司的CW2585建庫試劑盒進行文庫構建,上機測序。上機測序採用Illumina公司的HiSeq2500高通量測序平臺,按照Illumina公司提供的說明書操作。測序類型為單端(Single End)測序,測序長度91bp,測序數據量為2M。 2.將序列比對到參考基因組上 將測序結果去掉接頭及低質量數據,比對到參考基因組。參考基因組為人的基因組UCSC的hg19(GRCh37),比對軟體為BWA(Burrows-Wheeler Alignment tool),採用默認參數,將序列比對到參考基因組,得到序列在基因組上的位置,選擇在基因組上唯一比對的序列。 3. Call 原始SNP,統計膀胱癌熱點突變 將上一步得到的bam檔進行變異檢測,軟體為varscan,採用預設參數,得到原始SNP的vcf檔。然後使用annovar進行臨床注釋,過濾低品質以及無意義突變。最後統計膀胱癌相關熱點突變,結果輸出到excel表格,即總結出樣本綜合資訊,用以評估膀胱癌診斷的結果,如下表。上表中,樣品1和樣品2在之後的隨訪中均出現了肉眼血尿,需考慮復發的可能性,而樣品3並未出現。 本發明的上述實施例表明,採用本發明方法,結合全基因組混亂度評分和膀胱癌熱點突變的檢測,可以更準確、更有效地進行膀胱癌無創檢測的靈敏性和通用性。 在本發明提及的所有文獻都在本申請中引用作為參考,就如同每一篇文獻被單獨引用作為參考那樣。此外應理解,在閱讀了本發明的上述講授內容之後,本領域技術人員可以對本發明作各種改動或修改,這些等價形式同樣落於本申請所附權利要求書所限定的範圍。
圖1顯示了本發明實施例1中的檢測結果。