TWI822789B - 用於資料分類之卷積神經網路系統及方法 - Google Patents

用於資料分類之卷積神經網路系統及方法 Download PDF

Info

Publication number
TWI822789B
TWI822789B TW108119093A TW108119093A TWI822789B TW I822789 B TWI822789 B TW I822789B TW 108119093 A TW108119093 A TW 108119093A TW 108119093 A TW108119093 A TW 108119093A TW I822789 B TWI822789 B TW I822789B
Authority
TW
Taiwan
Prior art keywords
vector
cancer
neural network
convolutional neural
reference genome
Prior art date
Application number
TW108119093A
Other languages
English (en)
Other versions
TW202014202A (zh
Inventor
維吉爾 尼庫拉
安童 伐洛夫
達亞 菲力波法
馬修 H 拉森
M 西拉斯 馬厄
多斯 桑托斯 皮曼塔 莫尼卡 波爾提拉
羅伯特 阿貝 帕恩 卡列夫
Original Assignee
美商格瑞爾有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商格瑞爾有限責任公司 filed Critical 美商格瑞爾有限責任公司
Publication of TW202014202A publication Critical patent/TW202014202A/zh
Application granted granted Critical
Publication of TWI822789B publication Critical patent/TWI822789B/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Primary Health Care (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

提供在多種不同癌症病況中對一物種之一癌症病況進行分類,其中對於多個訓練個體中之每一訓練個體,獲得所述各別訓練個體之癌症病況及包含其基因型資訊之基因型資料構築體。將基因型構築體格式化成包括一個或多個向量之相應向量集。將向量集提供至一包含一卷積神經網路路徑之網路架構,所述卷積神經網路路徑包括至少一個與一第一濾波器相關聯之第一卷積層,所述第一濾波器包括一第一組濾波器權重;及一評分器。對應於向量集於所述網路架構中之輸入的分數係自所述評分器獲得。使用各別分數與所述相應訓練個體之相應癌症病況的比較來調整所述濾波器權重,由此訓練所述網路架構以對癌症病況進行分類。

Description

用於資料分類之卷積神經網路系統及方法
相關申請案之交叉引用
本申請案主張2018年6月1日提交的題為「用於資料分類之卷積神經網路系統及方法(CONVOLUTIONAL NEURAL NETWORK SYSTEMS AND METHODS FOR DATA CLASSIFICATION)」之美國臨時專利申請案第62/679,746號的優先權,其內容以引用的方式併入本文中。
本說明書描述使用卷積神經網路,使用來自個體之基因型資訊對所述個體之癌症病況進行分類。
對癌症分子發病機制之瞭解的不斷增加以及下一代測序技術之快速發展正在推動對體液中癌症發展所涉及之早期分子改變的研究。在血漿、血清及尿液無細胞DNA(cfDNA)中已發現與此類癌症發展有關的特定遺傳及表觀遺傳改變。這些改變可以潛在地用作若干類型癌症之診斷生物標記物。參見Salvi等人,2016,「作為癌症之診斷標記物的無細胞DNA:當前見解(Cell-free DNA as a diagnostic marker for cancer:current insights)」,《腫瘤靶點與治療(Onco Targets Ther.)》9:6549-6559。
截至2015年,美國每年共有1,658,370例病例,癌症在世界範圍 內係一個突出的公共健康問題。參見Siegel等人,2015,「癌症統計資料(Cancer statistics)」,《臨床醫師癌症雜誌(CA Cancer J Clin.)》65(1):5-29。篩查計劃及早期診斷對改善癌症患者之無疾病存活期及降低死亡率具有重要影響。由於非侵入性早期診斷方法促進患者順應性,故這些方法可以包含在篩查計劃中。
臨床實踐中使用的基於非侵入性血清之生物標記物包含癌抗原125(CA 125)、癌胚抗原、碳水化合物抗原19-9(CA19-9)及前列腺特異性抗原(PSA),分別用於偵測卵巢癌、結腸癌及前列腺癌。參見Terry等人,2016,「歐洲EPIC組中關於卵巢癌早期偵測生物標記物之前瞻性評價(A prospective evaluation of early detection biomarkers for ovarian cancer in the European EPIC cohort)」,《臨床癌症研究(Clin Cancer Res.)》,2016年4月8日;Epub及Zhang等人,2015,「胰臟癌診斷中之腫瘤標記物CA19-9、CA242及CEA:綜合分析(Tumor markers CA 19-9,CA242 and CEA in the diagnosis of pancreatic cancer:a meta-analysis)」,《國際臨床與實驗醫學雜誌(Int J Clin Exp Med.)》8(7):11683-11691。
這些生物標記物一般具有低特異性(大量假陽性結果)。因此,正在積極地尋求新的非侵入性生物標記物。對癌症分子發病機制之瞭解的不斷增加以及諸如下一代核酸測序技術之類新分子技術的快速發展正在促進對體液中早期分子改變的研究。
無細胞DNA(cfDNA)可見於血清、血漿、尿液及其他體液中(Chan等人,2003,「臨床生物化學家協會臨床科學評審委員會血漿、血清及尿液中之無細胞核酸:分子診斷中之新工具(Clinical Sciences Reviews Cormmittee of the Association of Clinical Biochemists Cell-free nucleic acids in plasma,serum and urine:a new tool in molecular diagnosis)」,《臨床生物化學年鑒(Ann Clin Biochem.)》40(Pt 2):122-130),表示一種「液體切片」,其係特定疾病之循環圖。參見De Mattos-Arruda及Caldas,2016,「乳癌中無細胞循環腫瘤DNA作為液體切片(Cell-free circulating tumour DNA as a liquid biopsy in breast cancer)」,《分子腫瘤學(Mol Oncol.)》10(3):464-474。
在Mandel及Metais(Mandel及Metais),「人血漿中之核酸(P.Les acides nucleiques du plasma sanguin chez l' homme)」,Seances,1948,Soc Biol Fil.,142(3-4):241-243)展示了cfDNA之存在。cfDNA來源於壞死或凋亡的細胞,且其一般由所有類型之細胞釋放。Stroun等人顯示,在患者之cfDNA中可發現特定癌症改變。參見Stroun等人,1989,「癌症患者之血漿中發現的DNA之腫瘤特徵(Neoplastic characteristics of the DNA found in the plasma of cancer patients)」,《腫瘤學(Oncology)》46(5):318-322)。許多後續論文證實cfDNA含有特定腫瘤相關改變,諸如突變、甲基化及複本數變異(CNV),由此確定循環腫瘤DNA(ctDNA)之存在。參見Goessl等人,2000,「在體液中之螢光甲基化特異性聚合酶鏈反應用於基於DNA之前列腺癌偵測(Fluorescent methylation-specific polymerase chain reaction for DNA-based detection of prostate cancer in bodily fluids)」,《癌症研究(Cancer Res.)》,60(21):5941-5945;及Frenel等人,2015,「循環無細胞DNA之連續下一代測序評價腫瘤純系針對分子形式靶向藥物投與的反應(Serial next-generation sequencing of circulating cell-free DNA evaluating tumor clone response to molecularly targeted drug administration)」,《臨床癌症研究》,21(20):4586-4596。
血漿或血清中之cfDNA已得到充分表徵,而尿液cfDNA(ucfDNA)在傳統上表徵較少。然而,近期的研究展示,ucfDNA亦可作為有前景的生物標記物源。參見Casadio等人,2013,「作為早期膀胱癌診斷標記物之尿 液無細胞DNA完整性:初步資料(Urine cell-free DNA integrity as a marker for early bladder cancer diagnosis:preliminary data)」,《泌尿科腫瘤學(Urol Oncol.)》31(8):1744-1750。
在血液中,細胞凋亡係確定cfDNA之量的常見事件。然而,在癌症患者中,cfDNA之量看來亦受到壞死的影響。參見Hao等人,2014,「血清中之循環無細胞DNA作為結腸直腸癌診斷及預後預測之生物標記物(Circulating cell-free DNA in serum as a biomarker for diagnosis and prognostic prediction of colorectal cancer)」,《英國癌症雜誌(Br J Cancer)》111(8):1482-1489;及Zonta等人,2015,「DNA完整性評估、癌症研究應用(Assessment of DNA integrity,applications for cancer research)」,《臨床化學進展(Adv Clin Chem)》70:197-246。由於細胞凋亡看來為主要釋放機制,故循環cfDNA之尺寸分佈揭示約167bp之短片段富集(參見Heitzer等人,2015,「循環腫瘤DNA作為癌症之液體切片(Circulating tumor DNA as a liquid biopsy for cancer)」,《臨床化學(Clin Chem.)》61(1):112-123;及Lo等人,2010,「母體血漿DNA測序揭示胎兒之全基因組遺傳及突變譜(Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus)」,《科學轉化醫學(Sci Transl Med.)》2(61):61ra91),其對應於由凋亡細胞產生之核小體。
在腫瘤患者之血清及血漿中循環cfDNA之量看來明顯高於健康對照中之量,尤其是在晚期腫瘤患者中要高於早期腫瘤中。參見Sozzi等人,2003,「游離循環DNA之定量作為肺癌之診斷標記物(Quantification of free circulating DNA as a diagnostic marker in lung cancer)」,《臨床腫瘤學雜誌(J Clin Oncol.)》21(21):3902-3908;Kim等人,2014,「循環無細胞DNA作為胃癌患者中有前景的生物標記物:診斷有效性及手術切除之後cfDNA顯著減少(Circulating cell-free DNA as a promising biomarker in patients with gastric cancer:diagnostic validity and significant reduction of cfDNA after surgical resection)」,《外科治療與研究年鑒(Ann Surg Treat Res)》86(3):136-142;以及Shao等人,2015,「卵巢癌中無細胞DNA之定量分析(Quantitative analysis of cell-free DNA in ovarian cancer)」,《腫瘤學快報(Oncol Lett)》10(6):3478-3482)。癌症患者中循環cfDNA之量的變化要高於健康個體(Heitzer等人,2013,「癌症患者之血漿DNA中腫瘤特異性複本數改變的確定(Establishment of tumor-specific copy number alterations from plasma DNA of patients with cancer)」,《國際癌症雜誌(Int J Cancer.)》133(2):346-356)且循環cfDNA之量受包含促炎性疾病在內之若干生理及病理病況影響。參見Raptis及Menard,1980,「正常人及全身性紅斑狼瘡患者中血漿DNA之定量及表徵(Quantitation and characterization of plasma DNA in normals and patients with systemic lupus erythematosus)」,《臨床研究雜誌(J Clin Invest.)》66(6):1391-1399;及Shapiro等人,1983,「患有良性或惡性胃腸疾病之患者中循環DNA水準之測定(Determination of circulating DNA levels in patients with benign or malignant gastrointestinal disease)」,《癌症(Cancer.)》51(11):2116-2120。
鑒於循環cfDNA以及其他形式基因型資料作為診斷指標之前景,本領域中需要處理此類資料以便得出用於癌症診斷之準確分類器的方式。
本揭示案藉由提供對一物種之一癌症病況進行分類的穩健技術,解決了背景中所標識之缺點。本揭示案之網路架構學習卷積神經網路路徑之卷積層內的參數,當所述卷積神經網路路徑在輸入中之某個空間位置處看到某一特定類型之特徵時活化。藉由針對一訓練集訓練所述卷積神經網路獲得一 卷積層中每一濾波器之初始權重。因此,所述網路架構之操作產生的特徵比歷史上用於對癌症病況進行分類之特徵要複雜得多。
在一個態樣中,對於所述物種之多個訓練個體中的每一訓練個體,獲得所述個體之癌症病況及基因型資料構築體。每一資料構築體經格式化成包括多個向量之相應向量集,所述多個向量具有多個元素。所述向量集被提供至包括至少一個卷積神經網路路徑之一網路架構。所述至少一個卷積神經網路路徑中每一層之輸出用作所述至少一個積神經網路路徑中另一層中之輸入或最終評分器之輸入。所述至少一個卷積神經網路路徑包含卷積層,所述卷積層各自具有至少一個濾波器,所述濾波器包括一組濾波器權重。響應於一向量集於一卷積神經網路路徑中之輸入,將輸入值提供至所述卷積神經網路路徑中一卷積層。由此引起所述層將作為以下之函數計算的中間值饋入所述卷積神經網路路徑中之另一層中:(i)與所述層相關聯的至少一組濾波器權重及(ii)所述多個輸入值;並引起所述卷積神經網路路徑中之最後一層將來自所述卷積神經網路路徑最後一層之值饋入所述評分器中。因此,自所述評分器獲得分數,每一分數對應於一向量集,且將這些分數與個體癌症病況相比較。使用此比較調整所述架構之至少一組濾波器權重,由此訓練所述架構以對癌症病況進行分類。
本揭示案之一個態樣提供一種方法,在所述方法中,使用包含至少一個卷積神經網路路徑之網路架構確定在多種不同癌症病況中一物種之一癌症病況(例如癌症類型、特定癌症類型之癌症分期等)。首先,訓練網路架構。為此,對於一物種之多個訓練個體中的每一各別訓練個體,獲得:(i)所述各別訓練個體之癌症病況及(ii)包含對應於所述物種之一參考基因組之位置的基因型資訊的所述各別訓練個體之基因型資料構築體,由此獲得多個基因型資料構築體。將所述多個基因型資料構築體中之每一基因型資料構築體格式化成包括相 應一個或多個向量之一相應向量集,由此產生多個向量集。所述多個向量集中之每一向量集具有相同數量的向量。將所述多個向量集提供至一網路架構(在一些實施例中,常駐於圖形處理單元記憶體中),所述網路架構包含一用於依序接收所述多個向量集中之向量集的第一卷積神經網路路徑,及一評分器。所述第一卷積神經網路路徑中除所述卷積神經網路路徑中最後一層外的每一層之輸出用作所述第一卷積神經網路路徑中之另一層中之輸入。所述第一卷積神經網路路徑包括一第一卷積層及一第二卷積層。所述第一卷積層包含至少一個第一濾波器,其包括第一組濾波器權重。所述第二卷積層包含至少一個第二濾波器,其包括第二組濾波器權重。在一些實施例中,存在各自包括與所述第一卷積層有關之其自身濾波器權重組的兩個濾波器,以及各自包括與所述第二卷積層有關之其自身濾波器權重組的兩個濾波器。響應於多個向量集中之一各別向量集於所述網路架構中之輸入,執行一程序,所述程序包括(a)將作為所述各別向量集中之值之一第一函數的第一多個輸入值輸入所述第一卷積層中;(b)引起所述第一卷積層將作為以下之第二函數計算的第一多個中間值饋入所述第一卷積神經網路路徑中之另一層中:(i)所述至少一第一組濾波器權重及(ii)所述第一多個輸入值;(c)引起所述第二卷積層饋入作為以下之第三函數的第二中間值:(i)所述至少一第二組濾波器權重及(ii)由所述第二卷積層自所述第一卷積神經網路路徑中之另一層接收的輸入值;及(d)引起所述第一卷積神經網路路徑中之最後一層將來自所述最後一層之多個值饋入所述評分器中。以此方式,自所述評分器獲得多個分數。所述多個分數中之每一分數對應於所述多個向量集中之一向量集於所述網路架構中之輸入。使用所述多個分數中之各別分數與所述多個訓練個體中相應訓練個體之相應癌症病況的比較,以調整(訓練)所述至少一第一組濾波器權重及所述至少一第二組濾波器權重,由此訓練所述網路架構以 對所述多種癌症病況中之一癌症病況進行分類。利用以此方式適當地訓練的網路架構,其可用於基於由獲自測試個體之一生物樣品的基因型資訊形成之向量集的輸入,對測試個體之癌症病況進行評分。在一些實施例中,所述評分器包含一多項邏輯斯蒂回歸成本層(multinomial logistic regression cost layer),其提供k維分數,其中k係正整數,等於所述網路架構可以判別的可能癌症病況之數量。在一些實施例中,所述網路架構包含多個卷積神經網路路徑,每個路徑具有其自身卷積層組及濾波器組,其中每一此類路徑對應於一不同染色體、一不同組染色體之基因組資訊及/或一不同類型之基因型資訊。舉例而言,在一些實施例中,一個卷積神經網路路徑處理來自白血球之基因型資訊,而另一個卷積神經網路路徑處理來自被認為不為白血球之細胞的基因型資訊。所述卷積神經網路路徑各自將值饋入單個評分器中。
其他實施例係關於與本文所述之方法有關的系統、攜帶型消費者裝置及電腦可讀媒體。
如本文所揭示,本文所揭示之任何實施例在適當時可適用於任何態樣。
根據以下詳細描述,本領域中熟習此項技術者將對本揭示案之其他態樣及優勢變得顯而易見,其中僅顯示及描述本揭示案之例示性實施例。應認識到,本揭示案能夠具有其他及不同實施例,且其若干細節能夠在各種顯而易見的方面進行修改,該等修改皆不背離本揭示案。因此,附圖及說明在本質上應視為說明性而非限制性的。
以引用的方式併入
本文中之所有出版物、專利及專利申請案均以全文引用的方式併入。若本文中之術語與併入之參考文獻中之術語之間有衝突,則以本文中之術 語為準。
100‧‧‧系統
102‧‧‧處理核心
103‧‧‧圖形處理單元
104‧‧‧網路介面
106‧‧‧使用者介面
108‧‧‧顯示器
110‧‧‧輸入
111‧‧‧非持續記憶體
112‧‧‧持續記憶體
114‧‧‧通信匯流排
116‧‧‧可選操作系統
118‧‧‧可選網路通信模組(或指令)
120‧‧‧病況評價模組
138‧‧‧網路架構
150‧‧‧中間值
152‧‧‧評分器
202‧‧‧區塊
204‧‧‧區塊
206‧‧‧區塊
208‧‧‧區塊
210‧‧‧區塊
212‧‧‧區塊
214‧‧‧區塊
216‧‧‧區塊
218‧‧‧區塊
220‧‧‧區塊
222‧‧‧區塊
1802‧‧‧區域
1804‧‧‧區域
1806‧‧‧區域
2200‧‧‧方法
2202‧‧‧步驟
2220‧‧‧步驟
2230‧‧‧步驟
2235‧‧‧步驟
2240‧‧‧步驟
2250‧‧‧步驟
2260‧‧‧步驟
2300‧‧‧方法
2302‧‧‧區塊
2304‧‧‧區塊
2306‧‧‧區塊
2400‧‧‧核酸區段
2402‧‧‧胞嘧啶核苷酸鹼基
2405A‧‧‧區域
2405B‧‧‧區域
2405C‧‧‧區域
2470‧‧‧目標序列
2470A‧‧‧目標序列
2470B‧‧‧目標序列
2470C‧‧‧目標序列
2480‧‧‧富集之序列
2480A‧‧‧富集之序列
2480B‧‧‧富集之序列
2480C‧‧‧富集之序列
2504‧‧‧分組
2506‧‧‧四分位數範圍
在附圖之諸圖中藉由實例且並非藉由限制來說明本文所揭示之實施方案。在圖式中之若干視圖中,類似元件符號係指對應部件。
圖1A及1B示出示例性方塊圖,示出根據本揭示案之一些實施例的用於在多種不同癌症中對一物種之一癌症病況進行分類的計算裝置。
圖2A及2B示出根據本揭示案之一些實施例的用於在多種不同癌症病況中對一物種之一癌症病況進行分類的方法之示例性流程圖。
圖3示出根據本揭示案之一些實施例,用於在多種不同癌症病況中對一物種之一癌症病況進行分類的示例性網路架構138。
圖4示出根據本揭示案之一個實施例的網路架構中多個卷積神經網路路徑中之染色體的一組示例性濾波器權重。
圖5示出根據本揭示案之一個實施例,依據癌症分期分開之三陰性乳癌(針對雌激素受體(ER-)、孕酮受體(PR-)及HER2(HER2-)測試呈陰性的乳癌)的本揭示案之卷積網路架構分數。
圖6示出使用各別訓練個體之基因型資料構築體之網路架構的呈接收者操作特徵(ROC)曲線形式之模型效能,所述基因型資料構築體包含呈分組計數形式之無細胞核酸資料。舉例而言,根據本揭示案之一個實施例,每一各別分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練個體之各別分組表示之不同區域上的測序資訊中之序列讀段的數量,其中白血球對分組計數之貢獻未經掩蔽。如此處所示,分析係以5折驗證(5-fold validation)進行的。
圖7示出根據本揭示案之一個實施例的單軌網路架構的圖6之模型之模型效能,其呈真陽性率隨起源組織變化之形式。
圖8示出根據本揭示案之一個實施例的圖6之模型的模型效能,其呈真陽性率隨癌症分期(所有癌症類型)變化形式。NC:無癌症;NI:不提供資訊;以及O:其他。
圖9示出使用訓練個體之基因型資料構築體之網路架構的示例性模型效能,其呈假陽性率相對於真陽性率之接收者操作特徵(ROC)曲線形式,所述基因型資料構築體包含呈單軌分組計數形式之無細胞核酸資料。舉例而言,根據本揭示案之一個實施例,每一各別分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練個體之各別分組表示之不同區域上的測序資訊中之序列讀段的數量,其中對於所述訓練個體,白血球對分組計數之貢獻經掩蔽。如此處所示,分析係以5折驗證進行的。
圖10示出根據本揭示案之一個實施例之單軌網路架構的圖9之模型的示例性模型效能,其呈真陽性率隨起源組織變化之形式。
圖11示出根據本揭示案之一個實施例的圖9之模型之示例性模型效能,其呈真陽性率隨癌症分期(所有癌症類型)變化的形式。NC:無癌症;NI:不提供資訊;以及O:其他。
圖12示出根據本揭示案之一個實施例,使用各別訓練個體之基因型資料構築體的各種軌網路架構之示例性模型效能,所述基因型資料構築體包含呈分組計數形式之無細胞核酸資料,所述分組計數代表自獲自所述訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練個體之各別分組表示的不同區域上之測序資訊中的序列讀段之數量。
圖13顯示使用各別訓練個體之基因型資料構築體的圖3之網路架構之頭對頭(head to head)示例模型效能,其呈ROC曲線形式,所述基因型資料構築體包含呈分組計數形式之無細胞核酸資料,所述分組計數代表自獲自所述訓練個體之生物樣品中之無細胞核酸量測的測序資訊中之序列讀段的數量。關於不同分組計數之序列讀段映射至所述物種之基因組中由所述訓練個體之各別分組表示的不同區域上。在本實例中,根據本揭示案之一個實施例,白血球對分組分數計數之貢獻已掩蔽(黑線)且經歷神經網路分析,且接著與同一訓練集之B分數分析(灰線)相比較。
圖14示出根據本揭示案之一個實施例,基於卷積網路之網路架構的訓練群體內真陽性率隨癌症分期之變化相對於B分數分類器之示例散點圖比較。
圖15示出根據本揭示案之一個實施例,使用各別訓練個體之基因型資料構築體的網路架構之示例模型效能與此等訓練個體中體細胞複本數改變(SCNA)之數量的相關性,所述基因型資料構築體包含呈所述訓練個體之分組計數形式的無細胞核酸資料。
圖16及17示出根據本揭示案之一個實施例,使用各別訓練個體之基因型資料構築體的網路架構之示例模型效能藉由基於訓練個體,掩蔽白血球對一訓練個體之分組計數之貢獻而受到影響,所述基因型資料構築體包含呈單軌分組計數形式之無細胞核酸資料,所述分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練集中之訓練個體之各別分組表示的不同區域上之測序資訊中之序列讀段的數量。在圖16中,黑色圓圈表示正確偏移且灰色中空圓圈表示不正確偏移。
圖18及19示出根據本揭示案之一個實施例,本揭示案之網路架 構如何能夠辨別特定中的體細胞缺失。
圖20及21示出根據本揭示案之一個實施例,本揭示案之樣品網路架構如何能夠辨別特定個體中的體細胞複本數改變(SCNA)。
圖22係根據本揭示案之一些實施例,用於獲得甲基化資訊以達到篩查癌症病況之目的之方法的示例流程圖。
圖23示出根據本揭示案之一些實施例,用於製備測序用核酸樣品之方法的示例流程圖。
圖24係根據本揭示案之一些實施例,用於獲得序列讀段之製程的圖形表示。
圖25示出根據本揭示案之一個實施例,用於計算B分數之示例方法。
圖26示出根據本揭示案之一個實施例之示例向量集。
圖27示出根據本揭示案之一個實施例使用的依據癌症類型實行癌症類型分類的本揭示案之卷積網路架構分數之示例盒狀圖,並且指定每一癌症類型中訓練個體之數量。
圖28示出根據本揭示案之一個實施例,依據侵襲性癌症及非癌症狀態對高死亡率癌症進行癌症類型分類的本揭示案之示例卷積網路架構分數:肝膽癌症、卵巢癌、胰臟癌、食道癌、肺癌(HOPEL)。
圖29示出根據本揭示案之一個實施例,針對HOPEL的本揭示案之示例卷積網路架構分數之ROC。
圖30示出根據本揭示案之一個實施例,針對高信號癌症(HiSigCan)的本揭示案之示例卷積網路架構分數,HiSigCan定義為以下之單一原發性侵襲性癌症:ER乳癌、結腸直腸癌、肺癌、胰臟癌、卵巢癌、肝膽癌症、 胃癌、頭頸癌及食道癌。
圖31示出根據本揭示案之一個實施例,針對HiSigCan的本揭示案之示例卷積網路架構分數之ROC。
圖32及33示出根據本揭示案之一個實施例,依據癌症分期區分之侵襲性癌症的本揭示案之示例卷積網路架構分數,所述侵襲性癌症係以組織學方式確定的侵襲性癌症。
圖34及35示出根據本揭示案之一個實施例,依據癌症分期針對高死亡率癌症進行癌症類型分類的本揭示案之示例卷積網路架構分數:肝膽癌症、卵巢癌、胰臟癌、食道癌、肺癌(HOPEL)。
圖36及37示出根據本揭示案之一個實施例,依據癌症分期區分之高信號癌症(HiSigCan)的本揭示案之示例卷積網路架構分數,HiSigCan定義為以下之單一原發性侵襲性癌症:ER乳癌、結腸直腸癌、肺癌、胰臟癌、卵巢癌、肝膽癌症、胃癌、頭頸癌及食道癌。
圖38及39示出根據本揭示案之一個實施例,依據癌症分期區分之肺癌的本揭示案之示例卷積網路架構分數。
圖40及41示出根據本揭示案之一個實施例,依據亞型區分之乳癌的本揭示案之示例卷積網路架構分數。
現將詳細參考實施例,其實例將於附圖中示出。在以下實施方式中,闡述眾多特定細節以便提供對本揭示案之透徹理解。然而,本領域中一般熟習此項技術者將顯而易見,本揭示案可以在無此等特定細節情況下實踐。在其他情況下,並未詳細地描述熟知方法、程序、組分、電路及網路,以免不必 要地混淆實施例之態樣。
提供了用於在多種不同癌症病況中對一物種之一癌症病況(例如癌症類型、特定癌症類型之癌症分期等)進行分類的系統及方法。對於所述物種之多個訓練個體中的每一各別訓練個體,獲得:(i)所述各別訓練個體之癌症病況及(ii)包含對應於所述物種之一參考基因組之位置之基因型資訊的所述各別訓練個體之基因型資料構築體,由此獲得多個基因型資料構築體。
將所述多個基因型資料構築體中之每一基因型資料構築體格式化成包括相應一個或多個向量之一相應向量集,由此產生多個向量集。所述多個向量集中之每一向量集具有相同數量的向量。在一些實施例中,向量係一維的。在一些實施例中,向量係二維的。在一些實施例中,向量各自為N維的,其中N係正整數。在一個態樣中,如本文所揭示之向量集能夠將基因型資料轉化成可視化資料。舉例而言,將生物樣品中目標核酸之豐度水準(例如由序列讀段之數量或核酸片段之數量表示)轉化成可視化資料(例如深灰色表示高豐度水準,而淺灰色表示低豐度水準)。在所述可視化資料經歷諸如各種類型之監督或無監督機器學習分析之類圖像資料分析方法之後,接著可鑑別並「觀測」到複本數信號之差異,所述機器學習分析包含但不限於全空間學習、電腦視覺分析、卷積神經網路、深度神經網路、淺層神經網路或全連接神經網路。
舉例而言,將所述多個向量集提供至網路架構(在一些實施例中,常駐於圖形處理單元記憶體中),所述網路架構包含用於依序接收所述多個向量集中之向量集的第一卷積神經網路路徑,及評分器。所述第一卷積神經網路路徑中除所述卷積神經網路路徑中最後一層外的每一層之輸出用作所述第一卷積神經網路路徑中另一層中之輸入。
所述第一卷積神經網路路徑包括一第一卷積層及一第二卷積 層。所述第一卷積層包含至少一個第一濾波器,其包括第一組濾波器權重。所述第二卷積層包含至少一個第二濾波器,其包括第二組濾波器權重。
響應於多個向量集中之一各別向量集於所述網路架構中的輸入,執行一程序,所述程序包括(a)將作為所述各別向量集中之值之第一函數的第一多個輸入值輸入所述第一卷積層中;(b)引起所述第一卷積層將作為以下之第二函數計算的第一多個中間值饋入所述第一卷積神經網路路徑中之另一層中:(i)至少所述第一組濾波器權重及(ii)所述第一多個輸入值;(c)引起所述第二卷積層饋入作為以下之第三函數的第二中間值:(i)至少所述第二組濾波器權重及(ii)由所述第二卷積層自所述第一卷積神經網路路徑中之另一層接收的輸入值;及(d)引起所述第一卷積神經網路路徑中之最後一層將來自所述最後一層之多個值饋入所述評分器中。
以此方式,自所述評分器獲得多個分數。所述多個分數中之每一分數對應於所述多個向量集中之一向量集於所述網路架構中之輸入。
使用所述多個分數中之各別分數與所述多個訓練個體中相應訓練個體之相應癌症病況的比較以調整至少所述第一組濾波器權重,由此訓練所述網路架構以對所述多種癌症病況中之一癌症病況進行分類。
定義.
如本文所使用,術語「約」或「近似地」可意謂在如由本領域中一般熟習此項技術者所測定之特定值的可接受之誤差範圍內,此可部分取決於量測或測定該值之方法,例如量測系統之限制。舉例而言,根據本領域中之實踐,「約」可意謂在1個或大於1個標準差之範圍內。「約」可意謂既定值之±20%、±10%、±5%或±1%之範圍。術語「約」或「近似地」可意謂在一個值之一個數量級範圍內,在該值之5倍範圍內或在2倍範圍內。若在本申請案及申請 專利範圍中描述特定值,除非另外規定,否則應假設術語「約」意謂在特定值的可接受之誤差範圍內。術語「約」可具有如本領域中一般熟習此項技術者通常所理解之含義。術語「約」可指±10%。術語「約」可指±5%。
如本文所使用,術語「分析」係指用於測定一種物質,例如核酸、蛋白質、細胞、組織或器官之特性的一種技術。分析(例如第一分析或第二分析)可包括用於測定樣品中核酸之複本數變化、樣品中核酸之甲基化狀態、樣品中核酸之片段尺寸分佈、樣品中核酸之突變狀態或樣品中核酸之斷裂模式的一種技術。本領域中一般熟習此項技術者已知的任何分析均可用於偵測本文所提及之核酸的任何特性。核酸之特性可以包含序列、基因組屬性、複本數、在一個或多個核苷酸位置處之甲基化狀態、核酸之尺寸、核酸中在一個或多個核苷酸位置處突變之存在或不存在以及核酸之斷裂模式(例如發生核酸斷裂之核苷酸位置)。分析或方法可具有特定的靈敏度及/或特異性,且其作為診斷工具之相對有用性可使用ROC-AUC統計學來量測。
如本文所使用,術語「生物樣品」、「患者樣品」或「樣品」係指自個體獲取之任何樣品,該樣品可以反映與個體有關之生物狀態,且包含無細胞DNA。生物樣品之實例包含但不限於個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、汗液、淚液、胸膜液、心包液或腹膜液。在一些實施例中,生物樣品由個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、汗液、淚液、胸膜液、心包液或腹膜液組成。在此類實施例中,生物樣品限於個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、汗液、淚液、胸膜液、心包液或腹膜液且不含有個體之其他組分(例如實體組織等)。生物樣品可以包含源自存活或死亡個體之任何組織或材料。生物樣品可以為無細胞樣品。生物樣品可包括核酸(例如DNA或RNA)或其片段。術 語「核酸」可指脫氧核糖核酸(DNA)、核糖核酸(RNA)或其任何雜交體或片段。樣品中之核酸可為無細胞核酸。樣品可為液體樣品或固體樣品(例如細胞或組織樣品)。生物樣品可為體液,諸如血液、血漿、血清、尿液、陰道液、來自水囊腫(例如睪丸水腫)之流體、陰道沖洗液、胸膜液、腹水、腦脊髓液、唾液、汗液、淚液、痰液、支氣管肺泡灌洗液、乳頭溢液、來自身體不同部分(例如甲狀腺、乳房)之抽吸液等。生物樣品可以為糞便樣品。在各種實施例中,已富集無細胞DNA之生物樣品(例如經由離心方案獲得的血漿樣品)中之大部分DNA可以為無細胞的(例如大於50%、60%、70%、80%、90%、95%或99%的DNA可以為無細胞的)。可以對生物樣品進行處理,以物理方式破壞組織或細胞結構(例如離心及/或細胞溶解),由此將細胞內組分釋放至溶液中,該溶液可以另外含有酶、緩衝液、鹽、清潔劑及類似物,其可以用於製備分析用樣品。生物樣品可以侵入性(例如手術手段)或非侵入性(例如抽取血液、拭子或收集排出之樣品)方式自個體獲得。
如本文所使用,術語「癌症」或「腫瘤」係指異常的組織塊,其中該組織塊之生長超過正常組織之生長且與正常組織之生長不協調。癌症或腫瘤可取決於以下特徵而定義為「良性」或「惡性」:細胞分化程度,包含形態及功能;生長速率;局部侵襲;及轉移。「良性」腫瘤可為良好分化的,生長典型地比惡性腫瘤慢,且保持侷限於原發部位。此外,在一些情況下,良性腫瘤不能浸潤、侵襲或轉移至遠端部位。「惡性」腫瘤可以為分化不良(退行發育)的,典型地快速生長,伴隨周圍組織之進行性浸潤、侵襲及破壞。此外,惡性腫瘤可具有轉移至遠端部位之能力。
如本文所使用,術語「分類」可以指與樣品之特定特性有關的任何數字或其他性質。舉例而言,「+」符號(或「陽性」一詞)可表示樣品係分 類為具有缺失或擴增。在另一個實例中,術語「分類」可指個體及/或樣品中腫瘤組織之量、個體及/或樣品中腫瘤之尺寸、個體中腫瘤之分期、個體及/或樣品中之腫瘤負荷及個體中腫瘤轉移之存在。分類可以為二元的(例如陽性或陰性)或具有更高層級之分類(例如自1至10或0至1之等級)。術語「截止值」及「臨限值」可以指操作中使用之預定數字。舉例而言,截止尺寸可指這樣一種尺寸,大於此尺寸則排除片段。臨限值可為這樣一種值,高於或低於該值,適用特定分類。此等術語中之任一個可用於此等情形中之任一種中。
如本文所使用,術語「無細胞核酸」、「無細胞DNA」及「cfDNA」可互換地指在個體之體液(例如血流),諸如血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、汗液、汗液、淚液、胸膜液、心包液或腹膜液中發現的除細胞外之核酸片段。無細胞核酸在本文中可互換地稱為「循環核酸」。無細胞核酸之實例包含但不限於RNA、粒線體DNA或基因組DNA。無細胞核酸可以源自一個或多個健康細胞及/或一個或多個癌細胞。
如本文所使用,術語「假陽性」(FP)係指未患病況之個體。假陽性可以指個體未患腫瘤、癌症、癌變前病況(例如癌變前病變)、局部或轉移性癌症、非惡性疾病或在其他方面健康。術語假陽性可以指個體未患病況,但藉由本揭示案之分析法或方法鑑別為患有所述病況。
如本文所使用,術語「片段」與「核酸片段」(例如DNA片段)可互換使用,且係指包括至少三個連續核苷酸的聚核苷酸或多肽序列之一部分。在對生物樣品中發現的無核細胞核酸片段測序的情況下,術語「片段」與「核酸片段」可互換地指在生物樣品中所發現的無細胞核酸分子。在此類情形中,測序(例如全基因組測序、靶向測序等)形成呈一個或多個相應序列讀段形式的此類核酸片段之全部或一部分的一個或多個複本。此等序列讀段實際上 可以為原始核酸片段之PCR複製物,因此「表示」或「支持」所述核酸片段。可以存在多個序列讀段,其各自表示或支持生物樣品中之特定核酸片段(例如PCR複製物)。在一些實施例中,核酸片段係無細胞核酸。
如本文所使用,術語「假陰性」(FN)係指個體患有病況。假陰性可以指個體患有腫瘤、癌症、癌變前病況(例如癌變前病變)、局部或轉移性癌症、或非惡性疾病。術語假陰性可以指個體患有病況,但藉由本揭示案之分析法或方法鑑別為未患所述病況。
如本文所使用,片語「健康」係指個體具有良好的健康狀況。健康個體可以展示沒有任何惡性或非惡性疾病。「健康個體」可患有與所分析之病況無關的其他疾病或病況,其在正常情況下可能不被視為「健康的」。
如本文所使用,術語「癌症水準」係指癌症是否存在(例如存在抑或不存在)、癌症分期、腫瘤尺寸、轉移之存在或不存在、估計的腫瘤分數濃度、總腫瘤突變負荷值、身體之總腫瘤負荷及/或癌症嚴重程度之其他量度(例如癌症復發)。癌症水準可為數字或其他標誌,諸如符號、字母表字母及顏色。所述水準可以為零。癌症水準亦可包含與突變或突變數量有關的惡變前或癌變前病況(狀態)。癌症水準可以各種方式使用。舉例而言,篩查可檢查先前未知患癌之某人是否存在癌症。評估可調查已診斷患有癌症之某人以隨時間監測癌症之進展,研究療法之有效性或確定預後。在一個實施例中,預後可用個體死於癌症之機率、或在特定期限或時間之後癌症進展之機率、或癌症轉移之機率表示。偵測可包括『篩查』或可包括檢查具有提示癌症之特徵(例如症狀或其他陽性測試)之某人是否患有癌症。「病理水準」可指與病原體有關之病理水準,其中所述水準可如上文關於癌症所描述。當癌症與病原體有關時,癌症水準可為一種類型之病理水準。
如本文所使用,「甲基化組」可以為在基因組中多個位點或基因座處DNA甲基化之量或程度的量度。甲基化組可對應於基因組之全部或一部分、基因組之大部分或基因組之相對較小的部分。「腫瘤甲基化組」可以為個體(例如人類)之腫瘤的甲基化組。腫瘤甲基化組可以使用腫瘤組織或血漿中之無細胞腫瘤DNA測定。腫瘤甲基化組可以為所關注甲基化組的一個實例。所關注甲基化組可以為能將核酸,例如DNA提供至體液中之器官的甲基化組(例如腦細胞、骨、肺、心臟、肌肉、腎等之甲基化組)。所述器官可以為移植之器官。
如本文所使用,對於每一基因組位點(例如CpG位點),術語「甲基化指數」可以指在所述位點處顯示甲基化之序列讀段相對於覆蓋該位點之總讀段數的比例。一個區域之「甲基化密度」可以為在一個區域內顯示甲基化之位點處之讀段數目除以覆蓋該區域中這些位點之讀段總數。所述位點可以具有特定特徵(例如所述位點可以為CpG位點)一個區域之「CpG甲基化密度」可以為顯示CpG甲基化之讀段數目除以覆蓋該區域中之CpG位點(例如特定CpG位點、CpG島或較大區域內之CpG位點)之讀段總數。舉例而言,人類基因組中每100kb分組之甲基化密度可以由CpG位點處未轉化胞嘧啶(其可以對應於甲基化胞嘧啶)之總數占映射至該100kb區域之序列讀段所覆蓋之所有CpG位點的比例測定。亦可對其他分組規模,例如50kb或1Mb等執行此分析。一個區域可為整個基因組或一個染色體或一個染色體之一部分(例如染色體臂)。當一個區域僅包含CpG位點時,該CpG位點之甲基化指數可與該區域之甲基化密度相同。「甲基化胞嘧啶之比例」可指所述區域中顯示甲基化之胞嘧啶位點「C」(例如在亞硫酸氫鹽轉化之後未經轉化)的數目比所分析之胞嘧啶殘基總數,例如包含在CpG環境外的胞嘧啶。甲基化指數、甲基化密度及甲基化胞嘧啶之比例 係「甲基化水準」之實例。如本文所揭示,在一些實施例中,甲基化指數可以用於將序列讀段或相應核酸片段表徵為複本數信號(例如對應於不同基因組區域之分組計數)。
如本文所使用,術語「甲基化譜」(又稱為甲基化狀態)可以包含與一個區域內之DNA甲基化有關之資訊。與DNA甲基化有關之資訊可以包含CpG位點之甲基化指數、一個區域中CpG位點之甲基化密度、相鄰區域內CpG位點之分佈、含有超過一個CpG位點之區域內每一個別CpG位點之甲基化模式或水準、以及非CpG甲基化。基因組之相當大一部分之甲基化譜可視為等效於甲基化組。哺乳動物基因組中之「DNA甲基化」可以指將甲基添加至CpG二核苷酸中胞嘧啶雜環之5位(例如以產生5-甲基胞嘧啶)。胞嘧啶甲基化可以在其他序列環境中之胞嘧啶中進行,例如5'-CHG-3'及5'-CHH-3',其中H係腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化亦可呈5-羥甲基胞嘧啶形式。DNA甲基化可以包含非胞嘧啶核苷酸之甲基化,諸如N6-甲基腺嘌呤。舉例而言,可以將來自不同基因組區域之甲基化資料(例如甲基化之密度、分佈、模式或水準)轉換成一個或多個向量集且藉由本文所揭示之方法及系統進行分析。
如本文所使用,術語「突變」係指一個或多個細胞之遺傳物質中的可偵測變化。在一個具體實例中,一個或多個突變可見於癌細胞中且可以鑑別癌細胞(例如驅動突變及過客突變)。突變可以自表觀細胞傳遞給子細胞。本領域中之技術人員應瞭解,母細胞中之基因突變(例如驅動突變)可以在子細胞中誘導額外的不同突變(例如過客突變)。突變一般在核酸中發生。在一個具體實例中,突變可以為一個或多個脫氧核糖核酸或其片段中之可偵測變化。突變一般係指核酸中之核苷酸添加、缺失、取代、倒置或轉置至新位置。突變可以為自發突變或以實驗方式誘導之突變。特定組織之序列中的突變係「組 織特異性對偶基因」的一個實例。舉例而言,腫瘤可以具有在基因座處產生不出現在正常細胞中之對偶基因的突變。「組織特異性對偶基因」之另一實例係出現在胎兒組織中但不存在於母體組織中的胎兒特異性對偶基因。
如本文所使用,「陰性預測值」或「NPV」可藉由TN/(TN+FN)或所有陰性測試結果中之真陰性分數來計算。陰性預測值本質上受群體中病況之發生率及待測試群體之測試前機率的影響。術語「陽性預測值」或「PPV」可藉由TP/(TP+FP)或所有陽性測試結果中之真陽性分數來計算。PPV可本質上受群體中病況之發生率及待測試群體之測試前機率的影響。參見例如O'Marcaigh及Jacobson,1993,「估計診斷測試之預測值,如何防止誤導性或令人混淆的結果(Estimating The Predictive Value of a Diagnostic Test,How to Prevent Misleading or Confusing Results)」,《臨床兒科(Clin.Ped.)》32(8):485-491,該文獻以引用的方式併入本文中。
如本文所使用,術語「核酸」與「核酸分子」可互換使用。這些術語係指任何組成形式之核酸,諸如脫氧核糖核酸(DNA,例如互補DNA(cDNA)、基因組DNA(gDNA)及類似物)及/或DNA類似物(例如含有鹼基類似物、糖類似物及/或非天然主鏈及類似物),其皆可以呈單股或雙股形式。除非另外限制,否則核酸可包括已知之天然核苷酸類似物,其中有一些可以按與天然存在之核苷酸類似之方式起作用。核酸可以呈可用於進行本文中之製程的任何形式(例如線性、圓形、超螺旋、單股、雙股及類似形式)。在一些實施例中,核酸可以來自單一染色體或其片段(例如核酸樣品可以來自由二倍體生物體獲得的樣品之一條染色體)。在某些實施例中,核酸包括核小體、核小體之片段或部分、或核小體樣結構。核酸有時包括蛋白質(例如組蛋白、DNA結合蛋白及類似物)。藉由本文所描述之方法分析的核酸有時係大體上分離的 且與蛋白質或其他分子大體上不締合。核酸還包含自單股(「有義」或「反義」、「正」股或「負」股、「正向」閱讀框架或「反向」閱讀框架)及雙股聚核苷酸合成、複製或擴增之DNA的衍生物、變異體及類似物。脫氧核糖核苷酸包含脫氧腺苷、脫氧胞苷、脫氧鳥苷及脫氧胸苷。核酸可以使用自個體獲得的核酸作為模板製備。
如本文所使用,「血漿甲基化組」可以為自動物(例如人類)之血漿或血清測定之甲基化組。血漿甲基化組可為無細胞甲基化組之一個實例,因為血漿及血清可包含無細胞DNA。血漿甲基化組可為混合甲基化組之一個實例,因為其可為腫瘤/患者甲基化組之混合物。「細胞甲基化組」可為自個體,例如患者之細胞(例如血球或腫瘤細胞)測定的甲基化組。血球之甲基化組可稱為血球甲基化組(或血液甲基化組)。
如本文所使用,術語「ROC」或「ROC曲線」係指接收者操作特徵曲線。ROC曲線可為二元分類器系統效能之圖形表示。對於任何給定方法,ROC曲線可藉由在各種臨限值設定下以靈敏度對特異性繪圖來生成。用於偵測個體中腫瘤之存在之方法的靈敏度及特異性可在個體之血漿樣品中腫瘤源性核酸的各種濃度下測定。此外,已知三個參數(例如靈敏度、特異性及臨限值設定)中之至少一個,ROC曲線可確定任何未知參數之值或期望值。未知參數可使用擬合成ROC曲線之曲線來確定。舉例而言,已知樣品中腫瘤源性DNA之濃度,可以確定測試之預期靈敏度及/或特異性。術語「AUC」或「ROC-AUC」一般係指接收者操作特徵曲線下的面積。此度量可提供一種方法之診斷效用的量度,同時考慮該方法之靈敏度及特異性。ROC-AUC之範圍可自0.5至1.0,其中更接近0.5之值可指示方法具有有限的診斷效用(例如較低靈敏度及/或特異性)且更接近1.0之值指示該方法具有較大的診斷效用(例如較高靈敏度及/或 特異性)。參見例如Pepe等人,2004,「測量診斷、預後或篩查標記物之效能的勝算比之限制(Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic,Prognostic,or Screening Marker)」,《美國流行病學雜誌(Am.J.Epidemiol)》159(9):882-890,其以全文引用的方式併入本文中。用於表徵診斷效用之其他方法包含使用似然函數、勝算比、資訊理論、預測值、校準(包含擬合優度)及重新分類量測。所述方法之實例概述於例如Cook,「接收者操作特徵曲線在風險預測中之使用及誤用(Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction)」,《循環(Circulation)》2007,115:928-935,其全部以引用之方式併入本文中。
如本文所使用,術語「參考基因組」係指可用於參考自個體鑑別之序列的任何生物體或病毒之任何特定的已知、經測序或表徵之基因組,無論係部分抑或完整的。用於人類個體以及許多其他生物體的示例性參考基因組提供於由國家生物技術資訊中心(National Center for Biotechnology Information,「NCBI」)或聖塔克魯斯之加利福尼亞大學(University of California,Santa Cruz;UCSC)代管之在線基因組瀏覽器中。「基因組」係指以核酸序列表示的生物體或病毒之完整遺傳資訊。如本文所使用,參考序列或參考基因組通常係來自一位個體或多位個體的組裝或部分組裝之基因組序列。在一些實施例中,參考基因組係來自一位或多位人類個體的組裝或部分組裝之基因組序列。參考基因組可以視為一個物種之一組基因的代表性實例。在一些實施例中,參考基因組包括分配給染色體之序列。示例性人類參考基因組包含但不限於NCBI構建34(UCSC等效物:hg16)、NCBI構建35(UCSC等效物:hg17)、NCBI構建36.1(UCSC等效物:hg18)、GRCh37(UCSC等效物:hg19)及GRCh38(UCSC等效物:hg38)。
如本文所使用,術語「序列讀段」或「讀段」係指藉由本文所描述或本領域中已知之任何測序方法得到的核苷酸序列。讀段可以自核酸片段之一端產生(「單端讀段」),且有時係自核酸之兩端產生(例如配對端讀段、雙端讀段)。在一些實施例中,可自目標核酸片段之一股或兩股產生序列讀段(例如單端或配對端讀段)。序列讀段之長度通常與具體測序技術有關。舉例而言,高通量方法提供尺寸在數十至數百鹼基對(bp)間變化的序列讀段。在一些實施例中,序列讀段之均值、中值或平均長度為約15bp至900bp長(例如約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp或約500bp。在一些實施例中,序列讀段之均值、中值或平均長度為約1000bp、2000bp、5000bp、10,000bp或50,000bp或更長。舉例而言,奈米孔測序可以提供尺寸在數十至數百乃至數千鹼基對間變化的序列讀段。Illumina平行測序可以提供變化不大之序列讀段,例如大部分序列讀段可以小於200bp。序列讀段(或測序讀段)可以指對應於核酸分子(例如一串核苷酸)之序列資訊。舉例而言,序列讀段可以對應於來自部分核酸片段之一串核苷酸(例如約20至約150個),可以對應於在核酸片段之一端或兩端處之一串核苷酸,或可以對應於完整核酸片段之核苷酸。序列讀段可以多種方式,例如使用測序技術或使用探針,例如在雜交陣列中或捕捉探針,或擴增技術,諸如聚合酶鏈反應(PCR)或使用單一引子進行之線性擴增或等溫擴增獲得。
如本文所使用,術語「測序」、「序列測定」及如本文所使用之類似表述一般係指可用於測定諸如核酸或蛋白質之類生物大分子之次序的任何 及所有生物化學方法。舉例而言,測序資料可以包含核酸分子諸如DNA片段中之核苷酸鹼基的全部或一部分。
如本文所使用,術語「測序寬度」係指已分析之特定參考基因組(例如人類參考基因組)或該基因組之一部分的分數。分數之分母可為重複掩蔽之基因組,且因此100%可對應於所有參考基因組減去掩蔽之部分。重複掩蔽之基因組可以指重複序列經掩蔽之基因組(例如序列讀段與基因組之未掩蔽部分比對)。基因組之任何部分均可經掩蔽,且因此可聚焦於參考基因組之任何特定部分。廣泛測序可以指測序及分析所述基因組之至少0.1%。
如本文所使用,術語「測序深度」、「覆蓋」及「覆蓋率」在本文中可互換地使用,意思指基因座由與該基因座比對之共同序列讀段覆蓋的次數,所述共同序列讀段對應於獨特的核酸目標分子(「核酸片段」);例如測序深度等於覆蓋所述基因座的獨特核酸目標片段(不包括PCR測序複製片段)之數量。基因座可小至一個核苷酸,或大至一個染色體臂,或大至整個基因組。測序深度可表示為「YX」,例如50X、100X等,其中「Y」係指基因座經對應於核酸目標之序列覆蓋的次數;例如獲得覆蓋特定基因座的獨立於序列資訊之次數。在一些實施例中,測序深度對應於經測序之基因組之數量。測序深度亦可應用於多個基因座或全基因組,在此情況下,Y可指基因座或單倍體基因組或全基因組分別測序的均值或平均次數。當引述平均深度時,資料集中所包含之不同基因座的實際深度可跨越一定值範圍。超深度測序可指在基因座處測序深度為至少100x。
如本文所使用,術語「靈敏度」或「真陽性率」(TPR)係指真陽性之數目除以真陽性及假陰性之數目的總和。靈敏度可表徵一種分析或方法正確鑑別群體中真正患有病況之比例的能力。舉例而言,靈敏度可表徵一種方 法正確鑑別群體內患有癌症之個體之數目的能力。在另一個實例中,靈敏度可表徵一種方法正確鑑別提示癌症之一個或多個標記物的能力。
如本文所使用,術語「單核苷酸變異體」或「SNV」係指在核苷酸序列,例如來自個體之序列讀段之一個位置(例如位點)處,一個核苷酸取代為不同核苷酸。第一個核鹼基X取代成第二個核鹼基Y可表示為「X>Y」。舉例而言,胞嘧啶取代成胸腺嘧啶SNV可表示為「C>T」。
如本文所使用,術語「尺寸譜」及「尺寸分佈」可以涉及生物樣品中DNA片段之尺寸。尺寸譜可以為直方圖,其提供各種尺寸之DNA片段之量的分佈。各種統計參數(又稱為尺寸參數或僅稱為參數)可區分一個尺寸譜與另一個尺寸譜。一個參數可以為特定尺寸或尺寸範圍之DNA片段相對於所有DNA片段或相對於另一尺寸或範圍之DNA片段的百分比。
如本文所使用,術語「特異性」或「真陰性率」(TNR)係指真陰性之數目除以真陰性及假陽性之數目的總和。特異性可表徵一種分析或方法正確鑑別群體中真正未患病況之比例的能力。舉例而言,特異性可表徵一種方法正確鑑別群體內未患癌症之個體之數目的能力。在另一個實例中,特異性可表徵一種方法正確鑑別提示癌症之一個或多個標記物的能力。
如本文所使用,術語「個體」係指任何存活或無生命生物體,包含但不限於人(例如男性、女性、胎兒、孕婦、兒童或類似人群)、非人類動物、植物、細菌、真菌或原生生物。任何人或非人類動物均可充當個體,包含但不限於哺乳動物、爬行動物、禽類、兩棲動物、魚類、有蹄類動物、反芻動物、牛科動物(例如牛)、馬科動物(例如馬)、山羊科動物及綿羊科動物(例如綿羊、山羊)、豬類(例如豬)、駱駝類(例如駱駝、大羊駝、羊駝)、猴、猿(例如大猩猩、黑猩猩)、熊科動物(例如熊)、家禽、犬、貓、小鼠、大 鼠、魚類、海豚、鯨及鯊魚。在一些實施例中,個體係任何階段之雄性或雌性(例如男性、女性或兒童)。
如本文所使用,術語「組織」可以對應於一組細胞,這些細胞組合在一起成為功能單元。在單一組織中可發現超過一種類型之細胞。不同類型之組織可由不同類型之細胞(例如肝細胞、肺泡細胞或血球)組成,而且亦可對應於來自不同生物體(母親相對於胎兒)的組織或對應於健康細胞相對於腫瘤細胞。術語「組織」一般可指人體中發現的任何細胞群(例如心臟組織、肺組織、腎組織、鼻咽組織、口咽組織)。在一些態樣中,術語「組織」或「組織類型」可用於指作為無細胞核酸之來源的組織。在一個實例中,病毒核酸片段可以源自血液組織。在另一個實例中,病毒核酸片段可以源自腫瘤組織。
如本文所使用,術語「真陽性」(TP)係指患有病況之個體。「真陽性」可以指個體患有腫瘤、癌症、癌變前病況(例如癌變前病變)、局部或轉移性癌症、或非惡性疾病。「真陽性」可以指個體患有病況,且藉由本揭示案之分析法或方法鑑別為患有所述病況。
如本文所使用,術語「真陰性」(TN)係指個體未患病況或未患可偵測病況。真陰性可以指個體未患疾病或可偵測之疾病,諸如腫瘤、癌症、癌變前病況(例如癌變前病變)、局部或轉移性癌症、非惡性疾病,或個體在其他方面健康。真陰性可以指個體未患病況或未患可偵測之病況,或藉由本揭示案之分析或方法鑑別為未患該病況。
如本文所使用,術語「向量」係所列舉的元素清單,諸如元素陣列,其中每一元素具有指定的含義。因此,如本揭示案中所使用之術語「向量」可與術語「張量」互換。舉例而言,若一向量包括10,000個分組之分組計數,則在該向量中存在所述10,000個分組中每一個之預定元素。為便於呈現,在一 些情況下,向量可描述為一維的。然而,本揭示案不限於此。任何維度之向量均可用於本揭示案中,只要確定了所述向量中每一元素所表示之內容的描述(例如元素1表示多個分組中之分組1的分組計數等)。
本文所使用之術語僅用於描述特定情況之目的且並不意欲為限制性的。除非上下文另外明確地指示,否則如本文所使用,單數形式「一個(種)」及「所述」亦意欲包含複數形式。此外,就在實施方式及/或申請專利範圍中使用術語「包含(including/includes)」、「具有(having/has)」、「有(with)」或其變化形式而言,此等術語意欲以類似於術語「包括(comprising)」的方式具有包容性。
以下參照示例應用進行說明來描述若干態樣。應理解,闡述許多具體詳情、關係及方法以提供對本文所描述之特徵的充分理解。然而,相關領域中之一般熟習此項技術者將易於認識到,可在無一個或多個特定細節的情況下或藉由其他方法來實踐本文所描述之特徵。本文所描述之特徵不受所示動作或事件之次序限制,因為一些動作可以按不同次序發生及/或與其他動作或事件同時發生。此外,實施根據本文所描述之特徵的方法不需要所有所示動作或事件。
示例性系統實施例.
現結合圖1描述示例性系統之詳情。圖1係繪示根據一些實施方案之系統100的方塊圖。在一些實施方案中,裝置100包含一個或多個處理單元CPU 102(又稱為處理器)、一個或多個圖形處理單元103、一個或多個網路介面104、使用者介面106、非持續記憶體111、持續記憶體112及用於互連這些組件之一個或多個通信匯流排114。所述一個或多個通信匯流排114視情況包含系統組件之間互連且控制系統組件之間之通信的電路(有時稱為晶片組)。
非持續記憶體111典型地包含高速隨機存取記憶體,諸如DRAM、SRAM、DDR RAM、ROM、EEPROM、快閃記憶體,而持續記憶體112典型地包含CD-ROM、數位多功能光碟(DVD)或其他光學儲存器、匣式磁帶、磁帶、磁碟儲存器或其他磁性儲存裝置、磁碟儲存裝置、光盤儲存裝置、快閃記憶體裝置或其他非揮發性固態儲存裝置。
持續記憶體112視情況包含位於CPU 102遠端之一個或多個儲存裝置。持續記憶體112及在非持續記憶體112內之非揮發性記憶體裝置包括非暫時性電腦可讀儲存媒體。
在一些實施方案中,非持續記憶體111或可替代地非暫時性電腦可讀儲存媒體有時結合持續記憶體112儲存以下程式、模組及資料結構或其子集:
●可選操作系統116,其包含用於處理各種基礎系統服務及用於執行硬體相關任務之程序;
●可選網路通信模組(或指令)118,用於將系統100與其他裝置或通信網路連接;
●病況評價模組120,用於對個體之癌症病況進行分類;以及
●關於多個訓練個體中每一各別訓練個體122之資訊,其包含(i)所述各別訓練個體之癌症病況124、(ii)所述各別個體之至少一個基因型資料構築體126及(iii)所述各別個體之至少一個向量集130。
在各種實施例中,所述基因型資料構築體126包含關於特定物種(例如人類)之多個染色體中每一各別染色體的基因型資訊128。
在各種實施例中,每一向量集130包括相應多個向量132。每一此類向量134具有多個元素134。所述多個向量集中之每一向量集130具有相同 數量的向量132。
在各種實施方案中,一個或多個以上標識之元素係儲存於一個或多個先前提及之記憶體裝置中,且對應於用於執行以上描述之功能的一組指令。以上標識之模組、資料或程式(例如多組指令)不必作為獨立軟體程式、程序、資料集或模組實施,且因此這些模組及資料之各種子集可以組合或以其他方式再佈置於各種實施方案中。在一些實施方案中,非持續記憶體111視情況儲存一小組以上所標識之模組及資料結構。此外,在一些實施例中,記憶體亦儲存上文未描述之額外模組及資料結構。在一些實施例中,一個或多個以上標識之元素係儲存於除可視化系統100外之電腦系統中,其可由可視化系統100定址,使得在需要時可視化系統100可以擷取此類資料之全部或一部分。
在一些實施例中,所述系統進一步包括圖形處理單元103,其具有儲存網路架構138之記憶體,所述網路架構包含至少一個用於依序接收多個向量集中之向量集的卷積神經網路路徑140,及一評分器152。在一些實施例中,所述網路架構包含一層,其接收輸入值144且與至少一個包括一組濾波器權重148之濾波器146相關聯。這一層依據以下計算中間值150:(i)所述組濾波器權重及(ii)所述多個輸入值。在一些替代實施例中,網路架構138係儲存於非持續記憶體111中。
儘管圖1描繪「系統100」,但該圖更多地旨在作為對可能存在於電腦系統中之各種特徵之功能說明,而非作為本文所描述之實施方案的結構示意圖。實際上,且本領域中一般熟習此項技術者應認識到,單獨示出之物件可以組合且一些物件可以隔開。另外,儘管圖1描繪非持續記憶體111中之某些資料及模組,但該等資料及模組中之一些或全部可以存在於持續記憶體112中。
已參照圖1揭示根據本揭示案之系統,現將詳細說明根據本揭示 案之方法。
區塊202.如上文結合圖1所論述,本揭示案詳述用於在多種不同癌症病況中對一物種之一癌症病況進行分類的電腦系統100。所述電腦系統包括具有圖形處理記憶體之可選圖形處理單元103、至少一個通用處理器102及可藉由所述通用處理單元定址之通用記憶體111。所述通用記憶體儲存至少一個程式,以藉由所述至少一個通用處理器(例如病況評價模組120)及/或可選圖形處理單元103執行。
使用電腦系統100,對於所述物種之多個訓練個體中的每一各別訓練個體,獲得:(i)所述各別訓練個體之癌症病況124及(ii)包含對應於所述物種之一參考基因組之位置之基因型資訊的所述各別訓練個體之基因型資料構築體126,由此獲得多個基因型資料構築體。在一些實施例中,所述多個訓練個體包括10位或更多位個體、100位或更多位個體、1000位或更多位個體、2000位或更多位個體、3000位或更多位個體、4000位或更多位個體、5000位或更多位個體、6000位或更多位個體、7000位或更多位個體、8000位或更多位個體、9000位或更多位個體、或10000位或更多位個體。在一些實施例中,所述多個訓練個體包含健康個體以及患有所述組癌症病況中之一癌症病況的個體。在一些實施例中,所述多個訓練個體包含健康個體以及所述組癌症病況中每一癌症病況之代表性個體。在一些實施例中,所述多個包含所述多種不同癌症病況中每一癌症病況的至少50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000或3000位代表性個體以及至少50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000或3000位代表性健康(無癌症)個體。
在一些實施例中,所述多個訓練個體中每一各別訓練個體之基因型構築體126係藉由對來自此等參考訓練個體之生物樣品進行全基因組測序或靶向小組測序獲得。在一些此類實施例中,所述測序係藉由全基因組測序執行且自訓練個體之生物樣品獲取的多個序列讀段之平均覆蓋率係所述訓練個體之整個基因組的至少1×、2×、3×、4×、5×、6×、7×、8×、9×、10×、至少20×、至少30×或至少40×。
在一些實施例中,所述生物樣品係血漿。在一些實施例中,所述生物樣品包括訓練個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、汗液、淚液、胸膜液、心包液或腹膜液。在一些實施例中,所述生物樣品由訓練個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、汗液、淚液、胸膜液、心包液或腹膜液組成。
在一些實施例中,對生物樣品進行處理以提取無細胞核酸,以製備用於測序分析。作為非限制性實例,在一些實施例中,由自訓練個體收集於K2 EDTA管中的血液樣品提取無細胞核酸。在收集之兩小時內,藉由二次離心對樣品進行處理,第一次以1000g對血液離心十分鐘,接著以2000g對血漿離心十分鐘。接著,血漿以1ml等分試樣儲存於-80℃下。以此方式,由生物樣品製備適量血漿(例如1-5ml),以達到提取無細胞核酸的目的。在一些此類實施例中,使用QIAamp循環核酸套組(QIAamp Circulating Nucleic Acid kit;Qiagen)提取無細胞核酸並將其溶離至DNA懸浮緩衝液(Sigma)中。在一些實施例中,純化的無細胞核酸在-20℃下儲存待用。參見例如Swanton等人,2017,「系統發育ctDNA分析描繪早期肺癌演變(Phylogenetic ctDNA analysis depicts early stage lung cancer evolution)」,《自然(Nature)》,545(7655):446-451,其以引用的方式併入本文中。可使用其他等效方法,由生物方法製備無細胞核酸以達到測 序的目的,且所有此類方法皆在本揭示案之範圍內。
在一些實施例中,自第一生物樣品獲得的無細胞核酸係呈本揭示案中所定義之核酸的任何形式,或其組合。舉例而言,在一些實施例中,自生物樣品獲得的無細胞核酸係RNA及DNA之混合物。
獲得生物樣品與執行諸如序列分析之類分析之間的時間可經優化以改善所述分析或方法之靈敏度及/或特異性。在一些實施例中,可在即將執行分析之前獲得生物樣品。在一些實施例中,可獲得生物樣品並在執行分析之前儲存一段時間(例如數小時、數天或數週)。在一些實施例中,可在自所述訓練個體獲得樣品之後1天、2天、3天、4天、5天、6天、1週、2週、3週、4週、5週、6週、7週、8週、3個月、4個月、5個月、6個月、1年或超過1年內對樣品執行分析。
在一些實施例中,所述多個訓練個體中每一各別訓練個體之基因型構築體126係藉由靶向小組測序獲得,其中為形成基因型構築體126而自訓練個體之生物樣品獲取的序列讀段對於此靶向小組基因具有至少50,000×覆蓋率、對於此靶向小組基因具有至少55,000×覆蓋率、對於此靶向小組基因具有至少60,000×覆蓋率、或對於此靶向小組基因至少70,000×覆蓋率。在一些此類實施例中,靶向小組基因係在450個與500個基因之間。在一些實施例中,靶向小組基因係在500±5個基因之範圍內、在500±10個基因之範圍內或在500±25個基因之範圍內。在一些此類實施例中,所述測序係藉由靶向測序執行且自訓練個體之生物樣品獲取的多個序列讀段的平均覆蓋率係整個目標區域之至少40×、100×、200×、300×、400×、500×、1000×、5000×、10,000×、20,000×、30,000×、40,000×、50,000×、或75,000×。
在一些實施例中,所述多個訓練個體中每一各別訓練個體之基因 型構築體126係藉由全基因組測序分析獲得。全基因組測序分析係指產生全基因組或該全基因組之相當大一部分中能用於確定較大變化,諸如複本數變異或複本數異常之序列讀段的一種物理分析。此類物理分析可以採用全基因組測序技術或全外顯子組測序技術。
在一些實施例中,所述多個訓練個體中每一各別訓練個體之基因型構築體126係藉由甲基化分析,諸如全基因組亞硫酸氫鹽測序獲得。在一些此類實施例中,根據以下實例1且如2019年3月13日提交的題為「異常片段偵測及分類(Anomalous Fragment Detection and Classification)」之美國專利申請案第16/352,602號中進一步揭示,或根據2019年5月13日提交的題為「基於模型之特徵化及分類(Model-Based Featurization and Classification)」之美國臨時專利申請案第62/847,223號中所揭示之技術中的任一種,全基因組亞硫酸氫鹽測序鑑別出一個或多個甲基化狀態向量,各案以引用的方式併入本文中。在一些實施例中,所述甲基化測序利用了Liu等人,2019,「不利用亞硫酸氫鹽而以鹼基解析直接偵測5-甲基胞嘧啶及5-羥甲基胞嘧啶(Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution)」,《自然-生物技術(Nature Biotechnology)》,37,第424-429頁中所揭示之測序途徑中的任一個,該文獻以引用的方式併入本文中。
在一些實施例中,用於形成基因型資料構築體126之序列讀段係以實例2中所揭示之示例分析方案中所描述的方式獲得。
在一些實施例中,使用一種或多種方法諸如正規化、GC偏差校正、因PCR過度擴增引起之偏差的校正等對測序資料進行預處理以校正偏差或錯誤。舉例而言,在一些實施例中,對於各別訓練個體,獲得所述各別訓練個體之相應多個分組值的中值分組值。接著,用所述各別訓練個體之多個分組值 中的每一各別分組值除以此中值,由此確保所述各別訓練個體之分組值以已知值(例如零)為中心:
Figure 108119093-A0202-12-0036-1
其中,bv i =所述各別訓練個體之多個分組值中分組i之分組值,
Figure 108119093-A0202-12-0036-60
=所述各別訓練個體之多個分組值中分組i在此第一次正規化後的正規化分組值,且中值(bv j )=所述各別訓練個體之多個未正規化分組值的中值分組值。在一些實施例中,如2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」的美國專利申請案第16/352,739號中所揭示,使所述測序資料正規化,該案以引用的方式併入本文中。確切地說,在一些實施例中,所述測序資料係根據所述'739申請案之公式1及2進行正規化。
在一些實施例中,使用各別訓練個體之多個分組值的集中趨勢之某一其他量度,諸如算術平均值、加權平均值、全距中點(midrange)、中樞紐(midhinge)、三均值、縮尾均值(Winsorized mean)、平均值或模式,而非使用相應多個分組值之中值分組值。
在一些實施例中,藉由多個訓練個體k之各別分組的中值正規化值使每一各別正規化分組計數
Figure 108119093-A0202-12-0036-61
進一步正規化:
Figure 108119093-A0202-12-0036-2
其中,
Figure 108119093-A0202-12-0036-62
=由以上描述之第一正規化程序得到的所述各別個體之第一多個分組值中分組i的正規化分組值,
Figure 108119093-A0202-12-0036-63
=所述各別訓練個體之分組i在本文所描述之此第二正規化後的正規化分組值,且中值(
Figure 108119093-A0202-12-0036-64
)=多個訓練個體(k位個體)之分組i的中值正規化分組值
Figure 108119093-A0202-12-0036-65
在一些實施例中,未正規化之分組值(計數)bv i 係GC正規化的。在一些實施例中,正規化之分組值
Figure 108119093-A0202-12-0037-78
係GC正規化的。在一些實施例中,正規化之分組值
Figure 108119093-A0202-12-0037-79
係GC正規化的。在此類實施例中,對所述多個訓練個體中每一訓練個體之多個序列讀段中各別序列讀段之GC計數進行分組。描述每個GC值之條件平均片段計數的曲線係藉由此類分組(Yoon等人,2009,《基因組研究(Genome Research)》19(9):1586)或替代地藉由假設平滑度(Boeva等人,2011,《生物信息學(Bioinformatics)》27(2),第268頁;Miller等人,2011,《公共科學圖書館.綜合(PLoS ONE)》6(1),第e16327頁)估計。由此得到的GC曲線基於分組的GC,確定每一分組之預測計數。這些預測值可直接使用以使原始信號(例如,
Figure 108119093-A0202-12-0037-80
bv i 、或
Figure 108119093-A0202-12-0037-81
)正規化。作為一個非限制性實例,在分組及直接正規化情況下,對於集合{0%,1%,2%,3%,...,100%}中之每一各別G+C百分比,測定值mGC,即多個訓練個體的具有此各別G+C百分比之所有分組之
Figure 108119093-A0202-12-0037-82
之中值,並自具有所述各別G+C百分比之該等分組的正規化分組值
Figure 108119093-A0202-12-0037-83
中減去該值,得到GC正規化的分組值
Figure 108119093-A0202-12-0037-84
。在一些實施例中,使用所述多個訓練個體中具有此各別G+C百分比之所有分組之
Figure 108119093-A0202-12-0037-85
之集中趨勢的某一其他形式量度,諸如算術平均值、加權平均值、全距中點、中樞紐、三均值、縮尾均值、平均值或模式,而非使用所述第一多個個體中具有此各別G+C百分比之所有分組之
Figure 108119093-A0202-12-0037-86
的中值。在一些實施例中,使用局部加權回歸散點平滑模型(例如LOESS、LOWESS等)測定校正曲線。參見例如Benjamini及Speed,2012,《核酸研究(Nucleic Acids Research)》40(10):e72;以及Alkan等人,2009,《自然-遺傳學(Nat Genet)》41:1061-7。舉例而言,在一些實施例中,對來自多個訓練個體之分組隨機取樣(或窮盡取樣),藉由針對GC計數進行LOESS回歸(例如使用『loess』R套裝),確定GC偏差曲線。在一些實施例中,對來自已經使用與用於對所述第一多個個 體測序相同的測序技術測序的一組年輕健康個體之分組隨機取樣,藉由針對GC計數進行LOESS回歸(例如使用『loess』R套裝),或某一其他形式的曲線擬合,測定GC偏差曲線。
在一些實施例中,使用主成分分析(PCA)使分組計數正規化,以移除高階偽影進行基於群體(健康)之校正。參見例如Price等人,2006,《自然-遺傳學(Nat Genet)》38,第904-909頁;Leek及Storey,2007,《PLoS遺傳學(PLoS Genet)》3,第1724-1735頁;以及Zhao等人,2015,《臨床化學(Clinical Chemistry)》61(4),第608-616頁。此類正規化可以結合以上標識之正規化技術中之任一種進行或替代以上標識之正規化技術中之任一種。在一些此類實施例中,為訓練PCA正規化,使用包括來自所述多個訓練個體中之年輕健康個體(或以與所述多個訓練個體相同之方式測序的另一組個體)之LOESS正規化分組計數
Figure 108119093-A0202-12-0038-70
的資料矩陣並將所述資料矩陣變換至主成分空間中,由此獲得訓練集中前N個主成分。在一些實施例中,使用前2個、前3個、前4個、前5個、前6個、前7個、前8個、前9個或前10個此類主成分構建線性回歸模型:
LM(PC 1,...,PC N )
接著,將所述多個訓練個體中每一各別個體之每一各別分組的每一分組
Figure 108119093-A0202-12-0038-71
擬合至此線性模型以形成相應PCA正規化之分組計數
Figure 108119093-A0202-12-0038-72
Figure 108119093-A0202-12-0038-3
換言之,對於所述多個訓練個體中之每一各別個體,在其正規化之分組計數{
Figure 108119093-A0202-12-0038-73
,...,
Figure 108119093-A0202-12-0038-74
}與訓練集中前部主成分之間進行線性回歸模型擬合。此模型之殘差充當各別訓練個體之最終正規化分組值{
Figure 108119093-A0202-12-0038-75
,...,
Figure 108119093-A0202-12-0038-76
}。直觀地,前部主成分表示健康樣品中常見之雜訊,且因此自分組值
Figure 108119093-A0202-12-0038-77
移除此類雜訊(呈源自健康組之前部主成分形式)可有效地改善正規化。有關使用健康群體進行序列 讀段之PCA正規化的其他揭示內容,參見Zhao等人,2015,《臨床化學》61(4),第608-616頁。關於以上正規化,應瞭解,必要時,要使所有變量標準化(例如藉由減去其平均值並除以其標準差)。
應瞭解,映射至給定分組i之核酸序列讀段之數量的任何表示形式均可構成「分組值」,且此類分組值可呈未正規化之形式(例如bv i )或正規化形式(例如
Figure 108119093-A0202-12-0039-66
Figure 108119093-A0202-12-0039-67
Figure 108119093-A0202-12-0039-68
Figure 108119093-A0202-12-0039-69
等)。
可以使用任何測序形式,自獲自訓練個體之生物樣品之無細胞核酸獲得序列讀段以便形成基因型構築體126,所述測序形式包含但不限於高通量測序系統諸如Roche 454平台、Applied Biosystems SOLID平台、Helicos真正單分子DNA測序技術(True Single Molecule DNA sequencing technology)、來自Affymetrix Inc.之雜交測序平台、Pacific Biosciences之單分子即時(SMRT)技術、來自454 Life Sciences、Illumina/Solexa及Helicos Biosciences之合成測序平台,以及來自Applied Biosystems之連接法測序平台。亦可使用來自Life technologies之ION TORRENT技術及奈米孔測序自獲自生物樣品之無細胞核酸獲得序列讀段140。
在一些實施例中,使用合成測序及基於可逆終止子之測序(例如Illumina之基因組分析儀;基因組分析儀II;HISEQ 2000;HISEQ 2500(加利福尼亞州聖地亞哥(San Diego Calif.)之Illumina))自獲自訓練個體之生物樣品的無細胞核酸獲得序列讀段以便形成基因型構築體126。在一些此類實施例中,對數百萬個無細胞核酸(例如DNA)片段進行平行測序。在此類測序技術之一個實例中,使用含有光學透明載片之流槽,所述光學透明載片在結合寡核苷酸錨(例如接頭引子)之表面上具有八個獨立泳道。流槽通常係一種固體載體,其經組態以保持及/或允許試劑溶液依序越過經結合分析物。在一些情況下,流 槽係呈平面形狀,光學透明,大體上呈毫米或亞毫米級,且通常具有發生分析物/試劑相互作用之通道或泳道。在一些實施例中,無細胞核酸樣品可以包含有助於偵測之信號或標籤。在一些此類實施例中,自獲自生物樣品之無細胞核酸獲取序列讀段包含經由多種技術獲得所述信號或標籤之定量資訊,所述技術為諸如流動式細胞測量術、定量聚合酶鏈反應(qPCR)、凝膠電泳、基因晶片分析、微陣列、質譜法、細胞螢光分析、螢光顯微鏡檢查、共聚焦雷射掃描顯微鏡檢查、雷射掃描細胞測量術、親和層析法、手動分批模式分離、電場懸浮、測序及其組合。
在一些實施例中,所述物種係人類。在一些實施例中,所述物種係哺乳動物。在一些實施例中,訓練集係哺乳動物、爬行動物、禽類、兩棲動物、魚類、有蹄類動物、反芻動物、牛科動物、馬科動物、山羊科動物、綿羊科動物、豬類、駱駝類、猴、猿、熊科動物、家禽、犬、貓、小鼠、大鼠、魚類、海豚、鯨或鯊魚。
在一些實施例中,所述多種癌症病況係包括選自由以下組成之群組之三種或三種以上癌症類型的多種癌症類型:乳癌、結腸直腸癌、食道癌、頭/頸癌、肺癌、淋巴瘤、卵巢癌、胰臟癌、前列腺癌、腎癌及子宮癌。
在一些實施例中,所述多種癌症病況包括係包括選自由以下組成之群組之五種或五種以上癌症類型的多種癌症類型:乳癌、結腸直腸癌、食道癌、頭/頸癌、肺癌、淋巴瘤、卵巢癌、胰臟癌、前列腺癌、腎癌及子宮癌。
在一些實施例中,所述多個訓練個體包括二十位個體,且對於所述多種癌症病況中之每一各別癌症病況,所述第一多個訓練個體包含患有各別癌症病況之至少兩位不同個體。
在一些實施例中,所述多個訓練個體包括一百位個體,且對於所 述多種癌症病況中之用於每一各別癌症類型,所述第一多個訓練個體包含患有各別癌症病況之至少五位不同個體。
在一些實施例中,每一訓練個體係任何存活或無生命生物體,包含但不限於人(例如男性、女性、胎兒、孕婦、兒童或類似人群)、非人類動物、植物、細菌、真菌或原生生物。在一些實施例中,測試個體係哺乳動物、爬行動物、禽類、兩棲動物、魚類、有蹄類動物、反芻動物、牛科動物(例如牛)、馬科動物(例如馬)、山羊科動物及綿羊科動物(例如綿羊、山羊)、豬類(例如豬)、駱駝類(例如駱駝、大羊駝、羊駝)、猴、猿(例如大猩猩、黑猩猩)、熊科動物(例如熊)、家禽、犬、貓、小鼠、大鼠、魚類、海豚、鯨及鯊魚。在一些實施例中,測試個體係任何階段之雄性或雌性(例如男性、女性或兒童)。
亦可對非人類個體,諸如實驗室或農場動物,或源自本文所揭示之生物體之細胞樣品執行本文所揭示之方法中之任一種。非人類個體之非限制性實例包含犬、山羊、豚鼠、倉鼠、小鼠、豬、非人類靈長類動物(例如大猩猩、猿、紅毛猩猩、狐猴或狒狒)、大鼠、綿羊、牛或斑馬魚。
在一些實施例中,所述物種係人類,且各別訓練個體之基因型資料構築體126包含關於22個體染色體之基因型資訊。
在一些實施例中,所述物種係人類,且各別訓練個體之基因型資料構築體126包含關於少於22個體染色體之基因型資訊。
分組.在一些實施例中,所述物種之基因組之全部或一部分係由多個分組表示。在此類實施例中,所述多個分組中之每一各別分組表示所述物種之參考基因組中之基因組的不同且不重疊之區域。
在一些實施例中,每一此類分組具有相同的尺寸。在一些實施例 中,所述分組可具有不同的尺寸。在一些實施例中,分組係由該分組內核酸殘基之數量定義。在一些實施例中,分組係由其位置及該分組內核酸殘基之數量定義。任何適合尺寸均可用於定義分組。舉例而言,基因組區域可包含10,000個或更少鹼基、20,000個或更少鹼基、30,000個或更少鹼基、40,000個或更少鹼基、50,000個或更少鹼基、60,000個或更少鹼基、70,000個或更少鹼基、80,000個或更少鹼基、90,000個或更少鹼基、100,000個或更少鹼基、110,000個或更少鹼基、120,000個或更少鹼基、130,000個或更少鹼基、140,000個或更少鹼基、150,000個或更少鹼基、160,000個或更少鹼基、170,000個或更少鹼基、180,000個或更少鹼基、190,000個或更少鹼基、200,000個或更少鹼基、220,000個或更少鹼基、250,000個或更少鹼基、270,000個或更少鹼基、300,000個或更少鹼基、350,000個或更少鹼基、400,000個或更少鹼基、500,000個或更少鹼基、600,000個或更少鹼基、700,000個或更少鹼基、800,000個或更少鹼基、900,000個或更少鹼基、或1,000,000個或更少鹼基。在一些實施例中,基因組區域可以包含超過1,000,000個鹼基。在一些實施例中,每一分組表示參考基因組之單一相鄰區域。在一些實施例中,分組表示參考基因組之兩個或兩個以上不相鄰區域。如本文所使用,分組之基因組區域係以單數意義提及,甚至在所述區域表示該基因組之兩個或兩個以上不相鄰區域情況下亦如此。在一些實施例中,每一分組係相同的尺寸。在一些實施例中,所述分組中之至少一些係不同尺寸。在所述分組具有不同尺寸的實施例中,所述測序資料中映射至所述分組之序列讀段之數量係表示為序列讀段密度值(例如序列讀段之總數目除以由所述分組表示之區域的尺寸),而非映射至所述分組之序列讀段的數目。
另外,在一些實施例中,所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第一分組計數,每一各別第 一分組計數代表自獲自各別訓練個體之生物樣品量測且映射至所述參考基因組中對應於所述各別分組之不同區域上的第一基因型資訊。舉例而言,在一些此類實施例中,所述物種係人類且所述多個分組係在一千個分組與五萬個分組之間。
在一些實施例中,代表第一基因型資訊之第一分組計數係自生物樣品中之無細胞核酸量測的測序資訊中之序列讀段的數量。所述序列讀段映射至所述物種之基因組中由各別分組表示之區域上。在一些此類實施例中,此第一分組計數呈用於計算B分數之分組計數形式,所述B分數描述於2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」之美國專利申請案第16/352,739號中,該案以引用的方式併入本文中。參看圖25,在B分數方法中,存在所述多個分組中每一分組2504之獨特核酸片段計數2502。每一分組表示所述物種之基因組中的區域。舉例而言,在一些實施例中,每一分組獨特地表示所述物種之基因組中的100,000個鹼基。序列讀段計數反映了經由核酸測序自所述多個訓練個體中每一訓練個體之生物樣品獲得的映射至所述參考基因組中由各別分組表示之區域的序列讀段之數量。亦即,此類核酸測序得到的序列讀段最終係藉由使用此類核酸片段作為所述測序中之模板序列獲得。在一些實施例中,一分組之序列讀段計數係自來自個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量。在一些此類實施例中,若序列之5'端在所述參考基因組中由所述分組表示之區域內,則認為序列讀段映射至所述分組,不管所述序列之3'端是否在所述參考基因組中由所述分組表示之區域內。在一些此類實施例中,若序列之3'端在所述參考基因組中由所述分組表示之區域內,則認為序列 讀段映射至所述分組,不管所述序列之5'端是否在所述參考基因組中由所述分組表示之區域內。在一些此類實施例中,若序列之5'端及3'端皆在所述參考基因組中由所述分組表示之區域內,則認為序列讀段映射至所述分組。
在一些實施例中,使用一種或多種方法,諸如正規化及/或GC之校正或如本文所描述之其他形式偏差,對此類序列讀段計數進行預處理以校正偏差或錯誤。
在一些態樣中,使用尺寸選擇的無細胞DNA(cfDNA)序列讀段。亦即,在一些實例中僅使用特定尺寸之序列讀段且不符合尺寸選擇標準之序列讀段不予計數(不構成相應分組計數)或相對於滿足尺寸選擇標準之序列讀段賦予減小之權重。尺寸選擇可藉由活體外選擇特定尺寸範圍之cfDNA,亦即在生成測序資料之前活體外選擇,或經電腦模擬過濾序列讀段資料來達成。在一些實施例中,尺寸選擇標準係基於序列讀段本身之尺寸(例如序列讀段中核苷酸之數量)。在一些實施例中,尺寸選擇標準係基於所述序列讀段所表示之片段的尺寸(例如所述序列讀段中核苷酸之數量)。用於對核酸片段進行尺寸選擇之方法係本領域中已知的,例如瓊脂糖電泳。在一些實施例中,尺寸選擇係在文庫製備之前發生,且在其他實施例中在文庫製備之後發生。在一些實施例中,使用2019年3月13日提交的題為「使用片段尺寸富集癌症源性片段之系統及方法(Systems and Methods for Enriching for Cancer-Derived Fragments Using Fragment Size)」之美國專利申請案第16/352,739號中所揭示之尺寸選擇技術中的任一種。
在一個實施例中,使用不到160個核苷酸之上限截止值,意味著序列讀段之長度不得超過160個核苷酸,以便構成自個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於各別分組之區域上之序列 讀段的數量。在一些替代性實施例中,對序列讀段強加150個核苷酸或更少、140個核苷酸或更少、或130個核苷酸之最大可允許序列長度。在一些實施例中,不符合此選擇標準之序列讀段無法構成映射至參考基因組中對應於各別分組之區域上的序列讀段之數量。在一些實施例中,強加159、158、157、156、155、154、153、152、151、150、149、148、147、146、145、144、143、142、141、140、139、138、137、136、135、134、133、132、131、130、129、128、127、126、125個或更少核苷酸之最大長度。
在一些實施例中,序列讀段係來自全基因組測序或靶向測序。如本文所揭示,測序可以包含但不限於核酸測序(例如DNA、RNA、或其雜交體或混合物)、蛋白質測序、用於分析蛋白質-核酸相互作用的基於序列之表觀遺傳分析(例如DNA或RNA甲基化分析、組蛋白修飾分析或其組合)或蛋白質-蛋白質序列修飾分析諸如乙醯化、甲基化、泛素化、磷酸化、類小泛素化或其組合。
接下來,執行資料選擇步驟以僅選擇一小組分組。舉例而言,參看圖25,在一些實施例中,使用各別分組中多個訓練個體之序列讀段計數,計算所述多個分組中每一各別分組2502之四分位數範圍2506。僅保留展現低變異數之該等分組的序列讀段計數,用於基因型構築體126中。其他分組選擇方法在2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」的美國專利申請案第16/352,739號中有揭示,該案以引用的方式併入本文中。舉例而言,可產生高變化性濾波器以允許丟棄分組計數變化高於臨限值的對應於所有基因組區域之分組。在其他實施例中,可產生低變化性濾波器以使後續分析集中於資料變化小於臨限值之資料。作為說明,人單倍 體參考基因組包含超過三十憶個鹼基,這些鹼基可分成約30,000個區域(或分組)。若觀察到每一分組之實驗值,例如與特定區域或分組比對之序列讀段的總數,則每一個體可以具有超過30,000個量測值。在應用低或高變化性濾波器後,可使對應於一個體之分組量測值的數量減少相當大一部分。舉例而言,包含但不限於約50%或更少、約45%或更少、約40%或更少、約35%或更少、約30%或更少、約25%或更少、20%或更少、15%或更少、10%或更少、或5%或更少分組(藉由移除未能滿足所述濾波器之分組)。在一些實施例中,可使對應於一個體之分組量測值的數量減小50%或更高百分比,諸如約55%、60%、65%或70%或更高百分比。舉例而言,在應用高或低變化性濾波器之後,最初具有超過30,000個相應分組量測值之個體可以具有超過30%的較低分組量測值(例如約20,000)。
在一些實施例中,代表第一基因型資訊之第一分組計數係映射至對應於一物種之參考基因組中特定分組之區域的序列讀段之數量。在一些實施例中,自白血球量測之測序資訊不包括在各別分組之分組計數中。在一些實施例中,第一基因型資訊之第一分組計數係映射至對應於特定分組之區域的目標核酸片段之數量。
在一些實施例中,映射至由特定分組表示之基因組區域的序列讀段可以進一步分成多個亞組,使得向量中參數之數量增加或針對該個體之向量中維度之數量增加。舉例而言,可設定一個或多個臨限值以進一步表徵對應於特定分組之序列讀段。在一些實施例中,一特定分組之序列讀段可以分成兩個或兩個以上群組,其各自包含長度高於或低於臨限值(例如250個核苷酸或nt、200nt、190nt、180nt、170nt、160nt、150nt、140nt、130nt、120nt、110nt、100nt、90nt、80nt、70nt、60nt或50nt)之序列讀段。在一些實施例中,與 一特定分組比對之序列讀段可以分成兩個或兩個以上群組,其各自包含長度高於或低於長度臨限值(例如250個核苷酸或nt、200nt、190nt、180nt、170nt、160nt、150nt、140nt、130nt、120nt、110nt、100nt、90nt、80nt、70nt、60nt或50nt)之序列讀段。在一些實施例中,一特定分組之序列讀段可以分成兩個或兩個以上數量,其各自表示長度在一特定範圍內之序列讀段。示例性範圍包含但不限於10至250個nt、20至240個nt、30至230個,在一些實施例中,如2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」的美國專利申請案第16/352,739號中所揭示,每一分組包含呈低於第一長度臨限值(例如低於最大長度159、158、157、156、155、154、153、152、151、150、149、148、147、146、145、144、143、142、141、140、139、138、137、136、135、134、133、132、131、130、129、128、127、126、125)之序列讀段之數量的第一量測值及呈在由第二及第三臨限值界定之範圍內的序列讀段之數量的第二量測值,該案以引用的方式併入本文中。在一些實施例中,第二臨限長度係自240個核苷酸至260個核苷酸且第三臨限長度係自290個核苷酸至310個核苷酸。在一些實施例中,第二臨限長度係250個核苷酸。在其他實施例中,第二臨限長度係240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259或260個核苷酸。在一些實施例中,第三臨限長度係300個核苷酸(3028)。在一些實施例中,第三臨限長度係290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309或310個核苷酸。在本文所揭示之實施例中,在序列讀段之尺寸(長度)計算中僅包含序列讀段中映射至參考基因組之該等部分。換言之,出於強加序列長度臨限值濾波器之目的, 在序列讀段之長度測定中不包含可能存在於序列讀段中之任何接頭(例如獨特分子指標、引子序列)。
在一些實施例中,代表第一基因型資訊之第一分組計數係使用對生物樣品中之無細胞核酸的甲基化測序分析獲得的測序資料中具有預定甲基化狀態(例如代表或指示特定癌症病況之甲基化狀態)且映射至參考基因組中對應於各別分組之區域上的序列讀段之數量。在一些此類實施例中,根據以下實例1且如2019年3月13日提交的題為「異常片段偵測及分類(Anomalous Fragment Detection and Classification)」之美國專利申請案第16/352,602號中進一步揭示,或根據2019年5月13日提交的題為「基於模型之特徵化及分類(Model-Based Featurization and Classification)」之美國臨時專利申請案第62/847,223號中所揭示之技術中的任一種,甲基化測序分析係全基因組亞硫酸氫鹽測序,其鑑別出一個或多個甲基化狀態向量,各案以引用的方式併入本文中。在一些此類實施例中,當甲基化狀態向量不為野生型甲基化狀態時,所述甲基化狀態向量構成分組計數。在一些此類實施例中,特定甲基化狀態向量是否不為野生型甲基化狀態係藉由特定甲基化狀態向量與無癌症群體組之統計比較確定。此類比較可以得到p值。在一些此類實施例中,當與甲基化狀態向量相關之p值係0.1或更小、0.01或更小、或0.001或更小時,所述甲基化狀態向量構成分組計數,指示在無癌症個體中發現此類甲基化狀態向量之幾率較低。
在一些實施例中,代表第一基因型資訊之第一分組計數係自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於各別分組之區域上的序列讀段之平均核酸片段長度。
在一些實施例中,代表第一基因型資訊之第一分組計數係自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於各別分組之區域上的序 列讀段之對偶基因比率。
在一些實施例中,代表第一基因型資訊之第一分組計數係在自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於各別分組之區域上的序列讀段中所鑑別的突變之數量。
在一些實施例中,所述多個訓練個體中每一各別訓練個體之基因型資訊包括一組維度縮減成分值,所述值係藉由使用自無細胞核酸量測的測序資料中映射至參考基因組中對應於所述多個訓練個體之各別分組之區域上的序列讀段之數量獲得。用於計算此類維度縮減成分之代表性技術揭示於2019年5月22日提交的題為「使用遷移學習確定個體是否患有癌症病況之系統及方法(Systems and Methods for Determining Whether a Subject Has a Cancer Condition Using Transfer Learning)」之美國臨時專利申請案第62/851,486號,以及2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」之美國專利申請案第16/352,739號中其各自以引用的方式併入本文中。舉例而言,在一些實施例中,與訓練個體之10,000至30,000個分組有關的序列讀段之計數可縮減至1,000個參數或更少、500個參數或更少、200個參數或更少、100個參數或更少、90個參數或更少、80個參數或更少、70個參數或更少、60個參數或更少、50個參數或更少、40個參數或更少、30個參數或更少、20個參數或更少、10個參數或更少、8個參數或更少、5個參數或更少、4個參數或更少、3個參數或更少、2個參數或更少、或單一參數,其中此類參數可互換地稱為維度縮減成分。
在一些實施例中,可以使用一個或多個監督學習演算法發現這些參數。如本文所揭示,監督學習問題可以分為分類及回歸問題。如本文所揭示, 分類問題係輸出變量為類別,諸如「紅色」或「藍色」或「患病」及「未患病」的情形。回歸問題係輸出變量為實際值,諸如「美元」或「重量」的情形。任一方法皆可適用於鑑別參數。示例學習演算法包含但不限於支持向量機(SVM)、線性回歸、邏輯斯蒂回歸、樸素貝葉斯(naive Bayes)、決策樹演算法、線性判別分析、判別分析、最近鄰分析(kNN)、基於特徵點之方法、神經網路分析(多層感知器)、主成分分析(PCA)、線性判別分析(LDA)等。
在一些實施例中,可以使用一個或多個無監督學習演算法發現這些參數。舉例而言,無監督學習問題可以進一步歸為叢集及關聯問題。叢集問題係您希望發現資料中之固有分組,諸如藉由購買行為對客戶進行分組的情況。關聯規則學習問題係您希望發現描述大部分資料之規則,諸如購買X的人亦往往會購買Y的情況。示例無監督學習演算法包含但不限於叢集演算法,諸如階層式叢集、k均值叢集、高斯混合模型(Gaussian mixture models)、自組織映射及隱馬爾可夫模型(Hidden Markov model)、用於異常偵測之演算法、基於神經網路之演算法諸如自編碼、深度信念網路(deep beliefs net)、赫布型學習(Hebbian learning)、生成對抗網路(generative adversarial networks)、用於學習潛在變數模型之演算法諸如期望最大化演算法(EM)、動差法、盲信號分離技術(例如主成分分析(PCA)、獨立成分分析、非負矩陣分解、奇異值分解等。
在一些實施例中,可以使用半監督機器學習演算法鑑別參數;例如,使用本文中所列舉或本領域中已知之演算法的任何組合。
在一些實施例中,使用多個訓練個體之基因型構築體,利用或不利用資料維度縮減來測定一個或多個參數。在測定維度縮減成分(參數)之實施例中,將使用所述個體基因型資料計算的各別個體之每一維度縮減成分值放 入該個體之相應向量中的相應元素中。
區塊204.參看圖2A之區塊204,且如圖26中進一步說明,將一訓練個體之一個或多個基因型資料構築體中的每一基因型構築體126格式化成包括相應一個或多個向量132之相應向量集130,由此產生多個向量集。在一些實施例中,每一向量集130中之每一向量132具有多個元素134。在一些實施例中,所述多個向量集中之每一向量集130具有相同數量的向量。在一些實施例中,每一向量集130中之每一向量132表示參考基因組中之不同染色體,但具有相同數量之元素。在一些此類實施例中,對向量132進行填充,以使其具有相同的元素數量。在一維向量之情況下,對其進行填充,以使其具有相同的長度。在一些實施例中,每一向量集130中之每一向量132表示參考基因組中之多個染色體,但具有相同數量之元素。在一些實施例中,所述物種係人類且每一向量集130中之每一向量132表示參考基因組中之不同體染色體。在一些實施例中,向量集僅由單一向量組成,所述物種係人類,且向量集130中之向量132表示人參考基因組中之所有體染色體。在一些實施例中,向量集由二十二個一維向量組成,所述物種係人類,且向量集130中之每一向量132表示人參考基因組中之不同體染色體。
區塊206.參看圖2A之區塊206,在一些實施例中,將多個向量集130提供至圖形處理單元記憶體103中。圖形處理記憶體103包括網路架構138,所述網路架構包含用於依序接收多個向量集中之向量集130的卷積神經網路路徑140,及評分器152。在一些替代實施例中,網路架構138係在非持續記憶體111中,而非圖形處理記憶體103中。
區塊208-216.參看圖2A之區塊208,且使用圖3所示,響應於多個向量集中之各別向量130於網路架構138中之輸入,執行一程序,該程序以圖 2B之區塊210至216示出。在區塊210中,所述程序將作為各別向量集中之值之第一函數的值輸入第一卷積層(例如圖3之層302-1)中。
在區塊212中,所述程序引起第一卷積層302將作為以下之第二函數計算的第一多個中間值150饋入第一卷積神經網路路徑中之另一層中:(i)至少第一組濾波器權重148及(ii)第一多個輸入值144。在一些實施例中,所述第二函數係使用圖形處理單元103計算。
參看圖3,在一些實施例中,存在兩個與第一卷積層302相關聯之濾波器,其各自包含一組濾波器權重。在一些此類實施例中,所述程序引起第一卷積層302將中間值150饋入第一卷積神經網路路徑中之另一層中,所述中間值係作為以下之第二函數(例如內積):(i)與第一卷積層相關聯之第一濾波器的所述組濾波器權重及(ii)所述第一多個輸入值144,以及作為以下之第二函數計算:(i)與第一卷積層相關聯之第二濾波器的所述組濾波器權重及(ii)所述第一多個輸入值144。在一些實施例中,使與第一卷積層302相關聯之兩個濾波器分別針對不同隨機值(例如高斯雜訊)正規化,且在訓練網路架構138時,所尋求的是所述組濾波器權重之收斂。舉例而言,在一些實施例中,將24,000個分組饋入第一卷積層302中且所述兩個濾波器各自具有長度為22之濾波器權重集合(且因此具有22個權重並計算出22個獨立點積),因為其各自獨立地卷積於第一卷積層302上。在一些實施例中,這兩個濾波器之步幅係2、3、4、5、6、7、8、9或10。
在一些實施例中,第一卷積神經網路路徑140包括第一池化層(例如圖3之層304)及第二池化層(例如圖3之層308)。另外,所述程序亦包括引起第一池化層將以來自第一卷積層之第一多個中間值之第一池化函數計算的第三多個中間值150饋入第一卷積神經網路路徑中之另一層中,及引起第二池 化層將以來自第二卷積層之第二多個中間值之第二池化函數計算的第四多個中間值饋入第一卷積神經網路路徑中之另一層中或饋入評分器中。
在一些實施例中,將24,000個分組饋入第一卷積層302中,兩個濾波器各自具有一組長度為22之濾波器權重(意味著每組濾波器具有22個權重),其各自獨立地以步幅4卷積於第一卷積層302上。在一些實施例中,接著將由這兩個濾波器製造之活化層送入以長度3、步幅3池化之池化層304中,由層304得到555×2×22之輸出。參看區塊214,並且如圖3中所說明,所述程序引起第二卷積層306接收來自池化層304之輸出作為輸入。在一些實施例中,第二卷積層306還包含兩個濾波器,其各自包含一組在網路架構138訓練之前隨機化之權重。在一些實施例中,與所述二卷積層相關聯之兩個濾波器中的所述組濾波器權重各自具有11之長度(意味著每組濾波器權重由11個權重組成)且各自針對步幅為4之第二卷積層306的輸入進行卷積。參看區塊216,所述程序引起第一卷積神經網路路徑140中之最後一層將來自所述最後一層之多個值饋入評分器152中。舉例而言,在一些實施例中,由第二卷積層之兩個濾波器製造的活化層被送至以長度2、步幅2池化之池化層308中,由層308產生29×2×22之輸出,饋入評分器152中。
在一些實施例中,第一池化層304及第二池化層308各自獨立地選自由以下組成之群組:最大池化層、平均池化層及L2範數池化層。在一些實施例中,第一池化層304及第二池化層308各自獨立地選自由以下組成之群組:最大池化層、平均池化層及L2範數池化層。
第一卷積神經網路路徑140中除第一卷積神經網路路徑140中最後一層外的每一層142之輸出用作所述第一卷積神經網路路徑中之另一層中之輸入。所述第一卷積神經網路路徑包括第一卷積層及第二卷積層。所述第一卷 積層包含至少一個第一濾波器146,其包括第一組權重148。所述第二卷積層包含至少一個第二濾波器,其包括第二組權重。
參看圖3,在一些實施例中,與第一卷積層302相關聯的第一濾波器中之所述組濾波器權重具有固定的一維尺寸,其在輸入第一卷積層302中之一維向量132的整個長度上卷積(以預定步進速率,即步幅步進),計算第一濾波器之所述組濾波器權重之條目(權重)與所述輸入(來自一維向量132)之間的內積(或其他函數),由此得到該第一濾波器之一維活化圖。在一些實施例中,第一濾波器之濾波器步進速率(步幅)係輸入空間之一個元素、二個元素、三個元素、四個元素、五個元素、六個元素、七個元素、八個元素、九個元素、十個元素或超過十個元素。因此,考慮到第一濾波器之尺寸為22之情形,意味著第一濾波器之所述組權重由22個權重組成。亦即,第一濾波器具有二十二個不同的濾波器權重。在此類實施例中,對於每個卷積神經網路路徑140中總計為22之輸入空間值,此濾波器將計算具有1個元素之深度、22個元素之寬度及一個元素之高度的輸入空間中相鄰元素集之間的內積(或其他數學函數)。參看圖3,與第一卷積層302相關聯之第一濾波器的活化圖通過最大池化層304並用作第二卷積濾波器306之輸入。此處,與第二卷積層306相關聯之第二濾波器具有固定的一維尺寸,其在輸入第二卷積層中的來自最大池化層304之輸入的整個長度上卷積(以預定步進速率步進),計算與第二卷積層306相關聯之第二濾波器的條目(權重)與輸入輸入之間的內積(或其他函數),由此得到第二濾波器之一維活化圖。參看圖3,第二卷積層之第二濾波器的活化圖通過第二最大池化層308且隨後此第二最大池化層308之輸出用作評分器152之輸入。
在一些實施例中,在針對訓練集訓練之前,使網路架構中卷積濾 波器之濾波器權重初始化為高斯雜訊。
針對每一染色體/單軌之獨立CNN. 在一些實施例中,每一向量集130中之向量132由所述物種之多個染色體中之相應不同染色體的基因型資訊組成。在一些此類實施例中,網路架構138包含多個卷積神經網路路徑140,所述多個卷積神經網路路徑包括對應於所述多個染色體中每一染色體的至少一個不同卷積神經網路路徑140。每一不同的卷積神經網路路徑包括第一卷積層及第二卷積層。在此類實施例中,對於各別向量集130中之每一各別向量132,將所述各別向量輸入表示與所述各別向量相關聯之染色體的各別卷積神經網路路徑中之第一卷積層中,且多個卷積神經網路路徑中每一卷積神經網路路徑的各別最後一層將來自所述各別最後一層之不同多個值饋入評分器中。使用具有此類組態之網路架構138處理訓練集的結果提供於實例4以及圖6至11中。
在一些此類實施例中,所述網路架構包括多個第一濾波器權重,所述多個第一濾波器權重中之每一各別第一濾波器權重對應於多個卷積神經網路路徑中一卷積神經網路路徑中之第一卷積層。另外,所述網路架構包括多個第二濾波器權重,所述多個第二濾波器權重中之每一各別第二濾波器權重對應於所述多個卷積神經網路路徑中一卷積神經網路路徑中之第二卷積層。網路架構138包括多個第一濾波器,每一各別第一濾波器具有第一預定長度。所述網路架構包括多個第二濾波器,每一各別第二濾波器具有第二預定長度。在此類實施例中,所述第一多個濾波器中之每一第一濾波器以第一預定步幅針對所述多個卷積神經網路路徑中之相應第一卷積層卷積,且所述多個第二濾波器中之每一第二濾波器以第二預定步幅針對所述多個卷積神經網路路徑中之相應第二卷積層卷積。
在一些此類實施例中,所述多個卷積神經網路路徑係二十二個, 所述多個卷積神經網路路徑中之每一各別卷積神經網路路徑對應於一不同的體染色體人類染色體,第一預定長度係在10與30之間,所述多個第二濾波器由二十二個第二濾波器組成,第二預定長度係在5與15之間,第一預定步幅係在2與10之間,且第二預定步幅在1與5之間。
針對每一染色體/雙軌之獨立CNN. 在一些實施例中,每一各別訓練個體之基因型資訊除包括以上描述之第一分組計數外,亦包括多個分組中每一各別分組之第二分組計數,每一各別第二分組計數代表自生物樣品量測且映射至參考基因組中對應於所述各別分組之不同區域上的第二基因型資訊。第一訓練個體之第一向量集包括多個向量,所述第一向量集分成包括所述向量集之第一子集多個向量及所述向量集之第二子集多個向量的第一軌。所述第一子集中之每一各別向量由所述物種之多個染色體中對應於所述各別向量的不同染色體之第一分組計數組成。所述第二子集中之每一各別向量由所述物種之多個染色體中對應於所述各別向量的不同染色體之第二分組計數組成。在此類實施例中,網路架構138包括多個卷積神經網路路徑140,其包含對應於所述多個染色體中之每一各別染色體的各別第一卷積神經網路路徑及各別第二卷積神經網路路徑。所述多個卷積神經網路路徑中之每一各別第一卷積神經網路路徑及各別第二卷積神經網路路徑包括第一卷積層及第二卷積層。在此類實施例中,對於第一向量集之第一子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路中表示與所述各別向量相關聯之染色體的各別第一卷積神經網路路徑之第一卷積層中。另外,對於第一向量集之第二子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的各別第二卷積神經網路路徑之第一卷積層中。在此類實施例中,所述多個卷積神經網路路徑中每一卷積神經網路路徑的各別最後一層將來自所述各別 最後一層的不同多個值饋入評分器中。使用具有此類組態之網路架構138處理訓練集的結果呈現於實例4以及圖12及18-21中,其中將來自被認為不係白血球之細胞的分組計數資料劃分為第一子集且來自被認為係白血球之細胞的分組計數資料劃分為第二子集。更一般而言,在一些實施例中,第一分組計數與第二分組計數彼此不同,且對於多個分組中之每一各別分組,其各自獨立地為以下之一:(i)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(ii)自生物樣品中之白血球量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(iii)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之成對序列讀段的各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至所述物種之基因組之所述區域中在第一尺寸範圍內之序列;(iv)使用對生物樣品中無細胞核酸之甲基化測序分析獲得的測序資料中具有預定甲基化狀態且映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(v)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的平均核酸長度;(vi)自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上的序列讀段之對偶基因比率;及(vii)在自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上的序列讀段中所鑑別的突變之數量。
針對每一染色體/三軌之獨立CNN. 在一些實施例中,每一各別訓練個體之基因型資訊除包括以上描述之第一分組計數外,亦包括多個分組中每一各別分組之第二分組計數,每一各別第二分組計數代表自生物樣品量測且映射至參考基因組中對應於所述各別分組之不同區域上的第二基因型資訊。每一 各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第三分組計數,每一各別第三分組計數代表自生物樣品量測且映射至參考基因組中對應於所述各別分組之不同區域上的第三基因型資訊。在此類實施例中,第一訓練個體之第一向量集130包括多個向量,所述第一向量集分成(i)包括所述第一向量集之第一子集多個向量的第一軌、(ii)包括所述第一向量集之第二子集多個向量的第二軌及(iii)包括所述第一向量集之第三子集多個向量的第三軌。所述第一子集中之每一各別向量由所述物種之多個染色體中對應於所述各別向量的不同染色體之第一分組計數組成。所述第二子集中之每一各別向量由所述物種之多個染色體中對應於所述各別向量的不同染色體之第二分組計數組成。所述第三子集中之每一各別向量由所述物種之多個染色體中對應於所述各別向量不同染色體之第三分組計數組成。在此類實施例中,網路架構138包括多個卷積神經網路路徑140,其包含對應於所述多個染色體中之每一各別染色體的各別第一卷積神經網路路徑、各別第二卷積神經網路路徑及各別第三卷積神經網路路徑。所述多個卷積神經網路路徑中之每一各別第一卷積神經網路路徑、第二卷積神經網路路徑及第三卷積神經網路路徑包括第一卷積層及第二卷積層。在此類實施例中,對於第一向量集之第一子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的各別第一卷積神經網路路徑之第一卷積層中。對於第一向量集之第二子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的各別第二卷積神經網路路徑之第一卷積層中。對於第一向量集之第三子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的各別第三卷積神經網路路徑之第一卷積層中。所述多個卷積神經網路路徑中每一各別卷積神經網路路徑的各別最 後一層將來自所述各別最後一層的不同多個值饋入所述評分器中。
在一些此類實施例中,第一分組計數、第二分組計數及第三分組計數彼此不同,且對於多個分組中之每一各別分組,其各自獨立地為以下之一:(i)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(ii)自生物樣品中之白血球量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(iii)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之成對序列讀段的各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至所述物種之基因組之所述區域中在第一尺寸範圍內之序列;(iv)使用對生物樣品中無細胞核酸之甲基化測序分析獲得的測序資料中具有預定甲基化狀態且映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(v)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的平均核酸長度;(vi)自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上的序列讀段之對偶基因比率;及(vii)在自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上的序列讀段中所鑑別的突變之數量。
針對每一染色體/單軌-分組序列讀段之單一CNN. 在一些實施例中,參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的區域。在一些此類實施例中,所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第一分組計數。每一各別第一分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分 組之不同區域上之序列讀段的數量。
在一些此類實施例中,將所述多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集以所述各別向量集中向量之陣列形式輸入網路架構中。在一些此類實施例中,所述第一向量集中之每一向量表示所述物種之基因組中之一不同染色體。
在一些實施例中,所述多個分組包括一萬個分組,所述第一向量集中之每一各別向量包括所述物種之基因組中對應於所述各別向量之染色體上的分組中之每一個。
在一些此類實施例中,第一卷積層係第一卷積神經網路路徑中之第一層且響應於多個向量集中各別向量集之輸入,直接地接收所述各別向量集,且第一濾波器具有包括在五個與五十個濾波器權重之間的一組濾波器權重並在所述程序之引起步驟(b)中以步幅Y卷積,其中Y係在一與五之間。
使用具有此類組態之網路架構138處理訓練集的結果提供於實例4以及圖6至11中。
雙軌-分組序列讀段及WBC. 在一些實施例中,多個訓練個體中每一各別訓練個體之基因型資料構築體除包含以上題為「每一染色體/單軌-分組序列讀段之單一CNN」之部分中所描述的第一分組計數外,亦包含所述多個分組中每一各別分組之第二分組計數。每一各別第二分組計數代表自獲自各別訓練個體之生物樣品中之白血球量測的測序資料中映射至參考基因組中對應於所述各別分組之不同區域上之序列讀段的數量。在此類實施例中,將多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集以第一軌及第二軌形式輸入網路架構中。所述第一軌中每一向量之每一各別元素表示所述多個分組中相應分組之第一分組計數。所述第二軌中每一向量之每一各別元素表示所述 多個分組中所述相應分組之第二分組計數。
在一些此類實施例中,第一向量集之第一軌中之每一向量表示所述物種之基因組中一不同染色體且第一向量集之第二軌中之每一向量亦表示所述物種之基因組中一不同染色體。在一些此類實施例中,將第一軌輸入網路架構138中之第一卷積神經網路路徑中且將第二軌輸入第二卷積神經網路路徑中。在一些此類實施例中,所述多個分組包括一萬個分組,且所述多個向量中之每一各別向量包括參考基因組中對應於所述各別向量之染色體上的分組中之每一個。
使用具有此類組態之網路架構138處理訓練集的結果呈現於以下實例4以及圖12及18-21中,其中將來自被認為不係白血球之細胞的分組計數資料劃分為第一子集且來自被認為係白血球之細胞的分組計數資料劃分為第二子集。
雙軌-在兩個不同尺寸範圍內之分組序列讀段. 在一些實施例中,所述物種之基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示參考基因組之一不同且不重疊的區域。另外,多個訓練個體中每一各別訓練個體之基因型資料構築體包括多個分組中每一各別分組之第一分組計數。每一各別第一計數代表自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上的成對序列讀段之各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至參考基因組之所述部分中在第一尺寸範圍內之序列。
每一訓練個體之基因型資料構築體進一步包括所述多個中每一各別分組之第二分組計數。每一各別第二分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分 組之部分上之成對序列讀段的各別第二數量,其中所述各別第二數量個成對序列讀段中之每一成對序列讀段映射至所述參考基因組之所述部分中在第二尺寸範圍內之序列。在一些實施例中,第二尺寸範圍與第一尺寸範圍互不重疊。
應瞭解,每一訓練個體之基因型資料構築體可以進一步包括所述多個分組中每一各別分組之額外分組計數。在此類實施例中,每一各別額外分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之成對序列讀段的額外數量,其中所述各別額外數量成對序列讀段中之每一成對序列讀段映射至參考基因組之所述區域中在不同於所有其他尺寸範圍之另一尺寸範圍內的序列。
以此方式,每一各別分組可以具有多個分組計數,其中所述多個分組計數中之每一各別分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之不同部分上之成對序列讀段的相應數目,其中所述相應數目個成對序列讀段中之每一成對序列讀段映射至參考基因組之所述部分中在與所述各別分組計數相關聯之相應尺寸範圍內的序列。在一些此類實施例中,多個分組計數及伴隨的相應尺寸範圍係二、三、四、五、六、七、八、九或十。舉例而言,當所述多個分組計數及伴隨的相應尺寸範圍係四時,每一訓練個體之基因型資料構築體包括所述多個分組中每一各別分組之第一分組計數、第二分組計數、第三分組計數及第四分組計數。在此類實施例中,每一各別分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於各別分組之不同區域上之成對序列讀段的數量,其中所述各別數量之成對序列讀段中之每一成對序列讀段映射至參考基因組之所述區域中在對應於所述各別分組計數之尺寸範圍內的序列。
返回到每個分組存在二個分組計數之情形,將多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集以第一軌及第二軌形式輸入網路架構中。所述第一軌中每一向量之每一各別元素表示所述多個分組中相應分組之第一分組計數。所述第二軌中每一向量之每一各別元素表示所述多個分組中相應分組之第二分組計數。
在一些此類實施例中,第一向量集之第一軌中之每一向量表示參考基因組中一不同染色體且第一向量集之第二軌中之每一向量亦表示參考基因組中一不同染色體。這在以下實例4之圖18-21中示出,其中對應於總計44個不同卷積神經網路路徑之二十二個人類體染色體各自存在二個軌。
在一些此類實施例中,所述多個分組包括一萬個分組,且所述多個向量中之每一各別向量包括參考基因組中對應於所述各別向量之染色體上的分組中之每一個。
單軌-分組序列讀段(M分數)(分組中之WGBS). 在一些實施例中,所述物種之基因組之全部或一部分係由多個分組表示。所述多個分組中之每一各別分組表示參考基因組之不同且不重疊的部分。所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第一分組計數。
在一些實施例中,每一各別第一分組計數反映使用對生物樣品中之無細胞核酸之甲基化測序分析獲得的測序資料中具有預定甲基化狀態且映射至參考基因組中對應於所述各別分組之區域上的序列讀段之數量。示例甲基化測序分析係全基因組亞硫酸氫鹽測序。在一些此類實施例中,根據以下實例1且如2019年3月13日提交的題為「異常片段偵測及分類(Anomalous Fragment Detection and Classification)」之美國專利申請案第16/352,602號中進一步揭示, 或根據2019年5月13日提交的題為「基於模型之特徵化及分類(Model-Based Featurization and Classification)」之美國臨時專利申請案第62/847,223號中所揭示之技術中的任一種,全基因組亞硫酸氫鹽測序鑑別出一個或多個甲基化狀態向量,各案以引用的方式併入本文中。在一些實施例中,所述甲基化分析利用了Liu等人,2019,「不利用亞硫酸氫鹽而以鹼基解析直接偵測5-甲基胞嘧啶及5-羥甲基胞嘧啶(Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution)」,《自然-生物技術》,37,第424-429頁中所揭示之測序途徑中的任一個,該文獻以引用的方式併入本文中。
在一些實施例中,每一各別第一分組計數反映使用對生物樣品中之無細胞核酸之甲基化測序分析獲得的測序資料中具有預定甲基化狀態且映射至參考基因組中對應於所述各別分組之區域上的序列讀段之數量。作為一個實例,所述數量基於給定長度之核苷酸序列內甲基化位點之存在反映甲基化狀態。舉例而言,若一序列讀段在每1000bp序列中包含兩個或兩個以上甲基化位點,則對該序列讀段計數。給定序列讀段中之臨限值可設定為每1000bp中一個或多個甲基化位點、每1000bp中兩個或兩個以上甲基化位點、每1000bp中三個或三個以上甲基化位點、每1000bp中四個或四個以上甲基化位點、每1000bp中五個或五個以上甲基化位點、每1000bp中六個或六個以上甲基化位點、每1000bp中七個或七個以上甲基化位點、每1000bp中八個或八個以上甲基化位點、每1000bp中九個或九個以上甲基化位點、每1000bp中十個或十個以上甲基化位點、每1000bp中12個或12個以上甲基化位點、或每1000bp中15個或15個以上甲基化位點。在一些實施例中,給定長度可短於或長於1000bp。在其他實施例中,可使用反映甲基化位點之分佈及頻率的其他值,包含但不限於以下實例1中所揭示以及如2019年3月13日提交的題為「異常片段偵測及分類 (Anomalous FragmentDetection and Classification)」之美國專利申請案第16/352,602號,或2019年5月13日提交的題為「基於模型之特徵化及分類(Model-Based Featurization and Classification)」之美國臨時專利申請案第62/847,223號中所揭示之技術中的任一種中進一步揭示的值,各案以引用的方式併入本文中。甲基化測序分析係指產生可以用於確定基因組內多個CpG位點之甲基化狀態、或甲基化模式之序列讀段的一種物理分析法。此類甲基化測序分析之實例可以包含用亞硫酸氫鹽處理cfDNA以將未甲基化之胞嘧啶(例如CpG位點)轉化成尿嘧啶(例如使用EZ DNA Methylation-Gold或EZ DNA Methylation-Lightning套組(購自Zymo Research Corp))。或者,可使用酶轉化步驟(例如使用胞嘧啶脫胺酶(諸如APOBEC-Seq(購自NEBiolabs)))將未甲基化之胞嘧啶轉化成尿嘧啶。在轉化之後,經轉化之cfDNA分子可經由全基因組測序法或靶向基因測序小組以及用於評估多個CpG位點處之甲基化狀態的序列讀段進行測序。基於甲基化之測序方法係本領域中已知的(例如參見美國專利公開案第2014/0080715號,其以引用之方式併入本文中)。在另一個實施例中,DNA甲基化可在例如CHG和CHH之其他情形中發生於胞嘧啶,其中H係腺嘌呤、胞嘧啶或胸腺嘧啶。亦可使用本文所揭示之方法及程序評估呈5-羥甲基胞嘧啶形式之胞嘧啶甲基化及其特徵(參見例如WO 2010/037001及WO 2011/127136,其以引用之方式併入本文中)。在一些實施例中,甲基化測序分析不必執行鹼基轉化步驟來確定基因組中CpG位點之甲基化狀態。舉例而言,此類甲基化測序分析可包含PacBio測序或Oxford奈米孔測序。
在一些此類實施例中,將所述多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集以所述各別向量集中向量之陣列形式輸入網路架構138中。在一些實施例中,所述第一向量集中之每一向量表示參考基 因組中之一不同染色體。在一些實施例中,所述第一向量集中之每一向量表示參考基因組中之多個染色體。在一些實施例中,所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括參考基因組中對應於所述各別向量之染色體上的分組中之每一個。
單軌-每個分組之平均序列讀段長度. 在一些實施例中,參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的部分。在一些此類實施例中,所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第一分組計數。每一各別第一分組計數代表自獲自各別訓練個體之生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上的序列讀段之平均長度。在一些此類實施例中,將所述多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集以所述第一向量集中向量之形式輸入網路架構中。在一些實施例中,所述第一向量集中之每一向量表示所述物種之基因組中之一不同染色體。在一些實施例中,所述第一向量集中之每一向量表示所述物種之基因組中的多個染色體。在一些實施例中,所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括參考基因組中對應於所述各別向量之染色體上的分組中之每一個。
單軌-對偶基因比率. 在一些實施例中,參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的區域。所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第一分組計數。每一各別第一分組計數代表自獲自各別訓練個體之生物樣品中之無細胞核酸量測的映射至參考基因組中對應於各別分組之不同區域上之序列讀段的對偶基因比率。
在一些實施例中,將多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集輸入網路架構中。在一些實施例中,所述第一向量集中之每一向量表示參考基因組中之一不同單個染色體。在替代性實施例中,所述第一向量集中之每一向量表示參考基因組中之多個染色體。
在一些實施例中,所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括參考基因組中對應於所述各別向量之染色體上的分組中之每一個。
單軌-分組中突變之計數. 在一些實施例中,參考基因組之全部或一部分係由多個分組表示。所述多個分組中之每一各別分組表示參考基因組之一不同且不重疊的區域。所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之第一分組計數。每一各別第一分組計數代表在自獲自各別訓練個體之生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上之序列讀段中所鑑別的突變之數量。
將多個向量集中自第一訓練個體之基因型資料構築體格式化的第一向量集輸入網路架構138中。在一些實施例中,所述第一向量集中之每一向量表示參考基因組中之一不同單個染色體。在一些實施例中,所述第一向量集中之一向量表示所述參考基因組中之多個染色體。
在一些實施例中,所述多個分組包括一萬個分組,且所述多個向量中之每一各別向量包括參考基因組中對應於所述各別向量之染色體上的分組中之每一個。
多軌,其中對於所有染色體具有一個CNN路徑或對於每一染色體具有若干不同CNN路徑. 在一些實施例中,每一各別訓練個體之基因型資訊除包括以上描述之第一分組計數外,亦包括多個分組中每一各別分組之兩個或兩 個以上額外分組計數,每一各別額外分組計數代表自生物樣品量測且映射至參考基因組中對應於所述各別分組之不同區域上的不同形式之基因型資訊。在此類實施例中,第一訓練個體之第一向量集130包括多個向量,其分成多個軌,每一軌包括第一向量集中含有相應分組計數資訊的相應子集之多個向量。第一子集中之每一各別由第一分組計數類型資訊組成,第二子集中之每一各別向量由第二分組計數類型資訊組成,諸如此類。在此類實施例中,網路架構138包括多個卷積神經網路路徑140,其包含自生物樣品量測的每一不同類型分組計數之各別卷積神經網路路徑。所述多個卷積神經網路路徑中之每一各別卷積神經網路路徑包括第一卷積層及第二卷積層。在此類實施例中,對於第一向量集之各別子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中相應卷積神經網路路徑之第一卷積層中。所述多個卷積神經網路路徑中每一各別卷積神經網路路徑的各別最後一層將來自所述各別最後一層的不同多個值饋入所述評分器中。在一些實施例中,自訓練樣品量測1、2、3、4、5、6、7、8、9或10種不同類型的分組計數資訊並將每一此類分組計數類型分配至網路架構138中之一個或多個獨立卷積神經網路路徑140。
在一些此類實施例中,每一各別分組計數類型彼此不同且多個分組計數中之每一各別分組計數類型各自獨立地為以下之一:(i)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(ii)自生物樣品中之白血球量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(iii)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之成對序列讀段的各別第一數量,其中所述各別第一數量個成對序列讀段中之每一序列讀段序列讀段映射至所述物種之基因組之所述區域中在第一尺寸範 圍(例如小於160個核苷酸之值內。在一些實施例中,第一臨限長度係150個核苷酸或更少。在一些實施例中,第一臨限長度係140個核苷酸或更少。在一些實施例中,第一臨限長度係130個核苷酸或更少。在一些實施例中,第一臨限長度係159、158、157、156、155、154、153、152、151、150、149、148、147、146、145、144、143、142、141、140、139、138、137、136、135、134、133、132、131、130、129、128、127、126、125個或更少核苷酸)的序列;(iv)使用對生物樣品中無細胞核酸之甲基化測序分析獲得的測序資料中具有預定甲基化狀態且映射至參考基因組中對應於所述各別分組之區域上之序列讀段的數量;(v)自生物樣品中之無細胞核酸量測的測序資料中映射至參考基因組中對應於所述各別分組之區域上之序列讀段的平均長度;(vi)自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上之序列讀段的對偶基因比率;及(vii)在自生物樣品中之無細胞核酸量測的映射至參考基因組中對應於所述各別分組之區域上之序列讀段中所鑑別的突變之數量。
區塊218.參看圖2B之區塊218,自評分器獲得多個分數136。所述多個分數中之每一分數對應於多個向量集中之一向量集於網路架構中之輸入。
在一些實施例中,評分器152提供所述多個向量集中每一各別向量集之k維分數。所述k維分數中之每個元素表示與所述各別向量集相關聯之訓練個體患有多種癌症病況中一相應癌症病況的機率或可能性。在一些實施例中,k係2或更大的正整數。在一些實施例中,k係3或更大的正整數。在一些實施例中,k之值匹配多種癌症病況中癌症病況之數量。舉例而言,若所述多種癌症病況係10種,則k之值係10。在一些實施例中,k之值匹配多種癌症病況中癌症病況之數量加1。舉例而言,若所述多種癌症病況係10種,則k值為11, 其中額外值表示給定訓練個體之網路架構與癌症類型無匹配。
在一些實施例中,評分器152使用第一卷積神經網路路徑中最後一層之輸出的正規化指數函數計算多個向量集中每一各別向量集130的k維分數。參見Gold,1996,「Softmax至Softassign:用於組合優化之神經網路演算法(Softmax to Softassign:Neural Network Algorithms for Combinatorial Optimization)」,《人工神經網路雜誌(Journal of Artificial Neural Networks)》2,381-399,其以引用的方式併入本文中。
在一些實施例中,評分器152包括決策樹演算法、多重增量回歸樹演算法、叢集演算法、主成分分析演算法、最近鄰分析演算法、線性判別分析演算法、二次判別分析演算法、支持向量機(SVM)演算法、進化法、投影追蹤演算法或其集體。
決策樹大體上描述於Duda,2001,《模式分類(Pattern Classification)》,John Wiley & Sons,Inc.,紐約,第395-396頁中,其以引用的方式併入本文中。基於樹之方法將特徵空間分割成一組矩形,且接著在每一矩形中擬合模型(如常量)。在一些實施例中,決策樹係隨機森林回歸。可以使用的一種特定演算法係分類與回歸樹(classification and regression tree,CART)。其他特定的決策樹演算法包含但不限於ID3、C4.5、MART及隨機森林。CART、ID3及C4.5描述於Duda,2001,《模式分類》,John Wiley & Sons,Inc.,紐約,第396-408頁及第411-412頁中,其以引用的方式併入本文中。CART、MART及C4.5描述於Hastie等人,2001,《統計學習精要(The Elements of Statistical Learning)》,Springer-Verlag,紐約,第9章中,其以全文引用的方式併入本文中。隨機森林描述於Breiman,1999,「隨機森林-隨機特徵(RandomForests--Random Features)」,《技術報告(Technical Report)567》,柏克萊加州大學統計學系 (Statistics Department,U.C.Berkeley),1999年9月中,其以全文引用的方式併入本文中。
叢集描述於Duda及Hart,《模式分類與場景分析(Pattern Classification and Scene Analysis)》,1973,John Wiley &Sons,Inc.,紐約(在下文中稱為「Duda 1973」)之第211-256頁中,其以全文引用的方式併入本文中。如Duda 1973之第6.7部分中所描述,叢集問題係描述為在資料集中發現自然分組之問題。為鑑別自然分組,要解決兩個問題。首先,確定量測二個樣品之間之相似性(或不相似性)的方式。此度量(相似性量度)係用於確保一個叢集中各樣品彼此間的類似程度要高於其與其他叢集中之樣品的類似程度。其次,確定使用所述相似性量度將資料分割成叢集之機制。
Duda 1973之第6.7部分中論述相似性量度,其中指出開始叢集研究之一種方式係定義距離函數並計算訓練集中所有樣品對之間的距離矩陣。若距離係相似性之良好量度,則同一叢集中參考實體之間的距離將明顯小於不同叢集中參考實體之間之距離。然而,如Duda 1973第215頁上所述,叢集不需要使用距離度量。舉例而言,非度量相似性函數s(x,x')可用於比較二個向量x與x'。按照慣例,s(x,x')係一種對稱函數,當x及x'在某種程度上「相似」時,其值較大。非度量相似性函數s(x,x')之實例提供於Duda 1973第218頁上。
在選定用於量測資料集中各點之間之「相似性」或「不相似性」的方法後,叢集需要一量測所述資料之任何分區之叢集品質的標準函數。使用使標準函數極化之資料集分區對資料進行叢集。參見Duda 1973第217頁。標準函數在Duda 1973第6.8部分中有論述。
近來,已出版Duda等人,《模式分類》,第2版,John Wiley & Sons,Inc.,紐約。第537-563頁詳細描述了叢集。關於叢集技術之更多資訊可見於 Kaufman及Rousseeuw,1990,《在資料中尋找群組:叢集分析導論(Finding Groups in Data:An Introduction to Cluster Analysis)》,Wiley,紐約州紐約;Everitt,1993,《叢集分析(Cluster analysis)》(第3版),Wiley,紐約州紐約;以及Backer,1995,《叢集分析中之電腦輔助推理(Computer-Assisted Reasoning in Cluster Analysis)》,Prentice Hall,新澤西州上鞍河(Upper Saddle River,New Jersey),其各自以引用的方式併入本文中。可用於本揭示案中的特定示例性叢集技術包含但不限於階層式叢集(使用最近鄰演算法、最遠鄰演算法、平均連結演算法、質心演算法或平方和演算法進行之凝聚式叢集)、k均值叢集、模糊k均值叢集演算法及Jarvis-Patrick叢集。此類叢集可以基於第一特徵集合{p1,...,pN-K}(或由所述第一特徵集合得出的主成分)。在一些實施例中,所述叢集包括無監督叢集(區塊490),其中並未強加在訓練集叢集時應形成何種叢集的先入為主之觀念。
主成分分析(PCA)演算法在Jolliffe,1986,《主成分分析(Principal Component Analysis)》,Springer,紐約中有描述,其以引用的方式併入本文中。PCA在Draghici,2003,《用於DNA微陣列之資料分析工具(Data Analysis Tools for DNA Microarrays)》,Chapman & Hall/CRC中亦有描述,其以引用的方式併入本文中。主成分(PC)係不相關且有序的,由此使第k個PC在所有PC中具有第k個最大變化。第k個PC可解釋為使資料點之投影的變化達到最大的方向,由此使其與前k-1個PC正交。前幾個PC捕捉了訓練集中之大部分變化。相比之下,通常假定最後幾個PC僅捕捉訓練集中之殘留『雜訊』。
SVM描述於以下中:Cristianini及Shawe-Taylor,2000,「支持向量機導論(An Introduction to Support Vector Machines)」,Cambridge University Press,劍橋(Cambridge);Boser等人,1992,「用於最佳間隔分類器之訓練演算法(A training algorithm for optimal margin classifiers)」,《第5屆ACM計算學 習理論研討會會議記錄(Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory)》,ACM Press,賓夕法尼亞州匹茲堡(Pittsburgh,Pa.),第142-152頁;Vapnik,1998,《統計學習理論(Statistical Learning Theory)》,紐約懷利(Wiley,New York);Mount,2001,《生物信息學:序列及基因組分析(Bioinformatics:sequence and genome analysis)》,Cold Spring Harbor Laboratory Press,紐約冷泉港(Cold Spring Harbor,N.Y.);Duda,《模式分類》,第二版,2001,John Wiley&Sons,Inc.,第259、262-265頁;以及Hastie,2001,《統計學習精要(The Elements of Statistical Learning)》,Springer,紐約;以及Furey等人,2000,《生物信息學(Bioinformatics)》16,906-914,其各自以全文引用的方式併入本文中。當用於分類時,SVM利用距經標記資料最遠之超平面將一組給定的二元標記之資料訓練集分開。對於可能不存在線性分離之情形,SVM可以與『內核函數(kernels)』技術組合起作用,該技術自動地實現特徵空間之非線性映射。SVM在特徵空間中發現之超平面對應於輸入空間中之非線性決策邊界。
在一些實施例中,評分器152包括多個全連接層及二項或多項邏輯斯蒂回歸成本層,其中所述多個全連接層中之一全連接層饋入二項或多項邏輯斯蒂回歸成本層中。邏輯斯蒂回歸演算法揭示於Agresti,《分類資料分析引論(An Introduction to Categorical Data Analysis)》,1996,第5章,第103-144頁,John Wiley & Son,紐約中,其以引用的方式併入本文中。
區塊220.參看圖2B之區塊218,使用多個分數136中之各別分數與多個訓練個體中相應訓練個體之相應癌症類型的比較來至少調整第一濾波器之權重及第二權重之權重,由此訓練網路架構以對所述物種之多種癌症病況中之一癌症類型進行分類。接著,針對訓練資料(例如訓練個體之癌症種類124)所驗證的由網路架構138引起之癌症病況指定的錯誤經由神經網路之權重反向 傳播,以便訓練網路架構138。舉例而言,在此類反向傳播中調整所述網路之卷積層中各別濾波器之濾波器權重。在一個示例性實施例中,針對訓練資料,藉由隨機梯度下降及AdaDelta自適應學習方法(Zeiler,2012,《ADADELTA:自適應學習率方法(ADADELTA:an adaptive learning rate method)》,CoRR,第abs/1212.5701卷,以引用的方式併入本文中),以及以引用之方式併入本文中的Rumelhart等人,1988,「神經計算:研究之基礎(Neurocomputing:Foundations of research)」,反向傳播錯誤引起之學習表示(Learning Representations by Back-propagating Errors)一章,第696-699頁,美國馬薩諸塞州劍橋(Cambridge,MA,USA):MIT Press中所提供的反向傳播演算法,針對由網路架構138引起的癌症病況指定中的錯誤訓練網路架構138。
以此方式,網路架構138在每一卷積神經網路路徑之第一及第二卷積層內學習參數,當所述路徑在輸入中之某個空間位置處看到某種特定類型之特徵時活化。藉由針對訓練集訓練所述卷積神經網路獲得一卷積層中每一濾波器之初始權重。因此,所述網路架構之操作產生的特徵比歷史上用於對癌症病況進行分類之特徵要複雜得多。
區塊222.參看圖2B之區塊222,可使用現根據區塊202至220訓練的網路架構138,使用獲自測試個體之生物樣品中之無細胞核酸的序列讀段資訊作為經訓練網路架構之輸入,將測試個體分類至多種癌症病況中之一癌症病況。
另外,在一些實施例中,獲取生物樣品或藉由本文所描述之方法或組合物中之任一種治療的訓練或測試個體可為任何年齡且可以為成年、嬰兒或兒童。在一些情況下,所述個體,例如患者係0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、 27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99歲,或在其中之範圍內(例如在約2歲與約20歲之間、在約20歲與約40歲之間、或在約40歲與約90歲之間)。特定種類之個體,例如可以得益於本揭示案之方法的患者係超過40歲的個體,例如患者。另一特定種類之個體,例如可以得益於本揭示案之方法的患者係可能有較高慢性心臟症狀風險之兒科患者。另外,獲取樣品或藉由本文所描述之方法或組合物中之任一種治療的個體,例如患者可以為男性或女性。在一些實施例中,所揭示方法中之任一種進一步包括基於確定測試個體是否患有癌症,對所述測試個體提供治療性干預或成像。
實例1:產生甲基化狀態向量.
圖22係一流程圖,其描述根據本揭示案之一個實施例,對cfDNA片段測序以獲得甲基化狀態向量的製程2200。
參看步驟2202,自生物樣品獲得cfDNA片段(例如,如上文結合圖2所論述)。參看步驟2220,處理cfDNA片段以將未甲基化之胞嘧啶轉化成尿嘧啶。在一個實施例中,對所述DNA進行亞硫酸氫鹽處理,將cfDNA片段之未甲基化胞嘧啶轉化成尿嘧啶,但不轉化甲基化胞嘧啶。舉例而言,在一些實施例中,使用商業套組,諸如EZ DNA MethylationTM-Gold、EZ DNA MethylationTM-Direct或EZ DNA MethylationTM-Lightning套組(購自Zymo Research Corp(加利福尼亞州爾灣市(Irvine,CA)))進行亞硫酸氫鹽轉化。在其他實施例中,未甲基化胞嘧啶轉化成尿嘧啶係使用酶反應實現。舉例而言, 該轉化可以使用將未甲基化胞嘧啶轉化成尿嘧啶之市售套組,諸如APOBEC-Seq(馬薩諸塞州伊普斯維奇(Ipswich,MA)之NEBiolabs)。
由經轉化之cfDNA片段製備測序文庫(步驟2230)。視情況,使用多個雜交探針,在測序文庫中富集2235提供癌症狀態資訊的cfDNA片段或基因組區域。所述雜交探針係能夠與特別指定之cfDNA片段或靶向區域雜交並富集該等片段或區域用於後續測序及分析的短寡核苷酸。研究人員可使用雜交探針執行一組指定所關注CpG位點之靶向、高深度分析。測序文庫或其一部分一經製備,即可經測序以獲得多個序列讀段(2240)。序列讀段可呈電腦可讀的數位形式以供電腦軟體處理及解譯。
基於所述序列讀段與參考基因組之比對測定所述序列讀段中各CpG位點之位置及甲基化狀態(2250)。每一片段之甲基化狀態向量指定參考基因組中所述片段之位置(例如,如由每一片段中第一個CpG位點之位置或另一類似度量指定)、所述片段中CpG位點之數量及所述片段中每一CpG位點之甲基化狀態(2260)。
實例2:獲得多個序列讀段.
圖23係根據一個實施例的用於製備測序用核酸樣品之方法2300的流程圖。方法2300包含但不限於以下步驟。舉例而言,方法2300之任何步驟均可包括本領域中熟習此項技術者已知用於品質控制或其他實驗室分析程序的定量子步驟。
在區塊2302中,自個體提取核酸樣品(DNA或RNA)。所述樣品可以為人類基因組之任何子集,包含整個基因組。樣品可以自已知患有或疑似患有癌症之個體提取。樣品可以包含血液、血漿、血清、尿液、糞便、唾液、其他類型體液或其任何組合。在一些實施例中,抽取血液樣品之方法(例如注 射器或刺破手指)的創傷性可低於可能需要手術的用於獲得組織切片之程序。所提取之樣品可以包括cfDNA及/或ctDNA。對於健康個體,人體能夠天然地清除cfDNA及其他細胞碎片。若個體患有癌症或疾病,則所提取樣品中之ctDNA可以可偵測水準存在以便診斷。
在區塊2304中,製備測序文庫。在文庫製備期間,經由接頭連接將獨特分子標識符(unique molecular identifier,UMI)添加至核酸分子(例如DNA分子)。UMI係在接頭連接期間添加至DNA片段兩端之短核酸序列(例如4-10個鹼基對)。在一些實施例中,UMI係簡併鹼基對,其充當獨特標籤,可用於標識源自特定DNA片段之序列讀段。在接頭連接後進行PCR擴增期間,UMI與附接之DNA片段一起複製。由此提供一種在下游分析中標識來自同一原始片段之序列讀段的方式。
在區塊2306,自所述文庫中富集靶向DNA序列。在富集期間,使用雜交探針(在本文中又稱為「探針」)靶向並下拉提供癌症(或疾病)存在或不存在、癌症狀態或癌症分類(例如癌症類型或起源組織)之資訊的核酸片段。對於給定工作流程,探針可設計成與DNA之目標(互補)股黏接(或雜交)。目標股可為「正」股(例如轉錄成mRNA且隨後轉譯成蛋白質之股)或互補「負」股。探針長度可在10、100或1000個鹼基對之範圍內。在一個實施例中,探針係基於一組基因設計以分析(例如人類或另一生物體之)基因組中疑似對應於某些癌症或其他類型疾病之特定突變或目標區域。此外,探針可以覆蓋目標區域之重疊部分。
圖24係根據一個實施例的用於獲得序列讀段之製程的圖形表示。圖24描繪來自樣品之核酸區段2000的一個實例。此處,核酸區段2400可以為單股核酸區段,諸如單股的。在一些實施例中,核酸區段2400係雙股cfDNA 區段。所示實例描繪核酸區段中可作為不同探針之目標的三個區域2405A、2405B及2405C。具體而言,三個區域2405A、2405B及2405C各自包含在核酸區段2400上之重疊位置。示例重疊位置在圖24中被描繪為胞嘧啶(「C」)核苷酸鹼基2402。胞嘧啶核苷酸鹼基2402係位於區域2405A之第一邊緣附近、在區域2405B之中心且在區域2405C之第二邊緣附近。
在一些實施例中,一個或多個(或所有)探針係基於一組基因設計以分析(例如人類或另一生物體之)基因組中疑似對應於某些癌症或其他類型疾病之特定突變或目標區域。藉由使用一組目標基因而非對基因組之所有表現基因測序,又稱為「全外顯子組測序」,方法2400可用於增加目標區域之測序深度,其中深度係指樣品內之給定目標序列經測序之次數的計數。增加測序深度使所需的核酸樣品輸入量減少。
使用一個或多個探針雜交核酸樣品2400有助於瞭解目標序列2470。如圖24中所示,目標序列2470係區域2405中作為雜交探針之目標的核苷酸鹼基序列。目標序列2470亦可稱為雜交之核酸片段。舉例而言,目標序列2470A對應於作為第一雜交探針之目標的區域2405A,目標序列2470B對應於作為第二雜交探針之目標的區域2405B,且目標序列2470C對應於作為第三雜交探針之目標的區域2405C。鑒於胞嘧啶核苷酸鹼基2402位於作為雜交探針之目標的每一區域2405A-C內之不同位置處,每一目標序列2470包含對應於目標序列2470上特定位置處之胞嘧啶核苷酸鹼基2402的核苷酸鹼基。
在雜交步驟之後,捕捉雜交之核酸片段且亦可使用PCR進行擴增。舉例而言,可以富集目標序列2470以獲得富集之序列2480,隨後可以對其進行測序。在一些實施例中,每一富集之序列2080係由目標序列2470複製得到。分別由目標序列2470A及2470C擴增的富集之序列2480A及2480C亦包含 位於每一序列讀段2480A或2480C之邊緣附近的胸腺嘧啶核苷酸鹼基。如下文所使用,富集之序列2480中相對於參考對偶基因(例如胞嘧啶核苷酸鹼基2402)突變的突變核苷酸鹼基(例如胸腺嘧啶核苷酸鹼基)被視為替代性對偶基因。另外,由目標序列2470B擴增的每一富集之序列2480B包含位於每一富集之序列2480B之附近或中心處的胞嘧啶核苷酸鹼基。
在區塊2408中,由富集之DNA序列,例如圖24中所示的富集之序列2480產生序列讀段。測序資料可以藉由本領域中已知之手段,自富集之DNA序列獲取。舉例而言,方法2300可以包含下一代測序(NGS)技術,包含合成技術(Illumina)、焦磷酸測序(454 Life Sciences)、離子半導體技術(Ion Torrent測序)、單分子即時測序(Pacific Biosciences)、連接測序(SOLiD測序)、奈米孔測序(Oxford Nanopore Technologies)或配對端測序(paired-end sequencing)。在一些實施例中,使用合成測序,利用可逆染料終止子執行大規模平行測序。
在一些實施例中,可使用本領域中已知之方法使序列讀段與參考基因組比對以確定比對位置資訊。比對位置資訊可以指示參考基因組中對應於給定序列讀段之起始核苷酸鹼基及終止核苷酸鹼基的區域之起始位置及終止位置。比對位置資訊亦可包含序列讀段長度,其可以由所述起始位置及終止位置確定。參考基因組中之區域可能與基因或基因區段有關。
在各種實施例中,序列讀段包含表示為R 1R 2之讀段對。舉例而言,第一讀段R 1可以自核酸片段之第一端開始測序,而第二讀段R 2可以自所述核酸片段的第二端開始測序。因此,第一讀段R 1與第二讀段R 2之核苷酸鹼基對可以始終與參考基因組之核苷酸鹼基比對(例如呈相對取向)。由讀段對R 1R 2得到的比對位置資訊可以包含參考基因組中對應於第一讀段(例如R 1)之 一端的起始位置,及參考基因組中對應於第二讀段(例如R 2)之一端的終止位置。換言之,參考基因組中之起始位置及終止位置表示所述核酸片段所對應的參考基因組內之可能位置。可生成並輸出具有序列比對圖譜(sequence alignment map,SAM)格式或二進制(binary,BAM)格式之輸出檔案以進行進一步分析,諸如上文結合圖2所描述。
實例3:循環無細胞基因組圖譜研究(Circulating Cell-Free Genome Atlas Study,CCGA)組.
使用來自CCGA[NCT02889978]之個體作為本揭示案之實例4中的訓練個體。CCGA係一項前瞻性、多中心、觀察性的基於cfDNA之早期癌症偵測研究,其在141個場所招收了15,000名人口結構平衡之參與者中的9,977名。自如在招收時所定義的患有未接受過新診斷療法之癌症的個體(C,病例)及未診斷癌症之參與者(非癌症[NC],對照)收集血液。此預先規劃之子研究包含二十個腫瘤類型及所有臨床階段的878例病例、580例對照及169例分析對照(n=1627)。
所有樣品藉由以下進行分析:1)成對cfDNA及白血球(WBC)靶向測序(60,000X,507個基因小組);聯合呼叫者移除之WBC源性體細胞變異體及殘餘技術雜訊;2)成對cfDNA及WBC全基因組測序(WGS;35X);新穎機器學習演算法生成的癌症相關信號分數;聯合分析鑑別之共有事件;以及3)cfDNA全基因組亞硫酸氫鹽測序(WGBS;34X);使用異常甲基化之片段產生正規化分數。在靶向分析中,非腫瘤WBC相配之cfDNA體細胞變異體(SNV/indel)在NC中之所有變異體中佔76%且在C中佔65%。與體細胞嵌合(例如純系血細胞生成)相符,WBC相配之變異體隨年齡而增加;其中有一些係先前未報導過的非典型性功能損失突變。在移除WBC變異體之後,經典驅動體細 胞變異體對C具有高度特異性(例如在EGFR及PIK3CA中,0例NC具有變異體分別相對於11例C及30例C)。類似地,在利用WGS偵測到體細胞複本數改變(SCNA)之8例NC中,有四例係源自WBC。CCGA之WGBS資料揭示提供資訊之高片段及低片段水準CpG(1:2比率);其中一小組被用於計算甲基化分數。在所有分析中,在<1%之NC參與者中觀察到一致的「癌症樣」信號(表示潛在的未確診之癌症)。在NC相對於I-III期相對於IV期中觀察到遞增之趨勢(非同義SNV/indel/Mb[平均值±SD]NC:1.01±0.86,I-III期:2.43±3.98;IV期:6.45±6.79;WGS分數NC:0.00±0.08,I-III:0.27±0.98;IV:1.95±2.33;甲基化分數NC:0±0.50;I-III:1.02±1.77;IV:3.94±1.70)。這些資料展示對於侵襲性癌症達成>99%特異性之可行性,且證實cfDNA分析用於早期癌症偵測之前景。
實例4:基於再正規化之分組計數(Re-Normalized Bincounts)進行癌症分類之卷積神經網路.
參看圖3-4及6-21,提供了在多種不同癌症病況中對人類之一癌症病況進行分類的實例。使用來自CCGA資料(實例3)的總計1764位訓練個體作為本實例中之訓練集。對於1764位訓練個體中之每一各別訓練個體,獲得以下資訊:(i)所述各別訓練個體之癌症病況124及(ii)基因型資料構築體126,其包含如以上實例3中所概述的所述各別訓練個體之多個染色體中每一各別染色體128之基因型資訊。
在本實例之一些部分中,人類基因組係由多個分組表示。所述多個分組中之每一各別分組表示人類基因組之不同部分。各訓練個體之基因型資料構築體126中每一各別人類染色體之基因型資訊包括所述多個分組中每一各別分組之分組計數。如以下特定附圖中所詳述,每一各別分組計數代表各別分 組中出現的自獲自相應訓練個體之生物樣品量測且映射至所述物種之基因組中由所述各別分組表示之不同區域上的基因型資訊。舉例而言,使用訓練個體之生物樣品量測映射至人類基因組中由特定分組表示之區域上的序列讀段。
基於B分數計算之變異數過濾基因型構築體126內之分組,由此將用於每一個體之分組數量自約三萬個分組縮減至約二萬五千個分組。在上文結合圖2A之區塊202描述了這種形式之分組精簡。
接下來,使每一分組之分組值再正規化以使其在預期分佈上『對齊』。
在一些實施例中,基因型資料構築體126亦提供每一分組之布爾型掩碼(mask Boolean),其與一分組之分組計數偏差是否能以源自白血球之分組的分組計數解釋相關聯。其他詳情可見於2018年3月13日提交且題為「鑑別複本數變異(IDENTIFYING COPY NUMBER ABERRATIONS)」之美國專利申請案第62/642,506號中,該案以全文引用的方式併入本文中。
對於分數分析,在訓練集中對所有類型癌症進行分層,但僅乳癌、肺癌、子宮癌、結腸直腸癌、黑素瘤及腎癌具有獨立的標記。其他癌症類型一起標記為「其他」。
將所述訓練集之多個基因型資料構築體中之每一基因型資料構築體126格式化成包括相應一個或多個向量132之相應向量集130,由此產生多個向量集。
將向量集提供至包括用於依序接收所述多個向量集中之向量集130之第一卷積神經網路路徑140的網路架構138,所述第一卷積神經網路路徑又包括第一多個層,所述第一多個層包含與包括第一組濾波器權重148之第一相關聯的第一卷積層302(圖1B)。網路架構亦包含評分器152。更確切地說, 圖3示出本實例中使用之網路架構138。如圖3中所示出,在每一卷積神經網路路徑140內,網路路徑140之多個層中除最後一層外的每一層之輸出用作所述多個層中另一層中之輸入。所述多個層包括第二卷積層306。第一卷積層302包含至少一個第一濾波器146,其包括第一組濾波器權重148。第二卷積層306包含至少一個第二濾波器146,其包括第二組權重148。如圖3中進一步所示,每一卷積神經網路路徑140進一步包括第一池化層304及第二池化層308。
響應於多個向量集130中之各別向量集130於網路架構138中之輸入,執行一程序。所述程序包括(a)將作為所述各別向量集中值之第一函數之第一多個輸入值輸入第一卷積層302中;(b)引起所述第一卷積層將作為以下之第二函數計算的第一多個中間值饋入卷積神經網路路徑中之另一層中:(i)至少所述第一組濾波器權重及(ii)所述第一多個輸入值;(c)引起所述第二卷積層饋入作為以下之第三函數的第二中間值:(i)所述第二組濾波器權重及(ii)第二卷積層306自第一卷積神經網路路徑中之另一層接收的輸入值;以及(d)引起第一卷積神經網路路徑中之最後一層將來自最後一層之多個值饋入評分器152中。所述程序進一步引起第一池化層304將以來自第一卷積層302之第一多個中間值之第一池化函數計算的第三多個中間值饋入第二卷積層306中。如圖3中所示,所述程序進一步引起第二池化層308將以來自第二卷積層308之第二多個中間值函數第二池化函數計算的第四多個中間值饋入評分器152中。評分器152提供所述多個向量中每一各別向量集130之k維分數。所述k維分數中之每個元素表示與所述各別向量集相關聯之訓練個體患有所述多種癌症病況中一相應癌症病況的機率或可能性。
在本實例中,評分器152使用22個卷積神經網路路徑各自之最後一層之輸出的正規化指數函數計算所述多個向量集中每一各別向量集之k維分 數,每一路徑表示22個人類體染色體之一。此情形在圖3中示出。網路架構138包含22個卷積神經網路路徑,每一路徑代表22個體染色體人類染色體中之每一個。在本實例中,每一向量集130中之每一向量132由相應不同人類體染色體之基因型資訊組成。所述程序之輸入步驟對於各別向量集130中之每一各別向量132,將所述各別向量輸入各別卷積神經網路路徑140中表示與所述各別向量132相關聯之染色體的第一卷積層302中。每一卷積神經網路路徑140之最大池化層308將不同多個值饋入評分器152中。
以此方式,自所述評分器獲得多個分數。所述多個分數中之每一分數對應於網路架構138中多個向量集中之一向量集130之輸入。將所述多個分數中之各別分數與多個訓練個體中相應訓練個體之相應癌症病況124(本實例中之癌症中)相比較以調整每一卷積神經網路路徑140之第一及第二卷積層(302、306)的濾波器權重,由此訓練網路架構138以對人類之多種癌症病況中之一癌症病況進行分類。
圖4示出圖3之網路架構138中之卷積神經網路路徑140中與染色體相關聯之濾波器權重148。亦即,染色體之第一卷積層302的濾波器權重148水平地展示圖4中。將第一濾波器之所述組濾波器權重中之每一濾波器權重針對第一卷積層302進行卷積,意味著在所述組濾波器權重中之一權重與卷積層302中相應元素之值之間獲取內積。如圖4中所示,濾波器146之所述組濾波器權重包含22個權重,每一權重的值在一定範圍內,其中值之範圍在低值(淺顏色)與高值(深灰色)之間進行灰度調整。因此,當卷積濾波器時,獲取所述濾波器之所述組濾波器權重中每一權重與第一卷積濾波器302中相應元素的內積。圖4表示在使用訓練個體之資料訓練後的濾波器權重。
圖6示出使用訓練集中每一各別訓練個體之基因型資料構築體 126的圖3中所示網路架構之模型效能,其呈假陽性率相對於真陽性率之接收者操作特徵(ROC)曲線形式。每一此類基因型資料構築體包含呈單軌分組計數形式之無細胞核酸資料,所述分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由訓練個體之各別分組表示之不同部分上的測序資訊中之序列讀段的數量。對於這些分組計數,白血球對分組計數之貢獻未經掩蔽。因此,圖6顯示網路架構138確定訓練集中每一各別訓練個體之正確癌症類型的能力。ROC曲線顯示,圖3中所描述之網路架構138具有與基於B分數之分類器之效能相符的效能。基於B分數之分類器描述於2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」之美國專利申請案第16/352,739號中,該案以引用的方式併入本文中。圖7示出圖6之網路架構針對基於癌症類型之一癌症類型的效能。亦即,在圖7中,提供針對基於癌症類型之一癌症類型,圖3之網路架構138(呈單軌形式)針對訓練集中分別患有乳癌、肺癌、子宮癌、結腸直腸(Crc)癌、黑素瘤、腎癌或其他癌症(CCGA訓練集中其他癌症中之任一種)之所有訓練個體的真陽性率。圖8示出圖6之網路架構針對基於癌症分期之一癌症分期的效能。亦即,在圖8中,提供上文所描述之網路架構138依據CCGA訓練集中之不確定分期(NI)、0期、1期、II期、III期及IV期癌症(不管癌症類型如何)確定所述訓練集中訓練個體之癌症類型的真陽性率。
圖9示出使用訓練個體之基因型資料構築體的呈單軌形式(22個卷積神經網路路徑)之圖3網路架構的效能,其假陽性率相對於真陽性率之ROC曲線形式,所述基因型資料構築體包含呈單軌分組計數形式之無細胞核酸資料,所述分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射 至所述物種之基因組中由訓練個體之各別分組表示之不同部分上的測序資訊中之序列讀段的數量,其中對於訓練個體,白血球對分組計數之貢獻經掩蔽。ROC曲線顯示,掩蔽白血球對分組計數之貢獻改善了在圖6中所觀察到的基線值,在白血球貢獻未掩蔽情況下,達到約百分之三。圖10示出圖9之網路架構針對基於癌症類型之一癌症類型的效能。亦即,在圖10中,提供針對基於癌症類型之一癌症類型,圖9所使用的上文所描述之網路架構針對訓練集中分別患有乳癌、肺癌、子宮癌、結腸直腸(Crc)癌、黑素瘤、腎癌或其他癌症(CCGA訓練集中其他癌症中之任一種)之所有訓練個體的真陽性率。圖11示出圖9之網路架構針對基於癌症分期之一癌症分期的效能。亦即,在圖11中,提供圖9之網路架構依據CCGA訓練集中之不確定分期(NI)、0期、1期、II期、III期及IV期癌症(不管癌症類型如何)確定所述訓練集中訓練個體之癌症類型的真陽性率。
圖12示出使用各別訓練個體之基因型資料構築體126的各種軌網路架構之模型效能,所述基因型資料構築體包含呈分組計數形式之無細胞核酸資料,所述分組計數代表自獲自所述訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練個體之各別分組表示的不同區域上的測序資訊中之序列讀段之數量。確切地說,圖12顯示掩蔽來自白血球之無細胞核酸資料(掩蔽、未掩蔽)並以與來自不為白血球之細胞之無細胞核酸資料不同的軌呈現來自白血球資料之無細胞核酸資料(雙軌,其中存在44個卷積神經網路路徑))相對於僅不包含白血球資料(單軌,其中存在44個卷積神經網路路徑)的相對效能。
圖13顯示使用各別訓練個體之基因型資料構築體的呈單軌形式之圖3網路架構的呈ROC曲線形式之頭對頭模型效能,所述基因型資料構築體 包含呈分組計數形式之無細胞核酸資料,所述分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由訓練個體之各別分組表示之不同區域上的測序資訊中之序列讀段的數量,其中白血球對分組分數計數之貢獻已掩蔽(黑線),由此使用B分數分類器(灰線)對同一訓練個體進行分類。基於B分數之分類器進行的分類描述於2019年3月13日提交的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」之美國專利申請案第16/352,739號中,該案以引用的方式併入本文中。圖13係訓練集中之全部1764位個體。
圖14示出呈單軌形式的基於卷積網路之圖3網路架構在訓練群體中依據癌症分期之真陽性率相對於B分數分類器之散佈圖比較。在圖14中,將各別訓練個體之基因型資料構築體126提供至圖3之網路架構以評價這些個體之癌症類型,所述基因型資料構築體包含呈分組計數形式之無細胞核酸資料,所述分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練個體之各別分組表示之區域上的測序資訊中之序列讀段之數量,其中白血球對分組分數計數之貢獻已掩蔽。將此網路架構在這些病況下之效能與本實例中針對同一訓練集之B分數分析相比較。在圖14中,資料係依據癌症分期分開。圖14指示,組合B分數與來自圖3網路架構138之分數的分類器可能為有利的,因為B分數對網路架構138無法正確分類之一些個體正確地分類且反之亦然。
圖15示出使用各別訓練個體之基因型資料構築體的網路架構之模型效能與此類訓練個體中體細胞複本數改變(SCNA)之數量的相關性,所述基因型資料構築體包含呈訓練個體之分組計數形式的無細胞核酸。關於測定體 細胞複本數改變計數之揭示內容,參見例如2013年3月13日以申請案第13/801,748號提交的美國專利公開案第2014/0100121號,該案以引用的方式併入本文中。
圖16及17示出使用各別訓練個體之基因型資料構築體126的網路架構138之模型效能受到基於訓練個體之一訓練個體,掩蔽白血球對分組計數之貢獻的影響,所述基因型資料構築體包含呈單軌分組計數形式之無細胞核酸資料,所述分組計數代表自獲自訓練個體之生物樣品中之無細胞核酸量測的映射至所述物種之基因組中由所述訓練集中之訓練個體之各別分組表示的不同區域上之測序資訊中之序列讀段的數量。圖16說明,掩蔽使網路架構138分數在正確方向(黑色圓圈)上偏移百分之五十七的時間。圖17顯示訓練集中前八個最顯著的偏移。
圖18及19示出根據本揭示案之一個實施例,圖3之網路架構138如何能夠辨別特定個體中的體細胞缺失。更確切地說,圖18示出以單軌模式運行網路架構138,其中提供了圖3中所示網路架構138中22個卷積神經網路路徑140(每個染色體對應一個)之每一卷積神經網路路徑140中之第二池化層308的各別輸出。亦即,圖18提供22個卷積神經網路路徑140之池化層308的輸出。因此,在圖18中,每一卷積神經網路路徑有二行。各別染色體之第一行係池化層308之輸出,因為其涉及針對與各別染色體相關聯的卷積神經網路路徑之池化層308中的第一濾波器之輸出池化。各別染色體之第二行係池化層308之輸出,因為其涉及針對與各別染色體相關聯之卷積神經網路路徑之池化層308中的第二濾波器之輸出池化。如圖18中所示,每一行包含29個元素,每一元素的值在一定範圍內,其中值的範圍係在低值(淺顏色)與高值(深灰色)之間進行灰度調整。圖18示出卷積神經網路路徑140中對應於染色體2、8及13的 三個區域(1802、1804、1806),其中對於形成圖18呈現之值之基礎的特定個體,池化層之輸出相對較低。轉向圖19,如藉由映射至用於圖18之訓練個體之染色體2、8及13的成對序列讀段之平均片段長度縮小所測定,這三個區域與這些染色體上的缺失相關。
圖20及21示出圖3之網路架構138如何能夠辨別特定個體中之體細胞複本數改變。關於測定體細胞複本數改變計數之揭示內容,參見例如2013年3月13日以申請案第13/801,748號提交的美國專利公開案第2014/0100121號,該案以引用的方式併入本文中。更確切地說,圖20示出以單軌模式運行網路架構138,其中提供了圖3中所示網路架構138中22個卷積神經網路路徑140(每個染色體對應一個)之每一卷積神經網路路徑140中之第二池化層308的各別輸出。亦即,圖20提供22個卷積神經網路路徑140之池化層308的輸出。因此,在圖20中,每一卷積神經網路路徑140有二行。各別染色體之第一行係池化層308之輸出,因為其涉及針對與各別染色體相關聯的卷積神經網路路徑之池化層308中的第一濾波器之輸出池化。各別染色體之第二行係池化層308之輸出,因為其涉及針對與各別染色體相關聯之卷積神經網路路徑之池化層308中的第二濾波器之輸出池化。如圖20中所示,每一行包含29個元素,每一元素的值在一定範圍內,其中值的範圍係在低值(淺顏色)與高值(深灰色)之間進行灰度調整。圖20示出卷積神經網路路徑140中對應於染色體4之特定區域(2020),其中對於形成圖20中呈現之值之基礎的特定個體,池化層之輸出相對較低。轉向圖21,如藉由映射至染色體4之序列讀段之數量增加所測定,此區域與訓練個體之顯著體細胞複本數改變相關。
實例5:卷積神經網路之癌症分類效能.
參看圖5及27-40,提供了在多種不同癌症病況中對人類之一癌 症病況進行分類的實例。在本實例中,評價了圖3中所示且以下實例6中更詳細地描述的分類器之效能。在圖27-41中,評分器152輸出二元分類(k=2),其中所述二個輸出之一係用於指定「癌症」且所述二個輸出中的另一個係用於指定「非癌症」。另外,在本實例中,「癌症」與「非癌症」之分數總計為一。因此,圖27-41中之「CNN分數」係「癌症種類」之分數(又稱為陽性種類分數)。
圖27示出根據本揭示案之一個實施例使用的藉由癌症類型實行癌症類型分類的本揭示案之卷積網路架構分數之盒狀圖,並且指定每一癌症類型中訓練個體之數量。在圖27中,評分器152傳回群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如,圖27中顯示乳癌群體之陽性種類分數(患有癌症),網路架構138之評分器152提供對172位患有乳癌之個體中每一位的陽性種類分數。同樣,圖27中顯示前列腺群體之陽性種類分數(患有癌症),網路架構138之評分器152提供58位患有前列腺癌之個體中每一位的陽性種類分數。
圖28示出依據侵襲性癌症及非癌症狀態對以下高死亡率癌症進行癌症類型分類的卷積網路架構138陽性種類分數「患有癌症」:肝膽癌、卵巢癌、胰臟癌、食道癌、肺癌(HOPEL)。在圖28中,總計99位訓練個體患有高死亡率癌症且評價總計362位未患高死亡率癌症之訓練個體。在圖28中,評分器152傳回測試群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如,圖28中顯示網路架構138之評分器152所提供的99位患有HOPEL癌症之個體中每一位的陽性種類分數(患有癌症)。圖28中亦顯示網路架構138之評分器152所提供的362位未患HOPEL癌症之個體中每一位的陽性種類分數(患有癌症)。網路架構所提供的未患 HOPEL癌症之個體的陽性種類分數低於患有HOPEL癌症之個體的陽性種類分數,指示所述網路架構能夠辨別HOPEL癌症與未患HOPEL癌症。圖29示出針對圖28之資料的卷積網路架構138分數之ROC。
圖30示出針對高信號癌症(HiSigCan)的本揭示案之卷積網路架構138分數,HiSigCan定義為以下之單一原發性侵襲性癌症:ER乳癌、結腸直腸癌、肺癌、胰臟癌、卵巢癌、肝膽癌症、胃癌、頭頸癌及食道癌。在圖30中,總計199位訓練個體患有高信號癌症且評價總計362位未患高信號癌症之訓練個體。在圖30中,評分器152傳回測試群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如,圖30中顯示網路架構138之評分器152所提供的199位患有HiHigCan癌症之個體中每一位的陽性種類分數(患有癌症)。圖30中亦顯示網路架構138之評分器152所提供的362位未患HiHigCan癌症之個體中每一位的陽性種類分數(患有癌症)。網路架構所提供的未患HiHigCan癌症之個體的陽性種類分數低於患有HiHigCan癌症之個體的陽性種類分數,指示網路架構138能夠辨別HiHigCan癌症與未患HiHigCan癌症。圖31示出針對圖30之資料的卷積網路架構分數之ROC。
圖32及33示出根據本揭示案之一個實施例,依據癌症分期得到的針對侵襲性癌症的本揭示案之卷積網路架構138分數,所述侵襲性癌症係以組織學方式確定的侵襲性癌症。在圖32及33中,評價了160位患有I期侵襲性癌症之個體、141位患有II期侵襲性癌症之個體、70位患有III期侵襲性癌症之個體、34位不提供資訊之個體及362位未患癌症之個體。在圖32中,評分器152傳回群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如圖32中顯示I期群體之陽性種類分數(患有 癌症),網路架構138之評分器152提供160位患有I期癌症之個體(在以160位個體為代表的所述癌症中)中每一位的陽性種類分數。同樣,圖32中顯示II期癌症之陽性種類分數(患有癌症),網路架構138之評分器152提供141位患有II期癌症之個體中每一位的陽性種類分數。在圖32中觀察到陽性種類分數隨癌症分期進展而變高的一般趨勢。
圖34及35示出根據本揭示案之一個實施例,依據癌症分期針對高死亡率癌症進行癌症類型分類的本揭示案之卷積網路架構138分數:肝膽癌症、卵巢癌、胰臟癌、食道癌、肺癌(HOPEL)。在圖34及35中,評價了24位患有I期HOPEL癌症之訓練個體、14位患有II期HOPEL癌症之訓練個體、17位患有III期HOPEL癌症之訓練個體、41位患有IV期HOPEL癌症之訓練個體及362位未患癌症之訓練個體。在圖34中,評分器152傳回這些圖中所測試之群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如,圖34中顯示I期群體之陽性種類分數(患有癌症),網路架構138之評分器152提供對24位患有I期HOPEL癌症之個體中每一位的陽性種類分數。同樣,圖34中顯示II期癌症之陽性種類分數(患有癌症),網路架構138之評分器152提供14位患有II期HOPEL癌症之個體中每一位的陽性種類分數。在圖34中觀察到陽性種類分數隨HOPEL癌症分期進展而變高的一般趨勢。
圖36及37示出依據癌症分期分開的針對高信號癌症(HiSigCan)的本揭示案之卷積網路架構分數,HiSigCan定義為以下之單一原發性侵襲性癌症:ER乳癌、結腸直腸癌、肺癌、胰臟癌、卵巢癌、肝膽癌症、胃癌、頭頸癌及食道癌。在圖36及37中,評價了38位患有I期HiSigCan癌症之訓練個體、49位患有II期HiSigCan癌症之訓練個體、39位患有III期HiSigCan癌症之訓練 個體、63位患有IV期HiSigCan癌症之訓練個體、10位不提供資訊之訓練個體及362位未患癌症之訓練個體。在圖36中,評分器152傳回這些圖中所測試之群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如,圖36中顯示I期群體之陽性種類分數(患有癌症),網路架構138之評分器152提供對38位患有I期HiSigCan癌症之個體中每一位的陽性種類分數。同樣,圖34中顯示II期癌症之陽性種類分數(患有癌症),網路架構138之評分器152提供49位患有II期HiSigCan癌症之個體中每一位的陽性種類分數。在圖36中觀察到陽性種類分數隨HiSigCan癌症分期進展而變高的一般趨勢。
圖38及39示出根據本揭示案之一個實施例,依據癌症分期分開的針對肺癌的本揭示案之卷積網路架構138分數。在圖38及39中,評價了12位患有I期肺癌之訓練個體、5位患有II期肺癌之訓練個體、10位患有III期肺癌之訓練個體、19位患有IV期肺癌之訓練個體、1位不提供資訊之訓練個體及362位未患癌症之訓練個體。在圖38中,評分器152傳回這些圖中所測試之群體中每一個體之「癌症」(陽性種類分數)及「非癌症」之分數值。這兩個分數值總計為一。因此,例如,圖38中顯示I期群體之陽性種類分數(患有癌症),網路架構138之評分器152提供對12位患有I期肺癌癌之個體中每一位的陽性種類分數。同樣,圖34中顯示II期癌症之陽性種類分數(患有癌症),網路架構138之評分器152提供5位患有II期肺癌之個體中每一位的陽性種類分數。在圖38中觀察到陽性種類分數隨肺癌分期進展而變高的一般趨勢。
圖40示出根據本揭示案之一個實施例,依據子類型分開的針對肺癌之卷積網路架構分數138。
圖5示出依據癌症分期分開的針對三陰性乳癌(關於雌激素受體 (ER-)、孕酮受體(PR-)及HER2(HER2-)測試呈陰性的乳癌)的卷積網路架構138分數。
實例6:卷積神經網路之運行時間.
在本實例中,提供關於本揭示案之網路架構138的一些度量。所有計算均在NVidia DGX-Station深度學習系統上執行。
訓練.用於編碼所述網路架構之框架係Tensorflow。請訪問網際網路https://www.tensorflow.org/。可訓練參數之總數係4094。此包含第一及第二卷積層之第一權重。訓練時期之數量係1000。訓練批次中訓練個體之數量係128位。平均訓練步驟時間(每個時期)係800毫秒。每個時期存在12個步驟。每個時期步驟之平均訓練時間係9.6秒。1000個時期之平均訓練時間係2.66小時。因此,10折交叉驗證模型之總平均訓練用於係10*2.66小時,總計26.6小時。這些度量假設DGX-Station之100%利用率,即,其中無其他CPU或GPU密集型進程正在運行。將訓練分配於Nvidia盒中的全部四個V100 GPU。硬體針對深度學習進行高度優化且訓練可能在習知工作站上要花費更長的時間(數週)。
評價.所用框架係Tensorflow。使用單個時期進行評價。評價批量規模係約900位個體。每個時期之步驟數係1。每個時期之平均評價時間係10.89秒。所有樣品均在一批中評價,因此只有一個步驟。
模型架構係Tensorflow。下表1中顯示根據本實例使用的網路架構138之模型架構。
表1:本實例中使用的網路架構138.
Figure 108119093-A0202-12-0094-4
Figure 108119093-A0202-12-0095-5
表1之層號1係用於接收向量集130之輸入層。
表1之層號2係作為圖3之卷積濾波器層302示出。網路架構138以雙軌模式運行資料,其中對於44個卷積神經網路路徑,白血球對來自二十二個體染色體中每一個之生物樣品中無細胞核酸的貢獻被佈設至二十二個不同的第一卷積層302且非白血球對來自二十二個體染色體中每一個之生物樣品中無細胞核酸的貢獻被佈設至二十二個額外的第一卷積層302,且有1012個可訓練權重與這些第一卷積層302相關聯。
表1之層號3係作為圖3之最大池化層304示出且不具有可訓練參數。
表1之層號4係作為圖3之卷積濾波器層306示出。網路架構138以雙軌模式運行資料,具有總計44個卷積神經網路路徑及528個與這些卷積神經網路路徑140之卷積層306相關聯的可訓練權重。
表1之層號5係作為圖3之最大池化層308示出且不具有可訓練參數。
表1之層6及7係未在圖3中示出之處理層。
表1之層8係作為圖3之評分器152示出且具有2554個可訓練參數。
實例7:卷積神經網路效能與其他分類器之比較.
下表2提供圖3及實例6之網路架構(在表2中稱為「CNN」)相對於B分數分類器(在表2中稱為「B分數」)(參見2019年3月13日提交 的題為「用於選擇、管理及分析高維度資料之方法及系統(Method and System for Selecting,Managing,and Analyzing Data of High Dimensionality)」之美國專利申請案第16/352,739號)以及M分數分類器(在表2中稱為「M分數」)(參見2018年3月13日提交的題為「甲基化片段異常偵測(Methylation Fragment Anomaly Detection)」之美國專利申請案第62/642,480號)之效能的比較。在表2中,術語「Inv.Can」表示侵襲性癌症且定義為以組織學方式確定的侵襲性癌症。在表2中,「Sn@95Sp」表示「在95%特異性下之平均靈敏度」,「Sn@98Sp」表示「在98%特異性下之平均靈敏度」,且「Sn@99Sp」表示「在99%特異性下之平均靈敏度」。因此,例如Sn@95Sp係分類器在特定特異性水準下之平均靈敏度。如表2中所使用,靈敏度係分類器將個體正確地分類為患有癌症之能力。如表2中所使用,特異性係分類器將個體正確地分類為未患疾病之能力。因此,表2使用各種特異性截止值(95%、98%或99%),在這些截止值下評價分類器之靈敏度。
表2:卷積神經網路效能與其他分類器之比較
Figure 108119093-A0202-12-0096-6
Figure 108119093-A0202-12-0097-7
Figure 108119093-A0202-12-0098-8
Figure 108119093-A0202-12-0099-9
Figure 108119093-A0202-12-0100-10
Figure 108119093-A0202-12-0101-11
Figure 108119093-A0202-12-0102-12
Figure 108119093-A0202-12-0103-13
Figure 108119093-A0202-12-0104-14
Figure 108119093-A0202-12-0105-15
Figure 108119093-A0202-12-0106-16
結論
對於本文中作為單一實例描述之組件、操作或結構可提供多個實例。最後,各種組件、操作與資料儲存之間的邊界在某種程度上係任意的,且在特定說明性組態之上下文中說明特定操作。可設想其他功能分配,且可以在實施方案之範圍內。一般而言,在示例組態中作為獨立組件呈現之結構及功能可作為組合結構或組件實施。類似地,作為單一組件呈現之結構及功能可作為獨立組件實施。此等及其他變化、修改、添加及改進係在所述實施方案之範圍內。
亦應理解,儘管術語第一、第二等可在本文中用於描述各種元件,但此等元件不應受此等術語限制。此等術語僅用於將一個元件與另一元件相區分。舉例而言,第一個體可稱為第二個體,且類似地,第二個體可稱為第一個體,而不會背離本揭示案之範圍。第一個體與第二個體皆為個體,但其並非同一個體。
本揭示案中所使用之術語僅出於描述特定實施例之目的且並不打算限制本發明。除非上下文中另外清楚地指示,否則如本發明之描述及所附申請專利範圍中所使用,單數形式「一個(種)」及「所述」亦意圖包含複數形式。亦應理解,如本文所使用,術語「及/或」係指且涵蓋相關所列項目中一項或多項之任何及所有可能組合。亦應理解,術語「包括(comprises/comprising)」當用於本說明書中時,指明所述特徵、整數、步驟、操作、元件及/或組件之存在,但不排除一個或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組之存在或添加。
如本文所使用,術語「若」可取決於上下文而解釋為意謂「當......時」或「在......後」或「響應於測定」或「響應於偵測到」。類似地,片語「若測定」或「若偵測到[所述情形或事件]」可取決於上下文而解釋為意謂「在測定 後」或「響應於測定」或「在偵測到[所陳述情形或事件]後」或「響應於偵測到[所述情形或事件]」。
前述描述包含體現例示性實施方案之示例系統、方法、技術、指令序列及計算機程式產品。出於說明之目的,陳述多種具體詳情以便提供對本發明主題各種實施方案之理解。然而,本領域中熟習此項技術者將顯而易見,可在無此等特定細節之情況下實踐本發明主題之實施方案。一般而言,熟知之指令實例、方案、結構及技術並未詳細顯示。
出於說明之目的,已參照特定實施方案描述前述描述。然而,以上之說明性論述並不意欲為詳盡的或將所述實施方案侷限於所揭示之精確形式。鑒於以上教示,許多修改及變化係可能的。選擇並描述所述實施方案係為了最佳地闡明原理及其實際應用,藉此使本領域中熟習此項技術者能夠最佳利用所述實施方案以及具有適合所涵蓋之特定用途之各種修改的各種實施方案。
100‧‧‧系統
102‧‧‧處理核心
103‧‧‧圖形處理單元
104‧‧‧網路介面
106‧‧‧使用者介面
108‧‧‧顯示器
110‧‧‧輸入
111‧‧‧非持續記憶體
112‧‧‧持續記憶體
114‧‧‧通信匯流排
116‧‧‧可選操作系統
118‧‧‧可選網路通信模組(或指令)
120‧‧‧病況評價模組
138‧‧‧網路架構

Claims (19)

  1. 一種用於將測試對象分類為多種不同癌症病況中之一癌症病況的電腦系統,所述電腦系統包括:至少一個通用處理器;以及一通用記憶體,所述通用記憶體儲存至少一個程式以藉由所述至少一個通用處理器執行,所述至少一個程式包括用於以下之指令:(A)對於一物種之多個訓練個體中的每一各別訓練個體,獲得:(i)一癌症病況及(ii)包含對應於所述物種之一參考基因組之位置的基因型資訊之一基因型資料構築體,由此獲得多個基因型資料構築體;(B)將所述多個基因型資料構築體中之每一基因型資料構築體格式化成包括一個或多個相應向量之一相應向量集,由此產生多個向量集;(C)將所述多個向量集提供至一網路架構,其包含至少(i)一第一卷積神經網路路徑,所述路徑包括含至少一個與至少一個第一濾波器相關聯之第一卷積層的第一多個層,所述第一濾波器包括一第一組濾波器權重;及(ii)一評分器;(D)自所述評分器獲得多個分數,其中所述多個分數中之每一分數對應於所述多個向量集中之向量集之一於所述網路架構中之輸入;(E)使用所述多個分數中之各別分數與所述多個訓練個體中相應訓練個體之相應癌症病況的比較以調整至少所述第一組濾波器權重,由此訓練所述網路架構以對所述多種癌症病況中之一癌症病況進行分類;且(F)使用經訓練之網路架構,使用基於自獲自一測試個體的一生物樣品中之無細胞核酸之序列讀段資料的一基因型資料構築體作為所述經訓練之網路架構的輸入,將所述測試個體分類至所述多種癌症病況中之一癌症病況。
  2. 如申請專利範圍第1項所述的電腦系統,其中: 所述電腦系統進一步包括具有一圖形處理記憶體之一圖形處理單元;所述網路架構係儲存於所述圖形處理器記憶體中;且所述提供(C)引起所述第一卷積層依序接收所述多個向量集中之向量集。
  3. 如申請專利範圍第1項或第2項所述的電腦系統,其中:所述第一多個層進一步包括一第二卷積層;所述第二卷積層包含至少一個第二濾波器,其包括一第二組濾波器權重;所述第一多個層中除所述第一多個層中之最後一層外的每一層之輸出用作所述第一多個層中另一層中之輸入;且其中所述提供(C)響應於所述多個向量集中之一各別向量集於所述網路架構中之輸入,執行一程序,所述程序包括:(a)將作為所述各別向量集中之值之一第一函數的第一多個輸入值輸入所述第一卷積層中,(b)引起所述第一卷積層將作為以下之一第二函數計算的第一多個中間值饋入所述第一卷積神經網路路徑中之另一層中:(i)至少所述第一組濾波器權重及(ii)所述第一多個輸入值,(c)引起所述第二卷積層饋入作為以下之一第三函數的第二多個中間值:(i)至少所述第二組濾波器權重及(ii)由所述第二卷積層自所述第一卷積神經網路路徑中之另一層接收的輸入值,且(d)引起所述第一卷積神經網路路徑中之最後一層將來自所述最後一層之多個值饋入所述評分器中。
  4. 如申請專利範圍第3項所述的電腦系統,其中所述第一卷積層之所述至少第一濾波器包括一對濾波器,其各自獨立地在所述提供(C)之前初始化為隨機化值,且所述第二卷積層之所述至少第二濾波器係一對濾波器,其獨立地在所述提 供(C)之前初始化為隨機化值。
  5. 如申請專利範圍第3項所述的電腦系統,其中所述第一卷積神經網路路徑進一步包括一第一池化層及一第二池化層,且其中所述程序進一步包括:引起所述第一池化層將以來自所述第一卷積層之所述第一多個中間值之一第一池化函數計算的第三多個中間值饋入所述第一卷積神經網路路徑中之另一層中,且引起所述第二池化層將以來自所述第二卷積層之所述第二多個中間值之一第二池化函數計算的第四多個中間值饋入所述第一卷積神經網路路徑中之另一層中或饋入所述評分器中;且視情況其中所述第一池化層及所述第二池化層各自獨立地選自由以下組成之群組:一最大池化層、一分數階最大池化層、一平均池化層及一L2範數池化層。
  6. 如申請專利範圍第1或2項所述的電腦系統,其中:(i)所述評分器提供所述多個向量集中每一各別向量集之一k維分數,其中k係2或更大正整數,且所述k維分數中之每個元素表示與所述各別向量集相關聯之所述訓練個體患有所述多種癌症病況中一相應癌症病況的機率或可能性;且視情況(a)其中所述評分器使用所述第一卷積神經網路路徑中所述最後一層之輸出的一正規化指數函數計算所述多個向量集中每一各別向量集的所述k維分數;或(b)其中所述評分器包括一決策樹、一多重增量回歸樹演算法、一叢集演算法、一主成分分析演算法、一最近鄰分析演算法、一線性判別分析演算法、一二次判別分析演算法、一支持向量機演算法、一進化法演算法、一投影追蹤演算法或其集體;或 (ii)所述評分器包括多個全連接層及一多項邏輯斯蒂回歸成本層,且所述多個全連接層中之一全連接層饋入所述多項邏輯斯蒂回歸成本層中;或(iii)其中所述評分器包括一二項邏輯斯蒂回歸成本層。
  7. 如申請專利範圍第3項所述的電腦系統,其中:所述參考基因組之全部或一部分係由多個分組表示,每一各別分組表示所述參考基因組之一不同且不重疊的區域,且每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表第一基因型資訊,其係自獲自所述各別訓練個體的一生物樣品量測且映射至所述參考基因組中對應於所述各別分組之區域上。
  8. 如申請專利範圍第7項所述的電腦系統,其中所述物種係人類且所述多個分組係在一千個分組與五萬個分組之間。
  9. 如申請專利範圍第7項所述的電腦系統,其中所述代表第一基因型資訊之第一分組計數係以下之一:自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之白血球量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之成對序列讀段的一各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至所述物種之所述基因組之所述區域中在一第一尺寸範圍內的一序列,使用對所述生物樣品中之無細胞核酸之一甲基化測序分析獲得的測序資料 中具有一預定甲基化狀態且映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之序列讀段的一平均核酸長度,自所述生物樣品中之無細胞核酸片段量測的映射至所述參考基因組中對應於所述各別分組之區域上的序列讀段之一對偶基因比率,及在自所述生物樣品中之無細胞核酸量測的映射至所述參考基因組中對應於所述各別分組之區域上的序列讀段中所鑑別的突變之數量;且視情況其中所述甲基化測序分析係全基因組測序,其包括將一個或多個未甲基化胞嘧啶經亞硫酸氫鹽轉化或酶轉化成相應一個或多個尿嘧啶。
  10. 如申請專利範圍第1或2項所述的電腦系統,其中每一向量集中之每一向量由所述物種之多個染色體中之一相應不同染色體的基因型資訊組成。
  11. 如申請專利範圍第3項所述的電腦系統,其中:(1)所述網路架構包含多個卷積神經網路路徑,所述多個卷積神經網路路徑包括針對所述多個染色體中每一染色體的至少一個不同卷積神經網路路徑,每一不同卷積神經網路路徑包括一第一卷積層及一第二卷積層,所述程序之輸入步驟(a)對於所述各別向量集中之每一各別向量,將所述各別向量輸入所述各別卷積神經網路路徑中表示與所述各別向量相關聯之染色體的所述第一卷積層中,且所述多個卷積神經網路路徑中每一卷積神經網路路徑的各別最後一層將來自所述各別最後一層的不同多個值饋入所述評分器中;且視情況其中:所述網路架構包括多個第一濾波器,所述多個第一濾波器中之每一各別第 一濾波器包括相應第一組濾波器權重且對應於所述多個卷積神經網路路徑中一相應卷積神經網路路徑中之一第一卷積層,所述網路架構包括多個第二濾波器,所述多個第二濾波器中之每一各別第二濾波器包括相應第二組濾波器權重且對應於所述多個卷積神經網路路徑中一相應卷積神經網路路徑中之一第二卷積層,所述程序以一第一預定步幅將所述第一多個濾波器中之每一第一濾波器針對所述多個卷積神經網路路徑中一相應第一卷積層進行卷積,且所述程序以一第二預定步幅將所述多個第二濾波器中之每一第二濾波器針對所述多個卷積神經網路路徑中一相應第二卷積層進行卷積;且視情況其中:所述多個卷積神經網路路徑係二十二個,所述多個卷積神經網路路徑中之每一各別卷積神經網路路徑對應於一不同的常染色體人類染色體,所述多個第二濾波器由二十二個第二濾波器組成,所述第一預定步幅在2與10之間,且所述第二預定步幅在1與5之間;或(2)所述參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的部分,且所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表自獲自所述訓練個體的一生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之不同區域上之序列讀段的數量;且視情況(a)其中將所述多個向量集中藉由所述格式化(B)自所述第一訓練個體之基因型資料構築體格式化的一第一向量集以所述各別向量集中向量之一陣列形式輸入所述網路架構中,視情況 其中所述第一向量集中之每一向量表示所述物種之所述基因組中之一不同染色體,視情況其中:所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括所述物種之所述基因組中對應於所述各別向量之染色體上的所述分組中之每一個,視情況其中:所述第一卷積層係所述第一卷積神經網路路徑中之所述第一層並響應於所述各別向量集於所述多個向量集中之輸入,直接地接收所述各別向量,且所述第一組濾波器包括在五個與五十個之間的濾波器並在所述程序之引起步驟(b)中以一步幅Y卷積,其中Y係在一與五之間;或(b)其中所述多個訓練個體中每一各別訓練個體之基因型資料構築體包含所述多個分組中每一各別分組之一第二分組計數,每一各別第二分組計數代表:自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之序列讀段的數量,自所述生物樣品中之白血球量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之成對序列讀段的一各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至所述物種之所述基因組之所述部分中在一第一尺寸範圍內的一序列,使用對所述生物樣品中之無細胞核酸的一甲基化測序分析獲得的測序資料中具有一預定甲基化狀態且映射至所述參考基因組中對應於所述各別分組之部分上之序列讀段的數量, 自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之序列讀段的一平均核酸長度,自所述生物樣品中之無細胞核酸片段量測的映射至所述參考基因組中對應於所述各別分組之部分上的序列讀段之一對偶基因比率,及在自所述生物樣品中之無細胞核酸量測的映射至所述參考基因組中對應於所述各別分組之部分上的序列讀段中所鑑別的突變之數量,視情況其中所述第一向量集之所述第一軌中的每一向量表示所述物種之所述基因組中之一不同染色體,所述第一向量集之所述第二軌中的每一向量亦表示所述物種之所述基因組中之一不同染色體,且所述輸入(a)將所述第一軌輸入一第一卷積神經網路路徑中並將所述第二軌輸入一第二卷積神經網路路徑中,視情況其中:所述多個分組包括一萬個分組,且所述多個向量中之每一各別向量包括所述參考基因組中對應於所述各別向量之染色體上的所述分組中之每一個;或(3)所述參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的部分,所述多個訓練個體中每一各別訓練個體之基因型資料構築體包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表自獲自所述訓練個體的一生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之成對序列讀段的一各別第一數量,其中所述各別第一數量個成對序列讀段中之每一各別成對序列讀段係在一第一尺寸 範圍內,每一訓練個體之基因型資料構築體進一步包括所述多個分組中每一各別分組之一第二分組計數,每一各別第二分組計數代表自獲自所述訓練個體的所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上之成對序列讀段的一各別第二數量,其中所述各別第二數量個成對序列讀段中之每一各別成對序列係在一第二尺寸範圍內,將所述多個向量集中藉由所述格式化(B)自一第一訓練個體之基因型資料構築體格式化的一第一向量集以一第一軌及一第二軌形式輸入所述網路架構中,所述第一軌中每一向量之每一各別元素表示所述多個分組中所述相應分組之所述第一分組計數,且所述第二軌中每一向量之每一各別元素表示所述多個分組中所述相應分組之所述第二分組計數;視情況其中所述第一向量集之所述第一軌中的每一向量表示所述物種之所述基因組中之一不同染色體,且所述第二向量集之所述第二軌中的每一向量亦表示所述物種之所述基因組中之一不同染色體,視情況其中:所述多個分組包括一萬個分組,且所述多個向量中之每一各別向量包括所述參考基因組中對應於所述各別向量之染色體上的所述分組中之每一個;或(4)所述物種之所述基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的部分,且 所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表使用對所述生物樣品中之無細胞核酸之一甲基化測序分析獲得的測序資料中具有一預定甲基化狀態且映射至所述參考基因組中對應於所述各別分組之部分上之序列讀段的數量,視情況其中將所述多個向量集中藉由所述格式化(B)自一第一訓練個體之基因型資料構築體格式化的一第一向量集以所述各別向量集中向量之一陣列形式輸入所述網路架構中,視情況其中(i)所述第一向量集中之每一向量表示所述參考基因組中之一不同染色體,視情況其中:所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括所述參考基因組中對應於所述各別向量之染色體上的所述分組中之每一個;或(ii)所述第一向量集中之一向量表示所述參考基因組中之多個染色體;或(5)所述參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的部分,且所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之部分上的序列讀段之一平均核酸長度,視情況其中將所述多個向量集中藉由所述格式化(B)自一第一訓練個體之基因型資料構築體格式化的一第一向量集以所述第一向量集中向量之形式輸入所述網路架構中。視情況 其中(i)所述第一向量集中之每一向量表示所述物種之所述基因組中之一不同染色體,視情況其中:所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括所述參考基因組中對應於所述各別向量之染色體上的所述分組中之每一個;或(ii)所述第一向量集中之一向量表示所述物種之所述基因組中的多個染色體;或(6)所述參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一各別分組表示所述參考基因組之一不同且不重疊的部分,且所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表自所述生物樣品中之無細胞核酸片段量測的映射至所述參考基因組中對應於所述各別分組之部分上的序列讀段之一對偶基因比率,視情況其中將所述多個向量集中藉由所述格式化(B)自一第一訓練個體之基因型資料構築體格式化的一第一向量集輸入所述網路架構中,視情況其中(i)所述第一向量集中之每一向量表示所述參考基因組中之一不同單個染色體,視情況其中:所述多個分組包括一萬個分組,且所述第一向量集中之每一各別向量包括所述參考基因組中對應於所述各別向量之染色體上的所述分組中之每一個,或(ii)所述第一向量集中之每一向量表示所述參考基因組中之多個染色體;或(7)所述參考基因組之全部或一部分係由多個分組表示,所述多個分組中之每一 各別分組表示所述參考基因組之一不同且不重疊的部分,且所述多個訓練個體中每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第一分組計數,每一各別第一分組計數代表在自所述生物樣品中之無細胞核酸量測的映射至所述參考基因組中對應於所述各別分組之部分上的序列讀段中所鑑別的突變之數量,視情況其中將所述多個向量集中藉由所述格式化(B)自一第一訓練個體之基因型資料構築體格式化的一第一向量集輸入所述網路架構中,視情況其中(i)所述第一向量集中之每一向量表示所述參考基因組中之一不同單個染色體,視情況其中:所述多個分組包括一萬個分組,且所述多個向量中之每一各別向量包括所述參考基因組中對應於所述各別向量之染色體上的所述分組中之每一個,或(ii)所述第一向量集中之一向量表示所述參考基因組中之多個染色體;或(8)其中將所述多個向量集中藉由所述格式化(B)自一第一訓練個體之基因型資料構築體格式化的一第一向量集輸入所述網路架構中。
  12. 如申請專利範圍第7項所述的電腦系統,其中:(1)每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第二分組計數,每一各別第二分組計數代表第二基因型資訊,其係自所述生物樣品量測且映射至所述參考基因組中對應於所述各別分組之不同區域上,一第一訓練個體之一第一向量集包括多個向量,所述第一向量集分成包括所述向量集之一第一子集多個向量及所述向量集之一第二子集多個向量的一第一軌,所述第一子集中之每一各別向量由所述物種之所述多個染色體中對應於所 述向量之不同染色體的所述第一分組計數組成,所述第二子集中之每一各別向量由所述物種之所述多個染色體中對應於所述各別向量之不同染色體的所述第二分組計數組成,所述網路架構包括多個卷積神經網路路徑,其包含對應於所述多個染色體中之每一各別染色體的一各別第一卷積神經網路路徑及一各別第二卷積神經網路路徑,所述多個卷積神經網路路徑中之每一各別第一卷積神經網路路徑及各別第二卷積神經網路路徑包括一第一卷積層及一第二卷積層,所述程序之輸入步驟(a):對於所述第一向量集之所述第一子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路中表示與所述各別向量相關聯之染色體的所述各別第一卷積神經網路路徑之所述第一卷積層中,及對於所述第一向量集之所述第二子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的所述各別第二卷積神經網路路徑的所述第一卷積層中,且所述程序引起所述多個卷積神經網路路徑中每一卷積神經網路路徑的各別最後一層將來自所述各別最後一層的不同多個值饋入所述評分器中;且視情況其中所述第一分組計數與所述第二分組計數彼此不同且對於所述多個分組中之每一各別分組,其各自獨立地為以下之一:自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之白血球量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組 中對應於所述各別分組之區域上之成對序列讀段的一各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至所述物種之所述基因組之所述區域中在一第一尺寸範圍內的一序列,使用對所述生物樣品中之無細胞核酸之一甲基化測序分析獲得的測序資料中具有一預定甲基化狀態且映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的一平均核酸長度,自所述生物樣品中之無細胞核酸片段量測的映射至所述參考基因組中對應於所述各別分組之區域上的序列讀段之一對偶基因比率,及在自所述生物樣品中之無細胞核酸量測的映射至所述參考基因組中對應於所述各別分組之區域上的序列讀段中所鑑別的突變之數量;或(2)每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第二分組計數,每一各別第二分組計數代表自所述生物樣品量測且映射至所述參考基因組中對應於所述各別分組之不同區域上的第二基因型資訊,每一各別訓練個體之基因型資訊包括所述多個分組中每一各別分組之一第三分組計數,每一各別第三分組計數代表自所述生物樣品量測且映射至所述參考基因組中對應於所述各別分組之不同區域上的第三基因型資訊,一第一訓練個體之一第一向量集包括多個向量,所述第一向量集分成(i)包括所述第一向量集之一第一子集多個向量的一第一軌、(ii)包括所述第一向量集之一第二子集多個向量的一第二軌及(iii)包括所述第一向量集之一第三子集多個向量的一第三軌,所述第一子集中之每一各別向量由所述物種之所述多個染色體中對應於所述向量之不同染色體的所述第一分組計數組成, 所述第二子集中之每一各別向量由所述物種之所述多個染色體中對應於所述向量之不同染色體的所述第二分組計數組成,所述第三子集中之每一各別向量由所述物種之所述多個染色體中對應於所述各別向量之不同染色體的所述第三分組計數組成,所述網路架構包括多個卷積神經網路路徑,其包含對應於所述多個染色體中之每一各別染色體的一各別第一卷積神經網路路徑、一各別第二卷積神經網路路徑及一各別第三卷積神經網路路徑,所述多個卷積神經網路路徑中之每一各別第一卷積神經網路路徑、各別第二卷積神經網路路徑及各別第三卷積神經網路路徑包括一第一卷積層及一第二卷積層,所述提供(C):對於所述第一向量集之所述第一子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的所述各別第一卷積神經網路路徑的所述第一卷積層中,對於所述第一向量集之所述第二子集中的每一各別向量,將所述各別向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的所述各別第二卷積神經網路路徑的所述第一卷積層中,及對於所述第一向量集之所述第三子集中的每一各別向量,將所述向量輸入所述多個卷積神經網路路徑中表示與所述各別向量相關聯之染色體的所述各別第三卷積神經網路路徑的所述第一卷積層中,且所述多個卷積神經網路路徑中每一各別卷積神經網路路徑的各別最後一層將來自所述各別最後一層的不同多個值饋入所述評分器中;且視情況其中所述第一分組計數、所述第二分組計數及所述第三分組計數彼此不同且對於所述多個分組中之每一各別分組,其各自獨立地為以下之一: 自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之白血球量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之成對序列讀段的一各別第一數量,其中所述各別第一數量個成對序列讀段中之每一成對序列讀段映射至所述物種之所述基因組之所述區域中在一第一尺寸範圍內的一序列,使用對所述生物樣品中之無細胞核酸之一甲基化測序分析獲得的測序資料中具有一預定甲基化狀態且映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量,自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的一平均核酸長度,自所述生物樣品中之無細胞核酸片段量測的映射至所述參考基因組中對應於所述各別分組之區域上的序列讀段之一對偶基因比率,及在自所述生物樣品中之無細胞核酸量測的映射至所述參考基因組中對應於所述各別分組之區域上的序列讀段中所鑑別的突變之數量。
  13. 如申請專利範圍第1項所述的電腦系統,其中所述多個訓練個體中每一各別訓練個體之基因型構築體係藉由全基因組測序或靶向小組測序獲得。
  14. 如申請專利範圍第1或2項所述的電腦系統,其中:(a)所述物種係人類;及/或(b)所述多種癌症病況係包括選自由以下組成之群組之三種或三種以上癌症類型的多種癌症類型:乳癌、結腸直腸癌、食道癌、頭/頸癌、肺癌、淋巴瘤、 卵巢癌、胰臟癌、前列腺癌、腎癌及子宮癌;或其中所述多種癌症病況係乳癌、結腸直腸癌、食道癌、頭/頸癌、肺癌、淋巴瘤、卵巢癌、胰臟癌、前列腺癌、腎癌或子宮癌之多個癌症分期;及/或(c)(i)所述多個訓練個體包括二十位個體,且對於所述多種癌症病況中之每一各別癌症病況,所述第一多個訓練個體包含具有所述各別癌症病況之至少兩位不同個體;或(c)(ii)所述多個訓練個體包括一百位個體,且對於所述多種癌症病況中之每一各別癌症病況,所述第一多個訓練個體包含具有所述各別癌症病況之至少五位不同個體;及/或(d)(i)所述物種係人類,且所述各別訓練個體之基因型資料構築體包含22個體染色體之基因型資訊;或(d)(ii)所述物種係人類,且所述各別訓練個體之基因型資料構築體包含少於22個體染色體之基因型資訊。
  15. 如申請專利範圍第1或2項所述的電腦系統,其中所述多種癌症病況由一第一條件及一第二條件組成,且所述評分器對所述第一條件提供一第一分數且對所述第二條件提供一第二分數;且視情況其中(i)所述評分器包括一二項邏輯斯蒂回歸成本層;及/或(ii)所述第一條件係在一個體中存在癌症,且所述第二條件係在一個體中不存在癌症;及/或(iii)所述評分器對所述第一條件提供一第一正值且對所述第二條件提供一 第二正值,且所述多個訓練個體中每一訓練個體之所述第一正值及所述第二正值總計為相同的預定常數。
  16. 一種非暫時性電腦可讀儲存媒體,其上儲存有程式碼指令,所述指令在由一處理器執行時使所述處理器執行一用於在多種不同癌症病況中對一物種之一癌症病況進行分類的方法,所述方法包括:(A)對於一物種之多個訓練個體中的每一各別訓練個體,獲得:(i)一癌症病況及(ii)包含對應於所述物種之一參考基因組之位置的基因型資訊之一基因型資料構築體,由此獲得多個基因型資料構築體;(B)將所述多個基因型資料構築體中之每一基因型資料構築體格式化成包括一個或多個相應向量之一相應向量集,由此產生多個向量集;(C)將所述多個向量集提供至一網路架構,其至少包含(i)一第一卷積神經網路路徑,所述路徑包括含至少一個與至少一個第一濾波器相關聯之第一卷積層的第一多個層,所述第一濾波器包括第一組濾波器權重;及(ii)一評分器;(D)自所述評分器獲得多個分數,其中所述多個分數中之每一分數對應於所述多個向量集中之一向量集於所述網路架構中的輸入;且(E)使用所述多個分數中之各別分數與所述多個訓練個體中相應訓練個體之相應癌症病況的比較以調整至少所述第一組濾波器權重,由此訓練所述網路架構以對所述多種癌症病況中之一癌症病況進行分類。
  17. 一種用於在多種不同癌症病況中對一個體之一癌症病況進行分類的電腦系統,所述電腦系統包括:至少一個通用處理器;以及一通用記憶體,所述通用記憶體儲存至少一個程式以藉由所述至少一個通用處理器執行,所述至少一個程式包括用於以下之指令: (A)獲得所述個體之一基因型資料構築體,其包含對應於所述物種之一參考基因組之位置的基因型資訊;(B)將所述基因型資料構築體格式化成包括一個或多個相應向量之一相應向量集;(C)將所述向量集提供至一網路架構,其包含至少(i)一第一卷積神經網路路徑,所述路徑包括含至少一個與至少一個第一濾波器相關聯之第一卷積層的第一多個層,所述第一濾波器包括第一組濾波器權重;及(ii)一評分器;(D)自所述評分器獲得一分數,其中所述分數對應於所述向量集於所述網路架構中之輸入;且(E)使用一所述分數將所述個體分類為患有所述多種癌症病況中之一癌症病況。
  18. 一種非暫時性電腦可讀儲存媒體,其上儲存有程式碼指令,所述指令在由一處理器執行時使所述處理器執行一用於在多種不同癌症病況中對一物種之一癌症病況進行分類的方法,所述方法包括:(A)獲得所述個體之一基因型資料構築體,其包含對應於所述物種之一參考基因組之位置的基因型資訊;(B)將所述基因型資料構築體格式化成包括一個或多個相應向量之一相應向量集;(C)將所述向量集提供至一網路架構,其包含至少(i)一第一卷積神經網路路徑,所述路徑包括含至少一個與至少一個第一濾波器相關聯之第一卷積層的第一多個層,所述第一濾波器包括第一組濾波器權重;及(ii)一評分器;(D)自所述評分器獲得一分數,其中所述分數對應於所述向量集於所述網路架構中之輸入;且(E)使用一所述分數將所述個體分類為患有所述多種癌症病況中之一癌症 病況。
  19. 如申請專利範圍第7項所述的電腦系統,其中在施加一序列讀段長度截止臨限值後,所述代表第一基因型資訊之第一分組計數係自所述生物樣品中之無細胞核酸量測的測序資料中映射至所述參考基因組中對應於所述各別分組之區域上之序列讀段的數量;且視情況其中所述序列讀段長度截止臨限值強制要求僅小於一臨限尺寸的序列讀段貢獻所述第一分組計數;且視情況其中所述臨限尺寸係160個核苷酸。
TW108119093A 2018-06-01 2019-05-31 用於資料分類之卷積神經網路系統及方法 TWI822789B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862679746P 2018-06-01 2018-06-01
US62/679,746 2018-06-01

Publications (2)

Publication Number Publication Date
TW202014202A TW202014202A (zh) 2020-04-16
TWI822789B true TWI822789B (zh) 2023-11-21

Family

ID=68698990

Family Applications (2)

Application Number Title Priority Date Filing Date
TW108119093A TWI822789B (zh) 2018-06-01 2019-05-31 用於資料分類之卷積神經網路系統及方法
TW112140675A TW202410055A (zh) 2018-06-01 2019-05-31 用於資料分類之卷積神經網路系統及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW112140675A TW202410055A (zh) 2018-06-01 2019-05-31 用於資料分類之卷積神經網路系統及方法

Country Status (7)

Country Link
US (3) US11482303B2 (zh)
EP (1) EP3801623A4 (zh)
CN (1) CN112888459B (zh)
AU (1) AU2019277698A1 (zh)
CA (1) CA3098321A1 (zh)
TW (2) TWI822789B (zh)
WO (1) WO2019232435A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3801623A4 (en) * 2018-06-01 2022-03-23 Grail, LLC NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS
NZ774718A (en) 2018-09-11 2021-04-30 Global ancestry determination system
WO2020051776A1 (en) * 2018-09-11 2020-03-19 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
US11468273B2 (en) * 2018-09-20 2022-10-11 Cable Television Laboratories, Inc. Systems and methods for detecting and classifying anomalous features in one-dimensional data
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
US11730387B2 (en) * 2018-11-02 2023-08-22 University Of Central Florida Research Foundation, Inc. Method for detection and diagnosis of lung and pancreatic cancers from imaging scans
US11636921B2 (en) * 2018-11-27 2023-04-25 10X Genomics, Inc. Systems and methods for inferring cell status
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
US11704573B2 (en) * 2019-03-25 2023-07-18 Here Global B.V. Method, apparatus, and computer program product for identifying and compensating content contributors
WO2021096991A1 (en) * 2019-11-11 2021-05-20 The Johns Hopkins University Early detection of pancreatic neoplasms using cascaded machine learning models
CN112926368B (zh) * 2019-12-06 2024-01-16 北京京东乾石科技有限公司 一种识别障碍物的方法和装置
CN111243658B (zh) * 2020-01-07 2022-07-22 西南大学 一种基于深度学习的生物分子网络构建与优化方法
MX2022008847A (es) * 2020-01-17 2022-08-10 Ancestry Com Dna Llc Inferencia de ascendencia basada en red neuronal convolucional.
CN111276183B (zh) * 2020-02-25 2023-03-21 云南大学 一种基于参数估计的张量分解处理海量基因序列的方法
CA3169488A1 (en) * 2020-02-28 2021-09-02 Collin MELTON Identifying methylation patterns that discriminate or indicate a cancer condition
EP4127232A1 (en) * 2020-03-30 2023-02-08 Grail, LLC Cancer classification with synthetic spiked-in training samples
AU2021248552A1 (en) * 2020-03-31 2022-11-03 Grail, Llc Cancer classification with genomic region modeling
CN111599464B (zh) * 2020-05-13 2023-12-15 吉林大学第一医院 基于直肠癌影像组学研究的新型多模态融合辅助诊断方法
KR20230024968A (ko) * 2020-06-15 2023-02-21 라이프 테크놀로지스 코포레이션 스마트 qPCR
US20230172580A1 (en) * 2020-06-19 2023-06-08 Ultrasound AI, Inc. Ultrasound with Gender Obfuscation
EP3945525A1 (en) * 2020-07-27 2022-02-02 Sophia Genetics S.A. Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data
CN112231583B (zh) * 2020-11-11 2022-06-28 重庆邮电大学 基于动态兴趣组标识和生成对抗网络的电商推荐方法
KR20220074088A (ko) * 2020-11-27 2022-06-03 주식회사 지씨지놈 인공지능 기반 암 진단 및 암 종 예측방법
CN113355421B (zh) * 2021-07-03 2023-02-28 南京世和基因生物技术股份有限公司 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
TWI793865B (zh) * 2021-11-18 2023-02-21 倍利科技股份有限公司 Ai自動輔助標記之系統及方法
WO2023102142A1 (en) * 2021-12-02 2023-06-08 AiOnco, Inc. Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
CN114417248B (zh) * 2022-01-19 2024-09-10 郑州大学 基于dcgan的线性轮廓过程质量异常监控方法和系统
US20230313271A1 (en) * 2022-02-25 2023-10-05 Illumina, Inc. Machine-learning models for detecting and adjusting values for nucleotide methylation levels
CN114580422B (zh) * 2022-03-14 2022-12-13 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114758771B (zh) * 2022-03-26 2024-11-08 广东天普生化医药股份有限公司 一种基于约束型鲸鱼优化算法的肝癌生存预测方法
TWI838192B (zh) * 2022-03-29 2024-04-01 美商先勁智醫公司 處理細胞計數資料之方法及裝置
WO2023225175A1 (en) * 2022-05-19 2023-11-23 Predicine, Inc. Systems and methods for cancer therapy monitoring
WO2024020036A1 (en) * 2022-07-18 2024-01-25 Grail, Llc Dynamically selecting sequencing subregions for cancer classification

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140371078A1 (en) * 2013-06-17 2014-12-18 Verinata Health, Inc. Method for determining copy number variations in sex chromosomes

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466923B1 (en) * 1997-05-12 2002-10-15 Chroma Graphics, Inc. Method and apparatus for biomathematical pattern recognition
US7295691B2 (en) * 2002-05-15 2007-11-13 Ge Medical Systems Global Technology Company, Llc Computer aided diagnosis of an image set
US8642349B1 (en) 2006-08-11 2014-02-04 H. Lee Moffitt Cancer Center And Research Institute, Inc. Artificial neural network proteomic tumor classification
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
DK2557517T3 (da) 2007-07-23 2022-11-28 Univ Hong Kong Chinese Bestemmelse af ubalance i nukleinsyresekvens
US9115386B2 (en) 2008-09-26 2015-08-25 Children's Medical Center Corporation Selective oxidation of 5-methylcytosine by TET-family proteins
EP2359277A2 (en) * 2008-10-31 2011-08-24 Abbott Laboratories Genomic classification of colorectal cancer based on patterns of gene copy number alterations
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
EP2576837B1 (en) 2010-06-04 2017-09-06 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
EP2591126B1 (en) * 2010-07-07 2020-12-30 Myriad Genetics, Inc. Gene signatures for cancer prognosis
TWI532843B (zh) 2010-11-30 2016-05-11 香港中文大學 與癌症有關之基因或分子變異之檢測
US20140242588A1 (en) 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
CA2877426C (en) * 2012-06-21 2024-05-21 Philip Morris Products S.A. Systems and methods relating to network-based biomarker signatures
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
ES2906714T3 (es) 2012-09-04 2022-04-20 Guardant Health Inc Métodos para detectar mutaciones raras y variación en el número de copias
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
EP2971168B1 (en) 2013-03-15 2021-05-05 Guardant Health, Inc. Method of detecting cancer
CA2924320A1 (en) 2013-09-16 2015-03-19 Biodesix, Inc. Classifier generation method using combination of mini-classifiers with regularization and uses thereof
EP4306659A3 (en) 2014-04-14 2024-03-27 Yissum Research and Development Company of the Hebrew University of Jerusalem Ltd. A method and kit for determining the tissue or cell origin of dna
CN113774132A (zh) 2014-04-21 2021-12-10 纳特拉公司 检测染色体片段中的突变和倍性
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
US20180173845A1 (en) 2014-06-05 2018-06-21 Natera, Inc. Systems and Methods for Detection of Aneuploidy
TWI727156B (zh) * 2014-07-18 2021-05-11 香港中文大學 Dna混合物中之組織甲基化模式分析
WO2016094853A1 (en) 2014-12-12 2016-06-16 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
WO2016097251A1 (en) 2014-12-19 2016-06-23 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
US9984201B2 (en) * 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
JP6791598B2 (ja) * 2015-01-22 2020-11-25 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 異なる細胞サブセットの比率の決定方法およびシステム
DK3294906T3 (en) 2015-05-11 2024-08-05 Natera Inc Methods for determining ploidy
US10185803B2 (en) * 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
EP3356999B1 (en) * 2015-10-04 2019-11-27 Atomwise Inc. System for applying a convolutional network to spatial data
WO2017106768A1 (en) 2015-12-17 2017-06-22 Guardant Health, Inc. Methods to determine tumor gene copy number by analysis of cell-free dna
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
EP3430170B1 (en) 2016-03-16 2023-08-16 Dana-Farber Cancer Institute, Inc. Methods for genome characterization
CN109478231A (zh) * 2016-04-01 2019-03-15 20/20基因系统股份有限公司 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物
EP3443119B8 (en) 2016-04-15 2022-04-06 Natera, Inc. Methods for lung cancer detection
WO2017196728A2 (en) 2016-05-09 2017-11-16 Human Longevity, Inc. Methods of determining genomic health risk
EP4043581A1 (en) 2016-05-27 2022-08-17 Sequenom, Inc. Method for generating a paralog assay system
CN110168099B (zh) 2016-06-07 2024-06-07 加利福尼亚大学董事会 用于疾病和病症分析的无细胞dna甲基化模式
JP7448310B2 (ja) 2016-07-06 2024-03-12 ガーダント ヘルス, インコーポレイテッド セルフリー核酸のフラグメントームプロファイリングのための方法
WO2018022906A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
US20210277457A1 (en) 2016-08-12 2021-09-09 Grail, Inc. Method for accurate quantification of genomic copies in cell-free dna
US10832031B2 (en) * 2016-08-15 2020-11-10 Apple Inc. Command processing using multimodal signal analysis
JP2020501240A (ja) * 2016-11-18 2020-01-16 ナントミクス,エルエルシー 汎がんゲノムにおけるdnaアクセシビリティを予測するための方法及びシステム
US11091800B2 (en) 2017-09-20 2021-08-17 University Of Utah Research Foundation Size-selection of cell-free DNA for increasing family size during next-generation sequencing
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
EP3717662A1 (en) 2017-11-28 2020-10-07 Grail, Inc. Models for targeted sequencing
CN112005306A (zh) 2018-03-13 2020-11-27 格里尔公司 选择、管理和分析高维数据的方法和系统
AU2019234843A1 (en) 2018-03-13 2020-09-24 Grail, Llc Anomalous fragment detection and classification
EP3766074A1 (en) 2018-03-13 2021-01-20 Grail, Inc. Identifying copy number aberrations
CA3096678A1 (en) 2018-04-13 2019-10-17 Grail, Inc. Multi-assay prediction model for cancer detection
EP3801623A4 (en) * 2018-06-01 2022-03-23 Grail, LLC NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS
WO2020006547A1 (en) 2018-06-30 2020-01-02 20/20 Genesystems, Inc Cancer classifier models, machine learning systems and methods of use
CA3122109A1 (en) 2018-12-21 2020-06-25 Grail, Inc. Systems and methods for using fragment lengths as a predictor of cancer
EP3938534A4 (en) 2019-03-13 2023-03-29 Grail, LLC SYSTEMS AND METHODS FOR ENRICHMENT OF CANCER DERIVED FRAGMENTS USING FRAGMENT SIZE
WO2020232109A1 (en) 2019-05-13 2020-11-19 Grail, Inc. Model-based featurization and classification
EP3973080B1 (en) 2019-05-22 2024-07-24 Grail, LLC Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210324477A1 (en) 2020-04-21 2021-10-21 Grail, Inc. Generating cancer detection panels according to a performance metric

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140371078A1 (en) * 2013-06-17 2014-12-18 Verinata Health, Inc. Method for determining copy number variations in sex chromosomes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
期刊 Kothen-Hill, Steven T., et al. "Deep learning mutation prediction enables early stage lung cancer detection in liquid biopsy." ICLR 2018 2018 openreview.net 2018/02/15 pages 1-24 *

Also Published As

Publication number Publication date
EP3801623A4 (en) 2022-03-23
CN112888459A (zh) 2021-06-01
US20230045925A1 (en) 2023-02-16
TW202014202A (zh) 2020-04-16
US11783915B2 (en) 2023-10-10
US20240062849A1 (en) 2024-02-22
US20200005899A1 (en) 2020-01-02
TW202410055A (zh) 2024-03-01
EP3801623A1 (en) 2021-04-14
CN112888459B (zh) 2023-05-23
AU2019277698A1 (en) 2020-11-19
US11482303B2 (en) 2022-10-25
CA3098321A1 (en) 2019-12-05
WO2019232435A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
TWI822789B (zh) 用於資料分類之卷積神經網路系統及方法
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
US20210065847A1 (en) Systems and methods for determining consensus base calls in nucleic acid sequencing
US11929148B2 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
US20210065842A1 (en) Systems and methods for determining tumor fraction
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
CN115087745A (zh) 无细胞样品中的双末端dna片段类型及其用途
EP4035161A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
US20220101135A1 (en) Systems and methods for using a convolutional neural network to detect contamination
WO2024192121A1 (en) White blood cell contamination detection
JPWO2021127565A5 (zh)