TW202317774A - 分類同源修復缺陷之系統及方法 - Google Patents

分類同源修復缺陷之系統及方法 Download PDF

Info

Publication number
TW202317774A
TW202317774A TW111123648A TW111123648A TW202317774A TW 202317774 A TW202317774 A TW 202317774A TW 111123648 A TW111123648 A TW 111123648A TW 111123648 A TW111123648 A TW 111123648A TW 202317774 A TW202317774 A TW 202317774A
Authority
TW
Taiwan
Prior art keywords
hrd
features
feature
tumor
positive
Prior art date
Application number
TW111123648A
Other languages
English (en)
Inventor
伊森 索科爾
傑 摩爾
賈斯汀 紐伯格
戴斯特 金
陳奎廷
Original Assignee
美商方得生醫療公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商方得生醫療公司 filed Critical 美商方得生醫療公司
Publication of TW202317774A publication Critical patent/TW202317774A/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)

Abstract

本文描述了用於使用一個或多個特徵重要性度量來鑑定複數個特徵之子集之方法、裝置及系統,該複數個特徵之該子集用於訓練及使用同源修復缺陷 (HRD) 分類模型。進一步描述了用於分類諸如胰臟癌的癌症之腫瘤為可能 HRD 陽性或可能 HRD 陰性及用於將該腫瘤稱為 HRD 陽性或 HRD 陰性之方法、裝置及系統。本文也描述了基於該等分類來治療諸如胰臟癌的癌症之腫瘤的方法。

Description

分類同源修復缺陷之系統及方法
本文描述用於為同源修復缺陷 (HRD) 模型選擇特徵、使用 HRD 模型評估腫瘤以及基於評估治療腫瘤的方法、裝置及系統。
拷貝數畸變涉及基因體的大的連續片段的缺失或擴增,並且係癌症中的常見突變。某些拷貝數畸變與無法藉由同源重組修復機制修復基因體有關,稱為同源修復缺陷 (HRD)。為了鑑定一些 HRD 腫瘤,可以對參與同源修復途徑的基因突變進行定序。或者,可以檢測基因體結疤,此係 HRD 的物理結果,無論其原因如何。
表現出 HRD 的腫瘤基因體與對某些藥物的敏感性有關,諸如鉑化療或聚 (ADP)-核糖聚合酶 (PARP) 抑制劑。然而,某些腫瘤仍然難以分類為 HRD 陽性。因此,仍然需要將癌症(諸如胰髒癌、乳癌或前列腺癌)的腫瘤分類,其中尤其重要的是,將其分類為 HRD 陽性或 HRD 陰性,以便可以選擇適當的治療並將其投予個體。過去,鑑定 HRD 的技術因不準確及效率低下而無法在實踐中使用。造成此情況的一個原因是,特徵選擇技術目前不足以準確地確定樣品的 HRD 狀態,以便例如由於過度擬合而有效及準確地將該等腫瘤鑑定(例如分類)為 HRD 陽性或 HRD 陰性。造成此情況的另一個原因是,確定要鑑定哪些特徵以準確確定 HRD 狀態亦可能是一個挑戰。因此,需要自複數個特徵中準確且有效地選擇特徵的子集的技術和系統,此等複數個特徵可以用於訓練模型以執行該鑑定。
本文所描述之方法包含:提供自個體的腫瘤中獲得的基因體;視情況,將一個或多個接頭連接至基因體上;從基因體中擴增核酸分子;自擴增的基因體捕獲核酸分子,其中捕獲的核酸分子藉由與一個或多個誘餌分子雜交而被捕獲;自捕獲的核酸分子中導出一組輸入特徵;藉由一個或多個處理器將一組輸入特徵輸入至經訓練的同源重組缺陷 (HRD) 模型中,以使用經訓練的 HRD 模型將腫瘤鑑定為 HRD 陽性或 HRD 陰性,其中該模型藉由以下方式進行訓練:確定一個或多個與複數個特徵中的每個特徵相關的特徵重要性度量,使用一個或多個特徵重要性度量鑑定複數個特徵中的特徵的子集,以及由一個或多個處理器基於所鑑定的特徵的子集來訓練 HRD 模型;並且由一個或多個處理器使用經訓練的 HRD 模型將腫瘤分類為 HRD 陽性或 HRD 陰性。
本文進一步描述之方法包含:由一個或多個處理器接收複數個特徵;由一個或多個處理器使用一個或多個特徵重要性度量來鑑定複數個特徵中的特徵的子集;以及由一個或多個處理器基於所鑑定的複數個特徵的子集訓練同源重組缺陷 (HRD) 模型,其中 HRD 模型經組態為接收與個體中之腫瘤之基因體相關的樣品資料,並且使用樣品資料將個體中之腫瘤鑑定為 HRD 陽性或 HRD 陰性。
本文進一步描述之方法包含:由一個或多個處理器接收與個體中之腫瘤之基因體相關的樣品資料;藉由一個或多個處理器將樣品資料輸入至經訓練的同源重組缺陷 (HRD) 模型中,其中 HRD 模型藉由以下方式訓練:確定與複數個特徵中的每個特徵相關的一個或多個特徵重要性度量,鑑定使用一個或多個特徵重要性度量的複數個特徵中的特徵的子集,並且由一個或多個處理器基於所鑑定的特徵的子集訓練 HRD 模型;並且由一個或多個處理器使用經訓練的 HRD 模型將腫瘤分類為 HRD 陽性或 HRD 陰性。
在所描述之方法的一些實施例中,複數個特徵包含一個或多個拷貝數特徵、一個或多個短變異體特徵或其組合。在所描述之方法的一些實施例中,一個或多個特徵重要性度量包含卡方檢定 (Chi-Square test)、變異數分析 (ANOVA)、隨機森林或梯度提升中之一種或多種。
在所描述之方法的一些實施例中,鑑定複數個特徵中的特徵的子集包含:由一個或多個處理器根據一個或多個特徵重要性度量獲得一個或多個特徵排序;以及由一個或多個處理器基於一個或多個特徵排序選擇複數個特徵的子集。
在所描述之方法的一些實施例中,鑑定複數個特徵的子集包含:(a) 由一個或多個處理器根據特徵重要性度量獲得複數個特徵的特徵排序;(b) 由一個或多個處理器藉由基於特徵排序將複數個特徵中的一個或多個特徵添加到現有特徵集來獲得新特徵集;(c) 由一個或多個處理器使用新特徵集訓練新的 HRD 模型;(d) 由一個或多個處理器對經訓練的新 HRD 模型進行評估以得到評估結果;以及 (e) 由一個或多個處理器存儲與新 HRD 模型及新特徵集相關的評估結果;(f) 由一個或多個處理器重複步驟 (b)-(e) 以獲得複數個評估結果,直至滿足條件;以及 (g) 由一個或多個處理器基於複數個評估結果選擇複數個特徵的子集。
在所描述之方法的一些實施例中,經訓練的 HRD 模型為分類模型,該方法進一步包含:接收與新個體中之腫瘤之基因體相關的新樣品資料,其中新樣品資料與複數個特徵的子集有關;將新樣品資料提供給經訓練的 HRD 分類模型,產生 HRD 陽性或 HRD 陰性的分類結果;以及輸出分類結果。在一些實施例中,分類結果包含 HRD 陽性可能性分數及 HRD 陰性可能性分數中之至少一個。在一些實施例中,該方法包含在與新個體相關的數位電子檔案中記錄 HRD 陽性可能性分數及 HRD 陰性可能性分數中之至少一個。在一些實施例中,該方法包含在與新個體相關的數位電子檔案中記錄基於 HRD 陽性可能性分數的腫瘤是 HRD 陽性的或基於 HRD 陰性可能性分數的腫瘤是 HRD 陰性的指定。
在所描述之方法的一些實施例中,HRD 模型為分類模型、迴歸模型、神經網路或其任何組合。在一些實施例中,該方法包含在與新個體相關的數位電子檔案中記錄 HRD 陽性可能性分數及 HRD 陰性可能性分數中之至少一個。在一些實施例中,該方法包含在與新個體相關的數位電子檔案中記錄基於 HRD 陽性可能性分數的腫瘤是 HRD 陽性的或基於 HRD 陰性可能性分數的腫瘤是 HRD 陰性的指定。
在所描述之方法的一些實施例中,複數個特徵包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,或具有振盪拷貝數的片段之數量特徵中之至少一個。在所描述之方法的一些實施例中,跨越基因體的著絲粒部分評估複數個特徵中的至少一個。在所描述之方法的一些實施例中,跨越基因體的端粒部分評估複數個特徵中的至少一個。
在所描述之方法的一些實施例中,跨越基因體的著絲粒及端粒部分評估複數個特徵中的至少一個。
在所描述之方法的一些實施例中,複數個特徵包含每 x百萬鹼基的斷點計數特徵,其中每 x百萬鹼基的斷點計數特徵係基於在整個基因體長度為 x百萬鹼基的窗口中出現的斷點的數目。在一些實施例中,每 x百萬鹼基的斷點計數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。在一些實施例中, x在約 1 與約 100 百萬鹼基之間。在一些實施例中, x為約 10 百萬鹼基、約 25 百萬鹼基、約 50 百萬鹼基或約 100 百萬鹼基。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。
在所描述之方法的一些實施例中,複數個特徵包含變化點拷貝數特徵,其中該變化點拷貝數基於個體之腫瘤的基因體中相鄰基因體片段之間拷貝數的絕對差異。在一些實施例中,變化點拷貝數特徵源自倍數標準化拷貝數資料。在一些實施例中,變化點拷貝數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。在一些實施例中,變化點拷貝數特徵是分箱特徵。
在所描述之方法的一些實施例中,複數個特徵包含片段拷貝數特徵,其中片段拷貝數基於每個基因體片段的拷貝數。在一些實施例中,片段拷貝數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。在一些實施例中,片段拷貝數特徵源自倍數標準化拷貝數資料。在一些實施例中,片段拷貝數特徵是分箱特徵。
在所描述之方法的一些實施例中,複數個特徵包含個體之腫瘤的基因體中每染色體臂的斷點計數特徵。在一些實施例中,每染色體臂的斷點計數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。
在所描述之方法的一些實施例中,複數個特徵包含具有振盪拷貝數的片段之數量特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵基於個體之腫瘤的基因體中兩個拷貝數之間的重複交替片段的數目。在一些實施例中,具有振盪拷貝數的片段之數量特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。
在所描述之方法的一些實施例中,一個或多個拷貝數特徵包含片段次要對偶基因頻率 (segMAF) 特徵,其中 segMAF 係基於雜合單核苷酸多態性處的次要對偶基因頻率。在一些實施例中,segMAF 係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。在一些實施例中,segMAF 特徵是分箱特徵。
在所描述之方法的一些實施例中,一個或多個拷貝數特徵包含定序讀段之數量特徵。在一些實施例中,定序讀段之數量特徵是分箱特徵。
在所描述之方法的一些實施例中,複數個特徵進一步包含對個體之腫瘤的基因體的雜合性的全基因體損失的量度。
在所描述之方法的一些實施例中,複數個特徵包含一個或多個短變異體特徵。在一些實施例中,一個或多個短變異體特徵包含微同源性缺失或重複性區域特徵及源自兩個或更多個短變異體特徵的突變特徵中的至少一個。在一些實施例中,微同源性或重複性區域特徵的缺失是至少 5 個鹼基對的缺失。
在所描述之方法的一些實施例中,訓練 HRD 模型包含:由一個或多個處理器接收 HRD 陽性訓練資料集,其中 HRD 陽性訓練資料集包含與 HRD 陽性腫瘤及 HRD 陽性標籤相關的複數個特徵;由一個或多個處理器接收 HRD 陰性訓練資料集,其中 HRD 陰性訓練資料集包含與 HRD 陰性腫瘤及 HRD 陰性標籤相關的複數個特徵;由一個或多個處理器,使用 HRD 陽性訓練資料集及 HRD 陰性訓練資料集訓練 HRD 模型。在一些實施例中,訓練包含使用 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。在一些實施例中,該方法包含在訓練 HRD 模型之前由一個或多個處理器平衡 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。
在所描述之方法的一些實施例中,該方法進一步包含由一個或多個處理器使用 HRD 陽性測試資料集測試經訓練的模型,該 HRD 陽性測試資料集包含源自基因體序列的 HRD 陽性對照,該基因體序列包含 BRCA1BRCA2BRCA1BRCA2兩者,或 BRCA1BRCA2 的雙對偶基因中的功能喪失突變。在一些實施例中,訓練包含使用 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。在一些實施例中,該方法包含在訓練 HRD 模型之前由一個或多個處理器平衡 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。
在所描述之方法的一些實施例中,該方法進一步包含由一個或多個處理器使用 HRD 陽性測試資料集測試經訓練的模型,該 HRD 陽性測試資料集包含源自基因體序列的 HRD 陽性對照,該基因體序列包含 ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51DRAD45L中的至少一個中的功能喪失突變。在一些實施例中,訓練包含使用 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。在一些實施例中,該方法包含在訓練 HRD 模型之前由一個或多個處理器平衡 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。
在所描述之方法的一些實施例中,該方法進一步包含由一個或多個處理器使用 HRD 陰性測試資料集測試經訓練的模型,該 HRD 陰性測試資料集包含 HRD 陰性訓練資料集,該 HRD 陰性訓練資料集包含源自共同人類基因體序列的 HRD 陰性對照。在一些實施例中,訓練包含使用 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。在一些實施例中,該方法包含在訓練 HRD 模型之前由一個或多個處理器平衡 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。
在所描述之方法的一些實施例中,個體中的腫瘤是前列腺癌、非小細胞肺癌 (NSCLC)、大腸直腸癌 (CRC)、卵巢癌、乳癌或胰髒癌。
在所描述之方法的一些實施例中,訓練 HRD 模型包含將 HRD 模型擬合至與卵巢癌、非小細胞肺癌 (NSCLC)、大腸直腸癌 (CRC)、乳癌、胰髒癌或前列腺癌相關的樣品資料,其中樣品資料包含複數個特徵的子集。
在所描述之方法的一些實施例中,腫瘤自作為固體組織生檢樣品的樣品中獲得。在一些實施例中,固體組織生檢樣品為經福馬林固定石蠟包埋 (FFPE) 樣品。在所描述之方法的一些實施例中,腫瘤獲自樣品,該樣品是包含循環腫瘤 DNA (ctDNA)的液體生檢樣品。在所描述之方法的一些實施例中,腫瘤獲自樣品,該樣品是包含無細胞 DNA (cfDNA) 的液體生檢樣品。
在所描述之方法的一些實施例中,該方法進一步包含:確定、鑑定或施加作為 HRD 陽性或 HRD 陰性的腫瘤輸出作為與患者相關的診斷值。在所描述之方法的一些實施例中,該方法進一步包含基於作為 HRD 陽性或 HRD 陰性的腫瘤輸出生成個體的基因體譜。在一些實施例中,該方法進一步包含基於產生的基因體譜向個體投予抗癌劑或施加抗癌治療。在所描述之方法的一些實施例中,作為 HRD 陽性或 HRD 陰性的腫瘤輸出用於生成個體的基因體譜。在所描述之方法的一些實施例中,作為 HRD 陽性或 HRD 陰性的腫瘤輸出用於為個體做出建議的治療決定。在所描述之方法的一些實施例中,作為 HRD 陽性或 HRD 陰性的腫瘤輸出用於對個體施加或投予治療。
在所描述之方法的一些實施例中,HRD 模型是機器學習模型。
在所描述之方法的一些實施例中,個體患有癌症、處於患癌症的風險中或疑似患有癌症。
本文進一步描述治療個體之癌症的方法,包含:(a) 根據上述任何方法將腫瘤鑑定為 HRD 陽性或 HRD 陰性;(b) 若癌症的腫瘤被評估為 HRD 陽性,則向個體投予治療有效量的對 HRD 陽性腫瘤有效的藥物。在一些實施例中,對 HRD 陽性腫瘤有效的藥物是鉑基藥物或 PARP 抑制劑。在一些實施例中,若腫瘤被評估為 HRD 陰性,則該方法包含向個體投予治療有效量的藥物,該藥物並非鉑基藥物或 PARP 抑制劑。
本文進一步描述用於選擇用於個體的癌症的療法的方法,該方法包含:(a) 根據上述任何方法將癌症腫瘤評估為 HRD 陽性或 HRD 陰性;(b) 若癌症被評估為 HRD 陽性,則選擇對 HRD 陽性腫瘤有效的療法。在一些實施例中,若腫瘤被評估為 HRD 陰性,則該方法包含選擇不為鉑基藥物或 PARP 抑制劑的療法。在一些實施例中,對 HRD 陽性腫瘤有效的療法是鉑基藥物或 PARP 抑制劑。
本文進一步描述的是電腦系統,包含:一個或多個處理器;一個記憶體;以及一個或多個程式,其中該一個或多個程式存儲在記憶體中並經組態為由一個或多個處理器執行,該一個或多個程式包括用於執行任一項上述方法的指令。
本文進一步描述存儲一個或多個程式的非暫時性電腦可讀存儲介質,該一個或多個程式包含指令,當由電子裝置的一個或多個處理器執行時,使電子裝置執行任一項上述方法。
相關申請的交叉引用
本申請案要求於 2021 年 6 月 25 日提交的題為 「SYSTEM AND METHOD OF CLASSIFYING HOMOLOGOUS REPAIR DEFICIENCY」的美國臨時申請案第 63/215,281 號的優先權,其內容出於所有目的以引用之方式併入本文。
本文描述使用一個或多個特徵重要性度量來鑑定複數個特徵的子集的電腦實現的方法,用於訓練同源重組缺陷 (HRD) 模型(例如,分類模型)。該模型經組態為接收與與個體中腫瘤之基因體相關的複數個特徵的子集相關的測試樣品資料,並將腫瘤鑑定(例如,分類)為可能的 HRD 陽性或可能的 HRD 陰性。本文進一步描述將腫瘤,諸如前列腺癌、卵巢癌、乳癌、大腸直腸癌、NSCLC 或胰髒癌腫瘤鑑定(例如,分類)為可能的 HRD 陽性 (HRD(+)) 或可能的 HRD 陰性 (HRD(-))。本文進一步描述基於將腫瘤鑑定為 HRD 陽性(或可能的 HRD 陽性)或 HRD 陰性(或可能的 HRD 陰性)來治療癌症的方法,該癌症例如但不限於胰髒癌、前列腺癌、卵巢癌、乳癌、非小細胞肺癌 (NSCLC) 或大腸直腸癌 (CRC)。
選擇特徵的子集可以減少模型的過度擬合。過度擬合是有問題的,因為其降低模型的可擴展性,並且可能導致不準確的分類(例如,不準確的 HRD 狀態),因為模型忽略了用於訓練模型的資料之外的場景。此外,藉由選擇具有更高特徵重要性的特徵的子集,可以用更少的訓練資料訓練分類模型,並且需要更少的輸入資料。此不僅可以實現更有效的建模過程,亦可以自模型中更廣泛的樣品中進行更準確的分類。此外,具有較少輸入特徵集的模型可能需要較少的處理能力來進行訓練及執行分類任務。因此,特徵選擇過程藉由提高處理速度及允許有效使用電腦記憶體及處理能力來改進電腦系統的功能。此外,藉由自某些衍生的拷貝數特徵及/或短變異體特徵中進行選擇,與以前的方法相比,經訓練的模型在將腫瘤鑑定為 HRD 陽性或 HRD 陰性時提供更高的效率及準確性(例如,更少的假陽性/假陰性)。與本文所描述之衍生的拷貝數特徵及/或短變異體特徵的評估相比,先前評估 HRD 的方法,諸如雜合性缺失、端粒對偶基因失衡及大規模轉變,容易受到噪音及誤差的影響。正確鑑定腫瘤對於能夠為患者(個體)適當選擇治療是不可或缺的。
腫瘤形成部分是由細胞基因體體細胞改變的積累驅動的。此等改變包括拷貝數改變,這在許多癌症中係常見的。參與同源修復缺陷途徑的某些基因中的功能喪失、功能獲得或基因調控突變可能導致此等拷貝數改變的積累。然而,除了某些關鍵基因(諸如 BRCA1BRCA2)的突變外,導致 HRD 陽性狀態的突變的精確組合尚不清楚。一些腫瘤將藉由非基因體方式呈現 HRD 陽性,例如,通過 HRD 相關基因(諸如 BRCA1)的啟動子甲基化。除了定序 HRD 相關基因,另一種方法是鑑定及評估 HRD 的結果,諸如某些拷貝數特徵的變化或雜合性特徵的喪失。然而,儘管 HRD 陽性及 HRD 陰性基因體均可能表現出拷貝數改變,但表明 HRD 存在的精確值及特徵組合是未知的。
因此,在一個態樣中,本發明的方法涉及選擇可以用於訓練及操作 HRD 分類器過程的特徵的子集(自大量潛在特徵中)。在另一態樣中,本發明的方法一般涉及至少部分基於特徵(諸如對應於拷貝數畸變的特徵)評估將腫瘤鑑定(例如,分類)為可能的 HRD 陽性 (HRD(+)) 或可能的 HRD 陰性 (HRD(-)) 的方法。此分類通常基於對腫瘤為 HRD 陽性或 HRD 陰性的可能性的評估。基於此評估,HRD 分類過程可進一步將腫瘤判定為 HRD 陽性或 HRD 陰性。此分類及/或稱呼可用作患有腫瘤的患者的診斷值。
將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性的現有方法通常不可靠或不精確,特別是對於具有野生型 BRCA1BRCA2的 HRD 陽性腫瘤(有時被描述為具有「 BRCAness」特徵的腫瘤,即表現出與 BRCA1/2突變腫瘤相似,但沒有相關的 BRCA1/2突變)的彼等腫瘤。或者,並非所有突變,甚至致病突變(諸如 BRCA1/2改變)都會導致 HRD(例如,某些突變可能是單對偶基因乘客)。與癌症相關的同源修復缺陷會在腫瘤細胞基因體上留下疤痕,導致拷貝數(即拷貝數畸變)及/或插入缺失模式的可檢測變化。此等拷貝數畸變及/或插入缺失模式的特定模式、分佈及形式可以用於將腫瘤分類為 HRD 表型類別。在各種實施例中,本申請提供選擇與此等模式相關的特徵(即,拷貝數特徵)及插入缺失模式(即,短變異體特徵)以及其他潛在特徵(諸如本文另外描述的基本特徵)的方法,其可用於鑑定 HRD 陽性腫瘤。
本申請案進一步提供基於與個體的癌性腫瘤的基因體相關的一種或多種資料特徵(諸如,一種或多種拷貝數特徵及/或一種或多種短變異體特徵)的特定配置模型,其可以更可靠地鑑定(例如,分類)該等腫瘤為可能的 HRD 陽性或可能的 HRD 陰性,並且視情況將腫瘤判定為 HRD 陽性或 HRD 陰性。個體中癌症的腫瘤的鑑定(例如,分類)表明應該如何治療腫瘤。使用包含至少一個或多個拷貝數特徵,包括例如片段大小特徵、定序讀段特徵、絕對拷貝數特徵、每 x百萬鹼基斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵、具有振盪拷貝數的片段之數量特徵及片段次要對偶基因頻率特徵中的一個或多個的測試資料的經訓練的 HRD 模型可以用於鑑定(例如,分類)測試腫瘤可能為 HRD 陽性或可能為 HRD 陰性,並且亦可以基於可能性分數將腫瘤判定為 HRD 陽性或 HRD 陰性。此等類別的拷貝數特徵已被確定為對此鑑定有用。某些類別的短變異體特徵亦已被鑑定為可用於該鑑定,包括但不限於,例如,微同源性或重複性區域中的缺失特徵(例如,至少 5 個鹼基對)及/或包含兩個或更多個短變異體特徵的突變特徵。
結合此等拷貝數特徵中之一種或多種及/或此等短變異體特徵中的一種或多種,其他特徵或量度可用於所描述之方法,包括但不限於某些基本特徵,諸如個體的年齡、癌症類型、癌症階段、腫瘤純度、腫瘤之基因體倍數及/或腫瘤基因體雜合性喪失。
一旦個體中之癌症腫瘤已被鑑定(例如,分類)為可能的 HRD 陽性或可能的 HRD 陰性,或判定為 HRD 陽性或 HRD 陰性,則可用適當的療法對其進行治療。例如,若腫瘤被鑑定為可能的 HRD 陽性,則可使用對 HRD 陽性癌症有效的藥物進行治療,諸如鉑基藥物或 PARP 抑制劑。 定義
如本文所用,單數形式的「一種/個 (a/an)」及「該 (the)」包括複數指示內容,除非上下文另外明確指出。
本文提及「約」值或參數包括 (和描述) 針對該值或參數本身的變化。例如,提及「約 X」的描述包括對「X」的描述。
術語「癌症」及「癌性」係指或描述哺乳動物中通常以不受調控的細胞生長為特徵的生理狀況。此定義包括良性及惡性癌症。「早期癌症」或「早期腫瘤」意指非侵襲性或轉移性或分類為 0、1或 2 期癌症之癌症。癌症的實例包括但不限於肺癌(例如,非小細胞肺癌 (NSCLC))、腎癌(例如,腎尿路上皮癌)、膀胱癌(例如,膀胱尿路上皮(移行細胞)癌)、乳癌、大腸直腸癌(例如,結腸腺癌)、卵巢癌、胰髒癌、胃癌、食道癌、間皮瘤、黑色素瘤(例如,皮膚黑色素瘤)、頭頸癌(例如,頭頸部鱗狀細胞癌 (HNSCC))、甲狀腺癌、肉瘤(例如,軟組織肉瘤、纖維肉瘤、粘液肉瘤、脂肪肉瘤、成骨肉瘤、骨肉瘤、軟骨肉瘤、血管肉瘤、內皮肉瘤、淋巴管肉瘤、淋巴管內皮肉瘤、平滑肌肉瘤或橫紋肌肉瘤)、前列腺癌、神經膠母細胞瘤、宮頸癌、胸腺癌、白血病(例如,急性淋巴細胞白血病 (ALL)、急性髓細胞性白血病 (AML)、慢性粒細胞白血病 (CML)、慢性嗜酸性粒細胞白血病或慢性淋巴細胞白血病 (CLL))、淋巴瘤(例如,霍奇金淋巴瘤 (Hodgkin lymphoma) 或非霍奇金淋巴瘤 (NHL))、骨髓瘤(例如,多發性骨髓瘤 (MM))、蕈樣真菌病、默克爾細胞癌、惡性血液病、血液組織癌、B 細胞癌、支氣管癌、胃癌、腦或中樞神經系統癌、外周神經系統癌、子宮或子宮內膜癌、口腔或咽癌、肝癌、睾丸癌、膽道癌、小腸或闌尾癌、唾液腺癌、腎上腺癌、腺癌、炎性肌纖維母細胞腫瘤、胃腸道間質瘤 (GIST)、大腸癌、骨髓增生異常症候群 (MDS)、骨髓增殖性疾病 (MPD)、真性紅細胞增多症、脊索瘤、滑膜瘤、尤文氏瘤 (Ewing's tumor)、鱗狀細胞癌、基底細胞癌、腺癌、汗腺瘤、皮脂腺癌、乳頭狀癌、乳頭狀腺癌、髓樣癌、支氣管癌、腎細胞癌、肝癌、膽管癌、絨毛膜癌、精原細胞瘤、胚胎癌、維爾姆斯腫瘤 (Wilms' tumor)、膀胱癌、上皮癌、神經膠質瘤、星形細胞瘤、髓母細胞瘤、顱咽管瘤、室管膜瘤、松果體瘤、血管母細胞瘤、聽神經瘤、寡樹突神經膠細胞瘤、腦膜瘤、神經母細胞瘤、視網膜母細胞瘤、濾泡性淋巴瘤、瀰漫性大 B 細胞淋巴瘤、套細胞淋巴瘤、肝細胞癌、甲狀腺癌、小細胞癌、原發性血小板增多症、原因不明性骨髓樣化生、嗜酸性白血球增多症、全身性肥大細胞增多症、熟悉的嗜酸性白血球增多症、神經內分泌癌症或類癌。
如本文所用,術語「腫瘤」係指所有贅生性細胞生長及增殖,無論惡性或良性,及所有癌前及癌性細胞及組織。如本文中所提及,術語「癌症」、「癌性」及「腫瘤」不相互排斥。
術語「個體」、「患者」及「個體」同義使用,並且係指哺乳動物,並且包括但不限於人類、牛、馬、貓、犬、囓齒動物或靈長類動物。在一個實施例中,個體為人類。
本文所使用的術語「有效量」或「治療有效量」係指足以治療特定病症、病況或疾病 (諸如改善、緩和、減輕及/或延遲其症狀中之一者或多者) 的化合物、藥物或組成物的量。就癌症而言,有效量包含足以使個體中存在的癌細胞的數目在數目及/或大小上減少及/或減緩癌細胞生長速率的量。在一些實施例中,有效量為足以防止或延遲疾病復發的量。對於癌症,有效量之化合物或組成物可:(i) 減少癌細胞的數目;(ii) 在一定程度上抑制、延緩、減緩及優選阻止癌細胞增殖;(iii) 預防或延緩癌症的發生及/或複發;及/或 (iv) 在一定程度上緩解與癌症相關的一種或多種症狀。
如本申請所用,「治療 (treatment)」或「治療 (treating)」是用於獲得有益或期望結果包括臨床結果的方法。出於本發明之目的,有益或期望的臨床結果包括但不限於以下一種或多種:減輕由疾病引起的一種或多種症狀,減輕疾病的程度,穩定疾病( 例如,預防或延緩疾病的惡化),預防或延緩疾病的擴散( 例如,轉移),預防或延緩疾病的復發,延緩或減慢疾病的進展,改善疾病狀態,提供疾病的緩解(部分或全部),減少治療疾病所需的一種或多種其他藥物的劑量,延緩疾病的進展,提高生活質量及/或延長生存期。就癌症而言,個體中存在的癌細胞的數目可能會在數目及/或大小上減少及/或癌細胞的生長速率可能會減慢。在一些實施例中,治療可預防或延遲疾病的複發。在癌症的情況下,治療可能:(i) 減少癌細胞的數目;(ii) 在一定程度上抑制、延緩、減緩及優選阻止癌細胞增殖;(iii) 預防或延緩癌症的發生及/或複發;及/或 (iv) 在一定程度上緩解與癌症相關的一種或多種症狀。本發明之方法涵蓋治療的這些方面中的任何一個或多個。
應理解,本文所描述之本發明之態樣及變化包括「由」態樣及變化「組成」及/或「基本上由」態樣及變化「組成」。
例如,在提供值範圍的情況下,應理解,在該範圍的上限及下限之間的每個中間值以及所述範圍內的任何其他所述值或中間值皆涵蓋於本揭露之範疇內。在所述範圍包括上限或下限時,排除彼等所包括之範圍中之任一者的範圍亦包括在本揭露中。
本文所使用的章節標題僅用於組織目的,而不應被解釋為限制所描述的標的。提供該描述是為了使本領域的普通技術人員能夠製造及使用本發明,並且是在專利申請及其要求的背景下提供的。對所描述的實施例的各種修改對於本領域技術人員來說將是顯而易見的,並且本文的一般原理可施加至其他實施例。因此,本發明不旨在限於所示的實施例,而是要符合與本文所描述之原理及特徵一致的最廣泛的範疇。
附圖說明根據各種實施例的過程。在示例性過程中,視情況組合一些框,視情況改變一些框的順序,並且視情況省略一些框。在一些實例中,可結合示例性過程來執行附加步驟。因此,所說明的(以及下文更詳細描述的)操作本質上是示例性的,因此不應被視為限制性的。
本文提及的所有出版物、專利及專利申請案的揭露內容均以全文引用之方式併入本文。就以引用方式併入的任何參考文獻與本揭露相衝突而言,應以本揭露為準。 特徵選擇
自複數個特徵開始,包括本文另外描述的彼等特徵,可使用一個或多個特徵重要性度量來鑑定複數個特徵的子集。通常,特徵重要性度量允許評估單個特徵以確定哪些特徵可能與評估 HRD 最相關。示例性特徵重要性度量包括但不限於梯度提升(諸如 XGBoost,亦判定為 XGB)、變異數分析(ANOVA)、卡方分析及隨機森林。可以根據此等特徵重要性度量為各個特徵分配值,其中根據對 HRD 模型性能的貢獻增加(例如,提高模型在將腫瘤分類為 HRD 陽性或 HRD 陰性時的性能),為特徵分配更高的重要性。然後可選擇較高重要性的特徵,諸如高於閾值的特徵(諸如在複數個特徵中高於中值的特徵)以用於訓練或運行 HRD 模型。一旦鑑定出特徵的子集,則可使用特徵的子集訓練 HRD 模型(例如,分類模型)。HRD 模型然後可用於使用自腫瘤獲得的並且包括在特徵選擇期間鑑定的特徵的至少一部分的測試資料來鑑定(例如,分類)個體的腫瘤。
藉由選擇具有較高特徵重要性的特徵的子集,可以用更少的訓練資料及更少的輸入資料來訓練模型,從而提高記憶體使用及管理。此外,具有較少輸入特徵集的模型需要較少的處理能力來進行訓練及執行鑑定(例如,分類)任務。因此,特徵選擇過程藉由提高處理速度及允許有效使用電腦記憶體及處理能力來改進電腦系統的功能。
1說明根據一些實施例的用於將個體中的癌症腫瘤分類為 HRD 陽性或 HRD 陰性的示例性過程,包括用於鑑定複數個特徵的子集的框。在一些實施例中,例如,使用一個或多個實現軟體平台的電子裝置來執行過程 100。在一些實例中,使用客戶端-服務器系統執行過程 100,並且過程 100 的框以任何方式在服務器及客戶端裝置之間劃分。在其他實例中,僅使用客戶端裝置或僅使用複數個客戶端裝置來執行過程 100。在過程 100 中,視情況組合一些框,視情況改變一些框的順序,並且視情況省略一些框。在一些實例中,可結合過程 100 執行附加步驟。因此,所說明的(以及下文更詳細描述的)操作本質上是示例性的,因此不應被視為限制性的。
1的框 102 中,示例性系統(例如,一個或多個電子裝置)接收複數個特徵。在一些實施例中,系統接收包含複數個資料元素的資料集。資料元素可以包含與複數個特徵及相關分類標籤(例如,HRD 陽性或 HRD 陰性)相關的資料。例如,資料元素可以包含與來自特定個體的樣品的複數個特徵相關的資料,以及指示樣品是 HRD 陽性還是 HRD 陰性的相關分類標籤。特徵可包括分類為基本特徵、拷貝數特徵及/或短變異體特徵(例如,對應於鹼基取代或插入缺失(插入或缺失)的特徵)的特徵。基本特徵可包括但不限於與獲得資料的患者年齡、癌症類型、癌症階段、腫瘤純度、腫瘤之基因體倍數及腫瘤基因體雜合性喪失(諸如在雜合性喪失的情況下基因體的百分比)。拷貝數特徵可包括但不限於片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵,每染色體臂的斷點計數特徵,具有振盪拷貝數的片段之數量特徵,以及片段次要對偶基因頻率特徵。短變異體特徵可包括但不限於,例如,均聚物或重複性區域中的缺失特徵(例如,至少 5 個鹼基對)及/或結合兩個或更多個短變異體特徵的突變特徵。在一些實施例中,特徵中的一個或多個是分箱特徵,其中將值分類到箱中,諸如二元、三分位、四分位、五分位、六分位、七分位或任何其他合適的分箱組織。
1的框 104 中,系統及方法自複數個特徵(即,基本特徵、拷貝數特徵及/或短變異體特徵)中選擇特徵的子集。所選擇的特徵的子集對於將個體中的癌症腫瘤分類為 HRD 陽性或 HRD 陰性可能具有相對高的預測值。在一些實施例中,具有相對低預測值及/或冗餘的特徵可以自框 104 中的特徵的子集中排除。在一些實施例中,可使用特徵重要性度量來量化特徵的預測值。在一些實施例中,可以施加特徵重要性度量來獲得複數個特徵中的每個特徵的特徵重要性分數。特徵的特徵重要性分數是自特徵及分類標籤之間的統計相關性獲得的(例如,HRD 陽性或 HRD 陰性)。特徵及分類標籤之間的統計相關性可根據特徵對分類任務有多少預測價值來解釋。換句話說,可以藉由例如特徵及分類標籤之間具有更高的統計相關性來獲得更高的特徵重要性分數,這可以表明該特徵在預測分類標籤中起更重要的作用。藉由使用具有更高特徵重要性的特徵,可以用更少的資料訓練分類模型,從而為訓練過程提供很大程度的效率,並且對電腦資源(例如,記憶體使用、處理速度等)的限制更少。例如,輸入特徵集減少的模型可能需要更少的處理資源來訓練及執行分類任務。最後,輸入特徵集減少的模型可能會表現出更少的噪聲並避免過度訓練。因此,特徵選擇過程藉由提高訓練過程的整體效率、提高處理速度以及允許有效使用電腦記憶體及處理資源來改進電腦系統的功能。
在一些實施例中,系統藉由執行特徵重疊分析選擇在 1的框 102 中接收的複數個特徵的特徵的子集,如框 104a 所示。在框 104a 中,每個特徵重要性度量用於計算自框 102 接收的複數個特徵的特徵重要性分數。對於每個特徵重要性度量,系統可以根據其特徵重要性分數對複數個特徵進行排序。因此,系統可以獲得與複數個特徵重要性特徵對應的複數個特徵排序。然後系統可基於複數個排序來鑑定特徵的子集。下文更詳細地描述對特徵進行排序及鑑定特徵的子集的過程。
在一些實施例中,可以使用不同的特徵重要性度量來評估不同類型的特徵。 2說明根據一些實施例的可用於對框 104a 中的複數個特徵進行排序的複數個特徵重要性度量。所描繪的示例性特徵重要性度量包括 ANOVA、隨機森林、梯度提升(例如,XGB)及卡方。此外,ANOVA 可以用於評估複數個特徵的數字特徵以提供數字特徵的排序。卡方可以用於評估複數個特徵的分類特徵以提供分類特徵的排序。隨機森林可用於評估所有複數個特徵以對所有特徵進行排序。類似地,可以使用梯度提升(諸如 XGB)來評估所有複數個特徵以對所有特徵進行排序。
在一些實施例中,特徵重要性度量包含變異數分析 (ANOVA) 模型。當數值輸入變量與分類目標變量進行比較時,ANOVA 評估組之間是否存在相等的變異數(即 HRD 陽性或 HRD 陰性)。若組之間的變異數相等,則該特徵對響應沒有影響,並且可能不會考慮用於模型訓練。基於變異數值(f 值),可對特徵進行排序,並且可選擇例如高於中值的彼等特徵作為模型的有用特徵。
在一些實施例中,特徵重要性度量包含卡方分析。對於特徵選擇,卡方分析測試預期計數(即,若特徵與輸出無關)及觀測計數如何相互偏離。特徵的卡方值越高表明其更依賴於響應變量,因此更重要。使用卡方分析,可對特徵進行排序,並且可選擇例如高於中值的彼等特徵作為模型的有用特徵。
在一些實施例中,特徵重要性度量包含隨機森林分析。在特徵選擇過程中,對於每棵樹,記錄資料袋外部分的預測精度。在置換每個預測變量後重複該過程。然後在所有樹上平均兩個精度之間的差異,並藉由標準誤差進行標準化。
在一些實施例中,特徵重要性度量包含梯度提升分析(例如,極端梯度提升 (XGB) 分析)。梯度提升,諸如 XGB,測試每個特徵對模型的增益貢獻。對於提升樹模型,將每棵樹的每個特徵的每個增益考慮在內,然後評估每個特徵貢獻的平均值。然後可選擇最高百分比的貢獻者特徵。
1的框 104a 中,在根據特徵重要性度量對複數個特徵進行排序之後,系統使用複數個排序來選擇特徵的子集。選擇特徵的子集的示例性過程在下文的 3A3B中更詳細地描述。
3A說明根據一些實施例的示例性特徵重疊分析。如上所述,在 2中,可使用複數個特徵重要性度量來對複數個特徵進行排序。在 3A的實例中,示例性過程使用 ANOVA、隨機森林及梯度提升分析來對特徵進行排序。然而,本領域技術人員將理解,亦可以使用本領域已知的其他學習技術。然而,出於 3A中的示例性目的,ANOVA 特徵排序 302 包括特徵 1、4、5 及 8 作為最高排序特徵;隨機森林排序 304 包括特徵 8、2、3 及 1作為最高排序特徵;梯度提升排序 306 包括特徵 6、1、4 及 2 作為最高排序特徵。在一些實施例中,可使用其他特徵重要性度量來評估特徵。在一些實施例中,可使用少於或多於三個的量度來評估特徵。在一些實施例中,超過四個特徵可被認為是高級特徵,諸如超過五個、超過六個、超過七個、超過八個、超過九個、超過十個、超過十一個、超過十二個、超過十三個、超過十四個、超過十五個、超過十六個、超過十七個、超過十八個、超過十九個、超過二十個、超過二十一個、超過二十二個、超過二十三個、超過二十四個或超過二十五個特徵可被認為是高級特徵。
一旦特徵已經被分級,系統可執行特徵重疊分析以確定一個或多個量度已經鑑定為高級特徵的特徵。在 3A的實例中,特徵重疊分析 308 將特徵 1 鑑定為在 ANOVA 特徵排序 302、隨機森林排序 304 及梯度提升排序 306 中鑑定的高級特徵。特徵重疊分析 308 亦將特徵 2、4 及 8 鑑定為由兩個量度鑑定的高級特徵。在一些實施例中,特徵重疊分析 308 可藉由輸出已被所有量度鑑定為高級的特徵來輸出特徵的子集。在一些實施例中,特徵重疊分析 308 可藉由輸出已被一個或多個量度鑑定為高級的特徵來輸出特徵的子集。在一些實施例中,可用圖形表示特徵重疊分析 308。在一些實施例中,特徵重疊分析 308 可輸出包含特徵的子集的列表。
3B說明根據一些實施例的用於將個體中的癌症的腫瘤分類為 HRD 陽性或 HRD 陰性的特徵的特徵選擇過程的示例性輸出 310。特徵重要性排序 312 以圖形方式示出,並且每個圖表描繪根據特定特徵重要性度量的特徵排序。在每個圖表中(ANOVA、隨機森林及梯度提升)中,每個點代表一個特徵,其 y 軸值對應於由特徵重要性度量計算的特徵重要性。在 3B的實例中,特徵重疊分析 314 可包括根據每個特徵重要性度量的排序靠前的特徵。如所示,特徵重疊分析可以鑑定被所有量度及/或一些量度高度排序的特徵。
回到 1,在一些實施例中,除了過程 104a 之外或作為過程 104a 的替代,系統及方法可使用迭代特徵選擇過程 104b 來確定複數個特徵的子集。在框 104b 處,系統使用一個或多個特徵重要性度量(例如,梯度提升)來評估特徵,然後執行迭代特徵選擇過程以逐漸擴展特徵集,如下文的 4所描述。
4說明根據一些實施例可由 1的框 104b 使用的迭代特徵選擇過程。在框 402 處,系統接收具有複數個特徵(例如,在 1的框 102 處接收的複數個特徵)的資料集。
4的框 404 處,系統使用一個或多個特徵重要性度量(例如,梯度提升)來評估在框 402 處接收到的特徵。然後,系統可根據其對應的特徵重要性度量分數對特徵進行排序。
4的框 408 處,系統及方法獲得新特徵集。在初始迭代中,系統可以藉由將由框 404 確定的最高級特徵包括到特徵集來獲得新特徵集。在隨後的迭代中,系統可以藉由添加由框 404 確定的下一個最高級特徵來擴展現有特徵集以獲得新特徵集。系統進一步獲得基於新特徵集的訓練資料集。訓練資料集可以包含複數個資料元素,並且每個資料元素包含與新特徵集相關的資料及對應的分類標籤(例如,HRD 陽性或 HRD 陰性)。例如,資料元素可以包含與來自樣品的新特徵集中的特徵及样本的對應分類標籤(例如,HRD 陽性或 HRD 陰性)相關的資料。
4的框 410 處,系統及方法使用來自框 408 的訓練資料集來訓練及評估新的分類模型。系統記錄與模型訓練及評估中使用的特徵列表相關的模型性能。在一些實施例中,分類模型的訓練及評估可使用交叉驗證方法來執行,如下文 6A6B進一步所論述。在一些實施例中,分類模型的訓練及評估可使用來自框 408 的資料集的單獨子集。
在一些實施例中, 4的框 408 及 410 經迭代直至在框 402 中接收到的所有特徵均包括在資料中。在每次迭代中,框 408 將下一個排序最高的特徵添加至資料集。例如,在第一次迭代中,框 408 輸出包含排序最高的特徵的特徵集及對應訓練集;在第二次迭代中,框 408 輸出包含兩個排序最高的特徵的特徵集及對應訓練集;在第三次迭代中,框 408 輸出包含三個排序最高的特徵的特徵集及對應訓練集,以此類推。在每次迭代中,框 410 然後使用來自框 406 的訓練資料集訓練及評估新的分類模型。系統重複框 408 及 410 直至滿足條件。在一些實施例中,條件包含框 412,其中系統確定不存在要添加的更多特徵(例如,在框 402 接收的所有特徵均包括在用於在框 410 處訓練及評估分類模型的資料集中)。在一些實施例中,條件包含確定新分類模型的性能超過閾值。此迭代過程允許系統記錄分類模型在對排序最高的特徵、前兩個排序最高的特徵、前三個排序最高的特徵等進行訓練及評估時的性能,直至在框 402 處接收的所有特徵用於訓練分類模型並評估性能。記錄的性能資料的一個實例如下文 5所描述。
4的框 414 處,該系統及方法利用自框 410 記錄的模型性能來確定優化分類模型性能的最小特徵的子集。在一些實施例中,系統可確定最小的特徵的子集,使得添加附加特徵不會顯著提高模型性能。在一些實施例中,系統可確定最小的特徵的子集,使得分類模型性能超過某個預定閾值。在框 414 處輸出特徵的子集。
5說明在 4的框 410 處確定的模型性能的示例圖。在 5的實例中,橫軸表示用於訓練及評估分類模型的資料中包括的高級特徵的數目;縱軸表示模型的性能。在一些實施例中,模型的性能可使用接受者操作特徵 (ROC) 曲線 (AUC) 下的面積來評估。在 5的實例中,在框 416 中可以確定 26 個排序最高的特徵作為特徵的子集輸出,儘管可基於具有每個添加的特徵的模型性能的相對增加的變化來選擇較少數目的特徵。
6A說明根據一些實施例的可用於評估模型的性能的實例交叉驗證過程。在一些實施例中,過程 600 可用於 4的框 410 處以評估模型的性能。在框 602 處,系統可接收複數個資料元素。複數個資料元素中的每一個可包含一個或多個特徵及已知的分類標籤。在框 604 處,系統將來自框 602 的複數個資料元素劃分為 n個大小相等的子集。在框 606 處,系統將來自框 604 的子集之一作為「保留」集保留。在框 608 處,系統在所有未保留的資料元素上訓練模型(例如,來自並非「保留」集合的 n-1個子集的資料元素)。在框 610 處,系統使用來自「保留」集的資料元素特徵作為來自框 608 的模型的輸入。該模型生成對應於資料元素特徵的複數個預測分類標籤。然後將預測的分類標籤與「保留」集的已知分類標籤進行比較,以評估模型在「保留」集上的性能。框 606、608 及 610 經迭代直至框 604 的所有 n個子集均用作「保留」集一次。也就是說,框 606、608 及 610 經迭代 n次,其中每次迭代使用不同的子集作為「保留」集。最後,在步驟 612 處,對來自框 610 的所有 n次迭代的性能進行平均以輸出平均性能。
6B說明根據一些實施例的將複數個資料元素劃分成五個大小相等的子集的實例。 6B可為 6A的實例,其中 n=5。複數個資料元素 622 可為來自 6A的框 602 的複數個資料元素的實例。在 6B的實例中,複數個資料元素 622 被劃分成集 1、集 2、集 3、集 4 及集 5。在迭代一次 623 中,在複數個資料元素 622 處,集 1 可用為「保留」資料集,如框 606 所描述。如框 608 所描述,可在集 2、集 3、集 4 及集 5 上訓練模型。然後可在「保留」資料集 1 上評估模型性能。然後將該過程重複四次以上迭代:在第二次迭代 624 中,集 2 是「保留」集,模型在集 1、集 3、集 4 及集 5 上進行訓練,並在集 2 上評估模型性能 ;在第三次迭代 626 中,集 3 是「保留」集,模型在集 1、集 2、集 4 及集 5 上進行訓練,並在集 3 上評估模型性能;在第四次迭代 628 中,集 4 是「保留」集,模型在集 1、集 2、集 3 及集 5 上進行訓練,並在集 4 上評估模型性能;在第五次迭代 630 中,集 5 是「保留」集,模型在集 1、集 2、集 3 及集 4 上進行訓練,並在集 5 上評估模型性能。在 6B的實例中,平均性能可以是為來自迭代一 622、迭代二 624、迭代三 626、迭代四 628 及迭代五 630 的模型性能的平均值。
回到 1,在框 106 處,系統獲得所選特徵的子集,如框 104 的特徵選擇所確定。使用來自所選特徵 106 及標記的訓練資料 110 的資訊訓練分類模型 108。在一些實施例中,用於特徵選擇 104 的資料集是與標記的訓練資料 110 相同的資料集。在一些實施例中,用於特徵選擇 104 的資料集是與標記的訓練資料 110 不同的資料集。訓練分類模型的過程將論述於下文部分及 7中。一旦分類模型 108 經過訓練,來自個體中未見的癌症腫瘤的特徵(例如,不包括在框 102 中接收的資料中並且不與已知分類標籤相關的資料元素)可以輸入至模型 108 中以預測個體的癌症腫瘤是否可能為 HRD 陽性或 HRD 陰性。 資料特徵
可以自個體獲得來自正在鑑定(例如,分類)的腫瘤的測試樣品。與測試樣品相關的特徵,諸如基本特徵、拷貝數特徵及/或短變異體特徵,包括一個或多個可以用為 HRD 分類模型輸入的特徵。HRD 分類模型基於與 HRD 陽性樣品(諸如腫瘤樣品)相關的 HRD 陽性資料及與 HRD 陰性樣品(諸如腫瘤樣品)相關的 HRD 陰性資料的相應特徵(諸如基本特徵、拷貝數特徵及/或短變異體特徵)進行訓練。此等特徵可以用為 HRD 的功能讀段,其可以有助於鑑定具有與 HRD 相關的「 BRCAness」特徵的腫瘤。具有此等 HRD 陽性表型的腫瘤可為某些對 HRD 陰性表型無效(或通常無效)的藥物療法的合適候選者。
拷貝數特徵可以包括但不限於片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵。參見 Macintyre 等人, Copy-number signatures and mutational processes in ovarian carcinoma, Nat. Genet.2018 年 9 月;50(9):1262-1270。混合建模可以用於將每個特徵分佈劃分為高斯混合物或泊松分佈的混合物,以實現浮點或二元分量特徵。拷貝數特徵亦可以包括片段次要對偶基因頻率特徵,其基於片段中生殖系 SNP 的 A 及 B 對偶基因頻率。
在一些實施例中,可使用比用為輸入更多的特徵來訓練 HRD 模型(例如,HRD 分類器模型)。例如,可基於 HRD 陽性資料及 HRD 陰性資料訓練 HRD 分類模型,每個資料包含一定數目的與 HRD 陽性腫瘤及/或 HRD 陰性腫瘤相關的特徵。然後輸入至 HRD 分類模型的資料可包含更少的特徵。在一個實例中,HRD 分類器模型可調整自輸入至經訓練的 HRD 分類器模型中的樣品資料中省略的資料特徵的權重。此外,HRD 分類器模型可使用額外的資料特徵(諸如全基因體雜合性喪失的量度及/或一個或多個短變異體特徵,每一個如本文所描述)來訓練,但是在某些情況下,資料輸入可在一些實施例中,僅包含與個體中與癌症相關的腫瘤之基因體相關的一個或多個拷貝數特徵。
為了獲得基因體資料特徵,包括拷貝數特徵、包括 gLOH 及腫瘤基因體倍數量度及/或短變異體特徵的基本特徵,藉由對腫瘤的至少一個基因體的至少一部分進行定序來收集定序資料。然後可以自全基因體定序資料(諸如淺全基因體定序 (sWGS) 資料)中得出絕對或相對拷貝數及分段。圓形二元分段 (CBS) 亦可用於基於 DNA 微陣列資料將基因體劃分為具有恆定總拷貝數的片段,從中可得出拷貝數特徵。或者,絕對拷貝數及分段可以源自本領域已知的任何技術,包括但不限於外顯子組定序 (ES) 或 SNP 陣列。拷貝數特徵的分佈可以自絕對拷貝數資料(諸如 WGS 資料)中計算出來。混合建模可以用於將每個特徵分佈劃分為高斯混合物或泊松分佈的混合物,以實現浮點或二元分量特徵。因此,用於訓練 HRD 分類模型或輸入至經訓練的 HRD 分類模型中的特定「拷貝數特徵」將表示為其組分特徵。舉例而言,對於片段大小的拷貝數特徵,若劃分成 z個組分,然後 z個可能的特徵數目可用於訓練 HRD 分類模型或用於運行 HRD 分類模型。換句話說,對於一個特定的測試樣品,「片段大小」類別中的「拷貝數特徵」(假設片段大小被劃分成 z個組分)具有 z個可能的輸入,無論是用於訓練或是運行 HRD 分類模型。若 z等於 三,則可將三個片段大小特徵中之至少一個輸入至 HRD 分類模型中:即 segsize1、segsize2 或 segsize3。最佳模型性能可能部分取決於為每個特定類別的特徵選擇的組分特徵的數目。然而,特定類別的特徵可劃分為任何合適數目的組分特徵,而不必是與特定機率分佈相對應的彼等特徵。因此,即使性能不是最佳的,該模型亦可使用更多或更少數目的組分特徵執行良好並有效地驗證。
在導出拷貝數特徵時,可首先藉由與正常資料集匹配來對絕對拷貝數資料進行標準化,以確定從中調用拷貝數變異事件的基線水準。正常組通常來自健康組織樣品(可能來自與腫瘤來源相同的個體)。健康組織樣品的分析允許設置基線拷貝數,自該基線拷貝數導出本文所描述之拷貝數特徵。
一些描述的拷貝數特徵可跨基因體的亞區域進行評估。例如,可跨基因體的著絲粒部分評估特定的拷貝數特徵。在另一個實例中,可跨基因體的端粒部分評估拷貝數特徵。在又一個示例中,可跨基因體的端粒及著絲粒部分評估拷貝數特徵。在示例性方法中,為了定義基因體的端粒及著絲粒部分,人類參考序列基因體,諸如 hg19,可用於定義每個染色體臂的起點及終點。然後將特定臂的長度除以 2 以定義中間點。對於分析拷貝數特徵的每個區域,落在該中間點的著絲粒側的片段被定義為著絲粒片段。落在該中間點的端粒側的片段被定義為端粒片段。若一個片段跨越中間點(例如,自著絲粒側開始並在中間點的端粒側結束的片段),則該片段可被指定為著絲粒及端粒,並且可用於評估端粒及著絲粒拷貝數特徵兩者。因此,本文所描述之任何資料特徵酌情可跨基因體的端粒區域、基因體的著絲粒區域或基因體的端粒及著絲粒區域進行評估。
拷貝數的建模可能會受到評估的基因體的估計鹼基倍數的影響。若鹼基倍數被估計得更高,浮點拷貝數特徵可能會右移,導致組分分數偏斜並最終導致錯誤分類。將拷貝數資料標準化為鹼基倍數涉及將拷貝數資料除以被評估基因體的平均倍數。因此,任何所描述之拷貝數特徵可源自倍數標準化拷貝數資料,其中絕對拷貝數經標準化為腫瘤基因體的平均倍數。計算平均倍數的實例方法是獲取樣品中所有片段的加權平均拷貝數。有關計算平均倍數的示例性方法, 參見Sun 等人, A computational approach to distinguish somatic vs. germline origin of genomic alterations from deep sequencing of cancer specimens without a matched normal, PLoS Comput.Biol.2018 年 2 月 7 日;14(2):e1005965。
在一些實施例中,本文所描述之特徵可為分箱特徵。特徵分箱涉及將某些值組織至某些分類箱中。例如,對於值範圍自 0 至 10 的特徵,四分位分箱可將此等值中的每一個自 0 至 10 組織至四個箱中的一個中,其中較低值可組織至較低的箱中,而較高值可組織至較高的箱中。在一些實施例中,分箱為無人監督的。在一些實施例中,對分箱進行監督。在一些實施例中,分箱是等寬分箱。在等寬分箱中,分箱具有大致相同寬度的範圍。例如,對於具有自 1 至 8 的值的特徵,具有四個箱的等寬分箱會將 1 及 2 的值組織至第一個箱中,將 3 及 4 的值組織至第二個箱中,依此類推。在一些實施例中,分箱是等頻分箱。在等頻分箱中,組織箱使得每個箱具有大致相同數目的值,使得此等值大致均勻地分佈至箱中。舉例而言,對於具有 1 至 10 的值的特徵,其中較低值是高得多的頻率,分箱可將 1 組織至第一個箱中,將 2 組織至第二個箱中,並且將 3 至 10 組織至第三個箱中。分箱可為二元、三分位、四分位、五分位、六分位、七分位或任何其他合適的分箱組織。
在任何所描述之方法的一些實施例中,拷貝數特徵包含片段大小特徵。片段大小源自基因體中每個拷貝數片段的基因體鹼基長度。例如,若片段的拷貝數為 x,而下一片段的拷貝數為 y,則拷貝數為 x 的片段的長度及拷貝數為 y 的片段的長度是片段大小拷貝數類別中的因素。在示例性實施例中,片段大小的分佈被劃分為 10 個組分特徵。編號較小的片段大小特徵表示較小的片段大小(例如,segsize1),而編號較大的片段大小特徵表示較大的片段大小(例如,segsize10)。在一些實施例中,片段大小的分佈被劃分成至少 5 個組分特徵,諸如至少 6 個、至少 7 個、至少 8 個、至少 9 個、至少 10 個或至少 11 個組分特徵。在一些實施例中,片段大小的分佈被劃分成 5、6、7、8、9、10 或 11 個組分特徵中的任一者。在一些實施例中,跨基因體的端粒部分評估片段大小特徵。在一些實施例中,跨基因體的著絲粒部分評估片段大小特徵。在一些實施例中,跨基因體的端粒部分及著絲粒部分評估片段大小特徵。在一些實施例中,跨整個基因體評估片段大小特徵。在一些實施例中,片段大小特徵源自倍數標準化拷貝數資料。在一些實施例中,片段大小特徵是分箱特徵。
在任何所描述之方法的一些實施例中,拷貝數特徵包含每 x百萬鹼基的斷點計數特徵。在一些實施例中, x介於約 1 百萬鹼基 (MB) 及約 150 百萬鹼基之間。在一些實施例中, x是約 10 MB、約 25 MB、約 50 MB、約 100 MB 及約 150 MB 中的任一者。每個部分的斷點計數表示跨基因體或基因體之一部分的每個部分的斷點數目。例如,對於每 10 MB 的斷點計數,在整個基因體中分析 10 MB 的處理相鄰窗口(或者,可替代地,滑動窗口),然後可以評估滑動窗口的每個幀的斷點數目。應該注意,儘管在此方法中使用相鄰窗口,但可以使用滑動窗口或任何其他適合評估斷點計數的技術。無論如何,在一些示例性實施例中,每 x百萬鹼基的斷點計數被劃分成 3 個組分特徵。編號較小的斷點計數特徵表示較少的斷點(例如,在每 10 MB 的斷點計數的情況下:bp10MB1 表示 10 MB 滑動窗口的每幀或 10 MB 處理相鄰窗口的每幀的斷點較少),而編號較大的特徵表示每個部分有更多的斷點(例如,在每 10 MB 的斷點計數的情況下:bp10MB3 表示與編號較小的特徵(諸如 bp10MB1)相比,10 MB 滑動窗口的每幀有更多的斷點)。在一些實施例中,斷點計數的分佈被劃分為至少 2 個組分特徵,諸如至少 3 個或至少 4 個組分特徵。在一些實施例中,每個部分的斷點計數被劃分為 2、3、4 或 5 個組分特徵中的任一者。在一些實施例中,跨基因體的端粒部分評估每 x百萬鹼基的斷點計數特徵。在一些實施例中,跨基因體的著絲粒部分評估每 x百萬鹼基的斷點計數特徵。在一些實施例中,跨整個基因體評估每 x百萬鹼基的斷點計數特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵源自倍數標準化拷貝數資料。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。
在任何所描述之方法的一些實施例中,拷貝數特徵包含自對基因體片段定序獲得的定序讀段之數量特徵。對於特定的基因體片段,該值係指與定序片段對齊(即「覆蓋」)的定序讀段的平均數目。對於具有異常高拷貝數的基因體片段,將增加定序讀段的數目。相比之下,對於喪失拷貝數的基因體片段(諸如同型缺失),定序讀段會更少。定序讀段特徵可表示為實際讀段數(諸如所分析的每個片段的讀段平均值)或定序讀段箱。編號較小的定序讀段特徵表示較低的絕對定序讀段,而編號較大的定序讀段特徵表示較高的絕對定序讀段。在一些實施例中,跨基因體的端粒部分評估定序讀段特徵。在一些實施例中,跨基因體的著絲粒部分評估定序讀段特徵。在一些實施例中,跨基因體的端粒及著絲粒部分兩者評估定序讀段特徵。在一些實施例中,定序讀段特徵源自倍數標準化資料。在一些實施例中,定序讀段特徵是分箱特徵。在一些實施例中,定序讀段之數量特徵是來自下一代定序 (NGS) 的讀段數目的測量。在一些實施例中,定序讀段之數量特徵表現為腫瘤樣品中基因體片段的定序讀段與對照中該基因體片段的定序讀段的比率。
在任何所描述之方法的一些實施例中,拷貝數特徵包含絕對拷貝數特徵。可為每個基因體片段計算絕對拷貝數並分配一個值。舉例而言,分配的值可包括 0(指示同型缺失)、1(其可指示同型缺失)、2(可為正常計數)或更多(其可指示拷貝數擴增)。絕對拷貝數特徵可表示實際拷貝數計數(諸如所分析的每個片段的平均拷貝數)或拷貝數值箱。舉例而言,至少 6 的拷貝數可被分箱為表示片段的高拷貝數。3 至 5 之間的拷貝數可被分箱為表示適度增加的拷貝數。拷貝數 1 及 2 可能是正常的,拷貝數 0 可被分箱為同型缺失。編號較小的絕對拷貝數特徵表示較低的絕對拷貝數,而編號較大的絕對拷貝數特徵表示較高的絕對拷貝數。在一些實施例中,絕對拷貝數被劃分為 3、4、5、6、7、8 或 9 個組分特徵中的任一者。在一些實施例中,跨基因體的端粒部分評估絕對拷貝數特徵。在一些實施例中,跨基因體的著絲粒部分評估絕對拷貝數特徵。在一些實施例中,跨基因體的端粒及著絲粒部分兩者評估絕對拷貝數特徵。在一些實施例中,絕對拷貝數特徵源自倍數標準化資料。在一些實施例中,絕對拷貝數特徵是分箱特徵。
在任何所描述之方法的一些實施例中,拷貝數特徵包含變化點拷貝數特徵。變化點拷貝數係指跨基因體的基因體片段之間拷貝數的絕對差異。舉例而言,以拷貝數 7 及 2 建模的相鄰片段的絕對差異為 5。在示例性實施例中,變化點拷貝數的分佈被劃分為 7 個組分特徵。編號較小的變化點拷貝數特徵表示拷貝數變化的絕對差異較小(例如,變化點 1),而編號較大的特徵表示拷貝數變化的絕對差異較大(例如,變化點 7)。在一些實施例中,變化點拷貝數的分佈被劃分為至少 4 個組分特徵,諸如至少 5 個、至少 6 個、至少 7 個或至少 8 個組分特徵。在一些實施例中,變化點拷貝數被劃分為 4、5、6、7、8 或 9 個組分特徵中的任一者。在一些實施例中,跨基因體的端粒部分評估變化點拷貝數特徵。在一些實施例中,跨基因體的著絲粒部分評估變化點拷貝數特徵。在一些實施例中,跨基因體的端粒及著絲粒部分兩者評估變化點拷貝數特徵。在一些實施例中,變化點拷貝數特徵源自倍數標準化拷貝數資料。在一些實施例中,變化點拷貝數特徵是分箱特徵。
在任何所描述之方法的一些實施例中,拷貝數特徵包含片段拷貝數特徵。片段拷貝數源自於基因體或基因體一部分中每個片段的拷貝數。在示例性實施例中,片段拷貝數的分佈被劃分為 8 個組分特徵。編號較低的片段拷貝數特徵表示較低的拷貝數(例如,拷貝數 1 可表示 0 或 1,或 0 至 1 的拷貝數水準),而編號較大的拷貝數特徵表示較高的拷貝數(例如,拷貝數 8)。在一些實施例中,片段拷貝數的分佈被劃分為至少 4 個組分特徵,諸如至少 5 個、至少 6 個、至少 7 個、至少 8 個或至少 9 個組分特徵。在一些實施例中,片段拷貝數的分佈被劃分為 4、5、6、7、8、9 或 10 個組分特徵中的任一者。在一些實施例中,跨基因體的端粒部分評估片段拷貝數特徵。在一些實施例中,跨基因體的著絲粒部分評估片段拷貝數特徵。在一些實施例中,跨整個基因體評估片段拷貝數特徵。在一些實施例中,片段拷貝數特徵源自倍數標準化拷貝數資料。在一些實施例中,片段拷貝數特徵是分箱特徵。
在任何所描述之方法的一些實施例中,拷貝數特徵包含每染色體臂的斷點計數特徵。在示例性實施例中,每個染色體臂的斷點計數分佈被劃分為 5 個組分特徵。編號較小的每染色體臂的斷點計數特徵表示每個臂的斷點較少(例如,bpchrarm1),而編號較大的每染色體臂的斷點計數特徵表示每個染色體臂的斷點較多(例如,bpchrarm5)。在一些實施例中,每個染色體臂的斷點計數分佈被劃分為至少 3 個組分特徵,諸如至少 4 個、至少 5 個、至少 6 個或至少 7 個組分特徵。在一些實施例中,每個染色體臂的斷點計數分佈被劃分為 4、5、6、7 或 8 個組分特徵中的任一者。在一些實施例中,每個染色體臂的斷點計數源自倍數標準化拷貝數資料。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。
在一些實施例中,拷貝數特徵包含具有振盪拷貝數 (osCN) 特徵的複數個片段。具有振盪拷貝數的片段數表示基因體或一部分基因體的遍歷,對兩個拷貝數之間重複交替片段的數目進行計數。在示例性實施例中,具有振盪拷貝數的片段數的分佈被劃分為 3 個組分特徵。具有振盪拷貝數特徵的編號較小的片段數表示兩個拷貝數之間的重複交替較少(例如,osCN1),而具有振盪拷貝數特徵的編號較大的的片段數表示兩個拷貝數之間的重複交替較多(例如,osCN3)。在一些實施例中,具有振盪拷貝數的片段數的分佈被劃分為至少 2 個,諸如至少 3 個或至少 4 個組分特徵。在一些實施例中,具有振盪拷貝數的片段數的分佈被劃分為 2、3、4 或 5 個組分特徵中的任一者。在一些實施例中,跨基因體的端粒部分評估具有振盪拷貝數的片段之數量特徵。在一些實施例中,跨基因體的著絲粒部分評估具有振盪拷貝數的片段之數量特徵。在一些實施例中,跨整個基因體評估具有振盪拷貝數的片段之數量特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵源自倍數標準化拷貝數資料。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。
在一些實施例中,拷貝數特徵包含片段次要對偶基因頻率 (segMAF) 特徵。segMAF 特徵可源自腫瘤基因體的平均 segMAF 或中值 segMAF。在同型對偶基因位點的正常基因體中,每個對偶基因的預期拷貝數為 1.0。HRD 與對偶基因的完全喪失(雜合性喪失)或一個對偶基因相對於另一個對偶基因的拷貝數增加有關。因此,segMAF 是對基因體的逐段遍歷,比較次要對偶基因與主要對偶基因的比率。具體而言,分析每個異型 SNP 的 A 對偶基因及 B 對偶基因頻率;捕獲次要對偶基因的頻率作為次要對偶基因分數。平衡基因座的比例約為 0.5:0.5,其中次要對偶基因頻率為 0.5。雜合性事件的喪失將導致次要對偶基因頻率的不平衡及偏斜,次要對偶基因分數小於約 0.5。在一些實施例中,跨基因體的端粒部分評估 segMAF 特徵。在一些實施例中,跨基因體的著絲粒部分評估 segMAF 特徵。在一些實施例中,跨整個基因體評估 segMAF 特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。
HRD 分類模型由 HRD 陽性資料訓練,對於複數個 HRD 陽性腫瘤中的每個 HRD 陽性腫瘤,該 HRD 陽性資料包含與 HRD 陽性腫瘤相關的一個或多個特徵以及 HRD 陽性標籤及 HRD 陰性資料,對於複數個 HRD 陰性訓練腫瘤中的每個 HRD 陰性腫瘤,該 HRD 陰性資料包含與 HRD 陰性腫瘤相關的一個或多個拷貝數特徵及 HRD 陰性標籤。HRD 分類模型亦可基於其他特徵或量度進行訓練。因此,可將包含此等其他特徵或量度的測試資料輸入至 HRD 分類模型中(包括與一個或拷貝數特徵組合)。舉例而言,包括例如基因體雜合性喪失的量度及/或一個或多個短變異體特徵的基本特徵可用於 HRD 分類模型中(無論是訓練 HRD 分類模型或是作為待輸入至 HRD 分類模型的測試資料)。
在一些實施例中,基礎特徵包含獲得腫瘤的個體的年齡。患者可為任何年齡,包括至少 5 歲、至少 10 歲、至少 15 歲、至少 20 歲、至少 25 歲、至少 30 歲、至少 35 歲、至少 40 歲、至少 45 歲、至少 50 歲、至少 55 歲、至少 60 歲、至少 65 歲、至少 70 歲、至少 75 歲或至少 80 歲中的任何年齡。年齡特徵可為個體的整數值。或者,年齡特徵可為定性特徵,諸如嬰兒、年輕人、兒童、年輕成人或老年個體中的任一者。在一些實施例中,年齡特徵是分箱特徵。
在一些實施例中,基本特徵包含癌症類型特徵。癌症類型特徵係指腫瘤來源。癌症類型可包括例如腎上腺癌、膽道癌、骨/軟組織癌、乳癌、結腸/直腸癌、食道癌、眼癌、頭頸癌、腎癌、肝癌、肺癌、淋巴癌、髓母細胞瘤、間皮瘤、骨髓癌、神經系統癌、神經內分泌腫瘤、卵巢癌、胰髒癌、前列腺癌、皮膚癌、胃癌、睾丸癌、胸腺癌、甲狀腺癌、尿道癌、子宮癌或外陰癌之一。在一些實施例中,癌症類型特徵是分箱特徵。
在一些實施例中,基本特徵包含癌症階段特徵。癌症的分期通常基於癌症的類型(例如,胰髒癌分期、前列腺癌分期、乳癌分期、卵巢癌分期等),儘管通用分期系統在本領域中亦是已知的。可使用任何合適的癌症分期系統,並且可取決於例如腫瘤的位置、細胞類型、腫瘤大小、腫瘤的擴散及分佈、腫瘤的轉移以及腫瘤等級。作為資料特徵,癌症階段通常表示為自不太嚴重的階段至嚴重程度較高的階段。舉例而言,對於包含 4 個組分特徵的癌症分期特徵,1 期可能表示早期癌症,而 4 期可能表示晚期癌症。在一些實施例中,癌症階段特徵是分箱特徵。
HRD 陽性資料及 HRD 陰性資料通常分為訓練資料集、驗證資料集及/或測試資料集。在訓練過程中,HRD 分類模型僅隨訓練集一起提供。視情況,訓練集可以是平衡的。訓練完成後,可以藉由驗證集上的性能來驗證模型並進行調整。若模型在驗證集上表現出過度擬合,則可調整並重複訓練。訓練完成後,並且在視情況被驗證之後,經訓練的模型可使用測試資料集進行評估。
在一些實施例中,可包括基因體雜合性喪失 (gLOH) (例如,全基因體雜合性喪失或全外顯子組雜合性喪失) 的量度作為基本特徵。不需要分析全基因體來確定基因體雜合性喪失,因為整個外顯子組定序或基因體足夠大部分的靶向定序可作為基因體雜合性喪失的代表。在一些實施例中,gLOH 被編碼為連續數字特徵。在一些實施例中,gLOH 被編碼為分類特徵,舉例而言,若 gLOH 高於或低於預定閾值。例如,預定閾值可設置為約 10% 或更高、約 12% 或更高、約 14% 或更高、或約 16% 或更高。舉例而言,預定閾值可設置為約 16%。例如,gLOH 可使用 Swisher 等人, Rucaparib in relapsed, platinum-sensitive high-grade ovarian carcinoma (ARIEL2 Part1): an international, multicenter, open-label, phase 2 trial, Lancet Oncology, 第 18 卷, 第 1 號, 第 75-87 號 (2017)。
HRD 分類模型中可使用一個或多個短變異體特徵(無論是訓練 HRD 分類模型及/或作為要輸入至 HRD 分類模型的測試資料)。此等短變異體特徵可包括但不限於在例如重複或微同源性區特徵處的一個或多個缺失(諸如至少 5 個鹼基對缺失)及/或包含兩個或更多個短變異體特徵的突變特徵。在示例性方法中,此等短變異體特徵可藉由將對應於具有共同人類基因體序列(諸如 hg19)的腫瘤樣品的定序資料進行比較來鑑定。在一些實施例中,短變異體特徵是分箱特徵。
複數個短變異體特徵可組合並表現為突變特徵分數。舉例而言,一個或多個短變異體特徵可包含突變特徵,諸如來自 COSMIC 癌症資料庫的突變特徵。在一個實例中,一個或多個短變異體特徵包含基於插入缺失的特徵,諸如 COSMIC 癌症資料庫的 COSMIC ID6 或 COSMIC ID8 插入缺失特徵。樣品特徵可以映射至此等 COSMIC 特徵,例如,使用 NNMF 方法。在另一個實例中,一個或多個短變異體特徵包含 COSMIC 癌症資料庫的 COSMIC ID8。在又一個實例中,一個或多個短變異體特徵包含 COSMIC 癌症資料庫的 SBS3 突變特徵。有關示例性 COSMIC ID 特徵的概述, 參見Alexandrov 等人, The repertoire of mutational signatures in human cancer, Nature 2020; 578 (7793):94-101。另外參見 Forbes 等人, COSMIC: mining complete cancer genomes in the Catalogue of Somatic Mutations in Cancer, Nuc.Acids Res.2011 年 1 月;39:D945-D950。
在一些實施例中,一個或多個短變異體特徵包含微同源性缺失或重複性區域特徵。在一些實施例中,缺失為至少 1-鹼基對。在一些實施例中,缺失為至少 5-鹼基對。微同源性區的缺失是微同源介導的末端連接 (MMEJ) 的特徵性結果,其發生在沒有同源重組的情況下。在此過程中,相似的短區域(微同源性)用於指導基因體中雙鏈斷裂的修復。此等缺失的鑑定特徵是缺失序列的 3' 端將與缺失的上游上下文具有相似性。因此,微同源性區特徵的缺失是表現出這種行為的缺失數目的量度,並且亦可能基於微同源性的長度(即,長度較長的大量缺失與長度較短的較少缺失)。
在示例性實施例中,測試資料包含片段次要對偶基因頻率特徵及片段大小特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。在一些實施例中,片段大小特徵是分箱特徵。測試資料可進一步包含每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段次要對偶基因頻率特徵及每 x百萬鹼基的斷點計數特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。測試資料可進一步包含片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、變化點拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段次要對偶基因頻率特徵及變化點拷貝數特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。在一些實施例中,變化點拷貝數特徵是分箱特徵。測試資料可進一步包含片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段次要對偶基因頻率特徵及片段拷貝數特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。在一些實施例中,片段拷貝數特徵是分箱特徵。測試資料可進一步包含片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段次要對偶基因頻率特徵及每染色體臂的斷點計數特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。測試資料可以進一步包含片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段次要對偶基因頻率特徵及具有振盪拷貝數的片段之數量特徵。在一些實施例中,片段次要對偶基因頻率特徵是分箱特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。測試資料可進一步包含片段大小特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵,以及每染色體臂的斷點計數特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段大小特徵及每 x百萬鹼基的斷點計數特徵。在一些實施例中,片段大小特徵是分箱特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、變化點拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段大小特徵及變化點拷貝數特徵。在一些實施例中,片段大小特徵是分箱特徵。在一些實施例中,變化點拷貝數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段大小特徵及片段拷貝數特徵。在一些實施例中,片段大小特徵是分箱特徵。在一些實施例中,片段拷貝數是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段大小特徵及每染色體臂的斷點計數特徵。在一些實施例中,片段大小特徵是分箱特徵。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段大小特徵及具有振盪拷貝數的片段之數量特徵。在一些實施例中,片段大小特徵是分箱特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵,以及每染色體臂的斷點計數特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含每 x百萬鹼基的斷點計數特徵及變化點拷貝數特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。在一些實施例中,變化點拷貝數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含每 x百萬鹼基的斷點計數特徵及片段拷貝數特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。在一些實施例中,片段拷貝數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、變化點拷貝數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含每 x百萬鹼基的斷點計數特徵及每染色體臂的斷點計數特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、變化點拷貝數特徵、片段拷貝數特徵、以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含每 x百萬鹼基的斷點計數特徵及具有振盪拷貝數的片段之數量特徵。在一些實施例中,每 x百萬鹼基的斷點計數特徵是分箱特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、變化點拷貝數特徵、片段拷貝數特徵,以及每染色體臂的斷點計數特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含變化點拷貝數特徵及片段拷貝數特徵。在一些實施例中,變化點拷貝數特徵是分箱特徵。在一些實施例中,片段拷貝數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、每染色體臂的斷點計數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含變化點拷貝數特徵及每染色體臂的斷點計數特徵。在一些實施例中,變化點數目特徵是分箱特徵。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、片段拷貝數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一示例性實施例中,測試資料包含變化點拷貝數特徵及具有振盪拷貝數的片段之數量特徵。在一些實施例中,變化點拷貝數特徵是分箱特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、片段拷貝數特徵,以及每染色體臂的斷點計數特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段拷貝數特徵及每染色體臂的斷點計數特徵。在一些實施例中,片段拷貝數特徵是分箱特徵。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵,以及具有振盪拷貝數的片段之數量特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含片段拷貝數特徵及具有振盪拷貝數的片段之數量特徵。在一些實施例中,片段拷貝數特徵是分箱特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵,以及每染色體臂的斷點計數特徵中的至少一個。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。
在另一個示例性實施例中,測試資料包含每染色體臂的斷點計數特徵及具有振盪拷貝數的片段之數量特徵。在一些實施例中,每染色體臂的斷點計數特徵是分箱特徵。在一些實施例中,具有振盪拷貝數的片段之數量特徵是分箱特徵。測試資料可進一步包含片段次要對偶基因頻率 (segMAF) 特徵、定序讀段之數量特徵、絕對拷貝數特徵、片段大小特徵、每 x百萬鹼基的斷點計數特徵、變化點拷貝數特徵,以及片段拷貝數特徵。測試資料亦可包含 gLOH 及/或一個或多個短變異體特徵的量度。測試資料可進一步包含獲得測試資料的個體的年齡、癌症類型特徵、癌症階段特徵、腫瘤純度特徵及腫瘤基因體倍數特徵中的一項或多項。 HRD 模型
使用經訓練的 HRD 分類模型對個體中的癌症腫瘤進行分類,該模型經組態為將腫瘤分類為 HRD 陽性(或可能的 HRD 陽性)或 HRD 陰性(或可能的 HRD 陰性)。HRD 分類模型使用 HRD 陽性資料訓練,該 HRD 陽性資料對於複數個 HRD 陽性腫瘤中的每個 HRD 陽性腫瘤包含與 HRD 陽性腫瘤相關的一個或多個資料特徵(諸如一個或多個拷貝數特徵及/或一個或多個短變異體特徵,以及其他可能的特徵)及 HRD 陽性標籤。HRD 分類模型使用 HRD 陰性資料進一步訓練,該 HRD 陰性資料對於複數個 HRD 陰性腫瘤中的每個 HRD 陰性腫瘤包含與 HRD 陰性腫瘤相關的一個或多個資料特徵(諸如一個或多個拷貝數特徵及/或一個或多個短變異體特徵,以及其他可能的特徵)及 HRD 陰性標籤。將包含與個體中的腫瘤之基因體相關的一個或多個資料特徵(諸如一個或多個拷貝數特徵及/或一個或多個短變異體特徵,以及其他可能的特徵)的測試資料輸入至經訓練的 HRD 分類模型中,然後根據測試資料將腫瘤分類為 HRD 陽性(或可能的 HRD 陽性)或 HRD 陰性(或可能的 HRD 陰性)。
本文所描述之模型可以包括一種或多種機器學習模型、一種或多種非機器學習模型或其任何組合。本文所描述之機器學習模型包括經由經驗及使用資料自動改進的任何電腦算法。機器學習模型可以包括監督模型、無監督模型、半監督模型、自監督模型等。示例性機器學習模型包括但不限於:線性迴歸、邏輯迴歸、決策樹、SVM、樸素貝葉斯、神經網路、K-Means、變異數分析 (ANOVA)、卡方分析、隨機森林、降維算法及梯度提升算法(諸如 XGB)。非機器學習模型可以包括不一定需要訓練及再訓練的任何電腦算法。
HRD 分類器可為機率分類器,諸如梯度提升模型。機率分類器可以經組態為計算腫瘤是 HRD 陽性或 HRD 陰性的機率,諸如藉由輸出 HRD 陽性可能性分數或 HRD 陰性可能性分數。基於自 HRD 分類模型輸出的一個或多個機率,可以將腫瘤判定為 HRD 陽性或 HRD 陰性。視情況,例如若腫瘤為 HRD 陽性的機率及腫瘤為 HRD 陰性的機率均不高於預定機率閾值,則可將腫瘤判定為模糊的。HRD 陽性資料及 HRD 陰性資料可以包括本文所描述之拷貝數特徵及/或短變異體特徵。
HRD 陰性資料可包含在某些 HRD 相關基因處具有野生型對偶基因(即,與 HRD 不相關的對偶基因)的基因體。舉例而言,在一些實施例中,HRD 陰性資料包含與在一個或多個與 HRD 相關的基因處具有野生型對偶基因的基因體相關的資料,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L。在一些實施例中,HRD 陰性資料包含與 HRD 相關的基因中的一個或多個的啟動子甲基化資料,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L 在一些實施例中,HRD 陰性資料包含與 HRD 相關的基因中的一個或多個的 RNA 表現資料,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L 在一些實施例中,HRD 陰性資料包含與被發現對鉑基藥物(例如,化學療法)及/或 PARP 抑制劑有抗藥性的腫瘤相關的基因體相關的資料。在一些實施例中,HRD 陰性資料包含與先前分類為 HRD 陰性的腫瘤相關的基因體相關的資料。在一些實施例中,HRD 陰性資料至少部分源自共同人類基因體序列或其一部分。
HRD 陽性資料可包含與在某些 HRD 相關基因處具有 HRD 相關對偶基因的基因體相關的資料。舉例而言,在一些實施例中,HRD 陽性資料包含與在一個或多個與 HRD 相關的基因處具有突變的基因體相關的資料,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L,特別是其雙對偶基因突變 在一些實施例中,HRD 陽性資料包含與 HRD 相關的基因中的一個或多個的啟動子甲基化資料,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L 在一些實施例中,HRD 陽性資料包含與 HRD 相關的基因中的一個或多個的 RNA 表現資料,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L 在一些實施例中,HRD 陽性資料包含與被發現對鉑基藥物及/或 PARP 抑制劑敏感的腫瘤相關的基因體相關的資料。在一些實施例中,HRD 陽性資料包含與先前分類為 HRD 陽性的腫瘤相關的基因體相關的資料。在一些實施例中,HRD 陽性資料包含與具有與 HRD 相關的雙對偶基因 BRCA1BRCA2突變的腫瘤相關的資料。
HRD 陽性資料可與 HRD 陰性資料平衡。舉例而言,在不平衡的訓練資料集中,HRD 陽性訓練腫瘤的數目可超過 HRD 陰性腫瘤的數目(反之亦然)。平衡資料確保模型具有足夠數目的每個標籤,以避免偏向一個標籤。當平衡時,調整 HRD 陽性腫瘤的數目或 HRD 陰性腫瘤的數目,使得該等數目之間的比率處於所需水準(諸如大約 1:1 或任何其他所需比率)。使用平衡資料集,可訓練 HRD 分類器,然後針對包含 HRD 陽性腫瘤及 HRD 陰性腫瘤的測試資料集進行測試。
用於訓練 HRD 分類器的腫瘤各自包含 HRD 陽性標籤或 HRD 陰性標籤。可使用任何合適的方法將腫瘤計算標籤(例如,應用元資料標籤)為 HRD 陽性或 HRD 陰性。HRD 陽性標籤可藉由 HRD 相關基因之一中存在改變來分配,諸如與 HRD 相關的基因之一,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L,特別是其雙對偶基因改變。 BRCA1BRCA2之一或兩者的突變尤其表明 HRD 陽性,尤其是雙對偶基因 BRCA1/ BRCA2突變。根據臨床病史,腫瘤亦可能被標記為 HRD 陽性。例如,若腫瘤對 PARP 抑制劑或鉑基藥物方案敏感,則該腫瘤更有可能是 HRD 陽性。HRD 陰性標籤可基於 HRD 相關基因之一(諸如與 HRD 相關基因之一)中存在改變來分配 ,包括但不限於 BRCA1BRCA2ATMBARD1BRIP1CDK12CHEK1CHEK2FANCLPALB2RAD51BRAD51CRAD51D及/或 RAD45L HRD 相關基因的突變可藉由基因序列與參考基因體的比較來檢測,例如共同人類基因體序列,諸如 hg19。同樣,腫瘤亦可基於臨床病史標記為 HRD 陰性。例如,若腫瘤對 PARP 抑制劑或鉑基藥物方案有抗藥性,則該腫瘤更可能為 HRD 陰性。若腫瘤在使用 PARP 抑制劑或鉑基藥物方案治療之前未接受過治療,則尤其如此,因為 HRD 陽性腫瘤可能在多輪治療後對此等藥物產生抗藥性。儘管每個腫瘤可包含 HRD 陽性或 HRD 陰性標籤,但該標籤不需要絕對確定腫瘤是 HRD 陽性或 HRD 陰性。相反,給定包含大量 HRD 陽性腫瘤及大量 HRD 陰性腫瘤的穩健訓練資料集,並且如本領域已知的,藉由避免此等資料的過度擬合,假陽性及假陰性的貢獻在模型中被平均化。此外,使用更大的訓練資料集,特別是平衡的訓練資料集及具有明確定義的陽性及陰性標籤的資料集(諸如藉由使用用於 HRD 陰性標籤的經過驗證的共同基因體;以及藉由使用用於 HRD 陽性標籤的經過驗證的雙對偶基因 BRCA1/2突變體或經過驗證的、充分表徵的 BRCAness 樣品),使模型能夠正確評估 HRD 陰性表型及表現出 HRD 結疤的彼等表型(即 HRD 陽性表型)之間的細微差別。
分類方法是一種電腦實現的方法。該分類可在特定組態的機器或系統上執行,該機器或系統包括用於執行經訓練的 HRD 分類器模型的程序指令,該模型可存儲在電腦或系統的非暫時性電腦可讀記憶體上。電腦通常包括一個或多個可以訪問記憶體的處理器。一個或多個處理器可以接收資料(例如,測試資料,諸如與個體中的腫瘤之基因體相關的一個或多個拷貝數特徵及/或一個或多個短變異體特徵,以及在一些實施例中,其他特徵及量度),其亦可存儲在記憶體中。一個或多個處理器可以訪問經訓練的 HRD 分類器模型,並且可以將測試資料輸入至模型中。然後,一個或多個處理器及經訓練的 HRD 分類器模型可以將癌症分類為可能的 HRD 陽性或可能的 HRD 陰性。
HRD 分類器模型可將癌症的腫瘤分類為 HRD 陽性或 HRD 陰性。在一些實施例中,HRD 分類器模型可將腫瘤分類為可能的 HRD 陽性、可能的 HRD 陰性或模糊的。舉例而言,若 HRD 分類器模型不能以足夠高的置信度或機率將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性,則其可將腫瘤分類為模糊的。在給定對不準確分類的容忍度的情況下,用戶可根據需要設置置信度或機率閾值。在一個實例中,用戶可將 HRD 陽性可能性分數閾值設置為 0.8 並且將 HRD 陰性可能性分數閾值設置為 0.2。若 HRD 陽性可能性分數低於 0.8 及/或若 HRD 陰性可能性分數高於 0.2,則 HRD 模型可能不會將腫瘤分類為 HRD 陽性,或者將腫瘤分類為 HRD 陰性(取決於 HRD 陽性可能性分數有多低以及 HRD 陰性可能性分數有多高)或模糊的。
在一些實施例中,HRD 分類器輸出腫瘤為 HRD 陽性的可能性分數。在一些實施例中,HRD 分類器輸出腫瘤為 HRD 陰性的可能性分數。HRD 分類器可經組態為輸出 HRD 陽性可能性分數及 HRD 陰性可能性分數中的一個或兩者。HRD 分類器亦可經組態為輸出 HRD 陽性可能性分數與 HRD 陰性可能性分數的比率及/或 HRD 陰性可能性分數與 HRD 陽性可能性分數的比率。可能性分數可表現為自 0.0(表明腫瘤不是 HRD 陽性或 HRD 陰性的確定性)至 1.0(表明腫瘤是 HRD 陽性或 HRD 陰性的確定性)的值。例如,經訓練的 HRD 分類器可接收包含與個體的癌症腫瘤相關的複數個資料特徵的測試樣品資料,並輸出 0.8 的 HRD 陽性可能性分數及 0.15 的 HRD 陰性可能性分數。HRD 分類器可經組態為基於一個或多個可能性分數將腫瘤判定為 HRD 陽性或 HRD 陰性。在前面的實例中,基於 HRD 陽性可能性分數 0.8 及 HRD 陰性可能性分數 0.15,HRD 分類器可將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陽性可能性分數為至少 0.4,諸如至少 0.45、至少 0.5、至少 0.55、至少 0.6、至少 0.65、至少 0.70、至少 0.75、至少 0.80、至少 0.85、至少 0.90、至少 0.95 或至少 0.99,則 HRD 分類器將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陽性可能性分數為至少 0.7,則 HRD 分類器將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陽性可能性分數為至少 0.8,則 HRD 分類器將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陽性可能性分數為至少 0.9,則 HRD 分類器將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陰性可能性分數為至少 0.4,諸如至少 0.5、至少 0.6、至少 0.65、至少 0.70、至少 0.75、至少 0.80、至少 0.85、至少 0.90、至少 0.95 或至少 0.99,則 HRD 分類器將腫瘤判定為 HRD 陰性。在一些實施例中,若 HRD 陰性可能性分數至少為 0.7,則 HRD 分類器將腫瘤判定為 HRD 陰性。在一些實施例中,若 HRD 陰性可能性分數至少為 0.8,則 HRD 分類器將腫瘤判定為 HRD 陰性。在一些實施例中,若 HRD 陰性可能性分數至少為 0.9,則 HRD 分類器將腫瘤判定為 HRD 陰性。在一些實施例中,若 HRD 陰性可能性分數小於 0.5,諸如小於 0.45、小於 0.40、小於 0.35、小於 0.30、小於 0.30、小於 0.25、小於 0.20、小於 0.15、小於 0.10 或小於 0.05,則 HRD 分類器將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陽性可能性分數小於 0.5,諸如小於 0.45、小於 0.40、小於 0.35、小於 0.30、小於 0.30、小於 0.25、小於 0.20、小於 0.15、小於 0.10 或小於 0.05,則 HRD 分類器將腫瘤判定為 HRD 陰性。在一些實施例中,若 HRD 陽性可能性分數高於某個閾值(諸如至少 0.80)並且 HRD 陰性可能性分數低於某個閾值(諸如小於 0.25),則 HRD 分類器將腫瘤判定為 HRD 陽性。在一些實施例中,若 HRD 陰性可能性分數高於某個閾值(諸如至少 0.80)並且 HRD 陽性可能性分數低於某個閾值(諸如小於 0.25),則 HRD 分類器將腫瘤判定為 HRD 陰性。在一些實施例中,若 HRD 陽性可能性分數低於某個閾值並且 HRD 陰性可能性分數低於閾值,或若可能性分數的絕對值在閾值百分比相似性內,則 HRD 分類器將稱腫瘤為模糊的。
可生成將癌症鑑定為可能的 HRD 陽性或可能的 HRD 陰性(或模糊的)的報導。報導可為例如電子病歷或打印報導,其可以被傳送至個體或與個體相關的醫療保健提供者(諸如醫生、護士、診所等)。該報導可用於做出醫療保健決策,諸如治療癌症腫瘤的方法或藥物。
該報導可顯示在電子顯示器或定制界面上。舉例而言,在一些實施例中,電腦實現的方法可自動生成報導,並且可在電子顯示器或定制界面上自動顯示生成的報導。
7示出了用於訓練及操作 HRD 分類模型 702 的示例性方法,該模型經組態為將個體中的癌症腫瘤分類為 HRD 陽性或 HRD 陰性。HRD 分類模型 702 使用包含 HRD 陽性訓練資料集 704 及 HRD 陰性訓練資料集 706 的資料集進行訓練。HRD 陽性訓練資料集 704 包括一個或多個 HRD 陽性樣品資料元素(即,HRD 陽性樣品 1 資料至 HRD 陽性樣品 i)。每個 HRD 陽性樣品資料元素均與 HRD 陽性腫瘤的特徵(例如,拷貝數特徵、基本特徵、短變異體特徵等)相關。HRD 陽性樣品資料元素亦可包括其他資料特徵,諸如 gLOH 的量度及/或短變異體特徵(未顯示)。此等特徵被標記為與 HRD 陽性標籤相關。類似地,HRD 陰性訓練資料集 706 包括一個或多個 HRD 陰性訓練樣品資料元素(即,HRD(-) 樣品 1 至 HRD(-) 樣品 j)。每個 HRD 陰性樣品資料元素均與 HRD 陰性腫瘤的特徵(例如,拷貝數特徵、基本特徵、短變異體特徵等)相關。HRD 陰性樣品資料元素亦可包括其他資料特徵,諸如 gLOH 的量度及/或短變異體特徵(未顯示)。HRD 陰性樣品被標記為與 HRD 陰性標籤相關。
在一些實施例中,HRD 分類模型 702 是基於樹的梯度提升模型(諸如 XGBoost)。在此模型中,不是孤立地訓練所有模型(例如,藉由隨機森林),而是連續訓練模型,使得每個新模型均與先前模型的殘差相匹配。因此,該模型自許多順序連接的弱分類器中實現了強分類器。可在訓練資料中使用重複交叉驗證來估測 HRD 分類模型的性能。
在已經在訓練資料集上訓練分類模型 702 之後,分類模型 702 可用於將個體中的癌症腫瘤分類為 HRD 陽性或 HRD 陰性。為了將個體中的癌症腫瘤分類為 HRD 陽性或 HRD 陰性,分類模型 702 接收測試資料 708,該測試資料 708 包括與待分類的腫瘤相關的測試特徵資料。測試資料 708 包括一個或多個拷貝數特徵並且可包括一個或多個基本特徵、一個或多個短變異體特徵等。分類模型 702 可確定腫瘤是 HRD 陽性 710 的機率及/或腫瘤為 HRD 陰性 712 的機率。機率 710 及 712 視情況輸入至 HRD 調用模塊 714 中。HRD 調用模塊 714 可以將癌症判定為 HRD 陽性或 HRD 陰性。舉例而言,若腫瘤測試樣品為 HRD 陽性 710 的機率大於腫瘤測試樣品為 HRD 陰性 712 的機率,則可以將腫瘤測試樣品判定為 HRD 陽性。若腫瘤測試樣品為 HRD 陰性 712 的機率大於腫瘤測試樣品為 HRD 陽性 710 的機率,則可以將腫瘤測試樣品判定為 HRD 陰性。視情況,若機率 710 及 712 均不高於預定閾值,則可以將腫瘤測試樣品判定為模糊的。
本文所描述之方法可使用一個或多個電腦系統來實現。此等電腦系統可以包括一個或多個程式,該等程序經組態為執行一個或多個處理器以使電腦系統執行此等方法。電腦實施方法的一個或多個步驟可自動執行。電腦系統可包括一個或多個計算節點。舉例而言,系統可包括兩個或更多個計算節點(例如,服務器、電腦、路由器或包括網絡接口的其他類型的電子裝置),此等節點可經連接並組態為在網絡的一個或多個計算節點上經由該網絡進行通信並執行方法。
8示出了根據一個實施例的計算裝置的實例。裝置 1100 可以是連接至網絡的主機。裝置 1100 可以是客戶端計算機或服務器。如 8所示,裝置 1100 可以是任何合適類型的基於微處理器的裝置,諸如個人電腦、工作站、服務器或手持計算裝置(便攜式電子裝置),諸如電話或平板電腦。該裝置可以包括例如處理器 1110、輸入裝置 1120、輸出裝置 1130、存儲器 1140 及通信裝置 1160 中的一個或多個。輸入裝置 1120 及輸出裝置 1130 通常可以對應於上述彼等裝置,並且可以與電腦連接或集成。
輸入裝置 1120 可以是提供輸入的任何合適的裝置,諸如觸摸屏、鍵盤或小鍵盤、鼠標或語音識別裝置。輸出裝置 1130 可以是提供輸出的任何合適的裝置,諸如顯示器、觸摸屏、觸覺裝置或揚聲器。
存儲器 1140 可以是提供存儲器的任何合適的裝置,諸如包括 RAM、高速緩存、硬盤驅動器或可移動存儲盤的電、磁或光記憶體。通信裝置 1160 可以包括能夠經由網絡發送及接收信號的任何合適的裝置,諸如網絡接口芯片或裝置。電腦的組件可以以任何合適的方式連接,諸如經由物理總線或無線連接。
HRD 分類模塊 1150 可以存儲在存儲器 1140 中並由處理器 1110 執行,其可以包括例如一個或多個程式指令,用於執行並實現與 HRD 模型相關的方法及過程(例如,如在如上文所描述的裝置中體現)。
HRD 分類模塊 1150 亦可以在任何非暫態電腦可讀取儲存媒體中存儲及/或傳輸,以供指令執行系統、設備或裝置(諸如上文所描述之彼等)使用或與其結合使用,該指令執行系統、設備或裝置可以自指令執行系統、設備或裝置獲取與軟件相關的指令並執行指令。在本揭露的上下文中,電腦可讀存儲介質可以是任何介質,諸如存儲器 1140,其可以包含或存儲供指令執行系統、設備或裝置使用或與其結合使用的程序。
HRD 分類模塊 1150 亦可以在任何傳輸介質中傳播,以供指令執行系統、設備或裝置(諸如上文所描述之彼等)使用或與其結合使用,該指令執行系統、設備或裝置可以自指令執行系統、設備或裝置獲取與軟件相關的指令並執行指令。在本揭露的上下文中,傳輸介質可以是可以通信、傳播或傳輸程序以供指令執行系統、設備或裝置使用或與其結合使用的任何介質。傳輸可讀介質可以包括但不限於電子、磁、光、電磁或紅外有線或無線傳播介質。
裝置 1100 可連接至網絡,該網絡可以是任何合適類型的互連通信系統。該網絡可以實現任何合適的通信協議並且可以經由任何合適的安全協議來保護。網絡可以包含可以實現網絡信號的發送及接收的任何合適佈置的網絡鏈路,諸如無線網絡連接、T1 或 T3 線路、電纜網絡、DSL 或電話線路。
裝置 1100 可以實現任何適合在網絡上運行的操作系統。軟體 350 可以用任何合適的編程語言編寫,諸如 C、C++、Java 或 Python。在各種實施例中,體現本揭露的功能的應用軟體可以部署在不同的組態中,諸如在客戶端/服務器佈置中或經由 Web 瀏覽器作為基於 Web 的應用或 Web 服務。 治療方法
將腫瘤表徵為 HRD 陽性或 HRD 陰性(或可能的 HRD 陽性或可能的 HRD 陰性)對於為患有腫瘤的個體選擇有效治療特別有用。分類為 HRD 陽性的腫瘤通常對 HRD 陰性腫瘤可能對其有抗藥性的某些藥物及療法更敏感。基於將腫瘤分類為 HRD 陽性、可能的 HRD 陽性、HRD 陰性或可能的 HRD 陰性,可選擇不同的藥物或療法。因此,治療個體之癌症的方法可以包括:根據本文所描述之方法將癌症的腫瘤評估為可能的 HRD 陽性或可能的 HRD 陰性(或將癌症的腫瘤判定為 HRD 陽性或 HRD 陰性),然後基於將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性(或基於將腫瘤判定為 HRD 陽性或 HRD 陰性),投予個體治療有效量的藥物。
治療個體之癌症的方法可以包括獲得個體的癌症腫瘤係可能的 HRD 陽性或可能的 HRD 陰性的分類。為了獲得此分類,可使用本文所描述之 HRD 分類模型。可以將與癌症的腫瘤之基因體相關的一個或多個拷貝數特徵輸入至 HRD 分類模型,該模型經組態為基於與個體的腫瘤之基因體相關的一個或多個拷貝數特徵將腫瘤分類為可能的HRD 陽性或可能的 HRD 陰性。使用來自複數個 HRD 陽性腫瘤的 HRD 陽性資料及來自複數個 HRD 陰性腫瘤的 HRD 陰性資料訓練 HRD 分類模型。舉例而言,可藉由運行 HRD 分類模型或藉由自運行 HRD 分類模型的另一個接收結果來獲得分類。
可將一個或多個基本特徵及/或一個或多個短變異體特徵輸入至 HRD 分類模型,該模型經組態為基於一個或多個基本特徵及/或一個或多個短變異體特徵將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性。一個或多個短變異體特徵及一個或多個基本特徵可為一個或多個拷貝數特徵的補充或替代。
在一些實施例中,治療方法可包括獲得測試樣品資料,包括一個或多個拷貝數特徵。在一些實施例中,治療方法可包含獲得一個或多個基本特徵。在一些實施例中,治療方法可包括獲得全基因體雜合性喪失的量度。在一些實施例中,治療方法可包括獲得一個或多個短變異體特徵。可自個體獲得測試樣品,並且可自測試樣品中獲得核酸分子。測試樣品可為例如癌症的固體組織生檢,並且核酸可自固體組織樣品中分離。視情況,可例如藉由在分離核酸分子之前冷凍測試樣品或固定樣品(例如,藉由形成經福馬林固定石蠟包埋 (FFPE) 樣品)來保存測試樣品。或者,測試樣品是液體生檢樣品(例如,來自個體的血液、血漿或其他液體樣品),並且可自液體樣品中獲得核酸,包括循環腫瘤 DNA (ctDNA)。可對來自樣品的核酸進行分析,然後分析以產生一個或多個拷貝數特徵、一個或多個基本特徵或一個或多個短變異體特徵中的任一者。
獲得將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性可以包括將所描述之特徵及/或量度輸入至 HRD 分類模型中並且基於輸入至 HRD 分類模型的資料使用此等特徵及/或量度將癌症分類為可能的 HRD 陽性或可能的 HRD 陰性。或者,獲得將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性可包括接收來自另一個實體的報導。該報導可由其他實體生成,並且該報導可以包括將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性,其中該分類是使用本文所描述之 HRD 分類模型生成的。在一些實施例中,報導包括腫瘤是 HRD 陽性的可能性分數及/或腫瘤是 HRD 陰性的可能性分數,並且可以基於可能性分數進行最終分類。
一旦將腫瘤分類為可能的 HRD 陽性或可能的 HRD 陰性,則可以基於分類選擇治療。若腫瘤被分類為可能的 HRD 陽性,則選擇對 HRD 陽性腫瘤有效的治療。然後可以將選定的治療投予個體以治療被分類為可能的 HRD 陽性的腫瘤。若腫瘤被分類為可能的 HRD 陰性,則可選擇非鉑基藥物或 PARP 抑制劑的治療。然後可以將所選治療投予個體以治療被分類為可能的 HRD 陰性的腫瘤。
對 HRD 陽性腫瘤有效的治療可以包括一種或多種 PARP 抑制劑及/或一種或多種鉑基藥物。PARP 抑制劑可包括但不限於維利帕尼 (veliparib)、奧拉帕尼 (olaparib)、他拉唑帕尼 (talazoparib)、伊尼帕尼 (iniparib)、魯卡帕尼 (rucaparib) 及尼拉帕尼 (niraparib)。PARP 抑制劑描述與 Murphy 及 Muggia, PARP inhibitors: clinical development, emerging differences, and the current therapeutic issues, Cancer Drug Resist 2019;2:665-79。基於鉑的藥劑可包括但不限於順鉑 (cisplatin)、奧沙利鉑 (oxaliplatin) 及卡鉑 (carboplatin)。鉑基藥物描述與 Rottenberg 等人, The rediscovery of platinum-based cancer therapy, Nat. Rev. Cancer 2021 年 1 月;21(1):37-50。
待治療的腫瘤是個體體內的腫瘤。在一個實施例中,該腫瘤為胰髒癌。在另一個實施例中,該腫瘤為前列腺癌。在一些實施例中,該腫瘤為卵巢癌、乳癌或前列腺癌。在一些實施例中,該腫瘤是與 HRD 相關的腫瘤,其可包括但不限於腎上腺癌、膽道癌、骨/軟組織癌、乳癌、結腸/直腸癌、食道癌、眼癌、頭頸癌、腎癌、肝癌、肺癌、淋巴癌、髓母細胞瘤、間皮瘤、骨髓癌、神經系統癌、神經內分泌腫瘤、卵巢癌、胰髒癌、前列腺癌、皮膚癌、胃癌、睾丸癌、胸腺癌、甲狀腺癌、尿道癌、子宮癌或外陰癌之一。 參見Nguyen 等人, Pan-cancer landscape of homologous recombination deficiency, Nat. Commun.2020 年 11 月 4 日;11(1):5584。
儘管已經參照附圖充分描述本揭露,但是應當注意,各種變化及修改對於本領域技術人員來說將變得顯而易見。此等變化及修改將被理解為包括在由申請專利範圍限定的本揭露的範疇內。
出於解釋的目的,前面的描述已經參照具體實施例進行了描述。然而,上述說明性論述並不旨在窮舉或將本發明限制為所揭露的精確形式。鑑於上述教導,許多修改及變化均為可能的。選擇及描述實施例是為了最好地解釋此等技術的原理及其實際應用。從而使本領域的其他技術人員能夠最好地利用具有各種修改的技術及各種實施例,此等修改適合於預期的特定用途。
100:過程 102:框(接收複數個特徵) 104:框(特徵選擇) 104a:框(特徵重疊分析) 104b:框(迭代特徵選擇) 106:框(複數個特徵的子集) 108:分類模型 110:標記的訓練資料 302:ANOVA 特徵排序 304:隨機森林排序 306:梯度提升排序 308:特徵重疊分析 310:示例性輸出 312:特徵重要性排序 314:特徵重疊分析 402:框(接收複數個特徵) 404:框(確定每個特徵的特徵重要性) 408:框(將排序最高的特徵添加至訓練資料中) 410:框(訓練及評估模型) 412:框(確定是否有更多特徵) 414:框(確定要包括的特徵以最佳化模型性能) 416:框(複數個特徵的子集) 600:過程 602:框(接收複數個資料元素) 604:框(將複數個資料元素劃分為n個大小相等的集合) 606:框(保留一組資料元素) 608:框(在所有未保留的資料元素上訓練模型) 610:框(以資料元素保留集評估模型,記錄性能) 612:步驟(不同保留性能的平均性能) 622:複數個資料元素 623:迭代一次 624:第二次迭代 626:第三次迭代 628:第四次迭代 630:第五次迭代 702:HRD 分類模型 704:HRD 陽性訓練資料集 706:HRD 陰性訓練資料集 708:測試資料 710:測試樣品為 HRD 陽性的機率 712:測試樣品為 HRD 陰性的機率 714:HRD 調用模塊 1100:裝置 1110:處理器 1120:輸入裝置 1130:輸出裝置 1140:存儲器 1150:HRD 分類模塊 1160:通信裝置
1顯示用於將個體中之癌症腫瘤分類為 HRD 陽性 (HRD(+)) 或 HRD 陰性 (HRD(-)) 的示例性過程。 2顯示可使用不同的特徵重要性度量來評估的不同類型的特徵,諸如 ANOVA、隨機森林、梯度提升(例如 XGB)及卡方。 3A顯示示例性特徵重疊分析。 3B顯示示例性特徵重疊分析。 4顯示示例性迭代特徵選擇過程。 5顯示自示例性迭代特徵選擇過程獲得的模型性能的示例圖。 6A顯示可用於評估及調整模型性能的示例性交叉驗證過程。 6B顯示將複數個資料元素示例性地劃分為大小相等的子集。 7顯示用於訓練及操作 HRD 分類模型的示例性方法,該模型經組態為將個體中之癌症腫瘤分類為 HRD 陽性 (HRD(+)) 或 HRD 陰性 (HRD(-))。 8顯示使用邏輯迴歸、梯度提升(例如 XGB)及隨機森林的不同機器學習模型的 HRD 分數分佈實例。 9顯示按 HRD 及/或 BRCA1/2突變狀態分層的樣品中的實例模型性能。左側顯示命名為「HRD 野生型:True」」(N=245,050;圖右側 -1)、「HRD 野生型:假」(N=30,799;圖右側 0)及真正的 HRD 陽性樣品(雙對偶基因 BRCA突變;N=6,851;圖右側 1)的樣品腫瘤庫。 10顯示 9的子集在不同的腫瘤類型(乳癌、卵巢癌、胰髒癌及前列腺癌)中的實例模型性能。對於每種腫瘤類型,子集對應於 9(即,針對每種癌症分別為 HRD 野生型:真,HRD 野生型:假,及雙對偶基因 BRCA突變)的子集 -1、0 及 1。 11顯示根據一個實施例的計算裝置的實例,其可與本文所描述之某些方法一起使用。
702:HRD分類模型
704:HRD陽性訓練資料集
706:HRD陰性訓練資料集
708:測試資料
710:測試樣品為HRD陽性的機率
712:測試樣品為HRD陰性的機率
714:HRD調用模塊

Claims (73)

  1. 一種方法,其包含: 提供自個體之腫瘤獲得之基因體; 視情況,將一個或多個轉接子連接至該基因體上; 自該基因體擴增核酸分子; 自經擴增的基因體捕獲核酸分子,其中經捕獲的核酸分子係藉由與一或多個誘餌分子雜交而被捕獲; 自該等經捕獲的核酸分子衍生一組輸入特徵; 藉由一個或多個處理器,將該組輸入特徵輸入至經訓練的同源重組缺陷 (HRD) 模型中,以使用該經訓練的 HRD 模型來鑑定該腫瘤為 HRD 陽性或 HRD 陰性,其中該模型係藉由以下被訓練: 確定與複數個特徵中之每個特徵相關聯的一個或多個特徵重要性度量, 使用該一個或多個特徵重要性度量來鑑定該複數個特徵中之特徵的子集,以及 藉由該一個或多個處理器,基於經鑑定的特徵的子集來訓練該 HRD 模型;以及 藉由該一個或多個處理器,使用該經訓練的 HRD 模型來分類該腫瘤為 HRD 陽性或 HRD 陰性。
  2. 一種方法,其包含: 藉由一個或多個處理器,接收複數個特徵; 藉由該一個或多個處理器,使用一個或多個特徵重要性度量來鑑定該複數個特徵中之特徵的子集;以及 藉由該一個或多個處理器,基於該複數個特徵之經鑑定的子集訓練同源重組缺陷 (HRD) 模型, 其中該 HRD 模型係經組態以接收與個體中的腫瘤之基因體相關聯的樣品資料且使用該樣品資料來鑑定該個體中的該腫瘤為 HRD 陽性或 HRD 陰性。
  3. 一種方法,其包含: 藉由一個或多個處理器,接收與個體中的腫瘤之基因體相關聯的樣品資料; 藉由該一個或多個處理器,將該樣品資料輸入至經訓練的同源重組缺陷 (HRD) 模型內,其中該 HRD 模型藉由以下被訓練: 確定與複數個特徵中之每個特徵相關聯的一個或多個特徵重要性度量, 使用該一個或多個特徵重要性度量來鑑定該複數個特徵中之特徵的子集,以及 藉由該一個或多個處理器,基於經鑑定的特徵的子集來訓練該 HRD 模型;以及 藉由該一個或多個處理器,使用該經訓練的 HRD 模型來分類該腫瘤為 HRD 陽性或 HRD 陰性。
  4. 如請求項 1 至 3 中任一項之方法,其中該複數個特徵包含一個或多個拷貝數特徵、一個或多個短變異體特徵或其組合。
  5. 如請求項 1 至 4 中任一項之方法,其中該一個或多個特徵重要性度量包含卡方檢定、變異數分析 (ANOVA)、隨機森林或梯度提升中之一者或多者。
  6. 如請求項 1 至 5 中任一項之方法,其中鑑定該複數個特徵中之特徵的該子集包含: 藉由該一個或多個處理器,根據該一個或多個特徵重要性度量來獲得一個或多個特徵排序;以及 藉由該一個或多個處理器,基於一個或多個特徵排序來選擇該複數個特徵之該子集。
  7. 如請求項 1 至 5 中任一項之方法,其中鑑定該複數個特徵之該子集包含: (a) 藉由一個或多個處理器,根據特徵重要性度量來獲得該複數個特徵之特徵排序; (b) 藉由該一個或多個處理器,藉由基於該特徵排序將來自該複數個特徵中之一個或多個特徵添加至現有特徵集來獲得新特徵集; (c) 藉由該一個或多個處理器,使用該新特徵集來訓練新 HRD 模型; (d) 藉由該一個或多個處理器,評估經訓練的新 HRD 模型以獲得評估結果;以及 (e) 藉由該一個或多個處理器,儲存與該新 HRD 模型及該新特徵集相關聯的該評估結果; (f) 藉由該一個或多個處理器,重複步驟 (b) 至 (e) 以獲得複數個評估結果,直到滿足條件;以及 (g) 藉由該一個或多個處理器,基於該複數個評估結果來選擇該複數個特徵之該子集。
  8. 如請求項 1 至 7 中任一項之方法,其中該經訓練的 HRD 模型為分類模型,該方法進一步包含: 接收與新個體中的腫瘤之基因體相關聯的新樣品資料,其中該新樣品資料與該複數個特徵之該子集有關; 將該新樣品資料提供至經訓練的 HRD 分類模型,以產生 HRD 陽性或 HRD 陰性之分類結果;以及 輸出該分類結果。
  9. 如請求項 8 之方法,其中該分類結果包含 HRD 陽性可能性分數及 HRD 陰性可能性分數中之至少一者。
  10. 如請求項 1 至 9 中任一項之方法,其中該 HRD 模型為分類模型、迴歸模型、神經網路或其任意組合。
  11. 如請求項 9 或請求項 10 之方法,其包含在與該新個體相關聯的數位電子檔案中,記錄該 HRD 陽性可能性分數及該 HRD 陰性可能性分數中之至少一者。
  12. 如請求項 9 至 11 中任一項之方法,其包含在與該新個體相關聯的數位電子檔案中記錄該腫瘤基於該 HRD 陽性可能性分數為 HRD 陽性或該腫瘤基於該 HRD 陰性可能性分數為 HRD 陰性之指示。
  13. 如請求項 1 至 12 中任一項之方法,其中該複數個特徵包含片段次要對偶基因頻率 (segment minor allele frequency,segMAF) 特徵、定序讀段 (sequencing reads) 之數量特徵、片段大小特徵、每 x 百萬鹼基 (megabases) 的斷點計數特徵、變化點拷貝數特徵、片段拷貝數特徵、每染色體臂的斷點計數特徵或具有振盪拷貝數的片段之數量特徵中之至少一者。
  14. 如請求項 1 至 13 中任一項之方法,其中該複數個特徵中之至少一者係橫跨該基因體之著絲粒 (centromeric) 部分被評定。
  15. 如請求項 1 至 14 中任一項之方法,其中該複數個特徵中之至少一者係橫跨該基因體之端粒 (telomeric) 部分被評定。
  16. 如請求項 1 至 15 中任一項之方法,其中該複數個特徵中之至少一者係橫跨該基因體之該著絲粒部分及該端粒部分兩者被評定。
  17. 如請求項 1 至 16 中任一項之方法,其中該複數個特徵包含每 x 百萬鹼基的斷點計數特徵,其中該每 x 百萬鹼基的斷點計數特徵係基於出現於橫跨該基因體之 x 百萬鹼基長度之窗口中的斷點之數量。
  18. 如請求項 17 之方法,其中每 x 百萬鹼基的斷點計數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。
  19. 如請求項 17 或請求項 18 之方法,其中 x 係在約 1 與約 100 百萬鹼基之間。
  20. 如請求項 17 至 19 中任一項之方法,其中 x 為約 10 百萬鹼基、約 25 百萬鹼基、約 50 百萬鹼基或約 100 百萬鹼基。
  21. 如請求項 17 至 20 中任一項之方法,其中該每 x 百萬鹼基的斷點計數特徵為分箱 (binned) 特徵。
  22. 如請求項 1 至 21 中任一項之方法,其中該複數個特徵包含變化點拷貝數特徵,其中變化點拷貝數係基於橫跨該個體之該腫瘤之該基因體在相鄰基因體片段之間的拷貝數之絕對差。
  23. 如請求項 22 之方法,其中該變化點拷貝數特徵係衍生自倍數標準化拷貝數資料。
  24. 如請求項 22 或請求項 23 之方法,其中變化點拷貝數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。
  25. 如請求項 22 至 24 中任一項之方法,其中該變化點拷貝數特徵為分箱特徵。
  26. 如請求項 1 至 25 中任一項之方法,其中該複數個特徵包含片段拷貝數特徵,其中片段拷貝數係基於每個基因體片段之拷貝數。
  27. 如請求項 26 之方法,其中該片段拷貝數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。
  28. 如請求項 26 或請求項 27 之方法,其中該片段拷貝數特徵係衍生自倍數標準化拷貝數資料。
  29. 如請求項 26 至 28 中任一項之方法,其中該片段拷貝數特徵為分箱特徵。
  30. 如請求項 1 至 29 中任一項之方法,其中該複數個特徵包含該個體之該腫瘤之該基因體中之每染色體臂的斷點計數特徵。
  31. 如請求項 30 之方法,其中該每染色體臂的斷點計數特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。
  32. 如請求項 30 或請求項 31 之方法,其中該每染色體臂的斷點計數特徵為分箱特徵。
  33. 如請求項 1 至 32 中任一項之方法,其中該複數個特徵包含具有振盪拷貝數的片段之數量特徵。
  34. 如請求項 33 之方法,其中該具有振盪拷貝數的片段之數量特徵係基於橫跨該個體之該腫瘤之該基因體在兩個拷貝數之間的重複交替片段之數量。
  35. 如請求項 33 或請求項 34 之方法,其中具有振盪拷貝數的片段之數量特徵係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。
  36. 如請求項 33 至 35 中任一項之方法,其中該具有振盪拷貝數的片段之數量特徵為分箱特徵。
  37. 如請求項 1 至 36 中任一項之方法,其中該一個或多個拷貝數特徵包含片段次要對偶基因頻率 (segMAF) 特徵,其中 segMAF 係基於處於雜合單核苷酸多型性的次要對偶基因頻率。
  38. 如請求項 37 之方法,其中 segMAF 係橫跨以下被評定:(i) 該基因體之該端粒部分;(ii) 該基因體之該著絲粒部分;或 (iii) 該基因體之該端粒部分及該著絲粒部分兩者。
  39. 如請求項 37 或請求項 38 之方法,其中該片段次要對偶基因頻率特徵為分箱特徵。
  40. 如請求項 1 至 39 中任一項之方法,其中該一個或多個拷貝數特徵包含定序讀段之數量特徵。
  41. 如請求項 40 之方法,其中該定序讀段之數量特徵為分箱特徵。
  42. 如請求項 1 至 41 中任一項之方法,其中該複數個特徵進一步包含該個體之該腫瘤之該基因體之全基因體雜合性喪失之量度 (measure)。
  43. 如請求項 1 至 42 中任一項之方法,其中該複數個特徵包含一個或多個短變異體特徵。
  44. 如請求項 43 之方法,其中該一個或多個短變異體特徵包含微同源性或重複性區域中的缺失特徵及衍生自兩個或更多個短變異體特徵之突變標誌 (mutational signature) 中之至少一者。
  45. 如請求項 44 之方法,其中該微同源性或重複性區域中的缺失特徵為至少 5 個鹼基對之缺失。
  46. 如請求項 1 至 45 中任一項之方法,其中訓練該 HRD 模型包含: 藉由該一個或多個處理器,接收 HRD 陽性訓練資料集,其中該 HRD 陽性訓練資料集包含與 HRD 陽性腫瘤及 HRD 陽性標籤相關聯的複數個特徵; 藉由該一個或多個處理器,接收 HRD 陰性訓練資料集,其中該 HRD 陰性訓練資料集包含與 HRD 陰性腫瘤及 HRD 陰性標籤相關聯的複數個特徵; 藉由該一個或多個處理器,使用該 HRD 陽性訓練資料集及該 HRD 陰性訓練資料集來訓練該 HRD 模型。
  47. 如請求項 1 至 46 中任一項之方法,其進一步包含藉由該一個或多個處理器,使用包含 HRD 陽性對照之 HRD 陽性測試資料集來測試經訓練的模型,該 HRD 陽性對照係衍生自包含處於以下中之功能喪失突變的基因體序列:BRCA1、BRCA2、BRCA1 及 BRCA2 兩者、或 BRCA1 及 BRCA2 之雙對偶基因突變。
  48. 如請求項 1 至 47 中任一項之方法,其進一步包含藉由該一個或多個處理器,使用包含 HRD 陽性對照之 HRD 陽性測試資料集來測試該經訓練的模型,該 HRD 陽性對照係衍生自包含處於以下中之至少一者中之功能喪失突變的基因體序列:ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D 或 RAD45L。
  49. 如請求項 1 至 48 中任一項之方法,其進一步包含藉由該一個或多個處理器,使用包含 HRD 陰性訓練資料集之 HRD 陰性測試資料集來測試該經訓練的模型,該 HRD 陰性訓練資料集包含衍生自共同人類基因體序列的 HRD 陰性對照。
  50. 如請求項 46 至 49 中任一項之方法,其中訓練包含使用 HRD 陽性訓練資料集及 HRD 陰性訓練資料集。
  51. 如請求項 50 之方法,其包含藉由該一個或多個處理器,在訓練該 HRD 模型之前平衡該 HRD 陽性訓練資料集及該 HRD 陰性訓練資料集。
  52. 如請求項 1 至 51 中任一項之方法,其中該個體中的該腫瘤為前列腺癌、卵巢癌、乳癌、非小細胞肺癌 (NSCLC)、大腸直腸癌 (CRC) 或胰臟癌。
  53. 如請求項 1 至 52 中任一項之方法,其中訓練該 HRD 模型包含將該 HRD 模型擬合至與卵巢癌、非小細胞肺癌 (NSCLC)、大腸直腸癌 (CRC)、乳癌、胰臟癌或前列腺癌相關聯的樣品資料,其中該樣品資料包含該複數個特徵之該子集。
  54. 如請求項 1 至 53 中任一項之方法,其中該腫瘤係自樣品獲得,該樣品為固體組織生檢樣品。
  55. 如請求項 54 之方法,其中該固體組織生檢樣品為經福馬林固定石蠟包埋 (FFPE) 樣品。
  56. 如請求項 1 至 53 中任一項之方法,其中該腫瘤係自樣品獲得,該樣品為包含循環腫瘤 DNA (ctDNA) 之液體生檢樣品。
  57. 如請求項 1 至 53 中任一項之方法,其中該腫瘤係自樣品獲得,該樣品為包含無細胞 DNA (cfDNA) 之液體生檢樣品。
  58. 如請求項 1 至 57 中任一項之方法,其進一步包含:確定、識別或施加為 HRD 陽性或 HRD 陰性的該腫瘤之輸出作為與患者相關聯的診斷值。
  59. 如請求項 1 至 58 中任一項之方法,其進一步包含基於為 HRD 陽性或 HRD 陰性的該腫瘤之該輸出來生成該個體之基因體概況。
  60. 如請求項 59 之方法,其進一步包含基於經生成的基因體概況向該個體投予抗癌劑或施加抗癌治療。
  61. 如請求項 1 至 60 中任一項之方法,其中為 HRD 陽性或 HRD 陰性的該腫瘤之該輸出係用於生成該個體之基因體概況。
  62. 如請求項 1 至 61 中任一項之方法,其中為 HRD 陽性或 HRD 陰性的該腫瘤之該輸出係用於為該個體做出經建議的治療決定。
  63. 如請求項 1 至 62 中任一項之方法,其中為 HRD 陽性或 HRD 陰性的該腫瘤之該輸出係用於向該個體施加或投予治療。
  64. 如請求項 1 至 63 中任一項之方法,其中該 HRD 模型為機器學習模型。
  65. 如請求項 1 至 64 中任一項之方法,其中該個體患有癌症、係處於患有癌症之風險、或被懷疑患有癌症。
  66. 一種治療個體中的癌症之方法,其包含: (a) 根據如請求項 1 至 65 中任一項之方法來鑑定該腫瘤為 HRD 陽性或 HRD 陰性; (b) 若該癌症之該腫瘤被評定為 HRD 陽性,則向該個體投予治療有效量之對 HRD 陽性腫瘤有效之藥物。
  67. 如請求項 66 之方法,其中對 HRD 陽性腫瘤有效之該藥物為鉑基藥物或 PARP 抑制劑。
  68. 如請求項 66 之方法,其包含若該腫瘤被評定為 HRD 陰性,則向該個體投予治療有效量之不是鉑基藥物或 PARP 抑制劑的藥物。
  69. 一種為個體中的癌症選擇療法之方法,該方法包含: (a) 根據如請求項 1 至 65 中任一項之方法來評定該癌症之腫瘤為 HRD 陽性或 HRD 陰性; (b) 若該癌症被評定為 HRD 陽性,則選擇對 HRD 陽性腫瘤有效之療法。
  70. 如請求項 69 之方法,其包含若該腫瘤被評定為 HRD 陰性,則選擇不是鉑基藥物或 PARP 抑制劑之療法。
  71. 如請求項 70 之方法,其中對 HRD 陽性腫瘤有效之該療法為鉑基藥物或 PARP 抑制劑。
  72. 一種電腦系統,其包含: 一個或多個處理器; 記憶體;以及 一個或多個程式,其中該一個或多個程式儲存於該記憶體中並經組態以藉由該一個或多個處理器執行,該一個或多個程式包含用於以下之指令:進行如請求項 1 至 65 中任一項之方法。
  73. 一種儲存一個或多個程式之非暫態電腦可讀取儲存媒體,該一個或多個程式包含指令,該等指令當藉由電子裝置之一個或多個處理器執行時,使得該電子裝置進行如請求項 1 至 65 中任一項之方法。
TW111123648A 2021-06-25 2022-06-24 分類同源修復缺陷之系統及方法 TW202317774A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163215281P 2021-06-25 2021-06-25
US63/215,281 2021-06-25

Publications (1)

Publication Number Publication Date
TW202317774A true TW202317774A (zh) 2023-05-01

Family

ID=84545873

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111123648A TW202317774A (zh) 2021-06-25 2022-06-24 分類同源修復缺陷之系統及方法

Country Status (6)

Country Link
US (1) US20230140123A1 (zh)
EP (1) EP4360094A1 (zh)
CN (1) CN117561572A (zh)
AU (1) AU2022299105A1 (zh)
TW (1) TW202317774A (zh)
WO (1) WO2022272310A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024050366A1 (en) * 2022-08-30 2024-03-07 Foundation Medicine, Inc. Systems and methods for classifying and treating homologous repair deficiency cancers
CN116312781B (zh) * 2023-05-17 2023-08-18 普瑞基准科技(北京)有限公司 一种基于机器学习的基因组不稳定性评估方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3693475A1 (en) * 2013-04-05 2020-08-12 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
US11348661B2 (en) * 2018-05-14 2022-05-31 Tempus Labs, Inc. Predicting total nucleic acid yield and dissection boundaries for histology slides
JP7368483B2 (ja) * 2019-02-12 2023-10-24 テンパス ラブズ,インコーポレイテッド 相同組換え欠損を推定するための統合された機械学習フレームワーク
US11164655B2 (en) * 2019-12-10 2021-11-02 Tempus Labs, Inc. Systems and methods for predicting homologous recombination deficiency status of a specimen

Also Published As

Publication number Publication date
WO2022272310A1 (en) 2022-12-29
CN117561572A (zh) 2024-02-13
AU2022299105A1 (en) 2024-01-04
EP4360094A1 (en) 2024-05-01
US20230140123A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
AU2019229273B2 (en) Ultra-sensitive detection of circulating tumor DNA through genome-wide integration
Macintyre et al. Copy number signatures and mutational processes in ovarian carcinoma
Van Dyke et al. The Dohner fluorescence in situ hybridization prognostic classification of chronic lymphocytic leukaemia (CLL): the CLL Research Consortium experience
Ma et al. Predicting cancer drug response by proteomic profiling
WO2020232033A1 (en) Systems and methods for multi-label cancer classification
TW202317774A (zh) 分類同源修復缺陷之系統及方法
Loohuis et al. Inferring tree causal models of cancer progression with probability raising
Gal et al. Predicting complete remission of acute myeloid leukemia: machine learning applied to gene expression
Siah et al. Machine-learning and stochastic tumor growth models for predicting outcomes in patients with advanced non–Small-Cell lung cancer
Xie et al. The unsupervised feature selection algorithms based on standard deviation and cosine similarity for genomic data analysis
JP2021503149A (ja) がん治療の有効性を予測するためのシステムおよび方法
US10665347B2 (en) Methods for predicting prognosis
CN115698323A (zh) 用于区分体细胞基因组序列与种系基因组序列的方法和系统
US20230242992A1 (en) Methods of predicting cancer progression
US20240175087A1 (en) Methods and systems for predicting cancer homologous recombination pathway deficiency, and determining treatment response
Eyal et al. Comparison of three classifiers for breast cancer outcome prediction
Hua et al. Evaluating gene set enrichment analysis via a hybrid data model
Sharma et al. Computational Analysis of Expression and Interaction Data to Reveal Role of DNA Mismatch Repair in MSI, HNPCC and CRC
Lv et al. Exploring effects of DNA methylation and gene expression on pan-cancer drug response by mathematical models
CA3224548A1 (en) Methods for identifying mutations using machine learning
Taheri et al. Uncovering driver genes in breast cancer through an innovative machine learning mutational analysis method
Ye A Novel Computational Network Methodology for Discovery of Biomarkers and Therapeutic Targets
Chen Identifying Patterns of Cancer Disease Mechanisms by Mining Alternative Representations of Genomic Alterations
WO2024050366A1 (en) Systems and methods for classifying and treating homologous repair deficiency cancers
Sartini The Francis Crick Institute MPhil Supervisor: Francesca D. Ciccarelli