TW202223764A - 用於胜肽-mhc呈現預測的多示例學習 - Google Patents

用於胜肽-mhc呈現預測的多示例學習 Download PDF

Info

Publication number
TW202223764A
TW202223764A TW110136857A TW110136857A TW202223764A TW 202223764 A TW202223764 A TW 202223764A TW 110136857 A TW110136857 A TW 110136857A TW 110136857 A TW110136857 A TW 110136857A TW 202223764 A TW202223764 A TW 202223764A
Authority
TW
Taiwan
Prior art keywords
mil
training
classifier
instances
mhc molecules
Prior art date
Application number
TW110136857A
Other languages
English (en)
Other versions
TWI835007B (zh
Inventor
俊 陳
布蘭登 馬隆
Original Assignee
德商Nec實驗室歐洲有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 德商Nec實驗室歐洲有限公司 filed Critical 德商Nec實驗室歐洲有限公司
Publication of TW202223764A publication Critical patent/TW202223764A/zh
Application granted granted Critical
Publication of TWI835007B publication Critical patent/TWI835007B/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

在此所揭露之發明的具體實施例提供了一種用於預測胜肽與MHC分子結合與呈現之電腦實施方法。該方法包括收集或生成訓練資料,其中該訓練資料包括存在於一生物樣品中之一組MHC分子,以及由該生物樣品中所存在之至少一個MHC分子,來呈現的一組觀察到之胜肽序列,其中不知道一胜肽序列會與哪一個特定MHC分子結合,且其中該訓練資料係被組織在資料包中,每個資料包均具有一組訓練實例,其中該等資料包之標籤係為已知,但是該等訓練實例之標籤則為未知;使用一損失函數以在一實例層級中訓練一MIL分類器
Figure 110136857-A0101-11-0001-1
;以及藉著直接應用該MIL分類器
Figure 110136857-A0101-11-0001-2
來預測新實例之標籤,及/或藉著將該MIL分類器

Description

用於胜肽-MHC呈現預測的多示例學習
本發明係與一種用於預測MHC分子和胜肽的結合及呈現之電腦實施方法和系統有關。
此外,本發明係與一種用於執行多示例學習MIL之電腦實施方法有關。
後天免疫系統在對抗外來分子(例如病原體或癌細胞)之免疫反應中扮演著核心角色。後天免疫系統具有兩個主要分支:體液免疫(其係與抗體生成有關)以及細胞媒介免疫(其尤其需要刺激細胞毒性CD8+T細胞)。
第二型主要組織相容性複合體(MHC class II)在體液免疫與細胞媒介免疫中,都扮演著重要角色(請參見Murphy, K. and Weaver, C., 2016. Janeway's immunobiology. Garland science)。第二型MHC的主要作用是與來自外源蛋白質之胜肽序列(其係為短胺基酸序列)結合,並將其呈現在細胞表面。這種胜肽-MHC複合體會刺激CD4+T細胞(或「輔助T細胞」)。然後該輔助T細胞便會刺激體液或細胞媒介免疫反應途徑。
第二型MHC分子主要存在於「專職」抗原呈現細胞中,例如樹突細胞。在第二型MHC分子中,每個人通常會有兩個來自於HLA-DQ與HLA-DP基因家族之對偶基因,然而其等可能會有多達10個來自HLA-DR基因家族之對偶基因(做為參考,可參見Choo, S.Y., 2007. The HLA system: genetics, immunology, clinical testing, and clinical implications. Yonsei medical journal, 48(1), pp.11-23)。重要的是,不同的人會有不同的MHC對偶基因,儘管某些對偶基因比起其他對偶基因更為常見。不同版本之MHC對偶基因係具有不同的胺基酸序列與結構,而這些差異會影響該MHC對偶基因會與哪些胜肽結合,並將其呈現於細胞表面。
將胜肽呈現給T細胞係與一系列程序有關。較重要的步驟包括有MHC分子與胜肽之間的結合,以及將胜肽-MHC複合體呈現至該細胞表面。質譜儀可以被用來檢測從細胞表面洗脫之胜肽,以確認胜肽呈現左用(做為參考,可參見Purcell, A.W., Ramarathinam, S.H. and Ternette, N., 2019. Mass spectrometry-based identification of MHC-bound peptides for immunopeptidomics. Nature protocols, 14(6), p.1687)。此種測定方法已經針對於數百種不同的MHC分子,生成了數千個資料點(作為參考,請參見Vita, R., Mahajan, S., Overton, J.A., Dhanda, S.K., Martini, S., Cantrell, J.R., Wheeler, D.K., Sette, A. and Peters, B., 2019. The immune epitope database (IEDB): 2018 update. Nucleic acids research, 47(D1), pp.D339-D343)。如前所述,每個人都有許多種第二型MHC分子;因此,典型的質譜儀實驗並無法準確辨識呈現特定胜肽之MHC分子。質譜儀的另一個侷限性是其只能指出被檢測到的胜肽;也就是說,其不能生成「陰性」資料點。因此,使用這些實驗資料來訓練機器學習模型以預測胜肽-MHC呈現作用,就成為重大的挑戰。
因此,本發明之目的是要以提高預測效能之方式,來改善並進一步研發最初所描述之類型的方法與系統。
依據本發明,上述之目的係藉由一種用於預測MHC分子與胜肽之結合和呈現的電腦實施方法來達成,該方法包括:收集或生成訓練資料,其中該訓練包括存在於一生物樣本中之一組MHC分子以及一組觀測胜肽序列,該組觀測胜肽序列係由存在於該生物樣本中之該等MHC分子中之至少一者所呈現,其中不知道一胜肽序列會與哪一個特定MHC分子結合,以及其中該訓練資料係被組織在資料包中,每個資料包均具有一組訓練實例,其中該等資料包之標籤係為已知,但是該等訓練實例之標籤則為未知;使用一損失函數以在一實例層級中訓練一MIL分類器
Figure 02_image003
;以及藉著直接應用該MIL分類器
Figure 02_image003
來預測新實例之標籤,及/或藉著將該MIL分類器
Figure 02_image003
應用於各自的資料包之每個實例,並彙整該各自的資料包之所有實例間的結果,來預測新資料包的標籤。
此外,上述之目的係藉由一種用於執行多示例學習MIL之電腦實施方法來實現,該方法包括:收集或生成訓練資料,其中該訓練包括數個資料包,每個資料包均具有一組訓練實例,其中該等資料包之標籤係為已知,但該等訓練實例之標籤則為未知;藉著使用一損失函數以在一實例層級中訓練一MIL分類器,該損失函數於訓練期間會明確說明在模型預測中之模型信賴度,其中來自正面標記之資料包的個別訓練實例,係由一經校正當前模型信賴度函數來進行加權;以及藉著直接應用該MIL分類器來預測新實例之標籤,及/或藉著將該MIL分類器應用於各自的資料包之每個實例,並彙整該各自的資料包之所有實例間的結果,來預測新資料包的標籤。
在進一步的具體實施例中,用於預測MHC分子與胜肽的結合和呈現之系統,包括一或多個處理器,其等係被單獨地或組合地架構,以允許執行依據本發明之具體實施例中的任何方法。
在更進一步的具體實施例中,一種有形的、非暫時性電腦可讀取媒體,係包括有在一或多個獨立式或組合式處理器上執行時,可以允許執行依據本發明之具體實施例中的任何方法。
本發明之具體實施例提供了一種MIL演算法,其係應用於具有多個MHC對偶基因之胜肽-MHC預測中。本發明之具體實施例允許有效地運用具有多個潛在對偶基因標籤之典型胜肽-MHC質譜儀資料。然而,儘管本案之揭露內容著重於預測MHC對偶基因與胜肽之精確結合和呈現(其係為朝向個人化T細胞疫苗設計與免疫療法邁出的重要一步),但是本發明的具體實施例仍然是與MIL演算法在不同領域中之應用有關。
在一具體實施例中,本發明提供了一種用於執行多示例學習的電腦實施方法,該方法包括收集或生成訓練資料的第一步驟,其中僅有該等實例之該等資料包之標籤係為已知。該方法還可以包括在一實例層級中訓練一分類器,其中來自正面標記之資料包的個別訓練實例,係由該損失函數中之一經校正當前模型信賴度函數,以來自該第一步驟之訓練資料來進行加權。以該經訓練MIL分類器為基礎,該方法然後可以包括藉著直接應用該實例層級分類器來預測新實例之標籤,或是藉著將該實例層級分類器應用於每個實例,並彙整在該等資料包內之所有實例間的分數,來預測新資料包的標籤。
在一具體實施例中,該MIL分類器可以藉著使用在訓練期間明確說明在模型預測中之模型信賴度來進行訓練。在相同或其他具體實施例中,該機率係藉著機率校正函數之方式來進行校正,以準確地反映當前模型信賴度。在這種情況下,可以假定在該正面標記資料袋中之訓練實例,已經過由一經校正當前模型信賴度層級所加權。
預測MHC分子與胜肽之間的結合與呈現作用,係為邁向以T細胞為基礎之疫苗設計與免疫療法的重要一步。有鑑於該問題之重要性與資料的可運用性,目前已經開發了許多方法來預測MHC-胜肽結合與胜肽呈現作用。在某些方法中,單一模型係針對每個MHC對偶基因進行專門訓練;而其他方法則改為訓練可以涵蓋所有MHC對偶基因之單一模型(泛用模型)。第一型MHC模型之預測性能已經達到很高的水平(auROC>0.98, 做為參考,可參見Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., and Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of the 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,1, 2227-2237)。另一方面,第二型的模型之性能仍然相當有限。儘管最近取得了某些進展,但目前仍然需要性能更好的模型。第二型MHC模型的一個重要限制因素,在於訓練資料量比起第一型更為有限。因此,能夠有效地運用有限之可利用資料,並從其他來源轉移知識之模型就會非常有價值。
承前所述,預測哪種胜肽可以或不能由哪種MHC分子所呈現,對於發現新抗原與以T細胞為基礎之疫苗設計,以及其他與健康相關問題來說至關重要。此類模型之訓練資料的一項重要來源是質譜儀。由於MHC分子係存在於細胞內,此一技術可以辨識呈現至細胞表面的短胜肽。如圖1的左半部所示,許多質譜資料100係在細胞中具有超過一種MHC分子的情況下產生的,這意味著對於以質譜儀發現之陽性胜肽110來說,可能會有一或多個MHC分子120a、120b是負責呈現該胜肽110的。
本發明之具體實施例提供了一種方法和系統,該方法和系統係以胜肽被特定個體之MHC分子呈現在細胞表面上的可能性為基礎,來對包含在疫苗中之胜肽進行優先順序排序。在一具體實施例中,優先順序係被提出作為預測問題,並且採用多示例學習(MIL)公式來解答。雖然在前述的說明中也將其表述為MIL問題,但是本發明的具體實施例在使用一新穎學習演算法的學習過程中,會明確說明並校正模型信賴度。
在標準監督學習中,為每個輸入值樣本都有提供標籤。然而,在某些情況下,標籤反而是被分配給輸入值集或輸入值包。在此一設定中,如果一輸入值包含至少一個正輸入值,則該輸入值包將被標記為正,否則該輸入值包則被標記為負。
因此,依據本發明之一具體實施例,用於多示例學習MIL的訓練資料可以定義為
Figure 02_image005
並且該相關的資料包標籤係為
Figure 02_image007
。每個資料包可以具有一組實例,也就是
Figure 02_image009
。MIL假設在該資料包中之每個實例都有一個標籤
Figure 02_image011
,但是其等在訓練中仍然為未知。其僅提供了該資料包的標籤
Figure 02_image013
,亦即:
Figure 02_image015
MIL分類器
Figure 02_image003
可以學習預測新資料包
Figure 02_image017
的標籤(資料包層級方法),或預測實例
Figure 02_image019
的標籤(實例層級方法)。本發明之具體實施例係聚焦於訓練預測實例的標籤之分類器,亦即實例層級方法。
預測實例標籤之分類器可以藉著針對該資料包中之所有實例進行預測而應用池化操作
Figure 02_image021
,來預測資料包的標籤:
Figure 02_image023
如圖1右半部與圖2所示,其中
Figure 02_image025
代表胜肽序列,
Figure 02_image027
則是一組與一生物樣品有關之
Figure 02_image029
MHC分子,而
Figure 02_image013
則是二元標籤,其代表
Figure 02_image025
是否被發現會由
Figure 02_image031
中之任何MHC分子所呈現。
從該問題的定義來看,
Figure 02_image033
需要是一個置換不變函數,這意味著該函數的輸入值順序對於結果不會造成影響。該分類器
Figure 02_image003
可以使用具有以下形式之損失函數來進行訓練:
Figure 02_image035
其中
Figure 02_image037
係為資料包之數量,
Figure 02_image039
係為每個資料包中之實例數。這裡需要說明的是,在一般情況下,所有的資料包並不需要都具有相同的實例數。
依據一些具體實施例,本發明提供包括以上述胜肽-MHC呈現課題為基礎之多示例學習法(MIL)之方法和系統。該方法可以離線訓練階段和線上預測階段,這兩個階段來執行。在離線訓練階段,將會訓練一個預測模型,該模型會明確說明並校正模型信賴度,這一點係先前技藝相反。該經過訓練的模型然後會用於線上預測階段中。
依據一些具體實施例,本發明提供了用於預測MHC分子與胜肽的結合與呈現之方法和系統,該方法和系統係被架構以接收一組觀察到之胜肽,以作為離線訓練階段的輸入值,該組觀察到之胜肽係由存在於一生物樣品中之至少一個MHC分子所呈現,並且該組MHC分子係存在於該樣品中。然而,承上所述,不知道該胜肽係與哪一個特定MHC分子結合。而這正是質譜儀實驗所產生之資料類型。
在一具體實施例中,可以使用一標準方法來生成用於訓練的陰性實例。然而,應當注意的是,依據本發明所提出之方法的適用性,並非取決於如何生成陰性實例。
更具體地說,該輸入值可以一組三元
Figure 02_image041
的形式來提供,其中
Figure 02_image025
係為一胜肽序列,
Figure 02_image027
係為與一生物樣本有關之一組m MHC分子,
Figure 02_image013
係為指示
Figure 02_image025
是否藉由
Figure 02_image031
中之任何任一MHC分子所呈現的二進位標籤。
離線訓練階段之目標是要訓練機器學習模型
Figure 02_image003
,該模型將
Figure 02_image043
作為輸入值並正確地預測
Figure 02_image013
Figure 02_image003
的一個範例係為以Transformers(BERT)模型作為代表之預訓練雙向編碼器。然而,如習於此藝者所理解的,其他的模型種類同樣也是可行的。唯一的限制是該模型必須提供與每個實例之預測有關的機率
Figure 02_image045
依據本發明之一具體實施例,每個胜肽係與一包對偶基因有關。如果該對偶基因至少有一個會呈現該胜肽,則該對偶基因包會被標記為陽性,否則該對偶基因包則會被標記為陰性。該訓練資料可以被建模為多示例學習(MIL)問題。在此,具有m個對偶基因之第i個對偶基因包,係被標示為
Figure 02_image047
,並且相對應之胜肽序列則被表示為
Figure 02_image025
。在每個訓練步驟中,該對偶基因包中每個實例
Figure 02_image049
的機率
Figure 02_image051
,可以神經網絡模型
Figure 02_image003
預測為
Figure 02_image053
。對稱池化運算元可被用於從對偶基因包內之實例的預測中,池化該對偶基因包的預測。為了結合反褶積操作的不確定性,在每個訓練回合中,可以藉由一係為陽性之經校正預測機率
Figure 02_image055
,對反褶積操作中的每個正資料點
Figure 02_image057
進行加權。
依據本發明的一具體實施例,然後可以依據以下損失函數來學習該模型的該等參數:
Figure 02_image059
其中
Figure 02_image061
Figure 02_image063
係為該模型前一次訓練回合的預測機率
Figure 02_image065
Figure 02_image067
係為機率校正函數(圖3),
Figure 02_image069
係為陽性類別之加權以計算類別不平衡度,並且
Figure 02_image071
係對應於元組
Figure 02_image073
,其中
Figure 02_image025
係為胜肽並且
Figure 02_image075
是第
Figure 02_image077
個MHC分子。依據圖3所例示之具體實施例,機率校正函數
Figure 02_image067
可以被架構以接收該模型之當前訓練回合 k的數值
Figure 02_image065
以作為輸入值,並且可以計算經校正機率
Figure 02_image063
以用於該模型之隨後的訓練回合 k+1。關於實例加權,應當注意的是,依據本發明之具體實施例,僅有具備陽性標記的資料包中的實例,會以經校正模型信賴度進行加權,而陰性樣本則不進行加權(因為陰性類型標籤並不存在不確定性)。在這種情況下,如果陰性資料包很大且計算能力有限時,可以規定使用所有陰性樣本,或是進行陰性採樣。
所給定之公式會包含所有陰性資料包中之所有陰性實例。然而,在具有許多陰性資料包的情況下,其在計算上將會遭遇挑戰。因此,如圖4所示,依據另一種具體實施例,其可以採用陰性採樣來逼近陰性樣本。藉此,上述損失函數可被修改為:
Figure 02_image079
基於計算上的緣由,可以採用機率分佈
Figure 02_image081
來進行陰性採樣,而不是使用所有陰性樣本。依據一具體實施例,針對於MHC-胜肽呈現問題,可以選擇使用以下
Figure 02_image083
之δ分佈:
Figure 02_image085
也就是說,該方法使用當前模型從陰性資料包中所預測之最可能陽性實例。
考慮到以上事項,依據本發明之具體實施例的多示例學習(MIL)演算法,在應用於具有多個MHC對偶基因之胜肽-MHC預測中,可以被表達如下:
Figure 02_image087
重要的是要注意,相較於現有技術,依據本發明之損失函數
Figure 02_image089
明確說明了在訓練期間,於模型預測中之模型信賴度。依據本發明之具體實施例,這是藉由計算
Figure 02_image063
值(
Figure 02_image091
的預測機率)而達成。具體來說,在現有方法中,損失可被歸因於錯誤實例
Figure 02_image093
,因此
Figure 02_image003
可以藉著預測錯誤的實例
Figure 02_image093
而最佳化,以預測資料包的「正確」標籤。
此外,本發明之具體實施例還藉由包括用於校正預測機率之函數
Figure 02_image067
,來擴展現有技術。機率
Figure 02_image063
可以藉著由所預測之對數勝算(即勝算(
Figure 02_image063
/(1-
Figure 02_image063
)的對數)以及訓練組上的標籤,而執行保序迴歸(isotonic regression)來進行校正。例如,可以依據在Barlow, R.E., 1972. Statistical inference under order restrictions; the theory and application of isotonic regression(No. 04; QA278. 7, B3.)中所描述之方法,來執行保序迴歸,其之全部內容係在此以參照方式併入本文。然而,如習於此藝者所能理解的,其也可以採用諸如普拉特縮放(Platt’s scaling)的其他方法。依據本發明所提出之方法的適用性,並非取決於校正函數的確切形式。
該模型的參數
Figure 02_image095
然後可以使用適當的優化技術來進行學習,以使得該損失函數最小化。舉例來說,如果
Figure 02_image003
係為可微分的(例如使用BERT模型),那麼就可以採用梯度下降法或類似演算法。依據另一具體實施例,如果
Figure 02_image003
係為不可微分的,則可以使用貝葉斯優化或是其他黑箱法。在依據本發明所提出之方法的適用性,並非取決於
Figure 02_image003
是否可被微分。
在如上述離線訓練階段結束後,便可以進行線上預測階段。具體來說,在進行訓練之後,該模型
Figure 02_image003
會將
Figure 02_image097
作為輸入值並預測標籤
Figure 02_image013
。也就是說,該模型會將一胜肽序列與一組MHC分子作為輸入值,並預測該胜肽是否會被這些MHC分子中的任何一者所呈現。依據具體實施例,可以假定該MIL分類器
Figure 02_image003
係被用來對生物樣品中,所存在之胜肽序列和MHC分子的所有組合進行預測。據此,具有最高之可能性會被呈現的胜肽,便可以被確認作為進行合成之候選物,並被包括於個人化癌症疫苗中。
實際上,藉由一MHC分子來呈現胜肽,只是在最終產生有效癌症疫苗之眾多步驟中的一個(非常重要的)步驟。其中許多步驟之預測模型,顯然不涉及多示例學習問題。因此,依據本發明具體實施例所提出之方法,可能僅適用於疫苗設計過程的一部分。此外,應該要指出的是,所提出的方法需要能輸出一些機率概念之模型。雖然這在分類問題中很常見,但是在回歸問題中卻很少見。因此,該方法對於多示例回歸學習問題之用途可能較為有限。更進一步來說,應該注意的是,大多數機率校正函數都需要取得所有未經校正的機率。因此,僅會在對少數訓練樣本進行預測之後更新模型之小批次優化方法,可能與本發明方法之某些具體實施例不相容。相反地,本發明的具體實施例在每個回合開始時,訓練校正模型。
胜肽-MHC呈現多示例學習之最新技術,是Reynisson, B., Alvarez, B., Paul, S., Peters, B. and Nielsen, M., 2020. NetMHCpan-4.1與NetMHCIIpan-4.0: improved predictions of MHC antigen presentation by concurrent motif deconvolution and integration of MS MHC eluted ligand data. Nucleic Acids Research所發表的成果,其等之全部內容係在此被以參照方式併入本文。然而,他們的方法並不包括信賴度加權或校正操作。依據過往經驗,可以證明在各種資料集上,依據本發明的方法係優於Reynisson等人的方法。 [第二型MHC結合資料]
依據本發明之具體實施例,為了訓練第二型MHC結合模型,採用了來自2018年Jensen等人的資料(參見Jensen, K. K., Andreatta, M., Marcatili, P., Buus, S., Greenbaum, J. A., Yan, Z., Sette, A., Peters, B., and Nielsen, M. (2018). Improved methods for predicting peptide binding affinity to MHC class II molecules. Immunology, 154(3), 394-406,其之全部內容係在此以參照方式併入本文),因為其係被設計以使得訓練集與評估集之間的重疊最小化。原始資料係自免疫表位資料庫收集(IEDB, Vita, R., Mahajan, S., Overton, J. A., Dhanda, S. K., Martini, S., Cantrell, J. R., Wheeler, D. K., Sette, A., and Peters, B. (2019). The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Research, 47(D1), D339-D343,於2020年6月30日存取資料)直到2016年。該資料係由134 281個資料點所構成,並涵蓋HLA-DR、HLA-DQ、HLA-DP與H-2小鼠MHC對偶基因。該親和性標籤係從IC50轉換為0和1之間的值,公式為1-log(IC50)/log(50000)。
Jensen等人的資料係從IEDB收集到2016年。為了在沒有使用模型進行訓練或驗證之獨立資料集上進行基準測試,從IEDB收集定量結合資料,並將Jensen 等人已經使用之資料過濾掉。此外,收集來自Dana-Farber典藏庫之其他獨立結合資料(參見G. L., Lin, H. H., Keskin, D. B., Reinherz, E. L., and Brusic, V. (2011). Dana-farber repository for machine learning in immunology. Journal of immunological methods, 374(1-2), 18-25,其之全部內容係在此以參照方式併入本文)。最後,收集到2 413個額外的MHC-胜肽對,其涵蓋47個第二型MHC對偶基因。 [第二型MHC呈現資料]
為了訓練第二型MHC質譜儀呈現模型,採用了由Reynisson, B., Alvarez, B., Paul, S., Peters, B., and Nielsen, M. (2020). NetMHCpan-4.1 and NetMHCIIpan-4.0: improved predictions of MHC antigen presentation by concurrent motif deconvolution and integration of MS MHC eluted ligand data. Nucleic Acids Research, pages 1-6(其等之全部內容係在此以參照方式併入本文)所庋用的資料。該原始資料係自IEDB與其他公共資源所庋用。該資料涵蓋41個第二型MHC對偶基因,胜肽長度範圍為13到21。每個資料點均係由胜肽配體、來源蛋白、以及可能會與該胜肽結合之第二型MHC對偶基因列表所組成。僅明確給出一個MHC對偶基因之資料點係被稱為單一對偶基因資料(SA),而由於質譜儀實驗的特性而給出多個潛在對偶基因的資料點,則稱為多對偶基因資料(MA)。Reynisson等人藉著自該UniProt資料庫中,隨機抽樣以選擇陰性胜肽。該陰性胜肽的長度係均勻從13到21進行採樣。
依據本發明的具體實施例,該MIL問題是用實例層級方法來解決。相較於資料包層級方法,此種方法在預測單一個實例而不是整個資料包時,可以最大限度地提高了模型的準確性。實例層級方法的效能有賴於正確檢測關鍵實例(陽性資料包中之陽性實例)。因此,一個好的實例層級模型不僅可以應用於MIL問題,也可以應用於單一實例學習問題上。事實上,在胜肽-MHC呈現問題中,本發明之具體實施例係使用相同模型而聯合訓練單一實例資料與多示例資料,以使得現有資料的利用最大化。先前的工作顯示,可以檢測關鍵實例之模型也具有更好的資料包層級可類推性。然而,資料包層級方法在資料包層級中可能會具有良好的效能,但不能保證可以很好地推展到單一實例的情況。對於生物學應用來說,該模型能夠正確檢測關鍵實例至關重要。
在下文中,將描述來自可以使利用本發明之某些領域的一些另外的範例具體實施例。
個人化癌症疫苗設計。此一具體實施例係與個人化癌症疫苗設計系統500有關,其係概要地圖示於圖5中,其中該模型如上所述地進行訓練。為了進行預測,將MHC分子集(在圖5中概要標示為HLA(人類白血球組織抗原)分型530)作為取自特定患者510之生物樣品520的MHC分子,並且胜肽集540係以存在於該患者510的癌化細胞中的突變作為基礎。如550所示,藉著使用經訓練MIL分類器
Figure 02_image003
,如所述的對患者的所有的胜肽和MHC對組合進行預測,具有最高的被呈現可能性之該等胜肽(也就是如在圖5中所指出具有最高得分者),然後被合成並包括在針對該特定患者510的個人化癌症疫苗中。
免疫反應預測。ELISpot係為一種被廣泛運用之免疫反應測定法,其可以測量特定一胜肽在與一生物樣本(例如感染冠狀病毒之患者的血液)結合時,是否會導致免疫反應。舉例來說,干擾素γ通常會使用ELISpot來進行測量。由ELISpot所測量的免疫反應,係為胜肽與該樣本中所存在的至少一種MHC分子之間相互作用的結果。依據一具體實施例,在此所揭露之MIL方法還可被用於訓練模型,以預測該免疫反應。相較於上述公式,唯一的差別在於該資料包標籤係為該免疫反應分析的結果。此種模型也可運用在個人化癌症疫苗設計系統。
以組織病理學為基礎之癌症診斷。組織病理學染色係由生物樣本之組織切片,然後使用例如蘇木精和曙紅等化學物質對其進行染色而產生的。然後可以使用染色影像來識別例如細胞核與細胞外支持結構(如膠原蛋白)等特徵。這些染色影像還可用於訓練機器學習模型,以預測特定組織切片是否資料包含癌症,也就是癌症診斷。然而,染色影像通常過大,現有硬體無法一次進行處理,因此其等會被分割成「小區塊」以進行學習。典型地,並不是來自單一染色影像之所有小區塊,都會包含有癌變區域,即使該影像中的其他小區塊會有。
這也可以被當成是一種多示例學習問題,其中單一個染色影像係對應於每個資料包,而小區塊則是資料包內的單一個實例。袋子上的標籤代表該染色影像中是否存在癌症。依據本發明的具體實施例,這種預測模型可用於癌症診斷系統中。
檔案分類。檔案分類任務係將檔案當作輸入值,並將檔案分類為預定的類別。依據具體實施例,可以藉著將段落或句子視為實例,並將檔案視為資料包而來應用MIL。示例標籤可以是檔案的主題,例如「政治」、「體育」或「科學」。這裡要注意的是,此一範例證明了依據本發明之具體實施例所提出的方法,可被用於藉著明顯改變該損失函數,來對具有兩個以上類別之任務進行分類。此外,此一範例說明該方法可以很輕易地推衍至多標籤分類課題。舉例來說,一個檔案可以同時與「政治」和「體育」有關。在這種情況下,本發明之具體實施例可以簡單地將每個標籤視為二元分類系統,並且可以為每個標籤複製損失函數。
在進一步的具體實施例中,用於預測MHC分子與胜肽的結合和呈現之系統,或是用於執行多示例學習之系統包括一或多個處理器,其等係被單獨地或組合地架構,以允許執行任何依據本發明之具體實施例的方法。在更進一步的具體實施例中,一種有形的、非暫時性電腦可讀取媒體,係包括有在一或多個獨立式或組合式處理器上執行時,可以允許執行依據本發明之具體實施例中的任何方法。該處理器可以包括一或多個不同的處理器,每個處理器都具有一或多個核心,並且可以存取訪記憶體。每個不同的處理器可以具有相同或不同的結構。該等處理器可以包括一或多個中央處理單元(CPU)、一或多個圖形處理單元(GPU)、電路(例如,特殊應用積體電路(ASIC))、數位訊號處理器(DSP),以及類似元件。該等處理器可以被安裝至一個共同基板或是數個不同基板上。該處理器係被架構以在該等一或多個不同處理器中之一者,能夠執行一功能、方法或操作所具體化之運作時,執行某些功能、方法或操作(也就是,係被架構以提供該等功能、方法或操作之執行)。該等處理器可以藉著例如執行儲存在記憶體上之的程式碼(例如,解讀腳本),及/或藉著一或多個ASIC轉移資料,來執行具體化該等功能、方法或操作之運作。該等處理器可以被架構以自動地執行在此所揭露之任何及所有功能、方法和操作。因此,該等處理器可以被架構以實施在此所描述之任何(例如,所有)協議、裝置、機制、系統與方法。舉例來說,在本揭露內容聲明一方法或設備執行任務「X」(或該任務「X」係被執行)時,此種聲明應當被理解為其揭露了該處理器係被架構以執行任務「X」。被配置為至少在個能夠資料包含以下內容的操作時執行特定函數、方法或操作。
每個電腦實體都可以包括記憶體。記憶體可以包括揮發性記憶體、非揮發性記憶體以及能夠儲存資料的任何其他媒介。每個揮發性記憶體、非揮發性記憶體以及任何其他類型的記憶體,可以包括位在數個不同的位置之數個不同的記憶裝置,並且其等每個均具有不同的結構。記憶體可以包括遠程託管(例如,雲端)儲存器。記憶體的範例包括非暫時性電腦可讀取媒介,例如RAM、ROM、快閃記憶體、EEPROM、任何類型的光學儲存碟(例如DVD、磁性儲存器、全息儲存器、HDD、SSD、任何可以用於以指令或資料結構等形式來儲存程式碼之媒介,以及類似物。在本申請案中所描述之任何和所有方法、功能和操作,都可以用儲存在記憶體中之有形及/或非暫時性機器可讀取編碼(例如,可解讀腳本)的形式,而完整地具體化。
在此所闡述之本發明的許多修改與其他具體實施例,係為本發明所屬領域之習於此藝者,在得到前述說明與相關圖式之教示內容的協助下所能思及。因此,應當可以理解的是,本發明並未侷限於所揭露之特定具體實施例,並且該等修改與其他具體實施例,應該包括在隨附之申請專利範圍內。儘管在此採用了特定術語,但是其等僅只是基於一般與描述意義,而不是用於構成侷限之目的。
100:質譜資料 110:陽性胜肽 120a:MHC分子 120b:MHC分子 500:個人化癌症疫苗設計系統 510:患者 520:生物樣品 530:人類白血球組織抗原分型 540:胜肽集 550:經訓練MIL分類器
Figure 02_image003
有數種方式可以有利之方式來設計並進一步研發本發明之教示內容。為了此一目的,一方面可以參考附屬請求項,另一方面則可以參考藉著舉例之方式,以隨附圖式例示說明本發明之較佳具體實施例的以下說明內容。一般較佳具體實施例以及該教示內容之進一步發展,將在結合隨附圖式的協助下解釋本發明的較佳具體實施例。在該等圖式中: 圖1係例示依據本發明之具體實施例的以實驗所獲得之資料為基礎的預測方案之概要示意圖, 圖2係例示依據本發明之具體實施例的藉著使用預測實例標籤之一分類器,並藉著應用池化操作來預測資料包標籤的概要示意圖, 圖3係例示依據本發明之具體實施例的用於校正模型信賴度之機率校正函數的概要示意圖, 圖4係例示依據本發明之具體實施例的經過修飾之損失函數,其係以陰性採樣來逼近陰性樣本的概要示意圖, 圖5係例示依據本發明之具體實施例的個人化癌症疫苗設計之概要示意圖。

Claims (15)

  1. 一種用於預測胜肽與MHC分子結合與呈現之電腦實施方法,該方法包括: 收集或生成訓練資料,其中該訓練資料包括存在於一生物樣本中之一組MHC分子以及一組觀測胜肽序列,該組觀測胜肽序列由存在於該生物樣本中之該等MHC分子中之至少一者所呈現,其中不知道一胜肽序列會與哪一個特定MHC分子結合,以及其中該訓練資料係被組織在資料包中,每個資料包均具有一組訓練實例,其中該等資料包之標籤係為已知,但是該等訓練實例之標籤則為未知; 使用一損失函數以在一實例層級中訓練一MIL分類器
    Figure 03_image003
    ;以及 藉著直接應用該MIL分類器
    Figure 03_image003
    來預測新實例之標籤,及/或藉著將該MIL分類器
    Figure 03_image003
    應用於各自的資料包之每個實例,並彙整該各自的資料包之所有實例間的結果,來預測新資料包的標籤。
  2. 如請求項1的方法,其中該MIL分類器
    Figure 03_image003
    ,係藉著使用具有以下形式之損失函數 L來進行訓練:
    Figure 03_image099
    其中
    Figure 03_image101
    係為資料包
    Figure 03_image103
    的實例,
    Figure 03_image013
    是相關的資料包標籤,
    Figure 03_image105
    係為一具有排列不變性之池化函數,
    Figure 03_image037
    係為資料包的數量,
    Figure 03_image039
    係為每個資料包中之實例數量。
  3. 如請求項1或2的方法,其中該MIL分類器
    Figure 03_image003
    係藉著使用損失函數來進行訓練,該損失函數在於訓練期間會明確說明在模型預測中之模型信賴度。
  4. 如請求項3的方法,其中來自正面標記之資料包的個別訓練實例,係由一經校正當前模型信賴度函數來進行加權。
  5. 如請求項1至4中之任一項的方法,其中該訓練資料係以一組三元
    Figure 03_image041
    的形式來提供,其中
    Figure 03_image025
    係為一胜肽序列,
    Figure 03_image027
    係為與一生物樣本有關之一組
    Figure 03_image029
    MHC分子,
    Figure 03_image013
    係為指示
    Figure 03_image025
    是否有被發現藉由
    Figure 03_image031
    中之任一MHC分子所呈現的二進位標籤。
  6. 如請求項1至5中之任一項的方法,其進一步包括從質譜儀實驗中獲得該訓練資料。
  7. 如請求項1至6任一項所述的方法,其進一步包括: 藉由一損失函數
    Figure 03_image107
    來訓練該MIL分類器
    Figure 03_image003
    的參數,該損失函數
    Figure 03_image089
    包括一機率校正函數
    Figure 03_image067
    ,該函數係被架構以預測在每個訓練回合
    Figure 03_image109
    中,前一個訓練回合
    Figure 03_image111
    Figure 03_image065
    的機率
    Figure 03_image063
    其中
    Figure 03_image113
    Figure 03_image115
    係對應於元組
    Figure 03_image073
    ,其中
    Figure 03_image025
    係為該胜肽並且
    Figure 03_image075
    係為在
    Figure 03_image031
    中之
    Figure 03_image077
    MHC分子
  8. 如請求項1至7任一項所述的方法,其進一步包括: 在進行訓練之後的預測階段中,對該MIL分類器
    Figure 03_image003
    提供一胜肽序列
    Figure 03_image025
    以及一組MHC分子作
    Figure 03_image075
    作為輸入值,以及 藉著將該MIL分類器
    Figure 03_image003
    應用至該輸入值,來預測該胜肽序列
    Figure 03_image025
    是否會被該等MHC分子中之任一者所呈現。
  9. 如請求項1至8中之任一項的方法,其進一步包括: 使用該MIL分類器
    Figure 03_image003
    來對該生物樣本中所存在之胜肽序列與MHC分子的所有組合進行預測;以及 判定最有可能被呈現的胜肽作為合成候選物,並將其包括在一個人化癌症疫苗中。
  10. 一種有形的非暫時性電腦可讀取媒體,其包括多個指令,在於一個以上的處理器上執行時,該等指令單獨或組合地使該一個以上的處理器允許執行如請求項1至9中之任一項的方法。
  11. 一種用於預測MHC分子與胜肽結合並呈現之系統,該系統包括一個以上的處理器,該一個以上的處理器係被單獨或組合地構造成允許執行包括以下步驟之方法: 收集或生成訓練資料,其中該訓練資料包括存在於一生物樣本之中一組MHC分子以及一組觀測胜肽序列,該組觀測胜肽序列由存在於該生物樣本中之該等MHC分子中之至少一者所呈現,其中不知道一胜肽序列會與哪一個特定MHC分子結合; 將該訓練資料組織在數個資料包中,每個資料包均具有一組訓練實例,其中該等資料包之標籤係為已知,但是該等訓練實例之標籤則為未知; 使用一損失函數以在一實例層級中訓練一MIL分類器
    Figure 03_image003
    ;以及 藉著直接應用該MIL分類器
    Figure 03_image003
    來預測新實例之標籤,及/或藉著將該MIL分類器
    Figure 03_image003
    應用於各自的資料包之每個實例,並彙整該各自的資料包之所有實例間的結果,來預測新資料包的標籤。
  12. 一種用於進行多示例學習(MIL)的電腦實施方法,該方法包括: 收集或生成訓練資料,其中該訓練資料包括數個資料包,每個資料包均具有一組訓練實例,其中該等資料包之標籤係為已知,但該等訓練實例之標籤則為未知; 藉著使用一損失函數以在一實例層級中訓練一MIL分類器,該損失函數於訓練期間會明確說明在模型預測中之模型信賴度,其中來自正面標記之資料包的個別訓練實例,係由一經校正當前模型信賴度函數來進行加權;以及 藉著直接應用該MIL分類器來預測新實例之標籤,及/或藉著將該MIL分類器應用於各自的資料包之每個實例,並彙整該各自的資料包之所有實例間的結果,來預測新資料包的標籤。
  13. 如請求項12的方法,其中該訓練資料包括存在於一生物樣本中之一組MHC分子以及一組觀測胜肽序列,該組觀測胜肽序列由存在於該生物樣本中之該等MHC分子中之至少一者所呈現,其中不知道一胜肽序列會與哪一個特定MHC分子結合;以及 其中該MIL分類器係被訓練以預測一特定胜肽序列是否將會被存在於該生物樣本的MHC分子中之任何一者所呈現。
  14. 如請求項12所述的方法,其中該訓練資料係由免疫反應檢測所產生,該免疫反應檢測會測量一特定胜肽在與一生物樣本結合時,是否導致免疫反應;以及 其中該MIL分類器係被訓練以預測該免疫反應。
  15. 如請求項12的方法,其中該訓練資料包括藉著從一生物樣本中取得組織切片,而獲得之組織學樣本的一組染色影像,其中該等染色影像係被分割成小區塊,以及 其中,該MIL分類器係被訓練以預測一染色影像之一特定小區塊是否包含一癌變區域;或者 其中該訓練資料包括一組文本文件,其中該等文件之每一者被視為代表該訓練資料的資料包,並且該檔案之段落及/或句子係被視為代表各自的資料包之該等訓練實例,以及 其中該MIL分類器係被訓練以預測該文件之主題。
TW110136857A 2020-10-13 2021-10-04 用於預測胜肽與mhc分子結合與呈現之電腦實施方法及系統、用於進行多示例學習的電腦實施方法以及有形的非暫時性電腦可讀取媒體 TWI835007B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP20201557 2020-10-13
EP20201557.4 2020-10-13
PCT/EP2021/056387 WO2022078633A1 (en) 2020-10-13 2021-03-12 Multiple instance learning for peptide–mhc presentation prediction
WOPCT/EP2021/056387 2021-03-12

Publications (2)

Publication Number Publication Date
TW202223764A true TW202223764A (zh) 2022-06-16
TWI835007B TWI835007B (zh) 2024-03-11

Family

ID=75277968

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110136857A TWI835007B (zh) 2020-10-13 2021-10-04 用於預測胜肽與mhc分子結合與呈現之電腦實施方法及系統、用於進行多示例學習的電腦實施方法以及有形的非暫時性電腦可讀取媒體

Country Status (5)

Country Link
US (1) US20230402126A1 (zh)
EP (1) EP4189684A1 (zh)
JP (1) JP2023546574A (zh)
TW (1) TWI835007B (zh)
WO (1) WO2022078633A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588462A (zh) * 2022-09-15 2023-01-10 哈尔滨工业大学 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278441A1 (en) * 2014-03-25 2015-10-01 Nec Laboratories America, Inc. High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
SG11201810332TA (en) * 2016-05-27 2018-12-28 Etubics Corp Neoepitope vaccine compositions and methods of use thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588462A (zh) * 2022-09-15 2023-01-10 哈尔滨工业大学 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

Also Published As

Publication number Publication date
WO2022078633A1 (en) 2022-04-21
US20230402126A1 (en) 2023-12-14
TWI835007B (zh) 2024-03-11
JP2023546574A (ja) 2023-11-06
EP4189684A1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
JP7459159B2 (ja) Mhcペプチド結合予測のためのgan-cnn
Widrich et al. Modern hopfield networks and attention for immune repertoire classification
CN113762417B (zh) 基于深度迁移的对hla抗原呈递预测系统的增强方法
KR102184720B1 (ko) 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치
Hu et al. DeepMHC: deep convolutional neural networks for high-performance peptide-MHC binding affinity prediction
den Braanker et al. How to prepare spectral flow cytometry datasets for high dimensional data analysis: a practical workflow
TWI835007B (zh) 用於預測胜肽與mhc分子結合與呈現之電腦實施方法及系統、用於進行多示例學習的電腦實施方法以及有形的非暫時性電腦可讀取媒體
Ronel et al. The clonal structure and dynamics of the human T cell response to an organic chemical hapten
Sidhom et al. AI-MHC: an allele-integrated deep learning framework for improving Class I & Class II HLA-binding predictions
US20210303845A1 (en) Fungal identification by pattern recognition
Yadav et al. TCR-ESM: employing protein language embeddings to predict TCR-peptide-MHC binding
US20230143701A1 (en) Systems and methods for predicting expression levels
Xie et al. MHCherryPan. a novel model to predict the binding affinity of pan-specific class I HLA-peptide
Xie et al. MHCherryPan: a novel pan-specific model for binding affinity prediction of class I HLA-peptide
KR102517004B1 (ko) 면역펩티돔을 분석하기 위한 방법 및 장치
KR102547976B1 (ko) Mhc와 펩타이드 간의 결합을 분석하기 위한 방법 및 장치
CN116994654B (zh) 一种用于鉴定与mhc-i/hla-i类结合及tcr识别肽段的方法、设备及存储介质
KR102517006B1 (ko) 펩타이드 시퀀스들을 클러스터링하기 위한 방법 및 장치
Albert et al. Deep Neural Networks Predict MHC-I Epitope Presentation and Transfer Learn Neoepitope Immunogenicity
Zhao et al. Pathogenic virus detection method based on multi-model fusion
KR102482302B1 (ko) 인공지능 기술을 사용하여 클러스터 데이터에 대응되는 주조직 적합성 복합체를 결정하기 위한 방법 및 장치
Hafezqorani et al. ntEmbd: Deep learning embedding for nucleotide sequences
Khanna et al. Prediction Analysis of Mycobacterium Tuberculosis by using Deep Learning Model
KR20230155995A (ko) 인공지능 기술을 사용하여 클러스터 데이터에 대응되는 주조직 적합성 복합체를 결정하기 위한 방법 및 장치
KR20230149222A (ko) 인공지능 기술을 이용하여 mhc와 펩타이드 간의 관계를 분석하기 위한 방법 및 장치