TWI672503B

TWI672503B - 致免疫性之癌症特異抗原決定位的排名系統

Info

Publication number: TWI672503B
Application number: TW107111453A
Authority: TW
Inventors: 楊沛佳; 鄭人豪; 映嘉陳; 淑貞陳; 陳華鍵
Original assignee: 行動基因生技股份有限公司
Priority date: 2017-03-31
Filing date: 2018-03-31
Publication date: 2019-09-21
Also published as: JP2020518083A; CN110799196B; CN110799196A; WO2018183980A3; JP7155470B2; WO2018183980A2; US20210284738A1; US11485784B2; SG11201907738UA; EP3600340A4; EP3600340A2; TW201903411A

Abstract

本揭露與能判斷、預測及排名致免疫性T細胞抗原決定位之系統與方法有關，尤其是判斷由疾病相關突變所產生之抗原決定位，且其中所述之抗原決定位被預測為能引起T細胞免疫反應。具體來說，本揭露同時考慮了胜肽鏈級資訊(包含胜肽鏈在主要組織相容性複合體類型一及類型二的呈現和輔助性與胞殺性T細胞的免疫反應上的影響)以及樣本級資訊(包含突變群落性和主要組織相容性複合體等位基因表現量)。在一些實施例中，所述系統與方法被使用在癌症個人化醫療上。

Description

致免疫性之癌症特異抗原決定位的排名系統

本發明係關於致免疫性之抗原決定位，尤其是一種判斷、預測致免疫性癌症特異抗原決定位並將其排名的系統與方法。

以腫瘤特異抗原(tumor-specific antigen)引起免疫反應對抗腫瘤細胞為抵抗癌症帶來契機。這些抗原被認定為腫瘤基因體學及免疫療法的臨床效用之間的連結。大致上，帶有致癌突變的基因會產生帶有突變的胜肽鏈。這些胜肽鏈接下來會和主要組織相容性複合體(MHC)類型一和二結合，並且呈現到腫瘤細胞表面而作為抗原。免疫系統中特別是胞殺性T細胞(cytotoxic T cell)及輔助性T細胞(helper T cell)會辨識這些抗原為異己物而引發免疫反應。許多這類的抗原為腫瘤所專屬的，而不曾被免疫系統辨識過。因此，它們是作為免疫療法合適的標的，因為能將治療用於腫瘤細胞而不傷害正常細胞。

用腫瘤特異抗原來引起T細胞反應的方法展現出不同的結果。用這些抗原時，會面對兩項障礙：第一項：免疫細胞必須辨識這些抗原為異己物，並在不攻擊正常細胞的狀況下引發免疫反應；第二項：即便是T細胞辨識到抗原為異己物，我們身體中的細胞(包括帶有突變的腫瘤細胞)都有安全檢查機制(稱為免疫檢查點(immune checkpoint))會防止T細胞進行長期高強度的攻擊，而免疫療法的成功需仰賴這些免疫檢查點失去功能才有效。上述第二項障礙在近年來成為亮點。隨著藥物、臨床試驗、及目標癌種類的成長，免疫檢查點抑制劑(immune checkpoint inhibitor)例如：抑制PD1、PDL1、及CTLA4等抗體被研發出來。但是，其中仍有很大的進步空間，因為免疫檢查點抑制劑療法的反應率只有大約20%或更低。因此在進行療法前，事先篩選會對療法敏感的病人較理想。帶有高質或高量的腫瘤特異抗原，被認為和療法的反應率及存活率有高度相關。為了加速對實施免疫檢查點抑制劑的病人進行篩選，對於能準確地辨識這些抗原則因此有了高度需求。

相較之下，開發直接選擇T細胞能辨識的抗原的進展仍相對處於停滯狀態。T細胞在辨識外部抗原後會引發攻擊，但是，目前仍沒有有效的方法可以讓T細胞辨識腫瘤特異抗原。治療方法可以大致分為癌症疫苗和細胞輸入療法。治療型癌症疫苗的目標，是從初始T細胞組成庫(naïve T cell repertoire)中擴增T細胞，並重新活化原有T細胞以延緩腫瘤成長並且讓腫瘤縮小。此疫苗由所述腫瘤特異抗原組成，且這些抗原是由其可引起免疫反應的能力而篩選出來的。但是，欠佳的致免疫性抗原篩選使得疫苗的進展被阻礙而效果不佳。細胞輸入療法直接聚焦於訓練免疫細胞來攻擊腫瘤細胞。所述免疫細胞(通常是T細胞或是樹突細胞(dendritic cell))是從病人中收集並且進一步在實驗室中培養。然後，篩選能夠透過辨認腫瘤特異抗原而成功去除腫瘤細胞的T細胞，且再輸入回病人體內。但是，這個方法因為抗原選擇方法效率欠佳而造成低成功率。由前述兩種方法中可得知，篩選出最佳的致免疫性腫瘤特異抗原為免疫療法要達到臨床效用所必須的。

一種能可靠地判斷致免疫性腫瘤特異抗原的方法具有廣泛的應用並且對於多種免疫療法策略皆有關鍵效用。目前判斷腫瘤特異抗原的方法通常包含辨識突變以及預測抗原決定位(即為抗原當中決定抗原能夠引起免疫反應的位置(epitope))和主要組織相容性複合體的結合親和力。用來預測抗原決定位的工具有數種，但是彼此間的預測結果並不相符合，且實驗只能夠驗證大約55%被預測出的抗原決定位(Rajasagi M et al.,Blood.2014 Jul 17；124(3)：453-62.)。典型的方法是基於胜肽鏈序列，而沒有同時考慮主要組織相容性複合體的兩種類型及其相對應的免疫細胞。並且，每位病患或是樣本都有其特殊性質會影響預測，而這些樣本特異特性並未被目前癌症抗原(neoantigen)排名方法考慮到。這些特性可以概括以等位基因的量(allele dosage)來描述。當帶有突變的等位基因及主要組織相容性複合體的等位基因量較高時，免疫系統將有更高的機會可以辨識到腫瘤特異抗原，進而影響抗原決定位的預測。本發明所揭示判斷、預測致免疫性T細胞抗原決定位並將其排序的系統與方法，其中運用到包含胜肽鏈級資訊以及樣本級資訊。胜肽鏈級資訊同時包含主要組織相容性複合體類型一及二的呈現、CD4活化、及CD8活化，而樣本級資訊包含等位基因量，亦即帶有突變的等位基因的群落性(clonality)、即主要組織相容性複合體的等位基因數目。而且，此系統與方法整合了完整的因素清單，每樣都是基於細胞生化反應過程、腫瘤特異性質、抗原呈現過程、以及免疫活化過程。本發明所揭示用各個因素的權重來達到抗原決定位的最佳篩選方式。本發明還揭示一個抗原決定位的排名方法，可用於研發個人化治療方法，如癌症疫苗、細胞輸入療法(adoptive cell transfer)、或是免疫檢查點抑制劑等。

本發明揭示一種系統和方法用來從病人的腫瘤組織中判斷抗原決定位，並且預測和排名所述之抗原決定位是否可誘發針對疾病之免疫反應。本系統和方法同時考量抗原決定位的胜肽鏈級(peptide-level)資訊和腫瘤組織之樣本級(sample-level)資訊，胜肽鏈級特性為胜肽鏈序列與主要組織相容性複合體(major histocompatibility complex，MHC)類型一及類型二、輔助型T細胞(helper T cell)的活化、胞殺性T細胞(cytotoxic T cell)的活化相關之特性；樣本級資訊為腫瘤特異資訊，包含突變等位基因之群落性(clonality of mutated allele)和主要組織相容性複合體之數量。本系統和方法整合上述因素，並針對各種因素計算權重，代表可誘發免疫反應之程度。本系統和方法會給予每個抗原決定位一個致免疫性數值(immunogenicity score)，並以所述之數值排列抗原決定位之優先順序，以提供後續個人化醫療之參考依據。

本系統需要次世代定序分析所得到之突變位點和拷貝數變異資訊、其他定序相關資訊包含：原始測序片段、主要組織相容性複合體型別進行運算。在一些實施例中，主要組織相容性複合體型可以與包含突變位點之個體為同一個或是不同個體。本系統會輸出一組與突變相關之抗原決定位，包含：(a)具有突變之胜肽鏈序列；(b)胜肽鏈級數值(peptide-level score)，其代表胜肽鏈可被呈現和活化免疫反應之能力；(c)樣本級數值(sample-level score)，其代表異質腫瘤中的突變群落性；(d)抗原決定位之排名，其代表使用於免疫療法時，其預測之療效的優先順序。

本案之系統和方法涵蓋下述之部分或所有步驟：(1)辨識次世代定序分析所判斷的突變，其包含：突變位點分析、突變位點標註、拷貝數分析、異質性喪失(loss of heterozygosity)分析、腫瘤純度(tumor purity)分析；(2)分析具有突變位點之基因特性；(3)從公開資料庫中組織特異和疾病特異資料判斷基因表現量；(4)從公開資料庫中組織特異和疾病特異資料判斷蛋白質量；(5)取得含有突變位點之胜肽鏈。與主要組織相容性複合體類型一相關之胜肽鏈的長度為8~15個胺基酸，8~11個胺基酸長為首選。與主要組織相容性複合體類型二相關之胜肽鏈的長度為9~23個胺基酸；(6)預測胜肽鏈與主要組織相容性複合體類型一以及類型二之結合；(7)預測胜肽鏈能夠活化CD8+ T細胞和CD4+ T細胞免疫反應之能力；(8)預測胜肽鏈是否會經由抗原呈現程序被呈現於細胞表面；(9)比較有突變的胜肽鏈和沒突變的胜肽鏈之間的差異；(10)比較胜肽鏈和已知抗原的差異；(11)判斷主要組織相容性複合體類型一之等位基因量，並加入組織相容性複合體類型一之分析；(12)結合和整合步驟1~11、計算胜肽鏈級因素之權重並預測胜肽鏈級之致免疫性；(13)計算群落突變位點之突變頻率(clonal mutation frequency)並用於樣本級數值；(14)整合胜肽鏈級數值和樣本級數值為致免疫性數值；(15)判斷基因拷貝缺失，當基因失去所有拷貝時致免疫性數值將設為零；(16)將致免疫性數值做排名。

判斷抗原決定位致免疫性之因素包括下述一種、多種、或任何組合但不限於(i)突變之變異頻率；(ii)拷貝數變異；(iii)異質性喪失；(iv)腫瘤純度；(v)突變等位基因之群落性；(vi)與已知抗原序列的同源性(抗原同源性)；(vii)在主要組織相容性複合體類型一交互作用中與野生型之相似性(自體相似性)；(viii)在主要組織相容性複合體類型二交互作用中與野生型之相似性(自體相似性)；(ix)基因表現量；(x)蛋白質量；(xi)蛋白酶體切割位傾向性(proteasome cleavage)；(xii)TAP運輸效率(TAP transport)；(xiii) 主要組織相容性複合體類型一結合親合力；(xiv)主要組織相容性複合體類型二結合親合力；(xv)主要組織相容性複合體類型一結合穩定性；(xvi)主要組織相容性複合體類型一的等位基因量(allele dosage)；(xvii)胜肽鏈序列和致免疫性T細胞抗原決定位序列的一致序列矩陣(consensussequence matrix)的相似性。

在一些實施例中，有些個體中含有較高的等位基因量，例如擁有純和子對(homozygous pair)的主要組織相容性複合體。較高的的等位基因量可能導致抗原呈現上的增加效果。本模型將等位基因量的增加效果加入主要組織相容性複合體類型一的計算中。

在胜肽鏈級數值計算中，我們利用上述的因素vi至xv建構四套機器學習模型。模型一預測主要組織相容性複合體類型一的呈現，包含基因表現、蛋白質量、蛋白酶體切割位傾向性、TAP運輸效率、主要組織相容性複合體類型一結合親合力、主要組織相容性複合體類型一結合穩定性、主要組織相容性複合體的等位基因量。模型二預測主要組織相容性複合體類型二的呈現，包含主要組織相容性複合體類型二結合親合力。模型三預測輔助型T細胞的活化，包含自體相似性和抗原同源性。模型四預測胞殺性T細胞(cytotoxic T cell)的活化，其包含：自體相似性、抗原同源性和主要組織相容性複合體類型一的致免疫性。模型三和模型四的訓練資料來自體外T細胞免疫反應實驗的結果。我們利用機器學習迴歸器和數據分析方法整合這四個模型和其組合。最終模型包含加權後的因素、特徵篩選和疊代調整後的最佳化機器學習模型。最後本模型利用已知俱備致免疫性之抗原決定位進行驗證。

在樣本級數值計算中，我們利用上述的因素(i)至(v)計算所述之突變是否為群落突變。腫瘤可能包含數個群落，而每一個群落都擁有獨特的基因組成。如一個突變出現於大多數群落中，該突變便被定義為群落突變，代表群落突變發生於癌症演化早期的「主幹」(trunk)時間點中。群落突變衍生的腫瘤特異抗原存在於大多數腫瘤細胞中，因此極有可能遭受免疫攻擊。相反的，從亞群落衍生的腫瘤特異抗原屬於「分支」(leaf)突變，只存在於少數腫瘤細胞中，就算遭受攻擊，其他群落並不會有影響。判斷群落突變需要利用最大似然的期望變異頻率(maximum likelihood of expected frequency)計算突變等位基因的數量，接著估算亞群落的純度(subclonal purity)。求得亞群落的純度和腫瘤純度後便可計算樣本級數值。

致免疫性數值包含胜肽鏈級數值和樣本級數值。本系統將每一個抗原決定位依照致免疫性數值高低排名。本系統最終輸出抗原決定位、致免疫性數值和排名。

本系統需輸入次世代定序分析所產出的變異和樣本資訊以及主要組織相容性複合體資訊。本系統會輸出胜肽鏈序列、胜肽鏈級數值、樣本級數值、致免疫性排名。

實施例5的特徵包含CD4+細胞相關的自體相似性和抗原同源性；實施例6的特徵包含CD8+免疫性。p值是由獨立雙樣本中位數差異檢定所計算出來。

實施例7的特徵包含CD4+細胞相關的自體相似性、抗原同源性和實施例4的特徵；實施例8的特徵包含CD8+相關的CD8+免疫性和實施例1的特徵。以上p值是由獨立雙樣本中位數差異檢定所計算出來。

實施例9的特徵包含CD4+細胞相關的自體相似性、抗原同源性和實施例4的模型所預測的數值；實施例10的特徵包含CD8+相關的CD8+免疫性和實施例1的模型所預測的數值。p值是由獨立雙樣本中位數差異檢定所計算出來。

實施例11包含實施例5和實施例6；實施例8包含實施例9和實施例10。

在一些實施例，本發明揭示了在精準醫療的重大計畫中，一個能夠判斷疾病特異抗原決定位(epitope)，以及預測所述抗原決定位之致免疫性並將所述抗原決定位排名以更進一步用於病人個人化治療的整合性系統及方法。所述系統及方法整合了以定序為基礎的突變位點分析(variant calling)、以定序為基礎的拷貝數(copy number)判別、序列比對、相似性矩陣、機器學習、最佳化方法以及數學建模以用於致免疫性抗原決定位之準確且切實的判斷(如圖1所揭示)。所述系統及方法考量了每個組成細胞生化反應過程(cellular process)、腫瘤特異性質、抗原呈現(antigen presentation)過程以及免疫活化過程的組成性質(component)，在每個過程中的組成性質則依照其在細胞中的實際功能來計算為系統中的考量因素(factor)，接著每個因素根據其對抗原決定位之致免疫性的貢獻程度來給予其權重，而一個給予權重的因素可幫助探討抗原決定位具致免疫性之成因並促進臨床及研究上的進展。所述系統考慮了代表胜肽鏈級資訊(peptide-level information)及樣本級資訊(sample-level information)的因素並利用所述因素將抗原決定位之致免疫性進行評分，在本案中也會根據預測出的抗原決定位之致免疫性數值來將判斷出的抗原決定位進行排名。

在本案中所使用的術語應被視為以描述實施例及申請專利範圍為目的，任何術語之時態變化及字根改變不應被視為限制本案之效果，而任何術語之其他慣用同義詞使用也不應被視為限制本案之效果。

當有其他可能不同的替代做法時，本發明並不受限於本文中所描述之特定方法或規程或程序，而在本發明中所描述之具體實施例僅為範例，不應被解釋為用來限制本案之範疇。

在本發明中所使用之單數形式冠詞：一個、所述等，具體來說也包含其字詞所指內容之複數形式，除非內文中另有明定。

「組成性質(component)」這個字詞意指為突變的特異性質或基因的特異性質或細胞生化反應過程中的特定步驟或樣本的特異性質。

「因素(factor)」這個字詞意指為組成性質在計算上的代表，其中所述因素可能以數學公式計算出來或以計算工具預測出來或做為一個類別被分類出來。

「胜肽鏈(peptide)」這個字詞意指為各種不同長度的胺基酸序列，其可能具有或不具有致免疫性，也可能是或不是和腫瘤相關。「抗原(antigen)」這個字詞意指為具免疫性而能被免疫系統所辨識之胜肽鏈。「抗原決定位(epitope)」這個字詞意指為一個能被呈現在細胞表面上的短片段抗原，所述抗原決定位可能透過「蛋白酶體(proteasome)」切割長片段抗原所產生。

「癌症疫苗(cancer vaccine)」這個字詞意指為以治療癌症為目的並藉由增強人體免疫系統來對抗癌症之治療性疫苗，其不應與在發生疾病之前以預防為目的而普遍施用的預防性疫苗有所混淆。

「主要組織相容性複合體(major histocompatibility complex,MHC)」這個字詞意指為其任何變異型態和名稱，其中包括但不限於其類型、其替代名稱如「人類白血球抗原(human leukocyte antigen,HLA)」、其種類如A、B、C、DRB1、DPA1、DPB1、DQA1及DQB1等等。

「突變(mutation)」這個字詞除非另有明定，否則其意指為非同義體細胞突變(nonsynonymous somatic mutation)，包含誤義突變(missense mutation)、移碼突變(frameshift mutation)及剪接位突變(splice site mutation)。「變異(variant)」這個字詞包含突變但更進一步包含結構上的變異，包括拷貝數變異(copy number variation)、染色體的重組(rearrangement)、融合(fusion)、易位(translocation)及倒置(inversion)。體細胞變異(somatic variant)被定義為沒有出現在生殖細胞中並出現在生命後期，特別是在癌症發展過程中之變異，所述變異可能導致腫瘤形成或為伴隨癌症發生之變異。

「定序深度(total depth)」這個字詞意指為在特定基因位置定序出的測序片段(read)總量。

在一些實施例中，本系統和方法可接收次世代定序資料(如圖2所揭示)。次世代定序資料可以是(VCF)檔案、(SAM)檔案、(BAM)檔案、FASTQ檔案或任何其他未處理或處理過的檔案。VCF檔案包含所有突變在基因體上的資訊，所述資訊包含但不限於突變等位基因、參考等位基因(reference allele)、染色體、染色體上位置、突變之變異頻率、和定序深度。在一些實施例中，使用者必須提供大片段變異的資訊，包含：拷貝數變異、腫瘤純度和異質性喪失。在一些實施例中，本系統可接收SAM檔或是BAM檔，上述之資訊都可從SAM檔或是BAM檔求得。在一些實施例中，本系統可接收FASTQ檔，上述之資訊都可在與參考基因體(reference genome)進行序列比對後求得。

本系統可接收主要組織相容性複合體的類型(如圖2所揭示)。在一些實施例中，主要組織相容性複合體包含類型一的各種亞型但不限於A型、B型和C型，且需要四位數的解析度。在一些實施例中，主要組織相容性複合體包含類型二的各種亞型但不限於DRB1型、DPA1型、DPB1型、DQA1型和DQB1型，且需要四位數的解析度。在一些實施例中，主要組織相容性複合體類型可從次世代定序資料求得。

本案描述判斷抗原決定位和預測致免疫性的系統和方法，所述之系統和方法包含下述一種、多種或任何組合之因素但不限於(i)突變位點分析所判定之突變的變異頻率；(ii)拷貝數變異；(iii)突變之異質性喪失；(iv)腫瘤純度；(v)突變等位基因之群落性；(vi)以序列比對判斷與已知抗原序列的同源性(抗原同源性)；(vii)計算突變胜肽鏈與主要組織相容性複合體類型一的結合親合力和野生型胜肽鏈與主要組織相容性複合體類型一的結合親合力，接著計算兩種結合親合力的比率決定突變胜肽鏈和野生型胜肽鏈之相似性；(viii)計算突變胜肽鏈與主要組織相容性複合體類型二的結合親合力和野生型胜肽鏈與主要組織相容性複合體類型二的結合親合力，接著計算兩種結合親合力的比率決定突變胜肽鏈和野生型胜肽鏈之相似性；(ix)由公開資料庫中取得組織特異和疾病特異實驗資料所判定之基因表現量；(x)由公開資料庫中取得組織特異和疾病特異實驗資料所判定之蛋白質量；(xi)以蛋白質降解資料所判定之蛋白酶體切割位傾向性；(xii)以TAP運輸速率資料所判定之TAP運輸效率；(xiii)以體外實驗結果所判定之主要組織相容性複合體類型一的結合親合力；(xiv)以體外實驗結果所判定之主要組織相容性複合體類型二的結合親合力；(xv)主要組織相容性複合體類型一的結合穩定性；(xvi)主要組織相容性複合體類型一的等位基因量；(xvii)以體外(in vitro)和離體(ex vivo)T細胞擴增實驗結果所判定之胜肽鏈序列免疫性。

抗原決定位會經由抗原呈現程序表現在細胞表面上。癌症特異抗原決定位的呈現程序會先從基因突變所衍生的突變胜肽練開始，經由蛋白酶體切割成小片段胜肽鏈，接著透過TAP進入內質網。在內質網中，胜肽鏈會與主要組織相容性複合體結合，再一起被呈現於細胞表面上以提供免疫細胞辨識。上述抗原呈現程序中的每一個步驟都會影響抗原決定位的致免疫性。

腫瘤中的突變並不見得會出現於所有腫瘤細胞中。如果一個突變所衍生的致免疫抗原決定位出現於大部分的腫瘤細胞中，免疫細胞更有機會辨識並攻擊大部分腫瘤細胞，進而消滅腫瘤。因此，含有突變的細胞比例(以0~100%的變異頻率作為代表)就成為一個判斷抗原決定位致免疫性的重要依據。一個較高的變異頻率代表一個突變存在於大部分腫瘤中，進而影響免疫攻擊的效用。其他變異資訊，包含拷貝數變異、異質性喪失、腫瘤純度、突變等位基因的分群性等都同樣反映腫瘤細胞是否會產出代有突變的抗原決定位，導致腫瘤細胞遭受免疫攻擊。

產生出抗原決定位的一項先決條件是必須有基因表現。偵測腫瘤樣本內的基因表現量可藉由次世代定序(例如RNA定序)、微陣列(microarray)、即時聚合酶連鎖反應(quantitative real-time PCR)或北方墨點法(Northern Blot) 等實驗測得。組織和癌症特異基因表現資料可從公開資料庫取得。利用公開資料庫中的資料可免除低表現基因所造成的雜訊，得到真正有表現的基因的資訊。雖然轉錄有一套複雜的調控機制，但目前已知基因體任何位置都可被轉錄，低表現量的基因仍然可被實驗偵測到而造成過多雜訊。因此，多數人在相同的疾病組織中都有表現的基因可以代表所述基因普遍會表現於疾病細胞中。基因表現後再經過轉譯才能產生抗原決定位。在一些資料集中，基因表現量可以是定性的表現方式，例如：低、中、高。在這些資料集中，所述定性資料可以被轉成數值，例如：0、1、2、3。在其他資料集中，基因表現量可以是任何單位的數值，例如為一個比例或是自行判斷的一個單位。在一些實施例中，本系統的機器學習模型可接收數值或轉換而成的數值。一個沒有被表現的基因會以低、0、或無表現表示。在其他實施例中，沒有被表現的基因會被篩除。相反的，被上述實驗資料所判定為表現量高的基因會有助於決定抗原決定位的量。一個高表現量的抗原決定位有較高的機會接觸到主要組織相容性複合體，也更容易被呈現於細胞表面。

蛋白質量資訊可利用質譜分析、免疫螢光法、免疫組織化學法或是西方墨點法(Western Blot)偵測。蛋白質量可從公開資料庫中取得。帶有突變的抗原決定位的蛋白質量有助於判斷抗原決定位和主要組織相容性複合體的結合。一個抗原決定位雖然可能俱備非常高的致免疫性，但其含量可能非常少而因此無法引起免疫反應。在一些資料集中，蛋白質量可以是定性的表現方式例如：低、中、高。在這些資料集中，定性資料可以被轉換成數值，例如：0、1、2、3。在其他資料集中，蛋白質量可以是各種單位的數值，例如為一個比例或是自行判斷的一個單位。在一些實施例中，本系統的機器學習模型接收數值或轉換而成的數值。一個沒有被偵測到的蛋白質會以低、0、或無表現代表。在其他實施例中，沒有被偵測到的蛋白質會被篩除。相反的，被上述實驗資料所判定為量高的蛋白質會有助於判斷抗原決定位的量。一個高蛋白質量的抗原決定位有較高的機會接觸到主要組織相容性複合體，也更容易被呈現於細胞表面。

本系統和方法會判斷突變的胜肽鏈和沒突變的野生型胜肽鏈之間的相似性。如果一個突變的胜肽鏈和野生型胜肽鏈非常相似，免疫細胞有可能會認為突變的胜肽鏈是自體的並且容忍它的存在。判斷突變和野生型胜肽鏈的相似性可計算兩者和主要組織相容性複合體結合親合力，並計算兩個結合親和力的比例。主要組織相容性複合體類型一及類型二都會進行計算。

本系統和方法會判斷突變胜肽鏈和已知抗原的同源性。已知抗原來自細菌、病毒、或其他病原體，並且在大部分情況會引起T細胞的免疫反應。如果一個突變胜肽鏈和已知抗原非常相似，便更有可能引起免疫反應。我們利用序列比對分析決定突變胜肽鏈和已知抗原兩者序列的同一性(identity)和有同一性的序列長度來判斷抗原同源性。同源性是指突變胜肽鏈中包含有同一性抗原序列的比例。

抗原決定位會在內質體接觸到主要組織相容性複合體。進入內質體前，突變胜肽鏈必須先被蛋白酶體切割成適合大小的抗原決定位。蛋白酶體切割位預測是一個0到1的數值。在最佳情況下，抗原決定位內不包含可能被蛋白酶體切割的位置，有較小可能性在被呈現前就被分解。接著抗原決定位需要透過TAP蛋白質運輸進內質體。TAP運輸效率可用IC50數值表示，其中數值越低的IC50代表運輸越有效率。可被有效運輸的抗原決定位便有較高可能性接觸主要組織相容性複合體。

抗原決定位必須和主要組織相容性複合體結合才可以被呈現於細胞表面。主要組織相容性複合體類型一可與8~15個胺基酸長度的抗原決定位結合，但8~11個胺基酸長度為首選。主要組織相容性複合體類型二可與9~23個胺基酸長度的抗原決定位結合，但15和16個胺基酸長度為首選。抗原決定位和主要組織相容性複合體的接合位(anchor position)會隨著不同主要組織相容性複合體的類型而改變。抗原決定位上特定胺基酸與接合位的結合能力的對抗原呈現非常重要，對結合親合力預測非常重要。IC50數值小於1500nM或是1000nM代表與主要組織相容性複合體類型一及類型二有較好的結合親合力，小於500nM更好，其代表抗原決定位極有可能與主要組織相容性複合體結合和呈現於細胞表面上。

除了結合親合力之外，結合穩定性也是抗原呈現程序上重要的因子。抗原決定位或許可和主要組織相容性複合體形成非常強的結合力，但若是其與主要組織相容性複合體的結合時間長度不足則可能無法使其被呈現。亦即如果抗原決定位在被呈現之前就與主要組織相容性複合體分離，此抗原決定位也就無法被呈現於細胞表面上。主要組織相容性複合體的結合穩定性(其半衰期數值為0到1)代表抗原決定位與主要組織相容性複合體結合的時間。上述結合時間越長則抗原決定位越有機會被呈現於細胞表面上。

主要組織相容性複合體類型一的免疫性代表抗原決定位的組成可引起免疫反應的能力。特定抗原決定位序列可能會對活化胞殺性T細胞的T細胞受體(T-cell receptor)有生化反應。觸發T細胞受體是免疫攻擊的第一步。主要組織相容性複合體類型一免疫性是一個從-1到1的數值。較高的主要組織相容性複合體類型一免疫性代表所述之抗原決定位較有可能引起T細胞擴增。

有些個體擁有同樣類型的主要組織相容性複合體，代表來自父母的主要組織相容性複合體是同一種類型，稱作純和子對(homozygous pair)。純和子主要組織相容性複合體等位基因(homozygous MHC allele)可能因為等位基因量(allele dosage)的效應造成加成效果。純和子主要組織相容性複合體等位基因擁有較高量可與抗原決定位結合的等位基因，因此提高抗原決定位呈現於細胞表面上的可能性。此外，細胞表面上有較高量的主要組織相容性複合體也會提高T細胞辨識抗原決定位的可能性。因此，此加乘效果也被納入計算中。

依照上述任一有關於個體接受免疫療法而得到的免疫反應資料之方法，沒有免疫反應可能是因為負責抗原呈現機制的因子有缺陷。這些缺陷會令抗原呈現程序失去功能，因此就算抗原決定位具備致免疫性，他們還是無法呈現於細胞表面上。這些狀況是決定免疫療法療效計算中的混亂因子(confounding factors)，因此具有抗原呈現機制缺陷的個體將不納入計算中。

依照上述任何一種方法，每個因素的權重是從本判斷系統所決定。本判斷系統包含特徵選擇(feature selection)、機器學習(machine learning)，驗證(validation)、疊代模型調整和最佳化(iterative model tuning for optimization)。特徵挑選後所包含的特徵如下：

胜肽鏈級特徵

主要組織相容性複合體類型一呈現：基因表現量、蛋白質量、蛋白酶體切割位傾向性、TAP運輸、主要組織相容性複合體類型一結合親合力、主要組織相容性複合體類型一穩定性。

主要組織相容性複合體類型二呈現：主要組織相容性複合體類型二結合親合力。

輔助型T細胞活動：自體相似性、抗原同源性。

胞殺性T細胞活動：自體相似性、抗原同源性、主要組織相容性複合體類型一免疫性

樣本級特徵

突變等位基因之群落性、主要組織相容性複合體類型一之等位基因量。

利用上述對應的特徵，可計算出四種模型的胜肽鏈級數值，其中模型包含：主要組織相容性複合體類型一、主要組織相容性複合體類型二、輔助型T細胞活化、胞殺性T細胞活化。此外，主要組織相容性複合體類型一包含樣本級特徵主要組織相容性複合體類型一之等位基因量。我們利用機器學習迴歸器之結果整合這四種模型和它們的組合。我們還運用疊代模型調整和最佳化方法計算胜肽鏈級數值，並利用已知致免疫性抗原決定位驗證所述模型。我們接者以數學或分析方式(例如：乘積)整合任二或多個模型得到最終模型。

我們從突變等位基因之群落性之計算得到樣本級數值。在癌症早期發展階段所形成的突變是群落突變或是「主幹」突變，其代表它們在癌症突變演化中發生於主幹的時段而不在分支的時段。群落突變會出現於大部分癌細胞中。判斷群落突變需要求得期望變異頻率和觀察變異頻率的統計顯著性，再計算突變等位基因的期望數量，接著用突變等位基因數量計算亞群落純度。樣本級數值便是亞群落純度和腫瘤純度的比例。

將胜肽鏈數值和樣本級數值整合便可得到致免疫性數值。本模型利用疊代計算進行參數調整，每一代將會重新建構和訓練模型。擁有最好效能的模型就是最終模型。每一個抗原決定位將會計算一個致免疫性數值，而致免疫性數值的大小代表本系統對每一個癌症特異抗原決定位的排名。

上述之模型是利用機器學習方法所建構，其包含：主要組織相容性複合體類型一、主要組織相容性複合體類型二、輔助型T細胞活化、胞殺性T細胞活化，以及整合這些模型和樣本級數值而求得的最終致免疫性數值。各種機器學型模型都可用於訓練本模型上，例如：迴歸類模型(regression-based models)、樹類模型(tree-based models)、貝氏類模型(Bayesian models)、支援向量機(support vector machines)、提升類模型(boosting models)和神經網路類模型(neural network models)。

本案的系統和方法可有助於癌症免疫學。本系統提供一套可以幫助病患的療法的做法。本系統所判斷的致免疫性抗原決定位可用於各人化醫療和各種免疫療法，例如：免疫檢察點抑制劑(immune-checkpoint inhibitor)、癌症疫苗(cancer vaccine)、或是細胞輸入療法(adoptive cell transfer)。癌症疫苗和細胞輸入療法中，排名好的抗原決定位可以提供製作疫苗或是訓練免疫細胞時較高潛力的胜肽鏈選擇。在免疫檢察點抑制劑療法中，致免疫性抗原決定位的數量可用於預測用藥後的藥效。本系統適用於針對個人的精準醫療或是用於廣大群眾的療法上。

實驗示例

實施例1：以胜肽鏈和主要組織相容性複合體類型一(MHC class I)的結合親和力(binding affinity)及結合穩定性(binding stability)來預測胜肽鏈被主要組織相容性複合體類型一呈現的情形。

一個胜肽鏈若要成為一個抗原則所述胜肽鏈需要能被主要組織相容性複合體呈現在細胞表面上且進而被免疫細胞所辨識。上述過程包含：所述胜肽鏈在抗原呈現細胞中由主要組織相容性複合體類型二(MHC class II)呈現給CD4+ T細胞、所述胜肽鏈在抗原呈現細胞中由主要組織相容性複合體類型一呈現給CD8+ T細胞以及所述胜肽鏈在腫瘤細胞中由主要組織相容性複合體類型一呈現給CD8+ T細胞。在本實施例中，我們以所選特徵建構出一個模型來預測胜肽鏈被主要組織相容性複合體類型一呈現的情形。

我們以胜肽鏈結合親和力及胜肽鏈結合穩定性這兩個能影響胜肽鏈和主要組織相容性複合體類型一結合的特性來建構出一個用以預測胜肽鏈被主要組織相容性複合體類型一呈現情形之模型。我們使用NetMHC4.0軟體(Andreatta M and Nielsen M,Bioinformatics(2016)Feb 15；32(4)：511-7；Nielsen M,et al.,Protein Sci.,(2003)12：1007-17)來計算胜肽鏈和主要組織相容性複合體類型一的結合親和力(IC50)，若所述主要組織相容性複合體類型一不適用NetMHC4.0軟體則改用NetMHCpan3.0軟體(Nielsen M and Andreatta M,Genome Medicine(2016)：8：33；Hoof I,et al.,Immunogenetics 61.1(2009)：1-13)。我們使用NetMHCstabpan1.0軟體(Rasmussen M,et al.,J Immunol.2016 Aug 15；197(4)：1517-24)來計算胜肽鏈和主要組織相容性複合體類型一的結合穩定性。我們從Bassani-Sternberg等人的研究(Bassani-Sternberg et al.,Molecular & Cellular Proteomics,2015 and Bassani-Sternberg et al.,Nature Communications,2016)中蒐集訓練資料來訓練機器學習模型。而所述資料中之胜肽鏈只要是由不只一個基因所產生出來的胜肽鏈或是沒有被標註為未修飾的胜肽鏈或是其胜肽鏈長度不介於9~11的胜肽鏈均會被從訓練資料中移除。所述資料中若胜肽鏈及其對應的人類白血球抗原(HLA)類型被確認可形成胜肽鏈與人類白血球抗原類型之複合物且被呈現出來，則所述資料則將被作為陽性(Positive)資料；若所述同一個胜肽鏈對應其他人類白血球抗原類型無法被確認可形成所述複合物且被呈現出來，則所述資料則會被作為陰性(Negative)資料。每一個胜肽鏈與其對應的人類白血球抗原類型的結合親和力及結合穩定性之計算方式則依上述進行計算。我們以胜肽鏈對主要組織相容性複合體類型一之結合親和力及結合穩定性作為特徵來建構一個邏輯迴歸模型，並且利用Scikit-learn(Fabian Pedregosa et al.,JMLR(2011)Oct 12：2825-2830)中的LogisticRegression套件來預測主要組織相容性複合體類型一之胜肽鏈呈現情形。在執行十次交叉驗證(ten-fold cross-validation)後，訓練資料中測試資料集的預測準確度(accuracy)及接收者操作特徵曲線下面積(AUC of ROC)如表1中所揭示。在此模型中，我們發現特徵中結合親和力對於預測結果的影響力比結合穩定性還要強。

實施例2：以胜肽鏈和主要組織相容性複合體類型一的結合親和力及胜肽鏈其所屬基因的表現程度來預測胜肽鏈被主要組織相容性複合體類型一呈現的情形。

除了胜肽鏈和主要組織相容性複合體類型一的結合能力之外，胜肽鏈被表現的程度對於所述胜肽鏈是否可被呈現也是很重要的。在本實施例中，我們以胜肽鏈其所屬基因的表現情形以及胜肽鏈和主要組織相容性複合體類型一的結合親和力建構出一個模型來預測所述胜肽鏈被主要組織相容性複合體類型一呈現的情形。

我們以實施例1中所揭示的方式來計算胜肽鏈和主要組織相容性複合體類型一的結合親和力，並藉由計算所述胜肽鏈其所屬基因之RNA表現量以作為所述胜肽鏈其所屬基因的表現程度。而各個胜肽鏈其所屬基因的表現程度則從Illumina Body Map資料庫(Petryszak R et al.,Nucleic Acids Res.2016 Jan 4；44(D1)：D746-52)中獲得。如實施例1中所揭示，我們從Bassani-Sternberg等人的研究中蒐集訓練資料來訓練機器學習模型，並且以同樣的方式進行篩選。若胜肽鏈及其對應的人類白血球抗原類型被確認可行成所述複合物且可被呈現出來，則所述資料將被作為陽性資料；若所述同一個胜肽鏈對應其他人類白血球抗原類型無法被確認可行成所述複合物且被呈現出，則該資料將被作為陰性資料。每一個胜肽鏈和其對應的人類白血球抗原類型的結合親和力以及所述胜肽鏈其所屬基因的表現程度之產生方式則如前述。進一步地，我們以胜肽鏈對主要組織相容性複合體類型一之結合親和力以及胜肽鏈其所屬基因表現程度作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測主要組織相容性複合體類型一之胜肽鏈呈現情形。在執行十次交叉驗證後，訓練資料中的測試資料集的預測準確度及接收者操作特徵曲線下面積如表1中所揭示。在此模型中，我們發現結合親和力對於預測結果的影響力比基因表現程度還要強。

實施例3：以胜肽鏈和主要組織相容性複合體類型一的結合親和力以及胜肽鏈其所屬蛋白質表現量來預測胜肽鏈被主要組織相容性複合體類型一呈現的情形。

除了胜肽鏈和主要組織相容性複合體類型一的結合能力之外，胜肽鏈的表現量也會影響到所述胜肽鏈被主要組織相容性複合體所呈現的量。在本實施例中，我們以胜肽鏈和主要組織相容性複合體類型一的結合親和力以及胜肽鏈的表現量作為所選特徵來建構出一個用以預測所述胜肽鏈被主要組織相容性複合體類型一呈現情形的模型。

我們以兩種會影響到胜肽鏈和主要組織相容性複合體類型一的結合能力及結合機率的特性(分別為胜肽鏈結合親和力及胜肽鏈表現量)來建構出所述模型以預測所述胜肽鏈被主要組織相容性複合體類型一呈現的情形。我們以實施例1中所揭露的方式來計算胜肽鏈和主要組織相容性複合體類型一的結合親和力。而在本實施例中，胜肽鏈其所屬蛋白質表現量被用以作為代表胜肽鏈的表現量，且其更進一步被定義為一個基因所產生含有所述胜肽鏈的蛋白質表現量中最大的蛋白質表現量。我們從PaxDb蛋白質表現量資料庫中的H.sapiens-Whole organism(Integrated)資料庫(Wang,M.et al.,Proteomics 2015,10.1002/pmic.201400441)取得胜肽鏈其所屬蛋白質的表現量。如實施例1中所揭示，我們從Bassani-Sternberg等人的研究中蒐集訓練資料來訓練所述機器學習模型，並且以同樣的方式進行篩選。若資料中之胜肽鏈及其對應的人類白血球抗原類型被確認可形成所述複合物且可被呈現出，則所述資料將被作為陽性資料；若所述同一個胜肽鏈對應其他人類白血球抗原類型無法被確認可形成複合物且無法被呈現出所述胜肽鏈，則所述資料則將被作為陰性資料。每一個胜肽鏈和其對應的人類白血球抗原類型的結合親和力以及所述胜肽鏈其所屬蛋白質的表現量之計算方式則如前所述。我們以胜肽鏈對主要組織相容性複合體類型一之結合親和力以及胜肽鏈其所屬蛋白質表現量作為特徵來建構所述邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測主要組織相容性複合體類型一之胜肽鏈呈現情形。在執行十次交叉驗證後，訓練資料中的測試資料集的預測準確度及接收者操作特徵曲線下面積如表1中所揭示。在所述模型中，我們發現結合親和力對於預測結果的影響力比蛋白質表現量還要強。

實施例4：以胜肽鏈和主要組織相容性複合體類型二的結合親和力來預測胜肽鏈被主要組織相容性複合體類型二呈現的情形。

一個胜肽鏈若要成為一個抗原則所述胜肽鏈需能被主要組織相容性複合體呈現在細胞表面上進而被免疫細胞所辨識。上述過程包含：所述胜肽鏈在抗原呈現細胞中由主要組織相容性複合體類型二呈現給CD4+ T細胞、所述胜肽鏈在抗原呈現細胞中由主要組織相容性複合體類型一呈現給CD8+ T細胞以及所述胜肽鏈在腫瘤細胞中由主要組織相容性複合體類型一呈現給CD8+ T細胞。在本實施例中，我們建構出一個模型來預測胜肽鏈被主要組織相容性複合體類型二呈現的情形。

我們以胜肽鏈和主要組織相容性複合體類型二的結合親和力來建構出一個用以預測胜肽鏈被主要組織相容性複合體類型二呈現情形之模型。我們使用NetMHCII2.2軟體(Nielsen M,et al.,BMC Bioinformatics.2007 Jul 4；8：238)來計算胜肽鏈和主要組織相容性複合體類型二的結合親和力，若所述主要組織相容性複合體類型二不適用NetMHCII2.2軟體則改用NetMHCIIpan3.1軟體(Andreatta M,et al.,Immunogenetics.2015 Nov；67(11-12)：641-50)。我們從Chong等人的研究(Chong et al.,Molecular & Cellular Proteomics,2017)中蒐集訓練資料來訓練機器學習模型，而所述資料中長度小於9的胜肽鏈則被從訓練資料中移除。所述資料中若胜肽鏈及其對應的人類白血球抗原類型被確認可形成胜肽鏈與人類白血球抗原類型之複合物且被呈現出來，則所述資料則將被作為陽性資料；若所述同一個胜肽鏈對應其他人類白血球抗原類型無法被確認可形成所述複合物且被呈現出來，則所述資料則會被作為陰性資料。我們以胜肽鏈對主要組織相容性複合體類型二之結合親和力為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測主要組織相容性複合體類型二之胜肽鏈呈現情形。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表1中所揭示。

實施例5：以胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性(self-similarity for MHC Class II)以及與已知抗原的同源性(homology)來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。

一個胜肽鏈若要成為一個具致免疫性的抗原，除了被主要組織相容性複合體類型一及類型二呈現之外，所述胜肽鏈引起CD4+ T細胞及CD8+ T細胞免疫反應的能力也是很重要的。在本實施例中，我們以所選特徵建構出一個模型來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。

我們以兩個能影響胜肽鏈被CD4+ T細胞辨識的特性來建構出一個用以預測胜肽鏈引起CD4+ T細胞免疫反應能力之模型。所述兩個特性為所述胜肽鏈和人類蛋白質序列在與主要組織相容性複合體類型二結合上的相似性(簡稱為胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性)以及所述胜肽鏈與已知抗原的同源性。我們以三個步驟來計算胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性，首先，我們從ENSEMBL GRch37資料庫中獲取所有人類蛋白質序列並且裁剪出在9~23胺基酸長度中所有可能的胺基酸序列。由於可能有胜肽鏈並非由人類蛋白質序列突變而來，因此我們模仿了突變胜肽鏈和野生型胜肽鏈間的關係，將所述胜肽鏈和裁剪出來的人類蛋白質序列做比對並從所述裁剪出來的序列中挑選出具有相同長度且只有一個胺基酸差異的人類蛋白質序列作為自體胜肽鏈(self-peptide)。其次，我們以實施例4中所揭露的方式分別計算所述胜肽鏈以及其對應的自體胜肽鏈和主要組織相容性複合體類型二的結合親和力。最後，我們以前述兩個計算出的結合親和力中較小的數值除以較大的數值來定義胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性。若有胜肽鏈只能從所述裁剪出來的序列中比對出具有兩個或兩個以上胺基酸差異的序列，則將所述胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性定為0。我們利用BLAST(https：//blast.ncbi.nlm.nih.gov/Blast.cgi)的方法將胜肽鏈和已知抗原序列做比對來計算胜肽鏈與已知抗原的同源性。我們從IEDB資料庫(www.iedb.org)的抗原資料集中選擇被標註為病毒或細菌的抗原序列作為所述已知抗原序列。若一個胜肽鏈其序列具有較高比例能比對上一個已知抗原序列，則所述胜肽鏈被視為和所述已知抗原序列有同源性。若有胜肽鏈無法比對上任何所述已知抗原，則將所述胜肽鏈與已知抗原的同源性定為0。我們從IEDB資料庫檔名為“tcell_full_v3.csv”的檔案中，蒐集主要組織相容性複合體被標註為類型二且有標註CD4+ T細胞免疫反應結果的資料作為訓練資料來訓練機器學習模型以預測胜肽鏈引起CD4+ T細胞免疫反應的能力。而所述資料中若其胜肽鏈長度不介於9~30個胺基酸或是其細胞類型並非一個正常T細胞或是其試驗類別組並不是被標註為偵測免疫訊號釋放或T細胞活化或T細胞與抗原呈現細胞之結合，則前述資料均會被從訓練資料中移除。我們以胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性以及與已知抗原的同源性作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表2中所揭示。

在完成模型訓練後，我們從Ott P等人的研究(Ott P et al.,Nature,2017)中蒐集經實驗測試過T細胞免疫反應並有標註CD4+ T細胞免疫反應結果的資料作為測試資料來測試所述模型。我們將測試資料中的每個胜肽鏈如前所述進行特徵計算並且以所計算出的特徵和所訓練出的參數來計算所述模型的預測數值。其陽性反應和陰性反應資料各自的預測數值盒形圖(boxplot)以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定(Wilcoxon rank-sum test)所計算出來的p值如圖3A所揭示。

實施例6：以胜肽鏈之免疫性來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。

一個胜肽鏈若要成為一個具致免疫性的抗原，除了被主要組織相容性複合體類型一及類型二呈現之外，所述胜肽鏈引起CD4+ T細胞及CD8+ T細胞免疫反應的能力也是很重要的。在本實施例中，我們以所選特徵建構出一個模型來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。

我們以胜肽鏈之免疫性此能影響胜肽鏈被CD8+ T細胞辨識的特性來建構出一個用以預測胜肽鏈引起CD8+ T細胞免疫反應能力之模型。所述胜肽鏈之免疫性為利用IEDB immunogenicity predictor軟體(Calis JJ,PLoS Comput Biol.(2013)Oct 9(10)：e1003266)所計算而來。我們從IEDB資料庫檔名為“tcell_full_v3.csv”的檔案中，蒐集主要組織相容性複合體被標註為類型一且有標註CD8+ T細胞免疫反應結果的資料作為訓練資料來訓練機器學習模型以預測胜肽鏈引起CD8+ T細胞免疫反應的能力。而所述資料中若其胜肽鏈長度不介於8~11個胺基酸或是其細胞類型並非一個正常T細胞或是其試驗類別組並不是被標註為偵測免疫訊號釋放或T細胞活化或T細胞與抗原呈現細胞之結合，則前述資料均會被從訓練資料中移除。我們以IEDB immunogenicity predictor軟體預測出來的胜肽鏈之免疫性作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表2中所揭示。

在完成模型訓練後，我們從Ott P等人的研究(Ott P et al.,Nature,2017)中蒐集經實驗測試過T細胞免疫反應並有標註CD8+ T細胞免疫反應結果的資料作為測試資料來測試所述模型。我們將測試資料中的每個胜肽鏈如前所述進行特徵計算並且以所計算出的特徵和所訓練出的參數來計算所述模型的預測數值。其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖3B所揭示。

實施例7：以胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性、與已知抗原的同源性以及實施例4中的特徵來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。

一個抗原決定位要能引起CD4+ T細胞的免疫反應需要能先被抗原呈現細胞呈現出來給CD4+ T細胞辨識。在本實施例中，我們考慮了胜肽鏈引起免疫反應的能力以及胜肽鏈被主要組織相容性複合體類型二呈現在抗原呈現細胞上的能力並且以所選特徵建構出一個模型來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。

我們以影響胜肽鏈被CD4+ T細胞辨識的特性以及影響胜肽鏈被主要組織相容性複合體類型二呈現的特性來建構出一個用以預測胜肽鏈引起CD4+ T細胞免疫反應能力之模型。所述特性為胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性、胜肽鏈與已知抗原的同源性以及胜肽鏈和主要組織相容性複合體類型二的結合親和力。我們以實施例5中所揭示的方式來計算胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性以及胜肽鏈與已知抗原的同源性，並且以實施例4中所揭示的方式來計算胜肽鏈和主要組織相容性複合體類型二的結合親和力。如實施例5中所揭示，我們從IEDB資料庫中，蒐集有標註CD4+ T細胞免疫反應結果的資料作為訓練資料來訓練機器學習模型以預測胜肽鏈引起CD4+ T細胞免疫反應的能力。其資料篩選方式如實施例5中所揭示。我們以胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性、與已知抗原的同源性以及和主要組織相容性複合體類型二的結合親和力作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表2中所揭示。在此模型中，我們發現胜肽鏈和主要組織相容性複合體類型二的結合親和力對於預測結果的影響力比胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性以及與已知抗原的同源性還要強。

在完成模型訓練後，如實施例5中所揭示，我們從Ott P等人的研究中蒐集有標註CD4+ T細胞免疫反應結果的資料作為測試資料來測試所述模型。我們將測試資料中的每個胜肽鏈如前所述進行特徵計算並且以所計算出的特徵和所訓練出的參數來計算所述模型的預測數值。其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖4A所揭示。

實施例8：以胜肽鏈之免疫性以及實施例1中的特徵來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。

一個抗原決定位要能引起CD8+ T細胞的免疫反應需要能先被主要組織相容性複合體類型一呈現出來給CD8+ T細胞辨識。在本實施例中，我們考慮了胜肽鏈引起免疫反應的能力以及胜肽鏈被主要組織相容性複合體類型一呈現的能力並且以所選特徵建構出一個模型來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。

我們以影響胜肽鏈被CD8+ T細胞辨識的特性以及影響胜肽鏈被主要組織相容性複合體類型一呈現的特性來建構出一個用以預測胜肽鏈引起CD8+ T細胞免疫反應能力之模型。所述特性為胜肽鏈之免疫性、胜肽鏈和主要組織相容性複合體類型一的結合親和力以及結合穩定性。我們以實施例6中所揭示的方式來計算胜肽鏈之免疫性，並且以實施例1中所揭示的方式來計算胜肽鏈和主要組織相容性複合體類型一的結合親和力以及結合穩定性。如實施例6中所揭示，我們從IEDB資料庫中，蒐集有標註CD8+ T細胞免疫反應結果的資料作為訓練資料來訓練機器學習模型以預測胜肽鏈引起CD8+ T細胞免疫反應的能力。其資料篩選方式如實施例6中所揭示。我們以胜肽鏈之免疫性、胜肽鏈和主要組織相容性複合體類型一的結合親和力以及結合穩定性作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測胜肽鏈引起CD8+ T 細胞免疫反應的能力。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表2中所揭示。在此模型中，我們發現胜肽鏈和主要組織相容性複合體類型一的結合穩定性對於預測結果的影響力最強，其次為胜肽鏈和主要組織相容性複合體類型一的結合親和力，最後則為胜肽鏈之免疫性。

在完成模型訓練後，如實施例6中所揭示，我們從Ott P等人的研究中蒐集有標註CD8+ T細胞免疫反應結果的資料作為測試資料來測試所述模型。我們將測試資料中的每個胜肽鏈如前所述進行特徵計算並且以所計算出的特徵和所訓練出的參數來計算所述模型的預測數值。其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖4B所揭示。

實施例9：以胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性、與已知抗原的同源性以及實施例4中訓練的模型所計算出的預測數值來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。

一個抗原決定位要能引起CD4+ T細胞的免疫反應需要能先被抗原呈現細胞呈現出來給CD4+ T細胞辨識。在本實施例中，我們考慮了胜肽鏈引起免疫反應的能力以及以實施例4中所建構的模型考慮胜肽鏈被主要組織相容性複合體類型二呈現在抗原呈現細胞上的能力並且以所選特徵建構出一個模型來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。

我們以影響胜肽鏈被CD4+ T細胞辨識的特性以及影響胜肽鏈被主要組織相容性複合體類型二呈現的特性來建構出一個用以預測胜肽鏈引起CD4+ T細胞免疫反應能力之模型。所述特性為胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性、胜肽鏈與已知抗原的同源性以及實施例4中揭示之主要組織相容性複合體類型二抗原呈現模型所計算出的預測數值。我們以實施例5中所揭示的方式來計算胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性以及胜肽鏈與已知抗原的同源性。為了要計算所述主要組織相容性複合體類型二抗原呈現模型的預測數值，我們以實施例4中所揭示的方式來計算胜肽鏈和主要組織相容性複合體類型二的結合親和力，並且我們以前述計算出的特徵以及實施例4中所訓練出的參數來計算所述主要組織相容性複合體類型二抗原呈現模型的預測數值。如實施例5中所揭示，我們從IEDB資料庫中，蒐集有標註CD4+ T細胞免疫反應結果的資料作為訓練資料來訓練機器學習模型以預測胜肽鏈引起CD4+ T細胞免疫反應的能力。其資料篩選方式如實施例5中所揭示。我們以胜肽鏈在與主要組織相容性複合體類型二結合上的自體相似性、與已知抗原的同源性以及主要組織相容性複合體類型二抗原呈現模型的預測數值作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的Logistic Regression套件來預測胜肽鏈引起CD4+ T細胞免疫反應的能力。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表2中所揭示。

在完成模型訓練後，如實施例5中所揭示，我們從Ott P等人的研究中蒐集有標註CD4+ T細胞免疫反應結果的資料作為測試資料來測試所述模型。我們將測試資料中的每個胜肽鏈如前所述進行特徵計算並且以所計算出的特徵和所訓練出的參數來計算所述模型的預測數值。其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖5A所揭示。

實施例10：以胜肽鏈之免疫性以及實施例1中訓練的模型所計算出的預測數值來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。

一個抗原決定位要能引起CD8+ T細胞的免疫反應需要能先被主要組織相容性複合體類型一呈現出來給CD8+ T細胞辨識。在本實施例中，我們考慮了胜肽鏈引起免疫反應的能力以及如實施例1中的模型所揭示的胜肽鏈被主要組織相容性複合體類型一呈現的能力並且以所選特徵建構出一個模型來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。

我們以影響胜肽鏈被CD8+ T細胞辨識的特性以及影響胜肽鏈被主要組織相容性複合體類型一呈現的特性來建構出一個用以預測胜肽鏈引起CD8+ T細胞免疫反應能力之模型。所述特性為胜肽鏈之免疫性以及實施例1中揭示之主要組織相容性複合體類型一抗原呈現模型所計算出的預測數值。我們以實施例6中所揭示的方式來計算胜肽鏈之免疫性。為了要計算所述主要組織相容性複合體類型一抗原呈現模型的預測數值，我們以實施例1中所揭示的方式來計算胜肽鏈和主要組織相容性複合體類型一的結合親和力以及結合穩定性，並且我們以前述計算出的特徵以及實施例1中所訓練出的參數來計算所述主要組織相容性複合體類型一抗原呈現模型的預測數值。如實施例6中所揭示，我們從IEDB資料庫中，蒐集有標註CD8+ T細胞免疫反應結果的資料作為訓練資料來訓練機器學習模型以預測胜肽鏈引起CD8+ T細胞免疫反應的能力。其資料篩選方式如實施例6中所揭示。我們以胜肽鏈之免疫性以及主要組織相容性複合體類型一抗原呈現模型的預測數值作為特徵來建構邏輯迴歸模型，並且利用Scikit-learn中的LogisticRegression套件來預測胜肽鏈引起CD8+ T細胞免疫反應的能力。在執行十次交叉驗證後，訓練資料中測試資料集的預測準確度及接收者操作特徵曲線下面積如表2中所揭示。在此模型中，我們發現主要組織相容性複合體類型一抗原呈現模型的預測數值對於預測結果的影響力比所述特徵胜肽鏈之免疫性還要強。

在完成模型訓練後，如實施例6中所揭示，我們從Ott P等人的研究中蒐集有標註CD8+ T細胞免疫反應結果的資料作為測試資料來測試所述模型。我們將測試資料中的每個胜肽鏈如前所述進行特徵計算並且以所計算出的特徵和所訓練出的參數來計算所述模型的預測數值。其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖5B所揭示。

實施例11：以實施例1及實施例4~6中所揭示的抗原呈現能力以及引起免疫反應能力來預測一個胜肽鏈是否為一個免疫原(immunogen)。

一個胜肽鏈若要能成為一個免疫原而能引起免疫反應需要具備能被主要組織相容性複合體類型一和主要組織相容性複合體類型二呈現的能力以及能引起CD4+ T細胞和CD8+ T細胞免疫反應的能力。因此在本實施例中，我們整合實施例1及實施例4~6中所揭示的內容並計算胜肽鏈級數值(peptide-level score)來預測所述胜肽鏈是否為免疫原。

我們藉由整合實施例1和實施例4中抗原呈現能力的資訊以及實施例5和實施例6中引起CD4+ T細胞和CD8+ T細胞免疫反應能力的資訊建構了一個整合模型組來計算胜肽鏈級數值。胜肽鏈級數值代表了一個胜肽鏈能被主要組織相容性複合體類型一和主要組織相容性複合體類型二呈現的能力以及能引起CD4+ T細胞和CD8+ T細胞免疫反應的能力。我們藉由將實施例1及實施例4~6中每個所揭示模型的預測數值相乘來計算胜肽鏈級數值。需要注意的是，在執行主要組織相容性複合體類型二呈現預測以及CD4+ T細胞免疫反應預測時的胜肽鏈長度會長於執行主要組織相容性複合體類型一呈現預測以及CD8+ T細胞免疫反應預測時的胜肽鏈長度。為了解決這個問題，我們對每個可能的較長胜肽鏈且所述較長胜肽鏈須包含CD8+ T細胞免疫反應預測中的較短胜肽鏈，去計算其在主要組織相容性複合體類型二呈現預測以及在CD4+ T細胞免疫反應預測中的特徵，並從所述較長胜肽鏈及其特徵中選出引起CD4+ T細胞免疫反應能力最強的胜肽鏈及其特徵來整合CD4+ T細胞和CD8+ T細胞間免疫反應預測的資訊。我們從Patrick A.Ott等人的研究中蒐集有標註CD8+ T細胞免疫反應結果的資料作為測試資料來測試所述胜肽鏈級數值。我們計算測試資料中每個胜肽鏈的胜肽鏈級數值，而其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖6A所揭示。

實施例12：以實施例7~8中所揭示的抗原呈現能力以及引起免疫反應能力來預測一個胜肽鏈是否為一個免疫原。

同理實施例11，要預測一個胜肽鏈為一個免疫原，所述胜肽鏈需要具備能被主要組織相容性複合體類型一和主要組織相容性複合體類型二呈現的能力以及能引起CD4+ T細胞和CD8+ T細胞免疫反應的能力。在本實施例中，我們整合實施例7~8中所揭示的內容並計算胜肽鏈級數值來預測所述胜肽鏈是否為免疫原。

我們藉由整合實施例7~8中抗原呈現能力的資訊以及引起免疫反應能力的資訊建構了一個整合模型組來計算胜肽鏈級數值。胜肽鏈級數值代表了一個胜肽鏈能被主要組織相容性複合體類型一和主要組織相容性複合體類型二呈現的能力以及能引起CD4+ T細胞和CD8+ T細胞免疫反應的能力。我們藉由將實施例7~8中每個所揭示模型的預測數值相乘來計算胜肽鏈級數值。需要注意的是，在執行主要組織相容性複合體類型二呈現預測以及CD4+ T細胞免疫反應預測時的胜肽鏈長度會長於執行主要組織相容性複合體類型一呈現預測以及CD8+ T細胞免疫反應預測時的胜肽鏈長度。為了解決這個問題，我們對每個可能的較長胜肽鏈且所述較長胜肽鏈須包含CD8+ T細胞免疫反應預測中的較短胜肽鏈，去計算其在主要組織相容性複合體類型二呈現預測以及在CD4+ T細胞免疫反應預測中的特徵，並從所述較長胜肽鏈及其特徵中選出引起CD4+ T細胞免疫反應能力最強的胜肽鏈及其特徵來整合CD4+ T細胞和CD8+ T細胞間免疫反應預測的資訊。我們從Patrick A.Ott等人的研究中蒐集有標註CD8+ T細胞免疫反應結果的資料作為測試資料來測試所述胜肽鏈級數值。我們計算測試資料中每個胜肽鏈的胜肽鏈級數值，而其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖6B所揭示。

實施例13：以實施例9~10中所揭示的抗原呈現能力以及引起免疫反應能力來預測一個胜肽鏈是否為一個免疫原。

同理實施例11，要預測一個胜肽鏈為一個免疫原，所述胜肽鏈需要具備能被主要組織相容性複合體類型一和主要組織相容性複合體類型二呈現的能力以及能引起CD4+ T細胞和CD8+ T細胞免疫反應的能力。在本實施例中，我們整合實施例9~10中所揭示的內容並計算胜肽鏈級數值來預測所述胜肽鏈是否為免疫原。

我們藉由整合實施例9~10中抗原呈現能力的資訊以及引起免疫反應能力的資訊建構了一個整合模型組來計算胜肽鏈級數值。胜肽鏈級數值代表了一個胜肽鏈能被主要組織相容性複合體類型一和主要組織相容性複合體類型二呈現的能力以及能引起CD4+ T細胞和CD8+ T細胞免疫反應的能力。我們藉由將實施例9~10中每個所揭示模型的預測數值相乘來計算胜肽鏈級數值。需要注意的是，在執行主要組織相容性複合體類型二呈現預測以及CD4+ T細胞免疫反應預測時的胜肽鏈長度會長於執行主要組織相容性複合體類型一呈現預測以及CD8+ T細胞免疫反應預測時的胜肽鏈長度。為了解決這個問題，我們對每個可能的較長胜肽鏈且所述較長胜肽鏈須包含CD8+ T細胞免疫反應預測中的較短胜肽鏈，去計算其在主要組織相容性複合體類型二呈現預測以及在CD4+ T細胞免疫反應預測中的特徵，並從所述較長胜肽鏈及其特徵中選出引起CD4+ T細胞免疫反應能力最強的胜肽鏈及其特徵來整合CD4+ T細胞和CD8+ T細胞間免疫反應預測的資訊。我們從Patrick A.Ott等人的研究中蒐集有標註CD8+ T細胞免疫反應結果的資料作為測試資料來測試所述胜肽鏈級數值。我們計算測試資料中每個胜肽鏈的胜肽鏈級數值，而其陽性反應和陰性反應資料各自的預測數值盒形圖以及所述兩筆資料之預測數值分布利用獨立雙樣本中位數差異檢定所計算出來的p值如圖6C所揭示。

實施例14：以胜肽鏈級數值從病人檢體中將胜肽鏈作為免疫原進行判斷、評分、排名與評估。

為了將一個病人的胜肽鏈作為免疫原進行判斷、評分、排名與評估，我們從Ott P等人的研究中獲取胜肽鏈資料並以我們的評分方法來比較所述胜肽鏈資料。Ott P等人根據6個黑色素瘤病人的突變從中設計出免疫長胜肽鏈(immunizing longpeptides,IMP)，並以實驗測試所述免疫長胜肽鏈在免疫細胞上的致免疫性。所述免疫長胜肽鏈其胺基酸長度介於15~30之間，用以測試CD8+ T細胞免疫反應的胜肽鏈則較短，其胺基酸長度為9~10，而能引起免疫反應的胜肽鏈則在測試後被辨識出來。因此我們從免疫長胜肽鏈中獲取胺基酸長度為9~10、帶有突變的胺基酸位點、較短且重疊的胜肽鏈，並以實施例11~13中所揭示的方法來計算每個病人的所述較短胜肽鏈的胜肽鏈級數值。因為50為一個在疫苗胜肽鏈數量選擇上常見的數字，所以我們挑選出了胜肽鏈級數值前50高的胜肽鏈。以實施例12中揭示的方法所計算出1號病人的資料如表3中所揭示，而每個病人以實施例11~13所揭示的方法來計算出的前50名胜肽鏈中，其能引起CD8+ T細胞免疫反應的胜肽鏈數量如圖7所揭示。

實施例15：從突變等位基因(mutated allele)的群落性(clonality)來判斷樣本級數值(sample-level score)。

我們計算樣本特異資料中突變等位基因的群落性。我們從每個病人身上取得福馬林固定石蠟包埋(formalin-fixed paraffin-embedded,FFPE)組織樣本及配對的周邊血液單核細胞(peripheral blood mononuclear cell)樣本，使用QIAamp® DNA FFPE Tissue試劑組(QIAGENR,Hilden,Germany)從樣本中抽取基因體DNA，將抽取出的DNA針對18,136組擴增子(amplicon)位置進行多重PCR放大，且其外顯子組(exome)利用Ion Proton^TM(Thermo Fisher Scientific,Waltham,MA)系統以及Ion PI晶片(Thermo Fisher Scientific,Waltham,MA)並接著以廠商推薦的規程進行定序。在定序之後，我們將原始測序片段透過廠商提供的Torrent Variant Caller v.4.4軟體(TVC)進行處理並產生.bam和.vcf檔案，TVC軟體也計算出了每個變異的變異頻率，而所述變異則利用Variant Effect Predictor v. 74軟體進行標註，我們接著利用dbSNP 138資料庫、1000Genome資料庫以及正常的配對血液樣本過濾掉單核苷酸多型性(single nucleotide polymorphism,SNP)及生殖細胞突變(germline mutation)，剩餘的變異則以人工方式進行檢查。我們利用ONCOCNV軟體及ADTEx軟體分別從.bam檔案中判斷出其拷貝數(copy number)及腫瘤純度(tumor purity)，而異質性喪失(loss of heterozygosity,LOH)的判斷則定為福馬林固定石蠟包埋樣本及正常的配對血液樣本中同一單核苷酸多型性位點其等位基因頻率(allele frequency)差異大於8%。

突變等位基因其群落性之判斷方式為先基於所述突變等位基因之期望等位基因頻率值(expected allele frequency)和觀察等位基因頻率值(observed allele frequency)之間差異的統計顯著性來給定所述突變等位基因數量的期望值，並接著估算其亞群落純度(subclonal purity)。所述期望等位基因頻率值之計算方式(McGranahanet al.,Science(2016)Mar 25；351(6280)：1463-9)如下所揭示：

其中AFexpected表示期望等位基因頻率值，t表示腫瘤變異之狀況條件，p表示腫瘤純度，C表示拷貝數，n表示正常狀況條件，M表示突變等位基因數量。M值的給定為基於將期望等位基因頻率值和觀察等位基因頻率值之間的差異以卡方檢定(χ 2 test)進行統計顯著性檢定，並給定檢定結果中和觀察等位基因頻率值最接近的期望等位基因頻率值之情況下所對應的M值，其中期望等位基因頻率值如表4中所揭示(由Sun等人的研究(Sun et al.,CancerRes(2014)74(19S)：1893)中修改而來)。

使用給定的M值，亞群落純度s之計算方式如下所揭示：

我們以亞群落純度除以腫瘤純度來計算樣本級數值，所述樣本級數值即代表突變等位基因在腫瘤組織中實際的量，樣本級數值之計算方式如下所揭示：sample-level score=s/p

需要注意的是當觀察等位基因頻率值大於期望等位基因頻率值時，我們假設此變異為一個群落突變(clonal mutation)而不進行卡方統計檢定，此外在此情況下，亞群落純度會大於腫瘤純度，因而直接給定樣本級數值為1。一個樣本的樣本級數值資料如表5中所揭示。

實施例16：以胜肽鏈級數值和樣本級數值從癌症樣本中將胜肽鏈作為免疫原進行判斷、評分與排名。

為了將一個癌症樣本的胜肽鏈作為免疫原進行判斷、評分與排名，我們從所述癌症樣本中獲取胜肽鏈資料並將我們的評分方法應用在所述胜肽鏈資料上，所述樣本之外顯子組定序流程如實施例15所揭示。在確認了所述樣本中的體細胞突變後，我們獲取了胺基酸長度為8~23且帶有突變胺基酸位點的胜肽鏈，接著將所述胜肽鏈以實施例12中所揭示的方法計算胜肽鏈級數值以及以實施例15中所揭示的方法計算樣本級數值。為了整合胜肽鏈以及樣本相關的資訊來將胜肽鏈作為免疫原進行排名，我們將每個胜肽鏈的胜肽鏈級數值和樣本級數值相乘來計算其致免疫性數值(immunogenic score)。在一個胃癌的樣本中，所選致免疫性數值前50高的胜肽鏈資料如表6中所揭示。

圖1為系統流程圖。呈現系統進行運算時的整體流程和主要步驟。

圖2為輸入和輸出流程圖。本系統需輸入次世代定序分析所產出的變異和樣本資訊以及主要組織相容性複合體資訊。本系統會輸出胜肽鏈序列、胜肽鏈級數值、樣本級數值、致免疫性排名。

圖3A〜3B為依據T細胞特徵比較免疫反應，即有免疫反應及無反應的胜肽鏈級數值分佈；圖3A為實施例5的特徵包含CD4+細胞相關的自體相似性和抗原同源性；圖3B為實施例6的特徵包含CD8+免疫性。上述圖中p值是由獨立雙樣本中位數差異檢定所計算出來。

圖4A〜3B為依據抗原表現特徵和T細胞特徵比較免疫反應，即有免疫反應及無反應的胜肽鏈級數值分佈；圖4A為實施例7的特徵包含CD4+細胞相關的自體相似性、抗原同源性和實施例4的特徵；圖4B為實施例8的特徵包含CD8+相關的CD8+免疫性和實施例1的特徵。以上圖中p值是由獨立雙樣本中位數差異檢定所計算出來。

圖5A〜5B為依據抗原預測數值和T細胞特徵比較免疫反應。有免疫反應及無反應的胜肽鏈級數值分佈；A）實施例9的特徵包含CD4+細胞相關的自體相似性、抗原同源性和實施例4的模型所預測的數值；B）實施例10的特徵包含CD8+相關的CD8+免疫性和實施例1的模型所預測的數值。圖中p值是由獨立雙樣本中位數差異檢定所計算出來。

圖6A〜6B、依據抗原表現資訊和兩種T細胞特徵比較免疫反應。有免疫反應及無反應的胜肽鏈級數值分佈；圖6A為實施例11包含實施例5和實施例6；圖6B為實施例8包含實施例9和實施例10。

圖7為前50名胜肽鏈級數值所包含的有反應的胜肽鏈。長條圖表示實驗證實有CD8+反應的胜肽鏈數量，所述之胜肽鏈同時在前50名胜肽鏈級數值中。每一張圖代表一位病人。虛線代表每位病人中有免疫反應的胜肽鏈的總數。

SEQUENCE LISTING<110> 行動基因生技股份有限公司 <120> 致免疫性之癌症特異抗原決定位的排名系統<130> ACTG-1TW1<140> TW107111453<141> 2018-03-31<150> US62/479,320<151> 2017-03-31<160> 100 <170> PatentIn version 3.5<210> 1<211> 9<212> PRT<213> synthetic sequence<400> 1Lys Leu Lys Phe Val Thr Leu Val Phe 1 5 <210> 2<211> 10<212> PRT<213> synthetic sequence<400> 2Arg Phe Leu Glu Tyr Leu Pro Leu Arg Phe 1 5 10 <210> 3<211> 10<212> PRT<213> synthetic sequence<400> 3Val Gln Lys Val Ala Ser Lys Ile Pro Phe 1 5 10 <210> 4<211> 9<212> PRT<213> synthetic sequence<400> 4Thr Leu Phe His Thr Phe Tyr Glu Leu 1 5 <210> 5<211> 10<212> PRT<213> synthetic sequence<400> 5Thr Leu Phe His Thr Phe Tyr Glu Leu Leu 1 5 10 <210> 6<211> 9<212> PRT<213> synthetic sequence<400> 6Lys Phe Gly Asp Leu Thr Asn Asn Phe 1 5 <210> 7<211> 9<212> PRT<213> synthetic sequence<400> 7Pro Arg Glu Glu Phe Leu Arg Leu Cys 1 5 <210> 8<211> 9<212> PRT<213> synthetic sequence<400> 8Lys Leu Phe Glu Ser Lys Ala Glu Leu 1 5 <210> 9<211> 9<212> PRT<213> synthetic sequence<400> 9Leu Cys Pro Arg Glu Glu Phe Leu Arg 1 5 <210> 10<211> 10<212> PRT<213> synthetic sequence<400> 10Pro Phe Pro Asp Arg Ile Thr Glu Glu Ser 1 5 10 <210> 11<211> 9<212> PRT<213> synthetic sequence<400> 11Val Leu Ala Lys Lys Leu Lys Phe Val 1 5 <210> 12<211> 9<212> PRT<213> synthetic sequence<400> 12Lys Lys Lys Trp Phe Leu Phe Gln Asp 1 5 <210> 13<211> 9<212> PRT<213> synthetic sequence<400> 13Pro Phe Pro Asp Arg Ile Thr Glu Glu 1 5 <210> 14<211> 9<212> PRT<213> synthetic sequence<400> 14His Thr Glu Leu Glu Arg Phe Leu Glu 1 5 <210> 15<211> 10<212> PRT<213> synthetic sequence<400> 15Lys Leu Phe Glu Ser Lys Ala Glu Leu Ala 1 5 10 <210> 16<211> 9<212> PRT<213> synthetic sequence<400> 16Thr Glu Leu Glu Arg Phe Leu Glu Tyr 1 5 <210> 17<211> 9<212> PRT<213> synthetic sequence<400> 17Leu Leu His Thr Glu Leu Glu Arg Phe 1 5 <210> 18<211> 9<212> PRT<213> synthetic sequence<400> 18Phe Pro Asp Arg Ile Thr Glu Glu Ser 1 5 <210> 19<211> 10<212> PRT<213> synthetic sequence<400> 19Val Ser Val Gly Asp Phe Ser Gln Glu Phe 1 5 10 <210> 20<211> 10<212> PRT<213> synthetic sequence<400> 20Ile Pro Phe Pro Asp Arg Ile Thr Glu Glu 1 5 10 <210> 21<211> 10<212> PRT<213> synthetic sequence<400> 21Cys Pro Arg Glu Glu Phe Leu Arg Leu Cys 1 5 10 <210> 22<211> 9<212> PRT<213> synthetic sequence<400> 22Ala Leu Phe Ala Ser Arg Pro Arg Phe 1 5 <210> 23<211> 9<212> PRT<213> synthetic sequence<400> 23Phe Leu Phe Gln Asp Ser Lys Lys Ile 1 5 <210> 24<211> 9<212> PRT<213> synthetic sequence<400> 24Asp Lys Leu Phe Glu Ser Lys Ala Glu 1 5 <210> 25<211> 10<212> PRT<213> synthetic sequence<400> 25Ser Lys Lys Lys Trp Phe Leu Phe Gln Asp 1 5 10 <210> 26<211> 9<212> PRT<213> synthetic sequence<400> 26Ile Pro Phe Pro Asp Arg Ile Thr Glu 1 5 <210> 27<211> 9<212> PRT<213> synthetic sequence<400> 27Gly Gly Ala Leu Phe Ala Ser Arg Pro 1 5 <210> 28<211> 10<212> PRT<213> synthetic sequence<400> 28Leu His Thr Glu Leu Glu Arg Phe Leu Glu 1 5 10 <210> 29<211> 9<212> PRT<213> synthetic sequence<400> 29Leu Ser Pro Arg Glu Glu Phe Leu Arg 1 5 <210> 30<211> 10<212> PRT<213> synthetic sequence<400> 30Ser Pro Arg Glu Glu Phe Leu Arg Leu Cys 1 5 10 <210> 31<211> 9<212> PRT<213> synthetic sequence<400> 31Val Gly Asp Phe Ser Gln Glu Phe Ser 1 5 <210> 32<211> 10<212> PRT<213> synthetic sequence<400> 32Lys Lys Lys Trp Phe Leu Phe Gln Asp Ser 1 5 10 <210> 33<211> 10<212> PRT<213> synthetic sequence<400> 33Asp Ser Gly Ile Pro Glu Asn Ser Phe Asn 1 5 10 <210> 34<211> 10<212> PRT<213> synthetic sequence<400> 34Val Gly Asp Phe Ser Gln Glu Phe Ser Pro 1 5 10 <210> 35<211> 10<212> PRT<213> synthetic sequence<400> 35Arg Gly Gly Ala Leu Phe Ala Ser Arg Pro 1 5 10 <210> 36<211> 9<212> PRT<213> synthetic sequence<400> 36Ser Val Gly Asp Phe Ser Gln Glu Phe 1 5 <210> 37<211> 9<212> PRT<213> synthetic sequence<400> 37Leu Ala Asp Ser Gly Ile Pro Glu Asn 1 5 <210> 38<211> 9<212> PRT<213> synthetic sequence<400> 38Lys Lys Leu Lys Phe Val Thr Leu Val 1 5 <210> 39<211> 10<212> PRT<213> synthetic sequence<400> 39Ser Lys Ile Pro Phe Pro Asp Arg Ile Thr 1 5 10 <210> 40<211> 9<212> PRT<213> synthetic sequence<400> 40Gly Ile Pro Glu Asn Ser Phe Asn Val 1 5 <210> 41<211> 9<212> PRT<213> synthetic sequence<400> 41Lys Ile Pro Phe Pro Asp Arg Ile Thr 1 5 <210> 42<211> 9<212> PRT<213> synthetic sequence<400> 42Gly Lys Phe Gly Asp Leu Thr Asn Asn 1 5 <210> 43<211> 9<212> PRT<213> synthetic sequence<400> 43Asp Ser Asp Lys Leu Phe Glu Ser Lys 1 5 <210> 44<211> 9<212> PRT<213> synthetic sequence<400> 44Glu Asp Ser Asp Lys Leu Phe Glu Ser 1 5 <210> 45<211> 10<212> PRT<213> synthetic sequence<400> 45Leu Leu His Thr Glu Leu Glu Arg Phe Leu 1 5 10 <210> 46<211> 10<212> PRT<213> synthetic sequence<400> 46Arg Arg Gly Gly Ala Leu Phe Ala Ser Arg 1 5 10 <210> 47<211> 9<212> PRT<213> synthetic sequence<400> 47Ile Pro Glu Asn Ser Phe Asn Val Ser 1 5 <210> 48<211> 9<212> PRT<213> synthetic sequence<400> 48Ala Ser Lys Ile Pro Phe Pro Asp Arg 1 5 <210> 49<211> 10<212> PRT<213> synthetic sequence<400> 49Leu Phe His Thr Phe Tyr Glu Leu Leu Ile 1 5 10 <210> 50<211> 10<212> PRT<213> synthetic sequence<400> 50Ile Leu Leu His Thr Glu Leu Glu Arg Phe 1 5 10 <210> 51<211> 21<212> PRT<213> synthetic sequence<400> 51Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile Leu Val Pro Leu 1 5 10 15 Leu Pro His His Trp 20 <210> 52<211> 17<212> PRT<213> synthetic sequence<400> 52Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile Leu Val Pro Leu 1 5 10 15 Leu <210> 53<211> 23<212> PRT<213> synthetic sequence<400> 53His Pro Leu Gln Ile Val Ala Trp Leu Leu Tyr Leu Phe Phe Ala Val 1 5 10 15 Ile Gly Phe Glu Ile Leu Val 20 <210> 54<211> 21<212> PRT<213> synthetic sequence<400> 54Arg Val Asn Phe Arg Arg Glu Lys Val Ile Glu Thr Pro Glu Asn Asp 1 5 10 15 Phe Lys His His Arg 20 <210> 55<211> 12<212> PRT<213> synthetic sequence<400> 55Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile 1 5 10 <210> 56<211> 9<212> PRT<213> synthetic sequence<400> 56Ser Thr Leu Thr Trp His Gln Ala Arg 1 5 <210> 57<211> 13<212> PRT<213> synthetic sequence<400> 57Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile Leu 1 5 10 <210> 58<211> 22<212> PRT<213> synthetic sequence<400> 58Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile Leu Val Pro Leu 1 5 10 15 Leu Pro His His Trp Val 20 <210> 59<211> 12<212> PRT<213> synthetic sequence<400> 59Lys Met Gln Glu Cys Phe Gln Lys Ala Phe Phe Arg 1 5 10 <210> 60<211> 14<212> PRT<213> synthetic sequence<400> 60Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile Leu Val 1 5 10 <210> 61<211> 18<212> PRT<213> synthetic sequence<400> 61Arg Val Asn Phe Arg Arg Glu Lys Val Ile Glu Thr Pro Glu Asn Asp 1 5 10 15 Phe Lys <210> 62<211> 20<212> PRT<213> synthetic sequence<400> 62Ala Trp Leu Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile Leu 1 5 10 15 Val Pro Leu Leu 20 <210> 63<211> 18<212> PRT<213> synthetic sequence<400> 63Phe Phe Ala Val Ile Gly Phe Glu Ile Leu Val Pro Leu Leu Pro His 1 5 10 15 His Trp <210> 64<211> 8<212> PRT<213> synthetic sequence<400> 64Arg Val Asn Phe Arg Arg Glu Lys 1 5 <210> 65<211> 21<212> PRT<213> synthetic sequence<400> 65Met Tyr Thr Leu Asn Phe Ala Cys Cys Asp Val Val Gly Leu Ala Ala 1 5 10 15 Val Arg Phe Phe Leu 20 <210> 66<211> 8<212> PRT<213> synthetic sequence<400> 66Thr Leu Thr Trp His Gln Ala Arg 1 5 <210> 67<211> 18<212> PRT<213> synthetic sequence<400> 67Lys Leu Val Pro Leu Val Gln Ala Ala Phe Pro Glu Asn Ala Val Thr 1 5 10 15 Lys Arg <210> 68<211> 10<212> PRT<213> synthetic sequence<400> 68Lys Ser Thr Leu Thr Trp His Gln Ala Arg 1 5 10 <210> 69<211> 15<212> PRT<213> synthetic sequence<400> 69Ala Trp Leu Leu Tyr Leu Phe Phe Ala Val Ile Gly Phe Glu Ile 1 5 10 15 <210> 70<211> 20<212> PRT<213> synthetic sequence<400> 70Lys Ser Lys Leu Val Pro Leu Val Gln Ala Ala Phe Pro Glu Asn Ala 1 5 10 15 Val Thr Lys Arg 20 <210> 71<211> 21<212> PRT<213> synthetic sequence<400> 71Ala Leu Phe Gly Val Val Leu Gly Arg Met Glu Thr Val Cys Ser Pro 1 5 10 15 Phe Thr Ala Ala Arg 20 <210> 72<211> 17<212> PRT<213> synthetic sequence<400> 72Val Val Leu Gly Arg Met Glu Thr Val Cys Ser Pro Phe Thr Ala Ala 1 5 10 15 Arg <210> 73<211> 18<212> PRT<213> synthetic sequence<400> 73Lys Leu Tyr Val Leu Gly Ser Val Leu Ala Leu Phe Gly Val Val Leu 1 5 10 15 Gly Arg <210> 74<211> 10<212> PRT<213> synthetic sequence<400> 74Ser Thr Leu Thr Trp His Gln Ala Arg Lys 1 5 10 <210> 75<211> 20<212> PRT<213> synthetic sequence<400> 75Val Val Leu Gly Arg Met Glu Thr Val Cys Ser Pro Phe Thr Ala Ala 1 5 10 15 Arg Arg Leu Arg 20 <210> 76<211> 9<212> PRT<213> synthetic sequence<400> 76Lys Thr Ser Ala Pro Leu Ile Arg Arg 1 5 <210> 77<211> 20<212> PRT<213> synthetic sequence<400> 77Met Tyr Thr Leu Asn Phe Ala Cys Cys Asp Val Val Gly Leu Ala Ala 1 5 10 15 Val Arg Phe Phe 20 <210> 78<211> 13<212> PRT<213> synthetic sequence<400> 78Val Pro Leu Val Gln Ala Ala Phe Pro Glu Asn Ala Val 1 5 10 <210> 79<211> 13<212> PRT<213> synthetic sequence<400> 79Lys Met Gln Glu Cys Phe Gln Lys Ala Phe Phe Arg Lys 1 5 10 <210> 80<211> 19<212> PRT<213> synthetic sequence<400> 80Met Tyr Thr Leu Asn Phe Ala Cys Cys Asp Val Val Gly Leu Ala Ala 1 5 10 15 Val Arg Phe <210> 81<211> 9<212> PRT<213> synthetic sequence<400> 81Ala Leu Phe Gly Val Val Leu Gly Arg 1 5 <210> 82<211> 10<212> PRT<213> synthetic sequence<400> 82Ser Leu Thr Glu Lys Pro Trp Ala Leu Arg 1 5 10 <210> 83<211> 16<212> PRT<213> synthetic sequence<400> 83Lys Ser Ser Ala Asp Asp Glu Ile Glu Glu Thr Arg Val Asn Phe Arg 1 5 10 15 <210> 84<211> 11<212> PRT<213> synthetic sequence<400> 84Lys Tyr Leu Val Glu Ile Val Gln Glu Ser Trp 1 5 10 <210> 85<211> 21<212> PRT<213> synthetic sequence<400> 85Lys Met Val Lys Leu Tyr Val Leu Gly Ser Val Leu Ala Leu Phe Gly 1 5 10 15 Val Val Leu Gly Arg 20 <210> 86<211> 22<212> PRT<213> synthetic sequence<400> 86Ala Leu Phe Gly Val Val Leu Gly Arg Met Glu Thr Val Cys Ser Pro 1 5 10 15 Phe Thr Ala Ala Arg Arg 20 <210> 87<211> 22<212> PRT<213> synthetic sequence<400> 87Asp Glu Ile Glu Glu Thr Arg Val Asn Phe Arg Arg Glu Lys Val Ile 1 5 10 15 Glu Thr Pro Glu Asn Asp 20 <210> 88<211> 23<212> PRT<213> synthetic sequence<400> 88Met Tyr Thr Leu Asn Phe Ala Cys Cys Asp Val Val Gly Leu Ala Ala 1 5 10 15 Val Arg Phe Phe Leu Gly Leu 20 <210> 89<211> 18<212> PRT<213> synthetic sequence<400> 89Ser Thr Ser Ala Leu Ala Gly Pro Ser Leu Thr Glu Lys Pro Trp Ala 1 5 10 15 Leu Arg <210> 90<211> 22<212> PRT<213> synthetic sequence<400> 90Lys Tyr Met Trp Lys Leu Leu Arg Gln Asp Gln Gln Ser Ile Ile Leu 1 5 10 15 Val Asn Asp Ser Glu Ile 20 <210> 91<211> 23<212> PRT<213> synthetic sequence<400> 91Asp Asp Glu Ile Glu Glu Thr Arg Val Asn Phe Arg Arg Glu Lys Val 1 5 10 15 Ile Glu Thr Pro Glu Asn Asp 20 <210> 92<211> 13<212> PRT<213> synthetic sequence<400> 92Arg Met Glu Thr Val Cys Ser Pro Phe Thr Ala Ala Arg 1 5 10 <210> 93<211> 15<212> PRT<213> synthetic sequence<400> 93Lys Met Gln Glu Cys Phe Gln Lys Ala Phe Phe Arg Lys Pro Lys 1 5 10 15 <210> 94<211> 8<212> PRT<213> synthetic sequence<400> 94Lys Thr Ser Ala Pro Leu Ile Arg 1 5 <210> 95<211> 20<212> PRT<213> synthetic sequence<400> 95Met Val Lys Leu Tyr Val Leu Gly Ser Val Leu Ala Leu Phe Gly Val 1 5 10 15 Val Leu Gly Arg 20 <210> 96<211> 23<212> PRT<213> synthetic sequence<400> 96Val Leu Ala Leu Phe Gly Val Val Leu Gly Arg Met Glu Thr Val Cys 1 5 10 15 Ser Pro Phe Thr Ala Ala Arg 20 <210> 97<211> 15<212> PRT<213> synthetic sequence<400> 97Val Asn Phe Arg Arg Glu Lys Val Ile Glu Thr Pro Glu Asn Asp 1 5 10 15 <210> 98<211> 23<212> PRT<213> synthetic sequence<400> 98Ala Asp Asp Glu Ile Glu Glu Thr Arg Val Asn Phe Arg Arg Glu Lys 1 5 10 15 Val Ile Glu Thr Pro Glu Asn 20 <210> 99<211> 15<212> PRT<213> synthetic sequence<400> 99Ala Leu Ala Gly Pro Ser Leu Thr Glu Lys Pro Trp Ala Leu Arg 1 5 10 15 <210> 100<211> 12<212> PRT<213> synthetic sequence<400> 100Ser Val Leu Ala Leu Phe Gly Val Val Leu Gly Arg 1 5 10

Claims

一種篩選至少一個致免疫性且具突變資訊的胜肽鏈之方法，其步驟包括：(a)取得複數個具突變資訊之序列；(b)從疾病相關的突變中判斷出至少一個抗原決定位；(c)將與所述至少一個抗原決定位之免疫性相關之複數個特徵整合，其中所述複數個特徵包含可用來計算胜肽鏈級數值(peptide-level score)之特徵以及可用來計算樣本級數值(sample-level score)之特徵，且其中可用來計算樣本級數值之特徵包含所述疾病相關突變之群落性(clonality)；(d)決定所述複數個特徵之重要性；(e)以所述複數個特徵之重要性決定所述至少一個抗原決定位之致免疫性數值；(f)將所述至少一個抗原決定位排名；以及(g)依所述(f)中的排名結果來選擇所述致免疫性且具突變資訊之胜肽鏈，其中所述致免疫性且具突變資訊之胜肽鏈包含至少一個抗原決定位且其可能可引起T細胞免疫反應。
如請求項1所述之方法，其中所述步驟(c)~(e)為利用機器學習模型達成。
如請求項1所述之方法，其中被選擇所述抗原決定位之數量為≦100。
如請求項3所述之方法，其中被選擇所述抗原決定位之數量為≦50。
如請求項4所述之方法，其中被選擇所述抗原決定位數量為≦30。
如請求項5所述之方法，其中被選擇所述抗原決定位數量為≦10。
如請求項5所述之方法，其中被選擇所述抗原決定位之數量為10~30。
如請求項1所述之方法，其中所述複數個特徵與所述抗原決定位在主要組織相容性複合體(major histocompatibility complex，MHC)類型一及類型二上的呈現有關。
如請求項8所述之方法，其中被選擇所述抗原決定位與所述主要組織相容性複合體類型一的結合親和力(binding affinity)之半數抑制濃度值(IC50)為<1500(nM)。
如請求項8或9所述之方法，其中所述複數個特徵包含所述抗原決定位和所述主要組織相容性複合體類型一之結合穩定性(binding stability)。
如請求項8所述之方法，其中所述複數個特徵包含蛋白質量、基因表現量或上述兩者之組合。
如請求項1所述之方法，其中所述複數個特徵與所述抗原決定位引起胞殺性T細胞(cytotoxic T cell)免疫反應的能力有關。
如請求項1所述之方法，其中所述複數個特徵與所述抗原決定位引起輔助性T細胞(helper T cell)免疫反應的能力有關。
如請求項12或13所述之方法，其中所述複數個特徵包含所述抗原決定位與其自體胜肽鏈的相似性。
如請求項12或13所述之方法，其中所述複數個特徵包含所述抗原決定位與已知抗原的同源性。
如請求項1所述之方法，其中所述突變之變異頻率(variant frequency)為至少10%。
如請求項16所述之方法，其中所述突變之變異頻率(variant frequency)為至少30%。
如請求項1所述之方法，其中所述突變之拷貝數(copy number)為至少2。
如請求項1所述之方法，其中所述複數個特徵包含異質性喪失(loss of heterozygosity)。
如請求項1所述之方法，其中所述複數個特徵包含等位基因量(allele dosage)。
如請求項1所述之方法，其中所述致免疫性數值是由整合所述複數個特徵計算而來，所述複數個特徵包含所述抗原決定位在主要組織相容性複合體類型一及類型二上的呈現能力、所述抗原決定位引起輔助性及胞殺性T細胞免疫反應的能力以及所述疾病相關突變之群落性。
一種篩選至少一個致免疫性且具突變資訊的胜肽鏈之系統，其中所述系統使用篩選步驟包括：(a)取得複數個具突變資訊之序列；(b)從疾病相關的突變中決定出至少一個抗原決定位； (c)將與所述至少一個抗原定位之免疫性相關之複數個特徵整合，其中所述複數個特徵包含可用來計算胜肽鏈級數值(peptide-level score)之特徵以及可用來計算樣本級數值(sample-level score)之特徵，且其中可用來計算樣本級數值之特徵包含所述疾病相關突變之群落性(clonality)；(d)決定所述複數個特徵之重要性；(e)以所述複數個特徵之重要性決定所述至少一個抗原決定位之致免疫性數值；(f)將所述至少一個抗原決定位排名；以及(g)依所述(f)中的排名結果來選擇所述致免疫性且具突變資訊之胜肽鏈，其中所述至免疫性且具突變資訊之胜肽鏈包含至少一個抗原決定位且其可能可引起T細胞免疫反應。