TWI815572B

TWI815572B - 特定病毒的突變耐受表位的推估方法及系統

Info

Publication number: TWI815572B
Application number: TW111127788A
Authority: TW
Inventors: 陳逸庭; 黃星翰; 清詠林; 林庠豫; 王政堂
Original assignee: 美商圖策智能科技有限公司
Priority date: 2021-09-27
Filing date: 2022-07-25
Publication date: 2023-09-11
Also published as: US20230099381A1; TW202314728A

Abstract

一種特定病毒的突變耐受表位的推估方法方法是由電腦系統執行：根據基於特定病毒的大量病毒株的定序資料所分析出在每個棘蛋白位點發生每種突變型胺基酸的突變頻率、多筆有關於特定病毒且無突變胺基酸的多個棘蛋白-抗體複合物的蛋白質結構資料獲得在每個棘蛋白位點的接觸殘基之接觸殘基數量總和，以及在每個棘蛋白位點預測的每種突變型胺基酸獲得的熱點分數，獲得在每個棘蛋白位點的每種突變型胺基酸的突變效應分數；並且從根據所有突變效應分數所得到的突變效應表位圖可容易地推估出用於該特定病毒之疫苗設計的最佳突變耐受表位。

Description

特定病毒的突變耐受表位的推估方法及系統

本發明是有關於病毒的突變耐受表位(mutation-tolerable epitope)，特別是指一種特定病毒的突變耐受表位的推估方法及系統。

近兩年多來COVID-19在全球範圍內的大流行已產生廣泛影響。從首次出現新型冠狀病毒(SARS-CoV-2)以來，確實已經發生的相當大的演變，其包括世界衛生組織(以下簡稱WHO)定義出的主要關注的變異，例如英國的alpha (B.1.1.7)、南非的beta (B1.351)、美國加州的epsilon (B1.429)和巴西的gamma (P.1)。此外，WHO還在2021年5月將印度的delta (B.1617.2)變異歸類為受關注的變異，並顯示出delta變異具更高的傳播性和降低了中和性之證據。所有變異都包含位於棘蛋白(spike protein，俗稱S蛋白) 的受體結合區域(Receptor-Binding Domain，以下簡稱RBD)上的某些關鍵突變，例如K417N/T、L452R、T478K/Q、N501Y等。請注意，因為許多突變存在於NTD (N-Terminal Domain)的抗原超位點(antigenic-supersite)或與血管收縮素轉化酶2 (Angiotensin-Converting Enzyme 2，以下簡稱為ACE2) 的結合位點(其為有效病毒中和的主要目標抗原)，所以人們越來越擔心這些變異可能損害當前使用的疫苗或抗體療法的功效。然而，對於容易發生突變的新冠病毒而言，仍不清楚不同的變異如何影響疫苗的有效性。

因此，對於特定病毒，如何設計出能夠避免因不同變異所造成的免疫逃脫的突變耐受疫苗已成為相關技術領域所急欲解決的議題之一。

因此，本發明的目的，即在提供一種特定病毒的突變耐受表位的推估方法及系統，其能克服現有技術至少一個缺點。

於是，本發明所提供的一種特定病毒的突變耐受表位的推估方法係利用一電腦系統來執行，並包含以下步驟：根據接收到有關該特定病毒的N(N＞＞1)個病毒株(sequenced strains)的定序資料，獲得有關於該N個病毒株且在每個棘蛋白位點S _i(i=1,…,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸Amu _j(j=1,…,19)的突變頻率，其中代表在該棘蛋白位點S _i具有該種突變型胺基酸Amu _j的病毒株的數量；經由分析接收到的P(P＞1)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物的蛋白質結構資料，對於每個棘蛋白-抗體複合物CPX _k(k=1,…,P)，獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX _k的所有接觸殘基，其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å，並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點S _i的接觸殘基之接觸殘基數量總和，以獲得計算出有關於全部棘蛋白位點的所有接觸殘基數量總和；根據接收到的該P筆蛋白質結構資料且利用一預先建立的蛋白質結合自由能估測模型，對於每個棘蛋白-抗體複合物CPX _k中與每個棘蛋白位點S _i對應的棘蛋白-抗體界面，估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu _j的情況下的結合自由能且將估算出的P個結合自由能 ~ 其中之最大者確認為在該棘蛋白位點S _i突變成該突變型胺基酸Amu _j之情況的結合自由能，並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者，將該結合標準化以獲得代表該棘蛋白位點S _i的該種突變型胺基酸Amu _j的一熱點分數，其介於0~1之間；對於在每個棘蛋白位點S _i的每種突變型胺基酸Amu _j，根據該突變頻率、該接觸殘基數量總和、該所有接觸殘基數量總和中的最大者和最小者、及該熱點分數，估算出介於0~1之間的對應的突變效應分數；及根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖，並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域，在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。

在一些實施例中，上述的特定病毒的突變耐受表位的推估方法還包含以下步驟：輸出該突變效應表位圖和該最佳耐受表位。

在一些實施例中，該熱點分數被定義成，其中代表該所有結合自由能中的該最小者，且代表該所有估算結合自由能中的該最大者。

在一些實施例中，該突變效應分數被定義成，其中代表該所有接觸殘基數量總和中的該最小者，且代表該所有接觸殘基數量總和中的該最大者。

在一些實施例中，該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集，且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵，每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力，以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。

在一些實施例中，估算每個棘蛋白-抗體複合物CPX _k中在每個棘蛋白位點S _i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu _j的該結合自由能包含以下子步驟：從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPX _k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX _k所含有關於該棘蛋白位點S _i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料；根據胺基酸在側鏈二面角和旋轉方面的特性，獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu _j時該野生型胺基酸的旋轉角度資料；根據該原子三維座標資料和獲得的該旋轉角度資料，推算出該突變型胺基酸Amu _j的所有重原子之預估位置的三維座標，以獲得對應於該突變型胺基酸Amu _j的推算原子座標資料；根據該原子三維座標資料和獲得的該推算原子座標資料，計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu _j的任兩個重原子之間的歐幾里得距離和原子級能量，以獲得有關於該突變型胺基酸Amu _j的原子距離和原子交互作用力；及利用該蛋白質結合自由能估測模型，根據獲得的該原子距離和該原子交互作用力，以及該野生型胺基酸和該突變型胺基酸Amu _j的理化特性特徵資料，估測出該結合自由能。

於是，本發明所提供的一種特定病毒的突變耐受表位的推估系統包含一儲存模組、一接收模組，及一連接該儲存模組和該接收模組和該輸出模的處理器。

該儲存模組儲存有一預先建立的蛋白質結合自由能估測模型。

該接收模組用來接收接收有關該特定病毒的N(N＞＞1)個病毒株的定序資料、及P(P＞1)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物的蛋白質結構資料。

該處理器操作來執行以下運作：(i)根據接收的該定序資料，獲得有關於該N個病毒株且在每個棘蛋白位點S _i(i=1,…,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸Amu _j(j=1,…,19)的突變頻率，其中代表在該棘蛋白位點S _i具有該種突變型胺基酸Amu _j的病毒株的數量；(ii)經由分析接收到的該P筆蛋白質結構資料，對於每個棘蛋白-抗體複合物CPX _k(k=1,…,P)，獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX _k的所有接觸殘基，其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å，並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點S _i的接觸殘基之接觸殘基數量總和，以獲得計算出有關於全部棘蛋白位點的所有接觸殘基數量總和；(iii)根據接收到的該P筆蛋白質結構資料且利用該儲存模組儲存的該蛋白質結合親和力估測模型，對於每個棘蛋白-抗體複合物CPX _k中與每個棘蛋白位點S _i對應的棘蛋白-抗體界面，估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu _j的情況下的結合自由能且將估算出的P個結合自由能 ~ 其中之最大者確認為在該棘蛋白位點S _i突變成該突變型胺基酸Amu _j之情況的結合自由能，並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者，將該結合自由能標準化以獲得代表該棘蛋白位點S _i的該種突變型胺基酸Amu _j的一熱點分數，其介於0~1之間；(iv)對於在每個棘蛋白位點S _i的每種突變型胺基酸Amu _j，根據該突變頻率、該接觸殘基數量總和、該所有接觸殘基數量總和中的最大者和最小者、及該熱點分數，估算出介於0~1之間的對應的突變效應分數；及(v)根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖，並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域，在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。

在一些實施例中，該特定病毒的突變耐受表位的推估系統還包含一連接且受控於該處理器的輸出模組，其中，該處理器還操作來使該輸出模組輸出該突變效應表位圖、及該最佳突變耐受表位。

在一些實施例中，該處理器將該熱點分數定義成，其中代表該所有結合自由能中的該最小者，且代表該所有結合自由能中的該最大者。

在一些實施例中，該處理器將該突變效應分數定義成，其中代表該所有接觸殘基數量總和中的該最小者，且代表該所有接觸殘基數量總和中的該最大者。

在一些實施例中，該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集，且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵，每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力，以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。。

在一些實施例中，該處理器透過以下處理來估算每個棘蛋白-抗體複合物CPX _k在每個棘蛋白位點S _i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu _j的該結合自由能：(i)從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPX _k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX _k所含有關於該棘蛋白位點S _i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料；(ii)根據胺基酸在側鏈二面角和旋轉方面的特性，獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu _j時該野生型胺基酸的旋轉角度資料；(iii)根據該原子三維座標資料和獲得的該旋轉角度資料，推算出該突變型胺基酸Amu _j的所有重原子之預估位置的三維座標，以獲得對應於該突變型胺基酸Amu _j的推算原子座標資料；(iv)根據該原子三維座標資料和獲得的該推算原子座標資料，計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu _j的任兩個重原子之間的歐幾里得距離和原子級能量，以獲得有關於該突變型胺基酸Amu _j的原子距離和原子交互作用力；及(v)利用該蛋白質結合自由能估測模型，根據獲得的該原子距離和該原子交互作用力，以及該野生型胺基酸和該突變型胺基酸Amu _j的理化特性特徵資料，估測出該結合自由能。

本發明的功效在於：根據基於特定病毒的大量病毒株的定序資料所分析出在每個棘蛋白位點發生每種突變型胺基酸的突變頻率，以及基於多筆有關於特定病毒且無突變胺基酸的多個棘蛋白-抗體複合物的蛋白質結構資料所獲得在每個棘蛋白位點的接觸殘基之殘基數量總、及在每個棘蛋白位點預測的每種突變型胺基酸獲得的熱點分數，獲得在每個棘蛋白位點的每種突變型胺基酸的突變效應分數；並且從根據所有突變效應分數所得到的突變效應表位圖可容易地推估出用於該特定病毒之疫苗設計的最佳突變耐受表位。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，示例性地繪示出本發明實施例的一種特定病毒的突變耐受表位的推估系統100，其可實施成一電腦系統，並包含一儲存模組1、一接收模組2、一輸出模組3，及一連接該儲存模組1、該接收模組2和該輸出模組3的處理器4。在本實施例中，該特定病毒例如是新冠病毒(SARS-CoV-2)，但不以此例為限。

在本實施例中，該儲存模組1預先儲存了與胺基酸的側鏈兩面角(dihedral angle)和旋轉特性有關的胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一蛋白質結合自由能估測模型。

如圖2所示的胺基酸立體結構圖中，Cα兩側(分別與N及C)的兩個鍵是可以自由旋轉的單鍵，繞著N－Cα鍵旋轉的角稱為旋轉角Φ，繞著Cα－C鍵旋轉的角稱為旋轉角Ψ，Cα與位於其左側的N、C和O所在之平面(即圖2中左邊的灰色平面)與Cα與位於其右側的N、C和O所在之另一平面(即圖2中右邊的灰色平面)之間的夾角稱為兩面角。該胺基酸理化特性資料包含多筆分別對應於例如主要20種胺基酸(即，甘胺酸(Glycine，以G代表)、丙胺酸(Alanine，以A代表)、纈胺酸(Valine，以V代表)、白胺酸(Leucine，以L代表)、異白胺酸(Isoleucine，以I代表)、苯丙胺酸(Phenylalanine，以F代表)、色胺酸(Tryptophan，以W代表)、酪胺酸(Tyrosine，以Y代表)、天門冬胺酸(Aspartate，以D代表)、組胺酸(Histidine，以H代表)、天門冬醯胺酸(Asparagine，以D代表)、麩胺酸(Glutamate，以E代表)、離胺酸(Lysine，以K代表)、麩胺醯胺(Glutamine，以Q代表)、蛋胺酸(Methionine，以M代表)、精胺酸(Arginine，以R代表)、絲胺酸(Serine，以S代表)、蘇胺酸(Threonine，以T代表)、半胱胺酸(Cysteine，以C代表)、脯胺酸(Proline，以P代表)等)的理化特性特徵資料。前述20種胺基酸由於具有各自在理化特性之特徵而可被歸屬於正電荷胺基酸、負電荷胺基酸、極性胺基酸、疏水性胺基酸和特殊胺基酸。舉例來說，天門冬醯胺酸(N)被歸屬於極性胺基酸，對應於天門冬醯胺酸(N)的理化特性特徵資料可以是依照一特定編碼方式之編碼，例如“00100”來表示，其中第一至第五位元分別代表胺基酸具有正電荷、負電荷、極性、疏水性和特殊的理化特性特徵。值得注意的是，由於胺基酸側鏈旋轉角度範圍對於化學相關領域的一般技術人員應屬通常知識，且其並非本發明的主要特徵，故在此省略相關細節不再贅述。

在本實施例中，該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集，且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵。每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型(mutated-type))胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力，以及相對於該種(突變型)胺基酸之野生型(wild-type)胺基酸的理化特性特徵資料。如圖3所示，該蛋白質結合自由能估測模型例如是被設計成以(突變)殘基的原子交互作用力、原子距離和胺基酸理化特性為特徵並具有一用於接收輸入資料的輸入層、例如3層隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層，其中該第一隱藏層例如是由64個神經元和ReLU (Rectified Linear Unit)激勵函數所構成，該第二隱藏層例如是由32個神經元和ReLU激勵函數所構成，並且該第三隱藏層例如是由16個神經元和ReLU激勵函數所構成。於是，該蛋白質結合自由能估測模型根據經由該輸入層饋入的該等訓練資料集且經過如該等隱藏層之神經網路的深度學習的方式訓練而成。

該接收模組2例如包含一使用者輸入介面或一可連接通訊網路的通訊介面(圖未示)，並用來接收例如來自蛋白質資料庫(Protein Data Bank，PDB)的P(例如，P=145)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物(spike-antibody complexes)的蛋白質結構資料，以及例如來自全球共享流感數據倡議組織(Global Initiative on Sharing All Influenza Data，GISAID)且有關該特定病毒的N(例如，N=1,938,659)個病毒株(sequenced strains)的定序資料(sequenced data)。具體而言，每筆蛋白質結構資料包含對應的棘蛋白-抗體複合物所含每一原子的三維座標。

以下，將參閱圖1及圖4來示例地詳細說明該蛋白質結合自由能估測系統100的該處理器4如何根據該接收模組2接收到的該P筆蛋白質結構資料和該定序資料來執行一種特定病毒的突變耐受表位的推估方法。該特定病毒的突變耐受表位的推估方法包含以下步驟S41~S49

在步驟S41中，該處理器4根據接收到的該定序資料，獲得有關於該N個病毒株且在每個棘蛋白位點S _i(i=1,…,1267)具有(相對於對應的野生型(具有未突變的原始殘基的)胺基酸的)每種突變型胺基酸Amu _j(j=1,…,19)的突變頻率，其中代表在該棘蛋白位點S _i具有該種突變型胺基酸Amu _j的病毒株的數量。值得一提的是，從分析上述例如新冠病毒的1,938,659個病毒株的定序資料可得知在四個棘蛋白位點的胺基酸，如N501，D614，P681，及 D1118所發生的突變頻率均超過40%，特別是D614的突變頻率接近100%。

在步驟S42中，該處理器4經由分析接收到的該P筆蛋白質結構資料，對於每個棘蛋白-抗體複合物CPX _k(k=1,…,P)，獲得有關所有重原子(非H的其他原子如O、N、C)的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX _k的所有接觸殘基(Contact Residue)。特別說明的是，每個接觸殘基被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å。接著，在步驟S43中，該處理器4計算出有關於該P個棘蛋白-抗體複合物CPX ₁~CPX _P且對應於每個棘蛋白位S _i的接觸殘基之接觸殘基數量總和，以獲得計算出有關於全部棘蛋白位點S ₁~S ₁₂₆₇的所有接觸殘基數量總和。舉例來說，經過如上述處理對該145筆有關於新冠病毒的蛋白質結構資料所獲得有關於部分棘蛋白位點的接觸殘基數量總和如圖5所示，其中在棘蛋白位點S ₄₈₄的麩胺酸(E484)與抗體之殘基之間的接觸殘基數量總和被計算出為543，此意謂新冠病毒棘蛋白的E484係與抗體高度相互作用。

另一方面，在步驟S44中，該處理器4根據接收到的該P筆蛋白質結構資料且利用該儲存模組1儲存的該蛋白質結合親和力估測模型，對於每個棘蛋白-抗體複合物CPX _k中與每個棘蛋白位點S _i對應的棘蛋白-抗體界面，估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu _j的情況下的結合自由能。

以下，將參閱圖1及圖6來進一步詳細說明該處理器4在步驟S44如何估算出每個棘蛋白-抗體複合物CPX _k中在每個棘蛋白位點S _i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu _j的該結合自由能的處理程序。此處理程序包含以下步驟S61~S65。

在步驟S61中，該處理器4從該儲存模組1儲存的一筆對應於該棘蛋白-抗體複合物CPX _k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX _k所含有關於該棘蛋白位點S _i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料。

接著，在步驟S62中，該處理器4根據胺基酸在側鏈二面角和旋轉方面的特性，獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu _j時該野生型胺基酸的旋轉角度資料。具體而言，該處理器4從該儲存模組1儲存的該胺基酸側鏈旋轉角度資料查找出該野生型胺基酸之側鏈(突變成該突變型胺基酸Amu _j)需要旋轉的角度作為該旋轉角度資料。

然後，在步驟S63中，該處理器4根據步驟S61所擷取的該原子三維座標資料和步驟S62所獲得的該旋轉角度資料，推算出該突變型胺基酸Amu _j的所有重原子之預估位置的三維座標，以獲得對應於該突變型胺基酸Amu _j的推算原子座標資料。

之後，在步驟S64中，該處理器4根據該原子三維座標資料和獲得的該推算原子座標資料，計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu _j的任兩個重原子之間的歐幾里得距離和原子級能量，以獲得有關於該突變型胺基酸Amu _j的棘蛋白-抗體界面的原子距離和原子交互作用力。在本實施例中，每一原子對的原子級能量例如為該原子對間的凡得瓦爾力、氫鍵、π-π 堆積相互作用力和靜電力的總和。由於可利用現有已知計算方式來計算兩個重原子之間的凡得瓦爾力、氫鍵、π-π 堆積相互作用力和靜電力，且其相關細節亦並非本發明的主要特徵，故在此省略不再贅述。此外，更明確地，當該另一殘基與該突變型胺基酸Amu _j之間的原子對數量為Q時：有關於該目標界面的該原子距離D被表示成，其中為第t個原子對間的歐幾里得距離；及有關該目標界面的該原子交互作用力E被表示成，其中為第t個原子對間的原子級能量。

最後，在步驟S65中，該處理器4利用該儲存模組1儲存的該蛋白質結合自由能估測模型，並將獲得的該原子距離和該原子交互作用力，以及該野生型胺基酸和該突變型胺基酸Amu _j的理化特性特徵資料饋入該蛋白質結合自由能估測模型的該輸入層進行分析後，並從該蛋白質結合自由能估測模型的該輸出層輸出估測出該結合自由能。

跟隨在步驟S44的步驟S45中，該處理器4將估算出的P個結合自由能 ~ 其中之最大者確認為在該棘蛋白位點S _i突變成該突變型胺基酸Amu _j之情況的結合自由能。接著，在步驟S46中，該處理器4根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者，將該結合自由能標準化以獲得代表該棘蛋白位點S _i的該種突變型胺基酸Amu _j的一熱點分數，其介於0~1之間。在本實施例中，該處理器4例如將該熱點分數定義成，其中代表該所有結合自由能(即，1267×19個結合自由能)中的該最小者，且代表該所有結合自由能中的該最大者。

之後，跟隨在步驟S41、S43及S46之後的步驟S47中，該處理器4，對於在每個棘蛋白位點S _i的每種突變型胺基酸Amu _j，根據該突變頻率、該接觸殘基數量總和、該所有接觸殘基數量總和中的最大者和最小者、及該熱點分數，估算出介於0~1之間的對應的突變效應分數(mutation effect score) 。在本實施例中，該處理器4例如將該突變效應分數定義成，其中代表該所有接觸殘基數量總和中的該最小者，且代表該所有接觸殘基數量總和中的該最大者。

然後，在步驟S48中，該處理器4根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數(即，1267×19個突變效應分數)獲得有關於該特定病毒的一突變效應表位圖(mutation effect epitope map)，並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位(optimal mutation tolerable epitope)的棘蛋白位點區域。值得注意得是，該處理器4是根據以下原則之一來推估出該棘蛋白位點區域(最佳突變耐受表位)：(i)在該棘蛋白位點區域中具有相對較少突變型胺基酸，因而在此區域中的棘蛋白位點的胺基酸發生突變的可能性相對較低；及(ii)與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低，因而在此區域中的棘蛋白位點的胺基酸即使發生突變時對於結合穩定性的影響相對較小或相對較不顯著。

最後，在步驟S49中，該處理器4使該輸出模組3以各種形式輸出該突變效應表位圖、及該最佳突變耐受表位，以將其提供給相關技術人員如該特定病毒之疫苗研發人員。

舉例來說，圖7示例性地繪示出由該輸出模組3所輸出且根據如上述新冠病毒的1,938,659個病毒株定序資料和145筆蛋白質結構資料所獲得的突變效應表位圖，其中黑圓點的大小代表突變效應分數(亦即，黑圓點的大小越大，突變效應分數越高)，以及所有標出的代表胺基酸之字碼為新冠病毒已發現之突變型胺基酸。因此，該處理器4可從圖7推估出一從棘蛋白位點S ₂₁₆到棘蛋白位點S ₄₁₆的棘蛋白位點區域作為新冠疫苗設計時的最佳突變耐受表位，這是因為若將疫苗抗原設計在此位點區域中的胺基酸是相對較不易發生突變，或者即使發生突變時由於抗原-抗體的結合穩定性影響較小。

綜上所述，根據蒐集特定病毒的大量病毒株的定序資料所分析出在每個棘蛋白位點發生每種突變型胺基酸的突變頻率，以及基於多筆有關於特定病毒且無突變胺基酸的多個棘蛋白-抗體複合物的蛋白質結構資料所獲得在每個棘蛋白位點的接觸殘基之殘基數量總、及在每個棘蛋白位點預測的每種突變型胺基酸獲得的熱點分數，獲得在每個棘蛋白位點的每種突變型胺基酸的突變效應分數；並且從根據所有突變效應分數所得到的突變效應表位圖可容易地推估出用於該特定病毒之疫苗設計的最佳突變耐受表位。因此，本發明特定病毒的突變耐受表位的推估系統100確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

100:蛋白質結合自由能估測系統 1:儲存模組 2:接收模組 3:輸出模組 4:處理器 S41~S49:步驟 S61~S65:步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，示例性地說明本發明實施例的特定病毒的突變耐受表位的推估系統；圖2示例性地繪示出胺基酸的立體結構；圖3是一示意圖，示例性地說明該實施例的一儲存模組所儲存的一蛋白質結合自由能估測模型的架構；圖4是一流程圖，示例性地說明該實施例的一處理器如何執行一種特定病毒的突變耐受表位的推估方法；及圖5示例性地繪示出根據145筆蛋白質結構資料資料所獲得的部分的棘蛋白位點的接觸殘基數量總和；圖6是一流程圖，示例性地說明該處理器如何估算出每個棘蛋白-抗體複合物CPX _k中在每個棘蛋白位點S _i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu _j的該結合自由能；及圖7示例性地繪示出由該實施例的一輸出模組輸出的突變效應表位圖。

S41~S49:步驟

Claims

一種特定病毒的突變耐受表位的推估方法，利用一電腦系統來執行，並包含以下步驟：根據接收到有關該特定病毒的N(N>>1)個病毒株的定序資料，獲得有關於該N個病毒株且在每個棘蛋白位點S_i(i=1,...,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸Amu_j(j=1,...,19)的突變頻率
，其中M _i,j代表在該棘蛋白位點S_i具有該種突變型胺基酸Amu_j的病毒株的數量；經由分析接收到的P(P>1)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物的蛋白質結構資料，對於每個棘蛋白-抗體複合物CPX_k(k=1,...,P)，獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX_k的所有接觸殘基，其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å，並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點S_i的接觸殘基之接觸殘基數量總和
，以獲得計算出有關於全部棘蛋白位點的所有接觸殘基數量總和C ₁~C ₁₂₆₇；根據接收到的該P筆蛋白質結構資料且利用一預先建立的蛋白質結合自由能估測模型，對於每個棘蛋白-抗體複合物CPX_k中與每個棘蛋白位點S_i對應的棘蛋白-抗體界面，估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu_j的情況下的結合自由能
且將估算出的P個結合自由能
~
其中之最大者確認為在該棘蛋白位點S_i突變成該突變型胺基酸Amu_j之情況的結合自由能B _i,j，並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者，將該結合自由能B _i,j標準化以獲得代表該棘蛋白位點S_i的該種突變型胺基酸Amu_j的一熱點分數H _i,j，其介於0~1之間；對於在每個棘蛋白位點S_i的每種突變型胺基酸Amu_j，根據該突變頻率F _i,j、該接觸殘基數量總和C _i、該所有接觸殘基數量總和C ₁~C ₁₂₆₇中的最大者和最小者、及該熱點分數H _i,j，估算出介於0~1之間的對應的突變效應分數E _i,j；及根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖，並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域，在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。
如請求項1所述的特定病毒的突變耐受表位的推估方法，還包含以下步驟：輸出該突變效應表位圖和該最佳耐受表位。
如請求項1所述的特定病毒的突變耐受表位的推估方法，其中，該熱點分數H _i,j被定義成
，其中 min(B)代表該所有結合自由能中的該最小者，且max(B)代表該所有估算結合自由能中的該最大者。
如請求項1所述的特定病毒的突變耐受表位的推估方法，其中，該突變效應分數E _i,j被定義成E _i,j=
，其中min(C)代表該所有接觸殘基數量總和C ₁~C ₁₂₆₇中的該最小者，且max(C)代表該所有接觸殘基數量總和C ₁~C ₁₂₆₇中的該最大者。
如請求項1所述的特定病毒的突變耐受表位的推估方法，其中，該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集，且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵，每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力，以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。
如請求項5所述的特定病毒的突變耐受表位的推估方法，其中，估算每個棘蛋白-抗體複合物CPX_k中在每個棘蛋白位點S_i的棘蛋白-抗體界面中對應於每個突變型胺基酸 Amu_j的該結合自由能
包含以下子步驟：從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPX_k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX_k所含有關於該棘蛋白位點S_i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料；根據胺基酸在側鏈二面角和旋轉方面的特性，獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu_j時該野生型胺基酸的旋轉角度資料；根據該原子三維座標資料和獲得的該旋轉角度資料，推算出該突變型胺基酸Amu_j的所有重原子之預估位置的三維座標，以獲得對應於該突變型胺基酸Amu_j的推算原子座標資料；根據該原子三維座標資料和獲得的該推算原子座標資料，計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu_j的任兩個重原子之間的歐幾里得距離和原子級能量，以獲得有關於該突變型胺基酸Amu_j的原子距離和原子交互作用力；及利用該蛋白質結合自由能估測模型，根據獲得的該原子距離和該原子交互作用力，以及該野生型胺基酸和該突變型胺基酸Amu_j的理化特性特徵資料，估測出該結合自由能
。
一種特定病毒的突變耐受表位的推估系統，包含：一儲存模組，儲存有一預先建立的蛋白質結合自由能估測模型；一接收模組，用來接收有關該特定病毒的N(N>>1)個病毒株的定序資料、及P(P>1)筆蛋白質結構資料，該P筆蛋白質結構資料分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物；及一處理器，連接該儲存模組和該接收模組，並操作來執行以下運作：根據接收的該定序資料，獲得有關於該N個病毒株且在每個棘蛋白位點S_i(i=1,...,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸 Amu_j(j=1,...,19)的突變頻率
，其中M _i,j代表在該棘蛋白位點S_i具有該種突變型胺基酸Amu_j的病毒株的數量；經由分析接收到的該P筆蛋白質結構資料，對於每個棘蛋白-抗體複合物CPX_k(k=1,...,P)，獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX_k的所有接觸殘基，其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å，並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點S_i的接觸殘基之接觸殘基數量總和
，以獲得計算出有關於全部棘蛋白位點的所有接觸殘基數量總和C ₁~C ₁₂₆₇；根據接收到的該P筆蛋白質結構資料且利用該儲存模組儲存的該蛋白質結合親和力估測模型，對於每個棘蛋白-抗體複合物CPX_k中與每個棘蛋白位點S_i對應的棘蛋白-抗體界面，估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu_j的情況下的結合自由能
且將估算出的P個結合自由能
~
其中之最大者確認為在該棘蛋白位點S_i突變成該突變型胺基酸Amu_j之情況的結合自由能B _i,j，並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者，將該結合自由能B _i,j標準化以獲得代表該棘蛋白位點S_i的該種突變型胺基酸Amu_j的一熱點分數H _i,j，其介於0~1之間；對於在每個棘蛋白位點S_i的每種突變型胺基酸Amu_j，根據該突變頻率F _i,j、該接觸殘基數量總和C _i、該所有接觸殘基數量總和C ₁~C ₁₂₆₇中的最大者和最小者、及該熱點分數H _i,j，估算出介於0~1之間的對應的突變效應分數E _i,j；及根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖，並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域，在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。
如請求項7所述的特定病毒的突變耐受表位的推估系統，還包含一連接且受控於該處理器的輸出模組，其中，該處理器還操作來使該輸出模組輸出該突變效應表位圖、及該最佳突變耐受表位。
如請求項7所述的特定病毒的突變耐受表位的推估系統，其中，該處理器將該熱點分數H _i,j定義成
，其中min(B)代表該所有結合自由能中的該最小者，且max(B)代表該所有結合自由能中的該最大者。
如請求項7所述的特定病毒的突變耐受表位的推估系統，其中，該處理器將該突變效應分數E _i,j定義成E _i,j=
，其中min(C)代表該所有接觸殘基數量總和C ₁~C ₁₂₆₇中的該最小者，且max(C)代表該所有接觸殘基數量總和C ₁~C ₁₂₆₇中的該最大者。
如請求項7所述的特定病毒的突變耐受表位的推估系統，其中，該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集，且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵，每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力，以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。
如請求項11所述的特定病毒的突變耐受表位的推估系統，其中，該處理器透過以下處理來估算每個棘蛋白-抗體複合物CPX_k在每個棘蛋白位點S_i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu_j的該結合自由能
：從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPX_k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX_k所含有關於該棘蛋白位點S_i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料；根據胺基酸在側鏈二面角和旋轉方面的特性，獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu_j時該野生型胺基酸的旋轉角度資料；根據該原子三維座標資料和獲得的該旋轉角度資料，推算出該突變型胺基酸Amu_j的所有重原子之預估位置的三維座標，以獲得對應於該突變型胺基酸Amu_j的推算原子座標資料；根據該原子三維座標資料和獲得的該推算原子座標資料，計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu_j的任兩個重原子之間的歐幾里得距離和原子級能量，以獲得有關於該突變型胺基酸Amu_j的原子距離和原子交互作用力；及利用該蛋白質結合自由能估測模型，根據獲得的該原子距離和該原子交互作用力，以及該野生型胺基酸和該突變型胺基酸Amu_j的理化特性特徵資料，估測出該結合自由能
。