TWI815572B - 特定病毒的突變耐受表位的推估方法及系統 - Google Patents
特定病毒的突變耐受表位的推估方法及系統 Download PDFInfo
- Publication number
- TWI815572B TWI815572B TW111127788A TW111127788A TWI815572B TW I815572 B TWI815572 B TW I815572B TW 111127788 A TW111127788 A TW 111127788A TW 111127788 A TW111127788 A TW 111127788A TW I815572 B TWI815572 B TW I815572B
- Authority
- TW
- Taiwan
- Prior art keywords
- amino acid
- protein
- mutation
- spike protein
- atomic
- Prior art date
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 89
- 241000700605 Viruses Species 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 18
- 150000001413 amino acids Chemical class 0.000 claims abstract description 189
- 101710198474 Spike protein Proteins 0.000 claims abstract description 85
- 229940096437 Protein S Drugs 0.000 claims abstract description 84
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 69
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 68
- 230000000694 effects Effects 0.000 claims abstract description 52
- 238000000547 structure data Methods 0.000 claims abstract description 27
- 230000036438 mutation frequency Effects 0.000 claims abstract description 14
- 229960005486 vaccine Drugs 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims abstract description 13
- 238000013461 design Methods 0.000 claims abstract description 7
- 230000003993 interaction Effects 0.000 claims description 24
- 239000000126 substance Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 11
- 102000007474 Multiprotein Complexes Human genes 0.000 claims description 10
- 108010085220 Multiprotein Complexes Proteins 0.000 claims description 10
- 102100034574 P protein Human genes 0.000 claims description 10
- 101710181008 P protein Proteins 0.000 claims description 10
- 101710177166 Phosphoprotein Proteins 0.000 claims description 10
- 150000001412 amines Chemical class 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 239000002253 acid Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 125000003277 amino group Chemical group 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000012790 confirmation Methods 0.000 claims 2
- 235000001014 amino acid Nutrition 0.000 description 121
- 229940024606 amino acid Drugs 0.000 description 121
- 235000018102 proteins Nutrition 0.000 description 32
- 241000711573 Coronaviridae Species 0.000 description 7
- -1 represented by G) Chemical compound 0.000 description 5
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 4
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 3
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 3
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 3
- 229960001230 asparagine Drugs 0.000 description 3
- 235000009582 asparagine Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 102100035765 Angiotensin-converting enzyme 2 Human genes 0.000 description 2
- 108090000975 Angiotensin-converting enzyme 2 Proteins 0.000 description 2
- 241001678559 COVID-19 virus Species 0.000 description 2
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 2
- 239000004471 Glycine Substances 0.000 description 2
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 2
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- 239000004138 Stearyl citrate Substances 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 238000005411 Van der Waals force Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 235000004279 alanine Nutrition 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 235000018417 cysteine Nutrition 0.000 description 2
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 2
- 235000013922 glutamic acid Nutrition 0.000 description 2
- 239000004220 glutamic acid Substances 0.000 description 2
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 206010022000 influenza Diseases 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 1
- 208000025721 COVID-19 Diseases 0.000 description 1
- 102100031673 Corneodesmosin Human genes 0.000 description 1
- 101710139375 Corneodesmosin Proteins 0.000 description 1
- 108010061994 Coronavirus Spike Glycoprotein Proteins 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 230000010530 Virus Neutralization Effects 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 238000009175 antibody therapy Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 229940009098 aspartate Drugs 0.000 description 1
- 239000005018 casein Substances 0.000 description 1
- 235000021240 caseins Nutrition 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000017188 evasion or tolerance of host immune response Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 229930195712 glutamate Natural products 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Peptides Or Proteins (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
一種特定病毒的突變耐受表位的推估方法方法是由電腦系統執行:根據基於特定病毒的大量病毒株的定序資料所分析出在每個棘蛋白位點發生每種突變型胺基酸的突變頻率、多筆有關於特定病毒且無突變胺基酸的多個棘蛋白-抗體複合物的蛋白質結構資料獲得在每個棘蛋白位點的接觸殘基之接觸殘基數量總和,以及在每個棘蛋白位點預測的每種突變型胺基酸獲得的熱點分數,獲得在每個棘蛋白位點的每種突變型胺基酸的突變效應分數;並且從根據所有突變效應分數所得到的突變效應表位圖可容易地推估出用於該特定病毒之疫苗設計的最佳突變耐受表位。
Description
本發明是有關於病毒的突變耐受表位(mutation-tolerable epitope),特別是指一種特定病毒的突變耐受表位的推估方法及系統。
近兩年多來COVID-19在全球範圍內的大流行已產生廣泛影響。從首次出現新型冠狀病毒(SARS-CoV-2)以來,確實已經發生的相當大的演變,其包括世界衛生組織(以下簡稱WHO)定義出的主要關注的變異,例如英國的alpha (B.1.1.7)、南非的beta (B1.351)、美國加州的epsilon (B1.429)和巴西的gamma (P.1)。此外,WHO還在2021年5月將印度的delta (B.1617.2)變異歸類為受關注的變異,並顯示出delta變異具更高的傳播性和降低了中和性之證據。所有變異都包含位於棘蛋白(spike protein,俗稱S蛋白) 的受體結合區域(Receptor-Binding Domain,以下簡稱RBD)上的某些關鍵突變,例如K417N/T、L452R、T478K/Q、N501Y等。請注意,因為許多突變存在於NTD (N-Terminal Domain)的抗原超位點(antigenic-supersite)或與血管收縮素轉化酶2 (Angiotensin-Converting Enzyme 2,以下簡稱為ACE2) 的結合位點(其為有效病毒中和的主要目標抗原),所以人們越來越擔心這些變異可能損害當前使用的疫苗或抗體療法的功效。然而,對於容易發生突變的新冠病毒而言,仍不清楚不同的變異如何影響疫苗的有效性。
因此,對於特定病毒,如何設計出能夠避免因不同變異所造成的免疫逃脫的突變耐受疫苗已成為相關技術領域所急欲解決的議題之一。
因此,本發明的目的,即在提供一種特定病毒的突變耐受表位的推估方法及系統,其能克服現有技術至少一個缺點。
於是,本發明所提供的一種特定病毒的突變耐受表位的推估方法係利用一電腦系統來執行,並包含以下步驟:根據接收到有關該特定病毒的N(N>>1)個病毒株(sequenced strains)的定序資料,獲得有關於該N個病毒株且在每個棘蛋白位點S
i(i=1,…,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸Amu
j(j=1,…,19)的突變頻率
,其中
代表在該棘蛋白位點S
i具有該種突變型胺基酸Amu
j的病毒株的數量;經由分析接收到的P(P>1)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物的蛋白質結構資料,對於每個棘蛋白-抗體複合物CPX
k(k=1,…,P),獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX
k的所有接觸殘基,其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å,並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點S
i的接觸殘基之接觸殘基數量總和
,以獲得計算出有關於全部棘蛋白位點的所有接觸殘基數量總和
;根據接收到的該P筆蛋白質結構資料且利用一預先建立的蛋白質結合自由能估測模型,對於每個棘蛋白-抗體複合物CPX
k中與每個棘蛋白位點S
i對應的棘蛋白-抗體界面,估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu
j的情況下的結合自由能
且將估算出的P個結合自由能
~
其中之最大者確認為在該棘蛋白位點S
i突變成該突變型胺基酸Amu
j之情況的結合自由能
,並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者,將該結合
標準化以獲得代表該棘蛋白位點S
i的該種突變型胺基酸Amu
j的一熱點分數
,其介於0~1之間;對於在每個棘蛋白位點S
i的每種突變型胺基酸Amu
j,根據該突變頻率
、該接觸殘基數量總和
、該所有接觸殘基數量總和
中的最大者和最小者、及該熱點分數
,估算出介於0~1之間的對應的突變效應分數
;及根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖,並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域,在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。
在一些實施例中,上述的特定病毒的突變耐受表位的推估方法還包含以下步驟:輸出該突變效應表位圖和該最佳耐受表位。
在一些實施例中,該熱點分數
被定義成
,其中
代表該所有結合自由能中的該最小者,且
代表該所有估算結合自由能中的該最大者。
在一些實施例中,該突變效應分數
被定義成
,其中
代表該所有接觸殘基數量總和
中的該最小者,且
代表該所有接觸殘基數量總和
中的該最大者。
在一些實施例中,該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集,且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵,每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力,以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。
在一些實施例中,估算每個棘蛋白-抗體複合物CPX
k中在每個棘蛋白位點S
i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu
j的該結合自由能
包含以下子步驟:從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPX
k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX
k所含有關於該棘蛋白位點S
i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料;根據胺基酸在側鏈二面角和旋轉方面的特性,獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu
j時該野生型胺基酸的旋轉角度資料;根據該原子三維座標資料和獲得的該旋轉角度資料,推算出該突變型胺基酸Amu
j的所有重原子之預估位置的三維座標,以獲得對應於該突變型胺基酸Amu
j的推算原子座標資料;根據該原子三維座標資料和獲得的該推算原子座標資料,計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu
j的任兩個重原子之間的歐幾里得距離和原子級能量,以獲得有關於該突變型胺基酸Amu
j的原子距離和原子交互作用力;及利用該蛋白質結合自由能估測模型,根據獲得的該原子距離和該原子交互作用力,以及該野生型胺基酸和該突變型胺基酸Amu
j的理化特性特徵資料,估測出該結合自由能
。
於是,本發明所提供的一種特定病毒的突變耐受表位的推估系統包含一儲存模組、一接收模組,及一連接該儲存模組和該接收模組和該輸出模的處理器。
該儲存模組儲存有一預先建立的蛋白質結合自由能估測模型。
該接收模組用來接收接收有關該特定病毒的N(N>>1)個病毒株的定序資料、及P(P>1)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物的蛋白質結構資料。
該處理器操作來執行以下運作:(i)根據接收的該定序資料,獲得有關於該N個病毒株且在每個棘蛋白位點S
i(i=1,…,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸Amu
j(j=1,…,19)的突變頻率
,其中
代表在該棘蛋白位點S
i具有該種突變型胺基酸Amu
j的病毒株的數量;(ii)經由分析接收到的該P筆蛋白質結構資料,對於每個棘蛋白-抗體複合物CPX
k(k=1,…,P),獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX
k的所有接觸殘基,其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å,並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點S
i的接觸殘基之接觸殘基數量總和
,以獲得計算出有關於全部棘蛋白位點的所有接觸殘基數量總和
;(iii)根據接收到的該P筆蛋白質結構資料且利用該儲存模組儲存的該蛋白質結合親和力估測模型,對於每個棘蛋白-抗體複合物CPX
k中與每個棘蛋白位點S
i對應的棘蛋白-抗體界面,估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu
j的情況下的結合自由能
且將估算出的P個結合自由能
~
其中之最大者確認為在該棘蛋白位點S
i突變成該突變型胺基酸Amu
j之情況的結合自由能
,並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者,將該結合自由能
標準化以獲得代表該棘蛋白位點S
i的該種突變型胺基酸Amu
j的一熱點分數
,其介於0~1之間;(iv)對於在每個棘蛋白位點S
i的每種突變型胺基酸Amu
j,根據該突變頻率
、該接觸殘基數量總和
、該所有接觸殘基數量總和
中的最大者和最小者、及該熱點分數
,估算出介於0~1之間的對應的突變效應分數
;及(v)根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖,並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域,在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。
在一些實施例中,該特定病毒的突變耐受表位的推估系統還包含一連接且受控於該處理器的輸出模組,其中,該處理器還操作來使該輸出模組輸出該突變效應表位圖、及該最佳突變耐受表位。
在一些實施例中,該處理器將該熱點分數
定義成
,其中
代表該所有結合自由能中的該最小者,且
代表該所有結合自由能中的該最大者。
在一些實施例中,該處理器將該突變效應分數
定義成
,其中
代表該所有接觸殘基數量總和
中的該最小者,且
代表該所有接觸殘基數量總和
中的該最大者。
在一些實施例中,該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集,且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵,每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力,以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。。
在一些實施例中,該處理器透過以下處理來估算每個棘蛋白-抗體複合物CPX
k在每個棘蛋白位點S
i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu
j的該結合自由能
:(i)從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPX
k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX
k所含有關於該棘蛋白位點S
i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料;(ii)根據胺基酸在側鏈二面角和旋轉方面的特性,獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu
j時該野生型胺基酸的旋轉角度資料;(iii)根據該原子三維座標資料和獲得的該旋轉角度資料,推算出該突變型胺基酸Amu
j的所有重原子之預估位置的三維座標,以獲得對應於該突變型胺基酸Amu
j的推算原子座標資料;(iv)根據該原子三維座標資料和獲得的該推算原子座標資料,計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu
j的任兩個重原子之間的歐幾里得距離和原子級能量,以獲得有關於該突變型胺基酸Amu
j的原子距離和原子交互作用力;及(v)利用該蛋白質結合自由能估測模型,根據獲得的該原子距離和該原子交互作用力,以及該野生型胺基酸和該突變型胺基酸Amu
j的理化特性特徵資料,估測出該結合自由能
。
本發明的功效在於:根據基於特定病毒的大量病毒株的定序資料所分析出在每個棘蛋白位點發生每種突變型胺基酸的突變頻率,以及基於多筆有關於特定病毒且無突變胺基酸的多個棘蛋白-抗體複合物的蛋白質結構資料所獲得在每個棘蛋白位點的接觸殘基之殘基數量總、及在每個棘蛋白位點預測的每種突變型胺基酸獲得的熱點分數,獲得在每個棘蛋白位點的每種突變型胺基酸的突變效應分數;並且從根據所有突變效應分數所得到的突變效應表位圖可容易地推估出用於該特定病毒之疫苗設計的最佳突變耐受表位。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖1,示例性地繪示出本發明實施例的一種特定病毒的突變耐受表位的推估系統100,其可實施成一電腦系統,並包含一儲存模組1、一接收模組2、一輸出模組3,及一連接該儲存模組1、該接收模組2和該輸出模組3的處理器4。在本實施例中,該特定病毒例如是新冠病毒(SARS-CoV-2),但不以此例為限。
在本實施例中,該儲存模組1預先儲存了與胺基酸的側鏈兩面角(dihedral angle)和旋轉特性有關的胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一蛋白質結合自由能估測模型。
如圖2所示的胺基酸立體結構圖中,Cα兩側(分別與N及C)的兩個鍵是可以自由旋轉的單鍵,繞著N-Cα鍵旋轉的角稱為旋轉角Φ,繞著Cα-C鍵旋轉的角稱為旋轉角Ψ,Cα與位於其左側的N、C和O所在之平面(即圖2中左邊的灰色平面)與Cα與位於其右側的N、C和O所在之另一平面(即圖2中右邊的灰色平面)之間的夾角稱為兩面角。該胺基酸理化特性資料包含多筆分別對應於例如主要20種胺基酸(即,甘胺酸(Glycine,以G代表)、丙胺酸(Alanine,以A代表)、纈胺酸(Valine,以V代表)、白胺酸(Leucine,以L代表)、異白胺酸(Isoleucine,以I代表)、苯丙胺酸(Phenylalanine,以F代表)、色胺酸(Tryptophan,以W代表)、酪胺酸(Tyrosine,以Y代表)、天門冬胺酸(Aspartate,以D代表)、組胺酸(Histidine,以H代表)、天門冬醯胺酸(Asparagine,以D代表)、麩胺酸(Glutamate,以E代表)、離胺酸(Lysine,以K代表)、麩胺醯胺(Glutamine,以Q代表)、蛋胺酸(Methionine,以M代表)、精胺酸(Arginine,以R代表)、絲胺酸(Serine,以S代表)、蘇胺酸(Threonine,以T代表)、半胱胺酸(Cysteine,以C代表)、脯胺酸(Proline,以P代表)等)的理化特性特徵資料。前述20種胺基酸由於具有各自在理化特性之特徵而可被歸屬於正電荷胺基酸、負電荷胺基酸、極性胺基酸、疏水性胺基酸和特殊胺基酸。舉例來說,天門冬醯胺酸(N)被歸屬於極性胺基酸,對應於天門冬醯胺酸(N)的理化特性特徵資料可以是依照一特定編碼方式之編碼,例如“00100”來表示,其中第一至第五位元分別代表胺基酸具有正電荷、負電荷、極性、疏水性和特殊的理化特性特徵。值得注意的是,由於胺基酸側鏈旋轉角度範圍對於化學相關領域的一般技術人員應屬通常知識,且其並非本發明的主要特徵,故在此省略相關細節不再贅述。
在本實施例中,該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集,且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵。每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型(mutated-type))胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力,以及相對於該種(突變型)胺基酸之野生型(wild-type)胺基酸的理化特性特徵資料。如圖3所示,該蛋白質結合自由能估測模型例如是被設計成以(突變)殘基的原子交互作用力、原子距離和胺基酸理化特性為特徵並具有一用於接收輸入資料的輸入層、例如3層隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層,其中該第一隱藏層例如是由64個神經元和ReLU (Rectified Linear Unit)激勵函數所構成,該第二隱藏層例如是由32個神經元和ReLU激勵函數所構成,並且該第三隱藏層例如是由16個神經元和ReLU激勵函數所構成。於是,該蛋白質結合自由能估測模型根據經由該輸入層饋入的該等訓練資料集且經過如該等隱藏層之神經網路的深度學習的方式訓練而成。
該接收模組2例如包含一使用者輸入介面或一可連接通訊網路的通訊介面(圖未示),並用來接收例如來自蛋白質資料庫(Protein Data Bank,PDB)的P(例如,P=145)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物(spike-antibody complexes)的蛋白質結構資料,以及例如來自全球共享流感數據倡議組織(Global Initiative on Sharing All Influenza Data,GISAID)且有關該特定病毒的N(例如,N=1,938,659)個病毒株(sequenced strains)的定序資料(sequenced data)。具體而言,每筆蛋白質結構資料包含對應的棘蛋白-抗體複合物所含每一原子的三維座標。
以下,將參閱圖1及圖4來示例地詳細說明該蛋白質結合自由能估測系統100的該處理器4如何根據該接收模組2接收到的該P筆蛋白質結構資料和該定序資料來執行一種特定病毒的突變耐受表位的推估方法。該特定病毒的突變耐受表位的推估方法包含以下步驟S41~S49
在步驟S41中,該處理器4根據接收到的該定序資料,獲得有關於該N個病毒株且在每個棘蛋白位點S
i(i=1,…,1267)具有(相對於對應的野生型(具有未突變的原始殘基的)胺基酸的)每種突變型胺基酸Amu
j(j=1,…,19)的突變頻率
,其中
代表在該棘蛋白位點S
i具有該種突變型胺基酸Amu
j的病毒株的數量。值得一提的是,從分析上述例如新冠病毒的1,938,659個病毒株的定序資料可得知在四個棘蛋白位點的胺基酸,如N501,D614,P681,及 D1118所發生的突變頻率均超過40%,特別是D614的突變頻率接近100%。
在步驟S42中,該處理器4經由分析接收到的該P筆蛋白質結構資料,對於每個棘蛋白-抗體複合物CPX
k(k=1,…,P),獲得有關所有重原子(非H的其他原子如O、N、C)的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPX
k的所有接觸殘基(Contact Residue)。特別說明的是,每個接觸殘基被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å。 接著,在步驟S43中,該處理器4計算出有關於該P個棘蛋白-抗體複合物CPX
1~CPX
P且對應於每個棘蛋白位S
i的接觸殘基之接觸殘基數量總和
,以獲得計算出有關於全部棘蛋白位點S
1~S
1267的所有接觸殘基數量總和
。舉例來說,經過如上述處理對該145筆有關於新冠病毒的蛋白質結構資料所獲得有關於部分棘蛋白位點的接觸殘基數量總和如圖5所示,其中在棘蛋白位點S
484的麩胺酸(E484)與抗體之殘基之間的接觸殘基數量總和被計算出為543,此意謂新冠病毒棘蛋白的E484係與抗體高度相互作用。
另一方面,在步驟S44中,該處理器4根據接收到的該P筆蛋白質結構資料且利用該儲存模組1儲存的該蛋白質結合親和力估測模型,對於每個棘蛋白-抗體複合物CPX
k中與每個棘蛋白位點S
i對應的棘蛋白-抗體界面,估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突變型胺基酸Amu
j的情況下的結合自由能
。
以下,將參閱圖1及圖6來進一步詳細說明該處理器4在步驟S44如何估算出每個棘蛋白-抗體複合物CPX
k中在每個棘蛋白位點S
i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu
j的該結合自由能
的處理程序。此處理程序包含以下步驟S61~S65。
在步驟S61中,該處理器4從該儲存模組1儲存的一筆對應於該棘蛋白-抗體複合物CPX
k的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPX
k所含有關於該棘蛋白位點S
i的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料。
接著,在步驟S62中,該處理器4根據胺基酸在側鏈二面角和旋轉方面的特性,獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amu
j時該野生型胺基酸的旋轉角度資料。具體而言,該處理器4從該儲存模組1儲存的該胺基酸側鏈旋轉角度資料查找出該野生型胺基酸之側鏈(突變成該突變型胺基酸Amu
j)需要旋轉的角度作為該旋轉角度資料。
然後,在步驟S63中,該處理器4根據步驟S61所擷取的該原子三維座標資料和步驟S62所獲得的該旋轉角度資料,推算出該突變型胺基酸Amu
j的所有重原子之預估位置的三維座標,以獲得對應於該突變型胺基酸Amu
j的推算原子座標資料。
之後,在步驟S64中,該處理器4根據該原子三維座標資料和獲得的該推算原子座標資料,計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amu
j的任兩個重原子之間的歐幾里得距離和原子級能量,以獲得有關於該突變型胺基酸Amu
j的棘蛋白-抗體界面的原子距離和原子交互作用力。在本實施例中,每一原子對的原子級能量例如為該原子對間的凡得瓦爾力、氫鍵、π-π 堆積相互作用力和靜電力的總和。由於可利用現有已知計算方式來計算兩個重原子之間的凡得瓦爾力、氫鍵、π-π 堆積相互作用力和靜電力,且其相關細節亦並非本發明的主要特徵,故在此省略不再贅述。此外,更明確地,當該另一殘基與該突變型胺基酸Amu
j之間的原子對數量為Q時:有關於該目標界面的該原子距離D被表示成
,其中
為第t個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成
,其中
為第t個原子對間的原子級能量。
最後,在步驟S65中,該處理器4利用該儲存模組1儲存的該蛋白質結合自由能估測模型,並將獲得的該原子距離和該原子交互作用力,以及該野生型胺基酸和該突變型胺基酸Amu
j的理化特性特徵資料饋入該蛋白質結合自由能估測模型的該輸入層進行分析後,並從該蛋白質結合自由能估測模型的該輸出層輸出估測出該結合自由能
。
跟隨在步驟S44的步驟S45中,該處理器4將估算出的P個結合自由能
~
其中之最大者確認為在該棘蛋白位點S
i突變成該突變型胺基酸Amu
j之情況的結合自由能
。接著,在步驟S46中,該處理器4根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者,將該結合自由能
標準化以獲得代表該棘蛋白位點S
i的該種突變型胺基酸Amu
j的一熱點分數
,其介於0~1之間。在本實施例中,該處理器4例如將該熱點分數
定義成
,其中
代表該所有結合自由能(即,1267×19個結合自由能)中的該最小者,且
代表該所有結合自由能中的該最大者。
之後,跟隨在步驟S41、S43及S46之後的步驟S47中,該處理器4,對於在每個棘蛋白位點S
i的每種突變型胺基酸Amu
j,根據該突變頻率
、該接觸殘基數量總和
、該所有接觸殘基數量總和
中的最大者和最小者、及該熱點分數
,估算出介於0~1之間的對應的突變效應分數(mutation effect score)
。在本實施例中,該處理器4例如將該突變效應分數
定義成
,其中
代表該所有接觸殘基數量總和
中的該最小者,且
代表該所有接觸殘基數量總和
中的該最大者。
然後,在步驟S48中,該處理器4根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數(即,1267×19個突變效應分數)獲得有關於該特定病毒的一突變效應表位圖(mutation effect epitope map),並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位(optimal mutation tolerable epitope)的棘蛋白位點區域。值得注意得是,該處理器4是根據以下原則之一來推估出該棘蛋白位點區域(最佳突變耐受表位):(i)在該棘蛋白位點區域中具有相對較少突變型胺基酸,因而在此區域中的棘蛋白位點的胺基酸發生突變的可能性相對較低;及(ii)與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低,因而在此區域中的棘蛋白位點的胺基酸即使發生突變時對於結合穩定性的影響相對較小或相對較不顯著。
最後,在步驟S49中,該處理器4使該輸出模組3以各種形式輸出該突變效應表位圖、及該最佳突變耐受表位,以將其提供給相關技術人員如該特定病毒之疫苗研發人員。
舉例來說,圖7示例性地繪示出由該輸出模組3所輸出且根據如上述新冠病毒的1,938,659個病毒株定序資料和145筆蛋白質結構資料所獲得的突變效應表位圖,其中黑圓點的大小代表突變效應分數(亦即,黑圓點的大小越大,突變效應分數越高),以及所有標出的代表胺基酸之字碼為新冠病毒已發現之突變型胺基酸。因此,該處理器4可從圖7推估出一從棘蛋白位點S
216到棘蛋白位點S
416的棘蛋白位點區域作為新冠疫苗設計時的最佳突變耐受表位,這是因為若將疫苗抗原設計在此位點區域中的胺基酸是相對較不易發生突變,或者即使發生突變時由於抗原-抗體的結合穩定性影響較小。
綜上所述,根據蒐集特定病毒的大量病毒株的定序資料所分析出在每個棘蛋白位點發生每種突變型胺基酸的突變頻率,以及基於多筆有關於特定病毒且無突變胺基酸的多個棘蛋白-抗體複合物的蛋白質結構資料所獲得在每個棘蛋白位點的接觸殘基之殘基數量總、及在每個棘蛋白位點預測的每種突變型胺基酸獲得的熱點分數,獲得在每個棘蛋白位點的每種突變型胺基酸的突變效應分數;並且從根據所有突變效應分數所得到的突變效應表位圖可容易地推估出用於該特定病毒之疫苗設計的最佳突變耐受表位。因此,本發明特定病毒的突變耐受表位的推估系統100確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
100:蛋白質結合自由能估測系統
1:儲存模組
2:接收模組
3:輸出模組
4:處理器
S41~S49:步驟
S61~S65:步驟
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:
圖1是一方塊圖,示例性地說明本發明實施例的特定病毒的突變耐受表位的推估系統;
圖2示例性地繪示出胺基酸的立體結構;
圖3是一示意圖,示例性地說明該實施例的一儲存模組所儲存的一蛋白質結合自由能估測模型的架構;
圖4是一流程圖,示例性地說明該實施例的一處理器如何執行一種特定病毒的突變耐受表位的推估方法;及
圖5示例性地繪示出根據145筆蛋白質結構資料資料所獲得的部分的棘蛋白位點的接觸殘基數量總和;
圖6是一流程圖,示例性地說明該處理器如何估算出每個棘蛋白-抗體複合物CPX
k中在每個棘蛋白位點S
i的棘蛋白-抗體界面中對應於每個突變型胺基酸Amu
j的該結合自由能
;及
圖7示例性地繪示出由該實施例的一輸出模組輸出的突變效應表位圖。
S41~S49:步驟
Claims (12)
- 一種特定病毒的突變耐受表位的推估方法,利用一電腦系統來執行,並包含以下步驟:根據接收到有關該特定病毒的N(N>>1)個病毒株的定序資料,獲得有關於該N個病毒株且在每個棘蛋白位點Si(i=1,...,1267)具有(相對於對應的野生型胺基酸的)每 種突變型胺基酸Amuj(j=1,...,19)的突變頻率, 其中M i,j 代表在該棘蛋白位點Si具有該種突變型胺基酸Amuj的病毒株的數量;經由分析接收到的P(P>1)筆分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物的蛋白質結構資料,對於每個棘蛋白-抗體複合物CPXk(k=1,...,P),獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPXk的所有接觸殘基,其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å,並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點Si的接觸 殘基之接觸殘基數量總和,以獲得計算出有 關於全部棘蛋白位點的所有接觸殘基數量總和C 1~C 1267;根據接收到的該P筆蛋白質結構資料且利用一預先建立的蛋白質結合自由能估測模型,對於每個棘蛋白-抗體複合物CPXk中與每個棘蛋白位點Si對應的棘蛋白-抗體界面,估算該棘蛋白-抗體界面中的一殘基以一基於胺 基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸其中每種突 變型胺基酸Amuj的情況下的結合自由能且將估算出 的P個結合自由能~其中之最大者確認為在該棘蛋 白位點Si突變成該突變型胺基酸Amuj之情況的結合自由能B i,j ,並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者,將該結合自由能B i,j 標準化以獲得代表該棘蛋白位點Si的該種突變型胺基酸Amuj的一熱點分數H i,j ,其介於0~1之間;對於在每個棘蛋白位點Si的每種突變型胺基酸Amuj,根據該突變頻率F i,j 、該接觸殘基數量總和C i 、該所有接觸殘基數量總和C 1~C 1267中的最大者和最小者、及該熱點分數H i,j ,估算出介於0~1之間的對應的突變效應分數E i,j ;及根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖,並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域,在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。
- 如請求項1所述的特定病毒的突變耐受表位的推估方法,還包含以下步驟:輸出該突變效應表位圖和該最佳耐受表位。
- 如請求項1所述的特定病毒的突變耐受表位的推估方法,其中,該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集,且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵,每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力,以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。
- 如請求項5所述的特定病毒的突變耐受表位的推估方法,其中,估算每個棘蛋白-抗體複合物CPXk中在每個棘蛋白位點Si的棘蛋白-抗體界面中對應於每個突變型胺基酸 Amuj的該結合自由能包含以下子步驟: 從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPXk的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPXk所含有關於該棘蛋白位點Si的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料;根據胺基酸在側鏈二面角和旋轉方面的特性,獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amuj時該野生型胺基酸的旋轉角度資料;根據該原子三維座標資料和獲得的該旋轉角度資料,推算出該突變型胺基酸Amuj的所有重原子之預估位置的三維座標,以獲得對應於該突變型胺基酸Amuj的推算原子座標資料;根據該原子三維座標資料和獲得的該推算原子座標資料,計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amuj的任兩個重原子之間的歐幾里得距離和原子級能量,以獲得有關於該突變型胺基酸Amuj的原子距離和原子交互作用力;及利用該蛋白質結合自由能估測模型,根據獲得的該原子距離和該原子交互作用力,以及該野生型胺基酸和該突變型胺基酸Amuj的理化特性特徵資料,估測出該結合自由能。
- 一種特定病毒的突變耐受表位的推估系統,包含:一儲存模組,儲存有一預先建立的蛋白質結合自由能估測模型; 一接收模組,用來接收有關該特定病毒的N(N>>1)個病毒株的定序資料、及P(P>1)筆蛋白質結構資料,該P筆蛋白質結構資料分別有關於該特定病毒且不含任何突變型胺基酸的P個棘蛋白-抗體複合物;及一處理器,連接該儲存模組和該接收模組,並操作來執行以下運作:根據接收的該定序資料,獲得有關於該N個病毒株且在每個棘蛋白位點Si(i=1,...,1267)具有(相對於對應的野生型胺基酸的)每種突變型胺基酸 Amuj(j=1,...,19)的突變頻率,其中M i,j 代表在該 棘蛋白位點Si具有該種突變型胺基酸Amuj的病毒株的數量;經由分析接收到的該P筆蛋白質結構資料,對於每個棘蛋白-抗體複合物CPXk(k=1,...,P),獲得有關所有重原子的對應的原子對距離資料且根據該對應的原子對距離資料識別出存在於該棘蛋白-抗體複合物CPXk的所有接觸殘基,其中每一者被定義為分別在對應的兩個不同蛋白質鏈的兩個殘基且在其α-碳(Cα)間的距離小於5Å,並且計算出有關於該P個棘蛋白-抗體複合物且對應於每個棘蛋白位點Si的接觸殘基之接觸殘基數量總和 ,以獲得計算出有關於全部棘蛋白位點的所 有接觸殘基數量總和C 1~C 1267;根據接收到的該P筆蛋白質結構資料且利用該儲存模組儲存的該蛋白質結合親和力估測模型,對於每 個棘蛋白-抗體複合物CPXk中與每個棘蛋白位點Si對應的棘蛋白-抗體界面,估算該棘蛋白-抗體界面中的一殘基以一基於胺基酸在側鏈二面角和旋轉方面之特性的預測突變方式從野生型胺基酸突變成其他19種突變型胺基酸 其中每種突變型胺基酸Amuj的情況下的結合自由能 且將估算出的P個結合自由能~其中之最大者確認 為在該棘蛋白位點Si突變成該突變型胺基酸Amuj之情況的結合自由能B i,j ,並根據確認出有關全部棘蛋白位點和所有突變型胺基酸的所有結合自由能其中的最小者和最大者,將該結合自由能B i,j 標準化以獲得代表該棘蛋白位點Si的該種突變型胺基酸Amuj的一熱點分數H i,j ,其介於0~1之間;對於在每個棘蛋白位點Si的每種突變型胺基酸Amuj,根據該突變頻率F i,j 、該接觸殘基數量總和C i 、該所有接觸殘基數量總和C 1~C 1267中的最大者和最小者、及該熱點分數H i,j ,估算出介於0~1之間的對應的突變效應分數E i,j ;及根據估算出有關於全部棘蛋白位點和所有突變型胺基酸的所有突變效應分數獲得一突變效應表位圖,並從該突變效應表位圖中推估出一作為該特定病毒之疫苗設計時最佳突變耐受表位的棘蛋白位點區域,在該棘蛋白位點區域中具有相對較少突變型胺基酸或者與該棘蛋白位點區域中的突變型胺基酸對應的突變效應分數相對較低。
- 如請求項7所述的特定病毒的突變耐受表位的推估系統,還包含一連接且受控於該處理器的輸出模組,其中,該處理器還操作來使該輸出模組輸出該突變效應表位圖、及該最佳突變耐受表位。
- 如請求項7所述的特定病毒的突變耐受表位的推估系統,其中,該蛋白質結合自由能估測模型是基於多個分別對應於多個含有二十種(突變型)胺基酸的蛋白質複合物的訓練資料集,且經由深度學習之神經網路所訓練成並以原子交互作用力、原子距離和胺基酸理化特性為特徵,每個訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的每種(突變型)胺基酸的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合親和力,以及相對於該種(突變型)胺基酸之野生型胺基酸的理化特性特徵資料。
- 如請求項11所述的特定病毒的突變耐受表位的推估系統,其中,該處理器透過以下處理來估算每個棘蛋白-抗體複合物CPXk在每個棘蛋白位點Si的棘蛋白-抗體界面中對應於每個突變型胺基酸Amuj的該結合自由能:從該P筆蛋白質結構資料其中一筆對應於該棘蛋白-抗體複合物CPXk的蛋白質結構資料擷取出該棘蛋白-抗體複合物CPXk所含有關於該棘蛋白位點Si的該棘蛋白-抗體界面的兩個殘基的所有重原子所在位置的原子三維座標資料;根據胺基酸在側鏈二面角和旋轉方面的特性,獲得該殘基從該野生型胺基酸突變成該突變型胺基酸Amuj時該野生型胺基酸的旋轉角度資料;根據該原子三維座標資料和獲得的該旋轉角度資料,推算出該突變型胺基酸Amuj的所有重原子之預估位置的三維座標,以獲得對應於該突變型胺基酸Amuj的推算原子座標資料;根據該原子三維座標資料和獲得的該推算原子座標資料,計算分別屬於該兩個殘基其中另一個殘基和該突變型胺基酸Amuj的任兩個重原子之間的歐幾里得距離和原子級能量,以獲得有關於該突變型胺基酸Amuj的原子距離和原子交互作用力;及利用該蛋白質結合自由能估測模型,根據獲得的該原子距離和該原子交互作用力,以及該野生型胺基酸和該突變型胺基酸Amuj的理化特性特徵資料,估測出該結 合自由能。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163248787P | 2021-09-27 | 2021-09-27 | |
US63/248787 | 2021-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202314728A TW202314728A (zh) | 2023-04-01 |
TWI815572B true TWI815572B (zh) | 2023-09-11 |
Family
ID=85722044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111127788A TWI815572B (zh) | 2021-09-27 | 2022-07-25 | 特定病毒的突變耐受表位的推估方法及系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230099381A1 (zh) |
TW (1) | TWI815572B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201116295A (en) * | 2009-09-14 | 2011-05-16 | Baylor Res Inst | Vaccines directed to langerhans cells |
CN107847581A (zh) * | 2015-07-07 | 2018-03-27 | 扬森疫苗与预防公司 | 稳定化的可溶性融合前rsv f多肽 |
CN111886342A (zh) * | 2017-12-21 | 2020-11-03 | 巴斯德研究所 | 拉沙疫苗 |
-
2022
- 2022-07-25 TW TW111127788A patent/TWI815572B/zh active
- 2022-09-23 US US17/951,252 patent/US20230099381A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201116295A (en) * | 2009-09-14 | 2011-05-16 | Baylor Res Inst | Vaccines directed to langerhans cells |
CN107847581A (zh) * | 2015-07-07 | 2018-03-27 | 扬森疫苗与预防公司 | 稳定化的可溶性融合前rsv f多肽 |
CN111886342A (zh) * | 2017-12-21 | 2020-11-03 | 巴斯德研究所 | 拉沙疫苗 |
Also Published As
Publication number | Publication date |
---|---|
US20230099381A1 (en) | 2023-03-30 |
TW202314728A (zh) | 2023-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Klempa et al. | Novel hantavirus sequences in shrew, Guinea | |
Wang et al. | Emerging vaccine-breakthrough SARS-CoV-2 variants | |
Wang et al. | Prediction of B‐cell linear epitopes with a combination of support vector machine classification and amino acid propensity identification | |
Wang et al. | Characterizing SARS-CoV-2 mutations in the United States | |
Liao et al. | Bioinformatics models for predicting antigenic variants of influenza A/H3N2 virus | |
Hannigan et al. | Evolutionary and functional implications of hypervariable loci within the skin virome | |
TWI815572B (zh) | 特定病毒的突變耐受表位的推估方法及系統 | |
Saha et al. | Mutations in spike protein of sars-cov-2 modulate receptor binding, membrane fusion and immunogenicity: An insight into viral tropism and pathogenesis of covid-19 | |
McClellan et al. | Assessing and improving the accuracy of detecting protein adaptation with the TreeSAAP analytical software | |
Li et al. | Metagenomic analysis reveals unexplored diversity of archaeal virome in the human gut | |
Ding et al. | Computational prediction of DNA-protein interactions: a review | |
Lavergne et al. | Identification of lymphocytic choriomeningitis mammarenavirus in house mouse (Mus musculus, Rodentia) in French Guiana | |
Pontremoli et al. | Evolutionary analysis of Old World arenaviruses reveals a major adaptive contribution of the viral polymerase | |
Sarkar et al. | Detection of the peptidyl epitope for vaccine development against MPV | |
Huang et al. | Residue analysis of a CTL epitope of SARS-CoV spike protein by IFN-gamma production and bioinformatics prediction | |
TW202320083A (zh) | 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 | |
Soam et al. | Improved prediction of MHC class I binders/non-binders peptides through artificial neural network using variable learning rate: SARS corona virus, a case study | |
Abidi et al. | On the accuracies of sequence based linear B cell epitope predictors | |
Chauhan et al. | Identification of T cell and B cell epitopes derived from EG95 antigen of Echinococcus granulosus using in silico approach for therapeutic vaccine development | |
Forghani et al. | Reduced amino acid alphabet-based encoding and its impact on modeling influenza antigenic evolution | |
Hsueh et al. | Rationally Designed Chimeric Antibodies for COVID-19 and Future Coronavirus Variants | |
Lam et al. | Analyze influenza virus sequences using binary encoding approach | |
Kent et al. | Combining Computational Modeling with Library Screening to Adapt SARS-CoV-Neutralizing Antibody 80R to SARS-CoV-2 | |
Lund-Andersen et al. | Predicting the Ability of SARS-CoV-2 to Utilize the ACE2 Receptor for Cell Entry in North American Rodents | |
Farrell et al. | Automated Computational Technique to Improve the Quality of SARS-CoV-2 Proteins |