TWI804229B - 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 - Google Patents
基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 Download PDFInfo
- Publication number
- TWI804229B TWI804229B TW111108387A TW111108387A TWI804229B TW I804229 B TWI804229 B TW I804229B TW 111108387 A TW111108387 A TW 111108387A TW 111108387 A TW111108387 A TW 111108387A TW I804229 B TWI804229 B TW I804229B
- Authority
- TW
- Taiwan
- Prior art keywords
- protein
- atomic
- free energy
- residue
- data
- Prior art date
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 182
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 182
- 230000035772 mutation Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 72
- 150000001413 amino acids Chemical class 0.000 claims abstract description 44
- 238000000547 structure data Methods 0.000 claims abstract description 12
- 239000000126 substance Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 11
- 102000007474 Multiprotein Complexes Human genes 0.000 claims description 8
- 108010085220 Multiprotein Complexes Proteins 0.000 claims description 8
- 238000005411 Van der Waals force Methods 0.000 claims description 6
- 229910052739 hydrogen Inorganic materials 0.000 claims description 6
- 239000001257 hydrogen Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 125000003275 alpha amino acid group Chemical group 0.000 claims 2
- 235000018102 proteins Nutrition 0.000 description 115
- 125000004429 atom Chemical group 0.000 description 38
- 235000001014 amino acid Nutrition 0.000 description 28
- 229940024606 amino acid Drugs 0.000 description 28
- 102100035765 Angiotensin-converting enzyme 2 Human genes 0.000 description 6
- 108090000975 Angiotensin-converting enzyme 2 Proteins 0.000 description 6
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 6
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 6
- 229960001230 asparagine Drugs 0.000 description 6
- 235000009582 asparagine Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 230000006916 protein interaction Effects 0.000 description 3
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 2
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 2
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 2
- 239000004472 Lysine Substances 0.000 description 2
- 229940096437 Protein S Drugs 0.000 description 2
- 101710198474 Spike protein Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 235000003704 aspartic acid Nutrition 0.000 description 2
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 238000000111 isothermal titration calorimetry Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- VGGSULWDCMWZPO-ODEMIOGVSA-N spinosin Chemical compound O([C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@H]1C1=C(O)C=2C(=O)C=C(OC=2C=C1OC)C=1C=CC(O)=CC=1)[C@@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1O VGGSULWDCMWZPO-ODEMIOGVSA-N 0.000 description 2
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- -1 Y501) Chemical compound 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- VGGSULWDCMWZPO-UHFFFAOYSA-N flavoayamenin Natural products COC1=CC=2OC(C=3C=CC(O)=CC=3)=CC(=O)C=2C(O)=C1C1OC(CO)C(O)C(O)C1OC1OC(CO)C(O)C(O)C1O VGGSULWDCMWZPO-UHFFFAOYSA-N 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 238000013379 physicochemical characterization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Crystallography & Structural Chemistry (AREA)
- Databases & Information Systems (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Peptides Or Proteins (AREA)
- Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一種基於蛋白質突變預測的蛋白質自由能估側方法利用電腦系統執行:根據無突變之參考蛋白質複合物的蛋白質結構資料獲得所有重原子對的原子對距離資料,並據以識別出原子對距離小於5 Å的所有相互作用界面;自所有相互作用界面找出有關於所欲位點之殘基的目標界面;利用胺基酸在側鏈二面角和旋轉方面的特性,預測該目標界面出現有特定型側鏈的突變殘基並獲得其推算原子座標資料;及利用經由AI訓練的蛋白質結合自由能估測模型,根據有關於該突變殘基的理化特性特徵資料及獲得的原子距離和原子交互作用力估測出該突變殘基的蛋白質結合自由能。
Description
本發明是有關於與疾病相關聯的蛋白質突變,特別是指一種基於蛋白質突變預測的蛋白質結合自由能估測方法及系統。
為了瞭解蛋白質突變與特定疾病之間的關聯性,目前已知的關鍵因素在於如何測定出突變對於原子級(atomic-level)蛋白質-蛋白質相互作用的影響。
參閱圖1,以新型冠狀病毒(SARS-CoV-2)的棘蛋白(spike protein,俗稱S蛋白)的受體結合區域(Receptor-Binding Domain,RBD)與血管收縮素轉化酶2(Angiotensin-Converting Enzyme 2,以下簡稱為ACE2)之間的交互作用為例,突變前的棘蛋白上的第501個天門冬醯胺酸(Asparagine,簡稱為N;以下,以N501來表示),與ACE2上的離胺酸(Lysine,以下簡稱為K)及酪胺酸(Tyrosine,以下簡稱為Y),由於最接近之原子距離小於5埃(Å),因此彼此存在有交互作用,如圖中的虛線所指示。然而當棘蛋白上
的N501突變成Y,亦即Y501之後,由於Y501較長且面積較大進而縮短與ACE2上K和Y的原子的距離,特別是新增了與ACE2的天門冬胺酸(Aspartic acid,以下簡稱為D)之間的交互作用(如圖中的虛線所指示)。一般而言,蛋白質間之原子交互作用越多會使得蛋白質結合更穩定,以本示例來說,會提升棘蛋白與ACE2交互作用能力,使得新型冠狀病毒更容易感染人體。
因此,若能推知特定蛋白質突變對於蛋白質相互作用的影響將有助於揭示例如病毒或人體疾病中的蛋白質突變關係。
目前所使用的一種測定蛋白質突變對於蛋白質相互作用的技術中,主要是經由濕式實驗(Wet Lab),透過誘變(mutagenesis)方式使特定胺基酸進行突變,並以如等溫低定量熱法(Isothermal Titration Calorimetry,ITC)的熱動力(thermodynamic)實驗直接測量生物分子結合過程中釋放或吸收的熱量,藉此測定該蛋白質突變對於蛋白質相互作用的影響。然而,現有技術所使用的濕式實驗不僅在實驗室的安全防護上要求較高而且操作的技術人員必須經過專門培訓,如此不僅耗時而且成本較高。
因此,如何能以快速且低成本的方式快速地預測蛋白質突變在蛋白質交互作用上的影響已成為相關技術領域所欲解決的議題之一。
因此,本發明的目的,即在提供一種基於蛋白質突變預測的蛋白質結合自由能估測方法及系統,其能克服現有技術至少一個缺點。
於是,本發明所提供的一種基於蛋白質突變預測的蛋白質結合自由能估測方法係利用一電腦系統來執行,並包含以下步驟:(A)從與一包含無突變且不同的兩條蛋白質鏈的參考蛋白質複合物對應的蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料;(B)根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,其中每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;(C)從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;(D)利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料以及該野生型殘基之側鏈的預測旋轉角度資料,
推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;(E)根據該原子三維座標資料和步驟(D)所獲得的該推算原子座標資料,計算分別屬於定義出該目標界面的該兩個殘基其中另一殘基和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及(F)利用一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型,根據步驟(E)獲得的該原子距離和該原子交互作用力,以及該野生型殘基和該突變型殘基的理化特性特徵資料,估測與該目標界面有關的該突變型殘基的蛋白質結合自由能。
在一些實施例中,在步驟(F)中,該蛋白質結合自由能估測模型是基於多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出,每一蛋白質複合物包含單一個或多個突變殘基,每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
在一些實施例中,在步驟(E)中,每一原子對的原子級能量為該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜
電力的總和。
在一些實施例中,在步驟(E)中,當定義出該目標界面的該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成,其中e i 為第i個原子對間的原子級能量。
於是,本發明所提供的一種基於蛋白質突變預測的蛋白質結合自由能估測系統包含一儲存模組、一接收模組、一輸出模組,及一連接該儲存模組、該接收模組和該輸出模組的處理器。
該儲存模組儲存有胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型。該胺基酸理化特性資料包含多筆分別對應於多種不同胺基酸的理化特性特徵資料。
該接收模組用來接收與一參考蛋白質複合物對應的蛋白質結構資料,該參考蛋白質複合物包含沒有任何突變且不同的兩條蛋白質鏈。
該處理器操作來執行以下運作:(i)從該蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其
中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料;(ii)根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;(iii)從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;(iv)利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料,以及從該儲存模組儲存的該胺基酸側鏈旋轉角度範圍資料查找出符合於該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;(v)根據該原子三維座標資料和該推算原子座標資料,計算分別屬於定義出該目標界面的該兩個殘基其中另一者和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及(vi)將該原子距離和該原子交互作用力以及從該儲存模組儲存的該胺基酸理化特性資料查找出符合於該野生型殘基和該突變型殘基的理化特性特徵資料饋入儲存於該儲存模組的該蛋白質結合自由能估測模型進行分析,以估測出與該目標界面有關的該突變殘
基的蛋白質結合自由能。
該處理器使該輸出模組輸出估側出的該蛋白質結合自由能。
在一些實施例中,該蛋白質結合自由能估測模型是基於從一個或多個蛋白質資料庫獲得的多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出。每一蛋白質複合物包含單一個或多個突變殘基。每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
在一些實施例中,該蛋白質結合自由能估測模型包含一用於接收特徵資料的輸入層、多個隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層。
在一些實施例中,每一原子對的原子級能量包括該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。
在一些實施例中,當定義出該目標界面的該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成,其中e i 為第i個原子對間的原子級能量。
本發明的功效在於:由於使用了預先訓練好的蛋白質結合自由能估測模型,所以只需先針對如與疾病相關但不含任何突變的參考蛋白質複合物的蛋白質結構資料進行分析與處理而獲得與所欲位點之殘基的相互作用界面,然後經特定突變預測後推算出突變型殘基的原子座標資料,並將該突變型殘基的原子交互作用力、原子距離和理化特性特徵資料,以及野生型殘基的理化特性特徵資料饋入該蛋白質結合自由估測模型能後即可快速估測出該突變型殘基的蛋白質結合自由能。
100:蛋白質結合自由能估測系統
1:儲存模組
2:接收模組
3:輸出模組
4:處理器
S61~S66:步驟
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:圖1是一示意圖,示例性地說明蛋白質突變所導致在蛋白質間的原子交互作用的影響;圖2是一方塊圖,示例性地說明本發明實施例的基於蛋白質突變預測的蛋白質結合自由能估測系統;圖3是一示意圖,示例性地說明該實施例的一儲存模組所儲存的一蛋白質結合自由能估測模型的架構;圖4示例性地繪示出多個驗證資料集所含實驗的蛋白質結合自由能與該蛋白質結合自由能估測模型根據該等驗證資料集所輸
出的估測的蛋白質結合自由能的比較結果;圖5示例性地繪示出胺基酸的立體結構;圖6是一流程圖,示例性地說明該實施例如何執行一種基於蛋白質突變預測的蛋白質結合自由能估測方法;及圖7是一示意圖,示例性地繪示出定義在鏈A與鏈B之間的一交互作用界面。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖2,示例性地繪示出本發明實施例的一種基於蛋白質突變預測的蛋白質結合自由能估測系統100,其可實施成一電腦系統,並包含一儲存模組1、一接收模組2、一輸出模組3,及一連接該儲存模組1、該接收模組2和該輸出模組3的處理器4。
該儲存模組1預先儲存了與胺基酸的側鏈兩面角(dihedral angle)和旋轉特性有關的胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一蛋白質結合自由能估測模型。
如圖5所示的胺基酸立體結構圖中,Cα兩側(分別與N及C)的兩個鍵是可以自由旋轉的單鍵,繞著N-Cα鍵旋轉的角稱為旋轉角Φ,繞著Cα-C鍵旋轉的角稱為旋轉角Ψ,Cα與位於其左側的
N、C和O所在之平面(即圖5中左邊的灰色平面)與Cα與位於其右側的N、C和O所在之另一平面(即圖5中右邊的灰色平面)之間的夾角稱為兩面角。該胺基酸理化特性資料包含多筆分別對應於例如21種不同胺基酸的理化特性特徵資料。該等種胺基酸由於具有各自在理化特性之特徵而可被歸屬於正電荷胺基酸、負電荷胺基酸、極性胺基酸、疏水性胺基酸和特殊胺基酸。舉例來說,天門冬醯胺酸(N)被歸屬於極性胺基酸,對應於天門冬醯胺酸(N)的理化特性特徵資料可以是依照一特定編碼方式之編碼,例如“00100”來表示,其中第一至第五位元分別代表胺基酸具有正電荷、負電荷、極性、疏水性和特殊的理化特性特徵。值得注意的是,由於胺基酸側鏈旋轉角度範圍對於化學相關領域的一般技術人員應屬通常知識,且其並非本發明的主要特徵,故在此省略相關細節不再贅述。
請注意,該蛋白質結合自由能估測系統100必須預先建立且儲存於該儲存模組1的該蛋白質結合自由能估測模型。以下將進一步說明該蛋白質結合自由能估測模型如何被建立。
首先,可利用一電腦設備經由網路蒐集來自多個蛋白質資料庫(例如,SKEMPI 2.0、ABBind13、PROXiMATE14和dbMPIKT15)的多個分別對應於多個不同蛋白質複合物的蛋白質資料集,其中每一蛋白質複合物包含單一個或多個突變殘基(mutated residues);然後從該等蛋白質資料集擷取出多個訓練資
料集,其中每一訓練資料集包含對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基(wild residue)的理化特性特徵資料。在本實施例中,如圖3所示,該蛋白質結合自由能估測模型是被設計成以(突變)殘基的原子交互作用、原子距離和胺基酸理化特性為特徵並具有一用於接收輸入資料的輸入層、例如3層隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層,其中該第一隱藏層例如是由64個神經元和ReLU(Rectified Linear Unit)激勵函數所構成,該第二隱藏層例如是由32個神經元和ReLU激勵函數所構成,並且該第三隱藏層例如是由16個神經元和ReLU激勵函數所構成。於是,該蛋白質結合自由能估測模型根據經由該輸入層饋入的該等訓練資料集且經過如該等隱藏層之神經網路的深度學習的方式訓練而成。較佳地,亦可利用多個額外的驗證資料集(具有相似於訓練資料集的資料內容)來驗證訓練好的蛋白質結合自由能估測模型的估測性能。從圖4所示該等驗證資料集所含實驗的蛋白質結合自由能與該蛋白質結合自由能估測模型根據該等驗證資料集所輸出的估測的蛋白質結合自由能的比較結果可驗證出所訓練出的該蛋白質結合自由能估測模型的準確度確實可達到0.91,其明顯高於現有的估測模型的準確度,例如,揭露於”Xiong,P.,Zhang,C.,Zheng,W.& Zhang,
Y.BindProfX:Assessing Mutation-Induced Binding Affinity Change by Protein Interface Profiles with Pseudo-Counts.J Mol Biol 429,426-434,doi:10.1016/j.jmb.2016.11.022(2017)”的BindProfX模型僅具有0.74的準確度。
該接收模組2例如包含一使用者輸入介面或一可連接通訊網路的通訊介面(圖未示),並用來接收例如來自外部且與一參考蛋白質複合物對應的蛋白質結構資料。在本實施例中,該參考蛋白質複合物包含沒有任何突變且不同的兩條蛋白質鏈或更多條蛋白質鏈。具體而言,該蛋白質結構資料包含該參考蛋白質複合物所含每一原子的三維座標。
以下,將參閱圖2及圖6來示例地詳細說明該蛋白質結合自由能估測系統100如何根據該接收模組2接收到的該蛋白質結構資料來執行一種基於蛋白質突變預測的蛋白質結合自由能估測方法。該蛋白質結合自由能估測方法包含以下步驟S61~S66。
在步驟S61中,該處理器4從該蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子(非H的其他原子如O、N、C)所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料。具體而言,該原子對距離資料包含所有重原子對的歐幾里得距離。
接著,在步驟S62中,該處理器4根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面。每一相互作用界面是定義在分別位於不同蛋白質鏈上的兩個(胺基酸)殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å。舉例來說,圖7示例性地繪示出定義在(蛋白質)鏈A與(蛋白質)鏈B之間的一交互作用界面。
然後,在步驟S63中,該處理器4從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面。
接著,在步驟S64中,該處理器4利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型(wild-type)殘基(即,未突變的原始殘基)可經由突變而轉變成一具有一特定側鏈的突變型(mutation-type)殘基,並且根據該原子三維座標資料中對應於該野生型殘基的所有重原子的三維座標,以及從該儲存模組1儲存的該胺基酸側鏈旋轉角度範圍資料查找出符合於該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料。在本實施例中,該胺基酸側鏈旋轉角度範圍資料例如為以下表1,其包含一有關於旋轉角Φ、旋轉角Ψ和側鏈R中Cβ-XG鍵相對於N-Cα鍵的夾角(以下以X1來表
示)的角度範圍查找表。於是,根據該野生型殘基的旋轉角Φ、旋轉角Ψ和X1,可從該角度範圍查找表查找出對應於Φ旋轉角、Ψ旋轉角和X1的預測旋轉角度,即,△X1作為該預測旋轉角度資料。
舉例來說,若該目標界面是有關於第501個(所欲位點)殘基且該野生型殘基例如為天門冬醯胺酸(即,N501)並且預測的該突變型殘基例如為酪胺酸(即,Y501),於是,若該野生型殘基的Φ=-60°,Ψ=-60°,且X1=+60°,在此情況下,可經由查找上述表1而獲得預測旋轉角度資料,即△X1,其實際上包含四組的預測旋轉角度,即,△X1=60°、△X1=-120°、△X1=180°和△X1=0°,並且之後該處理器4根據此四組的預測旋轉角度與該野生型殘基(N501)的原始三維座標資料所獲得的推算原子座標資料亦包含對應於該突變型殘基(Y501)的所有重原子的四組推算三維座標資料。附帶一提的是,當△X1=0°時意謂該突變行殘基(Y501)的側鏈
不會旋轉。
接著,在步驟S65中,該處理器4根據該原子三維座標資料中對應於定義出該目標界面的另一殘基的所有重原子的三維座標和該推算原子座標資料,計算分別屬於該另一殘基和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力。在本實施例中,每一原子對的原子級能量例如為該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。由於可利用現有已知計算方式來計算兩個重原子之間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力,且其相關細節亦並非本發明的主要特徵,故在此省略不再贅述。此外,更明確地,當該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成,其中e i 為第i個原子對間的原子級能量。
要特別說明的是,由於在步驟S64所獲得的該推算原子座標資料實際上包含四組的推算三維座標資料(其分別該突變型殘基的四個預估位置),因此該處理器4在步驟S65中會獲得四組的原子距離和原子交互作用力(例如以(D1,E1)、(D2,E2)、(D3,E3)及(D4,E4)來表示)並且該處理器4最後會選擇具有較小的原子交
互作用力一組原子距離和原子交互作用力作為有關該目標界面的該原子距離和該原子交互作用力。舉例來說,若沿用上例,當根據△X1=60°獲得(D1,E1),根據△X1=-120°獲得(D2,E2),根據△X1=180°獲得(D3,E4),而根據△X1=0°獲得(D4,E4),若E1~E4其中最小者為E4,則(D4,E4)作為該目標界面的該原子距離和該原子交互作用力,以供後續步驟使用。
最後,在步驟S66中,該處理器4將該原子距離和該原子交互作用力以及從該儲存模組1儲存的該胺基酸理化特性資料查找出符合於該野生型殘基和該突變型殘基的理化特性特徵資料饋入儲存於該儲存模組1的該蛋白質結合自由能估測模型進行分析,並從該蛋白質結合自由能估測模型的該輸出層輸出有關於該突變型殘基的估測蛋白質結合自由能。
於是,該處理器4可將獲得的估測蛋白質結合自由能經由該輸出模組3輸出。在本實施例中,該輸出模組3可包含但不限於一顯示器,以將該估測蛋白質結合自由能驗顯示給相關技術人員。因此,相關技術人員可以從此估測蛋白質結合自由能來評估該目標界對於穩定兩個蛋白質之結合能力貢獻度(例如,越小的蛋白質結合自由能則導致兩個蛋白質之結合能力越強),另一方面,亦可以運用於監控未來是否有突變會發生在該目標界面上,若有則能推論對於蛋白質功能的影響程度。此外,此估測蛋白質結合自由能亦能應用
於藥物設計領域,藉由事先知道蛋白質化合物的關鍵結合界面,即能針對此關鍵結合界面設計出一個藥物更易與此關鍵結合界面結合,如此能使此關鍵結合界面無法與其他蛋白質的結合,藉此能大幅縮短藥物開發時的探索期以加快藥物研發速度並提高成功率。
綜上所述,由於使用了預先訓練好且具有相對較高準確度的蛋白質結合自由能估測模型,所以只需先針對如與疾病相關但不含任何突變的參考蛋白質複合物的蛋白質結構資料進行分析與處理而獲得與所欲位點之殘基的相互作用界面,然後經特定突變預測後推算出突變型殘基的原子座標資料,並將該突變型殘基的原子交互作用力、原子距離和理化特性特徵資料以及野生型殘基的理化特性特徵資料饋入該蛋白質結合自由估測模型能後即可快速地且準確地估測出該突變型殘基的蛋白質結合自由能。因此,本發明基於蛋白質突變預測的蛋白質結合自由能估測系統100確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
S61~S66:步驟
Claims (9)
- 一種基於蛋白質突變預測的蛋白質結合自由能估測方法,利用一電腦系統來執行,並包含以下步驟:(A)從與一包含無突變且不同的兩條蛋白質鏈的參考蛋白質複合物對應的蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料;(B)根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,其中每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;(C)從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;(D)利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料以及該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;(E)根據該原子三維座標資料和步驟(D)所獲得的該推算原子座標資料,計算分別屬於定義出該目標界面的 該兩個殘基其中另一殘基和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及(F)利用一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型,根據步驟(E)獲得的該原子距離和該原子交互作用力,以及該野生型殘基和該突變型殘基的理化特性特徵資料,估測與該目標界面有關的該突變型殘基的蛋白質結合自由能。
- 如請求項1所述的基於蛋白質突變預測的蛋白質結合自由能估測方法,其中,在步驟(F)中,該蛋白質結合自由能估測模型是基於多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出,每一蛋白質複合物包含單一個或多個突變殘基,每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
- 如請求項1所述的基於蛋白質突變預測的蛋白質結合自由能估測方法,其中,在步驟(E)中,每一原子對的原子級能量為該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。
- 一種基於蛋白質突變預測的蛋白質結合自由能估測系統,包含:一儲存模組,儲存有胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型,其中該胺基酸理化特性資料包含多筆分別對應於多種不同胺基酸的理化特性特徵資料;一接收模組,用來接收與一參考蛋白質複合物對應的蛋白質結構資料,該參考蛋白質複合物包含沒有任何突變且不同的兩條蛋白質鏈;一輸出模組;及一處理器,連接該儲存模組、該接收模組和該輸出模組,並操作來執行以下運作:從該蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複 合物的原子對距離資料;根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料,以及從該儲存模組儲存的該胺基酸側鏈旋轉角度範圍資料查找出符合於該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;根據該原子三維座標資料和該推算原子座標資料,計算分別屬於定義出該目標界面的該兩個殘基其中另一者和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及將該原子距離和該原子交互作用力以及從該儲存模組儲存的該胺基酸理化特性資料查找出符合於該野生型殘基和該突變型殘基的理化特性特徵資料饋入儲存於該儲存模組的該蛋白質結合自由能估測模型進行分 析,以估測出與該目標界面有關的該突變殘基的蛋白質結合自由能;其中,該處理器使該輸出模組輸出估側出的該蛋白質結合自由能。
- 如請求項5所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,該蛋白質結合自由能估測模型是基於從一個或多個蛋白質資料庫獲得的多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出,每一蛋白質複合物包含單一個或多個突變殘基,每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
- 如請求項6所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,該蛋白質結合自由能估測模型包含一用於接收特徵資料的輸入層、多個隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層。
- 如請求項5所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,每一原子對的原子級能量包括該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163248804P | 2021-09-27 | 2021-09-27 | |
US63/248,804 | 2021-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202320083A TW202320083A (zh) | 2023-05-16 |
TWI804229B true TWI804229B (zh) | 2023-06-01 |
Family
ID=85797948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111108387A TWI804229B (zh) | 2021-09-27 | 2022-03-08 | 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230113585A1 (zh) |
TW (1) | TWI804229B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130330335A1 (en) * | 2010-03-23 | 2013-12-12 | Iogenetics, Llc | Bioinformatic processes for determination of peptide binding |
TW202000907A (zh) * | 2018-05-23 | 2020-01-01 | 美商葛利史東腫瘤科技公司 | 共有抗原 |
CN110689920A (zh) * | 2019-09-18 | 2020-01-14 | 上海交通大学 | 一种基于深度学习的蛋白质-配体结合位点预测算法 |
CN113223608A (zh) * | 2021-06-04 | 2021-08-06 | 上海天壤智能科技有限公司 | 双层互强化的蛋白质三维结构预测方法及系统 |
-
2022
- 2022-03-08 TW TW111108387A patent/TWI804229B/zh active
- 2022-07-14 US US17/865,140 patent/US20230113585A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130330335A1 (en) * | 2010-03-23 | 2013-12-12 | Iogenetics, Llc | Bioinformatic processes for determination of peptide binding |
TW202000907A (zh) * | 2018-05-23 | 2020-01-01 | 美商葛利史東腫瘤科技公司 | 共有抗原 |
CN110689920A (zh) * | 2019-09-18 | 2020-01-14 | 上海交通大学 | 一种基于深度学习的蛋白质-配体结合位点预测算法 |
CN113223608A (zh) * | 2021-06-04 | 2021-08-06 | 上海天壤智能科技有限公司 | 双层互强化的蛋白质三维结构预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
TW202320083A (zh) | 2023-05-16 |
US20230113585A1 (en) | 2023-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696624B (zh) | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 | |
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
WO2022206320A1 (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
Zhang et al. | Prediction of conformational B-cell epitopes from 3D structures by random forests with a distance-based feature | |
Ding et al. | Assessing the similarity of ligand binding conformations with the Contact Mode Score | |
Yu et al. | Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering | |
Joo et al. | Sann: solvent accessibility prediction of proteins by nearest neighbor method | |
Tian et al. | Predicting changes in protein thermostability brought about by single-or multi-site mutations | |
CN104715096B (zh) | Bp神经网络预测二肽模型多极展开属性计算方法 | |
CN106778065A (zh) | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 | |
Evteev et al. | SiteRadar: utilizing graph machine learning for precise mapping of protein–ligand-binding sites | |
Liu et al. | Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model | |
Wojciechowski | Simplified AutoDock force field for hydrated binding sites | |
Park et al. | ROTAS: a rotamer-dependent, atomic statistical potential for assessment and prediction of protein structures | |
CN111180021B (zh) | 一种蛋白质结构势能函数的预测方法 | |
Elhefnawy et al. | ICOSA: a distance-dependent, orientation-specific coarse-grained contact potential for protein structure modeling | |
TWI804229B (zh) | 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 | |
Stumpff‐Kane et al. | Sampling of near‐native protein conformations during protein structure refinement using a coarse‐grained model, normal modes, and molecular dynamics simulations | |
CN118782148B (zh) | 新型冠状病毒毒株抗原性快速鉴别方法及装置 | |
Wilson et al. | The electrostatic landscape of MHC-peptide binding revealed using inception networks | |
Yang et al. | Geometric and amino acid type determinants for protein‐protein interaction interfaces | |
Choi et al. | Comparison of phylogenetic trees through alignment of embedded evolutionary distances | |
Fang et al. | The intrinsic geometric structure of protein-protein interaction networks for protein interaction prediction | |
Degac et al. | Graph-based clustering of predicted ligand-binding pockets on protein surfaces | |
CN109101784A (zh) | 一种dna结合蛋白接口几何结构特征的分析方法 |