TWI804229B - 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 - Google Patents

基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 Download PDF

Info

Publication number
TWI804229B
TWI804229B TW111108387A TW111108387A TWI804229B TW I804229 B TWI804229 B TW I804229B TW 111108387 A TW111108387 A TW 111108387A TW 111108387 A TW111108387 A TW 111108387A TW I804229 B TWI804229 B TW I804229B
Authority
TW
Taiwan
Prior art keywords
protein
atomic
free energy
residue
data
Prior art date
Application number
TW111108387A
Other languages
English (en)
Other versions
TW202320083A (zh
Inventor
陳逸庭
黃星翰
清詠 林
林庠豫
王政堂
Original Assignee
美商圖策智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商圖策智能科技有限公司 filed Critical 美商圖策智能科技有限公司
Publication of TW202320083A publication Critical patent/TW202320083A/zh
Application granted granted Critical
Publication of TWI804229B publication Critical patent/TWI804229B/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

一種基於蛋白質突變預測的蛋白質自由能估側方法利用電腦系統執行:根據無突變之參考蛋白質複合物的蛋白質結構資料獲得所有重原子對的原子對距離資料,並據以識別出原子對距離小於5 Å的所有相互作用界面;自所有相互作用界面找出有關於所欲位點之殘基的目標界面;利用胺基酸在側鏈二面角和旋轉方面的特性,預測該目標界面出現有特定型側鏈的突變殘基並獲得其推算原子座標資料;及利用經由AI訓練的蛋白質結合自由能估測模型,根據有關於該突變殘基的理化特性特徵資料及獲得的原子距離和原子交互作用力估測出該突變殘基的蛋白質結合自由能。

Description

基於蛋白質突變預測的蛋白質結合自由能估測方法及系統
本發明是有關於與疾病相關聯的蛋白質突變,特別是指一種基於蛋白質突變預測的蛋白質結合自由能估測方法及系統。
為了瞭解蛋白質突變與特定疾病之間的關聯性,目前已知的關鍵因素在於如何測定出突變對於原子級(atomic-level)蛋白質-蛋白質相互作用的影響。
參閱圖1,以新型冠狀病毒(SARS-CoV-2)的棘蛋白(spike protein,俗稱S蛋白)的受體結合區域(Receptor-Binding Domain,RBD)與血管收縮素轉化酶2(Angiotensin-Converting Enzyme 2,以下簡稱為ACE2)之間的交互作用為例,突變前的棘蛋白上的第501個天門冬醯胺酸(Asparagine,簡稱為N;以下,以N501來表示),與ACE2上的離胺酸(Lysine,以下簡稱為K)及酪胺酸(Tyrosine,以下簡稱為Y),由於最接近之原子距離小於5埃(Å),因此彼此存在有交互作用,如圖中的虛線所指示。然而當棘蛋白上 的N501突變成Y,亦即Y501之後,由於Y501較長且面積較大進而縮短與ACE2上K和Y的原子的距離,特別是新增了與ACE2的天門冬胺酸(Aspartic acid,以下簡稱為D)之間的交互作用(如圖中的虛線所指示)。一般而言,蛋白質間之原子交互作用越多會使得蛋白質結合更穩定,以本示例來說,會提升棘蛋白與ACE2交互作用能力,使得新型冠狀病毒更容易感染人體。
因此,若能推知特定蛋白質突變對於蛋白質相互作用的影響將有助於揭示例如病毒或人體疾病中的蛋白質突變關係。
目前所使用的一種測定蛋白質突變對於蛋白質相互作用的技術中,主要是經由濕式實驗(Wet Lab),透過誘變(mutagenesis)方式使特定胺基酸進行突變,並以如等溫低定量熱法(Isothermal Titration Calorimetry,ITC)的熱動力(thermodynamic)實驗直接測量生物分子結合過程中釋放或吸收的熱量,藉此測定該蛋白質突變對於蛋白質相互作用的影響。然而,現有技術所使用的濕式實驗不僅在實驗室的安全防護上要求較高而且操作的技術人員必須經過專門培訓,如此不僅耗時而且成本較高。
因此,如何能以快速且低成本的方式快速地預測蛋白質突變在蛋白質交互作用上的影響已成為相關技術領域所欲解決的議題之一。
因此,本發明的目的,即在提供一種基於蛋白質突變預測的蛋白質結合自由能估測方法及系統,其能克服現有技術至少一個缺點。
於是,本發明所提供的一種基於蛋白質突變預測的蛋白質結合自由能估測方法係利用一電腦系統來執行,並包含以下步驟:(A)從與一包含無突變且不同的兩條蛋白質鏈的參考蛋白質複合物對應的蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料;(B)根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,其中每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;(C)從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;(D)利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料以及該野生型殘基之側鏈的預測旋轉角度資料, 推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;(E)根據該原子三維座標資料和步驟(D)所獲得的該推算原子座標資料,計算分別屬於定義出該目標界面的該兩個殘基其中另一殘基和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及(F)利用一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型,根據步驟(E)獲得的該原子距離和該原子交互作用力,以及該野生型殘基和該突變型殘基的理化特性特徵資料,估測與該目標界面有關的該突變型殘基的蛋白質結合自由能。
在一些實施例中,在步驟(F)中,該蛋白質結合自由能估測模型是基於多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出,每一蛋白質複合物包含單一個或多個突變殘基,每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
在一些實施例中,在步驟(E)中,每一原子對的原子級能量為該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜 電力的總和。
在一些實施例中,在步驟(E)中,當定義出該目標界面的該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成
Figure 111108387-A0305-02-0006-15
,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成
Figure 111108387-A0305-02-0006-2
,其中e i 為第i個原子對間的原子級能量。
於是,本發明所提供的一種基於蛋白質突變預測的蛋白質結合自由能估測系統包含一儲存模組、一接收模組、一輸出模組,及一連接該儲存模組、該接收模組和該輸出模組的處理器。
該儲存模組儲存有胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型。該胺基酸理化特性資料包含多筆分別對應於多種不同胺基酸的理化特性特徵資料。
該接收模組用來接收與一參考蛋白質複合物對應的蛋白質結構資料,該參考蛋白質複合物包含沒有任何突變且不同的兩條蛋白質鏈。
該處理器操作來執行以下運作:(i)從該蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其 中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料;(ii)根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;(iii)從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;(iv)利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料,以及從該儲存模組儲存的該胺基酸側鏈旋轉角度範圍資料查找出符合於該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;(v)根據該原子三維座標資料和該推算原子座標資料,計算分別屬於定義出該目標界面的該兩個殘基其中另一者和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及(vi)將該原子距離和該原子交互作用力以及從該儲存模組儲存的該胺基酸理化特性資料查找出符合於該野生型殘基和該突變型殘基的理化特性特徵資料饋入儲存於該儲存模組的該蛋白質結合自由能估測模型進行分析,以估測出與該目標界面有關的該突變殘 基的蛋白質結合自由能。
該處理器使該輸出模組輸出估側出的該蛋白質結合自由能。
在一些實施例中,該蛋白質結合自由能估測模型是基於從一個或多個蛋白質資料庫獲得的多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出。每一蛋白質複合物包含單一個或多個突變殘基。每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
在一些實施例中,該蛋白質結合自由能估測模型包含一用於接收特徵資料的輸入層、多個隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層。
在一些實施例中,每一原子對的原子級能量包括該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。
在一些實施例中,當定義出該目標界面的該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成
Figure 111108387-A0305-02-0008-4
,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成
Figure 111108387-A0305-02-0008-5
,其中e i 為第i個原子對間的原子級能量。
本發明的功效在於:由於使用了預先訓練好的蛋白質結合自由能估測模型,所以只需先針對如與疾病相關但不含任何突變的參考蛋白質複合物的蛋白質結構資料進行分析與處理而獲得與所欲位點之殘基的相互作用界面,然後經特定突變預測後推算出突變型殘基的原子座標資料,並將該突變型殘基的原子交互作用力、原子距離和理化特性特徵資料,以及野生型殘基的理化特性特徵資料饋入該蛋白質結合自由估測模型能後即可快速估測出該突變型殘基的蛋白質結合自由能。
100:蛋白質結合自由能估測系統
1:儲存模組
2:接收模組
3:輸出模組
4:處理器
S61~S66:步驟
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:圖1是一示意圖,示例性地說明蛋白質突變所導致在蛋白質間的原子交互作用的影響;圖2是一方塊圖,示例性地說明本發明實施例的基於蛋白質突變預測的蛋白質結合自由能估測系統;圖3是一示意圖,示例性地說明該實施例的一儲存模組所儲存的一蛋白質結合自由能估測模型的架構;圖4示例性地繪示出多個驗證資料集所含實驗的蛋白質結合自由能與該蛋白質結合自由能估測模型根據該等驗證資料集所輸 出的估測的蛋白質結合自由能的比較結果;圖5示例性地繪示出胺基酸的立體結構;圖6是一流程圖,示例性地說明該實施例如何執行一種基於蛋白質突變預測的蛋白質結合自由能估測方法;及圖7是一示意圖,示例性地繪示出定義在鏈A與鏈B之間的一交互作用界面。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖2,示例性地繪示出本發明實施例的一種基於蛋白質突變預測的蛋白質結合自由能估測系統100,其可實施成一電腦系統,並包含一儲存模組1、一接收模組2、一輸出模組3,及一連接該儲存模組1、該接收模組2和該輸出模組3的處理器4。
該儲存模組1預先儲存了與胺基酸的側鏈兩面角(dihedral angle)和旋轉特性有關的胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一蛋白質結合自由能估測模型。
如圖5所示的胺基酸立體結構圖中,Cα兩側(分別與N及C)的兩個鍵是可以自由旋轉的單鍵,繞著N-Cα鍵旋轉的角稱為旋轉角Φ,繞著Cα-C鍵旋轉的角稱為旋轉角Ψ,Cα與位於其左側的 N、C和O所在之平面(即圖5中左邊的灰色平面)與Cα與位於其右側的N、C和O所在之另一平面(即圖5中右邊的灰色平面)之間的夾角稱為兩面角。該胺基酸理化特性資料包含多筆分別對應於例如21種不同胺基酸的理化特性特徵資料。該等種胺基酸由於具有各自在理化特性之特徵而可被歸屬於正電荷胺基酸、負電荷胺基酸、極性胺基酸、疏水性胺基酸和特殊胺基酸。舉例來說,天門冬醯胺酸(N)被歸屬於極性胺基酸,對應於天門冬醯胺酸(N)的理化特性特徵資料可以是依照一特定編碼方式之編碼,例如“00100”來表示,其中第一至第五位元分別代表胺基酸具有正電荷、負電荷、極性、疏水性和特殊的理化特性特徵。值得注意的是,由於胺基酸側鏈旋轉角度範圍對於化學相關領域的一般技術人員應屬通常知識,且其並非本發明的主要特徵,故在此省略相關細節不再贅述。
請注意,該蛋白質結合自由能估測系統100必須預先建立且儲存於該儲存模組1的該蛋白質結合自由能估測模型。以下將進一步說明該蛋白質結合自由能估測模型如何被建立。
首先,可利用一電腦設備經由網路蒐集來自多個蛋白質資料庫(例如,SKEMPI 2.0、ABBind13、PROXiMATE14和dbMPIKT15)的多個分別對應於多個不同蛋白質複合物的蛋白質資料集,其中每一蛋白質複合物包含單一個或多個突變殘基(mutated residues);然後從該等蛋白質資料集擷取出多個訓練資 料集,其中每一訓練資料集包含對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基(wild residue)的理化特性特徵資料。在本實施例中,如圖3所示,該蛋白質結合自由能估測模型是被設計成以(突變)殘基的原子交互作用、原子距離和胺基酸理化特性為特徵並具有一用於接收輸入資料的輸入層、例如3層隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層,其中該第一隱藏層例如是由64個神經元和ReLU(Rectified Linear Unit)激勵函數所構成,該第二隱藏層例如是由32個神經元和ReLU激勵函數所構成,並且該第三隱藏層例如是由16個神經元和ReLU激勵函數所構成。於是,該蛋白質結合自由能估測模型根據經由該輸入層饋入的該等訓練資料集且經過如該等隱藏層之神經網路的深度學習的方式訓練而成。較佳地,亦可利用多個額外的驗證資料集(具有相似於訓練資料集的資料內容)來驗證訓練好的蛋白質結合自由能估測模型的估測性能。從圖4所示該等驗證資料集所含實驗的蛋白質結合自由能與該蛋白質結合自由能估測模型根據該等驗證資料集所輸出的估測的蛋白質結合自由能的比較結果可驗證出所訓練出的該蛋白質結合自由能估測模型的準確度確實可達到0.91,其明顯高於現有的估測模型的準確度,例如,揭露於”Xiong,P.,Zhang,C.,Zheng,W.& Zhang, Y.BindProfX:Assessing Mutation-Induced Binding Affinity Change by Protein Interface Profiles with Pseudo-Counts.J Mol Biol 429,426-434,doi:10.1016/j.jmb.2016.11.022(2017)”的BindProfX模型僅具有0.74的準確度。
該接收模組2例如包含一使用者輸入介面或一可連接通訊網路的通訊介面(圖未示),並用來接收例如來自外部且與一參考蛋白質複合物對應的蛋白質結構資料。在本實施例中,該參考蛋白質複合物包含沒有任何突變且不同的兩條蛋白質鏈或更多條蛋白質鏈。具體而言,該蛋白質結構資料包含該參考蛋白質複合物所含每一原子的三維座標。
以下,將參閱圖2及圖6來示例地詳細說明該蛋白質結合自由能估測系統100如何根據該接收模組2接收到的該蛋白質結構資料來執行一種基於蛋白質突變預測的蛋白質結合自由能估測方法。該蛋白質結合自由能估測方法包含以下步驟S61~S66。
在步驟S61中,該處理器4從該蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子(非H的其他原子如O、N、C)所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料。具體而言,該原子對距離資料包含所有重原子對的歐幾里得距離。
接著,在步驟S62中,該處理器4根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面。每一相互作用界面是定義在分別位於不同蛋白質鏈上的兩個(胺基酸)殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å。舉例來說,圖7示例性地繪示出定義在(蛋白質)鏈A與(蛋白質)鏈B之間的一交互作用界面。
然後,在步驟S63中,該處理器4從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面。
接著,在步驟S64中,該處理器4利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型(wild-type)殘基(即,未突變的原始殘基)可經由突變而轉變成一具有一特定側鏈的突變型(mutation-type)殘基,並且根據該原子三維座標資料中對應於該野生型殘基的所有重原子的三維座標,以及從該儲存模組1儲存的該胺基酸側鏈旋轉角度範圍資料查找出符合於該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料。在本實施例中,該胺基酸側鏈旋轉角度範圍資料例如為以下表1,其包含一有關於旋轉角Φ、旋轉角Ψ和側鏈R中Cβ-XG鍵相對於N-Cα鍵的夾角(以下以X1來表 示)的角度範圍查找表。於是,根據該野生型殘基的旋轉角Φ、旋轉角Ψ和X1,可從該角度範圍查找表查找出對應於Φ旋轉角、Ψ旋轉角和X1的預測旋轉角度,即,△X1作為該預測旋轉角度資料。
Figure 111108387-A0305-02-0015-6
舉例來說,若該目標界面是有關於第501個(所欲位點)殘基且該野生型殘基例如為天門冬醯胺酸(即,N501)並且預測的該突變型殘基例如為酪胺酸(即,Y501),於是,若該野生型殘基的Φ=-60°,Ψ=-60°,且X1=+60°,在此情況下,可經由查找上述表1而獲得預測旋轉角度資料,即△X1,其實際上包含四組的預測旋轉角度,即,△X1=60°、△X1=-120°、△X1=180°和△X1=0°,並且之後該處理器4根據此四組的預測旋轉角度與該野生型殘基(N501)的原始三維座標資料所獲得的推算原子座標資料亦包含對應於該突變型殘基(Y501)的所有重原子的四組推算三維座標資料。附帶一提的是,當△X1=0°時意謂該突變行殘基(Y501)的側鏈 不會旋轉。
接著,在步驟S65中,該處理器4根據該原子三維座標資料中對應於定義出該目標界面的另一殘基的所有重原子的三維座標和該推算原子座標資料,計算分別屬於該另一殘基和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力。在本實施例中,每一原子對的原子級能量例如為該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。由於可利用現有已知計算方式來計算兩個重原子之間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力,且其相關細節亦並非本發明的主要特徵,故在此省略不再贅述。此外,更明確地,當該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成
Figure 111108387-A0305-02-0016-8
,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成
Figure 111108387-A0305-02-0016-10
,其中e i 為第i個原子對間的原子級能量。
要特別說明的是,由於在步驟S64所獲得的該推算原子座標資料實際上包含四組的推算三維座標資料(其分別該突變型殘基的四個預估位置),因此該處理器4在步驟S65中會獲得四組的原子距離和原子交互作用力(例如以(D1,E1)、(D2,E2)、(D3,E3)及(D4,E4)來表示)並且該處理器4最後會選擇具有較小的原子交 互作用力一組原子距離和原子交互作用力作為有關該目標界面的該原子距離和該原子交互作用力。舉例來說,若沿用上例,當根據△X1=60°獲得(D1,E1),根據△X1=-120°獲得(D2,E2),根據△X1=180°獲得(D3,E4),而根據△X1=0°獲得(D4,E4),若E1~E4其中最小者為E4,則(D4,E4)作為該目標界面的該原子距離和該原子交互作用力,以供後續步驟使用。
最後,在步驟S66中,該處理器4將該原子距離和該原子交互作用力以及從該儲存模組1儲存的該胺基酸理化特性資料查找出符合於該野生型殘基和該突變型殘基的理化特性特徵資料饋入儲存於該儲存模組1的該蛋白質結合自由能估測模型進行分析,並從該蛋白質結合自由能估測模型的該輸出層輸出有關於該突變型殘基的估測蛋白質結合自由能。
於是,該處理器4可將獲得的估測蛋白質結合自由能經由該輸出模組3輸出。在本實施例中,該輸出模組3可包含但不限於一顯示器,以將該估測蛋白質結合自由能驗顯示給相關技術人員。因此,相關技術人員可以從此估測蛋白質結合自由能來評估該目標界對於穩定兩個蛋白質之結合能力貢獻度(例如,越小的蛋白質結合自由能則導致兩個蛋白質之結合能力越強),另一方面,亦可以運用於監控未來是否有突變會發生在該目標界面上,若有則能推論對於蛋白質功能的影響程度。此外,此估測蛋白質結合自由能亦能應用 於藥物設計領域,藉由事先知道蛋白質化合物的關鍵結合界面,即能針對此關鍵結合界面設計出一個藥物更易與此關鍵結合界面結合,如此能使此關鍵結合界面無法與其他蛋白質的結合,藉此能大幅縮短藥物開發時的探索期以加快藥物研發速度並提高成功率。
綜上所述,由於使用了預先訓練好且具有相對較高準確度的蛋白質結合自由能估測模型,所以只需先針對如與疾病相關但不含任何突變的參考蛋白質複合物的蛋白質結構資料進行分析與處理而獲得與所欲位點之殘基的相互作用界面,然後經特定突變預測後推算出突變型殘基的原子座標資料,並將該突變型殘基的原子交互作用力、原子距離和理化特性特徵資料以及野生型殘基的理化特性特徵資料饋入該蛋白質結合自由估測模型能後即可快速地且準確地估測出該突變型殘基的蛋白質結合自由能。因此,本發明基於蛋白質突變預測的蛋白質結合自由能估測系統100確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
S61~S66:步驟

Claims (9)

  1. 一種基於蛋白質突變預測的蛋白質結合自由能估測方法,利用一電腦系統來執行,並包含以下步驟:(A)從與一包含無突變且不同的兩條蛋白質鏈的參考蛋白質複合物對應的蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複合物的原子對距離資料;(B)根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,其中每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;(C)從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;(D)利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料以及該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;(E)根據該原子三維座標資料和步驟(D)所獲得的該推算原子座標資料,計算分別屬於定義出該目標界面的 該兩個殘基其中另一殘基和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及(F)利用一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型,根據步驟(E)獲得的該原子距離和該原子交互作用力,以及該野生型殘基和該突變型殘基的理化特性特徵資料,估測與該目標界面有關的該突變型殘基的蛋白質結合自由能。
  2. 如請求項1所述的基於蛋白質突變預測的蛋白質結合自由能估測方法,其中,在步驟(F)中,該蛋白質結合自由能估測模型是基於多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出,每一蛋白質複合物包含單一個或多個突變殘基,每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
  3. 如請求項1所述的基於蛋白質突變預測的蛋白質結合自由能估測方法,其中,在步驟(E)中,每一原子對的原子級能量為該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。
  4. 如請求項3所述的基於蛋白質突變預測的蛋白質結合自由能估測方法,其中,在步驟(E)中,當定義出該目標界 面的該另一殘基與該突變型殘基之間的原子對數量為N時:有關於該目標界面的該原子距離D被表示成D=
    Figure 111108387-A0305-02-0022-11
    ,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成E=
    Figure 111108387-A0305-02-0022-12
    ,其中e i 為第i個原子對間的原子級能量。
  5. 一種基於蛋白質突變預測的蛋白質結合自由能估測系統,包含:一儲存模組,儲存有胺基酸側鏈旋轉角度範圍資料、胺基酸理化特性資料、及一經由深度學習之神經網路所訓練且以原子交互作用力、原子距離和胺基酸理化特性為特徵的蛋白質結合自由能估測模型,其中該胺基酸理化特性資料包含多筆分別對應於多種不同胺基酸的理化特性特徵資料;一接收模組,用來接收與一參考蛋白質複合物對應的蛋白質結構資料,該參考蛋白質複合物包含沒有任何突變且不同的兩條蛋白質鏈;一輸出模組;及一處理器,連接該儲存模組、該接收模組和該輸出模組,並操作來執行以下運作:從該蛋白質結構資料擷取出包含該參考蛋白質複合物所含的所有重原子所在位置的原子三維座標資料,並根據該原子三維座標資料計算出所有重原子其中任兩者的歐幾里得距離,以獲得對應於該參考蛋白質複 合物的原子對距離資料;根據該原子對距離資料,識別出該參考蛋白質複合物中的所有相互作用界面,每一相互作用界面是定義在分別位於該等蛋白質鏈上的兩個殘基之間並且該兩個殘基的兩個α-碳(Cα)之間的距離小於5Å;從該所有相互作用界面中找出一個與在一所欲位點之殘基有關的相互作用界面作為一目標界面;利用胺基酸在側鏈二面角和旋轉方面的特性,預測定義出該目標界面的兩個殘基其中一個野生型殘基可經由突變而轉變成一具有一特定側鏈的突變型殘基,並且根據該原子三維座標資料,以及從該儲存模組儲存的該胺基酸側鏈旋轉角度範圍資料查找出符合於該野生型殘基之側鏈的預測旋轉角度資料,推算出該突變型殘基的所有重原子之預估位置的三維座標,以獲得對應於該突變型殘基的推算原子座標資料;根據該原子三維座標資料和該推算原子座標資料,計算分別屬於定義出該目標界面的該兩個殘基其中另一者和該突變型殘基的任兩個重原子之原子對間的歐幾里得距離和原子級能量,以獲得有關於該目標界面的原子距離和原子交互作用力;及將該原子距離和該原子交互作用力以及從該儲存模組儲存的該胺基酸理化特性資料查找出符合於該野生型殘基和該突變型殘基的理化特性特徵資料饋入儲存於該儲存模組的該蛋白質結合自由能估測模型進行分 析,以估測出與該目標界面有關的該突變殘基的蛋白質結合自由能;其中,該處理器使該輸出模組輸出估側出的該蛋白質結合自由能。
  6. 如請求項5所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,該蛋白質結合自由能估測模型是基於從一個或多個蛋白質資料庫獲得的多個分別對應於多個不同蛋白質複合物的訓練資料集所訓練出,每一蛋白質複合物包含單一個或多個突變殘基,每一訓練資料集包含該等蛋白質複合物其中一個對應的蛋白質複合物所含的一對應突變殘基的原子交互作用力、原子距離、理化特性特徵資料和蛋白質結合自由能,以及相對於該對應突變殘基之野生殘基的理化特性特徵資料。
  7. 如請求項6所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,該蛋白質結合自由能估測模型包含一用於接收特徵資料的輸入層、多個隱藏層、及一用於輸出估測的蛋白質結合自由能的輸出層。
  8. 如請求項5所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,每一原子對的原子級能量包括該原子對間的凡得瓦爾力、氫鍵、π-π堆積相互作用力和靜電力的總和。
  9. 如請求項8所述的基於蛋白質突變預測的蛋白質結合自由能估測系統,其中,當定義出該目標界面的該另一殘基與該突變型殘基之間的原子對數量為N時: 有關於該目標界面的該原子距離D被表示成D=
    Figure 111108387-A0305-02-0025-16
    ,其中d i 為第i個原子對間的歐幾里得距離;及有關該目標界面的該原子交互作用力E被表示成E=
    Figure 111108387-A0305-02-0025-17
    ,其中e i 為第i個原子對間的原子級能量。
TW111108387A 2021-09-27 2022-03-08 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統 TWI804229B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163248804P 2021-09-27 2021-09-27
US63/248,804 2021-09-27

Publications (2)

Publication Number Publication Date
TW202320083A TW202320083A (zh) 2023-05-16
TWI804229B true TWI804229B (zh) 2023-06-01

Family

ID=85797948

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111108387A TWI804229B (zh) 2021-09-27 2022-03-08 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統

Country Status (2)

Country Link
US (1) US20230113585A1 (zh)
TW (1) TWI804229B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330335A1 (en) * 2010-03-23 2013-12-12 Iogenetics, Llc Bioinformatic processes for determination of peptide binding
TW202000907A (zh) * 2018-05-23 2020-01-01 美商葛利史東腫瘤科技公司 共有抗原
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN113223608A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 双层互强化的蛋白质三维结构预测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330335A1 (en) * 2010-03-23 2013-12-12 Iogenetics, Llc Bioinformatic processes for determination of peptide binding
TW202000907A (zh) * 2018-05-23 2020-01-01 美商葛利史東腫瘤科技公司 共有抗原
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN113223608A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 双层互强化的蛋白质三维结构预测方法及系统

Also Published As

Publication number Publication date
TW202320083A (zh) 2023-05-16
US20230113585A1 (en) 2023-04-13

Similar Documents

Publication Publication Date Title
Zhang et al. Prediction of conformational B-cell epitopes from 3D structures by random forests with a distance-based feature
WO2022206320A1 (zh) 预测模型训练、数据预测方法、装置和存储介质
Ding et al. Assessing the similarity of ligand binding conformations with the Contact Mode Score
Venkatraman et al. Protein-protein docking using region-based 3D Zernike descriptors
Yu et al. Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering
Tian et al. Predicting changes in protein thermostability brought about by single-or multi-site mutations
Joo et al. Sann: solvent accessibility prediction of proteins by nearest neighbor method
Yu et al. Predicting protein-protein interactions in unbalanced data using the primary structure of proteins
Kinoshita et al. Identification of the ligand binding sites on the molecular surface of proteins
Tobi Designing coarse grained-and atom based-potentials for protein-protein docking
Kozłowska et al. Determination of side‐chain‐rotamer and side‐chain and backbone virtual‐bond‐stretching potentials of mean force from AM1 energy surfaces of terminally‐blocked amino‐acid residues, for coarse‐grained simulations of protein structure and folding. II. Results, comparison with statistical potentials, and implementation in the UNRES force field
Wojciechowski Simplified AutoDock force field for hydrated binding sites
Evteev et al. SiteRadar: utilizing graph machine learning for precise mapping of protein–ligand-binding sites
Park et al. ROTAS: a rotamer-dependent, atomic statistical potential for assessment and prediction of protein structures
Elhefnawy et al. ICOSA: a distance-dependent, orientation-specific coarse-grained contact potential for protein structure modeling
US20140303952A1 (en) Protein-ligand docking
TWI804229B (zh) 基於蛋白質突變預測的蛋白質結合自由能估測方法及系統
Stumpff‐Kane et al. Sampling of near‐native protein conformations during protein structure refinement using a coarse‐grained model, normal modes, and molecular dynamics simulations
Buchete et al. Continuous anisotropic representation of coarse-grained potentials for proteins by spherical harmonics synthesis
Fang et al. The intrinsic geometric structure of protein-protein interaction networks for protein interaction prediction
Chen et al. A knowledge‐based move set for protein folding
Choi et al. Comparison of phylogenetic trees through alignment of embedded evolutionary distances
Yang et al. Geometric and amino acid type determinants for protein‐protein interaction interfaces
Degac et al. Graph-based clustering of predicted ligand-binding pockets on protein surfaces
Semwal et al. DeepLBS: A deep Convolutional Neural Network-Based Ligand-Binding Site Prediction Tool