TWI799269B

TWI799269B - 化學物質對雌激素受體的活性之預測方法

Info

Publication number: TWI799269B
Application number: TW111118280A
Authority: TW
Inventors: 沈林琥; 楊傑宇
Original assignee: 國立臺灣師範大學
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2023-04-11
Also published as: TW202347156A

Abstract

本發明提出一種化學物質對雌激素受體的活性之預測方法。該方法透過一計算機實現，包含步驟：a) 蒐集複數個化學物質並以一標註值註明其是否具有雌激素受體活性；b) 將每一化學物質依照簡化分子線性輸入規範，運算出包含一位有效編碼、400列42行的一一維特徵矩陣；c) 於一化學資料庫中取得每一化學物質的二維圖像、將該二維圖像轉為白底黑色圖像，及將該白底黑色圖像正規化為400列400行並以1與0組成的一二維特徵矩陣；d) 為每一化學物質將該一維特徵矩陣與該二維特徵矩陣合併為一400列442行的一合成特徵矩陣；及e) 以所有化學物質的合成特徵矩陣及對應的標註值，透過一卷積神經網路以產生出一估測模型，用以預估其它化學物質的標註值。

Description

化學物質對雌激素受體的活性之預測方法

本發明關於一種活性預測方法，特別是一種化學物質對雌激素受體的活性之預測方法。

內分泌干擾素，又名環境賀爾蒙，其定義為足以干擾體內內分泌進行的化學物質或是混合物。此類化學物質與許多人類工業產品或是製程有關，在有機溶劑、藥物或塑化工業中都有內分泌干擾素的蹤跡。內分泌干擾素由於其特性，與腺體癌症、體內荷爾蒙失衡或生殖功能有關，或甚至牽涉學習障礙、兒童發育、腦部認知功能等，對人類的干擾難以完整的研究。

另外，根據2013年聯合國所發布的調查報告顯示，目前人類已探查的內分泌干擾素僅是全部中的冰山一角。由於有機化學物質通常會隨著官能基修改而改變其功能，又由於工業副產品產生時會由於各種反應不完全，導致各種修飾的化學物質出現，加上人類也不可能針對所有化學物質都進行相關的動物實驗，因為這將耗費大量的資金與實驗材料。因此，開發一個可以根據化學結構自動判別是否與內分泌干擾素功能類似的系統，將能快速地篩選待測化學物質是否為內分泌干擾素，並且為它進行一系列的資料模擬，如此能更快速地推動內分泌干擾素的研究。基於此項理念，美國國家環境保護局整合大量的化學物質與體內核受體的實驗資料，發起了協作雌激素受體活性預測項目數據(Collaborative Estrogen Receptor Activity Prediction Project Data，CERAPP)計畫，與歐美將近17個團隊開發各種不同的模型預設化學物質是否與雌激素受體(Estrogen Receptors)間存在活性的關聯(即化學物質是否會影響雌激素受體的表現)。該計畫的研究成果資料公開，可為後續研究所利用。

在CERAPP的資料集內包含了7522個化學結構與實驗資料，每個化學物質至多分為三種實驗情況：Binding、Agonist與Antagonist，並且分為兩類型的結果預測：一種為二進制模型預測，也就是是或否；另一種則是分為強作用，中作用，弱作用與無作用的連續性預測。該項目包含了各種的機器學習項目，例如K-近鄰演算法(KNN)、分子對接法(Docking)、支援向量機(Support vector machine，SVM)等等，各團隊的模型評分介於0.69至0.85不等。往後也有多篇研究針對該資料集建立模型，如使用化學物質的SMILES與特徵資料進行一維CNN，以及利用不同機器學習方法分別預測化學物質是否屬於Binding、Agonist、Antagonist之機率。此外，也有以化學物質的二維結構進行機器學習研究的項目。一般於定量構效關係(QSAR)中，二維結構最常被使用的方法如Hansch法、Free-wilson法所計算出的數據。

另一方面，一維結構機器學習的優點在於單一化學物質的數據量較少，但可以涵蓋該化學物質的機理特徵。二維結構機器學習雖然數據量上大且不易詮釋化學物質的機理特徵，但由於結構表示的完整，往往能較一維結構機器學習取得人們無法預期的優異成果。基於計算機演算速度與日倍增，如果能有效整合一維結構及二維結構機器學習的優點，那麼對於未知化學物質對雌激素受體活性的預估會更精準，同時也能省下大筆的實驗經費。

本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中，各式的修改和類似的排列。

一種化學物質對雌激素受體的活性之預測方法，透過一計算機實現，包含步驟：於一資料準備階段中，執行：a)蒐集複數個化學物質並以一標註值註明其是否具有雌激素受體活性；b)將每一化學物質依照簡化分子線性輸入規範(Simplified Molecular Input Line Entry Specification，SMILES)，運算出一位有效(one-hot)編碼、400列42行的一一維特徵矩陣；c)於一化學資料庫中取得每一化學物質的二維圖像、將該二維圖像轉為白底黑色圖像，及將該白底黑色圖像正規化為400列400行並以1與0組成的一二維特徵矩陣，其中正規化的白底黑色圖像對應位置的像素為黑色時的代表數值為1，為白色時的代表數值為0；及d)為每一化學物質將該一維特徵矩陣與該二維特徵矩陣合併為一400列442行的一合成特徵矩陣；於一模型訓練階段中，執行：e)以所有化學物質的合成特徵矩陣及對應的標註值，透過一卷積神經網路以產生出一估測模型，用以預估其它化學物質的標註值；以及於一預測階段中，執行：f)將一受預測化學物質輸入該估測模型中以獲得對應的標註值，用以判斷是否該受預測化學物質具有雌激素受體活性。該標註值介於0與1之間，超過一門檻值時判斷為具有雌激素受體活性。

最好，該化學資料庫為美國國立衛生研究院化學資料庫或比較毒物基因組學資料庫(Comparative Toxicogenomics Database)。

依照本發明，該門檻值為0.8。

二維圖像轉為白底黑色圖像可藉由以下子步驟實現：判斷該二維圖像中每一像素的RGB數值；及將RGB數值非#FFFFFF的像素，一律轉為#000000。

依照本發明，步驟a)中的化學物質是否具有雌激素受體活性的資料來源於協作雌激素受體活性預測項目(Collaborative Estrogen Receptor Activity Prediction Project，CERAPP)。

將該白底黑色圖像正規化可以下列子步驟實現：確認該白底黑色圖像中黑色像素分佈在寬度或高度上何者較廣；在黑色像素分佈較廣的方向上，將該白底黑色圖像於該方向的邊緣內縮到極端兩黑色像素外側，並取極端兩黑色像素間的距離為一正規化長度；在黑色像素分佈較不廣的方向上，將該白底黑色圖像於該方向的邊緣內縮到包含所有黑色像素的正規化長度，並於兩邊緣留取等寬的純白色像素區域；將修改過的白底黑色圖像於寬度與高度方向上分別分割為400等分，並將每一新像素對應到該二維特徵矩陣的對應位置；及分割後的每一新像素若包含黑色部分，該新像素對應的值為1，分割後的每一新像素若為白色，該新像素對應的值為0。

依照本發明，該一維特徵矩陣中超過簡化分子線性輸入規範ASCII碼符號數量的列，其所有欄位皆為0。

本發明藉由學習化學物質的一維結構與二維結構與雌激素受體活性間的關係，從而可以推廣預測其它化學物質是否具有雌激素受體活性。依照本發明，許多化學物質可以在無須過度實驗的情況下，獲知其雌激素受體活性。因此，對於未知化學物質對雌激素受體活性的預估會更精準，同時也能省下大筆的實驗經費。

1:計算機

2:網路

3:化學資料庫

4:終端設備

5:輸入裝置

M1:一維特徵矩陣

M2:二維特徵矩陣

MC:合成特徵矩陣

圖1為實施本發明的硬體架構的示意方框圖。

圖2為依照本發明的一種化學物質對雌激素受體的活性之預測方法的流程圖。

圖3表列依照簡化分子線性輸入規範運算出的一位有效編碼形態。

圖4顯示自比較毒物基因組學資料庫中下載的己二烯雌酚的二維圖像及轉換後的圖像。

圖5為將白底黑色圖像正規化的子步驟的流程圖。

圖6標示己二烯雌酚的白底黑色圖像之寬度與高度的定義。

圖7繪示正規化長度的定義。

圖8繪示調整高度後的己二烯雌酚白底黑色圖像。

圖9繪示修改過的白底黑色圖像的切割方式。

圖10繪示一維特徵矩陣與二維特徵矩陣的合併方式。

本發明將藉由參照下列的實施方式而更具體地描述。

請見圖1，該圖為實施本發明的硬體架構的示意方框圖。本發明提出一種化學物質對雌激素受體的活性之預測方法(以下簡稱本方法)，乃是透過一計算機1，比如為一台伺服器來實現。本方法具體的步驟乃是透過程式軟體控制計算機1，透過網路2連上公開的一化學資料庫3，由該化學資料庫3中取得需要的化學物質的二維圖像。藉由協作雌激素受體活性預測項目(Collaborative Estrogen Receptor Activity Prediction Project，CERAPP)公開的化學物質是否具有雌激素受體活性數據以及化學物質依照簡化分子線性輸入規範(Simplified Molecular Input Line Entry Specification，SMILES)運算出的一位有效(one-hot)編碼，於計算機1中通過卷積神經網路(Convolutional Neural Networks，CNN)以產生出一估測模型。那麼，對於不存在CERAPP中的化學物質，只要有了SMILES的一位有效編碼及化學資料庫3中對應的二維圖像，就可以藉由該估測模型，計算預估該化學物質是否具有雌激素受體活性。輸入估測模型的操作可以利用計算機1的輸入裝置5來進行，也可以以連接網路2的一台終端設備4，進行遠端操作。

請見圖2，該圖為本方法的流程圖。本方法包含六個步驟，於不同的階段中執行。本發明的第一步驟為：蒐集複數個化學物質並以一標註值註明其是否具有雌激素受體活性(S01)，應用於一資料準備階段中。資料準備階段是對要進行估測模型建模前的前置處理，有效地減少了資料中的雜訊與不匹配比較資料，從而卷積神經網路執行運算時，不論其架構為何，都能相對於未整理過的原始資料，獲得更精準的估測模型。本步驟中的化學物質是否具有雌激素受體活性的資料來源於協作雌激素受體活性預測項目的公開資料。在協作雌激素受體活性預測項目的Evaluation Set中，提供了有實驗認證的7283個化學物質，每個化學物質依照其雌激素受體活性的大小，分別分類為Inactive(不具活性)、Very Week(微弱活性)、Week(弱活性)、Moderate(中等活性)及Strong(強活性)。為了簡化演算，給予不具活性、微弱活性與弱活性的化學物質之標註值為0，其餘的化學物質給予標註值1。在建立估測模型後，所以輸入的未知結果的化學物質都能計算出介於0與1之間的標註值，而超過一門檻值時判斷為具有雌激素受體活性。依照本發明，該門檻值為0.8。

本發明的第二步驟為：將每一化學物質依照簡化分子線性輸入規範，運算出包含一位有效編碼、400列42行的一一維特徵矩陣(S02)，這也是應用於資料準備階段中。簡化分子線性輸入規範是一種用ASCII字串明確描述分子結構的規範。以己二烯雌酚(Dienestrol)為例來說明，它的化學式為C₁₈H₁₈O₂，依照簡化分子線性輸入規範之表示式為以下式1。

CC=C(C1=CC=C(C=C1)O)C(=CC)C2=CC=C(C=C2)O....式1

將它運算出的一位有效編碼以表列方式列於圖3中。將式1中的各個ASCII碼打散，得到C、C、=、C、(、C、1、=、C、C、=、C、(、C、=、C、1、)、O、)、C、(、=、C、C、)、C、2、=、C、C、=、C、(、C、=、C、2、)、O。將以上ASCII碼依序填入”字符”欄中。由於”字符”欄每一個欄位都有一個特定的ASCII碼，在”字符”欄右方每一欄都是驗證一個獨立的特徵條件，如是不是C、是不是N等，條件滿足時欄位值為1，條件不滿足時欄位值為0。驗證欄依照簡化分子線性輸入規範會有42個，因此，圖3中的除去”字符”欄的各列中，僅有一個欄位為1，其餘為欄位為0，此即一位有效編碼之來源。可想而知，列的數量與ASCII碼符號的數量有關。在本例中，總共有37個ASCII碼符號，因此只有37列的一位有效編碼。然而，己二烯雌酚是一個結構比較簡單的化學物質，分子量也不大。若遇到較大分子量且結構也複雜的化學物質，需要具備多一些列以供陳述。依照本發明，考量常見的化學物質，茲將列的數量定為400個。以前述的400個列及42個驗證欄組成一維特徵矩陣M1，其為圖3中的虛線框所框示。這400列42行的一維特徵矩陣M1便能以最精簡的方式陳述一個化學物質的一維(非平面結構)特性。對於較短結構的化學物質，即其無法用盡所有列來表示自身的一維結構，那麼一維特徵矩陣M1中超過簡化分子線性輸入規範ASCII碼符號數量的列，其所有欄位皆為0。也就是說，將不滿400列的所有剩餘列的欄位通通以0來填充(padding)，讓所有的化學物質都正規化成統一的格式。

接著，本發明的第三步驟為：於一化學資料庫中取得每一化學物質的二維圖像、將該二維圖像轉為白底黑色圖像，及將該白底黑色圖像正規化為400列400行並以1與0組成的一二維特徵矩陣，其中正規化的白底黑色圖像對應位置的像素為黑色時的代表數值為1，為白色時的代表數值為0(S03)，這也是應用於資料準備階段中。化學資料庫，特別指開放式的化學資料庫，可以讓本方法使用的計算機1訪問，從而取得所需要的資料。依照本發明，比較合適的化學資料庫可以是美國國立衛生研究院化學資料庫或比較毒物基因組學資料庫(Comparative Toxicogenomics Database)。在前述任何一個化學資料庫中可以取得化學物質的二維結構圖。一個例子顯示於圖4中，該圖顯示自比較毒物基因組學資料庫中下載的己二烯雌酚的二維圖像及轉換後的圖像。要注意的是，己二烯雌酚的二維圖像及之後以其延伸的黑白圖像在原始檔案中並沒有黑色邊框，圖式中繪示出邊框的目的在於區隔背景白色，進而能顯示該些圖像的實際大小範圍。由於比較毒物基因組學資料庫會將一些特定官能基以不同顏色標示，以至該二維圖像並非為黑白圖像，為了統一形態以進行後續處理，二維圖像必須轉為白底黑色的圖像。前述二維圖像轉為白底黑色圖像藉由以下子步驟實現。第一子步驟為：判斷該二維圖像中每一像素的RGB數值。RGB數值是以紅、綠、藍三原色在一像素中出現的份量(由00到FF)來表示一個顏色的數值化表現方式。純黑色為#FFFFFF，純白色為#000000。因此，只要將二維圖像中非白色的像素轉換為黑色像素即可。因此，第二子步驟為：將RGB數值非 #FFFFFF的像素，一律轉為#000000。經過轉換，白底黑色圖像就如同圖4箭號下方的圖像所顯示，OH官能基由紅轉黑了。

關於將該白底黑色圖像正規化的技術，請參見圖5，該圖為將白底黑色圖像正規化的子步驟的流程圖。第一正規化子步驟為：確認該白底黑色圖像中黑色像素分佈在寬度或高度上何者較廣(SA1)。為了對此子步驟有較加理解，請見圖6，該圖標示己二烯雌酚的白底黑色圖像之寬度與高度的定義。寬度為由左方OH官能機的左界到右方OH官能機的右界間的長度，高度為OH官能機的上界到下方橫線的下界間的長度。很明顯，圖6中顯示黑色像素分佈在寬度方向上較高度方向上來得廣。如果黑色像素分佈在寬度或高度上一樣地廣，可以任意地指定寬度或高度為較廣方向。第二正規化子步驟為：在黑色像素分佈較廣的方向上，將該白底黑色圖像於該方向的邊緣內縮到極端兩黑色像素外側，並取極端兩黑色像素間的距離為一正規化長度(SA2)。請見圖7，該圖定義了正規化長度，也就是由左方OH官能機的左界到右方OH官能機的右界間的長度。因此，圖7的寬度也較圖6中所示者窄縮了。至於另一個方向(高度)上的調整，有賴於第三正規化子步驟：在黑色像素分佈較不廣的方向上，將該白底黑色圖像於該方向的邊緣內縮到包含所有黑色像素的正規化長度，並於兩邊緣留取等寬的純白色像素區域(SA3)。關於這個子步驟，請見圖8，該圖繪示調整高度後的己二烯雌酚白底黑色圖像。由圖8中可以看出，該圖已將圖7中的己二烯雌酚白底黑色圖像上下界減少了。為了比較及機器學習的公允性，每個化學物質"留白”的空間要等大，因此上下界中純白色像素區域的長方形區域面積是一樣的。實作上，前述可能有相差一列像素的情形發生，這是可以接受的誤差，較大的留白空間可以設定於上方，也可以設定於下方。接著，第四正規化子步驟為：將修改過的白底黑色圖像於寬度與高度方向上分別分割為400等分，並將每一新像素對應到該二維特徵矩陣的對應位置(SA4)。請見圖9，該圖繪示修改過的白底黑色圖像的切割方式。由於步驟SA3中獲得的修改過的白底黑色圖像已經是個正方形圖像，因此就可對其進行影像的再切割。由於原始的化學物質二維結構圖的解析度不高，比如僅有96x96個像素，因此重新切割後的新圖像，解析度會更高。每一新像素分別對應到二維特徵矩陣M2的一個元素，故該二維特徵矩陣M2也是個400x400的方陣。最後，第五正規化子步驟為：分割後的每一新像素若包含黑色部分，該新像素對應的值為1，分割後的每一新像素若為白色，該新像素對應的值為0(SA5)。此步驟即將二維特徵矩陣M2中的影像RGB數值，轉換為位元值，以方便後續處理。

於資料準備階段的最後，執行本發明的第四步驟：為每一化學物質將該一維特徵矩陣與該二維特徵矩陣合併為一400列442行的一合成特徵矩陣(S04)。為了對此有較佳的理解，請見圖10，該圖繪示一維特徵矩陣與二維特徵矩陣的合併方式。如圖10所示，由於一維特徵矩陣M1與二維特徵矩陣M2都有具有400列的部分，因此將該二400列對接，即可獲得合成特徵矩陣MC。要注意的是，由於二維特徵矩陣M2是方陣，一維特徵矩陣M1可以接到其列端或欄端，其效果一樣，只需統一操作方式即可。

在完成資料準備後，本方法便可進入一模型訓練階段。在此階段中執行本發明的第五步驟：以所有化學物質的合成特徵矩陣及對應的標註值，透過一卷積神經網路以產生出一估測模型，用以預估其它化學物質的標註值(S05)。卷積神經網路的運算，主要包含了至少一個卷積運算、可選擇性使用的池化運算、至少一個線性整流、全連接層運算，及修正參數的反向傳播。也可以反覆使用前述的各技術，以求得最佳的估測模型。本發明不限定卷積神經網路的態樣。

最後，於一預測階段中執行本發明的第六步驟：將一受預測化學物質輸入該估測模型中以獲得對應的標註值，用以判斷是否該受預測化學物質具有雌激素受體活性(S05)。和一般利用卷積神經網路架構的預測模形一樣，本發明只要將預測化學物質(名稱)輸入，便能自動計算出對應的一維特徵矩陣與二維特徵矩陣，只要將這一維特徵矩陣與二維特徵矩陣輸入估測模型中，輸出的便是該化學物質的標註值。獲得的標註值便可依據門檻值來判斷該化學物質是否具有雌激素受體活性。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種化學物質對雌激素受體的活性之預測方法，透過一計算機實現，包含步驟：於一資料準備階段中，執行：a)蒐集複數個化學物質並以一標註值註明其是否具有雌激素受體活性；b)將每一化學物質依照簡化分子線性輸入規範(Simplified Molecular Input Line Entry Specification，SMILES)，運算出包含一位有效(one-hot)編碼、400列42行的一一維特徵矩陣；c)於一化學資料庫中取得每一化學物質結構式的二維圖像，將該二維圖像轉為白底黑色圖像，及將該白底黑色圖像正規化為400列400行並以1與0組成的一二維特徵矩陣，其中正規化的該白底黑色圖像對應位置的像素為黑色時的代表數值為1，為白色時的代表數值為0；及d)為每一化學物質將該一維特徵矩陣與該二維特徵矩陣合併為一400列442行的一合成特徵矩陣；於一模型訓練階段中，執行：e)以所有化學物質的該合成特徵矩陣及對應的該標註值，透過一卷積神經網路以產生出一估測模型，用以預估其它化學物質的標註值；以及於一預測階段中，執行：f)將一受預測化學物質輸入該估測模型中以獲得對應的標註值，用以判斷是否該受預測化學物質具有雌激素受體活性，其中，該標註值介於0與1之間，超過一門檻值時判斷為具有雌激素受體活性。
如申請專利範圍第1項所述之化學物質對雌激素受體的活性之預測方法，其中該化學資料庫為美國國立衛生研究院化學資料庫或比較毒物基因組學資料庫(Comparative Toxicogenomics Database)。
如申請專利範圍第1項所述之化學物質對雌激素受體的活性之預測方法，其中該門檻值為0.8。
如申請專利範圍第1項所述之化學物質對雌激素受體的活性之預測方法，其中二維圖像轉為白底黑色圖像藉由以下子步驟實現：判斷該二維圖像中每一像素的RGB數值；及將RGB數值非#FFFFFF的像素，一律轉為#000000。
如申請專利範圍第1項所述之化學物質對雌激素受體的活性之預測方法，其中步驟a)中的化學物質是否具有雌激素受體活性的資料來源為協作雌激素受體活性預測項目(Collaborative Estrogen Receptor Activity Prediction Project，CERAPP)。
如申請專利範圍第1項所述之化學物質對雌激素受體的活性之預測方法，其中將該白底黑色圖像正規化以下列子步驟實現：確認該白底黑色圖像中黑色像素分佈在寬度或高度上何者較廣；在黑色像素分佈較廣的方向上，將該白底黑色圖像於該方向的邊緣內縮到極端兩黑色像素外側，並取極端兩黑色像素間的距離為一正規化長度；在黑色像素分佈較不廣的方向上，將該白底黑色圖像於該方向的邊緣內縮到包含所有黑色像素的該正規化長度，並於兩邊緣留取等寬的純白色像素區域；將修改過的該白底黑色圖像於寬度與高度方向上分別分割為400等分，每一等分視為一新像素，並將每一新像素對應到該二維特徵矩陣的對應位置；及分割後的每一新像素若包含黑色部分，該新像素對應的值為1，分割後的每一新像素若為白色，該新像素對應的值為0。
如申請專利範圍第1項所述之化學物質對雌激素受體的活性之預測方法，其中該一維特徵矩陣中超過簡化分子線性輸入規範ASCII碼符號數量的列，其所有欄位皆為0。