TWI732467B

TWI732467B - 訓練稀疏連接神經網路的方法

Info

Publication number: TWI732467B
Application number: TW109105971A
Authority: TW
Inventors: 唐志敏; 謝必克; 朱逸煜
Original assignee: 耐能智慧股份有限公司
Priority date: 2019-05-23
Filing date: 2020-02-25
Publication date: 2021-07-01
Also published as: US20200372363A1; TW202044125A

Abstract

一種訓練稀疏連接的神經網路的方法，包括在訓練神經網路的時將權重分解為權重變數和二元遮罩的乘積，二元遮罩是遮罩變數通過單位元階梯函數得到。二元遮罩中的元素代表對應位置的權重是否有連接，0代表沒有連接，1代表有連接。如果二元遮罩大部分的元素為0，那麼訓練得到的就是稀疏的連接的神經網路。將權重具有連接的數量，也就是二元遮罩裡面元素為1的數量，作為目標函數中的一項。訓練時，根據目標函數調整權重變數及遮罩變數即會逐漸衰減遮罩變數的值，藉以保證二元遮罩的稀疏性。

Description

訓練稀疏連接神經網路的方法

本發明關於人工神經網路，特別是用於訓練稀疏連接的神經網路。

人工神經網路是一種包含設置成多層之多個處理單元的網路。一般的神經網路訓練方法訓練得到的神經網路往往是稠密連接的（densely connected），也就是所有的權重都是非0的。然而，這種網路結構通常較為複雜，需要大量的記憶體資源和功耗，且通常有過度擬合(overfitting)的問題。使用剪枝（pruning）的方式也能得到的權重稀疏的神經網路。剪枝是將絕對值小的權重置為0，但是權重的絕對值的大小並不能代表連接的重要性，所以很難得到最優的連接方式。

本發明實施例提供一種訓練稀疏連接的神經網路的方法。具體做法是：在訓練神經網路的時候將權重分解為權重變數和二元遮罩（0/1）的乘積，二元遮罩是遮罩變數通過一個單位元階梯函數得到。二元遮罩中的元素就代表了對應位置的權重是否有連接，0代表沒有連接，1代表有連接。如果二元遮罩大部分的元素為0，那麼訓練得到的就是一個稀疏的連接的神經網路。我們把權重具有連接的數量，也就是二元遮罩裡面元素為1的數量，作為目標函數中的一項。訓練的過程是根據目標函數去調整權重變數及遮罩變數。在訓練的時候會逐漸衰減遮罩變數的值，這樣就可以保證二元遮罩是稀疏的。因為遮罩變數是由目標函數決定的，所以只有少數重要的權重對應的二元遮罩元素是1。

第1圖係為本發明實施例中一種人工神經網路1的計算圖。人工神經網路1表示的是全連接神經網路(fully connected neural network)，本發明適用於卷積神經網路(convolutional neural network)等各種不同類型的神經網路。人工神經網路1可響應輸入資料

至

而產生輸出估計值

至

。輸入資料

至

可為電流準位、電壓準位、實數訊號、複數(complex)訊號、類比訊號或數位訊號。舉例而言，輸入資料

至

可為影像畫素之灰階值，及可由輸入裝置，例如行動電話、平板電腦或數位相機獲得。輸出估計值

至

可表示人工神經網路1之多種分類結果的機率。舉例而言，輸出估計值

至

可為由影像中辨識出之多種物體的機率。一組輸入資料

至

可稱為輸入資料集。人工神經網路1可使用複數組輸入資料集及各別之目標值組來進行訓練。在一些實施例中，輸入資料集可在訓練時分為複數個小批次(mini-batches)。舉例而言，32,000個輸入資料集可分為1,000個小批次，每個小批次具有32個輸入資料集。

人工神經網路1可包含層Lyr(1)至Lyr(J)，J為大於1之正整數。層Lyr(1)可稱為輸入層，層Lyr(J)可稱為輸出層，層Lyr(2)至Lyr(J-1)可稱為隱藏層。每層Lyr(j)可包含複數個處理節點，透過連接

至

耦接於先前層Lyr(j-1)中之複數個處理節點，j為介於2及J之間之層索引，|Cj|為層Lyr(j)及先前層Lyr(j-1)之間之連接的總數。輸入層Lyr(1)可包含處理節點

至

，其中上標表示層索引，下標表示節點索引，|N1|為層Lyr(1)之處理節點的總數。處理節點

至

可分別接收輸入資料

至

。隱藏層Lyr(2)至Lyr(J-1)中之每層隱藏層Lyr(j)可包含處理節點

至

，其中|Nj|為隱藏層Lyr(j)之處理節點的總數。輸出層Lyr(J)可包含處理節點

至

，其中|NJ|為輸出層Lyr(J)之處理節點的總數。處理節點

至

可分別產生輸出估計值

至

。

層Lyr(j)中之每個處理節點可經由其連接耦接於先前層Lyr(j-1)中之一或多個處理節點。每條連接可與權重相關，處理節點可計算來自先前層Lyr(j-1)中之一個或多個處理節點之輸入資料的加權總和。在產生加權總和時，與較大權重相關之連接比與較小權重相關之連接更有影響力。當權重值為0時，與權重相關之連接可視為由人工神經網路1中移除，達成網路連接稀少化(network connectivity sparsity)，及降低計算複雜度、功率消耗及運作成本。人工神經網路1可經由訓練而產生最佳化之稀疏網路構造以使用少量或最少量之連接

至

來達成與各別目標值Y(1)至Y(|NJ|)近似匹配的輸出估計值

至

。

本方法可以適用於不同的網路類型，比如全連接神經網路或卷積神經網路。在計算的時候，全連接神經網路中的一個全連接層可以等價的轉換成一個卷積層，其輸入特徵圖(feature map)的尺寸是1*1（第1圖中層1是1*1*N1），卷積核（convolutional kernel）尺寸是1*1（第1圖中層1是1*1*N1*N2），N1及N2為正整數。在第2圖中採用卷積層的形式來描述稀疏連接網路的訓練方法。第2圖係為一個卷積層，可由人工神經網路1之層Lyr(2)至Lyr(J)中之一層轉換得到。卷積層可經由連接耦接於先前卷積層。卷積層可從先前卷積層接收輸入資料x，及將輸入資料x及權重w進行卷積運算以計算輸出估計值y，如公式(1)表示:

公式(1)

輸入資料x可具有(1x1)的大小。權重w可稱為卷積核，及可具有(1x1)的大小。“*”可表示卷積運算。輸出估計值y可送至後續卷積層作為其輸入資料以計算後續的輸出估計值。權重w可被重參數化以獲得權重變數

及連接性遮罩m，如公式(2)表示:

公式(2)

連接性遮罩m可為表示連接之連接性的二進位資料，其中1表示具有連接，0表示沒有連接。權重變數

可表示連接強度。“☉”可表示元素對元素(element-wise)乘法。連接性遮罩m可藉由對連接性變數

執行單位階梯操作H(•)導出，如公式(3)表示:

公式(3)

卷積層可依據單位階梯操作H(•)對連接性變數

進行二元化以產生連接性遮罩m。藉由將權重w重參數化，連接的連接性及強度可分別由調整連接性變數

及權重變數

而進行訓練。若連接性變數

小於或等於0，權重變數

可被0遮罩以產生0權重w，而若連接性變數

超過0，權重變數

可設置為權重w。

在人工神經網路1中，連接

至

可分別與連接性變數

至

及權重變數

至

相關。連接性變數

至

及權重變數

至

可依據目標函數進行訓練以減低連接

至

的總數同時減低人工神經網路1之效能損失。連接

至

之總數可經由加總所有連接性遮罩

至

而計算。效能損失可表示輸出估計值

至

與各自目標值Y(1)至Y(|NJ|)之間的差異，及可以交叉熵的形式計算。目標函數L可由公式(4)表示:

公式(4)

其中 CE為交叉熵(cross entropy)；

λ1為連接衰減係數；

λ2為權重衰減係數；

j為層索引；

i為遮罩索引或權重索引；

為第j層之第i個連接性遮罩；

|Cj|為第j層之連接的總數；及

為第j層之第i個權重變數。

目標函數L可包含輸出估計值

至

及各自目標值Y(1)至Y(|NJ|)之間之交叉熵CE，連接

至

之總數的L0正則化(regularization)項，及與連接

至

相關之權重變數

至

的L2正則化項。在一些實施例中，輸出估計值

至

及各自目標值Y(1)至Y(|NJ|)之間之平方誤差總和(sum of squared errors)可代替目標函數L中之交叉熵。L0正則化項可為連接衰減係數λ1及連接性遮罩

至

的總和之乘積。L2正則化項可為權重衰減係數λ2及權重變數

至

的總和之乘積。在一些實施例中，L2正則化項可由目標函數L移除。人工神經網路1可被訓練以最小化目標函數L的輸出結果。因此，L0正則化項可抑制大量連接，及L2正則化項可抑制大權重變數

至

。連接衰減係數λ1越大，人工神經網路1便越稀疏。連接衰減係數λ1可設為大常數，用以將連接性遮罩

至

推至0，將連接性變數

至

推至負方向，及產生人工神經網路1的稀疏連接結構。只有當連接

對減低交叉熵CE很重要時，與連接

相關的連接性遮罩

才會維持為1。以此方式可達到減低交叉熵CE及減低連接總數之間之平衡點，產生稀疏連接結構同時提供實質上匹配目標值Y(1)至Y(|NJ|)的輸出估計值

至

。相似地，連接衰減係數λ2可設為大常數以縮減權重變數

至

，同時交叉熵CE確保重要的權重變數留在人工神經網路1中，產生人工神經網路1之簡單且正確的模型。

在訓練連接性變數

至

時，輸入資料

至

可餵入輸入層Lyr(1)及由層Lyr(1)前向傳播至層Lyr(J)以產生輸出估計值

至

，輸出估計值

至

及其各自目標值Y(1)至Y(|NJ|)之間之誤差可被計算及由層Lyr(J)逆向傳播至Lyr(2)以計算目標函數L對連接性變數

至

之連接性變數斜率，及接著依據連接性變數

至

之連接性變數斜率調整連接性變數

至

，藉以減低連接

至

之總數同時減低人工神經網路1之效能損失。具體而言，連接性變數

可持續被調整直到對應連接性變數斜率

到達0為止，用以找到交叉熵CE之局部最小值。然而，依據導數連鎖律，連接性變數斜率

的計算牽涉公式(3)中單位階梯函數的微分，且單位階梯函數的微分對幾乎所有連接性變數

的值而言都是0，造成連接性變數斜率

為0及訓練程序終止，及導致連接性變數

不更新。為了在訓練程序中讓連接性變數

維持可訓練形式，單位階梯函數被跳過且連接性變數斜率

可重定義為目標函數L對連接性遮罩m之連接性遮罩斜率

，可由公式(5)表示:

公式(5)

參考第2圖，連接性遮罩m及連接性變數

之間之虛線表示在逆向傳播時跳過單位階梯函數。連接性變數

可依據連接性遮罩斜率

更新。在一些實施例中，連接性遮罩斜率

可藉由對應權重斜率

及對應權重變數

的元素對元素乘法產生，如公式(5)所示。以此方式，當判定連接對減低交叉熵CE不重要時，可將連接性變數

從正數更新為負數，且將連接性遮罩從1更新為0。當判定連接對減低交叉熵CE很重要時，可將連接性變數

從負數更新為正數，且將連接性遮罩從0更新為1。在一些實施例中，每個小批次的輸入資料集可輸入至人工神經網路1以產生複數組輸出估計值

至

，複數組輸出估計值

至

的平均誤差可被計算，及連接性變數

至

可依據平均誤差的逆向傳播進行訓練。在一些實施例中，為了避免斜率

及權重變數

的範圍不同，連接性變數斜率

或連接性遮罩斜率

可對每個小批次的輸入資料集以標準差為1進行正規化(normalized)。

相似地，在訓練權重變數

至

時，藉由誤差的逆向傳播計算目標函數L對權重變數

至

之權重變數斜率，及接著依據權重變數斜率調整權重變數

至

，藉以減低權重變數

至

同時減低人工神經網路1之效能損失。權重變數

可持續被調整直到對應權重變數斜率

到達0為止，用以找到交叉熵CE之局部最小值。依據公式(2)及導數連鎖律，權重變數斜率

可由公式(6)表示:

公式(6)

依據公式(6)，當連接性遮罩m為0時權重變數斜率

為0，導致權重變數

無法更新及訓練程序終止。為了讓權重變數

維持可訓練形式，在逆向傳播時權重變數斜率

可重定義為目標函數L對權重w之權重斜率

，及可由公式(7)表示:

公式(7)

藉由將權重變數斜率

重定義為權重斜率

，就算當連接性遮罩m為0時權重變數

也可維持可訓練。參考第2圖，權重w及權重變數

之間之虛線表示在逆向傳播時跳過元素對元素乘法。權重斜率

可由逆向傳播獲得。無論連接性遮罩m為1或0，權重變數

都可依據權重斜率

更新。以此方式，就算其中一些權重變數

至

暫時被0遮罩，仍可訓練權重變數

至

。

人工神經網路1將權重w分為連接性變數

及權重變數

，訓練連接性變數

以形成稀疏連接結構，及訓練權重變數

以產生人工神經網路1之簡單模型。此外，為了訓練連接性變數

及權重變數

，連接性變數斜率

被重定義為連接性遮罩斜率

，及權重變數斜率

被重定義為權重斜率

。所產生之人工神經網路1的稀疏連接結構能顯著減低運算複雜度、記憶體需求及功率消耗。

第3圖係為人工神經網路1的訓練方法300之流程圖。方法300包含步驟S302至S306，訓練人工神經網路1形成稀疏連接結構。步驟S302用於人工神經網路1之卷積層以產生輸出估計值，步驟S304及S306分別用以訓練連接性變數

至

及權重變數

至

。任何合理的技術變更或是步驟調整都屬於本發明所揭露的範疇。以下解釋步驟S302至S306:

步驟S302: 卷積層依據權重w計算輸出估計值，權重w由權重變數

及連接性遮罩m定義，連接性遮罩m可由連接性變數

導出；

步驟S304: 依據目標函數L調整連接性變數

至

以減低連接總數及減低效能損失；

步驟S306: 依據目標函數L調整權重變數

至

以減低權重變數

至

的總和。

步驟S302至S306之解釋已在先前段落中提供，在此不再贅述。訓練方法300分別訓練連接性變數

至

及權重變數

至

以產生連接稀疏、構造簡單且輸出預測正確的人工神經網路1。

第4圖係為用於建構人工神經網路1的實施例運算網路4。運算網路4包含處理器402、程式記憶體404、參數記憶體406及輸出介面408。程式記憶體404及參數記憶體406可為非揮發性記憶體。處理器402可耦接於程式記憶體404、參數記憶體406及輸出介面408以控制其運作。權重

至

、權重變數

至

、連接性遮罩

至

、連接性變數

至

及相關斜率可儲存於參數記憶體406，同時關於訓練連接性變數

至

及權重變數

至

的指令可在訓練過程中由程式記憶體404載入至處理器402。指令可包含使卷積層依據據權重w計算輸出估計值的程式碼，權重w由權重變數

及連接性遮罩m定義，依據目標函數L調整連接性變數

至

的程式碼，及依據目標函數L調整權重變數

至

的程式碼。調整後的連接性變數

至

及權重變數

至

可更新參數記憶體406以置換舊資料。輸出介面408可響應於輸入資料集而顯示輸出估計值

至

。

人工神經網路1及訓練方法300用以訓練連接性變數

至

及權重變數

至

，產生稀疏連接網路同時輸出正確的輸出值。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

1:人工神經網路 300:訓練方法 S302至S306:步驟 4:運算網路 402:處理器 404:程式記憶體 406:參數記憶體 408:輸出介面 Lyr(1)至Lyr(J):層

至

:連接

至

:處理節點 m:連接性遮罩

:連接性變數 W:權重

:權重變數

至

, x:輸入資料

至

, y:輸出估計值 Y(1)至Y(|NJ|):目標值 *:卷積運算 ☉:元素對元素乘法

第1圖係為本發明實施例中一種人工神經網路的計算圖。第2圖係為第1圖中之人工神經網路的卷積層之示意圖。第3圖係為第1圖中之人工神經網路的訓練方法之流程圖。第4圖係為用於建構第1圖中之人工神經網路的實施例運算網路。

300:訓練方法

S302至S306:步驟

Claims

一種訓練方法，用以訓練一運算網路，該運算網路包含複數個卷積層，該方法包含: 該複數個卷積層中之一卷積層依據一權重計算一輸出估計值，該權重由一權重變數及一連接性(connectivity)遮罩定義，該連接性遮罩表示該複數個卷積層中之該卷積層及一先前卷積層之間的一連接，及該連接性遮罩可由一連接性變數導出；及依據一目標函數調整多個連接性變數以減低該複數個卷積層之間之多條連接之一總數，及減低一效能損失，該效能損失表示該輸出估計值與一目標值之間的差異。
如請求項1所述之方法，其中依據該目標函數調整該多個連接性變數包含: 計算該目標函數對該連接性變數之一連接性遮罩斜率；及依據該連接性遮罩斜率更新該連接性變數。
如請求項1所述之方法，更包含: 該卷積層依據一單位階梯函數(unit step function)將該連接性變數二元化以產生該連接性遮罩。
如請求項1所述之方法，其中該目標函數包含一第一項，對應該效能損失，及一第二項，對應與該複數個卷積層之間之該多條連接相關之多個連接性遮罩的正則化(regularization)。
如請求項4所述之方法，其中該第二項包含一連接衰減係數及該多個連接性遮罩的一總和之一乘積，該多個連接性遮罩與該複數個卷積層之間之該多條連接相關。
如請求項4所述之方法，其中該目標函數更包含一第三項，對應與該複數個卷積層之間之該多條連接相關之多個權重變數的正則化。
如請求項6所述之方法，其中該第三項包含一權重衰減係數及該多個權重變數的一總和之一乘積，該多個權重變數與該複數個卷積層之間之該多條連接相關。
如請求項1所述之方法，其中該效能損失係為一交叉熵(cross entropy)。
如請求項1所述之方法，更包含: 依據該目標函數調整多個權重變數以減低該多個權重變數的一總和，該多個權重變數與該複數個卷積層之間之該多條連接相關。
如請求項9所述之方法，其中依據該目標函數調整該多個權重變數包含: 計算該目標函數對該權重之一權重斜率；及依據該權重斜率更新該權重變數。