TWI736838B

TWI736838B - 訓練全連接神經網路的裝置及方法

Info

Publication number: TWI736838B
Application number: TW108104442A
Authority: TW
Inventors: 陳聖惟; 周俊男; 張智威
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-02-09
Filing date: 2019-02-11
Publication date: 2021-08-21
Also published as: CN110135577A; EP3525140A1; TW201935326A; US20190251447A1

Abstract

一種計算裝置，用來訓練一全連接神經網路，包含有至少一儲存裝置；以及至少一處理電路，耦接於該至少一儲存裝置。該至少一儲存裝置用來儲存，以及該至少一處理電路被配置來執行儲存於該至少一儲存裝置中的以下指令：計算該全連接神經網路的一區塊對角近似的正曲率海森矩陣；以及根據一期望近似共軛梯度方法，計算該區塊對角近似的正曲率海森矩陣的至少一更新方向。

Description

訓練全連接神經網路的裝置及方法

本發明相關於一種用於計算系統的裝置及方法，尤指一種訓練全連接神經網路的裝置及方法。

神經網路(neural network)被應用來解決幾個應用領域的問題，例如電腦視覺、神經語言(natural language)處理、疾病診斷等。當訓練神經網路時，反向傳播(backpropagation)流程被用來調整神經網路的模型參數。統計梯度下降法(stochastic gradient descent，SGD)、Broyden-Fletcher-Goldfarb-Shanno法及單步正割法(one-step secant)常被用來實現反向傳播(backpropagation)流程。

統計梯度下降法使用函數的一階微分來最小化一函數，在訓練大型模型時相當有效率。然而，梯度的統計性(stochasticity)會降低所有梯度法的收斂速度，使這些梯度法難以快於使用Polyak平均的簡單梯度法。除了梯度法，二階方法(second-order method)在給定點的鄰近範圍內使用損失函數(loss function)的曲率(curvature)資訊，以引導更新方向。由於每次更新可更為精確，以更新疊代(update iteration)來說，二階方法收斂速度快於一階方法。

解決凸最佳化(convex optimization)的問題時，二階方法以比統計梯度下降法少的步數收斂到一全域最小值(global minimum)。然而，訓練神經網路的問題可能是非凸的(non-convex)，以及負曲率的問題可能會發生。為了避免這個問題，具有凸準則函數(convex criterion function)的高斯-牛頓(Gauss-Newton)矩陣或費雪(Fisher)矩陣可被用來量測曲率，因為這些矩陣保證正半正定(positive semi-definite，PSD)。

雖然這些矩陣可減輕負曲率的問題，即使對一中等大小的全連接神經網路(fully-connected neural network，FCNN)，計算高斯-牛頓矩陣或費雪矩陣仍是困難的。若計算一階梯度需要O(N)複雜度，計算二階梯度需要O(N²)複雜度。因此，已有幾種方法被用來近似這些矩陣。然而，在計算上，這些矩陣階無法比一階方法有效率。因此，用於全連接神經網路且高計算效率的二階方法仍是亟待解決的問題。

本發明提供了一種方法及其裝置，用來訓練全連接神經網路，以解決上述問題。

本發明揭露一種計算裝置(computing device)，用來訓練(train)一全連接神經網路(fully-connected neural network，FCNN)，包含有至少一儲存裝置；以及至少一處理電路，耦接於該至少一儲存裝置。該至少一儲存裝置用來儲存，以及該至少一處理電路被配置來執行儲存於該至少一儲存裝置中的以下指令：計算該全連接神經網路的一區塊對角近似的正曲率海森(block-diagonal approximation of a positive-curvature Hessian，BDA-PCH)矩陣；以及根據一期望近似共軛梯度(expectation approximation conjugated gradient，EA-CG)方法，計算該區塊對角近似的正曲率海森矩陣的至少一更新方向(update direction)。

本發明另揭露一種訓練一全連接神經網路的方法，包含有計算該全連接神經網路的一區塊對角近似的正曲率海森矩陣；以及根據一期望近似共軛梯度方法，計算該區塊對角近似的正曲率海森矩陣的至少一更新方向。

10:計算裝置

100:至少一處理電路

110:至少一儲存裝置

114:程式代碼

120:至少一通訊介面裝置

20:流程

200、202、204、206:步驟

第1圖為本發明實施例一計算裝置的示意圖。

第2圖為本發明實施例一流程的流程圖。

第1圖為本發明一計算裝置10的示意圖。計算裝置10可包含有至少一處理電路100、至少一儲存裝置110以及至少一通訊介面裝置120。至少一處理電路100可為一微處理器或一特定應用積體電路(Application-Specific Integrated Circuit，ASIC)。至少一儲存裝置110可為任一資料儲存裝置，用來儲存一程式代碼114，至少一處理電路100可透過至少一儲存裝置110讀取及執行程式代碼114。舉例來說，至少一儲存裝置110可為用戶識別模型(Subscriber Identity Module，SIM)、唯讀式記憶體(Read-Only Memory，ROM)、快閃記憶體(flash memory)、隨機存取記憶體(Random-Access Memory，RAM)、硬碟(hard disk)、光學資料儲存裝置(optical data storage device)、非揮發性儲存裝置(non-volatile storage device)、非暫態電腦可讀取介質(non-transitory computer-readable medium)(例如具體介質(tangible media))等，而不限於此。根據至少一處理電路100的處理結果，至少一通訊介面裝置120被用來傳送及接收訊號(例如資訊、資料、訊息及/或封包)。至少一通訊介面裝置120可為至少一收發器、至少一介面電路或至少一介面板，但不限於此。上述一通訊介面裝置可為通用串列匯流排(UUniversal Serial Bus，USB)、IEEE 1394、串列先進技術依附(Serial Advanced Technology Attachment，SATA)、整合驅動電子裝置(Integrated Drive Electronics，IDE)、周邊組件互連(Peripheral Component Interconnect，PCI)。

本發明提供一區塊對角近似的正曲率海森(block-diagonal approximation of a positive-curvature Hessian，BDA-PCH)矩陣，其具有記憶體效能。區塊對角近似的正曲率海森矩陣可被應用到任一全連接神經網路(fully-connected neural network，FCNN)，其中一啟動函數(activation function)和一準則函數(criterion function)是兩次可微的。區塊對角近似的正曲率海森矩陣可處理非凸(non-convex)準則函數，其不能被高斯-牛頓(Gauss-Newton)方法處理。此外，一期望近似(expectation approximation，EA)與一共軛梯度(conjugated gradient，CG)方法結合，其稱為一期望近似共軛梯度(EA-CG)方法，以推導(derive)用於在一小批量設定(mini-batch setting)中訓練(train)全連接神經網路的更新方向(update directions)。期望近似共軛梯度方法明顯降低了傳統共軛梯度方法的空間複雜度和時間複雜度。

本發明提出了一種訓練一全連接神經網路的二階方法如下：

1.對於曲率資訊，一正曲率海森矩陣被提出，以改善一高斯-牛頓矩陣，用於訓練具有凸準則函數的一全連接神經網路，以及一非凸情境(non-convex scenario)被克服。

2.為了推導更新方向，一期望近似共軛梯度方法被提出。因此，由區塊對角近似的正曲率海森方法和期望近似共軛梯度方法組成的二階方法在掛鐘時間(wall clock time)方面收斂得更快，以及比競爭方法(例如隨機梯度下降)具有更好的測試精確度。

關於非凸問題的截斷牛頓(truncated-Newton)方法

一牛頓方法是二階最小化方法中的一種方法，其包含有兩個步驟：(1)計算一海森矩陣；以及(2)求解(solve)用於更新方向的線性方程式的系統。一截斷牛頓方法應用具有受限疊代的一共軛梯度方法到牛頓方法的第二步驟。在以下描述中，首先討論在一凸情境的文本(context)中的截斷牛頓方法。接著，討論截斷牛頓方法的一非凸情境，以及提供奠定被提出的正曲率海森矩陣的基礎的重要特性。

最小化問題如下所示：min_θ f( θ ), (式1) 其中f是一凸及二次可微函數。因為函數的一全域最小值(global minimum)是函數的一階導數為零的點，解θ*可從以下方程式導出：▽f(θ*)=0, (式2) 藉由一給定點θ^j進行一泰勒展開(Taylor expansion)，一二次多項式用於近似方程式(式1)。接著，方程式(式1)可被表示如下：

其中▽²f(θ^j)是f在θ^j的一海森矩陣。在應用上述近似後，方程式(式2) 可被改寫成以下的線性方程式：▽f( θ ^j)+▽ ² f( θ ^j) d ^j=0, (式4)因此，一牛頓方向可根據下式被獲得： d ^j=-▽ ² f( θ ^j)^-1 ▽f( θ ^j), (式5)根據以下方程式， θ *可被疊代地(iteratively)獲得： θ ^j+1= θ ^j+ηd ^j, (式6)其中η是一步長(step size)。

對於一非凸情境，方程式(式2)的解反映三種可能性中的一種：一局部最小值(local minimum) θ _min、一局部最大值 θ _max及一鞍點(saddle point) θ _saddle。以下引入一重要的概念：藉由分析海森矩陣▽ ² f( θ )可獲得在一給定點 θ 的f的曲率資訊。另一方面，在任一 θ _min的f的海森矩陣是正半正定(positive semi-definite)。在任一θ_max及θ_saddle的f的海森矩陣分別是負半正定(negative semi-definite)及不定(indefinite)。在建立概念後，一特性(Property)可被用來理解如何利用負曲率資訊，以解決負曲率問題。

特性：f是一非凸及二次可微函數。對於一給定點 θ ^j，假設對於▽ ² f( θ ^j)存在一些負特徵值(negative eigenvalues){λ ₁,...,λ _s}。再者，V=span{ ν ₁,..., ν _s}被採用，其是對應於{λ ₁,...,λ _s}的一特徵空間(eigenspace)。若以下方程式被考慮

其中

及 ν =k ₁ ν ₁+...+k _s ν _s，g( k )是一凸函數。

根據特性，若▽ ² f( θ ^j)具有一些負特徵值，方程式(式4)可獲得一局部最大值及一鞍點。為了收斂到一局部最小值，▽ ² f( θ ^j)被Pos-Eig(▽ ² f( θ ^j))取代，其中Pos-Eig(A)在概念上被定義是替換A的負特徵值為非負特徵值，如下式所示：

其中γ是一給定的純量(scalar)，其小於或等於零，以及{λ₁,...,λ_s}及{λ_s+1,...,λ_n}分別是A的負特徵值及非負特徵值。細化(refinement)暗示如果γ<0，點θ^j+1會遠離(escape)一局部最大值或鞍點。在γ=0的情況下，細化代表負特徵值的一特徵空間被忽略(ignore)。如此一來，解不收斂到任一鞍點或任一局部最大值。此外，根據一譜定理(spectral theorem)，每一實對稱矩陣(real symmetric matrix)可被對角化(diagonalize)。在本發明的假設下，▽²f(θ^j)是一實對稱矩陣。因此，▽²f(θ^j)可被分解，以及函數“Pos-Eig”可輕易的被實現。

當在f中變數的數量大時，海森矩陣在空間複雜度方面變得難以處理。或者，一共軛梯度方法可被用於求解方程式(式4)。此替代方案只需計算海森矩陣向量乘積，而不需要儲存整個海森矩陣。此外，限制共軛梯度方法的疊代次數，以節省計算成本。

計算海森矩陣

對於二階方法，一區塊海森矩陣(block Hessian matrix)被用於計算 (compute)曲率資訊。作為被提出的正曲率海森矩陣的基礎，在以下描述中，用於訓練一全連接神經網路的符號(notations)被敘述，以及用符號表示區塊海森遞迴(recursion)。

全連接神經網路

具有k階層(layer)的一全連接神經網路採用一輸入向量

，其中x_i是在一訓練集合(training set)中第i個實例(instance)。對於第i個實例，根據

，t=1,...,k-1，其他階層中的啟動值(activation values)可被遞歸地(recursively)推導，其中σ是一啟動函數及可為任一二次可微函數，以及W^t及b^t分別是在第t階層中的權重(weights)及偏差(biases)。nt是第t層中神經元(neurons)的數量，其中t=0,...,k，以及在每一階層中包含有所有權重及偏差的所有模型參數(model parameters)被表示為θ=(Vec(W¹),b¹,...,Vec(W^k),b^k)，其中Vec(A)=[[A.₁]^T,...,[A._n]^T]^T。藉由遵從上述符號，具有k階層的一全連接神經網路輸出被表示為

。

為了訓練全連接神經網路，可為任一兩次可微函數的一損失函數ξ被需要。因此，訓練全連接神經網路可被解釋為解決以下最小化問題：

其中l是訓練集合中實例的數量，y_i是第i個實例的一標籤(label)，

是

以及C是一準則函數。

用於海森矩陣的分層方程式(layer-wise equations)

為了清楚地揭示一區塊海森遞迴，根據前述中定義的符號，一反向傳播(backpropagation)的方程式被表示。偏差項b^t及權重項W^t是分開的，以及在梯度的一反向傳播期間被單獨處理。根據分層方式(layer-wise manner)的方程式，相對於偏差項及權重項的ξ的梯度可被推導。對於第i個實例，方程式如下：

其中

，

是克洛涅克乘積(Kronecker product)，以及

。同樣地，ξ的海森矩陣相對於偏差項和權重項以分層方式向後傳播。可藉由根據上述方式利用克洛涅克乘積來實現。第i個實例的結果方程式如下：

其中⊙是分元件乘積(element-wise product)，

，以及

的一導數階數(derivative order)是W^t的一分行穿越(column-wise traversal)。此外，值得注意的是，原始區塊海森遞回統一(unify)偏差項和權重項，不同於對這些項的單獨處理。

期望近似(Expectation approximation)

期望近似背後的想法是：具有給定指數(u,v)及(μ,ν)的

及

之間的一協方差(covariance)很小，因此由於計算效率，根據以下方程式，協方差被忽略：

為了對上述方程式上解釋這個概念，cov-t被定義為

，其中“Ele-Cov”表示為一分元件協方差，1_u,v是元件在

,t=1,...,k中為1的一矩陣。透過cov-t的定義及前述的方程式，近似可被表示如下：

其中

。

接著，以下近似方程式可被獲得：

其中

。原始海森矩陣與方程式(式18)中的近似海森矩陣間的差異被界定如下：

其中L是啟動函數的一利普希茨常數(Lipschitz constant)。舉例來說，LReLU及Lsigmoid分別是1及0.25。

推導牛頓方向

本發明提出一種用於訓練具有牛頓方向的一全連接神經網路的計算上可行的方法(computationally feasible method)。首先，一正曲率海森矩陣被構建(construct)。接著，基於正曲率海森矩陣，提出一種有效的基於共軛梯度的方法，其結合期望近似以推導多個訓練實例的牛頓方向，稱為期望近似共軛梯度方法。

正曲率海森矩陣

基於分層方程式和期望近似的積分(integration)，具有各種大小的區塊矩陣被建構，以及位於海森矩陣的一對角線。區塊對角線矩陣

可被表示為

,

,...,

,

)。請注意

是一區塊對角線矩陣，不是完整的海森矩陣。根據更新方向的三種可能性的敘述，

應被修改。因此，

被

,

,...,

,

)取代，以及修改的結果被表示為

，其中

可被視為一區塊對角近似的正曲率海森矩陣。任一正曲率海森矩陣保證是正半正定，解釋如下。為了表明

是正半正定，

及

應被證明對於任一t皆是正半正定。首先，區塊矩陣

被認為是方程式(式20)中n_k×n_k的一方陣。若準則函數

是凸函數，

是一正半正定矩陣。否則，矩陣被分解，以及矩陣的負特徵值被代替。因為n_k不是很大，

可被快速地分解以及可被修改為正半正定矩陣

。其次，

應是一正半正定矩陣，以及

是正半正定。因此，

的負特徵值形成對角線部分

，以及Pos-Eig被執行用於在方程式(式21)中的對角線部分。第三，因為兩個正半正定矩陣的克洛涅克乘積是正半正定，其暗示

是正半正定。

透過期望近似共軛梯度方法求解線性方程式

在獲得正曲率海森矩陣

後，藉由以下線性方程式，更新方向被更新：

其中0<α<1以及

。在此，因為

的權重平均將方程式(式23)的正半正定係數(coefficient)矩陣變為正定，以及使解更穩定，

的權重平均及一單位矩陣I被使用。因為對角線區塊的特徵，方程式(式23)可被分解如下：

對於t=1,...,k。為了求解方程式(式24)，藉由直接使用共軛梯度方法來獲得解。對於方程式(式24)，因為存儲

效率不高，方程式 (C ^t

A)Vec(B)=Vec(ABC)及方程式(式17)被處理為具有給定向量Vec(P)的海森向量乘積，如下式所示：

基於方程式(式26)，經由

，

的海森向量乘積被獲得，以及儲存曲率資訊的空間複雜度被降低。

上述內容可被歸納為第2圖的一流程20，可被編譯為程式代碼114。流程20包含有以下步驟：

步驟200：開始。

步驟202：計算該全連接神經網路的一區塊對角近似的正曲率海森矩陣。

步驟204：根據一期望近似共軛梯度方法，計算該區塊對角近似的正曲率海森矩陣的至少一更新方向。

步驟206：結束。

流程20的詳細內容及變化可參考前述，在此不贅述。

需注意的是，雖然以上所述的實施例被陳述以明確說明對應流程的相關運作。本領域具通常知識者當可根據系統需求及/或設計考量結合、修飾或變化以上所述的實施例。

本領域具通常知識者當可依本發明的精神加以結合、修飾及/或變化以上所述的實施例，而不限於此。前述的陳述、步驟及/或流程(包含建議步驟)可透過裝置實現，裝置可為硬體、軟體、韌體(為硬體裝置與電腦指令與資料的結合，且電腦指令與資料屬於硬體裝置上的唯讀軟體)、電子系統、或上述裝置的組合，其中裝置可為計算裝置10。上述流程及實施例(包含相關方程式)可被編譯為程式代碼114。

根據以上所述，本發明提出一正曲率海森矩陣及一期望近似共軛梯度方法，以實現更方便計算的用於訓練一全連接神經網路的二階方法。被提出的正曲率海森矩陣克服訓練具有非凸準則函數的全連接神經網路的問題。此外，期望近似共軛梯度方法提供另一種有效推導更新方向的替代方法。實證研究表明，被提出的正曲率海森矩陣的性能優於現有的曲率近似，以及期望近似共軛梯度方法收斂速度更快，同時具有更好的測試精度。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

20:流程

200、202、204、206:步驟

Claims

一種計算裝置(computing device)，用來訓練(train)一全連接神經網路(fully-connected neural network，FCNN)，包含有：至少一儲存裝置；以及至少一處理電路，耦接於該至少一儲存裝置，其中該至少一儲存裝置用來儲存，以及該至少一處理電路被配置來執行儲存於該至少一儲存裝置中的以下指令：計算該全連接神經網路的一區塊對角近似的正曲率海森(block-diagonal approximation of a positive-curvature Hessian，BDA-PCH)矩陣；根據一期望近似共軛梯度(expectation approximation conjugated gradient，EA-CG)方法，計算該區塊對角近似的正曲率海森矩陣的至少一更新方向(update direction)；以及根據該至少一更新方向，訓練該全連接神經網路。
如請求項1所述的計算裝置，其中藉由在複數個分層方程式(layer-wise equations)上執行至少一期望(expectation)，該區塊對角近似的正曲率海森矩陣被計算。
如請求項2所述的計算裝置，其中該複數個分層方程式包含有在相對於至少一偏差(bias)的複數個階層(layer)的複數個損失函數(loss functions)的一梯度。
如請求項2所述的計算裝置，其中該複數個分層方程式包含有在相對於至少一權重(weight)的複數個階層的複數個損失函數的一梯度。
如請求項1所述的計算裝置，其中該區塊對角近似的正曲率海森矩陣包含有相對於至少一偏差的一損失函數的一海森的至少一期望。
如請求項1所述的計算裝置，其中根據該期望近似共軛梯度方法計算該至少一更新方向的該指令另包含有：計算該區塊對角近似的正曲率海森矩陣的一權重平均(weighted average)及一單位矩陣(identity matrix)的一線性(linear)方程式；以及根據該期望近似共軛梯度方法，藉由求解(solve)該線性方程式，計算該至少一更新方向。
如請求項6所述的計算裝置，其中該線性方程式包含有相對於至少一偏差的該區塊對角近似的正曲率海森矩陣的該權重平均及該單位矩陣。
如請求項6所述的計算裝置，其中該線性方程式包含有相對於至少一權重的該區塊對角近似的正曲率海森矩陣的該權重平均及該單位矩陣。
一種訓練(train)一全連接神經網路(fully-connected neural network，FCNN)的方法，包含有：計算該全連接神經網路的一區塊對角近似的正曲率海森(block-diagonal approximation of a positive-curvature Hessian，BDA-PCH)矩陣；以及根據一期望近似共軛梯度(expectation approximation conjugated gradient，EA-CG)方法，計算該區塊對角近似的正曲率海森矩陣的至少一更新方向(update direction)。
如請求項9所述的方法，其中藉由在複數個分層方程式(layer-wise equations)上執行至少一期望(expectation)，該區塊對角近似的正曲率海森矩陣被計算。
如請求項10所述的方法，其中該複數個分層方程式包含有在相對於至少一偏差(bias)的複數個階層(layer)的複數個損失函數(loss functions)的一梯度。
如請求項10所述的方法，其中該複數個分層方程式包含有在相對於至少一權重(weight)的複數個階層的複數個損失函數的一梯度。
如請求項9所述的方法，其中該區塊對角近似的正曲率海森矩陣包含有相對於至少一偏差的一損失函數的一海森的至少一第一期望。
如請求項9所述的方法，其中根據該期望近似共軛梯度方法計算該至少一更新方向的該指令另包含有：計算該區塊對角近似的正曲率海森矩陣的一權重平均(weighted average)及一單位矩陣(identity matrix)的一線性(linear)方程式；以及根據該期望近似共軛梯度方法，藉由求解(solve)該線性方程式，計算該至少一更新方向。
如請求項14所述的方法，其中該線性方程式包含有相對於至少一偏差的該區塊對角近似的正曲率海森矩陣的該權重平均及該單位矩陣。
如請求項14所述的方法，其中該線性方程式包含有相對於至少一權重的該區塊對角近似的正曲率海森矩陣的該權重平均及該單位矩陣。