TW202004569A

TW202004569A - 深度神經網絡中批量標準化層修剪的方法

Info

Publication number: TW202004569A
Application number: TW108112335A
Authority: TW
Inventors: 謝必克; 蘇俊傑; 張博棟; 劉峻誠
Original assignee: 耐能智慧股份有限公司
Priority date: 2018-06-03
Filing date: 2019-04-09
Publication date: 2020-01-16
Also published as: CN110555509A; TWI785227B; US20190370656A1; US11488019B2

Abstract

一種從預先訓練的深度神經網絡模型中修剪批量標準化層的方法。輸入預先訓練的深度神經網絡模型作為候選模型；僅當至少一批量標準化層連接及鄰接至對應的線性運算層時，從候選模型中移除至少一批量標準化層來修剪候選模型，以形成修剪之候選模型；調整線性運算層的權重以補償至少一批量標準化層的移除；並輸出修剪之候選模型。

Description

深度神經網絡中批量標準化層修剪的方法

本發明係關於一種具有至少一批量標準化層的深度神經網絡，尤指一種從預先訓練的深度神經網絡修剪批量標準化層的方法。

大規模深度神經網絡（deep neural network, DNN）在機器視覺、圖像辨識和語音處裡領域有著顯著的功用。然而，這些現代深度神經網絡通常包含許多層數，並具有非常龐大的模型，且需要高的計算強度。這些特性使得在具在有低儲存和低運算能力的終端用戶設備(例如，行動電話)上使用深度神經網絡變得非常困難。如ResNet，MobileNet，GoogLeNet及Xception等現代深度神經網絡皆包含多個批量標準化層。這些批量標準化層通常放在卷積層，密集層或深度卷積層之前或之後，以幫助訓練神經網絡收斂。但是，在模型推論階段，這些批量標準化層會佔用大量的運算資源而導致裝置需要龐大的運算能力來處理神經網絡的訓練。因此將具有批量標準化層的深度神經網絡導入所有類型的硬體，如中央處理單元，圖形處理單元，數位訊號處理器等，仍然具有困難度。

本發明提供一種從一預先訓練的深度神經網絡模型中修剪批量標準化層的方法，該深度神經網絡模型包括複數個層，該複數個層包括至少一批量標準化層，所述方法包括，輸入該預先訓練的深度神經網絡模型作為一候選模型；從該候選模型中移除該至少一批量標準化層來修剪該候選模型，以在當該至少一批量標準化層連接及鄰接至一對應的線性運算層時，形成一修剪之候選模型；調整該線性運算層的權重以補償該至少一批量標準化層的移除，使該修剪之候選模型的推論精準度與該預先訓練的深度神經網絡模型的推論精準度實質上相同；輸出該修剪之候選模型。

為了解決在運算資源有限的裝置中實施使用批量標準化層(batch normalization layer)訓練深度神經網絡(deep neural network)的問題，我們提出了一種新的批量標準化層修剪技術，其通過修剪與線性運算層(linear operation layer)連接的任何批量標準化層以無損地壓縮深度神經網絡模型。線性運算層包括但不限於卷積層(convolution layers)，密集層(dense layers)，深度卷積層(depthwise convolution layers)及組卷積層(group convolution layers)。此外，批量標準化層修剪技術不會改變神經網絡模型中的其他層的結構，因此，批量標準化層修剪技術可以直接實施到現有的神經網絡模型平台中。

在揭露批量標準化層修剪技術的細節之前，這裡總結了本專利申請的主要請求項（但不是所有請求項）。

實施例提供一種用於模型推論的新型批量標準化修剪技術。此批量標準化層修剪技術適用於具有批量標準化層的任何神經網絡。當批量標準化層連接到任何線性運算層（在其之前或之後）時，批量標準化層修剪技術可以修剪整個批量標準化層。線性運算層包括但不限於卷積層，密集層，深度卷積層和組卷積層。批量標準化層修剪技術可以加速在任何類型的硬體平台上實施的神經網絡推論，特別是有限運算資源的平台，例如中央處理器，圖形處理器，數位訊號處理器等。批量標準化層修剪技術是無損的，若不考慮數值計算精準度，在應用批量標準化層修剪技術之前和之後神經網絡輸出結果完全相同。

一批量標準化層具有N個輸入特徵和相同量（N）的輸出特徵。對於每個輸入特徵x，批量標準化過程具有參數y，其中：

(1)

E[x]是輸入特徵x的移動平均值，Var[x]為x的移動變異數，eps為一給定的數值，gamma和beta為訓練過的參數。在模型推論中，所有這些參數都為已知，因此，批量標準化過程可以簡化為：

(2)

(3)

(4)

如果具有K輸入特徵及N輸出特徵的一線性運算層位於批量標準化層之前，那麼此線性運算層可表示為：

(5)

其中x_i 是表示為列向量(column vector)的第i個輸出特徵，z_j 是表示為列向量的第j個輸入特徵，b_i 是第i個輸出特徵的偏差，為一個標量(scalar)，+b_i 是逐元素加法，A_ij 是第j個輸入特徵到第i個輸出特徵的線性核心（矩陣）。對於密集層，A_ij 是一個標量（1乘1矩陣），它正好是連接第j個輸入節點和第i個輸出節點的分支上的權重。對於卷積層，卷積運算可為線性矩陣乘法，其中A_ij 為卷積運算的矩陣。深度卷積層及組卷積層也具有與卷積層類似的表達方式，若第i個輸出特徵和第j個輸入特徵之間沒有連接，則除了一些A_ij 矩陣之外，基本上該矩陣為零矩陣。

線性運算層和批量標準化層組合的輸出為：

(6) 等於

(7) 等於

(8)

這裡

為標量，

的加法是逐元素加法。該公式表明，若修剪批量標準化層並將線性運算層的權重調整為A_ij →A_ij *a和b_i →b+b_i *a，則權重調整後的線性運算層的輸出特徵與原始線性運算層和批量標準化層組合的輸出特徵實質上相同。這裡a和b是標量，因此，這些類型的權重調整可以應用於卷積層，密集層，深度卷積層和組卷積層。

當批量標準化層在線性運算層(例如，卷積層，密集層，深度卷積層和組卷積層)之後時，這裡所提出的方法可以修剪批量標準化層，調整線性運算層的權重，使調整後線性運算層的輸出特徵與原始線性運算層和批量標準化層組合的輸出特徵實質上相同。

若具有N個輸入特徵和L個輸出特徵的線性運算層位於在批量標準化層之後，那麼可將該線性運算層表示為:

(9)

其中z_i 為列向量的第i個輸出特徵，y_j 為列向量的第j個輸入特徵，b_i 為列向量第i個輸出要素的偏差。

線性運算層和批量標準化層組合的輸出為：

(10) 等於

(11) 等於

(12)

其中t是一全為1的列向量。該公式表示若修剪批量標準化層並將線性運算層的權重調整為

→

和

→

，則權重調整後的線性運算層的輸出特徵與原始線性運算層和批量標準化層組合的輸出特徵實質上相同。這裡a，b，b_i 為標量。因此，這些權重調整可應用於卷積層，密集層，深度卷積層和組卷積層。例如，對於卷積層，組卷積層和深度卷積層，

→

可以簡化為

→

。對於密集層，

→

可以簡化為

→

，其中

是從第j個輸入節點到第i個輸出節點的分支上的權重。

當批量標準化層位在線性運算層(例如，卷積層，密集層，深度卷積層和組卷積層等)之前時，這裡所提出的方法可以修剪批量標準化層，調整線性運算層的權重，使調整後線性運算層的輸出特徵與原始線性運算層和批量標準化層組合的輸出特徵實質上相同。

第1圖為批量標準化修剪方法100的流程圖。步驟110開始該流程。接下來在步驟120中，逐項檢查每個批量標準化層，若沒有未處理的批量標準化層，則在步驟160中結束該流程，否則至步驟130，流程轉至未處理的批量標準化層，若下一個未處理的批量標準化層與線性運算層連接，則至步驟140，使用本專利中描述的批量標準化層修剪方法修剪該批量標準化層，更新對應的線性運算層的權重，並更新神經網絡模型結構。若該批量標準化層未與線性運算層連接，則不修剪該批量標準化層。在步驟150中，將未修剪的批量標準化層標記為已處理並返回步驟120。

批量標準化層的修剪方法100可以以如第2圖所示的裝置200中實施。裝置200可以包括一處理器220，耦接至一記憶體210及用於執行批量標準化層的修剪方法100的所有必要連接。記憶體210可為暫時性或非暫時性記憶體，並且可以包括深度神經網絡230及程式碼240。程式碼240可使處理器執行第1圖所示之步驟。裝置200還可用於實施已用上述方法修剪過深度神經網絡230。

本發明公開的批量標準化層修剪方法相較於神經網絡領域中之先前技術有著顯著的進步性。因該方法以預先訓練的深度神經網絡模型作為輸入，所以該模型已有一定的收斂度和準確性。通過修剪預先訓練的深度神經網絡模型中線性運算層連接的批量標準化層，使得神經網絡模型規模可以降低，減少了所需的硬體規格。此外，本方法可以提高模型推論的速度及降低其運算要求，並同時確保推論的準確性。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

100‧‧‧流程圖 110至160‧‧‧方法 200‧‧‧裝置 210‧‧‧記憶體 220‧‧‧處理器 230‧‧‧深度神經網絡 240‧‧‧程式碼

第1圖為批量標準化層修剪方法100的流程圖。第2圖為實施第1圖之所示批量標準化層修剪方法的裝置。

100‧‧‧流程圖

110至160‧‧‧方法

Claims

一種從一預先訓練的深度神經網絡模型中修剪批量標準化層的方法，該深度神經網絡模型包括複數個層，該複數個層包括至少一批量標準化層，所述方法包括：輸入該預先訓練的深度神經網絡模型作為一候選模型；從該候選模型中移除該至少一批量標準化層來修剪該候選模型，以在當該至少一批量標準化層連接及鄰接至一對應的線性運算層時，形成一修剪之候選模型；調整該線性運算層的權重以補償該至少一批量標準化層的移除，使該修剪之候選模型的推論精準度與該預先訓練的深度神經網絡模型的推論精準度實質上相同；及輸出該修剪之候選模型。
如請求項1所述的方法，其中該對應的線性運算層可是至少一卷積層，密集層，深度卷積層及組卷積層。
如請求項1所述的方法，其中該預先訓練的深度神經網絡模型包括複數個批量標準化層；所述方法另包括在該至少一批量標準化層連接及鄰接至對應的線性運算層時，從該候選模型中移除該複數個批量標準化層中的每一層以形成該修剪之候選模型。
如請求項3所述的方法，另包括調整從該候選模型中移除的每一批量標準化層所對應的該線性運算層的權重，以補償該批量標準化層的移除，使得該修剪之候選模型的推論精準度為與預先訓練的深度神經網絡模型的推論精準度實質上相同。
如請求項3所述的方法，另包括從該候選模型中移除該至少一批量標準化層，而不改變該深度神經網絡中非批量標準化層的結構。
如請求項1所述的方法，另包括當該至少一批量標準化層連接及鄰接至一先前對應的線性運算層時，從該候選模型中移除該至少一批量標準化層以形成該修剪之候選模型。
如請求項1所述的方法，另包括當該至少一批量標準化層連接及鄰接至一後續對應的線性運算層時，從該候選模型中移除該至少一批量標準化層以形成該修剪之候選模型。
如請求項1所述的方法，另包括僅當該至少一批量標準化層連接及鄰接至一對應的線性運算層時，才從該候選模型中移除該至少一批量標準化層以形成該修剪的候選模型。
如請求項1所述的方法，另包括單獨處理每一批量標準化層，其中單獨處理每一批量標準化層包括：僅當該至少一批量標準化層連接及鄰接至一對應的線性運算層時，從該候選模型中移除該至少一批量標準化層及調整該對應的線性運算層的權重；及當該至少一批量標準化層未連接及鄰接至一對應的線性運算層時，保持該至少一批量標準化層及其相鄰層的權重。
一種用於從一預先訓練的深度神經網絡模型中修剪一批量標準化層的裝置，該深度神經網絡模型包括複數個層，該複數個層包括至少一批量標準化層，該裝置包括：一處理器；及一非揮發性記憶體，耦合至該處理器，該記憶體包括程式碼，該程式碼使該處理器執行以下步驟：輸入該預先訓練的深度神經網絡模型作為一候選模型；從該候選模型中移除該至少一批量標準化層來修剪該候選模型，以在當該至少一批量標準化層連接及鄰接至對應的線性運算層時，形成一修剪之候選模型；調整該線性運算層的權重以補償該至少一批量標準化層的移除，使該修剪之候選模型的推論精準度與該預先訓練的深度神經網絡模型的推論精準度實質上相同；及輸出該修剪之候選模型。