TWI722434B

TWI722434B - 深度神經網絡自我調整增量模型壓縮的方法

Info

Publication number: TWI722434B
Application number: TW108117254A
Authority: TW
Inventors: 謝必克; 蘇俊傑; 伍捷; 張博棟; 劉峻誠
Original assignee: 耐能智慧股份有限公司
Priority date: 2018-05-31
Filing date: 2019-05-20
Publication date: 2021-03-21
Also published as: CN110555510A; TW202004658A; US20190370658A1; US11403528B2

Abstract

壓縮預先訓練的深度神經網絡模型的方法包括輸入預訓練的網絡模型作為候選模型，增加候選模型的稀疏度來壓縮候選模型，移除候選模型中至少一批量標準化層，將剩餘權重量化為定點表示以形成壓縮模型。以用戶的訓練和驗證資料確認壓縮模型的準確度，重複壓縮候選模型並輸出用於推論的壓縮模型。

Description

深度神經網絡自我調整增量模型壓縮的方法

本發明是關於一種大規模深度神經網絡壓縮的方法，特別是指一種具有保證準確度大規模深度神經網絡壓縮的方法。

大規模深度神經網絡在電腦視覺，圖像識別和語音識別領域有著了顯著的成效。因著大量的資料組，強大的計算能力和記憶體，深度學習模型變得越來越大且複雜。然而，這些巨大的模型無法安裝在具有低記憶體和計算能力有限的終端用戶裝置上，例如行動電話和嵌入式設備。此外，由於資料組有限，對於終端用戶裝置開發定制的深度學習模型無法從零開始學習。

本發明揭露一種壓縮預先訓練的深度神經網絡模型的方法，該深度神經網絡模型包括複數層，該複數層中的每一層包括表示權重的至少一節點。該方法包括輸入該預先訓練的深度神經網絡模型作為一候選模型，通過移除至少一層中的至少一節點，移除該候選模型中的至少一批量標準化層，及將所有剩餘權重量化為定點表示以形成一壓縮模型，用以增加該候選模型的稀疏度來壓縮該候選模型，以一用戶的訓練及驗證資料決定該壓縮模型的準確度，當該準確度提高及該準確度低於一用戶性能指標時，以該壓縮模型作為該候選模型來重複壓縮該候選模型，調整超參數以壓縮該候選模型，並在該準確度下降時重複壓縮該候選模型，及當該準確度達到或超過該用戶性能指標時，輸出用於推論的該壓縮模型。

100:模型壓縮架構

110:輸入元件

112:預先訓練模型

114:用戶的訓練和驗證資料

116:用戶性能指標

130:自我調整增量模型壓縮

132、134、136:步驟

150:輸出元件

152:DNN權重修剪和量化模型

200:模型壓縮方法

230至240:步驟

300:裝置

310:記憶體

320:處理器

325:程式碼

第1圖為實施例模型壓縮架構的示意圖。

第2圖為實施例模型壓縮方法的流程圖。

第3圖為執行第2圖模型壓縮方法之裝置的示意圖。

本發明提出的模型壓縮方法移除了深度神經網絡(Deep Neural Network,DNN)中不必要的層，並自動在運算密集的層中導入稀疏結構。

第1圖為實施例模型壓縮架構100的示意圖。模型壓縮架構100包含一輸入元件110和一自我調整增量模型壓縮130，輸入元件110包括一DNN預先訓練模型112，例如AlexNet，VGG16，RestNet，MobileNet，GoogLeNet，Sufflenet，ResNext，Xception Network等，一用戶的訓練和驗證資料114及一用戶性能指標116。自我調整增量模型壓縮130會分析預先訓練模型112的稀疏性，自動修剪和量化網絡冗餘，並移除模型壓縮架構100中不必要的層。同時，所提出的技術可重新使用在源域資料上訓練的參數，並構建基本模型以描述用戶定制應用的共同特徵。

通過重複使用基礎模型的隱藏層作為初始值，則可使用小型資料組來構建用戶深度學習模型。應用所提出的技術，即可定制用戶深度學習模型之規模及運算複雜度。

自我調整增量模型壓縮130包括三個步驟。第一步驟132是搜尋網絡冗餘，分析預先訓練模型112的稀疏性並修剪預先訓練模型112。對於用戶端的應用程序而言，某些網絡參數實為冗餘，而以模型壓縮的方法可以透過移除這些冗餘參數自動構建稀疏性。第二步驟134是移除網絡中的批量標準化層。導入批量標準化層會使模型訓練更容易收斂，而此方法已廣泛應用於大多數的神經網絡，如Inception V2，V3，V4，Xception及MobileNet。批量標準化層主要用於調整輸入權重，並在每個網絡功能上增加偏差值。即使批量標準化層的總運算量不大，這些批量標準化層也需要相當長的推論運算時間，因為中央處理器或圖形處理器幾乎無法加速此程序的運算。最後一步驟136是逐層將所有權重量化為定點表示，在執行自我調整增量模型壓縮130時會確認每層的定點整數位元寬度和小數位元寬度，對應量化該層中的所有權重。密集層和卷積層的內核權重和偏置權重具有另外的定點整數位元寬度和小數位元寬度。

在完成所有步驟132、134及136之後，權重修剪和量化的模型即處理完成。由於模型權重被量化並且批量標準化層被移除，因此模型推論速度可比原始模型要快。也因著神經網絡被修剪及權重量化，所以可通過某些壓縮方式，例如，霍夫曼編碼(Hoffman coding)，來壓縮模型，以使用較少的記憶體來儲存此模型。

為了確認模型的推論準確度，步驟132、134及136都在監控準確度指標的情況下進行。自我調整增量模型壓縮130會以來自輸入元件110的用戶驗證資料組114和用戶性能指標116來測量準確性。

如第2圖所示，模型壓縮方法200包括執行模型壓縮架構100內的修剪步驟132，量化步驟136和批量標準化移除步驟134。在模型壓縮方法200中，步驟232可包括依照順序單次執行步驟132、134及136。在一些實施例中，至少需對步驟232至238重複執行三次，或可根據需要在步驟236之前對步驟132、134及136其中之一重複執行多次。步驟132、134及136可依順序執行。

根據用戶性能指標116或其他因素，模型壓縮方法200也可以僅執行步驟132、134及136的其中一或兩個步驟。步驟232中所包括的步驟132、134及136的任何組合所產生的DNN權重修剪和量化模型152仍包括在請求項的範圍內。

在步驟232之後，步驟236以用戶性能指標116來檢查準確度。若模型性能指標達到目標值，則繼續執行增量模型壓縮。若模型性能指標低於目標值，則進入步驟238。在步驟238中，首先將模型返回到前一個滿足精度要求的模型，然後調整模型壓縮的超參數，修剪參數占總參數的比例，需要壓縮的層的位置，定點化的位元寬等。調整超參數後，進入步驟232以繼續執行增量模型壓縮。若所有超參數都嘗試完成且所有層有壓縮完成，則進入步驟240。

一輸出元件150中的DNN權重修剪和量化模型152可用於對已知和未知數據進行推論並以一裝置300執行。第3圖中所示的裝置300可包括用於執行所需運算的一處理器320及包括DNN權重修剪和量化模型152的一記憶體310。在一些實施例中，DNN權重修剪和量化模型152可以利用軟體、韌體或硬體來實行。

裝置300還可作為執行本文描述的DNN模型壓縮方法的裝置，其中記憶體310另包括一程式碼325，由處理器320執行DNN模型壓縮方法以產生DNN權重修剪和量化模型152。程式碼325的壓縮方法可以包括輸入預先訓練的DNN模型作為候選模型，通過移除候選模型至少一層的至少一節點來增加候選模型的稀疏度來壓縮候選模型，移除候選模型中的至少一批量標準化層，並將所有剩餘權重量化為定點表示以形成壓縮模型，以用戶的訓練及驗證資料確認壓縮模型的準確度，當準確度提高且低於用戶性能指標116時，以壓縮模型作為候選模型來重複壓縮候選模型，調整超參數以壓縮候選模型，並在準確度下降時重複壓縮候選模型，及當準確度達到用戶性能指標116時，輸出用於推論的壓縮模型。

DNN權重修剪和量化模型152提供了超過神經網絡領域中傳統技術的顯著進步性。因為本方法輸入預先訓練的模型作為訓練的起始，所以模型中已經存在收斂性和準確性。由於此方法可降低所需的深度神經網絡規模，因此也減少了如記憶體，硬體或處理器的要求。此外，由於所公開的壓縮方法，可以提高模型推論的速度和降低模型推論的運算要求。最後，此壓縮方法還可確保模型推論的準確性。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。