TWI744724B

TWI744724B - 處理卷積神經網路的方法

Info

Publication number: TWI744724B
Application number: TW108142282A
Authority: TW
Inventors: 伍捷; 馬雲漢; 謝必克; 李湘村; 蘇俊傑; 劉峻誠
Original assignee: 耐能智慧股份有限公司
Priority date: 2018-12-12
Filing date: 2019-11-21
Publication date: 2021-11-01
Also published as: US12014273B2; CN111310888A; US20200193270A1; TW202022798A

Abstract

一種處理卷積神經網路的方法，包含將輸入資料輸入至浮點預訓練CNN模型以產生浮點預訓練CNN模型的每層之浮點特徵圖，將浮點特徵圖輸入至統計分析模擬器以產生浮點預訓練CNN模型的每層之動態量化範圍，依據浮點預訓練CNN模型的每層之動態量化範圍對浮點預訓練CNN模型的每層之特徵值進行量化以產生量化CNN模型的每層之特徵值、量化CNN模型的每層之純量因子、及量化CNN模型的分數位元，及將量化CNN模型的每層之特徵值輸入至推論引擎以使用低精度之定點算數操作來產生定點推論CNN模型的每層之特徵值。

Description

處理卷積神經網路的方法

本發明關於影像處理，特別是一種節能的卷積神經網路實現方式。

由於在影像網(ImageNet)競賽中的卓越成功，卷積神經網路(Convolution Neural Network，CNN)已成為電腦視覺處理中最受歡迎的結構。通常的預訓練CNN模型需要好幾百萬個運算、大量的記憶體空間及好幾瓦的功率來進行單一推論(inference)運作。有限的運算資源及儲存空間已成為在物聯網(Internet of things,IoT)或可攜裝置上執行CNN的主要障礙。

開發新的CNN加速器主要有三個挑戰：

使用有限儲存記憶體的空間資料(spatial data)傳輸：由於物聯網設備中的儲存記憶體有限(<320KB SRAM)，因此實時人工智能(artificial intelligence，AI)應用無法接受晶片外(off-chip)記憶體，如動態隨機存取記憶體(dynamic random access memory，DRAM)及晶片上(on-chip)記憶體，如同步隨機記憶體(synchronous random access memory，SRAM)之間的大量資料傳輸的延遲。

CNN的大量乘法運算及高功耗：對於實時推論CNN模型來說，大規模的乘法運算需要極高功耗用於算術計算，因此難以設計滿足IoT設備的功率要求的CNN。

重新訓練CNN模型需要大量的訓練資料集：在量化近似操作中重新訓練CNN模型過程往往需要花費數小時。

CNN需要大量算數運算，因此無法在低功耗裝置上實現。

本發明實施例提供一種處理卷積神經網路的方法，包含將輸入資料輸入至浮點預訓練CNN模型以產生浮點預訓練CNN模型的每層之浮點特徵圖，將浮點特徵圖輸入至統計分析模擬器以產生浮點預訓練CNN模型的每層之動態量化範圍，依據浮點預訓練CNN模型的每層之動態量化範圍對浮點預訓練CNN模型的每層之特徵值進行量化以產生量化CNN模型的每層之特徵值、量化CNN模型的每層之純量因子、及量化CNN模型的分數位元，及將量化CNN模型的每層之特徵值輸入至推論引擎以使用低精度之定點算數操作來產生定點推論CNN模型的每層之特徵值。

100:方法

S102至S108:步驟

第1圖係為本發明實施例之處理卷積神經網路的方法之流程圖。

第2圖係顯示量化第1圖中權重及激活值的方法。

第1圖係為本發明實施例之處理卷積神經網路(convolution neural network，CNN)的方法100之流程圖。方法100包含下列步驟： S102：將輸入資料輸入至浮點預訓練CNN模型以產生浮點預訓練 CNN模型的每層之浮點特徵圖(feature map)；S104：將浮點特徵圖輸入至統計分析模擬器以產生浮點預訓練CNN模型的每層之動態量化範圍；S106：依據浮點預訓練CNN模型的每層之動態量化範圍對該浮點預訓練CNN模型每層之特徵值進行量化以產生量化CNN模型每層之特徵值、量化CNN模型的每層之純量因子、及量化CNN模型的分數位元；及S108：將量化CNN模型每層之特徵值輸入至推論(inference)引擎以使用低精度之定點算數操作來產生定點CNN模型。

步驟S102用於將輸入資料輸入至浮點預訓練CNN以產生浮點預訓練CNN模型的每層之浮點特徵圖。輸入資料為多媒體資料。步驟S104由自動統計分析模擬器執行。步驟S106用於執行權重、偏差及激活值的量化方法。步驟S108由推論引擎執行以使用低精度之定點算數操作來產生定點推論CNN模型。定點推論CNN模型每層的特徵值可被輸入至浮點預訓練CNN。

在CNN操作中，卷積(convolutional，CONV)操作及全連接(fully connected，FC)操作為主要運算負擔(overhead)。透過通用矩陣乘法(general matrix multiplication，GEMM)，卷積操作及全連接操作的公式由公式1顯示。在CNN模型的正向傳遞(forward-passing)程序中，第l層的第i通道的輸出特徵可表示為：

其中k代表卷積核(kernel)大小；N代表輸入通道的總數；i等於{1,2,…,M}，其中M為輸出通道的總數。

代表第l層中之第i輸出通道的偏差值。對全連接操作來說，卷積核大小永遠等於1。實施例中實現公式(1)中的量化方式，稱為動態定點算數運算子(operator)，可減低大規模CNN的運算負擔。因此量化問題可由最佳化公式2表示。

其中Q( )係為量化函數，使用最近捨入(round-to-nearest)方法，可產生捨入誤差的最小值。

為了最小化公式2中的量化誤差，再次重新考慮公式1。公式1具有二個主要成分。一者為加權向量(ω及b)，另一者為激活向量(x)。對加權向量執行粗略至精細動態定點近似操作以最小化加權向量(ω及b)中的量化誤差。將高效的固定精度表示法應用於激活值以最小化激活向量(x)中的量化誤差。第2圖係顯示量化第1圖中權重及激活值的方法。

實施例揭露一種量化方法，以下以固定精度表示法描述激活向量。

當在激活向量(x)中使用動態定點格式完整表示32位元浮點值時，純量因子s由公式3定義。

其中p代表量化位元長。在公式3中，動態量化範圍係為[[-max _v ,max _v]]。對卷積操作及全連接操作中的激活向量(x)來說，max _v為一組大量資料組的通常輸入特徵的統計最大值。可由第1圖中之統計最大值來進行分析。

基於公式3，s係為純量因子，用以補足浮點值及定點值之間的缺口。純量因子s係為數學上的實數，以32位元浮點格式表示。將純量因子s應用於第l層中之激活向量x ^l，則可將公式1重寫為：

在完成公式1的乘法操作後，公式2表示的量化問題可重寫如下：

CNN模型中的每層都有自己的第l層中之純量因子s ^(l)。將純量因子及激活向量相乘可有效涵蓋整個量化範圍[[-2^p-1,2^p-1-1]]，因此量化誤差被最小化。

以下描述本發明實施例中之量化方法，涉及將粗略量化及精細量化使用動態量化範圍應用於加權向量。

首先對每層來說，公式(3)提到的純量因子s可由公式(3)表示：

其中q等於

，n係為分數位元的數量，表示分數位元長，定義為：

注意2ⁿ係為整數值，及q係為32位元浮點值。

加權向量具有卷積向量或批量正規化(batch-normalization)縮放向量(ω)及偏差向量(b)。由第l層的偏差向量(b ^l)的觀點來看，由於使用縮放激活向量，更新的偏差向量可更新為q ^l .b。由第l層的卷積向量或批量正規化縮放加權向量(w ^(l))的觀點來看，由於考慮激活向量而透過每層純量因子進行迭代更新。當l>=1時，第l層的卷積加權向量(w ^(l))應更新為

。當l=0時，更新的加權向量應更新為q ⁽⁰⁾.w ⁽⁰⁾。對於沒有加權向量的層，例如激活層及池化層來說，直接將來自輸入層的浮點純量因子傳遞至後續層。

依據卷積加權向量(w _{(k×k×N×M)×1})的統計分析，每個輸出通道的值(輸出通道的總數為M)都會有不同變動。因此當動態量化範圍([-max _v(w),max _v(w)])用於涵蓋整個輸出通道時會對量化正確性造成極大影響。為了解決這個問題，所以在通道量化上使用了精細量化技術。在卷積加權向量中，第i輸出通道的最大值定義為max _v(w _i)(i

1,2,...,M)。每輸出通道的更新的動態範圍為[-max _v(w _i),max _v(w _i)]。透過量化範圍應用粗略量化及精細量化以產生定點推論資料可對所有CNN提供極低之量化誤差及提供靠近32位元浮點正確度的量化結果。

本發明實施例提供處理卷積神經網路的方法。本方法將輸入資料輸入至浮點預訓練CNN模型以產生浮點預訓練CNN模型的每層之特徵圖，將特徵圖輸入至統計分析模擬器以產生浮點預訓練CNN模型的每層之動態量化範圍，依據浮點預訓練CNN模型的每層之動態量化範圍對浮點預訓練CNN模型的每層之特徵值進行量化以產生量化CNN模型的每層之特徵值、量化CNN模型的每層之純量因子、及量化CNN模型的分數位元，及將該量化CNN模型的每層之特徵值輸入至推論引擎以使用低精度之定點算數操作來產生定點推論CNN模型每層之特徵值。應用本發明提出之技術可於僅具有限記憶體大小及低算術能力的裝置，例如行動電話或可攜物聯網裝置上建造定點推論CNN模型而不會產生效能損失。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

100:方法

S102至S108:步驟

Claims

一種處理卷積神經網路(convolution neural network，CNN)的方法，包含：將輸入資料輸入至一浮點預訓練CNN模型以產生該浮點預訓練CNN模型的每層之複數個浮點特徵圖(feature map)；將該等浮點特徵圖輸入至一統計分析模擬器以產生該浮點預訓練CNN模型的該每層之一動態量化範圍；依據該浮點預訓練CNN模型的該每層之該動態量化範圍對該浮點預訓練CNN模型的該每層之特徵值進行量化以產生一量化CNN模型的每層之複數個特徵值、該量化CNN模型的該每層之一純量因子、及該量化CNN模型的一分數位元；及將該量化CNN模型的該每層之該等特徵值輸入至一推論(inference)引擎以使用低精度之複數個定點算數操作來產生一定點推論CNN模型的每層之複數個特徵值。
如請求項1所述之方法，另包含：將該定點推論CNN模型的該每層之該等特徵值輸入至該浮點預訓練CNN模型。
如請求項1所述之方法，其中依據該浮點預訓練CNN模型的該每層之該動態量化範圍對該浮點預訓練CNN模型的該每層之該等特徵值進行量化以產生該量化CNN模型的該每層之該等特徵值、該量化CNN模型的該每層之該純量因子、及該量化CNN模型的該分數位元包含：依據該浮點預訓練CNN模型的該每層之該動態量化範圍對該浮點預訓練 CNN模型的該每層之該等特徵值執行一粗略至精細量化以產生該量化CNN模型的該每層之該等特徵值、該量化CNN模型的該每層之該純量因子、及該量化CNN模型的該分數位元。
如請求項3所述之方法，其中依據該浮點預訓練CNN模型的該每層之該動態量化範圍對該浮點預訓練CNN模型的該每層之該等特徵值執行該粗略至精細量化以產生該量化CNN模型的該每層之該等特徵值包含：依據該浮點預訓練CNN模型的該每層之該動態量化範圍對該浮點預訓練CNN模型的該每層之該等特徵值執行一粗略量化以產生一粗略CNN模型；及對該粗略CNN模型的複數個卷積層及/或複數個全連接層的所有複數個通道的該每層之複數個特徵值執行一精細量化以產生該量化CNN模型。
如請求項4所述之方法，其中依據該浮點預訓練CNN模型的該每層之該動態量化範圍對該浮點預訓練CNN模型的該每層之該等特徵值執行該粗略量化以產生該粗略CNN模型包含：執行一激活量化程序、一偏差量化程序及一權重量化程序以產生該粗略CNN模型。
如請求項5所述之方法，其中執行該激活量化程序、該偏差量化程序及該權重量化程序以產生該粗略CNN模型包含：對該浮點預訓練CNN模型的該每層之複數個激活向量執行該激活量化程序以產生複數個量化的激活值；對該浮點預訓練CNN模型的偏差資料執行該偏差量化程序以產生複數個量化的偏差值；及對該浮點預訓練CNN模型的權重資料執行該權重量化程序以產生複數個量化的權重。
如請求項4所述之方法，其中對該粗略CNN模型的該等卷積層及/或該等全連接層的所有該等通道的該每層之該等特徵值執行該精細量化以產生該量化CNN模型包含：對該粗略CNN模型的該等卷積層及/或該等全連接層的所有該等通道的該每層之該等特徵值執行一每通道權重(weight per channel)量化程序以產生權重該量化CNN模型，該量化CNN模型包含一每通道量化權重。
如請求項1所述之方法，其中該輸入資料為多媒體資料。