TWI795135B

TWI795135B - 神經網路模型的量化方法及深度學習加速器

Info

Publication number: TWI795135B
Application number: TW110148077A
Authority: TW
Inventors: 盧峙丞; 林晉宇; 莊凱翔
Original assignee: 財團法人工業技術研究院
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-03-01
Also published as: TW202326525A

Abstract

一種神經網路模型的量化方法，包括：初始化神經網路模型的權重陣列，權重陣列包括多個初始權重，依據權重陣列執行量化程序以產生量化權重陣列，其中量化權重陣列包括多個量化權重，且這些量化權重介於固定範圍，依據量化權重陣列執行神經網路模型的訓練程序，以及在訓練程序中判斷損失函數是否收斂，當損失函數收斂時，輸出訓練後的量化權重陣列。

Description

神經網路模型的量化方法及深度學習加速器

本發明關於深度神經網路及其硬體架構，特別是一種神經網路模型的量化方法及深度學習加速器。

深度神經網路（deep neural network, DNN）是一種非常耗費運算資源的演算法，而為了將DNN順利導入到低運算資源的邊緣裝置，必須克服DNN運算的效能瓶頸及功率消耗等問題。因此，研究DNN模型的壓縮及加速技術成為首要目標。壓縮後的DNN模型將使用少量的權重，從而在一些硬體上能加快運算速度。

量化（quantization）是DNN模型壓縮的一項重要技術，其概念是改變DNN模型的激勵值和權重值的表示範圍，將浮點數轉換為整數型態。量化技術依其應用時機，可分為訓練後量化（Post Training Quantization, PTQ）及量化感知訓練（Quantization-Aware Training, QAT）兩種方式。PTQ是基於訓練完成的模型直接進行運算型態的轉換，中間處理過程不改變原始模型的權重值。QAT的一種範例是在模型的原始架構中插入偽量化節點（fake-quantization node），再利用原有的訓練流程實現量化模型。

然而，上述QAT範例的量化架構（如TensorFlow）需要預先訓練一個模型對浮點數進行量化及反量化（dequantize）。習知的量化方式還具有多個潛在問題：首先，初始權重被量化之後，會產生需要額外硬體處理的偏移（bias）項；其次，由於權重範圍沒有限制，一個初始權重會因為量化區間的大小不同，而得到不一致的量化結果，導致量化訓練不穩定。因此，權重分布會影響量化訓練，特別是在低量化位元數的狀況。

有鑑於此，本發明提出一種神經網路模型的量化方法，這是一種硬體友善（Hardware-friendly）的量化方法，使用者可自行設定量化位元數。本發明更提出一種深度學習加速器，適用於簡化權重值的DNN模型。

依據本發明一實施例的一種神經網路模型的量化方法，包括：初始化一神經網路模型的一權重陣列，該權重陣列包括多個初始權重；依據該權重陣列執行一量化程序以產生一量化權重陣列，其中該量化權重陣列包括多個量化權重，且該些量化權重位於一固定範圍中；依據該量化權重陣列執行該神經網路模型的一訓練程序；以及在該訓練程序中判斷一損失函數是否收斂，其中當該損失函數收斂時，輸出該訓練後的量化權重陣列。

依據本發明一實施例的一種深度學習加速器，包括：一處理單元矩陣，包含多個位元線，每一該些位元線包括多個處理單元，每一該些處理單元包括一記憶體及一乘加器，該些處理單元的該些記憶體用於儲存一量化權重陣列，該量化權重陣列包括多個量化權重；該處理單元矩陣用於接收一輸入向量，並依據該輸入向量及該量化權重陣列進行一卷積運算以產生一輸出向量；以及一讀出電路陣列，電性連接該處理單元矩陣，且包括多個讀出電路及多個偵測器，每一該些讀出電路對應於每一該些位元線，每一該些偵測器對應於每一該些位元線；其中該些偵測器用於偵測每一該些位元線的一輸出值是否為零，並關閉該位元線的該輸出值為零的該讀出電路。

綜上所述，本發明提出的神經網路模型的量化方法及深度學習加速器採用軟硬體協同設計，具有下列特點： 1. 簡化量化流程，不須預先訓練量化模型； 2. 使用非線性公式固定量化區間，量化訓練具穩定性及準確性； 3. 允許使用者自行設定量化位元數，依據本發明產生的量化模型及其硬體可節省偏移項的硬體設計； 4. 協同硬體運算偵測器設計，加入結構性正規項，從硬體架構上簡化權重，在訓練過程中，將隧道（tunnel）中的多個權重值簡化為零，從而加速硬體計算速度； 5. 神經網路模型的訓練包含量化、簡化的過程都是在軟體端進行，訓練期間的權重為浮點數型態；訓練好的權重才會轉換為整數型態，交給硬體端運行作預測；以及 6.節省位元線運算的功耗與讀出電路陣列的功耗，因此可優化整體運算功耗。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及特點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

圖1是依據本發明一實施例的神經網路模型的量化方法的流程圖，包括步驟P1~P4。

步驟P1是「初始化權重陣列」。在一實施例中，可採用一處理器初始化一神經網路模型的一權重陣列，此權重陣列包括多個初始權重，每個初始權重是浮點數，實務上，處理器可以隨機設定這些初始權重的數值。

步驟P2是「執行量化程序」。在一實施例中，處理器依據權重陣列執行一量化程序以產生一量化權重陣列，量化權重陣列包括多個量化權重，且這些量化權重位於一固定範圍中。圖2是步驟P2的細部流程圖，步驟P21是「輸入初始權重至轉換函數」，步驟P22是「輸入轉換函數的輸出結果至量化函數以產生量化權重」。

在步驟P21中，處理器將每一個初始權重輸入至轉換函數，以將這些初始權重的初始範圍轉換為固定範圍。轉換函數包括一非線性轉換公式，在一實施例中，非線性轉換公式是雙曲正切（Hyperbolic tangent）函數tanh，且固定範圍是[-1,+1]。式一是轉換函數的一實施例，其中

代表非線性轉換公式，

是初始權重，

是轉換函數的輸出結果。

（式一）

在步驟P22中，處理器將轉換函數的輸出結果輸入至量化函數以產生多個量化權重。式二是量化函數的一實施例，其中

是量化權重，round函數用於計算捨入值，b _w是量化位元數。

（式二）

圖3是量化程序的轉換示意圖，量化程序將一個初始權重

（精確度較高，浮點數型別）轉換成量化權重

（其精確度低於前者的精確度，浮點數型別），其中

代表初始權重的初始範圍，

代表兩個相鄰的量化權重之間的距離。整體而言，量化程序用於將每個高精確度的浮點數型別的初始權重轉換為一個精確度較低的浮點數型別的量化權重。無論初始權重的初始範圍

為何，經過量化程序轉換後，輸出的數值都會位於固定範圍[-1,+1]中，因此可略過零點對齊的操作，進而節省硬體偏移項的硬體設計。本發明提出的量化程序可產生固定的量化區間

，得到一致的量化結果。依據本發明的量化程序產生的量化權重進行神經網路模型的訓練，不會受到權重分布的影響，在低量化位元數時也不受影響。

步驟P3是「訓練量化模型」，詳言之，處理器依據量化權重陣列執行神經網路模型的訓練程序。訓練程序可包括卷積運算以及全連接層的分類運算。實務上，以本發明提出的深度學習加速器執行步驟P3時，將包括下列步驟：以一處理單元矩陣依據該量化權重陣列及一輸入向量執行乘加運算以產生一輸出向量，該輸出向量具有多個輸出值；以一偵測器陣列偵測每一該些輸出值是否為零；以一讀出電路陣列讀取該輸出向量並輸出每一該些輸出值，其中當偵測器陣列偵測到該輸出值為零時，關閉該讀出電路陣列中對應於該輸出值的一讀取單元。

步驟P4是「輸出權重陣列」，詳言之，處理器在訓練程序中判斷一損失函數是否收斂，當此損失函數收斂時，處理器或深度學習加速器輸出訓練後的量化權重陣列。

下方表格一展示應用本發明或習知量化方式訓練出的神經網路模型，在採用不同的量化位元數時以及兩種輸入資料集Cifar-10、人類偵測（Human detect）時的預測準確率，其中一條隧道代表一個一位元的陣列，且此陣列的長度與通道（channel）的維度相同。

表格一

Cifar-10	習知（微調）	習知（未微調）	本發明
8w8a	76%	69%	70%
4w4a	67%	60%	70%
人類偵測	習知（微調）	習知（未微調）	本發明
8w8a	93%	92%	98%
4w4a	94%	83%	94%

由表格一可看出，本發明在低量化位元數時仍具有高預測準確率，其中，8w為8個位元數的權重，8a為 8個位元數的模型輸出值。

圖4是本發明一實施例的神經網路模型的權重簡化方法的流程圖，包括步驟S1~S6。

步驟S1是「決定神經網路模型的架構」，詳言之，根據神經網路模型的應用領域，使用者在此步驟S1可自行決定神經網路模型要採用的架構，此模型架構包括多種參數，如輸入層維度、量化位元數、卷積核大小、激勵函數的種類或其他用於初始化的超參數（Hyper-parameter）等。

步驟S2是「決定是否簡化權重」，若步驟S2的判斷結果為「是」，則執行步驟S3；若步驟S2的判斷結果為「否」，則執行步驟S5。

步驟S3是「在損失函數中加入正則化項」，步驟S4是「設定硬體約束（hardware constraint）」。請參考下方式一及式二：

E(W) = E _D(W)+ λ _sE _R(W) （式一）

其中E(W)是加入正則化項（Regularization term）的損失函數，E _D(W)是損失函數， E _R(W)是正則化項，λ _s代表正則化項E _R(W)的權重，λ _s愈大代表在E(W)收斂過程中正則化項E _R(W)變小的程度愈大。

E _R(W) =

（式二）

其中L代表卷積運算的總層數，l（小寫的L）代表當前的層數編號；M _l, K _l分別代表在第l層（小寫的L）的卷積運算時，特徵圖的總高度及總寬度，m _l, k _l分別代表當前運算時的高度及寬度；W ^(l)代表在第l層（小寫的L）的卷積運算時的權重，g代表範數（norm）。上述參數中的至少一者在硬體設計上可對應至步驟S1所述的模型架構以及步驟S4所述的硬體約束，例如依據卷積核的大小可調整正則化項E _R(W)中的M _l及K _l。換言之，步驟S4所述的硬體約束是用於指定硬體的設計條件，決定硬體約束之後才能實現式二。

為使讀者容易理解正則化項E _R(W)中各代號的意義，請參考圖5，其繪示了當卷積運算執行到第l層（小寫的L）時，權重的應用示意圖，其中權重的位元長度為N，w ₁, w ₂, …, w _N代表此權重的每個位元。如圖2所示，依據特徵圖的通道（channel）長度C _l，每個權重位元w ₁, w ₂, …, w _N各自構成一個長度為C _l的隧道（tunnel）。

在模型訓練的過程中，加入正則化項E _R(W)的損失函數會逐漸收斂，使得權重位元隧道中的多個權重值趨向於零，從而達到簡化權重的效果。換言之，加入正則化項E _R(W)的損失函數可增進模型的稀疏度（sparsity），但不會使模型的預測準確率下降。下方表格二展示採用原始損失函數的神經網路模型（簡稱原始模型）與採用含正則化項E _R(W)的損失函數的神經網路模型（簡稱簡化模型），在兩種輸入資料集Cifar-10、人類偵測下的準確率、稀疏度及隧道稀疏度（tunnel sparsity）

表格二

Cifar-10	準確率	稀疏度	隧道稀疏度
原始模型	0.69	1%	0%
簡化模型	0.68	54%	25%
人類偵測	準確率	稀疏度	隧道稀疏度
原始模型	0.98	1%	0%
簡化模型	0.91	70%	19%

在表格一中，稀疏度表示「零值的權重佔模型中所有權重所佔的比率」，稀疏度數值愈高代表愈多權重值為零。隧道稀疏度表示「隧道中的所有權重值皆為零的隧道佔所有隧道的比率」，因此，隧道稀疏度也表示在硬體端能有多少比率的計算能夠被省略。由表格一可看出，在維持一定準確率的同時，簡化模型可大幅提升稀疏度和隧道稀疏度，這有助於結構性的簡化硬體設計，並減少硬體功耗。後文將進一步說明本發明提出的深度學習加速器如何利用簡化模型達到軟硬體協同運作的效果。

總結步驟S3及S4：損失函數E(W)包括基本項E _D(W) 、關聯於正則化項E _R(W)的一權重λ _s及正則化項E _R(W)。基本項E _D(W)關聯於量化權重陣列，正則化項E _R(W)關聯於架構的多個參數及用於執行訓練過程的硬體架構中的硬體約束，正則化項E _R(W)用於增加訓練後的量化權重陣列中的稀疏度。在訓練程序中判斷損失函數E(W)是否收斂包括：依據基本項E _D(W)及正則化項E _R(W)的收斂幅度調整權重值λ _s。權重值λ _s的調整方法的一範例如下述：正則化項收斂幅度大，則減少權重值λ _s，正則化項收斂幅度小，則增加權重值λ _s。

請參考圖4，步驟S5是「執行量化訓練」。步驟S5基本上與圖1的步驟P3相同，在執行步驟S5之前，須先完成圖1的步驟P1及P2，對初始權重陣列執行量化程序以產生量化權重陣列。

步驟S6是「產生量化權重」，步驟S6基本上與圖1的步驟P4相同。在本發明提出的包含正則化項的損失函數收斂之後，量化權重陣列中的數值已被簡化。換言之，步驟S3提出的正則化項可增加訓練後的量化權重陣列中的稀疏度。

基於前文所述簡化的量化權重陣列，本發明提出一種深度學習加速器，請參考圖6，其為本發明一實施例的深度學習加速器的架構圖。如圖6所示，深度學習加速器20電性連接輸入編碼器10及輸出編碼器30。輸入編碼器10接收N維的輸入向量X=[X ₁X ₂… X _N]，輸出編碼器30用於輸出M維的輸出向量Y=[Y ₁Y ₂… Y _M]，本發明不限制M, N的數值大小。

深度學習加速器20包括處理單元矩陣22及讀出電路陣列24。

處理單元矩陣22包含N個位元線BL[1]~BL[N]，每一位元線BL電性連接M個處理單元PE，每一處理單元PE包括一記憶體及一乘加器（未繪示）。處理單元PE是一類比電路，其中乘加器是以可變電阻實現。每一位元線上BL的多個處理單元PE的多個記憶體用於儲存一量化權重陣列，量化權重陣列包括多個整數值型別的量化權重位元w _ij，其中1 ≤ i ≤ M且1 ≤ j ≤ N。

處理單元矩陣22用於接收輸入向量X，並依據輸入向量及量化權重陣列進行卷積運算以產生輸出向量。例如：位元線BL[1]上的多個記憶體儲存量化權重位元陣列[w ₁₁w ₂₁… w _M1]，且位元線BL[1]的計算方式為

。

讀出電路陣列24電性連接處理單元矩陣22，且包括多個位元線讀出電路26。每一位元線讀出電路26對應於每一位元線BL，且包括一結果偵測器261及結果讀出電路262。結果偵測器261用於偵測每一位元線BL的一輸出值是否為零，並關閉輸出值為零的位元線BL該結果讀出電路262。例如：當偵測器261偵測到位元線BL[1]上的電流值（或電壓值）為零時，則關閉位元線BL[1]對應的結果讀出電路262，因此，位元線BL[1]對應的位元線讀取電路26的輸出值也會是零，從而輸出向量中的Y ₁為零。

本發明提出的深度學習加速器20，在處理單元矩陣22的多個記憶體中儲存前文所述的簡化的量化權重陣列，由於此權重陣列中大部分的位元值為零，因此可透過結果偵測器提前得知位元線的計算結果，導致減少結果讀出電路262的功耗。

綜上所述，本發明提出一種神經網路模型的量化方法，這是一種硬體友善（Hardware-friendly）的量化方法，使用者可自行設定量化位元數。本發明更提出一種深度學習加速器，適用於簡化權重值的DNN模型。本發明在維持神經網路模型的準確率的前提下，以量化權重及輸出值的方式，減少硬體計算成本，並且加速硬體運算速度，以及增加硬體算上的容錯性。本發明提出的神經網路模型的量化方法及深度學習加速器採用軟硬體協同設計，具有下列特點： 1. 簡化量化流程，不須預先訓練量化模型； 2. 使用非線性公式固定量化區間，量化訓練具穩定性及準確性； 3. 允許使用者自行設定量化位元數，依據本發明產生的量化模型及其硬體可節省偏移項的硬體設計； 4. 協同硬體運算偵測器設計，加入結構性正規項，從硬體架構上簡化權重，在訓練過程中，將隧道（tunnel）中的多個權重值簡化為零，從而加速硬體計算速度； 5. 神經網路模型的訓練包含量化、簡化的過程都是在軟體端進行，訓練期間的權重為浮點數型態；訓練好的權重才會轉換為整數型態，交給硬體端運行作預測；以及 6.節省位元線運算的功耗與讀出電路陣列的功耗，因此可優化整體運算功耗。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

P1~P4,P21~P22,S1~S5:步驟

:初始權重

:量化權重

:初始權重範圍

:量化區間 10:輸入編碼器 20:深度學習加速器 22:處理單元矩陣 24:讀出電路陣列 26:位元線讀出電路 261:結果偵測器 262:結果讀出電路 30:輸出編碼器 PE:處理單元 w ₁₁,w ₁₂,…,w _MN:權重位元 M _l:特徵圖高度 K _l:特徵圖寬度 C _l:通道長度

圖1是依據本發明一實施例的神經網路模型的量化方法的流程圖；圖2是圖1中一步驟的細部流程圖；圖3是量化程序的轉換示意圖；圖4是依據本發明一實施例的神經網路模型的權重簡化方法的流程圖；圖5是權重位元組成的隧道（Tunnel）的示意圖；以及圖6依據本發明一實施例的深度學習加速器的架構圖。

w _fp:初始權重

:量化權重

±max(|x _fp|):初始權重範圍

:量化區間

Claims

一種神經網路模型的量化方法，包括：初始化一神經網路模型的一權重陣列，該權重陣列包括多個初始權重；依據該權重陣列執行一量化程序以產生一量化權重陣列，其中該量化權重陣列包括多個量化權重，且該些量化權重介於一固定範圍；依據該量化權重陣列執行該神經網路模型的一訓練程序；以及在該訓練程序中判斷一損失函數是否收斂，其中當該損失函數收斂時，輸出一訓練後量化權重陣列。
如請求項1所述方法，其中依據該權重陣列執行該量化程序以產生該量化權重陣列包括：將該些初始權重輸入至一轉換函數，以根據該轉換函數將該些初始權重的一初始範圍轉換為該固定範圍；以及將該轉換函數輸出的結果輸入至一量化函數以產生該些量化權重。
如請求項2所述方法，其中該轉換函數包括一非線性轉換公式，且該固定範圍為
。
如請求項3所述方法，其中該非線性轉換公式為雙曲正切函數（Hyperbolic tangent function）。
如請求項3所述方法，更包括：決定該神經網路模型的一架構，其中：該損失函數包括一基本項及一正則化（Regularization）項；該基本項關聯於該量化權重陣列；該正則化項關聯於該架構的多個參數及用於執行該訓練過程的硬體架構；且該正則化項用於增加該訓練後的量化權重陣列中的稀疏度（Sparsity）。
如請求項5所述方法，其中該損失函數更包括關聯於該正則化項的一權重值，且在該訓練程序中判斷該損失函數是否收斂包括：依據該基本項及該正則化項的收斂幅度調整該權重值。
如請求項1所述方法，其中依據該量化權重陣列執行該神經網路模型的訓練程序包括：以一處理單元矩陣依據該量化權重陣列及一輸入向量執行乘加運算以產生一輸出向量，該輸出向量具有多個輸出值；以多個結果讀出電路分別讀取該些輸出值；以多個結果偵測器分別偵測該些輸出值是否為零，並關閉該些結果讀出電路中輸出值為零的結果讀出電路，其中該些結果偵測器分別電性連接該些結果讀出電路。
一種深度學習加速器，包括：一處理單元矩陣，包含多個位元線，每一該些位元線分別電性連接多個處理單元，每一該些處理單元包括一記憶體及一乘加器，該些處理單元的該些記憶體用於儲存一量化權重陣列，該量化權重陣列包括多個量化權重；該處理單元矩陣用於接收一輸入向量，並依據該輸入向量及該量化權重陣列進行一卷積運算以產生一輸出向量；以及一讀出電路陣列，電性連接該處理單元矩陣，且包括多個位元線讀出電路；該些位元線讀出電路分別對應於該些位元線，每一該些位元線讀出電路包括一結果偵測器及一結果讀出電路，該些結果偵測器分別用於偵測該些位元線的輸出值是否為零，並關閉該些結果讀出電路中輸出值為零的結果讀出電路。