TWI722491B - 應用於神經網絡之四位元與八位元組合之分離式量化方法 - Google Patents
應用於神經網絡之四位元與八位元組合之分離式量化方法 Download PDFInfo
- Publication number
- TWI722491B TWI722491B TW108125092A TW108125092A TWI722491B TW I722491 B TWI722491 B TW I722491B TW 108125092 A TW108125092 A TW 108125092A TW 108125092 A TW108125092 A TW 108125092A TW I722491 B TWI722491 B TW I722491B
- Authority
- TW
- Taiwan
- Prior art keywords
- bit
- data set
- neural network
- parameters
- layer
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
- G06N7/04—Physical realisation
- G06N7/046—Implementation by means of a neural network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
本發明提供一種應用於神經網絡之四位元與八位元組合之分離式量化方法,其在訓練資料集和驗證資料集存在時,利用一校準方法(calibration)判斷類神經網路模型中每一層輸出(activation)之閥值,以決定將該輸出分配多少給八位元,且在進行參數量化時,將每一層之該等參數依一固定比例分為四位元參數和八位元參數,分別進行量化,以得到四位元參數及八位元參數分別量化、縮小尺寸之類神經網路模型。
Description
本發明係有關一種神經網路技術,特別是指一種應用於神經網絡之四位元與八位元組合之分離式量化方法。
人工神經網絡的核心為大量的乘加運算,造成其運行時需要大量的記憶體空間及運算資源。量化(quantization)技術可將參數由原本的32-bit浮點數(floating-point)轉換成較低位元的定點數(fixed-point),帶來模型尺寸的降低及運算效率的提升。一般而言量化過程會造成模型精準度的降低,常見的作法為對模型進行微調或再訓練以彌補精準度的損失。
具體而言,量化的過程常用卷積(convolution)及全連接層(fully-connected layer)皆是以乘加運算為基礎,目前標準的做法是將參數以32-bit浮點數的型別進行運算及儲存,如第1A圖,而為了加快運算速度及降低模型大小,常見的量化方法(亦即壓縮方法)可將參數轉換為8-bit定點數,如第1B圖,如此理想上運算可達四倍加速,且維持良好的精準度。若進一步量化為4-bit,如第1C圖所示,雖可進一步提升運算效率,但往往精準度會大幅下降,破壞訓練好的模型品質。因此,目前的量化技術大多將位元數保持在8-bit以上才能維持原本模型的精準度,若進一步將位元數降低至4-bit,則精準度會大幅下降,通常需要對模型微調或再度訓練才能稍微彌補精準度的損失,此過程不僅耗時且需龐大的運算資源投入。此外,很可能無法獲得預先訓練好的模型之訓練資料集(training dataset)及驗證資料集(validation dataset),如此一來即無法進行微調及再訓練。
因此,本發明即提出一種應用於神經網絡之四位元與八位元組合之分離式量化方法,有效解決上述該等問題,具體架構及其實施方式將詳述於下:
本發明之主要目的在提供一種應用於神經網絡之四位元與八位元組合之分離式量化方法,其將龐大的輸出及參數中大部分量化為四位元,剩餘少數參數量化為八位元,不但降低類神經網路模型的尺寸,同時維持或提升精準度。
本發明之另一目的在提供一種應用於神經網絡之四位元與八位元組合之分離式量化方法,其在訓練資料集和驗證資料集存在的情況下,利用事先校準及計算歐式距離得到每層輸出最合適的閥值,使參數在區分為四位元和八位元時不需先依數值大小進行排序,有效提升運算效率。
為達上述目的,本發明提供一種應用於神經網絡之四位元與八位元組合之分離式量化方法,包括下列步驟:輸入已訓練好之一類神經網路模型,並判斷是否存在至少一訓練資料集或至少一驗證資料集;若該訓練資料集或該驗證資料集存在,則利用一校準方法(calibration)判斷該類神經網路模型中每一層輸出(activation)之閥值,以決定將該輸出分配多少給八位元,剩餘的輸出分配給四位元,若該訓練資料集及該驗證資料集不存在,則該類神經網路模型中每一層之輸出均勻分配給四位元和八位元;進行該類神經網路模型中複數參數(weight)之量化,當該訓練資料集及該驗證資料集存在時,將每一層之該等參數依一固定比例分為四位元參數和八位元參數,分別進行量化,而當該訓練資料集及該驗證資料集不存在時,則將每一層之該等參數均勻量化成四位元參數和八位元參數;以及得到四位元參數及八位元參數分別量化之一優化類神經網路模型。
根據本發明之實施例,該校準方法包括下列步驟:從該驗證資料集或該訓練資料集中取一子集合做為一校準資料集;在該校準資料集上運行該類神經網路模型,運行一個批次後得到每一層輸出之一激活函數(activation function);以及針對該激活函數,每一層逐層利用一歐式距離(L2-distance)計算出該閥值。
承上,該歐式距離演算法更包括下列步驟:每一層各自嘗試1024種不同的複數第一閥值;分別計算每一該第一閥值對應量化前後之該歐式距離,選擇其中最小者做為該批次之一第二閥值;以及重複在該校準資料集上運行該類神經網路模型之步驟,當執行完所有批次、得到每一批次之該第二閥值後,從所有之該等第二閥值中選擇一中間值做為最終之該閥值。
根據本發明之實施例,將每一層之該等參數依一固定比例分為四位元和八位元並分別進行量化之步驟中更包括下列步驟:(a)利用該驗證資料集量測該類神經網路模型經量化後之精準度;以及(b)若該精準度在一預設範圍內,則將該類神經網路模型做為該優化類神經網路模型並輸出,若該精準度不在該預設範圍內,則判斷該訓練資料集是否存在,(c1)若該訓練資料集存在,則進行一再訓練,並回到步驟(a)重新量測該精準度,(c2)若該訓練資料集不存在,則將調整該固定比例並重新量化該等參數,重複步驟(a)重新量測該精準度。
本發明提供一種應用於神經網絡之四位元與八位元組合之分離式量化方法,原本類神經網路模型中大量的參數(weight)及每層輸出(activations)為32位元浮點數,轉換成較低位元的定點數之後,本發明進一步再將資料分為四位元和八位元並分別量化,大多數數值小的資料量化成四位元,剩餘少數數值大的資料則量化為八位元,如第2圖所示,如此一來可降低類神經網路模型之尺寸,並維持與常見的八位元量化相同的精準度,甚至可以更加精準。
本發明將原始的浮點數轉換為定點數,兩者為線性對應的關係,如下式(1):
Q = s (R - b)(1)
其中Q為量化後的定點整數,R為原始浮點數,b為偏移值(bias),偏移值通常可被忽略,s為比例倍數(scaling factor)。s由對應的量化範圍除以量化階層數(levels)減一決定,如下式(2):
s = real_range / (2^bitwidth - 1)(2)
例如四位元有2^4=16個階層數,八位元有2^8=256個階層數,本發明同時量化四位元和八位元,故總共會有16+256=272個階層數。
請參考第3圖,其為本發明應用於神經網絡之四位元與八位元組合之分離式量化方法之流程圖,首先處理每一層的輸出,由於有輸入才會有輸出(activations),故步驟S10中先輸入已訓練好之一類神經網路模型,特別是指一修正線性單元層(Rectified Linear Unit Layer, ReLU Layer)之輸出,利用其輸出大於或等於零的特性,將該輸出量化為無號數(unsigned number);在處理輸出的過程中,首先須在步驟S12判斷是否存在至少一訓練資料集或至少一驗證資料集;若訓練資料集及驗證資料集存在,則在步驟S14利用一校準方法(calibration)判斷類神經網路模型中每一層輸出之閥值,藉以決定將該輸出分配多少給八位元,剩餘的輸出分配給四位元;反之,若訓練資料集及驗證資料集不存在,則在步驟S16中,將類神經網路模型中每一層之輸出均勻量化,亦即將四位元和八位元共272個階層數均勻分配。
當處理完輸出的量化後,接著於步驟S18進行類神經網路模型中複數參數(weight)之量化,參數之量化係針對該類神經網路模型中之一卷積層(convolution layer)及一全連接層(fully-connected layer)之參數,同樣需先判斷訓練資料集及驗證資料集是否存在,如步驟S20所述,當訓練資料集及驗證資料集存在時,如步驟S22,將每一層之參數依一固定比例分為四位元參數和八位元參數,分別進行量化,此固定比例為每層參數中八位元所佔之比例通常由小開始,例如分配1%為八位元參數及99%為四位元參數開始分別量化,並逐漸漸少四位元參數所佔的比例以使精準度提高;而若步驟S20判斷訓練資料集及驗證資料集不存在時,則於步驟S24中將每一層之參數均勻量化成四位元參數和八位元參數;最終,於步驟S26可得到四位元參數及八位元參數分別量化之一優化類神經網路模型。特別的是,本發明中四位元參數和八位元參數係依據類神經網路模型之原始資料進行線性等比例壓縮。
上述步驟S14中利用校準方法判斷閥值之方法進一步如第4圖所示,其為本發明利用校準方法及歐式距離計算每一層之閥值之流程圖。步驟S30中先從驗證資料集或訓練資料集中取一子集合做為一校準資料集,通常先取驗證資料集的子集合,若沒有驗證資料集則取訓練資料集的子集合,此校準資料集必須多樣化且具代表性;接著步驟S32在校準資料集上運行一開始輸入之類神經網路模型,當運行一個批次後會得到每一層輸出之一激活函數(activation function),如步驟S34;接著針對此激活函數,每一層逐層利用一歐式距離(L2-distance)計算出該閥值,進一步而言,如步驟S36,每一層依據激活函數會各自嘗試1024種不同的複數第一閥值,如下式(3):
threshold_value
i=input
max*(i/1024)
(3)
由於1024個階層數相當於10位元所能表達的範圍,對絕大多數的神經網路而言是十分足夠的,因此嘗試1024種不同的第一閥值即可。
接著步驟S38分別計算此層中每一個第一閥值對應量化前後之歐式距離,選擇其中最小者做為該批次之一第二閥值,歐式距離之計算方法如下式(4):
(4)
其中
p 、 q為n維歐式空間中的兩點,n為候選之第二閥值的總量,由於步驟36中嘗試了1024種不同的第一閥值,故候選的第二閥值總量為1024個。
重複步驟S32~S38,當執行完所有批次並得到此層每一批次之第二閥值後,從所有之第二閥值中選擇一中間值做為此層最終之閥值,換言之也是對應歐式距離為中位數者,以避免極端值影響到整體的精準度。
而在第3圖步驟S22中還需量測量化後類神經網路模型的精準度,包括利用驗證資料集進行客觀量測、訓練模型需要訓練資料集做為輸入來提高精準度,因此如第5圖所示,其為本發明調整比例以量化參數之流程圖,更包括下列步驟:步驟S50利用驗證資料集對步驟S22中以固定比例量化參數之類神經網路模型進行量測,並在步驟S52判斷其精準度是否在一預設範圍,模型精準度損失可參數化設定,若無,則以1%的精準度損失為預設範圍;若精準度在預設範圍內,則如步驟S54所述將該類神經網路模型做為優化類神經網路模型並輸出,完成整個量化過程,反之,若精準度不在預設範圍內,則於步驟S56判斷訓練資料集是否存在,若訓練資料集存在,則步驟S58中對該類神經網路模型進行一再訓練(re-training),在一前向 (forward) 階段將每一層之參數按該固定比例分別進行量化,再於一後向(backward)階段將參數儲存為浮點數,並回到步驟S50量測再訓練後之精準度,若精準度仍不在預設範圍內,則需對該固定比例進行調整再進行訓練;但若步驟S52判斷精準度不在預設範圍內、且步驟S56判斷訓練資料集不存在,則回到步驟S22,調整該固定比例,選擇更大的比例重新量化參數,重複步驟(a)重新量測精準度。
第6A圖為應用本發明進行分離式量化時量化輸出之閥值示意圖,第6B圖為量化參數之參數分佈示意圖。當欲對一張圖片進行量化壓縮時,由第6A圖中為運行五批次之校準資料集所獲得之第二閥值,其中第二閥值對應量化前後之歐式距離,中位數落在值為5的候選閥值,以此閥值為最終的閥值,並利用此閥值去量化該層的輸出;接著進行參數量化,從第6B圖中可看出約從-0.25~0.25之間的波峰部分為四位元量化,而小於-0.25和大於0.25部分則為八位元量化,四位元量化之部分佔了95~97%,只有3~5%為八位元量化,進一步說明本發明將大部分資料量化為四位元,只有少數資料量化為八位元。
綜上所述,本發明所提出之應用於神經網絡之四位元與八位元組合之分離式量化方法係從八位元所佔比例小開始計算,慢慢增加八位元所佔的比例,因此可使大部分數值小的資料(包含輸出和參數)量化為四位元,只有剩餘少數數值大的資料量化為八位元,但精準度仍在預設範圍內,甚至比全部以八位元進行量化更加精準,降低類神經網路模型的尺寸;此外,本發明利用事先校準及計算歐式距離得到每層輸出最合適的閥值,使參數在區分為四位元和八位元時不需先依數值大小進行排序,有效提升運算效率。
唯以上所述者,僅為本發明之較佳實施例而已,並非用來限定本發明實施之範圍 。故即凡依本發明申請範圍所述之特徵及精神所為之均等變化或修飾,均應包括於本發明之申請專利範圍內。
無
第1A圖至第1C圖為先前技術中類神經網路模型之乘加運算之示意圖,其中第1A圖為傳統32位元之乘加運算,第1B圖為量化成八位元之乘加運算,第1C圖為量化成四位元之乘加運算。
第2圖為本發明應用於神經網絡之四位元與八位元組合之分離式量化之示意圖,將部分參數量化成八位元,剩餘參數則量化為四位元。
第3圖為本發明應用於神經網絡之四位元與八位元組合之分離式量化方法之流程圖。
第4圖為本發明利用校準方法及歐式距離計算每一層之閥值之流程圖。
第5圖為本發明調整比例以量化參數之流程圖。
第6A圖為應用本發明進行分離式量化時量化輸出之閥值示意圖。
第6B圖為應用本發明進行分離式量化時量化參數之參數分佈示意圖。
Claims (9)
- 一種應用於神經網絡之四位元與八位元組合之分離式量化方法,包括下列步驟: 輸入已訓練好之一類神經網路模型,並判斷是否存在至少一訓練資料集及至少一驗證資料集; 若該訓練資料集或該驗證資料集存在,則利用一校準方法(calibration)判斷該類神經網路模型中每一層輸出(activation)之閥值,以決定將該輸出分配多少給八位元,剩餘的輸出分配給四位元,若該訓練資料集及該驗證資料集不存在,則該類神經網路模型中每一層之輸出均勻分配給四位元和八位元; 進行該類神經網路模型中複數參數(weight)之量化,當該訓練資料集及該驗證資料集存在時,將每一層之該等參數依一固定比例分為四位元參數和八位元參數,分別進行量化,而當該訓練資料集及該驗證資料集不存在時,則將每一層之該等參數均勻量化成四位元參數和八位元參數;以及 得到四位元參數及八位元參數分別量化之一優化類神經網路模型。
- 如請求項1所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該校準方法包括下列步驟: 從該驗證資料集或該訓練資料集中取一子集合做為一校準資料集; 在該校準資料集上運行該類神經網路模型,運行一個批次後得到每一層輸出之一激活函數(activation function);以及 針對該激活函數,每一層逐層利用一歐式距離(L2-distance)計算出該閥值。
- 如請求項2所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該歐式距離演算法更包括下列步驟: 每一層各自嘗試1024種不同的複數第一閥值; 分別計算每一該第一閥值對應量化前後之該歐式距離,選擇其中最小者做為該批次之一第二閥值;以及 重複在該校準資料集上運行該類神經網路模型之步驟,當執行完所有批次、得到每一批次之該第二閥值後,從所有之該等第二閥值中選擇對應量化前後之該歐式距離為中間值者,做為最終之該閥值。
- 如請求項1或2或3所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該每一層之輸出係為一修正線性單元層(Rectified Linear Unit Layer, ReLU Layer)之輸出,以將該輸出量化為無號數(unsigned number)。
- 如請求項1所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中當該訓練資料集及該驗證資料集存在,將每一層之該等參數依一固定比例分為四位元參數和八位元參數,分別進行量化之步驟後,更包括下列步驟: (a)利用該驗證資料集量測該類神經網路模型經量化後之精準度;以及 (b)若該精準度在一預設範圍內,則將該類神經網路模型做為該優化類神經網路模型並輸出,若該精準度不在該預設範圍內,則判斷該訓練資料集是否存在,(c1)若該訓練資料集存在,則進行一再訓練,並回到步驟(a)重新量測該精準度,(c2)若該訓練資料集不存在,則將調整該固定比例並重新量化該等參數,重複步驟(a)重新量測該精準度。
- 如請求項5所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該步驟(c1)之再訓練步驟係在一前向 (forward) 階段將每一層之該等參數按該固定比例分別進行量化,再於一後向(backward)階段將該等參數儲存為浮點數。
- 如請求項5所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該固定比例係從分配1%為八位元參數及99%為四位元參數開始分別量化,並逐漸漸少四位元參數所佔的比例以使該精準度提高。
- 如請求項5所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該四位元參數和八位元參數係依據該類神經網路模型之原始資料進行線性等比例壓縮。
- 如請求項5所述之應用於神經網絡之四位元與八位元組合之分離式量化方法,其中該等參數之量化係針對該類神經網路模型中之一卷積層(convolution layer)及一全連接層(fully-connected layer)之參數。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108125092A TWI722491B (zh) | 2019-07-16 | 2019-07-16 | 應用於神經網絡之四位元與八位元組合之分離式量化方法 |
US16/585,492 US11531884B2 (en) | 2019-07-16 | 2019-09-27 | Separate quantization method of forming combination of 4-bit and 8-bit data of neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108125092A TWI722491B (zh) | 2019-07-16 | 2019-07-16 | 應用於神經網絡之四位元與八位元組合之分離式量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202105263A TW202105263A (zh) | 2021-02-01 |
TWI722491B true TWI722491B (zh) | 2021-03-21 |
Family
ID=74344006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108125092A TWI722491B (zh) | 2019-07-16 | 2019-07-16 | 應用於神經網絡之四位元與八位元組合之分離式量化方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11531884B2 (zh) |
TW (1) | TWI722491B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210045225A (ko) * | 2019-10-16 | 2021-04-26 | 삼성전자주식회사 | 뉴럴 네트워크에서 연산을 수행하는 방법 및 장치 |
US11861467B2 (en) * | 2020-03-05 | 2024-01-02 | Qualcomm Incorporated | Adaptive quantization for execution of machine learning models |
CN114418086B (zh) * | 2021-12-02 | 2023-02-28 | 北京百度网讯科技有限公司 | 压缩神经网络模型的方法、装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019056946A1 (zh) * | 2017-09-21 | 2019-03-28 | 杭州海康威视数字技术股份有限公司 | 一种基于深度神经网络的激活量量化方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229356B1 (en) * | 2014-12-23 | 2019-03-12 | Amazon Technologies, Inc. | Error tolerant neural network model compression |
US10621486B2 (en) * | 2016-08-12 | 2020-04-14 | Beijing Deephi Intelligent Technology Co., Ltd. | Method for optimizing an artificial neural network (ANN) |
US10817587B2 (en) * | 2017-02-28 | 2020-10-27 | Texas Instruments Incorporated | Reconfigurable matrix multiplier system and method |
CN107451659B (zh) | 2017-07-27 | 2020-04-10 | 清华大学 | 用于位宽分区的神经网络加速器及其实现方法 |
WO2019033380A1 (en) * | 2017-08-18 | 2019-02-21 | Intel Corporation | SLURRY OF NEURAL NETWORKS IN MACHINE LEARNING ENVIRONMENTS |
US11531727B1 (en) * | 2018-04-20 | 2022-12-20 | Perceive Corporation | Computation of neural network node with large input values |
-
2019
- 2019-07-16 TW TW108125092A patent/TWI722491B/zh active
- 2019-09-27 US US16/585,492 patent/US11531884B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019056946A1 (zh) * | 2017-09-21 | 2019-03-28 | 杭州海康威视数字技术股份有限公司 | 一种基于深度神经网络的激活量量化方法及装置 |
Non-Patent Citations (4)
Title |
---|
Darryl D. Lin、Sachin S. Talathi、V. Sreekanth Annapureddy,"Fixed Point Quantization of Deep Convolutional Networks",Proceedings of the 33rd International Conference on Machine Learning, New York, NY, USA, 2016. JMLR: W&CP volume 48,2016/06/02 * |
Darryl D. Lin、Sachin S. Talathi、V. Sreekanth Annapureddy,"Fixed Point Quantization of Deep Convolutional Networks",Proceedings of the 33rd International Conference on Machine Learning, New York, NY, USA, 2016. JMLR: W&CP volume 48,2016/06/02。 |
黎明灰燼,"神經網絡量化簡介",2019/05/01,https://jackwish.net/2019/neural-network-quantization-introduction-chn.html * |
黎明灰燼,"神經網絡量化簡介",2019/05/01,https://jackwish.net/2019/neural-network-quantization-introduction-chn.html。 |
Also Published As
Publication number | Publication date |
---|---|
TW202105263A (zh) | 2021-02-01 |
US11531884B2 (en) | 2022-12-20 |
US20210019616A1 (en) | 2021-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI722491B (zh) | 應用於神經網絡之四位元與八位元組合之分離式量化方法 | |
US20210256348A1 (en) | Automated methods for conversions to a lower precision data format | |
CN110555508B (zh) | 人工神经网络调整方法和装置 | |
CN110969251B (zh) | 基于无标签数据的神经网络模型量化方法及装置 | |
WO2020238237A1 (zh) | 一种基于幂指数量化的神经网络压缩方法 | |
TW202001700A (zh) | 影像的量化方法、神經網路的訓練方法及神經網路訓練系統 | |
CN111489364A (zh) | 基于轻量级全卷积神经网络的医学图像分割方法 | |
JP6517924B2 (ja) | 線形予測符号化装置、方法、プログラム及び記録媒体 | |
CN115952832A (zh) | 自适应模型量化方法及装置、存储介质及电子装置 | |
US20230385645A1 (en) | Method for automatic hybrid quantization of deep artificial neural networks | |
JP2010509647A (ja) | ベクトル量子化方法および装置 | |
TWI820846B (zh) | 確定用於混合精度神經網路計算的位寬的方法以及系統 | |
CN115049055B (zh) | 基于动态双可训练界限的超分神经网络的量化方法 | |
CN117348837A (zh) | 浮点精度模型的量化方法、装置、电子设备以及存储介质 | |
CN117973480A (zh) | 校准神经网络量化的方法、装置、设备、介质和程序产品 | |
CN113177627B (zh) | 优化系统、重新训练系统及其方法及处理器和可读介质 | |
CN115983320A (zh) | 一种基于深度强化学习的联邦学习模型参数量化方法 | |
KR102409476B1 (ko) | 인공 신경망을 위한 양자화기 및 이의 손실 역전파 방법 | |
KR102243119B1 (ko) | 가변 정밀도 양자화 장치 및 방법 | |
TWI819627B (zh) | 用於深度學習網路的優化方法、運算裝置及電腦可讀取媒體 | |
CN117792404B (zh) | 一种用于铝合金压铸零件的数据管理方法 | |
WO2024060727A1 (zh) | 神经网络模型的训练方法、装置、设备及系统 | |
CN117151185A (zh) | 一种基于联合优化的深度神经网络自适应量化方法及系统 | |
Liu et al. | LLMEasyQuant--An Easy to Use Toolkit for LLM Quantization | |
CN118095371A (zh) | 一种基于低秩字典的大模型量化算法 |