TWI819645B

TWI819645B - 更新神經網路模型的方法和電子裝置

Info

Publication number: TWI819645B
Application number: TW111121235A
Authority: TW
Inventors: 林盈禎; 李坤翰
Original assignee: 緯創資通股份有限公司
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2023-10-21
Also published as: TW202349272A; CN117273088A; US20230401421A1

Abstract

本發明提出一種更新神經網路模型的方法和電子裝置。方法包含以下步驟。接收神經網路模型，其中神經網路模型包括第一神經元以及第二神經元。將訓練資料輸入至第一神經元以由第二神經元輸出第一預測值。量化第一神經元的第一權重以產生第三神經元，並且量化第二神經元的第二權重以產生與第三神經元連接的第四神經元。將訓練資料輸入至第三神經元以由第四神經元輸出第二預測值。根據第一預測值和第二預測值更新第一神經元的第一激勵函數以及第二神經元的第二激勵函數，藉以產生經更新的神經網路模型。輸出經更新的神經網路模型。

Description

更新神經網路模型的方法和電子裝置

本發明是有關於一種人工智慧技術，且特別是有關於一種更新神經網路模型的方法和電子裝置。

目前，市面上已經出現能協助使用者自行開發客製化之神經網路模型的產品。然而，這些產品僅著重於利用啟發式方法(heuristic method)產生具有較佳效能的神經網路模型，而忽略了如何有效降低神經網路模型之複雜度的問題。因此，產生的神經網路模型往往僅能在具有高運算力的裝置上運作。在運算能力有限的情況下(例如：使用邊緣運算裝置運行人工智慧模型)，神經網路模型可能無法順利運算或神經網路模型的效能可能降低。

然而，若利用傳統的量化方法來量化神經網路模型以降低模型複雜度，則經量化的神經網路模型的效能可能會因逐層(例如：神經網路模型的卷積層)累積的量化誤差而降低。

本發明提供一種更新神經網路模型的方法和電子裝置，可通過對神經網路模型的神經元的權重進行量化以產生新神經元，可為神經網路模型進行模型降階(model order-reduction)。

本發明的一種更新神經網路模型的電子裝置，包含收發器以及處理器。收發器用以接收神經網路模型以及訓練資料，其中神經網路模型包含第一神經元以及與第一神經元連接的第二神經元。處理器耦接收發器，其中處理器經配置以執行下列步驟：將訓練資料輸入至第一神經元以由第二神經元輸出第一預測值。量化第一神經元的第一權重以產生第三神經元，並且量化第二神經元的第二權重以產生與第三神經元連接的第四神經元。將訓練資料輸入至第三神經元以由第四神經元輸出第二預測值。根據第一預測值和第二預測值更新第一神經元的第一激勵函數以及第二神經元的第二激勵函數，以產生經更新的神經網路模型，其中收發器用以輸出經更新的神經網路模型。

本發明的一種更新神經網路模型的方法，用於具有收發器及處理器的電子裝置，包含：通過收發器接收神經網路模型以及訓練資料，其中神經網路模型包含第一神經元以及與第一神經元連接的第二神經元；通過處理器將訓練資料輸入至第一神經元以由第二神經元輸出第一預測值；量化第一神經元的第一權重以產生第三神經元，並且量化第二神經元的第二權重以產生與第三神經元連接的第四神經元；將訓練資料輸入至第三神經元以由第四神經元輸出第二預測值；根據第一預測值和第二預測值更新第一神經元的第一激勵函數以及第二神經元的第二激勵函數，以產生經更新的神經網路模型；以及輸出經更新的神經網路模型。

基於上述，本發明的電子裝置可在維持神經網路模型之效能的情況下，達到模型降階的目的。

100:電子裝置

110:處理器

120:儲存媒體

130:收發器

200:神經網路模型

310、320、330、340:神經元

400:資料類型格式

401:最高有效i位元

402:最低有效j位元

F、G:激勵函數

S1:資料

S2、S3、S4、S5:預測值

S201、S202、S203、S204、S205、S206、S207、S208、S209、S210、S211、S212、S501、S502、S503、S504、S505、S506:步驟

S6:經量化的預測值

W1、W2、W3、W4:權重

圖1根據本發明的一實施例繪示一種電子裝置的示意圖。

圖2根據本發明的一實施例繪示更新神經網路模型的方法的流程圖。

圖3根據本發明的一實施例繪示原始神經元以及新神經元的示意圖。

圖4根據本發明的一實施例繪示量化預測值S5的資料類型格式的示意圖。

圖5根據本發明的一實施例繪示一種更新神經網路模型的方法的流程圖。

為了使本發明之內容可以被更容易明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，係代表相同或類似部件。

圖1根據本發明的一實施例繪示一種電子裝置100的示意圖，其中電子裝置100可用以更新神經網路模型，藉以降低神經網路模型的複雜度。電子裝置100可包含處理器110、儲存媒體120以及收發器130。

處理器110例如是中央處理單元(central processing unit，CPU)，或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit，MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor，DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit，ASIC)、圖形處理器(graphics processing unit，GPU)、影像訊號處理器(image signal processor，ISP)、影像處理單元(image processing unit，IPU)、算數邏輯單元(arithmetic logic unit，ALU)、複雜可程式邏輯裝置(complex programmable logic device，CPLD)、現場可程式化邏輯閘陣列(field programmable gate array，FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130，並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。

儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive，HDD)、固態硬碟(solid state drive，SSD)或類似元件或上述元件的組合，而用於儲存可由處理器110執行的多個模組或各種應用程式。在一實施例中，儲存媒體120可儲存收發器130所接收到的待更新的神經網路模型200。

收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。

圖2根據本發明的一實施例繪示更新神經網路模型的方法的流程圖，其中方法可由如圖1所示的電子裝置100實施。在步驟S201中，處理器110可通過收發器130接收待更新的神經網路模型200以及一或多筆訓練資料。處理器110可將神經網路模型200或訓練資料儲存在儲存媒體120中。

神經網路模型200至少包含兩個神經元，其中每一個神經元具有相對應的權重以及激勵函數。圖3根據本發明的一實施例繪示原始神經元以及新神經元的示意圖。請參考圖2和圖3，在一實施例中，神經網路模型200至少包含神經元310和神經元320等原始神經元，其中神經元310的權重為W1且激勵函數為F，並且神經元320的權重為W2且激勵函數為G。神經元320可以是神經元310的下游神經元。換句話說，神經元320的輸入端可與神經元310的輸出端連接。

在步驟S202中，處理器110可將資料S1輸入至神經元310以輸出預測值S2。更具體來說，處理器110可將資料S1與權重W1的乘積輸入至神經元310的激勵函數F以輸出作為預測值S2的激勵函數值，其中資料S1例如是由收發器130接收到的訓練資料或由神經元310的上游神經元輸出的預測值，其中上游神經元的輸出端可與神經元310的輸入端連接。

在一實施例中，激勵函數F可以是分段函數(piecewise function)。方程式(1)為激勵函數F的範例，但本發明並不限於此。

在步驟S203中，處理器110可將預測值S2輸入至神經元320以輸出預測值S3(或稱為「第一預測值」)。更具體來說，處理器110可將預測值S2與權重W2的乘積輸入至神經元320的激勵函數G以輸出作為預測值S3的激勵函數值。

在一實施例中，激勵函數G可以是分段函數。方程式(2)為激勵函數G的範例，但本發明並不限於此。

在步驟S204中，處理器110可量化神經元310的權重W1以產生神經元330，其中神經元330的權重W3即為經量化的權重W1，且神經元330的激勵函數與神經元310的激勵函數F相同。舉例來說，權重W1可對應於例如FP 32的浮點數格式。處理器110可將權重W1的浮點數格式量化為例如FP 16的浮點數格式，或將權重W1的浮點數格式量化為例如Int 8或Int 4的整數格式，藉以產生權重W3。

在產生神經元330後，處理器110可將資料S1輸入至神經元330以輸出預測值S4。更具體來說，處理器110可將資料S1與權重W3的乘積輸入至神經元330的激勵函數F以輸出作為預測值S4的激勵函數值。

在步驟S205中，處理器110可量化神經元320的權重W2以產生神經元340。在一實施例中，神經元340的輸入端可與神經元330的輸出端連接。神經元330或神經元340等不存在於原始的神經網路模型200的神經元可稱為新神經元。神經元340的權重W4即為經量化的W2，且神經元340的激勵函數與神經元320的激勵函數G相同。舉例來說，權重W2可對應於例如FP 32的浮點數格式。處理器110可將權重W2的浮點數格式量化為例如FP 16的浮點數格式，或將權重W2的浮點數格式量化為例如Int 8或Int 4的整數格式，藉以產生權重W4。

在產生神經元340後，處理器110可將預測值S4輸入至神經元330以輸出預測值S5。更具體來說，處理器110可將預測值S4與權重W4的乘積輸入至神經元340的激勵函數G以輸出作為預測值S5的激勵函數值。

在步驟S206中，處理器110可量化預測值S5以產生經量化的預測值S6。圖4根據本發明的一實施例繪示量化預測值S5的資料類型(data type)格式400的示意圖。處理器110可刪除預測值S5的資料類型格式400中的至少一位元以產生經量化的預測值S6，其中至少一位元可包含最高有效位元(most significant bit)及/或最低有效位元(least significant bit)。舉例來說，處理器110可刪除預測值S5的資料類型格式400中的最高有效i位元(most significant i-bits)401與最低有效j位元(least significant j-bits) 402以產生經量化的預測值S6，其中i或j為正整數。最高有效i位元401可包含最高有效位元，並且最低有效j位元可包含最低有效位元。

回到圖2，在步驟S207中，處理器110可決定是否停止對神經元310和神經元320的更新。若處理器110決定停止對神經元310或神經元320的更新，則進入步驟S209。若處理器110決定不停止對神經元310或神經元320的更新，則進入步驟S208。

在一實施例中，處理器110可根據迭代次數決定是否停止對神經元310或神經元320的更新。具體來說，儲存媒體120可預存計數值和迭代次數閾值，其中計數值的初始值可為0。當進入步驟S207時，處理器110可增加計數值(例如：將計數值加1)。接著，處理器110可判斷計數值是否大於迭代次數閾值。若計數值大於迭代次數閾值，則處理器110可決定停止對神經元310或神經元320的更新。若計數值小於或等於迭代次數閾值，則處理器110可決定不停止對神經元310或神經元320的更新。

在一實施例中，儲存媒體120可預存差值閾值。處理器110可根據預測值S3和經量化的預測值S6的差值決定是否停止對神經元310或神經元320的更新。若預測值S3和經量化的預測值S6的差值小於差值閾值，則處理器110可決定停止對神經元310或神經元320的更新。若預測值S3和經量化的預測值S6的差值大於或等於差值閾值，則處理器110可決定不停止對神經元310或神經元320的更新。

在步驟S208中，處理器110可根據預測值S3和經量化的預測值S6更新神經元310和神經元320，藉以更新神經網路模型200。

在一實施例中，處理器110可根據梯度下降法(gradient descent)來更新神經元310的激勵函數F或神經元320的激勵函數G，藉以更新神經網路模型200，其中梯度下降法所使用的梯度可由處理器110根據預測值S3和經量化的預測值S6推導。

在一實施例中，處理器110可根據方程式(3)來更新神經元310的權重W1，藉以更新神經網路模型200，其中W1’為經更新的權重W1。

在一實施例中，處理器110可根據方程式(4)來更新神經元320的權重W2，藉以更新神經網路模型200，其中W2’為經更新的權重W2。

在步驟S209中，處理器110可計算預測值S3與經量化的預測值S6之間的差值，並判斷差值是否小於預存在儲存媒體120中的差值閾值。若差值小於差值閾值，則進入步驟S210。若差值大於或等於差值閾值，則進入步驟S211。值得注意的是，在步驟S209描述的差值閾值可與在步驟S207描述的差值閾值相同或相異。

預測值S3與經量化的預測值S6之間的差值小於差值閾值，代表神經元330或神經元340輸出的預測值是可信任的。因此，在步驟S210中，處理器110可利用神經元340的輸出(而非神經元320的輸出)來訓練神經元320的下游神經元(即：輸入端與神經元320的輸出端連接的神經元)。處理器110可根據與圖2相同的流程來訓練下游神經元，藉以更新神經網路模型200。

在步驟S211中，處理器110可利用神經元320的輸出來訓練神經元320的下游神經元。處理器110可根據與圖2相同的流程來訓練下游神經元，藉以更新神經網路模型200。相較於神經元320權重W2或神經元310的權重W1，神經元340的權重W4或神經元330的權重W3是經過量化的。因此，相較於利用神經元320的輸出來訓練下游神經元，利用神經元340的輸出來訓練下游神經元可顯著地降低電子裝置100的運算負擔。

在步驟S212中，處理器110可通過收發器130輸出經更新的神經網路模型200。相較於原始的神經網路模型200，經更新的神經網路模型200具有較低的複雜度且較適用於運算能力有限的裝置。

在一實施例中，處理器110所輸出的經更新的神經網路模型200可僅包含經更新的原始神經元(例如：神經元310或神經元320)而不包含新神經元(例如：神經元330或神經元340)。

圖5根據本發明的一實施例繪示一種更新神經網路模型的方法的流程圖，其中方法可由如圖1所示的電子裝置100實施。在步驟S501中，通過收發器接收神經網路模型以及訓練資料，其中神經網路模型包括第一神經元以及與第一神經元連接的第二神經元。在步驟S502中，將訓練資料輸入至第一神經元以由第二神經元輸出第一預測值。在步驟S503中，量化第一神經元的第一權重以產生第三神經元，並且量化第二神經元的第二權重以產生與第三神經元連接的第四神經元。在步驟S504中，通過處理器將訓練資料輸入至第三神經元以由第四神經元輸出第二預測值。在步驟S505中，根據第一預測值和第二預測值更新第一神經元的第一激勵函數以及第二神經元的第二激勵函數，藉以產生經更新的神經網路模型。在步驟S506中，輸出經更新的神經網路模型。

綜上所述，本發明的電子裝置可通過對神經網路模型的神經元的權重進行量化以產生新神經元。原始神經元和新神經元對訓練資料的預測結果可用以動態地更新神經元的激勵函數或權重，進而在權重被量化的情況下改善各個神經元之效能。若新神經元之效能符合預期，神經網路模型可使用新神經元的輸出來訓練下游神經元，進而完成神經網路模型的更新。據此，電子裝置可在維持神經網路模型之效能的情況下，達到模型降階的目的。

S501、S502、S503、S504、S505、S506:步驟

Claims

一種更新神經網路模型的電子裝置，包括：一收發器，用以接收該神經網路模型以及一訓練資料，其中該神經網路模型包括一第一神經元以及與該第一神經元連接的一第二神經元；以及一處理器，耦接該收發器，其中該處理器經配置以執行：將該訓練資料輸入至該第一神經元以由該第二神經元輸出一第一預測值；量化該第一神經元的一第一權重以產生一第三神經元，並且量化該第二神經元的一第二權重以產生與該第三神經元連接的一第四神經元；將該訓練資料輸入至該第三神經元以由該第四神經元輸出一第二預測值；以及根據該第一預測值和該第二預測值更新該第一神經元的一第一激勵函數以及該第二神經元的一第二激勵函數，以產生經更新的該神經網路模型，其中，該收發器用以輸出經更新的該神經網路模型。
如請求項1所述的電子裝置，其中該處理器更經配置以執行：刪除該第二預測值的一位元以產生經量化的該第二預測值；以及根據該第一預測值以及經量化的該第二預測值更新該第一激勵函數以及該第二激勵函數。
如請求項2所述的電子裝置，其中該位元包括一最高有效位元和一最低有效位元的至少其中之一。
如請求項1所述的電子裝置，其中該處理器更經配置以執行：刪除該第二預測值的一位元以產生經量化的該第二預測值；計算該第一預測值與經量化的該第二預測值之間的一差值；以及響應於該差值小於一閾值，利用該第四神經元的輸出訓練該第二神經元的一下游神經元。
如請求項4所述的電子裝置，其中該處理器更經配置以執行：響應於該差值大於或等於該閾值，利用該第二神經元的輸出訓練該下游神經元。
如請求項1所述的電子裝置，其中該第一權重對應於一第一浮點數格式，其中經量化的該第一權重對應於下列的其中之一：一第二浮點數格式以及一整數格式。
如請求項1所述的電子裝置，其中該第一激勵函數為一分段函數。
如請求項1所述的電子裝置，更包括：一儲存媒體，耦接該處理器，用以儲存該神經網路模型。
如請求項1所述的電子裝置，更包括：一儲存媒體，耦接該處理器，用以儲存一迭代次數閾值，其中該處理器根據該迭代次數閾值決定是否停止更新該神經網路模型。
一種更新神經網路模型的方法，用於具有一收發器及一處理器的一電子裝置，包括：通過該收發器接收該神經網路模型以及一訓練資料，其中該神經網路模型包括一第一神經元以及與該第一神經元連接的一第二神經元；通過該處理器將該訓練資料輸入至該第一神經元以由該第二神經元輸出一第一預測值；量化該第一神經元的一第一權重以產生一第三神經元，並且量化該第二神經元的一第二權重以產生與該第三神經元連接的一第四神經元；將該訓練資料輸入至該第三神經元以由該第四神經元輸出一第二預測值；根據該第一預測值和該第二預測值更新該第一神經元的一第一激勵函數以及該第二神經元的一第二激勵函數，以產生經更新的該神經網路模型；以及輸出經更新的該神經網路模型。
如請求項10所述的方法，其中根據該第一預測值和該第二預測值更新該第一神經元的該第一激勵函數以及該第二神經元的該第二激勵函數的步驟包括：刪除該第二預測值的一位元以產生經量化的該第二預測值；以及根據該第一預測值以及經量化的該第二預測值更新該第一激勵函數以及該第二激勵函數。
如請求項11所述的方法，其中該位元包括一最高有效位元和一最低有效位元的至少其中之一。
如請求項10所述的方法，更包括：刪除該第二預測值的一位元以產生經量化的該第二預測值；計算該第一預測值與經量化的該第二預測值之間的一差值；以及響應於該差值小於一閾值，利用該第四神經元的輸出訓練該第二神經元的一下游神經元。
如請求項13所述的方法，更包括：響應於該差值大於或等於該閾值，利用該第二神經元的輸出訓練該下游神經元。
如請求項10所述的方法，其中該第一權重對應於一第一浮點數格式，其中經量化的該第一權重對應於下列的其中之一：一第二浮點數格式以及一整數格式。
如請求項10所述的方法，其中該第一激勵函數為一分段函數。
如請求項10所述的方法，其中該電子裝置更包括一儲存媒體，其中該儲存媒體儲存該神經網路模型。
如請求項10所述的方法，其中該電子裝置更包括一儲存媒體，其中該儲存媒體儲存一迭代次數閾值，其中該處理器根據該迭代次數閾值決定是否停止更新該神經網路模型。