TWI732467B - 訓練稀疏連接神經網路的方法 - Google Patents

訓練稀疏連接神經網路的方法 Download PDF

Info

Publication number
TWI732467B
TWI732467B TW109105971A TW109105971A TWI732467B TW I732467 B TWI732467 B TW I732467B TW 109105971 A TW109105971 A TW 109105971A TW 109105971 A TW109105971 A TW 109105971A TW I732467 B TWI732467 B TW I732467B
Authority
TW
Taiwan
Prior art keywords
connectivity
weight
variable
variables
mask
Prior art date
Application number
TW109105971A
Other languages
English (en)
Other versions
TW202044125A (zh
Inventor
唐志敏
謝必克
朱逸煜
Original Assignee
耐能智慧股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 耐能智慧股份有限公司 filed Critical 耐能智慧股份有限公司
Publication of TW202044125A publication Critical patent/TW202044125A/zh
Application granted granted Critical
Publication of TWI732467B publication Critical patent/TWI732467B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

一種訓練稀疏連接的神經網路的方法,包括在訓練神經網路的時將權重分解為權重變數和二元遮罩的乘積,二元遮罩是遮罩變數通過單位元階梯函數得到。二元遮罩中的元素代表對應位置的權重是否有連接,0代表沒有連接,1代表有連接。如果二元遮罩大部分的元素為0,那麼訓練得到的就是稀疏的連接的神經網路。將權重具有連接的數量,也就是二元遮罩裡面元素為1的數量,作為目標函數中的一項。訓練時,根據目標函數調整權重變數及遮罩變數即會逐漸衰減遮罩變數的值,藉以保證二元遮罩的稀疏性。

Description

訓練稀疏連接神經網路的方法
本發明關於人工神經網路,特別是用於訓練稀疏連接的神經網路。
人工神經網路是一種包含設置成多層之多個處理單元的網路。一般的神經網路訓練方法訓練得到的神經網路往往是稠密連接的(densely connected),也就是所有的權重都是非0的。然而,這種網路結構通常較為複雜,需要大量的記憶體資源和功耗,且通常有過度擬合(overfitting)的問題。使用剪枝(pruning)的方式也能得到的權重稀疏的神經網路。剪枝是將絕對值小的權重置為0,但是權重的絕對值的大小並不能代表連接的重要性,所以很難得到最優的連接方式。
本發明實施例提供一種訓練稀疏連接的神經網路的方法。具體做法是:在訓練神經網路的時候將權重分解為權重變數和二元遮罩(0/1)的乘積,二元遮罩是遮罩變數通過一個單位元階梯函數得到。二元遮罩中的元素就代表了對應位置的權重是否有連接,0代表沒有連接,1代表有連接。如果二元遮罩大部分的元素為0,那麼訓練得到的就是一個稀疏的連接的神經網路。我們把權重具有連接的數量,也就是二元遮罩裡面元素為1的數量,作為目標函數中的一項。訓練的過程是根據目標函數去調整權重變數及遮罩變數。在訓練的時候會逐漸衰減遮罩變數的值,這樣就可以保證二元遮罩是稀疏的。因為遮罩變數是由目標函數決定的,所以只有少數重要的權重對應的二元遮罩元素是1。
第1圖係為本發明實施例中一種人工神經網路1的計算圖。人工神經網路1表示的是全連接神經網路(fully connected neural network),本發明適用於卷積神經網路(convolutional neural network)等各種不同類型的神經網路。人工神經網路1可響應輸入資料
Figure 02_image001
Figure 02_image003
而產生輸出估計值
Figure 02_image005
Figure 02_image007
。輸入資料
Figure 02_image001
Figure 02_image003
可為電流準位、電壓準位、實數訊號、複數(complex)訊號、類比訊號或數位訊號。舉例而言,輸入資料
Figure 02_image001
Figure 02_image003
可為影像畫素之灰階值,及可由輸入裝置,例如行動電話、平板電腦或數位相機獲得。輸出估計值
Figure 02_image005
Figure 02_image007
可表示人工神經網路1之多種分類結果的機率。舉例而言,輸出估計值
Figure 02_image005
Figure 02_image007
可為由影像中辨識出之多種物體的機率。一組輸入資料
Figure 02_image001
Figure 02_image003
可稱為輸入資料集。人工神經網路1可使用複數組輸入資料集及各別之目標值組來進行訓練。在一些實施例中,輸入資料集可在訓練時分為複數個小批次(mini-batches)。舉例而言,32,000個輸入資料集可分為1,000個小批次,每個小批次具有32個輸入資料集。
人工神經網路1可包含層Lyr(1)至Lyr(J),J為大於1之正整數。層Lyr(1)可稱為輸入層,層Lyr(J)可稱為輸出層,層Lyr(2)至Lyr(J-1)可稱為隱藏層。每層Lyr(j)可包含複數個處理節點,透過連接
Figure 02_image009
Figure 02_image011
耦接於先前層Lyr(j-1)中之複數個處理節點,j為介於2及J之間之層索引,|Cj|為層Lyr(j)及先前層Lyr(j-1)之間之連接的總數。輸入層Lyr(1)可包含處理節點
Figure 02_image013
Figure 02_image015
,其中上標表示層索引,下標表示節點索引,|N1|為層Lyr(1)之處理節點的總數。處理節點
Figure 02_image013
Figure 02_image015
可分別接收輸入資料
Figure 02_image001
Figure 02_image003
。隱藏層Lyr(2)至Lyr(J-1)中之每層隱藏層Lyr(j)可包含處理節點
Figure 02_image017
Figure 02_image019
,其中|Nj|為隱藏層Lyr(j)之處理節點的總數。輸出層Lyr(J)可包含處理節點
Figure 02_image021
Figure 02_image023
,其中|NJ|為輸出層Lyr(J)之處理節點的總數。處理節點
Figure 02_image021
Figure 02_image023
可分別產生輸出估計值
Figure 02_image005
Figure 02_image007
層Lyr(j)中之每個處理節點可經由其連接耦接於先前層Lyr(j-1)中之一或多個處理節點。每條連接可與權重相關,處理節點可計算來自先前層Lyr(j-1)中之一個或多個處理節點之輸入資料的加權總和。在產生加權總和時,與較大權重相關之連接比與較小權重相關之連接更有影響力。當權重值為0時,與權重相關之連接可視為由人工神經網路1中移除,達成網路連接稀少化(network connectivity sparsity),及降低計算複雜度、功率消耗及運作成本。人工神經網路1可經由訓練而產生最佳化之稀疏網路構造以使用少量或最少量之連接
Figure 02_image025
Figure 02_image027
來達成與各別目標值Y(1)至Y(|NJ|)近似匹配的輸出估計值
Figure 02_image005
Figure 02_image007
本方法可以適用於不同的網路類型,比如全連接神經網路或卷積神經網路。在計算的時候,全連接神經網路中的一個全連接層可以等價的轉換成一個卷積層,其輸入特徵圖(feature map)的尺寸是1*1(第1圖中層1是1*1*N1),卷積核(convolutional kernel)尺寸是1*1(第1圖中層1是1*1*N1*N2),N1及N2為正整數。在第2圖中採用卷積層的形式來描述稀疏連接網路的訓練方法。第2圖係為一個卷積層,可由人工神經網路1之層Lyr(2)至Lyr(J)中之一層轉換得到。卷積層可經由連接耦接於先前卷積層。卷積層可從先前卷積層接收輸入資料x,及將輸入資料x及權重w進行卷積運算以計算輸出估計值y,如公式(1)表示:
Figure 02_image029
公式(1)
輸入資料x可具有(1x1)的大小。權重w可稱為卷積核,及可具有(1x1)的大小。“*”可表示卷積運算。輸出估計值y可送至後續卷積層作為其輸入資料以計算後續的輸出估計值。權重w可被重參數化以獲得權重變數
Figure 02_image031
及連接性遮罩m,如公式(2)表示:
Figure 02_image033
公式(2)
連接性遮罩m可為表示連接之連接性的二進位資料,其中1表示具有連接,0表示沒有連接。權重變數
Figure 02_image031
可表示連接強度。“☉”可表示元素對元素(element-wise)乘法。連接性遮罩m可藉由對連接性變數
Figure 02_image035
執行單位階梯操作H(•)導出,如公式(3)表示:
Figure 02_image037
公式(3)
卷積層可依據單位階梯操作H(•)對連接性變數
Figure 02_image035
進行二元化以產生連接性遮罩m。藉由將權重w重參數化,連接的連接性及強度可分別由調整連接性變數
Figure 02_image035
及權重變數
Figure 02_image031
而進行訓練。若連接性變數
Figure 02_image035
小於或等於0,權重變數
Figure 02_image031
可被0遮罩以產生0權重w,而若連接性變數
Figure 02_image035
超過0,權重變數
Figure 02_image031
可設置為權重w。
在人工神經網路1中,連接
Figure 02_image025
Figure 02_image027
可分別與連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image045
相關。連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image045
可依據目標函數進行訓練以減低連接
Figure 02_image025
Figure 02_image027
的總數同時減低人工神經網路1之效能損失。連接
Figure 02_image025
Figure 02_image027
之總數可經由加總所有連接性遮罩
Figure 02_image047
Figure 02_image049
而計算。效能損失可表示輸出估計值
Figure 02_image005
Figure 02_image007
與各自目標值Y(1)至Y(|NJ|)之間的差異,及可以交叉熵的形式計算。目標函數L可由公式(4)表示:
Figure 02_image051
公式(4)
其中      CE為交叉熵(cross entropy);
λ1為連接衰減係數;
λ2為權重衰減係數;
j為層索引;
i為遮罩索引或權重索引;
Figure 02_image053
為第j層之第i個連接性遮罩;
|Cj|為第j層之連接的總數;及
Figure 02_image055
為第j層之第i個權重變數。
目標函數L可包含輸出估計值
Figure 02_image005
Figure 02_image007
及各自目標值Y(1)至Y(|NJ|)之間之交叉熵CE,連接
Figure 02_image025
Figure 02_image027
之總數的L0正則化(regularization)項,及與連接
Figure 02_image025
Figure 02_image027
相關之權重變數
Figure 02_image043
Figure 02_image045
的L2正則化項。在一些實施例中,輸出估計值
Figure 02_image005
Figure 02_image007
及各自目標值Y(1)至Y(|NJ|)之間之平方誤差總和(sum of squared errors)可代替目標函數L中之交叉熵。L0正則化項可為連接衰減係數λ1及連接性遮罩
Figure 02_image047
Figure 02_image049
的總和之乘積。L2正則化項可為權重衰減係數λ2及權重變數
Figure 02_image043
Figure 02_image045
的總和之乘積。在一些實施例中,L2正則化項可由目標函數L移除。人工神經網路1可被訓練以最小化目標函數L的輸出結果。因此,L0正則化項可抑制大量連接,及L2正則化項可抑制大權重變數
Figure 02_image043
Figure 02_image045
。連接衰減係數λ1越大,人工神經網路1便越稀疏。連接衰減係數λ1可設為大常數,用以將連接性遮罩
Figure 02_image047
Figure 02_image049
推至0,將連接性變數
Figure 02_image039
Figure 02_image041
推至負方向,及產生人工神經網路1的稀疏連接結構。只有當連接
Figure 02_image057
對減低交叉熵CE很重要時,與連接
Figure 02_image057
相關的連接性遮罩
Figure 02_image053
才會維持為1。以此方式可達到減低交叉熵CE及減低連接總數之間之平衡點,產生稀疏連接結構同時提供實質上匹配目標值Y(1)至Y(|NJ|)的輸出估計值
Figure 02_image005
Figure 02_image007
。相似地,連接衰減係數λ2可設為大常數以縮減權重變數
Figure 02_image043
Figure 02_image045
,同時交叉熵CE確保重要的權重變數留在人工神經網路1中,產生人工神經網路1之簡單且正確的模型。
在訓練連接性變數
Figure 02_image039
Figure 02_image041
時,輸入資料
Figure 02_image001
Figure 02_image003
可餵入輸入層Lyr(1)及由層Lyr(1)前向傳播至層Lyr(J)以產生輸出估計值
Figure 02_image005
Figure 02_image007
,輸出估計值
Figure 02_image005
Figure 02_image007
及其各自目標值Y(1)至Y(|NJ|)之間之誤差可被計算及由層Lyr(J)逆向傳播至Lyr(2)以計算目標函數L對連接性變數
Figure 02_image039
Figure 02_image041
之連接性變數斜率,及接著依據連接性變數
Figure 02_image039
Figure 02_image041
之連接性變數斜率調整連接性變數
Figure 02_image039
Figure 02_image041
,藉以減低連接
Figure 02_image025
Figure 02_image027
之總數同時減低人工神經網路1之效能損失。具體而言,連接性變數
Figure 02_image035
可持續被調整直到對應連接性變數斜率
Figure 02_image059
到達0為止,用以找到交叉熵CE之局部最小值。然而,依據導數連鎖律,連接性變數斜率
Figure 02_image059
的計算牽涉公式(3)中單位階梯函數的微分,且單位階梯函數的微分對幾乎所有連接性變數
Figure 02_image035
的值而言都是0,造成連接性變數斜率
Figure 02_image059
為0及訓練程序終止,及導致連接性變數
Figure 02_image035
不更新。為了在訓練程序中讓連接性變數
Figure 02_image035
維持可訓練形式,單位階梯函數被跳過且連接性變數斜率
Figure 02_image059
可重定義為目標函數L對連接性遮罩m之連接性遮罩斜率
Figure 02_image061
,可由公式(5)表示:
Figure 02_image063
公式(5)
參考第2圖,連接性遮罩m及連接性變數
Figure 02_image035
之間之虛線表示在逆向傳播時跳過單位階梯函數。連接性變數
Figure 02_image035
可依據連接性遮罩斜率
Figure 02_image061
更新。在一些實施例中,連接性遮罩斜率
Figure 02_image061
可藉由對應權重斜率
Figure 02_image065
及對應權重變數
Figure 02_image031
的元素對元素乘法產生,如公式(5)所示。以此方式,當判定連接對減低交叉熵CE不重要時,可將連接性變數
Figure 02_image035
從正數更新為負數,且將連接性遮罩從1更新為0。當判定連接對減低交叉熵CE很重要時,可將連接性變數
Figure 02_image035
從負數更新為正數,且將連接性遮罩從0更新為1。在一些實施例中,每個小批次的輸入資料集可輸入至人工神經網路1以產生複數組輸出估計值
Figure 02_image005
Figure 02_image007
,複數組輸出估計值
Figure 02_image005
Figure 02_image007
的平均誤差可被計算,及連接性變數
Figure 02_image039
Figure 02_image041
可依據平均誤差的逆向傳播進行訓練。在一些實施例中,為了避免斜率
Figure 02_image065
及權重變數
Figure 02_image031
的範圍不同,連接性變數斜率
Figure 02_image059
或連接性遮罩斜率
Figure 02_image061
可對每個小批次的輸入資料集以標準差為1進行正規化(normalized)。
相似地,在訓練權重變數
Figure 02_image043
Figure 02_image045
時,藉由誤差的逆向傳播計算目標函數L對權重變數
Figure 02_image043
Figure 02_image045
之權重變數斜率,及接著依據權重變數斜率調整權重變數
Figure 02_image043
Figure 02_image045
,藉以減低權重變數
Figure 02_image043
Figure 02_image045
同時減低人工神經網路1之效能損失。權重變數
Figure 02_image031
可持續被調整直到對應權重變數斜率
Figure 02_image067
到達0為止,用以找到交叉熵CE之局部最小值。依據公式(2)及導數連鎖律,權重變數斜率
Figure 02_image067
可由公式(6)表示:
Figure 02_image069
公式(6)
依據公式(6),當連接性遮罩m為0時權重變數斜率
Figure 02_image067
為0,導致權重變數
Figure 02_image031
無法更新及訓練程序終止。為了讓權重變數
Figure 02_image031
維持可訓練形式,在逆向傳播時權重變數斜率
Figure 02_image067
可重定義為目標函數L對權重w之權重斜率
Figure 02_image065
,及可由公式(7)表示:
Figure 02_image071
公式(7)
藉由將權重變數斜率
Figure 02_image067
重定義為權重斜率
Figure 02_image065
,就算當連接性遮罩m為0時權重變數
Figure 02_image031
也可維持可訓練。參考第2圖,權重w及權重變數
Figure 02_image031
之間之虛線表示在逆向傳播時跳過元素對元素乘法。權重斜率
Figure 02_image065
可由逆向傳播獲得。無論連接性遮罩m為1或0,權重變數
Figure 02_image031
都可依據權重斜率
Figure 02_image065
更新。以此方式,就算其中一些權重變數
Figure 02_image043
Figure 02_image045
暫時被0遮罩,仍可訓練權重變數
Figure 02_image043
Figure 02_image045
人工神經網路1將權重w分為連接性變數
Figure 02_image035
及權重變數
Figure 02_image031
,訓練連接性變數
Figure 02_image035
以形成稀疏連接結構,及訓練權重變數
Figure 02_image031
以產生人工神經網路1之簡單模型。此外,為了訓練連接性變數
Figure 02_image035
及權重變數
Figure 02_image031
,連接性變數斜率
Figure 02_image059
被重定義為連接性遮罩斜率
Figure 02_image061
,及權重變數斜率
Figure 02_image067
被重定義為權重斜率
Figure 02_image065
。所產生之人工神經網路1的稀疏連接結構能顯著減低運算複雜度、記憶體需求及功率消耗。
第3圖係為人工神經網路1的訓練方法300之流程圖。方法300包含步驟S302至S306,訓練人工神經網路1形成稀疏連接結構。步驟S302用於人工神經網路1之卷積層以產生輸出估計值,步驟S304及S306分別用以訓練連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image045
。任何合理的技術變更或是步驟調整都屬於本發明所揭露的範疇。以下解釋步驟S302至S306:
步驟S302: 卷積層依據權重w計算輸出估計值,權重w由權重變數
Figure 02_image031
及連接性遮罩m定義,連接性遮罩m可由連接性變數
Figure 02_image035
導出;
步驟S304: 依據目標函數L調整連接性變數
Figure 02_image039
Figure 02_image041
以減低連接總數及減低效能損失;
步驟S306: 依據目標函數L調整權重變數
Figure 02_image043
Figure 02_image045
以減低權重變數
Figure 02_image043
Figure 02_image045
的總和。
步驟S302至S306之解釋已在先前段落中提供,在此不再贅述。訓練方法300分別訓練連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image045
以產生連接稀疏、構造簡單且輸出預測正確的人工神經網路1。
第4圖係為用於建構人工神經網路1的實施例運算網路4。運算網路4包含處理器402、程式記憶體404、參數記憶體406及輸出介面408。程式記憶體404及參數記憶體406可為非揮發性記憶體。處理器402可耦接於程式記憶體404、參數記憶體406及輸出介面408以控制其運作。權重
Figure 02_image073
Figure 02_image075
、權重變數
Figure 02_image043
Figure 02_image045
、連接性遮罩
Figure 02_image047
Figure 02_image049
、連接性變數
Figure 02_image039
Figure 02_image041
及相關斜率可儲存於參數記憶體406,同時關於訓練連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image045
的指令可在訓練過程中由程式記憶體404載入至處理器402。指令可包含使卷積層依據據權重w計算輸出估計值的程式碼,權重w由權重變數
Figure 02_image031
及連接性遮罩m定義,依據目標函數L調整連接性變數
Figure 02_image039
Figure 02_image041
的程式碼,及依據目標函數L調整權重變數
Figure 02_image043
Figure 02_image045
的程式碼。調整後的連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image045
可更新參數記憶體406以置換舊資料。輸出介面408可響應於輸入資料集而顯示輸出估計值
Figure 02_image005
Figure 02_image007
人工神經網路1及訓練方法300用以訓練連接性變數
Figure 02_image039
Figure 02_image041
及權重變數
Figure 02_image043
Figure 02_image077
,產生稀疏連接網路同時輸出正確的輸出值。 以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
1:人工神經網路 300:訓練方法 S302至S306:步驟 4:運算網路 402:處理器 404:程式記憶體 406:參數記憶體 408:輸出介面 Lyr(1)至Lyr(J):層
Figure 02_image025
Figure 02_image027
:連接
Figure 02_image013
Figure 02_image023
:處理節點 m:連接性遮罩
Figure 02_image035
:連接性變數 W:權重
Figure 02_image031
:權重變數
Figure 02_image001
Figure 02_image003
, x:輸入資料
Figure 02_image005
Figure 02_image007
, y:輸出估計值 Y(1)至Y(|NJ|):目標值 *:卷積運算 ☉:元素對元素乘法
第1圖係為本發明實施例中一種人工神經網路的計算圖。 第2圖係為第1圖中之人工神經網路的卷積層之示意圖。 第3圖係為第1圖中之人工神經網路的訓練方法之流程圖。 第4圖係為用於建構第1圖中之人工神經網路的實施例運算網路。
300:訓練方法
S302至S306:步驟

Claims (10)

  1. 一種訓練方法,用以訓練一運算網路,該運算網路包含複數個卷積層,該方法包含: 該複數個卷積層中之一卷積層依據一權重計算一輸出估計值,該權重由一權重變數及一連接性(connectivity)遮罩定義,該連接性遮罩表示該複數個卷積層中之該卷積層及一先前卷積層之間的一連接,及該連接性遮罩可由一連接性變數導出;及 依據一目標函數調整多個連接性變數以減低該複數個卷積層之間之多條連接之一總數,及減低一效能損失,該效能損失表示該輸出估計值與一目標值之間的差異。
  2. 如請求項1所述之方法,其中依據該目標函數調整該多個連接性變數包含: 計算該目標函數對該連接性變數之一連接性遮罩斜率;及 依據該連接性遮罩斜率更新該連接性變數。
  3. 如請求項1所述之方法,更包含: 該卷積層依據一單位階梯函數(unit step function)將該連接性變數二元化以產生該連接性遮罩。
  4. 如請求項1所述之方法,其中該目標函數包含一第一項,對應該效能損失,及一第二項,對應與該複數個卷積層之間之該多條連接相關之多個連接性遮罩的正則化(regularization)。
  5. 如請求項4所述之方法,其中該第二項包含一連接衰減係數及該多個連接性遮罩的一總和之一乘積,該多個連接性遮罩與該複數個卷積層之間之該多條連接相關。
  6. 如請求項4所述之方法,其中該目標函數更包含一第三項,對應與該複數個卷積層之間之該多條連接相關之多個權重變數的正則化。
  7. 如請求項6所述之方法,其中該第三項包含一權重衰減係數及該多個權重變數的一總和之一乘積,該多個權重變數與該複數個卷積層之間之該多條連接相關。
  8. 如請求項1所述之方法,其中該效能損失係為一交叉熵(cross entropy)。
  9. 如請求項1所述之方法,更包含: 依據該目標函數調整多個權重變數以減低該多個權重變數的一總和,該多個權重變數與該複數個卷積層之間之該多條連接相關。
  10. 如請求項9所述之方法,其中依據該目標函數調整該多個權重變數包含: 計算該目標函數對該權重之一權重斜率;及 依據該權重斜率更新該權重變數。
TW109105971A 2019-05-23 2020-02-25 訓練稀疏連接神經網路的方法 TWI732467B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962851652P 2019-05-23 2019-05-23
US62/851,652 2019-05-23
US16/746,941 2020-01-19
US16/746,941 US20200372363A1 (en) 2019-05-23 2020-01-19 Method of Training Artificial Neural Network Using Sparse Connectivity Learning

Publications (2)

Publication Number Publication Date
TW202044125A TW202044125A (zh) 2020-12-01
TWI732467B true TWI732467B (zh) 2021-07-01

Family

ID=73456860

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109105971A TWI732467B (zh) 2019-05-23 2020-02-25 訓練稀疏連接神經網路的方法

Country Status (2)

Country Link
US (1) US20200372363A1 (zh)
TW (1) TWI732467B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6966395B2 (ja) * 2018-08-23 2021-11-17 株式会社日立製作所 最適化システム及び最適化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010049A (zh) * 2017-11-09 2018-05-08 华南理工大学 使用全卷积神经网络分割定格动画中人手部区域的方法
CN108460356A (zh) * 2018-03-13 2018-08-28 上海海事大学 一种基于监控系统的人脸图像自动处理系统
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321666A1 (en) * 2014-08-28 2016-11-03 Retailmenot, Inc. Low-latency approximation of combinatorial optimization of residual amounts when allocating large collections of stored value cards
US9824304B2 (en) * 2015-10-06 2017-11-21 Adobe Systems Incorporated Determination of font similarity
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010049A (zh) * 2017-11-09 2018-05-08 华南理工大学 使用全卷积神经网络分割定格动画中人手部区域的方法
CN108460356A (zh) * 2018-03-13 2018-08-28 上海海事大学 一种基于监控系统的人脸图像自动处理系统
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法

Also Published As

Publication number Publication date
US20200372363A1 (en) 2020-11-26
TW202044125A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
Liu et al. Learning converged propagations with deep prior ensemble for image enhancement
US20210089922A1 (en) Joint pruning and quantization scheme for deep neural networks
CN108959728B (zh) 基于深度学习的射频器件参数优化方法
Cai et al. An optimal construction and training of second order RBF network for approximation and illumination invariant image segmentation
US11449734B2 (en) Neural network reduction device, neural network reduction method, and storage medium
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
WO2019194299A1 (ja) 学習装置、学習方法および学習プログラム
US20220300823A1 (en) Methods and systems for cross-domain few-shot classification
TWI732467B (zh) 訓練稀疏連接神經網路的方法
CN109344966A (zh) 一种高效张量化全连接神经网络的方法
CN111353534A (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
JP6942203B2 (ja) データ処理システムおよびデータ処理方法
CN113705724A (zh) 基于自适应l-bfgs算法的深度神经网络的批量学习方法
CN113836804A (zh) 基于卷积神经网络的动物识别模型建立方法及其应用系统
CN112766492A (zh) 模型处理方法、装置、电子设备及存储介质
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN110782017B (zh) 用于自适应调整学习率的方法和装置
CN111985603A (zh) 训练稀疏连接神经网络的方法
TWI763975B (zh) 降低類神經網路之運算複雜度的系統與方法
Sarkar et al. An incremental pruning strategy for fast training of CNN models
WO2019208248A1 (ja) 学習装置、学習方法及び学習プログラム
JP2019067062A (ja) 学習装置、学習方法、および、学習プログラム
CN115409163A (zh) 用于优化人工神经网络的执行时间的方法
CN113792862B (zh) 基于级联注意力机制的改正单图生成对抗网络的设计方法
JP6992864B1 (ja) ニューラルネットワーク軽量化装置、ニューラルネットワーク軽量化方法およびプログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees