TWI767122B

TWI767122B - 模型建構方法、系統及非揮發性電腦可讀取記錄媒體

Info

Publication number: TWI767122B
Application number: TW108118136A
Authority: TW
Inventors: 林政憲; 楊東庭; 楊宏毅
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-05-25
Filing date: 2019-05-24
Publication date: 2022-06-11
Also published as: CN110533158A; CN110533158B; US11620509B2; US20190362230A1; TW202004570A

Abstract

一種模型建構方法，適用於用於影像辨識處理的神經網路模型。此模型建構方法包含以下步驟：由處理器依據神經網路模型的多個輸入以及多個輸出更新神經網路模型的多個層之間的多個連接變數。多個輸出代表多個影像辨識結果。多個連接變數代表多個層中的每兩者之間的多個連接強度。

Description

模型建構方法、系統及非揮發性電腦可讀取記錄媒體

本案涉及一種神經網路模型的模型建構方法、模型建構系統及非揮發性電腦可讀取記錄媒體。具體而言，本案涉及一種動態優化神經網路結構的模型建構方法、模型建構系統及非揮發性電腦可讀取記錄媒體。

近年來，神經網路已經有效地應用於不同的技術領域。現有的神經網路訓練方法需要預先定義模型架構。現有的神經網路訓練方法不會學習各個層之間的連接關係，僅利用層之間的預定義連接路徑，並不會動態搜索最佳模型架構。

本案的一實施態樣涉及一種模型建構方法，適用於用於影像辨識處理的神經網路模型。此模型建構方法包含以下步驟：由處理器依據神經網路模型的多個輸入以及多個輸出更新神經網路模型的多個層之間的多個連接變數。多個輸出代表多個影像辨識結果。多個連接變數代表多個層中的每兩者之間的多個連接強度。

本案的一實施態樣涉及一種模型建構系統，適用於影像辨識處理的神經網路模型。此模型建構系統包含記憶體以及處理器。記憶體用以儲存至少一指令。處理器耦接於記憶體。處理器用以存取並執行至少一指令以：依據神經網路模型的多個輸入以及多個輸出更新神經網路模型的多個層之間的多個連接變數。多個輸出代表多個影像辨識結果。多個連接變數代表多個層中的每兩者之間的多個連接強度。

本案的一實施態樣涉及一種非揮發性電腦可讀取記錄媒體，用以儲存電腦程式，其中在執行電腦程式時，將致使一或多處理元件執行複數操作包含：依據神經網路模型的多個輸入以及多個輸出更新神經網路模型的多個層之間的多個連接變數，其中神經網路模型適用於影像辨識處理，其中多個輸出代表多個影像辨識結果。其中多個連接變數代表多個層中的每兩者之間的多個連接強度。

透過本案的實施方式，可以動態地訓練是否保留或捨棄彼此不相鄰的層之間的連接。調整彼此不相鄰的層之間的連接強度可以是動態地被訓練。神經網路結構可以動態地達到更好的準確性和性能。

100‧‧‧模型建構系統

110‧‧‧記憶體

130‧‧‧處理器

200‧‧‧模型建構方法

S210至S230‧‧‧步驟

300、600‧‧‧神經網路模型

MI1至MIN‧‧‧輸入

MO1至MON‧‧‧輸出

L1至L5‧‧‧層

V13至V35‧‧‧連接變數

S230A、S230B‧‧‧步驟

S232A至S234A、S232B至S238B‧‧‧步驟

SL11至SL15、SL21至SL23‧‧‧子層

SL31至SL33、SL41至SL44、SL51至SL53‧‧‧子層

VL1121至VL4144‧‧‧子連接變數

第1圖為根據本案一些實施例所繪示的模型建構系統；第2圖為根據本發明一些實施例所繪示的模型建構方法的流程圖；第3圖為根據本案一些實施例所繪示的神經網路模型；第4圖為根據本發明一些實施例所繪示的第2圖中其中一個步驟的流程圖；第5圖為根據本發明一些實施例所繪示的第2圖中其中一個步驟的另一流程圖；第6圖係根據本案之一些實施例所繪示之另一神經網路模型。

以下將以圖式及詳細敘述清楚說明本揭示內容之精神，任何所屬技術領域中具有通常知識者在瞭解本揭示內容之實施例後，當可由本揭示內容所教示之技術，加以改變及修飾，其並不脫離本揭示內容之精神與範圍。

關於本文中所使用之『電性連接』，可指二或多個元件相互直接作實體或電性接觸，或是相互間接作實體或電性接觸，而『電性連接』還可指二或多個元件相互操作或動作。

關於本文中所使用之『第一』、『第二』、...等，並非特別指稱次序或順位的意思，亦非用以限定本發明，其僅為了區別以相同技術用語描述的元件或操作。

關於本文中所使用之『包含』、『包括』、『具有』、『含有』等等，均為開放性的用語，即意指包含但不限於。

關於本文中所使用之『及/或』，係包括所述事物的任一或全部組合。

關於本文中所使用之方向用語，例如：上、下、左、右、前或後等，僅是參考附加圖式的方向。因此，使用的方向用語是用來說明並非用來限制本案。

關於本文中所使用之用詞(terms)，除有特別註明外，通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論，以提供本領域技術人員在有關本揭露之描述上額外的引導。

第1圖為根據本案一些實施例所繪示的模型建構系統100。如第1圖所繪示，模型建構系統100包含記憶體110以及處理器130。處理器130耦接於記憶體110。

於一些實施例中，記憶體110可以是閃存記憶體，HDD，SSD(固態硬盤)，DRAM(動態隨機存取記憶體)或SRAM(靜態隨機存取記憶體)。於一些實施例中，記憶體110可以是存儲有與機器學習方法相關聯的至少一個指令的非揮發性電腦可讀取記錄媒體。處理器130可以存取和執行至少一個指令。

於一些實施例中，處理器130可以，但不限於是單個處理器或多個微處理器的集合，例如CPU或GPU。微處理器電性耦合到記憶體110以便存取並根據至少一個指令，以執行上述機器學習方法。為了便於理解與說明，將在以下段落中描述機器學習方法的細節。

關於本發明的的實施方式的細節於以下參閱第2圖中的模型建構方法揭示，其中第2圖係適用於第1圖中的模型建構系統100的模型建構方法200的流程圖。然而，本發明的實施方式不以此為限制。

請參閱第2圖。第2圖為根據本發明一些實施例所繪示的模型建構方法200的流程圖。然而，本發明的實施方式不以此為限制。

應注意到，模型建構方法200可應用於與第1圖中的模型建構系統100的結構相同或相似之系統。而為使敘述簡單，以下將以第1圖為例進行對模型建構方法的敘述，然本發明不以第1圖的應用為限。

需注意的是，於一些實施例中，建構方法亦可實作為一電腦程式，並儲存於一非暫態電腦可讀取記錄媒體中，而使電腦、電子裝置、或前述如第1圖中的處理器130讀取此記錄媒體後執行此一操作方法。非暫態電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之非暫態電腦可讀取記錄媒體。

另外，應瞭解到，在本實施方式中所提及的操作方法的操作，除特別敘明其順序者外，均可依實際需要調整其前後順序，甚至可同時或部分同時執行。

再者，在不同實施例中，此些操作亦可適應性地增加、置換、及/或省略。

請參閱第2圖。模型建構方法200包含以下步驟。

於步驟S210中，輸入多個輸入至神經網路模型並依據多個輸入取得多個輸出。於一些實施例中，步驟S210可由第1圖中的處理器130執行。

請同時參閱第3圖。第3圖為根據本案一些實施例所繪示的神經網路模型300。如第3圖所繪式，神經網路模型300包含多個層L1至L5。多個連接變數V13至V35存在於多個層L1至L5之間。詳細而言，連接變數V13至V35中之一者存在於多個層L1至L5中之兩者之間。連接變數V13至V35中之每一者代表多個層L1至L5中之每兩者之間的連接強度。

舉例而言，連接變數V13存在於層L1和L3之間，且連接變數V13代表層L1和L3之間的連接強度，其餘依此類推。

於步驟S230中，根據輸入和輸出更新神經網路模型的多個連接變數。於一些實施例中，步驟S230可由第1圖中的處理器130執行。依據神經網路模型300的輸入MI1至MIN以及輸出MO1至MON，處理器130更新連接變數V13至V35。

多個方法可用以實現步驟S230。請參閱第4圖。第4圖為根據本發明一些實施例所繪示的第2圖中的步驟S230的流程圖S230A。S230A包含以下步驟。

於步驟S232A中，計算多個層中之一層的多個層輸出的分批變異數。於一些實施例中，步驟S232A可由第1圖中的處理器130執行。請一併參閱第3圖。舉例來說，假設當不同的層輸入LI1至LI3輸入到層L1時，相對應於層L1的層輸出係為層輸出LO1至LO3。處理器130計算層輸出LO1至LO3的分批變異數。

於步驟S234A中，依據分批變異數更新連接變數的第一連接變數，其中第一連接變數代表多個層中之一者與多個層中之另一者之間的連接強度。於一些實施例中，步驟S234A可由第1圖中的處理器130執行。

步驟S234A的一個範例如下。請一併參閱第3圖。舉例而言，假設層L1的層輸出LO1至LO3的分批變異數為分批變異數σ。依據分批變異數σ，處理器130更新層L1與其他層L2至L5之間的連接變數。也就是說，處理器130依據分批變異數σ更新層L1以及層L3之間的連接變數V13，處理器130依據分批變異數σ更新層L1以及層L4之間的連接變數V14，處理器130依據分批變異數σ更新層L1以及層L5之間的連接變數V15。

請參閱第5圖。第5圖係根據本案之一些實施例所繪示之第2圖中的步驟S230的流程圖S230B。步驟S230B包含以下步驟。

於步驟S232B中，設定第一連接變數為第一數值，其中第一數值代表對應於第一連接變數的第一連接強度係為高。於一些實施例中，步驟S232B可由第1圖中的處理器130執行。

於步驟S234B中，設定第二連接變數為第二數值，其中第二數值代表對應於該第二連接變數的一第二連接強度係為低。於一些實施例中，步驟S234B可由第1圖中的處理器130執行。

於步驟S236B中，依據第一連接變數以及第二連接變數產生第一輸出。於一些實施例中，步驟S236B可由第1圖中的處理器130執行。

於步驟S238B中，依據第一輸出更新第一連接變數以及第二連接變數。於一些實施例中，步驟S238B可由第1圖中的處理器130執行。

關於步驟S232B至S238B的範例如下所述。請一併參閱第3圖。假設代表兩層之間的連接強度係為高的第一數值為數值1，且代表兩層之間的連接強度係為低的第二數值為數值0。舉例而言，於一實施例中，處理器130設定層L1與層L4之間的連接變數V14係為數值1，且處理器130設定層L2與層L4之間的連接變數V24係為數值0。

依據上述，於設定連接變數V13至V35中的至少一者後，處理器130輸入輸入MI1至神經網路模型300中並經由包含數值為1的連接變數V14和數值為0的連接變數V24的神經網路模型300，以產生對應於輸入MI1的輸出MO1。依據輸出MO1，處理器130依據反向梯度更新連接變數V14與V24。舉例而言，於一些實施例中，連接變數 V14可被更新為數值0.5，而連接變數V24可被更新為1。

隨同更新後的連接變數V14與V24，處理器130更輸入輸入MI2至神經網路模型300中並經由包含數值為0.5的連接變數V14與數值為1的連接變數V24的神經網路模型300，以產生對應於輸入MI2的輸出MO2。依據輸出MO2，處理器130再次更新連接變數V14與V24。

於一些實施例中，依據輸出MO1，處理器130產生反向梯度，其中反向梯度代表連接變數應該被調整的梯度。

應注意的是，於一些實施例中，於步驟S232B和S234B中，被設定為第一數值(舉例而言，被設定為1)的至少一連接變數V13至V35係由處理器130隨機選擇。同樣地，被設定為第二數值(舉例而言，被設定為0)的至少一連接變數V13至V35第二數值，係由處理器130隨機選擇。

於一些實施例中，連接變數V13至V35的值係為任二數值之間。舉例而言，連接變數V13至V35係為1與0之間，其中1代表最高的連接強度而0代表最低的連接強度。舉另一例來說，連接變數V13至V35的值在-1與1之間，或其他任何數值。

於一些實施例中，連接變數V13至V35包含兩種狀態，舉例而言，連接或不連接。舉例而言，連接變數V13至V35可僅包含數值1和0，其中數值1代表對應的層係互相連接，而數值0代表對應的層係互相不連接。若是連接變數V13係為1，對應的層L1和L3係互相連接。若是連接變數V13係為0，對應的層L1和L3係互相不連接。

於一些實施例中，多個層L1至L5中互相相鄰之兩者原本即係互相連接。於本案的實施例中，多個層L1至L5中之兩者之間的連接變數被訓練。上述多個層L1至L5中之兩者彼此不相鄰。

於一些實施例中，在開始訓練神經網路模型300之前，處理器130用以連接多個層L1至L5兩兩之間。也就是說，多個層L1至L5中之每兩者最初係由處理器130彼此連接。此外，對於每個連接關係，處理器130預設連接變數。舉例而言，對於神經網路模型300，處理器連接多個層L1至L5中之每兩者並預設連接變數V13至V35。於一些實施例中，連接變數V13至V35係為隨機預設。

請參閱第6圖。第6圖係根據本案之一些實施例所繪示之神經網路模型600。如第6圖所繪式，神經網路模型600包含層L1至L5，且每一層L1至L5包含至少一子層。舉例而言，層L1包含子層SL11至SL15，層L2包含子層SL21至SL23，其餘依此類推。

如第6圖所繪式，子層SL11與子層SL21彼此連接，且子連接變數VL1121存在於子層SL11和子層SL21之間。子層SL22和子層SL31彼此連接，且子連接變數VL2231存在於子層SL22和子層SL31之間，其餘依此類推。如上所述的子連接變數以及如第6圖中所繪式的子層之間的連接關係僅作為例示說明之用，本案的實施方式並不以此為限。第6圖中的任意兩個子層之間可為互相連接，並包含子連接變數。子連接變數代表任意兩個子層之間的連接強度。

於一些實施例中，如第1圖所繪式的處理器130依據輸入至神經網路模型600的輸入MI1至MIN以及對應的由神經網路模型600輸出的輸出MOI至MON，以更新子層SL11至SL53之間的子連接變數。

更新神經網路模型600的子連接變數的方法的細節與更新神經網路模型300的連接變數的方法類似，在此不再贅述。

應注意的是，不僅不同層的子層可以相互連接，而且同一層的子層也可以相互連接，如第6圖所繪式。

於一些實施例中，激活和更新彼此不相鄰的層之間的連接變數的方式不限於第4圖和第5圖中提到的步驟。連接變數可為隨機更新，經常性地更新，或使用預定義的公式更新。

於一些實施例中，神經網路模型的各層的大小不同，可以引入諸如池化、卷積或反捲積的方法以使特徵尺寸匹配，並且也可以被應用於動態地更新層之間的連接變數的一些實施例中。

應注意的是，第3圖中的神經網路模型300以及第6圖中的神經網路模型600適用於影像辨識處理。於一些實施例中，如第3圖與第6圖所述之輸入MI1至MIN係待辨識的影像，如第3圖與第6圖所述之輸出MO1至MON係為影像辨識結果。透過上述實施例的步驟，神經網路模型300或600可由處理器自動更新神經網路模型300或600的層之間的連接，使得影像辨識結果可以被改良為更準確或更正確。

透過上述實施例的步驟，於本案的實施例中，可以動態地訓練是否保留或捨棄彼此不相鄰的層之間的連接。調整彼此不相鄰的層之間的連接強度可以是動態地被訓練。神經網路結構可以動態地達到更好的準確性和性能。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

200‧‧‧模型建構方法

S210、S230‧‧‧步驟

Claims

一種模型建構方法，適用於用於影像辨識處理的一神經網路模型，包含：由一處理器依據該神經網路模型的複數個輸入以及複數個輸出更新該神經網路模型的複數個層之間的複數個連接變數，其中該些輸入代表複數個待辨識的影像，其中該些輸出代表複數個影像辨識結果，且該些輸出係依據該些輸入以及該神經網路模型所產生，其中該些連接變數代表該些層中的每兩者之間的複數個連接強度。
如請求項1所述之模型建構方法，其中該些層中的該每兩者彼此不相鄰。
如請求項1所述之模型建構方法，其中該些層包含複數個子層，其中該模型建構方法更包含：依據該神經網路模型的該些輸入以及該些輸出更新該些子層之間的複數個子連接變數，其中該些子連接變數代表該些子層中的每兩者之間的複數個子連接強度。
如請求項1所述之模型建構方法，更包含：隨機預設該些連接變數。
如請求項1所述之模型建構方法，更包含：計算該些層中的一第一層的複數個層輸出的一分批變異數；以及依據該分批變異數更新該些連接變數的一第一連接變數，其中該第一連接變數代表該些層中的該第一層以及一第二層之間的一連接強度。
如請求項1所述之模型建構方法，更包含：設定該些連接變數中的一第一連接變數為一第一數值，其中該第一數值代表對應於該第一連接變數的一第一連接強度係為高；設定該些連接變數中的一第二連接變數為一第二數值，其中該第二數值代表對應於該第二連接變數的一第二連接強度係為低；依據該第一連接變數以及該第二連接變數產生該些輸出中的一第一輸出；以及依據該第一輸出更新該第一連接變數以及該第二連接變數。
如請求項6所述之模型建構方法，其中該第一連接變數以及該第二連接變數係隨機選擇。
一種模型建構系統，適用於影像辨識處理的一神經網路模型，包含：一記憶體，用以儲存至少一指令；以及一處理器，耦接於該記憶體，其中該處理器用以存取並執行該至少一指令以：依據該神經網路模型的複數個輸入以及複數個輸出更新該神經網路模型的複數個層之間的複數個連接變數，其中該些輸入代表複數個待辨識的影像，其中該些輸出代表複數個影像辨識結果，且該些輸出係依據該些輸入以及該神經網路模型所產生，其中該些連接變數代表該些層中的每兩者之間的複數個連接強度。
如請求項8所述之模型建構系統，其中該些層中的該每兩者彼此不相鄰。
一種非揮發性電腦可讀取記錄媒體，用以儲存一電腦程式，其中在執行該電腦程式時，將致使一或多處理元件執行複數操作包含：依據一神經網路模型的複數個輸入以及複數個輸出更新該神經網路模型的複數個層之間的複數個連接變數，其中該神經網路模型適用於影像辨識處理，其中該些輸入代表複數個待辨識的影像，其中該些輸出代表複數個影像辨識結果，且該些輸出係依據該些輸入以及該神經網路模型所產生，其中該些連接變數代表該些層中的每兩者之間的複數個連接強度。