TWI769418B

TWI769418B - 深度神經網路超參數選擇方法及電子裝置

Info

Publication number: TWI769418B
Application number: TW108144475A
Authority: TW
Inventors: 徐銘駿; 陳昭宏; 黃健智
Original assignee: 財團法人工業技術研究院
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2022-07-01
Also published as: US20210174210A1; US11537893B2; TW202123098A

Abstract

一種深度神經網路超參數選擇方法及電子裝置。此方法從多個超參數的超參數範圍中取樣多個測試超參數配置。使用訓練資料集及多個測試超參數配置來訓練目標神經網路模型，經過預設時段訓練後獲得對應至多個測試超參數配置的多個準確率值。執行超參數推薦操作以預測多個測試超參數配置的多個最終準確率值。並且，選擇具有最高預測值的最終準確率值對應的推薦超參數配置作為繼續訓練目標神經網路模型的超參數設定。

Description

深度神經網路超參數選擇方法及電子裝置

本發明是有關於一種神經網路技術，且是有關於一種深度神經網路超參數選擇方法及具有深度神經網路超參數選擇功能的電子裝置。

深度神經網路(deep neural network)的機器學習(machine learning)通常涉及大量的自由參數讓使用者根據其需求而設定。舉例來說，機器學習專家需要決定神經網路的深度、選擇每個層的連接關係、選擇優化演算法以及選擇優化函式庫中的參數。這些在模型開始學習之前設置的參數稱為超參數(hyperparameters，HPs)，而調整超參數或找出這些超參數適當的配置的技術被稱為超參數優化(HP optimization，HPO)。

一般來說，執行自動超參數優化的典型方法是貝氏最佳化(Bayesian optimization，BO)演算法。然而貝葉斯優化演算法本質上是串行的，因此很難平行化。並且，當不同超參數所包含的數量太大時會發生維數災難(curse of dimensionality)。

有鑑於此，本發明提供一種深度神經網路超參數選擇方法及電子裝置，其可自動化優化神經網路的超參數配置。

本發明提供一種深度神經網路超參數選擇方法，適用於分析目標神經網路模型的多個超參數配置，其中每一所述多個超參數配置包括多個超參數，所述方法包括下列步驟。從所述多個超參數的超參數範圍中取樣多個測試超參數配置。使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型，經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值。執行超參數推薦操作，以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。其中所述超參數推薦操作包括：利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單，其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值，其中所述超參數配置推薦清單包括多個推薦超參數配置；利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型；使用第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型，經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值；以及利用預測早期停止模型預測對應至所述多個第二準確率值的所述多個最終準確率值。

在本發明的一實施例中，上述第一訓練資料集的資料量大於所述第二訓練資料集的資料量。

在本發明的一實施例中，上述第一預設時段大於所述第二預設時段。

在本發明的一實施例中，上述方法更包括下列步驟。使用所述第一訓練資料集及具有最高預測值的所述最終準確率值對應的所述第一推薦超參數配置訓練所述目標神經網路模型，經過所述第一預設時段訓練後獲得對應至所述第一推薦超參數配置的所述第一準確率值。增加所述第一推薦超參數配置及所述第一準確率值至所述觀察點集以更新所述觀察點集，並根據更新的所述觀察點集執行所述超參數推薦操作。當計算預算耗竭時，從觀測點集中選擇具有最高第一準確率值的超參數配置設置為所述目標神經網路模型的所述超參數設定。

在本發明的一實施例中，上述利用所述可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的所述預訓練模型的步驟包括下列步驟。計算所述推薦超參數配置及已訓練過的每一所述超參數配置在超參數空間中的距離。以及根據所述距離，設定所述推薦超參數配置對應的可訓練權重為所述預訓練模型的可訓練權重設定。

在本發明的一實施例中，上述從所述多個超參數的所述超參數範圍中取樣所述多個測試超參數配置的步驟之前，取得所述超參數範圍，包括下列步驟。二值化編碼所述超參數配置中的每一所述超參數的參數範圍為多個參數子範圍，並在包括二值化編碼後的所述多個參數子範圍的全範圍內取樣多個測試點。以及使用所述第二訓練資料集及各所述多個測試點的所述超參數配置訓練所述目標神經網路模型，經過第三預設時段訓練後獲得對應至所述多個測試點的多個第三準確率值。

在本發明的一實施例中，上述取得所述超參數範圍的步驟包括下列步驟。利用Harmonica演算法與所述第三準確率值決定所述多個超參數對應的多個固定位元。以及根據所述多個固定位元決定每一所述超參數對應的所述超參數範圍。

在本發明的一實施例中，上述早期停止預測方法包括下列步驟：將利用滑動窗口擷取的學習曲線、所述學習曲線的一次差分、所述滑動窗口內所述學習曲線的平均值以及所述測試超參數配置設置為輸入，將所述第三準確率值設置為輸出，並將所述輸入及所述輸出組合成一組訓練點。以及利用迴歸模型訓練所述多個訓練點以建立所述預測早期停止模型。

在本發明的一實施例中，上述第三預設時段大於所述第二預設時段，並且所述第三預設時段小於所述第一預設時段。

依據本發明實施例的電子裝置適用於分析目標神經網路模型的多個超參數配置，其中每一所述多個超參數配置包括多個超參數。電子裝置包括儲存裝置以及處理器。儲存裝置儲存一或多個指令。處理器，耦接所述儲存裝置，所述處理器經配置以執行所述指令以執行下列運作：從所述多個超參數的超參數範圍中取樣多個測試超參數配置；使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型，經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值；執行超參數推薦操作；以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。超參數推薦操作的運作包括：利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單，其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值，其中所述超參數配置推薦清單包括多個推薦超參數配置；利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型；使用第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型，經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值；以及利用預測早期停止模型預測對應至所述多個第二準確率值的所述多個最終準確率值。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

10:電子裝置

110:處理器

120:儲存裝置

20:學習曲線

31:資料表

32:資料庫

310:Harmonica程序

320:預測早期停止程序

330:徑向基函數優化程序

340:可訓練權重選擇程序

350:訓練系統

D1、D2:輸入資料

S402~S412、S502~S510、S5081~S5084、S702~S710:步驟

圖1繪示依據本發明一實施例的電子裝置的方塊圖。

圖2繪示依據本發明一實施例的深度神經網路學習曲線的示意圖。

圖3繪示依據本發明一實施例的基於深度神經網路超參數選擇方法的資料傳輸的示意圖。

圖4繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。

圖5繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。

圖6繪示依據本發明一實施例的超參數推薦操作的流程圖。

圖7繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。

本發明是在有限的條件下，利用小的資料訓練集搜尋超參數配置的限縮範圍。在限縮後的超參數範圍中取樣，並完整訓練取樣出的超參數配置以獲得準確率值。將超參數配置及對應的準確率值設置為觀察點集，並利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單。利用可訓練權重選擇法(trainable-weight-selecting method)決定對應至每一推薦超參數配置的預訓練模型，並使用小的訓練資料集及推薦超參數配置訓練與多個推薦超參數配置訓練對應的多個預訓練模型以獲得準確率值。利用訓練好的預測早期停止模型預測對應至推薦超參數配置的準確率值的最終準確率值。並且，選擇具有最高預測值的最終準確率值對應的推薦超參數配置作為繼續訓練目標神經網路模型的超參數設定。藉此，可減少神經網路的訓練量，達到快速搜尋更佳的神經網路模型的超參數配置的目的。

圖1繪示依據本發明一實施例的電子裝置的方塊圖。參考圖1，電子裝置10包括但不限於處理器110、儲存裝置120及輸入輸出介面(未繪示)130。處理器110耦接儲存裝置120並且可存取或執行儲存於儲存裝置120的一或多個指令。在不同實施例中，處理器110例如是中央處理單元(Central Processing Unit，CPU)、可程式化微處理器(programmable microprocessor)、圖形化處理單元(Graphics Processing Unit，GPU)、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)或其他類似裝置或這些裝置的組合，本發明不在此限制。

儲存裝置120用以儲存深度神經網路超參數選擇方法運行時所需的各項軟體、資料及各類程式碼，包括可由處理器110執行的一或多個指令。儲存裝置120可以是固定或可移動的隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)、硬式磁碟機(hard disk drive，HDD)、固態磁碟(solid state drive，SSD)或其他類似裝置的一或多個組合，本發明不在此限制。輸入輸出介面可以是鍵盤、滑鼠、數位板、螢幕或其他類似裝置，本發明不在此限制。

需先說明的是，在機器學習領域中，超參數 (hyperparameter)是用於控制機器學習模型的學習過程的參數值。相較之下，其他參數值(例如節點權重)則是在學習過程中所學習到的數值。超參數包括使用的優化器(optimizer)、優化參數(optimizer parameter)、學習率(learning rate)、衰減率(decay rate)、衰減步驟(decay step)、批量(batch size)等類別。超參數配置(hyperparameter configurations，HPCs)包括多個超參數，並且不同的超參數配置中設置有不同數值的超參數，這些超參數的數值用於訓練機器學習模型。

另外，批量(batch size)是每次輸入到神經網路模型中訓練的樣本數目大小。一個迭代(iteration)等於使用批量個樣本訓練一次。一個時段(epoch)等於使用訓練資料集(training dataset)中的全部樣本訓練神經網路模型一次。舉例而言，如果訓練資料集有1000個樣本，並且批量為10個樣本數目，則訓練完所有樣本需要100次迭代或一個時段。圖2繪示依據本發明一實施例的深度神經網路學習曲線的示意圖。具體而言，每利用訓練資料集訓練機器學習模型一個時段，便會獲得準確率值。訓練多個時段獲取多個準確率值後，則可以繪製出所述機器學習模型的學習曲線(learning curve)，例如圖2所示的學習曲線20。此外，若控制以不同的超參數配置訓練機器學習模型，則會產生另一條與學習曲線20不同的學習曲線。

圖3繪示依據本發明一實施例的基於深度神經網路超參數選擇方法的資料傳輸的示意圖。圖3資料傳輸示意圖中呈現的資料表及資料庫會在本發明實施例提供的深度神經網路超參數選擇方法執行時自動產生。資料庫32會占據儲存裝置120的部分儲存空間。在一實施例中，當資料表31輸入Harmonica程序310後，將觸發資料庫32與Harmonica程序310、預測早期停止程序320、徑向基函數優化(Radial Basis Function optimization，RBFOpt)程序330、可訓練權重選擇程序340及訓練系統350等功能區塊配合使用。資料庫及各功能區塊之間交換的資料例如有神經網路權重(neural network weights)、超參數配置以及中間訓練資訊(intermediatetraining information)等資料。這些資料及功能區塊皆可以儲存在儲存裝置120中，並且各功能區塊可由處理器110所執行。熟習相關技藝者當知，本發明實施例揭露的功能區塊也可以是以硬體電路的方式實現，本發明不在此限制。各功能區塊的功用將會於本文後續說明。

本實施例的方法適用於上述的電子裝置10，以下即搭配電子裝置10的各項裝置及元件說明本實施例的深度神經網路超參數選擇方法的詳細步驟。

在本實施例中，深度神經網路超參數選擇方法分為兩個主要階段，包括第一階段：減少搜索空間(Search Space Reduction)以及第二階段：超參數優化(HP optimization)。

在第一階段：減少搜索空間中，處理器110使用小的訓練資料集(small training dataset)及Harmonica程序310來找到近似布林函式(approximate Boolean function)的最小限制器 (minimizer)與每個超參數位元的重要因數(importance factor)，並獲得相應的超參數限制範圍。

圖4繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。本實施例示出用於找到深度神經網路超參數的範圍並訓練預測早期停止模型的方法。參照圖4，首先，處理器110會二值化編碼超參數配置中的每一超參數的參數範圍為多個參數子範圍，並在包括二值化編碼後的多個參數子範圍的全範圍內取樣多個測試點(步驟S402)。詳細而言，處理器110會將超參數配置中的每一超參數用於訓練目標神經網路模型的超參數範圍分別切分成多個子範圍，將切分出的子範圍二值化編碼為參數子範圍。請參照下表1，以超參數「批量」為例，處理器110先將批量的範圍[65,255]切分成4個子範圍[65,112]、[113,160]、[161,207]以及[208,255]，並將切分出的子範圍分別進行二值化編碼。假設對前述切分出的子範圍以編碼符號1及-1進行2位元的二值化編碼(2-bit Boolean code)，則可獲得如表1中的對應至子範圍[65,112]的編碼[1,1]、對應至子範圍[113,160]的編碼[1,-1]、對應至子範圍[161,207]的編碼[-1,1]以及對應至子範圍[208,255]的編碼[-1,-1]。本實施例以批量作為範例說明二值化編碼，然而超參數配置中其餘的超參數也同樣進行二值化編碼。

在編碼完成後，處理器110可從二值化編碼中取樣出多個測試點。取樣方法例如是取每個子範圍的中點作為測試點，或者隨機取樣出測試點，本發明不在此限制取樣的方式。

處理器110會使用訓練資料集及各測試點的測試超參數配置訓練目標神經網路模型，經過預設時段訓練後獲得對應至各測試點的準確率值(步驟S404)。在此步驟中，用於訓練的訓練資料集為小的訓練資料集，例如原本訓練資料集有五萬筆資料，則在此次訓練時使用其中的1/5作為訓練資料集進行訓練。接續步驟S402的範例，在本實施例中，若取樣出批量136及184兩個測試點，則處理器110會使用小的訓練資料集並分別使用各測試點的批量訓練目標神經網路模型。在訓練經過預設時段後會獲得批量136及184兩個測試點對應的準確率值。在此步驟中，除了減少訓練資料的數量以外，預設的訓練時段可同樣地減少以避免過度擬合(overfitting)，因此預設時段可以是不完整的訓練時段。在本實施例中，完整的訓練時段例如設定為100個時段，而在此步驟中可以設定不完整的訓練時段為20個時段，本發明不在此限制訓練時段的次數。請參考下表2，本實施例訓練測試點136後可獲得對應的準確率值78%，訓練測試點184後可獲得對應的準確率值55%。

處理器110利用Harmonica演算法與準確率值決定超參數對應的固定位元。詳細來說，處理器110利用Harmonica演算法與準確率值決定近似布林函式中的超參數對應的最小限制二元值(步驟S406)。具體而言，於步驟S404中獲得的測試點對應的準確率值將作為習知Harmonica演算法的輸入以訓練獲得最小限制二元值與重要因數。並且，處理器110根據最小限制二元值的平均值決定每一超參數對應的超參數範圍(步驟S408)。

Harmonica演算法是一種快速的超參數優化演算法，其靈感來自布林函數分析的技術。Harmonica演算法的主要概念是假設超參數優化的目標函數是實值布林函數(real-valued Boolean function)且可以透過稀疏低階多項式(sparse and low degree polynomial)來近似，該多項式以傅立葉基底(Fourier basis，布林函數類的隨機正交族，如奇偶校驗函數parity function)表示。這意味著目標函數也可以通過決策樹來近似。

以下將說明Harmonica演算法的詳細內容。Harmonica演算法將從假設y=Aα+e的已知觀測向量y

R ^m中還原未知的稀疏傅立葉係數(sparse Fourier coefficients)α

R ⁿ。y=Aα+e中的矩陣A的列是傅立葉基底的已知估計值，並且e被假定為未知的零平均高斯雜訊向量(zero-mean Gaussian noise vector)。Harmonica演算法在多個階段使用Lasso算法(Lasso algorithm)來解決上述稀疏恢復問題的稀疏傅里葉係數。亦即，在每個階段中，Harmonica演算法從稀疏傅立葉係數中決定一些重要的位元。並且透過固定這些重要的位元，即固定位元，Harmonica演算法對觀測值進行重新採樣、訓練神經網路，並迭代地運行Lasso算法以獲得另一組重要的位元。Harmonica演算法持續執行前述步驟，直到超參數的搜索空間變小到足以讓第二階段的RBFOpt程序可以有效地在限縮的搜索空間進行詳細搜索為止。

在本實施例中，y=Aα+e的詳細內容請參考方程式(1)。

代表

,...,
,...超參數配置對應的準確率值(如步驟S404獲得的對應至各測試點的超參數配置的準確率值)。A的每一列如方程式(1)所示，為每一超參數配置(如測試點的超參數配置)的二元值多項式。α ₁ ,...,α _n ,...為Lasso演算法求出的傅立葉係數，傅立葉係數可被利用計算出重要因數(importance factor)。

舉例而言，表3及表4表示Harmonica演算法的運算結果。表3揭示藉由Harmonica演算法中的多個階段的近似布林函式(稀疏低階多項式)的最小限制器(minimizer)的平均值的每個位元的符號值決定的固定位元(fixed bits)。在本實施例中，處理器110將測試點對應的多個準確率值輸入至Harmonica演算法。並且固定位元中值為0的位元代表這些位元未由近似布林函式報告。表4則揭示每個位元對應的重要因數，這些重要因數是從Lasso算法計算出的傅立葉係數(Fourier coefficients)中得出。在一實施例中，Harmonica演算法計算出的一階段的近似布林函式例如表示為方程式(2)：f=-2.7561532069 x12 ＊ x14 ＊ x15 ＊ x21+1.2004158501 x0 ＊ x3+1.1040464984 x3 ＊ x11 ＊ x31 ＊ x33-1.0837903652 x11 ＊ x27 ＊ x33 ＊ x39+0.9975212011 x0 ＊ x3 ＊ x25 ＊ x27 (2)

基本上，方程式(2)中各係數的絕對值加1將是各單項式中顯示的位元(bit)的重要因數，例如x12的重要因數可定義為|-2.75|+1=3.75。另外，如果位元同時出現在兩個單項式中，例如x27，則x27的重要因數可定義為|1.083|+|0.977|+1=3.08。表4中示出對於每一位元取得的重要因數，並且處理器110根據固定位元決定限縮的超參數範圍。舉例而言，接續前例，假設對應至批量的固定位元為1,-1對應至子範圍[113,160]，則處理器110可以決定批量對應的子範圍[113,160]為批量的限縮後的超參數範圍。

表4

此外，本實施例還可以訓練預測早期停止模型(Predictive Early Stopping model)以供後續第二階段使用。「早期停止」一詞過去是指人們應在目標神經網路模型過度擬合之前終止對其的訓練。而本實施例提供的預測早期停止模型是基於頻率迴歸模型(frequentist regression model)來預測目標神經網路模型的最終準確率值。

接續步驟S404，處理器110在使用不同超參數配置訓練目標神經網路的同時會取得多條學習曲線。目標神經網路在訓練第一次時段(epoch)後會獲得一個準確率值，訓練第二次時段後會獲得第二個準確率值，以此類推，每條學習曲線上會有多個時段以及準確率值，例如表5的範例。

處理器110會將利用滑動窗口(sliding window)擷取的學習曲線、學習曲線的一次差分、滑動窗口內學習曲線的平均值及測試超參數配置設置為輸入，將第三準確率值設置為輸出，並將多組輸入及多組輸出組合成多組訓練點(步驟S410)。舉例而言，處理器110將表5中的時段01~時段03對應的準確率值(即，學習曲線)、準確率值之間的一次差分(即，學習曲線的一次差分)、準確率值的平均值(即，學習曲線的平均值)以及測試超參數配置的學習率Lr設定為一組輸入資料D1，以及將最終準確值77%設置為第一筆訓練點的輸出資料。隨著滑動窗口向前移動，處理器110將表5中的時段02~時段04對應的準確率值、準確率值之間的一次差分、準確率值的平均值以及測試超參數配置的學習率Lr設定為一組輸入資料D2，以及將最終準確值77%設置為第二筆訓練點的輸出資料。以此類推，表5的資料經整理後可以為表6如下：

在取得前述多個訓練點後，處理器110利用迴歸模型訓練多個訓練點以建立預測早期停止模型(步驟S412)。訓練完的預測早期停止模型可用在以不完整的時段訓練目標神經網路模型時，早期預測最終的準確率值，以決定訓練是否可以停止。在本實施例中，迴歸模型例如是支持向量迴歸模型(support vector regression，SVR)模型，本發明不在此限制。

在第二階段：超參數優化中，處理器110會根據限縮後的超參數範圍執行圖3中的RBFOpt程序330，使用全訓練資料集(full training dataset)訓練目標神經網路模型以找到最佳超參數配置。在本實施例中，全訓練資料集包括小的訓練資料集。圖3所示的可訓練權重選擇程序340及預測早期停止程序320將同時協助RBFOpt程序330獲取後選的超參數配置，以快速獲得總體最佳(global optimum)。以下即搭配電子裝置10的各項裝置及元件說明本實施例第二階段超參數優化的詳細步驟。

圖5繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。請同時參照圖1、圖3及圖5，首先，處理器110會取得多個超參數的超參數範圍(步驟S502)。這些超參數範圍可以是經由本實施例第一階段的訓練方法獲得，也可以是利用其他訓練方法獲得，本發明不在此限制。

處理器110從多個超參數的超參數範圍中取樣多個測試超參數配置(步驟S504)。為了利於後續執行RBFOpt程序330，處理器110會先從超參數範圍中取樣足夠的測試超參數配置。取樣測試超參數配置的方法例如是拉丁超立方抽樣(Latin hypercube sampling)或者隨機取樣，本發明不在此限制。

處理器110使用訓練資料集及多個測試超參數配置訓練目標神經網路模型，經過預設時段訓練後獲得對應至多個測試超參數配置的多個第一準確率值(步驟S506)。在一實施例中，步驟S506是利用全訓練資料集與完整的訓練時段進行訓練，並且以完整的驗證資料及進行驗證。

處理器110執行超參數推薦操作(步驟S508)。超參數推薦操作包括RBFOpt程序330。具體而言，RBFOpt程序330是一種確定性算法，可在緊緻定義域(compact domain)下找到連續非凸函數(continuous nonconvex function)的總體最佳值。RBFOpt程序330是基於觀察點集(observation point set)，使用徑向基函數(radial basis functions，RBFs)來建立內插函數作為目標函數的代理模型(surrogate model)，並定義一個效用函數(utility function)，該效用函數的最大化值是要評估該目標函數下一個點。效用函數的定義是插值函數顛坡度的測量倒數。評估了下一個觀察點的驗證準確性後，RBFOpt程序330會將這個新的觀察點迭代內插到內插函數中，並獲得更新的效用函數。RBFOpt程序330會持續執行前述操作直到計算預算(computation budget)耗竭或找到穩定的最小值為止。本實施例提供超參數推薦操作中，RBFOpt程序330更採用了一種推薦最小目標值列表的策略以發現目標函數的總體最佳值。並且同時採用預測早期停止模型介入超參數配置推薦程序。

圖6繪示依據本發明一實施例的超參數推薦操作的流程圖。本發明提供的超參數推薦操作的具體內容請參照圖6中的步驟S5081~S5083。詳細而言，超參數推薦操作中處理器110可根據多個超參數測試配置及對應的第一準確率值獲得觀察點集。觀察點集包括從步驟S506訓練出的多個測試超參數配置及對應的準確率值。並且，處理器110利用模型優化演算法(model based optimization algorithm)基於觀察點集取得內插函數並取得超參數配置推薦清單(recommended list of HPCs)(步驟S5081)。模型優化演算法例如是徑向基函數演算法，本發明不在此限制。經由模型優化演算法取得的超參數配置推薦清單會包括多個推薦超參數配置，這些推薦超參數配置代表預測可以經由訓練獲得最好準確率值的超參數值配置。超參數配置推薦清單例如表7：

然而，步驟S5081所推薦的推薦超參數配置有可能推薦錯誤，因此可以先利用少量的資料來測試取得的推薦超參數配置是否具有好的準確率值。首先，處理器110執行可訓練權重選擇程序340來決定為每個超參數配置推薦清單選擇合適的預訓練模型。具體而言，處理器110利用可訓練權重選擇法(trainable-weight-selecting method)決定分別對應至每一推薦超參數配置的預訓練模型(pre-trained model)(步驟S5082)。可訓練權重選擇法透過先前已訓練過之超參數配置與超參數配置推薦清單中的推薦超參數配置來找出最接近的超參數空間中的「距離」設定作為預訓練模型，並且可訓練權重選擇法的說明如下。從前述Harmonica演算法中的多個先前訓練過的超參數配置對應的訓練模型中，選擇先前訓練過的超參數配置的候選「可訓練權重設定」作為推薦超參數配置的權重設定。被選擇的超參數配置HP ^＊由以下「距離(distance)」方程式(3)決定。被選擇的超參數配置HP ^＊的可訓練權重將被選擇並用於從暖啟動(warm start)訓練超參數配置HP _des的可訓練權重。

HP ^＊(HP ^＊的可訓練權重將被選擇並用於從暖啟動訓練HP _des的可訓練權重)

在方程式(3)中，HP _des、HP _tra分別表示在每個超參數取實值或整數值的原始超參數空間中被指定的超參數配置以及先前訓練過的超參數配置。bHP _des,bHP _tra分別表示被指定的超參數配置以及先前訓練過的編碼後的超參數配置。每個原始超參數被編碼為多個位元的二值化編碼{-1,1}，其中-1代表TRUE，1代表FALSE。 w _i表示第i個位元根據稀疏低階多項式的傅立葉係數α _is決定的重要因數，其中w _i=|α _i|+1，因此w _i可以假設為

1。此外，未由Harmonica演算法中近似布林函式報告的位元，他們的w _i s被設定為1以避免方程式(3)中的零乘法。accucacy _tra表示Harmonica演算法中先前訓練過的超參數配置的驗證準確率值。

代表重要因數為1的所有位元的數量。(1-accucacy _tra)表示錯誤率。

方程式(3)不僅考慮了指定的超參數配置和先前訓練過的超參數配置在編碼空間中的接近程度，還考慮了重要因數的比例。此外，當方程式(3)第一部分的接近度大致相同時，先前訓練過的超參數配置的準確率值將支配結果。

舉例而言，假設超參數配置中包含超參數HP1及超參數HP2，並且超參數HP1及超參數HP2的值以及經過Harmonica演算法計算後的重要因數、二值化編碼與錯誤率等資料例如下表9所示：

在表9中，重要因數為各超參數對應的子範圍的重要因數，此數值可由Harmonica演算法計算得出，詳細的計算方式已如前述，在此不贅述。錯誤率則分別對應至各組訓練過的超參數配置(方程式(3)中的(1-accucacy _tra))。假設超參數配置推薦清單中指定的超參數配置HP1=85(bHP1=b’1,1’)、HP2=1e-3.2(bHP2=b’1,1’)與

，則指定的超參數配置與訓練過的超參數配置組別1、2的「距離」可分別計算如方程式(4)、(5)如下：(3.5×|1-1|+3.5×|1-1|+2.8×|1-1|+2.8×|1-1|)+(0.13×5)=0.65(4)

(3.5×|1-1|+3.5×|1-(-1)|+2.8×|1-1|+2.8×|1-(-1)|)+(0.1×5)=13.1(5)

經過以上計算，可知指定的超參數配置HP1=85、HP2=1e-3.2與訓練過的超參數配置HP1=80、HP2=1e-3.5的距離比較近。因此處理器110根據組別1對應的可訓練權重資料作為指定的超參數配置的預訓練模型。處理器110根據距離設定推薦超參數配置對應的可訓練權重為預訓練模型的可訓練權重設定。

換句話說，組別1的可訓練權重資料為設置到目標神經網路模型的權重資料，因此組別1的可訓練權重資料可以作為目標神經網路模型的訓練起始點(暖啟動)繼續進行訓練。接續步驟S5082，處理器110會使用小的訓練資料集及多個推薦超參數配置分別訓練與所述推薦超參數配置對應的預訓練模型，經過預設時段訓練後獲得對應至推薦超參數配置的多個第二準確率值(步驟S5083)。並且處理器110會利用預測早期停止模型預測對應至多個第二準確率值的多個最終準確率值(步驟S5084)。在本實施例中，步驟S5083中用於訓練的訓練資料集的資料量小於步驟S506中用於訓練的訓練資料集的資料量，並且預設時段訓練的次數小於步驟S506中預設時段訓練的次數。

在另一實施例中，步驟S560是利用全訓練資料集與完整的訓練時段進行訓練，並且以完整的驗證資料及進行驗證。因此步驟S560的訓練資料集的資料量和訓練時段的次數大於步驟S5083及第一階段中步驟S404的資料量及訓練次數。其中，第一階段中步驟S404的資料量及訓練次數可以大於步驟S5083，本發明不在此限制。

在本實施例中，步驟S5083是利用小的訓練資料集與不完整的訓練時段進行訓練。詳細而言，處理器110可以使用小的訓練資料集及推薦超參數配置，並且同時利用預訓練模型的可訓練權重設定繼續進行訓練，以在訓練預設時段後獲得對應至推薦超參數配置的準確率值。由於此步驟是訓練不完整的時段，因此在獲得準確率值後，本實施例還利用預測早期停止程序320預測最終準確率值。早期停止程序320藉由預測早期停止模型來預測未完整訓練的準確率值對應的最終準確率值，可以減少訓練多個時段需花費的時間。

舉例而言，以批量為例，處理器110利用小的訓練資料集及批量119，訓練預訓練模型第20個時段後獲得的準確率值例如是39%，利用小的訓練資料集及批量138訓練預訓練模型第20個時段後獲得的準確率值例如是42%。此時，處理器110會使用預測早期停止模型來預測訓練預訓練模型第50個時段或更多次數後獲得的準確率值。預測的準確率值例如下表9所示，批量119的預測準確率值為43%，批量138的預測準確率值為87%。

在執行超參數推薦操作後，處理器110選擇具有最高預測值的最終準確率值對應的第一推薦超參數配置作為繼續訓練目標神經網路模型的超參數設定(步驟S510)。並且，處理器110使用完整的訓練資料集及設置的超參數設定訓練目標神經網路模型，經過完整的訓練時段(例如100個時段)後獲得最後的準確率值。

圖7繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。圖7中的步驟S702~S708與圖5中的步驟S502~S508內容相同，請參照步驟S502~S508對應的說明。請參照圖7，以下說明步驟S709~S710的技術內容。在另一實施例中，處理器110還可以使用訓練資料集及具有最高預測值的最終準確率值對應的第一推薦超參數配置訓練目標神經網路模型，經過預設時段訓練後獲得對應至第一推薦超參數配置的準確率值(步驟S7091)。在本實施例中，此步驟用於訓練的訓練資料集為全訓練資料集，並且預設時段為完整的訓練時段。

處理器110增加第一推薦超參數配置及第一推薦超參數配置對應的準確率值至觀察點集以更新觀察點集(步驟S7092)。並且處理器110判斷計算預算是否耗竭(步驟S7093)。如果計算預算已經耗竭(步驟S7093判斷為是)，則處理器110會從觀察點集中選擇具有最高第一準確率值的超參數配置設置為目標神經網路模型的超參數設定(步驟S710)。如果計算預算還沒耗竭(步驟S7093判斷為否)，則再次回到步驟S708根據更新的觀察點集執行超參數推薦操作，直到計算預算用完。

換句話說，在步驟S709，完整訓練出第一推薦超參數配置對應的準確率值後，處理器110將第一推薦超參數配置及第一推薦超參數配置對應的準確率值將增至觀察點集以更新觀察點集。處理器110根據更新後的觀察點集再次執行超參數推薦操作。處理器110會不斷重覆步驟S709直到計算預算用完。且計算運算用完後，處理器110會從多個第一準確率值中選擇對應的準確率值最高的超參數配置作為目標神經網路模型訓練的最終超參數設定。

綜上所述，本發明提供的深度神經網路超參數選擇方法及電子裝置可自動化優化神經網路的超參數配置。基此，本發明可減少神經網路的訓練量，達到快速優化神經網路模型的超參數配置的目的。

S702~S710:步驟

Claims

一種深度神經網路超參數選擇方法，適用於分析目標神經網路模型的多個超參數配置，其中每一所述多個超參數配置包括多個超參數，所述方法包括：取得超參數範圍，其中取得所述超參數範圍的步驟包括：二值化編碼所述超參數配置中的每一所述多個超參數的參數範圍為多個參數子範圍，並在包括二值化編碼後的所述多個參數子範圍的全範圍內取樣多個測試點；以及使用第二訓練資料集及各所述多個測試點的所述超參數配置訓練所述目標神經網路模型，經過第三預設時段訓練後獲得對應至所述多個測試點的多個第三準確率值；從所述多個超參數的所述超參數範圍中取樣多個測試超參數配置；使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型，經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值；執行超參數推薦操作，其中所述超參數推薦操作包括：利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單，其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值，其中所述超參數配置推薦清單包括多個推薦超參數配置；利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型；使用所述第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型，經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值；以及利用預測早期停止模型預測對應至所述多個第二準確率值的多個最終準確率值；以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中所述第一訓練資料集的資料量大於所述第二訓練資料集的資料量。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中所述第一預設時段大於所述第二預設時段。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中所述方法更包括：使用所述第一訓練資料集及具有最高預測值的所述最終準確率值對應的所述第一推薦超參數配置訓練所述目標神經網路模型，經過所述第一預設時段訓練後獲得對應至所述第一推薦超參數配置的所述第一準確率值；增加所述第一推薦超參數配置及所述第一準確率值至所述觀察點集以更新所述觀察點集，並根據更新的所述觀察點集執行所述超參數推薦操作；以及當計算預算耗竭時，從所述觀察點集中選擇具有最高第一準準確率值的超參數配置設置為所述目標神經網路模型的所述超參數設定。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中利用所述可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的所述預訓練模型的步驟包括：計算所述推薦超參數配置及訓練過的每一所述超參數配置在超參數空間中的距離；以及根據所述距離設定所述推薦超參數配置對應的可訓練權重為所述預訓練模型的可訓練權重設定。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中取得所述超參數範圍的步驟包括：利用Harmonica演算法與所述第三準確率值決定所述多個超參數對應的多個固定位元；以及根據所述多個固定位元決定每一所述多個超參數對應的所述超參數範圍。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中所述方法更包括：將利用滑動窗口擷取的學習曲線、所述學習曲線的一次差分、所述滑動窗口內所述學習曲線的平均值以及所述測試超參數配置設置為輸入，將所述第三準確率值設置為輸出，並將所述輸入及所述輸出組合成一組訓練點；以及利用迴歸模型訓練多個所述訓練點以建立所述預測早期停止模型。
如申請專利範圍第1項所述的深度神經網路超參數選擇方法，其中所述第三預設時段大於所述第二預設時段，並且所述第三預設時段小於所述第一預設時段。
一種電子裝置，適用於分析目標神經網路模型的多個超參數配置，其中每一所述多個超參數配置包括多個超參數，所述電子裝置包括：儲存裝置，儲存一或多個指令；以及處理器，耦接所述儲存裝置，所述處理器經配置以執行所述指令以：取得超參數範圍，其中取得所述超參數範圍的運作包括：二值化編碼所述超參數配置中的每一所述多個超參數的參數範圍為多個參數子範圍，並在包括二值化編碼後的所述多個參數子範圍的全範圍內取樣多個測試點；以及使用第二訓練資料集及各所述多個測試點的所述超參數配置訓練所述目標神經網路模型，經過第三預設時段訓練後獲得對應至所述多個測試點的多個第三準確率值；從所述多個超參數的所述超參數範圍中取樣多個測試超參數配置；使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型，經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值；執行超參數推薦操作，其中所述超參數推薦操作包括：利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單，其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值，其中所述超參數配置推薦清單包括多個推薦超參數配置；利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型；使用所述第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型，經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值；以及利用預測早期停止模型預測對應至所述多個第二準確率值的多個最終準確率值；以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。
如申請專利範圍第9項所述的電子裝置，其中所述第一訓練資料集的資料量大於所述第二訓練資料集的資料量。
如申請專利範圍第9項所述的電子裝置，其中所述第一預設時段大於所述第二預設時段。
如申請專利範圍第9項所述的電子裝置，其中所述處理器更經配置以：使用所述第一訓練資料集及具有最高預測值的所述最終準確率值對應的所述第一推薦超參數配置訓練所述目標神經網路模型，經過所述第一預設時段訓練後獲得對應至所述第一推薦超參數配置的所述第一準確率值；增加所述第一推薦超參數配置及所述第一準確率值至所述觀察點集以更新所述觀察點集，並根據更新的所述觀察點集執行所述超參數推薦操作；以及當計算預算耗竭時，從觀察點集中選擇具有最高第一準確率值的超參數配置設置為所述目標神經網路模型的所述超參數設定。
如申請專利範圍第9項所述的電子裝置，其中利用所述可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的所述預訓練模型的運作中，所述處理器更經配置以：計算所述推薦超參數配置及訓練過的每一所述超參數配置在超參數空間中的距離；以及根據所述距離設定所述超參數配置對應的可訓練權重為所述預訓練模型的可訓練權重設定。
如申請專利範圍第9項所述的電子裝置，其中取得所述超參數範圍的運作中，所述處理器更經配置以：利用Harmonica演算法與所述第三準確率值決定所述多個超參數對應的多個固定位元；以及根據所述多個固定位元決定每一所述多個超參數對應的所述超參數範圍。
如申請專利範圍第9項所述的電子裝置，其中所述處理器更經配置以：利用滑動窗口擷取的學習曲線、所述學習曲線的一次差分、所述滑動窗口內所述學習曲線的平均值以及所述測試超參數配置設置為輸入，將所述第三準確率值設置為輸出，並將所述輸入及所述輸出組合成一組訓練點；以及利用迴歸模型訓練多個所述訓練點以建立所述預測早期停止模型。
如申請專利範圍第9項所述的電子裝置，其中所述第三預設時段大於所述第二預設時段，並且所述第三預設時段小於所述第一預設時段。