TWI769418B - 深度神經網路超參數選擇方法及電子裝置 - Google Patents

深度神經網路超參數選擇方法及電子裝置 Download PDF

Info

Publication number
TWI769418B
TWI769418B TW108144475A TW108144475A TWI769418B TW I769418 B TWI769418 B TW I769418B TW 108144475 A TW108144475 A TW 108144475A TW 108144475 A TW108144475 A TW 108144475A TW I769418 B TWI769418 B TW I769418B
Authority
TW
Taiwan
Prior art keywords
hyperparameter
training
recommended
configurations
neural network
Prior art date
Application number
TW108144475A
Other languages
English (en)
Other versions
TW202123098A (zh
Inventor
徐銘駿
陳昭宏
黃健智
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW108144475A priority Critical patent/TWI769418B/zh
Priority to US16/729,480 priority patent/US11537893B2/en
Publication of TW202123098A publication Critical patent/TW202123098A/zh
Application granted granted Critical
Publication of TWI769418B publication Critical patent/TWI769418B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Abstract

一種深度神經網路超參數選擇方法及電子裝置。此方法從 多個超參數的超參數範圍中取樣多個測試超參數配置。使用訓練資料集及多個測試超參數配置來訓練目標神經網路模型,經過預設時段訓練後獲得對應至多個測試超參數配置的多個準確率值。執行超參數推薦操作以預測多個測試超參數配置的多個最終準確率值。並且,選擇具有最高預測值的最終準確率值對應的推薦超參數配置作為繼續訓練目標神經網路模型的超參數設定。

Description

深度神經網路超參數選擇方法及電子裝置
本發明是有關於一種神經網路技術,且是有關於一種深度神經網路超參數選擇方法及具有深度神經網路超參數選擇功能的電子裝置。
深度神經網路(deep neural network)的機器學習(machine learning)通常涉及大量的自由參數讓使用者根據其需求而設定。舉例來說,機器學習專家需要決定神經網路的深度、選擇每個層的連接關係、選擇優化演算法以及選擇優化函式庫中的參數。這些在模型開始學習之前設置的參數稱為超參數(hyperparameters,HPs),而調整超參數或找出這些超參數適當的配置的技術被稱為超參數優化(HP optimization,HPO)。
一般來說,執行自動超參數優化的典型方法是貝氏最佳化(Bayesian optimization,BO)演算法。然而貝葉斯優化演算法本質上是串行的,因此很難平行化。並且,當不同超參數所包含的數量太大時會發生維數災難(curse of dimensionality)。
有鑑於此,本發明提供一種深度神經網路超參數選擇方法及電子裝置,其可自動化優化神經網路的超參數配置。
本發明提供一種深度神經網路超參數選擇方法,適用於分析目標神經網路模型的多個超參數配置,其中每一所述多個超參數配置包括多個超參數,所述方法包括下列步驟。從所述多個超參數的超參數範圍中取樣多個測試超參數配置。使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型,經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值。執行超參數推薦操作,以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。其中所述超參數推薦操作包括:利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單,其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值,其中所述超參數配置推薦清單包括多個推薦超參數配置;利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型;使用第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型,經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值;以及利用預測早期停止模型預測對應至所述多個第二準確率值的所述多個最終準確 率值。
在本發明的一實施例中,上述第一訓練資料集的資料量大於所述第二訓練資料集的資料量。
在本發明的一實施例中,上述第一預設時段大於所述第二預設時段。
在本發明的一實施例中,上述方法更包括下列步驟。使用所述第一訓練資料集及具有最高預測值的所述最終準確率值對應的所述第一推薦超參數配置訓練所述目標神經網路模型,經過所述第一預設時段訓練後獲得對應至所述第一推薦超參數配置的所述第一準確率值。增加所述第一推薦超參數配置及所述第一準確率值至所述觀察點集以更新所述觀察點集,並根據更新的所述觀察點集執行所述超參數推薦操作。當計算預算耗竭時,從觀測點集中選擇具有最高第一準確率值的超參數配置設置為所述目標神經網路模型的所述超參數設定。
在本發明的一實施例中,上述利用所述可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的所述預訓練模型的步驟包括下列步驟。計算所述推薦超參數配置及已訓練過的每一所述超參數配置在超參數空間中的距離。以及根據所述距離,設定所述推薦超參數配置對應的可訓練權重為所述預訓練模型的可訓練權重設定。
在本發明的一實施例中,上述從所述多個超參數的所述超參數範圍中取樣所述多個測試超參數配置的步驟之前,取得所 述超參數範圍,包括下列步驟。二值化編碼所述超參數配置中的每一所述超參數的參數範圍為多個參數子範圍,並在包括二值化編碼後的所述多個參數子範圍的全範圍內取樣多個測試點。以及使用所述第二訓練資料集及各所述多個測試點的所述超參數配置訓練所述目標神經網路模型,經過第三預設時段訓練後獲得對應至所述多個測試點的多個第三準確率值。
在本發明的一實施例中,上述取得所述超參數範圍的步驟包括下列步驟。利用Harmonica演算法與所述第三準確率值決定所述多個超參數對應的多個固定位元。以及根據所述多個固定位元決定每一所述超參數對應的所述超參數範圍。
在本發明的一實施例中,上述早期停止預測方法包括下列步驟:將利用滑動窗口擷取的學習曲線、所述學習曲線的一次差分、所述滑動窗口內所述學習曲線的平均值以及所述測試超參數配置設置為輸入,將所述第三準確率值設置為輸出,並將所述輸入及所述輸出組合成一組訓練點。以及利用迴歸模型訓練所述多個訓練點以建立所述預測早期停止模型。
在本發明的一實施例中,上述第三預設時段大於所述第二預設時段,並且所述第三預設時段小於所述第一預設時段。
依據本發明實施例的電子裝置適用於分析目標神經網路模型的多個超參數配置,其中每一所述多個超參數配置包括多個超參數。電子裝置包括儲存裝置以及處理器。儲存裝置儲存一或多個指令。處理器,耦接所述儲存裝置,所述處理器經配置以執行所 述指令以執行下列運作:從所述多個超參數的超參數範圍中取樣多個測試超參數配置;使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型,經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值;執行超參數推薦操作;以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。超參數推薦操作的運作包括:利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單,其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值,其中所述超參數配置推薦清單包括多個推薦超參數配置;利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型;使用第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型,經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值;以及利用預測早期停止模型預測對應至所述多個第二準確率值的所述多個最終準確率值。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
10:電子裝置
110:處理器
120:儲存裝置
20:學習曲線
31:資料表
32:資料庫
310:Harmonica程序
320:預測早期停止程序
330:徑向基函數優化程序
340:可訓練權重選擇程序
350:訓練系統
D1、D2:輸入資料
S402~S412、S502~S510、S5081~S5084、S702~S710:步驟
圖1繪示依據本發明一實施例的電子裝置的方塊圖。
圖2繪示依據本發明一實施例的深度神經網路學習曲線的示意圖。
圖3繪示依據本發明一實施例的基於深度神經網路超參數選擇方法的資料傳輸的示意圖。
圖4繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。
圖5繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。
圖6繪示依據本發明一實施例的超參數推薦操作的流程圖。
圖7繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。
本發明是在有限的條件下,利用小的資料訓練集搜尋超參數配置的限縮範圍。在限縮後的超參數範圍中取樣,並完整訓練取樣出的超參數配置以獲得準確率值。將超參數配置及對應的準確率值設置為觀察點集,並利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單。利用可訓練權重選擇法(trainable-weight-selecting method)決定對應至每一推薦超參數配置的預訓練模型,並使用小的訓練資料集及推薦超參數配置訓練與多個推薦超參數配置訓練對應的多個預訓練模型以獲得準確率值。利用訓練好的預測早期停止模型預測對應至推薦超參數配 置的準確率值的最終準確率值。並且,選擇具有最高預測值的最終準確率值對應的推薦超參數配置作為繼續訓練目標神經網路模型的超參數設定。藉此,可減少神經網路的訓練量,達到快速搜尋更佳的神經網路模型的超參數配置的目的。
圖1繪示依據本發明一實施例的電子裝置的方塊圖。參考圖1,電子裝置10包括但不限於處理器110、儲存裝置120及輸入輸出介面(未繪示)130。處理器110耦接儲存裝置120並且可存取或執行儲存於儲存裝置120的一或多個指令。在不同實施例中,處理器110例如是中央處理單元(Central Processing Unit,CPU)、可程式化微處理器(programmable microprocessor)、圖形化處理單元(Graphics Processing Unit,GPU)、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)或其他類似裝置或這些裝置的組合,本發明不在此限制。
儲存裝置120用以儲存深度神經網路超參數選擇方法運行時所需的各項軟體、資料及各類程式碼,包括可由處理器110執行的一或多個指令。儲存裝置120可以是固定或可移動的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬式磁碟機(hard disk drive,HDD)、固態磁碟(solid state drive,SSD)或其他類似裝置的一或多個組合,本發明不在此限制。輸入輸出介面可以是鍵盤、滑鼠、數位板、螢幕或其他類似裝置,本發明不在此限制。
需先說明的是,在機器學習領域中,超參數 (hyperparameter)是用於控制機器學習模型的學習過程的參數值。相較之下,其他參數值(例如節點權重)則是在學習過程中所學習到的數值。超參數包括使用的優化器(optimizer)、優化參數(optimizer parameter)、學習率(learning rate)、衰減率(decay rate)、衰減步驟(decay step)、批量(batch size)等類別。超參數配置(hyperparameter configurations,HPCs)包括多個超參數,並且不同的超參數配置中設置有不同數值的超參數,這些超參數的數值用於訓練機器學習模型。
另外,批量(batch size)是每次輸入到神經網路模型中訓練的樣本數目大小。一個迭代(iteration)等於使用批量個樣本訓練一次。一個時段(epoch)等於使用訓練資料集(training dataset)中的全部樣本訓練神經網路模型一次。舉例而言,如果訓練資料集有1000個樣本,並且批量為10個樣本數目,則訓練完所有樣本需要100次迭代或一個時段。圖2繪示依據本發明一實施例的深度神經網路學習曲線的示意圖。具體而言,每利用訓練資料集訓練機器學習模型一個時段,便會獲得準確率值。訓練多個時段獲取多個準確率值後,則可以繪製出所述機器學習模型的學習曲線(learning curve),例如圖2所示的學習曲線20。此外,若控制以不同的超參數配置訓練機器學習模型,則會產生另一條與學習曲線20不同的學習曲線。
圖3繪示依據本發明一實施例的基於深度神經網路超參數選擇方法的資料傳輸的示意圖。圖3資料傳輸示意圖中呈現的 資料表及資料庫會在本發明實施例提供的深度神經網路超參數選擇方法執行時自動產生。資料庫32會占據儲存裝置120的部分儲存空間。在一實施例中,當資料表31輸入Harmonica程序310後,將觸發資料庫32與Harmonica程序310、預測早期停止程序320、徑向基函數優化(Radial Basis Function optimization,RBFOpt)程序330、可訓練權重選擇程序340及訓練系統350等功能區塊配合使用。資料庫及各功能區塊之間交換的資料例如有神經網路權重(neural network weights)、超參數配置以及中間訓練資訊(intermediatetraining information)等資料。這些資料及功能區塊皆可以儲存在儲存裝置120中,並且各功能區塊可由處理器110所執行。熟習相關技藝者當知,本發明實施例揭露的功能區塊也可以是以硬體電路的方式實現,本發明不在此限制。各功能區塊的功用將會於本文後續說明。
本實施例的方法適用於上述的電子裝置10,以下即搭配電子裝置10的各項裝置及元件說明本實施例的深度神經網路超參數選擇方法的詳細步驟。
在本實施例中,深度神經網路超參數選擇方法分為兩個主要階段,包括第一階段:減少搜索空間(Search Space Reduction)以及第二階段:超參數優化(HP optimization)。
在第一階段:減少搜索空間中,處理器110使用小的訓練資料集(small training dataset)及Harmonica程序310來找到近似布林函式(approximate Boolean function)的最小限制器 (minimizer)與每個超參數位元的重要因數(importance factor),並獲得相應的超參數限制範圍。
圖4繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。本實施例示出用於找到深度神經網路超參數的範圍並訓練預測早期停止模型的方法。參照圖4,首先,處理器110會二值化編碼超參數配置中的每一超參數的參數範圍為多個參數子範圍,並在包括二值化編碼後的多個參數子範圍的全範圍內取樣多個測試點(步驟S402)。詳細而言,處理器110會將超參數配置中的每一超參數用於訓練目標神經網路模型的超參數範圍分別切分成多個子範圍,將切分出的子範圍二值化編碼為參數子範圍。請參照下表1,以超參數「批量」為例,處理器110先將批量的範圍[65,255]切分成4個子範圍[65,112]、[113,160]、[161,207]以及[208,255],並將切分出的子範圍分別進行二值化編碼。假設對前述切分出的子範圍以編碼符號1及-1進行2位元的二值化編碼(2-bit Boolean code),則可獲得如表1中的對應至子範圍[65,112]的編碼[1,1]、對應至子範圍[113,160]的編碼[1,-1]、對應至子範圍[161,207]的編碼[-1,1]以及對應至子範圍[208,255]的編碼[-1,-1]。本實施例以批量作為範例說明二值化編碼,然而超參數配置中其餘的超參數也同樣進行二值化編碼。
Figure 108144475-A0305-02-0012-1
Figure 108144475-A0305-02-0013-2
在編碼完成後,處理器110可從二值化編碼中取樣出多個測試點。取樣方法例如是取每個子範圍的中點作為測試點,或者隨機取樣出測試點,本發明不在此限制取樣的方式。
處理器110會使用訓練資料集及各測試點的測試超參數配置訓練目標神經網路模型,經過預設時段訓練後獲得對應至各測試點的準確率值(步驟S404)。在此步驟中,用於訓練的訓練資料集為小的訓練資料集,例如原本訓練資料集有五萬筆資料,則在此次訓練時使用其中的1/5作為訓練資料集進行訓練。接續步驟S402的範例,在本實施例中,若取樣出批量136及184兩個測試點,則處理器110會使用小的訓練資料集並分別使用各測試點的批量訓練目標神經網路模型。在訓練經過預設時段後會獲得批量136及184兩個測試點對應的準確率值。在此步驟中,除了減少訓練資料的數量以外,預設的訓練時段可同樣地減少以避免過度擬合(overfitting),因此預設時段可以是不完整的訓練時段。在本實施例中,完整的訓練時段例如設定為100個時段,而在此步驟中可以設定不完整的訓練時段為20個時段,本發明不在此限制訓練時段的次數。請參考下表2,本實施例訓練測試點136後可獲得對應的準確率值78%,訓練測試點184後可獲得對應的準確率值55%。
Figure 108144475-A0305-02-0014-4
處理器110利用Harmonica演算法與準確率值決定超參數對應的固定位元。詳細來說,處理器110利用Harmonica演算法與準確率值決定近似布林函式中的超參數對應的最小限制二元值(步驟S406)。具體而言,於步驟S404中獲得的測試點對應的準確率值將作為習知Harmonica演算法的輸入以訓練獲得最小限制二元值與重要因數。並且,處理器110根據最小限制二元值的平均值決定每一超參數對應的超參數範圍(步驟S408)。
Harmonica演算法是一種快速的超參數優化演算法,其靈感來自布林函數分析的技術。Harmonica演算法的主要概念是假設超參數優化的目標函數是實值布林函數(real-valued Boolean function)且可以透過稀疏低階多項式(sparse and low degree polynomial)來近似,該多項式以傅立葉基底(Fourier basis,布林函數類的隨機正交族,如奇偶校驗函數parity function)表示。這意味著目標函數也可以通過決策樹來近似。
以下將說明Harmonica演算法的詳細內容。Harmonica演算法將從假設y=Aα+e的已知觀測向量y
Figure 108144475-A0305-02-0014-24
R m 中還原未知的稀疏傅立葉係數(sparse Fourier coefficients)α
Figure 108144475-A0305-02-0014-25
R n 。y=Aα+e中的矩陣A的列是傅立葉基底的已知估計值,並且e被假定為未知的零 平均高斯雜訊向量(zero-mean Gaussian noise vector)。Harmonica演算法在多個階段使用Lasso算法(Lasso algorithm)來解決上述稀疏恢復問題的稀疏傅里葉係數。亦即,在每個階段中,Harmonica演算法從稀疏傅立葉係數中決定一些重要的位元。並且透過固定這些重要的位元,即固定位元,Harmonica演算法對觀測值進行重新採樣、訓練神經網路,並迭代地運行Lasso算法以獲得另一組重要的位元。Harmonica演算法持續執行前述步驟,直到超參數的搜索空間變小到足以讓第二階段的RBFOpt程序可以有效地在限縮的搜索空間進行詳細搜索為止。
在本實施例中,y=Aα+e的詳細內容請參考方程式(1)。
Figure 108144475-A0305-02-0015-5
Figure 108144475-A0305-02-0015-6
代表
Figure 108144475-A0305-02-0015-7
,...,
Figure 108144475-A0305-02-0015-8
,
...超參數配置對應的準確率值(如步驟S404獲得的對應至各測試點的超參數配置的準確率值)。A的每一列如方程式(1)所示,為每一超參數配置(如測試點的超參數配置)的二元值多項式。α 1 ,... n ,...為Lasso演算法求出的傅立葉係數,傅立葉係數可被利用計算出重要因數(importance factor)。
舉例而言,表3及表4表示Harmonica演算法的運算結果。表3揭示藉由Harmonica演算法中的多個階段的近似布林函式(稀疏低階多項式)的最小限制器(minimizer)的平均值的每個位元的符號值決定的固定位元(fixed bits)。在本實施例中,處理 器110將測試點對應的多個準確率值輸入至Harmonica演算法。並且固定位元中值為0的位元代表這些位元未由近似布林函式報告。表4則揭示每個位元對應的重要因數,這些重要因數是從Lasso算法計算出的傅立葉係數(Fourier coefficients)中得出。在一實施例中,Harmonica演算法計算出的一階段的近似布林函式例如表示為方程式(2):f=-2.7561532069 x12 * x14 * x15 * x21+1.2004158501 x0 * x3+1.1040464984 x3 * x11 * x31 * x33-1.0837903652 x11 * x27 * x33 * x39+0.9975212011 x0 * x3 * x25 * x27 (2)
基本上,方程式(2)中各係數的絕對值加1將是各單項式中顯示的位元(bit)的重要因數,例如x12的重要因數可定義為|-2.75|+1=3.75。另外,如果位元同時出現在兩個單項式中,例如x27,則x27的重要因數可定義為|1.083|+|0.977|+1=3.08。表4中示出對於每一位元取得的重要因數,並且處理器110根據固定位元決定限縮的超參數範圍。舉例而言,接續前例,假設對應至批量的固定位元為1,-1對應至子範圍[113,160],則處理器110可以決定批量對應的子範圍[113,160]為批量的限縮後的超參數範圍。
Figure 108144475-A0305-02-0016-9
表4
Figure 108144475-A0305-02-0017-11
此外,本實施例還可以訓練預測早期停止模型(Predictive Early Stopping model)以供後續第二階段使用。「早期停止」一詞過去是指人們應在目標神經網路模型過度擬合之前終止對其的訓練。而本實施例提供的預測早期停止模型是基於頻率迴歸模型(frequentist regression model)來預測目標神經網路模型的最終準確率值。
接續步驟S404,處理器110在使用不同超參數配置訓練目標神經網路的同時會取得多條學習曲線。目標神經網路在訓練第一次時段(epoch)後會獲得一個準確率值,訓練第二次時段後會獲得第二個準確率值,以此類推,每條學習曲線上會有多個時段以及準確率值,例如表5的範例。
Figure 108144475-A0305-02-0017-12
Figure 108144475-A0305-02-0018-13
處理器110會將利用滑動窗口(sliding window)擷取的學習曲線、學習曲線的一次差分、滑動窗口內學習曲線的平均值及測試超參數配置設置為輸入,將第三準確率值設置為輸出,並將多組輸入及多組輸出組合成多組訓練點(步驟S410)。舉例而言,處理器110將表5中的時段01~時段03對應的準確率值(即,學習曲線)、準確率值之間的一次差分(即,學習曲線的一次差分)、準確率值的平均值(即,學習曲線的平均值)以及測試超參數配置的學習率Lr設定為一組輸入資料D1,以及將最終準確值77%設置為第一筆訓練點的輸出資料。隨著滑動窗口向前移動,處理器110將表5中的時段02~時段04對應的準確率值、準確率值之間的一次差分、準確率值的平均值以及測試超參數配置的學習率Lr設定為一組輸入資料D2,以及將最終準確值77%設置為第二筆訓練點的輸出資料。以此類推,表5的資料經整理後可以為表6如下:
Figure 108144475-A0305-02-0018-14
在取得前述多個訓練點後,處理器110利用迴歸模型訓練多個訓練點以建立預測早期停止模型(步驟S412)。訓練完的預 測早期停止模型可用在以不完整的時段訓練目標神經網路模型時,早期預測最終的準確率值,以決定訓練是否可以停止。在本實施例中,迴歸模型例如是支持向量迴歸模型(support vector regression,SVR)模型,本發明不在此限制。
在第二階段:超參數優化中,處理器110會根據限縮後的超參數範圍執行圖3中的RBFOpt程序330,使用全訓練資料集(full training dataset)訓練目標神經網路模型以找到最佳超參數配置。在本實施例中,全訓練資料集包括小的訓練資料集。圖3所示的可訓練權重選擇程序340及預測早期停止程序320將同時協助RBFOpt程序330獲取後選的超參數配置,以快速獲得總體最佳(global optimum)。以下即搭配電子裝置10的各項裝置及元件說明本實施例第二階段超參數優化的詳細步驟。
圖5繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。請同時參照圖1、圖3及圖5,首先,處理器110會取得多個超參數的超參數範圍(步驟S502)。這些超參數範圍可以是經由本實施例第一階段的訓練方法獲得,也可以是利用其他訓練方法獲得,本發明不在此限制。
處理器110從多個超參數的超參數範圍中取樣多個測試超參數配置(步驟S504)。為了利於後續執行RBFOpt程序330,處理器110會先從超參數範圍中取樣足夠的測試超參數配置。取樣測試超參數配置的方法例如是拉丁超立方抽樣(Latin hypercube sampling)或者隨機取樣,本發明不在此限制。
處理器110使用訓練資料集及多個測試超參數配置訓練目標神經網路模型,經過預設時段訓練後獲得對應至多個測試超參數配置的多個第一準確率值(步驟S506)。在一實施例中,步驟S506是利用全訓練資料集與完整的訓練時段進行訓練,並且以完整的驗證資料及進行驗證。
處理器110執行超參數推薦操作(步驟S508)。超參數推薦操作包括RBFOpt程序330。具體而言,RBFOpt程序330是一種確定性算法,可在緊緻定義域(compact domain)下找到連續非凸函數(continuous nonconvex function)的總體最佳值。RBFOpt程序330是基於觀察點集(observation point set),使用徑向基函數(radial basis functions,RBFs)來建立內插函數作為目標函數的代理模型(surrogate model),並定義一個效用函數(utility function),該效用函數的最大化值是要評估該目標函數下一個點。效用函數的定義是插值函數顛坡度的測量倒數。評估了下一個觀察點的驗證準確性後,RBFOpt程序330會將這個新的觀察點迭代內插到內插函數中,並獲得更新的效用函數。RBFOpt程序330會持續執行前述操作直到計算預算(computation budget)耗竭或找到穩定的最小值為止。本實施例提供超參數推薦操作中,RBFOpt程序330更採用了一種推薦最小目標值列表的策略以發現目標函數的總體最佳值。並且同時採用預測早期停止模型介入超參數配置推薦程序。
圖6繪示依據本發明一實施例的超參數推薦操作的流程 圖。本發明提供的超參數推薦操作的具體內容請參照圖6中的步驟S5081~S5083。詳細而言,超參數推薦操作中處理器110可根據多個超參數測試配置及對應的第一準確率值獲得觀察點集。觀察點集包括從步驟S506訓練出的多個測試超參數配置及對應的準確率值。並且,處理器110利用模型優化演算法(model based optimization algorithm)基於觀察點集取得內插函數並取得超參數配置推薦清單(recommended list of HPCs)(步驟S5081)。模型優化演算法例如是徑向基函數演算法,本發明不在此限制。經由模型優化演算法取得的超參數配置推薦清單會包括多個推薦超參數配置,這些推薦超參數配置代表預測可以經由訓練獲得最好準確率值的超參數值配置。超參數配置推薦清單例如表7:
Figure 108144475-A0305-02-0021-15
然而,步驟S5081所推薦的推薦超參數配置有可能推薦錯誤,因此可以先利用少量的資料來測試取得的推薦超參數配置是否具有好的準確率值。首先,處理器110執行可訓練權重選擇程序340來決定為每個超參數配置推薦清單選擇合適的預訓練模 型。具體而言,處理器110利用可訓練權重選擇法(trainable-weight-selecting method)決定分別對應至每一推薦超參數配置的預訓練模型(pre-trained model)(步驟S5082)。可訓練權重選擇法透過先前已訓練過之超參數配置與超參數配置推薦清單中的推薦超參數配置來找出最接近的超參數空間中的「距離」設定作為預訓練模型,並且可訓練權重選擇法的說明如下。從前述Harmonica演算法中的多個先前訓練過的超參數配置對應的訓練模型中,選擇先前訓練過的超參數配置的候選「可訓練權重設定」作為推薦超參數配置的權重設定。被選擇的超參數配置HP 由以下「距離(distance)」方程式(3)決定。被選擇的超參數配置HP 的可訓練權重將被選擇並用於從暖啟動(warm start)訓練超參數配置HP des 的可訓練權重。
HP (HP 的可訓練權重將被選擇並用於從暖啟動訓練HP des 的可訓練權重)
Figure 108144475-A0305-02-0022-16
在方程式(3)中,HP des HP tra 分別表示在每個超參數取實值或整數值的原始超參數空間中被指定的超參數配置以及先前訓練過的超參數配置。bHP des ,bHP tra 分別表示被指定的超參數配置以及先前訓練過的編碼後的超參數配置。每個原始超參數被編碼為多個位元的二值化編碼{-1,1},其中-1代表TRUE,1代表FALSE。 w i 表示第i個位元根據稀疏低階多項式的傅立葉係數α i s決定的重要因數,其中w i =|α i |+1,因此w i 可以假設為
Figure 108144475-A0305-02-0023-26
1。此外,未由Harmonica演算法中近似布林函式報告的位元,他們的w i s被設定為1以避免方程式(3)中的零乘法。accucacy tra 表示Harmonica演算法中先前訓練過的超參數配置的驗證準確率值。
Figure 108144475-A0305-02-0023-18
代表重要因數為1的所有位元的數量。(1-accucacy tra )表示錯誤率。
方程式(3)不僅考慮了指定的超參數配置和先前訓練過的超參數配置在編碼空間中的接近程度,還考慮了重要因數的比例。此外,當方程式(3)第一部分的接近度大致相同時,先前訓練過的超參數配置的準確率值將支配結果。
舉例而言,假設超參數配置中包含超參數HP1及超參數HP2,並且超參數HP1及超參數HP2的值以及經過Harmonica演算法計算後的重要因數、二值化編碼與錯誤率等資料例如下表9所示:
Figure 108144475-A0305-02-0023-17
Figure 108144475-A0305-02-0024-19
在表9中,重要因數為各超參數對應的子範圍的重要因數,此數值可由Harmonica演算法計算得出,詳細的計算方式已如前述,在此不贅述。錯誤率則分別對應至各組訓練過的超參數配置(方程式(3)中的(1-accucacy tra ))。假設超參數配置推薦清單中指定的超參數配置HP1=85(bHP1=b’1,1’)、HP2=1e-3.2(bHP2=b’1,1’)與
Figure 108144475-A0305-02-0024-27
,則指定的超參數配置與訓練過的超參數配置組別1、2的「距離」可分別計算如方程式(4)、(5)如下:(3.5×|1-1|+3.5×|1-1|+2.8×|1-1|+2.8×|1-1|)+(0.13×5)=0.65(4)
(3.5×|1-1|+3.5×|1-(-1)|+2.8×|1-1|+2.8×|1-(-1)|)+(0.1×5)=13.1(5)
經過以上計算,可知指定的超參數配置HP1=85、HP2=1e-3.2與訓練過的超參數配置HP1=80、HP2=1e-3.5的距離比較近。因此處理器110根據組別1對應的可訓練權重資料作為指定的超參數配置的預訓練模型。處理器110根據距離設定推薦超參數配置對應的可訓練權重為預訓練模型的可訓練權重設定。
換句話說,組別1的可訓練權重資料為設置到目標神經 網路模型的權重資料,因此組別1的可訓練權重資料可以作為目標神經網路模型的訓練起始點(暖啟動)繼續進行訓練。接續步驟S5082,處理器110會使用小的訓練資料集及多個推薦超參數配置分別訓練與所述推薦超參數配置對應的預訓練模型,經過預設時段訓練後獲得對應至推薦超參數配置的多個第二準確率值(步驟S5083)。並且處理器110會利用預測早期停止模型預測對應至多個第二準確率值的多個最終準確率值(步驟S5084)。在本實施例中,步驟S5083中用於訓練的訓練資料集的資料量小於步驟S506中用於訓練的訓練資料集的資料量,並且預設時段訓練的次數小於步驟S506中預設時段訓練的次數。
在另一實施例中,步驟S560是利用全訓練資料集與完整的訓練時段進行訓練,並且以完整的驗證資料及進行驗證。因此步驟S560的訓練資料集的資料量和訓練時段的次數大於步驟S5083及第一階段中步驟S404的資料量及訓練次數。其中,第一階段中步驟S404的資料量及訓練次數可以大於步驟S5083,本發明不在此限制。
在本實施例中,步驟S5083是利用小的訓練資料集與不完整的訓練時段進行訓練。詳細而言,處理器110可以使用小的訓練資料集及推薦超參數配置,並且同時利用預訓練模型的可訓練權重設定繼續進行訓練,以在訓練預設時段後獲得對應至推薦超參數配置的準確率值。由於此步驟是訓練不完整的時段,因此在獲得準確率值後,本實施例還利用預測早期停止程序320預測最 終準確率值。早期停止程序320藉由預測早期停止模型來預測未完整訓練的準確率值對應的最終準確率值,可以減少訓練多個時段需花費的時間。
舉例而言,以批量為例,處理器110利用小的訓練資料集及批量119,訓練預訓練模型第20個時段後獲得的準確率值例如是39%,利用小的訓練資料集及批量138訓練預訓練模型第20個時段後獲得的準確率值例如是42%。此時,處理器110會使用預測早期停止模型來預測訓練預訓練模型第50個時段或更多次數後獲得的準確率值。預測的準確率值例如下表9所示,批量119的預測準確率值為43%,批量138的預測準確率值為87%。
Figure 108144475-A0305-02-0026-20
在執行超參數推薦操作後,處理器110選擇具有最高預測值的最終準確率值對應的第一推薦超參數配置作為繼續訓練目標神經網路模型的超參數設定(步驟S510)。並且,處理器110使用完整的訓練資料集及設置的超參數設定訓練目標神經網路模型,經過完整的訓練時段(例如100個時段)後獲得最後的準確率值。
圖7繪示依據本發明一實施例的深度神經網路超參數選擇方法的流程圖。圖7中的步驟S702~S708與圖5中的步驟S502~S508內容相同,請參照步驟S502~S508對應的說明。請參 照圖7,以下說明步驟S709~S710的技術內容。在另一實施例中,處理器110還可以使用訓練資料集及具有最高預測值的最終準確率值對應的第一推薦超參數配置訓練目標神經網路模型,經過預設時段訓練後獲得對應至第一推薦超參數配置的準確率值(步驟S7091)。在本實施例中,此步驟用於訓練的訓練資料集為全訓練資料集,並且預設時段為完整的訓練時段。
處理器110增加第一推薦超參數配置及第一推薦超參數配置對應的準確率值至觀察點集以更新觀察點集(步驟S7092)。並且處理器110判斷計算預算是否耗竭(步驟S7093)。如果計算預算已經耗竭(步驟S7093判斷為是),則處理器110會從觀察點集中選擇具有最高第一準確率值的超參數配置設置為目標神經網路模型的超參數設定(步驟S710)。如果計算預算還沒耗竭(步驟S7093判斷為否),則再次回到步驟S708根據更新的觀察點集執行超參數推薦操作,直到計算預算用完。
換句話說,在步驟S709,完整訓練出第一推薦超參數配置對應的準確率值後,處理器110將第一推薦超參數配置及第一推薦超參數配置對應的準確率值將增至觀察點集以更新觀察點集。處理器110根據更新後的觀察點集再次執行超參數推薦操作。處理器110會不斷重覆步驟S709直到計算預算用完。且計算運算用完後,處理器110會從多個第一準確率值中選擇對應的準確率值最高的超參數配置作為目標神經網路模型訓練的最終超參數設定。
綜上所述,本發明提供的深度神經網路超參數選擇方法 及電子裝置可自動化優化神經網路的超參數配置。基此,本發明可減少神經網路的訓練量,達到快速優化神經網路模型的超參數配置的目的。
S702~S710:步驟

Claims (16)

  1. 一種深度神經網路超參數選擇方法,適用於分析目標神經網路模型的多個超參數配置,其中每一所述多個超參數配置包括多個超參數,所述方法包括:取得超參數範圍,其中取得所述超參數範圍的步驟包括:二值化編碼所述超參數配置中的每一所述多個超參數的參數範圍為多個參數子範圍,並在包括二值化編碼後的所述多個參數子範圍的全範圍內取樣多個測試點;以及使用第二訓練資料集及各所述多個測試點的所述超參數配置訓練所述目標神經網路模型,經過第三預設時段訓練後獲得對應至所述多個測試點的多個第三準確率值;從所述多個超參數的所述超參數範圍中取樣多個測試超參數配置;使用第一訓練資料集及所述多個測試超參數配置訓練所述目標神經網路模型,經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值;執行超參數推薦操作,其中所述超參數推薦操作包括:利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單,其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值,其中所述超參數配置推薦清單包括多個推薦超參數配置;利用可訓練權重選擇法決定分別對應至每一所述多個推 薦超參數配置的預訓練模型;使用所述第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型,經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值;以及利用預測早期停止模型預測對應至所述多個第二準確率值的多個最終準確率值;以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。
  2. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中所述第一訓練資料集的資料量大於所述第二訓練資料集的資料量。
  3. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中所述第一預設時段大於所述第二預設時段。
  4. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中所述方法更包括:使用所述第一訓練資料集及具有最高預測值的所述最終準確率值對應的所述第一推薦超參數配置訓練所述目標神經網路模型,經過所述第一預設時段訓練後獲得對應至所述第一推薦超參數配置的所述第一準確率值;增加所述第一推薦超參數配置及所述第一準確率值至所述觀察點集以更新所述觀察點集,並根據更新的所述觀察點集執行所 述超參數推薦操作;以及當計算預算耗竭時,從所述觀察點集中選擇具有最高第一準準確率值的超參數配置設置為所述目標神經網路模型的所述超參數設定。
  5. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中利用所述可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的所述預訓練模型的步驟包括:計算所述推薦超參數配置及訓練過的每一所述超參數配置在超參數空間中的距離;以及根據所述距離設定所述推薦超參數配置對應的可訓練權重為所述預訓練模型的可訓練權重設定。
  6. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中取得所述超參數範圍的步驟包括:利用Harmonica演算法與所述第三準確率值決定所述多個超參數對應的多個固定位元;以及根據所述多個固定位元決定每一所述多個超參數對應的所述超參數範圍。
  7. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中所述方法更包括:將利用滑動窗口擷取的學習曲線、所述學習曲線的一次差分、所述滑動窗口內所述學習曲線的平均值以及所述測試超參數配置設置為輸入,將所述第三準確率值設置為輸出,並將所述輸入及所 述輸出組合成一組訓練點;以及利用迴歸模型訓練多個所述訓練點以建立所述預測早期停止模型。
  8. 如申請專利範圍第1項所述的深度神經網路超參數選擇方法,其中所述第三預設時段大於所述第二預設時段,並且所述第三預設時段小於所述第一預設時段。
  9. 一種電子裝置,適用於分析目標神經網路模型的多個超參數配置,其中每一所述多個超參數配置包括多個超參數,所述電子裝置包括:儲存裝置,儲存一或多個指令;以及處理器,耦接所述儲存裝置,所述處理器經配置以執行所述指令以:取得超參數範圍,其中取得所述超參數範圍的運作包括:二值化編碼所述超參數配置中的每一所述多個超參數的參數範圍為多個參數子範圍,並在包括二值化編碼後的所述多個參數子範圍的全範圍內取樣多個測試點;以及使用第二訓練資料集及各所述多個測試點的所述超參數配置訓練所述目標神經網路模型,經過第三預設時段訓練後獲得對應至所述多個測試點的多個第三準確率值;從所述多個超參數的所述超參數範圍中取樣多個測試超參數配置;使用第一訓練資料集及所述多個測試超參數配置訓練所 述目標神經網路模型,經過第一預設時段訓練後獲得對應至所述多個測試超參數配置的多個第一準確率值;執行超參數推薦操作,其中所述超參數推薦操作包括:利用模型優化演算法基於觀察點集取得內插函數並取得超參數配置推薦清單,其中所述觀察點集包括所述多個測試超參數配置及所述多個第一準確率值,其中所述超參數配置推薦清單包括多個推薦超參數配置;利用可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的預訓練模型;使用所述第二訓練資料集及所述多個推薦超參數配置分別訓練與所述多個推薦超參數配置對應的所述預訓練模型,經過第二預設時段訓練後獲得對應至所述多個推薦超參數配置的多個第二準確率值;以及利用預測早期停止模型預測對應至所述多個第二準確率值的多個最終準確率值;以及選擇具有最高預測值的所述最終準確率值對應的第一推薦超參數配置作為繼續訓練所述目標神經網路模型的超參數設定。
  10. 如申請專利範圍第9項所述的電子裝置,其中所述第一訓練資料集的資料量大於所述第二訓練資料集的資料量。
  11. 如申請專利範圍第9項所述的電子裝置,其中所述第一預設時段大於所述第二預設時段。
  12. 如申請專利範圍第9項所述的電子裝置,其中所述處理器更經配置以:使用所述第一訓練資料集及具有最高預測值的所述最終準確率值對應的所述第一推薦超參數配置訓練所述目標神經網路模型,經過所述第一預設時段訓練後獲得對應至所述第一推薦超參數配置的所述第一準確率值;增加所述第一推薦超參數配置及所述第一準確率值至所述觀察點集以更新所述觀察點集,並根據更新的所述觀察點集執行所述超參數推薦操作;以及當計算預算耗竭時,從觀察點集中選擇具有最高第一準確率值的超參數配置設置為所述目標神經網路模型的所述超參數設定。
  13. 如申請專利範圍第9項所述的電子裝置,其中利用所述可訓練權重選擇法決定分別對應至每一所述多個推薦超參數配置的所述預訓練模型的運作中,所述處理器更經配置以:計算所述推薦超參數配置及訓練過的每一所述超參數配置在超參數空間中的距離;以及根據所述距離設定所述超參數配置對應的可訓練權重為所述預訓練模型的可訓練權重設定。
  14. 如申請專利範圍第9項所述的電子裝置,其中取得所述超參數範圍的運作中,所述處理器更經配置以:利用Harmonica演算法與所述第三準確率值決定所述多個超參數對應的多個固定位元;以及 根據所述多個固定位元決定每一所述多個超參數對應的所述超參數範圍。
  15. 如申請專利範圍第9項所述的電子裝置,其中所述處理器更經配置以:利用滑動窗口擷取的學習曲線、所述學習曲線的一次差分、所述滑動窗口內所述學習曲線的平均值以及所述測試超參數配置設置為輸入,將所述第三準確率值設置為輸出,並將所述輸入及所述輸出組合成一組訓練點;以及利用迴歸模型訓練多個所述訓練點以建立所述預測早期停止模型。
  16. 如申請專利範圍第9項所述的電子裝置,其中所述第三預設時段大於所述第二預設時段,並且所述第三預設時段小於所述第一預設時段。
TW108144475A 2019-12-05 2019-12-05 深度神經網路超參數選擇方法及電子裝置 TWI769418B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108144475A TWI769418B (zh) 2019-12-05 2019-12-05 深度神經網路超參數選擇方法及電子裝置
US16/729,480 US11537893B2 (en) 2019-12-05 2019-12-30 Method and electronic device for selecting deep neural network hyperparameters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108144475A TWI769418B (zh) 2019-12-05 2019-12-05 深度神經網路超參數選擇方法及電子裝置

Publications (2)

Publication Number Publication Date
TW202123098A TW202123098A (zh) 2021-06-16
TWI769418B true TWI769418B (zh) 2022-07-01

Family

ID=76210935

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108144475A TWI769418B (zh) 2019-12-05 2019-12-05 深度神經網路超參數選擇方法及電子裝置

Country Status (2)

Country Link
US (1) US11537893B2 (zh)
TW (1) TWI769418B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797340B2 (en) * 2020-05-14 2023-10-24 Hewlett Packard Enterprise Development Lp Systems and methods of resource configuration optimization for machine learning workloads
CN113254785B (zh) * 2021-06-21 2021-10-08 腾讯科技(深圳)有限公司 推荐模型训练方法、推荐方法和相关设备
US20230068816A1 (en) * 2021-08-26 2023-03-02 International Business Machines Corporation Providing a machine learning model based on desired metric values
CN114118414A (zh) * 2021-11-30 2022-03-01 广东海洋大学 一种基于稀疏响应面的深度学习算法超参数优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180024509A1 (en) * 2016-07-25 2018-01-25 General Electric Company System modeling, control and optimization
CN109635930A (zh) * 2018-12-11 2019-04-16 西安第六镜网络科技有限公司 一种深度神经网络的优化方法
TW201923664A (zh) * 2017-11-15 2019-06-16 財團法人資訊工業策進會 模型生成伺服器及其模型生成方法
CN110210609A (zh) * 2019-06-12 2019-09-06 北京百度网讯科技有限公司 基于神经框架搜索的模型训练方法、装置以及终端

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330362B2 (en) 2013-05-15 2016-05-03 Microsoft Technology Licensing, Llc Tuning hyper-parameters of a computer-executable learning algorithm
US10409165B2 (en) 2014-12-15 2019-09-10 Asml Netherlands B.V. Optimization based on machine learning
US10275719B2 (en) 2015-01-29 2019-04-30 Qualcomm Incorporated Hyper-parameter selection for deep convolutional networks
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US20180121814A1 (en) * 2016-10-31 2018-05-03 Microsoft Technology Licensing, Llc Hyperparameter tuning
CN106570657A (zh) 2016-11-14 2017-04-19 国家电网公司 一种电网评价指标权重确定方法
EP3625689A4 (en) 2017-05-17 2021-04-28 Sigopt, Inc. SYSTEMS AND PROCESSES IMPLEMENTING AN INTELLIGENT OPTIMIZATION PLATFORM
US11270217B2 (en) 2017-11-17 2022-03-08 Intel Corporation Systems and methods implementing an intelligent machine learning tuning system providing multiple tuned hyperparameter solutions
US11868854B2 (en) * 2019-05-30 2024-01-09 Oracle International Corporation Using metamodeling for fast and accurate hyperparameter optimization of machine learning and deep learning models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180024509A1 (en) * 2016-07-25 2018-01-25 General Electric Company System modeling, control and optimization
TW201923664A (zh) * 2017-11-15 2019-06-16 財團法人資訊工業策進會 模型生成伺服器及其模型生成方法
CN109635930A (zh) * 2018-12-11 2019-04-16 西安第六镜网络科技有限公司 一种深度神经网络的优化方法
CN110210609A (zh) * 2019-06-12 2019-09-06 北京百度网讯科技有限公司 基于神经框架搜索的模型训练方法、装置以及终端

Also Published As

Publication number Publication date
US20210174210A1 (en) 2021-06-10
TW202123098A (zh) 2021-06-16
US11537893B2 (en) 2022-12-27

Similar Documents

Publication Publication Date Title
TWI769418B (zh) 深度神經網路超參數選擇方法及電子裝置
Ranstam et al. LASSO regression
JP4627674B2 (ja) データ処理方法及びプログラム
JP6743934B2 (ja) 観測変数間の因果関係を推定するための方法、装置、およびシステム
WO2021007812A1 (zh) 一种深度神经网络超参数优化方法、电子设备及存储介质
Baumann et al. Reliable estimation of prediction errors for QSAR models under model uncertainty using double cross-validation
US20200042896A1 (en) Method and apparatus for selecting model of machine learning based on meta-learning
US20220147877A1 (en) System and method for automatic building of learning machines using learning machines
JP4591794B2 (ja) 情報処理装置および方法、並びにプログラム
Li et al. The max-min high-order dynamic Bayesian network for learning gene regulatory networks with time-delayed regulations
Ghanbari et al. Reconstruction of gene networks using prior knowledge
JP2019046031A (ja) 最適解探索方法、最適解探索プログラム及び最適解探索装置
US20210004727A1 (en) Hyper-parameter tuning method for machine learning algorithms using pattern recognition and reduced search space approach
JP2014160456A (ja) 疎変数最適化装置、疎変数最適化方法および疎変数最適化プログラム
CN111967941B (zh) 一种构建序列推荐模型的方法和序列推荐方法
JP2020067910A (ja) 学習曲線予測装置、学習曲線予測方法、およびプログラム
WO2022215559A1 (ja) ハイブリッドモデル作成方法、ハイブリッドモデル作成装置、及び、プログラム
Wang et al. Gaussian Process-Based Random Search for Continuous Optimization via Simulation
JP2009265729A (ja) 推定装置および方法、並びにプログラム
CN115329146A (zh) 时序网络中的链路预测方法、电子设备及存储介质
Abbas et al. Volterra system identification using adaptive genetic algorithms
WO2019198408A1 (ja) 学習装置、学習方法、及び学習プログラム
TWI819627B (zh) 用於深度學習網路的優化方法、運算裝置及電腦可讀取媒體
US20230229971A1 (en) Systems and methods for optimizing a machine learning model
WO2023087759A1 (zh) 一种深度学习模型的测试方法和装置