TWI792216B

TWI792216B - 強化學習系統及訓練方法

Info

Publication number: TWI792216B
Application number: TW110108681A
Authority: TW
Inventors: 彭宇劭; 湯凱富; 張智威
Original assignee: 宏達國際電子股份有限公司
Priority date: 2020-03-11
Filing date: 2021-03-11
Publication date: 2023-02-11
Also published as: US20210287088A1; CN113392979A; TW202134960A

Abstract

一種訓練方法，適用於具有一獎勵函數的一強化學習系統去訓練一強化學習模型，且包含：定義該獎勵函數的至少一獎勵條件；決定相對應於該至少一獎勵條件的至少一獎勵值範圍；藉由超參數最佳化演算法從該至少一獎勵值範圍中搜尋出至少一獎勵值；以及根據該至少一獎勵值訓練該強化學習模型。本揭示內容更提供一種強化學習系統用以執行該訓練方法。

Description

強化學習系統及訓練方法

本揭示內容係有關於一種強化學習系統及訓練方法，特別是指一種用於訓練強化學習模型的強化學習系統及訓練方法。

為了訓練神經網路模型，當代理人滿足至少一獎勵條件（例如：代理人響應於特定狀態執行合適的動作），至少一獎勵值就會提供給代理人。不同的獎勵條件通常對應於不同的獎勵值。然而，根據獎勵值的不同組合訓練出來的神經網路模型，會因為獎勵值的多種組合（或設定）之間的細微差異而得到不同的成功率。實務上，系統設計者通常憑直覺設定獎勵值，如此可能導致由此訓練的神經網路模型有不佳的成功率。因此，系統設計者可能需要花上大量時間去重設獎勵值以及重新訓練神經網路模型。

本揭示內容的一態樣為一訓練方法。該訓練方法適用於具有一獎勵函數的一強化學習系統去訓練一強化學習模型，且包含：定義該獎勵函數的至少一獎勵條件；決定相對應於該至少一獎勵條件的至少一獎勵值範圍；藉由超參數最佳化演算法從該至少一獎勵值範圍中搜尋出至少一獎勵值；以及根據該至少一獎勵值訓練該強化學習模型。

本揭示內容的另一態樣為一訓練方法。該訓練方法適用於具有一獎勵函數的一強化學習系統去訓練一強化學習模型，其中，該強化學習模型是用以根據複數個輸入向量的值來選擇一動作，該訓練方法包含：將該些輸入向量編碼為複數個嵌入向量；決定相對應於該些嵌入向量的複數個獎勵值範圍；藉由超參數最佳化演算法從該些獎勵值範圍中搜尋出複數個獎勵值；以及根據該些獎勵值訓練該強化學習模型。

本揭示內容的另一態樣為具有一獎勵函數的一強化學習系統。該強化學習系統適用於訓練一強化學習模型，且包含一記憶體以及一處理器。該記憶體用於儲存至少一程式碼。該處理器用於執行該至少一程式碼，以執行下列操作：定義該獎勵函數的至少一獎勵條件；決定相對應於該至少一獎勵條件的至少一獎勵值範圍；藉由超參數最佳化演算法從該至少一獎勵值範圍中搜尋出至少一獎勵值；以及根據該至少一獎勵值訓練該強化學習模型。

本揭示內容的另一態樣為具有一獎勵函數的一強化學習系統。該強化學習系統適用於訓練一強化學習模型，其中，該強化學習模型是用以根據複數個輸入向量的值來選擇一動作，且該強化學習系統包含一記憶體以及一處理器。該記憶體用於儲存至少一程式碼。該處理器用於執行該至少一程式碼，以執行下列操作：將該些輸入向量編碼為複數個嵌入向量；決定相對應於該些嵌入向量的複數個獎勵值範圍；藉由超參數最佳化演算法從該些獎勵值範圍中搜尋出複數個獎勵值；以及根據該些獎勵值訓練該強化學習模型。

於上述實施例中，在沒有通過實驗人工決定精確數值的情況下，強化學習系統可自動地決定與多種獎勵條件相對應的多個獎勵值。據此，訓練強化學習模型的過程或時間可以縮短。綜上，藉由自動地決定與多種獎勵條件相對應的多個獎勵值，經由強化學習系統訓練出來的強化學習模型有很大的機會擁有高的成功率，從而能選擇合適的動作。

下文係舉實施例配合所附圖式作詳細說明，但所描述的具體實施例僅用以解釋本案，並不用來限定本案，而結構操作之描述非用以限制其執行之順序，任何由元件重新組合之結構，所產生具有均等功效的裝置，皆為本揭示內容所涵蓋的範圍。

關於本文中所使用之「耦接」或「連接」，均可指二或多個元件相互直接作實體或電性接觸，或是相互間接作實體或電性接觸，亦可指二或多個元件相互操作或動作。

請參閱第1圖，第1圖為根據本揭示內容的部分實施例繪示的一強化學習系統100。強化學習系統100具有一獎勵函數，包含一強化學習代理人110以及一互動環境120，且被實現為可由一記憶體（圖中未示）儲存且由一處理器（圖中未示）執行的一或多個程式碼。強化學習代理人110與互動環境120與彼此進行互動。如此設置的話，強化學習系統100可訓練一強化學習模型130。

於部分實施例中，處理器可以藉由一或多個中央處理單元（CPU）、特殊應用積體電路（ASIC）、微處理器、系統單晶片（SoC）、圖形處理器（GPU）或其他合適的處理單元來實現。記憶體可以藉由非暫態電腦可讀取儲存媒體（例如：隨機存取記憶體（RAM）、唯讀記憶體（ROM）、硬式磁碟機（HDD）、固態硬碟（SSD））來實現。

如第1圖所示，互動環境120用以接收訓練資料TD，且根據訓練資料TD從表徵互動環境120的複數個狀態中選擇一當前狀態STA來提供。於部分實施例中，互動環境120不需要訓練資料TD也能提供當前狀態STA。強化學習代理人110用以響應於當前狀態STA來執行一動作ACT。具體而言，強化學習代理人110會利用強化學習模型130來從複數個候選動作中選出動作ACT。於部分實施例中，複數個獎勵條件是根據狀態與候選動作的不同組合而定義出來的。在強化學習代理人110執行動作ACT之後，互動環境120評估響應於當前狀態STA而執行的動作ACT是否滿足獎勵條件的其中之一。據此，互動環境120提供與所述獎勵條件的其中之一相對應的一獎勵值REW給強化學習代理人110。

互動環境120經由強化學習代理人110執行的動作ACT從當前狀態STA轉變為一新狀態。強化學習代理人110會再次響應於新狀態而執行另一動作，以取得另一獎勵值。於部分實施例中，強化學習代理人110訓練強化學習模型130（例如：調整強化學習模型130的一組參數）以最大化從互動環境120蒐集來的獎勵值的總和。

一般來說，會在訓練強化學習模型130之前決定好與獎勵條件相對應的獎勵值。以玩圍棋的第一個例子來說，提供二個獎勵條件以及二個相對應的獎勵值。第一個獎勵條件為代理人贏了圍棋比賽，且第一個獎勵值相對應地被設為“+1”。第二個獎勵條件為代理人輸了圍棋比賽，且第二個獎勵值相對應地被設為“-1”。代理人根據第一與第二獎勵值訓練神經網路模型（圖中未示），以取得一第一成功率。以玩圍棋的第二個例子來說，第一個獎勵值被設為“+2”，第二個獎勵值被設為“-2”，且取得一第二成功率。為了取得成功率（例如：第一成功率、第二成功率），經代理人訓練過後的神經網路模型會被使用來玩很多場圍棋比賽。於部分實施例中，圍棋比賽的勝利場數會除以圍棋比賽的總場數，以計算出成功率。

由於第一個例子的獎勵值以及第二個例子的獎勵值只有些微的不同，本領域技術人員通常認為第一成功率會等於第二成功率。據此，本領域技術人員在訓練神經網路模型時幾乎不會在第一個例子的獎勵值以及第二個例子的獎勵值之間做選擇。然而，根據實際的實驗結果，第一個例子的獎勵值以及第二個例子的獎勵值之間的些微不同會導致不同的成功率。因此，提供適當的獎勵值對於訓練神經網路模型來說相當重要。

請參閱第2圖，第2圖描述了根據本揭示內容的部分實施例的一訓練方法200。第1圖中的強化學習系統100可以執行訓練方法200，從而提供適當的獎勵值來訓練強化學習模型130。然而，本揭示內容並不被限於此。如第2圖所示，訓練方法200包含操作S201~S204。

於操作S201，強化學習系統100定義獎勵函數的至少一獎勵條件。於部分實施例中，可藉由接收使用者預先定義的一參考表（圖中未示）來定義獎勵條件。

於操作S202，強化學習系統100決定相對應於至少一獎勵條件的至少一獎勵值範圍。於部分實施例中，可根據使用者提供且儲存於記憶體的一或多個規則（圖中未示）來決定獎勵值範圍。具體而言，每個獎勵值範圍包含複數個選定獎勵值。於部分實施例中，每個選定獎勵值可為整數或浮點數。

以控制機器手臂將水倒入杯子為例，定義了四個獎勵條件A~D，且決定了與獎勵條件A~D相對應的四個獎勵值範圍REW[A]~REW[D]。具體而言，獎勵條件A為機械手臂空手並向杯子移動，且獎勵值範圍REW[A]為“+1”到“+5”。獎勵條件B為機械手臂拿著裝滿水的水壺，且獎勵值範圍REW[B]為“+1”到“+4”。獎勵條件C為機械手臂拿著裝滿水的水壺並將水倒入杯子，且獎勵值範圍REW[C]為“+1”到“+9”。獎勵條件D為機械手臂拿著裝滿水的水壺並將水倒到杯子外面，且獎勵值範圍REW[D]為“-5”到“-1”。

於操作S203，強化學習系統100從至少一獎勵值範圍的選定獎勵值中搜尋出至少一獎勵值。具體而言，可藉由超參數最佳化演算法搜尋出至少一獎勵值。

請參閱第3圖，於部分實施例中，操作S203包含子操作S301~S306。於子操作S301，強化學習系統100從至少一獎勵值範圍中選擇一第一獎勵值組合（例如：從獎勵值範圍REW[A]選擇“+1”，從獎勵值範圍REW[B]選擇“+1”，從獎勵值範圍REW[C]選擇“+1”以及從獎勵值範圍REW[D]選擇“-1”）。於子操作S302，強化學習系統100根據第一獎勵值組合訓練以及驗證強化學習模型130，來取得一第一成功率（例如：65%）。於子操作S303，強化學習系統100從至少一獎勵值範圍中選擇一第二獎勵值組合（例如：從獎勵值範圍REW[A]選擇“+2”，從獎勵值範圍REW[B]選擇“+2”，從獎勵值範圍REW[C]選擇“+2”以及從獎勵值範圍REW[D]選擇“-2”）。於子操作S304，強化學習系統100根據第二獎勵值組合訓練以及驗證強化學習模型130，來取得一第二成功率（例如：72%）。於子操作S305，強化學習系統100拒絕與成功率較低者所對應的獎勵值組合（例如：拒絕前述第一獎勵值組合）。於子操作S306，強化學習系統100決定另一個獎勵值組合（例如：前述第二獎勵值組合）為至少一獎勵值。

於部分實施例中，子操作S301~S305將被重複執行直到只剩下相對應於最高成功率的獎勵值組合還留著。據此，子操作S306才被執行，以將最後一個未被拒絕的獎勵值組合決定為至少一獎勵值。

於其他實施例中，在子操作S304被執行後，強化學習系統100比較第一成功率以及第二成功率，從而決定與成功率較高者所對應的獎勵值組合（例如前述第二獎勵值組合）為至少一獎勵值。

於部分實施例中，可組合子操作S301與子操作S303以同時執行。據此，強化學習系統100從至少一獎勵值範圍中選擇至少二個獎勵值組合。舉例而言，第一個獎勵值組合可包含分別從獎勵值範圍REW[A]~REW[D]所選擇出來的“+1”、“+1”、“+1”與“-1”。第二個獎勵值組合可包含分別從獎勵值範圍REW[A]~REW[D]所選擇出來的“+3”、“+2”、“+5”與“-3”。第三個獎勵值組合可包含分別從獎勵值範圍REW[A]~REW[D]所選擇出來的“+5”、“+4”、“+9”與“-5”。

子操作S302與子操作S304也可組合，且組合的子操作S302與S304可在組合的子操作S301與S303被執行後執行。據此，強化學習系統100根據至少二個獎勵值組合訓練強化學習模型130，且藉由驗證強化學習模型130來取得至少二個成功率。舉例而言，根據第一個獎勵值組合（包含“+1”、“+1”、“+1”與“-1”）取得第一成功率（例如：65%）。根據第二個獎勵值組合（包含“+3”、“+2”、“+5”與“-3”）取得第二成功率（例如：75%）。根據第三個獎勵值組合（包含“+5”、“+4”、“+9”與“-5”）取得第三成功率（例如：69%）。

在組合的子操作S302與S304被執行後，另一子操作也被執行，從而使強化學習系統100拒絕與較低的成功率相對應的至少一個獎勵值組合。於部分實施例中，僅有與第一成功率（例如：65%）相對應的第一個獎勵值組合被拒絕。第二個獎勵值組合以及第三個獎勵值組合接著被強化學習系統100使用，以進一步地訓練已經在組合的子操作S302與S304中經過訓練且驗證過的強化學習模型130。在根據第二個獎勵值組合以及第三個獎勵值組合訓練強化學習模型130後，強化學習系統100進一步地驗證強化學習模型130。如此一來，可取得一新的第二成功率以及一新的第三成功率。強化學習系統100拒絕與成功率較低者（新的第二成功率或新的第三成功率）所對應的一獎勵值組合（第二個獎勵值組合或第三個獎勵值組合）。據此，強化學習系統100決定第二個獎勵值組合與第三個獎勵值組合中的其中另一個為至少一獎勵值。

於前述實施例中，強化學習系統100一開始僅拒絕與第一成功率（例如：65%）相對應的第一個獎勵值組合，而後才又拒絕另一個獎勵值組合（第二個獎勵值組合或第三個獎勵值組合）。然而，本揭示並不限於此。於其他實施例中，強化學習系統100直接拒絕與第一成功率（例如：65%）相對應的第一個獎勵值組合以及與第三成功率（例如：69%）相對應的第三個獎勵值組合。據此，強化學習系統100決定與最高的成功率（例如：75%）相對應的第二個獎勵值組合為至少一獎勵值。

請參閱第4圖，於其他實施例中，操作S203包含子操作S311~S313。於子操作S311，強化學習系統100將基於選定獎勵值中的每一個所產生的複數個獎勵值組合（例如：假設強化學習系統100定義了兩個獎勵條件，對應獎勵值範圍REW[A]與REW[B]，獎勵值範圍REW[A]例如為(+1,+2,+3)以及獎勵值範圍REW[B] 例如為(-2,-1,0)，如此基於選定獎勵值中的每一個所產生的複數個獎勵值組合包含有(+1,-1)、(+1,0)、(+1,-2)、(+2,-1)、(+2,-2) 、(+2,0)、(+3,-2)、(+3,-1)、(+3,0)等9組獎勵值組合）應用於強化學習模型130。於子操作S312，強化學習系統100根據該些獎勵值組合訓練以及驗證強化學習模型130，來取得複數個成功率。於子操作S313，強化學習系統100決定與成功率最高者所對應的一獎勵值組合為至少一獎勵值。

於其他實施例中，獎勵值範圍可能包含無限多個數值。據此，預定數量的選定獎勵值可從無限多個數值取樣而來，而強化學習系統100可將基於預定數量的選定獎勵值所形成的複數個獎勵值組合應用於強化學習模型130。

在獎勵值於操作S203中決定後，執行操作S204。於操作S204，強化學習系統100根據獎勵值訓練強化學習模型130。

於上述實施例中，由於獎勵條件有多個，每個獎勵值組合可能包含來自不同獎勵值範圍（例如獎勵值範圍REW[A]~REW[D]）的多個選定獎勵值。然而，本揭示並不限於此。於其他實際應用的例子中，也可僅定義一個獎勵條件以及相對應的一個獎勵值範圍。據此，每個獎勵值組合也可能僅包含一個選定獎勵值。

請參閱第5圖，於部分實施例中，操作S204包含子操作S401~S405。如第1圖所示，於子操作S401，互動環境120根據訓練資料TD提供當前狀態STA。於其他實施例中，互動環境120不需要訓練資料TD也可以提供當前狀態STA。於子操作S402，響應於當前狀態STA，強化學習代理人110使用強化學習模型130來從候選動作中選擇出動作ACT。於子操作S403，強化學習代理人110執行動作ACT，以和互動環境120進行互動。於子操作S404，互動環境120根據響應於當前狀態STA而執行的動作ACT判斷獎勵條件是否滿足，來選擇性地提供獎勵值。於子操作S405，響應於動作ACT，互動環境120提供自當前狀態STA轉變過來的一新狀態。強化學習模型130的訓練包含複數個訓練階段。在每個訓練階段中會重複執行子操作S401~S405。當所有訓練階段都完成後，強化學習模型130的訓練即完成。舉例而言，每個訓練階段均可對應於一場圍棋比賽，使得強化學習代理人110在強化學習模型130的訓練過程中可能要進行多場圍棋比賽。

請參閱第6圖，第6圖為根據本揭示內容的其他實施例繪示的一強化學習系統300。相較於第1圖的強化學習系統100，強化學習系統300更包含一自動編碼器140。自動編碼器140耦接於互動環境120且包含一編碼器401以及一解碼器403。

請參閱第7圖，第7圖描述了根據本揭示內容的其他實施例的另一訓練方法500。第6圖中的強化學習系統300可以執行訓練方法500，從而提供適當的獎勵值來訓練強化學習模型130。於部分實施例中，強化學習模型130用以根據複數個輸入向量的值來選擇出候選動作的其中一個（例如：第6圖所示的動作ACT）。如第7圖所示，訓練方法500包含操作S501~S504。

於操作S501，強化學習系統300將該些輸入向量編碼為複數個嵌入向量。請參閱第8圖，於部分實施例中，輸入向量Vi[1]~Vi[m]經由編碼器401編碼為嵌入向量Ve[1]~Ve[3]，其中m為正整數。每個輸入向量Vi[1]~Vi[m]均包含相對應於所選動作與當前狀態的組合的多個數值。於一些實際應用的例子中，當前狀態可為機械手臂的位置、機械手臂的角度或機械手臂的旋轉狀態，而所選動作包含水平向右移動、水平向左移動以及轉動機械手臂的手腕。嵌入向量Ve[1]~Ve[3]攜帶與不同向量維度的輸入向量Vi[1]~Vi[m]等效的資訊，且可以經由強化學習系統300的互動環境120辨識。據此，嵌入向量Ve[1]~Ve[3]可以被解碼以再次恢復為輸入向量Vi[1]~Vi[m]。

於其他實施例中，嵌入向量Ve[1]~Ve[3]的定義或意義並無法經由人來辨識。強化學習系統300可以驗證嵌入向量Ve[1]~Ve[3]。如第8圖所示，嵌入向量Ve[1]~Ve[3]被解碼為複數個輸出向量Vo[1]~Vo[n]，其中n為正整數且與m相等。輸出向量Vo[1]~Vo[n]接著被拿來與輸入向量Vi[1]~Vi[m]比對以驗證嵌入向量Ve[1]~Ve[3]。於部分實施例中，當輸出向量Vo[1]~Vo[n]的值與輸入向量Vi[1]~Vi[m]的值相等時，嵌入向量Ve[1]~Ve[3]即得到驗證。值得注意的是，輸出向量Vo[1]~Vo[n]的值可以幾乎與輸入向量Vi[1]~Vi[m]的值相等就好。換句話說，輸出向量Vo[1]~Vo[n]中的少數幾個值可能不同於輸入向量Vi[1]~Vi[m]中相對應的少數幾個值。於其他實施例中，當輸出向量Vo[1]~Vo[n]的值與輸入向量Vi[1]~Vi[m]的值完全不相等時，嵌入向量Ve[1]~Ve[3]的驗證即失敗，進而使編碼器401重新對輸入向量Vi[1]~Vi[m]進行編碼。

於部分實施例中，輸入向量Vi[1]~Vi[m]的維度與輸出向量Vo[1]~Vo[n]的維度均大於嵌入向量Ve[1]~Ve[3]的維度（例如：m與n均大於3）。

在驗證完嵌入向量後，強化學習系統300執行操作S502。於操作S502，強化學習系統300決定相對應於該些嵌入向量的複數個獎勵值範圍，且每個獎勵值範圍均包含複數個選定獎勵值。於部分實施例中，每個選定獎勵值可為整數或浮點數。以嵌入向量Ve[1]~Ve[3]為例，與嵌入向量Ve[1]相對應的獎勵值範圍從“+1”到“+10”，與嵌入向量Ve[2]相對應的獎勵值範圍從“-1”到“-10”，且與嵌入向量Ve[3]相對應的獎勵值範圍從“+7”到“+14”。

於操作S503，強化學習系統300從該些獎勵值範圍中搜尋出複數個獎勵值。具體而言，可藉由超參數最佳化演算法從該些獎勵值範圍中搜尋出該些獎勵值。

請參閱第9圖，於部分實施例中，操作S503包含子操作S601~S606。於子操作S601，強化學習系統300從該些獎勵值範圍中選擇選定獎勵值的第一組合。以嵌入向量Ve[1]~Ve[3]為例，選定獎勵值的第一組合由“+1”、“-1”以及“+7”組成。於子操作S602，強化學習系統300根據選定獎勵值的第一組合訓練以及驗證強化學習模型130，來取得第一成功率（例如：54%）。

於子操作S603，強化學習系統300從該些獎勵值範圍中選擇選定獎勵值的第二組合。以嵌入向量Ve[1]~Ve[3]為例，選定獎勵值的第二組合由“+2”、“-2”以及“+8”組成。於子操作S604，強化學習系統300根據選定獎勵值的第二組合訓練以及驗證強化學習模型130，來取得第二成功率（例如：58%）。

於子操作S605，強化學習系統300拒絕與成功率較低者所對應的選定獎勵值的其中一個組合。於子操作S606，強化學習系統300決定選定獎勵值的其中另一個組合為該些獎勵值。以嵌入向量Ve[1]~Ve[3]為例，強化學習系統300拒絕選定獎勵值的第一組合，並決定選定獎勵值的第二組合為該些獎勵值。

於其他實施例中，在執行子操作S604後，強化學習系統300比對第一成功率以及第二成功率，從而決定與成功率較高者所對應的選定獎勵值的其中一個組合為該些獎勵值。

於其他實施例中，子操作S601~S605將被重複執行直到只剩下相對應於最高成功率的選定獎勵值的組合還留著。據此，子操作S606才被執行，以將最後一個未被拒絕的選定獎勵值的組合決定為該些獎勵值。

請參閱第10圖，於其他實施例中，操作S503包含子操作S611~S613。於子操作S611，強化學習系統300將選定獎勵值中的複數個組合（例如：包含“+1”、“-1”以及“+7”的第一組合、包含“+3”、“-3”以及“+9”的第二組合、包含“+5”、“-5”以及“+11”的第三組合）應用於強化學習模型130。於子操作S612，強化學習系統300根據選定獎勵值的每個組合訓練以及驗證強化學習模型130，來取得複數個成功率（例如：分別為“54%”、“60%”以及“49%”的第一、第二以及第三成功率）。於子操作S613，強化學習系統300決定與成功率最高者（例如：第二成功率）所對應的選定獎勵值的其中一個組合（例如：第二組合）為該些獎勵值。

如前面所述，由於人無法辨識嵌入向量的定義與意義，並沒有一或多個合理的規則能幫助人決定相對應於嵌入向量的獎勵值。據此，本揭示內容的強化學習系統300藉由超參數最佳化演算法決定獎勵值。

在決定好獎勵值後，執行操作S504。於操作S504，強化學習系統300根據該些獎勵值訓練強化學習模型130。操作S504與操作S204類似，故不在此贅述。

於上述實施例中，在沒有通過實驗人工決定精確數值的情況下，強化學習系統100/300可自動地決定與多種獎勵條件相對應的多個獎勵值。據此，訓練強化學習模型130的過程或時間可以縮短。綜上，藉由自動地決定與多種獎勵條件相對應的多個獎勵值，經由強化學習系統100/300訓練出來的強化學習模型130有很大的機會擁有高的成功率，從而能選擇合適的動作。

雖然本揭示內容已以實施方式揭露如上，然其並非用以限定本揭示內容，所屬技術領域具有通常知識者在不脫離本揭示內容之精神和範圍內，當可作各種更動與潤飾，因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。

100,300:強化學習系統 110:強化學習代理人 120:互動環境 130:強化學習模型 140:自動編碼器 200,500:訓練方法 401:編碼器 403:解碼器 ACT:動作 REW:獎勵值 STA:當前狀態 TD:訓練資料 Vi[1]~Vi[m]:輸入向量 Ve[1]~Ve[3]:嵌入向量 Vo[1]~Vo[n]:輸出向量 S201~S204,S501~S504:操作 S301~S306,S311~S313,S401~S405,S601~S606,S611~S613:子操作

第1圖為根據本揭示內容的部分實施例的一種強化學習系統的示意圖。第2圖為根據本揭示內容的部分實施例的一種訓練方法的流程圖。第3圖為第2圖中的訓練方法的其中一操作的流程圖。第4圖為第2圖中的訓練方法的其中一操作的另一流程圖。第5圖為第2圖中的訓練方法的其中另一操作的流程圖。第6圖為根據本揭示內容的其他實施例的另一種強化學習系統的示意圖。第7圖為根據本揭示內容的其他實施例的另一種訓練方法的流程圖。第8圖為根據本揭示內容的部分實施例繪示從輸入向量至嵌入向量再至輸出向量的轉換示意圖。第9圖為第7圖中的訓練方法的其中一操作的流程圖。第10圖為第7圖中的訓練方法的其中一操作的另一流程圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

200:訓練方法

S201~S204:操作

Claims

一種訓練方法，適用於具有一獎勵函數的一強化學習系統去訓練一強化學習模型，包含：定義該獎勵函數的至少一獎勵條件；決定相對應於該至少一獎勵條件的至少一獎勵值範圍；藉由超參數最佳化演算法從該至少一獎勵值範圍中搜尋出至少一獎勵值；以及根據該至少一獎勵值訓練該強化學習模型。
如請求項1所述之訓練方法，其中該至少一獎勵值範圍包含複數個選定獎勵值，且從該至少一獎勵值範圍中搜尋出該至少一獎勵值的操作包含：從該至少一獎勵值範圍中選擇一第一獎勵值組合，其中該第一獎勵值組合包含至少一個選定獎勵值；根據該第一獎勵值組合訓練以及驗證該強化學習模型，來取得一第一成功率；從該至少一獎勵值範圍中選擇一第二獎勵值組合，其中該第二獎勵值組合包含至少一個選定獎勵值；根據該第二獎勵值組合訓練以及驗證該強化學習模型，來取得一第二成功率；以及比對該第一成功率與該第二成功率，以決定該至少一獎勵值。
如請求項2所述之訓練方法，其中決定該至少一獎勵值的操作包含：決定與成功率較高者所對應的該第一獎勵值組合與該第二獎勵值組合中的其中一個為該至少一獎勵值。
如請求項1所述之訓練方法，其中該至少一獎勵值範圍包含複數個選定獎勵值，且從該至少一獎勵值範圍中搜尋出該至少一獎勵值的操作包含：將基於該些選定獎勵值中的每一個所產生的複數個獎勵值組合應用於該強化學習模型，其中每個獎勵值組合均包含至少一個選定獎勵值；根據該些獎勵值組合訓練以及驗證該強化學習模型，來取得複數個成功率；以及決定與成功率最高者所對應的其中一個獎勵值組合為該至少一獎勵值。
如請求項1所述之訓練方法，其中根據該至少一獎勵值訓練該強化學習模型的操作包含：根據一訓練資料，藉由一互動環境提供一當前狀態；響應於該當前狀態，藉由該強化學習模型從複數個候選動作中選擇一動作；藉由一強化學習代理人執行所選的該動作，以和該互動環境進行互動；根據響應於該當前狀態而執行的所選的該動作判斷該至少一獎勵條件是否滿足，來藉由該互動環境選擇性地提供該至少一獎勵值；以及響應於所選的該動作，藉由該互動環境提供自該當前狀態轉變過來的一新狀態。
一種訓練方法，適用於具有一獎勵函數的一強化學習系統去訓練一強化學習模型，其中，該強化學習模型是用以根據複數個輸入向量的值來選擇一動作，該訓練方法包含：將該些輸入向量編碼為複數個嵌入向量；決定相對應於該些嵌入向量的複數個獎勵值範圍；藉由超參數最佳化演算法從該些獎勵值範圍中搜尋出複數個獎勵值；以及根據該些獎勵值訓練該強化學習模型。
如請求項6所述之訓練方法，其中每個獎勵值範圍均包含複數個選定獎勵值，且從該些獎勵值範圍中搜尋出該些獎勵值的操作包含：從該些獎勵值範圍中選擇該些選定獎勵值的一第一組合；根據該些選定獎勵值的該第一組合訓練以及驗證該強化學習模型，來取得一第一成功率；從該些獎勵值範圍中選擇該些選定獎勵值的一第二組合；根據該些選定獎勵值的該第二組合訓練以及驗證該強化學習模型，來取得一第二成功率；以及比對該第一成功率與該第二成功率，以決定該些獎勵值。
如請求項7所述之訓練方法，其中決定該些獎勵值的操作包含：決定與成功率較高者所對應的該些選定獎勵值的其中一個組合為該些獎勵值。
如請求項6所述之訓練方法，其中每個獎勵值範圍均包含複數個選定獎勵值，且從該些獎勵值範圍中搜尋出該些獎勵值的操作包含：將該些選定獎勵值的複數個組合應用於該強化學習模型；根據該些選定獎勵值的每個組合訓練以及驗證該強化學習模型，來取得複數個成功率；以及決定與成功率最高者所對應的該些選定獎勵值的其中一個組合為該些獎勵值。
如請求項6所述之訓練方法，其中該些輸入向量的維度大於該些嵌入向量的維度。
一種強化學習系統，具有一獎勵函數且適用於訓練一強化學習模型，包含：一記憶體，用於儲存至少一程式碼；以及一處理器，用於執行該至少一程式碼，以執行下列操作：定義該獎勵函數的至少一獎勵條件；決定相對應於該至少一獎勵條件的至少一獎勵值範圍；藉由超參數最佳化演算法從該至少一獎勵值範圍中搜尋出至少一獎勵值；以及根據該至少一獎勵值訓練該強化學習模型。
如請求項11所述之強化學習系統，其中該至少一獎勵值範圍包含複數個選定獎勵值，且從該至少一獎勵值範圍中搜尋出該至少一獎勵值的操作包含：從該至少一獎勵值範圍中選擇一第一獎勵值組合，其中該第一獎勵值組合包含至少一個選定獎勵值；根據該第一獎勵值組合訓練以及驗證該強化學習模型，來取得一第一成功率；從該至少一獎勵值範圍中選擇一第二獎勵值組合，其中該第二獎勵值組合包含至少一個選定獎勵值；根據該第二獎勵值組合訓練以及驗證該強化學習模型，來取得一第二成功率；以及比對該第一成功率與該第二成功率，以決定該至少一獎勵值。
如請求項12所述之強化學習系統，其中決定該至少一獎勵值的操作包含：決定與成功率較高者所對應的該第一獎勵值組合與該第二獎勵值組合中的其中一個為該至少一獎勵值。
如請求項11所述之強化學習系統，其中該至少一獎勵值範圍包含複數個選定獎勵值，且從該至少一獎勵值範圍中搜尋出該至少一獎勵值的操作包含：將基於該些選定獎勵值中的每一個所產生的複數個獎勵值組合應用於該強化學習模型，其中每個獎勵值組合均包含至少一個選定獎勵值；根據該些獎勵值組合訓練以及驗證該強化學習模型，來取得複數個成功率；以及決定與成功率最高者所對應的其中一個獎勵值組合為該至少一獎勵值。
如請求項11所述之強化學習系統，其中根據該至少一獎勵值訓練該強化學習模型的操作包含：根據一訓練資料，藉由一互動環境提供一當前狀態；響應於該當前狀態，藉由該強化學習模型從複數個候選動作中選擇一動作；藉由一強化學習代理人執行所選的該動作，以和該互動環境進行互動；根據響應於該當前狀態而執行的所選的該動作判斷該獎勵條件是否滿足，來藉由該互動環境選擇性地提供該至少一獎勵值；以及響應於所選的該動作，藉由該互動環境提供自該當前狀態轉變過來的一新狀態。
一種強化學習系統，具有一獎勵函數且適用於訓練一強化學習模型，其中，該強化學習模型是用以根據複數個輸入向量的值來選擇一動作，且該強化學習系統包含：一記憶體，用於儲存至少一程式碼；以及一處理器，用於執行該至少一程式碼，以執行下列操作：將該些輸入向量編碼為複數個嵌入向量；決定相對應於該些嵌入向量的複數個獎勵值範圍；藉由超參數最佳化演算法從該些獎勵值範圍中搜尋出複數個獎勵值；以及根據該些獎勵值訓練該強化學習模型。
如請求項16所述之強化學習系統，其中每個獎勵值範圍均包含複數個選定獎勵值，且從該些獎勵值範圍中搜尋出該些獎勵值的操作包含：從該些獎勵值範圍中選擇該些選定獎勵值的一第一組合；根據該些選定獎勵值的該第一組合訓練以及驗證該強化學習模型，來取得一第一成功率；從該些獎勵值範圍中選擇該些選定獎勵值的一第二組合；根據該些選定獎勵值的該第二組合訓練以及驗證該強化學習模型，來取得一第二成功率；以及比對該第一成功率與該第二成功率，以決定該些獎勵值。
如請求項17所述之強化學習系統，其中決定該些獎勵值的操作包含：決定與成功率較高者所對應的該些選定獎勵值的其中一個組合為該些獎勵值。
如請求項16所述之強化學習系統，其中每個獎勵值範圍均包含複數個選定獎勵值，且從該些獎勵值範圍中搜尋出該些獎勵值的操作包含：將該些選定獎勵值的複數個組合應用於該強化學習模型；根據該些選定獎勵值的每個組合訓練以及驗證該強化學習模型，來取得複數個成功率；以及決定與成功率最高者所對應的該些選定獎勵值的其中一個組合為該些獎勵值。
如請求項16所述之強化學習系統，其中該些輸入向量的維度大於該些嵌入向量的維度。