TWI785346B

TWI785346B - 用於轉換資料及最佳化資料轉換之雙重機器學習管道

Info

Publication number: TWI785346B
Application number: TW109122039A
Authority: TW
Inventors: 賽爾保羅卡拉斯科
Original assignee: 美商索尼互動娛樂有限責任公司
Priority date: 2019-07-10
Filing date: 2020-06-30
Publication date: 2022-12-01
Also published as: CN112215362A; US11983609B2; US20210012236A1; WO2021007006A1; TW202117610A

Abstract

一種端對端基於雲端之機器學習平台，提供電腦模擬推薦。為所有經轉換之資料生成資料處理歷程，以用於生成至一機器學習模型之特徵抽取、轉換及加載(ETL)。該資料用於理解模擬推薦模型之效能。為此，在理解該等推薦之效能的情況下，該平台提供該經轉換之資料之生命週期且將其與使用者互動之生命週期進行比較。藉由將兩個生命週期進行比較，可返回有關哪些模型相關及哪些模型不相關之推薦。

Description

用於轉換資料及最佳化資料轉換之雙重機器學習管道

本申請案一般而言係關於技術上有創造性之非常規解決方案，該等解決方案必須植根於電腦技術且產生具體之技術改良。具體而言，本申請案係關於提供個性化遊戲玩家預測之端對端基於雲端之機器學習平台。

機器學習能夠分為不同任務，諸如監督式學習、無監督學習、深度學習、強化學習及推薦系統，該等不同任務能夠用於多種電腦應用程式，諸如線上個性化推薦、電腦視覺、語音辨識、網際網路搜索引擎、個人助理及自動駕駛汽車。

如本文所理解，機器學習系統抵制來自形式方法之分析。由於機器學習系統之複雜性，驗證技術(諸如模型檢驗或定理證明)無法應用於機器學習系統。因此，必須藉由受控實驗憑經驗判定機器學習模型之行為，以支援、反駁或驗證市場假說。

驗證市場假說在諸如電腦遊戲之電腦模擬領域之重要性因以下事實而變得複雜：遊戲開發者藉由重新想像人們如何玩遊戲而不斷創新，而遊戲玩家在他們互動、消費及購買遊戲方面之行為卻不斷變化。此意味著必須在相對短之生命週期內開發及驗證許多機器學習個性化模型。

如本文所理解，機器學習為序列化程序，其涉及識別、獲得及準備原始資料集，將原始資料轉換為機器學習模型之特徵的特徵工程及生成抽取、轉換及加載(ETL)服務，及自行設計及開發機器學習模型。必須在計算密集型任務中「訓練」模型，因此計算密集型任務涉及在大量中央處理單元(CPU)、圖形處理單元(GPU)上運行之分佈式計算架構及用於運行諸如深度學習之特定演算法的新興之最佳化芯片。然後，必須評估模型之效能及延遲。在訓練模型之後，需要評估其預測品質及該模型提供該預測所花費之時間。然後，可將「良好」模型部署在生產環境中以在線上服務(諸如網路商店、使用者新聞饋給、遊戲內之活動或技巧系統)中提供推斷，以幫助遊戲使用者更好地玩遊戲。

亦如本文中理解，為了使資料科學家免於構建他們自己之模型化工具以使此等工作流程自動化，可使用機器學習管道以使上述工作流程從頭至尾自動化。此等端對端管道將原始資料轉換為特徵，然後將特徵轉換至經過訓練且部署至生產中以用於生成推斷之模型中。機器學習管道確保可靠、統一及可重現之資料轉換，以用於生成特徵ETL，訓練模型且提供生產模型推斷。

本原理進一步理解機器學習管道可具有兩種不同類型之資料處理基礎架構。第一種為支援高資料產出量之基礎架構。必須藉由計算極度密集之演算法，諸如具體而言批量梯度下降來訓練機器學習模型。梯度下降旨在使訓練集之標籤資料與模型預測之間的成本或損失函數最小化。找到成本函數之最小值需要進行大量計算迭代，尤其是對於訓練深度學習系統而言。因此，管道之訓練服務通常在大量CPU、GPU及用於運行諸如深度學習之特定演算法的新興之最佳化芯片上運行，且該訓練能夠均勻地分佈在大量叢集上。儘管對於某些使用情況必須在線上訓練某些模型，但該訓練服務主要為線下管道。

第二種類型之資料處理基礎架構必須支援低資料延遲。當訓練模型時，模型針對大量請求以在幾毫秒之範圍內的非常低之延遲提供其預測。推斷服務通常為線上的，因為模型預測係按需要提供給應用程式的，但亦可為線下的，因為模型預測經排程以每週、每天或每小時運行。

本原理解決了本文認識到之自最初之模型創建中去除人為決策之技術需要，該人為決策為將訓練哪個模型及何時訓練它，哪個模型可部署在生產中及模型可部署在生產中之原因，及哪個模型在實驗中成功及模型在實驗中成功之原因的決策。進一步地，本原理允許非資料科學家藉由具體地自動化模型超參數之搜索及選擇已知與開放源資料集一起工作之演算法來訓練模型。

因此，本原理係關於機器學習管道如何轉換資料。原始使用者互動資料及原始項目資料經轉換為生成特徵。模型藉由此等特徵學習如何提供個性化軟體體驗，諸如向給定使用者推薦電腦遊戲，向使用者推薦更好地玩遊戲之技巧，向使用者推薦遊戲活動等。模型預測用於評估有關此等推薦之各種實驗。每個實驗具有多個變數。

因此，一種設備包括至少一個處理器及至少一個電腦儲存裝置，該至少一個電腦儲存裝置並非瞬時信號且包括能夠由該處理器執行以接收表示由複數個模擬玩家對電腦模擬進行之輸入之資料的指令。該等指令能夠執行以將該資料輸入至模型生成電腦化服務之第一管道之訓練服務以訓練複數個個性化之使用者體驗模型，且使用該第一管道之推斷服務來生成對彼等個性化之使用者體驗的預測。該等指令可經進一步執行以將來自該推斷服務之彼等模型預測提供至該第一管道之實驗服務以測試該等推薦之個性化之使用者體驗。更進一步地，該等指令能夠執行以提供藉由使用該實驗服務生成之輸出來使用模型生成電腦化服務之第二管道之訓練服務來訓練新模型以使用至少一個關鍵績效指標(KPI)自該第一管道中選擇該等個性化之使用者體驗模型的子集。該等指令能夠執行以將在該第二管道之該訓練服務中訓練之此新模型提供至該第二管道之推斷服務，以遞送對將在該第一管道之該訓練服務中訓練之新的個性化之使用者體驗模型之推薦。

在實例中，該等指令可為能夠執行的，以學習如何使用該第二管道之該訓練服務來對自該第一管道中選擇之該等模型進行分類，且將彼等分類提供至該第二管道。在此等實例中，該等指令可為能夠執行的以執行該第二管道之強化學習模型(RL)，以至少部分地藉由最大化針對來自該第一管道之第一模型預測的獎勵來將至少該第一模型識別為「良好」模型。該最大化可至少部分藉由以下操作執行：使與時間「t」相關聯之推薦等同於與該時間「t」相關聯之獎勵加上折扣因子與跟時間t+1相關聯之推薦的乘積。

在某些實施方案中，該等指令可為能夠執行的以執行演化策略模型(ES)，該演化策略模型可使用在該第二管道中分類之該等所選擇之模型來識別將由該第一管道訓練之未來模型。該等指令可為能夠執行的以執行該ES以基於該等分類來學習模型元資料，且至少部分地基於它們之元資料來生成該等未來模型。

在另一態樣中，一種系統包括：第一複數個電腦，該第一複數個電腦實施用於訓練模型及推斷彼等模型之第一管道；及第二複數個電腦，該第二複數個電腦實施第二管道，該第二管道用於自該第一管道接收該等模型，將來自該第一管道之該等模型中之至少第一模型識別為良好模型，且將新模型反饋至該第一管道以使得該第一管道能夠生成新模型。

在另一態樣中，一種方法包括：使用第一電腦化管道進行模型訓練及模型推斷；使用第二電腦化管道自部署在該第一管道之推斷服務中之模型中識別至少一個最佳模型；及將與該最佳模型相關聯之資訊反饋至該第一管道。該方法包括使用來自該第一管道之提供電腦模擬推薦之模型中之至少最佳模型來輸出模型推薦。

本申請案之關於其結構及操作兩者之細節可參考附圖得到最佳理解，在附圖中相同參考符號指代相同部分，且在附圖中：

本揭示內容一般而言係關於電腦生態系統，其包括消費者電子(CE)裝置網路之態樣，消費者電子裝置網路諸如但不限於：分佈式電腦遊戲網路、增強現實(AR)網路、虛擬現實(VR)網路、視訊廣播、內容遞送網路、虛擬機、機器學習及人工神經網路應用。

本文之系統可包括伺服器及客戶端組件，該伺服器及客戶端組件經由網路連接使得可在客戶端與伺服器組件之間交換資料。客戶端組件可包括一或多個計算裝置，該一或多個計算裝置包括AR耳機、VR耳機、遊戲控制台(諸如Sony PlayStation^® )及相關母板、遊戲控制器、可攜式電視(例如智慧型TV、支援網際網路之TV)、可攜式電腦(諸如膝上型電腦及平板電腦)及其他行動裝置(包括智慧型電話及下文所論述之額外實例)。此等客戶端裝置可藉由多種操作環境操作。例如，客戶端電腦中之一些可採用例如Orbis或Linux作業系統、來自Microsoft之作業系統，或Unix作業系統，或由Apple公司或Google生產之作業系統。此等操作環境可用於執行一或多個程式/應用程式，諸如由Microsoft或Google或Mozilla製作之瀏覽器，或可訪問由下文所論述之網際網路伺服器託管之網站的其他瀏覽器程式。此外，根據本原理之操作環境可用於執行一或多個電腦遊戲程式/應用程式及採用本原理之其他程式/應用程式。

伺服器及/或閘道可包括執行指令之一或多個處理器，該等指令將伺服器組態為經由諸如網際網路之網路接收及傳輸資料。另外或替代地，客戶端及伺服器可經由本地內部網路或虛擬專用網路連接。伺服器或控制器可由遊戲控制台及/或其一或多個母板(諸如Sony PlayStation®)、個人電腦等實例化。

可經由網路在客戶端與伺服器之間交換資訊。為此且為了安全起見，伺服器及/或客戶端可包括防火牆、負載平衡器、臨時儲存裝置及代理，及用於可靠性及安全性之其他網路基礎架構。一或多個伺服器可形成實施根據本原理向網路使用者提供諸如線上社群網站或視訊遊戲網站之安全社區以眾包地通信之方法的設備。

如本文所使用，指令係指用於在系統中處理資訊的電腦實施之步驟。指令可在軟體、韌體或硬體中實施，且包括由系統之組件採用的任何類型之已程式化步驟。

處理器可為能夠藉由諸如位址線、資料線及控制線之各種線及暫存器及移位暫存器執行邏輯的任何習知之通用單晶片處理器或多晶片處理器。

藉由本文之流程圖及使用者界面描述的軟體模組可包括各種子例程、程式等。在不限制本揭示內容之情況下，經陳述為由特定模組執行之邏輯可經再分配至其他軟體模組及/或一起組合在單一模組中及/或使得在可共用庫中可用。

如上文所指示，本文描述之本原理可實施為硬體、軟體、韌體或其組合；因此，依據說明性組件、區塊、模組、電路及步驟之功能性對它們進行闡述。

除上文已經提到之內容之外，下文之邏輯區塊、模組及電路可藉由通用處理器、數位信號處理器(DSP)、場可程式化閘陣列(FPGA)或經設計以執行本文描述之功能的其他可程式化邏輯裝置(諸如特殊應用積體電路(ASIC)、離散閘或電晶體邏輯、離散硬體組件或其任何組合)來實施或執行。處理器可由控制器或狀態機或計算裝置之組合實施。

以下描述之功能及方法可在硬體電路或軟體電路中實施。當在軟體中實施時，該等功能及方法可以諸如但不限於Python、Scala、Java、C#或C++之適當語言編寫，且可儲存在電腦可讀儲存媒體上或藉由電腦可讀儲存媒體傳輸，該電腦可讀儲存媒體諸如隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式化唯讀記憶體(EEPROM)、緊密光碟唯讀記憶體(CD-ROM)或其他光碟儲存裝置(諸如數位通用光碟(DVD))、磁碟儲存裝置或包括可移除大拇哥隨身碟之其他磁性儲存裝置等。連接可建立電腦可讀媒體。此等連接可包括例如硬連線電纜，包括光纖及同軸線及數位用戶線(DSL)及雙絞線。此等連接可包括無線通信連接，包括紅外線及無線電。

一個實施例中所包括之組件可以任何適當之組合用於其他實施例中。例如，可將本文描述及/或附圖中所描繪之各種組件中之任一者組合、互換或自其他實施例排除。

「具有A、B及C中之至少一者之系統」(類似地，「具有A、B或C中之至少一者之系統」及「具有A、B、C中之至少一者之系統」)包括僅具有A、僅具有B、僅具有C、同時具有A及B、同時具有A及C、同時具有B及C，及/或同時具有A、B及C之系統等。

現在參考圖1，展示了實例系統，該系統可包括根據本原理之本文提到的用於執行本文獻中描述之技術的實例裝置中之一或多個裝置。如圖所示，系統可包括一或多個區域資料中心10，該一或多個區域資料中心10中之每一者包括具有伴隨處理器及固態記憶體及磁碟記憶體之一或多個伺服器。該等伺服器建立用於執行其中在多個資料中心上執行機器學習模型之上述機器學習平台的基於雲端之系統。區域資料中心經由有線鏈路及/或無線鏈路16與一或多個電腦化前端裝置18(諸如執行網路瀏覽器之電腦(膝上型電腦、PC等))、在行動裝置上執行之行動應用程式或電腦模擬控制台(諸如遊戲控制台)通信。

因此，如圖1所示，自「雲端」提供雙重機器學習管道。機器學習管道在由區域資料中心10託管之雲端後端中之大量電腦叢集上執行。所有模型訓練及模型推斷都發生在後端。將模型預測提供至前端應用程式，諸如在包括網路瀏覽器之裝置18上運行之前端應用程式、遊戲控制台或行動應用程式中之任一者。所有前端應用程式都經由網際網路16與雲端後端通信。每一叢集可包括實體上位於一或多個伺服器場上之大量電腦伺服器，該等伺服器場位於一或多個地理上分散之資料中心中。

典型之架構可包括分佈在全球之大量區域資料中心，其中一或多個區域資料中心位於北美、歐洲中東及非洲、日本及世界上其他地區。

如圖1A所示，每個資料中心可包括用以管理自前端應用程式18至複數個伺服器場23之網路請求的一或多個負載平衡器20，及保護伺服器25免受外部安全威脅之一或多個威脅偵測及防火牆工具22。儘管大多數資料為運動的且經生成且可以可易於由伺服器場中之叢集存取及操縱之各種資料格式(諸如Apache Parquet)儲存在大型檔案系統(諸如Apache Hadoop分佈式檔案系統(HDFS))中，但一些資料可為靜止的，且實體地儲存在資料中心中之網路附接儲存裝置(NAS)24上。

本原理使機器學習管道完全自動化。自動化不僅為水平的，例如，管道使自模型訓練至模型推斷及自模型推斷至模型實驗之工作流程自動化，而且自動化為豎直的，例如，無需由資料科學家團隊來決定將訓練哪個模型，將會將哪個模型部署在生產中及將對哪個模型進行實驗。

如附圖所示且在下面更全面地描述，機器學習模型之開發包括許多工作流程，包括獲取及準備資料、特徵工程及ETL、設計模型、在位於提供機器學習雲端服務之資料中心中之大型伺服器叢集上訓練模型、評估模型效能及延遲，及將模型作為服務部署在生產中。

為此，如圖2至圖5所示，兩個機器學習管道(稱為P1及P2)在沒有人工干預之情況下提供模型訓練及模型推斷。第一管道P1生成用於個性化遊戲玩家體驗之模型。

如圖2所示，第一管道P1包括可在線上或線下之訓練服務200。在一些實施例中，訓練服務200包括佈置在分佈式電腦架構中之複數個電腦，該分佈式電腦架構使用大型資料集提供對計算密集型訓練之並行處理。如圖3中之300所示，第一管道P1之訓練服務200採用一或多個執行機器學習演算法之電腦來學習如何針對個性化遊戲體驗提供推薦。訓練服務200提供特徵生成ETL服務及模型訓練服務，該模型訓練服務利用分佈式計算架構來並行化具有大型資料集之計算密集型訓練工作。

第一管道P1亦包括線上或線下之推斷服務202。推斷服務202包括以高效能架構佈置之複數個電腦，以確保模型預測之最低判定性延遲。換言之，推斷服務202快速處理來自訓練服務200之已訓練模型，如下面進一步詳述。如圖3中之302所示，推斷服務202提供模型預測。

將推斷服務202之模型預測發送至第一管道P1中之實驗服務204，以如圖3中之304所示對彼等預測進行實驗。實驗服務204包括具有輸出裝置之電腦，該等輸出裝置提供使用者界面以定義實驗假說且輸入實驗之關鍵績效指標(KPI)及度量。

將第一管道P1之輸出發送至如圖2所示的第二P2管道中之線下或線上之訓練服務206，第一管道P1之輸出包括關於處於訓練及推斷中之模型的元資料，及關於自ETL生成之特徵的元資料。如下面進一步描述，強化學習模型(RL)在P2管道之訓練服務206中學習如何自P1管道中選擇「最佳」模型進行實驗，如圖3中之306所示。

如下面進一步解釋，在狀態307處學習分類，將其輸出發送至P2管道中之線上或線下之推斷服務208，推斷服務208採用執行機器學習演算法之一或多個電腦，該等機器學習演算法將由下文進一步描述之各種模型使用以學習將訓練及提供哪些模型，如圖3中之308所示，將308之指示反饋至P1管道之訓練服務200。

因此，P2管道同時具有訓練服務及推斷服務。彼等服務兩者皆由將簡短描述之三個P2模型使用，即RL模型加上CL模型及ES模型。每一模型使用訓練服務及推斷服務，以便接受訓練且以便提供其預測。例如，RL模型選擇最佳模型，CL模型對RL模型選擇之模型進行分類，且ES模型將模型推薦給第一管道P1以進行訓練。因此，RL模型將其預測提供至CL模型，CL模型進而將其預測提供至ES模型。ES模型將其預測提供至第一管道P1。

因此，可瞭解，第二管道P2生成有助於P1生成更好之模型的模型。

鑒於以上內容，可進一步瞭解，第一管道P1中之資料轉換可視為包括管道P1及P2兩者之整個機器學習管道之資料平面，而最佳化來自第一管道P1之資料轉換的第二管道P2可視為整個機器學習系統之控制平面。實際上，第二管道P2為對第一管道P1之疊加。

如下面進一步解釋，藉由推薦系統技術來訓練來自第一管道P1之模型，以提供個性化使用者體驗，諸如邏輯回歸、矩陣分解、分解機器、深度學習及強化學習。藉由強化學習、叢集及演化策略技術來訓練來自第二管道P2之模型。

關於第一管道P1之實驗服務204，使大量模型經受實驗以測試針對不同使用者段之多個個性化推薦，以評估使用者對彼等各種類型之推薦的回應。該系統能夠同時或按順序提供大量實驗。每個實驗亦可具有多個變數。每個實驗通常著重於測試特定假說，諸如使用者細分、遊戲特徵、推薦背景或推薦環境。若需要，該等變數可同時運行。可為每個變數提出多個模型，每個模型提供個性化推薦。給定實驗之所有模型都應在給定時間間隔內輸出其推薦。亦期望系統很好地放大以同時在線上提供具有多個變數之多個實驗，且能夠針對該等變數提出多個模型。應注意，縮放之要求可在任何時間根據實驗資料之量及速度而變化。

成功之實驗假說可藉由關鍵績效指標(KPI)進行定量量測。一般而言，選擇為相關長期業務目標之一個主要KPI。該主要KPI可具有多個次要度量以捕獲實驗之整個範圍，以便分析確實發生了什麼及它為什麼發生。次要度量通常可由實驗產品分析師使用以將有關實驗之進一步分析提供給市場分析師。圖4提供了與特徵元資料及模型元資料有關之上述管道的額外細節。第一管道P1生成模型且將模型部署在生產中且用於實驗，且使端對端機器學習工作流程「水平地」自動化。如圖4所示，第一管道之訓練服務200在特徵資料儲存器400中生成特徵元資料，且訓練服務200及推斷服務202在模型資料儲存器402中生成模型元資料。原始資料(諸如使用者資料、遊戲資料)及使用者互動(諸如使用者-遊戲互動(玩、購買、查看、停留、喜歡、評論、轉發等)及使用者-使用者互動(加好友、關注、分享等))用於生成特徵ETL。

第一管道P1之特徵可自資料儲存器中之資料在線下生成，或可在自發佈及訂閱饋給流式傳輸資料時在線上生成。

如上所論述，第一管道P1之訓練服務200生成用於去往推斷服務202之個性化之遊戲體驗模型的特徵ETL。訓練服務200在線上或線下訓練彼等個性化之遊戲體驗模型，且將它們部署在推斷服務202中之生產環境中。

在訓練服務200中訓練模型之後，第一管道P1之推斷服務202提供個性化之遊戲體驗模型之推斷，之後彼等模型準備好在實驗服務204中進行實驗。應注意，第一管道P1能夠在線上應用程式即時地請求預測時在線上提供模型預測，或在線下提供模型預測且使彼等預測在線下應用程式之資料儲存器中可用。

第一管道P1生成模型元資料及特徵元資料。特徵元資料係於在管道中生成每個ETL之後生成。模型元資料係於在訓練服務200中訓練模型之後，且在該模型在推斷服務202中提供其預測之後生成。

上文提到之模型元資料可包括模型演算法、模型架構(尤其是對於深度學習模型，諸如卷積神經網路(CNN)或遞歸神經網路(RNN)而言)、模型參數或權重、模型超參數、模型學習率及模型特徵。元資料亦可包括關於以下各項之資訊：關於諸如模型之訓練或預測何時依賴於一個或許多其他模型之依賴性，推斷中之模型預測之狀態(因為模型能夠提供線上或線下模型推斷)，及標準演算法度量，諸如(對於回歸而言)均方根誤差及(對於分類而言)精度、召回率及F1得分(精度及召回率之調和平均數)。

此外，模型元資料可包括藉由在諸如以引用之方式併入本文中之本受讓人的序列號為16/424,193的美國專利申請案中闡述之「WPAE」度量之度量所量測的對推薦之預測之相關性。

另一方面，特徵元資料可包括標準統計度量(平均數、平均值、最大值、最小值及標準差)及特徵與其他特徵及模型之關係。

如上所論述，第二管道P2藉由幫助P1生成更好之模型使端對端機器學習工作流程「豎直地」自動化來幫助第一管道P1產生更好之模型。通常，第二管道P2藉由強化學習來學習如何自實驗KPI中選擇最佳模型進行實驗。按照實驗對模型進行分類。第二管道P2亦學習如何藉由經由演化策略推薦模型元資料來推薦第一管道P1應該訓練哪個模型，及如何經由強化學習自實驗KPI中選擇最佳模型進行實驗。

圖5進一步進行說明。第二管道P2之訓練服務206及推斷服務208可由提供第一資料轉換之線上或線下強化模型(RL)502使用。此外，第二資料轉換(上文之307處之分類)由叢集模型CL 504提供，而第三資料轉換由演化策略模型ES 506提供，且彼等資料轉換兩者皆在上述訓練服務206及推斷服務208中提供。

RL 502在來自第一管道P1之生產中之模型中分析出效能最佳之模型來進行實驗。在實例非限制性實施例中，強化學習可如在由Mnih等人在www.arXiv.org中用以下編號1312.5602發佈之「Playing Atari with Deep Reinforcement Learning」中所描述來實施，其在即時檔案歷史中揭示且以引用之方式併入本文中。

第一管道P1與第二管道P2之RL 502共用在其用於推斷之產品環境中部署的所有其模型。且，對於每個模型，RL 502能夠存取模型元資料。第一管道P1亦與第二管道P2之RL 502共用在其實驗服務上運行之每個實驗，尤其為實驗KPI及變數之數量。

RL 502在來自第一管道P1之生產中之模型中分析出效能最佳之模型來進行實驗。在一個實施例中，RL 502使用由以下參數定義之馬爾可夫決策程序(MDP)： RL之環境為實驗，RL之動作為針對實驗變數選擇模型，RL之狀態為它用於實驗之模型選擇之狀態，RL之獎勵係藉由增大實驗之KPI來量測，RL之政策為推薦針對實驗生成最高KPI之模型，且RL之Q值為來自於為給定實驗之每個變數選擇模型之預期累積獎勵。

第二管道P2之RL 502之模型選擇使自時間點t開始之折扣之未來獎勵最大化，該折扣之未來獎勵表示為： R_t = r_t + r_t+1 + …+r_t+i +…+ r_t+n

假設γ為經選擇為在探索(例如，立即採取次優行動來收集額外實驗資訊)與開發(例如，最大化未來獎勵)之間找到合適平衡之折扣因子，則折扣之未來獎勵可表示為： R_t = r_t + γ R_{t + 1}

簡要地參考圖6來解釋RL 502，在區塊600處，假設RL之代理處於狀態「s」。移動至區塊602，在該狀態下執行動作「a」。進行至區塊604，自其動作a觀察到獎勵r_t ，在區塊606處將RL移動至新狀態「s’」，該新狀態在區塊608處生成新動作「a’」，以在區塊610處獲得新的Q值，新的Q值在一種實施方案中係根據等式： Q (s, a) = r_t + γmax_a ’ Q (s’, a’)

因此，Q學習演算法可陳述為：任意初始化Q (s, a)，觀察初始狀態s，重複、選擇且執行動作a，觀察獎勵r及新狀態之Q (s, a) = Q (s, a) + α (r_t + γmaxa’ Q (s’, a’) – Q (s, a)), s = s’ 直至終止為止。

在上述等式中，「α」表示學習率，其控制先前之Q值與新提出之Q值之間的差中有多少被列入考慮。可利用實施深度Q學習演算法之函數逼近器來估計RL 502之Q值。函數逼近器可為例如深度Q網路，諸如具有參數θ之深度學習系統使得： Q (s, a; θ) ~ Q (s, a)。

深度Q網路可為具有三個隱藏層及十個特徵之深度神經網路。神經網路之特徵可為如先前定義之模型元資料，即模型演算法、模型架構、模型參數、模型超參數、模型特徵、模型學習率、模型依賴性、推斷狀態、模型度量、模型WPAE。神經網路之輸出為Q值：Q (s, a)。

應當理解，用於網路訓練之損失函數可由下式給出： L_i (θ_i ) =IE

[ (y_i - Q (s, a; θ_i ))² ] ○ 其中IE是為期望值 ○ 且其中y_{i =} IE [r_t + γ max_a’ Q (s^’ , a^’ ; θ_i-1 )]

且對網路之訓練參數θ_i 之梯度更新為： ●

_θ _I L_i (θ_i ) =IE [(r_t + γ max_a’ Q (s^’ , a^’ ; θ_i-1 ) - Q (s, a; θ_i ))

_θ _I Q (s, a; θ_i )]

網路參數θ_I 可隨機地初始化。

可藉由儲存所有轉變(s, a, r, s’)之經驗回放來訓練深度Q網路。當訓練網路時，使用來自回放記憶體之隨機樣本來代替最近之轉變。

藉由經驗回放，Q網路演算法變成：初始化回放記憶體M；藉由隨機權重初始化Q值函數；觀察初始狀態「s」；重複；藉由選擇概率為ε之隨機動作來選擇動作「a」，否則選擇a = arg maxa’ Q (s, a’)；執行動作「a」；觀察獎勵r及新狀態s’；將經驗(s, a, r, s’)儲存在回放記憶體M中；自回放記憶體M中對隨機轉變(ss, aa, rr, ss’)採樣；計算每個小批量轉變之目標；若ss’為終端狀態，則uu = rr，否則uu = rr + γ maxa’ Q (ss’, aa’)；使用(uu - Q (ss, aa))² 作為損失來訓練Q網路； s = s’ 直至終止為止。

深度Q網路為給定實驗自第一管道P1中選擇最佳模型。若實驗產品分析師需要多個變數，則在自第一管道P1中之生產中可用的模型中選擇一個模型之後，深度Q網路自剩餘模型中選擇最佳模型。

變數之數量可由實驗產品分析師在第一管道P1之實驗服務204的使用者界面中輸入。

圖7示出了RL 502架構實例之細節。如圖所示，RL代理(深度Q網路)700自第一管道P1中為實驗之特定變數704選擇模型702。代理選擇該模型702以最大化變數704之增大之KPI的獎勵708。且因此，RL代理700藉由新模型選擇706移動至新狀態。

圖8示意性地示出了圖7之深度Q網路700。如上所論述，模型演算法800、模型架構802、模型參數804、模型超參數806、模型特徵808、模型學習率810、模型依賴性812、推斷狀態814、模型度量816及模型WPAE 818經提供至網路700，以供深度學習層820如上所述進行處理。

第二管道P2之RL 502藉由用於按照實驗對模型元資料進行分類之分類模型(CL)504鏈接到第二管道P2之演化策略模型(ES)506。如圖9所示，CL 504將由RL 502選擇的效能最佳之模型按照實驗900之類型自最低至最高KPI進行叢集，如圖9中之y軸所示。分類可由諸如K均值或階層式叢集之叢集演算法執行。

ES 506進而學習如何藉由經由演化策略推薦模型元資料來推薦將訓練哪個模型。ES模型506自由CL 504按照實驗分類之模型中學習如何向第一管道P1之訓練服務200推薦將訓練哪些新模型。為此，ES 506對由CL 504分類之模型群體進行採樣，且允許效能最佳之模型指示第一管道P1應當訓練之模型之未來幾代的分佈。

ES 506學習如何自由RL 502選擇進行實驗之每個模型元資料生成新模型，且尤其為學習如何推薦模型特徵，推薦模型演算法，推薦尤其是針對深度學習模型之模型架構，推薦模型參數、超參數及學習率，推薦模型對其他模型之依賴性，及推薦模型推斷為線下抑或線上的。

演化策略技術與強化學習技術不同，因為它們不計算Q值來找到將生成最高獎勵之政策，且演化策略深度學習系統受訓練而沒有反向傳播。在實例中，演化策略可使用在Salimans等人之在www.arXiv.org中用以下編號1703.03864發佈之「Evolution Strategies as a Scalable Alternative to Reinforcement Learning」中的原理來實施，其在即時檔案歷史中揭示且以引用之方式併入本文中。

圖10及圖11示出了ES 506之實例實施方案之細節。ES 506自由CL 504針對給定實驗分類之每個模型之模型元資料中學習如何生成新的模型元資料。此形成了可由深度學習系統實施之ES代理1002之初始政策1000的基礎。在獲取該初始政策之後，ES 506生成由其新的元資料定義之新模型，此等新的元資料可提供相同或更好之實驗KPI。

更具體地且如圖10所示，ES深度學習系統可為代理1002，其動作1004將為基於政策1000而向第一管道P1推薦模型。若政策成功地增加了由實驗KPI定義之獎勵，則如1006所指示，對代理1002進行獎勵。該政策由評估模組1008評估，評估模組1008更新1010政策，且將該資訊反饋至代理1002。

如前所述，RL 502藉由以下方式起作用：利用其深度Q網路以藉由經由探索及開發而計算Q值來找到將最大化實驗KPI之政策。相反，在給定初始政策之情況下，ES 506藉由將隨機擾動應用於其深度學習網路之權重來生成新政策群體。然後，它評估所有此等新政策，計算出隨機梯度估計值，以探討哪種政策看起來更有希望生成最高獎勵。

相應地轉到圖11，可藉由具有四個隱藏層之深度學習系統1100來模型化ES 506。ES 506之輸入可包括由CL 504針對每個實驗分類之每個模型的元資料1102。ES 506輸出第一管道P1之訓練服務200然後訓練之新模型的元資料。

表示為π₀ 之ES政策將模型元資料推薦給第一管道P1之訓練服務200。利用該模型元資料，第一管道P1之訓練服務200訓練自該元資料生成之新模型。

假設F為目標函數，π_θ 為ES政策，θ_i 為ES深度學習系統之參數，

為自政策π_θ 抽出之樣本，標準差為σ，我們得到：

其中使用隨機梯度上升藉由以下得分函數估計器來最佳化θ_i ：

因此，ES演算法包括輸入，該等輸入包括初始ES政策參數θ_i 、目標函數F、政策樣本ε_i 、群體大小n、標準差σ及ES學習率α。該演算法可陳述為：對於t = 0，1，2，…進行對政策採樣；對ε₁ ,...ε_n ∼ N(0,I)採樣評估政策；計算返回值F_i = F(θ_t +σε_i ) 其中i=1,...,n 更新政策設定

直至收斂為止

ES 506與第一管道P1共用所有推薦之模型元資料。第一管道P1進而利用該模型元資料來基於該元資料自動生成新模型之訓練。第一管道P1之訓練服務200為自動化的，使得可藉由定義之模型特徵、定義之模型演算法、定義之模型架構、定義之模型參數、超參數及學習率、模型對其他模型的定義之依賴性及定義為線下或線上之模型推斷狀態來訓練新模型。

因此，第二管道P2與第一管道P1協作以產生更好之模型以進行實驗。在每個週期，RL 502自第一管道P1中選擇具有更好之個性化推薦之新模型進行實驗。然後，ES 506學習如何定義將勝過RL 502自第一管道P1選擇之先前模型的新模型元資料，且與第一管道P1共用將最大化任何實驗KPI之模型之元資料。然後，第一管道P1訓練新模型，該等新模型由它們的如由ES 506推薦之元資料定義。藉由大量實驗，RL 502在學習如何選擇效能最佳之模型方面變得更好，而ES 506在學習如何向P1之管道推薦將訓練之模型方面變得更好。有利結果為，第一管道P1可在第二管道P2之幫助下訓練模型且提供模型推斷，而無需人工干預。

應瞭解，雖然已經參考一些實例實施例描述了本原理，但此等實施例並非意欲為限制性的，且可使用各種替代配置來實施本文所主張之主題。

10:區域資料中心 16:網際網路 18:前端裝置 20:負載平衡器 22:威脅偵測及防火牆工具 23:伺服器場 24:網路附接儲存裝置 25:伺服器 200:訓練服務 202:推斷服務 204:實驗服務 206:訓練服務 208:推斷服務 300:學習如何提供推薦 302:提供推薦預測 304:實驗推薦預測 306:學習如何選擇最佳之P1模型進行實驗並在學習之後提供模型推薦以進行實驗 307:狀態 308:學習將訓練哪些模型並在學習之後將彼等模型提供至P1 400:特徵資料儲存器 402:模型資料儲存器 502:強化模型 504:叢集模型 506:演化策略模型 600:區塊 602:區塊 604:區塊 606:區塊 608:區塊 610:區塊 700:深度Q網路 702:模型 704:變數 706:新模型選擇 708:獎勵 800:模型演算法 802:模型架構 804:模型參數 806:模型超參數 808:模型特徵 810:模型學習率 812:模型依賴性 814:推斷狀態 816:模型度量 818:模型WPAE 820:深度學習層 900:實驗 1000:政策 1002:演化策略代理 1004:動作 1006:獎勵 1008:評估模組 1010:更新 1100:深度學習系統 1102:元資料

[圖1]係符合本原理之基於雲端之機器學習平台的網路架構之方塊圖； [圖1A]係符合本原理之資料中心架構之方塊圖； [圖2]係示出雙重機器學習管道之自動化工作流程之示意圖； [圖3]係示出在兩個管道上運行之資料轉換之示意圖； [圖4]係示出第一管道P1之儲存在特徵儲存器中之特徵元資料及儲存在模型儲存器中之模型元資料的示意圖； [圖5]係示出使用RL、CL及ES模型之兩個管道之間的通信流程之示意圖； [圖6]係與RL模型演算法有關之實例邏輯之流程圖； [圖7]係示出第二管道P2之RL模型架構之示意圖； [圖8]係示出RL深度Q網路之示意圖； [圖9]係示出由第二管道P2中之模型CL所提供的模型之分類之示意圖； [圖10]係示出第二管道P2之ES模型架構之示意圖；且 [圖11]係示出ES深度學習系統之示意圖。

10:區域資料中心

16:網際網路

18:前端裝置

Claims

一種用於轉換資料及最佳化資料轉換之雙重機器學習管道的設備，該設備包括：至少一個處理器；及至少一個電腦儲存裝置，該至少一個電腦儲存裝置並非一瞬時信號且包括指令，該等指令能夠由該至少一個處理器執行以：接收表示由複數個模擬玩家對電腦模擬進行之輸入之資料；將該資料輸入至模型生成電腦化服務之一第一管道之一訓練服務以訓練複數個推薦模型；使用該第一管道之一推斷服務以基於使用該第一管道中之該訓練服務訓練的模型來生成推薦；將該推斷服務之輸出提供至該第一管道之一實驗服務以測試該等推薦以便使用至少一個關鍵績效指標(KPI)來選擇該等模型之一子集；使用第二管道之一訓練服務及一推斷服務來提供對將要訓練之模型的推薦；及將由該第二管道生成之對將要訓練之模型的推薦提供至該第一管道之該訓練服務；其中，該等指令能夠執行以在該第二管道中對模型進行分類以生成分類。
如請求項1之設備，其中該等指令能夠執行以：執行一強化學習模型(RL)以使用該第二管道之該等訓練服務及推斷服務來至少部分地藉由最大化針對來自該第一管道之一第一模型預測的一獎勵來將至少該第一模型識別為一良好模型。
如請求項2之設備，其中該最大化係至少部分藉由以下操作來執行：使與一時間「t」相關聯之一推薦等同於與該時間「t」相關聯之一獎勵加上一折扣因子與跟一時間t+1相關聯之一推薦的一乘積。
如請求項2之設備，其中該等指令能夠執行以：執行一演化策略模型(ES)以使用該第二管道之該等訓練服務及推斷服務以使用由該第二管道之該訓練服務識別的至少該第一模型來識別將由該第一管道訓練之未來模型。
如請求項4之設備，其中該等指令為能夠執行的以執行該ES以基於該等分類來學習模型元資料；且至少部分地基於該元資料來生成該等未來模型。
如請求項1之設備，其中該等指令為能夠執行的以執行該等模型中之至少一個模型，以提供對新的電腦模擬之推薦以便提供給模擬玩家。
一種用於轉換資料及最佳化資料轉換之雙重機器學習管道的系統，該系統包括：一第一複數個電腦，該第一複數個電腦實施用於訓練模型且提供模型預測之一第一管道；及一第二複數個電腦，該第二複數個電腦實施一第二管道，該第二管道用於自該第一管道接收模型，將來自該第一管道之該等模型中之至少一第一模型識別為一良好模型且將該第一模型反饋至該第一管道以使得該第一管道能夠生成新模型；其中該第一複數個電腦存取指令以：接收表示由複數個模擬玩家對電腦模擬進行之輸入的資料；將該資料輸入至該第一管道之一訓練服務以訓練複數個推薦模型；使用該第一管道之一推斷服務以基於在該第一管道之該訓練服務中訓練的模型來生成推薦；向一實驗服務提供該等推薦以測試該等推薦；及將該實驗服務之輸出提供至該第二管道以使用至少一個關鍵績效指標(KPI)來選擇至少該第一模型。
如請求項7之系統，其中該第二複數個電腦存取指令以：將來自使用該第二管道之訓練服務之輸出提供至使用該第二管道的一訓練服務及推斷服務來提供對將要訓練之模型之推薦的模型；及將對將要訓練之模型之該等推薦提供至該第一管道。
如請求項8之系統，其中該等指令能夠由該第二複數個電腦執行以：對藉由使用該第二管道之該訓練服務學習到之模型進行分類以生成分類；及將該等分類提供至採用該第二管道之該推斷服務的一模型。
如請求項9之系統，其中該等指令能夠由該第二複數個電腦執行以：在該第二管道中執行一強化學習模型(RL)以至少部分地藉由最大化針對來自該第一管道之該第一模型預測的一獎勵來將至少該第一模型識別為一良好模型。
如請求項10之系統，其中該最大化係至少部分藉由以下操作來執行：使與一時間「t」相關聯之一推薦等同於與該時間「t」相關聯之一獎勵加上一折扣因子與跟一時間t+1相關聯之一推薦的一乘積。
如請求項10之系統，其中該等指令能夠由該第二複數個電腦執行以：在該第二管道中執行一演化策略模型(ES)以使用藉由使用該第二管道之該等訓練服務及推斷服務識別之至少該第一模型來識別將由該第一管道訓練之未來模型。
如請求項12之系統，其中該等指令能夠由該第二複數個電腦執行以執行該ES以基於該等分類來學習模型元資料；且至少部分地基於該元資料來生成該等未來模型。
如請求項8之系統，其中該等指令能夠由該第二複數個電腦執行以執行該等模型中之至少一個模型，以提供對新的電腦模擬之推薦以便提供給模擬玩家。
一種用於轉換資料及最佳化資料轉換之雙重機器學習管道的方法，該方法包括：使用一第一管道來訓練預測模型，該第一管道為電腦化的；使用一第二管道自該第一管道之該等預測模型中識別至少一個最佳模型，該第二管道為電腦化的；將與該最佳模型相關聯之資訊反饋至該第一管道；及使用該等預測模型中之至少一最佳模型來輸出推薦，該等推薦包括電腦模擬推薦；其中，該方法進一步包括在該第二管道中執行一強化學習模型(RL)以至少部分地藉由最大化針對第一模型預測之一獎勵來識別至少該最佳模型。
如請求項15之方法，其中該最大化係至少部分藉由以下操作來執行：使與一時間「t」相關聯之一推薦等同於與該時間「t」相關聯之一獎勵加上一折扣因子與跟一時間t+1相關聯之一推薦的一乘積。
如請求項15之方法，該方法包括在該第二管道中執行一演化策略模型(ES)以使用至少該最佳模型來識別將由該第一管道訓練之未來模型。