TW202327380A

TW202327380A - 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統

Info

Publication number: TW202327380A
Application number: TW110147803A
Authority: TW
Inventors: 范嘉豪; 邱偉育
Original assignee: 國立清華大學
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-07-01
Also published as: TWI792784B

Abstract

一種基於聯邦強化學習的邊緣計算卸載優化方法及通信系統。此方法是由各用戶設備將網路及任務狀態輸入參與者網路以產生動作權重表，據以選擇動作來執行任務並獲得評價，將相關資料作為經驗輸入回放內存，從中提取多組經驗輸入評價者網路以獲得價值函數，並依序輸入目標參與者及評價者網路進行動作選擇及評價以獲得目標價值函數，用以更新評價者及參與者網路的網路參數，並軟更新目標參與者及評價者網路的網路參數，將學習的平均效益及動作權重表上傳到雲端設備，由雲端設備計算全域權重表後回傳至各用戶設備以更新動作權重表。

Description

基於聯邦強化學習的邊緣計算卸載優化方法及通信系統

本發明是有關於一種強化學習方法及裝置，且特別是有關於一種基於聯邦強化學習的邊緣計算卸載優化方法及通信系統。

在大數據時代下，由於無線設備的數量與應用頻率不停攀升，應用邊緣計算技術對設備進行任務卸載優化以減少設備負擔，是目前重要的開發課題之一。由於卸載優化設備與任務數量相當可觀，卸載優化過程設備間的互相干擾也會使得資料上傳速率下降、為了保持速率降低能量消耗、或是資料傳輸不成功等等狀況。

在邊緣計算架構下，已有利用強化學習做卸載優化決策的優化。然而，現存研究大多利用集中式學習，在大量卸載優化設備的模型中，反而會造成上傳網路的負擔，同時收歛速度難以適應瞬息萬變的網路狀態。部分研究開始分散式學習，但只能達到每個設備代理人的最優解，無法最優化整個網路。

另一方面，過去對於邊緣計算架構的設備干擾研究，大部分集中在研究基於正交分頻多工（OFDMA）、非正交多工（NOMA）下的資源分配，但卸載優化過程中的信號傳輸對於其他設備而言只是環境雜訊而已，尤其是在大量無線設備以及傳輸資料的環境下，會產生不可忽視的影響。在同樣傳輸功率下，可能會造成傳輸速率過低，甚至是干擾太大傳輸失敗的情形。在要保證傳輸速率以及成功率的情況下，要如何不過多地浪費傳輸時消耗的能源，並在傳輸功率、能源消耗、抗干擾之間取得平衡，是本領域技術的當前目標。

本發明提供一種基於聯邦強化學習的邊緣計算卸載優化方法及系統，通過分布式地在用戶設備上運行學習模型，並應用聯邦強化學習法整合為全域模型後反饋用戶設備，使得學習模型能夠快速適應網路的動態變化。

本發明提供一種基於聯邦強化學習的邊緣計算卸載優化方法，適用於包括多個用戶設備、多個邊緣設備及雲端設備的通信系統。此方法包括下列步驟：由各用戶設備蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者網路，以產生動作權重表；用戶設備根據動作權重表隨機選擇動作以執行任務，獲得執行任務的評價，並將設備狀態、動作、評價及下一設備狀態作為經驗輸入回放內存；用戶設備從回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數；用戶設備從回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價，以獲得目標價值函數，並透過優化器更新評價者網路的網路參數；用戶設備使用評價者網路的價值函數更新參與者網路的網路參數，並使用參與者網路及評價者網路的網路參數軟更新目標參與者網路及目標評價者網路的網路參數；用戶設備計算平均效益及動作權重表並上傳到雲端設備；以及雲端設備根據各用戶設備的平均效益評價各用戶設備的學習模型，並根據評價結果計算全域權重表，以及回傳全域權重表至各用戶設備以更新動作權重表。

本發明提供一種基於聯邦強化學習的邊緣計算卸載優化的通信系統，其包括多個用戶設備、多個邊緣設備及雲端設備。其中，各用戶設備包括回放內存。邊緣設備分別通信連接用戶設備。雲端設備通信連接用戶設備及邊緣設備。其中，各用戶設備包括蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者網路，以產生動作權重表，根據動作權重表隨機選擇動作以執行任務，獲得執行所述任務的評價，並將設備狀態、動作、評價及下一設備狀態作為經驗輸入所述回放內存，從回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數，從回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價，以獲得目標價值函數，並透過優化器更新評價者網路的網路參數，使用評價者網路的價值函數更新參與者網路的網路參數，並使用參與者網路及評價者網路的網路參數軟更新目標參與者網路及目標評價者網路的網路參數，以及計算平均效益及動作權重表並上傳到雲端設備。雲端設備包括根據各用戶設備的平均效益評價各用戶設備的學習模型，並根據評價結果計算全域權重表，以及回傳全域權重表至各用戶設備以更新動作權重表。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明實施例將聯邦強化學習結合邊緣設備卸載優化，透過全域模型整合的設計，讓分布式學習的模型能全域化，解決分布式學習中卸載優化干擾的非獨立同分布問題。基於分布式學習的特性，本發明實施例能同時解決巨量學習資料上傳的網路資源消耗以及集中式學習收斂性慢的缺陷，而結合聯邦強化學習則可使學習模型更快地適應網路的動態變化，大幅降低卸載優化資源的花費。

圖1是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的通信系統的示意圖。請參照圖1，本實施例的通信系統10例如適用於4G或5G環境，其中包括多個用戶設備12、多個邊緣設備14及單一雲端設備16。用戶設備12例如是用戶攜帶的手機、平板電腦、筆記型電腦等行動裝置，其例如透過通信網路通信連接邊緣設備14。其中，邊緣設備14例如包括支援4G或5G通信網路的無線基站（eNodeB）142以及可經由網際網路20連接雲端設備16的路由器144。用戶設備12可通過通信網路與無線基站142通信，並通過路由器144經由網際網路20連結雲端設備16，以實施本實施例的基於聯邦強化學習的邊緣計算卸載優化。

圖2是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化方法的流程圖。請同時參照圖1及圖2，本實施例的方法適用於上述的通信系統10，以下即搭配通信系統10的各項元件說明本實施例的基於聯邦強化學習的邊緣計算卸載優化方法的詳細步驟。

在步驟S202中，由各用戶設備12蒐集自身的網路狀態及任務狀態以作為設備狀態輸入參與者（Actor）網路，從而產生動作權重表。其中，用戶設備12例如是蒐集其當前連線的邊緣設備 m _t _-1、待處理的任務量 q以及各個邊緣設備的可分配頻寬 b ₁ ~ b _M 作為設備狀態 S _i ：

然後，用戶設備12將設備狀態 S _i 輸入參與者網路，以產生動作權重表：

在步驟S204中，用戶設備12根據動作權重表隨機選擇動作以執行任務，獲得執行任務的評價，並將設備狀態、動作、評價及下一設備狀態作為經驗輸入回放內存。其中，用戶設備12例如是根據動作權重表選擇待處理任務的處理方式、卸載優化對象及傳輸功率作為所選擇的動作：

在一些實施例中，所述評價是使用用戶設備12執行任務的處理延遲、消耗能量及信號對干擾雜訊比（Signal to Interference plus Noise Ratio，SINR）來計算：

其中，、、為大於0小於1的任意數。

在步驟S206中，用戶設備12從回放內存隨機提取多組經驗輸入評價者（Critic）網路以獲得價值函數。在一實施例中，用戶設備12是從回放內存隨機提取時間最近的多組經驗輸入評價者網路以獲得第一價值函數，並從回放內存隨機提取效益最高的多組經驗輸入評價者網路以獲得第二價值函數，最後則取用第一價值函數及第二價值函數中估計值較小者作為評價者網路的價值函數。價值函數的定義為：

其中，為第 k組經驗的設備狀態，為參與者網路的網路參數，為評價者網路的網路參數。

在步驟S208中，用戶設備12從回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價，以獲得目標價值函數，並透過優化器更新評價者網路的網路參數。其中，用戶設備12例如是透過亞當（Adam）優化器更新評價者網路的網路參數，但本實施例不限於此。

在步驟S210中，用戶設備12使用評價者網路的價值函數更新參與者網路的網路參數，並使用參與者網路及評價者網路的網路參數軟更新目標參與者網路及目標評價者網路的網路參數。其中，用戶設備12例如是將評價者網路的價值函數以隨機梯度下降法（Stochastic Gradient descent，SGD）更新參與者網路的網路參數：

其中，為更新參數， Z為提取的經驗數目。

此外，用戶設備12例如是使用參與者網路的網路參數按照預設比例更新目標參與者網路的網路參數，以及使用評價者網路的網路參數按照預設比例更新目標評價者網路的網路參數：

在步驟S212中，用戶設備12將學習的平均效益及動作權重表上傳到雲端設備16。

在步驟S214中，雲端設備16根據各用戶設備12的平均效益評價各用戶設備12的學習模型，並根據評價結果計算全域權重表，以及回傳全域權重表至各用戶設備12以更新學習模型。

詳細而言，圖3是依照本發明一實施例所繪示的計算全域權重表的方法的流程圖。請同時參照圖1及圖3，本實施例的方法適用於上述的通信系統10，以下即搭配通信系統10的各項元件說明本實施例的計算全域權重表的方法的詳細步驟。

在步驟S302中，雲端設備16使用各用戶設備12的平均效益計算分布的變異數（variance）。

在步驟S304中，雲端設備16將平均效益位在變異數的區間內的用戶設備12的學習模型評價為好模型，並將平均效益位在變異數的區間外的用戶設備的學習模型評價為壞模型。其中，雲端設備16例如是以所有用戶設備12上傳的平均效益計算平均值及變異數，並據此定義一個變異數的區間，此區間可表示大部分學習模型的平均效益，因此，若某個用戶設備12的平均效益偏離此區間時，則代表該用戶設備12的學習模型過於離散，因而評價為壞模型，反之則可評價為好模型。

在步驟S306中，雲端設備16記錄各用戶設備12的學習模型被評價為好模型或壞模型的次數。其中，雲端設備16例如僅記錄各用戶設備12在學習過程中最新回合（episode）被評價為好模型或壞模型的次數。即，在記錄滿回合之後，雲端設備16會拿最新的記錄取代最舊的記錄。藉此，即使某個用戶設備12的學習模型過往的效益較佳但近期出現劣化，雲端設備16可快速地調整對該學習模型的評價，反之亦然。

在步驟S308中，雲端設備16根據各用戶設備12的學習模型被評價為好模型的比例計算信任度，並根據各用戶設備12的學習模型被評價為壞模型的比例計算不信任度，以及利用所計算的信任度及不信任度計算不確定性，其公式如下：

在步驟S310中，雲端設備16將信任度加上部分的不確定性作為最終信心度：

其中，為使用不確定性的比例。

在步驟S312中，雲端設備16將各用戶設備12的學習模型的最終信心度作為權重，計算 N個用戶設備12的動作權重表的加權平均以作為全域權重表：

經由上述方法，雲端設備16可取得整合所有用戶設備12的學習模型的特性的全域模型。雲端設備16進一步將此模型回傳給所有用戶設備12，而可協助用戶設備12優化其學習模型。

詳細而言，用戶設備12在接收到雲端設備16回傳的全域權重表後，即可依照其學習模型被評價為好模型或壞模型的次數，決定該全域權重表與本地端的動作權重表的比重 x，並根據此比重 x更新動作權重表：

在一實施例中，若用戶設備12的學習模型被評價為好模型，可將比重設為1/2；而若用戶設備12的學習模型被評價為壞模型，則可將比重設為2/3或大於1/2的其他值。

通過上述整合全域模型的設計，本發明實施例的方法能讓分布式學習的模型全域化，因此可解決分布式學習中，卸載優化干擾的非獨立問題，並可加快學習速度，減少資源花費。

圖4是依照本發明一實施例所繪示的實施分布式強化學習及聯邦強化學習的系統架構。請參照圖4，在本實施例中，用戶設備12包括行動裝置1~N，邊緣設備14包括邊緣裝置1~M，其中M、N為正整數。本實施例進一步說明圖1的通信系統10執行分布式強化學習及聯邦強化學習的實施方式，期望實現最小化務處理延遲、能量消耗及信號對干擾雜訊比（SINR）的優化目標：

其中，、、為學習目標比重，、 N、 T分別為學習回合數、學習裝置總數以及一個回合的學習步階數，為折扣因子。

首先，由行動裝置1~N個別與邊緣裝置1~M實施分布式強化學習。以行動裝置n為例，其針對所接收的任務隊列 q，可根據本身的設備狀態決定卸載策略。其中，為邊緣裝置1~M可分配的頻寬，為當前連線的所述邊緣設備，為所選擇用以處理任務 q的處理方式，其中代表本地端處理、代表卸載處理， m為所選擇用以卸載任務 q的邊緣設備， p為傳輸功率。基於卸載策略，行動裝置n例如會使用傳輸功率p及頻道增益h _n與邊緣裝置m進行通信以處理任務 q，並從中進行強化學習，以更新本地端的動作權重表。

在所有的行動裝置1~N完成了 T次的分布式強化學習後，其例如會經由邊緣裝置1~M將學習所得的動作權重表上傳至雲端設備16，以進行聯邦強化學習。其中，雲端設備16在取得各個行動裝置1~N的動作權重表後，即可根據各個行動裝置1~N的平均效益評價其學習模型，並根據評價結果計算全域權重表。最後，雲端設備16將全域權重表回傳給行動裝置1~N，而由各個行動裝置1~N使用此全域權重表與本地端的動作權重表整合，以獲得包含全域資訊的動作權重表。

圖5是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的演算法架構。請參照圖5，本實施例的模型適於由終端設備向邊緣設備要求卸載優化服務，之後使用分布式強化學習卸載優化策略，並且透過向雲端更新學習本地模型，最終得到全域模型的設計。其中，考慮到網路卸載優化動作的連續性，本實施例應用參與者-評價者（Actor-Critic）強化學習演算法中相對穩定的深度確定梯度策略（Deep Deterministic Policy Gradient，DDPG）演算法，但不限於此。

詳細而言，由於功率的選擇是連續動作，在強化學習中，參與者-評價者強化學習演算法對於連續空間的學習成效是比較好的。本實施例的DDPG演算法採用經驗回放以及目標網路的設計，對於快速變化的環境來說，學習相對比較穩定，不容易受到影響，但經驗回放會影響學習速度，目標網路則會使得收歛太慢，因此本實施例採用優先經驗回放的設計來增強收歛速度，且針對深度學習的回放會產生過度估計的問題，本實施例採用強化學習中的雙重深度強化學習（double deep Q learning）來避免這問題。

其中，與傳統參與者-評價者演算法不同的是，本實施例的演算法需要更新四組網路：參與者（Actor）網路A1、評價者（Critic）網路C1、目標參與者網路A2及目標評價者網路C2，其更新方式如下：

第一組：參與者網路A1的網路參數，是透過評價者網路C1所計算出的價值函數更新：

第二組：評價者網路C1的網路參數，是與目標參與者網路A2的價值函數透過亞當（Adam）優化器整合。

第三組、第四組：目標參與者網路A2的網路參數及目標評價者網路C2的網路參數，是採用軟更新（soft update），讓網路更具穩定性。

在一些實施例中，本實施例的演算法的流程如下：

在步驟S502中，用戶設備12會蒐集來自邊緣設備14的訊息，包括當前能從邊緣裝置1~M分得的頻寬、目前連線中的邊緣裝置、以及任務大小，從而生成設備狀態。

在步驟S504中，用戶設備12將設備狀態輸入參與者網路A1，以產生動作權重表。

在步驟S506中，用戶設備12根據動作權重表，隨機選擇動作以執行任務，其中包括任務的處理方式（即，是否卸載）、卸載邊緣裝置及傳輸功率。

在步驟S508中，用戶設備12根據計算結果，取得處理延遲、消耗能量及信號對干擾雜訊比（Signal to Interference plus Noise Ratio，SINR），並用以計算評價。

在步驟S510中，用戶設備12將狀態、動作、評價、下一個狀態作為經驗輸入回放存取B中，並且將第ν步以前的舊經驗刪掉。

在步驟S512中，用戶設備12從回放存取B中隨機取樣Z組經驗（包括狀態、動作、評價）輸入評價者網路C1，其中，並且輸出為價值函數。

在步驟S514中，用戶設備12從回放存取B中隨機取一組狀態輸入到目標參與者網路A2，以輸出動作並得到評價，並將狀態、動作、評價輸入目標評價者網路C2，而輸出目標價值函數。然後，對目標價值函數與評價者網路C1的價值函數進行亞當優化，並更新評價者網路C1的參數。

在步驟S516中，用戶設備12將評價者網路C1的價值函數以隨機梯度下降（SGD）法更新參與者網路A1的網路參數。

在步驟S518中，用戶設備12使用更新的參與者網路A1的網路參數對目標參與者網路A2的網路參數進行軟更新：

在步驟S520中，用戶設備12使用更新的評價者網路C1的網路參數對目標評價者網路C2的網路參數進行軟更新：

其中，為更新參數。

用戶設備12例如會重複執行步驟S502~S520，以進行分布式強化學習。在完成一輪的學習（即 T步驟）之後，在步驟S522中，雲端設備16接收來自用戶設備12的動作權重表，並執行聯邦強化學習，以計算全域權重表。此時，用戶設備12可使用此全域權重表更新本地端的動作權重表，並將 i重置為0，以進行下一輪的學習。

綜上所述，本發明實施例的基於聯邦強化學習的邊緣計算卸載優化方法及通信裝置，考量到設備間干擾，透過控制卸載傳輸功率，而能夠減輕傳輸的干擾影響，同時最小化任務處理時間以及能量消耗。此外，本發明實施例運用聯邦強化學習解決設備間干擾的非獨立同分布問題。由於分布式學習的特性，同時能減輕巨量學習資料上傳的網路資源消耗以及集中式學習收斂性慢的缺陷。再者，本發明實施例以學習效益為參考設計聯邦強化學習的全域模型，則可進一步提升收斂性與效能。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:通信系統 12:用戶設備 14:邊緣設備 142:無線基站 144:路由器 16:雲端設備 20:網際網路 A1:參與者網路 A2:目標參與者網路 C1:評價者網路 C2:目標評價者網路 b ₁~b _M:頻寬 h:頻道增益 p:功率 ω:動作權重表 ω ^global:全域權重表 S202~S214、S302~S312、S502~S522:步驟

圖1是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的通信系統的示意圖。圖2是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化方法的流程圖。圖3是依照本發明一實施例所繪示的計算全域權重表的方法的流程圖。圖4是依照本發明一實施例所繪示的實施分布式強化學習及聯邦強化學習的系統架構。圖5是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的演算法架構。

S202~S214:步驟

Claims

一種基於聯邦強化學習的邊緣計算卸載優化方法，適用於包括多個用戶設備、多個邊緣設備及雲端設備的通信系統，所述方法包括下列步驟：由各所述用戶設備蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者（Actor）網路，以產生動作權重表（action weighting table）；所述用戶設備根據所述動作權重表隨機選擇動作以執行任務，獲得執行所述任務的評價，並將所述設備狀態、所述動作、所述評價及下一設備狀態作為經驗輸入回放內存；所述用戶設備從所述回放內存隨機提取多組經驗輸入評價者（Critic）網路以獲得價值函數；所述用戶設備從所述回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價，以獲得目標價值函數，並透過優化器更新所述評價者網路的網路參數；所述用戶設備使用所述評價者網路的所述價值函數更新所述參與者網路的網路參數，並使用所述參與者網路及所述評價者網路的所述網路參數軟更新所述目標參與者網路及所述目標評價者網路的網路參數；所述用戶設備將學習的平均效益及動作權重表上傳到所述雲端設備；以及所述雲端設備根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型，並根據評價結果計算全域權重表，以及回傳所述全域權重表至各所述用戶設備以更新所述動作權重表。
如請求項1所述的方法，其中由各所述用戶設備蒐集自身的網路狀態及任務狀態作為設備狀態的步驟包括：蒐集所述用戶設備當前連線的所述邊緣設備、待處理的任務量以及各所述邊緣設備的可分配頻寬作為所述設備狀態。
如請求項1所述的方法，其中所述用戶設備根據所述動作權重表隨機選擇動作的步驟包括：根據所述動作權重表選擇待處理任務的處理方式、卸載優化對象及傳輸功率作為所選擇的所述動作。
如請求項1所述的方法，其中所述評價是利用所述用戶設備執行任務的處理延遲、消耗能量及信號對干擾雜訊比（Signal to Interference plus Noise Ratio，SINR）來計算。
如請求項1所述的方法，其中所述用戶設備從所述回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數的步驟包括：從所述回放內存隨機提取時間最近的多組經驗輸入評價者網路以獲得第一價值函數；從所述回放內存隨機提取效益最高的多組經驗輸入評價者網路以獲得第二價值函數；以及取用所述第一價值函數及所述第二價值函數中估計值較小者作為所述評價者網路的所述價值函數。
如請求項1所述的方法，其中所述用戶設備使用所述評價者網路的所述價值函數更新所述參與者網路的網路參數的步驟包括：將所述評價者網路的所述價值函數以隨機梯度下降法更新所述參與者網路的所述網路參數。
如請求項1所述的方法，其中所述用戶設備使用所述參與者網路及所述評價者網路的所述網路參數軟更新所述目標參與者網路及所述目標評價者網路的網路參數的步驟包括：使用所述參與者網路的所述網路參數按照預設比例更新所述目標參與者網路的所述網路參數；以及使用所述評價者網路的所述網路參數按照預設比例更新所述目標評價者網路的所述網路參數。
如請求項1所述的方法，其中所述雲端設備根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型的步驟包括：使用各所述用戶設備的所述平均效益計算分布的變異數；將所述平均效益位在所述變異數的區間內的所述用戶設備的學習模型評價為好模型；以及將所述平均效益位在所述變異數的區間外的所述用戶設備的學習模型評價為壞模型。
如請求項8所述的方法，其中所述雲端設備根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型，並根據評價結果計算全域權重表的步驟包括：記錄各所述用戶設備的所述學習模型被評價為好模型或壞模型的次數；根據各所述用戶設備的所述學習模型被評價為好模型的比例計算信任度，並根據各所述用戶設備的所述學習模型被評價為壞模型的比例計算不信任度，以及利用所計算的所述信任度及所述不信任度計算不確定性；將所述信任度加上部分的所述不確定性作為最終信心度；以及將各所述用戶設備的所述學習模型的所述最終信心度作為權重，計算所述用戶設備的所述動作權重表的加權平均作為所述全域權重表。
如請求項9所述的方法，其中所述雲端設備回傳所述全域權重表至各所述用戶設備的步驟之後，所述方法包括：各所述用戶設備依照所述學習模型被評價為好模型或壞模型的次數，決定所述全域權重表與本地端的所述動作權重表的比重，並根據所述比重更新所述動作權重表。
一種基於聯邦強化學習的邊緣計算卸載優化的通信系統，包括：多個用戶設備，各所述用戶設備包括回放內存；多個邊緣設備，通信連接所述用戶設備；以及雲端設備，通信連接所述用戶設備及所述邊緣設備，其中各所述用戶設備包括：蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者網路，以產生動作權重表；根據所述動作權重表隨機選擇動作以執行任務，獲得執行所述任務的評價，並將所述設備狀態、所述動作、所述評價及下一設備狀態作為經驗輸入所述回放內存；從所述回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數；從所述回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價，以獲得目標價值函數，並透過優化器更新所述評價者網路的網路參數；使用所述評價者網路的所述價值函數更新所述參與者網路的網路參數，並使用所述參與者網路及所述評價者網路的所述網路參數軟更新所述目標參與者網路及所述目標評價者網路的網路參數；以及將學習的平均效益及動作權重表上傳到所述雲端設備，以及所述雲端設備包括根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型，並根據評價結果計算全域權重表，以及回傳所述全域權重表至各所述用戶設備以更新所述學習模型。
如請求項11所述的通信系統，其中各所述用戶設備包括蒐集當前連線的所述邊緣設備、待處理的任務量以及各所述邊緣設備的可分配頻寬作為所述設備狀態。
如請求項11所述的通信系統，其中各所述用戶設備根據所述動作權重表選擇待處理任務的處理方式、卸載優化對象及傳輸功率作為所選擇的所述動作。
如請求項11所述的通信系統，其中所述評價是利用所述用戶設備執行任務的處理延遲、消耗能量及信號對干擾雜訊比來計算。
如請求項11所述的通信系統，其中各所述用戶設備包括從所述回放內存隨機提取時間最近的多組經驗輸入評價者網路以獲得第一價值函數，從所述回放內存隨機提取效益最高的多組經驗輸入評價者網路以獲得第二價值函數，以及取用所述第一價值函數及所述第二價值函數中估計值較小者作為所述評價者網路的所述價值函數。
如請求項11所述的通信系統，其中各所述用戶設備包括將所述評價者網路的所述價值函數以隨機梯度下降法更新所述參與者網路的所述網路參數。
如請求項11所述的通信系統，其中各所述用戶設備包括使用所述參與者網路的所述網路參數按照預設比例更新所述目標參與者網路的所述網路參數，以及使用所述評價者網路的所述網路參數按照預設比例更新所述目標評價者網路的所述網路參數。
如請求項11所述的通信系統，其中所述雲端設備包括使用各所述用戶設備的所述平均效益計算分布的變異數，將所述平均效益位在所述變異數的區間內的所述用戶設備的學習模型評價為好模型，以及將所述平均效益位在所述變異數的區間外的所述用戶設備的學習模型評價為壞模型。
如請求項18所述的通信系統，其中所述雲端設備包括記錄各所述用戶設備的所述學習模型被評價為好模型或壞模型的次數，根據各所述用戶設備的所述學習模型被評價為好模型的比例計算信任度，並根據各所述用戶設備的所述學習模型被評價為壞模型的比例計算不信任度，以及利用所計算的所述信任度及所述不信任度計算不確定性，將所述信任度加上部分的所述不確定性作為最終信心度，以及將各所述用戶設備的所述學習模型的所述最終信心度作為權重，計算所述用戶設備的所述動作權重表的加權平均作為所述全域權重表。
如請求項19所述的通信系統，其中各所述用戶設備包括依所述學習模型被評價為好模型或壞模型的次數，決定所述全域權重表與本地端的所述動作權重表的比重，並根據所述比重更新所述動作權重表。