TWI792784B - 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統 - Google Patents

基於聯邦強化學習的邊緣計算卸載優化方法及通信系統 Download PDF

Info

Publication number
TWI792784B
TWI792784B TW110147803A TW110147803A TWI792784B TW I792784 B TWI792784 B TW I792784B TW 110147803 A TW110147803 A TW 110147803A TW 110147803 A TW110147803 A TW 110147803A TW I792784 B TWI792784 B TW I792784B
Authority
TW
Taiwan
Prior art keywords
network
user equipment
action
weight table
target
Prior art date
Application number
TW110147803A
Other languages
English (en)
Other versions
TW202327380A (zh
Inventor
范嘉豪
邱偉育
Original Assignee
國立清華大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立清華大學 filed Critical 國立清華大學
Priority to TW110147803A priority Critical patent/TWI792784B/zh
Application granted granted Critical
Publication of TWI792784B publication Critical patent/TWI792784B/zh
Publication of TW202327380A publication Critical patent/TW202327380A/zh

Links

Images

Abstract

一種基於聯邦強化學習的邊緣計算卸載優化方法及通信系統。此方法是由各用戶設備將網路及任務狀態輸入參與者網路以產生動作權重表,據以選擇動作來執行任務並獲得評價,將相關資料作為經驗輸入回放內存,從中提取多組經驗輸入評價者網路以獲得價值函數,並依序輸入目標參與者及評價者網路進行動作選擇及評價以獲得目標價值函數,用以更新評價者及參與者網路的網路參數,並軟更新目標參與者及評價者網路的網路參數,將學習的平均效益及動作權重表上傳到雲端設備,由雲端設備計算全域權重表後回傳至各用戶設備以更新動作權重表。

Description

基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
本發明是有關於一種強化學習方法及裝置,且特別是有關於一種基於聯邦強化學習的邊緣計算卸載優化方法及通信系統。
在大數據時代下,由於無線設備的數量與應用頻率不停攀升,應用邊緣計算技術對設備進行任務卸載優化以減少設備負擔,是目前重要的開發課題之一。由於卸載優化設備與任務數量相當可觀,卸載優化過程設備間的互相干擾也會使得資料上傳速率下降、為了保持速率降低能量消耗、或是資料傳輸不成功等等狀況。
在邊緣計算架構下,已有利用強化學習做卸載優化決策的優化。然而,現存研究大多利用集中式學習,在大量卸載優化設備的模型中,反而會造成上傳網路的負擔,同時收歛速度難以適應瞬息萬變的網路狀態。部分研究開始分散式學習,但只能達到每個設備代理人的最優解,無法最優化整個網路。
另一方面,過去對於邊緣計算架構的設備干擾研究,大部分集中在研究基於正交分頻多工(OFDMA)、非正交多工(NOMA)下的資源分配,但卸載優化過程中的信號傳輸對於其他設備而言只是環境雜訊而已,尤其是在大量無線設備以及傳輸資料的環境下,會產生不可忽視的影響。在同樣傳輸功率下,可能會造成傳輸速率過低,甚至是干擾太大傳輸失敗的情形。在要保證傳輸速率以及成功率的情況下,要如何不過多地浪費傳輸時消耗的能源,並在傳輸功率、能源消耗、抗干擾之間取得平衡,是本領域技術的當前目標。
本發明提供一種基於聯邦強化學習的邊緣計算卸載優化方法及系統,通過分布式地在用戶設備上運行學習模型,並應用聯邦強化學習法整合為全域模型後反饋用戶設備,使得學習模型能夠快速適應網路的動態變化。
本發明提供一種基於聯邦強化學習的邊緣計算卸載優化方法,適用於包括多個用戶設備、多個邊緣設備及雲端設備的通信系統。此方法包括下列步驟:由各用戶設備蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者網路,以產生動作權重表;用戶設備根據動作權重表隨機選擇動作以執行任務,獲得執行任務的評價,並將設備狀態、動作、評價及下一設備狀態作為經驗輸入回放內存;用戶設備從回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數;用戶設備從回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價,以獲得目標價值函數,並透過優化器更新評價者網路的網路參數;用戶設備使用評價者網路的價值函數更新參與者網路的網路參數,並使用參與者網路及評價者網路的網路參數軟更新目標參與者網路及目標評價者網路的網路參數;用戶設備計算平均效益及動作權重表並上傳到雲端設備;以及雲端設備根據各用戶設備的平均效益評價各用戶設備的學習模型,並根據評價結果計算全域權重表,以及回傳全域權重表至各用戶設備以更新動作權重表。
本發明提供一種基於聯邦強化學習的邊緣計算卸載優化的通信系統,其包括多個用戶設備、多個邊緣設備及雲端設備。其中,各用戶設備包括回放內存。邊緣設備分別通信連接用戶設備。雲端設備通信連接用戶設備及邊緣設備。其中,各用戶設備包括蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者網路,以產生動作權重表,根據動作權重表隨機選擇動作以執行任務,獲得執行所述任務的評價,並將設備狀態、動作、評價及下一設備狀態作為經驗輸入所述回放內存,從回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數,從回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價,以獲得目標價值函數,並透過優化器更新評價者網路的網路參數,使用評價者網路的價值函數更新參與者網路的網路參數,並使用參與者網路及評價者網路的網路參數軟更新目標參與者網路及目標評價者網路的網路參數,以及計算平均效益及動作權重表並上傳到雲端設備。雲端設備包括根據各用戶設備的平均效益評價各用戶設備的學習模型,並根據評價結果計算全域權重表,以及回傳全域權重表至各用戶設備以更新動作權重表。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明實施例將聯邦強化學習結合邊緣設備卸載優化,透過全域模型整合的設計,讓分布式學習的模型能全域化,解決分布式學習中卸載優化干擾的非獨立同分布問題。基於分布式學習的特性,本發明實施例能同時解決巨量學習資料上傳的網路資源消耗以及集中式學習收斂性慢的缺陷,而結合聯邦強化學習則可使學習模型更快地適應網路的動態變化,大幅降低卸載優化資源的花費。
圖1是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的通信系統的示意圖。請參照圖1,本實施例的通信系統10例如適用於4G或5G環境,其中包括多個用戶設備12、多個邊緣設備14及單一雲端設備16。用戶設備12例如是用戶攜帶的手機、平板電腦、筆記型電腦等行動裝置,其例如透過通信網路通信連接邊緣設備14。其中,邊緣設備14例如包括支援4G或5G通信網路的無線基站(eNodeB)142以及可經由網際網路20連接雲端設備16的路由器144。用戶設備12可通過通信網路與無線基站142通信,並通過路由器144經由網際網路20連結雲端設備16,以實施本實施例的基於聯邦強化學習的邊緣計算卸載優化。
圖2是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化方法的流程圖。請同時參照圖1及圖2,本實施例的方法適用於上述的通信系統10,以下即搭配通信系統10的各項元件說明本實施例的基於聯邦強化學習的邊緣計算卸載優化方法的詳細步驟。
在步驟S202中,由各用戶設備12蒐集自身的網路狀態及任務狀態以作為設備狀態輸入參與者(Actor)網路,從而產生動作權重表。其中,用戶設備12例如是蒐集其當前連線的邊緣設備 m t -1、待處理的任務量 q以及各個邊緣設備的可分配頻寬 b 1 ~ b M 作為設備狀態 S i
Figure 02_image001
然後,用戶設備12將設備狀態 S i 輸入參與者網路,以產生動作權重表
Figure 02_image003
Figure 02_image005
在步驟S204中,用戶設備12根據動作權重表
Figure 02_image003
隨機選擇動作
Figure 02_image007
以執行任務,獲得執行任務的評價
Figure 02_image009
,並將設備狀態
Figure 02_image011
、動作
Figure 02_image007
、評價
Figure 02_image009
及下一設備狀態
Figure 02_image013
作為經驗
Figure 02_image015
輸入回放內存。其中,用戶設備12例如是根據動作權重表選擇待處理任務的處理方式
Figure 02_image017
、卸載優化對象
Figure 02_image019
及傳輸功率
Figure 02_image021
作為所選擇的動作
Figure 02_image007
Figure 02_image023
在一些實施例中,所述評價
Figure 02_image009
是使用用戶設備12執行任務的處理延遲
Figure 02_image025
、消耗能量
Figure 02_image027
及信號對干擾雜訊比(Signal to Interference plus Noise Ratio,SINR)
Figure 02_image029
來計算:
Figure 02_image031
其中,
Figure 02_image033
Figure 02_image035
Figure 02_image037
為大於0小於1的任意數。
在步驟S206中,用戶設備12從回放內存隨機提取多組經驗輸入評價者(Critic)網路以獲得價值函數。在一實施例中,用戶設備12是從回放內存隨機提取時間最近的多組經驗輸入評價者網路以獲得第一價值函數
Figure 02_image039
,並從回放內存隨機提取效益最高的多組經驗輸入評價者網路以獲得第二價值函數
Figure 02_image041
,最後則取用第一價值函數
Figure 02_image039
及第二價值函數
Figure 02_image041
中估計值較小者作為評價者網路的價值函數。價值函數
Figure 02_image043
的定義為:
Figure 02_image045
其中,
Figure 02_image047
為第 k組經驗的設備狀態,
Figure 02_image049
為參與者網路的網路參數,
Figure 02_image051
為評價者網路的網路參數。
在步驟S208中,用戶設備12從回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價,以獲得目標價值函數,並透過優化器更新評價者網路的網路參數。其中,用戶設備12例如是透過亞當(Adam)優化器更新評價者網路的網路參數,但本實施例不限於此。
在步驟S210中,用戶設備12使用評價者網路的價值函數更新參與者網路的網路參數,並使用參與者網路及評價者網路的網路參數軟更新目標參與者網路及目標評價者網路的網路參數。其中,用戶設備12例如是將評價者網路的價值函數
Figure 02_image043
以隨機梯度下降法(Stochastic Gradient descent,SGD)更新參與者網路的網路參數
Figure 02_image049
Figure 02_image053
其中,
Figure 02_image055
為更新參數, Z為提取的經驗數目。
此外,用戶設備12例如是使用參與者網路的網路參數
Figure 02_image049
按照預設比例更新目標參與者網路的網路參數
Figure 02_image057
,以及使用評價者網路的網路參數
Figure 02_image051
按照預設比例
Figure 02_image059
更新目標評價者網路的網路參數
Figure 02_image061
Figure 02_image063
Figure 02_image065
在步驟S212中,用戶設備12將學習的平均效益及動作權重表上傳到雲端設備16。
在步驟S214中,雲端設備16根據各用戶設備12的平均效益評價各用戶設備12的學習模型,並根據評價結果計算全域權重表,以及回傳全域權重表至各用戶設備12以更新學習模型。
詳細而言,圖3是依照本發明一實施例所繪示的計算全域權重表的方法的流程圖。請同時參照圖1及圖3,本實施例的方法適用於上述的通信系統10,以下即搭配通信系統10的各項元件說明本實施例的計算全域權重表的方法的詳細步驟。
在步驟S302中,雲端設備16使用各用戶設備12的平均效益計算分布的變異數(variance)。
在步驟S304中,雲端設備16將平均效益位在變異數的區間內的用戶設備12的學習模型評價為好模型,並將平均效益位在變異數的區間外的用戶設備的學習模型評價為壞模型。其中,雲端設備16例如是以所有用戶設備12上傳的平均效益計算平均值及變異數,並據此定義一個變異數的區間,此區間可表示大部分學習模型的平均效益,因此,若某個用戶設備12的平均效益偏離此區間時,則代表該用戶設備12的學習模型過於離散,因而評價為壞模型,反之則可評價為好模型。
在步驟S306中,雲端設備16記錄各用戶設備12的學習模型被評價為好模型或壞模型的次數。其中,雲端設備16例如僅記錄各用戶設備12在學習過程中最新
Figure 02_image067
回合(episode)被評價為好模型或壞模型的次數。即,在記錄滿
Figure 02_image067
回合之後,雲端設備16會拿最新的記錄取代最舊的記錄。藉此,即使某個用戶設備12的學習模型過往的效益較佳但近期出現劣化,雲端設備16可快速地調整對該學習模型的評價,反之亦然。
在步驟S308中,雲端設備16根據各用戶設備12的學習模型被評價為好模型
Figure 02_image069
的比例計算信任度
Figure 02_image071
,並根據各用戶設備12的學習模型被評價為壞模型
Figure 02_image073
的比例計算不信任度
Figure 02_image075
,以及利用所計算的信任度
Figure 02_image071
及不信任度
Figure 02_image075
計算不確定性
Figure 02_image077
,其公式如下:
Figure 02_image079
Figure 02_image081
Figure 02_image083
在步驟S310中,雲端設備16將信任度
Figure 02_image071
加上部分的不確定性
Figure 02_image077
作為最終信心度
Figure 02_image085
Figure 02_image087
其中,
Figure 02_image089
為使用不確定性
Figure 02_image077
的比例。
在步驟S312中,雲端設備16將各用戶設備12的學習模型的最終信心度作為權重,計算 N個用戶設備12的動作權重表
Figure 02_image091
的加權平均以作為全域權重表
Figure 02_image093
Figure 02_image095
經由上述方法,雲端設備16可取得整合所有用戶設備12的學習模型的特性的全域模型。雲端設備16進一步將此模型回傳給所有用戶設備12,而可協助用戶設備12優化其學習模型。
詳細而言,用戶設備12在接收到雲端設備16回傳的全域權重表
Figure 02_image093
後,即可依照其學習模型被評價為好模型或壞模型的次數,決定該全域權重表
Figure 02_image093
與本地端的動作權重表
Figure 02_image097
的比重 x,並根據此比重 x更新動作權重表
Figure 02_image097
Figure 02_image099
在一實施例中,若用戶設備12的學習模型被評價為好模型,可將比重
Figure 02_image101
設為1/2;而若用戶設備12的學習模型被評價為壞模型,則可將比重
Figure 02_image101
設為2/3或大於1/2的其他值。
通過上述整合全域模型的設計,本發明實施例的方法能讓分布式學習的模型全域化,因此可解決分布式學習中,卸載優化干擾的非獨立問題,並可加快學習速度,減少資源花費。
圖4是依照本發明一實施例所繪示的實施分布式強化學習及聯邦強化學習的系統架構。請參照圖4,在本實施例中,用戶設備12包括行動裝置1~N,邊緣設備14包括邊緣裝置1~M,其中M、N為正整數。本實施例進一步說明圖1的通信系統10執行分布式強化學習及聯邦強化學習的實施方式,期望實現最小化務處理延遲
Figure 02_image103
、能量消耗
Figure 02_image105
及信號對干擾雜訊比(SINR)
Figure 02_image107
的優化目標:
Figure 02_image109
其中,
Figure 02_image111
Figure 02_image113
Figure 02_image115
為學習目標比重,
Figure 02_image117
NT分別為學習回合數、學習裝置總數以及一個回合的學習步階數,
Figure 02_image119
為折扣因子。
首先,由行動裝置1~N個別與邊緣裝置1~M實施分布式強化學習。以行動裝置n為例,其針對所接收的任務隊列 q,可根據本身的設備狀態
Figure 02_image121
決定卸載策略
Figure 02_image123
。其中,
Figure 02_image125
為邊緣裝置1~M可分配的頻寬,
Figure 02_image127
為當前連線的所述邊緣設備,
Figure 02_image129
為所選擇用以處理任務 q的處理方式,其中
Figure 02_image131
代表本地端處理、
Figure 02_image133
代表卸載處理, m為所選擇用以卸載任務 q的邊緣設備, p為傳輸功率。基於卸載策略,行動裝置n例如會使用傳輸功率p及頻道增益h n與邊緣裝置m進行通信以處理任務 q,並從中進行強化學習,以更新本地端的動作權重表
Figure 02_image003
在所有的行動裝置1~N完成了 T次的分布式強化學習後,其例如會經由邊緣裝置1~M將學習所得的動作權重表
Figure 02_image003
上傳至雲端設備16,以進行聯邦強化學習。其中,雲端設備16在取得各個行動裝置1~N的動作權重表
Figure 02_image003
後,即可根據各個行動裝置1~N的平均效益評價其學習模型,並根據評價結果計算全域權重表
Figure 02_image093
。最後,雲端設備16將全域權重表
Figure 02_image093
回傳給行動裝置1~N,而由各個行動裝置1~N使用此全域權重表
Figure 02_image093
與本地端的動作權重表
Figure 02_image003
整合,以獲得包含全域資訊的動作權重表
Figure 02_image135
圖5是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的演算法架構。請參照圖5,本實施例的模型適於由終端設備向邊緣設備要求卸載優化服務,之後使用分布式強化學習卸載優化策略,並且透過向雲端更新學習本地模型,最終得到全域模型的設計。其中,考慮到網路卸載優化動作的連續性,本實施例應用參與者-評價者(Actor-Critic)強化學習演算法中相對穩定的深度確定梯度策略(Deep Deterministic Policy Gradient,DDPG)演算法,但不限於此。
詳細而言,由於功率的選擇是連續動作,在強化學習中,參與者-評價者強化學習演算法對於連續空間的學習成效是比較好的。本實施例的DDPG演算法採用經驗回放以及目標網路的設計,對於快速變化的環境來說,學習相對比較穩定,不容易受到影響,但經驗回放會影響學習速度,目標網路則會使得收歛太慢,因此本實施例採用優先經驗回放的設計來增強收歛速度,且針對深度學習的回放會產生過度估計的問題,本實施例採用強化學習中的雙重深度強化學習(double deep Q learning)來避免這問題。
其中,與傳統參與者-評價者演算法不同的是,本實施例的演算法需要更新四組網路:參與者(Actor)網路A1、評價者(Critic)網路C1、目標參與者網路A2及目標評價者網路C2,其更新方式如下:
第一組:參與者網路A1的網路參數
Figure 02_image049
,是透過評價者網路C1所計算出的價值函數
Figure 02_image137
更新:
Figure 02_image139
第二組:評價者網路C1的網路參數
Figure 02_image051
,是與目標參與者網路A2的價值函數
Figure 02_image141
透過亞當(Adam)優化器整合。
第三組、第四組:目標參與者網路A2的網路參數
Figure 02_image057
及目標評價者網路C2的網路參數
Figure 02_image061
,是採用軟更新(soft update),讓網路更具穩定性。
在一些實施例中,本實施例的演算法的流程如下:
在步驟S502中,用戶設備12會蒐集來自邊緣設備14的訊息,包括當前能從邊緣裝置1~M分得的頻寬
Figure 02_image143
、目前連線中的邊緣裝置
Figure 02_image127
、以及任務大小
Figure 02_image145
,從而生成設備狀態
Figure 02_image147
在步驟S504中,用戶設備12將設備狀態
Figure 02_image149
輸入參與者網路A1,以產生動作權重表
Figure 02_image151
在步驟S506中,用戶設備12根據動作權重表
Figure 02_image003
,隨機選擇動作
Figure 02_image007
以執行任務,其中包括任務的處理方式(即,是否卸載)
Figure 02_image153
、卸載邊緣裝置
Figure 02_image019
及傳輸功率
Figure 02_image155
在步驟S508中,用戶設備12根據計算結果,取得處理延遲
Figure 02_image157
、消耗能量
Figure 02_image159
及信號對干擾雜訊比(Signal to Interference plus Noise Ratio,SINR)
Figure 02_image161
,並用以計算評價
Figure 02_image163
在步驟S510中,用戶設備12將狀態
Figure 02_image149
、動作
Figure 02_image007
、評價
Figure 02_image009
、下一個狀態
Figure 02_image165
作為經驗輸入回放存取B中,並且將第ν步以前的舊經驗刪掉。
在步驟S512中,用戶設備12從回放存取B中隨機取樣Z組經驗(包括狀態
Figure 02_image167
、動作
Figure 02_image169
、評價
Figure 02_image171
)輸入評價者網路C1,其中
Figure 02_image173
,並且輸出為價值函數
Figure 02_image175
在步驟S514中,用戶設備12從回放存取B中隨機取一組狀態
Figure 02_image177
輸入到目標參與者網路A2,以輸出動作
Figure 02_image179
並得到評價
Figure 02_image181
,並將狀態
Figure 02_image177
、動作
Figure 02_image179
、評價
Figure 02_image181
輸入目標評價者網路C2,而輸出目標價值函數
Figure 02_image183
。然後,對目標價值函數
Figure 02_image185
與評價者網路C1的價值函數
Figure 02_image187
進行亞當優化,並更新評價者網路C1的參數
Figure 02_image051
在步驟S516中,用戶設備12將評價者網路C1的價值函數
Figure 02_image175
以隨機梯度下降(SGD)法更新參與者網路A1的網路參數
Figure 02_image049
在步驟S518中,用戶設備12使用更新的參與者網路A1的網路參數
Figure 02_image189
對目標參與者網路A2的網路參數
Figure 02_image057
進行軟更新:
Figure 02_image191
在步驟S520中,用戶設備12使用更新的評價者網路C1的網路參數
Figure 02_image193
對目標評價者網路C2的網路參數
Figure 02_image061
進行軟更新:
Figure 02_image195
其中,
Figure 02_image197
為更新參數。
用戶設備12例如會重複執行步驟S502~S520,以進行分布式強化學習。在完成一輪的學習(即 T步驟)之後,在步驟S522中,雲端設備16接收來自用戶設備12的動作權重表
Figure 02_image003
,並執行聯邦強化學習,以計算全域權重表
Figure 02_image093
。此時,用戶設備12可使用此全域權重表
Figure 02_image093
更新本地端的動作權重表
Figure 02_image003
,並將 i重置為0,以進行下一輪的學習。
綜上所述,本發明實施例的基於聯邦強化學習的邊緣計算卸載優化方法及通信裝置,考量到設備間干擾,透過控制卸載傳輸功率,而能夠減輕傳輸的干擾影響,同時最小化任務處理時間以及能量消耗。此外,本發明實施例運用聯邦強化學習解決設備間干擾的非獨立同分布問題。由於分布式學習的特性,同時能減輕巨量學習資料上傳的網路資源消耗以及集中式學習收斂性慢的缺陷。再者,本發明實施例以學習效益為參考設計聯邦強化學習的全域模型,則可進一步提升收斂性與效能。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10:通信系統 12:用戶設備 14:邊緣設備 142:無線基站 144:路由器 16:雲端設備 20:網際網路 A1:參與者網路 A2:目標參與者網路 C1:評價者網路 C2:目標評價者網路 b 1~b M:頻寬 h:頻道增益 p:功率 ω:動作權重表 ω global:全域權重表 S202~S214、S302~S312、S502~S522:步驟
圖1是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的通信系統的示意圖。 圖2是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化方法的流程圖。 圖3是依照本發明一實施例所繪示的計算全域權重表的方法的流程圖。 圖4是依照本發明一實施例所繪示的實施分布式強化學習及聯邦強化學習的系統架構。 圖5是依照本發明一實施例所繪示的基於聯邦強化學習的邊緣計算卸載優化的演算法架構。
S202~S214:步驟

Claims (20)

  1. 一種基於聯邦強化學習的邊緣計算卸載優化方法,適用於包括多個用戶設備、多個邊緣設備及雲端設備的通信系統,所述方法包括下列步驟:由各所述用戶設備蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者(Actor)網路,以產生動作權重表(action weighting table);所述用戶設備根據所述動作權重表隨機選擇動作以執行任務,獲得執行所述任務的評價,並將所述設備狀態、所述動作、所述評價及下一設備狀態作為經驗輸入回放內存;所述用戶設備從所述回放內存隨機提取多組經驗輸入評價者(Critic)網路以獲得價值函數;所述用戶設備從所述回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價,以獲得目標價值函數,並透過優化器更新所述評價者網路的網路參數;所述用戶設備使用所述評價者網路的所述價值函數更新所述參與者網路的網路參數,並使用所述參與者網路及所述評價者網路的所述網路參數軟更新所述目標參與者網路及所述目標評價者網路的網路參數;所述用戶設備將學習的平均效益及動作權重表上傳到所述雲端設備;以及所述雲端設備根據各所述用戶設備的所述平均效益評價各所 述用戶設備的學習模型,並根據評價結果計算全域權重表,以及回傳所述全域權重表至各所述用戶設備以更新所述動作權重表。
  2. 如請求項1所述的方法,其中由各所述用戶設備蒐集自身的網路狀態及任務狀態作為設備狀態的步驟包括:蒐集所述用戶設備當前連線的所述邊緣設備、待處理的任務量以及各所述邊緣設備的可分配頻寬作為所述設備狀態。
  3. 如請求項1所述的方法,其中所述用戶設備根據所述動作權重表隨機選擇動作的步驟包括:根據所述動作權重表選擇待處理任務的處理方式、卸載優化對象及傳輸功率作為所選擇的所述動作。
  4. 如請求項1所述的方法,其中所述評價是利用所述用戶設備執行任務的處理延遲、消耗能量及信號對干擾雜訊比(Signal to Interference plus Noise Ratio,SINR)來計算。
  5. 如請求項1所述的方法,其中所述用戶設備從所述回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數的步驟包括:從所述回放內存隨機提取時間最近的多組經驗輸入評價者網路以獲得第一價值函數;從所述回放內存隨機提取效益最高的多組經驗輸入評價者網路以獲得第二價值函數;以及取用所述第一價值函數及所述第二價值函數中估計值較小者作為所述評價者網路的所述價值函數。
  6. 如請求項1所述的方法,其中所述用戶設備使用所述評價者網路的所述價值函數更新所述參與者網路的網路參數的步驟包括:將所述評價者網路的所述價值函數以隨機梯度下降法更新所述參與者網路的所述網路參數。
  7. 如請求項1所述的方法,其中所述用戶設備使用所述參與者網路及所述評價者網路的所述網路參數軟更新所述目標參與者網路及所述目標評價者網路的網路參數的步驟包括:使用所述參與者網路的所述網路參數按照預設比例更新所述目標參與者網路的所述網路參數;以及使用所述評價者網路的所述網路參數按照預設比例更新所述目標評價者網路的所述網路參數。
  8. 如請求項1所述的方法,其中所述雲端設備根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型的步驟包括:使用各所述用戶設備的所述平均效益計算分布的變異數;將所述平均效益位在所述變異數的區間內的所述用戶設備的學習模型評價為好模型;以及將所述平均效益位在所述變異數的區間外的所述用戶設備的學習模型評價為壞模型。
  9. 如請求項8所述的方法,其中所述雲端設備根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型,並根據評價結果計算全域權重表的步驟包括:記錄各所述用戶設備的所述學習模型被評價為好模型或壞模型的次數;根據各所述用戶設備的所述學習模型被評價為好模型的比例計算信任度,並根據各所述用戶設備的所述學習模型被評價為壞模型的比例計算不信任度,以及利用所計算的所述信任度及所述不信任度計算不確定性;將所述信任度加上部分的所述不確定性作為最終信心度;以及將各所述用戶設備的所述學習模型的所述最終信心度作為權重,計算所述用戶設備的所述動作權重表的加權平均作為所述全域權重表。
  10. 如請求項9所述的方法,其中所述雲端設備回傳所述全域權重表至各所述用戶設備的步驟之後,所述方法包括:各所述用戶設備依照所述學習模型被評價為好模型或壞模型的次數,決定所述全域權重表與本地端的所述動作權重表的比重,並根據所述比重更新所述動作權重表。
  11. 一種基於聯邦強化學習的邊緣計算卸載優化的通信系統,包括:多個用戶設備,各所述用戶設備包括回放內存; 多個邊緣設備,通信連接所述用戶設備;以及雲端設備,通信連接所述用戶設備及所述邊緣設備,其中各所述用戶設備包括:蒐集自身的網路狀態及任務狀態作為設備狀態輸入參與者網路,以產生動作權重表;根據所述動作權重表隨機選擇動作以執行任務,獲得執行所述任務的評價,並將所述設備狀態、所述動作、所述評價及下一設備狀態作為經驗輸入所述回放內存;從所述回放內存隨機提取多組經驗輸入評價者網路以獲得價值函數;從所述回放內存隨機提取多組經驗依序輸入目標參與者網路及目標評價者網路進行動作選擇及評價,以獲得目標價值函數,並透過優化器更新所述評價者網路的網路參數;使用所述評價者網路的所述價值函數更新所述參與者網路的網路參數,並使用所述參與者網路及所述評價者網路的所述網路參數軟更新所述目標參與者網路及所述目標評價者網路的網路參數;以及將學習的平均效益及動作權重表上傳到所述雲端設備,以及所述雲端設備包括根據各所述用戶設備的所述平均效益評價各所述用戶設備的學習模型,並根據評價結果計算全域權重表,以及回傳所述全域權重表至各所述用戶設備以更新所述動作權重 表。
  12. 如請求項11所述的通信系統,其中各所述用戶設備包括蒐集當前連線的所述邊緣設備、待處理的任務量以及各所述邊緣設備的可分配頻寬作為所述設備狀態。
  13. 如請求項11所述的通信系統,其中各所述用戶設備根據所述動作權重表選擇待處理任務的處理方式、卸載優化對象及傳輸功率作為所選擇的所述動作。
  14. 如請求項11所述的通信系統,其中所述評價是利用所述用戶設備執行任務的處理延遲、消耗能量及信號對干擾雜訊比來計算。
  15. 如請求項11所述的通信系統,其中各所述用戶設備包括從所述回放內存隨機提取時間最近的多組經驗輸入評價者網路以獲得第一價值函數,從所述回放內存隨機提取效益最高的多組經驗輸入評價者網路以獲得第二價值函數,以及取用所述第一價值函數及所述第二價值函數中估計值較小者作為所述評價者網路的所述價值函數。
  16. 如請求項11所述的通信系統,其中各所述用戶設備包括將所述評價者網路的所述價值函數以隨機梯度下降法更新所述參與者網路的所述網路參數。
  17. 如請求項11所述的通信系統,其中各所述用戶設備包括使用所述參與者網路的所述網路參數按照預設比例更新所述目標參與者網路的所述網路參數,以及使用所述評價者網路的 所述網路參數按照預設比例更新所述目標評價者網路的所述網路參數。
  18. 如請求項11所述的通信系統,其中所述雲端設備包括使用各所述用戶設備的所述平均效益計算分布的變異數,將所述平均效益位在所述變異數的區間內的所述用戶設備的學習模型評價為好模型,以及將所述平均效益位在所述變異數的區間外的所述用戶設備的學習模型評價為壞模型。
  19. 如請求項18所述的通信系統,其中所述雲端設備包括記錄各所述用戶設備的所述學習模型被評價為好模型或壞模型的次數,根據各所述用戶設備的所述學習模型被評價為好模型的比例計算信任度,並根據各所述用戶設備的所述學習模型被評價為壞模型的比例計算不信任度,以及利用所計算的所述信任度及所述不信任度計算不確定性,將所述信任度加上部分的所述不確定性作為最終信心度,以及將各所述用戶設備的所述學習模型的所述最終信心度作為權重,計算所述用戶設備的所述動作權重表的加權平均作為所述全域權重表。
  20. 如請求項19所述的通信系統,其中各所述用戶設備包括依所述學習模型被評價為好模型或壞模型的次數,決定所述全域權重表與本地端的所述動作權重表的比重,並根據所述比重更新所述動作權重表。
TW110147803A 2021-12-20 2021-12-20 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統 TWI792784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110147803A TWI792784B (zh) 2021-12-20 2021-12-20 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110147803A TWI792784B (zh) 2021-12-20 2021-12-20 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統

Publications (2)

Publication Number Publication Date
TWI792784B true TWI792784B (zh) 2023-02-11
TW202327380A TW202327380A (zh) 2023-07-01

Family

ID=86689090

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110147803A TWI792784B (zh) 2021-12-20 2021-12-20 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統

Country Status (1)

Country Link
TW (1) TWI792784B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166406A (zh) * 2023-04-25 2023-05-26 合肥工业大学智能制造技术研究院 个性化边缘卸载调度方法、模型训练方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200017117A1 (en) * 2018-07-14 2020-01-16 Stephen Milton Vehicle-data analytics
CN112668128A (zh) * 2020-12-21 2021-04-16 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
US20210166158A1 (en) * 2019-12-02 2021-06-03 Korea University Of Technology And Education Industry-University Cooperation Foundation System and method for controlling multiple devices through federated reinforcement learning
TW202135580A (zh) * 2019-02-13 2021-09-16 瑞典商Lm艾瑞克生(Publ)電話公司 憑藉5g及其上之外之工業自動化
CN113573324A (zh) * 2021-07-06 2021-10-29 河海大学 工业物联网中协作式任务卸载和资源分配的联合优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200017117A1 (en) * 2018-07-14 2020-01-16 Stephen Milton Vehicle-data analytics
TW202135580A (zh) * 2019-02-13 2021-09-16 瑞典商Lm艾瑞克生(Publ)電話公司 憑藉5g及其上之外之工業自動化
US20210166158A1 (en) * 2019-12-02 2021-06-03 Korea University Of Technology And Education Industry-University Cooperation Foundation System and method for controlling multiple devices through federated reinforcement learning
CN112668128A (zh) * 2020-12-21 2021-04-16 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN113573324A (zh) * 2021-07-06 2021-10-29 河海大学 工业物联网中协作式任务卸载和资源分配的联合优化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166406A (zh) * 2023-04-25 2023-05-26 合肥工业大学智能制造技术研究院 个性化边缘卸载调度方法、模型训练方法和系统

Also Published As

Publication number Publication date
TW202327380A (zh) 2023-07-01

Similar Documents

Publication Publication Date Title
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN114340016B (zh) 一种电网边缘计算卸载分配方法及系统
Quang et al. Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach
Wu et al. Multi-agent DRL for joint completion delay and energy consumption with queuing theory in MEC-based IIoT
WO2021036414A1 (zh) 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN104901989A (zh) 一种现场服务提供系统及方法
CN113626104B (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
TWI792784B (zh) 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
KR20230007941A (ko) 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN111211984A (zh) 优化cdn网络的方法、装置及电子设备
Huang et al. Reinforcement learning for cost-effective IoT service caching at the edge
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN114500561B (zh) 电力物联网网络资源分配决策方法、系统、设备及介质
CN116132361A (zh) 一种基于QoS和QoE的网络资源优化调整方法和系统
CN115756873A (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN115665264A (zh) 一种基于时延感知的电力通信网自主业务编排方法和装置
CN114125745A (zh) MQTT协议功率控制与QoS机制选择方法
Osibo et al. An edge computational offloading architecture for ultra-low latency in smart mobile devices
CN113256128A (zh) 电力物联网中使用强化学习均衡资源使用的任务调度方法