TWI763087B

TWI763087B - 基於強化學習的點對點能源共享方法及裝置

Info

Publication number: TWI763087B
Application number: TW109136558A
Authority: TW
Inventors: 黃粲博; 邱偉育
Original assignee: 國立清華大學
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-05-01
Also published as: TW202217729A; US20220122174A1

Abstract

一種基於強化學習的點對點能源共享方法及裝置。此方法包括下列步驟：上傳未來時間段的交易電量至合作者裝置，並接收其整合各用戶裝置的交易電量所得的全局交易資訊；以全局交易資訊、自身電力資訊以及內部電價定義多個電力狀態，並預估在各電力狀態下安排交易電量的用電成本以建構一強化學習表；利用全局交易資訊建立規劃模型，並在其所產生的模擬環境下，預估在各電力狀態下安排多個時間段的交易電量的用電成本，用以更新強化學習表；以及利用強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳交易電量至合作者裝置以進行交易。

Description

基於強化學習的點對點能源共享方法及裝置

本發明是有關於一種強化學習方法及裝置，且特別是有關於一種基於強化學習的點對點能源共享方法及裝置。

近年採用家用再生能源系統的住家與日俱增，如何妥善利用再生能源並最小化住家的用電成本已成為重要議題之一。習知的點對點能源共享演算法多採用集中式（centralized）演算法，此種方法是由合作者（coordinator）統一獲取所有住家的用電資料以進行分配，因而排除了各住家對於能源管理的主控權。

為解決此問題，已有部分文獻提出利用分散式（distributed）演算法來解決上述疑慮。然而，此種方法需依靠迭代競價（iterative bidding）法來讓各住家能獨立解決最佳化問題，但結果會產生相當數量的裝置間通訊而造成能源共享區域內通訊設備的負擔，且有可能無法收斂而導致能源管理系統效能不佳。

本發明提供一種基於強化學習的點對點能源共享方法及裝置，可解決傳統點對點能源共享方法中高通訊次數所造成之網路負擔的問題。

本發明提供一種基於強化學習的點對點能源共享方法，適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量。此方法包括下列步驟：上傳依據自身的電力資訊所預測的未來時間段的交易電量至能源共享區域的合作者裝置，並接收由合作者裝置整合各個用戶裝置上傳的交易電量所得的全局交易資訊；以全局交易資訊、電力資訊以及能源共享區域的內部電價定義多個電力狀態，並預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表；利用全局交易資訊建立規劃模型，並利用增量實施更新規劃模型；在規劃模型所產生的模擬環境下，預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本，用以更新強化學習表，直到所預估的用電成本收斂至預定區間；以及利用強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳交易電量至合作者裝置以進行交易。

本發明提供一種基於強化學習的點對點能源共享方法，適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量，此包括下列步驟：以自身的電力資訊以及能源共享區域的內部電價，定義多個電力狀態，並依據電力資訊預測未來時間段的交易電量，以及預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表；上傳強化學習表至能源共享區域的合作者裝置，並接收由合作者裝置整合各個用戶裝置上傳的強化學習表所得的聯盟式強化學習表；利用全局交易資訊建立規劃模型，並利用增量實施更新規劃模型；在規劃模型所產生的模擬環境下，預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本，並使用用電成本及聯盟式強化學習表更新強化學習表，直到所預估的用電成本收斂至預定區間；以及利用強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳交易電量至合作者裝置以進行交易。

本發明提供一種基於強化學習的點對點能源共享裝置，其包括連接裝置、儲存裝置及處理器。其中，連接裝置是用以連接用以管理能源共享區域內多個用戶裝置的合作者裝置。儲存裝置是用以儲存電腦程式。處理器耦接連接裝置及儲存裝置，經配置以載入並執行電腦程式以利用自身的電力資訊、能源共享區域的內部電價以及自合作者裝置接收的全局交易資訊的至少其中之一，定義多個電力狀態，並依據自身的電力資訊預測未來時間段的交易電量，以及預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表，其中全局交易資訊是合作者裝置整合各個用戶裝置上傳的交易電量所得；利用全局交易資訊建立規劃模型，並利用增量實施更新規劃模型；在規劃模型所產生的模擬環境下，預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本，並使用用電成本及聯盟式強化學習表的至少其中之一更新強化學習表，直到所預估的用電成本收斂至預定區間，其中聯盟式強化學習表是合作者裝置整合各用戶裝置上傳的強化學習表所得；以及利用強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳交易電量至合作者裝置以進行交易。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明實施例運用動態學習方法於各住宅，根據來自外界的交易資訊，使用基於模型的多智能體（multi-agent）強化學習演算法或聯盟式強化學習法，透過更新迭代並對一長度的時間段做時程規劃，安排各住宅之電力交易量，以達到住家用電成本最小化並同時兼顧隱私性與低通訊次數的目的。

本發明實施例的基於強化學習的點對點能源共享方法分為三個階段：第一階段為試驗交易（rehearsal trading），由各用戶裝置預先安排未來時間段的欲交易電量，並提供給合作者裝置整合為全局交易資訊（此時不產生現金流與電力流）；第二階段為規劃（planning），由各用戶裝置利用合作者裝置回傳的全局交易資訊建立規劃模型，並利用增量實施（incremental implementation）方式在本地端進行學習及更新；第三階段為實際交易，由用戶裝置安排未來時間段的交易電量，利用所建立的模型選擇期望值較佳的欲交易電量，並上傳給合作者裝置以進行交易（此時現金流、電力流與數據流都將產生）。

詳細而言，圖1是根據本發明一實施例所繪示的點對點能源共享系統的示意圖。請參考圖1，本發明實施例的點對點能源共享系統1包括位於能源共享區域內多個用戶裝置12-1~12-n（例如同一社區內的多個住戶），其中n為正整數。各個用戶裝置12-1~12-n例如配置有發電系統、儲能系統（energy storage system，ESS）及能源管理系統（energy management system，EMS），其可同時扮演能源生產者及消費者的角色，提供電力至能源共享區域內的其他用戶或從其他用戶接收電力。所述的發電系統包括太陽能發電系統、風力發電系統等，在此不設限。各個用戶裝置12-1~12-n例如連接至合作者裝置14，而由合作者裝置14協助管理用戶裝置12-1~12-n間的電力分配，且在用戶裝置12-1~12-n的電力不足時，從主電網16取得電力，或是在用戶裝置12-1~12-n的電力過剩時，將多餘的電力提供至主電網16。

本發明實施例揭露一種基於模型的多智能體強化學習的點對對能源共享方法，其提供各個智能體（即用戶裝置12-1~12-n）透過強化學習的方式，根據自身的電力資訊（包括生成電力、消耗電力及儲存電力）預測在未來時間段合適的交易電量，使智能體能快速應變環境，並減少與其他裝置的通訊次數。

圖2是根據本發明一實施例所繪示的基於強化學習的點對點能源共享裝置的方塊圖。請同時參考圖1及圖2，本發明實施例的點對點能源共享裝置是以圖1中的用戶裝置12-1為例做說明，在其他實施例中，點對點能源共享裝置也可以是圖1中的其他用戶裝置。點對點能源共享裝置12-1例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置，其中包括連接裝置22、儲存裝置24及處理器26等元件，這些元件的功能分述如下：

連接裝置22例如是可與合作者裝置14連接的任意的有線或無線的介面裝置，其可用以將點對點能源共享裝置12-1自身的交易電量或強化學習表上傳至合作者裝置14，並接收由合作者裝置14回傳的全局交易資訊或聯盟式強化學習表。對於有線方式而言，連接裝置22可以是通用序列匯流排（universal serial bus，USB）、RS232、通用非同步接收器/傳送器（universal asynchronous receiver/transmitter，UART）、內部整合電路（I2C）、序列周邊介面（serial peripheral interface，SPI）、顯示埠（display port）或雷電埠（thunderbolt）等介面，但不限於此。對於無線方式而言，連接裝置22可以是支援無線保真（wireless fidelity，Wi-Fi）、RFID、藍芽、紅外線、近場通訊（near-field communication，NFC）或裝置對裝置（device-to-device，D2D）等通訊協定的裝置，亦不限於此。在一些實施例中，連接裝置22亦可包括支援乙太網路（Ethernet）或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡，使得點對點能源共享裝置12-1可經由網路連接合作者裝置14，以上傳或接收電力交易資訊。

儲存裝置24例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或類似元件或上述元件的組合，而用以儲存可由處理器26執行的電腦程式。在一些實施例中，儲存裝置24例如還可儲存由處理器26所建立的強化學習表以及由連接裝置22從合作者裝置14接收的全局交易資訊或聯盟式強化學習表。

處理器26例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、微控制器（Microcontroller）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置或這些裝置的組合，本發明不在此限制。在本實施例中，處理器26可從儲存裝置24載入電腦程式，以執行本發明實施例的基於強化學習的點對點能源共享方法。

圖3是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。請同時參照圖1、圖2及圖3，本實施例的方法適用於上述的點對點能源共享裝置12-1，以下即搭配點對點能源共享裝置12-1的各項元件說明本實施例的點對點能源共享方法的詳細步驟。

在步驟S302中，由點對點能源共享裝置12-1的處理器26利用連接裝置22將依據自身電力資訊所預測的未來時間段的交易電量上傳至能源共享區域的合作者裝置14，並接收由合作者裝置14整合各個用戶裝置12-1~12-n上傳的交易電量所得的全局交易資訊。其中，處理器26例如是根據自身的生成電力、消耗電力及儲存電力等電力資訊預測未來時間段的交易電量（購電量或售電量）並上傳至合作者裝置14，而合作者裝置14例如會計算所有用戶裝置12-1~12-n的售電量總和及購電量總和，或者是將兩者加總所得的交易量總和，用以作為全局交易資訊回傳給點對點能源共享裝置12-1。在一些實施例中，合作者裝置14例如還會預估其安排該交易電量所需的用電成本，並將所預估的用電成本與售電量總和、購電量總和及內部電價，作為全局交易資訊回傳給點對點能源共享裝置12-1。

在步驟S304中，處理器26以全局交易資訊、自身的電力資訊以及能源共享區域的內部電價定義多個電力狀態，並預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表。其中，所述的電力資訊包括生成電力、消耗電力及儲存電力（即，電池電量），但不限於此。

詳言之，處理器26例如會給定一狀態空間S及一動作空間A，並將在時間段t的狀態標記為

，其中

，以及將在狀態

下於時間段t選擇的動作標記為

，其中

。在狀態

下選擇動作

之後，此環境將轉變為下一狀態

，並產生成本Cost(t)。其中，在狀態

下選擇動作

的機率函數可標記為策略

，而用以評估在時間段t使用策略

的累計成本的期望值的動作值函數

可定義為：

,

其中，

為折扣率（discount factor）。每個用戶裝置的最佳化問題是去找出能夠最小化累計成本的期望值的最佳策略

，而最佳化動作值函數可標記為

。

在一實施例中，處理器26例如是將第i個用戶裝置在時間段t的狀態

定義為：

其中，

為在時間段t-1的能源共享區域的累計交易電量總合，其中

為售電量總和、

為購電量總和（即，全局交易資訊）。當

為正值，代表能源共享區域缺乏電力；當

為負值，代表能源共享區域有過剩電力可輸出至主電網16。交易電量總合

係作為觀察用指標，其可幫助用戶裝置學習其他用戶裝置動作的效果，並改善學習效率。此外，參數

為能源共享區域的內部電價、

為第i個用戶裝置的儲存電力（即，電池電量）、

為第i個用戶裝置的消耗電力、

為第i個用戶裝置的生成電力，這些參數的設置可幫助用戶裝置學習環境的變化。

每個用戶裝置可以決定所要交易的電量，因此用戶裝置的動作可定義為：

其中，當

為正值，代表用戶裝置欲購電，而當

為負值，代表用戶裝置欲售電。

回到圖3的流程，在步驟S306中，處理器26利用合作者裝置14回傳的「全局交易資訊」建立規劃模型（planning model），並利用增量實施（incremental implementation）來進行更新。所述的規劃模型是用來加速學習並可將通訊周期的數量減少為兩次。

詳言之，處理器26是藉由將規劃模型趨近全局交易資訊

和

，以在本地端學習最佳策略。其中，處理器26使用包括再生電力的生成及消耗的預測資料（包括

、

），並計算電池的預測能級

。

其中，規劃模型

是在給定再生能源電力預測

的情況下去趨近向量

，此規劃模型

可利用增量實施來進行更新，其公式如下：

其中，

為自合作者裝置14接收的全局交易資訊，其中包括售電量總和

及購電量總和

。此外，步長參數

為常數。

需說明的是，在演算法之初，用戶裝置12-1例如會執行未來24小時的試驗交易，其目的在於建立用戶裝置12-1的規劃模型。在此階段，用戶裝置12-1將不會實際輸出或輸入電力，而是僅廣播所需的交易電量並從合作者裝置14接收全局交易資訊。此程序僅需一次通訊周期。

回到圖3的流程，在步驟S308中，處理器26在規劃模型所產生的模擬環境下，執行規劃程序，以預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本，並用以更新強化學習表。

詳言之，規劃程序是設計用來在實際交易之前更新強化學習表。此規劃程序是在本地端執行，因此可避免因過度通訊所造成的網路擁塞。藉由在試驗交易階段所建立的規劃模型以及成本模型的先前資訊，用戶裝置能夠學習到估測經驗，由於成本模型的開放性（openness）和透明性（transparency），用戶裝置能夠根據全局交易資訊估測購電價格和售電價格，以計算成本

。舉例來說，第 i個用戶裝置的強化學習表的學習值

的更新公式如下：

其中，

為學習率（learning rate）、

為折扣率，

為在電力狀態

下安排交易電量

所得的學習值。藉由取電力狀態

下可安排的多種交易電量

中，擁有最大學習值的交易電量

作為最佳交易電量

，並將安排此最佳交易電量

至新電力狀態

所預估的用電成本

回饋至原電力狀態

對應的交易電量

的學習值。上述的學習率

例如為數值介於0.1至0.5之間的任意數，其可決定新電力狀態

對於原電力狀態

的學習值的影響比例。上述的折扣率

例如為數值介於0.9至0.99之間的任意數，其可決定新電力狀態

相對於所回饋的用電成本

的比率。

需說明的是，在規劃階段，處理器26例如會將一些雜訊帶入全局交易資訊和交易電量，以避免最佳解落入局部最小值，此步驟可使得所預測的交易電量更適用於現實環境。

詳言之，處理器26例如是以特定機率選取最佳解並以剩下的機率隨機選取其他解，來更新所述強化學習表。

在一實施例中，處理器26例如是採用

-貪婪方法，以特定機率探索（exploration），並以大部分機率進行利用（exploitation），來安排各時段的欲交易電量

，其公式如下：

其中，動作

的最佳解

是以下列公式取得：

，限制於

其中，

和

為動作 a的下限及上限。

在另一實施例中，處理器26例如是採用偏好導向動作選擇法（preference-based action selection）來選擇各時段的欲交易電量

，其公式如下：

其中，

為t時刻的動作 a的偏好值（preference），而此偏好值在每個時刻是以如下的公式更新：

,

其中，

為過去時間段的平均成本，

為步長參數。

回到圖3的流程，在步驟S310中，處理器26會判斷其所預估的用電成本是否收斂至預定區間。其中，若判斷所預估的用電成本未收斂，將回到步驟S308，由處理器26繼續執行規劃程序，以更新強化學習表。

反之，若判斷所預估的用電成本已收斂，則代表強化學習表已訓練完成，而可用於實際交易。此時流程將進入步驟S312，在實際交易中，由處理器26利用更新後的強化學習表預測適於在當前電力狀態下安排的交易電量，並將此交易電量上傳至合作者裝置14以進行交易。此時，現金流、電力流與數據流都將產生。

需說明的是，在一些實施例中，在進行交易之後，處理器26例如會在規劃模型所產生的模擬環境下，進一步預估在當前電力狀態下安排交易電量的用電成本，並用以更新強化學習表。也就是說，處理器26將會使用實際交易的結果持續更新強化學習表，使得經由此強化學習表所預測的交易電量能夠更適用於現實環境。

藉由上述方法，由於強化學習表的訓練均是在本地端實施，過程不需要與外界溝通，因此可減少與外部裝置通訊的次數，而改善了傳統迭代競價法的缺點。

需說明的是，在一些實施例中，本發明實施例的點對點能源共享裝置可採用基於模型的聯盟式強化學習方式對強化學習表進行更新，藉此減少所定義電力狀態中的變量，而可減少記憶體空間的使用，並降低硬體需求。

詳言之，圖4是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。請同時參照圖1、圖2及圖4，本實施例的方法適用於上述的點對點能源共享裝置12-1，以下即搭配點對點能源共享裝置12-1的各項元件說明本實施例的點對點能源共享方法的詳細步驟。

在步驟S402中，由點對點能源共享裝置12-1的處理器26以自身的電力資訊以及能源共享區域的內部電價，定義多個電力狀態，並依據電力資訊預測未來時間段的交易電量，以及預估在各電力狀態下安排交易電量的用電成本以建構一強化學習表。

詳言之，與圖3所揭示的基於模型多智能體強化學習不同的是，在本實施例中，處理器26例如是將第i個用戶裝置在時間段t的狀態

定義為：

其中，參數

為能源共享區域的內部電價、

為第i個用戶裝置的儲存電力（即，電池電量）、

為第i個用戶裝置的消耗電力、

為第i個用戶裝置的生成電力。即，相較於圖3實施例中所定義的狀態，本實施例的狀態

將省略

這個變量，而改用後述的聯盟式強化學習表作為學習目標，藉此提升運算效能。

在步驟S404中，處理器26將利用連接裝置22，將強化學習表上傳至能源共享區域的合作者裝置16，並接收由合作者裝置16整合各用戶裝置12-1~12-n上傳的強化學習表所得的聯盟式強化學習表。

在一實施例中，合作者裝置16例如是將所有用戶裝置12-1~12-n上傳的強化學習表

取平均來獲得聯盟式強化學習表

，其公式如下：

在步驟S406中，處理器26利用合作者裝置14回傳的「全局交易資訊」建立規劃模型，並利用增量實施來進行更新。所述的規劃模型是用來加速學習並可將通訊周期的數量減少為兩次。上述規劃模型的建立與更新與前述實施例相同，故其詳細內容在此不再贅述。

在步驟S408中，處理器26在規劃模型所產生的模擬環境下，執行規劃程序，以預估在各電力狀態下安排未來多個時間段的交易電量的用電成本，並使用用電成本及聯盟式強化學習表更新強化學習表。其中，第 i個用戶裝置的強化學習表的學習值

的更新公式如下：

其中，

為學習率、

為折扣率，

為在電力狀態

下安排交易電量

時，從合作者裝置16獲得的聯盟式強化學習表的學習值。藉由取電力狀態

下可安排的多種交易電量

中，擁有最大學習值的交易電量

作為最佳交易電量

，並將安排此最佳交易電量

至新電力狀態

所預估的用電成本

回饋至原電力狀態

對應的交易電量

的學習值。上述的學習率

例如為數值介於0.1至0.5之間的任意數，其可決定新電力狀態

對於原電力狀態

的學習值的影響比例。上述的折扣率

例如為數值介於0.9至0.99之間的任意數，其可決定新電力狀態

相對於所回饋的用電成本

的比率。

在步驟S410中，處理器26會判斷其所預估的用電成本是否收斂至預定區間。其中，若判斷所預估的用電成本未收斂，將回到步驟S408，由處理器26繼續執行規劃程序，以更新強化學習表。

反之，若判斷所預估的用電成本已收斂，則代表強化學習表已訓練完成，而可用於實際交易。此時流程將進入步驟S412，在實際交易中，由處理器26利用更新後的強化學習表預測適於在當前電力狀態下安排的交易電量，並將此交易電量上傳至合作者裝置14以進行交易。此時，現金流、電力流與數據流都將產生。

需說明的是，在一些實施例中，在進行交易之後，處理器26例如會在所述規劃模型所產生的模擬環境下，進一步預估在當前電力狀態下安排交易電量的用電成本，並使用此用電成本及聯盟式強化學習表更新強化學習表。也就是說，處理器26將會使用實際交易的結果持續更新強化學習表，使得經由此強化學習表所預測的交易電量能夠更適用於現實環境。

相較於圖3實施例的方法，本實施例的方法在建立強化學習表時省略了全局交易資訊這個變量，使得電力狀態減少一個維度的資料，進而減少儲存強化學習表所需的記憶體空間，也減少更新強化學習表所需的運算成本，因此可有效降低硬體需求，有助於能源共享區域的發展。

綜上所述，在本發明實施例的基於強化學習的點對點能源共享方法及裝置中，針對追求最高效能與降低用戶端設備需求這兩個目的，分別提出基於模型的多智能體強化學習方法與聯盟式強化學習法。其中，由於對於強化學習表的訓練是在本地端實施，過程不需要與外界溝通，因此可減少與外部裝置通訊的次數，而改善了傳統迭代競價法的缺點。此外，藉由在更新強化學習表時，採用

-貪婪方法等方法導入不同解，因此可避免最佳解落入局部最小值，使得所預測的交易電量更適用於現實環境。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1：點對點能源共享系統 12-1~12-n：用戶裝置 14：合作者裝置 16：主電網 22：連接裝置 24：儲存裝置 26：處理器 S302~S312、S402~S412：步驟

圖1是根據本發明一實施例所繪示的點對點能源共享系統的示意圖。圖2是根據本發明一實施例所繪示的基於強化學習的點對點能源共享裝置的方塊圖。圖3是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。圖4是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。

S302~S312：步驟

Claims

一種基於強化學習的點對點能源共享方法，適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量，所述方法包括下列步驟：由所述指定用戶裝置上傳依據自身的電力資訊所預測的未來時間段的交易電量至所述能源共享區域的合作者裝置，並接收由所述合作者裝置整合各所述用戶裝置上傳的交易電量所得的全局交易資訊；由所述指定用戶裝置以所述全局交易資訊、所述電力資訊以及所述能源共享區域的內部電價定義多個電力狀態，並預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表；由所述指定用戶裝置利用所述全局交易資訊建立規劃模型，並利用增量實施更新所述規劃模型；在所述規劃模型所產生的模擬環境下，由所述指定用戶裝置預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本，用以更新所述強化學習表，直到所預估的所述用電成本收斂至預定區間；以及由所述指定用戶裝置利用所述強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳所述交易電量至所述合作者裝置以進行交易。
如請求項1所述的方法，其中更新所述強化學習表的步驟包括：由所述指定用戶裝置以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解，來更新所述強化學習表。
如請求項1所述的方法，其中所述交易電量包括購電量或售電量，所述全局交易資訊包括所有用戶裝置的售電量總和及購電量總和。
如請求項1所述的方法，其中所述電力資訊包括生成電力、消耗電力及儲存電力。
如請求項1所述的方法，其中在利用所述強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳所述交易電量至所述合作者裝置以進行交易的步驟之後，更包括：在所述規劃模型所產生的模擬環境下，由所述指定用戶裝置預估在所述當前電力狀態下安排所述交易電量的用電成本，用以更新所述強化學習表。
一種基於強化學習的點對點能源共享方法，適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量，所述方法包括下列步驟：由所述指定用戶裝置以自身的電力資訊以及所述能源共享區域的內部電價，定義多個電力狀態，並依據所述電力資訊預測未來時間段的交易電量，以及預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表；由所述指定用戶裝置上傳所述強化學習表至所述能源共享區域的合作者裝置，並接收由所述合作者裝置整合各所述用戶裝置上傳的強化學習表所得的聯盟式強化學習表；由所述指定用戶裝置利用所述全局交易資訊建立規劃模型，並利用增量實施更新所述規劃模型；在所述規劃模型所產生的模擬環境下，由所述指定用戶裝置預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本，並使用所述用電成本及所述聯盟式強化學習表更新所述強化學習表，直到所預估的所述用電成本收斂至預定區間；以及由所述指定用戶裝置利用所述強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳所述交易電量至所述合作者裝置以進行交易。
如請求項6所述的方法，其中更新所述強化學習表的步驟包括：由所述指定用戶裝置以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解，來更新所述強化學習表。
如請求項6所述的方法，其中所述聯盟式強化學習表為所述用戶裝置的所述強化學習表的平均。
如請求項6所述的方法，其中所述電力資訊包括生成電力、消耗電力及儲存電力。
如請求項6所述的方法，其中在利用所述強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳所述交易電量至所述合作者裝置以進行交易的步驟之後，更包括：在所述規劃模型所產生的模擬環境下，由所述指定用戶裝置預估在所述當前電力狀態下安排所述交易電量的用電成本，並使用所述用電成本及所述聯盟式強化學習表更新所述強化學習表。
一種基於強化學習的點對點能源共享裝置，包括：連接裝置，連接合作者裝置，所述合作者裝置用以管理能源共享區域內的多個用戶裝置及所述點對點能源共享裝置；儲存裝置，儲存電腦程式；以及處理器，耦接所述連接裝置及所述儲存裝置，經配置以載入並執行所述電腦程式以：利用自身的電力資訊、所述能源共享區域的內部電價以及自所述合作者裝置接收的全局交易資訊的至少其中之一，定義多個電力狀態，並依據所述電力資訊預測未來時間段的交易電量，以及預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表，其中所述全局交易資訊是所述合作者裝置整合各所述用戶裝置上傳的交易電量所得；利用所述全局交易資訊建立規劃模型，並利用增量實施更新所述規劃模型；在所述規劃模型所產生的模擬環境下，預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本，並使用所述用電成本及聯盟式強化學習表的至少其中之一更新所述強化學習表，直到所預估的所述用電成本收斂至預定區間，其中所述聯盟式強化學習表是所述合作者裝置整合各所述用戶裝置上傳的強化學習表所得；以及利用所述強化學習表預測適於在當前電力狀態下安排的交易電量，並上傳所述交易電量至所述合作者裝置以進行交易。
如請求項11所述的點對點能源共享裝置，其中所述處理器包括以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解，來更新所述強化學習表。
如請求項11所述的點對點能源共享裝置，其中所述交易電量包括購電量或售電量，所述全局交易資訊包括所有用戶裝置的售電量總和及購電量總和。
如請求項11所述的點對點能源共享裝置，其中所述聯盟式強化學習表為所述用戶裝置的所述強化學習表的平均。
如請求項11所述的點對點能源共享裝置，其中所述電力資訊包括生成電力、消耗電力及儲存電力。
如請求項11所述的點對點能源共享裝置，其中所述處理器更在所述規劃模型所產生的模擬環境下，預估在所述當前電力狀態下安排所述交易電量的用電成本，並使用所述用電成本及所述聯盟式強化學習表的至少其中之一更新所述強化學習表。