TWI767525B - 基於強化學習的再生能源配置方法及裝置 - Google Patents

基於強化學習的再生能源配置方法及裝置 Download PDF

Info

Publication number
TWI767525B
TWI767525B TW110102148A TW110102148A TWI767525B TW I767525 B TWI767525 B TW I767525B TW 110102148 A TW110102148 A TW 110102148A TW 110102148 A TW110102148 A TW 110102148A TW I767525 B TWI767525 B TW I767525B
Authority
TW
Taiwan
Prior art keywords
energy
demand
supply
renewable energy
renewable
Prior art date
Application number
TW110102148A
Other languages
English (en)
Other versions
TW202230267A (zh
Inventor
莊喻捷
邱偉育
Original Assignee
國立清華大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立清華大學 filed Critical 國立清華大學
Priority to TW110102148A priority Critical patent/TWI767525B/zh
Priority to US17/241,009 priority patent/US11861702B2/en
Application granted granted Critical
Publication of TWI767525B publication Critical patent/TWI767525B/zh
Publication of TW202230267A publication Critical patent/TW202230267A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Working Measures On Existing Buildindgs (AREA)

Abstract

一種基於強化學習的再生能源配置方法及裝置,適於由具備儲能系統的能源聚合端協調能源供應端與能源需求端之間的再生能源供需配置。此方法包括下列步驟:收集各個能源供應端的歷史發電資料,用以產生表示再生能源不確定性的再生能源指標;收集與再生能源市場的動態相關的市場指標,而與再生能源指標及儲能系統的電量資訊整合為馬可夫決策過程的多個狀態;將這些狀態輸入強化學習模型以決定對能源供應端與需求端的出價;以及根據能源供應端與需求端響應出價所提出的供給量及需求量,調整儲能系統以協調再生能源的供需,並更新強化學習模型。

Description

基於強化學習的再生能源配置方法及裝置
本發明是有關於一種強化學習方法及裝置,且特別是有關於一種基於強化學習的再生能源配置方法及裝置。
近年來為了減少對化石燃料的依賴與環保意識的抬頭,再生能源在總發電量中的占比日益增加。由於再生能源的發電量會隨著環境變化而導致其間歇不確定性,造成市場售價波動劇烈,目前存在由能源聚合商在能源用戶與能源發電業者之間協調供電配置及價格的自由化電業交易架構。由能源聚合商代表能源用戶向能源發電業者議價,以決定能源供應端與能源需求端之間的再生能源的供需配置。
以往對於再生能源的供需配置多採用賽局理論(game theory)、基因演算法(genetic algorithm)或模糊邏輯(fuzzy logic),但這些演算法因設計緣故,在現今環境下較為不適用。為解決此問 題,近年來主流研究多以強化學習演算法來決定競價策略(pricing strategy)。然而,此種方法仍然以石化燃料為主軸,並沒有考慮到再生能源的間歇不確定性。此外,現今能源聚合商常利用附屬的儲能系統(energy storage system,ESS)一定程度上緩和超買或超賣對系統所造成的能量與價格虧損。然而,此法需額外考慮儲能系統的充放電控制項(上下界並非定值),結果將增加系統整體的複雜度。
本發明提供一種基於強化學習的再生能源配置方法及裝置,可降低再生能源的間歇不確定性,並加快強化學習的學習速度。
本發明提供一種基於強化學習的再生能源配置方法,適於由具備儲能系統的能源聚合端協調多個能源供應端與多個能源需求端之間的再生能源的供需配置。此方法包括下列步驟:收集各個能源供應端的歷史發電資料,用以產生表示再生能源的不確定性的再生能源指標;收集與再生能源市場動態相關的至少一個市場指標,而與再生能源指標及儲能系統的電量資訊整合為馬可夫決策過程的多個狀態;將這些狀態作為強化學習模型的輸入,以經由強化學習模型的運算,決定對能源供應端與能源需求端的出價;以及根據能源供應端與能源需求端響應出價所提出的供給量及需求量,調整儲能系統而協調能源供應端與能源需求端之間的再生 能源的供需,並更新強化學習模型。
本發明提供一種基於強化學習的再生能源配置裝置,其包括儲能系統、連接裝置、儲存裝置及處理器。其中,儲能系統用以儲存再生能源。連接裝置是用以連接各個能源供應端與各個能源需求端。儲存裝置是用以儲存電腦程式。處理器耦接儲能系統、連接裝置及儲存裝置,經配置以載入並執行電腦程式以收集各個能源供應端的歷史發電資料,用以產生表示再生能源的不確定性的再生能源指標,收集與再生能源市場動態相關的至少一個市場指標,而與再生能源指標及儲能系統的電量資訊整合為馬可夫決策過程的多個狀態,將這些狀態作為強化學習模型的輸入,以經由強化學習模型的運算,決定對能源供應端與能源需求端的出價,以及根據能源供應端與能源需求端響應出價所提出的供給量及需求量,調整儲能系統而協調能源供應端與能源需求端之間的再生能源的供需,並更新強化學習模型。
基於上述,本發明的基於強化學習的再生能源配置方法及裝置針對再生能源的歷史發電資料進行處理與分群,並將處理所得出的指標用於強化學習演算法的狀態設計,從而整合強化學習模型及儲能系統充放電策略,達到加速學習速度的效果。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
1:區域電網
20:再生能源配置裝置
22:儲能系統
24:連接裝置
26:儲存裝置
28:處理器
201:儲能系統控制策略
202:再生能源指標
203:市場指標
204:狀態整合
205:強化學習模型
40:市場
a:動作
r:獎勵
s:狀態
S32~S338、S321~S325:步驟
圖1是根據本發明一實施例所繪示的再生能源區域電網的架構圖。
圖2是根據本發明一實施例所繪示的基於強化學習的再生能源配置裝置的方塊圖。
圖3是依照本發明一實施例所繪示的基於強化學習的再生能源配置方法的流程圖。
圖4是依照本發明一實施例所繪示的基於強化學習的再生能源配置方法的示意圖。
圖5是依照本發明一實施例所繪示的基於強化學習的再生能源指標產生方法的流程圖。
本發明實施例運用統計方法萃取出一定時間長度的可再生能源發電資料的特徵,通過對特徵數據進行分群並給予各群權重,以求得當下收購能源的不確定性程度的高低。此外,本發明實施例通過設計特定規則來控制儲能系統(energy storage system,ESS)的充放電,並協調再生能源的收購與賣出。最終,將上述兩法整合於強化學習演算法,例如深度確定性策略梯度(deep deterministic policy gradient),藉此提升強化學習演算法的學習速度。
圖1是根據本發明一實施例所繪示的再生能源區域電網 的架構圖。請參考圖1,在再生能源的區域電網1中,存在多個能源供應端,亦稱為生產者(producer),其例如是公民電廠、家用太陽能發電機、小型水力發電廠,用以供給再生能源。同時,區域電網1中存在著多個競爭的能源聚合端,其例如作為能源聚合商(aggregator)定期發表電價來吸引生產者出售再生能源。區域電網1中亦存在多個能源需求端,亦稱為消費者(consumer),其例如是家用消費者或工廠消費者,而向能源聚合商提出用電需求。能源聚合商例如會評估生產者所提供再生能源的不確定性,並與自身儲能系統的當前電量和其他市場特徵整合成馬可夫決策過程(Markov decision process)中的多個狀態,用以作為強化學習模型的輸入,並通過神經網路(neural network)等學習模型的運算,從而決定向生產者與消費者的出價,藉此使得雙方及自身的利益達到最佳化。
圖2是根據本發明一實施例所繪示的基於強化學習的再生能源配置裝置的方塊圖。請同時參考圖1及圖2,本發明實施例的再生能源配置裝置20例如是作為圖1中的能源聚合端,而可協調多個能源供應端與多個能源需求端之間的再生能源的供需配置。在一些實施例中,再生能源配置裝置20例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置,其中包括儲能系統22、連接裝置24、儲存裝置26及處理器28等元件,這些元件的功能分述如下:儲能系統22例如包括鋰鐵電池、全鐵液流電池、固態鋰 離子電池、鋅鎳電池等高效儲能電池,其例如結合電池管理系統(Battery Management System,BMS)、溫控系統、後台管理系統等技術,而於再生能源電網中扮演調和的角色,提供即時功率緩衝、吸收及補償,而可改善電網的電力品質、提高電能備用容量、穩定間歇性再生能源輸出,讓電網的供應及負載得以維持穩定平衡。
連接裝置24例如是可與能源供應端及能源需求端連接的任意的有線或無線的介面裝置。對於有線方式而言,連接裝置24可以是通用序列匯流排(universal serial bus,USB)、RS232、通用非同步接收器/傳送器(universal asynchronous receiver/transmitter,UART)、內部整合電路(I2C)、序列周邊介面(serial peripheral interface,SPI)、顯示埠(display port)、雷電埠(thunderbolt)或區域網路(local area network,LAN)介面,但不限於此。對於無線方式而言,連接裝置24可以是支援無線保真(wireless fidelity,Wi-Fi)、RFID、藍芽、紅外線、近場通訊(near-field communication,NFC)或裝置對裝置(device-to-device,D2D)等通訊協定的裝置,亦不限於此。在一些實施例中,連接裝置24亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡,使得再生能源配置裝置20可經由網路連接能源供應端及能源需求端,以上傳出價並接收能源供應端及能源需求端響應出價而提出的供給量及需求量。
儲存裝置26例如是任意型式的固定式或可移動式隨機存 取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或類似元件或上述元件的組合,而用以儲存可由處理器28執行的電腦程式。
處理器28例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、微控制器(Microcontroller)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合,本發明不在此限制。在本實施例中,處理器28可從儲存裝置26載入電腦程式,以執行本發明實施例的基於強化學習的再生能源配置方法。
本發明實施例的再生能源配置方法例如採用強化學習演算法,在此演算法中,能源聚合端的動作(action)可定義為對能源供應端及能源需求端的出價
Figure 110102148-A0305-02-0009-23
Figure 110102148-A0305-02-0009-24
,如下:
Figure 110102148-A0305-02-0009-1
其中,p min
Figure 110102148-A0305-02-0009-25
p max ,且p min
Figure 110102148-A0305-02-0009-26
p max ,而p min p max 為出價的下限及上限,其數值可依市場環境適當定義,在此不設限。
能源聚合端所觀察到的狀態可包括但不限於儲能系統22 的電量資訊、再生能源指標及市場指標,其定義如下:
Figure 110102148-A0305-02-0010-2
其中,ζ t 為判斷市場是否為理性的市場理性指標。在一些實施例中,處理器28例如會判斷對電源需求端的出價
Figure 110102148-A0305-02-0010-27
中的最小值是否大於等於對電源供應端的出價中的最大值
Figure 110102148-A0305-02-0010-28
,從而根據判斷結果決定市場理性指標ζ t ,其定義如下:
Figure 110102148-A0305-02-0010-4
此外,ξ k,t 為能源聚合端本身的供需平衡指標。在一些實施例中,處理器28例如會判斷電源供應端對於再生能源的總供給 量
Figure 110102148-A0305-02-0010-6
是否大於電源需求端對於再生能源的總需求量
Figure 110102148-A0305-02-0010-3
,從而 根據判斷結果決定供需平衡指標ξ k,t ,其定義如下:
Figure 110102148-A0305-02-0010-5
上述狀態中同時也包含了其他競爭聚合端對於能源需求 端和能源供應端的出價
Figure 110102148-A0305-02-0010-8
Figure 110102148-A0305-02-0010-9
,其定義如下:
Figure 110102148-A0305-02-0010-7
此外,上述狀態也可包含其他元素,例如儲能系統22的 當前電量e k,t-1,以及再生能源指標
Figure 110102148-A0305-02-0010-10
Figure 110102148-A0305-02-0010-11
,其定義及詳細的 計算方式將在後文中詳述。
圖3是依照本發明一實施例所繪示的基於強化學習的再生能源配置方法的流程圖。圖4是依照本發明一實施例所繪示的基於強化學習的再生能源配置方法的示意圖。請同時參照圖2、圖3及圖4,本實施例的方法適用於上述的再生能源配置裝置20,其可區分為資料收集、狀態整合及模型更新等階段。以下即搭配再生能源配置裝置20的各項元件說明本實施例的再生能源配置方法的詳細步驟。
在資料收集階段中,再生能源配置裝置20作為目標聚合端例如會對自身狀態、市場狀態與競爭者出價進行觀察,而獲得再生能源市場的市場指標。
詳細而言,在步驟S32中,處理器28例如是利用連接裝置24連接各個能源供應端以收集歷史發電資料,並用以產生表示再生能源的不確定性的再生能源指標(例如圖4中由市場40收集資料以產生再生能源指標202)。
在一些實施例中,處理器28是利用歷史發電資料建構特徵矩陣,並執行聚類演算法,以將特徵矩陣中的多個元素分為多個群組,並計算各個群組的中心與零點的距離,從而產生再生能源指標。在一些實施例中,處理器28會進一步統計各個群組中選擇能源聚合端的能源供應端的數量,並將各個群組的數量分別乘上對應的權重,以產生再生能源指標。
詳細而言,圖5是依照本發明一實施例所繪示的基於強 化學習的再生能源指標產生方法的流程圖。請同時參照圖2及圖5,本實施例說明圖3的步驟S32的詳細流程。
在步驟S321中,處理器28例如會收集所有能源供應端 在一定時間內的歷史發電資料
Figure 110102148-A0305-02-0012-12
,並通過此歷史發電資料建構出 特徵矩陣
Figure 110102148-A0305-02-0012-13
,其定義如下:
Figure 110102148-A0305-02-0012-15
其中,t為當下時刻,T h為歷史資料的為期長度,而M為能源供應端的總數。
針對此特徵矩陣
Figure 110102148-A0305-02-0012-30
,在步驟S322中,處理器28例如是執行聚類演算法(clustering method),將特徵矩陣中的多個元素分為多個群組。舉例來說,處理器28可採用但不限於k-平均(k-means)演算法,將特徵矩陣中的元件分成4群,如下所示:
Figure 110102148-A0305-02-0012-48
其中,
Figure 110102148-A0305-02-0012-29
為當下時刻的第n個群組。
在步驟S323中,處理器28例如是通過所有群中心與零點的遠近,對每個群組標籤(label)出其近期發電總量間歇不確定性的高低,如下所示:
Figure 110102148-A0305-02-0013-47
在一些實施例中,處理器28可直接以上述的不確定性
Figure 110102148-A0305-02-0013-31
Figure 110102148-A0305-02-0013-32
Figure 110102148-A0305-02-0013-33
Figure 110102148-A0305-02-0013-34
作為再生能源指標,而用於強化學習演算法。
在本實施例的步驟S324中,處理器28例如是統計當下各個群組中選擇能源聚合端的能源供應端的數量,並在步驟S325中,將各個群組的數量乘上不同的權重,從而將所得出的指標作為再生能源指標
Figure 110102148-A0305-02-0013-35
Figure 110102148-A0305-02-0013-36
。藉此,可減少所定義狀態中再生能源指標所佔的維度,從而減少後續執行強化學習演算法的計算量。上述再生能源指標
Figure 110102148-A0305-02-0013-37
Figure 110102148-A0305-02-0013-38
的計算公式如下:
Figure 110102148-A0305-02-0013-63
其中,0
Figure 110102148-A0305-02-0013-39
α
Figure 110102148-A0305-02-0013-40
1且0
Figure 110102148-A0305-02-0013-41
β
Figure 110102148-A0305-02-0013-42
1。
接著,進入狀態整合階段,在此階段中,再生能源配置裝置20作為目標聚合端例如會由處理器28將上述觀察所得的市場指標,與上述計算的再生能源指標及自身儲能系統22的電量資訊整合為馬可夫決策過程的多個狀態,並用以作為強化學習模型的輸入,從而經由強化學習模型的運算,決定對能源供應端與能源需求端的出價
Figure 110102148-A0305-02-0013-44
Figure 110102148-A0305-02-0013-43
以圖4為例,再生能源配置裝置20例如是在狀態整合204中將由儲能系統控制策略201所輸出的電量資訊、所計算的再生能源指標202以及所觀察的市場指標203整合為馬可夫決策過程的狀態S,而輸入強化學習模型205。由強化學習模型205通過 任意利用神經網路的演算法,例如深度確定性策略梯度演算法,運算並輸出出價
Figure 110102148-A0305-02-0014-52
Figure 110102148-A0305-02-0014-51
。此出價
Figure 110102148-A0305-02-0014-50
Figure 110102148-A0305-02-0014-49
即作為動作a提供給市場40上的能源供應端與能源需求端。能源供應端與能源需求端則會響應此出價
Figure 110102148-A0305-02-0014-53
Figure 110102148-A0305-02-0014-54
,而提出其可提供的再生能源的供給量或其所需的再生能源的需求量。
最後,進入模型更新階段,在此階段中,再生能源配置裝置20作為目標聚合端在得知而能源供應端與能源需求端的選擇(即,上述的供給量及需求量)後,例如會通過儲能系統22的控制項,得出最後的供給量與需求量。而經過儲能系統22的調整後,再生能源配置裝置20可得知這次出價的獎勵(reward)並取得新的市場觀察,而用以更新強化學習模型的參數(例如圖4中由儲能系統控制策略201輸出獎勵r至強化學習模型205,而用以更新強化學習模型205的參數)。
詳細而言,在步驟S38中,處理器28會根據能源供應端與能源需求端響應出價所提出的供給量及需求量,調整儲能系統22而協調能源供應端與能源需求端之間的再生能源的供需,並更新強化學習模型。
在一些實施例中,處理器28會判斷電源供應端對於再生能源的總供給量是否大於等於電源需求端對於再生能源的總需求量。其中,當總供給量大於等於總需求量時,處理器28會在總供給量與總需求量的差值和儲能系統22的最大儲能量與當前電量的差值中選擇最小值,來決定能源供應端的供給量與能源需求端的 需求量;而當總供給量小於總需求量時,在總需求量與總供給量的差值和儲能系統22的當前電量與最小儲能量的差值中選擇最小值,來決定能源供應端的供給量與能源需求端的需求量,其公式如下:當總供給量
Figure 110102148-A0305-02-0015-55
大於等於總需求量
Figure 110102148-A0305-02-0015-56
時,儲能系統22的控制項u k,t 為:
Figure 110102148-A0305-02-0015-18
當總供給量
Figure 110102148-A0305-02-0015-57
小於總需求量
Figure 110102148-A0305-02-0015-58
時,儲能系統22的控制項u k,t 為:
Figure 110102148-A0305-02-0015-19
其中,e maxe min分別為儲能系統22的最大儲能量及最小儲能量。
在一些實施例中,處理器28是根據儲能系統22的調整,計算所決定出價的獎勵,然後再收集能源市場響應出價的市場指標,並與再生能源指標、儲能系統22的電量資訊整合為狀態,而使用這些狀態及獎勵來更新強化學習模型。
處理器28例如是將採用出價所獲得的收入扣除採用出價所產生的損失所得的利潤作為獎勵r,其公式如下:
Figure 110102148-A0305-02-0015-20
其中,損失函數Φ為:
Figure 110102148-A0305-02-0015-21
其中,
Figure 110102148-A0305-02-0015-59
Figure 110102148-A0305-02-0015-60
分別為供不應求(undersupply)和供過於求 (oversupply)的懲罰價格(penalty prices)。
在一些實施例中,處理器28是採用強化學習的方式更新強化學習模型V(s)中的參數:V(s)←V(s)+α[r(s)+γV(s')-V(s)]
其中,r(s)為獎勵,α為學習率(learning rate),γ為折扣因子(discount factor)。
以強化學習(Q-Learning)為例,其更新式如下:
Figure 110102148-A0305-02-0016-61
其中,Q(S,A)為當前的學習值(即,Q值),Q(S',A)為下一時間的學習值,r為獎勵,α為學習率,γ為折扣因子。
以深度學習網路(Deep Q-Network)為例,其更新式如下:
Figure 110102148-A0305-02-0016-22
其中,L i (θ i )為損失函數值,θ i 為神經網路參數,
Figure 110102148-A0305-02-0016-62
為累計成本的期望值,Q(s,aθ i )為當前的學習值,Q(s',a'θ i-1)為下一時間的學習值,r為獎勵,α為學習率,γ為折扣因子。
通過重複執行上述資料收集、狀態整合及模型更新步驟,最終可獲得針對市場環境、儲能系統充放電控制項優化後的強化學習模型,而藉由此強化學習模型計算出價並相應地協調能源供應端與能源需求端之間的再生能源的供需配置,可達到再生能源利用及能源聚合端收益的最佳化。
綜上所述,本發明實施例的基於強化學習的再生能源配 置方法及裝置整合可再生能源的統計特性,通過對再生能源歷史發電資料進行處理與分群,並基於特定規則對儲能系統進行充放電控制,使得對於儲能系統的控制能夠跳脫強化學習的框架,而降低可再生能源的間歇不確定性對於學習的影響,從而可加快強化學習的速度,達到能源聚合端總收益的最大化。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S32~S38:步驟

Claims (18)

  1. 一種基於強化學習的再生能源配置方法,適於由具備儲能系統的能源聚合端協調多個能源供應端與多個能源需求端之間的再生能源的供需配置,所述方法包括下列步驟:收集各所述能源供應端的歷史發電資料,利用所述歷史發電資料建構特徵矩陣,執行聚類演算法,將所述特徵矩陣中的多個元素分為多個群組,計算各所述群組的中心與零點的距離,以產生表示所述再生能源的不確定性的再生能源指標;收集與再生能源市場動態相關的至少一市場指標,而與所述再生能源指標及所述儲能系統的電量資訊整合為馬可夫決策過程的多個狀態;將所述狀態作為強化學習模型的輸入,以經由所述強化學習模型的運算,決定對所述能源供應端與所述能源需求端的出價;以及根據所述能源供應端與所述能源需求端響應所述出價所提出的供給量及需求量,調整所述儲能系統而協調所述能源供應端與所述能源需求端之間的所述再生能源的供需,並更新所述強化學習模型。
  2. 如請求項1所述的方法,其中更新所述強化學習模型的步驟包括:根據所述儲能系統的調整,計算所決定的所述出價的獎勵;以及 收集所述能源市場響應所述出價的所述市場指標,並與所述再生能源指標、所述儲能系統的所述電量資訊整合為所述狀態,而使用所述狀態及所述獎勵更新所述強化學習模型。
  3. 如請求項2所述的方法,其中所述強化學習模型包括深度學習網路(Deep Q-Network),且更新所述強化學習模型的步驟包括:使用所述出價、所述狀態及所述獎勵計算所述深度學習網路的損失函數(Loss function),用以更新所述深度學習網路的多個網路參數。
  4. 如請求項2所述的方法,其中根據所述儲能系統的調整,計算所決定的所述出價的獎勵的步驟包括:將採用所述出價所獲得的收入扣除採用所述出價所產生的損失所得的利潤作為所述獎勵。
  5. 如請求項1所述的方法,其中計算各所述群組的中心與零點的距離,以產生所述再生能源指標的步驟包括:統計各所述群組中選擇所述能源聚合端的所述能源供應端的數量;以及將各所述群組的所述數量分別乘上對應的權重,以產生所述再生能源指標。
  6. 如請求項1所述的方法,其中收集所述再生能源市場的所述至少一市場指標的步驟包括:判斷對電源需求端的所述出價中的最小值是否大於等於對所 述電源供應端的所述出價中的最大值;以及根據判斷結果決定一市場理性指標以作為所述市場指標其中之一。
  7. 如請求項1所述的方法,其中收集所述再生能源市場的所述至少一市場指標的步驟包括:判斷所述電源供應端對於所述再生能源的總供給量是否大於電源需求端對於所述再生能源的總需求量;以及根據判斷結果決定一供需平衡指標以作為所述市場指標其中之一。
  8. 如請求項1所述的方法,其中收集所述再生能源市場的所述至少一市場指標的步驟包括:取得多個競爭能源聚合端對所述能源供應端與所述能源需求端的出價,以作為所述市場指標其中之一。
  9. 如請求項1所述的方法,其中調整所述儲能系統而協調所述能源供應端與所述能源需求端之間的所述再生能源的供需的步驟包括:判斷所述電源供應端對於所述再生能源的總供給量是否大於等於電源需求端對於所述再生能源的總需求量;當所述總供給量大於等於所述總需求量時,在所述總供給量與所述總需求量的差值和所述儲能系統的最大儲能量與當前電量的差值中選擇最小值,來決定所述能源供應端的供給量與所述能源需求端的需求量;以及 當所述總供給量小於所述總需求量時,在所述總需求量與所述總供給量的差值和所述儲能系統的當前電量與最小儲能量的差值中選擇最小值,來決定所述能源供應端的所述供給量與所述能源需求端的所述需求量。
  10. 一種基於強化學習的再生能源配置裝置,所述再生能源配置裝置作為能源聚合端,以協調多個能源供應端與多個能源需求端之間的再生能源的供需配置,所述再生能源配置裝置包括:儲能系統,儲存所述再生能源;連接裝置,連接各所述能源供應端與各所述能源需求端;儲存裝置,儲存電腦程式;以及處理器,耦接所述儲能系統、所述連接裝置及所述儲存裝置,經配置以載入並執行所述電腦程式以:收集各所述能源供應端的歷史發電資料,利用所述歷史發電資料建構特徵矩陣,執行聚類演算法,將所述特徵矩陣中的多個元素分為多個群組,計算各所述群組的中心與零點的距離,以產生表示所述再生能源的不確定性的再生能源指標;收集與再生能源市場動態相關的至少一市場指標,而與所述再生能源指標及所述儲能系統的電量資訊整合為馬可夫決策過程的多個狀態; 將所述狀態作為強化學習模型的輸入,以經由所述強化學習模型的運算,決定對所述能源供應端與所述能源需求端的出價;以及根據所述能源供應端與所述能源需求端響應所述出價所提出的供給量及需求量,調整所述儲能系統而協調所述能源供應端與所述能源需求端之間的所述再生能源的供需,並更新所述強化學習模型。
  11. 如請求項10所述的再生能源配置裝置,其中所述處理器包括:根據所述儲能系統的調整,計算所決定的所述出價的獎勵;以及收集所述能源市場響應所述出價的所述市場指標,並與所述再生能源指標、所述儲能系統的所述電量資訊整合為所述狀態,而使用所述狀態及所述獎勵更新所述強化學習模型。
  12. 如請求項11所述的再生能源配置裝置,其中所述強化學習模型包括深度學習網路,且所述處理器包括使用所述出價、所述狀態及所述獎勵計算所述深度學習網路的損失函數,用以更新所述深度學習網路的多個網路參數。
  13. 如請求項11所述的再生能源配置裝置,其中所述處理器包括將採用所述出價所獲得的收入扣除採用所述出價所產生的損失所得的利潤作為所述獎勵。
  14. 如請求項10所述的再生能源配置裝置,其中所述處理器包括:統計各所述群組中選擇所述能源聚合端的所述能源供應端的數量;以及將各所述群組的所述數量分別乘上對應的權重,以產生所述再生能源指標。
  15. 如請求項10所述的再生能源配置裝置,其中所述處理器包括:判斷對電源需求端的所述出價中的最小值是否大於等於對所述電源供應端的所述出價中的最大值;以及根據判斷結果決定一市場理性指標以作為所述市場指標其中之一。
  16. 如請求項10所述的再生能源配置裝置,其中所述處理器包括:判斷所述電源供應端對於所述再生能源的總供給量是否大於電源需求端對於所述再生能源的總需求量;以及根據判斷結果決定一供需平衡指標以作為所述市場指標其中之一。
  17. 如請求項10所述的再生能源配置裝置,其中所述處理器包括取得多個競爭能源聚合端對所述能源供應端與所述能源需求端的出價,以作為所述市場指標其中之一。
  18. 如請求項10所述的再生能源配置裝置,其中所述處理器包括:判斷所述電源供應端對於所述再生能源的總供給量是否大於等於電源需求端對於所述再生能源的總需求量;當所述總供給量大於等於所述總需求量時,在所述總供給量與所述總需求量的差值和所述儲能系統的最大儲能量與當前電量的差值中選擇最小值,來決定所述能源供應端的供給量與所述能源需求端的需求量;以及當所述總供給量小於所述總需求量時,在所述總需求量與所述總供給量的差值和所述儲能系統的當前電量與最小儲能量的差值中選擇最小值,來決定所述能源供應端的所述供給量與所述能源需求端的所述需求量。
TW110102148A 2021-01-20 2021-01-20 基於強化學習的再生能源配置方法及裝置 TWI767525B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW110102148A TWI767525B (zh) 2021-01-20 2021-01-20 基於強化學習的再生能源配置方法及裝置
US17/241,009 US11861702B2 (en) 2021-01-20 2021-04-26 Method and apparatus for renewable energy allocation based on reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110102148A TWI767525B (zh) 2021-01-20 2021-01-20 基於強化學習的再生能源配置方法及裝置

Publications (2)

Publication Number Publication Date
TWI767525B true TWI767525B (zh) 2022-06-11
TW202230267A TW202230267A (zh) 2022-08-01

Family

ID=82405277

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110102148A TWI767525B (zh) 2021-01-20 2021-01-20 基於強化學習的再生能源配置方法及裝置

Country Status (2)

Country Link
US (1) US11861702B2 (zh)
TW (1) TWI767525B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024084125A1 (en) * 2022-10-19 2024-04-25 Aalto University Foundation Sr Trained optimization agent for renewable energy time shifting
CN117559387B (zh) * 2023-10-18 2024-06-21 东南大学 基于深度强化学习动态定价的vpp内部能源优化方法及系统
CN117314684A (zh) * 2023-11-29 2023-12-29 山东未来集团有限公司 一种基于绿色能源的分布式算网智能调度系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013092702A1 (en) * 2011-12-21 2013-06-27 Siemens Aktiengesellschaft A method for computer-assisted determination of the usage of electrical energy produced by a power generation plant, particularly a renewable power generation plant
TWI687890B (zh) * 2019-05-13 2020-03-11 國立清華大學 基於強化學習的能源競價方法及裝置
CN111222700A (zh) * 2020-01-07 2020-06-02 东北电力大学 基于动态网络分位数模型的日前电价概率预测方法
TW202030688A (zh) * 2019-01-31 2020-08-16 潔能氏新能源股份有限公司 智慧電力分配系統與方法
CN111815369A (zh) * 2020-07-31 2020-10-23 上海交通大学 一种基于深度强化学习的多能源系统能量调度方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090040029A1 (en) 2006-08-10 2009-02-12 V2Green, Inc. Transceiver and charging component for a power aggregation system
US9965802B2 (en) 2014-02-27 2018-05-08 The Trustees Of Princeton University Method for bidding battery storage into hour-ahead energy markets
US20150378381A1 (en) 2014-06-30 2015-12-31 Qualcomm Incorporated Systems and methods for energy cost optimization
CN106651214A (zh) * 2017-01-04 2017-05-10 厦门大学 基于强化学习的微电网电能分配方法
US11476669B2 (en) * 2019-06-11 2022-10-18 Tata Consultancy Services Limited Method and system for building reinforcement learning (RL) based model for generating bids

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013092702A1 (en) * 2011-12-21 2013-06-27 Siemens Aktiengesellschaft A method for computer-assisted determination of the usage of electrical energy produced by a power generation plant, particularly a renewable power generation plant
TW202030688A (zh) * 2019-01-31 2020-08-16 潔能氏新能源股份有限公司 智慧電力分配系統與方法
TWI687890B (zh) * 2019-05-13 2020-03-11 國立清華大學 基於強化學習的能源競價方法及裝置
CN111222700A (zh) * 2020-01-07 2020-06-02 东北电力大学 基于动态网络分位数模型的日前电价概率预测方法
CN111815369A (zh) * 2020-07-31 2020-10-23 上海交通大学 一种基于深度强化学习的多能源系统能量调度方法

Also Published As

Publication number Publication date
US11861702B2 (en) 2024-01-02
US20220230243A1 (en) 2022-07-21
TW202230267A (zh) 2022-08-01

Similar Documents

Publication Publication Date Title
TWI767525B (zh) 基於強化學習的再生能源配置方法及裝置
CN110728410A (zh) 一种计及需求响应灵活性和不确定性的负荷聚合商经济调度方法
CN107069776B (zh) 一种平滑微网联络线功率的储能前瞻分布式控制方法
CN108537363B (zh) 一种配售分开环境下售电公司购电量控制方法
CN108281989B (zh) 一种风电电力系统经济调度方法及装置
CN112036934A (zh) 考虑热电协调运行的负荷聚合商参与需求响应的报价方法
CN112529271B (zh) 一种可控负荷集群提供电网备用辅助服务的优化调度方法
Liu et al. Strategy of large-scale electric vehicles absorbing renewable energy abandoned electricity based on master-slave game
WO2024092954A1 (zh) 基于深度强化学习的电力系统调控方法
CN109685287A (zh) 增量配电网电源容量多目标优化配置方法
Jin et al. Optimal EV scheduling and voltage security via an online bi-layer steady-state assessment method considering uncertainties
CN114649820B (zh) 一种风光储场站多环节容量分配方法及系统
CN116454902A (zh) 基于强化学习的配电网调压方法、装置、设备和存储介质
CN113555887B (zh) 电网能源控制方法、装置、电子设备及存储介质
CN116307437A (zh) 基于碳排放权兑换机制的虚拟电厂优化调度方法及系统
Yang et al. A noval bidding strategy of electric vehicles participation in ancillary service market
Chen et al. Value stacking of a behind-the-meter utility-scale battery for demand response markets and demand charge management: real-world operation on the UC San Diego campus
CN113255957A (zh) 综合服务站不确定因素的定量优化分析方法及系统
CN112564151A (zh) 一种计及隐私意识的多微网云储能优化调度方法及系统
CN117674300B (zh) 虚拟电厂资源调度方法、装置、终端设备以及存储介质
CN114039351B (zh) 一种储能容量配置方法及装置
Ren et al. Demand Response Analysis of Load Aggregator Considering Energy Storage and User Response Uncertainty
CN111899122B (zh) 一种基于储能控制的用户分散出清方法
CN117613848A (zh) 一种面向居民用户聚合体的负荷调度方法及装置
Li et al. A Novel Cooperative Strategy of Virtual Power Plant for Energy and Peak Regulating Market