TWI763087B - 基於強化學習的點對點能源共享方法及裝置 - Google Patents

基於強化學習的點對點能源共享方法及裝置 Download PDF

Info

Publication number
TWI763087B
TWI763087B TW109136558A TW109136558A TWI763087B TW I763087 B TWI763087 B TW I763087B TW 109136558 A TW109136558 A TW 109136558A TW 109136558 A TW109136558 A TW 109136558A TW I763087 B TWI763087 B TW I763087B
Authority
TW
Taiwan
Prior art keywords
electricity
transaction
reinforcement learning
power
peer
Prior art date
Application number
TW109136558A
Other languages
English (en)
Other versions
TW202217729A (zh
Inventor
黃粲博
邱偉育
Original Assignee
國立清華大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立清華大學 filed Critical 國立清華大學
Priority to TW109136558A priority Critical patent/TWI763087B/zh
Priority to US17/123,156 priority patent/US20220122174A1/en
Application granted granted Critical
Publication of TWI763087B publication Critical patent/TWI763087B/zh
Publication of TW202217729A publication Critical patent/TW202217729A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/10The network having a local or delimited stationary reach
    • H02J2310/12The local stationary network supplying a household or a building
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/20Information technology specific aspects, e.g. CAD, simulation, modelling, system security
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S50/00Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
    • Y04S50/10Energy trading, including energy flowing from end-user application to grid

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Technology Law (AREA)
  • Power Engineering (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

一種基於強化學習的點對點能源共享方法及裝置。此方法包括下列步驟:上傳未來時間段的交易電量至合作者裝置,並接收其整合各用戶裝置的交易電量所得的全局交易資訊;以全局交易資訊、自身電力資訊以及內部電價定義多個電力狀態,並預估在各電力狀態下安排交易電量的用電成本以建構一強化學習表;利用全局交易資訊建立規劃模型,並在其所產生的模擬環境下,預估在各電力狀態下安排多個時間段的交易電量的用電成本,用以更新強化學習表;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。

Description

基於強化學習的點對點能源共享方法及裝置
本發明是有關於一種強化學習方法及裝置,且特別是有關於一種基於強化學習的點對點能源共享方法及裝置。
近年採用家用再生能源系統的住家與日俱增,如何妥善利用再生能源並最小化住家的用電成本已成為重要議題之一。習知的點對點能源共享演算法多採用集中式(centralized)演算法,此種方法是由合作者(coordinator)統一獲取所有住家的用電資料以進行分配,因而排除了各住家對於能源管理的主控權。
為解決此問題,已有部分文獻提出利用分散式(distributed)演算法來解決上述疑慮。然而,此種方法需依靠迭代競價(iterative bidding)法來讓各住家能獨立解決最佳化問題,但結果會產生相當數量的裝置間通訊而造成能源共享區域內通訊設備的負擔,且有可能無法收斂而導致能源管理系統效能不佳。
本發明提供一種基於強化學習的點對點能源共享方法及裝置,可解決傳統點對點能源共享方法中高通訊次數所造成之網路負擔的問題。
本發明提供一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量。此方法包括下列步驟:上傳依據自身的電力資訊所預測的未來時間段的交易電量至能源共享區域的合作者裝置,並接收由合作者裝置整合各個用戶裝置上傳的交易電量所得的全局交易資訊;以全局交易資訊、電力資訊以及能源共享區域的內部電價定義多個電力狀態,並預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表;利用全局交易資訊建立規劃模型,並利用增量實施更新規劃模型;在規劃模型所產生的模擬環境下,預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,用以更新強化學習表,直到所預估的用電成本收斂至預定區間;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
本發明提供一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量,此包括下列步驟:以自身的電力資訊以及能源共享區域的內部電價,定義多個電力狀態,並依據電力資訊預測未來時間段的交易電量,以及預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表;上傳強化學習表至能源共享區域的合作者裝置,並接收由合作者裝置整合各個用戶裝置上傳的強化學習表所得的聯盟式強化學習表;利用全局交易資訊建立規劃模型,並利用增量實施更新規劃模型;在規劃模型所產生的模擬環境下,預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,並使用用電成本及聯盟式強化學習表更新強化學習表,直到所預估的用電成本收斂至預定區間;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
本發明提供一種基於強化學習的點對點能源共享裝置,其包括連接裝置、儲存裝置及處理器。其中,連接裝置是用以連接用以管理能源共享區域內多個用戶裝置的合作者裝置。儲存裝置是用以儲存電腦程式。處理器耦接連接裝置及儲存裝置,經配置以載入並執行電腦程式以利用自身的電力資訊、能源共享區域的內部電價以及自合作者裝置接收的全局交易資訊的至少其中之一,定義多個電力狀態,並依據自身的電力資訊預測未來時間段的交易電量,以及預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表,其中全局交易資訊是合作者裝置整合各個用戶裝置上傳的交易電量所得;利用全局交易資訊建立規劃模型,並利用增量實施更新規劃模型;在規劃模型所產生的模擬環境下,預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,並使用用電成本及聯盟式強化學習表的至少其中之一更新強化學習表,直到所預估的用電成本收斂至預定區間,其中聯盟式強化學習表是合作者裝置整合各用戶裝置上傳的強化學習表所得;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明實施例運用動態學習方法於各住宅,根據來自外界的交易資訊,使用基於模型的多智能體(multi-agent)強化學習演算法或聯盟式強化學習法,透過更新迭代並對一長度的時間段做時程規劃,安排各住宅之電力交易量,以達到住家用電成本最小化並同時兼顧隱私性與低通訊次數的目的。
本發明實施例的基於強化學習的點對點能源共享方法分為三個階段:第一階段為試驗交易(rehearsal trading),由各用戶裝置預先安排未來時間段的欲交易電量,並提供給合作者裝置整合為全局交易資訊(此時不產生現金流與電力流);第二階段為規劃(planning),由各用戶裝置利用合作者裝置回傳的全局交易資訊建立規劃模型,並利用增量實施(incremental implementation)方式在本地端進行學習及更新;第三階段為實際交易,由用戶裝置安排未來時間段的交易電量,利用所建立的模型選擇期望值較佳的欲交易電量,並上傳給合作者裝置以進行交易(此時現金流、電力流與數據流都將產生)。
詳細而言,圖1是根據本發明一實施例所繪示的點對點能源共享系統的示意圖。請參考圖1,本發明實施例的點對點能源共享系統1包括位於能源共享區域內多個用戶裝置12-1~12-n(例如同一社區內的多個住戶),其中n為正整數。各個用戶裝置12-1~12-n例如配置有發電系統、儲能系統(energy storage system,ESS)及能源管理系統(energy management system,EMS),其可同時扮演能源生產者及消費者的角色,提供電力至能源共享區域內的其他用戶或從其他用戶接收電力。所述的發電系統包括太陽能發電系統、風力發電系統等,在此不設限。各個用戶裝置12-1~12-n例如連接至合作者裝置14,而由合作者裝置14協助管理用戶裝置12-1~12-n間的電力分配,且在用戶裝置12-1~12-n的電力不足時,從主電網16取得電力,或是在用戶裝置12-1~12-n的電力過剩時,將多餘的電力提供至主電網16。
本發明實施例揭露一種基於模型的多智能體強化學習的點對對能源共享方法,其提供各個智能體(即用戶裝置12-1~12-n)透過強化學習的方式,根據自身的電力資訊(包括生成電力、消耗電力及儲存電力)預測在未來時間段合適的交易電量,使智能體能快速應變環境,並減少與其他裝置的通訊次數。
圖2是根據本發明一實施例所繪示的基於強化學習的點對點能源共享裝置的方塊圖。請同時參考圖1及圖2,本發明實施例的點對點能源共享裝置是以圖1中的用戶裝置12-1為例做說明,在其他實施例中,點對點能源共享裝置也可以是圖1中的其他用戶裝置。點對點能源共享裝置12-1例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置,其中包括連接裝置22、儲存裝置24及處理器26等元件,這些元件的功能分述如下:
連接裝置22例如是可與合作者裝置14連接的任意的有線或無線的介面裝置,其可用以將點對點能源共享裝置12-1自身的交易電量或強化學習表上傳至合作者裝置14,並接收由合作者裝置14回傳的全局交易資訊或聯盟式強化學習表。對於有線方式而言,連接裝置22可以是通用序列匯流排(universal serial bus,USB)、RS232、通用非同步接收器/傳送器(universal asynchronous receiver/transmitter,UART)、內部整合電路(I2C)、序列周邊介面(serial peripheral interface,SPI)、顯示埠(display port)或雷電埠(thunderbolt)等介面,但不限於此。對於無線方式而言,連接裝置22可以是支援無線保真(wireless fidelity,Wi-Fi)、RFID、藍芽、紅外線、近場通訊(near-field communication,NFC)或裝置對裝置(device-to-device,D2D)等通訊協定的裝置,亦不限於此。在一些實施例中,連接裝置22亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡,使得點對點能源共享裝置12-1可經由網路連接合作者裝置14,以上傳或接收電力交易資訊。
儲存裝置24例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或類似元件或上述元件的組合,而用以儲存可由處理器26執行的電腦程式。在一些實施例中,儲存裝置24例如還可儲存由處理器26所建立的強化學習表以及由連接裝置22從合作者裝置14接收的全局交易資訊或聯盟式強化學習表。
處理器26例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、微控制器(Microcontroller)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合,本發明不在此限制。在本實施例中,處理器26可從儲存裝置24載入電腦程式,以執行本發明實施例的基於強化學習的點對點能源共享方法。
圖3是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。請同時參照圖1、圖2及圖3,本實施例的方法適用於上述的點對點能源共享裝置12-1,以下即搭配點對點能源共享裝置12-1的各項元件說明本實施例的點對點能源共享方法的詳細步驟。
在步驟S302中,由點對點能源共享裝置12-1的處理器26利用連接裝置22將依據自身電力資訊所預測的未來時間段的交易電量上傳至能源共享區域的合作者裝置14,並接收由合作者裝置14整合各個用戶裝置12-1~12-n上傳的交易電量所得的全局交易資訊。其中,處理器26例如是根據自身的生成電力、消耗電力及儲存電力等電力資訊預測未來時間段的交易電量(購電量或售電量)並上傳至合作者裝置14,而合作者裝置14例如會計算所有用戶裝置12-1~12-n的售電量總和及購電量總和,或者是將兩者加總所得的交易量總和,用以作為全局交易資訊回傳給點對點能源共享裝置12-1。在一些實施例中,合作者裝置14例如還會預估其安排該交易電量所需的用電成本,並將所預估的用電成本與售電量總和、購電量總和及內部電價,作為全局交易資訊回傳給點對點能源共享裝置12-1。
在步驟S304中,處理器26以全局交易資訊、自身的電力資訊以及能源共享區域的內部電價定義多個電力狀態,並預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表。其中,所述的電力資訊包括生成電力、消耗電力及儲存電力(即,電池電量),但不限於此。
詳言之,處理器26例如會給定一狀態空間S及一動作空間A,並將在時間段t的狀態標記為
Figure 02_image001
,其中
Figure 02_image003
,以及將在狀態
Figure 02_image001
下於時間段t選擇的動作標記為
Figure 02_image005
,其中
Figure 02_image007
。在狀態
Figure 02_image001
下選擇動作
Figure 02_image005
之後,此環境將轉變為下一狀態
Figure 02_image009
,並產生成本Cost(t)。其中,在狀態
Figure 02_image001
下選擇動作
Figure 02_image005
的機率函數可標記為策略
Figure 02_image011
,而用以評估在時間段t使用策略
Figure 02_image013
的累計成本的期望值的動作值函數
Figure 02_image015
可定義為:
Figure 02_image017
,
Figure 02_image019
其中,
Figure 02_image021
為折扣率(discount factor)。每個用戶裝置的最佳化問題是去找出能夠最小化累計成本的期望值的最佳策略
Figure 02_image023
,而最佳化動作值函數可標記為
Figure 02_image025
在一實施例中,處理器26例如是將第i個用戶裝置在時間段t的狀態
Figure 02_image027
定義為:
Figure 02_image029
其中,
Figure 02_image031
為在時間段t-1的能源共享區域的累計交易電量總合,其中
Figure 02_image033
為售電量總和、
Figure 02_image035
為購電量總和(即,全局交易資訊)。當
Figure 02_image037
為正值,代表能源共享區域缺乏電力;當
Figure 02_image037
為負值,代表能源共享區域有過剩電力可輸出至主電網16。交易電量總合
Figure 02_image039
係作為觀察用指標,其可幫助用戶裝置學習其他用戶裝置動作的效果,並改善學習效率。此外,參數
Figure 02_image041
為能源共享區域的內部電價、
Figure 02_image043
為第i個用戶裝置的儲存電力(即,電池電量)、
Figure 02_image045
為第i個用戶裝置的消耗電力、
Figure 02_image047
為第i個用戶裝置的生成電力,這些參數的設置可幫助用戶裝置學習環境的變化。
每個用戶裝置可以決定所要交易的電量,因此用戶裝置的動作可定義為:
Figure 02_image049
其中,當
Figure 02_image045
為正值,代表用戶裝置欲購電,而當
Figure 02_image045
為負值,代表用戶裝置欲售電。
回到圖3的流程,在步驟S306中,處理器26利用合作者裝置14回傳的「全局交易資訊」建立規劃模型(planning model),並利用增量實施(incremental implementation)來進行更新。所述的規劃模型是用來加速學習並可將通訊周期的數量減少為兩次。
詳言之,處理器26是藉由將規劃模型趨近全局交易資訊
Figure 02_image051
Figure 02_image053
,以在本地端學習最佳策略。其中,處理器26使用包括再生電力的生成及消耗的預測資料(包括
Figure 02_image055
Figure 02_image045
),並計算電池的預測能級
Figure 02_image057
其中,規劃模型
Figure 02_image059
是在給定再生能源電力預測
Figure 02_image055
的情況下去趨近向量
Figure 02_image061
,此規劃模型
Figure 02_image059
可利用增量實施來進行更新,其公式如下:
Figure 02_image063
Figure 02_image065
其中,
Figure 02_image061
為自合作者裝置14接收的全局交易資訊,其中包括售電量總和
Figure 02_image051
及購電量總和
Figure 02_image053
。此外,步長參數
Figure 02_image067
為常數。
需說明的是,在演算法之初,用戶裝置12-1例如會執行未來24小時的試驗交易,其目的在於建立用戶裝置12-1的規劃模型。在此階段,用戶裝置12-1將不會實際輸出或輸入電力,而是僅廣播所需的交易電量並從合作者裝置14接收全局交易資訊。此程序僅需一次通訊周期。
回到圖3的流程,在步驟S308中,處理器26在規劃模型所產生的模擬環境下,執行規劃程序,以預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,並用以更新強化學習表。
詳言之,規劃程序是設計用來在實際交易之前更新強化學習表。此規劃程序是在本地端執行,因此可避免因過度通訊所造成的網路擁塞。藉由在試驗交易階段所建立的規劃模型以及成本模型的先前資訊,用戶裝置能夠學習到估測經驗,由於成本模型的開放性(openness)和透明性(transparency),用戶裝置能夠根據全局交易資訊估測購電價格和售電價格,以計算成本
Figure 02_image069
。舉例來說,第 i個用戶裝置的強化學習表的學習值
Figure 02_image071
的更新公式如下:
Figure 02_image073
其中,
Figure 02_image075
為學習率(learning rate)、
Figure 02_image077
為折扣率,
Figure 02_image079
為在電力狀態
Figure 02_image081
下安排交易電量
Figure 02_image083
所得的學習值。藉由取電力狀態
Figure 02_image027
下可安排的多種交易電量
Figure 02_image083
中,擁有最大學習值的交易電量
Figure 02_image083
作為最佳交易電量
Figure 02_image085
,並將安排此最佳交易電量
Figure 02_image085
至新電力狀態
Figure 02_image081
所預估的用電成本
Figure 02_image087
回饋至原電力狀態
Figure 02_image027
對應的交易電量
Figure 02_image083
的學習值。上述的學習率
Figure 02_image075
例如為數值介於0.1至0.5之間的任意數,其可決定新電力狀態
Figure 02_image081
對於原電力狀態
Figure 02_image027
的學習值的影響比例。上述的折扣率
Figure 02_image077
例如為數值介於0.9至0.99之間的任意數,其可決定新電力狀態
Figure 02_image089
相對於所回饋的用電成本
Figure 02_image087
的比率。
需說明的是,在規劃階段,處理器26例如會將一些雜訊帶入全局交易資訊和交易電量,以避免最佳解落入局部最小值,此步驟可使得所預測的交易電量更適用於現實環境。
詳言之,處理器26例如是以特定機率選取最佳解並以剩下的機率隨機選取其他解,來更新所述強化學習表。
在一實施例中,處理器26例如是採用
Figure 02_image091
-貪婪方法,以特定機率探索(exploration),並以大部分機率進行利用(exploitation),來安排各時段的欲交易電量
Figure 02_image093
,其公式如下:
Figure 02_image095
其中,動作
Figure 02_image005
的最佳解
Figure 02_image097
是以下列公式取得:
Figure 02_image099
, 限制於
Figure 02_image101
其中,
Figure 02_image103
Figure 02_image105
為動作 a的下限及上限。
在另一實施例中,處理器26例如是採用偏好導向動作選擇法(preference-based action selection)來選擇各時段的欲交易電量
Figure 02_image107
,其公式如下:
Figure 02_image109
其中,
Figure 02_image111
為t時刻的動作 a的偏好值(preference),而此偏好值在每個時刻是以如下的公式更新:
Figure 02_image113
,
Figure 02_image115
其中,
Figure 02_image117
為過去時間段的平均成本,
Figure 02_image119
為步長參數。
回到圖3的流程,在步驟S310中,處理器26會判斷其所預估的用電成本是否收斂至預定區間。其中,若判斷所預估的用電成本未收斂,將回到步驟S308,由處理器26繼續執行規劃程序,以更新強化學習表。
反之,若判斷所預估的用電成本已收斂,則代表強化學習表已訓練完成,而可用於實際交易。此時流程將進入步驟S312,在實際交易中,由處理器26利用更新後的強化學習表預測適於在當前電力狀態下安排的交易電量,並將此交易電量上傳至合作者裝置14以進行交易。此時,現金流、電力流與數據流都將產生。
需說明的是,在一些實施例中,在進行交易之後,處理器26例如會在規劃模型所產生的模擬環境下,進一步預估在當前電力狀態下安排交易電量的用電成本,並用以更新強化學習表。也就是說,處理器26將會使用實際交易的結果持續更新強化學習表,使得經由此強化學習表所預測的交易電量能夠更適用於現實環境。
藉由上述方法,由於強化學習表的訓練均是在本地端實施,過程不需要與外界溝通,因此可減少與外部裝置通訊的次數,而改善了傳統迭代競價法的缺點。
需說明的是,在一些實施例中,本發明實施例的點對點能源共享裝置可採用基於模型的聯盟式強化學習方式對強化學習表進行更新,藉此減少所定義電力狀態中的變量,而可減少記憶體空間的使用,並降低硬體需求。
詳言之,圖4是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。請同時參照圖1、圖2及圖4,本實施例的方法適用於上述的點對點能源共享裝置12-1,以下即搭配點對點能源共享裝置12-1的各項元件說明本實施例的點對點能源共享方法的詳細步驟。
在步驟S402中,由點對點能源共享裝置12-1的處理器26以自身的電力資訊以及能源共享區域的內部電價,定義多個電力狀態,並依據電力資訊預測未來時間段的交易電量,以及預估在各電力狀態下安排交易電量的用電成本以建構一強化學習表。
詳言之,與圖3所揭示的基於模型多智能體強化學習不同的是,在本實施例中,處理器26例如是將第i個用戶裝置在時間段t的狀態
Figure 02_image027
定義為:
Figure 02_image121
其中,參數
Figure 02_image041
為能源共享區域的內部電價、
Figure 02_image043
為第i個用戶裝置的儲存電力(即,電池電量)、
Figure 02_image045
為第i個用戶裝置的消耗電力、
Figure 02_image047
為第i個用戶裝置的生成電力。即,相較於圖3實施例中所定義的狀態,本實施例的狀態
Figure 02_image027
將省略
Figure 02_image039
這個變量,而改用後述的聯盟式強化學習表作為學習目標,藉此提升運算效能。
在步驟S404中,處理器26將利用連接裝置22,將強化學習表上傳至能源共享區域的合作者裝置16,並接收由合作者裝置16整合各用戶裝置12-1~12-n上傳的強化學習表所得的聯盟式強化學習表。
在一實施例中,合作者裝置16例如是將所有用戶裝置12-1~12-n上傳的強化學習表
Figure 02_image123
取平均來獲得聯盟式強化學習表
Figure 02_image125
,其公式如下:
Figure 02_image127
在步驟S406中,處理器26利用合作者裝置14回傳的「全局交易資訊」建立規劃模型,並利用增量實施來進行更新。所述的規劃模型是用來加速學習並可將通訊周期的數量減少為兩次。上述規劃模型的建立與更新與前述實施例相同,故其詳細內容在此不再贅述。
在步驟S408中,處理器26在規劃模型所產生的模擬環境下,執行規劃程序,以預估在各電力狀態下安排未來多個時間段的交易電量的用電成本,並使用用電成本及聯盟式強化學習表更新強化學習表。其中,第 i個用戶裝置的強化學習表的學習值
Figure 02_image071
的更新公式如下:
Figure 02_image129
其中,
Figure 02_image075
為學習率、
Figure 02_image077
為折扣率,
Figure 02_image131
為在電力狀態
Figure 02_image081
下安排交易電量
Figure 02_image083
時,從合作者裝置16獲得的聯盟式強化學習表的學習值。藉由取電力狀態
Figure 02_image027
下可安排的多種交易電量
Figure 02_image083
中,擁有最大學習值的交易電量
Figure 02_image083
作為最佳交易電量
Figure 02_image085
,並將安排此最佳交易電量
Figure 02_image085
至新電力狀態
Figure 02_image081
所預估的用電成本
Figure 02_image087
回饋至原電力狀態
Figure 02_image027
對應的交易電量
Figure 02_image083
的學習值。上述的學習率
Figure 02_image075
例如為數值介於0.1至0.5之間的任意數,其可決定新電力狀態
Figure 02_image081
對於原電力狀態
Figure 02_image027
的學習值的影響比例。上述的折扣率
Figure 02_image077
例如為數值介於0.9至0.99之間的任意數,其可決定新電力狀態
Figure 02_image089
相對於所回饋的用電成本
Figure 02_image087
的比率。
在步驟S410中,處理器26會判斷其所預估的用電成本是否收斂至預定區間。其中,若判斷所預估的用電成本未收斂,將回到步驟S408,由處理器26繼續執行規劃程序,以更新強化學習表。
反之,若判斷所預估的用電成本已收斂,則代表強化學習表已訓練完成,而可用於實際交易。此時流程將進入步驟S412,在實際交易中,由處理器26利用更新後的強化學習表預測適於在當前電力狀態下安排的交易電量,並將此交易電量上傳至合作者裝置14以進行交易。此時,現金流、電力流與數據流都將產生。
需說明的是,在一些實施例中,在進行交易之後,處理器26例如會在所述規劃模型所產生的模擬環境下,進一步預估在當前電力狀態下安排交易電量的用電成本,並使用此用電成本及聯盟式強化學習表更新強化學習表。也就是說,處理器26將會使用實際交易的結果持續更新強化學習表,使得經由此強化學習表所預測的交易電量能夠更適用於現實環境。
相較於圖3實施例的方法,本實施例的方法在建立強化學習表時省略了全局交易資訊這個變量,使得電力狀態減少一個維度的資料,進而減少儲存強化學習表所需的記憶體空間,也減少更新強化學習表所需的運算成本,因此可有效降低硬體需求,有助於能源共享區域的發展。
綜上所述,在本發明實施例的基於強化學習的點對點能源共享方法及裝置中,針對追求最高效能與降低用戶端設備需求這兩個目的,分別提出基於模型的多智能體強化學習方法與聯盟式強化學習法。其中,由於對於強化學習表的訓練是在本地端實施,過程不需要與外界溝通,因此可減少與外部裝置通訊的次數,而改善了傳統迭代競價法的缺點。此外,藉由在更新強化學習表時,採用
Figure 02_image091
-貪婪方法等方法導入不同解,因此可避免最佳解落入局部最小值,使得所預測的交易電量更適用於現實環境。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1:點對點能源共享系統 12-1~12-n:用戶裝置 14:合作者裝置 16:主電網 22:連接裝置 24:儲存裝置 26:處理器 S302~S312、S402~S412:步驟
圖1是根據本發明一實施例所繪示的點對點能源共享系統的示意圖。 圖2是根據本發明一實施例所繪示的基於強化學習的點對點能源共享裝置的方塊圖。 圖3是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。 圖4是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。
S302~S312:步驟

Claims (16)

  1. 一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量,所述方法包括下列步驟:由所述指定用戶裝置上傳依據自身的電力資訊所預測的未來時間段的交易電量至所述能源共享區域的合作者裝置,並接收由所述合作者裝置整合各所述用戶裝置上傳的交易電量所得的全局交易資訊;由所述指定用戶裝置以所述全局交易資訊、所述電力資訊以及所述能源共享區域的內部電價定義多個電力狀態,並預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表;由所述指定用戶裝置利用所述全局交易資訊建立規劃模型,並利用增量實施更新所述規劃模型;在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本,用以更新所述強化學習表,直到所預估的所述用電成本收斂至預定區間;以及由所述指定用戶裝置利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易。
  2. 如請求項1所述的方法,其中更新所述強化學習表的步驟包括:由所述指定用戶裝置以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解,來更新所述強化學習表。
  3. 如請求項1所述的方法,其中所述交易電量包括購電量或售電量,所述全局交易資訊包括所有用戶裝置的售電量總和及購電量總和。
  4. 如請求項1所述的方法,其中所述電力資訊包括生成電力、消耗電力及儲存電力。
  5. 如請求項1所述的方法,其中在利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易的步驟之後,更包括:在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在所述當前電力狀態下安排所述交易電量的用電成本,用以更新所述強化學習表。
  6. 一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量,所述方法包括下列步驟:由所述指定用戶裝置以自身的電力資訊以及所述能源共享區域的內部電價,定義多個電力狀態,並依據所述電力資訊預測未來時間段的交易電量,以及預估在各所述電力狀態下安排所述交 易電量的用電成本以建構一強化學習表;由所述指定用戶裝置上傳所述強化學習表至所述能源共享區域的合作者裝置,並接收由所述合作者裝置整合各所述用戶裝置上傳的強化學習表所得的聯盟式強化學習表;由所述指定用戶裝置利用所述全局交易資訊建立規劃模型,並利用增量實施更新所述規劃模型;在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本,並使用所述用電成本及所述聯盟式強化學習表更新所述強化學習表,直到所預估的所述用電成本收斂至預定區間;以及由所述指定用戶裝置利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易。
  7. 如請求項6所述的方法,其中更新所述強化學習表的步驟包括:由所述指定用戶裝置以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解,來更新所述強化學習表。
  8. 如請求項6所述的方法,其中所述聯盟式強化學習表為所述用戶裝置的所述強化學習表的平均。
  9. 如請求項6所述的方法,其中所述電力資訊包括生成電力、消耗電力及儲存電力。
  10. 如請求項6所述的方法,其中在利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易的步驟之後,更包括:在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在所述當前電力狀態下安排所述交易電量的用電成本,並使用所述用電成本及所述聯盟式強化學習表更新所述強化學習表。
  11. 一種基於強化學習的點對點能源共享裝置,包括:連接裝置,連接合作者裝置,所述合作者裝置用以管理能源共享區域內的多個用戶裝置及所述點對點能源共享裝置;儲存裝置,儲存電腦程式;以及處理器,耦接所述連接裝置及所述儲存裝置,經配置以載入並執行所述電腦程式以:利用自身的電力資訊、所述能源共享區域的內部電價以及自所述合作者裝置接收的全局交易資訊的至少其中之一,定義多個電力狀態,並依據所述電力資訊預測未來時間段的交易電量,以及預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表,其中所述全局交易資訊是所述合作者裝置整合各所述用戶裝置上傳的交易電量所得;利用所述全局交易資訊建立規劃模型,並利用增量實施更新所述規劃模型;在所述規劃模型所產生的模擬環境下,預估在各所述電力 狀態下安排未來多個時間段的交易電量的用電成本,並使用所述用電成本及聯盟式強化學習表的至少其中之一更新所述強化學習表,直到所預估的所述用電成本收斂至預定區間,其中所述聯盟式強化學習表是所述合作者裝置整合各所述用戶裝置上傳的強化學習表所得;以及利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易。
  12. 如請求項11所述的點對點能源共享裝置,其中所述處理器包括以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解,來更新所述強化學習表。
  13. 如請求項11所述的點對點能源共享裝置,其中所述交易電量包括購電量或售電量,所述全局交易資訊包括所有用戶裝置的售電量總和及購電量總和。
  14. 如請求項11所述的點對點能源共享裝置,其中所述聯盟式強化學習表為所述用戶裝置的所述強化學習表的平均。
  15. 如請求項11所述的點對點能源共享裝置,其中所述電力資訊包括生成電力、消耗電力及儲存電力。
  16. 如請求項11所述的點對點能源共享裝置,其中所述處理器更在所述規劃模型所產生的模擬環境下,預估在所述當前電力狀態下安排所述交易電量的用電成本,並使用所述用電成本及所述聯盟式強化學習表的至少其中之一更新所述強化學習表。
TW109136558A 2020-10-21 2020-10-21 基於強化學習的點對點能源共享方法及裝置 TWI763087B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109136558A TWI763087B (zh) 2020-10-21 2020-10-21 基於強化學習的點對點能源共享方法及裝置
US17/123,156 US20220122174A1 (en) 2020-10-21 2020-12-16 Method and apparatus for peer-to-peer energy sharing based on reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109136558A TWI763087B (zh) 2020-10-21 2020-10-21 基於強化學習的點對點能源共享方法及裝置

Publications (2)

Publication Number Publication Date
TWI763087B true TWI763087B (zh) 2022-05-01
TW202217729A TW202217729A (zh) 2022-05-01

Family

ID=81185493

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109136558A TWI763087B (zh) 2020-10-21 2020-10-21 基於強化學習的點對點能源共享方法及裝置

Country Status (2)

Country Link
US (1) US20220122174A1 (zh)
TW (1) TWI763087B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062871B (zh) * 2022-08-11 2022-11-29 山西虚拟现实产业技术研究院有限公司 基于多智能体强化学习的智能电表状态评估方法
CN116128543B (zh) * 2022-12-16 2024-05-24 国网山东省电力公司营销服务中心(计量中心) 一种售电公司负荷申报与出清的综合模拟运行方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201702966A (zh) * 2015-07-13 2017-01-16 行政院原子能委員會核能研究所 具多代理人功能之智慧電網監控裝置及其電力調度交易系統
CN106651214A (zh) * 2017-01-04 2017-05-10 厦门大学 基于强化学习的微电网电能分配方法
CN107067190A (zh) * 2017-05-18 2017-08-18 厦门大学 基于深度强化学习的微电网电能交易方法
US20180025423A1 (en) * 2015-01-15 2018-01-25 Hitachi, Ltd. Power transaction management system and power transaction management method
CN107644370A (zh) * 2017-09-29 2018-01-30 中国电力科学研究院 一种自增强学习的撮合竞价方法及系统
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
US20190087920A1 (en) * 2017-09-20 2019-03-21 HEPU Technology Development (Beijing) Co. LTD. Power trading system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107773A1 (en) * 2000-03-24 2002-08-08 Abdou Hamed M Method and apparatus for providing an electronic commerce environment for leveraging orders from a plurality of customers
US8688506B2 (en) * 2007-08-31 2014-04-01 Hudson Energy Services Llc Determining tailored pricing for retail energy market
US20150278968A1 (en) * 2009-10-23 2015-10-01 Viridity Energy, Inc. Facilitating revenue generation from data shifting by data centers
WO2013042213A1 (ja) * 2011-09-20 2013-03-28 富士通株式会社 計算機、計算機システム、および探索プログラム
US20140351014A1 (en) * 2013-05-22 2014-11-27 Eqs, Inc. Property valuation including energy usage
JP2019082935A (ja) * 2017-10-31 2019-05-30 株式会社日立製作所 管理装置および管理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025423A1 (en) * 2015-01-15 2018-01-25 Hitachi, Ltd. Power transaction management system and power transaction management method
TW201702966A (zh) * 2015-07-13 2017-01-16 行政院原子能委員會核能研究所 具多代理人功能之智慧電網監控裝置及其電力調度交易系統
CN106651214A (zh) * 2017-01-04 2017-05-10 厦门大学 基于强化学习的微电网电能分配方法
CN107067190A (zh) * 2017-05-18 2017-08-18 厦门大学 基于深度强化学习的微电网电能交易方法
US20190087920A1 (en) * 2017-09-20 2019-03-21 HEPU Technology Development (Beijing) Co. LTD. Power trading system
CN107644370A (zh) * 2017-09-29 2018-01-30 中国电力科学研究院 一种自增强学习的撮合竞价方法及系统
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置

Also Published As

Publication number Publication date
TW202217729A (zh) 2022-05-01
US20220122174A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
Zhang et al. Distributed online optimal energy management for smart grids
Chai et al. Demand response management with multiple utility companies: A two-level game approach
Chen et al. Optimal demand response: Problem formulation and deterministic case
TWI763087B (zh) 基於強化學習的點對點能源共享方法及裝置
CN109286187B (zh) 一种面向多主体利益均衡的微网日前经济调度方法
Singh et al. Decentralized control via dynamic stochastic prices: The independent system operator problem
CN111679573B (zh) 一种居民家庭用能优化方法及装置
Liang et al. Distributed demand-side energy management scheme in residential smart grids: An ordinal state-based potential game approach
TWI767525B (zh) 基於強化學習的再生能源配置方法及裝置
CN111934315A (zh) 考虑需求侧的源网荷储协同优化运行方法及终端设备
Balakumar et al. Real time implementation of Demand Side Management scheme for IoT enabled PV integrated smart residential building
CN112202205A (zh) 一种多能源三级自律协同控制方法及装置
Tsaousoglou et al. Multistage energy management of coordinated smart buildings: A multiagent Markov decision process approach
Liu et al. Dynamic energy scheduling for end-users with storage devices in smart grid
He et al. Management and real-time monitoring of interconnected energy hubs using digital twin: Machine learning based approach
CN113723793A (zh) 园区综合能源系统的实现方法、装置、设备和介质
Zhang et al. ReLeDP: Reinforcement-learning-assisted dynamic pricing for wireless smart grid
CN117314684A (zh) 一种基于绿色能源的分布式算网智能调度系统
Zhou et al. Learning-based green workload placement for energy internet in smart cities
Luan et al. Cooperative power consumption in the smart grid based on coalition formation game
Zhou et al. Joint Energy and Carbon Trading for Multi-Microgrid System Based on Multi-Agent Deep Reinforcement Learning
JP2013246455A (ja) エネルギー管理システム、サーバ装置、エネルギー管理方法およびプログラム
Hall et al. A system of agents for supporting optimization and control of a connected community
Verschae et al. A distributed coordination framework for on-line scheduling and power demand balancing of households communities
CN107559947B (zh) 一种燃气壁挂炉控制系统及方法