TWI763087B - 基於強化學習的點對點能源共享方法及裝置 - Google Patents
基於強化學習的點對點能源共享方法及裝置 Download PDFInfo
- Publication number
- TWI763087B TWI763087B TW109136558A TW109136558A TWI763087B TW I763087 B TWI763087 B TW I763087B TW 109136558 A TW109136558 A TW 109136558A TW 109136558 A TW109136558 A TW 109136558A TW I763087 B TWI763087 B TW I763087B
- Authority
- TW
- Taiwan
- Prior art keywords
- electricity
- transaction
- reinforcement learning
- power
- peer
- Prior art date
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005611 electricity Effects 0.000 claims abstract description 145
- 238000004088 simulation Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 13
- 230000009471 action Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010248 power generation Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/008—Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2310/00—The network for supplying or distributing electric power characterised by its spatial reach or by the load
- H02J2310/10—The network having a local or delimited stationary reach
- H02J2310/12—The local stationary network supplying a household or a building
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S40/00—Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
- Y04S40/20—Information technology specific aspects, e.g. CAD, simulation, modelling, system security
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S50/00—Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
- Y04S50/10—Energy trading, including energy flowing from end-user application to grid
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Technology Law (AREA)
- Power Engineering (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
Abstract
一種基於強化學習的點對點能源共享方法及裝置。此方法包括下列步驟:上傳未來時間段的交易電量至合作者裝置,並接收其整合各用戶裝置的交易電量所得的全局交易資訊;以全局交易資訊、自身電力資訊以及內部電價定義多個電力狀態,並預估在各電力狀態下安排交易電量的用電成本以建構一強化學習表;利用全局交易資訊建立規劃模型,並在其所產生的模擬環境下,預估在各電力狀態下安排多個時間段的交易電量的用電成本,用以更新強化學習表;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
Description
本發明是有關於一種強化學習方法及裝置,且特別是有關於一種基於強化學習的點對點能源共享方法及裝置。
近年採用家用再生能源系統的住家與日俱增,如何妥善利用再生能源並最小化住家的用電成本已成為重要議題之一。習知的點對點能源共享演算法多採用集中式(centralized)演算法,此種方法是由合作者(coordinator)統一獲取所有住家的用電資料以進行分配,因而排除了各住家對於能源管理的主控權。
為解決此問題,已有部分文獻提出利用分散式(distributed)演算法來解決上述疑慮。然而,此種方法需依靠迭代競價(iterative bidding)法來讓各住家能獨立解決最佳化問題,但結果會產生相當數量的裝置間通訊而造成能源共享區域內通訊設備的負擔,且有可能無法收斂而導致能源管理系統效能不佳。
本發明提供一種基於強化學習的點對點能源共享方法及裝置,可解決傳統點對點能源共享方法中高通訊次數所造成之網路負擔的問題。
本發明提供一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量。此方法包括下列步驟:上傳依據自身的電力資訊所預測的未來時間段的交易電量至能源共享區域的合作者裝置,並接收由合作者裝置整合各個用戶裝置上傳的交易電量所得的全局交易資訊;以全局交易資訊、電力資訊以及能源共享區域的內部電價定義多個電力狀態,並預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表;利用全局交易資訊建立規劃模型,並利用增量實施更新規劃模型;在規劃模型所產生的模擬環境下,預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,用以更新強化學習表,直到所預估的用電成本收斂至預定區間;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
本發明提供一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量,此包括下列步驟:以自身的電力資訊以及能源共享區域的內部電價,定義多個電力狀態,並依據電力資訊預測未來時間段的交易電量,以及預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表;上傳強化學習表至能源共享區域的合作者裝置,並接收由合作者裝置整合各個用戶裝置上傳的強化學習表所得的聯盟式強化學習表;利用全局交易資訊建立規劃模型,並利用增量實施更新規劃模型;在規劃模型所產生的模擬環境下,預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,並使用用電成本及聯盟式強化學習表更新強化學習表,直到所預估的用電成本收斂至預定區間;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
本發明提供一種基於強化學習的點對點能源共享裝置,其包括連接裝置、儲存裝置及處理器。其中,連接裝置是用以連接用以管理能源共享區域內多個用戶裝置的合作者裝置。儲存裝置是用以儲存電腦程式。處理器耦接連接裝置及儲存裝置,經配置以載入並執行電腦程式以利用自身的電力資訊、能源共享區域的內部電價以及自合作者裝置接收的全局交易資訊的至少其中之一,定義多個電力狀態,並依據自身的電力資訊預測未來時間段的交易電量,以及預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表,其中全局交易資訊是合作者裝置整合各個用戶裝置上傳的交易電量所得;利用全局交易資訊建立規劃模型,並利用增量實施更新規劃模型;在規劃模型所產生的模擬環境下,預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,並使用用電成本及聯盟式強化學習表的至少其中之一更新強化學習表,直到所預估的用電成本收斂至預定區間,其中聯盟式強化學習表是合作者裝置整合各用戶裝置上傳的強化學習表所得;以及利用強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳交易電量至合作者裝置以進行交易。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明實施例運用動態學習方法於各住宅,根據來自外界的交易資訊,使用基於模型的多智能體(multi-agent)強化學習演算法或聯盟式強化學習法,透過更新迭代並對一長度的時間段做時程規劃,安排各住宅之電力交易量,以達到住家用電成本最小化並同時兼顧隱私性與低通訊次數的目的。
本發明實施例的基於強化學習的點對點能源共享方法分為三個階段:第一階段為試驗交易(rehearsal trading),由各用戶裝置預先安排未來時間段的欲交易電量,並提供給合作者裝置整合為全局交易資訊(此時不產生現金流與電力流);第二階段為規劃(planning),由各用戶裝置利用合作者裝置回傳的全局交易資訊建立規劃模型,並利用增量實施(incremental implementation)方式在本地端進行學習及更新;第三階段為實際交易,由用戶裝置安排未來時間段的交易電量,利用所建立的模型選擇期望值較佳的欲交易電量,並上傳給合作者裝置以進行交易(此時現金流、電力流與數據流都將產生)。
詳細而言,圖1是根據本發明一實施例所繪示的點對點能源共享系統的示意圖。請參考圖1,本發明實施例的點對點能源共享系統1包括位於能源共享區域內多個用戶裝置12-1~12-n(例如同一社區內的多個住戶),其中n為正整數。各個用戶裝置12-1~12-n例如配置有發電系統、儲能系統(energy storage system,ESS)及能源管理系統(energy management system,EMS),其可同時扮演能源生產者及消費者的角色,提供電力至能源共享區域內的其他用戶或從其他用戶接收電力。所述的發電系統包括太陽能發電系統、風力發電系統等,在此不設限。各個用戶裝置12-1~12-n例如連接至合作者裝置14,而由合作者裝置14協助管理用戶裝置12-1~12-n間的電力分配,且在用戶裝置12-1~12-n的電力不足時,從主電網16取得電力,或是在用戶裝置12-1~12-n的電力過剩時,將多餘的電力提供至主電網16。
本發明實施例揭露一種基於模型的多智能體強化學習的點對對能源共享方法,其提供各個智能體(即用戶裝置12-1~12-n)透過強化學習的方式,根據自身的電力資訊(包括生成電力、消耗電力及儲存電力)預測在未來時間段合適的交易電量,使智能體能快速應變環境,並減少與其他裝置的通訊次數。
圖2是根據本發明一實施例所繪示的基於強化學習的點對點能源共享裝置的方塊圖。請同時參考圖1及圖2,本發明實施例的點對點能源共享裝置是以圖1中的用戶裝置12-1為例做說明,在其他實施例中,點對點能源共享裝置也可以是圖1中的其他用戶裝置。點對點能源共享裝置12-1例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置,其中包括連接裝置22、儲存裝置24及處理器26等元件,這些元件的功能分述如下:
連接裝置22例如是可與合作者裝置14連接的任意的有線或無線的介面裝置,其可用以將點對點能源共享裝置12-1自身的交易電量或強化學習表上傳至合作者裝置14,並接收由合作者裝置14回傳的全局交易資訊或聯盟式強化學習表。對於有線方式而言,連接裝置22可以是通用序列匯流排(universal serial bus,USB)、RS232、通用非同步接收器/傳送器(universal asynchronous receiver/transmitter,UART)、內部整合電路(I2C)、序列周邊介面(serial peripheral interface,SPI)、顯示埠(display port)或雷電埠(thunderbolt)等介面,但不限於此。對於無線方式而言,連接裝置22可以是支援無線保真(wireless fidelity,Wi-Fi)、RFID、藍芽、紅外線、近場通訊(near-field communication,NFC)或裝置對裝置(device-to-device,D2D)等通訊協定的裝置,亦不限於此。在一些實施例中,連接裝置22亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡,使得點對點能源共享裝置12-1可經由網路連接合作者裝置14,以上傳或接收電力交易資訊。
儲存裝置24例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或類似元件或上述元件的組合,而用以儲存可由處理器26執行的電腦程式。在一些實施例中,儲存裝置24例如還可儲存由處理器26所建立的強化學習表以及由連接裝置22從合作者裝置14接收的全局交易資訊或聯盟式強化學習表。
處理器26例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、微控制器(Microcontroller)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合,本發明不在此限制。在本實施例中,處理器26可從儲存裝置24載入電腦程式,以執行本發明實施例的基於強化學習的點對點能源共享方法。
圖3是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。請同時參照圖1、圖2及圖3,本實施例的方法適用於上述的點對點能源共享裝置12-1,以下即搭配點對點能源共享裝置12-1的各項元件說明本實施例的點對點能源共享方法的詳細步驟。
在步驟S302中,由點對點能源共享裝置12-1的處理器26利用連接裝置22將依據自身電力資訊所預測的未來時間段的交易電量上傳至能源共享區域的合作者裝置14,並接收由合作者裝置14整合各個用戶裝置12-1~12-n上傳的交易電量所得的全局交易資訊。其中,處理器26例如是根據自身的生成電力、消耗電力及儲存電力等電力資訊預測未來時間段的交易電量(購電量或售電量)並上傳至合作者裝置14,而合作者裝置14例如會計算所有用戶裝置12-1~12-n的售電量總和及購電量總和,或者是將兩者加總所得的交易量總和,用以作為全局交易資訊回傳給點對點能源共享裝置12-1。在一些實施例中,合作者裝置14例如還會預估其安排該交易電量所需的用電成本,並將所預估的用電成本與售電量總和、購電量總和及內部電價,作為全局交易資訊回傳給點對點能源共享裝置12-1。
在步驟S304中,處理器26以全局交易資訊、自身的電力資訊以及能源共享區域的內部電價定義多個電力狀態,並預估在各個電力狀態下安排交易電量的用電成本以建構一強化學習表。其中,所述的電力資訊包括生成電力、消耗電力及儲存電力(即,電池電量),但不限於此。
詳言之,處理器26例如會給定一狀態空間S及一動作空間A,並將在時間段t的狀態標記為
,其中
,以及將在狀態
下於時間段t選擇的動作標記為
,其中
。在狀態
下選擇動作
之後,此環境將轉變為下一狀態
,並產生成本Cost(t)。其中,在狀態
下選擇動作
的機率函數可標記為策略
,而用以評估在時間段t使用策略
的累計成本的期望值的動作值函數
可定義為:
,
其中,
為在時間段t-1的能源共享區域的累計交易電量總合,其中
為售電量總和、
為購電量總和(即,全局交易資訊)。當
為正值,代表能源共享區域缺乏電力;當
為負值,代表能源共享區域有過剩電力可輸出至主電網16。交易電量總合
係作為觀察用指標,其可幫助用戶裝置學習其他用戶裝置動作的效果,並改善學習效率。此外,參數
為能源共享區域的內部電價、
為第i個用戶裝置的儲存電力(即,電池電量)、
為第i個用戶裝置的消耗電力、
為第i個用戶裝置的生成電力,這些參數的設置可幫助用戶裝置學習環境的變化。
回到圖3的流程,在步驟S306中,處理器26利用合作者裝置14回傳的「全局交易資訊」建立規劃模型(planning model),並利用增量實施(incremental implementation)來進行更新。所述的規劃模型是用來加速學習並可將通訊周期的數量減少為兩次。
需說明的是,在演算法之初,用戶裝置12-1例如會執行未來24小時的試驗交易,其目的在於建立用戶裝置12-1的規劃模型。在此階段,用戶裝置12-1將不會實際輸出或輸入電力,而是僅廣播所需的交易電量並從合作者裝置14接收全局交易資訊。此程序僅需一次通訊周期。
回到圖3的流程,在步驟S308中,處理器26在規劃模型所產生的模擬環境下,執行規劃程序,以預估在各個電力狀態下安排未來多個時間段的交易電量的用電成本,並用以更新強化學習表。
詳言之,規劃程序是設計用來在實際交易之前更新強化學習表。此規劃程序是在本地端執行,因此可避免因過度通訊所造成的網路擁塞。藉由在試驗交易階段所建立的規劃模型以及成本模型的先前資訊,用戶裝置能夠學習到估測經驗,由於成本模型的開放性(openness)和透明性(transparency),用戶裝置能夠根據全局交易資訊估測購電價格和售電價格,以計算成本
。舉例來說,第
i個用戶裝置的強化學習表的學習值
的更新公式如下:
其中,
為學習率(learning rate)、
為折扣率,
為在電力狀態
下安排交易電量
所得的學習值。藉由取電力狀態
下可安排的多種交易電量
中,擁有最大學習值的交易電量
作為最佳交易電量
,並將安排此最佳交易電量
至新電力狀態
所預估的用電成本
回饋至原電力狀態
對應的交易電量
的學習值。上述的學習率
例如為數值介於0.1至0.5之間的任意數,其可決定新電力狀態
對於原電力狀態
的學習值的影響比例。上述的折扣率
例如為數值介於0.9至0.99之間的任意數,其可決定新電力狀態
相對於所回饋的用電成本
的比率。
需說明的是,在規劃階段,處理器26例如會將一些雜訊帶入全局交易資訊和交易電量,以避免最佳解落入局部最小值,此步驟可使得所預測的交易電量更適用於現實環境。
詳言之,處理器26例如是以特定機率選取最佳解並以剩下的機率隨機選取其他解,來更新所述強化學習表。
回到圖3的流程,在步驟S310中,處理器26會判斷其所預估的用電成本是否收斂至預定區間。其中,若判斷所預估的用電成本未收斂,將回到步驟S308,由處理器26繼續執行規劃程序,以更新強化學習表。
反之,若判斷所預估的用電成本已收斂,則代表強化學習表已訓練完成,而可用於實際交易。此時流程將進入步驟S312,在實際交易中,由處理器26利用更新後的強化學習表預測適於在當前電力狀態下安排的交易電量,並將此交易電量上傳至合作者裝置14以進行交易。此時,現金流、電力流與數據流都將產生。
需說明的是,在一些實施例中,在進行交易之後,處理器26例如會在規劃模型所產生的模擬環境下,進一步預估在當前電力狀態下安排交易電量的用電成本,並用以更新強化學習表。也就是說,處理器26將會使用實際交易的結果持續更新強化學習表,使得經由此強化學習表所預測的交易電量能夠更適用於現實環境。
藉由上述方法,由於強化學習表的訓練均是在本地端實施,過程不需要與外界溝通,因此可減少與外部裝置通訊的次數,而改善了傳統迭代競價法的缺點。
需說明的是,在一些實施例中,本發明實施例的點對點能源共享裝置可採用基於模型的聯盟式強化學習方式對強化學習表進行更新,藉此減少所定義電力狀態中的變量,而可減少記憶體空間的使用,並降低硬體需求。
詳言之,圖4是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。請同時參照圖1、圖2及圖4,本實施例的方法適用於上述的點對點能源共享裝置12-1,以下即搭配點對點能源共享裝置12-1的各項元件說明本實施例的點對點能源共享方法的詳細步驟。
在步驟S402中,由點對點能源共享裝置12-1的處理器26以自身的電力資訊以及能源共享區域的內部電價,定義多個電力狀態,並依據電力資訊預測未來時間段的交易電量,以及預估在各電力狀態下安排交易電量的用電成本以建構一強化學習表。
其中,參數
為能源共享區域的內部電價、
為第i個用戶裝置的儲存電力(即,電池電量)、
為第i個用戶裝置的消耗電力、
為第i個用戶裝置的生成電力。即,相較於圖3實施例中所定義的狀態,本實施例的狀態
將省略
這個變量,而改用後述的聯盟式強化學習表作為學習目標,藉此提升運算效能。
在步驟S404中,處理器26將利用連接裝置22,將強化學習表上傳至能源共享區域的合作者裝置16,並接收由合作者裝置16整合各用戶裝置12-1~12-n上傳的強化學習表所得的聯盟式強化學習表。
在步驟S406中,處理器26利用合作者裝置14回傳的「全局交易資訊」建立規劃模型,並利用增量實施來進行更新。所述的規劃模型是用來加速學習並可將通訊周期的數量減少為兩次。上述規劃模型的建立與更新與前述實施例相同,故其詳細內容在此不再贅述。
在步驟S408中,處理器26在規劃模型所產生的模擬環境下,執行規劃程序,以預估在各電力狀態下安排未來多個時間段的交易電量的用電成本,並使用用電成本及聯盟式強化學習表更新強化學習表。其中,第
i個用戶裝置的強化學習表的學習值
的更新公式如下:
其中,
為學習率、
為折扣率,
為在電力狀態
下安排交易電量
時,從合作者裝置16獲得的聯盟式強化學習表的學習值。藉由取電力狀態
下可安排的多種交易電量
中,擁有最大學習值的交易電量
作為最佳交易電量
,並將安排此最佳交易電量
至新電力狀態
所預估的用電成本
回饋至原電力狀態
對應的交易電量
的學習值。上述的學習率
例如為數值介於0.1至0.5之間的任意數,其可決定新電力狀態
對於原電力狀態
的學習值的影響比例。上述的折扣率
例如為數值介於0.9至0.99之間的任意數,其可決定新電力狀態
相對於所回饋的用電成本
的比率。
在步驟S410中,處理器26會判斷其所預估的用電成本是否收斂至預定區間。其中,若判斷所預估的用電成本未收斂,將回到步驟S408,由處理器26繼續執行規劃程序,以更新強化學習表。
反之,若判斷所預估的用電成本已收斂,則代表強化學習表已訓練完成,而可用於實際交易。此時流程將進入步驟S412,在實際交易中,由處理器26利用更新後的強化學習表預測適於在當前電力狀態下安排的交易電量,並將此交易電量上傳至合作者裝置14以進行交易。此時,現金流、電力流與數據流都將產生。
需說明的是,在一些實施例中,在進行交易之後,處理器26例如會在所述規劃模型所產生的模擬環境下,進一步預估在當前電力狀態下安排交易電量的用電成本,並使用此用電成本及聯盟式強化學習表更新強化學習表。也就是說,處理器26將會使用實際交易的結果持續更新強化學習表,使得經由此強化學習表所預測的交易電量能夠更適用於現實環境。
相較於圖3實施例的方法,本實施例的方法在建立強化學習表時省略了全局交易資訊這個變量,使得電力狀態減少一個維度的資料,進而減少儲存強化學習表所需的記憶體空間,也減少更新強化學習表所需的運算成本,因此可有效降低硬體需求,有助於能源共享區域的發展。
綜上所述,在本發明實施例的基於強化學習的點對點能源共享方法及裝置中,針對追求最高效能與降低用戶端設備需求這兩個目的,分別提出基於模型的多智能體強化學習方法與聯盟式強化學習法。其中,由於對於強化學習表的訓練是在本地端實施,過程不需要與外界溝通,因此可減少與外部裝置通訊的次數,而改善了傳統迭代競價法的缺點。此外,藉由在更新強化學習表時,採用
-貪婪方法等方法導入不同解,因此可避免最佳解落入局部最小值,使得所預測的交易電量更適用於現實環境。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1:點對點能源共享系統
12-1~12-n:用戶裝置
14:合作者裝置
16:主電網
22:連接裝置
24:儲存裝置
26:處理器
S302~S312、S402~S412:步驟
圖1是根據本發明一實施例所繪示的點對點能源共享系統的示意圖。
圖2是根據本發明一實施例所繪示的基於強化學習的點對點能源共享裝置的方塊圖。
圖3是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。
圖4是依照本發明一實施例所繪示的基於強化學習的點對點能源共享方法的流程圖。
S302~S312:步驟
Claims (16)
- 一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量,所述方法包括下列步驟:由所述指定用戶裝置上傳依據自身的電力資訊所預測的未來時間段的交易電量至所述能源共享區域的合作者裝置,並接收由所述合作者裝置整合各所述用戶裝置上傳的交易電量所得的全局交易資訊;由所述指定用戶裝置以所述全局交易資訊、所述電力資訊以及所述能源共享區域的內部電價定義多個電力狀態,並預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表;由所述指定用戶裝置利用所述全局交易資訊建立規劃模型,並利用增量實施更新所述規劃模型;在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本,用以更新所述強化學習表,直到所預估的所述用電成本收斂至預定區間;以及由所述指定用戶裝置利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易。
- 如請求項1所述的方法,其中更新所述強化學習表的步驟包括:由所述指定用戶裝置以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解,來更新所述強化學習表。
- 如請求項1所述的方法,其中所述交易電量包括購電量或售電量,所述全局交易資訊包括所有用戶裝置的售電量總和及購電量總和。
- 如請求項1所述的方法,其中所述電力資訊包括生成電力、消耗電力及儲存電力。
- 如請求項1所述的方法,其中在利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易的步驟之後,更包括:在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在所述當前電力狀態下安排所述交易電量的用電成本,用以更新所述強化學習表。
- 一種基於強化學習的點對點能源共享方法,適於由能源共享區域內多個用戶裝置中的指定用戶裝置決定交易電量,所述方法包括下列步驟:由所述指定用戶裝置以自身的電力資訊以及所述能源共享區域的內部電價,定義多個電力狀態,並依據所述電力資訊預測未來時間段的交易電量,以及預估在各所述電力狀態下安排所述交 易電量的用電成本以建構一強化學習表;由所述指定用戶裝置上傳所述強化學習表至所述能源共享區域的合作者裝置,並接收由所述合作者裝置整合各所述用戶裝置上傳的強化學習表所得的聯盟式強化學習表;由所述指定用戶裝置利用所述全局交易資訊建立規劃模型,並利用增量實施更新所述規劃模型;在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在各所述電力狀態下安排未來多個時間段的交易電量的用電成本,並使用所述用電成本及所述聯盟式強化學習表更新所述強化學習表,直到所預估的所述用電成本收斂至預定區間;以及由所述指定用戶裝置利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易。
- 如請求項6所述的方法,其中更新所述強化學習表的步驟包括:由所述指定用戶裝置以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解,來更新所述強化學習表。
- 如請求項6所述的方法,其中所述聯盟式強化學習表為所述用戶裝置的所述強化學習表的平均。
- 如請求項6所述的方法,其中所述電力資訊包括生成電力、消耗電力及儲存電力。
- 如請求項6所述的方法,其中在利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易的步驟之後,更包括:在所述規劃模型所產生的模擬環境下,由所述指定用戶裝置預估在所述當前電力狀態下安排所述交易電量的用電成本,並使用所述用電成本及所述聯盟式強化學習表更新所述強化學習表。
- 一種基於強化學習的點對點能源共享裝置,包括:連接裝置,連接合作者裝置,所述合作者裝置用以管理能源共享區域內的多個用戶裝置及所述點對點能源共享裝置;儲存裝置,儲存電腦程式;以及處理器,耦接所述連接裝置及所述儲存裝置,經配置以載入並執行所述電腦程式以:利用自身的電力資訊、所述能源共享區域的內部電價以及自所述合作者裝置接收的全局交易資訊的至少其中之一,定義多個電力狀態,並依據所述電力資訊預測未來時間段的交易電量,以及預估在各所述電力狀態下安排所述交易電量的用電成本以建構一強化學習表,其中所述全局交易資訊是所述合作者裝置整合各所述用戶裝置上傳的交易電量所得;利用所述全局交易資訊建立規劃模型,並利用增量實施更新所述規劃模型;在所述規劃模型所產生的模擬環境下,預估在各所述電力 狀態下安排未來多個時間段的交易電量的用電成本,並使用所述用電成本及聯盟式強化學習表的至少其中之一更新所述強化學習表,直到所預估的所述用電成本收斂至預定區間,其中所述聯盟式強化學習表是所述合作者裝置整合各所述用戶裝置上傳的強化學習表所得;以及利用所述強化學習表預測適於在當前電力狀態下安排的交易電量,並上傳所述交易電量至所述合作者裝置以進行交易。
- 如請求項11所述的點對點能源共享裝置,其中所述處理器包括以特定機率選取所述交易電量的最佳解並以剩下的機率隨機選取所述交易電量的其他解,來更新所述強化學習表。
- 如請求項11所述的點對點能源共享裝置,其中所述交易電量包括購電量或售電量,所述全局交易資訊包括所有用戶裝置的售電量總和及購電量總和。
- 如請求項11所述的點對點能源共享裝置,其中所述聯盟式強化學習表為所述用戶裝置的所述強化學習表的平均。
- 如請求項11所述的點對點能源共享裝置,其中所述電力資訊包括生成電力、消耗電力及儲存電力。
- 如請求項11所述的點對點能源共享裝置,其中所述處理器更在所述規劃模型所產生的模擬環境下,預估在所述當前電力狀態下安排所述交易電量的用電成本,並使用所述用電成本及所述聯盟式強化學習表的至少其中之一更新所述強化學習表。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109136558A TWI763087B (zh) | 2020-10-21 | 2020-10-21 | 基於強化學習的點對點能源共享方法及裝置 |
US17/123,156 US20220122174A1 (en) | 2020-10-21 | 2020-12-16 | Method and apparatus for peer-to-peer energy sharing based on reinforcement learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109136558A TWI763087B (zh) | 2020-10-21 | 2020-10-21 | 基於強化學習的點對點能源共享方法及裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI763087B true TWI763087B (zh) | 2022-05-01 |
TW202217729A TW202217729A (zh) | 2022-05-01 |
Family
ID=81185493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109136558A TWI763087B (zh) | 2020-10-21 | 2020-10-21 | 基於強化學習的點對點能源共享方法及裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220122174A1 (zh) |
TW (1) | TWI763087B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062871B (zh) * | 2022-08-11 | 2022-11-29 | 山西虚拟现实产业技术研究院有限公司 | 基于多智能体强化学习的智能电表状态评估方法 |
CN116128543B (zh) * | 2022-12-16 | 2024-05-24 | 国网山东省电力公司营销服务中心(计量中心) | 一种售电公司负荷申报与出清的综合模拟运行方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201702966A (zh) * | 2015-07-13 | 2017-01-16 | 行政院原子能委員會核能研究所 | 具多代理人功能之智慧電網監控裝置及其電力調度交易系統 |
CN106651214A (zh) * | 2017-01-04 | 2017-05-10 | 厦门大学 | 基于强化学习的微电网电能分配方法 |
CN107067190A (zh) * | 2017-05-18 | 2017-08-18 | 厦门大学 | 基于深度强化学习的微电网电能交易方法 |
US20180025423A1 (en) * | 2015-01-15 | 2018-01-25 | Hitachi, Ltd. | Power transaction management system and power transaction management method |
CN107644370A (zh) * | 2017-09-29 | 2018-01-30 | 中国电力科学研究院 | 一种自增强学习的撮合竞价方法及系统 |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
US20190087920A1 (en) * | 2017-09-20 | 2019-03-21 | HEPU Technology Development (Beijing) Co. LTD. | Power trading system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020107773A1 (en) * | 2000-03-24 | 2002-08-08 | Abdou Hamed M | Method and apparatus for providing an electronic commerce environment for leveraging orders from a plurality of customers |
US8688506B2 (en) * | 2007-08-31 | 2014-04-01 | Hudson Energy Services Llc | Determining tailored pricing for retail energy market |
US20150278968A1 (en) * | 2009-10-23 | 2015-10-01 | Viridity Energy, Inc. | Facilitating revenue generation from data shifting by data centers |
WO2013042213A1 (ja) * | 2011-09-20 | 2013-03-28 | 富士通株式会社 | 計算機、計算機システム、および探索プログラム |
US20140351014A1 (en) * | 2013-05-22 | 2014-11-27 | Eqs, Inc. | Property valuation including energy usage |
JP2019082935A (ja) * | 2017-10-31 | 2019-05-30 | 株式会社日立製作所 | 管理装置および管理方法 |
-
2020
- 2020-10-21 TW TW109136558A patent/TWI763087B/zh active
- 2020-12-16 US US17/123,156 patent/US20220122174A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180025423A1 (en) * | 2015-01-15 | 2018-01-25 | Hitachi, Ltd. | Power transaction management system and power transaction management method |
TW201702966A (zh) * | 2015-07-13 | 2017-01-16 | 行政院原子能委員會核能研究所 | 具多代理人功能之智慧電網監控裝置及其電力調度交易系統 |
CN106651214A (zh) * | 2017-01-04 | 2017-05-10 | 厦门大学 | 基于强化学习的微电网电能分配方法 |
CN107067190A (zh) * | 2017-05-18 | 2017-08-18 | 厦门大学 | 基于深度强化学习的微电网电能交易方法 |
US20190087920A1 (en) * | 2017-09-20 | 2019-03-21 | HEPU Technology Development (Beijing) Co. LTD. | Power trading system |
CN107644370A (zh) * | 2017-09-29 | 2018-01-30 | 中国电力科学研究院 | 一种自增强学习的撮合竞价方法及系统 |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TW202217729A (zh) | 2022-05-01 |
US20220122174A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Distributed online optimal energy management for smart grids | |
Chai et al. | Demand response management with multiple utility companies: A two-level game approach | |
Chen et al. | Optimal demand response: Problem formulation and deterministic case | |
TWI763087B (zh) | 基於強化學習的點對點能源共享方法及裝置 | |
CN109286187B (zh) | 一种面向多主体利益均衡的微网日前经济调度方法 | |
Singh et al. | Decentralized control via dynamic stochastic prices: The independent system operator problem | |
CN111679573B (zh) | 一种居民家庭用能优化方法及装置 | |
Liang et al. | Distributed demand-side energy management scheme in residential smart grids: An ordinal state-based potential game approach | |
TWI767525B (zh) | 基於強化學習的再生能源配置方法及裝置 | |
CN111934315A (zh) | 考虑需求侧的源网荷储协同优化运行方法及终端设备 | |
Balakumar et al. | Real time implementation of Demand Side Management scheme for IoT enabled PV integrated smart residential building | |
CN112202205A (zh) | 一种多能源三级自律协同控制方法及装置 | |
Tsaousoglou et al. | Multistage energy management of coordinated smart buildings: A multiagent Markov decision process approach | |
Liu et al. | Dynamic energy scheduling for end-users with storage devices in smart grid | |
He et al. | Management and real-time monitoring of interconnected energy hubs using digital twin: Machine learning based approach | |
CN113723793A (zh) | 园区综合能源系统的实现方法、装置、设备和介质 | |
Zhang et al. | ReLeDP: Reinforcement-learning-assisted dynamic pricing for wireless smart grid | |
CN117314684A (zh) | 一种基于绿色能源的分布式算网智能调度系统 | |
Zhou et al. | Learning-based green workload placement for energy internet in smart cities | |
Luan et al. | Cooperative power consumption in the smart grid based on coalition formation game | |
Zhou et al. | Joint Energy and Carbon Trading for Multi-Microgrid System Based on Multi-Agent Deep Reinforcement Learning | |
JP2013246455A (ja) | エネルギー管理システム、サーバ装置、エネルギー管理方法およびプログラム | |
Hall et al. | A system of agents for supporting optimization and control of a connected community | |
Verschae et al. | A distributed coordination framework for on-line scheduling and power demand balancing of households communities | |
CN107559947B (zh) | 一种燃气壁挂炉控制系统及方法 |