TWI847733B

TWI847733B - 利用深度q網路優化電力系統發電機組調度的方法及系統

Info

Publication number: TWI847733B
Application number: TW112119999A
Authority: TW
Inventors: 廖國清; 廖柏同
Original assignee: 龍華科技大學
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2024-07-01

Abstract

本發明提供了一種利用深度Q網路優化電力系統發電機組調度的方法。該方法將電力系統表示為包含多個發電機組、至少一可再生能源機組以及負載需求曲線的模型，並使用馬爾可夫決策過程來建模發電機組的調度問題。通過訓練深度Q網路來學習Q函數，將每個狀態-動作對映射到預期獎勵。使用經過訓練的深度Q網路來確定發電機組的最優調度策略，包括多個目標，如最小化總發電成本和最小化碳排放。本發明還包括對發電機組調度問題中各種約束的處理機制，以及在深度Q網路訓練中實現收斂檢測等功能。本發明還提供了一個包括訓練的深度Q網路的電力系統發電機組調度優化系統。該深度Q網路使用卷積神經網絡結構進行訓練，以提取狀態特徵並估算Q函數值。

Description

利用深度Q網路優化電力系統發電機組調度的方法及系統

本發明是指一種用於機組排程的方法與系統，特別是一種利用深度Q網路優化電力系統發電機組調度的方法及系統。

機組排程(Unit Commitment,UC)是電力系統運行中的關鍵決策問題。它主要用於確定在給定的時間間隔內，各個發電機組應當以何種運行模式和輸出功率來滿足預測的負載需求。機組排程之目的是在考慮所有系統約束的情況下，最小化整體發電成本。這涉及到再生能源發電機組(如風力發電)和傳統發電機組(如火力發電)的調度。

機組排程需要考慮各種因素，比如：發電機組的物理容量、最小停機時間、爬坡速率限制、系統約束等。機組排程特別適用於再生能源發電機組和傳統發電機組的調度。再生能源發電機組(如風力發電)的特點是其輸出受到氣象條件的影響，因此其輸出具有不確定性和波動性。傳統發電機組(如火力發電)則具有相對穩定的輸出和成本特性。在機組排程的問題中，需要綜合考慮各種發電機組的特點，並在保證系統穩定和可靠的前提下，有效地安排其運行時刻和輸出功率。這有助於降低整體發電成本，減少對環境的影響，同時確保電力供應的穩定性。

目前，最佳化機組排程的方法眾多，從傳統的數學規劃方法到現代的採用人工智慧的技術優化算法。然而，在目前最佳化機組排程的眾多方法中，發明人認為皆無法充分考慮了風電功率的不穩定性。因此，在機組排程時如何充分考慮風力發電之輸出功率的不穩定性，便是本領域具通常知識者值得去思量的。

本發明的其中一目的在於在機組排程時如何充分考慮再生能源(例如：風力發電)輸出功率的不穩定性。

基於上述目的與其他目的，本發明提供一種利用深度Q網路優化電力系統內發電機組調度的方法。首先，用多個發電機組與在一預定時間範圍的一負載需求曲線來表示一電力系統，其中包括至少一可再生能源機組，該預定時間範圍被分為多個時段。然後，將發電機組調度問題建模為一馬爾可夫決策過程，該馬爾可夫決策過程包括狀態、動作、和獎勵。接著，訓練一深度Q網路以學習Q函數，通過基於觀察到的狀態、動作、獎勵和下一個狀態的轉換來迭代更新Q函數，將每個狀態-動作對映射到預期獎勵。最後，使用經過訓練的深度Q網路，通過在每個狀態中選擇使Q函數最大化的動作來確定發電機組的最優調度策略。

在一些實施例中，深度Q網路包括一卷積神經網絡結構，利用至少一卷積層從輸入狀態中提取特徵，然後使用至少一全連接層來估算每個狀態-動作對的Q函數值。此外，在步驟(d)之後更包括一步驟(e)，該步驟(e)包括：將最優調度策略應用於電力系統中的發電機組。本發明還提供了一種發電機組調度優化系統，該系統包括經過訓練的深度Q網路。

基於上述目的與其他目的，本發明提供一種發電機組調度優化系統，該系統包括經過訓練的深度Q網路。

藉由本創作，可充分考慮了再生能源輸出功率的不穩定性，從而更優化發電機組調度。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下。

S110~S150:流程圖符號

100:發電機組調度優化系統

110:深度Q網路

112:卷積神經網絡

112a:卷積層

112b:池化層

112c:全連接層

120:經驗回放池

130:目標網路

圖1所繪示為本發明之利用深度Q網路優化電力系統內發電機組調度的方法的實施例。

圖2所繪示為本發明之深度Q網路的實施例。

圖3所繪示為本發明之深度Q網路的另一實施例。

圖4所繪示為每小時的負載量。

圖5所繪示為每小時的風電功率預測輸出值。

圖6所繪示為20部火力發電機組相關參數。

圖7所繪示為火力發電機組每個時段的汙染物排放量(以考量最低排程成本為模型)。

圖8所繪示為火力發電機組每個時段的汙染物排放量(以考量最低碳排放量為模型)。

圖9所繪示為火力發電機組每個時段的汙染物排放量(以同時考量排程成本與低碳排放量為模型)。

圖10所繪示為最佳化後的含風電功率之機組排程成本收斂曲線圖(考考量最低排程成本)。

圖11所繪示為最佳化後的含風電功率之機組排程成本收斂曲線圖(考量最低碳排放量)。

圖12所繪示為最佳化後的含風電功率之機組排程成本收斂曲線圖(同時考量排程成本與碳排放)。

圖13之表七中所示為加入備轉成本前後之發電總成本。

圖14之表八中所示為使用各種不同之方法(DP,BA,GA,PSO,GWA,NDQCNN(本特定實施例))所得之機組排程總排程成本及運算時間長短之比較表。

圖15所繪示為一種發電機組調度優化系統。

參照本文闡述的詳細內容和附圖說明能較佳理解本發明。下面參照附圖會討論各種實施例。然而，本領域技術人員將容易理解，這裡關於附圖給出的詳細描述僅僅是為了解釋的目的，因為這些方法和系統可超出所描述的實施例。例如，所給出的教導和特定應用的需求可能產生多種可選的和合適的方法來實現在此描述的任何細節的功能。因此，任何方法可延伸超出所描述和示出的以下實施例中的特定實施選擇範圍。

請參閱圖1，圖1所繪示為本發明之利用深度Q網路優化電力系統內發電機組調度的方法的實施例。首先，如步驟S110所示，用多個發電機組(以下或簡稱「機組」)與在一預定時間範圍的一負載需求曲線來表示一電力系統。其中，所述發電機組包括至少一可再生能源機組，而該預定時間範圍被分為多個時段。詳細來說，本實施例所指的電力系統除了包括提供某一區域用電的多個發電機組，還包括這個區域在一預定時間範圍的用電需求，而這用電需求便可表示為負載需求曲線。而且，這個預定時間範圍被分為多個時段。舉例來說，預定的時間範圍可以是24小時，並且時段可以是每小時。這意味著負載需求會按照每小時劃分，形成一個24個時段的負載需求分布。這種劃分方式有助於之後進行發電機組調度優化時對每個時段進行詳細分析，從而優化發電機組的調度策略。當然，根據實際情況和需求，時間範圍和時段的劃分也可以有其他選擇，例如，將時間範圍設為一周，並將時間段設為每半小時等。

接著，執行步驟S120，將發電機組調度問題建模為一馬爾可夫決策過程(Markov decision process，簡稱MDP)，在此「建模」是指建立數學模型。其中，馬爾可夫決策過程包括狀態、動作、和獎勵，其中該狀態包含每個時段內發電機組的多個運行參數、一可再生能源的輸出和一負載需求，而該動作對應於發電機組的調度決策。詳細來說，在強化學習問題中智能體需要在一個未知的環境中學會如何做出決策以最大化累積獎勵，而馬爾可夫決策過程是強化學習中的一個核心概念。在本實施例中，智能體是負責決定發電機組排程的算法。馬爾可夫決策過程是一種用來描述這種決策過程的數學模型，其基本元素包括狀態(state)、動作(action)、狀態轉移機率(state transition probabilities)和獎勵(reward)。在此，發電機組的運行參數包括但不限於以下幾項：

1.最大和最小產能：機組在運行時可以提供的最大和最小功率輸出。

2.啟動和關機成本：機組啟動和關機時所需的成本。

3.燃料成本：機組每單位電能所消耗的燃料成本。

4.爬坡速率限制：機組功率輸出在連續時間段內允許的最大增加或減少速率。

5.最小運行時間和最小停機時間：機組必須連續運行或停機一段時間後才能關閉或啟動。

6.效率：機組將燃料能量轉換為電能的效率。

7.碳排放因子：機組每單位電能產生的碳排放量。

接著，執行步驟S130，訓練一深度Q網路110(如圖2所示)以學習Q函數。在本實施例中，是通過基於觀察到的狀態、動作、獎勵和下一個狀態的轉換來迭代更新Q函數，將每個狀態-動作對(state-action pairs)映射(mapping)到預期獎勵。在此，Q函數是一個用於評估在某一狀態下採取某一動作的期望獎勵的函數。在訓練過程中，深度Q網路110會通過觀察狀態、動作、獎勵和下一個狀態之間的轉換來迭代更新Q函數。這些轉換通常是從與環境互動中獲得的經驗樣本。根據這些樣本，深度Q網路會嘗試學習預測在某一狀態下採取某一動作所能獲得的期望獎勵。迭代更新Q函數則是指：在訓練過程中，深度Q網路會不斷修正Q函數的參數，以使其更好地反映狀態和動作之間的關係。在本實施例，可以使用一種稱為Temporal Difference(TD)學習的方法來實現Q函數的更新，TD學習會基於預測的Q值和實際觀察到的獎勵之間的差異來更新Q函數。

以下，將對深度Q網路做更深入的介紹，請一併參照圖2，圖2所繪示為本發明之深度Q網路的實施例。深度Q網路110優化發電機排程的訓練過程，涉及多個元件和技巧，包括經驗回放和目標網絡凍結。訓練深度Q網路110的主要目標是學習一個最佳的Q函數，以指導在每個狀態下選擇動作以最大化累積獎勵。開始訓練過程時，會建立一個初始的深度Q網路110，並給它隨機的權重。當它處理狀態-動作對並學習將它們映射到預期獎勵時，該網絡會逐步更新。在整個訓練過程中，智能體與環境進行交互，而在這種情況下，環境例如是發電機排程問題。

在每次交互中，智能體觀察當前狀態(包括發電機操作參數、可再生能源輸出和每個時間段的負載需求)，並根據當前深度Q網路110選擇一個動作。動作選擇過程在本實施例中採用epsilon-貪心探索策略(epsilon-greedy exploration strategy)，其中智能體以epsilon的機率選擇隨機動作，以1-epsilon的機率選擇具有最高Q值的動作。此策略使智能體可以平衡探索(嘗試新動作)和利用(選擇最佳已知動作)。

在採取所選動作後，智能體會獲得獎勵並轉換到下一個狀態。獎勵基於一個或多個目標，例如最小化總發電成本、最小化碳排放、最小化綜合成本(同時考慮總發電成本和碳排放)或最大化系統可靠性。狀態、動作、獎勵和下一個狀態被存儲為一個經驗元組(experience tuple)在一個經驗回放池120(experience replay buffer)中。

經驗回放池120是訓練過程中至關重要的組成部分，它存儲了智能體可以從訓練過程中抽樣的經驗歷史。該技術打破了連續經驗之間的相關性，並穩定了學習過程。定期地從重播緩衝區中抽取一批經驗元組，並使用這些抽樣的經驗來更新深度Q網路110。深度Q網路110的更新涉及基於接收到的獎勵和下一個狀態的最大Q值計算抽樣狀態動作對的目標Q值。此計算使用一個單獨的目標網路130執行，目標網路130是深度Q網路110的副本，但凍結了其權重，這意味著其權重在訓練過程中更新頻率比深度Q網路110低很多，通常每幾百或幾千次訓練步驟更新一次，以提供穩定的學習目標。

然後，通過最小化其預測的Q值和目標Q值之間的均方誤差(Mean Squared Error)來更新深度Q網路110。這個過程是反覆運算的，智能體會收集新的經驗，更新經驗回放池120，並根據抽樣的經驗來完善深度Q網路110。訓練在滿足一個或多個停止條件時終止，停止條件例如最大訓練反覆運算次數、目標性能水準或收斂檢測。一旦深度Q網路110訓練完畢，它可以被用來確定一個最優的發電機組調度策略，即在每個狀態下選擇最大化Q函數的行動。

總之，深度Q網路110用於電力發電機組調度的訓練過程涉及經驗回放、目標網路凍結和反覆運算更新等技術，以學習一個最優的Q函數。學習到的Q函數指導智能體在每個狀態下選擇最大化累積獎勵的行動，從而得出優化的發電機組調度調度策略。

再來，執行步驟S140，使用經過訓練的深度Q網路110，通過在每個狀態中選擇使Q函數最大化的動作來確定發電機組的最優調度策略。在此步驟中，訓練好的深度Q網路110被用來確定發電機組排程的最優策略。所謂的最優策略是指在給定的狀態下，選擇能使預期獎勵最大化的動作。根據已經學習到的Q函數，深度Q網路110可以對於當前狀態下的每一個可能的動作(即機組排程方案)給出相應的預期獎勵值。最優策略就是根據這些預期獎勵值來選擇最佳的動作。換句話說，最優策略就是能在給定狀態下達到目標(如降低成本、降低碳排放等)的最佳發電機組排程方案。

在實際應用中，使用訓練好的深度Q網路110來確定最優策略時，會根據實際電力系統的運行狀態(如負載需求、機組運行參數等)以及可能的機組排程方案，利用已學習到的Q函數來評估每個方案的預期獎勵，並選擇預期獎勵最大的方案作為最優策略。這樣，深度Q網路110可以幫助我們找到在特定情況下最適合的機組排程方案，以實現目標(如降低成本、降低碳排放等)。這樣一來，便可執行步驟S150，將深度Q網路110所得出的最優調度策略應用於電力系統中的發電機組。須注意的是，在本實施例中，風力發電機組的輸出預測是在整個方法的開始階段前就完成了，通常使用氣象模型或機器學習方法來預測。在實施機組調度優化時，深度Q網路110會使用這些預測的風力發電輸出作為狀態的一部分。

在另外一實施例中，如圖3所示，深度Q網路110包括一卷積神經網絡112(Convolutional Neural Network,CNN)，以優化發電機組的排程。卷積神經網絡112非常適合處理類似於影像、時間序列或任何具有空間或時間結構的網格資料。在發電機組排程的情況下，輸入狀態可以按照一定的格式安排，以捕捉不同發電機組、可再生能源和各個時段的負載需求之間的關係。一般的卷積神經網絡112包括多個層，而這些層包括卷積層112a、池化層112b和全連接層112c。卷積層112a負責特徵提取，其中一組卷積核(未繪示)應用於輸入數據，以識別相關的模式或特徵。池化層112b，如最大池化或平均池化，有助於降低數據的空間維度，從而降低計算複雜度，並提高模型捕捉層次特徵的能力。另外，全連接層112c則用於近似每個狀態-動作對的Q函數值。

在用於優化發電機組調度的深度Q網路110中使用卷積神經網絡112具有以下幾個優點：

1.自動特徵提取：卷積神經網絡112可以自動從輸入數據中學習相關特徵，無需進行手動特徵工程。這種能力使模型能夠識別發電機組、可再生能源和負載需求之間的關鍵模式或關係，最終導致更有效的調度決策。

2.對變化的響應能力：卷積神經網絡112以其對輸入數據變化的響應能力而聞名。在發電機組調度的情況下，這種響應能力在處理可再生能源(例如風能)和負載需求波動或不確定性時可以帶來好處。此外，卷積神經網絡112可以適應這些變化並仍然做出有效的調度決策。

3.可擴展性：由於卷積層中使用了共享權重，卷積神經網絡112具有固有的可擴展性。此特性允許模型處理具有多個發電機組和可再生能源，以及不同負載需求特徵的更大和更複雜的電力系統。

4.高效計算：卷積神經網絡112的分層結構實現了高效計算，因為低級別特徵可以重複使用以構建高級別特徵。這種效率在發電機組調度中尤其有益，因為實時或接近實時的決策可能是必要的。

5.轉移學習：卷積神經網絡112可以利用預訓練模型和轉移學習技術來改善訓練過程。在發電機組調度的情況下，可以使用預先訓練的卷積神經網絡112使用針對目標電力系統的較小數據集進行微調，從而減少訓練時間和計算資源。

總之，將卷積神經網絡112納入深度Q網路110進行發電機組排程，能帶來多重優勢，包括自動特徵提取、對變化的穩健性、可擴展性、有效率的計算以及轉移學習。這些好處能夠帶來更有效率的排程決策，進而改善整個電力系統的績效。

以下，將使用一個更具體的實施例(以下稱為特定實施例)來更凸顯本發明的優點。然而，需要注意的是特定實施例僅用於說明，並不能限制本發明所保護的範圍。

在特定實施例中，以20部機系統為例分析計算，時間週期取一天，分成24個時段，每小時之負載值見圖4的表一所示，風電功率功率預測每小時輸出功率見圖5的表二所示，包括20部火力發電機組和一個風電場，其中20部火力發電機組相關參數見圖6的表三所示。

在本文中乃以20部機組之火力發電機及一天24小時作為排程之求解，所得之結果並和傳統之方法作一實際比較。而在計算火力發電機組每個時段的碳排放量時，共分為三種模型：1).以考量機組排程之最低排程成本為模型時，如圖7表四所示；2).以考量機組排程之最低碳排放量為模型時，如圖8之表五所示；3).以同時考量機組排程之排程成本與低碳排放量為模型時，如圖9之表六所示。在本文中對含風電功率的電力系統機組排程數學模型進行最佳化計算，得到最佳化後的含風電功率之機組排程成本收斂曲線圖分別如圖10~圖12所示，在這三個圖中，其疊代次數均採用200次。由三個圖中所示結果可知，圖10是以考量最低排程成本為主時，所得之排程成本也最低(U.S.$ 1,928,158)，在圖11中所示，是以考量最低碳排放為主時，則所得之排程成本為最高(U.S.$1,937,262)，當以同時考量排程成本與碳排放時，則排程成本為中間值之(U.S.$ 1,931,176)，如圖12所示。

在此，將介紹在此特定實施例中，在同時考量機組排程之排程成本與低碳排放量的情況下，綜合成本(對應到圖9之表六)如何計算出。相應問題的目標是將總成本最小化，這些成本包括：火力機組的生產成本M _C、碳排放成本B _C及風電的棄風成本F _WC。因此，目標函數可以表示為：min F=φ _m×(M _c+B _c)+φ _w×F _wc (1)在此

在上列三個式子中，i=1,2,3,...N是火力發電機組的序列號，φ _m和φ _w分別是發電機組成本和棄風成本的權重係數，α _i β _i γ _i a _i b _i c _i分別是火力發電機組的二次生產成本函數和碳排放係數，C _i,t是週期t中火力發電機組的啟動成本，μ _wc是棄風的懲罰成本係數，λ _t是碳排放的懲罰係數。變數u _i,t表示週期t中火力發電機組i的排程狀態，P _i,t和P _wc,,t分為火力發電機組的輸出功率及風電之棄風電量，兩個量均為連續變數。

另外，如果同時加入備轉成本前後之發電總成本有下列三種：1).在以考量最低排程成本為主的模型中，加入後比加入前之成本貴約U.S.$ 38,034，2).在以考量最低碳排放量為主的模型中，加入後比加入前之成本貴約U.S.$ 50,015，3).在以綜合考量上述兩種因素的模型中，則加入後比加入前之成本貴約U.S.$ 49,669元，如圖13之表七中所示。

圖14之表八中所示為使用各種不同之方法(DP,BA,GA,PSO,GWA,NDQCNN(本特定實施例))所得之機組排程總排程成本及運算時間長短之比較表，由表中數據可知在本本特定實施例中所使用之方法可以得到最低之機組排程總排程成本(U.S.$ 1,931,176)及最小之CPU運算時間(18.2s)，各種不同方法法之間的比較如下：1).在排程成本上：在有增加風電功率時，如以純考慮經濟因素條件下，其機組排程總排程成本平均可以比DP方法(U.S.$ 1,967,302)省1.87%、可以比BA法(U.S.$ 1,956,007)省1.29%、可以比GA法(U.S.$ 1,945,335)省0.99%、可以比PSO法(U.S.$ 1,937,637)省0.85%、可以比GWA法(U.S.$ 1,935,258)省.047%；2).在CPU的運算時間上：其平均執行時間(以表七中以考量最低排程成本為主之條件為計算之基準)可以比DP法(61.6s)省167%、可以比BA法(55.4s)省140%、可以比GA法(50.1s)省117%、可以比PSO法(42.2s)省83%、可以比GWA法(35.6s)省54%。由實際之計算結果可得到，本特定實施例所提解決含風電功率低碳排機組排程之方法，是一個既可達到節能且執行效率非常高的方法。

請參照圖15，圖15所繪示為一種發電機組調度優化系統。此發電機組調度優化系統100包括上述之已訓練完成的深度Q網路110外，還包括一輸入模組102與一數據預處理模組104。輸入模組102用以供使用者輸入相關數據，而數據預處理模組104則是用於預處理輸入數據，以確保數據格式正確並可供深度Q網路110使用。此發電機組調度優化系統100可有效優化發電機組調度，從而提高電力系統的性能和效率。此外，此發電機組調度優化系統100還可以進一步包括圖2所提到的其他元件，如：經驗回放池120和目標網路130。這樣一來，發電機組調度優化系統100便可根據情況對深度Q網路110重新訓練。另外，在本實施例中，深度Q網路110也可包括如圖3的卷積神經網絡112，以優化發電機組的排程。

本發明說明如上，然其並非用以限定本創作所主張之專利權利範圍。其專利保護範圍當視後附之申請專利範圍及其等同領域而定。凡本領域具有通常知識者，在不脫離本專利精神或範圍內，所作之更動或潤飾，均屬於本創作所揭示精神下所完成之等效改變或設計，且應包含在下述之申請專利範圍內。

S110~S150:流程圖符號

Claims

一種利用深度Q網路優化電力系統內發電機組調度的方法，該方法包括：A10：用多個發電機組與在一預定時間範圍的一負載需求曲線來表示一電力系統，所述發電機組包括至少一可再生能源機組，而該預定時間範圍被分為多個時段；A20：將發電機組調度問題建模為一馬爾可夫決策過程，該馬爾可夫決策過程包括狀態、動作、和獎勵，其中該狀態包含每個時段內發電機組的多個運行參數、一可再生能源的輸出和一負載需求，而該動作對應於發電機組的調度決策；A30：訓練一深度Q網路以學習Q函數，通過基於觀察到的狀態、動作、獎勵和下一個狀態的轉換來迭代更新Q函數，將每個狀態-動作對映射到預期獎勵；及A40：使用經過訓練的深度Q網路，通過在每個狀態中選擇使Q函數最大化的動作來確定發電機組的最優調度策略。
如請求項1所述的用深度Q網路優化電力系統內發電機組調度的方法，其中該深度Q網路包括一卷積神經網絡。
如請求項1或請求項2所述的用深度Q網路優化電力系統內發電機組調度的方法，在步驟(d)之後更包括一步驟(e)，該步驟(e)包括：將最優調度策略應用於電力系統中的發電機組。
如請求項1或請求項2所述的用深度Q網路優化電力系統內發電機組調度的方法，其中馬可夫決策過程中的獎勵基於多個目標，所述目標包括最小化總發電成本和最小化碳排放。
如請求項1或請求項2所述的用深度Q網路優化電力系統內發電機組調度的方法，其中可再生能源機組為一風力發電機組。
如請求項1或請求項2所述的用深度Q網路優化電力系統內發電機組調度的方法，進一步包括處理發電機組調度問題中各種約束的機制，包括爬坡速率限制、最小上行和下行時間、發電機組發電量之上下限、風電棄風、以及旋轉備用要求。
如請求項1或請求項2所述的用深度Q網路優化電力系統內發電機組調度的方法，其中在步驟(c)中，當滿足一個或多個停止條件時終止深度Q網路訓練，該停止條件包括最大訓練迭代次數、目標性能水平或收斂檢測。
一種發電機組調度優化系統，包括如請求項1所述之經過訓練的一深度Q網路。
如請求項8所述的發電機組調度優化系統，其中該深度Q網路包括一卷積神經網絡結構。