WO2018145498A1

WO2018145498A1 - 基于强化学习算法的双馈感应风力发电机自校正控制方法

Info

Publication number: WO2018145498A1
Application number: PCT/CN2017/110899
Authority: WO
Inventors: 余涛; 程乐峰; 李靖; 王克英
Original assignee: 华南理工大学
Priority date: 2017-02-10
Filing date: 2017-11-14
Publication date: 2018-08-16
Also published as: CN106877766A

Abstract

一种基于强化学习算法的双馈感应风力发电机自校正控制方法；该方法在基于PI控制的矢量控制系统中的PI控制器上增加RL控制器，动态校正PI控制器的输出，RL控制器包括RL‐P控制器和RL‐Q控制器，RL‐P控制器和RL‐Q控制器分别对有功和无功功率控制信号校正。该方法引入Q学习算法作为强化学习核心算法，强化学习控制算法对被控对象的数学模型和运行状态不敏感，其学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性，可快速自动地在线优化PI控制器的输出；该方法具有良好的动态性能，显著增强了控制系统的鲁棒性和适应性。

Description

基于强化学习算法的双馈感应风力发电机自校正控制方法

技术领域

本发明涉及一种双馈感应风力发电机自校正控制，特别是涉及一种基于强化学习(Reinforcement Learning，RL)算法的双馈感应风力发电机自校正控制方法。

背景技术

变速恒频双馈发电是目前风力发电普遍采用的一种发电方式，其发电机采用双馈感应电机(double-fed induction generator，DFIG)。当机组工作在额定风速以下时，通过调节发电机转子转速，保持最佳叶尖速比，实现对风能的最大捕获。其控制系统常采用基于定子磁场定向的矢量控制，实现发电机有功、无功功率的解耦控制。

由于风能具有强烈的随机性、时变性，且系统含有未建模或无法准确建模的动态部分，使双馈发电系统成为一个多变量、非线性、强耦合系统，因此仅采用传统矢量控制难以满足控制系统对高适应性和高鲁棒性的要求。目前有采用各种不同的控制方案，但控制效果都不是非常理想，如采用神经网络控制方案，该控制方案改善了控制性能，但稳态误差较大。而采用模糊滑模控制策略，将模糊控制和滑模控制相结合，虽取得了良好的控制效果，但实现较复杂。

发明内容

本发明目的在于克服现有技术的问题，提供一种能够快速自动地优化风机控制系统的输出，不仅实现了对风能的最大追踪，而且具有良好的动态性能，显著增强了控制系统的鲁棒性和适应性的基于强化学习算法的双馈感应风力发电机自校正控制方法。

本发明目的通过如下技术方案实现：

基于强化学习算法的双馈感应风力发电机自校正控制方法：在基于PI控制的矢量控制系统中的PI控制器上增加RL控制器，动态校正PI控制器的输出，RL控制器包括RL-P控制器和RL-Q控制器，RL-P控制器和RL-Q控制器分别对有功和无功功率控制信号校正；该自校正控制方法包括如下步骤：

S1：RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ；RL-P控制器和RL-Q控制器分别判断功率误差值ΔP和ΔQ所属区间s_k；

S2：对于所识别的区间s_k，RL-P控制器或RL-Q控制器根据该s_k所对应的动作概率分布

用随机函数输出动作α_k，得RL-P控制器或RL-Q控制器输出的校正信号；动作α相应的被选择的概率的集合构成概率分布，每个区间s有其对应的概率分布P_s(a)；

对于RL-P控制器，动作值α_k与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值i_qs ^*，即有功功率的控制信号；

对于RL-Q控制器，动作值α_k与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值i_ds ^*，即无功功率的控制信号；

S3：RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ并判断其所属区间s_k+1；

S4：RL控制器由奖励函数获得立即奖励值r_k；奖励函数设计为：

式中

值是动作集A的指针，即第k次动作值α在动作集A中的序号，μ₁和μ₂为平衡前后各平方项的权重值，其数值均为通过大量仿真实验调试所得；

S5：基于Q值迭代公式更新Q矩阵；Q函数为一种期望折扣奖励值，Q学习的目的是估计最优控制策略的Q值，设Q^k为最优值函数Q^*的第k次迭代值，Q值迭代公式设计为：

式中α、γ为折扣因子，其数值均为通过大量仿真实验调试所得；

S6：根据动作选择策略更新公式更新动作概率分布；利用一种追踪算法设计动作选择策略，策略基于概率分布，初始化时，赋予各状态下每个可行动作相等的被选概率，随着迭代的进行，概率随Q值表格的变化而变化；RL控制器找出状态s_k下具有最高Q值的动作a_g，a_g称为贪婪动作；动作概率分布的迭代公式为：

和

分别为第k次迭代时s_k状态和非s_k状态下选择动作a的概率；β为动作搜索速度，其数值通过大量仿真实验调试所得；

S7：令k＝k+1，并返回步骤S2；根据动作概率分布选择并输出动作α_k+1，被选择的动作与PI控制器的输出信号相叠加产生相应的定子电流给定值信号，即功率控制信号，并按顺序依次执行接下来的步骤不断循环，在经过多次的迭代后，每个状态s存在Q_s ^k以概率1收敛于Q_s ^*，即获得一个以Q_s ^*表示的最优控制策略以及该最优控制策略所对应的贪婪动作a_g，至此完成自校正过程，此时每个状态s下RL控制器输出值a_g与PI控制器的输出信号叠加即可自动优化PI控制器的控制性能，使功率误差值误差值小。

本发明提出一种自校正控制架构，即基于PI控制的矢量控制系统中的PI控制器上附加一个RL控制器，来动态校正PI控制器的输出，其中RL-P和RL-Q控制器分别对有功和无功功率控制信号校正。

相对于现有技术，本发明具有如下优点：

1)本发明提出一种基于强化学习算法的双馈感应风力发电机自校正控制方法，该方法引入强化学习控制算法，对被控对象的数学模型和运行状态不敏感，其自学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性。该方法通过Matlab/Simulink仿真平台进行仿真，仿真结果表明该自校正控制器能够快速自动地优化风机控制系统的输出，不仅实现了对风能的最大追踪，而且具有良好的动态性能，显著增强了控制系统的鲁棒性和适应性。

2)本发明控制策略无需改变原PI控制器的结构和参数，只需增加一个自校正模块，工程实现十分简便。同时，由于RL控制器的控制信号为离散动作值，易导致超调，后续研究中可考虑结合模糊控制对输入输出信号模糊化。

附图说明

图1为本发明强化学习系统原理图；

图2为本发明双馈风力发电系统自校正控制框图；

图3为基于强化学习算法的双馈感应风力发电机自校正学习流程图；

图4为实施例中无功功率调节的无功功率响应曲线；

图5为实施例中无功功率调节的RL-Q控制器控制信号；

图6为实施例中无功功率调节的有功功率曲线；

图7为实施例中有功功率调节的有功功率响应曲线；

图8为实施例中有功功率调节的RL-P控制器控制信号；

图9为实施例中有功功率调节的无功功率曲线；

图10为实施例中扰动分析过程参数变化时的有功功率曲线；

图11为实施例中扰动分析过程参数变化时的无功功率曲线；

图12为实施例中扰动分析过程参数变化时的RL-P控制器控制信号；

图13为实施例中扰动分析过程参数变化时的RL-Q控制器控制信号。

具体实施方式

为更好地理解本发明，下面结合附图和实施例对本发明作进一步的说明，但本发明的实施方式不限如此。

针对双馈感应风力发电系统结构复杂，受参数变化和外部干扰较显著，具有非线性、时变、强耦合的特点，若仅采用传统矢量控制则难以满足控制系统对高适应性和高鲁棒性的要求。

本发明在传统矢量控制的基础上，提出一种基于强化学习(RL)算法的双馈感应风力发电机自校正控制方法，该方法引入Q学习算法，并作为强化学习核心算法，可快速自动地在线优化PI控制器的输出，在引入强化学习自校正控制后，保持了原系统最大风能捕获的能力，同时改善了其动态性能，增强了鲁棒性和自适应性。

第一，双馈感应风力发电系统在定子磁链定向下的基于PI控制的矢量控制系统设计。

当定子取发电机惯例，转子取电动机惯例时，三相对称系统中具有均匀气隙的双馈感应发电机在两相同步旋转dq坐标系下的数学模型为：

定子电压方程

转子电压方程

定子磁链方程

转子磁链方程

电磁转矩方程

定子功率输出方程

公式(1)～(6)中：下标d和q分别表示d轴和q轴分量；下标s和r分别表示定子和转子分量；U、i、ψ、T_e、P、Q分别表示电压、电流、磁链、电磁转矩、有功和无功功率；R、L分别表示电阻和电感；ω₁为同步转速；ω_s为转差电角速度，ω_s＝ω₁-ω_r＝sω₁；ω_r为发电机转子电角速度，s为转差率；n_p为极对数；p为微分算子。

采用定子磁链定向矢量控制，将定子磁链矢量定向于d轴上，有ψ_ds＝ψ_s，ψ_qs＝0。稳态运行时，定子磁链保持恒定，忽略定子绕组电阻压降，则U_ds＝0，U_qs＝ω₁ψ_s＝U_s，U_s为定子电压矢量幅值。

由式(6)得

在该式中各变量含义如下：P：有功功率；Q:无功功率；U_qs：定子电压矢量的q轴分量；I_qs：定子电流矢量的q轴分量；U_s：定子电压矢量幅值；i_ds：定子电流的d轴分量。从式公式(7)可得定子电流控制功率的传递函数。

由公式(3)得：

在该公式中，各变量含义如下：i_dr:转子电流的d轴分量；i_qr:转子电流的q轴分量；L_s:定子电感；L_m:定子与转子间的互感；i_ds:定子电流的d轴分量；i_qs:定子电流的q轴分量；ψ_s:定子磁链矢量幅值；

由公式(4)得

在该公式中，

各变量含义如下，ψ_dr：转子磁链矢量的d轴分量；ψ_qr：转子磁链矢量的q轴分量；ψ_s：定子磁链矢量幅值；L_m：定子与转子间的互感；L_s：定子电感；L_r：转子电感；i_dr：转子电流的d轴分量；i_qr：转子电流的q轴分量；

再由公式(2)得

在该公式中，

各变量含义如下，u_dr：转子电压的d轴分量；u_qr：转子电压的q轴分量；i_dr：转子电流的d轴分量；i_qr：转子电流的q轴分量；ψ_s：定子磁链矢量幅值；R_r：转子电阻；p：微分算子；ω_s：转差电角速度。从公式(8)(9)(10)可得到由转子电压控制定子电流的传递函数。

根据上述公式(7)～(10)可设计出双馈感应风力发电系统在定子磁链定向下的基于PI控制的矢量控制系统。本发明自校正控制方法即在上述所设计系统中的PI控制器的基础上附加一个RL控制器，用两控制器的输出信号的叠加值作为功率的控制信号。

第二，基于强化学习的自校正控制器设计。

强化学习(简称为RL)算法是系统从环境状态到动作映射的学习，是一种试探评价的学习过程。可用附图1来描述。Agent根据学习算法选择一个动作作用于环境(即系统)，引起环境状态s的变化，环境再反馈一个立即强化信号(奖或罚)给Agent，Agent根据强化信号及环境的新状态s′再选择下一个动作。RL的学习原则是：若Agent的某个决策行为(动作)使强化信号得到改善，就使以后产生这个决策行为的趋势加强。近年来，RL理论在电力系统中诸于调度、无功优化和电力市场等领域的应用研究成果显著。

如图1所示，图1为强化学习系统原理图。根据图1，Q学习算法是一种从长期的观点通过试错与环境交互来改进控制策略的强化学习算法，其显著特点之一是对象模型的无关性。

Q学习的目的是去估计最优控制策略的Q值。设Q^k表示最优值函数Q^*的第k次迭代值，Q值按迭代公式(11)更新：

动作选择策略是Q学习控制算法的关键。定义Agent在状态s下选择具有最高Q值的动作称为贪婪策略p^*，其动作称为贪婪动作。

若Agent每次迭代都选取Q值最高的动作，会导致收敛于局部最优，因为总是执行相同的动作链而未搜索其他动作。为避免这种情况，本发明利用一种追踪算法来设计动作选择策略。该算法基于概率分布，初始化时，赋予各状态下每个可行动作相等的被选概率，随着迭代的进行，概率随Q值表格的变化而变化，更新公式如下：

式中：

和

分别为第k次迭代时s_k状态和非s_k状态下选择动作a的概率；a_g为贪婪动作；β为动作搜索速度。由式(13)可看出，具有较高Q值的动作被选择的概率较大，对应环境某一具体的状态，贪婪动作的被选概率随着该状态的复现而不断变大，在经过足够多数的迭代后，Q^k将会以概率1收敛于Q^*，也即获得一个以Q^*表示的最优控制策略。

基于此，自校正控制器的结构设计描述如下。以固定增益的PI控制器构建的现有双馈感应风机控制系统，当系统工况改变时，控制性能会下降。本发明提出一种自校正控制架构，如图2所示为双馈风力发电系统自校正控制框图。在原PI控制器的基础上附加一个RL控制器，来动态校正PI控制器的输出，RL控制器包括RL-P控制器和RL-Q控制器，其中RL-P控制器和RL-Q控制器分别对有功和无功功率控制信号校正。RL-P控制器的输入值为有功功率误差值ΔP，通过Q学习算法所得动作概率分布

选择并输出动作α_k，该动作α_k与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值i_qs ^*，即有功功率的控制信号；RL-Q控制器的输入值为无功功率误差值ΔQ，通过Q学习算法所得动作概率分布

选择并输出动作α_k，该动作α_k与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值i_ds ^*，即无功功率的控制信号。RL控制器在运行过程一直处于在线学习状态，被控量一旦偏离控制目标(比如参数变化或外部扰动所致)，便自动调整控制策略，从而增加原控制系统的自适应和自学习能力。

自校正控制器的核心控制算法流程如附图3所示，其描述如下：

S1：RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ。RL-P控制器和RL-Q控制器分别判断功率误差值ΔP和ΔQ所属区间s_k，功率误差值划分为(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+∞)11个不同区间s，构成状态集合S；

用随机函数输出动作α_k，得RL-P控制器或RL-Q控制器输出的校正信号；动作α_k在每个s下总共有11种选择，构成动作空间A，11种选择分别是[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,-0.04,-0.06]，在同一个区间s下每个动作α有相应的被选择的概率，11个动作α相应的被选择的概率的集合构成了所述的概率分布P_s(a)，每个区间s有其对应的概率分布P_s(a)；对于RL-P控制器，动作值α_k与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值i_qs ^*，即有功功率的控制信号；对于RL-Q控制器，动作值α_k与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值i_ds ^*，即无功功率的控制信号。

式中

值是动作集A的指针，即第k次动作值α在动作集A中的序号，μ₁和μ₂为平衡前后各平方项的权重值，其数值均为通过大量仿真实验调试所得；奖励函数取负值能使控制目标功率误差值尽可能小；

式中α、γ为折扣因子，其数值均为通过大量仿真实验调试所得。步骤S4中功率误差值越小，r_k值越大，Q^k+1(s_k,a_k)值越大；

S6：根据动作选择策略更新公式更新动作概率分布；若智能体Agent每次迭代都选取Q值最高的动作，会导致收敛于局部最优，因此总是执行相同的动作链而未搜索其他动作，为避免这种情况的发生，本发明利用一种追踪算法设计动作选择策略，策略基于概率分布，初始化时，赋予各状态下每个可行动作相等的被选概率，随着迭代的进行，概率随Q值表格的变化而变化；RL控制器找出状态s_k下具有最高Q值的动作a_g，a_g称为贪婪动作；动作概率分布的迭代公式为：

和

分别为第k次迭代时s_k状态和非s_k状态下选择动作a的概率；β为动作搜索速度，其数值通过大量仿真实验调试所得。

由功率分布迭代公式可知，具有较高Q值的动作即能使功率误差值较小的动作被选择的概率较大，对应环境某一具体的状态s，贪婪动作的被选概率随着该状态的复现而不断变大并趋近于1；

S7：令k＝k+1，并返回步骤S2；根据动作概率分布选择并输出动作α_k+1，被选择的动作与PI控制器的输出信号相叠加产生相应的定子电流给定值信号，即功率控制信号。并按顺序依次执行接下来的步骤不断循环。在经过足够多数的迭代后，每个状态s存在Q_s ^k以概率1收敛于Q_s ^*，也即获得一个以Q_s ^*表示的最优控制策略以及该最优控制策略所对应的贪婪动作a_g，至此完成自校正过程，此时每个状态s下RL控制器输出值a_g与PI控制器的输出信号叠加即可自动优化PI控制器的控制性能，使功率误差值误差值尽可能小。

在迭代前需对Q矩阵以及概率分布进行初始化。Q矩阵每个元素的初值为0，即令Q⁰(s,a)＝0，

令各状态下每个可行动作相等的被选概率,即令

根据前面的描述，本发明提供了一种基于强化学习算法的双馈感应风力发电机自校正控制方法，该方法在引入强化学习自校正控制后，无需改变原PI控制器的结构和参数，工程实现十分简便，保持了原系统最大风能捕获的能力，同时改善了其动态性能，增强了鲁棒性和自适应性。

实施例

针对双馈感应风力发电机，验证本发明所设计的控制器的正确性和有效性。

双馈感应风力发电机选择如下参数进行仿真验证：双馈风力发电机额定功率为P＝9MW(＝6*1.5MW)，R_s＝0.007pu，R_r＝0.005pu，L_s＝3.071pu，L_r＝3.056pu，L_m＝2.9pu，n_p＝3，这些参数可以代入到上面的公式(1)～(10)中进行计算双馈风力发电机相应的参数。两PI控制器的参数为：比例增益：K_p＝6.9；积分增益：K_i＝408，RL-P控制器的参数为：权重值μ₁＝0.001，折扣因子α＝0.6，γ＝0.001，动作搜索速度β＝0.9； RL-Q控制器的参数为：权重值μ₂＝0.001，折扣因子α＝0.6，γ＝0.001，动作搜索速度β＝0.9。

(1)无功功率调节

应用本发明提供的算法来控制双馈风力发电机的无功功率调节过程，该调节过程中，无功功率初始给定为0.9Mvar，1s时降为0var，2s后再次上升0.9Mvar，3s时仿真结束。仿真期间，保持风速为10m/s不变，无功功率调节过程中无功功率响应曲线由图4给出，该图中，基于强化学习算法的自校正控制动态性能优于传统矢量控制。图5为强化学习控制器基于无功功率偏差输出的校正控制信号，图6为无功功率调节过程中有功功率曲线图，从图6可看出，在无功功率调节过程中，有功功率始终保持不变，很好地实现了解耦。

(2)有功功率调节

应用本发明提供的算法来控制双馈风力发电机的有功功率调节过程，该调节过程中，风速初始给定为10m/s，2s时上升为11m/s，30s时仿真结束。仿真期间，设定无功功率为0var不变，有功功率调节过程系统响应仿真结果如下图所示。图7给出了有功功率调节过程中的有功功率响应曲线，从该图可看出基于强化学习算法的自校正控制和传统矢量控制有功功率响应曲线基本重合，这是因为基于最大风能捕获原理，当风速突变时，有功功率参考值不突变而是按照最佳功率曲线变化，功率偏差始终很小，未达到强化学习设定最小动作值的状态，故强化学习控制器输出控制信号为0，从而两条曲线重合。图8为有功功率调节过程中的RL-P控制器控制信号，而图9为有功功率调节过程中的无功功率曲线，从图9可看出，在有功功率调节过程中，无功功率不受影响，实现了解耦。

(3)扰动分析

应用本发明提供的算法对双馈风力发电机控制过程中的扰动进行分析，为考察系统对电机参数变化的鲁棒性，假设风速为10m/s不变，在t＝2s时b增大一倍。图10、图11、图12和图13分别给出了参数变化后参数变化时动态响应图，相同条件下传统矢量控制与基于强化学习算法的自校正控制的动态响应下的有功功率曲线、无功功率曲线、RL-P控制器控制信号和RL-Q控制器控制信号。由图12和图13可看出，当参数变化导致有功和无功功率与参考值出现偏差后，强化学习控制器根据偏差值立即输出校正控制信号，来补偿参数变化的影响。由图10和图11可看出，采用自校正控制，超调较小，改善了动态品质，提高了控制性能。

本发明提供一种基于强化学习算法的双馈感应风力发电机自校正控制方法，算法控制对象为双馈风力发电系统，该系统具有多变量、非线性、受参数变化和外部干扰显著的特点。利用强化学习算法具有的在线自学习能力和模型无关性特点，本发明设计了风机自校正控制器，可有效提高其控制系统的鲁棒性和自适应性。此外，该控制策略无需改变原PI控制器的结构和参数，只需增加一个自校正模块，工程实现十分简便。同时，由于RL控制器的控制信号为离散动作值，易导致超调，后续研究中可考虑结合模糊控制对输入输出信号模糊化。

本发明提供了一种基于强化学习算法的双馈感应风力发电机自校正控制方法，该方法引入Q学习算法作为强化学习核心算法，强化学习控制算法对被控对象的数学模型和运行状态不敏感，其学习能力对参数变化或外部干扰具有较强的自适应性和鲁棒性，可快速自动地在线优化PI控制器的输出，基于MATLAB/Simulink环境，在风速低于额定风速时对系统进行仿真，结果表明该方法在进入强化学习自校正控制后，能够快速自动地优化风机控制系统的输出，不仅实现了对风能的最大追踪，而且具有良好的动态性能，显著增强了控制系统的鲁棒性和适应性。

以上所述实施例仅表达了本发明的一种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

基于强化学习算法的双馈感应风力发电机自校正控制方法，其特征在于，在基于PI控制的矢量控制系统中的PI控制器上增加RL控制器，动态校正PI控制器的输出，RL控制器包括RL-P控制器和RL-Q控制器，RL-P控制器和RL-Q控制器分别对有功和无功功率控制信号校正；该自校正控制方法包括如下步骤：

S1：RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ；RL-P控制器和RL-Q控制器分别判断功率误差值ΔP和ΔQ所属区间s_k；

S2：对于所识别的区间s_k，RL-P控制器或RL-Q控制器根据该s_k所对应的动作概率分布
用随机函数输出动作α_k，得RL-P控制器或RL-Q控制器输出的校正信号；对于动作α相应的被选择的概率的集合构成概率分布，每个区间s有其对应的概率分布P_s(a)；

对于RL-P控制器，动作值α_k与PI控制器的输出信号用加法器相加得到定子q轴电流的给定值i_qs ^*，即有功功率的控制信号；

对于RL-Q控制器，动作值α_k与PI控制器的输出信号用加法器相加得到定子d轴电流的给定值i_ds ^*，即无功功率的控制信号；

S3：RL-P控制器和RL-Q控制器分别采样有功功率误差值ΔP和无功功率误差值ΔQ并判断其所属区间s_k+1；

S4：RL控制器由奖励函数获得立即奖励值r_k；奖励函数设计为：

式中
值是动作集A的指针，该指针为第k次动作值α在动作集A中的序号，μ₁和μ₂为平衡前后各平方项的权重值，其数值均为通过大量仿真实验调试所得；

S5：基于Q值迭代公式更新Q矩阵；Q函数为一种期望折扣奖励值，Q学习的目的是估计最优控制策略的Q值，设Q^k为最优值函数Q^*的第k次迭代值，Q值迭代公式设计为：

式中α、γ为折扣因子，其数值均为通过大量仿真实验调试所得；

S6：根据动作选择策略更新公式更新动作概率分布；利用一种追踪算法设计动作选择策略，策略基于概率分布，初始化时，赋予各状态下每个可行动作相等的被选概率，随着迭代的进行，概率随Q值表格的变化而变化；RL控制器找出状态s_k下具有最高Q值的动作a_g，a_g称为贪婪动作；动作概率分布的迭代公式为：

和
分别为第k次迭代时s_k状态和非s_k状态下选择动作a的概率；β为动作搜索速度，其数值通过大量仿真实验调试所得；

S7：令k＝k+1，并返回步骤S2；根据动作概率分布选择并输出动作α_k+1，被选择的动作与PI控制器的输出信号相叠加产生相应的定子电流给定值信号，即功率控制信号，并按顺序依次执行接下来的步骤不断循环，在经过多次的迭代后，每个状态s存在Q_s ^k以概率1收敛于Q_s ^*，即获得一个以Q_s ^*表示的最优控制策略以及该最优控制策略所对应的贪婪动作a_g，至此完成自校正过程，此时每个状态s下RL控制器输出值a_g与PI控制器的输出信号叠加，即可自动优化PI控制器的控制性能，使功率误差值小。
根据权利要求1所述的基于强化学习算法的双馈感应风力发电机自校正控制方法，其特征在于，所述功率误差值ΔP和ΔQ所属区间s_k根据功率误差值划分为(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+∞)11个不同区间，构成状态集合S。
根据权利要求2所述的基于强化学习算法的双馈感应风力发电机自校正控制方法，其特征在于，动作α_k在每个区间s下总共有11种选择，构成动作空间A，11种选择是[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,-0.04,-0.06]，在同一个区间s下每个动作α有相应的被选择的概率。
根据权利要求1所述的基于强化学习算法的双馈感应风力发电机自校正控制方法，其特征在于，在迭代前需对Q矩阵以及概率分布进行初始化；Q矩阵每个元素的初值为0，即令
令各状态下每个可行动作相等的被选概率,即令
根据权利要求1所述的基于强化学习算法的双馈感应风力发电机自校正控制方法，其特征在于，所述基于PI控制的矢量控制系统根据如下公式(7)～(10)设计：

其中，P：有功功率；Q:无功功率；U_qs：定子电压矢量的q轴分量；I_qs：定子电流矢量的q轴分量；U_s：定子电压矢量幅值；i_ds：定子电流的d轴分量；

其中，i_dr:转子电流的d轴分量；i_qr:转子电流的q轴分量；L_s:定子电感；L_m:定子与转子间的互感；i_ds:定子电流的d轴分量；i_qs:定子电流的q轴分量；ψ_s:定子磁链矢量幅值；

其中，
各变量含义如下，ψ_dr：转子磁链矢量的d轴分量；ψ_qr：转子磁链矢量的q轴分量；ψ_s：定子磁链矢量幅值；L_m：定子与转子间的互感；L_s：定子电感；L_r：转子电感；i_dr：转子电流的d轴分量；i_qr：转子电流的q轴分量；

在该公式中，
各变量含义如下，u_dr：转子电压的d轴分量；u_qr：转子电压的q轴分量；i_dr：转子电流的d轴分量；i_qr：转子电流的q轴分量；ψ_s：定子磁链矢量幅值；R_r：转子电阻；p：微分算子；ω_s：转差电角速度；从公式(8)(9)(10)可得到由转子电压控制定子电流的传递函数。