WO2022206265A1

WO2022206265A1 - 一种基于深度强化学习的水文预报模型参数率定方法

Info

Publication number: WO2022206265A1
Application number: PCT/CN2022/078763
Authority: WO
Inventors: 胡鹤轩; 胡强; 张晔; 胡震云
Original assignee: 河海大学
Priority date: 2021-04-02
Filing date: 2022-03-02
Publication date: 2022-10-06
Also published as: CN113255206A; CN113255206B; US20230281459A1

Abstract

本发明公开了一种基于深度强化学习的水文预报模型参数率定方法，包括：根据流域特性选取合适的水文预报模型，确定模型率定的参数及参数取值范围；建立水文预报模型参数率定的强化学习模型，确定强化学习三要素即状态空间、动作空间及奖励函数；应用深度强化学习方法DQN，优化水文预报模型的率定参数。本发明可通过设置深度强化学习模型动作值的步幅，自由控制率定参数最终优化的精确度，并采用DQN算法在率定参数的整个空间进行搜索，以确保率定参数优化的最优性，从而避免现代智能算法早熟、易陷入局部最优解的问题。

Description

一种基于深度强化学习的水文预报模型参数率定方法

技术领域

本发明属于水文预报模型参数率定技术领域，具体涉及一种基于深度强化学习的水文预报模型参数率定方法。

背景技术

水文预报模型广泛应用于降雨模拟预报、洪水预报预警、水文过程分析等领域，对提高水文领域研究效率有着重要的作用。由于水文预报模型结构一般比较复杂，在建立了模型之后，确定模型参数就成为了亟待解决的核心问题。参数率定，是在水文预报模型中找到一组最优参数解，使模拟预报后的结果与实测数据尽可能地接近。对于水文预报模型来说，参数率定直接影响着预报的准确性，因此，研究如何提高参数率定的速度和准确度，具有重要的科研意义和应用价值。

早期的水文预报模型的参数率定方法，多采用传统的人工试错法、梯度下降法等，这些方法虽然直观，但对工作人员经验要求较高，易受个人主观性影响，且参数率定的效率和精度都比较低。随着计算机技术的发展，遗传算法、粒子群算法等现代智能算法被广泛应用于水文预报模型参数自动率定领域，弥补了传统方法的不足，然而，虽然现代智能算法能够广泛搜索解的范围，但存在着早熟和易于陷入局部最优解的问题，从而影响全局最优解的选取。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于深度强化学习的水文预报模型参数率定方法。本发明可通过设置深度强化学习模型动作值的步幅，自由控制率定参数最终优化的精确度，采用DQN算法在率定参数的整个空间进行搜索，确保率定参数优化的最优性，避免现代智能算法早熟，容易陷入局部最优解的问题。

为解决上述技术问题，本发明采用以下技术方案。

本发明的一种基于深度强化学习的水文预报模型参数率定方法，包括以下步骤：

步骤1、选定水文预报模型及确定所需率定参数；所述的水文预报模型以降雨及蒸发时间序列作为输入，以预报流量的时间序列作为输出；

步骤2、建立水文预报模型参数率定的强化学习模型；所述的强化学习是指智能体Agent与环境交互学习的过程，其强化学习的关键三要素为状态空间、动作空间和奖励值函数；

步骤3、应用深度强化学习方法DQN，优化水文预报模型率定的参数。

进一步的，在所述步骤1中，选定水文预报模型及确定若干率定参数的过程包括：

根据流域特性选取不同的水文预报模型，确定该水文预报模型所需要率定的参数w ⁱ,i＝1,2,...,N，N为水文预报模型所需率定参数的个数；

每个参数的取值范围：

其中，

分别为第i个率定参数的最小值和最大值。

进一步的，所述步骤2中建立水文预报模型参数率定的强化学习模型，其过程包括：

2-1)确定强化学习的状态空间：

定义t时刻强化学习状态值为水文预报模型的数个率定参数组成的一维向量s _t；

其中

为当前t时刻水文预报模型率定参数值；

t时刻参数

值变化具有两种可能：增大或减小；设参数

增大或减小幅度均为Δ ⁱ，则t+1时刻参数

值可能为

或

2-2)确定强化学习的动作空间：

定义强化学习动作空间A为各个率定参数变化的所有可能情况：

其中，2 ^N为强化学习动作空间中动作的个数；矩阵A的每一行为选定的动作，即t时刻动作值a _t的可能值；

2-3)确定强化学习的奖励值函数：

设

为M个时段的实测的流量值，其中

为第i个时段的实测流量值；

根据t时刻状态

t+1时刻

通过水文预报模型获取预测流量序列分别为：

其中

分别为第i个时段的t时刻、t+1时刻预报流量值；

定义t时刻的均方根误差为RMS _t，t+1时刻的均方根误差为RMS _t+1：

定义在t时刻状态s _t下执行动作a _t到达t+1时刻状态s _t+1获得的奖励值r _t(s _t,a _t,s _t+1)：

其中，C ₁为常数，大于0；C ₂为常数，小于0；C ₃为常数，大于0。

进一步的，所述步骤3中应用深度强化学习方法DQN，优化水文预报模型率定的参数，其过程包括：

根据所确定的强化学习的关键要素，执行下述强化学习DQN算法：

输入：初始化经验池D容量为N；

使用随机权重θ初始化动作值网络Q；

使用权重θ′＝θ初始化目标动作值网络

过程：

For 1,M do

初始化状态s ₁；

For t＝1,T do

根据概率ε选择一个随机动作a _t，1-ε概率选择a _t＝argmax _aQ(s _t,a；θ)；

执行动作a _t，并获取奖励r _t，得到下一状态s _t+1；

将(s _t,a _t,r _t,s _t+1)保存在经验池D中；

当经验池D达到一定数量时从中随机取出若干组(s _t,a _t,r _t,s _t+1)为mini-batch；

设置：

执行一个梯度下降步骤(y _j-Q(s _j,a _j；θ)) ²更新动作值网络参数θ；

每C步重置目标动作值网络

End For

输出：最优状态：

进一步的，当DQN算法优化曲线达到收敛状态，则此时总奖励值处于轻微抖动状态，最优率定的参数值为

与现有技术相比，本发明具有以下优点和有益效果：

1.本发明可通过设置深度强化学习模型动作值的步幅，针对不同性质的率定参数自由控制率定参数所要优化的精确程度，保证率定参数优化的精确性和合理性，避免将过多计算资源投入到非重要参数上。

2.本发明采用DQN算法在率定参数的整个空间进行搜索，通过强化学习的自我决策与纠正能力，确保率定参数优化的最优性，避免了现代智能算法早熟，容易陷入局部最优解的问题。

附图说明

图1为本发明的一种实施例的方法流程图。

图2为本发明的一种实施例的水文预报模型示意图。

图3为本发明的一种实施例的强化学习示意图。

图4为本发明的一种实施例的动作价值网络及目标动作价值网络示意图。

图5为本发明的一种实施例的DQN优化算法流程图。

具体实施方式

本发明公开了一种基于深度强化学习的水文预报模型参数率定方法，包括：根据流域特性选取合适的水文预报模型，确定模型率定的参数及参数取值范围；构建强化学习三要素状态空间、动作空间及奖励函数；应用深度强化学习方法DQN优化水文预报模型的率定参数。本发明可通过设置深度强化学习模型动作值的步幅，自由控制率定参数最终优化的精确度，DQN算法在率定参数的整个空间进行搜索，确保率定参数优化的最优性，避免现代智能算法早熟，容易陷入局部最优解的问题。

下面结合附图对本发明做进一步详细说明。

图1为本发明的一种实施例的方法流程图。如图1所示，本实施例方法，包括以下步骤：

步骤1、选定水文预报模型及确定所需的率定参数；

根据流域特性选取不同的水文预报模型如图2所示，该水文预报模型以降雨及蒸发时间序列作为水文预报模型的输入，水文预报模型的输出为预报流量的时间序列。确定该水文预报模型的需要率定的参数w ⁱ,i＝1,2,...,N，N为水文预报模型所需率定参数的个数。

每个参数具有取值范围：

其中，

分别为第i个率定参数的最小值和最大值。

步骤2、建立水文预报模型参数率定的强化学习模型；

如图3所示，强化学习是智能体Agent与环境交互学习的过程，该智能体能够根据环境当前的状态采取相应的动作，从而使得当前环境的状态发生改变。强化学习的关键三要素为状态空间、动作空间和奖励值函数。

(1)确定强化学习的状态空间：

其中

为当前t时刻水文预报模型率定参数值。

t时刻参数

值变化具有两种可能：增大或减小；设参数

增大或减小幅度均为 Δ ⁱ，则t+1时刻参数

值可能为

或

(2)确定强化学习的动作空间：

其中，2 ^N为强化学习动作空间中动作的个数；矩阵A的每一行为选定的动作，即t时刻动作值a _t的可能值。举例说明，当N＝2，Δ ¹＝Δ ²＝0.1时，

此时a _t的可能值为：[0.1,0.1]、[-0.1,0.1]、[0.1,-0.1]、[-0.1,-0.1]。

(3)确定强化学习的奖励值函数：

设

为M个时段的实测的流量值，其中

为第i个时段的实测流量值。

根据t时刻状态

t+1时刻

通过水文预报模型获取预测流量序列分别为：

其中

分别为第i个时段的t时刻、t+1时刻预报流量值。

步骤3、应用深度强化学习方法DQN，优化水文预报模型率定的参数；

如图4为动作价值网络及目标动作价值网络示意图，该网络以状态作为输入神经元，输入的个数为水文预报模型所需率定的参数个数；动作值作为输出，输出值的个数为动作空间中的动作的个数。动作价值网络是用来评估当前状态动作对的价值函数，采用神经网络设计的原因在于状态量较多。目标动作价值网络用于慢更新Q值，算法根据损失函数的更新公式来更新网络中的参数，每经过C轮迭代后，将动作价值网络中的参数复制给目标动作价值网络中的参数。在一段时间内目标动作价值网络的Q(s _j,a _j；θ)保持不变，使得训练时损失值震荡发散的可能性降低，从而提高了算法的稳定性。

如图5所示为DQN优化算法流程图，其中MainNet为动作价值网络，targetNet为目标动作价值网络。根据步骤2中所确定的强化学习关键三要素，执行强化学习DQN算法，其流程如下：

输入：初始化经验池D容量为N；

使用随机权重θ初始化动作值网络Q，该网络的输入输出由图4说明；

使用权重θ′＝θ初始化目标动作值网络

该网络的输入输出由图4说明；

过程：

For 1,M do

随机初始化状态

For t＝1,T do

根据概率ε(ε为较小值)选择随机动作a _t，1-ε概率选择a _t＝argmax _aQ(s _t,a；θ)，由动作价值网络计算得出；

执行动作a _t，得到下一状态

并获取奖励r _t，r _t由步骤2的计算公式得出；

将(s _t,a _t,r _t,s _t+1)保存在经验池D中，此时需判断经验池的容量是否已满，当容量已满时可采用先进先出的策略更新经验池D；

当经验池D达到一定数量时从中随机取出数个组(s _t,a _t,r _t,s _t+1)作为神经网络学习样本；

在目标动作值网络中求得

动作价值网络执行一个梯度下降步骤(y _j-Q(s _j,a _j；θ)) ²更新该网络参数θ；

每C步重置目标动作值网络

意味将动作价值网络的参数θ设置为目标动作价值网络的参数θ'；

End For

输出：最优状态：

当DQN算法优化曲线达到收敛状态，此时总奖励值处于轻微抖动状态，最优率定的参数值为

Claims

一种基于深度强化学习的水文预报模型参数率定方法，其特征在于，包括以下步骤：

步骤1、选定水文预报模型及确定所需率定参数；所述的水文预报模型以降雨及蒸发时间序列作为输入，以预报流量的时间序列作为输出；

步骤2、建立水文预报模型参数率定的强化学习模型；所述的强化学习是指智能体Agent与环境交互学习的过程，其强化学习的关键三要素为状态空间、动作空间和奖励值函数；

步骤3、应用深度强化学习方法DQN，优化水文预报模型率定的参数。
根据权利要求1所述的一种基于深度强化学习的水文预报模型参数率定方法，其特征在于，在所述步骤1中，选定水文预报模型及确定若干率定参数的过程包括：

根据流域特性选取不同的水文预报模型，确定该水文预报模型所需要率定的参数w ⁱ，i＝1，2，...，N，N为水文预报模型所需率定参数的个数；

每个参数的取值范围：

其中，
分别为第i个率定参数的最小值和最大值。
根据权利要求1所述的一种基于深度强化学习的水文预报模型参数率定方法，其特征在于：所述步骤2中建立水文预报模型参数率定的强化学习模型，其过程包括：

2-1)确定强化学习的状态空间：

定义t时刻强化学习状态值为水文预报模型的数个率定参数组成的一维向量s _t；

其中
为当前t时刻水文预报模型率定参数值；

t时刻参数
值变化具有两种可能：增大或减小；设参数
增大或减小幅度均为Δ ⁱ，则t+1时刻参数
值可能为
或

2-2)确定强化学习的动作空间：

定义强化学习动作空间A为各个率定参数变化的所有可能情况：

其中，2 ^N为强化学习动作空间中动作的个数；矩阵A的每一行为选定的动作，即t时刻动作值a _t的可能值；

2-3)确定强化学习的奖励值函数：

设
为M个时段的实测的流量值，其中
为第i个时段的实测流量值；

根据t时刻状态
t+1时刻
通过水文预报模型获取预测流量序列分别为：

其中
分别为第i个时段的t时刻、t+1时刻预报流量值；

定义t时刻的均方根误差为RMS _t，t+1时刻的均方根误差为RMS _t+1：

定义在t时刻状态s _t下执行动作a _t到达t+1时刻状态s _t+1获得的奖励值r _t(s _t,a _t,s _t+1)：

其中，C ₁为常数，大于0；C ₂为常数，小于0；C ₃为常数，大于0。
根据权利要求3所述的一种基于深度强化学习的水文预报模型参数率定方法，其特征在于，所述步骤3中应用深度强化学习方法DQN，优化水文预报模型率定的参数，其过程包括：

根据所确定的强化学习的关键要素，执行下述强化学习DQN算法：

输入：初始化经验池D容量为N；

使用随机权重θ初始化动作值网络Q；

使用权重θ′＝θ初始化目标动作值网络

过程：

For 1,M do

初始化状态s ₁；

For t＝1,T do

根据概率ε选择一个随机动作a _t，1-ε概率选择a _t＝argmax _a Q(s _t,a；θ)；

执行动作a _t，并获取奖励r _t，得到下一状态s _t+1；

将(s _t,a _t,r _t,s _t+1)保存在经验池D中；

当经验池D达到一定数量时从中随机取出若干组(s _t,a _t,r _t,s _t+1)为mini-batch；

设置：

执行一个梯度下降步骤(y _j-Q(s _j,a _j；θ)) ²更新动作值网络参数θ；

每C步重置目标动作值网络

End For

End For

输出：最优状态：
根据权利要求4所述的一种基于深度强化学习的水文预报模型参数率定方法，其特征在于，当DQN算法优化曲线达到收敛状态，则此时总奖励值处于轻微抖动状态，最优率定的参数值为