WO2020259504A1

WO2020259504A1 - 一种强化学习的高效探索方法

Info

Publication number: WO2020259504A1
Application number: PCT/CN2020/097757
Authority: WO
Inventors: 张寅�; 胡滨
Original assignee: 浙江大学
Priority date: 2019-06-24
Filing date: 2020-06-23
Publication date: 2020-12-30
Also published as: CN110390399A

Abstract

一种强化学习的高效探索方法，该方法的步骤如下：1）预训练计数估计函数；2）利用预训练的计数估计函数进行强化学习的高效探索。此方法主要针对强化学习中探索与利用的平衡问题，在连续空间任务中，通过预训练计数估计函数估计智能体所遇到的状态的出现次数，利用状态的出现次数计算奖赏，通过奖赏引导智能体探索那些较少遇到的状态从而实现高效探索。通过使用独立的探索策略处理奖赏信号，避免了奖赏信号对智能体行动策略的影响，使得探索过程更稳定。

Description

一种强化学习的高效探索方法

技术领域

本发明涉及深度强化学习的高效探索方法，尤其涉及基于计数的探索策略及其在连续空间任务下的应用。

背景技术

强化学习属于机器学习领域，是一种解决序列决策问题的重要方法。强化学习将序列决策问题建模为外部环境，将决策算法视为智能体，智能体通过试错学习改进决策策略，使得该策略在序列决策过程中能获得最大的累积收益。近年来，随着强化学习与深度学习的结合，强化学习算法取得了显著的效果，在游戏、机器人控制、自然语言处理、计算机视觉等领域取得了广泛的应用。特别的，DeepMind团队结合深度学习、强化学习、蒙特卡洛搜索树实现的智能围棋系统Alpha Go和Alpha Zero先后分别击败了韩国棋手李世石和围棋世界冠军柯洁，这标志着机器学习算法在棋类游戏中全面超过人类，展现出了强化学习算法强大的决策能力和发展潜力。

但是强化学习算法仍然面临探索与利用之间的权衡问题。探索与利用是强化学习的主要矛盾，智能体一方面要探索新的状态和动作以获得潜在的最优策略；另一方面需要利用历史信息以实现最优策略。这两者是一组天然的矛盾，执行探索势必影响策略的最优性，执行最优策略势必影响探索能力，平衡两者之间的矛盾是强化学习的一个重要问题。

现有的强化学习的探索策略主要使用均匀采样方法或高斯噪声方法，即以一定概率进行随机探索或者在最优动作的邻域内随机探索。这些方法实际上都是在当前学习到的策略的基础上加一个随机无向的噪声，称之为抖动策略。抖动策略因为没有考虑每次探索行为的价值，存在数据利用率低、充分探索需要无限长的时间等不足。

发明内容

本发明的目的在于解决现有技术中存在的问题，并提供一种强化学习的高效探索方法。

本发明具体采用的技术方案如下：

一种强化学习的高效探索方法，其步骤如下：

1)预训练计数估计函数，预训练过程为：

1.1)在环境的状态空间中进行采样；

1.2)对每个采样到的状态，分别用独立的VAE对其进行重构；

1.3)对每个采样到的状态s，用不同数量的状态s训练VAE，并计算对应的重构误差；记数量为count时的重构误差为error，得到三元组为<s,error,count>；

1.4)将不同状态和不同数量下得到的三元组<s,error,count>构成三元组集合M；

1.5)将计数估计函数用神经网络c _θ(s,err)表示，用4)中所得到的三元组集合M作为数据集训练神经网络c _θ，每一轮训练时从三元组集合M中采样一个批次的数据：

式中：N为当前批次数据的个数；s _i为第i个数据记录的状态s，err _i为第i个数据记录的重构误差error，cnt _i为第i个数据记录的数量count；

神经网络c _θ损失函数为:

2)利用预训练的计数估计函数进行强化学习的高效探索，探索过程为：

2.1)将强化学习算法中的行动策略μ(s)拷贝一份作为探索策略μ _E(s)；

2.2)初始化一个VAE，记为V ^*；

2.3)对于强化学习过程中遇到的<状态s,动作a,奖励r>序列，对于每一个<状态s,动作a,奖励r>对，用状态s训练V ^*并计算其重构误差err ^*＝‖V ^*(s)-s‖ ²，V ^*(s)表示状态s输入V ^*所得到的结果；

2.4)用状态s的实时重构误差err ^*和预训练的计数估计函数c _θ(s,err)估计状态s出现次数cnt(s)＝c _θ(s,err ^*)；

2.5)按照公式(1)或(2)，用估计的状态出现次数cnt(s)计算相应的奖赏：

式中：β为奖赏量级因子，β>0；

2.6)用环境给出的奖励信号r训练行动策略μ(s)，用奖赏信号R训练探索策略μ _E(s)；在训练探索策略时，同时引入与行动策略的距离约束α‖μ(s)-μ _E(s)‖ ²，α为约束项因子；

2.7)以一定的概率p选择探索策略产生的动作与环境进行交互，以剩下的概率1-p选择行动策略产生的动作与环境进行交互；

2.8)不断重复2.3)～2.7)，直到满足终止条件，终止循环，完成强化学习的高效探索。

基于上述技术方案，各步骤可采用如下具体方式实现。

优选的，所述的终止条件为强化学习算法与环境交互次数达到设定上限T。

优选的，所述的奖赏R优选采用公式(2)计算。

优选的，所述的2.6)中，在训练过程中，计算两个策略的距离dist＝‖μ(s)-μ _E(s)‖ ²，α根据距离dist动态调整，当两个策略的距离超过设定的上限时，增大α；当两个策略的距离低于设定的下限时，减小α。

优选的，所述的奖赏量级因子β＝1，概率p＝0.1。

本发明主要针对强化学习中探索与利用的平衡问题，在连续空间任务中，通过预训练计数估计函数估计智能体所遇到的状态的出现次数，利用状态的出现次数计算奖赏，通过奖赏引导智能体探索那些较少遇到的状态从而实现高效探索。通过使用独立的探索策略处理奖赏信号，避免了奖赏信号对智能体行动策略的影响，使得探索过程更稳定。

附图说明

图1是计数估计函数预训练流程图。

图2是基于策略分离的强化学习算法模型框架。

图3是基于策略分离的探索策略算法示意图。

图4是实施例中HalfCheetah任务下的测试结果。

图5是实施例中Swimmer任务下的测试结果。

图6是实施例中Ant任务下的测试结果。

图7是实施例中Reacher任务下的测试结果。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述和说明。

如图1～3所示，本发明提供了一种强化学习的高效探索方法，其步骤如下：

1)预训练计数估计函数，预训练过程为：

1.1)在环境的状态空间中进行采样；

1.2)对每个采样到的状态，分别用独立的VAE对其进行重构；

神经网络c _θ损失函数为:

对于连续状态空间下的状态，上述计数估计函数可以根据状态的VAE重构误差估计其出现的次数。本发明中所用到的VAE可替换为其他能够重构输入并得到相应重构误差的结构。所提出的高效探索策略可以与现有的强化学习算法如确定性策略梯度算法(DDPG)相结合，参见图2、图3，图中下标t表示第t轮迭代。下面具体描述其实现过程。

2.2)初始化一个VAE，记为V ^*；

式中：β为奖赏量级因子，β>0；

上述两个奖赏的计算公式可以根据需要进行选择，但在本发明中优选采用公式(2)。

2.6)用环境给出的奖励信号r训练行动策略μ(s)，用奖赏信号R训练探索策略μ _E(s)；在训练探索策略时，同时引入与行动策略的距离约束α‖μ(s)-μ _E(s)‖ ²，α为约束项因子。在训练过程中，计算两个策略的距离dist＝‖μ(s)-μ _E(s)‖ ²，α根据距离dist动态调整，当两个策略的距离超过设定的上限时，增大α；当两个策略的距离低于设定的下限时，减小α。

2.8)不断重复2.3)～2.7)，直到满足终止条件，终止循环，完成强化学习的高效探索。终止条件设置为强化学习算法与环境交互次数达到设定上限T。

下面将上述方法应用至具体实施例中，具体的实施步骤如前所述，实施例中主要展示其效果。

实施例：

为了测试高效探索方法的实际效果，使用Mujoco作为算法的测试环境。

Mujoco是一个物理模拟器，可以快速准确地模拟复杂动态系统，在机器人、生物力学、图形动画、机器学习等领域有广泛的应用。在强化学习领域，Mujoco常作为连续空间问题的基准测试。Mujoco包含一系列的模拟环境。

Gym是OpenAI公布的用于研究强化学习的平台，它提供了一系列的强化学习任务，包括经典控制任务、Atari游戏、机器人控制任务等，同时提供了与这些环境交互的接口。Gym同样整合了Mujoco的模拟环境，作为Mujoco类型的强化学习任务。当前Mujoco任务已经升级到v2版本，测试使用的为Mujoco的v2版本。

选择Mujoco的四个任务HalfCheetah、Swimmer、Ant和Reacher作测试。

使用强化学习算法：确定性策略梯度方法DDPG作为对比，两种方法的测试参数配置如下：

1)DDPG算法

DDPG的动作网络和评价网络的所有中间层向量维度均设为64。

延迟更新网络的更新参数τ＝0.01，折扣因子γ＝0.99。

2)本发明的高效探索方法(具体方法如前步骤1)～2)所述，不再赘述)

所有使用到的VAE均使用相同结构，选择编码层和解码层维度为64，均值向量、标准差向量、隐向量维度为8。

行动策略和探索策略的评价网络和动作网络的结构与DDPG相同。其他DDPG相关参数与上述DDPG算法使用参数相同。

探索策略损失函数中的距离约束项系数α＝1，距离dist的上下界定分别为d ⁺＝0.3,d ^-＝0.1。α动态调整系数λ＝1.01，当距离超过d ⁺时，α＝α×λ，当距离低于d ^-时，α＝α÷λ。奖赏量级因子β＝1，奖赏的计算公式采用公式(2)。

动作选择时选择探索策略的概率为p＝0.1。

上述两种算法共有的参数如下：

采样的每个批次数据的数量为64。所有优化器选择Adam优化算法，所有动作网络的学习率learning rate为10 ^-4，其余所有网络的learning rate为10 ^-3。所有使用的激活函数均为ReLU。

测试结果如图4～7所示，其中BRL-S是本发明所提出的高效探索方法的结果。测试结果表明，在四个测试任务下，所提出的高效探索方法能够取得比DDPG更好的结果。具体的，在HalfCheetah任务下，高效探索方法取得的分数比DDPG高约15％；Swimmer环境下，高约67％；Ant环境下，高约160％；Reacher环境下将分数从-12分提高到-8分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

一种强化学习的高效探索方法，其特征在于，步骤如下：

1)预训练计数估计函数，预训练过程为：

1.1)在环境的状态空间中进行采样；

1.2)对每个采样到的状态，分别用独立的VAE对其进行重构；

1.3)对每个采样到的状态s，用不同数量的状态s训练VAE，并计算对应的重构误差；记数量为count时的重构误差为error，得到三元组为<s,error,count>；

1.4)将不同状态和不同数量下得到的三元组<s,error,count>构成三元组集合M；

1.5)将计数估计函数用神经网络c _θ(s,err)表示，用1.4)中所得到的三元组集合M作为数据集训练神经网络c _θ，每一轮训练时从三元组集合M中采样一个批次的数据：

式中：N为当前批次数据的个数；s _i为第i个数据记录的状态s，err _i为第i个数据记录的重构误差error，cnt _i为第i个数据记录的数量count；

神经网络c _θ损失函数为:

2)利用预训练的计数估计函数进行强化学习的高效探索，探索过程为：

2.1)将强化学习算法中的行动策略μ(s)拷贝一份作为探索策略μ _E(s)；

2.2)初始化一个VAE，记为V ^*；

2.3)对于强化学习过程中遇到的<状态s,动作a,奖励r>序列，对于每一个<状态s,动作a,奖励r>对，用状态s训练V ^*并计算其重构误差err ^*＝‖V ^*(s)-s‖ ²，V ^*(s)表示状态s输入V ^*所得到的结果；

2.4)用状态s的实时重构误差err ^*和预训练的计数估计函数c _θ(s,err)估计状态s出现次数cnt(s)＝c _θ(s,err ^*)；

2.5)按照公式(1)或(2)，用估计的状态出现次数cnt(s)计算相应的奖赏：

式中：β为奖赏量级因子，β>0；

2.6)用环境给出的奖励信号r训练行动策略μ(s)，用奖赏信号R训练探索策略μ _E(s)；在训练探索策略时，同时引入与行动策略的距离约束α‖μ(s)-μ _E(s)‖ ²，α为约束项因子；

2.7)以一定的概率p选择探索策略产生的动作与环境进行交互，以剩下的概率1-p选择行动策略产生的动作与环境进行交互；

2.8)不断重复2.3)～2.7)，直到满足终止条件，终止循环，完成强化学习的高效探索。
如权利要求1所述的强化学习的高效探索方法，其特征在于，所述的终止条件为强化学习算法与环境交互次数达到设定上限T。
如权利要求1所述的强化学习的高效探索方法，其特征在于，所述的奖赏R优选采用公式(2)计算。
如权利要求1所述的强化学习的高效探索方法，其特征在于，所述的2.6)中，在训练过程中，计算两个策略的距离dist＝‖μ(s)-μ _E(s)‖ ²，α根据距离dist动态调整，当两个策略的距离超过设定的上限时，增大α；当两个策略的距离低于设定的下限时，减小α。
如权利要求1所述的强化学习的高效探索方法，其特征在于，所述的奖赏量级因子β＝1，概率p＝0.1。