WO2020024791A1

WO2020024791A1 - 智能体强化学习方法、装置、设备及介质

Info

Publication number: WO2020024791A1
Application number: PCT/CN2019/096233
Authority: WO
Inventors: 刘春晓; 薛洋; 张伟; 林倞
Original assignee: 深圳市商汤科技有限公司
Priority date: 2018-07-28
Filing date: 2019-07-16
Publication date: 2020-02-06
Also published as: US20210117738A1; CN109190720B; CN109190720A; JP7163477B2; SG11202013079WA; JP2021532457A

Abstract

本公开实施例的实施例公开了一种智能体强化学习方法、装置、设备及介质，其中的方法包括：获取智能体针对当前环境图像进行决策所依据的关键视觉信息；获取所述当前环境图像的实际关键视觉信息；根据所述所依据的关键视觉信息以及所述实际关键视觉信息，确定注意力变化回报信息；根据所述注意力变化回报信息调整智能体强化学习的回报反馈。

Description

智能体强化学习方法、装置、设备及介质

本公开要求在2018年07月28日提交中国专利局、申请号为CN201810849877.6、发明名称为“智能体强化学习方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，尤其是涉及一种智能体强化学习方法、智能体强化学习装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

在游戏以及机器人等诸多技术领域，通常会使用到智能体，例如，游戏中的接档下落小球的移动板或者机器臂等。智能体在强化学习过程中，通常是利用在环境中试错得到的奖赏信息，来指导学习的。

如何提高强化学习后的智能体的行为安全性，是强化学习中的一个重要的技术问题。

发明内容

本公开实施例提供一种智能体强化学习的技术方案。

根据本公开实施例的一方面，提供一种智能体强化学习方法，所述方法包括：获取智能体针对当前环境图像进行决策所依据的关键视觉信息；获取所述当前环境图像的实际关键视觉信息；根据所述所依据的关键视觉信息以及所述实际关键视觉信息，确定注意力变化回报信息；根据所述注意力变化回报信息调整智能体强化学习的回报反馈。

根据本公开实施例的另一方面，提供一种智能体强化学习装置，所述装置包括：获取关键视觉模块，用于获取智能体针对当前环境图像进行决策所依据的关键视觉信息；获取实际视觉模块，用于获取所述当前环境图像的实际关键视觉信息；确定变化回报模块，用于根据所述所依据的关键视觉信息以及所述实际关键视觉信息，确定注意力变化回报信息；调整回报反馈模块，用于根据所述注意力变化回报信息调整智能体强化学习的回报反馈。

根据本公开实施例的又一方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开任一方法实施例。

根据本公开实施例的再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开任一方法实施例。

根据本公开实施例的再一个方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本公开任一方法实施例。

基于本公开实施例提供的智能体强化学习方法、智能体强化学习装置、电子设备、计算机可读存储介质及计算机程序，通过获得智能体针对当前环境图像进行决策所依据的关键视觉信息，可以利用当前环境图像的实际关键视觉信息，衡量出智能体在进行决策时，针对当前环境图像时的注意力变化情况(如注意力偏移情况)，从而可以利用该注意力变化情况，确定出注意力变化回报信息。本公开实施例通过利用注意力变化回报信息来调整智能体强化学习的回报反馈，可以使回报反馈体现出注意力变化回报信息，从而利用这样的回报反馈对智能体进行强化学习，可以减少由于智能体的注意力不准确(如注意力偏移)而导致其执行危险动作等概率。由此可知，本公开实施例提供的技术方案有利于提高智能体的行为安全性。

下面通过附图和实施例，对本公开实施例的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开实施例的实施例，并且连同描述一起用于解释本公开实施例的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开实施例，其中：

图1为本公开实施例的智能体强化学习方法一个的流程图；

图2为智能体的网络结构的一个的示意图；

图3为智能体的网络结构的另一个的示意图；

图4为本公开实施例的获取智能体针对当前环境图像的价值注意力图的一个的流程图；

图5为本公开实施例的获取智能体针对当前环境图像的价值注意力图的一个的示意图；

图6为本公开实施例的智能体强化学习装置一的结构示意图；

图7为实现本公开实施例的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本公开实施例的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开实施例的范围。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序，不应理解成对本公开实施例的限定。还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开实施例对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开实施例及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，公开实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开实施例中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开实施例的智能体强化学习方法的一个流程图。如图1所示，该实施例方法包括：

S100、获取智能体针对当前环境图像进行决策所依据的关键视觉信息。

在一个可选示例中，本公开实施例中的智能体可以为游戏中接档下落小球的移动板或者机械臂等、以及车辆、机器人、智能家居设备等基于强化学习而形成的具有人工智能特性的客体。本公开实施例不限制智能体的具体表现形式，也不限制客体表现为硬件、软件或者软硬件结合的可能性。

在一个可选示例中，该操作S100可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取关键视觉模块600执行。

S110、获取当前环境图像的实际关键视觉信息。

在一个可选示例中，该操作S110可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取实际视觉模块610执行。

S120、根据上述所依据的关键视觉信息以及上述实际关键视觉信息，确定注意力变化回报信息。

在一个可选示例中，该操作S120可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的确定变化回报模块620执行。

S130、根据注意力变化回报信息调整智能体强化学习的回报反馈(Reward)，从而可以基于调整后的回报反馈实现智能体的强化学习。

其中，根据注意力变化回报信息调整智能体强化学习的回报反馈可以包括：使智能体强化学习的回报反馈包含有注意力变化回报信息，如将注意力变化回报信息添加在回报反馈中。

在一个可选示例中，该操作S130可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调整回报反馈模块630执行。

在一些可选示例中，本公开实施例中的关键视觉信息可以包括：图像中需要注意的区域；也可以包括：图像中的注意力区域。所依据的关键视觉信息可以包括：智能体所认为的注意力区域，即智能体在做出决策时，针对当前环境图像的注意力区域。当前环境图像的实际关键视觉信息可以包括：当前环境图像的真正的关键视觉信息，即当前环境图像的真正的注意力区域，也即当前环境图像中的目标对象所在区域。

在一些可选示例中，可以根据智能体在做出决策时，针对当前环境图像的注意力区域，与目标对象所在区域的交集与目标对象所在区域的比值，确定注意力变化回报信息。

本公开实施例中的注意力变化回报信息用于使智能体所认为的当前环境图像的注意力区域更接近于当前环境图像的实际关键视觉信息。在一些可选示例中，本公开实施例的回报反馈可以包括：注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。智能体针对当前环境图像进行决策所形成的回报信息通常是现有的智能体进行强化学习所采用的回报信息。

本公开实施例通过获得智能体针对当前环境图像的所依据的关键视觉信息，从而可以利用当前环境图像的实际关键视觉信息，衡量出智能体在针对当前环境图像进行决策时的注意力变化情况(如注意力偏移情况等)，进而可以利用该注意力变化情况，确定出注意力变化回报信息。本公开实施例通过利用注意力变化回报信息调整智能体学习的回报反馈，使回报反馈可以体现出注意力变化回报信息，通过利用这样的回报反馈实现智能体的强化学习，可以减少由于智能体的注意力不准确而导致其执行危险动作等概率，从而有利于提高智能体的行为安全性。上述危险动作的一个例子为：在智能体应该运动的情况下，智能体的决策结果为空动作，从而使智能体保持原状态，此时决策出的空动作即为危险动作。本公开实施例并不限制危险动作的具体表现形式。

在一个可选示例中，强化学习过程中的智能体所包含的网络结构的一个例子如图2所示。图2中的智能体包含有卷积神经网络(图2中间位置处)、决策网络(Policy Network)和价值网络(Value Network)等。智能体通过与环境进行交互，可以获得当前环境图像，图2最下方所示图像即为当前环境图像的一个例子。当前环境图像被输入卷积神经网络，在卷积神经网络中，前一卷积层所形成的当前环境图像的特征图被提供给后一卷积层，最后一层卷积层所形成的当前环境图像的特征图，分别提供给决策网络和价值网络。决策网络针对其接收到的特征图进行决策处理。价值网络针对接收到的特征图进行状态价值预测处理，以确定当前环境图像的状态价值。

强化学习过程中的智能体所包含的网络结构的另一个例子如图3所示。图3中的智能体包含有卷积神经网络(图3中间位置处)、RNN(Recurrent Neuron Network，循环神经网络)、决策网络以及价值网络。智能体通过与环境进行交互，可以获得当前环境图像，图3最下方所示的图像是当前环境图像的一个例子。当前环境图像被输入卷积神经网络，在卷积神经网络中，前一卷积层所形成的当前环境图像的特征图被提供给后一卷积层，最后一层卷积层所形成的当前环境图像的特征图，被提供给RNN，RNN可以将特征图的时序信息转换为一维的特征向量。RNN输出的特征图以及时序特征向量被分别提供给决策网络和价值网络。决策网络针对其接收到的特征图和时序特征向量进行决策处理。价值网络针对接收到的特征图和时序特征向量进行状态价值预测处理，以确定当前环境图像的状态价值。

需要说明的是，图2和图3仅为强化学习过程中的智能体的网络结构的可选示例，智能体的网络结构还可以表现为其他形式，本公开实施例不限制智能体的网络结构的具体表现形式。

在一个可选示例中，本公开实施例中的所依据的关键视觉信息，是可以反映出智能体(例如，智能体中的决策网络)在做出决策时，针对当前环境图像的注意力的信息。在本公开实施例中，做出决策的时机可以取决于预先设定，例如，可以预先设定智能体每隔0.2秒作出一次决策。本公开实施例中的决策结果可以为从动作空间中选择出一个动作。本公开实施例可以先通过智能体的价值网络获得：智能体在做出决策时，与其针对当前环境图像的注意力，相对应的热力图；然后，再通过该热力图获得智能体做出决策时，针对当前环境图像的所依据的关键视觉信息。例如，本公开实施例可以根据预先设置的阈值对热力图中的像素进行筛选，以筛选出像素的取值超过预先设置的阈值的像素，之后，根据筛选出的像素所形成的区域，可以确定出智能体在做出决策时，针对当前环境图像的注意力区域。通过利用智能体的价值网络来获得关键视觉信息，有利于方便快捷的获得关键视觉信息。

在一个可选示例中，本公开实施例中的智能体在做出决策时，其针对当前环境图像的注意力可以使用价值注意力图(Value Attention Map)来体现。换而言之，价值注意力图可以包括：智能体的价值网络在做出状态价值判断时，所依据的关键视觉信息。在一个可选示例中，获取智能体针对当前环境图像进行决策所依据的关键视觉信息，可以包括：获取智能体针对当前环境图像的价值注意力图；对价值注意力图和当前环境图像进行合成处理，获得热力图；根据热力图确定智能体针对当前环境图像的注意力区域。

本公开实施例可以采用多种方式获得当前环境图像的价值注意力图，例如，本公开实施例可以利用如图4所示的流程获得价值注意力图。图4中，S400、获取当前环境图像的特征图。

可选的，本公开实施例中的特征图通常属于智能体的卷积神经网络针对当前环境图像而形成的高层特征图。例如，将当前环境图像输入智能体的卷积神经网络中，并将该卷积神经网络的最后一层卷积层输出的特征图作为S400中的当前环境图像的特征图。当然，将卷积神经网络的倒数第二层卷积层输出的特征图作为S400中的当前环境图像的特征图，也是完全可行的。只要是属于卷积神经网络中的高层特征图即可。本公开实施例中的高层特征图可以认为是：在将智能体的卷积神经网络的结构划分为两个或者三个或者更多阶段的情况下，中间阶段或中后阶段或最后一个阶段中的任一层针对当前环境图像而形成的特征图。本公开实施例中的高层特征图也可以认为是，较为接近或者最接近智能体的卷积神经网络输出的层所形成的特征图。通过利用高层特征图，有利于提高获得的价值注意力图的准确性。

S410、根据上述获得的特征图，获得依次屏蔽该特征图各通道而形成的各改变特征图。

可选的，本公开实施例中的改变特征图包括相对于S400中的特征图而言，由于屏蔽了特征图中的相应通道，而形成的与S400中的特征图不同的特征图。在当前环境图像的特征图具有多个通道的情况下，本公开实施例获得各改变特征图的一个例子为：首先，通过屏蔽该特征图中的第一通道，可以获得第一个改变特征图；其次，通过屏蔽该特征图中的第二通道，可以获得第二个改变特征图；再次，通过屏蔽该特征图中的第三通道，可以获得第三个改变特征图；以此类推，直到屏蔽该特征图中的最后一个通道，可以获得最后一个改变特征图。图5右侧的中间位置处，示出了通过屏蔽高层特征图的不同通道而获得的三个改变特征图。本公开实施例中的屏蔽特征图的相应通道，也可以认为是屏蔽隐含层的相应激活信息。在特征图具有n(n为大于1的整数)个通道的情况下，本公开实施例可以获得n个改变特征图。本公开实施例可以采用现有的方式实现屏蔽相应隐含层的激活信息，从而获得改变特征图，具体实现方式在此不再详细说明。

S420、获取各改变特征图分别相对于特征图的状态价值改变量。

可选的，本公开实施例可以先将上述获得的各改变特征图，分别输入智能体的价值网络中，以获得各改变特征图的状态价值，例如由价值网络针对各改变特征图分别进行状态价值预测处理，从而可以获得各改变特征图的状态价值，例如，针对n个改变特征图可以获得n个状态价值；其次，本公开实施例可以通过计算价值网络针对S400中的特征图所输出的状态价值，分别与各改变特征图的状态价值的差值，从而获得各改变特征图分别相对于当前环境图像的特征图的状态价值改变量。

可选的，假设价值网络针对当前环境图像的特征图所形成的状态价值为V，且价值网络针对n个改变特征图所形成的状态价值分别为V ₁、V ₂、V _i、……以及V _n，则本公开实施例可以通过计算V与V ₁的差值、V与V ₂的差值、V与V _i的差值、……以及V与V _n的差值，从而获得n个差值，即ΔV ₁、ΔV ₂、ΔV _i、……以及ΔV _n(如图5右上位置处所示)。ΔV ₁、ΔV ₂、ΔV _i、……以及ΔV _n即为n个改变特征图分别相对于当前环境图像的特征图的状态价值改变量。

针对任意一个改变特征图而言，本公开实施例可以利用下述公式(1)计算该改变特征图相对于当前环境图像的特征图的状态价值改变量：

ΔV＝V-f ^V(B _i⊙H) 公式(1)

在上述公式(1)中，ΔV表示状态价值改变量；V表示价值网络针对当前环境图像的特征图所形成的状态价值；H表示当前环境图像的特征图；B _i⊙H表示屏蔽了特征图中的第i个通道后，所获得的改变特征图；f ^V(B _i⊙H)表示价值网络针对该改变特征图所形成的状态价值，其中，i为大于0且不大于n的整数，n为大于1的整数。

由于卷积神经网络中的隐含层的不同激活信息会针对相应的特定模式进行激活，从而使隐含层关注不同的区域，因此，本公开实施例通过依次屏蔽隐含层的不同激活信息，并获取各改变特征图相对于特征图的状态价值改变量，使不同的状态价值改变量可以反映出智能体对不同区域的关注程度。

S430、根据各状态价值改变量以及各改变特征图形成价值注意力图。

在一个可选示例中，上述操作S400-S430可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取关键视觉模块600执行。

可选的，本公开实施例可以对状态价值改变量进行归一化处理，以形成各改变特征图的权值。对状态价值改变量进行归一化处理的一个例子，如下述公式(2)所示：

在上述公式(2)中，ω _i表示第i个改变特征图的权值。

可选的，本公开实施例可以通过下述公式(3)形成价值注意力图：

在上述公式(3)中，A表示价值注意力图，H _i表示卷积神经网络的最后一卷积层输出的第i个通道的特征图，K为通道数量。

需要特别说明的是，本公开实施例也可以采用现有的方式获得智能体在做出决策时，针对当前环境图像的价值注意力图。本公开实施例不限制获取智能体在做出决策时，针对当前环境图像的价值注意力图的具体实现过程。

在一个可选示例中，本公开实施例可以先对上述获得的价值注意力图A进行尺寸调整，例如，对价值注意力图A进行上采样处理等，以便于使价值注意力图A的尺寸与当前环境图像的尺寸相同；之后，再将尺寸调整后的价值注意力图A’和当前环境图像(如图5左下角的图像)进行融合处理，从而获得当前环境图像的价值注意力图所对应的热力图。热力图的一个可选例子如图5右下角所示的图像。

在一个可选示例中，本公开实施例中的当前环境图像的实际关键视觉信息可以包括：当前环境图像中的目标对象所在区域。例如，本公开实施例可以利用目标对象检测算法，获得当前环境图像中的目标对象所在区域。本公开实施例不限制目标对象检测算法的具体实现方式，也不限制获得当前环境图像中的目标对象所在区域的具体实现方式。

在一个可选示例中，本公开实施例中的注意力变化回报信息可以反映出智能体针对当前环境图像所关注的区域与实际应关注的区域之间的差距。也就是说，本公开实施例可以根据智能体做出决策时针对当前环境图像所关注的注意力区域、以及当前环境图像中的目标对象所在区域之间的差异大小，确定出注意力变化回报信息。

可选的，本公开实施例可以先根据所依据的关键视觉信息，确定出智能体针对当前环境图像的注意力区域，例如，可以根据预先设置的阈值，对所依据的关键视觉信息(如热力图)中的像素进行筛选，筛选出像素的取值超过预先设置的阈值的像素，并根据筛选出的像素所形成的区域，确定出智能体针对当前环境图像的注意力区域a；然后，本公开实施例可以计算注意力区域a与当前环境图像中的目标对象所在区域b的交集与目标对象所在区域b的比值(a∩b)/b，并根据该比值确定出注意力变化回报信息。例如，通过针对比值进行换算，从而获得注意力变化回报信息。本公开实施例中的比值或者基于比值而获得的注意力变化回报信息，可以认为是对智能体行为的安全性评价指标。比值越大，则智能体行为的安全性越高，反之，比值越小，则智能体行为的安全性越低。

在一个可选示例中，本公开实施例通过利用上述获得注意力变化回报信息调整智能体强化学习的回报反馈(如将上述获得的注意力变化回报信息添加在智能体强化学习的回报反馈中)，并利用这样的回报反馈来更新智能体的网络参数(如更新卷积神经网络、价值网络以及策略网络等的网络参数)，使智能体在强化学习过程中，可以降低注意力变化(如注意力偏差)所导致的执行危险动作的几率。更新智能体的网络参数的方式可以采用基于强化学习中的演员-评论家算法的方式。更新智能体的网络参数的具体目标包括：使智能体中的价值网络所预测的状态价值尽可能的接近一个环境探索周期内的奖赏信息的积累值，且智能体中的决策网络的网络参数的更新应朝着使价值网络预测的状态价值增大的方向更新。

在一个可选示例中，在打砖块的游戏中，打砖块的小球在下落过程中，会由于重力作用而加速下降，对于接档下落小球的移动板而言，往往会由于注意力滞后，而存在执行危险动作(如移动板执行空动作等)的现象。本公开实施例通过利用可以体现出注意力变化回报信息的回报反馈(如奖赏信息)，使移动板进行强化学习，有利于避免移动板注意力滞后的现象，从而有利于降低移动板执行危险动作的几率。

需要特别说明的是，在利用注意力变化回报信息调整回报反馈，以利用该回报反馈实现智能体的强化学习时，该智能体可以是已经进行了一定程度的强化学习的智能体。例如，在对智能体进行初始化处理后，本公开实施例可以利用现有的强化学习方式，基于未包含有注意力变化回报信息的回报反馈，使智能体进行强化学习，在判断出智能体的强化学习程度达到一定的要求(例如，决策网络的熵降到一定数值(如0.6))的情况下，再采用本公开实施例提供的技术方案使智能体继续进行强化学习，从而有利于提高智能体的强化学习的效率以及成功率。

在一个可选示例中，在上述强化学习的过程中，本公开实施例可以从采样获得的强化学习训练数据中，选取重要的强化学习训练数据作为历史训练数据存储，以便于在经验回放过程中，可以利用重要的强化学习训练数据，来调整智能体的网络参数；例如，对策略网络、价值网络以及卷积神经网络的网络参数进行调整；再例如，对策略网络、价值网络、RNN以及卷积神经网络的网络参数进行调整。本公开实施例通过选取重要的强化学习训练数据作为历史训练数据存储，可以有效减少历史训练数据所需的缓存空间；通过采用重要的强化学习训练数据作为历史训练数据进行经验回放，有利于提高智能体的强化学习效率。

在本公开上述实施例的智能体强化学习方法中，还可以包括：根据所依据的关键视觉信息，确定环境探索周期内的探索程度；在判断出探索程度不符合预定探索程度的情况下，利用存储的历史训练数据进行经验回放。其中的历史训练数据可以包括：利用预设要求对采样的强化学习训练数据进行筛选，而获得的训练数据。

在一个可选示例中，根据所依据的关键视觉信息，确定环境探索周期内的探索程度，可以包括：根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息，确定该环境探索周期内的注意力改变量。其中，该注意力改变量用于衡量环境探索周期内的探索程度。

在一个可选示例中，本公开实施例可以利用一环境探索周期内的正向回报(如正向奖赏等)和该环境探索周期的探索程度，来确定该环境探索周期内的强化学习训练数据的重要程度，从而在判断出该重要程度符合预定要求时，可以将该环境探索周期内的强化学习训练数据，作为历史训练数据缓存。

在一个可选示例中，本公开实施例中的环境探索周期的探索程度可以使用该环境探索周期内的注意力改变量来体现，例如，本公开实施例可以根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息，确定该环境探索周期内的注意力改变量，并将该注意力改变量作为该环境探索周期内的探索程度。可选的，本公开实施例可以利用下述公式(4)来计算一个环境探索周期内的注意力改变量：

在上述公式(4)中，E表示一个环境探索周期内的平均注意力改变量，

表示包含当前环境图像中的所有像素；T表示一个环境探索周期内智能体与环境交互的次数；A _t表示在智能体第t次与环境交互时的当前环境图像所对应的价值注意力图，A _t-1表示在第t-1次与环境交互时的当前环境图像所对应的价值注意力图。

在一个可选示例中，本公开实施例可以利用下述公式(5)来计算一个环境探索周期内的强化学习训练数据的重要程度：

S＝β∑r ⁺+(1-β)E 公式(5)

在上述公式(5)中，S表示一个环境探索周期内的强化学习训练数据的重要程度，β表示超参数，β通常为0-1之间的常数，r ⁺表示该环境探索周期内的正向回报，E表示该环境探索周期内的平均注意力改变量。

在一个可选示例中，如果一个环境探索周期内的强化学习训练数据的重要程度高于预定值，则可以将该环境探索周期内的所有强化学习训练数据(如奖赏信息以及当前环境图像等)作为历史训练数据进行缓存；否则，不保留该环境探索周期内的所有强化学习训练数据。

在一个可选示例中，本公开实施例在强化学习过程中，本公开实施例可以利用缓存的历史训练数据，以经验回放方式，来调整智能体的网络参数；例如，调整策略网络、价值网络以及卷积神经网络的网络参数；再例如，调整策略网络、价值网络、RNN以及卷积神经网络的网络参数。可选的，本公开实施例判断一个环境探索周期内的探索程度，在确定出该探索程度不符合预定探索程度的情况下，可以产生随机数，如果该随机数超过预定数值(如0.3)，则确定出需要进行经验回放，从而本公开实施例可以利用预先存储的历史训练数据执行经验回放操作。而如果该随机数未超过预定数值，则可以确定出不需要进行经验回放。经验回放的具体实现过程可以采用现有的实现方式。在此不再详细说明。

本公开实施例提供的任一种智能体强化学习方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种智能体强化学习方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种智能体强化学习方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图6为本公开实施例的智能体强化学习装置一个实施例的结构示意图。如图6所示，该实施例的装置主要包括：获取关键视觉模块600、获取实际视觉模块610、确定变化回报模块620以及调整回报反馈模块630。可选的，该装置还可以包括：经验回放模块640以及获取训练数据模块650。

获取关键视觉模块600用于获取智能体针对当前环境图像进行决策所依据的关键视觉信息。

在一个可选示例中，上述所依据的关键视觉信息可以包括：智能体在做出决策时，针对当前环境图像的注意力区域。获取关键视觉模块600可以进一步用于：首先，获取智能体针对当前环境图像的价值注意力图，之后，对价值注意力图和当前环境图像进行合成处理，获得热力图；然后，根据热力图确定智能体针对当前环境图像的注意力区域。

在一个可选示例中，获取关键视觉模块600获取价值注意力图的方式可以可选为：首先，获取关键视觉模块600获取当前环境图像的特征图；之后，获取关键视觉模块600根据特征图获得依次屏蔽特征图各通道而形成的各改变特征图；然后，获取关键视觉模块600获取各改变特征图分别相对于特征图的状态价值改变量；最后，获取关键视觉模块600根据各状态价值改变量以及各改变特征图形成价值注意力图。

在一个可选示例中，获取关键视觉模块600获取当前环境图像的特征图的方式可以可选为：首先，获取关键视觉模块600将当前环境图像输入卷积神经网络，然后，获取关键视觉模块600获取卷积神经网络的最后一层卷积层输出的特征图。其中的最后一层卷积层输出的特征图为所述获取关键视觉模块获取到的当前环境图像的特征图。

在一个可选示例中，获取关键视觉模块600获取各改变特征图分别相对于特征图的状态价值改变量的方式可以可选的为：首先，获取关键视觉模块600将各改变特征图输入智能体的价值网络，以获得各改变特征图的状态价值；之后，获取关键视觉模块600计算价值网络针对特征图输出的状态价值，分别与各改变特征图的状态价值的差值，以获得各改变特征图分别相对于特征图的状态价值改变量。

获取实际视觉模块610用于获取当前环境图像的实际关键视觉信息。

在一个可选示例中，本公开实施例中的当前环境图像的实际关键视觉信息可以包括：当前环境图像中的目标对象所在区域。

确定变化回报模块620用于根据上述所依据的关键视觉信息以及上述实际关键视觉信息，确定注意力变化回报信息。

在一个可选示例中，确定变化回报模块620可以根据智能体在做出决策时，针对当前环境图像的注意力区域，与目标对象所在区域的交集与目标对象所在区域的比值，确定注意力变化回报信息。

调整回报反馈模块630用于根据注意力变化回报信息调整智能体强化学习的回报反馈。

在一个可选示例中，本公开实施例中的智能体强化学习的回报反馈可以包括：注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。

经验回放模块640用于根据所依据的关键视觉信息，确定环境探索周期内的探索程度；在判断出探索程度不符合预定探索程度的情况下，利用存储的历史训练数据进行经验回放。本公开实施例中的历史训练数据包括：利用预设要求对采样的强化学习训练数据进行筛选，而获得的训练数据。

在一个可选示例中，经验回放模块640确定环境探索周期内的探索程度可以可选的为：经验回放模块640根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息，确定该环境探索周期内的注意力改变量。其中的注意力改变量用于衡量环境探索周期内的探索程度。

获取训练数据模块650用于根据环境探索周期内的正向回报和探索程度，确定环境探索周期内采样的强化学习训练数据的重要程度，并将该环境探索周期内采样的重要程度符合预定要求的强化学习训练数据作为历史训练数据存储。

获取关键视觉模块600、获取实际视觉模块610、确定变化回报模块620、调整回报反馈模块630、经验回放模块640以及获取训练数据模块650所执行的具体操作，可以参见上述方法实施例中针对图1至图5中的描述。在此不再重复说明。

图7示出了适于实现本公开实施例的示例性设备700，设备700可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图7中，设备700包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)701，和/或，一个或者多个利用神经网络进行智能体强化学习方法的图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令，通过总线704与通信部712相连、并经通信部712与其他目标设备通信，从而完成本公开任一实施例智能体强化学习方法中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。此外，在RAM 703中，还可以存储有装置操作所需的各种程序以及数据。CPU701、ROM702以及RAM703通过总线704彼此相连。

在有RAM703的情况下，ROM702为可选模块。RAM703存储可执行指令，或在运行时向ROM702中写入可执行指令，可执行指令使中央处理单元701执行上述任一实施例智能体强化学习方法所包括的步骤。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装在存储部分708中。

需要特别说明的是，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU713和CPU701可分离设置，再如理，可将GPU713集成在CPU701上，通信部可分离设置，也可集成设置在CPU701或GPU713上等。这些可替换的实施例均落入本公开实施例的保护范围。

特别地，根据本公开实施例的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本公开实施例包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本公开任一实施例提供的智能体强化学习方法中的步骤对应的指令。

在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载及安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本公开任一实施例智能体强化学习方法中记载的实现上述相应操作的指令。

在一个或多个可选实施例中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意任一实施例中所述的智能体强化学习方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施例中，本公开实施例还提供了另一种智能体强化学习方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中的方法包括：第一装置向第二装置发送智能体强化学习指示，该指示使得第二装置执行上述任一可能的实施例中的智能体强化学习方法；第一装置接收第二装置发送的智能体强化学习的结果。

在一些实施例中，该智能体强化学习指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行智能体强化学习操作，相应地，响应于接收到调用指令，第二装置可以执行上述智能体强化学习方法中的任意实施例中的操作和/或流程。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开实施例的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开实施例的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本公开实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施例实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开实施例的方法的机器可读指令。因而，本公开实施例还覆盖存储用于执行根据本公开实施例的方法的程序的记录介质。

本公开实施例的描述，是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开实施例限于所公开实施例的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施例是为了更好说明本公开实施例的原理以及实际应用，并且使本领域的普通技术人员能够理解本公开实施例可以从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种智能体强化学习方法，其特征在于，包括：

获取智能体针对当前环境图像进行决策所依据的关键视觉信息；

获取所述当前环境图像的实际关键视觉信息；

根据所述所依据的关键视觉信息以及所述实际关键视觉信息，确定注意力变化回报信息；

根据所述注意力变化回报信息调整智能体强化学习的回报反馈。
根据权利要求1所述的方法，其特征在于，所述所依据的关键视觉信息包括：所述智能体在做出决策时，针对所述当前环境图像的注意力区域。
根据权利要求2所述的方法，其特征在于，所述获取智能体针对当前环境图像进行决策所依据的关键视觉信息，包括：

获取所述智能体针对所述当前环境图像的价值注意力图；

对所述价值注意力图和所述当前环境图像进行合成处理，获得热力图；

根据所述热力图确定所述智能体针对当前环境图像的注意力区域。
根据权利要求3所述的方法，其特征在于，所述获取智能体针对当前环境图像的价值注意力图，包括：

获取所述当前环境图像的特征图；

根据所述特征图获得依次屏蔽所述特征图各通道而形成的各改变特征图；

获取所述各改变特征图分别相对于所述特征图的状态价值改变量；

根据各状态价值改变量以及各改变特征图形成所述价值注意力图。
根据权利要求4所述的方法，其特征在于，所述获取当前环境图像的特征图，包括：

将所述当前环境图像输入卷积神经网络，并获取所述卷积神经网络的最后一层卷积层输出的特征图。
根据权利要求4至5中任一项所述的方法，其特征在于，所述获取所述各改变特征图分别相对于所述特征图的状态价值改变量，包括：

将所述各改变特征图输入智能体的价值网络，以获得所述各改变特征图的状态价值；

计算所述价值网络针对所述特征图输出的状态价值，分别与所述各改变特征图的状态价值的差值，以获得所述各改变特征图分别相对于所述特征图的状态价值改变量。
根据权利要求1至6中任一项所述的方法，其特征在于，所述当前环境图像的实际关键视觉信息包括：当前环境图像中的目标对象所在区域。
根据权利要求7所述的方法，其特征在于，所述根据所述所依据的关键视觉信息以及所述实际关键视觉信息，确定注意力变化回报信息，包括：

根据所述智能体在做出决策时，针对所述当前环境图像的注意力区域，与所述目标对象所在区域的交集与目标对象所在区域的比值，确定注意力变化回报信息。
根据权利要求1至8中任一项所述的方法，其特征在于，所述智能体强化学习的回报反馈包括：注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。
根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

根据所述所依据的关键视觉信息，确定环境探索周期内的探索程度；

在判断出所述探索程度不符合预定探索程度的情况下，利用存储的历史训练数据进行经验回放；

所述历史训练数据包括：利用预设要求对采样的强化学习训练数据进行筛选，而获得的训练数据。
根据权利要求10所述的方法，其特征在于，所述根据所述所依据的关键视觉信息，确定环境探索周期内的探索程度，包括：

根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息，确定该环境探索周期内的注意力改变量；

其中，所述注意力改变量用于衡量所述环境探索周期内的探索程度。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据所述环境探索周期内的正向回报和所述探索程度，确定所述环境探索周期内采样的强化学习训练数据的重要程度；

将该环境探索周期内采样的重要程度符合预定要求的强化学习训练数据作为历史训练数据存储。
一种智能体强化学习装置，其特征在于，包括：

获取关键视觉模块，用于获取智能体针对当前环境图像进行决策所依据的关键视觉信息；

获取实际视觉模块，用于获取所述当前环境图像的实际关键视觉信息；

确定变化回报模块，用于根据所述所依据的关键视觉信息以及所述实际关键视觉信息，确定注意力变化回报信息；

调整回报反馈模块，用于根据所述注意力变化回报信息调整智能体强化学习的回报反馈。
根据权利要求13所述的装置，其特征在于，所述所依据的关键视觉信息包括：所述智能体在做出决策时，针对所述当前环境图像的注意力区域。
根据权利要求14所述的装置，其特征在于，所述获取关键视觉模块用于：

获取所述智能体针对所述当前环境图像的价值注意力图；

对所述价值注意力图和所述当前环境图像进行合成处理，获得热力图；

根据所述热力图确定所述智能体针对当前环境图像的注意力区域。
根据权利要求15所述的装置，其特征在于，所述获取关键视觉模块用于：

获取所述当前环境图像的特征图；

根据所述特征图获得依次屏蔽所述特征图各通道而形成的各改变特征图；

获取所述各改变特征图分别相对于所述特征图的状态价值改变量；

根据各状态价值改变量以及各改变特征图形成所述价值注意力图。
根据权利要求16所述的装置，其特征在于，所述获取关键视觉模块用于：

将所述当前环境图像输入卷积神经网络，并获取所述卷积神经网络的最后一层卷积层输出的特征图；

其中，所述最后一层卷积层输出的特征图为所述获取关键视觉模块获取到的当前环境图像的特征图。
根据权利要求16至17中任一项所述的装置，其特征在于，所述获取关键视觉模块用于：

将所述各改变特征图输入智能体的价值网络，以获得所述各改变特征图的状态价值；

计算所述价值网络针对所述特征图输出的状态价值，分别与所述各改变特征图的状态价值的差值，以获得各改变特征图分别相对于所述特征图的状态价值改变量。
根据权利要求13至18中任一项所述的装置，其特征在于，所述当前环境图像的实际关键视觉信息包括：当前环境图像中的目标对象所在区域。
根据权利要求19所述的装置，其特征在于，所述确定变化回报模块用于：

根据所述智能体在做出决策时，针对所述当前环境图像的注意力区域，与所述目标对象所在区域的交集与目标对象所在区域的比值，确定注意力变化回报信息。
根据权利要求13至20中任一项所述的装置，其特征在于，所述智能体强化学习的回报反馈包括：注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。
根据权利要求13至21中任一项所述的装置，其特征在于，所述装置还包括：经验回放模块，用于：

根据所述所依据的关键视觉信息，确定环境探索周期内的探索程度；

在判断出所述探索程度不符合预定探索程度的情况下，利用存储的历史训练数据进行经验回放；

所述历史训练数据包括：利用预设要求对采样的强化学习训练数据进行筛选，而获得的训练数据。
根据权利要求22所述的装置，其特征在于，所述经验回放模块用于：

根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息，确定该环境探索周期内的注意力改变量；

其中，所述注意力改变量用于衡量所述环境探索周期内的探索程度。
根据权利要求23所述的装置，其特征在于，所述装置还包括：获取训练数据模块，用于

根据所述环境探索周期内的正向回报和所述探索程度，确定所述环境探索周期内采样的强化学习训练数据的重要程度；

将该环境探索周期内采样的重要程度符合预定要求的强化学习训练数据作为历史训练数据存储。
一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-12中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-12中任一项所述的方法。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-12中任一项所述的方法。