WO2021164276A1

WO2021164276A1 - 目标跟踪方法、装置、计算机设备及存储介质

Info

Publication number: WO2021164276A1
Application number: PCT/CN2020/120755
Authority: WO
Inventors: 何敏聪; 郜开开; 周宸; 周宝; 陈远旭
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-31
Filing date: 2020-10-14
Publication date: 2021-08-26
Also published as: CN111890365A; CN111890365B

Abstract

人工智能中的图像处理领域，涉及区块链技术，一种目标跟踪方法、装置、计算机设备及存储介质，其方法包括：按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列（S10）；将实时机械臂状态和包含目标对象的图像序列输入目标对象跟踪模型，获取目标对象跟踪模型输出的运动参数，目标对象跟踪模型为基于DDPG算法构建的预测模型（S20）；根据运动参数控制机械臂的运动状态，以使机械臂跟随目标对象移动（S30）。可以降低目标跟踪的开发成本，提高目标跟踪模型的训练效率，可应用于智慧城市的建设。

Description

目标跟踪方法、装置、计算机设备及存储介质

本申请要求于2020年7月31日提交中国专利局、申请号为202010763146.7，发明名称为“目标跟踪方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能中的图像处理领域，尤其涉及一种目标跟踪方法、装置、计算机设备及存储介质。

背景技术

目前，目标跟踪方法已在视频监控、工业制造、智慧家居、智能摄影等领域广泛应用。目标跟踪方法包括图像目标检测和运动控制两部分。首先使用图像目标检测对单帧或多帧图像进行检测，确定目标位置，然后根据目标位置计算运动参数(如速度矢量、加速度矢量)，按照运动参数控制机械臂跟随目标。然而，发明人意识到，这两部分均需要进行大量繁琐的标注、训练和调优工作，才能保证目标跟踪的精准度。这些标注、训练和调优工作需要人工参与，大大提高了目标跟踪方法的开发成本，同时训练的效率也不高。

申请内容

基于此，有必要针对上述技术问题，提供一种目标跟踪方法、装置、计算机设备及存储介质，以降低目标跟踪的开发成本，提高目标跟踪模型的训练效率。

一种目标跟踪方法，包括：

按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。

一种目标跟踪装置，包括：

采样模块，用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

获取运动参数模块，用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

跟随模块，用于根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

上述目标跟踪方法、装置、计算机设备及存储介质，按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列，在此处，可通过实时机械臂状态确定当前机器臂末端所处的位置，而包含目标对象的图像序列可用于确定目标对象的移动情况。将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型，在此处，目标对象跟踪模型是基于DDPG算法构建的，可以减少图像的标注，提高模型的训练速度。根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动，可实现实时跟踪目标对象。本申请可以降低目标跟踪的开发成本，提高目标跟踪模型的训练效率。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中目标跟踪方法的一应用环境示意图；

图2是本申请一实施例中目标跟踪方法的一流程示意图；

图3是本申请一实施例中目标跟踪方法的一流程示意图；

图4是本申请一实施例中目标跟踪方法的一流程示意图；

图5是本申请一实施例中目标跟踪方法的一流程示意图；

图6是本申请一实施例中目标跟踪装置的一结构示意图；

图7是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例提供的目标跟踪方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种目标跟踪方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤。

S10、按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列。

预设采样周期可以基于实际需要进行设置。在一示例中，预设采样周期为600ms。实时机械臂状态指的是实时采集的机械臂末端(TCP，Tool Center Point)的位置数据，可用机械臂各个关节的角度表示。机械臂通过若干个关节的运动改变机械臂末端的位置数据。一组关节的角度可以唯一确定机械臂末端的位置。

包含目标对象的图像序列指的是在预设采样周期内按一定时间间隔采集的一组图像。例如，每隔30ms采集一次图像，则在600ms内，可以采集20帧在不同时间点的图像。目标对象指的是需要跟踪的对象。在此处，目标对象可以是移动的人，也可以是移动的物体。需要强调的是，为进一步保证上述图像序列的共享性和安全性，上述图像序列还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

S20、将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型。

在此处，目标对象跟踪模型是基于DDPG(Deep Deterministic Policy Gradient，深度确定策略梯度)算法构建的预测模型。目标对象跟踪模型包含了训练好的Actor网络(演员网络)和Critic网络(评价网络)。Actor网络和Critic网络为全连接神经网络。在此处，使用模拟跟踪试验生成的经验数据集对目标对象跟踪模型进行训练。模拟跟踪试验指的是设置两个机械臂，第一个机械臂的末端放置跟踪摄像头，第二个机械臂的末端放置目标对象。两个机械臂的固定端的相对位置是固定的。也即是，可以基于两个机械臂的实时机械臂状态确定跟踪摄像头与目标对象的相对位置，进而判断目标对象是否在跟踪摄像头的视野范围内。因而，不需要对图像序列中的目标对象进行识别(这样也不需要对图像进行标注)，从而大大提高了模型的训练速度。

目标对象跟踪模型输出的运动参数可以是机械臂各个关节的角度变化量。若机械臂的关节数量为n个，则运动参数可表示为{Δθ ₁、Δθ ₂、Δθ ₃、……Δθ _n}。

S30、根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。

本实施例中，在获得运动参数之后，可以按照运动参数控制机械臂的运动状态。即，使机械臂的各个关节按照角度变化量改变各自的角度。从而可以带动机械臂，使机械臂跟随目标对象移动。

步骤S10-S30中，按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列，在此处，可通过实时机械臂状态确定当前机器臂末端所处的位置，而包含目标对象的图像序列可用于确定目标对象的移动情况。将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型，在此处，目标对象跟踪模型是基于DDPG算法构建的，可以减少图像的标注，提高模型的训练速度。根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动，可实现实时跟踪目标对象。本方案可应用于智慧城市的智能安防、智能制造等领域中，从而推动智慧城市的建设。

可选的，如图3所示，步骤S10，即所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列，包括：

S101、通过位置传感器获取所述机械臂的关节角度，所述实时机械臂状态包括所述关节角度；

S102、通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像，生成所述图像序列，所述拍摄装置设置在预设指定位置。

本实施例中，在机械臂的各个关节设置有位置传感器，可以感知对应关节角度。通过一组关节角度数据，可以确定机械臂末端当前所处的位置。可以通过设置在预设指定位置的拍摄装置按一定时间间隔(即指定拍摄频率)获取目标对象的图像，生成图像序列。图像序列可用Frames(θ)表示，其中，θ指代一组机械臂的关节角度。

可选的，所述预设采样周期包括200～1200ms；

所述拍摄装置包括至少两个摄像头；

所述预设指定位置为机械臂末端；

所述指定拍摄频率包括10～50ms。

本实施例中，预设采样周期可以是200～1200ms。在一示例中，预设采样周期为600ms。拍摄装置可以包括至少两个摄像头。通过至少两个摄像头成像，可以获得更多的图像特征，提高目标跟踪的精准度。拍摄装置可以安装在机械臂末端，实现动态跟踪。拍摄装置的指定拍摄频率可以是10～50ms。在一示例中，指定拍摄频率可以是30ms。

可选的，所述目标跟踪模型包括LSTM和预设演员网络，如图4所示，步骤S20，即所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型，获取所述目标跟踪模型输出的运动参数，包括：

S201、使用所述LSTM对所述图像序列进行编码，输出第一特征向量；

S202、将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量；

S203、将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数。

本实施例中，可通过LSTM(Long Short Term Memory Network，长短时记忆网络)对图像序列进行编码，输出第一特征向量。图像序列Frames＝{F _i}，经LSTM处理后生成第一特征向量feature，然后第一特征向量feature与角度θ拼接成第二特征向量p。第二特征向量p可以输入一个双层的全连接网络，即预设演员网络。经预设演员网络处理第二特征向量后，输出机械臂的运动参数。

步骤S201-S203中，使用LSTM对所述图像序列进行编码，输出第一特征向量，在此处，第一特征向量包含图像特征。将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量，在此处，第一特征向量包含图像特征和机械臂的位置特征。将所述第二特征向量输入预设演员网络，获取所述预设演员网络输出的所述运动参数，以获取机械臂跟踪目标对象的运动参数。

可选的，如图5所示，步骤S203之前，即所述将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数之前，还包括：

S21、获取基于机械臂跟踪训练生成的初始经验数据集，所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态，所述奖励参数随着指定位置距离的变化而变化，所述指定位置距离为机械臂末端与目标对象的距离；

S22、构建初始演员网络，使用所述初始经验数据集对所述初始演员网络进行预训练，获得预训练模型；

S23、使用所述初始经验数据集初始化DDPG的经验记忆数据库，并使用所述预训练模型初始化DDPG中的待训练演员网络；

S24、初始化完毕后，对所述待训练演员网络进行训练，基于所述待训练演员网络计算出实时运动参数，按照所述实时运动参数控制所述机械臂运动，然后计算出实时奖励参数，在一个所述预设采样周期之后，获取机械臂末端的实时目标状态，并获得在一次训练生成的训练数据，所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态；

S25、训练完毕后，获得所述预设演员网络，所述预设演员网络为基于所述待训练演员网络训练生成的网络。

本实施例中，初始经验数据集可以通过进行模拟试验后获得。具体的，可以设置两个机械臂，分别为机械臂A和机械臂B。这两个机械臂的固定端位置固定，机械臂A的机械臂末端(TCP)设置有拍摄装置，机械臂B的机械臂末端安放有目标对象(W)。机械臂B带着W在空间中移动，机械臂A跟踪目标对象W运动，使得TCP与W的相对位置保持在一定范围内。机械臂A作为智能体(Agent)基于当前状态s(State)根据运动参数a(Action)采取行动，从而获得环境反馈的奖励参数r(Reward)，同时状态发生改变，得到目标状态s_{θ+Δθ，Frames(θ+Δθ)}。Frames(θ+Δθ)为机械臂A各关节角度运动到θ+Δθ过程中，末端拍摄更新得到的图像序列。因而，在每次试验时，可以产生一个四元组数据，即<s,a,r,s_>。初始经验数据集包含多个四元组数据。

需要注意的是，在此处，奖励参数是用于评判机械臂A跟踪目标对象W的效果，因而，奖励参数随着指定位置距离的变化而变化，这里的指定位置距离指的是机械臂末端与目标对象的距离。

在获得初始经验数据集之后，一方面可以使用该数据集对初始演员网络进行预训练，获得预训练模型；另一方面则可以使用初始经验数据集初始化DDPG的经验记忆数据库(Experiment memory)。由于初始经验数据集是基于行模拟试验获得的数据，可以减少初始演员网络对机械臂的非常规控制，提高DDPG的训练效率。

然后使用预训练模型初始化DDPG中的待训练演员网络。初始化完毕后，可以按照DDPG的训练机制对DDPG中的待训练演员网络进行训练。在训练过程的一个回合中，演员网络依据实时当前状态s得到实时运动参数a，机械臂依据实时运动参数a运动，同时计算实时奖励参数r，在一个预设采样周期(可以是600ms)之后采集实时目标状态s_，得到四元组数据<s,a,r,s_>，存入记忆区D(可以是数据库)，并开始下一回合。

重复步骤S24的训练步骤，直至满足结束训练的条件。示意性的，当训练的次数达到预设的训练次数时，则可以结束训练。训练完毕后的待训练演员网络即为预设演员网络。

步骤S21-S25中，获取基于机械臂跟踪训练生成的初始经验数据集，所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态，所述奖励参数随着指定位置距离的变化而变化，所述指定位置距离为机械臂末端与目标对象的距离，以获取训练数据。构建初始演员网络，使用所述初始经验数据集对所述初始演员网络进行预训练，获得预训练模型，在此处，进行预训练可以提高DDPG的训练效率。使用所述初始经验数据集初始化DDPG的经验记忆数据库，并使用所述预训练模型初始化DDPG中的待训练演员网络，在此处，通过两个方面的初始化，可以优化DDPG的训练结果，提高训练效率。初始化完毕后，对所述待训练演员网络进行训练，基于所述待训练演员网络计算出实时运动参数，按照所述实时运动参数控制所述机械臂运动，然后计算出实时奖励参数，在一个所述预设采样周期之后，获取机械臂末端的实时目标状态，并获得在一次训练生成的训练数据，所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态，在此处，待训练演员网络同时对目标检测(依赖奖励参数)和运动控制(运动参数)进行训练，依据DDPG的自主学习机制，大大减少了目标检测和运动控制的调优工作。训练完毕后，获得所述预设演员网络，所述预设演员网络为基于所述待训练演员网络训练生成的网络，以获得用于目标跟踪的预设演员网络。

可选的，步骤S21之前，所述获取基于机械臂跟踪训练生成的初始经验数据集之前，还包括：

通过奖励公式计算所述奖励参数，所述奖励公式包括：

其中，r为奖励参数，e、f、g、h为大于零的超参数，‖v‖为位置误差v的模，‖w‖为角度误差w的模，

为速度超限的惩罚项，|Δθ _i|/t为第i个关节的角速度，ω _max i为与第i个关节对应的最大角速度，LT为跟踪结果，其值为0或1。

本实施例中，e、f、g、h为大于零的超参数。超参数是模型训练之前设置值的参数。第一项为位置误差v产生的奖励。第二项为角度误差w产生的奖励。可通过以下公式计算出w和v：

T _W为目标对象W的位姿矩阵，T _TCP为机械臂A末端TCP对应的理想位姿。依据旋量理论计算T _W与T _TCP的对应旋量ξ，其分量v、w分别对应T _W与T _TCP的位置误差和角度误差。第三项为速度超限的惩罚项。其中，|Δθ _i|/t为当前回合的关节i的角速度，若其大于关节可承受的最大速度ω _max i，则依据

作为惩罚。

指的是最大的关节角速度对应的惩罚值。第四项为跟踪目标对象的惩罚项。当跟踪到目标对象时，LT＝0；当跟踪不到目标对象时，LT＝1。初始经验数据集中，在计算奖励参数的时候，LT的值可以根据TCP与W的相对位置进行确定，不需要对图像序列进行标注。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种目标跟踪装置，该目标跟踪装置与上述实施例中目标跟踪方法一一对应。如图6所示，该目标跟踪装置包括采样模块10、获取运动参数模块20和跟随模块30。各功能模块详细说明如下：

采样模块10，用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

获取运动参数模块20，用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

跟随模块30，用于根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。

可选的，采样模块10包括：

获取关节角度单元，用于通过位置传感器获取所述机械臂的关节角度，所述实时机械臂状态包括所述关节角度；

拍摄单元，用于通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像，生成所述图像序列，所述拍摄装置设置在预设指定位置。

可选的，所述预设采样周期包括200～1200ms；

所述拍摄装置包括至少两个摄像头；

所述预设指定位置为机械臂末端；

所述指定拍摄频率包括10～50ms。

可选的，所述目标跟踪模型包括LSTM和预设演员网络，获取运动参数模块20包括：

图像特征提取单元，用于使用所述LSTM对所述图像序列进行编码，输出第一特征向量；

模型特征生成单元，用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量；

获取运动参数单元，用于将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数。

可选的，获取运动参数模块20还包括：

获取训练数据单元，用于获取基于机械臂跟踪训练生成的初始经验数据集，所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态，所述奖励参数随着指定位置距离的变化而变化，所述指定位置距离为机械臂末端与目标对象的距离；

构建网络单元，用于构建初始演员网络，使用所述初始经验数据集对所述初始演员网络进行预训练，获得预训练模型；

初始化单元，用于使用所述初始经验数据集初始化DDPG的经验记忆数据库，并使用所述预训练模型初始化DDPG中的待训练演员网络；

训练单元，用于初始化完毕后，对所述待训练演员网络进行训练，基于所述待训练演员网络计算出实时运动参数，按照所述实时运动参数控制所述机械臂运动，然后计算出实时奖励参数，在一个所述预设采样周期之后，获取机械臂末端的实时目标状态，并获得在一次训练生成的训练数据，所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态；

获得预设演员网络单元，用于训练完毕后，获得所述预设演员网络，所述预设演员网络为基于所述待训练演员网络训练生成的网络。

可选的，获取运动参数模块20还包括：

计算奖励参数单元，用于通过奖励公式计算所述奖励参数，所述奖励公式包括：

关于目标跟踪装置的具体限定可以参见上文中对于目标跟踪方法的限定，在此不再赘述。上述目标跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述目标跟踪方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种目标跟踪方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种目标跟踪方法，其中，包括：

按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。
如权利要求1所述的目标跟踪方法，其中，所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列，包括：

通过位置传感器获取所述机械臂的关节角度，所述实时机械臂状态包括所述关节角度；

通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像，生成所述图像序列，所述拍摄装置设置在预设指定位置。
如权利要求2所述的目标跟踪方法，其中，所述预设采样周期包括200～1200ms；

所述拍摄装置包括至少两个摄像头；

所述预设指定位置为机械臂末端；

所述指定拍摄频率包括10～50ms。
如权利要求1所述的目标跟踪方法，其中，所述目标跟踪模型包括LSTM和预设演员网络，所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型，获取所述目标跟踪模型输出的运动参数，包括：

使用所述LSTM对所述图像序列进行编码，输出第一特征向量；

将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量；

将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数。
如权利要求4所述的目标跟踪方法，其中，所述将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数之前，还包括：

获取基于机械臂跟踪训练生成的初始经验数据集，所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态，所述奖励参数随着指定位置距离的变化而变化，所述指定位置距离为机械臂末端与目标对象的距离；

构建初始演员网络，使用所述初始经验数据集对所述初始演员网络进行预训练，获得预训练模型；

使用所述初始经验数据集初始化DDPG的经验记忆数据库，并使用所述预训练模型初始化DDPG中的待训练演员网络；

初始化完毕后，对所述待训练演员网络进行训练，基于所述待训练演员网络计算出实时运动参数，按照所述实时运动参数控制所述机械臂运动，然后计算出实时奖励参数，在一个所述预设采样周期之后，获取机械臂末端的实时目标状态，并获得在一次训练生成的训练数据，所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态；

训练完毕后，获得所述预设演员网络，所述预设演员网络为基于所述待训练演员网络训练生成的网络。
如权利要求5所述的目标跟踪方法，其中，所述获取基于机械臂跟踪训练生成的初始经验数据集之前，还包括：

通过奖励公式计算所述奖励参数，所述奖励公式包括：

其中，r为奖励参数，e、f、g、h为大于零的超参数，‖v‖为位置误差v的模，‖w‖为角度误差w的模，
为速度超限的惩罚项，|Δθ _i|/t为第i个关节的角速度，ω _max i为与第i个关节对应的最大角速度，LT为跟踪结果，其值为0或1。
一种目标跟踪装置，其中，包括：

采样模块，用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

获取运动参数模块，用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

跟随模块，用于根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。
如权利要求7所述的目标跟踪装置，其中，所述目标跟踪模型包括LSTM和预设演员网络，所述获取运动参数模块包括：

图像特征提取单元，用于使用所述LSTM对所述图像序列进行编码，输出第一特征向量；

模型特征生成单元，用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量；

获取运动参数单元，用于将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。
如权利要求9所述的计算机设备，其中，所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列，包括：

通过位置传感器获取所述机械臂的关节角度，所述实时机械臂状态包括所述关节角度；

通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像，生成所述图像序列，所述拍摄装置设置在预设指定位置。
如权利要求10所述的计算机设备，其中，所述预设采样周期包括200～1200ms；

所述拍摄装置包括至少两个摄像头；

所述预设指定位置为机械臂末端；

所述指定拍摄频率包括10～50ms。
如权利要求9所述的计算机设备，其中，所述目标跟踪模型包括LSTM和预设演员网络，所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型，获取所述目标跟踪模型输出的运动参数，包括：

使用所述LSTM对所述图像序列进行编码，输出第一特征向量；

将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量；

将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数。
如权利要求12所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取基于机械臂跟踪训练生成的初始经验数据集，所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态，所述奖励参数随着指定位置距离的变化而变化，所述指定位置距离为机械臂末端与目标对象的距离；

构建初始演员网络，使用所述初始经验数据集对所述初始演员网络进行预训练，获得预训练模型；

使用所述初始经验数据集初始化DDPG的经验记忆数据库，并使用所述预训练模型初始化DDPG中的待训练演员网络；

初始化完毕后，对所述待训练演员网络进行训练，基于所述待训练演员网络计算出实时运动参数，按照所述实时运动参数控制所述机械臂运动，然后计算出实时奖励参数，在一个所述预设采样周期之后，获取机械臂末端的实时目标状态，并获得在一次训练生成的训练数据，所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态；

训练完毕后，获得所述预设演员网络，所述预设演员网络为基于所述待训练演员网络训练生成的网络。
如权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

通过奖励公式计算所述奖励参数，所述奖励公式包括：

其中，r为奖励参数，e、f、g、h为大于零的超参数，‖v‖为位置误差v的模，‖w‖为角度误差w的模，
为速度超限的惩罚项，|Δθ _i|/t为第i个关节的角速度，ω _max i为与第i个关节对应的最大角速度，LT为跟踪结果，其值为0或1。
一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列；

将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型，获取所述目标对象跟踪模型输出的运动参数，所述目标对象跟踪模型为基于DDPG算法构建的预测模型；

根据所述运动参数控制机械臂的运动状态，以使所述机械臂跟随所述目标对象移动。
如权利要求15所述的可读存储介质，其中，所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列，包括：

通过位置传感器获取所述机械臂的关节角度，所述实时机械臂状态包括所述关节角度；

通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像，生成所述图像序列，所述拍摄装置设置在预设指定位置。
如权利要求16所述的可读存储介质，其中，所述预设采样周期包括200～1200ms；

所述拍摄装置包括至少两个摄像头；

所述预设指定位置为机械臂末端；

所述指定拍摄频率包括10～50ms。
如权利要求15所述的可读存储介质，其中，所述目标跟踪模型包括LSTM和预设演员网络，所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型，获取所述目标跟踪模型输出的运动参数，包括：

使用所述LSTM对所述图像序列进行编码，输出第一特征向量；

将所述第一特征向量与所述实时机械臂状态中的关节角度拼接，生成第二特征向量；

将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数。
如权利要求18所述的可读存储介质，其中，所述将所述第二特征向量输入所述预设演员网络，获取所述预设演员网络输出的所述运动参数之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取基于机械臂跟踪训练生成的初始经验数据集，所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态，所述奖励参数随着指定位置距离的变化而变化，所述指定位置距离为机械臂末端与目标对象的距离；

构建初始演员网络，使用所述初始经验数据集对所述初始演员网络进行预训练，获得预训练模型；

使用所述初始经验数据集初始化DDPG的经验记忆数据库，并使用所述预训练模型初始化DDPG中的待训练演员网络；

初始化完毕后，对所述待训练演员网络进行训练，基于所述待训练演员网络计算出实时运动参数，按照所述实时运动参数控制所述机械臂运动，然后计算出实时奖励参数，在一个所述预设采样周期之后，获取机械臂末端的实时目标状态，并获得在一次训练生成的训练数据，所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态；

训练完毕后，获得所述预设演员网络，所述预设演员网络为基于所述待训练演员网络训练生成的网络。
如权利要求19所述的可读存储介质，其中，所述获取基于机械臂跟踪训练生成的初始经验数据集之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

通过奖励公式计算所述奖励参数，所述奖励公式包括：

其中，r为奖励参数，e、f、g、h为大于零的超参数，‖v‖为位置误差v的模，‖w‖为角度误差w的模，
为速度超限的惩罚项，|Δθ _i|/t为第i个关节的角速度，ω _max i为与第i个关节对应的最大角速度，LT为跟踪结果，其值为0或1。