WO2021164276A1 - 目标跟踪方法、装置、计算机设备及存储介质 - Google Patents

目标跟踪方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2021164276A1
WO2021164276A1 PCT/CN2020/120755 CN2020120755W WO2021164276A1 WO 2021164276 A1 WO2021164276 A1 WO 2021164276A1 CN 2020120755 W CN2020120755 W CN 2020120755W WO 2021164276 A1 WO2021164276 A1 WO 2021164276A1
Authority
WO
WIPO (PCT)
Prior art keywords
real
target object
time
state
target
Prior art date
Application number
PCT/CN2020/120755
Other languages
English (en)
French (fr)
Inventor
何敏聪
郜开开
周宸
周宝
陈远旭
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021164276A1 publication Critical patent/WO2021164276A1/zh

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

人工智能中的图像处理领域,涉及区块链技术,一种目标跟踪方法、装置、计算机设备及存储介质,其方法包括:按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列(S10);将实时机械臂状态和包含目标对象的图像序列输入目标对象跟踪模型,获取目标对象跟踪模型输出的运动参数,目标对象跟踪模型为基于DDPG算法构建的预测模型(S20);根据运动参数控制机械臂的运动状态,以使机械臂跟随目标对象移动(S30)。可以降低目标跟踪的开发成本,提高目标跟踪模型的训练效率,可应用于智慧城市的建设。

Description

目标跟踪方法、装置、计算机设备及存储介质
本申请要求于2020年7月31日提交中国专利局、申请号为202010763146.7,发明名称为“目标跟踪方法、装置、计算机设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能中的图像处理领域,尤其涉及一种目标跟踪方法、装置、计算机设备及存储介质。
背景技术
目前,目标跟踪方法已在视频监控、工业制造、智慧家居、智能摄影等领域广泛应用。目标跟踪方法包括图像目标检测和运动控制两部分。首先使用图像目标检测对单帧或多帧图像进行检测,确定目标位置,然后根据目标位置计算运动参数(如速度矢量、加速度矢量),按照运动参数控制机械臂跟随目标。然而,发明人意识到,这两部分均需要进行大量繁琐的标注、训练和调优工作,才能保证目标跟踪的精准度。这些标注、训练和调优工作需要人工参与,大大提高了目标跟踪方法的开发成本,同时训练的效率也不高。
申请内容
基于此,有必要针对上述技术问题,提供一种目标跟踪方法、装置、计算机设备及存储介质,以降低目标跟踪的开发成本,提高目标跟踪模型的训练效率。
一种目标跟踪方法,包括:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
一种目标跟踪装置,包括:
采样模块,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
获取运动参数模块,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
跟随模块,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
上述目标跟踪方法、装置、计算机设备及存储介质,按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,在此处,可通过实时机械臂状态确定当前机器臂末端所处的位置,而包含目标对象的图像序列可用于确定目标对象的移动情况。将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型,在此处,目标对象跟踪模型是基于DDPG算法构建的,可以减少图像的标注,提高模型的训练速度。根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动,可实现实时跟踪目标对象。本申请可以降低目标跟踪的开发成本,提高目标跟踪模型的训练效率。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中目标跟踪方法的一应用环境示意图;
图2是本申请一实施例中目标跟踪方法的一流程示意图;
图3是本申请一实施例中目标跟踪方法的一流程示意图;
图4是本申请一实施例中目标跟踪方法的一流程示意图;
图5是本申请一实施例中目标跟踪方法的一流程示意图;
图6是本申请一实施例中目标跟踪装置的一结构示意图;
图7是本申请一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请 中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本实施例提供的目标跟踪方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种目标跟踪方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤。
S10、按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列。
预设采样周期可以基于实际需要进行设置。在一示例中,预设采样周期为600ms。实时机械臂状态指的是实时采集的机械臂末端(TCP,Tool Center Point)的位置数据,可用机械臂各个关节的角度表示。机械臂通过若干个关节的运动改变机械臂末端的位置数据。一组关节的角度可以唯一确定机械臂末端的位置。
包含目标对象的图像序列指的是在预设采样周期内按一定时间间隔采集的一组图像。例如,每隔30ms采集一次图像,则在600ms内,可以采集20帧在不同时间点的图像。目标对象指的是需要跟踪的对象。在此处,目标对象可以是移动的人,也可以是移动的物体。需要强调的是,为进一步保证上述图像序列的共享性和安全性,上述图像序列还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S20、将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型。
在此处,目标对象跟踪模型是基于DDPG(Deep Deterministic Policy Gradient,深度确定策略梯度)算法构建的预测模型。目标对象跟踪模型包含了训练好的Actor网络(演员网络)和Critic网络(评价网络)。Actor网络和Critic网络为全连接神经网络。在此处,使用模拟跟踪试验生成的经验数据集对目标对象跟踪模型进行训练。模拟跟踪试验指的是设置两个机械臂,第一个机械臂的末端放置跟踪摄像头,第二个机械臂的末端放置目标对象。两个机械臂的固定端的相对位置是固定的。也即是,可以基于两个机械臂的实时机械臂状态确定跟踪摄像头与目标对象的相对位置,进而判断目标对象是否在跟踪摄像头的视野范围内。因而,不需要对图像序列中的目标对象进行识别(这样也不需要对图像进行标注),从而大大提高了模型的训练速度。
目标对象跟踪模型输出的运动参数可以是机械臂各个关节的角度变化量。若机械臂的关节数量为n个,则运动参数可表示为{Δθ 1、Δθ 2、Δθ 3、……Δθ n}。
S30、根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
本实施例中,在获得运动参数之后,可以按照运动参数控制机械臂的运动状态。即,使机械臂的各个关节按照角度变化量改变各自的角度。从而可以带动机械臂,使机械臂跟随目标对象移动。
步骤S10-S30中,按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,在此处,可通过实时机械臂状态确定当前机器臂末端所处的位置,而包含目标对象的图像序列可用于确定目标对象的移动情况。将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型,在此处,目标对象跟踪模型是基于DDPG算法构建的,可以减少图像的标注,提高模型的训练速度。根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动,可实现实时跟踪目标对象。本方案可应用于智慧城市的智能安防、智能制造等领域中,从而推动智慧城市的建设。
可选的,如图3所示,步骤S10,即所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:
S101、通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
S102、通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
本实施例中,在机械臂的各个关节设置有位置传感器,可以感知对应关节角度。通过一组关节角度数据,可以确定机械臂末端当前所处的位置。可以通过设置在预设指定位置的拍摄装置按一定时间间隔(即指定拍摄频率)获取目标对象的图像,生成图像序列。图像序列可用Frames(θ)表示,其中,θ指代一组机械臂的关节角度。
可选的,所述预设采样周期包括200~1200ms;
所述拍摄装置包括至少两个摄像头;
所述预设指定位置为机械臂末端;
所述指定拍摄频率包括10~50ms。
本实施例中,预设采样周期可以是200~1200ms。在一示例中,预设采样周期为600ms。拍摄装置可以包括至少两个摄像头。通过至少两个摄像头成像,可以获得更多的图像特征,提高目标跟踪的精准度。拍摄装置可以安装在机械臂末端,实现动态跟踪。拍摄装置的指定拍摄频率可以是10~50ms。在一示例中,指定拍摄频率可以是30ms。
可选的,所述目标跟踪模型包括LSTM和预设演员网络,如图4所示,步骤S20,即所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型,获取所述目标跟踪模型输出的运动参数,包括:
S201、使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
S202、将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
S203、将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
本实施例中,可通过LSTM(Long Short Term Memory Network,长短时记忆网络)对图像序列进行编码,输出第一特征向量。图像序列Frames={F i},经LSTM处理后生成第 一特征向量feature,然后第一特征向量feature与角度θ拼接成第二特征向量p。第二特征向量p可以输入一个双层的全连接网络,即预设演员网络。经预设演员网络处理第二特征向量后,输出机械臂的运动参数。
步骤S201-S203中,使用LSTM对所述图像序列进行编码,输出第一特征向量,在此处,第一特征向量包含图像特征。将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量,在此处,第一特征向量包含图像特征和机械臂的位置特征。将所述第二特征向量输入预设演员网络,获取所述预设演员网络输出的所述运动参数,以获取机械臂跟踪目标对象的运动参数。
可选的,如图5所示,步骤S203之前,即所述将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数之前,还包括:
S21、获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
S22、构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
S23、使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
S24、初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
S25、训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
本实施例中,初始经验数据集可以通过进行模拟试验后获得。具体的,可以设置两个机械臂,分别为机械臂A和机械臂B。这两个机械臂的固定端位置固定,机械臂A的机械臂末端(TCP)设置有拍摄装置,机械臂B的机械臂末端安放有目标对象(W)。机械臂B带着W在空间中移动,机械臂A跟踪目标对象W运动,使得TCP与W的相对位置保持在一定范围内。机械臂A作为智能体(Agent)基于当前状态s(State)根据运动参数a(Action)采取行动,从而获得环境反馈的奖励参数r(Reward),同时状态发生改变,得到目标状态s_{θ+Δθ,Frames(θ+Δθ)}。Frames(θ+Δθ)为机械臂A各关节角度运动到θ+Δθ过程中,末端拍摄更新得到的图像序列。因而,在每次试验时,可以产生一个四元组数据,即<s,a,r,s_>。初始经验数据集包含多个四元组数据。
需要注意的是,在此处,奖励参数是用于评判机械臂A跟踪目标对象W的效果,因而,奖励参数随着指定位置距离的变化而变化,这里的指定位置距离指的是机械臂末端与目标对象的距离。
在获得初始经验数据集之后,一方面可以使用该数据集对初始演员网络进行预训练,获得预训练模型;另一方面则可以使用初始经验数据集初始化DDPG的经验记忆数据库(Experiment memory)。由于初始经验数据集是基于行模拟试验获得的数据,可以减少初 始演员网络对机械臂的非常规控制,提高DDPG的训练效率。
然后使用预训练模型初始化DDPG中的待训练演员网络。初始化完毕后,可以按照DDPG的训练机制对DDPG中的待训练演员网络进行训练。在训练过程的一个回合中,演员网络依据实时当前状态s得到实时运动参数a,机械臂依据实时运动参数a运动,同时计算实时奖励参数r,在一个预设采样周期(可以是600ms)之后采集实时目标状态s_,得到四元组数据<s,a,r,s_>,存入记忆区D(可以是数据库),并开始下一回合。
重复步骤S24的训练步骤,直至满足结束训练的条件。示意性的,当训练的次数达到预设的训练次数时,则可以结束训练。训练完毕后的待训练演员网络即为预设演员网络。
步骤S21-S25中,获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离,以获取训练数据。构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型,在此处,进行预训练可以提高DDPG的训练效率。使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络,在此处,通过两个方面的初始化,可以优化DDPG的训练结果,提高训练效率。初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态,在此处,待训练演员网络同时对目标检测(依赖奖励参数)和运动控制(运动参数)进行训练,依据DDPG的自主学习机制,大大减少了目标检测和运动控制的调优工作。训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络,以获得用于目标跟踪的预设演员网络。
可选的,步骤S21之前,所述获取基于机械臂跟踪训练生成的初始经验数据集之前,还包括:
通过奖励公式计算所述奖励参数,所述奖励公式包括:
Figure PCTCN2020120755-appb-000001
其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
Figure PCTCN2020120755-appb-000002
为速度超限的惩罚项,|Δθ i|/t为第i个关节的角速度,ω max i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
本实施例中,e、f、g、h为大于零的超参数。超参数是模型训练之前设置值的参数。第一项为位置误差v产生的奖励。第二项为角度误差w产生的奖励。可通过以下公式计算出w和v:
Figure PCTCN2020120755-appb-000003
T W为目标对象W的位姿矩阵,T TCP为机械臂A末端TCP对应的理想位姿。依据旋量理论计算T W与T TCP的对应旋量ξ,其分量v、w分别对应T W与T TCP的位置误差和角度误差。第三项为速度超限的惩罚项。其中,|Δθ i|/t为当前回合的关节i的角速度,若其大 于关节可承受的最大速度ω max i,则依据
Figure PCTCN2020120755-appb-000004
作为惩罚。
Figure PCTCN2020120755-appb-000005
指的是最大的关节角速度对应的惩罚值。第四项为跟踪目标对象的惩罚项。当跟踪到目标对象时,LT=0;当跟踪不到目标对象时,LT=1。初始经验数据集中,在计算奖励参数的时候,LT的值可以根据TCP与W的相对位置进行确定,不需要对图像序列进行标注。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种目标跟踪装置,该目标跟踪装置与上述实施例中目标跟踪方法一一对应。如图6所示,该目标跟踪装置包括采样模块10、获取运动参数模块20和跟随模块30。各功能模块详细说明如下:
采样模块10,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
获取运动参数模块20,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
跟随模块30,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
可选的,采样模块10包括:
获取关节角度单元,用于通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
拍摄单元,用于通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
可选的,所述预设采样周期包括200~1200ms;
所述拍摄装置包括至少两个摄像头;
所述预设指定位置为机械臂末端;
所述指定拍摄频率包括10~50ms。
可选的,所述目标跟踪模型包括LSTM和预设演员网络,获取运动参数模块20包括:
图像特征提取单元,用于使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
模型特征生成单元,用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
获取运动参数单元,用于将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
可选的,获取运动参数模块20还包括:
获取训练数据单元,用于获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
构建网络单元,用于构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
初始化单元,用于使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
训练单元,用于初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
获得预设演员网络单元,用于训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
可选的,获取运动参数模块20还包括:
计算奖励参数单元,用于通过奖励公式计算所述奖励参数,所述奖励公式包括:
Figure PCTCN2020120755-appb-000006
其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
Figure PCTCN2020120755-appb-000007
为速度超限的惩罚项,|Δθ i|/t为第i个关节的角速度,ω max i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
关于目标跟踪装置的具体限定可以参见上文中对于目标跟踪方法的限定,在此不再赘述。上述目标跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述目标跟踪方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种目标跟踪方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取 所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种目标跟踪方法,其中,包括:
    按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
    将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
    根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
  2. 如权利要求1所述的目标跟踪方法,其中,所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:
    通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
    通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
  3. 如权利要求2所述的目标跟踪方法,其中,所述预设采样周期包括200~1200ms;
    所述拍摄装置包括至少两个摄像头;
    所述预设指定位置为机械臂末端;
    所述指定拍摄频率包括10~50ms。
  4. 如权利要求1所述的目标跟踪方法,其中,所述目标跟踪模型包括LSTM和预设演员网络,所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型,获取所述目标跟踪模型输出的运动参数,包括:
    使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
    将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
    将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
  5. 如权利要求4所述的目标跟踪方法,其中,所述将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数之前,还包括:
    获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
    构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
    使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
    初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
    训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络 训练生成的网络。
  6. 如权利要求5所述的目标跟踪方法,其中,所述获取基于机械臂跟踪训练生成的初始经验数据集之前,还包括:
    通过奖励公式计算所述奖励参数,所述奖励公式包括:
    Figure PCTCN2020120755-appb-100001
    其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
    Figure PCTCN2020120755-appb-100002
    为速度超限的惩罚项,|Δθ i|/t为第i个关节的角速度,ω max i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
  7. 一种目标跟踪装置,其中,包括:
    采样模块,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
    获取运动参数模块,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
    跟随模块,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
  8. 如权利要求7所述的目标跟踪装置,其中,所述目标跟踪模型包括LSTM和预设演员网络,所述获取运动参数模块包括:
    图像特征提取单元,用于使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
    模型特征生成单元,用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
    获取运动参数单元,用于将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
  9. 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现如下步骤:
    按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
    将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
    根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
  10. 如权利要求9所述的计算机设备,其中,所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:
    通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
    通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
  11. 如权利要求10所述的计算机设备,其中,所述预设采样周期包括200~1200ms;
    所述拍摄装置包括至少两个摄像头;
    所述预设指定位置为机械臂末端;
    所述指定拍摄频率包括10~50ms。
  12. 如权利要求9所述的计算机设备,其中,所述目标跟踪模型包括LSTM和预设演员网络,所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型,获取所述目标跟踪模型输出的运动参数,包括:
    使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
    将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
    将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
  13. 如权利要求12所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还实现如下步骤:
    获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
    构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
    使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
    初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
    训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
  14. 如权利要求13所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还实现如下步骤:
    通过奖励公式计算所述奖励参数,所述奖励公式包括:
    Figure PCTCN2020120755-appb-100003
    其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
    Figure PCTCN2020120755-appb-100004
    为速度超限的惩罚项,|Δθ i|/t为第i个关节的角速度,ω max i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
  15. 一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
    按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
    将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
    根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
  16. 如权利要求15所述的可读存储介质,其中,所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:
    通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
    通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
  17. 如权利要求16所述的可读存储介质,其中,所述预设采样周期包括200~1200ms;
    所述拍摄装置包括至少两个摄像头;
    所述预设指定位置为机械臂末端;
    所述指定拍摄频率包括10~50ms。
  18. 如权利要求15所述的可读存储介质,其中,所述目标跟踪模型包括LSTM和预设演员网络,所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型,获取所述目标跟踪模型输出的运动参数,包括:
    使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
    将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
    将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
  19. 如权利要求18所述的可读存储介质,其中,所述将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数之前,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤:
    获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
    构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
    使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
    初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
    训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
  20. 如权利要求19所述的可读存储介质,其中,所述获取基于机械臂跟踪训练生成的初始经验数据集之前,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤:
    通过奖励公式计算所述奖励参数,所述奖励公式包括:
    Figure PCTCN2020120755-appb-100005
    其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为 角度误差w的模,
    Figure PCTCN2020120755-appb-100006
    为速度超限的惩罚项,|Δθ i|/t为第i个关节的角速度,ω max i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
PCT/CN2020/120755 2020-07-31 2020-10-14 目标跟踪方法、装置、计算机设备及存储介质 WO2021164276A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010763146.7 2020-07-31
CN202010763146.7A CN111890365B (zh) 2020-07-31 2020-07-31 目标跟踪方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
WO2021164276A1 true WO2021164276A1 (zh) 2021-08-26

Family

ID=73183158

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/120755 WO2021164276A1 (zh) 2020-07-31 2020-10-14 目标跟踪方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111890365B (zh)
WO (1) WO2021164276A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766138A (zh) * 2021-09-26 2021-12-07 深圳市康润机电技术开发有限公司 步进电机驱动控制方法、步进电机及自动化设备
CN114978363A (zh) * 2022-04-25 2022-08-30 Oppo广东移动通信有限公司 射频电路的调试方法及装置、电子设备、存储介质
CN115249245A (zh) * 2022-09-22 2022-10-28 深圳华声医疗技术股份有限公司 超声成像参数优化方法、装置、计算机设备及存储介质
CN115464659A (zh) * 2022-10-05 2022-12-13 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN116038716A (zh) * 2023-03-14 2023-05-02 煤炭科学研究总院有限公司 机器人的控制方法和机器人的控制模型的训练方法
CN116408790A (zh) * 2021-12-31 2023-07-11 广东美的白色家电技术创新中心有限公司 机器人控制方法、装置、系统及存储介质
CN116520281A (zh) * 2023-05-11 2023-08-01 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116761004A (zh) * 2023-05-12 2023-09-15 北京车讯互联网股份有限公司 一种基于固定轨道摄像设备的实时直播方法,系统,设备和介质
CN117140527A (zh) * 2023-09-27 2023-12-01 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117086886B (zh) * 2023-10-18 2023-12-22 山东建筑大学 基于机理数据混合驱动的机器人动态误差预测方法及系统
CN117392182A (zh) * 2023-12-12 2024-01-12 深圳市瑞得智能设备有限公司 贴膜精度检测方法、装置、设备及存储介质
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117850244A (zh) * 2024-03-04 2024-04-09 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712489A (zh) * 2020-12-31 2021-04-27 北京澎思科技有限公司 图像处理的方法、系统及计算机可读存储介质
CN112785466A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种硬件的ai赋能方法、装置、存储介质及设备
CN116744102B (zh) * 2023-06-19 2024-03-12 北京拙河科技有限公司 一种基于反馈调节的球机跟踪方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105196292A (zh) * 2015-10-09 2015-12-30 浙江大学 一种基于迭代变时长视觉伺服控制方法
CN107962562A (zh) * 2016-10-20 2018-04-27 哈尔滨工大天才智能科技有限公司 一种多自由度机械臂视觉伺服系统组建方法
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN110046626A (zh) * 2019-04-03 2019-07-23 工极智能科技(苏州)有限公司 基于pico算法的图像智能学习动态跟踪系统及方法
WO2019204699A1 (en) * 2018-04-19 2019-10-24 GYS Tech, LLC d/b/a Cardan Robotics Methods and systems for controlling a surgical robot
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651949B (zh) * 2016-10-17 2020-05-15 中国人民解放军63920部队 一种基于仿真的空间机械臂抓捕目标遥操作方法及系统
CN109909998B (zh) * 2017-12-12 2020-10-02 北京猎户星空科技有限公司 一种控制机械臂运动的方法及装置
CN110378264B (zh) * 2019-07-08 2023-04-18 Oppo广东移动通信有限公司 目标跟踪方法及装置
CN111027677B (zh) * 2019-12-02 2023-05-23 西安电子科技大学 基于深度确定性策略梯度ddpg的多机动目标跟踪方法
CN111461325B (zh) * 2020-03-30 2023-06-20 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105196292A (zh) * 2015-10-09 2015-12-30 浙江大学 一种基于迭代变时长视觉伺服控制方法
CN107962562A (zh) * 2016-10-20 2018-04-27 哈尔滨工大天才智能科技有限公司 一种多自由度机械臂视觉伺服系统组建方法
WO2019204699A1 (en) * 2018-04-19 2019-10-24 GYS Tech, LLC d/b/a Cardan Robotics Methods and systems for controlling a surgical robot
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN110046626A (zh) * 2019-04-03 2019-07-23 工极智能科技(苏州)有限公司 基于pico算法的图像智能学习动态跟踪系统及方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766138B (zh) * 2021-09-26 2022-11-25 浙江新瑞欣科技股份有限公司 步进电机驱动控制方法、步进电机及自动化设备
CN113766138A (zh) * 2021-09-26 2021-12-07 深圳市康润机电技术开发有限公司 步进电机驱动控制方法、步进电机及自动化设备
CN116408790A (zh) * 2021-12-31 2023-07-11 广东美的白色家电技术创新中心有限公司 机器人控制方法、装置、系统及存储介质
CN114978363A (zh) * 2022-04-25 2022-08-30 Oppo广东移动通信有限公司 射频电路的调试方法及装置、电子设备、存储介质
CN115249245A (zh) * 2022-09-22 2022-10-28 深圳华声医疗技术股份有限公司 超声成像参数优化方法、装置、计算机设备及存储介质
CN115464659B (zh) * 2022-10-05 2023-10-24 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN115464659A (zh) * 2022-10-05 2022-12-13 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN116038716A (zh) * 2023-03-14 2023-05-02 煤炭科学研究总院有限公司 机器人的控制方法和机器人的控制模型的训练方法
CN116520281B (zh) * 2023-05-11 2023-10-24 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116520281A (zh) * 2023-05-11 2023-08-01 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116761004A (zh) * 2023-05-12 2023-09-15 北京车讯互联网股份有限公司 一种基于固定轨道摄像设备的实时直播方法,系统,设备和介质
CN116761004B (zh) * 2023-05-12 2024-03-19 北京车讯互联网股份有限公司 一种基于固定轨道摄像设备的实时直播系统
CN117140527B (zh) * 2023-09-27 2024-04-26 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117140527A (zh) * 2023-09-27 2023-12-01 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117086886B (zh) * 2023-10-18 2023-12-22 山东建筑大学 基于机理数据混合驱动的机器人动态误差预测方法及系统
CN117392182A (zh) * 2023-12-12 2024-01-12 深圳市瑞得智能设备有限公司 贴膜精度检测方法、装置、设备及存储介质
CN117392182B (zh) * 2023-12-12 2024-02-06 深圳市瑞得智能设备有限公司 贴膜精度检测方法、装置、设备及存储介质
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117850244A (zh) * 2024-03-04 2024-04-09 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法
CN117850244B (zh) * 2024-03-04 2024-05-07 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法

Also Published As

Publication number Publication date
CN111890365A (zh) 2020-11-06
CN111890365B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
WO2021164276A1 (zh) 目标跟踪方法、装置、计算机设备及存储介质
US20230330848A1 (en) Reinforcement and imitation learning for a task
Miljković et al. Neural network reinforcement learning for visual control of robot manipulators
Zuo et al. Craves: Controlling robotic arm with a vision-based economic system
US11714996B2 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
US20220171907A1 (en) Creation of digital twin of the interaction among parts of the physical system
CN110023965A (zh) 用于选择由机器人智能体执行的动作的神经网络
Passalis et al. Continuous drone control using deep reinforcement learning for frontal view person shooting
CN112119409A (zh) 具有关系存储器的神经网络
JP2020530602A (ja) 画像埋め込みを使用するロボティックエージェントのためのポリシーコントローラの最適化
US20210103815A1 (en) Domain adaptation for robotic control using self-supervised learning
Passalis et al. Deep reinforcement learning for controlling frontal person close-up shooting
CN114378811A (zh) 力和扭矩引导的机器人装配技术
CN115847422A (zh) 一种用于遥操作的姿态识别方法、装置及系统
Burlacu et al. Predictive control architecture for real-time image moments based servoing of robot manipulators
CN113012268A (zh) 静态行人图像的运动动态化方法、系统、装置及介质
Mueggler Event-based vision for high-speed robotics
Dang et al. Imitation learning-based algorithm for drone cinematography system
Jokić et al. Visual Deep Learning-Based Mobile Robot Control: A Novel Weighted Fitness Function-Based Image Registration Model
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
US20200334530A1 (en) Differentiable neuromodulated plasticity for reinforcement learning and supervised learning tasks
Solovyeva et al. Controlling system based on neural networks with reinforcement learning for robotic manipulator
Ma et al. Reinforcement learning with model-based feedforward inputs for robotic table tennis
Qi et al. Learning generalizable tool-use skills through trajectory generation
Mandil et al. Combining vision and tactile sensation for video prediction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20920131

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20920131

Country of ref document: EP

Kind code of ref document: A1