WO2018227820A1 - 控制机械臂运动的方法及装置、存储介质和终端设备 - Google Patents

控制机械臂运动的方法及装置、存储介质和终端设备 Download PDF

Info

Publication number
WO2018227820A1
WO2018227820A1 PCT/CN2017/104502 CN2017104502W WO2018227820A1 WO 2018227820 A1 WO2018227820 A1 WO 2018227820A1 CN 2017104502 W CN2017104502 W CN 2017104502W WO 2018227820 A1 WO2018227820 A1 WO 2018227820A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
target trajectory
parameter group
population
trajectory model
Prior art date
Application number
PCT/CN2017/104502
Other languages
English (en)
French (fr)
Inventor
罗汉杰
Original Assignee
广州视源电子科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州视源电子科技股份有限公司 filed Critical 广州视源电子科技股份有限公司
Publication of WO2018227820A1 publication Critical patent/WO2018227820A1/zh

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems

Definitions

  • the present invention relates to the field of mechanical control technologies, and in particular, to a method and apparatus for controlling movement of a mechanical arm, a storage medium, and a terminal device.
  • the trajectory of the robot arm needs to be set in advance by the user.
  • the motion trajectory is generally described by some key points in space and the lines (straight lines/curves) between the key points.
  • robots need to solve increasingly complex tasks. For some motion trajectories, it is difficult to describe them in a traditional way, that is, the robot cannot reproduce these complex motion trajectories.
  • the method and device for controlling the movement of the manipulator, the storage medium and the terminal device proposed by the embodiment of the invention improve the accuracy of establishing the motion model of the control arm, and facilitate the control of the manipulator to perform complex motion.
  • an embodiment of the present invention provides a method for controlling motion of a mechanical arm, including:
  • each element of the target trajectory training set includes a state parameter of the movement of the robot arm and a control parameter corresponding to the state parameter to control movement of the robot arm;
  • one parameter group is selected as the parameter group of the target trajectory model
  • the obtained state parameter input is In the target trajectory model, a control parameter that currently controls the motion of the robot arm is obtained, and the motion of the robot arm is controlled according to the obtained control parameter.
  • the parameter population of the target trajectory model is initialized and iteratively updated, and the parameter group in the parameter population is sequentially used as a parameter group of the target trajectory model, and each calculation is performed.
  • the degree of fit between a curve fitted by a target trajectory model and a curve formed by the target trajectory training set is specifically:
  • the parameter group is used as a parameter group of the target trajectory model, and a curve in which the target trajectory model is fitted and a curve combined with the target trajectory training set is calculated Degree of fit between;
  • the parameter set as the target trajectory model is the jth parameter group p in the parameter population j
  • the degree of fitting between the curve fitted by the target trajectory model and the curve of the target trajectory training set is:
  • x i is the i-th state parameter in the target trajectory training set
  • y i is a control parameter corresponding to the i-th state parameter in the target trajectory training set
  • f(x i , p j ) is
  • the jth parameter group is a parameter group of the target trajectory model
  • the ith state parameter is a corresponding control parameter in the target trajectory model.
  • the parameter group is selected as a parameter group of the target trajectory model according to a degree of fitting corresponding to each parameter group, specifically:
  • the parameter group with the highest degree of fitting is selected from the parameter population;
  • the parameter group with the highest degree of fitting is selected as the parameter group of the target trajectory model.
  • the target trajectory model is among them, Is the i-th Gaussian kernel function; w i is the weight coefficient occupied by the i-th Gaussian kernel function, i ⁇ N; wherein c i is the center value of the i-th Gaussian kernel function; ⁇ i is the ith The width of a Gaussian kernel function.
  • an embodiment of the present invention further provides an apparatus for controlling motion of a robot arm, including:
  • each element of the target trajectory training set includes a state parameter of the mechanical arm motion and a control mechanism corresponding to the state parameter Control parameters of arm movement;
  • the population iterative calculation module is used for initializing and iteratively updating the parameter population of the target trajectory model, and sequentially using the parameter group in the parameter population as a parameter group of the target trajectory model, and calculating a curve into which each target trajectory model is fitted. The degree of fit between the curves combined with the target trajectory training set;
  • a parameter group selection module configured to select a parameter group as a parameter group of the target trajectory model according to a degree of fitting corresponding to each parameter group
  • a mechanical motion control module configured to input the acquired state parameter into the target trajectory model when receiving a state parameter of the current movement of the robot arm, to obtain a control parameter currently controlling the motion of the robot arm, and according to the The obtained control parameters control the movement of the robot arm.
  • the population iterative calculation module the specific package include:
  • An initialization unit configured to initialize a value of each parameter group in the parameter population of the target trajectory model
  • a fitting degree calculation unit configured to use, for each parameter group in the parameter population, the parameter group as a parameter group of the target trajectory model, and calculate a curve into which the target trajectory model is fitted and The degree of fit between the curves of the target trajectory training set combination;
  • a parameter group selecting unit configured to select two parameter groups from the parameter population according to a fitting degree corresponding to each parameter group of the parameter population
  • a new parameter group generating unit configured to acquire a new parameter group by the principle of cross-exchange between two parameter values of the same meaning in the two parameter groups selected respectively, until the number of the generated parameter group is The number of parameter groups of the parameter population is the same;
  • Determining an iteration unit configured to determine whether the number of iterations reaches a preset number of times
  • the fitting degree calculation unit is further configured to: when the number of iterations does not reach the preset number of times, return to the degree of fitting corresponding to each parameter group of the updated parameter population, until the number of iterations reaches the preset number of times.
  • the parameter set as the target trajectory model is the jth parameter group p in the parameter population j
  • the degree of fitting between the curve fitted by the target trajectory model and the curve of the target trajectory training set is:
  • x i is the i-th state parameter in the target trajectory training set
  • y i is a control parameter corresponding to the i-th state parameter in the target trajectory training set
  • f(x i , p j ) is
  • the jth parameter group is a parameter group of the target trajectory model
  • the ith state parameter is a corresponding control parameter in the target trajectory model.
  • the embodiment of the invention provides a storage medium in which a plurality of instructions are stored, the instructions A method of controlling the movement of a robot arm of any of the embodiments provided by the first aspect when executed by a processor.
  • an embodiment of the present invention provides a terminal device, including a storage medium, a processor, and a plurality of instructions stored on the storage medium and operable on the processor, wherein the processor executes the instruction
  • a method of controlling the movement of a robot arm of any of the embodiments provided by the first aspect is achieved.
  • the method and device for controlling the movement of the manipulator and the storage medium and the terminal device provided by the embodiments of the present invention, by continuously iteratively updating the parameter population, so that the parameter group of the parameter population is used to establish a curve in which the target trajectory model converges toward the target trajectory training set.
  • the control parameters of the control robot arm can be obtained from the target trajectory model, and the mechanical arm can be directly controlled to cooperate. Dynamically control the work of the robotic arm to facilitate the modification and prediction of the motion trajectory.
  • FIG. 1 is a schematic flow chart of an embodiment of a method for controlling movement of a robot arm provided by the present invention
  • FIG. 2 is a schematic flow chart of an embodiment of parameter population iterative updating of a method for controlling motion of a robot arm provided by the present invention
  • FIG 3 is a schematic structural view of an embodiment of an apparatus for controlling the movement of a robot arm provided by the present invention.
  • FIG. 1 is a schematic structural diagram of an embodiment of a method for controlling movement of a mechanical arm provided by the present invention; the method for controlling movement of a mechanical arm includes steps S1 to S4, as follows:
  • each element of the target trajectory training set includes a state parameter of the movement of the robot arm and a control of the machine corresponding to the state parameter Control parameters of the arm movement;
  • step S2 for the initialization and iterative update process of the parameter population in step S2, as shown in FIG. 2, the following preferred embodiments are adopted, including steps S21 to S26, as follows:
  • S21 Initially setting a value of each parameter group in the parameter population of the target trajectory model; it should be noted that, for a parameter of the parameter group, a corresponding parameter value interval is provided, and when initializing the setting, the corresponding parameter value interval is Randomly selecting a value as the parameter can speed up the convergence, and the target trajectory model has a better fitting degree when the parameter group in the parameter population generated by the subsequent iteration is used as the parameter group of the target trajectory model.
  • x i is the i-th state parameter in the target trajectory training set
  • y i is a control parameter corresponding to the i-th state parameter in the target trajectory training set
  • f(x i , p j ) is
  • the jth parameter group is a parameter group of the target trajectory model
  • the ith state parameter is a corresponding control parameter in the target trajectory model.
  • S24 Obtain a new parameter group by using the principle of cross-exchange between two parameter values of the same meaning in the two parameter groups selected respectively, until the number of the generated parameter group and the parameter group of the parameter population are The number is the same; if the parameter group of the initialized parameter population is M, then the number of new parameter groups generated reaches M, then the pause continues to generate a new parameter group.
  • step S22 If not, return to step S22 to continue to calculate the degree of fitting corresponding to each parameter group of the updated parameter population until the number of iterations reaches the preset number of times;
  • step S3 is specifically:
  • the parameter group with the highest degree of fitting is selected from the parameter population;
  • the parameter group with the highest degree of fitting is selected as the parameter group of the target trajectory model.
  • the preferred target trajectory model is among them, Is the i-th Gaussian kernel function; w i is the weight coefficient occupied by the i-th Gaussian kernel function, i ⁇ N; wherein c i is the center value of the i-th Gaussian kernel function; ⁇ i is the ith The width of a Gaussian kernel function.
  • a plurality of Gaussian kernel functions are combined and different weights are combined, so that the target trajectory model can fit an arbitrary curve, that is, the fitted target trajectory model can express the nonlinearity of the robot arm. motion.
  • the method for controlling the motion of the robot arm provided by the embodiment of the present invention, by continuously iteratively updating the parameter population, makes the parameter group of the parameter population establish a curve in which the target trajectory model converges toward the target trajectory training set, thereby ensuring the accuracy of the modeling, and After the modeling is completed, only the control parameters of the control robot arm can be obtained from the target trajectory model according to the state parameters of the robot arm input by the user, and the mechanical arm work can be directly controlled, and the dynamic arm can be controlled by the dynamic control. Convenient for modification and prediction of motion trajectories.
  • FIG. 3 is a schematic structural diagram of an embodiment of an apparatus for controlling motion of a robot arm provided by the present invention.
  • the apparatus is a soft system disposed in a control processor, and can implement the method for controlling motion of a mechanical arm provided by the above embodiment.
  • the device includes:
  • a training set acquisition module 10 configured to acquire a target trajectory training set of the robot arm motion; each element of the target trajectory training set includes a state parameter of the robot arm motion and a control corresponding to the state parameter Control parameters for the movement of the robot arm;
  • the population iterative calculation module 20 is configured to initialize and iteratively update the parameter population of the target trajectory model, and sequentially use the parameter group in the parameter population as the parameter group of the target trajectory model, and calculate each target trajectory model to be fitted into a degree of fit between the curve and the curve of the target trajectory training set;
  • the parameter group selection module 30 is configured to select a parameter group as a parameter group of the target trajectory model according to a degree of fitting corresponding to each parameter group;
  • the mechanical motion control module 40 is configured to input the acquired state parameter into the target trajectory model when receiving the current state parameter of the robot arm motion, obtain a current control parameter for controlling the motion of the robot arm, and The obtained control parameters control the movement of the robot arm.
  • the population iterative calculation module specifically includes:
  • An initialization unit configured to initialize a value of each parameter group in the parameter population of the target trajectory model
  • a fitting degree calculation unit configured to use, for each parameter group in the parameter population, the parameter group as a parameter group of the target trajectory model, and calculate a curve to which the target trajectory model is fitted and the target The degree of fit between the curves of the trajectory training set combination;
  • a parameter group selecting unit configured to select two parameter groups from the parameter population according to a fitting degree corresponding to each parameter group of the parameter population
  • a new parameter group generating unit configured to acquire a new parameter group by the principle of cross-exchange between two parameter values of the same meaning in the two parameter groups selected respectively, until the number of the generated parameter group is The number of parameter groups of the parameter population is the same;
  • Determining an iteration unit configured to determine whether the number of iterations reaches a preset number of times
  • the fitting degree calculation unit is further configured to: when the number of iterations does not reach the preset number of times, return to the degree of fitting corresponding to each parameter group of the updated parameter population, until the number of iterations reaches the preset number of times.
  • the parameter set as the target trajectory model is the jth parameter group p in the parameter population j
  • the degree of fitting between the curve fitted by the target trajectory model and the curve of the target trajectory training set is:
  • x i is the i-th state parameter in the target trajectory training set
  • y i is a control parameter corresponding to the i-th state parameter in the target trajectory training set
  • f(x i , p j ) is
  • the jth parameter group is a parameter group of the target trajectory model
  • the ith state parameter is a corresponding control parameter in the target trajectory model.
  • the parameter group selection module specifically includes:
  • a first selecting unit configured, for each parameter population, selecting a parameter group with the highest degree of fitting from the parameter population
  • the second selecting unit is configured to select, from among all the selected parameter groups, the parameter group with the highest degree of fitting as the parameter group of the target trajectory model.
  • the target trajectory model is among them, Is the i-th Gaussian kernel function; w i is the weight coefficient occupied by the i-th Gaussian kernel function, i ⁇ N; wherein c i is the center value of the i-th Gaussian kernel function; ⁇ i is the ith The width of a Gaussian kernel function.
  • the device for controlling the movement of the manipulator by continuously iteratively updating the parameter population, makes the parameter set of the parameter population establish a curve in which the target trajectory model converges toward the target trajectory training set, thereby ensuring the accuracy of the modeling, and After the modeling is completed, only the control parameters of the control robot arm can be obtained from the target trajectory model according to the state parameters of the robot arm input by the user, and the mechanical arm work can be directly controlled, and the dynamic arm can be controlled by the dynamic control. Convenient for modification and prediction of motion trajectories.
  • the embodiment of the present invention provides a storage medium in which a plurality of instructions are stored, and when the instructions are executed by the processor, the method for controlling the movement of the robot arm provided by any of the above embodiments is implemented.
  • an embodiment of the present invention provides a terminal device, including a storage medium, a processor, and a plurality of instructions stored on the storage medium and operable on the processor, wherein the processor executes the instruction
  • the method of controlling the movement of the robot arm provided by any of the above embodiments is implemented.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (ROM), or a random access memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

一种控制机械臂运动的方法和装置、存储介质与终端设备,所述方法包括:获取所述机械臂运动的目标轨迹训练集(S1);对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度(S2);根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组(S3);当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动(S4)。采用本方法,可以提高建立控制机械臂运动模型的准确度,以及方便控制机械臂执行复杂的运动。

Description

控制机械臂运动的方法及装置、存储介质和终端设备 技术领域
本发明涉及机械控制技术领域,尤其涉及一种控制机械臂运动的方法及装置、存储介质和终端设备。
背景技术
在传统的机械臂系统中,机械臂的运动轨迹需要用户提前设定。运动轨迹一般是用空间中的一些关键点和关键点间的连线(直线/曲线)来描述。当今,机器人需要解决越来越复杂的任务,对于一些运动轨迹,难以采用传统的方法去描述,也就是机器人无法将这些复杂的运动轨迹复现出来。
发明内容
本发明实施例提出的一种控制机械臂运动的方法及装置、存储介质和终端设备,提高建立控制机械臂运动模型的准确度,以及方便控制机械臂执行复杂的运动。
在第一方面,本发明实施例提供了一种控制机械臂运动的方法,包括:
获取所述机械臂运动的目标轨迹训练集;所述目标轨迹训练集中的每一个元素包括所述机械臂运动的状态参数和与所述状态参数对应的控制所述机械臂运动的控制参数;
对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度;
根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组;
当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所 述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动。
在第一方面的第一种可能的实现方式中,所述对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度,具体为:
初始化设置所述目标轨迹模型的参数种群中的每一个参数组的数值;
对于所述参数种群中的每一个参数组,将所述参数组作为所述目标轨迹模型的参数组,并计算所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度;
根据所述参数种群的每一个参数组对应的拟合程度,从所述参数种群中选取两个参数组;
以分别在所选取出的两个参数组中的同一含义的两个参数值进行交叉互换的原则,获取新的参数组,直至生成参数组的数量与所述参数种群的参数组的数量相同;
以新生成的所有参数组更新替代所述参数种群,并对迭代次数加一;
判断所述迭代次数是否达到预设次数;
若否,返回继续计算更新后的参数种群的每一个参数组对应的拟合程度,直至迭代次数达到所述预设次数。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,在作为所述目标轨迹模型的参数组为所述参数种群中的第j个参数组pj时,所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度为:
Figure PCTCN2017104502-appb-000001
其中,xi为所述目标轨迹训练集中的第i个状态参数;yi为所述目标轨迹训练集中的第i个状态参数对应的控制参数;f(xi,pj)为以所述第j个参数组为所述目标轨迹模型的参数组时,所述第i个状态参数在所 述目标轨迹模型中对应的控制参数。
结合第一方面,在第一方面的第三种可能的实现方式中,所述根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组,具体为:
对于每一个参数种群,从所述参数种群中选取拟合程度最高的参数组;
从选取出的所有参数组中,选取拟合程度最高的参数组作为所述目标轨迹模型的参数组。
结合第一方面,在第一方面的第四种可能的实现方式中,所述目标轨迹模型为
Figure PCTCN2017104502-appb-000002
其中,
Figure PCTCN2017104502-appb-000003
Figure PCTCN2017104502-appb-000004
为第i个高斯核函数;wi为第i个高斯核函数占的权重系数,i≤N;其中,ci为所述第i个高斯核函数的中心值;σi为所述第i个高斯核函数的宽度。
在第二方面,本发明实施例还提供一种控制机械臂运动的装置,包括:
训练集获取模块,用于获取所述机械臂运动的目标轨迹训练集;所述目标轨迹训练集中的每一个元素包括所述机械臂运动的状态参数和与所述状态参数对应的控制所述机械臂运动的控制参数;
种群迭代计算模块,用于对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度;
参数组选取模块,用于根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组;
机械运动控制模块,用于当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动。
在第二方面的第一种可能的实现方式中,所述种群迭代计算模块,具体包 括:
初始化单元,用于初始化设置所述目标轨迹模型的参数种群中的每一个参数组的数值;
拟合程度计算单元,用于对于所述参数种群中的每一个参数组,将所述参数组作为所述目标轨迹模型的参数组,并计算所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度;
参数组选取单元,用于根据所述参数种群的每一个参数组对应的拟合程度,从所述参数种群中选取两个参数组;
新参数组生成单元,用于以分别在所选取出的两个参数组中的同一含义的两个参数值进行交叉互换的原则,获取新的参数组,直至生成参数组的数量与所述参数种群的参数组的数量相同;
更新替代单元,用于以新生成的所有参数组更新替代所述参数种群,并对迭代次数加一;
判断迭代单元,用于判断所述迭代次数是否达到预设次数;
拟合程度计算单元,还用于当所述迭代次数没有达到预设次数时,返回继续计算更新后的参数种群的每一个参数组对应的拟合程度,直至迭代次数达到所述预设次数。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,在作为所述目标轨迹模型的参数组为所述参数种群中的第j个参数组pj时,所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度为:
Figure PCTCN2017104502-appb-000005
其中,xi为所述目标轨迹训练集中的第i个状态参数;yi为所述目标轨迹训练集中的第i个状态参数对应的控制参数;f(xi,pj)为以所述第j个参数组为所述目标轨迹模型的参数组时,所述第i个状态参数在所述目标轨迹模型中对应的控制参数。
以及,本发明实施例提供一种存储介质,其中存储有多条指令,所述指令 被处理器执行时实现第一方面提供的任一实施例的控制机械臂运动的方法。
另外,本发明实施例提供一种终端设备,包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的多条指令,其中,所述处理器执行所述指令时实现第一方面提供的任一实施例的控制机械臂运动的方法。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的控制机械臂运动的方法和装置以及存储介质和终端设备,通过不断迭代更新参数种群,使得利用参数种群的参数组建立目标轨迹模型收敛趋向于目标轨迹训练集构建的曲线,确保建模的准确性,以及建模完成后,只需要根据用户输入的机械臂的状态参数,即可从目标轨迹模型中获取得到控制机械臂工作的控制参数,直接控制机械臂工作,能够配合种动态控制机械臂的工作,方便对运动轨迹的修改以及预测。
附图说明
图1是本发明提供的控制机械臂运动的方法的一个实施例的流程示意图;
图2是本发明提供的控制机械臂运动的方法的参数种群迭代更新的一个实施例的流程示意图;
图3是本发明提供的控制机械臂运动的装置的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的控制机械臂运动的方法的一个实施例的结构示意图;该控制机械臂运动的方法,包括步骤S1至S4,具体如下:
S1,获取所述机械臂运动的目标轨迹训练集;所述目标轨迹训练集中的每一个元素包括所述机械臂运动的状态参数和与所述状态参数对应的控制所述机 械臂运动的控制参数;
S2,对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度;
S3,根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组;
S4,当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动。
需要说明的是,通过迭代更新出足够多的参数种群,计算所有参数种群的参数组对应的目标轨迹模型拟合成的曲线与目标轨迹训练集组合成的曲线之间的拟合程度,来提高目标轨迹模型的拟合准确度,以及之后根据参数组对应的拟合程度来选取一个参数组为目标轨迹模型的参数组,通常选取拟合程度最高的参数组,能够更进一步地提高目标轨迹模型的拟合准确度,使得机械臂运动时基于该目标轨迹模型获得的控制参数更为准确,机械臂运动轨迹更符合用户的需求。
作为上述实施例的进一步改进,对于步骤S2对参数种群的初始化和迭代更新过程,如图2所示,采用以下优选实施方式,包括步骤S21至S26,具体如下:
S21,初始化设置所述目标轨迹模型的参数种群中的每一个参数组的数值;需要说明的是,对于参数组的一个参数会提供对应的参数值区间,初始化设置时,从对应的参数值区间中随机选取一个数值作为该参数,可以加快收敛,使得后续迭代生成的参数种群中的参数组作为目标轨迹模型的参数组时,目标轨迹模型的拟合程度更好。
S22,对于所述参数种群中的每一个参数组,将所述参数组作为所述目标轨迹模型的参数组,并计算所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度;在本发明实施例中,在设置作为所述目标轨迹模型的参数组是所述参数种群中的第j个参数组pj时,则所述目标轨迹模型拟合 成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度hj为:
Figure PCTCN2017104502-appb-000006
其中,xi为所述目标轨迹训练集中的第i个状态参数;yi为所述目标轨迹训练集中的第i个状态参数对应的控制参数;f(xi,pj)为以所述第j个参数组为所述目标轨迹模型的参数组时,所述第i个状态参数在所述目标轨迹模型中对应的控制参数。
需要说明的是,hj的数值越小,表示目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度越高。
S23,根据所述参数种群的每一个参数组对应的拟合程度,从所述参数种群中选取两个参数组;
S24,以分别在所选取出的两个参数组中的同一含义的两个参数值进行交叉互换的原则,获取新的参数组,直至生成参数组的数量与所述参数种群的参数组的数量相同;假设初始化的参数种群的参数组为M个,则生成新的参数组的数量达到M个,则暂停继续生成新的参数组。
S25,以新生成的所有参数组更新替代所述参数种群,并对迭代次数加一;迭代次数的初始值为零。
S26,判断所述迭代次数是否达到预设次数;
若否,返回步骤S22继续计算更新后的参数种群的每一个参数组对应的拟合程度,直至迭代次数达到所述预设次数;
若是,则完成参数种群的迭代更新。
作为本发明实施例的进一步改进,上述步骤S3的具体实施过程,具体为:
对于每一个参数种群,从所述参数种群中选取拟合程度最高的参数组;
从选取出的所有参数组中,选取拟合程度最高的参数组作为所述目标轨迹模型的参数组。
作为本发明实施例的优选实施方式,优选采用的目标轨迹模型为
Figure PCTCN2017104502-appb-000007
其中,
Figure PCTCN2017104502-appb-000008
Figure PCTCN2017104502-appb-000009
为第i个高斯核函数;wi为第i 个高斯核函数占的权重系数,i≤N;其中,ci为所述第i个高斯核函数的中心值;σi为所述第i个高斯核函数的宽度。
在本发明实施例中,采用多个高斯核函数并配以不同的权重组合而成,使得目标轨迹模型能够拟合任意曲线,即使得拟合而成的目标轨迹模型能够表达机械臂的非线性运动。
需要说明的是,对于以上目标轨迹模型的设置,一个确定的目标轨迹模型包括了N个高斯核函数,则第i个高斯核函数
Figure PCTCN2017104502-appb-000010
包括参数{wi,ci,σi},则参数组种群包含的第j参数组pj={w1,c2,σ3,w2,c2,σ2,……,wN,cN,σN}。
本发明实施例提供的控制机械臂运动的方法,通过不断迭代更新参数种群,使得利用参数种群的参数组建立目标轨迹模型收敛趋向于目标轨迹训练集构建的曲线,确保建模的准确性,以及建模完成后,只需要根据用户输入的机械臂的状态参数,即可从目标轨迹模型中获取得到控制机械臂工作的控制参数,直接控制机械臂工作,能够配合种动态控制机械臂的工作,方便对运动轨迹的修改以及预测。
参见图3,是本发明提供的控制机械臂运动的装置的一个实施例的结构示意图,该装置为设置在控制处理器中的软系统,能够实施上述实施例提供的控制机械臂运动的方法的全部流程,该装置包括:
训练集获取模块10,用于获取所述机械臂运动的目标轨迹训练集;所述目标轨迹训练集中的每一个元素包括所述机械臂运动的状态参数和与所述状态参数对应的控制所述机械臂运动的控制参数;
种群迭代计算模块20,用于对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度;
参数组选取模块30,用于根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组;
机械运动控制模块40,用于当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动。
在第二方面的第一种可能的实现方式中,所述种群迭代计算模块,具体包括:
初始化单元,用于初始化设置所述目标轨迹模型的参数种群中的每一个参数组的数值;
拟合程度计算单元,用于对于所述参数种群中的每一个参数组,将所述参数组作为所述目标轨迹模型的参数组,计算所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度;
参数组选取单元,用于根据所述参数种群的每一个参数组对应的拟合程度,从所述参数种群中选取两个参数组;
新参数组生成单元,用于以分别在所选取出的两个参数组中的同一含义的两个参数值进行交叉互换的原则,获取新的参数组,直至生成参数组的数量与所述参数种群的参数组的数量相同;
更新替代单元,用于以新生成的所有参数组更新替代所述参数种群,并对迭代次数加一;
判断迭代单元,用于判断所述迭代次数是否达到预设次数;
拟合程度计算单元,还用于当所述迭代次数没有达到预设次数时,返回继续计算更新后的参数种群的每一个参数组对应的拟合程度,直至迭代次数达到所述预设次数。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,在作为所述目标轨迹模型的参数组为所述参数种群中的第j个参数组pj时,所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度为:
Figure PCTCN2017104502-appb-000011
其中,xi为所述目标轨迹训练集中的第i个状态 参数;yi为所述目标轨迹训练集中的第i个状态参数对应的控制参数;f(xi,pj)为以所述第j个参数组为所述目标轨迹模型的参数组时,所述第i个状态参数在所述目标轨迹模型中对应的控制参数。
结合第二方面,在第二方面的第三种可能的实现方式中,所述参数组选取模块具体包括:
第一选取单元,用于对于每一个参数种群,从所述参数种群中选取拟合程度最高的参数组;
第二选取单元,用于从选取出的所有参数组中,选取拟合程度最高的参数组作为所述目标轨迹模型的参数组。
结合第二方面,在第二方面的第四种可能的实现方式中,所述目标轨迹模型为
Figure PCTCN2017104502-appb-000012
其中,
Figure PCTCN2017104502-appb-000013
Figure PCTCN2017104502-appb-000014
为第i个高斯核函数;wi为第i个高斯核函数占的权重系数,i≤N;其中,ci为所述第i个高斯核函数的中心值;σi为所述第i个高斯核函数的宽度。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的控制机械臂运动的装置,通过不断迭代更新参数种群,使得利用参数种群的参数组建立目标轨迹模型收敛趋向于目标轨迹训练集构建的曲线,确保建模的准确性,以及建模完成后,只需要根据用户输入的机械臂的状态参数,即可从目标轨迹模型中获取得到控制机械臂工作的控制参数,直接控制机械臂工作,能够配合种动态控制机械臂的工作,方便对运动轨迹的修改以及预测。
以及,本发明实施例提供一种存储介质,其中存储有多条指令,所述指令被处理器执行时实现上述任一实施例提供的控制机械臂运动的方法。
另外,本发明实施例提供一种终端设备,包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的多条指令,其中,所述处理器执行所述指令时实现上述任一实施例提供的控制机械臂运动的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

  1. 一种控制机械臂运动的方法,其特征在于,包括:
    获取所述机械臂运动的目标轨迹训练集;所述目标轨迹训练集中的每一个元素包括所述机械臂运动的状态参数和与所述状态参数对应的控制所述机械臂运动的控制参数;
    对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度;
    根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组;
    当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动。
  2. 如权利要求1所述的控制机械臂运动的方法,其特征在于,所述对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度,具体为:
    初始化设置所述目标轨迹模型的参数种群中的每一个参数组的数值;
    对于所述参数种群中的每一个参数组,将所述参数组作为所述目标轨迹模型的参数组,并计算所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度;
    根据所述参数种群的每一个参数组对应的拟合程度,从所述参数种群中选取两个参数组;
    以分别在所选取出的两个参数组中的同一含义的两个参数值进行交叉互换的原则,获取新的参数组,直至生成参数组的数量与所述参数种群的参数组的 数量相同;
    以新生成的所有参数组更新替代所述参数种群,并对迭代次数加一;
    判断所述迭代次数是否达到预设次数;
    若否,返回继续计算更新后的参数种群的每一个参数组对应的拟合程度,直至迭代次数达到所述预设次数。
  3. 如权利要求2所述的控制机械臂运动的方法,其特征在于,在作为所述目标轨迹模型的参数组为所述参数种群中的第j个参数组pj时,所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度为:
    Figure PCTCN2017104502-appb-100001
    其中,xi为所述目标轨迹训练集中的第i个状态参数;yi为所述目标轨迹训练集中的第i个状态参数对应的控制参数;f(xi,pj)为以所述第j个参数组为所述目标轨迹模型的参数组时,所述第i个状态参数在所述目标轨迹模型中对应的控制参数。
  4. 如权利要求1所述的控制机械臂运动的方法,其特征在于,所述根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组,具体为:
    对于每一个参数种群,从所述参数种群中选取拟合程度最高的参数组;
    从选取出的所有参数组中,选取拟合程度最高的参数组作为所述目标轨迹模型的参数组。
  5. 如权利要求1所述的控制机械臂运动的方法,其特征在于,所述目标轨迹模型为
    Figure PCTCN2017104502-appb-100002
    其中,
    Figure PCTCN2017104502-appb-100003
    Figure PCTCN2017104502-appb-100004
    为第i个高斯核函数;wi为第i个高斯核函数占的权重系数,i≤N;其中,ci为所述第i个高斯核函数的中心值;σi为所述第i个高斯核函数的宽度。
  6. 一种控制机械臂运动的装置,其特征在于,包括:
    训练集获取模块,用于获取所述机械臂运动的目标轨迹训练集;所述目标轨迹训练集中的每一个元素包括所述机械臂运动的状态参数和与所述状态参数对应的控制所述机械臂运动的控制参数;
    种群迭代计算模块,用于对目标轨迹模型的参数种群进行初始化以及迭代更新,并依次将参数种群中的参数组作为所述目标轨迹模型的参数组,计算每一个目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合成的曲线之间的拟合程度;
    参数组选取模块,用于根据每一个参数组对应的拟合程度,选取一个参数组作为所述目标轨迹模型的参数组;
    机械运动控制模块,用于当接收到当前所述机械臂运动的状态参数时,将获取到的状态参数输入所述目标轨迹模型中,获得当前控制所述机械臂运动的控制参数,并根据所获得的控制参数控制所述机械臂运动。
  7. 如权利要求6所述的控制机械臂运动的装置,其特征在于,所述种群迭代计算模块,具体包括:
    初始化单元,用于初始化设置所述目标轨迹模型的参数种群中的每一个参数组的数值;
    拟合程度计算单元,用于对于所述参数种群中的每一个参数组,将所述参数组作为所述目标轨迹模型的参数组,并计算所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度;
    参数组选取单元,用于根据所述参数种群的每一个参数组对应的拟合程度,从所述参数种群中选取两个参数组;
    新参数组生成单元,用于以分别在所选取出的两个参数组中的同一含义的两个参数值进行交叉互换的原则,获取新的参数组,直至生成参数组的数量与所述参数种群的参数组的数量相同;
    更新替代单元,用于以新生成的所有参数组更新替代所述参数种群,并对 迭代次数加一;
    判断迭代单元,用于判断所述迭代次数是否达到预设次数;
    拟合程度计算单元,还用于当所述迭代次数没有达到预设次数时,返回继续计算更新后的参数种群的每一个参数组对应的拟合程度,直至迭代次数达到所述预设次数。
  8. 如权利要求7所述的控制机械臂运动的装置,其特征在于,在作为所述目标轨迹模型的参数组为所述参数种群中的第j个参数组pj时,所述目标轨迹模型拟合成的曲线与所述目标轨迹训练集组合的曲线之间的拟合程度为:
    Figure PCTCN2017104502-appb-100005
    其中,xi为所述目标轨迹训练集中的第i个状态参数;yi为所述目标轨迹训练集中的第i个状态参数对应的控制参数;f(xi,pj)为以所述第j个参数组为所述目标轨迹模型的参数组时,所述第i个状态参数在所述目标轨迹模型中对应的控制参数。
  9. 一种存储介质,其中存储有多条指令,其特征在于,所述指令被处理器执行时实现如权利要求1至5任一项所述的控制机械臂运动的方法。
  10. 一种终端设备,其特征在于,包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的多条指令,其中,所述处理器执行所述指令时实现如权利要求1至5任一项所述的控制机械臂运动的方法。
PCT/CN2017/104502 2017-06-13 2017-09-29 控制机械臂运动的方法及装置、存储介质和终端设备 WO2018227820A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710445183.1 2017-06-13
CN201710445183.1A CN107457780B (zh) 2017-06-13 2017-06-13 控制机械臂运动的方法及装置、存储介质和终端设备

Publications (1)

Publication Number Publication Date
WO2018227820A1 true WO2018227820A1 (zh) 2018-12-20

Family

ID=60543761

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/104502 WO2018227820A1 (zh) 2017-06-13 2017-09-29 控制机械臂运动的方法及装置、存储介质和终端设备

Country Status (2)

Country Link
CN (1) CN107457780B (zh)
WO (1) WO2018227820A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108592902B (zh) * 2018-05-08 2020-07-31 清华大学 一种基于多传感器的定位设备及定位方法、系统和机械臂
CN108481328B (zh) * 2018-06-04 2020-10-09 浙江工业大学 六关节工业机器人关节空间轨迹跟踪柔性迭代学习控制方法
CN110524544A (zh) * 2019-10-08 2019-12-03 深圳前海达闼云端智能科技有限公司 一种机械臂运动的控制方法、终端和可读存储介质
CN110977965B (zh) * 2019-11-26 2023-02-28 中国科学院深圳先进技术研究院 机器人及其控制方法、计算机存储介质
CN112428278B (zh) * 2020-10-26 2022-11-15 北京理工大学 机械臂的控制方法、装置及人机协同模型的训练方法
CN114952833B (zh) * 2022-05-18 2023-11-21 中国船舶集团有限公司第七二三研究所 一种基于pcc的大型机械臂实时数据传输控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015127B2 (en) * 2006-09-12 2011-09-06 New York University System, method, and computer-accessible medium for providing a multi-objective evolutionary optimization of agent-based models
CN105426341A (zh) * 2015-10-29 2016-03-23 中国科学院力学研究所 复杂对象的参数辨识方法和装置
CN105676636A (zh) * 2016-01-11 2016-06-15 北京邮电大学 一种基于nsga-ii算法的冗余度空间机械臂多目标优化方法
CN105988366A (zh) * 2015-02-13 2016-10-05 大连大学 一种空间机器人最小基座扰动轨迹规划方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5673367A (en) * 1992-10-01 1997-09-30 Buckley; Theresa M. Method for neural network control of motion using real-time environmental feedback
CN104299248B (zh) * 2014-11-04 2017-08-04 哈尔滨工程大学 利用前视声呐图像对水下多个动态目标运动预测的方法
CN106041941B (zh) * 2016-06-20 2018-04-06 广州视源电子科技股份有限公司 一种机械臂的轨迹规划方法及装置
CN106250637B (zh) * 2016-08-04 2019-04-16 清华大学 基于微交通仿真模型的汽车安全系统参数优化方法
CN106657119A (zh) * 2016-12-31 2017-05-10 深圳市愚公科技有限公司 一种家庭服务机器人的管理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015127B2 (en) * 2006-09-12 2011-09-06 New York University System, method, and computer-accessible medium for providing a multi-objective evolutionary optimization of agent-based models
CN105988366A (zh) * 2015-02-13 2016-10-05 大连大学 一种空间机器人最小基座扰动轨迹规划方法
CN105426341A (zh) * 2015-10-29 2016-03-23 中国科学院力学研究所 复杂对象的参数辨识方法和装置
CN105676636A (zh) * 2016-01-11 2016-06-15 北京邮电大学 一种基于nsga-ii算法的冗余度空间机械臂多目标优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG, DI ET AL.: "The SVM identification and control of the six-axis manipulator generalized inverse system", JOURNAL OF GUANGXI UNIVERSITY (NATURAL SCIENCE EDITION), vol. 38, no. 5, 31 October 2013 (2013-10-31), China, pages 1023 - 1026 *

Also Published As

Publication number Publication date
CN107457780B (zh) 2020-03-17
CN107457780A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
WO2018227820A1 (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
CN112509099B (zh) 虚拟形象驱动方法、装置、设备和存储介质
WO2019205238A1 (zh) 骨骼姿态计算方法、人物虚拟模型驱动方法及存储介质
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN106681343B (zh) 一种航天器姿态跟踪低复杂度预设性能控制方法
CN107030699A (zh) 位姿误差修正方法及装置、机器人及存储介质
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
JPWO2002063402A1 (ja) エージェント学習装置、方法、プログラム
CN113487039A (zh) 基于深度强化学习的智能体自适应决策生成方法及系统
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
CN113341696A (zh) 一种运载火箭姿态控制参数智能整定方法
Samant et al. Adaptive learning of dynamic movement primitives through demonstration
WO2020134011A1 (zh) 展示信息组合确定方法、装置、存储介质及电子设备
US11710301B2 (en) Apparatus for Q-learning for continuous actions with cross-entropy guided policies and method thereof
JP2020179438A (ja) 計算機システム及び機械学習方法
Zhao et al. A robot demonstration method based on LWR and Q-learning algorithm
WO2023216581A1 (zh) 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质
Zheng et al. Neurodynamics Adaptive Reward and Action for Hand-to-Eye Calibration with Deep Reinforcement Learning
CN117970782B (zh) 一种基于鱼鳞进化gsom改进的模糊pid控制方法
CN115600875B (zh) 一种环境参数的标定方法、装置、电子设备及存储介质
CN114200831B (zh) 一种带输入磁滞的机器人混合时间控制方法、系统及介质
CN111638646B (zh) 四足机器人行走控制器训练方法、装置、终端及存储介质
CN113485107A (zh) 基于一致性约束建模的强化学习机器人控制方法及系统
CN112989016B (zh) 用于检测对话策略学习中模拟用户经验质量的方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17914054

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 26.06.2020)

122 Ep: pct application non-entry in european phase

Ref document number: 17914054

Country of ref document: EP

Kind code of ref document: A1