WO2022111652A1 - 一种机器人自主异常修复技能学习方法及系统 - Google Patents

一种机器人自主异常修复技能学习方法及系统 Download PDF

Info

Publication number
WO2022111652A1
WO2022111652A1 PCT/CN2021/133685 CN2021133685W WO2022111652A1 WO 2022111652 A1 WO2022111652 A1 WO 2022111652A1 CN 2021133685 W CN2021133685 W CN 2021133685W WO 2022111652 A1 WO2022111652 A1 WO 2022111652A1
Authority
WO
WIPO (PCT)
Prior art keywords
abnormal
skill
repair
robot
motor
Prior art date
Application number
PCT/CN2021/133685
Other languages
English (en)
French (fr)
Inventor
徐智浩
鄢武
程韬波
吴鸿敏
苏泽荣
周雪峰
Original Assignee
广东省科学院智能制造研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202011367295.8A external-priority patent/CN112365004B/zh
Application filed by 广东省科学院智能制造研究所 filed Critical 广东省科学院智能制造研究所
Publication of WO2022111652A1 publication Critical patent/WO2022111652A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the invention relates to the technical field of robot skill learning, in particular to a robot autonomous abnormal repair skill learning method and system.
  • the human-robot collaboration-oriented anomaly repair should give play to human expectations for robot motion, and the human-assisted robot anomaly repair strategy will further reflect the "human-centered" human-robot collaboration concept.
  • artificially pre-set rules or relying on the robot's own motion planning method are usually used to repair robot anomalies, which lack the consideration of the type of anomaly and the characteristics of the human-robot collaboration system, which cannot meet the needs of practical applications.
  • the purpose of the present invention is to overcome the deficiencies of the prior art.
  • the present invention provides a robot autonomous abnormal repair skill learning method and system, which can distinguish the types of abnormalities encountered by the robot when performing complex tasks and formulate corresponding repair strategies. It is beneficial to promote the robot to achieve longer-term autonomous operation.
  • the present invention proposes a robot autonomous abnormal repair skill learning method, which includes:
  • an adaptive motor repair strategy is enabled to autonomously repair the abnormal motor skill.
  • the pre-defined human demonstration trajectory of the robot when performing complex tasks includes:
  • the types and execution sequences of the N motor skills are serialized and characterized by the finite state machine FSM, and corresponding N motor skill sequences are generated.
  • the acquiring multimodal sensing information of the robot when performing the complex task, and using the multimodal sensing information for monitoring, acquiring abnormal motor skills includes:
  • enabling an adaptive motor repair strategy to autonomously repair the abnormal motor skill includes:
  • the abnormal state type of the abnormal motor skill being a transient state, enabling a transient movement redo repair strategy to re-repair the abnormal motor skill
  • a continuous movement adjustment and repair strategy is enabled to continuously adjust the abnormal movement skill.
  • the transient motion redo repair strategy includes:
  • the task scheduling directed graph is updated by using polynomial probability distribution learning, and a transition node for motion redoing is added between the abnormal motor skill and the previous motor skill, so as to complete the parameter restoration of the abnormal motor skill.
  • the continuous motion adjustment and repair strategy includes:
  • the task scheduling directed graph is updated, a motion adjustment transition node is added between the abnormal motor skill and the next motor skill, and a human demonstration repair behavior is generated to complete the Parameter adjustment for the next motor skill.
  • the embodiment of the present invention also provides a robot autonomous abnormal repair skill learning system, the system includes:
  • the motion trajectory definition module is used to predefine the human demonstration trajectory of the robot when performing complex tasks
  • an abnormal skill monitoring module used for acquiring multimodal sensing information of the robot when performing the complex task, and using the multimodal sensing information for monitoring to acquire abnormal motor skills
  • the abnormal skill repair module is used for autonomously repairing the abnormal motor skill by enabling a suitable movement repair strategy based on the abnormal state type of the abnormal motor skill.
  • the abnormal skill repair module is configured to re-repair the abnormal movement skill based on the abnormal state type of the abnormal movement skill being a transient state, enabling a transient movement redo repair strategy; based on the abnormal movement
  • the abnormal state type of the skill is a persistent state, and a continuous movement adjustment and repair strategy is enabled to continuously adjust the abnormal movement skill.
  • the transient motion redo repair strategy includes:
  • the task scheduling directed graph is updated by using polynomial probability distribution learning, and a motion redoing transition node is added between the abnormal motor skill and the last motor skill to complete the parameter restoration of the abnormal motor skill.
  • the continuous motion adjustment and repair strategy includes:
  • the task scheduling directed graph is updated, a motion adjustment transition node is added between the abnormal motor skill and the next motor skill, and a human demonstration repair behavior is generated to complete the Parameter adjustment for the next motor skill.
  • the robot it is possible to effectively distinguish the abnormal types encountered by the robot when performing complex tasks, and rely on polynomial probability distribution learning and dynamic motion primitive learning model to formulate behavior repairs adapted to different types of abnormal behaviors
  • the strategy makes the repair skills learned by the robot have certain scalability and generalization, which is conducive to promoting the robot to achieve longer-term autonomous operation, which can meet the needs of practical applications.
  • FIG. 1 is a schematic flowchart of a robot autonomous abnormality repairing skill learning method in an embodiment of the present invention
  • FIG. 2 is a schematic diagram of a process of realizing sports redo repairing skills in an embodiment of the present invention
  • FIG. 3 is a schematic diagram of a process of realizing a movement adjustment and repair skill in an embodiment of the present invention
  • FIG. 4 is a schematic structural diagram of a robot autonomous abnormal repair skill learning system in an embodiment of the present invention.
  • FIG. 1 shows a schematic flowchart of a method for learning a robot's autonomous abnormality repairing skill in an embodiment of the present invention.
  • a robot autonomous abnormal repair skill learning method the method includes:
  • the implementation process of the present invention includes: (1) pre-defining N motor skills required by the robot to perform complex tasks; (2) using the finite state machine FSM to serialize the types and execution sequences of the N motor skills, Generate corresponding N motor skill sequences.
  • the implementation process of the present invention includes: (1) acquiring multi-modal sensing information of the robot when performing the complex task, and preprocessing the multi-modal sensing information to extract low-dimensional feature vectors; ( 2) Use the N motor skill sequences to build an abnormality detection model, input the low-dimensional feature vector into the abnormality detection model for monitoring, and judge whether the robot is in an abnormal state, and the corresponding judgment result is: if the If the robot is in an abnormal state, input the low-dimensional feature vector into a multi-category abnormality classifier for diagnosis, and obtain the abnormal motor skills of the robot; if the robot is in a normal state, return to re-obtain that the robot is performing all
  • the multi-modal sensing information during the complex task process is used to realize the detection of various motor skills of the robot during the entire complex task process.
  • a transient movement redo repair strategy is enabled to re-repair the abnormal motor skill; or, based on the abnormality of the abnormal motor skill
  • the state type is a persistent state, and a continuous movement adjustment and repair strategy is enabled to continuously adjust the abnormal movement skills.
  • the transient motion redo repair strategy is mainly aimed at solving transient anomalies such as human collision and object sliding, and the repair of the current abnormal movement skills is completed; the continuous movement adjustment and repair strategy is mainly aimed at solving tool collisions, wall collisions, etc. Persistent abnormality, complete the adjustment to the next motor skill that follows.
  • the continuous movement adjustment and repair strategy is executed on the basis of the instantaneous movement redo repair strategy, that is, the current abnormal movement skills still cannot be repaired after repeatedly executing the instantaneous movement redo repair strategy.
  • the continuous motion adjustment and repair strategy can be enabled to avoid increasing the repair workload of the robot.
  • the instantaneous motion redo repair strategy includes:
  • the probability mass function of the conversion node R R is:
  • ⁇ i is the probability that the ith motor skill is selected to be redone
  • the continuous motion adjustment and repair strategy includes:
  • the robot it is possible to effectively distinguish the abnormal types encountered by the robot when performing complex tasks, and rely on polynomial probability distribution learning and dynamic motion primitive learning model to formulate behavior repairs adapted to different types of abnormal behaviors
  • the strategy makes the repair skills learned by the robot have certain scalability and generalization, which is conducive to promoting the robot to achieve longer-term autonomous operation, which can meet the needs of practical applications.
  • FIG. 4 shows a schematic structural composition diagram of a robot autonomous abnormal repair skill learning system in an embodiment of the present invention.
  • a robot autonomous abnormal repair skill learning system the system includes:
  • the motion trajectory definition module 201 is used to predefine the human demonstration trajectory of the robot when performing complex tasks
  • the implementation process of the present invention includes: (1) pre-defining N motor skills required by the robot to perform complex tasks; (2) using the finite state machine FSM to serialize the types and execution sequences of the N motor skills, Generate corresponding N motor skill sequences.
  • An abnormal skill monitoring module 202 configured to acquire multimodal sensing information of the robot when performing the complex task, and use the multimodal sensing information to monitor to acquire abnormal motor skills;
  • the implementation process of the present invention includes: (1) acquiring multi-modal sensing information of the robot when performing the complex task, and preprocessing the multi-modal sensing information to extract low-dimensional feature vectors; ( 2) Use the N motor skill sequences to build an abnormality detection model, input the low-dimensional feature vector into the abnormality detection model for monitoring, and judge whether the robot is in an abnormal state, and the corresponding judgment result is: if the If the robot is in an abnormal state, input the low-dimensional feature vector into a multi-category abnormality classifier for diagnosis, and obtain the abnormal motor skills of the robot; if the robot is in a normal state, return to re-obtain that the robot is performing all
  • the multi-modal sensing information during the complex task process is used to realize the detection of various motor skills of the robot during the entire complex task process.
  • the abnormal skill repair module 203 is configured to enable an adaptive movement repair strategy to perform autonomous repair of the abnormal motor skill based on the abnormal state type of the abnormal motor skill.
  • a transient movement redo repair strategy is enabled to re-repair the abnormal motor skill; or, based on the abnormality of the abnormal motor skill
  • the state type is a persistent state, and a continuous movement adjustment and repair strategy is enabled to continuously adjust the abnormal movement skills.
  • the transient motion redo repair strategy is mainly aimed at solving transient anomalies such as human collision and object sliding, and the repair of the current abnormal movement skills is completed; the continuous movement adjustment and repair strategy is mainly aimed at solving tool collisions, wall collisions, etc. Persistent abnormality, complete the adjustment to the next motor skill that follows.
  • the continuous movement adjustment and repair strategy is executed on the basis of the instantaneous movement redo repair strategy, that is, the current abnormal movement skills still cannot be repaired after repeatedly executing the instantaneous movement redo repair strategy.
  • the continuous motion adjustment and repair strategy can be enabled to avoid increasing the repair workload of the robot.
  • the instantaneous motion redo repair strategy includes:
  • the probability mass function of the conversion node R R is:
  • ⁇ i is the probability that the ith motor skill is selected to be redone
  • the continuous motion adjustment and repair strategy includes:
  • the robot it is possible to effectively distinguish the abnormal types encountered by the robot when performing complex tasks, and rely on polynomial probability distribution learning and dynamic motion primitive learning model to formulate behavior repairs adapted to different types of abnormal behaviors
  • the strategy makes the repair skills learned by the robot have certain scalability and generalization, which is conducive to promoting the robot to achieve longer-term autonomous operation, which can meet the needs of practical applications.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • magnetic disk or CD etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种机器人自主异常修复技能学习方法及系统,其方法包括:预先定义机器人在执行复杂任务时的人类示范轨迹;获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。在本发明实施例中,可区分机器人在执行复杂任务时所遇到的异常类型并制定相对应的修复策略,有利于促进机器人实现更为长期的自主操作。

Description

一种机器人自主异常修复技能学习方法及系统 技术领域
本发明涉及机器人技能学习技术领域,尤其涉及一种机器人自主异常修复技能学习方法及系统。
背景技术
随着机器人应用广度与深度的不断提升,现有的智能化技术无法满足需求,人与机器人协同作业是最为有效的解决方法。人机协作是指机器人通过多传感器进行感知并与人协作完成各种精细复杂的操作任务,目前该方法已被广泛应用于智能制造、物流仓储和医疗服务等领域。然而,在人机协作环境中,由于机器人的程序错误、传感器噪声、人类误操作等原因将造成机器人与环境碰撞、机器人与人类碰撞、物体操作失败等异常事件,极有可能造成任务失败,甚至对人类或机器人本体产生伤害。因此,针对不同类型的异常事件,开展机器人自主异常修复技能学习方法的研究具有重要意义。
面向人机协作的异常修复应该发挥出人类对于机器人运动的期望,通过人类辅助的机器人异常修复策略将更加体现出“以人为中心“的人机协作构想。然而传统上通常采用人为预先设定规则或者依赖机器人自身的运动规划方法进行机器人异常修复,缺乏考虑异常类型及人机协作系统的特征,无法满足实际应用的需求。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种机器人自主异常修复技能学习方法及系统,可区分机器人在执行复杂任务时所遇到的异常类型并制定相对应的修复策略,有利于促进机器人实现更为长期的自主操作。
为了解决上述问题,本发明提出了一种机器人自主异常修复技能学习方法,所述方法包括:
预先定义机器人在执行复杂任务时的人类示范轨迹;
获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;
基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。
可选的,所述预先定义机器人在执行复杂任务时的人类示范轨迹包括:
预先定义机器人在执行复杂任务时所需的N个运动技能;
利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征,生成相对应的N个运动技能序列。
可选的,所述获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能包括:
获取所述机器人在执行所述复杂任务时的多模态传感信息,并对所述多模态传感信息进行预处理,提取出低维特征向量;
利用所述N个运动技能序列搭建异常检测模型,将所述低维特征向量输入至所述异常检测模型进行监测,判断所述机器人是否处于异常状态;
若是,将所述低维特征向量输入至多类别异常分类器进行诊断,获取所述机器人的异常运动技能;
若否,则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息。
可选的,所述基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复包括:
基于所述异常运动技能的异常状态类型为瞬时性状态,启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复;
基于所述异常运动技能的异常状态类型为持续性状态,启用持续性运动调整修复策略对所述异常运动技能进行接续调整。
可选的,所述瞬时性运动重做修复策略包括:
基于所述人类示范轨迹,记录相对于所述异常运动技能的上一个运动技能;
采用多项式概率分布学习对任务调度有向图进行更新,在所述异常运 动技能与所述上一个运动技能之间增加一个运动重做的转换节点,完成对所述异常运动技能的参数修复。
可选的,所述持续性运动调整修复策略包括:
基于所述人类示范轨迹,记录相对于所述异常运动技能的下一个运动技能;
基于动态运动基元学习模型对任务调度有向图进行更新,在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为,完成对所述下一个运动技能的参数调整。
另外,本发明实施例还提供了一种机器人自主异常修复技能学习系统,所述系统包括:
运动轨迹定义模块,用于预先定义机器人在执行复杂任务时的人类示范轨迹;
异常技能监测模块,用于获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;
异常技能修复模块,用于基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。
可选的,所述异常技能修复模块用于基于所述异常运动技能的异常状态类型为瞬时性状态,启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复;基于所述异常运动技能的异常状态类型为持续性状态,启用持续性运动调整修复策略对所述异常运动技能进行接续调整。
可选的,所述瞬时性运动重做修复策略包括:
基于所述人类示范轨迹,记录相对于所述异常运动技能的上一个运动技能;
采用多项式概率分布学习对任务调度有向图进行更新,在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点,完成对所述异常运动技能的参数修复。
可选的,所述持续性运动调整修复策略包括:
基于所述人类示范轨迹,记录相对于所述异常运动技能的下一个运动技能;
基于动态运动基元学习模型对任务调度有向图进行更新,在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为,完成对所述下一个运动技能的参数调整。
在本发明实施例中,可有效地区分机器人在执行复杂任务时所遇到的异常类型,并依赖于多项式概率分布学习与动态运动基元学习模型针对不同类型的异常行为制定相适应的行为修复策略,使得机器人所学习的修复技能具有一定的扩展性和泛化性,有利于促进机器人实现更为长期的自主操作,可满足实际应用的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的机器人自主异常修复技能学习方法的流程示意图;
图2是本发明实施例中的实现运动重做修复技能的过程示意图;
图3是本发明实施例中的实现运动调整修复技能的过程示意图;
图4是本发明实施例中的机器人自主异常修复技能学习系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1示出了本发明实施例中的机器人自主异常修复技能学习方法的流程示意图。
如图1所示,一种机器人自主异常修复技能学习方法,所述方法包括:
S101、预先定义机器人在执行复杂任务时的人类示范轨迹;
本发明实施过程包括:(1)预先定义机器人在执行复杂任务时所需的N个运动技能;(2)利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征,生成相对应的N个运动技能序列。
S102、获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;
本发明实施过程包括:(1)获取所述机器人在执行所述复杂任务时的多模态传感信息,并对所述多模态传感信息进行预处理,提取出低维特征向量;(2)利用所述N个运动技能序列搭建异常检测模型,将所述低维特征向量输入至所述异常检测模型进行监测,判断所述机器人是否处于异常状态,其相应的判断结果为:若所述机器人处于异常状态,则将所述低维特征向量输入至多类别异常分类器进行诊断,获取所述机器人的异常运动技能;若所述机器人处于正常状态,则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息,以实现对所述机器人在执行整个复杂任务过程中的各个运动技能检测。
S103、基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。
在本发明实施例中,基于所述异常运动技能的异常状态类型为瞬时性状态,启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复;或者,基于所述异常运动技能的异常状态类型为持续性状态,启用持续性运动调整修复策略对所述异常运动技能进行接续调整。其中,所述瞬时性运动重做修复策略主要针对解决人类碰撞、物体滑落等瞬时性异常,完成对当前异常运动技能的修复;所述持续性运动调整修复策略主要针对解决工具碰撞、壁面碰撞等持续性异常,完成对接续的下一个运动技能的调整。此外,所述持续性运动调整修复策略是在所述瞬时性运动重做修复策略的基础上执行的,即通过重复执行完所述瞬时性运动重做修复策略之后仍然无法修复当前异常运动技能的情况下(本发明实施例设定尝试次数不少于两次),才可启用所述持续性运动调整修复策略,避免增大对所述机器人的修复工作量。
具体的,结合图2所示出的实现运动重做修复技能的过程示意图,其中M代表运动技能,I代表异常检测模型,V代表视觉感知器,所述瞬时性运动重做修复策略包括:
(1)基于所述人类示范轨迹,记录相对于所述异常运动技能的上一个运动技能;
在实施过程中,假设给定当前运动技能为
Figure PCTCN2021133685-appb-000001
(
Figure PCTCN2021133685-appb-000002
为起始节点、
Figure PCTCN2021133685-appb-000003
为目标节点),上一个运动技能(即被选择需要重做的运动技能)为
Figure PCTCN2021133685-appb-000004
Figure PCTCN2021133685-appb-000005
(
Figure PCTCN2021133685-appb-000006
为起始节点、
Figure PCTCN2021133685-appb-000007
为目标节点),且在执行所述当前运动技能B i时有任何一种瞬时性异常行为F x发生。
(2)采用多项式概率分布学习对任务调度有向图进行更新,在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点,完成对所述异常运动技能的参数修复。
在实施过程中,通过在所述当前运动技能B i与所述上一个运动技能B *之间增加一个运动重做的转换节点
Figure PCTCN2021133685-appb-000008
利用多项式概率分布学习对转换参数
Figure PCTCN2021133685-appb-000009
的概率分布进行计算,最终可由所述转换节点R R的概率质量确定重做所述上一个运动技能B *的成功率。其中,所述转换参数
Figure PCTCN2021133685-appb-000010
的概率分布的随机样本为人类对于异常行为F x发生后重做运动技能B *的统计次数,例如设定异常行为F x的转换运动概率分布的随机样本向量为
Figure PCTCN2021133685-appb-000011
Figure PCTCN2021133685-appb-000012
K为从所述机器人开始运动至异常行为F x所在当前运动技能B i的技能总个数,N i(i=1,2,…,K)为成功重做相对应的第i个运动技能的次数,此时针对N次独立重做运动技能B *,其转换节点R R的概率质量函数为:
Figure PCTCN2021133685-appb-000013
式中:θ i为第i个运动技能被选择重做的概率,且
Figure PCTCN2021133685-appb-000014
具体的,结合图3所示出的实现运动调整修复技能的过程示意图,其中M代表运动技能,I代表异常检测模型,V代表视觉感知器,所述持续性运动调整修复策略包括:
(1)基于所述人类示范轨迹,记录相对于所述异常运动技能的下一个运动技能;
在实施过程中,假设给定当前运动技能为
Figure PCTCN2021133685-appb-000015
(
Figure PCTCN2021133685-appb-000016
为起始节点、
Figure PCTCN2021133685-appb-000017
为目标节点),且在执行所述当前运动技能B j时有任何一种持续性异常行为F y发生,同时记录下一个运动技能的调整节点
Figure PCTCN2021133685-appb-000018
(2)基于动态运动基元学习模型对任务调度有向图进行更新,在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为,完成对所述下一个运动技能的参数调整。
在实施过程中,通过在所述当前运动技能B j与所述下一个运动技能的调整节点
Figure PCTCN2021133685-appb-000019
之间增加一个运动调整的转换节点
Figure PCTCN2021133685-appb-000020
同时基于动态运动基元学习模型生成一个人类示范修复行为
Figure PCTCN2021133685-appb-000021
再结合所述人类示范修复行为B h的终止位姿点P来确定
Figure PCTCN2021133685-appb-000022
以此对所述下一个运动技能的调整节点
Figure PCTCN2021133685-appb-000023
进行更正。
在本发明实施例中,可有效地区分机器人在执行复杂任务时所遇到的异常类型,并依赖于多项式概率分布学习与动态运动基元学习模型针对不同类型的异常行为制定相适应的行为修复策略,使得机器人所学习的修复技能具有一定的扩展性和泛化性,有利于促进机器人实现更为长期的自主操作,可满足实际应用的需求。
实施例
请参阅图4,图4示出了本发明实施例中的机器人自主异常修复技能学习系统的结构组成示意图。
如图4所示,一种机器人自主异常修复技能学习系统,所述系统包括:
运动轨迹定义模块201,用于预先定义机器人在执行复杂任务时的人类示范轨迹;
本发明实施过程包括:(1)预先定义机器人在执行复杂任务时所需的N个运动技能;(2)利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征,生成相对应的N个运动技能序列。
异常技能监测模块202,用于获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;
本发明实施过程包括:(1)获取所述机器人在执行所述复杂任务时的多 模态传感信息,并对所述多模态传感信息进行预处理,提取出低维特征向量;(2)利用所述N个运动技能序列搭建异常检测模型,将所述低维特征向量输入至所述异常检测模型进行监测,判断所述机器人是否处于异常状态,其相应的判断结果为:若所述机器人处于异常状态,则将所述低维特征向量输入至多类别异常分类器进行诊断,获取所述机器人的异常运动技能;若所述机器人处于正常状态,则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息,以实现对所述机器人在执行整个复杂任务过程中的各个运动技能检测。
异常技能修复模块203,用于基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。
在本发明实施例中,基于所述异常运动技能的异常状态类型为瞬时性状态,启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复;或者,基于所述异常运动技能的异常状态类型为持续性状态,启用持续性运动调整修复策略对所述异常运动技能进行接续调整。其中,所述瞬时性运动重做修复策略主要针对解决人类碰撞、物体滑落等瞬时性异常,完成对当前异常运动技能的修复;所述持续性运动调整修复策略主要针对解决工具碰撞、壁面碰撞等持续性异常,完成对接续的下一个运动技能的调整。此外,所述持续性运动调整修复策略是在所述瞬时性运动重做修复策略的基础上执行的,即通过重复执行完所述瞬时性运动重做修复策略之后仍然无法修复当前异常运动技能的情况下(本发明实施例设定尝试次数不少于两次),才可启用所述持续性运动调整修复策略,避免增大对所述机器人的修复工作量。
具体的,结合图2所示出的实现运动重做修复技能的过程示意图,其中M代表运动技能,I代表异常检测模型,V代表视觉感知器,所述瞬时性运动重做修复策略包括:
(1)基于所述人类示范轨迹,记录相对于所述异常运动技能的上一个运动技能;
在实施过程中,假设给定当前运动技能为
Figure PCTCN2021133685-appb-000024
(
Figure PCTCN2021133685-appb-000025
为起始节点、
Figure PCTCN2021133685-appb-000026
为目标节点),上一个运动技能(即被选择需要重做的运动技能)为
Figure PCTCN2021133685-appb-000027
Figure PCTCN2021133685-appb-000028
(
Figure PCTCN2021133685-appb-000029
为起始节点、
Figure PCTCN2021133685-appb-000030
为目标节点),且在执行所述当前运动技能B i 时有任何一种瞬时性异常行为F x发生。
(2)采用多项式概率分布学习对任务调度有向图进行更新,在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点,完成对所述异常运动技能的参数修复。
在实施过程中,通过在所述当前运动技能B i与所述上一个运动技能B *之间增加一个运动重做的转换节点
Figure PCTCN2021133685-appb-000031
利用多项式概率分布学习对转换参数
Figure PCTCN2021133685-appb-000032
的概率分布进行计算,最终可由所述转换节点R R的概率质量确定重做所述上一个运动技能B *的成功率。其中,所述转换参数
Figure PCTCN2021133685-appb-000033
的概率分布的随机样本为人类对于异常行为F x发生后重做运动技能B *的统计次数,例如设定异常行为F x的转换运动概率分布的随机样本向量为
Figure PCTCN2021133685-appb-000034
Figure PCTCN2021133685-appb-000035
K为从所述机器人开始运动至异常行为F x所在当前运动技能B i的技能总个数,N i(i=1,2,…,K)为成功重做相对应的第i个运动技能的次数,此时针对N次独立重做运动技能B *,其转换节点R R的概率质量函数为:
Figure PCTCN2021133685-appb-000036
式中:θ i为第i个运动技能被选择重做的概率,且
Figure PCTCN2021133685-appb-000037
具体的,结合图3所示出的实现运动调整修复技能的过程示意图,其中M代表运动技能,I代表异常检测模型,V代表视觉感知器,所述持续性运动调整修复策略包括:
(1)基于所述人类示范轨迹,记录相对于所述异常运动技能的下一个运动技能;
在实施过程中,假设给定当前运动技能为
Figure PCTCN2021133685-appb-000038
(
Figure PCTCN2021133685-appb-000039
为起始节点、
Figure PCTCN2021133685-appb-000040
为目标节点),且在执行所述当前运动技能B j时有任何一种持续性异常行为F y发生,同时记录下一个运动技能的调整节点
Figure PCTCN2021133685-appb-000041
(2)基于动态运动基元学习模型对任务调度有向图进行更新,在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为,完成对所述下一个运动技能的参数调整。
在实施过程中,通过在所述当前运动技能B j与所述下一个运动技能的调整节点
Figure PCTCN2021133685-appb-000042
之间增加一个运动调整的转换节点
Figure PCTCN2021133685-appb-000043
同时基于动 态运动基元学习模型生成一个人类示范修复行为
Figure PCTCN2021133685-appb-000044
再结合所述人类示范修复行为B h的终止位姿点P来确定
Figure PCTCN2021133685-appb-000045
以此对所述下一个运动技能的调整节点
Figure PCTCN2021133685-appb-000046
进行更正。
在本发明实施例中,可有效地区分机器人在执行复杂任务时所遇到的异常类型,并依赖于多项式概率分布学习与动态运动基元学习模型针对不同类型的异常行为制定相适应的行为修复策略,使得机器人所学习的修复技能具有一定的扩展性和泛化性,有利于促进机器人实现更为长期的自主操作,可满足实际应用的需求。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种机器人自主异常修复技能学习方法及系统进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

  1. 一种机器人自主异常修复技能学习方法,其特征在于,所述方法包括:
    预先定义机器人在执行复杂任务时的人类示范轨迹;
    获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;
    基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。
  2. 根据权利要求1所述的机器人自主异常修复技能学习方法,其特征在于,所述预先定义机器人在执行复杂任务时的人类示范轨迹包括:
    预先定义机器人在执行复杂任务时所需的N个运动技能;
    利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征,生成相对应的N个运动技能序列。
  3. 根据权利要求2所述的机器人自主异常修复技能学习方法,其特征在于,所述获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能包括:
    获取所述机器人在执行所述复杂任务时的多模态传感信息,并对所述多模态传感信息进行预处理,提取出低维特征向量;
    利用所述N个运动技能序列搭建异常检测模型,将所述低维特征向量输入至所述异常检测模型进行监测,判断所述机器人是否处于异常状态;
    若是,将所述低维特征向量输入至多类别异常分类器进行诊断,获取所述机器人的异常运动技能;
    若否,则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息。
  4. 根据权利要求3所述的机器人自主异常修复技能学习方法,其特征在于,所述基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复包括:
    基于所述异常运动技能的异常状态类型为瞬时性状态,启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复;
    基于所述异常运动技能的异常状态类型为持续性状态,启用持续性运动调整修复策略对所述异常运动技能进行接续调整。
  5. 根据权利要求4所述的机器人自主异常修复技能学习方法,其特征在于,所述瞬时性运动重做修复策略包括:
    基于所述人类示范轨迹,记录相对于所述异常运动技能的上一个运动技能;
    采用多项式概率分布学习对任务调度有向图进行更新,在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点,完成对所述异常运动技能的参数修复。
  6. 根据权利要求4所述的机器人自主异常修复技能学习方法,其特征在于,所述持续性运动调整修复策略包括:
    基于所述人类示范轨迹,记录相对于所述异常运动技能的下一个运动技能;
    基于动态运动基元学习模型对任务调度有向图进行更新,在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为,完成对所述下一个运动技能的参数调整。
  7. 一种机器人自主异常修复技能学习系统,其特征在于,所述系统包括:
    运动轨迹定义模块,用于预先定义机器人在执行复杂任务时的人类示范轨迹;
    异常技能监测模块,用于获取所述机器人在执行所述复杂任务时的多模态传感信息,并利用所述多模态传感信息进行监测,获取异常运动技能;
    异常技能修复模块,用于基于所述异常运动技能的异常状态类型,启用相适配的运动修复策略对所述异常运动技能进行自主修复。
  8. 根据权利要求7所述的机器人自主异常修复技能学习系统,其特征在于,所述异常技能修复模块用于基于所述异常运动技能的异常状态类型为瞬时性状态,启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复;基于所述异常运动技能的异常状态类型为持续性状态,启用持续性运动调整修复策略对所述异常运动技能进行接续调整。
  9. 根据权利要求8所述的机器人自主异常修复技能学习系统,其特征在于,所述瞬时性运动重做修复策略包括:
    基于所述人类示范轨迹,记录相对于所述异常运动技能的上一个运动技能;
    采用多项式概率分布学习对任务调度有向图进行更新,在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点,完成对所述异常运动技能的参数修复。
  10. 根据权利要求8所述的机器人自主异常修复技能学习系统,其特征在于,所述持续性运动调整修复策略包括:
    基于所述人类示范轨迹,记录相对于所述异常运动技能的下一个运动技能;
    基于动态运动基元学习模型对任务调度有向图进行更新,在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为,完成对所述下一个运动技能的参数调整。
PCT/CN2021/133685 2020-11-27 2021-11-26 一种机器人自主异常修复技能学习方法及系统 WO2022111652A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011367295.8A CN112365004B (zh) 2020-11-27 一种机器人自主异常修复技能学习方法及系统
CN202011367295.8 2020-11-27

Publications (1)

Publication Number Publication Date
WO2022111652A1 true WO2022111652A1 (zh) 2022-06-02

Family

ID=74536249

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/133685 WO2022111652A1 (zh) 2020-11-27 2021-11-26 一种机器人自主异常修复技能学习方法及系统

Country Status (1)

Country Link
WO (1) WO2022111652A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108406767A (zh) * 2018-02-13 2018-08-17 华南理工大学 面向人机协作的机器人自主学习方法
CN110370317A (zh) * 2019-07-24 2019-10-25 广东工业大学 机器人修复方法及装置
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN111890353A (zh) * 2020-06-24 2020-11-06 深圳市越疆科技有限公司 机器人示教轨迹复现方法、装置及计算机可读存储介质
CN112365004A (zh) * 2020-11-27 2021-02-12 广东省科学院智能制造研究所 一种机器人自主异常修复技能学习方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108406767A (zh) * 2018-02-13 2018-08-17 华南理工大学 面向人机协作的机器人自主学习方法
CN110370317A (zh) * 2019-07-24 2019-10-25 广东工业大学 机器人修复方法及装置
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN111890353A (zh) * 2020-06-24 2020-11-06 深圳市越疆科技有限公司 机器人示教轨迹复现方法、装置及计算机可读存储介质
CN112365004A (zh) * 2020-11-27 2021-02-12 广东省科学院智能制造研究所 一种机器人自主异常修复技能学习方法及系统

Also Published As

Publication number Publication date
CN112365004A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
WO2021103392A1 (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
Qiang et al. Reinforcement learning model, algorithms and its application
Ding et al. Hierarchical reinforcement learning framework towards multi-agent navigation
Sadeghzadeh et al. Self-learning visual servoing of robot manipulator using explanation-based fuzzy neural networks and Q-learning
CN115781685B (zh) 一种基于强化学习的高精度机械臂控制方法及系统
Xiao et al. Multigoal visual navigation with collision avoidance via deep reinforcement learning
Li et al. Motion planning of six-dof arm robot based on improved DDPG algorithm
Balakrishna et al. On-policy robot imitation learning from a converging supervisor
CN116533249A (zh) 基于深度强化学习的机械臂控制方法
Quan et al. AGV localization based on odometry and LiDAR
Yasutomi et al. A peg-in-hole task strategy for holes in concrete
CN114035550B (zh) 一种基于eso的自主式水下机器人执行机构故障诊断方法
WO2022111652A1 (zh) 一种机器人自主异常修复技能学习方法及系统
Young et al. Formalized task characterization for human-robot autonomy allocation
Hu et al. Incremental learning framework for autonomous robots based on q-learning and the adaptive kernel linear model
Li et al. SP-NN: A novel neural network approach for path planning
CN112365004B (zh) 一种机器人自主异常修复技能学习方法及系统
Hussein et al. A hybrid intelligent active force controller for robot arms using evolutionary neural networks
EP4102405A1 (en) Demonstration-conditioned reinforcement learning for few-shot imitation
Zhou et al. Deep reinforcement learning with long-time memory capability for robot mapless navigation
CN112518742B (zh) 基于动态模型与事后经验回放的多目标机器人控制方法
Wang et al. Actor-critic method-based search strategy for high precision peg-in-hole tasks
KR20190088093A (ko) 로봇을 위한 학습 방법
Mangalindan et al. On trust-aware assistance-seeking in human-supervised autonomy
Chen et al. The determination of reward function in agv motion control based on dqn

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21897152

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 20.10.2023)