WO2022111652A1

WO2022111652A1 - 一种机器人自主异常修复技能学习方法及系统

Info

Publication number: WO2022111652A1
Application number: PCT/CN2021/133685
Authority: WO
Inventors: 徐智浩; 鄢武; 程韬波; 吴鸿敏; 苏泽荣; 周雪峰
Original assignee: 广东省科学院智能制造研究所
Priority date: 2020-11-27
Filing date: 2021-11-26
Publication date: 2022-06-02
Also published as: CN112365004A

Abstract

本发明公开了一种机器人自主异常修复技能学习方法及系统，其方法包括：预先定义机器人在执行复杂任务时的人类示范轨迹；获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。在本发明实施例中，可区分机器人在执行复杂任务时所遇到的异常类型并制定相对应的修复策略，有利于促进机器人实现更为长期的自主操作。

Description

一种机器人自主异常修复技能学习方法及系统

技术领域

本发明涉及机器人技能学习技术领域，尤其涉及一种机器人自主异常修复技能学习方法及系统。

背景技术

随着机器人应用广度与深度的不断提升，现有的智能化技术无法满足需求，人与机器人协同作业是最为有效的解决方法。人机协作是指机器人通过多传感器进行感知并与人协作完成各种精细复杂的操作任务，目前该方法已被广泛应用于智能制造、物流仓储和医疗服务等领域。然而，在人机协作环境中，由于机器人的程序错误、传感器噪声、人类误操作等原因将造成机器人与环境碰撞、机器人与人类碰撞、物体操作失败等异常事件，极有可能造成任务失败，甚至对人类或机器人本体产生伤害。因此，针对不同类型的异常事件，开展机器人自主异常修复技能学习方法的研究具有重要意义。

面向人机协作的异常修复应该发挥出人类对于机器人运动的期望，通过人类辅助的机器人异常修复策略将更加体现出“以人为中心“的人机协作构想。然而传统上通常采用人为预先设定规则或者依赖机器人自身的运动规划方法进行机器人异常修复，缺乏考虑异常类型及人机协作系统的特征，无法满足实际应用的需求。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种机器人自主异常修复技能学习方法及系统，可区分机器人在执行复杂任务时所遇到的异常类型并制定相对应的修复策略，有利于促进机器人实现更为长期的自主操作。

为了解决上述问题，本发明提出了一种机器人自主异常修复技能学习方法，所述方法包括：

预先定义机器人在执行复杂任务时的人类示范轨迹；

获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；

基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。

可选的，所述预先定义机器人在执行复杂任务时的人类示范轨迹包括：

预先定义机器人在执行复杂任务时所需的N个运动技能；

利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征，生成相对应的N个运动技能序列。

可选的，所述获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能包括：

获取所述机器人在执行所述复杂任务时的多模态传感信息，并对所述多模态传感信息进行预处理，提取出低维特征向量；

利用所述N个运动技能序列搭建异常检测模型，将所述低维特征向量输入至所述异常检测模型进行监测，判断所述机器人是否处于异常状态；

若是，将所述低维特征向量输入至多类别异常分类器进行诊断，获取所述机器人的异常运动技能；

若否，则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息。

可选的，所述基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复包括：

基于所述异常运动技能的异常状态类型为瞬时性状态，启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复；

基于所述异常运动技能的异常状态类型为持续性状态，启用持续性运动调整修复策略对所述异常运动技能进行接续调整。

可选的，所述瞬时性运动重做修复策略包括：

基于所述人类示范轨迹，记录相对于所述异常运动技能的上一个运动技能；

采用多项式概率分布学习对任务调度有向图进行更新，在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点，完成对所述异常运动技能的参数修复。

可选的，所述持续性运动调整修复策略包括：

基于所述人类示范轨迹，记录相对于所述异常运动技能的下一个运动技能；

基于动态运动基元学习模型对任务调度有向图进行更新，在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为，完成对所述下一个运动技能的参数调整。

另外，本发明实施例还提供了一种机器人自主异常修复技能学习系统，所述系统包括：

运动轨迹定义模块，用于预先定义机器人在执行复杂任务时的人类示范轨迹；

异常技能监测模块，用于获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；

异常技能修复模块，用于基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。

可选的，所述异常技能修复模块用于基于所述异常运动技能的异常状态类型为瞬时性状态，启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复；基于所述异常运动技能的异常状态类型为持续性状态，启用持续性运动调整修复策略对所述异常运动技能进行接续调整。

可选的，所述瞬时性运动重做修复策略包括：

可选的，所述持续性运动调整修复策略包括：

在本发明实施例中，可有效地区分机器人在执行复杂任务时所遇到的异常类型，并依赖于多项式概率分布学习与动态运动基元学习模型针对不同类型的异常行为制定相适应的行为修复策略，使得机器人所学习的修复技能具有一定的扩展性和泛化性，有利于促进机器人实现更为长期的自主操作，可满足实际应用的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的机器人自主异常修复技能学习方法的流程示意图；

图2是本发明实施例中的实现运动重做修复技能的过程示意图；

图3是本发明实施例中的实现运动调整修复技能的过程示意图；

图4是本发明实施例中的机器人自主异常修复技能学习系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1示出了本发明实施例中的机器人自主异常修复技能学习方法的流程示意图。

如图1所示，一种机器人自主异常修复技能学习方法，所述方法包括：

S101、预先定义机器人在执行复杂任务时的人类示范轨迹；

本发明实施过程包括：(1)预先定义机器人在执行复杂任务时所需的N个运动技能；(2)利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征，生成相对应的N个运动技能序列。

S102、获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；

本发明实施过程包括：(1)获取所述机器人在执行所述复杂任务时的多模态传感信息，并对所述多模态传感信息进行预处理，提取出低维特征向量；(2)利用所述N个运动技能序列搭建异常检测模型，将所述低维特征向量输入至所述异常检测模型进行监测，判断所述机器人是否处于异常状态，其相应的判断结果为：若所述机器人处于异常状态，则将所述低维特征向量输入至多类别异常分类器进行诊断，获取所述机器人的异常运动技能；若所述机器人处于正常状态，则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息，以实现对所述机器人在执行整个复杂任务过程中的各个运动技能检测。

S103、基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。

在本发明实施例中，基于所述异常运动技能的异常状态类型为瞬时性状态，启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复；或者，基于所述异常运动技能的异常状态类型为持续性状态，启用持续性运动调整修复策略对所述异常运动技能进行接续调整。其中，所述瞬时性运动重做修复策略主要针对解决人类碰撞、物体滑落等瞬时性异常，完成对当前异常运动技能的修复；所述持续性运动调整修复策略主要针对解决工具碰撞、壁面碰撞等持续性异常，完成对接续的下一个运动技能的调整。此外，所述持续性运动调整修复策略是在所述瞬时性运动重做修复策略的基础上执行的，即通过重复执行完所述瞬时性运动重做修复策略之后仍然无法修复当前异常运动技能的情况下(本发明实施例设定尝试次数不少于两次)，才可启用所述持续性运动调整修复策略，避免增大对所述机器人的修复工作量。

具体的，结合图2所示出的实现运动重做修复技能的过程示意图，其中M代表运动技能，I代表异常检测模型，V代表视觉感知器，所述瞬时性运动重做修复策略包括：

(1)基于所述人类示范轨迹，记录相对于所述异常运动技能的上一个运动技能；

在实施过程中，假设给定当前运动技能为

(

为起始节点、

为目标节点)，上一个运动技能(即被选择需要重做的运动技能)为

(

为起始节点、

为目标节点)，且在执行所述当前运动技能B _i时有任何一种瞬时性异常行为F _x发生。

(2)采用多项式概率分布学习对任务调度有向图进行更新，在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点，完成对所述异常运动技能的参数修复。

在实施过程中，通过在所述当前运动技能B _i与所述上一个运动技能B _*之间增加一个运动重做的转换节点

利用多项式概率分布学习对转换参数

的概率分布进行计算，最终可由所述转换节点R _R的概率质量确定重做所述上一个运动技能B _*的成功率。其中，所述转换参数

的概率分布的随机样本为人类对于异常行为F _x发生后重做运动技能B _*的统计次数，例如设定异常行为F _x的转换运动概率分布的随机样本向量为

K为从所述机器人开始运动至异常行为F _x所在当前运动技能B _i的技能总个数，N _i(i＝1,2,…,K)为成功重做相对应的第i个运动技能的次数，此时针对N次独立重做运动技能B _*，其转换节点R _R的概率质量函数为：

式中：θ _i为第i个运动技能被选择重做的概率，且

具体的，结合图3所示出的实现运动调整修复技能的过程示意图，其中M代表运动技能，I代表异常检测模型，V代表视觉感知器，所述持续性运动调整修复策略包括：

(1)基于所述人类示范轨迹，记录相对于所述异常运动技能的下一个运动技能；

在实施过程中，假设给定当前运动技能为

(

为起始节点、

为目标节点)，且在执行所述当前运动技能B _j时有任何一种持续性异常行为F _y发生，同时记录下一个运动技能的调整节点

(2)基于动态运动基元学习模型对任务调度有向图进行更新，在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为，完成对所述下一个运动技能的参数调整。

在实施过程中，通过在所述当前运动技能B _j与所述下一个运动技能的调整节点

之间增加一个运动调整的转换节点

同时基于动态运动基元学习模型生成一个人类示范修复行为

再结合所述人类示范修复行为B _h的终止位姿点P来确定

以此对所述下一个运动技能的调整节点

进行更正。

实施例

请参阅图4，图4示出了本发明实施例中的机器人自主异常修复技能学习系统的结构组成示意图。

如图4所示，一种机器人自主异常修复技能学习系统，所述系统包括：

运动轨迹定义模块201，用于预先定义机器人在执行复杂任务时的人类示范轨迹；

异常技能监测模块202，用于获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；

异常技能修复模块203，用于基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。

在实施过程中，假设给定当前运动技能为

(

为起始节点、

(

为起始节点、

为目标节点)，且在执行所述当前运动技能B _i 时有任何一种瞬时性异常行为F _x发生。

利用多项式概率分布学习对转换参数

式中：θ _i为第i个运动技能被选择重做的概率，且

在实施过程中，假设给定当前运动技能为

(

为起始节点、

之间增加一个运动调整的转换节点

同时基于动态运动基元学习模型生成一个人类示范修复行为

再结合所述人类示范修复行为B _h的终止位姿点P来确定

以此对所述下一个运动技能的调整节点

进行更正。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种机器人自主异常修复技能学习方法及系统进行了详细介绍，本文中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种机器人自主异常修复技能学习方法，其特征在于，所述方法包括：

预先定义机器人在执行复杂任务时的人类示范轨迹；

获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；

基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。
根据权利要求1所述的机器人自主异常修复技能学习方法，其特征在于，所述预先定义机器人在执行复杂任务时的人类示范轨迹包括：

预先定义机器人在执行复杂任务时所需的N个运动技能；

利用有限状态机FSM对所述N个运动技能的类型与执行顺序进行序列化表征，生成相对应的N个运动技能序列。
根据权利要求2所述的机器人自主异常修复技能学习方法，其特征在于，所述获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能包括：

获取所述机器人在执行所述复杂任务时的多模态传感信息，并对所述多模态传感信息进行预处理，提取出低维特征向量；

利用所述N个运动技能序列搭建异常检测模型，将所述低维特征向量输入至所述异常检测模型进行监测，判断所述机器人是否处于异常状态；

若是，将所述低维特征向量输入至多类别异常分类器进行诊断，获取所述机器人的异常运动技能；

若否，则返回重新获取所述机器人在执行所述复杂任务过程中的多模态传感信息。
根据权利要求3所述的机器人自主异常修复技能学习方法，其特征在于，所述基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复包括：

基于所述异常运动技能的异常状态类型为瞬时性状态，启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复；

基于所述异常运动技能的异常状态类型为持续性状态，启用持续性运动调整修复策略对所述异常运动技能进行接续调整。
根据权利要求4所述的机器人自主异常修复技能学习方法，其特征在于，所述瞬时性运动重做修复策略包括：

基于所述人类示范轨迹，记录相对于所述异常运动技能的上一个运动技能；

采用多项式概率分布学习对任务调度有向图进行更新，在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点，完成对所述异常运动技能的参数修复。
根据权利要求4所述的机器人自主异常修复技能学习方法，其特征在于，所述持续性运动调整修复策略包括：

基于所述人类示范轨迹，记录相对于所述异常运动技能的下一个运动技能；

基于动态运动基元学习模型对任务调度有向图进行更新，在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为，完成对所述下一个运动技能的参数调整。
一种机器人自主异常修复技能学习系统，其特征在于，所述系统包括：

运动轨迹定义模块，用于预先定义机器人在执行复杂任务时的人类示范轨迹；

异常技能监测模块，用于获取所述机器人在执行所述复杂任务时的多模态传感信息，并利用所述多模态传感信息进行监测，获取异常运动技能；

异常技能修复模块，用于基于所述异常运动技能的异常状态类型，启用相适配的运动修复策略对所述异常运动技能进行自主修复。
根据权利要求7所述的机器人自主异常修复技能学习系统，其特征在于，所述异常技能修复模块用于基于所述异常运动技能的异常状态类型为瞬时性状态，启用瞬时性运动重做修复策略对所述异常运动技能进行重新修复；基于所述异常运动技能的异常状态类型为持续性状态，启用持续性运动调整修复策略对所述异常运动技能进行接续调整。
根据权利要求8所述的机器人自主异常修复技能学习系统，其特征在于，所述瞬时性运动重做修复策略包括：

基于所述人类示范轨迹，记录相对于所述异常运动技能的上一个运动技能；

采用多项式概率分布学习对任务调度有向图进行更新，在所述异常运动技能与所述上一个运动技能之间增加一个运动重做的转换节点，完成对所述异常运动技能的参数修复。
根据权利要求8所述的机器人自主异常修复技能学习系统，其特征在于，所述持续性运动调整修复策略包括：

基于所述人类示范轨迹，记录相对于所述异常运动技能的下一个运动技能；

基于动态运动基元学习模型对任务调度有向图进行更新，在所述异常运动技能与所述下一个运动技能之间增加一个运动调整的转换节点以及生成一个人类示范修复行为，完成对所述下一个运动技能的参数调整。