WO2023083034A1

WO2023083034A1 - 视触觉融合的机器人精密装配控制方法及系统

Info

Publication number: WO2023083034A1
Application number: PCT/CN2022/128555
Authority: WO
Inventors: 楼云江; 刘瑞凯; 杨先声; 黎阿建
Original assignee: 哈尔滨工业大学（深圳）
Priority date: 2021-11-12
Filing date: 2022-10-31
Publication date: 2023-05-19

Abstract

一种基于机器人的装配控制方法，其中，提供多个神经网络模型，多个神经网络模型至少包括强化学习网络模型和张量融合网络模型，其中的训练数据包含来自视觉设备的视觉数据、来自触觉传感器的触觉数据、机器人的动作反馈数据和力矩反馈数据。一种实施控制方法的计算机可读存储介质。一种基于机器人的装配控制系统，包括：在机器人移动部分末端设置的夹持执行器及与机器人配套的视觉设备，夹持执行器的夹持内侧从内到外依次设置触觉传感器及软胶垫。利用触觉信号的变化来间接得到其他维度的外力信息，并将其与视觉信息相融合，表征向量能够用于生成合适的机器人动作指令，以及灵活调整插装力以完成装配。

Description

视触觉融合的机器人精密装配控制方法及系统

技术领域

本发明一般涉及基于机器人的装配控制方法及系统，尤其涉及基于视、触觉融合的机器人精密装配控制方法及系统。本发明属于机器人技术领域。

背景技术

在消费电子产品的批量化生产线中，尽管大多数对精度要求不高的装配任务已经由工业机器人实现全自动化，但仍有很多精密装配和柔顺装配工作需要工人手动完成。对于工业机器人实现高精度、高速度、高柔顺度、高成功率的装配任务的研究一直受到广泛关注且具有较大的技术挑战。而且，对于工业机器人在精密装配时视觉设备容易受到环境影响的问题，譬如被夹持执行器遮挡视觉设备或者视觉设备出现虚焦等问题未能完成精密装配步骤。

发明内容

本发明提供基于机器人的装配控制方法及系统，旨在至少解决现有技术中存在的技术问题之一。

本发明的技术方案基于的机器人末端的夹持执行器上设有触觉传感器，并且所述夹持执行器的装配区域被视觉设备拍摄。

本发明的技术方案一方面涉及一种基于机器人的装配控制方法，包括以下步骤：

S110、提供多个神经网络模型，所述多个神经网络模型至少包括强化学习网络模型和张量融合网络模型，其中的训练数据包含来自所述视觉设备的视觉数据、来自所述触觉传感器的触觉数据、所述机器人的动作反馈数据和力矩反馈数据；

S120、通过机器人控制器带动所述夹持执行器从装配初始点开始装配动作，然后通过视觉设备和触觉传感器实时采集与所述装配区域对应的视觉数据及触觉数据，并且执行压缩和/或滤波处理，以转换成相应的视觉数据表征向量和触觉数据表征向量；

S130、将所述视觉数据表征向量和所述触觉数据表征向量拼接融合，并输入至所述强化学习网络模型，以输出所述机器人的预测的动作控制数据；

S140、将所述视觉数据表征向量和所述触觉数据表征向量输入至所述张量融合网络模型，并通过多层感知机组成的阻尼点预测器，判断所述夹持执行器是否运到装配阻尼节点；

S150、根据所述机器人的预测的动作控制数据以及所述夹持执行器是否运到装配阻尼节点的预测结果，通过机器人控制器实施位置控制和力控制，以计算下一个装配运动节点的位姿数据和调整所述夹持执行器的装配力度；

其中，所述视觉数据包括RGB图像数据和深度图像数据。

本发明的技术方案另一方面涉及一种基于跨模态预测装配场景的机器人装配控制方法，其中，在所述机器人末端的夹持执行器上设有触觉传感器，并且所述夹持执行器的装配区域被视觉设备拍摄，所述方法包括以下步骤：

S210、提供多个神经网络模型，所述神经网络模型包括多层感知机、强化学习网络模型和张量融合网络模型，其中的训练数据包含来自所述视觉设备的视觉数据、来自所述触觉传感器的触觉数据、来自机器人控制器的位姿数据、所述机器人的动作反馈数据和力矩反馈数据；

S220、通过机器人控制器带动所述夹持执行器从装配初始点开始装配动作，然后通过视觉设备和触觉传感器实时采集与所述装配区域对应的参考视觉数据、实际视觉数据、初始触觉数据及实际触觉数据，机器人控制器提供初始位姿数据及实际位姿数据，并且执行压缩和/或滤波处理，以转换成相应的参考视觉数据表征向量、实际视觉表征向量、实际触觉数据表征向量、初始触觉数据表征向量和实际位姿数据表征向量；

S230、将参考视觉数据表征向量、初始触觉数据表征向量、实际触觉数据表征向量、初始位姿数据表征向量及实际位姿数据表征向量拼接融合，并输入至多层感知机，以输出和实际视觉表征向量接近的预测视觉表征向量；

S240、将所述预测视觉表征向量与所述实际触觉数据表征向量拼接融合，并输入至所述强化学习网络模型，以输出所述机器人的预测的动作控制数据；

S250、将所述触觉数据表征向量和所述机器人的装配力度数据通过因果卷积降维后，然后和预测视觉表征向量输入至所述张量融合网络模型，并通过多层感知机组成的阻尼点预测器，判断所述夹持执行器是否接触装配阻尼节点；

S260、根据所述夹持执行器是否接触装配阻尼节点的预测结果，通过机器人控制器实施位置控制和力控制，以计算下一个装配运动节点的位姿数据和调整所述夹持执行器的装配力度。

本发明的技术方案还涉及一种计算机可读存储介质，其上储存有程序指令，所述程序指令被处理器执行时实施上述的方法。

本发明的技术方案还涉及一种基于机器人的装配控制系统，其包括：在机器人移动部分末端设置的夹持执行器，所述夹持执行器的夹持内侧从内到外依次设置触觉传感器及软胶垫；与机器人配套的视觉设备，所述视觉设备用于收集装配配件及其周边的视觉数据；计算机装置，所述计算机装置包括所述的计算机可读存储介质。

本发明的有益效果如下。

1、本发明利用触觉信号的变化来间接得到其他维度的外力信息，并将其与视觉信息相融合，得到多模态表征。这一表征向量能够用于生成合适的机器人动作指令，也用于预判装配件是否到达阻尼点，从而灵活调整插装力以完成装配。

2、本发明使用多个神经网络模型，使装配作业的视觉数据及触觉数据具有强化学习的效果，显著提高小型部件的精密装配的成功率和准确度。

附图说明

图1是根据本发明实施例中的整体方法流程框架图。

图2是根据本发明实施例中的机器人运动控制方法部分的细节流程框图。

图3是根据本发明实施例中的夹持执行器的布置示意图。

图4是根据本发明实施例中的机器人和装配控制系统的硬件平台。

图5及图6是根据本发明方法中的强化学习结果的曲线示意图。

图7是根据本发明实施例中的基于预测场景的装配控制方法的流程框架图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

本发明的技术方案是基于机器人的基础硬件来实施，例如在现有的机器人上附加配置硬件和软件来实施。参照图3和图4，在一些实施例中，根据本发明的装配系统包括：在机器人移动部分末端设置的夹持执行器1；设置在所述夹持执行器1的夹爪内侧的触觉传感器2；布置成拍摄所述夹持执行器的装配区域的视觉设备；以及与机器人运动控制器、夹持执行器1、触觉传感器2和视觉设备通信连接的计算机装置(附图未视出)。

参照图3所示，在本发明的典型装配应用实例中，根据本发明的装配系统能够满足卡扣形式的插孔装配。在优选的实施例中，触觉传感器2可以选用5×5的点阵式压感触觉传感器。为了更好的测量被夹持零部件4在外力作用下的“预滑移”，可以在夹持执行器1的指尖和触觉传感器2之间间隔了一个由软胶制成的橡胶垫(约5mm厚)，并在触觉传感器的另一侧(即与被夹持零部件4接触一侧)贴敷了一层橡皮膜。参照图4，视觉设备可以采用RGB-D相机，能同时输出RGB图片和深度图片数据。机器人采用串联式多关节机器人，其在末端安装所述夹持执行器1。计算机装置可以独立于机器人控制器，也可以整合到机器人控制器，以执行根据本发明的方法。

参照图1及图2，在一些实施例中，根据本发明的方法包括以下步骤：

S110、提供多个神经网络模型，所述神经网络模型包括多层感知机、强化学习网络模型和张量融合网络模型，其中的训练数据包含来自所述视觉设备的视觉数据、来自所述触觉传感器的触觉数据、来自机器人控制器的位姿数据、所述机器人的动作反馈数据和力矩反馈数据；

其中，所述视觉数据包括RGB图像数据和深度图像数据。

下面，通过具体的3C部件的装配实例来描述上述步骤的具体实施例。在这些实例中，将USB-C充电线插头插装在插口的装配过程：夹持执行器2夹持USB-C充电线插头，USB-C插口被固定，触觉传感器收集夹持执行器2夹持USB-C充电线插头的压力触觉数据，视觉设备收集USB-C充电线插头(下称插头)及USB-C插口(下称插口)的视觉数据。

对于步骤S110的具体实施方式

训练数据包含来自视觉设备的视觉数据，该实施例的视觉设备为相机，该相机获取插头及插口的视觉数据图片，即是插头与插口的共在的RGB图像数据及深度图像数据。结合图1结合图3所示，来自所述触觉传感器的触觉数据，该实施例为5×5的点阵式压感触觉传感器，收集夹持执行器夹持插头的压力触觉数据。

步骤S110还具体包括以下步骤：

读取机器人末端的实时六维笛卡尔空间位姿，并输入强化学习网络模型对其进行训练，同时采集装配区域在每个装配动作步的RGB图片、深度图片和触觉数据。实施例的机器人末端的夹持执行器的实时笛卡尔空间位姿作为状态输入，插头及插口的共在的RGB图像数据、深度图像数据及夹持插头的压力触觉数据在多个动作位置被收集后，输入强化学习网络模型对其进行训练。

当夹持执行器与装配终点的距离越近时、或夹持执行器插入装配零件中的深度越深时，所述强化学习网络模型的奖励函数相应增加。实施例中强化学习网络模型的奖励函数根据插头与插口的接近程度、插头插入插口的深度的增加而相应增加。

步骤S110中，结合机器人平台的强化学习网络模型训练过程还包括以下步骤：

S111、当所述夹持执行器运到装配阻尼节点前，通过机器人控制器实施位置控制和力控制，所述夹持执行器沿装配阻尼节点方向的装配力度为M牛；当所述夹持执行器运到装配阻尼节点后，通过机器人控制器实施位置控制和力控制，所述夹持执行器沿装配阻尼节点方向的装配力度为N牛，其中，N＞M。

S112、将所述动作反馈数据和力矩反馈数据向机器人控制器输入，机器人控制器输出的动作反馈增益及力矩反馈增益，计算出机器人下一个装配运动节点的装配力度。

如图2，结合上述实施例，采用力/位混合控制方法来控制机器人的运动，即把沿插头与插口装配的方向(即图3和图4中的竖直方向或z轴方向)的运动解耦并采用力控制，机器人的五个自由度(x,y,R,P,Y)的运动采用位置控制。在插头到达卡扣阻尼点之前，机器人带动夹持执行器沿z轴装配力度为M＝2牛；在插头到达阻尼点之后，机器人带动夹持执行器沿z轴装配力度为增大至N＝12牛。对于位置控制的5个维度，该系统的反馈增益较大来保证精度；而对于力控制的1个维度，该系统的反馈增益较小，从而保证部件装配的柔顺性。

S113、当所述夹持执行器运到装配阻尼节点前至装配阻尼节点之间的路径分为50个动作步，每个动作步设置多个数据采集点，每个所述数据采集点采集一次视觉数据及触觉数据。

S114、当所述夹持执行器移动50个动作步未到装配阻尼节点时，所述机器人控制器带动所述夹持执行器到装配初始点复位，重新开始装配动作。

S115、所述动作步分成10段，共计设置11个数据采集点。

结合上述实施例，针对步骤S113至S115，机器人的一次完整的插口试验称为一个“回合”，每个回合由不超过50个“动作步”组成。如果机器人走满50个动作步依然没有完成插孔任务，即判定失败并复位至初始点。每个动作步又分成10段，共计11个“路点”。机器人带动夹持执行器将依次走过这些路点以完成一个动作步。对于插头及插口的RGB图像和深度图像，每个动作步采集一次数据；对于触觉数据，每个路点采集一次数据。

具体地，夹持执行器每个装配动作步中的RGB图像数据及深度图像数据作以下处理：

对于所述夹持执行器每个装配动作步中最后一个路点，将所述RGB图像数据裁剪成128像素×128像素，并处理为灰度图。随后通过RGB图片编码器压缩输出RGB表征向量。

对于所述夹持执行器每个装配动作步中最后一个路点，将所述深度图像数据裁剪成128 像素×128像素，并归一化处理。随后通过深度图片编码器压缩输出深度表征向量。

如图1，结合上述实施例，插头及插口通过相机输出的RGB图片和深度图片围绕装配区域裁剪成128×128的尺寸，并将RGB图像转换成灰度图，以减少数据量和处理时间。

对于步骤S120的具体实施方式

在一个实施例中，夹持执行器携带插头位于插口正上方约1mm处，取该点为装配初始点,机器人通过本身的系统(比如ROS系统)读取夹持执行器在这一初始点的笛卡尔空间六维位姿向量。

步骤S120还具体包括以下步骤：

S121、所述触觉数据通过卡尔曼滤波器进行滤波，并使用光流法(Farneback方法)得到机器人沿装配动作方向的触觉流数据。如图1，结合上述实施例，利用卡尔曼滤波器将收集到的触觉信息滤波，并类比光流法，使用Farneback方法计算每个动作步中夹持执行器x、y方向上的触觉流(维度为25(5×5个检测点)×2(x、y轴两个方向)×10(每两个连续路点的触觉信息计算出一个触觉流信息)。此外，所述触觉流数据可以通过因果卷积降低的维度为25个触觉检测点乘以2个触觉检测点得到处理后的触觉数据。

S122、将采集的RGB图像数据转换成灰度图，然后对于所述夹持执行器每个装配动作步中最后一个路点，将所述RGB图像数据通过RGB图片编码器压缩输出RGB表征向量，然后所述RGB表征向量通过RGB图片解码器裁剪输出128像素×128像素已处理的灰度图。

S123、将采集的深度图像数据转换成灰度图，然后对于所述夹持执行器每个装配动作步中最后一个路点，将所述深度图像数据通过深度图片编码器压缩输出深度表征向量，然后所述深度表征向量通过深度图片解码器裁剪输出128像素×128像素已处理的深度图片。

如图1，步骤S122及S123中，结合上述实施例，插头及插口通过相机输出的RGB图片和深度图片围绕装配区域裁剪成128×128的尺寸，并将RGB图像转换成灰度图，以减少数据量和处理时间。

S124、提供变分自编码器，分别多次输入已处理的灰度图、已处理的深度图片到所述变分自编码器进行训练，分别输出RGB表征向量的维度为16×1、输出深度表征向量的维度为16×1。结合上述实施例，插头及插口装配的灰度图及深度图，采用变分自编码器(VAE)训练这两种图片，从而将图片编码压缩成16×1的“表征向量”，并保证其中涵盖了原始图像的绝大部分信息。

对于步骤S130和S140的具体实施方式

将所述触觉数据表征向量和所述机器人的装配力度数据通过因果卷积降维后，然后输入至所述张量融合网络模型，并通过多层感知机组成的阻尼点预测器，判断所述夹持执行器是否运到装配阻尼节点。

更加具体地，对于每个动作步，通过因果卷积网络将触觉流降维至(即维度25×2)的尺寸，再与步骤S120中两种图像的表征向量(即两个16×1的向量)通过张量融合网络模型(TFN)融合(即对每个模态向量的末端添加元素“1”后进行克罗内克积，所得到的结果将同时包含这三种模态的单一信息和任意组合信息)，再将所得到的三维张量展平并输入由多层感知机组成的阻尼点预测器中，用于预测插头是否到达插口中的卡扣阻尼点。

结合上述实施例，插头及出口提取出每个动作步中最后一个路点的5动作检测点×5动作检测点的触觉数据，将其利用高斯卷积降维(即维度为9×1)，与两种图像的表征向量直接拼接融合(即维度为16+16+9)，将得到的表征向量(即维度为41×1)重新输入到强化学习网络，并生成夹持执行器的动作值(五个动作方向x,y,R,P,Y)。

对于步骤S150的具体实施方式

在一些实施例中，如图4所示的机器人的6个活动关节的扭矩通过以下雅可比矩阵求解：

其中，K _p，K _v，K _Fp和K _Fi分别是比例微分(PD)和比例积分(PI)的控制参数，S为判别矩阵S＝diagS＝diag(1,1,0,1,1,1)，即位控维度对应的值为1，力控维度对应的值为0。

所述机器人控制器通过PD控制算法实施位置控制；所述机器人控制器通过PI控制算法实施力控制。

参照图5和图6所示的据本发明方法中的强化学习结果的曲线示意图，采用融合了RGB图像数据+深度图像数据+F/T力传感器数据+机器人力矩反馈数据所训练的网络模型，随着所测试的回合(episode)数更多的时候，能获得的报酬(reward)更多(即是成功完成预期装配效果的次数更多)，并且装配操作的动作步(step)较少。即是说，融合视、触觉和强化学习网络模型所实现的装配方法，能达到更优的机器人精密装配效果。

参照图7，在另一些实施例中，在装配控制系统的计算机程序中可以引入多层感知机的神经网络，通过将参考视觉数据表征向量、初始触觉数据表征向量、实际触觉数据表征向量、初始位姿数据表征向量及实际位姿数据表征向量拼接融合，并输入至多层感知机进行训练，最终得到可以预测实际图片表征向量的多层感知机，后续便不再需要相机来采集图片数据。多层感知机输出的预测视觉表征向量代替现有采用视觉设备收集实际真实图片的数据，使该系统发生譬如被夹持执行器遮挡视觉设备或者视觉设备出现虚焦等问题时，整个系统仍能完成精密装配步骤，增加系统的可靠性。

参照图7，基于预测装配场景的机器人装配控制方法可以包括以下步骤：

S230、将参考视觉数据表征向量(z_ref)、初始触觉数据表征向量(tac_ref)、实际触觉数据表征向量(tac_real)、初始位姿数据表征向量(pos_ref)及实际位姿数据表征向量(pos_real)拼接融合，并输入至多层感知机，以输出和实际视觉表征向量接近的预测视觉表征向量(z_real)；

对于步骤S210，还具体包括：将装配区域采集的多组所述RGB图像数据及触觉数据输入强化学习网络模型对其进行训练(如图7)。在本实施例中，读取机器人末端的夹持执行器的实时笛卡尔空间位姿，并输入强化学习网络模型对其进行训练，同时采集插头及插口所在区域的RGB图像数据和触觉信息。当夹持执行器与装配阻尼节点的距离越近时、或夹持执行器插入装配阻尼节点的深度越深时，所述强化学习网络模型的奖励函数相应增加。实施例中强化学习网络模型的奖励函数根据插头与插口的接近程度、插头插入插口的深度的增加而相应增加。在强化学习插孔任务时，收集装配区域的RGB图像数据和触觉数据，并将图像数据输入自编码器中训练。此外，结合机器人平台的强化学习网络模型训练过程如上述方法中的步骤S111至S115。

对于步骤S220，同样可以参照上述方法中的步骤S120及其子步骤。

对于步骤S230，将所述参考视觉数据通过图片编码器降维得到维度为16×1的参考视觉数据表征向量，所述参考视觉数据表征向量通过图片解码器得到参考图片数据，所述参考图片数据通过对比原始输入图片的像素点取均方误差(MSE)，得到损失函数，所述损失函数通过反向传递和参数更新训练图片编码器及图片解码器。视觉设备再次获取的新图片经过训练好的图片编码器即可得到表征向量。

其中，初始位姿数据表征向量(pos_ref)、参考视觉数据表征向量(z_ref)和初始触觉数据表征向量(tac_ref)是在步骤S20中单独收集的一组数据。这三个信息是同一个对象同一状态下的不同角度的反馈。视觉设备获取参考图片通过图片编码器得到参考视觉数据表征向量(z_ref)，视觉设备获取实际真实图片，然后通过图片编码器得到预测视觉表征向量(z_real)。具体地，将参考视觉数据表征向量(z_ref)、初始触觉数据表征向量(tac_ref)、实际触觉数据表征向量(tac_real)、初始位姿数据表征向量(pos_ref)及实际位姿数据表征向量(pos_real)拼接融合，拼接成一个向量然后输入多层感知机，输出一个维度和预测视觉表征向量(z_real)，通过和实际真实图片的预测视觉表征向量(z_real)比较取均方误差，得到损失函数，再通过反向传递和参数更新进行训练，最终得到可以预测实际图片表征向量的多层感知机，后续便不再需要视觉设备来采集图片数据，而是通过(tac_ref)、(pos_ref)、(z_ref)、(tac_real)、(pos_real)五个表征向量得到预测视觉表征向量(z_real)来取代实际真实图片的预测视觉表征向量(z_real)。

对于步骤S240，通过预测视觉表征向量代替现有采用视觉设备收集实际真实图片的数据，使该系统发生譬如被夹持执行器遮挡视觉设备或者视觉设备出现虚焦等问题时，整个系统仍能完成精密装配步骤，增加系统的可靠性。对于步骤S250，同样可以参照上述方法中的步骤S150及其子步骤。

应当认识到，本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还可以包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

一种基于机器人的装配控制方法，其中，在所述机器人末端的夹持执行器上设有触觉传感器，并且所述夹持执行器的装配区域被视觉设备拍摄，

其特征在于，所述方法包括以下步骤：

S110、提供多个神经网络模型，所述多个神经网络模型至少包括强化学习网络模型和张量融合网络模型，其中的训练数据包含来自所述视觉设备的视觉数据、来自所述触觉传感器的触觉数据、所述机器人的动作反馈数据和力矩反馈数据；

S120、通过机器人控制器带动所述夹持执行器从装配初始点开始装配动作，然后通过视觉设备和触觉传感器实时采集与所述装配区域对应的视觉数据及触觉数据，并且执行压缩和/或滤波处理，以转换成相应的视觉数据表征向量和触觉数据表征向量；

S130、将所述视觉数据表征向量和所述触觉数据表征向量拼接融合，并输入至所述强化学习网络模型，以输出所述机器人的预测的动作控制数据；

S140、将所述视觉数据表征向量和所述触觉数据表征向量输入至所述张量融合网络模型，并通过多层感知机组成的阻尼点预测器，判断所述夹持执行器是否运到装配阻尼节点；

S150、根据所述机器人的预测的动作控制数据以及所述夹持执行器是否运到装配阻尼节点的预测结果，通过机器人控制器实施位置控制和力控制，以计算下一个装配运动节点的位姿数据和调整所述夹持执行器的装配力度；

其中，所述视觉数据包括RGB图像数据和深度图像数据。
根据权利要求1所述的方法，其中，所述步骤S110包括，

S111、读取机器人末端的实时六维笛卡尔空间位姿，并输入强化学习网络模型对其进行训练，同时采集装配区域在每个装配动作步的RGB图片、深度图片和触觉数据；

S112、当夹持执行器与装配终点的距离越近时、或夹持执行器插入装配零件中的深度越深时，所述强化学习网络模型的奖励函数相应增加。
根据权利要求1所述的方法，其中，所述步骤S120包括：

S121、所述触觉数据通过卡尔曼滤波器进行滤波，并使用光流法得到机器人沿装配动作方向的触觉流数据。
根据权利要求1所述的方法，其中，所述步骤S120还包括：

S122、将采集的RGB图像数据转换成灰度图，然后对于所述夹持执行器每个装配动作步中最后一个路点，将所述RGB图像数据通过RGB图片编码器压缩输出RGB表征向量，然后所述RGB表征向量通过RGB图片解码器裁剪输出128像素×128像素已处理的灰度图；

S123、将采集的深度图像数据转换成灰度图，然后对于所述夹持执行器每个装配动作步中最后一个路点，将所述深度图像数据通过深度图片编码器压缩输出深度表征向量，然后所述深度表征向量通过深度图片解码器裁剪输出128像素×128像素已处理的深度图片。
根据权利要求4所述的方法，其中，所述步骤S120还包括，

S124、提供变分自编码器，分别多次输入已处理的灰度图、已处理的深度图片到所述变分自编码器进行训练，分别输出RGB表征向量的维度为16×1、输出深度表征向量的维度为16×1。
根据权利要求3所述的方法，其中，所述步骤S121还包括，

所述触觉流数据通过高斯卷积降维的维度为9个触觉检测点×1个触觉检测点得到处理后的触觉数据。
根据权利要求1所述的方法，其特征在于，

所述机器人的活动关节的扭矩通过以下雅可比矩阵求解：

其中，K _p和K _v分别是比例微分控制参数，K _Fp和K _Fi分别是比例积分控制参数，S为机器人的活动关节与扭矩关联之间的关联性判别矩阵。
根据权利要求7所述的方法，其中，

所述机器人控制器对所述夹持执行器以比例微分控制算法实施位置控制，并且所述机器人控制器对所述夹持执行器以比例积分控制算法实施力控制。
一种基于跨模态预测装配场景的机器人装配控制方法，其中，在所述机器人末端的夹持执行器上设有触觉传感器，并且所述夹持执行器的装配区域被视觉设备拍摄，

其特征在于，所述方法包括以下步骤：

S210、提供多个神经网络模型，所述神经网络模型包括多层感知机、强化学习网络模型和张量融合网络模型，其中的训练数据包含来自所述视觉设备的视觉数据、来自所述触觉传感器的触觉数据、来自机器人控制器的位姿数据、所述机器人的动作反馈数据和力矩反馈数据；

S220、通过机器人控制器带动所述夹持执行器从装配初始点开始装配动作，然后通过视觉设备和触觉传感器实时采集与所述装配区域对应的参考视觉数据、实际视觉数据、初始触觉数据及实际触觉数据，机器人控制器提供初始位姿数据及实际位姿数据，并且执行压缩和/或滤波处理，以转换成相应的参考视觉数据表征向量、实际视觉表征向量、实际触觉数据表征向量、初始触觉数据表征向量和实际位姿数据表征向量；

S230、将参考视觉数据表征向量、初始触觉数据表征向量、实际触觉数据表征向量、初始位姿数据表征向量及实际位姿数据表征向量拼接融合，并输入至多层感知机，以输出和实际视觉表征向量接近的预测视觉表征向量；

S240、将所述预测视觉表征向量与所述实际触觉数据表征向量拼接融合，并输入至所述强化学习网络模型，以输出所述机器人的预测的动作控制数据；

S250、将所述触觉数据表征向量和所述机器人的装配力度数据通过因果卷积降维后，然后和预测视觉表征向量输入至所述张量融合网络模型，并通过多层感知机组成的阻尼点预测器，判断所述夹持执行器是否接触装配阻尼节点；

S260、根据所述夹持执行器是否接触装配阻尼节点的预测结果，通过机器人控制器实施位置控制和力控制，以计算下一个装配运动节点的位姿数据和调整所述夹持执行器的装配力度。
根据权利要求9所述的方法，其中，所述步骤S220包括：

S221、所述触觉数据通过卡尔曼滤波器进行滤波，并使用光流法得到机器人沿装配动作方向的触觉流数据。
根据权利要求10所述的方法，其中，所述步骤S221还包括：

所述触觉流数据通过高斯卷积降维的维度为9个触觉检测点×1个触觉检测点得到处理后的触觉数据。
根据权利要求9所述的方法，其中，所述视觉数据包括RGB图像数据，

所述步骤S220还包括：

S222、将采集的RGB图像剪裁至128像素×128像素并转换成灰度图，然后对于所述夹持执行器每个装配动作步中最后一个路点，将相应的RGB图像转换成的灰度图通过RGB图片编码器压缩输出RGB表征向量；

S223、提供变分自编码器，多次输入已处理的灰度图到所述变分自编码器进行训练，最终输出RGB表征向量的维度为16×1。
根据权利要求9所述的方法，其中，所述步骤S230包括：

S231、将所述参考视觉数据通过图片编码器降维得到维度为16×1的参考视觉数据表征向量，所述参考视觉数据表征向量通过图片解码器得到参考图片数据，所述参考图片数据通过对比原始输入图片的像素点取均方误差，得到损失函数，所述损失函数通过反向传递和参数更新训练图片编码器及图片解码器。
根据权利要求1所述的方法，其特征在于，所述步骤S210中，所述强化学习网络模型训练的步骤包括：

S211、当所述夹持执行器运到装配阻尼节点前，通过机器人控制器实施位置控制和力控制，所述夹持执行器沿装配阻尼节点方向的装配力度为M牛；当所述夹持执行器运到装配阻尼节点后，通过机器人控制器实施位置控制和力控制，所述夹持执行器沿装配阻尼节点方向的装配力度为N牛；

S212、将所述动作反馈数据和力矩反馈数据向机器人控制器输入，机器人控制器输出的动作反馈增益及力矩反馈增益，计算出机器人下一个装配运动节点的装配力度，

其中，所述N＞M。
根据权利要求14所述的方法，其中，所述步骤S210还包括：

S213、当所述夹持执行器运到装配阻尼节点前至装配阻尼节点之间的路径分为多个动作步，每个动作步设置多个数据采集点，每个所述数据采集点采集一次视觉数据及触觉数据。
根据权利要求15所述的方法，其特征在于，所述步骤S210还包括，

S214、当所述夹持执行器移动多个动作步未到装配阻尼节点时，所述机器人控制器带动所述夹持执行器到装配初始点复位，重新开始装配动作。
一种计算机可读存储介质，其上储存有程序指令，所述程序指令被处理器执行时实施如权利要求1至16中任一项所述的方法。
一种基于机器人的装配控制系统，其特征在于，包括：

在机器人移动部分末端设置的夹持执行器，所述夹持执行器的夹持内侧从内到外依次设置触觉传感器及软胶垫；

与机器人配套的视觉设备，所述视觉设备用于收集装配配件及其周边的视觉数据；

计算机装置，所述计算机装置包括根据权利要求17所述的计算机可读存储介质。