WO2022178952A1

WO2022178952A1 - 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统

Info

Publication number: WO2022178952A1
Application number: PCT/CN2021/084690
Authority: WO
Inventors: 王耀南; 刘学兵; 朱青; 袁小芳; 毛建旭; 冯明涛; 周显恩; 谭浩然
Original assignee: 湖南大学
Priority date: 2021-02-25
Filing date: 2021-03-31
Publication date: 2022-09-01
Also published as: CN113065546A; CN113065546B

Abstract

本发明公开了一种基于注意力机制和霍夫投票的目标位姿估计方法及系统，该方法包括如下步骤：获取彩色图像和深度图像；对彩色图像进行分割与裁剪，得到各目标物体的彩色和深度图像块；采用两种策略估计目标物体6维位姿，针对3维旋转矩阵，基于双向空间注意力的特征提取网络，利用目标表面二维特征约束进行鲁棒特征提取，再利用多层感知网络回归出目标3维旋转矩阵；针对3维平移向量，重建目标物体点云并归一化点云数据，采用霍夫投票网络逐点估计点云3维平移方向向量，最后建立平移中心直线集，求解空间最近点得到目标3维平移向量。本发明方法分别估计旋转矩阵和平移向量，执行速度快、精度高。

Description

一种基于注意力机制和霍夫投票的目标位姿估计方法及系统

技术领域

本发明涉及机器人视觉感知及计算机视觉领域，具体涉及一种基于注意力机制和霍夫投票的目标位姿估计方法及系统。

背景技术

物体位姿估计指的是在相机视角下，识别当前场景中的已知物体，并估计出其在相机3维空间坐标系下的3轴朝向和3轴位置，更具体地，指的是物体3维模型从自身坐标系转换至相机坐标系的刚体变换矩阵T，由3维旋转矩阵R和3维平移向量t组成，二者构成了物体的6维位姿P。物体位姿估计是机器人场景理解中的一个关键内容，利用计算机视觉技术在机器人抓取、人机交互和增强现实领域中已取得了一系列成果，并得到了广泛应用。由于场景复杂、位姿变化范围大，物体位姿估计方法面临着诸多挑战，需要克服背景干扰、混乱堆叠遮挡、光照差异和表面弱纹理等问题给位姿估计带来的影响。

早期物体位姿估计方法主要有模块匹配和特征点检测，基于模板匹配的方法首先检测出目标区域，然后将提取到的图像与位姿数据库中标准模板图像进行匹配，选择相似度最高的模板位姿作为结果；基于特征点检测的方法首先计算出输入图像中的图像特征，如SIFT、ORB、HOG等，然后与物体图像中的各已知特征点匹配，建立2D-3D对应关系，最后利用PnP方法解算出物体位姿。此外，在深度图像可用的情况下，可以利用ICP方法迭代优化目标位姿，或者利用3维点特征方法建立更鲁棒的2D-3D点对应关系，提高物体位姿精度。但由于需要针对特定物体人为计算模板或特征点，鲁棒性差、过程繁琐，并且此类方法也易受背景或者遮挡影响，精度低。

现如今，基于深度学习的计算机视觉处理方法由于直接从原始图像提取特征，过程简便，并且从海量数据样本中自主学习特征描述并拟合处理结果，鲁棒性高、泛化能力强，已成为主流方法。具体到物体位姿估计，主要方法有：1)利用卷积神经网络提取图像卷积特征，然后利用多层感知机网络拟合特征与输出位姿之间的关系，输出目标物体6维位姿；2)基于传统2D-3D对应关系思路，利用深度网络直接预测目标物体3维关键点的2维图像坐标，然后利用PnP方法求解物体位姿；3)利用霍夫网络进行逐点位姿或者关键点预测，然后进行评估优化，选择最佳参数作为输出结果。针对深度图像可用的场景，一般采用PointNet类似网络从提取到的点云中学习三维特征，然后与彩色图像特征进行融合，用于后续位姿预测处理。相比于早期位姿估计方法，基于深度学习方法从特征提取能力、位姿预测精度、泛化性能上都得到了很大提高，但由于深度网络的不可解释性，如何利用网络高效提取图像特征并进行精确位姿预测一直是该领域的研究方向。

发明内容

本发明提供了一种基于注意力机制和霍夫投票的目标位姿估计方法及系统，针对6维位姿中3维旋转矩阵和3维平移向量对彩色、深度图像各自不同的约束特点，采用不同的策略分别进行参数估计，能够高效提取目标物体彩色、深度图像特征，建立更精确的位姿参数估计模型，同时可以克服大规模神经网络带来的计算冗余，结构简单、位姿估计精度高。

为了实现上述目的，本发明提供了如下技术方案：

一方面，一种基于注意力机制和霍夫投票的目标位姿估计方法，包括如下几个步骤：

步骤S1：获取包含多目标物体场景下的彩色图像与深度图像；

步骤S2：通过目标分割方法从彩色图像中获得各目标物体的类别和分割掩码；

目标分割方法采用现有公知的分割方法，如Mask RCNN实例分割网络；

物体类别取决于使用的训练数据集中物体类别，如YCB数据集包含21个生活场景物体，瓶子，罐子，杯子，椅子等；

步骤S3：利用步骤S2中获取的各物体分割掩码，对彩色图像与深度图像进行裁剪与拼接，提取各目标物体图像块，并进行归一化处理；

从整幅彩图图像、深度图像中裁剪出对应目标物体的彩色图像块、深度图像块，并进行通道拼接，获得包含3通道彩色和1通道深度的4通道各目标物体图像块O，o _j∈O,j＝1,2,...,k，k为图像中目标物体数量；

步骤S4：构建旋转估计网络以及平移向量估计网络；

所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络，所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络；

所述平移向量估计网络包含串联的PointNet++网络和逐点霍夫投票网络；

步骤S5：网络训练；

利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像，按照步骤S1-步骤S3处理，以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练，训练过程中，以旋转矩阵的绝对角度误差作为旋转估计网络损失，以平移向量的绝对角度误差作为平移向量估计网络损失；

步骤S6：将待进行目标位姿估计的目标物体图像按照步骤S1-步骤S3处理后，输入到利用步骤S5训练好的所述旋转估计网络和平移向量估计网络中，分别进行3维旋转矩阵估计和3维平移向量估计，实现目标位姿估计。

进一步地，将各目标物体图像块进行归一化处理的具体过程如下：

旋转估计归一化：从各目标物体图像块O中彩色通道值、深度通道值分别从[0,255]、[near,far]范围归一化至[-1,1]；再以各目标物体图像块O的最小外接矩形为边界，保持设定的纵横比，对各目标物体图像块O进行上采样或下采样，放缩至固定矩形尺寸，空白区域以0填充，获得宽、高尺寸统一的各目标物体图像块O _R；

三维点云归一化：从各目标物体图像块O中获取各目标物体三维点云，将三维点云彩色值以及深度值分别从[0,255]、[near,far]范围归一化至[-1,1]，并将三维点云的三维坐标进行重心移除，获得偏移坐标，并对偏移坐标进行单位向量化，获得归一化坐标，从而获得各目标物体在同一空间下的三维点云数据；

其中，near、far分别为目标物体深度图像的最近、最远值。

进一步地，所述空间聚合卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征F _c:[H×W,H,W]，并作为空间聚合卷积神经网络的输出数据；

所述空间分布卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征F _d:[H×W,H,W]，并作为空间分布网络卷积神经网络的输出数据。

所述空间分布网络获得H×W个局部点与全局H×W个点的特征约束关系，依照特征空间位置逐通道提取对应点特征值，并按照特征图像二维位置进行排列整合，生成分布特征F _d:[H×W,H,W]，所述特征图像中每个位置包含H×W个值，表示H×W个全局点与该位置的分布约束关系；

所述旋转估计网络利用ResNet34卷积神经网络获取卷积特征，然后将获得的卷积特征分别输入到空间聚合卷积神经网络和空间分布卷积神经网络，提取聚合特征和分布特征；利用特征拼接网络将聚合特征和分布特征拼接后，再利用多尺度池化网络对拼接后的特征进行多尺度池化操作，获得目标物体图像的特征向量；最后，利用多层感知机网络从目标物体图像的特征向量中回归出目标物体的3维旋转矩阵；

进一步地，所述平移向量估计网络是利用归一化处理后的目标物体三维点云输入至PointNet++网络，获得点云特征，再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。

进一步地，利用各目标物体的三维点云坐标和单位向量建立各目标物体3维平移向量所在直线方程集，通过求解三维空间距直线集的最近点，得到各目标物体3维平移向量t。

进一步地，将各目标物体三维点云进行归一化处理具体是指：

首先，利用相机内参和小孔成像模型从各目标物体图像块O中获取某一目标物体三维点云V，V＝(X,Y,Z,I)；

其中：

构成相机内参K，f _x、f _y为等效焦距，u _i、v _i分别为图像块O中像素i在原输入图像中的横纵坐标，I＝(R,G,B)为彩色值，D(u _i,v _i)为图像块O中像素i深度值，c _x、c _y为图像坐标偏移，i＝1,2,...,m，m表示目标物体图像块中的像素数量；

接着，计算三维点云V的三维重心

对三维点云V进行归一化处理，彩色值I各通道从[0,255]归一化至[-1,1]，三维点云的三维坐标首先移除重心，获得偏移坐标ΔS(ΔX,ΔY,ΔZ)＝(X-G _x,Y-G _y,Z-G _z)，然后对ΔS进行单位向量化norm(ΔX,ΔY,ΔZ)，得到归一化向量

结合彩色值得到归一化后的三维点云

进一步地，对旋转估计网络进行训练，是利用旋转估计归一化后的图像块作为旋转估计网络的输入数据，输出旋转矩阵四元数Q，对旋转矩阵四元数Q进行单位化，然后转成旋转矩阵

以旋转矩阵

与旋转真值

之间的绝对角度误差L _R作为旋转矩阵损失：

E为单位矩阵，将L _R反向传播，采用梯度下降方法对旋转估计网络进行训练，更新基于双向空间注意力的特征提取网络参数。

进一步地，对平移向量估计网络训练是以图像块O的归一化后的三维点云为输入数据，以目标物体各表面点云指向3维平移向量

的单位向量

作为输出数据，以角度误差L _t作为平移向量损失：

将L _t反向传播，采用梯度下降方法对平移向量估计网络进行参数训练，更新平移向量估计网络参数，其中，

表示第i个像素的平移向量真值：

m表示目标物体图像块中的像素数量。

在实际的平移向量估计中，以获得的单位向量W构造目标物体点云中任意点连接3维平移向量的直线方程集L，l _i∈L,i＝1,2,...,m,其中l为三维空间直线方程：

然后求解三维空间中距直线方程集L最近点q:(x,y,z)即为目标物体3维平移向量t。

另一方面，一种基于注意力机制和霍夫投票的目标位姿估计系统，包括：

图像采集模块：利用RGB-D相机获取包含多目标物体场景中的彩色图像与深度图像；

目标分割模块：用于对彩色图像进行分割，获得各目标物体的类别和分割掩码；

目标提取模块：基于各物体分割掩码，对彩色图像与深度图像进行裁剪与拼接，提取各目标物体图像块；

归一化模块：对各目标物体图像块中的三维点云的坐标、彩色值以及深度值进行归一化处理，获得各目标物体在同一空间下的三维点云数据；

位姿估计网络构建模块：用于构建旋转估计网络以及平移向量估计网络；

所述平移向量估计网络包含串联的PointNet++网络和逐点投票网络；

网络训练模块：利用深度学习工作站对位姿估计网络进行训练；

利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像，调用图像采集模块、目标分割模块、目标提取模块以及归一化模块进行处理，以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练，训练过程中，以旋转矩阵的绝对角度误差作为旋转估计网络损失，以平移向量的绝对角度误差作为平移向量估计网络损失，且以梯度下降形式进行参数更新；

位姿估计模块：利用训练好的所述旋转估计网络和平移向量估计网络，对待进行目标位姿估计的目标物体图像块，分别进行3维旋转矩阵估计和3维平移向量估计，实现目标位姿估计。

进一步地，所述空间聚合卷积神经网络采用卷积神经网络架构，利用基于 ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征F _c:[H×W,H,W]，并作为空间聚合卷积神经网络的输出数据；

所述空间分布卷积神经网络采用卷积神经网络架构，利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征F _d:[H×W,H,W]，并作为空间分布网络卷积神经网络的输出数据；

所述平移向量估计网络包括PointNet++网络和逐点霍夫投票网络，所述逐点霍夫投票网络采用多层感知机网络架构；

平移向量估计网络利用归一化处理后的目标物体三维点云输入至PointNet++网络，获得点云特征，再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。

3维旋转矩阵和3维平移向量估计网络相互独立，训练过程互不干扰，可以并行完成，获得s目标物体位姿R和t，得到目标物体位姿P＝|R|t|。

有益效果

本发明提供了一种基于注意力机制和霍夫投票的目标位姿估计方法及系统，该方法包含如下步骤：获取彩色图像和深度图像；对彩色图像进行分割与裁剪，得到各目标物体的彩色和深度图像块；采用两种策略估计目标物体6维位姿，针对3维旋转矩阵，基于双向空间注意力的特征提取网络，利用目标表面二维特征约束进行鲁棒特征提取，再利用多层感知网络回归出目标3维旋转矩阵；针对3维平移向量，重建目标物体点云并归一化点云数据，采用霍夫投票网络逐点估计点云3维平移方向向量，最后建立平移中心直线集，求解空间最近点得到目标3维平移向量。

相较于现有技术而言，具有以下优点：

1.针对位姿参数3维旋转矩阵和3维平移向量在目标物体位姿变化时对彩色、深度图像各自不同的约束特点，采用不同的策略分别进行参数估计，能有效提取目标物体彩色、深度图像特征，建立更精准的参数估计模型，提高网络的表述和推理能力；

2.输入输出数据采用单位化形式，3维旋转矩阵估计网络输入规范至[0,1]空间的彩色、图像数据，输出旋转矩阵的单位四元数形式，3维平移向量估计网络输入规范至[-1,1]空间的点云数据，逐点输出指向平移向量的单位方向向量，有效解决了不同维度、量纲数据下训练梯度消失、爆炸或者不稳定的问题，加快网络收敛。

附图说明

图1为本发明实例中涉及的目标位姿估计方法网络结构示意图；

图2为用于训练和验证本发明方法提出的位姿估计网络的YCB数据集示意图，其中，(a)为场景1的RGB图像，(b)为(a)对应的Depth图像，(c)为(a)对应的目标物体标注Label图像，(d)为场景2的RGB图像，(e)为(d)对应的Depth图像，(f)为(d)对应的目标物体标注Label图像，(g)为场景3的RGB图像，(h)为(g)对应的Depth图像，(i)为(g)对应的目标物体标注Label图像，；

图3为从图2所示的数据集中处理获得6个目标物体RGB和Depth图像块，其中，(a)为目标物体1RGB图像块，(b)为(a)对应的Depth图像块，(c)目标物体2RGB图像块，(d)为(c)对应的Depth图像块，(e)为目标物体3RGB图像块，(f)为(e)对应的Depth图像块，(g)目标物体4RGB图像块，(h)为(g)对应的Depth图像块，(i)为目标物体5RGB图像块，(j)为(i)对应的Depth图像块，(k)为目标物体6RGB图像块，(l)为(k)对应的Depth图像块；

图4为从图2所示的数据集中处理获得的6个目标物体的目标点云，其中，(a)为目标物体1目标点云，(b)目标物体2目标点云，(c)为目标物体3目标点云，(d)为目标物体4目标点云，(e)为目标物体5目标点云，(f)为目标物体6目标点云；

图5为旋转矩阵估计网络损失随着迭代次数增加的变化曲线示意图；

图6为平移向量估计网络损失随着迭代次数增加的变化曲线示意图；

图7为6D位姿测试结果示意图，其中，(a)-(l)分别为12个不同的测试场景。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述：

本发明针对现有物体位姿估计方法的问题，提供了一种基于注意力机制和霍夫投票的目标位姿估计方法，具体网络结构如图1所示，包括如下步骤：

步骤S1：获取包含目标物体场景下的彩色、深度图像，如图2所示，展示了每个场景下RGB-D相机获取到的RGB图像和Depth图像，以及标注好的各目标物体Label图像，总共3个场景；

步骤S2：通过现有最先进的目标分割方法从彩色图像中获得各物体的类别和分割掩码；

步骤S3：利用步骤S2中获取的各物体分割掩码从输入图像中裁剪出对应物体的彩色、深度图像，并进行通道拼接，获得包含3通道彩色和1通道深度的4通道各目标物体图像块O，o _j∈O,j＝1,2,...,k，k为图像中目标物体数量；

步骤S4：构建旋转估计网络以及平移向量估计网络；

步骤S5：网络训练；

利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像，按照步骤S1-步骤S3处理，以得到的归一化处理后的各目标物体图像块、对应的目标物体三维点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练，训练过程中，以旋转矩阵的绝对角度误差作为旋转估计网络损失，以平移向量的绝对角度误差作为平移向量估计网络损失；

步骤S2中，目标分割为输入场景彩色图像，输出各已知物体的分割掩码，具体实施可采用现有最先进目标分割方法，本发明不包含此部分内容，但分割结果的精度会影响本发明最终物体位姿估计的精度。

物体位姿估计分解成两个独立任务进行，分别为3维旋转矩阵估计和3维平移向量估计；

旋转估计归一化：对裁剪出的各目标物体图像块O进行数据规范化处理，将彩色、深度图像各通道值分别从范围[0,255]、[near,far]归一化至[0,1]，其中near、far分别为目标深度图像最近、最远值；

以图像块O的最小外接矩形为边界，保持纵横比，对其进行上采样或下采样，放缩至固定矩形尺寸，空白区域以0填充，如图3所示，通过放缩和填充处理使得所有图像块长宽一致，得到图像块O _R，后续用于旋转矩阵估计网络训练使用；

步骤S53：将图像块O _R输入旋转估计网络，旋转估计网络利用ResNet34卷积神经网络获取卷积特征，然后将获得的卷积特征分别输入到空间聚合卷积神经网络和空间分布卷积神经网络，提取聚合特征和分布特征；利用特征拼接网络将聚合特征和分布特征拼接后，再利用多尺度池化网络对拼接后的特征进行多尺度池化操作，获得目标物体图像的特征向量F _A；最后，利用多层感知机网络从目标物体图像的特征向量中回归出目标物体的3维旋转矩阵；

所述空间聚合卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征F _c:[H×W,H,W]，并作为空间聚合卷积神经网络的输出数据；

三维点云归一化处理：

首先，利用相机内参和小孔成像模型从各目标物体图像块O中获得某一目标物体三维点云V，V＝(X,Y,Z,I)；

其中：

接着，计算三维点云V的三维重心

结合彩色值得到归一化后的三维点云

将目标物体点云V _norm输入至一个平移向量估计网络，逐点生成各点云指向目标物体3维平移向量的单位向量

利用获得的单位向量W构造目标物体点云中任意点连接3维平移向量的直线方程集L，l _i∈L,i＝1,2,...,m,其中l为三维空间直线方程：

所述平移向量估计网络是利用归一化处理后的目标物体三维点云输入至PointNet++网络，获得点云特征，再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量

网络参数训练时：

对旋转估计网络进行训练，是利用旋转估计归一化后的图像块作为旋转估计网络的输入数据，输出旋转矩阵四元数Q，对旋转矩阵四元数Q进行单位化，然后转成旋转矩阵

以旋转矩阵

与旋转真值

之间的绝对角度误差L _R作为旋转矩阵损失：

如图4所示，通过随机采样或复制使得所有目标点云点数量一致，获得用于平移向量估计网络训练使用的目标点云数据；对平移向量估计网络训练是以图像块O的归一化后的三维点云为输入数据，以目标物体各表面点云指向3维平移向量

的单位向量

作为输出数据，以角度误差L _t作为平移向量损失：

表示第i个像素的平移向量真值：

m表示目标物体图像块中的像素数量。

一般设定一个最小值，当损失值小于该值时，即停止训练，达到最优效果，最小值的选择根据实际仿真实验的结果，会不断的调整；

在本实例中，参见图5和图6，可知旋转矩阵估计和平移向量估计网络损失随着迭代次数增加而减小，且在迭代次数达到一定值以后，估计网络损失趋于稳定。

3维旋转估计网络和3维平移向量估计网络相互独立，训练过程互不干扰，可以并行完成，分别预测目标物体位姿R和t，得到目标物体位姿P＝|R|t|。

具体训练时，可以并行实施，独立计算两者损失并反向传播，然后更新网络权重，获得最佳网络性能。

参见图7，利用本发明实例所述方法得到训练好的网络在数据集验证集中6D位姿测试结果，包含(a)-(l)共12个测试场景，每个测试结果展示了场景中已知物体的3维边界框，边界框由已知物体模型、相机内参和场景下物体6D位姿计算获得，6D位姿包括标注的真实值和网络计算的估计值，两者的吻合度体现出网络的计算精度，进一步验证了本方案所述方法的有效性和准确性。基于上述方法，本发明实施例还提供一种基于注意力机制和霍夫投票的目标位姿估计系统，其特征在于，包括：

其中，RGB-D相机选用Azure Kinect DK相机；

深度学习工作站，选用戴尔P5820x图形工作站

应当理解，本发明各个实施例中的功能单元模块可以集中在一个处理单元中，也可以是各个单元模块单独物理存在，也可以是两个或两个以上的单元模块集成在一个单元模块中，可以采用硬件或软件的形式来实现。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

一种基于注意力机制和霍夫投票的目标位姿估计方法，其特征在于，包括如下几个步骤：

步骤S1：获取包含多目标物体场景下的彩色图像与深度图像；

步骤S2：通过目标分割方法从彩色图像中获得各目标物体的类别和分割掩码；

步骤S3：利用步骤S2中获取的各物体分割掩码，对彩色图像与深度图像进行裁剪与拼接，提取各目标物体图像块，并进行归一化处理；

步骤S4：构建旋转估计网络以及平移向量估计网络；

所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络，所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络；

所述平移向量估计网络包含串联的PointNet++网络和逐点霍夫投票网络；

步骤S5：网络训练；

利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像，按照步骤S1-步骤S3处理，以得到的归一化处理后的各目标物体图像块、对应的目标物体三维点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练，训练过程中，以旋转矩阵的绝对角度误差作为旋转估计网络损失，以平移向量的绝对角度误差作为平移向量估计网络损失；

步骤S6：将待进行目标位姿估计的目标物体图像按照步骤S1-步骤S3处理后，输入到利用步骤S5训练好的所述旋转估计网络和平移向量估计网络中，分别进行3维旋转矩阵估计和3维平移向量估计，实现目标位姿估计。
根据权利要求1所述的方法，其特征在于，将各目标物体图像块进行归一化处理的具体过程如下：

旋转估计归一化：从各目标物体图像块O中彩色通道值、深度通道值分别从[0,255]、[near,far]范围归一化至[-1,1]；再以各目标物体图像块O的最小外接矩形为边界，保持设定的纵横比，对各目标物体图像块O进行上采样或下采样，放缩至固定矩形尺寸，空白区域以0填充，获得宽、高尺寸统一的各目标物体图像块O _R；

三维点云归一化：从各目标物体图像块O中获取各目标物体三维点云，将三维点云彩色值从[0,255]归一化至[-1,1]，并将三维点云的三维坐标进行重心移除，获得偏移坐标，并对偏移坐标进行单位向量化，获得归一化坐标，从而获得各目标物体在同一空间下的三维点云数据；

其中，near、far分别为目标物体深度图像的最近、最远值。
根据权利要求1所述的方法，其特征在于，所述空间聚合卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征F _c:[H×W,H,W]，并作为空间聚合卷积神经网络的输出数据；

所述空间分布卷积神经网络利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征F _d:[H×W,H,W]，并作为空间分布网络卷积神经网络的输出数据。
根据权利要求1所述的方法，其特征在于，所述平移向量估计网络是利用归一化处理后的目标物体三维点云输入至PointNet++网络，获得点云特征，再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。
根据权利要求4所述的方法，其特征在于，利用各目标物体的三维点云坐标和单位向量建立各目标物体3维平移向量所在直线方程集，通过求解三维空间距直线集的最近点，得到各目标物体3维平移向量t。
根据权利要求1所述的方法，其特征在于，三维点云归一化处理具体是指：

首先，利用相机内参和小孔成像模型从各目标物体图像块O中获取某一目标物体三维点云V，V＝(X,Y,Z,I)；

其中：
构成相机内参K，f _x、f _y为等效焦距，u _i、v _i分别为图像块O中像素i在原输入图像中的横纵坐标，I＝(R,G,B)为彩色值，D(u _i,v _i)为图像块O中像素i深度值，c _x、c _y为图像坐标偏移，i＝1,2,...,m，m表示目标物体图像块中的像素数量；

接着，计算三维点云V的三维重心G:
对三维点云V进行归一化处理，彩色值I各通道从[0,255]归一化至[-1,1]，三维点云的三维坐标首先移除重心，获得偏移坐标ΔS(ΔX,ΔY,ΔZ)＝(X-G _x,Y-G _y,Z-G _z)，然后对ΔS进行单位向量化norm(ΔX,ΔY,ΔZ)，得到归一化向量
结合彩色值得到归一化后的三维点云V _norm:
根据权利要求1所述的方法，其特征在于，对旋转估计网络进行训练，是利用旋转估计归一化后的图像块作为旋转估计网络的输入数据，输出旋转矩阵四元数Q，对旋转矩阵四元数Q进行单位化，然后转成旋转矩阵
以旋转矩阵
与旋转真值
之间的绝对角度误差L _R作为旋转矩阵损失：
E为单位矩阵，将L _R反向传播，采用梯度下降方法对旋转估计网络进行训练，更新旋转估计网络参数。
根据权利要求1所述的方法，其特征在于，读平移向量估计网络训练是以图像块O的归一化后的三维点云为输入数据，以目标物体各表面点云指向3维平移向量
的单位向量
作为输出数据，以角度误差L _t作为平移向量损失：
将L _t反向传播，采用梯度下降方法对平移向量估计网络进行参数训练，更新平移向量估计网络参数，其中，
表示第i个像素的平移向量真值：
m表示目标物体图像块中的像素数量。
一种基于注意力机制和霍夫投票的目标位姿估计系统，其特征在于，包括：

图像采集模块：利用RGB-D相机获取包含多目标物体场景中的彩色图像与深度图像；

目标分割模块：用于对彩色图像进行分割，获得各目标物体的类别和分割掩码；

目标提取模块：基于各物体分割掩码，对彩色图像与深度图像进行裁剪与拼接，提取各目标物体图像块；

归一化模块：对各目标物体图像块中的三维点云的坐标、彩色值以及深度值进行归一化处理，获得各目标物体在同一空间下的三维点云数据；

位姿估计网络构建模块：用于构建旋转估计网络以及平移向量估计网络；

所述旋转估计网络包括串联的基于双向空间注意力的特征提取网络、特征拼接网络、多尺度池化网络和多层感知机网络，所述双向空间注意力的特征提取网络包含ResNet34卷积神经网络以及两个并联的空间聚合卷积神经网络、空间分布卷积神经网络；

所述平移向量估计网络包含串联的PointNet++网络和逐点投票网络；

网络训练模块：利用深度学习工作站对位姿估计网络进行训练；

利用已知的目标位姿估计数据集中不同场景下彩色图像和深度图像，调用图像采集模块、目标分割模块、目标提取模块以及归一化模块进行处理，以得到的归一化处理后的各目标物体图像块、对应的物体点云和对应的旋转矩阵四元数、3维平移单位向量分别对所述旋转估计网络以及平移向量估计网络进行训练，训练过程中，以旋转矩阵的绝对角度误差作为旋转估计网络损失，以平移向量的绝对角度误差作为平移向量估计网络损失，且以梯度下降形式进行参数更新；

位姿估计模块：利用训练好的所述旋转估计网络和平移向量估计网络，对待进行目标位姿估计的目标物体图像块，分别进行3维旋转矩阵估计和3维平移向量估计，实现目标位姿估计。
根据权利要求9所述的系统，其特征在于，所述空间聚合卷积神经网络采用卷积神经网络架构，利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个全局点与局部H×W个点的特征约束关系对应的全局点至局部点的聚合特征F _c:[H×W,H,W]，并作为空间聚合卷积神经网络的输出数据；

所述空间分布卷积神经网络采用卷积神经网络架构，利用基于ResNet34卷积神经网络获取的卷积特征作为卷积神经网络的输入数据，从卷积神经网络得到的上下文分布特征F _d-c:[(H×W)×(H×W),H,W]中，提取出H×W个局部点与全局H×W个点的特征约束关系对应的局部至全局的分布特征F _d:[H×W,H,W]，并作为空间分布网络卷积神经网络的输出数据；

所述平移向量估计网络包括PointNet++网络和逐点霍夫投票网络，所述逐点霍夫投票网络采用多层感知机网络架构；

平移向量估计网络利用归一化处理后的目标物体三维点云输入至PointNet++网络，获得点云特征，再利用基于多层感知机网络形式的逐点霍夫投票网络逐点回归获得目标物体的3维平移向量的单位向量。