WO2022267387A1

WO2022267387A1 - 图像识别方法、装置、电子设备和存储介质

Info

Publication number: WO2022267387A1
Application number: PCT/CN2021/138580
Authority: WO
Inventors: 崔致豪; 王正; 耿嘉; 丁有爽; 邵天兰
Original assignee: 梅卡曼德（北京）机器人科技有限公司
Priority date: 2021-06-21
Filing date: 2021-12-15
Publication date: 2022-12-29
Also published as: CN113361442A; CN113361442B

Abstract

一种图像识别方法、装置、电子设备和存储介质。图像识别方法，包括：获取包含待识别物品的图像数据；对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数；针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框；并且针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。能够基于物品的关键点信息以及识别框参数并行地执行生成识别框的处理以及生成掩膜的处理，在工业场景中使用时，识别准确，不会生成冗余的识别框，并且同时生成识别框以及掩膜，实用性强。

Description

图像识别方法、装置、电子设备和存储介质

优先权声明

本申请要求2021年6月21日递交的、申请号为CN202110686482.0、名称为“图像识别方法、装置、电子设备和存储介质”的中国发明专利的优先权，上述专利的所有内容在此全部引入。

技术领域

本申请涉及图像处理技术领域，更具体而言，特别涉及图像识别方法、装置、电子设备和存储介质。

背景技术

图像识别技术已经在商业领域具有广泛的应用。目前常用的图像识别方法或通过利用滑动窗口来选择和组装分数图的输出来生成分割的实例段，或者基于检测器直接预测没有建议的边界框，这些方法在很大程度上依赖于预定义的锚，并且超参数调整(例如锚比、锚步长)对于不同的数据集和框尺度至关重要，还有一些图像识别方法采用关键点检测思想获取对象的四个极值点并生成掩膜，或者用极坐标表示方法重新分割实例并预测目标的质心，然后基于质心和密集的轮廓点之间的距离预测识别框。此外，在获得识别框之后，传统的方法还包括消除类别级别冗余检测框的步骤以避免在同一个物品上出现多个识别框。此外，目前主流的图像识别算法通常会使用深度骨干网络进行图像数据的处理，常用的骨干网络为了准确率而使用了庞大的参数，导致模型推理速度低，并且严重限制了模型在低内存设备上的实现，还有些骨干网络专注于提高模型推理速度，但降低了准确率。

这些传统的方法，要么参数调整复杂，要么仅适用于生成识别框或生成掩膜，并且传统的方法中所使用的冗余框检测技术在一些特殊工业场景下使用时，例如，多个并列倾斜的物品或者有遮盖阻挡的物品，会造成严重的漏检。然而在工业场景中，例如使用机器人进行物品抓取这样的场景，漏检物品是不可容忍的，并且掩膜和识别框都是后续处理过程中的必要信息。现有的图像识别技术运用于工业场景时仍然需要克服许多的问题。

发明内容

鉴于上述问题，提出了本发明以便克服上述问题或者至少部分地解决上述问题。具体地，首先，本发明能够基于物品的关键点信息以及识别框参数并行地执行生成识别框的处理以及生成掩膜的处理，在工业场景中使用时，识别准确，不会生成冗余的识别框，并且同时生成识别框以及掩膜，实用性强；其次，本发明提出的骨干网络能够以两个处理过程的多个阶段对输入的图像数据进行多分辨率及多特征维度的处理，并且在第二处理过程中只进行升采样处理，从而保证了输出特征图像数据的高分辨率，本发明的骨干网络在保持准确率的同时，提高了推理速度；再次，本发明的骨干网络除了数据处理流程之外，还包括特征过渡处理以及残差处理，能够保证高层次特征下的平稳的特征过渡并能够避免深度网络的梯度损失，提高了骨干网络推理的准确率；再次，本发明的掩膜生成过程获取了多个高层次维度特征的特征图像数据，从各个特征维度中通过池化方式提取掩膜特征，从而能保证所生成的图像掩膜的完整性，不会发生掩膜残缺的情况；再次，本发明基于骨干网络提取的物品关键点信息以及识别框参数对多特征维度的图像数据进行池化，从而能够从完整的图像中识别属于所识别物品的掩膜特征从而准确地提取出所识别物品的掩膜；再次，本发明基于通用的图像识别方法，提出了特别适用于识别多个倾斜并列物品的图像识别方法，能够提高多个物品识别的准确度，不会发生漏检。

本申请权利要求和说明书所披露的所有方案均具有上述一个或多个创新之处，相应地，能够解决上述一个或多个技术问题。具体地，本申请提供一种图像识别方法、装置、电子设备和存储介质。

本申请的实施方式的图像识别方法，包括：

获取包含待识别物品的图像数据；

对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数；

针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框；并且

针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。

在某些实施方式中，并行执行所述生成识别框的操作以及所述生成所识别的物品的掩膜的操作。

在某些实施方式中，所述识别框参数包括识别框的宽度以及识别框的高度。

在某些实施方式中，所述关键点包括识物品的中心点。

在某些实施方式中，所述对所述图像数据进行处理包括将所述图像数据输入骨干网络进行处理。

在某些实施方式中，所述骨干网络包括第一数据处理过程和第二数据处理过程，所述数据处理过程包括一个或多个处理阶段，所述处理阶段包括一个或多个处理分支。

在某些实施方式中，将所述多个处理分支输出的数据进行融合。

在某些实施方式中，所述多个处理分支输出的数据具有多分辨率和/或多特征维度。

在某些实施方式中，在所述第一处理过程中，在后处理阶段包括比在先处理阶段更多的处理分支；和/或，在所述第二处理过程中，在后处理阶段包括比在先处理阶段更少的处理分支。

本申请的实施方式的图像识别装置，包括：

图像数据获取模块，用于获取包含待识别物品的图像数据；

图像数据处理模块，用于对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数；

识别框生成模块，针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框；并且

掩膜生成模块，针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。

在某些实施方式中，所述识别框生成模块以及掩膜生成模块并行运行。

在某些实施方式中，所述关键点包括识物品的中心点。

在某些实施方式中，图像数据处理模块用于将所述图像数据输入骨干网络进行处理。

本申请的实施方式的电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式的图像识别方法。

本申请的实施方式的计算机可读存储介质其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式的图像识别方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的图像识别方法的流程示意图；

图2是本申请某些实施方式的图像数据处理方法的流程示意图；

图3是本申请某些实施方式的骨干网络的结构示意图；

图4是本申请某些实施方式的掩膜分支的掩膜生成方法的流程示意图；

图5是本申请某些实施方式的掩膜生成方法的流程示意图；

图6是本申请某些实施方式的针对多个倾斜并列物品的图像识别方法的流程示意图；

图7是本申请某些实施方式的图像识别结果以及现有技术的图像识别结果的示意图；

图8是另一组本申请某些实施方式的图像识别结果以及现有技术的图像识别结果的示意图；

图9是识别框相交的区域以及识别框合并后形成的区域的示意图；

图10是本申请某些实施方式的图像识别装置的结构示意图；

图11是本申请某些实施方式的图像数据处理装置的结构示意图；

图12是本申请某些实施方式的包括特征过渡模块以及残差连接模块的图像数据处理装置的结构示意图；

图13是本申请某些实施方式的掩膜分支的掩膜生成装置的结构示意图；

图14是本申请某些实施方式的掩膜生成装置的结构示意图；

图15是本申请某些实施方式的针对多个倾斜并列物品的图像识别装置的结构示意图；

图16是本申请某些实施方式的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的图像识别方法的流程示意图，如图1所示，该方法包括：

步骤S100，获取包含待识别物品的图像数据；

步骤S110，对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数；

步骤S120，针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框；并且

步骤S130，针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。

对于步骤S100，本发明中的待识别物体可以是以任意方式放置的任意物体，与其它现有方法相比，本专利对于密集场景下并排倾斜物体会有更明显的检出效果。本发明中的图像数据可以是现场拍摄的，也可以是预先保存的并经过人工标注的数据。

本实施例提出的图像识别方法，与传统的方法相比，不使用预先定义的锚框以及与锚框相关的复杂的参数和计算，而是通过获取待识别物品的关键点信息以及与识别框参数，高效并准确地生成用于标记物品的识别框，并且本实施例的方法针对单一物品生成单一识别框，不会生成冗余的识别框，也没有使用冗余框检测技术的必要，因而可以适用于包括多个并列倾斜的物品或者有遮盖阻挡的物品这样的场景之内的全部工业场景中，也不会产生漏检，并且，本方法并行执行识别框生成操作以及掩膜生成操作，在工业场景中的实用性较强。作为一种较佳的实施方式，关键点可以为物品的中点，而识别框参数则可以包括识别框的宽度和长度。

对于步骤S110，将图像数据输入骨干网络中进行处理，以识别图像数据中的物品，并获取待识别物品的关键点信息以及与识别框参数。骨干网络用于对输入的数据进行处理，对于不同的任务目标，可以选择适于该任务目标的骨干网络进行数据的处理，例如某些骨干网络适于识别图形，某些骨干网络适于识别人脸，还有一些骨干网络适于识别文字。如上所述，本实施例的重点在于基于关键点信息以及识别框参数并行地进行物品识别操作以及物品掩膜生成操作，骨干网络则用于识别图像数据中的物品，并获取待识别物品的关键点信息以及与识别框参数，只要能实现上述功能的骨干网均可以用于本实施例的图像识别方法中，本实施例不对骨干网络的选取进行限定。

目前常用的用于图像识别方法的骨干网络，有一些为了实现高性能而使用了庞大的参数，这严重限制了模型在低内存设备上的实现，相反，有一些专注于提高模型推理速度，但降低了准确率。为此，我们提出了一种用于图像识别的新型的骨干网络，在保持准确性的同时能够显著提高网络的处理速度。该新型的骨干网络是本发明的重点之一，其可以在任意的图像识别方法中使用。本发明的图像识别方法优选使用该新型的骨干网络对输入的图像数据进行处理

图2示出了根据本发明一个实施例的使用新型骨干网络进行图像数据处理的流程示意图。如图2所示，该方法包括：

步骤S200，接收待处理的图像数据；

步骤S210，使用第一数据处理过程处理所述待处理的图像数据；

步骤S220，使用第二数据处理过程处理经第一数据处理过程处理的图像数据。

为了方便解释本发明的骨干网络，图3示意性地给出了本发明的新型的骨干网络的结构。如图3所示，网络包含两个主要部分：第一数据处理过程和第二数据处理过程。根据实际应用场景的需要，每个数据处理过程都可以包括一个或多个处理阶段，每个处理阶段都可以包括一个或多个并行的处理分支(图3中以“块”的形式展示该处理分支，下文中提到的“块”，“卷积块”都指的是处理分支)。作为一个示例，第一数据处理过程可以包括三个阶段，第一阶段，第二阶段和第三阶段。第一阶段包括一个处理分支，该处理分支中包括多个等分辨率的卷积处理，该卷积处理使用的卷积核尺寸为3x3，步长为1，之后使用1x1的卷积层进行降采样。第二阶段包括两个处理分支，一个处理分支接收第一阶段的处理分支输出的特征图像数据，并重复第一阶段的处理过程，另一个分支则将经过降采样的第一阶段输出的特征图像数据进行卷积处理。第三阶段包括三个处理分支，这三个处理分支既包括重复前一阶段的处理分支的操作，也包括将经过降采样/升采样的第二阶段的两个处理分支输出的特征图像数据进行卷积处理。此外，第三阶段输入的数据还经过了多分辨率以及多特征维度的融合。

第三阶段后进入第二数据处理过程，第二数据处理过程也可以包括三个阶段：第四阶段，第五阶段和第六阶段。第四阶段包括三个处理分支，与第三阶段类似，这三个处理分支既包括重复前一阶段的处理分支的操作，也包括将经过降采样/升采样的第三阶段的三个处理分支的特征图像数据进行卷积处理的操作。同样，第四阶段输入的数据也经过了多分辨率以及多特征维度的融合。图像数据在每个阶段都进行卷积处理，经过越多的卷积处理，输出的特征图像数据所包含的特征的层次越高。在特征图像数据进入第二数据处理过程时，已经经过了3个阶段的处理，因此从第4阶段开始输出的特征图像数据包含了相当高层次的特征，为了提高图像识别的准确率，希望能够平滑地增加特征维度，使得处理后的特征图像数据尽可能地少损失信息，我们的骨干网络从第4阶段开始增加特征过渡模块，在当前的处理分支将数据输出至特征维度更多的处理分支前，先通过特征过渡模块调整当前处理分支的输出，也就是说，在主卷积块之后扩展额外的特征转换模块，特征转换模块使之前的特征维度增加了一倍。在一个实施方式中，为了增强特征多样性，采用可变形卷积作为特征转换块的卷积层。

本发明的方法基于物品的关键点信息生成识别框，图像数据的分辨率不能太低，尤其是对于两个彼此接近的物体。因此，在第二处理过程中不再进行会令图片数据分辨率降低的操作，换句话说，在第一数据处理过程中，部分处理阶段包括对图像数据进行增大分辨率的处理，部分处理阶段包括对图像数据进行减小分辨率的处理，而在第二数据处理过程中，任一处理阶段只包括对图像数据进行增大分辨率的处理以放大较低级别的特征，而不包括对图像数据进行减小分辨率的处理，本发明优选使用升采样操作增大图像数据分辨率，使用降采样操作减小分辨率。因此在第4阶段和第5阶段之后，仅对特征图像数据进行升采样处理，在第5阶段和第6阶段中仅包括重复前一阶段的处理分支的操作，以及对经过升采样的处理分支输出的特征图像数据进行卷积处理的操作，不包括对经过降采样的处理分支输出的特征图像数据进行卷积处理的操作。整体来看，新型骨干网络的第一数据处理过程每个处理阶段的处理分支逐渐增多，呈“降三角形”结构；第二数据处理过程每个处理阶段的处理分支逐渐减少，呈“升三角形”结构，并且新型骨干网络将多个处理分支输出的数据进行多特征维度和多解析度的交叉融合，这样的架构并行构建了由高到低和低到高的卷积，在保持整个过程的高分辨率的同时，与不同维度的特征进行多重融合。

下面以一张分辨率为512x512的输入图像数据为例，解释本发明的骨干网络如何处理图像数据。

对于步骤S210，将分辨率为512x512的图像数据输入第一处理过程的第一处理阶段的处理分支中，经该处理分支处理后，获得32个特征维度的分辨率为128x128的特征图像数据，一方面，将第一处理分支输出的特征图像数据输入第二处理阶段的上处理分支中，另一方面，将第一处理分支输出的数据经1x1卷积降采样后，输出至第二处理阶段的中处理分支中。需要注意的是，这里的“上”和“中”是指在图3中，该处理分支在靠上或靠中间的位置，并不表示上处理分支先于中处理分支执行数据的处理，实际上，每个处理阶段的多个处理分支都是并行执行的，没有先后之分。在整个骨干网络中，经上处理分支处理的图像数据，其解析度均为128x128，经中处理分支处理的图像数据，其解析度均为64x64，经下处理分支处理的图像数据，其解析度均为32x32。

经第二处理阶段的上处理分支处理后获得32个特征维度的特征图像数据，中处理分支处理后获得64个特征维度的特征图像数据，一方面，上处理分支输出的特征图像数据与中处理分支经1x1卷积升采样后输出的特征图像数据融合后，输入到第三处理阶段的上分支；第二方面，上处理分支经1x1卷积降采样后输出的特征图像数与中处理分支输出的特征图像数据融合后，输入到第三处理阶段的中处理分支；第三方面，上处理分支经1x1卷积降采样后的特征图像数与中处理分支经1x1卷积降采样后输出的特征图像数据融合后，输入到第三处理阶段的下分支。

经第三处理阶段的上处理分支处理后获得32个特征维度的特征图像数据，中处理分支处理后获得64个特征维度的特征图像数据，下处理分支处理后获得128个特征维度的特征图像数据，一方面，上处理分支输出的特征图像数据与中处理分支经1x1卷积升采样后输出的特征图像数据以及下处理分支经1x1卷积升采样后输出的特征图像数据融合后，输入到第四处理阶段的上分支；第二方面，上处理分支经1x1卷积降采样后输出的特征图像数与中处理分支输出的特征图像数据以及下处理分支经1x1卷积升采样后输出的特征图像数据融合后，输入到第四处理阶段的中处理分支；第三方面，上处理分支经1x1卷积降采样后的特征图像数与中处理分支经1x1卷积降采样后输出的特征图像数据以及下处理分支输出的特征图像数据融合后，输入到第四处理阶段的下分支。

对于步骤S220，经第四处理阶段的上处理分支处理后获得32个特征维度的特征图像数据，接着经过特征过渡模块处理后，获得64个特征维度的特征图像数据，中处理分支处理后获得64个特征维度的特征图像数据，接着经过特征过渡模块处理后，获得128个特征维度的特征图像数据，下处理分支处理后获得128个特征维度的特征图像数据。一方面，上处理分支后的特征过渡模块输出的特征图像数据与中处理分支经1x1卷积升采样后输出的特征图像数据以及下处理分支经1x1卷积升采样后输出的特征图像数据融合后，输入到第五处理阶段的上分支；第二方面，中处理分支后的特征过渡模块输出的特征图像数据与下处理分支经1x1卷积升采样后输出的特征图像数据融合后，输入到第五处理阶段的中处理分支。

经第五处理阶段的上处理分支处理后获得64个特征维度的特征图像数据，接着经过特征过渡模块处理后，获得128个特征维度的特征图像数据，中处理分支处理后获得128个特征维度的特征图像数据。上处理分支后的特征过渡模块输出的特征图像数据与中处理分支经1x1卷积升采样后输出的特征图像数据融合后，输入到第六处理阶段的上分支。经第六处理阶段的上处理分支处理后获得256个特征维度的特征图像数据。

由于本发明的骨干网络可以包括很多的处理阶段，处理阶段越多，网络越“深”，也越有可能在图像数据处理的过程中损失信息。在一种实施方式中，为了防止深度网络的梯度损失，加强头尾特征，本发明的新型骨干网络还可以包括残差连接模块，第一数据处理过程中的一个或多个处理分支可以通过残差处理模块向第二数据处理过程中的一个或多个处理分支输入经残差处理过程处理的数据。如图3所示，作为一个示例，整个网络的上方示出了本发明的两个残差连接模块，一个残差连接模块将第一处理阶段的处理分支与第六处理阶段的处理分支连接，另一个残差连接模块将第二处理阶段的上处理分支与第五处理阶段的上处理分支连接，如此能够突破低级和高级特征之间的信息阻塞，避免处理的过程中损失信息。

对于步骤S120，基于骨干网络的识别结果以及骨干网络处理过程中获得的数据，提取待识别物品的中心点信息并计算获得用于标记该物品的识别框的长度信息和宽度信息，在图像数据上生成识别框以标记识别出的物品。

对于步骤S130，本发明的图像识别方法由两部分组成，生成识别框以及预测物品掩膜。这两个部分均需要使用骨干网络进行数据处理过程中获得的特征图像数据。因此，在使用骨干网络生成识别框这一主要处理之外，本发明还同步进行掩膜分支的处理过程，在一种实施方式中，生成识别框的操作与掩膜生成的操作共享特征权重。掩膜分支处理过程充分使用了骨干网络处理图像数据的过程中产生的特征图像数据，将有多个特征维度的特征图像数据融合以提取物品的掩膜，是本发明的重点之一。

图4示出了根据本发明一个实施例的图像识别方法中的掩膜生成分支所使用的掩膜生成方法。如图4所示，该方法包括：

步骤S300，接收待处理的图像数据；

步骤S310，将待处理的图像数据输入包含M个处理阶段的数据处理过程进行处理，其中M为大于等于2的整数；

步骤S320，获取M个处理阶段中的N个处理阶段输出的数据，其中N为大于等于2且小于等于M的整数；

步骤S330，融合所述N个处理阶段输出的数据；

步骤S340，将融合后的数据进行池化处理以获得图像掩膜。

对于步骤S310，如前所述，本发明需要将图像数据输入骨干网络进行处理，该骨干网络优选地可以使用本发明的新型的骨干网络。骨干网络包括多个处理阶段，具体的处理过程请见前述骨干网络的相关实施例，此处不再赘述。

对于步骤S320，为了能够准确且优质地提取物品的掩膜，本实施例获取骨干网络数据处理过程中生成的多个特征图像数据，例如，图3所示的骨干网络包括6个数据处理阶段，而掩膜分支接收了其中3个阶段产生的特征图像数据，具体为第4、5和6阶段生成的特征图像数据。

对于步骤S330，掩膜分支进行特征图像数据融合的示例见图3的下部，可以看出，第4处理阶段向掩膜分支输入了128个特征维度的特征图像数据，第5处理阶段向掩膜分支输入了128个特征维度的特征图像数据，第4和第5阶段之间使用了通道级的叠加计算，获得了256个特征维度的特征图像数据；第6处理阶段向掩膜分支输入了256个特征维度的特征图像数据，第5和第6阶段之间使用了通道级的相加计算，获得了新的256个特征维度的特征图像数据。也就是说，低于骨干网络最大特征维度的数据之间进行通道级的叠加运算，等于骨干网络最大特征维度的数据之间进行通道级的相加运算。

对于步骤S340，本发明使用池化方式对融合后的特征图像数据进行处理，以获取物品的掩膜。现有技术中存在多种以池化方式获取物品掩膜的方法，本实施例的重点在于从多个数据处理阶段提取数据并融合后，将新的包含掩膜特征的特征图像数据池化以获得图像掩膜，而不在于具体的池化方法，任意的合适的产生掩膜的池化方法都可以用于本实施例中。

虽然可以使用任意的池化方法，但是为了提高掩膜生成的准确率，本发明开发了一种基于中心点的掩膜生成方法，特别适用于基于中心点进行图像识别的方法，这也是本发明的重点之一。图5示出了根据本发明一个实施例的图像掩膜生成方法。如图5所示，该方法包括：

步骤S400，获取包含掩膜特征的图像数据，其中，所述掩膜特征为包括待识别物品的图像的掩膜特征；

步骤S410，获取所述图像数据上的待识别物品的中心点信息以及识别框信息；

步骤S420，基于所述中心点信息以及识别框信息从图像数据中提取所述待识别物品的掩膜特征；

步骤S430，基于从图像数据中提取的所述待识别物品的掩膜特征生成待识别物品的图像掩膜。

对于步骤S400，骨干网络处理的图像数据是包含待生成掩膜的物品以及其它物品和背景图像等的图像数据。本实施例的方法从尽可能多的高层特征维度中提取物品的掩膜特征，因此，优选地，如图3所示，本发明从第二数据处理过程的多个处理阶段中提取了256个特征维度的图像数据，这些特征图像数据中包含了待识别物品的掩膜特征。

对于步骤S410，基于骨干网络处理过程中获得的数据，提取待识别物品的中心点信息并计算获得用于标记该物品的识别框的长度信息和宽度信息，这些信息即可以用于生成识别框也可以用于生成待识别物品的掩膜，骨干网络处理数据的过程此处不再赘述。在一个较佳的实施例中，该中心点可以是真实(Ground Truth)中心点，简称为GT中心点。

对于步骤S420，如前所述，所获得的图像数据是包括待识别物品在内的完整图像数据，并且包含了256个特征维度的特征图像数据，该步骤中一方面需要依据中心点信息以及识别框的长度信息和宽度信息，找到待识别物品的位置，另一方面还需要从特征图像数据中找到物品掩膜特征；从而在下一个步骤中依据所获取的待识别物品的掩膜特征生成待识别物品的掩膜，从而方便之后根据该掩膜进行各种操作。

本发明的图像识别方法特别适用于识别多个倾斜摆放的或者受到遮挡的物品这样的工业场景，如何在这样的工业场景中使用本发明的图像识别方法也是本发明的重点之一。

图6示出了根据本发明一个实施例的对包括多个物品的图像数据进行识别并标记的方法。如图6所示，该方法包括：

步骤S500，获取包含待识别物品组的图像数据；

步骤S510，基于所述图像数据识别所述待识别物品组中的每个物品；

步骤S520，针对所识别的每个物品，在所述图像数据上生成识别框以标记该物品。

对于步骤S500，图7，8示例性地示出了一些图像数据，在这些图像数据里，包括多个倾斜并列放置的待操作的物品，这些物品构成了物品组；

对于步骤S510，需要从图像数据中识别出每个物品，本发明通过前述的图像识别方法识别所有的物品，这需要将图像数据输入骨干网络中进行处理，骨干网络的数据处理方法此处不再赘述；

对于步骤S520，在工业场景中，图像数据中的物品组中的所有都是操作对象，可能需要被抓取，可能需要被涂漆，因此通常需要将物品组中的全部物品都识别出来，不能有遗漏。在图7(a)和图8(a)是使用现有的识别方法识别出的结果，图7(b)和图8(b)是使用本发明的识别方法识别的结果。本发明针对每个识别的物品，根据物品的中心点信息以及识别框的长度和宽度信息为每个物品生成识别框以标记该物品，因此所生成的每个识别框的中心都位于所识别的物品上。此外，现有技术中通常在两个识别框之间的重叠度超过一定阈值时，会判定其中一个框为冗余识别框，并在输出的图像中删除该识别框，导致出现图7(a)和图8(a)所示的识别结果，即产生很多漏检的情况。而使用本发明的识别方法，则能够产生如图7(b)和图8(b)所示的识别结果，也就是说，本发明的图像识别方法能够容忍识别框的部分重叠甚至全部重叠，即便重叠度达到60％以上，本发明也不会删除识别框，而是能够正确地将每一个物品识别出来，不产生漏检。其中，两个识别框的重叠度＝两个识别框相交的区域的面积/两个识别框合并后形成的区域的面积。如图9所示，图9(a)中黑色部分为两个识别框相交的区域的面积，图9(b)中黑色部分为两个识别框合并后形成的区域的面积。

另外，需要说明的是，虽然本发明的每个实施例都具有特定的特征组合，然而，这些特征在实施例之间的进一步组合和交叉组合也是可行的。

根据上述实施例，首先，本发明能够基于物品的关键点信息以及识别框参数并行地执行生成识别框的处理以及生成掩膜的处理，在工业场景中使用时，不会生成冗余的识别框，并且实用性强；其次，本发明提出的骨干网络能够以两个处理过程的多个阶段对输入的图像数据进行处理，并且在第二处理过程中只进行升采样处理，从而保证了输出特征图像数据的高分辨率；第三，本发明的骨干网络除了数据处理流程之外，还包括特征过渡处理以及残差处理，能够保证高层次特征下的平稳的特征过渡并能够避免深度网络的梯度损失；第四，本发明的掩膜生成过程获取了多个高层次维度特征的特征图像数据，从各个特征维度中通过池化方式提取掩膜特征，从而能完整地生成图像掩膜，而不会有遗漏；第五，本发明基于骨干网络提取的物品关键点信息以及识别框参数对多特征维度的图像数据进行池化，从而能够从完整的图像上准确地提取处所识别物品的掩膜；第六，本发明基于通用的图像识别方法，提出了专用于识别多个倾斜并列物品的方法，能够提高识别的准确度，不会发生漏检。

图10示出了根据本发明又一个实施例的图像识别装置，该装置包括：

图像数据获取模块600，用于获取包含待识别物品的图像数据，即用于实现步骤S100；

图像数据处理模块610，用于对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数，即用于实现步骤S110；

识别框生成模块620，针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框，即用于实现步骤S120；并且

掩膜生成模块630，针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜，即用于实现步骤S130。图11示出了根据本发明又一个实施例的图像数据的处理装置，该装置包括：

图像数据接收模块700，用于接收待处理的图像数据，即用于实现步骤S200；

第一数据处理模块710，用于使用第一数据处理过程处理所述待处理的图像数据，即用于实现步骤S210；

第二数据处理模块720，用于使用第二数据处理过程处理经第一数据处理过程处理的图像数据，即用于实现步骤S220；

其中，所述数据处理过程包括一个或多个处理阶段，在第一数据处理过程中，部分处理阶段包括对图像数据进行增大分辨率的处理，部分处理阶段包括对图像数据进行减小分辨率的处理；在第二数据处理过程中，任一处理阶段包括对图像数据进行增大分辨率的处理，且不包括对图像数据进行减小分辨率的处理。

图12示出了根据本发明又一个实施例的图像数据的处理装置，该装置包括：

图像数据接收模块800，接收待处理的图像数据，即用于实现步骤S200；

第一数据处理模块810，使用第一数据处理过程处理所述待处理的图像数据，即用于实现步骤S210；

第二数据处理模块820，使用第二数据处理过程处理经第一数据处理过程处理的图像数据，即用于实现步骤S220；

其中，所述数据处理过程包括一个或多个处理阶段，每个处理阶段包括一个或多个处理分支；

所述处理装置还包括：

残差处理模块830，用于将第一数据处理过程中的一个或多个处理分支通过残差处理过程与第二数据处理过程中的一个或多个处理分支连接；

特征过渡模块840，用于在所述第二处理过程中的一个或多个处理分支向下一个处理阶段输出数据之前，对待输出的数据进行特征过渡处理。

对于残差处理模块830，由于本发明的骨干网络可以包括很多的处理阶段，处理阶段越多，网络越“深”，也越有可能在图像数据处理的过程中损失信息。在一种实施方式中，为了防止深度网络的梯度损失，加强头尾特征，本发明的新型骨干网络还可以包括残差连接模块，第一数据处理过程中的一个或多个处理分支可以通过残差处理模块向第二数据处理过程中的一个或多个处理分支输入经残差处理过程处理的数据。如图3所示，作为一个示例，整个网络的上方示出了本发明的两个残差连接模块，一个残差连接模块将第一处理阶段的处理分支与第六处理阶段的处理分支连接，另一个残差连接模块将第二处理阶段的上处理分支与第五处理阶段的上处理分支连接，如此能够突破低级和高级特征之间的信息阻塞，避免处理的过程中损失信息。残差处理模块830即用于实现上述方法步骤。

对于特征过渡模块840，由于图像数据在每个阶段都进行卷积处理，经过越多的卷积处理，输出的特征图像数据所包含的特征的层次越高。在特征图像数据进入第二数据处理过程时，已经经过了3个阶段的处理，因此从第4阶段开始输出的特征图像数据包含了相当高层次的特征，为了提高图像识别的准确率，希望能够平滑地增加特征维度，使得处理后的特征图像数据尽可能地少损失信息，我们的骨干网络从第4阶段开始增加特征过渡模块，在当前的处理分支将数据输出至特征维度更多的处理分支前，先通过特征过渡模块调整当前处理分支的输出，也就是说，在主卷积块之后扩展额外的特征转换模块，特征转换模块使之前的特征维度增加了一倍。在一个实施方式中，为了增强特征多样性，采用可变形卷积作为特征转换块的卷积层。特征过渡模块840即用于实现上述方法步骤。

图13示出了根据本发明又一个实施例的图像掩膜生成装置，该装置包括：

图像数据接收模块900，用于接收待处理的图像数据，即用于实现步骤S300；

图像数据处理模块910，用于将待处理的图像数据输入包含M个处理阶段的数据处理过程进行处理，其中M为大于等于2的整数，即用于实现步骤S310；

数据获取模块920，用于获取M个处理阶段中的N个处理阶段输出的数据，其中N为大于等于2且小于等于M的整数，即用于实现步骤S320；

融合模块930，用于融合所述N个处理阶段输出的数据，即用于实现步骤S330；

掩膜生成模块940，用于将融合后的数据进行池化处理以获得图像掩膜，即用于实现步骤S340。图14示出了根据本发明又一个实施例的图像掩膜生成装置，该装置包括：

图像数据获取模块1000，用于获取包含掩膜特征的图像数据，即用于实现步骤S400，其中，所述掩膜特征为包括待识别物品的图像的掩膜特征；

信息获取模块1010，用于获取所述图像数据上的待识别物品的中心点信息以及识别框参数，即用于实现步骤S410；

掩膜特征获取模块1020，用于基于所述中心点信息以及识别框信息从图像数据中提取所述待识别物品的掩膜特征，即用于实现步骤S420；

掩膜生成模块1030，用于基于从图像数据中提取的所述待识别物品的掩膜特征生成物品的图像掩膜，即用于实现步骤S430。

图15示出了根据本发明又一个实施例的图像识别装置，该装置包括：

图像数据获取模块1100，用于获取包含待识别物品组的图像数据，即用于实现步骤S500；

图像识别模块1110，用于基于所述图像数据识别所述待识别物品组中的每个物品，即用于实现步骤S510；

识别框生成模块1120，用于针对所识别的每个物品，在所述图像数据上生成识别框以标记该物品，即用于实现步骤S520；

其中，所述物品组包括至少两个物品；并且，

每个所述识别框的中心都位于该识别框所标记的物品的图像里；并且，

在所述图像数据上生成的多个所述识别框至少部分重叠。

上述图10-图15所示的装置实施例中，仅描述了模块的主要功能，各个模块的全部功能与方法实施例中相应步骤相对应，各个模块的工作原理同样可以参照方法实施例中相应步骤的描述，此处不再赘述。另外，虽然上述实施例中限定了功能模块的功能与方法的对应关系，然而本领域技术人员能够理解，功能模块的功能并不局限于上述对应关系，即特定的功能模块还能够实现其他方法步骤或方法步骤的一部分。例如，上述实施例描述了掩膜生成模块1030用于实现步骤S430的方法，然而根据实际情况的需要，掩膜生成模块1030也可以用于实现步骤S400、S410或S420的方法或方法的一部分。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施方式的方法。需要指出的是，本申请实施方式的计算机可读存储介质存储的计算机程序可以被电子设备的处理器执行，此外，计算机可读存储介质可以是内置在电子设备中的存储介质，也可以是能够插拔地插接在电子设备的存储介质，因此，本申请实施方式的计算机可读存储介质具有较高的灵活性和可靠性。

图16示出了根据本发明实施例的一种电子设备的结构示意图，电子设备可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等，本发明具体实施例并不对电子设备的具体实现做限定。

如图16所示，该电子设备可以包括：处理器(processor)1202、通信接口(Communications Interface)1204、存储器(memory)1206、以及通信总线1208。

其中：

处理器1202、通信接口1204、以及存储器1206通过通信总线1208完成相互间的通信。

通信接口1204，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器1202，用于执行程序1210，具体可以执行上述方法实施例中的相关步骤。

具体地，程序1210可以包括程序代码，该程序代码包括计算机操作指令。

处理器1202可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1206，用于存放程序1210。存储器1206可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序1210可以通过通信接口1204从网络上被下载及安装，和/或从可拆卸介质被安装。在该程序被处理器1202执行时，可以使得处理器1202执行上述方法实施例中的各项操作。

概括地说，本发明的发明内容包括：一种图像识别方法，包括：

获取包含待识别物品的图像数据；

可选的，并行执行所述生成识别框的操作以及所述生成所识别的物品的掩膜的操作。

可选的，所述识别框参数包括识别框的宽度以及识别框的高度。

可选的，所述关键点包括识物品的中心点。

可选的，所述对所述图像数据进行处理包括将所述图像数据输入骨干网络进行处理。

可选的，所述骨干网络包括第一数据处理过程和第二数据处理过程，所述数据处理过程包括一个或多个处理阶段，所述处理阶段包括一个或多个处理分支。

可选的，将所述多个处理分支输出的数据进行融合。

可选的，所述多个处理分支输出的数据具有多分辨率和/或多特征维度。

可选的，在所述第一处理过程中，在后处理阶段包括比在先处理阶段更多的处理分支；和/或，在所述第二处理过程中，在后处理阶段包括比在先处理阶段更少的处理分支。

一种图像识别装置，包括：

图像数据获取模块，用于获取包含待识别物品的图像数据；

可选的，所述识别框生成模块以及掩膜生成模块并行运行。

可选的，所述关键点包括识物品的中心点。

可选的，图像数据处理模块用于将所述图像数据输入骨干网络进行处理。

可选的，将所述多个处理分支输出的数据进行融合。

一种图像数据的处理方法，包括：

接收待处理的图像数据；

使用第一数据处理过程处理所述待处理的图像数据；

使用第二数据处理过程处理经第一数据处理过程处理的图像数据；

可选的，所述处理阶段包括一个或多个处理分支。

可选的，将所述多个处理分支输出的数据进行融合。

可选的，所述多个处理分支属于同一处理阶段。

可选的，在所述第一处理过程中，在后处理阶段包括比在先处理阶段更多的处理分支。

可选的，在所述第二处理过程中，在后处理阶段包括比在先处理阶段更少的处理分支。

可选的，所述第一处理过程的最后一个处理阶段与所述第二处理过程的第一个处理阶段具有相同数量的处理分支。

可选的，所述减小分辨率的处理包括使用1x1卷积降采样处理减小分辨率；和/或所述增大分辨率的处理包括使用1x1卷积升采样增大分辨率。

一种图像数据的处理装置，包括：

图像数据接收模块，用于接收待处理的图像数据；

第一数据处理模块，用于使用第一数据处理过程处理所述待处理的图像数据；

第二数据处理模块，用于使用第二数据处理过程处理经第一数据处理过程处理的图像数据；

可选的，所述处理阶段包括一个或多个处理分支。

可选的，将所述多个处理分支输出的数据进行融合。

可选的，所述多个处理分支属于同一处理阶段。

可选的，所述减小分辨率的处理包括使用1x1卷积降采样处理减小分辨率；和/或所述增大分辨率的处理包括使用1x1卷积升采样处理增大分辨率。

一种图像数据的处理方法，包括：

接收待处理的图像数据；

使用第一数据处理过程处理所述待处理的图像数据；

所述方法还包括残差处理过程，第一数据处理过程中的一个或多个处理分支通过残差处理过程与第二数据处理过程中的一个或多个处理分支连接；

所述第二处理过程中的一个或多个处理分支向下一个处理阶段输出数据之前，通过特征过渡操作处理待输出的数据。

可选的，所述特征过渡操作包括对待输出的数据进行可变形卷积处理。

可选的，所述残差处理过程包括将第一数据处理过程中第一处理阶段的处理分支通过残差处理过程与第二数据处理过程中的最后一个处理阶段的处理分支连接。

可选的，将多个处理分支输出的数据进行融合。

可选的，所述多个处理分支属于同一处理阶段。

一种图像数据的处理装置，包括：

图像数据接收模块，接收待处理的图像数据；

第一数据处理模块，使用第一数据处理过程处理所述待处理的图像数据；

第二数据处理模块，使用第二数据处理过程处理经第一数据处理过程处理的图像数据；

所述处理装置还包括：

残差处理模块，用于将第一数据处理过程中的一个或多个处理分支通过残差处理过程与第二数据处理过程中的一个或多个处理分支连接；

特征过渡模块，用于在所述第二处理过程中的一个或多个处理分支向下一个处理阶段输出数据之前，对待输出的数据进行特征过渡处理。

可选的，所述特征过渡模块还用于对待输出的数据进行可变形卷积处理。

可选的，残差处理模块还用于将第一数据处理过程中第一处理阶段的处理分支通过残差处理过程与第二数据处理过程中的最后一个处理阶段的处理分支连接。

可选的，将多个处理分支输出的数据进行融合。

可选的，所述多个处理分支属于同一处理阶段。

一种图像掩膜生成方法，包括：

接收待处理的图像数据；

将待处理的图像数据输入包含M个处理阶段的数据处理过程进行处理，其中M为大于等于2的整数；

获取M个处理阶段中的N个处理阶段输出的数据，其中N为大于等于2且小于等于M的整数；

融合所述N个处理阶段输出的数据；

将融合后的数据进行池化处理以获得图像掩膜。

可选的，所述将待处理的图像数据输入包含M个处理阶段的数据处理过程进行处理具体为将待处理的图像数据输入骨干网络进行处理，所述骨干网络包括第一处理过程和第二处理过程，所述处理过程包括M个处理阶段。

可选的，所述N个处理阶段为第二数据处理过程中的处理阶段。

可选的，所述融合包括通道级的相加运算和/或通道级的叠加运算。

可选的，所述进行池化处理以获得图像掩膜包括基于待识别物品的中心点信息以及识别框的参数计算图像掩膜。

可选的，所述识别框参数包括识别框的宽度信息以及识别框的高度信息。

可选的，所述中心点信息包括真实(Ground Truth)中心点。

可选的，所述处理阶段包括一个或多个处理分支，所述将待处理的图像数据输入骨干网络进行处理还包括将所述多个处理分支输出的数据进行融合。

一种图像掩膜生成装置，包括：

图像数据接收模块，用于接收待处理的图像数据；

图像数据处理模块，用于将待处理的图像数据输入包含M个处理阶段的数据处理过程进行处理，其中M为大于等于2的整数；

数据获取模块，用于获取M个处理阶段中的N个处理阶段输出的数据，其中N为大于等于2且小于等于M的整数；

融合模块，用于融合所述N个处理阶段输出的数据；

掩膜生成模块，用于将融合后的数据进行池化处理以获得图像掩膜。

可选的，所述图像数据处理模块具体用于将待处理的图像数据输入骨干网络进行处理，所述骨干网络包括第一处理过程和第二处理过程，所述处理过程包括M个处理阶段。

可选的，所述掩膜生成模块还用于基于待识别物品的中心点信息以及识别框参数计算图像掩膜。

可选的，所述中心点信息包括真实(Ground Truth)中心点。

一种图像掩膜生成方法，包括：

获取包含掩膜特征的图像数据，其中，所述掩膜特征为包括待识别物品的图像的掩膜特征；

获取所述图像数据上的待识别物品的中心点信息以及识别框参数；

基于所述中心点信息以及识别框信息从图像数据中提取所述待识别物品的掩膜特征；

基于从图像数据中提取的所述待识别物品的掩膜特征生成物品的图像掩膜。

可选的，所述中心点信息包括真实(Ground Truth)中心点。

可选的，所述包含掩膜特征的图像数据包括从骨干网络中获取并经融合后获得的特征图像数据。

可选的，所述骨干网络包括第一数据处理过程和第二数据处理过程，所述数据处理过程包括一个或多个处理阶段，所述数据阶段包括一个或多个处理分支。

一种图像掩膜生成装置，包括：

图像数据获取模块，用于获取包含掩膜特征的图像数据，其中，所述掩膜特征为包括待识别物品的图像的掩膜特征；

信息获取模块，用于获取所述图像数据上的待识别物品的中心点信息以及识别框参数；

掩膜特征获取模块，用于基于所述中心点信息以及识别框信息从图像数据中提取所述待识别物品的掩膜特征；

掩膜生成模块，用于基于从图像数据中提取的所述待识别物品的掩膜特征生成物品的图像掩膜。

可选的，所述中心点信息包括真实(Ground Truth)中心点。

一种图像识别方法，包括：

获取包含待识别物品组的图像数据；

基于所述图像数据识别所述待识别物品组中的每个物品；

针对所识别的每个物品，在所述图像数据上生成识别框以标记该物品；

其中，所述物品组包括至少两个物品；并且，

在所述图像数据上生成的多个所述识别框至少部分重叠。

可选的，所述识别框重叠的程度使用重叠度来表示，两个识别框的重叠度＝两个识别框相交的区域的面积/两个识别框合并后形成的区域的面积。

可选的，所述至少部分重叠包括重叠度大于60％。

可选的，所述生成识别框包括基于物品的关键点信息以及识别框参数生成识别框。

可选的，所述识别框参数包括识别框的长度信息和宽度信息。

可选的，所述物品的关键点包括物品的中心点。

可选的，所述基于所述图像数据识别所述待识别物品组中的每个物品包括将所述图像数据输入骨干网络进行处理以识别物品组中的每个物品。

一种图像识别装置，包括：

图像数据获取模块，用于获取包含待识别物品组的图像数据；

图像识别模块，用于基于所述图像数据识别所述待识别物品组中的每个物品；

识别框生成模块，用于针对所识别的每个物品，在所述图像数据上生成识别框以标记该物品；

其中，所述物品组包括至少两个物品；并且，

在所述图像数据上生成的多个所述识别框至少部分重叠。

可选的，所述至少部分重叠包括重叠度大于60％。

可选的，所述识别框生成模块还用于基于物品的关键点信息以及识别框参数生成识别框。

可选的，所述物品的关键点包括物品的中心点。

可选的，所述图像识别模块还用于将所述图像数据输入骨干网络进行处理以识别物品组中的每个物品。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

应当理解，本申请的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请的各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

一种图像识别方法，其特征在于，包括：

获取包含待识别物品的图像数据；

对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数；

针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框；并且

针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。
根据权利要求1所述的图像识别方法，其特征在于：并行执行所述生成识别框的操作以及所述生成所识别的物品的掩膜的操作。
根据权利要求1所述的图像识别方法，其特征在于：所述识别框参数包括识别框的宽度以及识别框的高度。
根据权利要求1所述的图像识别方法，其特征在于：所述关键点包括识物品的中心点。
根据权利要求1-4任一项所述的图像识别方法，其特征在于：所述对所述图像数据进行处理包括将所述图像数据输入骨干网络进行处理。
根据权利要求5所述的图像识别方法，其特征在于：所述骨干网络包括第一数据处理过程和第二数据处理过程，所述数据处理过程包括一个或多个处理阶段，所述处理阶段包括一个或多个处理分支。
根据权利要求6所述的图像识别方法，其特征在于，还包括：将所述多个处理分支输出的数据进行融合。
根据权利要求6所述的图像识别方法，其特征在于：所述多个处理分支输出的数据具有多分辨率和/或多特征维度。
根据权利要求6所述的图像识别方法，其特征在于，在所述第一处理过程中，在后处理阶段包括比在先处理阶段更多的处理分支；和/或，在所述第二处理过程中，在后处理阶段包括比在先处理阶段更少的处理分支。
一种图像识别装置，其特征在于，包括：

图像数据获取模块，用于获取包含待识别物品的图像数据；

图像数据处理模块，用于对所述图像数据进行处理以识别所述图像数据中的待识别物品，并获取待识别物品的关键点信息以及识别框参数；

识别框生成模块，针对所识别的物品，基于所述关键点信息以及识别框参数在所述图像数据上生成识别框；并且

掩膜生成模块，针对所识别的物品，基于所述关键点信息以及识别框参数生成所识别的物品的掩膜。
根据权利要求10所述的图像识别装置，其特征在于：所述识别框生成模块以及掩膜生成模块并行运行。
根据权利要求10所述的图像识别装置，其特征在于：所述识别框参数包括识别框的宽度以及识别框的高度。
根据权利要求10所述的图像识别装置，其特征在于：所述关键点包括识物品的中心点。
根据权利要求10-13任一项所述的图像识别装置，其特征在于：图像数据处理模块用于将所述图像数据输入骨干网络进行处理。
根据权利要求14所述的图像识别装置，其特征在于：所述骨干网络包括第一数据处理过程和第二数据处理过程，所述数据处理过程包括一个或多个处理阶段，所述处理阶段包括一个或多个处理分支。
根据权利要求15所述的图像识别装置，其特征在于，还包括：将所述多个处理分支输出的数据进行融合。
根据权利要求15所述的图像识别装置，其特征在于：所述多个处理分支输出的数据具有多分辨率和/或多特征维度。
根据权利要求15所述的图像识别装置，其特征在于，在所述第一处理过程中，在后处理阶段包括比在先处理阶段更多的处理分支；和/或，在所述第二处理过程中，在后处理阶段包括比在先处理阶段更少的处理分支。
一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的图像识别方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的图像识别方法。