WO2021135424A1

WO2021135424A1 - 图像处理方法、装置、存储介质和电子设备

Info

Publication number: WO2021135424A1
Application number: PCT/CN2020/116889
Authority: WO
Inventors: 廖越; 王飞; 陈彦杰; 钱晨; 刘偲
Original assignee: 上海商汤临港智能科技有限公司
Priority date: 2019-12-30
Filing date: 2020-09-22
Publication date: 2021-07-08
Also published as: JP2022520498A; CN111104925B; KR102432204B1; CN111104925A; JP7105383B2; KR20210136138A

Abstract

本公开实施例公开了一种图像处理方法、装置、存储介质和电子设备。所述方法包括：提取第一图像的特征数据；基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；基于所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。

Description

图像处理方法、装置、存储介质和电子设备

相关申请的交叉引用

本公开基于申请号为201911404450.6、申请日为2019年12月30日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本公开。

技术领域

本公开涉及图像处理技术，具体涉及一种图像处理方法、装置、存储介质和电子设备。

背景技术

针对图片中的人和物体之间的交互动作关系检测，通常先通过检测器检测出图片中的人和物体，选取置信度高于一定阈值的人和物体，并将选取出的人和物体进行两两配对，形成人-物体对；再通过关系分类网络对每个人-物体对进行分类，输出动作关系类别。

上述处理过程中，第一方面，只是考虑到检测的置信度，并未考虑人和物体产生交互动作的可能性，这样会丢失具有真正交互动作关系的人或物体，也即丢失了具有真正交互动作关系的人-物体对，并且会产生大量的不具有真正交互动作关系的人-物体对；第二方面，通常情况下，一张图片中只有很少的人和物体具有交互动作关系，若图片中检测出M个人，N个物体，则采用上述处理方式，会生成M×N个人-物体对，则关系分类网络需要针对每个人-物体对确定其对应的动作关系类别，产生较多不必要的处理以及消耗。

发明内容

本公开实施例提供一种图像处理方法、装置、存储介质和电子设备。

本公开实施例提供了一种图像处理方法，所述方法包括：提取第一图像的特征数据；基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；基于所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点，包括：基于所述特征数据确定所述第一图像中的每个目标的中心点，以及每个目标的置信度；基于所述特征数据确定所述第一图像中的交互关键点，以及每个交互关键点对应各个交互动作类别的置信度；所述基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系，包括：基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述基于所述特征数据确定所述第一图像中的每个目标的中心点以及每个目标的置信度，包括：基于所述特征数据确定所述第一图像中的每个目标的中心点及其类别，以及每个目标属于各个类别的置信度；所述基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：针对一个交互关键点，将所述交互关键点对应一个预设交互动作类别的置信度与所述交互关键点对应的两个目标的置信度相乘，得到第一置信度，所述第一置信度为所述交互关键点对应的两个目标之间的交互关系属于该预设交互动作类别的置信度；响应于所述第一置信度大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系属于所述预设交互动作类别；响应于所述第一置信度不大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系不属于所述预设交互动作类别。

在本公开的一些可选实施例中，所述方法还包括：在确定一个交互关键点对应的两个目标之间的交互关系不属于各个预设交互动作类别之后，确定所述交互关键点对应的两个目标之间不存在交互关系。

在本公开的一些可选实施例中，所述根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标，包括：针对一个预测中心点，确定各目标的中心点与所述预测中心点之间的距离；将中心点与所述该预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。

在本公开的一些可选实施例中，基于所述特征数据确定所述第一图像中的每个目标的中心点，包括：将所述特征数据下采样得到所述第一图像的热力图；根据所述热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度；在基于所述特征数据确定所述第一图像中的每个目标的中心点之后，所述方法还包括：根据所述第一图像中具有交互关系的目标的中心点的位置偏移对所述第一图像中具有交互关系的目标的中心点的位置进行修正，得到所述第一图像中具有交互关系的目标的中心点的修正后的位置；根据所述第一图像中具有交互关系的目标的中心点的修正后的位置及其检测框的高度和宽度，确定所述第一图像中具有交互关系的目标的检测框。

在本公开的一些可选实施例中，所述图像处理方法由神经网络执行，所述神经网络采用样本图像训练得到，所述样本图像中标注了存在交互关系的目标的检测框，所述样本图像中存在交互关系的目标的标注的中心点以及标注的交互关键点根据标注的检测框确定，标注的偏移量根据存在交互关系的目标的标注的中心点以及标注的交互关键点确定。

在本公开的一些可选实施例中，所述神经网络采用样本图像训练得到，包括：利用所述神经网络提取所述样本图像的特征数据；利用所述神经网络对所述样本图像的特征数据下采样得到所述样本图像的热力图；利用所述神经网络基于所述样本图像的热力图预测所述样本图像中各点的位置偏移、所述样本图像中的各个交互关键点、所述样本图像中的每个目标的中心点、所述样本图像中的每个目标的检测框的高度和宽度；利用所述神经网络基于所述样本图像的特征数据预测至少两个偏移量；基于所述样本图像中的各个目标的中心点、所述样本图像中的所述交互关键点以及所述样本图像中的至少两个偏移量预测所述样本图像中的目标之间的交互关系；根据预测的位置偏移、所述样本图像中存在交互关系的目标的预测的中心点及预测的检测框的高度和宽度、所述样本图像中存在交互关系的目标对应的预测的交互关键点及其对应的预测的偏移量，以及标注的位置偏移以及所述样本图像中标注的存在交互关系的目标的检测框，调整所述神经网络的网络参数值。

本公开实施例还提供了一种图像处理装置，所述装置包括：提取单元、第一确定单元、第二确定单元和第三确定单元；其中，

所述提取单元，配置为提取第一图像的特征数据；

所述第一确定单元，配置为基于所述提取单元提取的所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；

所述第二确定单元，配置为基于所述提取单元提取的所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；

所述第三确定单元，配置为基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述第一确定单元，配置为基于所述特征数据确定所述第一图像中的每个目标的中心点，以及每个目标的置信度；基于所述特征数据确定所述第一图像中的交互关键点，以及每个交互关键点对应各个交互动作类别的置信度；

所述第三确定单元，配置为基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述第一确定单元，配置为基于所述特征数据确定所述第一图像中的每个目标的中心点及其类别，以及每个目标属于各个预设类别的置信度；

所述第三确定单元，配置为基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个预设类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述第三确定单元，配置为针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一些可选实施例中，所述第三确定单元，配置为针对一个交互关键点，将所述交互关键点对应一个预设交互动作类别的置信度与所述交互关键点对应的两个目标的置信度相乘，得到第一置信度，所述第一置信度为所述交互关键点对应的两个目标之间的交互关系属于该交互动作类别的置信度；响应于所述第一置信度大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系属于所述预设交互动作类别；响应于所述第一置信度不大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系不属于所述预设交互动作类别。

在本公开的一些可选实施例中，所述第三确定单元，还配置为在确定一个交互关键点对应的两个目标之间的交互关系不属于各个预设交互动作类别之后，确定所述交互关键点对应的两个目标之间不存在交互关系。

在本公开的一些可选实施例中，所述第三确定单元，配置为针对一个预测中心点，确定各目标的中心点与所述预测中心点之间的距离；将中心点与所述该预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。

在本公开的一些可选实施例中，所述第一确定单元，配置为将所述特征数据下采样得到所述第一图像的热力图；根据所述热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度；还配置为在基于所述特征数据确定所述第一图像中的每个目标的中心点之后，根据所述第一图像中具有交互关系的目标的中心点的位置偏移对所述第一图像中具有交互关系的目标的中心点的位置进行修正，得到所述第一图像中具有交互关系的目标的中心点的修正后的位置；根据所述第一图像中具有交互关系的目标的中心点的修正后的位置及其检测框的高度和宽度，确定所述第一图像中具有交互关系的目标的检测框。

在本公开的一些可选实施例中，所述图像处理装置中的各功能单元由神经网络实现，所述神经网络采用样本图像训练得到，所述样本图像中标注了存在交互关系的目标的检测框，所述样本图像中存在交互关系的目标的标注的中心点以及标注的交互关键点根据标注的检测框确定，标注的偏移量根据存在交互关系的目标的标注的中心点以及标注的交互关键点确定。

在本公开的一些可选实施例中，所述装置还包括训练单元，配置为采用样本图像训练得到所述神经网络，具体配置为：利用所述神经网络提取所述样本图像的特征数据；利用所述神经网络对所述样本图像的特征数据下采样得到所述样本图像的热力图；利用所述神经网络基于所述样本图像的热力图预测所述样本图像中各点的位置偏移、所述样本图像中的各个交互关键点、所述样本图像中的每个目标的中心点、所述样本图像中的每个目标的检测框的高度和宽度；利用所述神经网络基于所述样本图像的特征数据预测至少两个偏移量；基于所述样本图像中的各个目标的中心点、所述样本图像中的所述交互关键点以及所述样本图像中的至少两个偏移量预测所述样本图像中的目标之间的交互关系；根据预测的位置偏移、所述样本图像中存在交互关系的目标的预测的中心点及预测的检测框的高度和宽度、所述样本图像中存在交互关系的目标对应的预测的交互关键点及其对应的预测的偏移量，以及标注的位置偏移以及所述样本图像中标注的存在交互关系的目标的检测框，调整所述神经网络的网络参数值。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例所述方法的步骤。

本公开实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本公开实施例所述方法的步骤。

本公开实施例还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现本公开实施例所述方法的步骤。

本公开实施例提供的图像处理方法、装置、存储介质和电子设备，所述方法包括：提取第一图像的特征数据；基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；基于所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。采用本公开实施例的技术方案，通过定义与交互动作相关的交互关键点，以及确定与交互关键点相关的至少两个偏移量，进而通过各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系，无需生成人-物体对，也避免了采用人-物体对进行交互动作检测产生的具有真正交互关系的人-物体对丢失的问题；并且，相比于传统方式中先检测人和物体，然后再将人和物体组队，再基于关系分类网络对每个人-物体对进行分类检测，本实施例大大提升了检测速度，提升了检测效率。

附图说明

图1为本公开实施例的图像处理方法的流程示意图；

图2为本公开实施例的图像处理方法的一种应用示意图；

图3为本公开实施例的图像处理方法的另一种应用示意图；

图4为本公开实施例的图像处理方法中的神经网络的训练方法流程示意图；

图5为本公开实施例的图像处理装置的组成结构示意图一；

图6为本公开实施例的图像处理装置的组成结构示意图二；

图7为本公开实施例的电子设备的硬件组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本公开作进一步详细的说明。

本公开实施例提供了一种图像处理方法。图1为本公开实施例的图像处理方法的流程示意图；如图1所示，所述方法包括：

步骤101：提取第一图像的特征数据；

步骤102：基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；

步骤103：基于所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；

步骤104：基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。

本实施例中，第一图像中可包括多个目标，其中，所述多个目标中各目标之间可能不具有交互关系，或者，所述多个目标中可包括至少一组具有交互关系的目标；其中，所述具有交互关系的目标具体是至少两个目标，示例性的，所述至少两个目标中至少具有一个目标人物，例如，具有交互关系的两个目标为具有交互关系的两个目标人物，或者，具有交互关系的两个目标为具有交互关系的一个目标人物和一个目标物体。可以理解，所述具有交互关系的至少两个目标具体可以是具有交互动作的两个目标；其中，所述具有交互动作的两个目标可以是具有直接交互动作或隐含交互动作的两个目标。作为一种示例，若第一图像中包括的目标人物手中执有一根香烟，则可认为该目标人物与作为目标物体的香烟具有直接动作关系，则本示例中目标人物和目标对象具有直接动作关系。作为另一种示例，若第一图像中包括的目标人物拍球，目标人物做出拍球的动作，球在目标人物的手部的下方半空中，则可认为该目标人物与作为目标物体的球具有隐含动作关系。

本公开实施例提供的图像处理方法在确定图像中的目标是否存在交互关系时，确定目标的中心点和交互关键点的步骤(点检测步骤)可以与确定偏移量的步骤(点匹配步骤)并行，然后根据确当的偏移量以及检测的中心点和交互关键点来最终确定存在交互关系的目标及其交互动作类别，从而提高交互关系检测的效率。

在本公开的一种可选实施例中，针对步骤101，所述提取第一图像的特征数据，包括：通过深度神经网络模型提取所述第一图像的特征数据。示例性的，将第一图像作为输入数据输入至深度神经网络模型中，获得所述第一图像的特征数据。其中，可以理解，深度神经网络模型中可包括多个卷积层，通过各卷积层依次对第一图像进行卷积处理，从而获得第一图像的特征数据。

本实施例中，可通过预先训练获得的第一分支网络执行步骤102，即通过第一分支网络基于所述特征数据确定每个目标的中心点以及各个交互关键点。可以理解，将所述第一图像的特征数据作为输入数据输入至所述第一分支网络中，得到所述第一图像中每个目标的中心点以及各个交互关键点。例如，若第一图像中包括的目标均为目标人物，则通过所述第一分支网络对所述特征数据进行处理，得到每个目标人物的中心点以及各个交互关键点。又例如，若第一图像中包括的目标包括目标人物和目标物体，则通过所述第一分支网络对所述特征数据进行处理，得到目标人物的中心点、目标物体的中心点以及各个交互关键点。

其中，在一些实施例中，第一分支网络在目标的中心点之后，还会回归出目标的检测框的长度和宽度，目标的检测框根据目标的中心点和目标的检测框的长度和宽度确定。如图2所示，第一图像中包括两个目标人物和两个目标物体(两个目标物体为两个球)，为了以示区别，可将目标人物的中心点记为第一中心点，将目标物体的中心点记为第二中心点。

其中，在一些实施例中，交互关键点为一个交互动作中的两个目标的中心点之间的连线上距离该连线的中点在预设范围内的点。作为一种示例，所述交互关键点可以为一个交互动作中的两个目标的中心点之间的连线的中点。如图2所示，一个交互关键点可以为一个交互动作中的目标人物的第一中心点和目标物体的第二中心点之间的连线的中点。

本实施例中，可通过预先训练获得的第二分支网络执行步骤103，即通过第二分支网络基于所述特征数据确定至少两个偏移量；其中，一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量。可以理解，将第一图像的特征数据作为输入数据输入至所述第二分支网络中，得到第一图像中的每个点的至少两个偏移量。

实际应用中，每个点对应的至少两个偏移量可通过偏移量矩阵表示。则可基于步骤102中确定的各交互关键点，确定每个交互关键点对应的至少两个偏移量。在一些实施例中，可根据各交互关键点的坐标，以及每个点对应的偏移量矩阵，确定各交互关键点对应的至少两个偏移量。

参照图2所示，示例性的，一个偏移量表征交互动作中的交互关键点与第一中心点的偏移量，另一个偏移量表征所述交互动作中的交互关键点与第二中心点的偏移量，为了以示区别，将交互动作中的交互关键点与第一中心点的偏移量记为第一偏移量，将所述交互动作中的交互关键点与第二中心点的偏移量记为第二偏移量，则本示例中，第一偏移量表征交互动作中的交互关键点与第一中心点的偏移量，第二偏移量表征交互动作中的交互关键点与第二中心点的偏移量。当然，在其他示例中，也可将两个目标分别记为第一目标和第二目标，则第一偏移量表征交互动作中的交互关键点与第一目标的中心点的偏移量，第二偏移量表征交互动作中的交互关键点与第二目标的中心点的偏移量。

本实施例中，针对步骤104，所述基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系，包括：针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；根据每个交互关键点对应的两个目标确定所述第一图像中的目标之间的交互关系。

本实施例中，通过步骤103确定的至少两个偏移量的作用是为了确定具有交互动作(即交互关系)的至少两个目标。通过步骤102中确定的各目标的中心点以及各交互关键点，但并不知道哪些目标具有交互动作。基于此，本实施例中确定与每个交互关键点相对应的两个偏移量，根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点。

示例性的，以任意交互关键点(这里记为第一交互关键点)为例，则基于第一交互关键点的位置和与该第一交互关键点对应的一个偏移量(例如第一偏移量)可确定第一位置，所述第一位置理论上可作为与第一交互关键点匹配的一个目标的中心点(例如第一中心点)所在位置，这里将所述第一位置记为第一预测中心点；同理，则基于第一交互关键点的位置和与该第一交互关键点对应的另一个偏移量(例如第二偏移量)可确定第二位置，这里将所述第二位置记为第二预测中心点。

进一步地，将中心点与获得的预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。示例性的，第一目标的中心点与上述第一预测中心点之间的距离小于预设距离阈值，第二目标的中心点与上述第二预设中心点之间的距离小于所述预设距离阈值，则可表明，所述第一目标和所述第二目标为上述第一交互关键点对应的两个目标。可以理解，与某预测中心点之间的距离小于预设距离阈值的目标的中心点可能不止一个，也即与一个交互关键点对应的目标可以是两个或两个以上。

本实施例中，可基于各交互关键点对应的各个预设交互动作类别的置信度确定与该交互关键点对应的至少两个目标之间的交互关系。可以理解，在通过第一分支网络对特征数据进行处理得到第一图像中的各个交互关键点时，还可获得每个交互关键点对应的各个预设交互动作类别的置信度，基于所述预设交互动作类别的置信度确定至少两个目标之间的交互关系。

采用本公开实施例的技术方案，通过定义与交互动作相关的交互关键点，以及确定与交互关键点相关的至少两个偏移量，进而通过各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关，无需生成人-物体对，也避免了采用人-物体对进行交互动作检测产生的具有真正交互关系的人-物体对丢失的问题；并且，本实施例可直接获得具有交互关系的目标，相比于传统方式中基于关系分类网络对每个人-物体对进行分类检测，本实施例大大提升了检测速度，提升了检测效率。

下面针对图1所示的图像处理方法的各步骤进行具体说明。

在本公开的一种可选实施例中，针对步骤102，基于所述特征数据确定所述第一图像中的每个目标的中心点，包括：将所述特征数据下采样得到所述第一图像的热力图；根据所述热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度；在基于所述特征数据确定所述第一图像中的每个目标的中心点之后，所述方法还包括：根据所述第一图像中具有交互关系的目标的中心点的位置偏移对所述第一图像中具有交互关系的目标的中心点的位置进行修正，得到所述第一图像中具有交互关系的目标的中心点的修正后的位置；根据所述第一图像中具有交互关系的目标的中心点的修正后的位置及其检测框的高度和宽度，确定所述第一图像中具有交互关系的目标的检测框。

本实施例中，对所述第一图像的特征数据进行下采样处理，所述下采样处理例如可以是对包含有特征数据的特征图进行图像缩小处理，即缩小特征图的尺寸，这导致下采样后得到的热力图中的各点与第一图像中的各点并不是一一对应的关系。例如，第一图像的大小为128x128，第一图像中的目标人物的中心点是(10，10)，但是，由于热力图是下采样得到的，假设下采样4倍为32x32，那么目标人物的中心点映射过来应该是(10/4，10/4)＝(2.5，2.5)，但是由于再热力图中点的坐标是整数，因此，热力图中预测出来的目标人物的中心点是坐标下取整的点，即坐标为(2，2)，也就是说，下采样会导致目标人物的中心点的位置产生一个位置偏移。

因此，可通过第一分支网络对所述特征数据进行处理，具体是先通过对包含有特征数据的特征图进行下采样处理得到热力图(Heatmap)，再根据热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度。可以理解，将特征数据作为第一分支网络的输入数据，在根据特征数据下采样得到热力图后，第一分支网络基于热力图确定出第一图像中各点的位置偏移(4ffset)，第一图像中的各目标的中心点、各目标的检测框的高度和宽度[height，width]以及各目标属于各个类别置信度、第一图像中的各个交互关键点以及各个交互关键点属于各个预设交互动作类别的置信度。

本实施例中，在一些实施例中，在基于所述特征数据确定所述第一图像中的各点的位置偏移之后，可基于具有交互关系的目标的中心点的位置偏移对该中心点的位置进行修正。示例性的，可将得到的目标的中心点与相应的位置偏移进行加和处理，得到修正后的目标的中心点的位置。相应的，根据目标的中心点的修正后的位置以及检测框的高度和宽度，得到该目标的检测框，从而输出具有交互关系的目标的检测框。

示例性的，可参照图2所示，假设图2中的第一中心点即为修正后的位置，贯穿该第一中心点的纵向虚线表明检测框的高度(height)，贯穿该第一中心点的横向虚线表明检测框的宽度(width)

在本公开的一种可选实施例中，针对步骤102，所述基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点，包括：基于所述特征数据确定所述第一图像中的每个目标的中心点，以及每个目标的置信度；基于所述特征数据确定所述第一图像中的交互关键点，以及每个交互关键点对应的各个预设交互动作类别的置信度；

所述基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系，包括：基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应的各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

本实施例中，可基于第一分支网络对特征数据进行处理，示例性的，可通过第一分支网络中的多个卷积层对特征数据进行卷积处理，得到第一图像中的各目标的中心点以及每个目标的置信度，其中，所述目标的置信度可以为所述第一图像中存在所述目标的置信度。相应的，还可通过第一分支网络中的多个卷积层对特征数据进行卷积处理，得到第一图像中的各交互关键点以及每个交互关键点对应的预设交互动作类别的置信度；其中，所述预设交互动作类别可以是预先设置的任意交互动作类别，例如吸烟交互动作、拍球交互动作等等。进一步地，基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

基于此，在本公开的一种可选实施例中，所述基于所述特征数据确定所述第一图像中的每个目标的中心点以及每个目标的置信度，包括：基于所述特征数据确定所述第一图像中的每个目标的中心点及其类别，以及每个目标属于各个类别的置信度；所述基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

本实施例中，可基于第一分支网络对特征数据进行处理，示例性的，可通过第一分支网络中的多个卷积层对特征数据进行卷积处理，得到第一图像中的各目标的中心点及其类别，以及每个目标属于各个类别的置信度；其中，第一图像中的目标所属类别可包括人、车、球类等任意类别，所述目标属于各个类别的置信度所述第一图像中所述目标属于该类别的置信度，也就是第一图像中的某处存在属于某一类别的目标的置信度。则本实施例中，基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；根据每个交互关键点对应的两个目标、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

本实施例中，以任意交互关键点(这里记为第一交互关键点)为例，则基于第一交互关键点的位置和与该第一交互关键点对应的一个偏移量(例如第一偏移量)可确定第一位置，这里将所述第一位置记为第一预测中心点；同理，则基于第一交互关键点的位置和与该第一交互关键点对应的另一个偏移量(例如第二偏移量)可确定第二位置，这里将所述第二位置记为第二预测中心点。

进一步基于各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标，根据每个交互关键点对应的两个目标、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标，包括：针对一个预测中心点，确定各目标的中心点与所述预测中心点之间的距离；将中心点与所述该预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。

本实施例中，将目标的中心点与获得的预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。示例性的，第一目标的中心点与上述第一预测中心点之间的距离小于预设距离阈值，第二目标的中心点与上述第二预设中心点之间的距离小于所述预设距离阈值，则可表明，所述第一目标和所述第二目标为上述第一交互关键点对应的两个目标。可以理解，与某预测中心点之间的距离小于预设距离阈值的目标的中心点可能不止一个，也即与一个交互关键点对应的目标可以是两个或两个以上。进一步基于根据每个交互关键点对应的至少两个目标、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：针对一个交互关键点，将所述交互关键点对应一个预设交互动作类别的置信度与所述交互关键点对应的两个目标属于相应类别的置信度相乘，得到第一置信度，所述第一置信度为所述交互关键点对应的两个目标之间的交互关系属于该交互动作类别的置信度；其中，相应类别是指两个目标属于该类别的时候，两个目标之间的交互属于预设交互动作类别；例如，预设动作类别为排球，那么相应类别是一个目标的类别为人，另一个目标的类别为球；预设动作类别为打电话，那么相应类别是一个目标的类别为人，另一个目标的类别为电话。响应于所述第一置信度大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系属于所述预设交互动作类别；响应于所述第一置信度不大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系不属于所述预设交互动作类别。

在本公开的一种可选实施例中，所述方法还包括：在确定一个交互关键点对应的两个目标之间的交互关系不属于各个预设交互动作类别之后，确定所述交互关键点对应的两个目标之间不存在交互关系。

本实施例中，若一个交互关键点对应至少两个目标，也即确定多个目标之间的交互关系过程中，可先采用上述方案确定多个目标中的两两目标之间的交互关系，确定这两两目标之间的交互关系是否属于对应的交互关键点对应的预设交互动作类别，以此类推。例如与一个交互关键点对应有三个目标，记为目标1、目标2和目标3，则可采用上述方案分别确定目标1和目标2、目标2和目标3以及目标3和目标1之间的交互关系。

图3为本公开实施例的图像处理方法的另一种应用示意图；如图3所示，神经网络可包括特征提取网络、第一分支网络和第二分支网络；其中，特征提取网络用于对输入图像进行特征提取，得到特征数据。第一分支网络用于对特征数据进行下采样得到热力图，再根据热力图确定输入图像中的各目标的中心点以及各交互关键点，以及得到各点的位置偏移(offset)和每个目标的检测框的高度和宽度[高度，宽度]，各目标所属类别的置信度以及各个交互关键点对应各个预设交互动作类别的置信度。第二分支网络用于对特征数据进行处理得到输入图像中的每个点的至少两个偏移量，一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量。

在一种实施方式中，通过第一分支网络对包含有特征数据的特征图进行下采样处理，得到热力图。以本示例中输入图像中的目标包括目标人物和目标物体为例，为了以示区别，将目标人物的中心点记为第一中心点，将目标物体的中心点记为第二中心点，则可得到分别包含有第一中心点的第一热力图、包含有第二中心点的第二热力图和包含有各交互关键点的第三热力图。也就是说，第一分支网络的输出数据可以包括上述第一热力图、第二热力图、第三热力图以及输入图像中各点的位置偏移以及目标人物和目标物体的检测框的高度和宽度。

具体的，基于第一分支网络还可获得每个目标的中心点及其类别以及每个目标属于各个类别的置信度，以及每个交互关键点对应的各个预设交互动作类别的置信度。

在一种实施方式中，通过第二分支网络对包含有特征数据的特征图进行处理，得到每个交互关键点对应的两个偏移量，为了以示区别，将交互关键点与交互动作中的目标人物的第一中心点之间的偏移量记为第一偏移量，将交互关键点与交互动作中的目标物体的第二中心点之间的偏移量记为第二偏移量。

根据一个交互关键点以及与该交互关键点相对应的第一偏移量和第二偏移量，确定与该交互关键点对应的两个预测中心点，分别记为第一预测中心点和第二预测中心点；针对第一预测中心点，分别确定各第一中心点与第一预测中心点之间的距离，确定与所述该第一预测中心点之间的距离小于预设距离阈值的第一中心点；相应的，针对第二预测中心点，分别确定各第二中心点与第二预测中心点之间的距离，确定与该第二预测中心点之间的距离小于预设距离阈值的第二中心点。

针对图3中的两个交互关键点，分别将每个交互关键点对应的预设交互动作类别的置信度与所述交互关键点对应的目标人物的置信度和目标物体的置信度相乘，得到第一置信度；在第一置信度大于置信度阈值的情况下，确定该交互关键点对应的目标人物和目标物体之间的交互关系属于所述交互关键点对应的预设交互动作类别；在第一置信度不大于置信度阈值的情况下，确定该交互关键点对应的目标人物和目标物体之间的交互关系不属于所述交互关键点对应的预设交互动作类别。

本示例中，通过第一分支网络输出的输入图像中的各点的位置偏移对目标人物的第一中心点和目标物体的第二中心点的位置进行修正，得到具有交互关系的目标人物的第一中心点的修正后的位置，以及目标物体的第二中心点的修正后的位置，根据输入图像中具有交互关系的目标人物的第一中心点的修正后的位置及其检测框的高度和宽度[高度，宽度]、目标物体的第二中心点的修正后的位置及其检测框的高度和宽度[高度，宽度]，确定所述第一图像中具有交互关系的目标的检测框。神经网络的输出结果为目标人物的第一中心点的修正后的位置和对应的检测框、目标物体的第二中心点的修正后的位置和对应的检测框，以及目标人物和目标物体的交互关系(即交互动作类别)。对于输入图像中不存在交互关系的目标则不会输出检测框。

在本公开的一种可选实施例中，本实施例的所述图像处理方法由神经网络执行，所述神经网络采用样本图像训练得到，所述样本图像中标注了存在交互关系的目标的检测框，所述样本图像中存在交互关系的目标的标注的中心点(即目标检测框的中心)以及标注的交互关键点(存在交互关系的目标的检测框的中心的连线的中点)根据标注的检测框确定，标注的偏移量根据样本图像的大小以及根据样本图像确定的热力图的大小确定。基于此，本公开实施例还提供了一种神经网络的训练方法。图4为本公开实施例的图像处理方法中的神经网络的训练方法流程示意图；如图4所示，所述方法包括：

步骤201：利用所述神经网络提取所述样本图像的特征数据；

步骤202：利用所述神经网络对所述样本图像的特征数据下采样得到所述样本图像的热力图；

步骤203：利用所述神经网络基于所述样本图像的热力图预测所述样本图像中各点的位置偏移、所述样本图像中的各个交互关键点、所述样本图像中的每个目标的中心点、所述样本图像中的每个目标的检测框的高度和宽度；

步骤204：利用所述神经网络基于所述样本图像的特征数据预测至少两个偏移量；

步骤205：基于所述样本图像中的各个目标的中心点、所述样本图像中的所述交互关键点以及所述样本图像中的至少两个偏移量预测所述样本图像中的目标之间的交互关系；

步骤206：根据预测的位置偏移、所述样本图像中存在交互关系的目标的预测的中心点及预测的检测框的高度和宽度、所述样本图像中存在交互关系的目标对应的预测的交互关键点及其对应的预测的偏移量，以及标注的位置偏移以及所述样本图像中标注的存在交互关系的目标的检测框，调整所述神经网络的网络参数值。

本实施例步骤201至步骤205具体可参照前述实施例中所述，这里不再赘述。

本实施例步骤206中，在一些实施例中，针对神经网络中的第一分支网络，可根据预测的样本图像中存在交互关系的目标的预测的中心点及预测的检测框的高度和宽度以及预测的交互关键点、结合标注的存在交互关系的目标的检测框以及标注的位置偏移确定一个损失函数，基于该损失函数对第一分支网络的网络参数进行调整。

在一些实施例中，针对神经网络中的第二分支网络，可根据交互关键点对应的预测的偏移量以及标注的偏移量确定一个损失函数，基于该损失函数对第二分支网络的网络参数进行调整。

在一些实施例中，可基于预测的位置偏移和标注的位置偏移确定一个损失函数，通过该损失函数回归对包含特征数据的特征图进行下采样处理导致的位置偏差，尽量减少下采样带来的损失，可以使获得的各点的位置偏移(offset)更为准确。基于此，通过该损失函数对第一分支网络的网络参数进行调整。

本实施例中可采用上述各实施例中的参数调整方式对神经网络的网络参数值进行调整。

本公开实施例还提供了一种图像处理装置。图5为本公开实施例的图像处理装置的组成结构示意图一；如图5所示，所述装置包括：提取单元41、第一确定单元42、第二确定单元43和第三确定单元44；其中，

所述提取单元41，配置为提取第一图像的特征数据；

所述第一确定单元42，配置为基于所述提取单元41提取的所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；

所述第二确定单元43，配置为基于所述提取单元41提取的所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；

所述第三确定单元44，配置为基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述第一确定单元42，配置为基于所述特征数据确定所述第一图像中的每个目标的中心点，以及每个目标的置信度；基于所述特征数据确定所述第一图像中的交互关键点，以及每个交互关键点对应各个交互动作类别的置信度；

所述第三确定单元44，配置为基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述第一确定单元42，配置为基于所述特征数据确定所述第一图像中的每个目标的中心点及其类别，以及每个目标属于各个预设类别的置信度；

所述第三确定单元44，配置为基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个预设类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述第三确定单元44，配置为针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。

在本公开的一种可选实施例中，所述第三确定单元44，配置为针对一个交互关键点，将所述交互关键点对应一个预设交互动作类别的置信度与所述交互关键点对应的两个目标的置信度相乘，得到第一置信度，所述第一置信度为所述交互关键点对应的两个目标之间的交互关系属于该交互动作类别的置信度；响应于所述第一置信度大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系属于所述预设交互动作类别；响应于所述第一置信度不大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系不属于所述预设交互动作类别。

在本公开的一种可选实施例中，所述第三确定单元44，还配置为在确定一个交互关键点对应的两个目标之间的交互关系不属于各个预设交互动作类别之后，确定所述交互关键点对应的两个目标之间不存在交互关系。

在本公开的一种可选实施例中，所述第三确定单元44，配置为针对一个预测中心点，确定各目标的中心点与所述预测中心点之间的距离；将中心点与所述该预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。

在本公开的一种可选实施例中，所述第一确定单元42，配置为将所述特征数据下采样得到所述第一图像的热力图；根据所述热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度；还配置为在基于所述特征数据确定所述第一图像中的每个目标的中心点之后，根据所述第一图像中具有交互关系的目标的中心点的位置偏移对所述第一图像中具有交互关系的目标的中心点的位置进行修正，得到所述第一图像中具有交互关系的目标的中心点的修正后的位置；根据所述第一图像中具有交互关系的目标的中心点的修正后的位置及其检测框的高度和宽度，确定所述第一图像中具有交互关系的目标的检测框。

在本公开的一种可选实施例中，所述图像处理装置中的各功能单元由神经网络实现，所述神经网络采用样本图像训练得到，所述样本图像中标注了存在交互关系的目标的检测框，所述样本图像中存在交互关系的目标的标注的中心点以及标注的交互关键点根据标注的检测框确定，标注的偏移量根据存在交互关系的目标的标注的中心点以及标注的交互关键点确定。

在本公开的一种可选实施例中，如图6所示，所述装置还包括训练单元45，配置为采用样本图像训练得到所述神经网络，具体配置为：利用所述神经网络提取所述样本图像的特征数据；利用所述神经网络对所述样本图像的特征数据下采样得到所述样本图像的热力图；利用所述神经网络基于所述样本图像的热力图预测所述样本图像中各点的位置偏移、所述样本图像中的各个交互关键点、所述样本图像中的每个目标的中心点、所述样本图像中的每个目标的检测框的高度和宽度；利用所述神经网络基于所述样本图像的特征数据预测至少两个偏移量；基于所述样本图像中的各个目标的中心点、所述样本图像中的所述交互关键点以及所述样本图像中的至少两个偏移量预测所述样本图像中的目标之间的交互关系；根据预测的位置偏移、所述样本图像中存在交互关系的目标的预测的中心点及预测的检测框的高度和宽度、所述样本图像中存在交互关系的目标对应的预测的交互关键点及其对应的预测的偏移量，以及标注的位置偏移以及所述样本图像中标注的存在交互关系的目标的检测框，调整所述神经网络的网络参数值。

本公开实施例中，所述装置中的提取单元41、第一确定单元42、第二确定单元43和第三确定单元44和训练单元45，在实际应用中均可由所述装置中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本公开实施例还提供了一种电子设备。图7为本公开实施例的电子设备的硬件组成结构示意图，如图7所示，所述电子设备包括存储器52、处理器51及存储在存储器52上并可在处理器51上运行的计算机程序，所述处理器51执行所述程序时实现本公开实施例述图像处理方法的步骤。

可选地，电子设备中的各个组件通过总线系统53耦合在一起。可理解，总线系统53用于实现这些组件之间的连接通信。总线系统53除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统53。

可以理解，存储器52可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本公开实施例描述的存储器52旨在包括但不限于这些和任意其它适合类型的存储器。

上述本公开实施例揭示的方法可以应用于处理器51中，或者由处理器51实现。处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器51可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

在示例性实施例中，本公开实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器52，上述计算机程序可由图像处理装置的处理器51执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

本公开实施例提供的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例所述的图像处理方法的步骤。

本公开实施例提供的计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现本公开实施例所述的图像处理方法的步骤。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种图像处理方法，所述方法包括：

提取第一图像的特征数据；

基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；

基于所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；

基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。
根据权利要求1所述的方法，其中，所述基于所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点，包括：

基于所述特征数据确定所述第一图像中的每个目标的中心点，以及每个目标的置信度；

基于所述特征数据确定所述第一图像中的交互关键点，以及每个交互关键点对应的各个预设交互动作类别的置信度；

所述基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系，包括：

基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。
根据权利要求2所述的方法，其中，所述基于所述特征数据确定所述第一图像中的每个目标的中心点以及每个目标的置信度，包括：

基于所述特征数据确定所述第一图像中的每个目标的中心点及其类别，以及每个目标属于各个类别的置信度；

所述基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：

基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。
根据权利要求2或3所述的方法，其中，所述基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：

针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；

根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；

根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；

根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。
根据权利要求4所述的方法，其中，所述根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系，包括：

针对一个交互关键点，将所述交互关键点对应一个预设交互动作类别的置信度与所述交互关键点对应的两个目标的置信度相乘，得到第一置信度，所述第一置信度为所述交互关键点对应的两个目标之间的交互关系属于该预设交互动作类别的置信度；

响应于所述第一置信度大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系属于所述预设交互动作类别；

响应于所述第一置信度不大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系不属于所述预设交互动作类别。
根据权利要求5所述的方法，其中，所述方法还包括：

在确定一个交互关键点对应的两个目标之间的交互关系不属于各个预设交互动作类别之后，确定所述交互关键点对应的两个目标之间不存在交互关系。
根据权利要求4至6任一项所述的方法，其中，所述根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标，包括：

针对一个预测中心点，确定各目标的中心点与所述预测中心点之间的距离；

将中心点与所述该预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。
根据权利要求1至7任一项所述的方法，其中，基于所述特征数据确定所述第一图像中的每个目标的中心点，包括：

将所述特征数据下采样得到所述第一图像的热力图；

根据所述热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度；

在基于所述特征数据确定所述第一图像中的每个目标的中心点之后，所述方法还包括：

根据所述第一图像中具有交互关系的目标的中心点的位置偏移对所述第一图像中具有交互关系的目标的中心点的位置进行修正，得到所述第一图像中具有交互关系的目标的中心点的修正后的位置；

根据所述第一图像中具有交互关系的目标的中心点的修正后的位置及其检测框的高度和宽度，确定所述第一图像中具有交互关系的目标的检测框。
根据权利要求8所述的方法，其中，所述图像处理方法由神经网络执行，所述神经网络采用样本图像训练得到，所述样本图像中标注了存在交互关系的目标的检测框，所述样本图像中存在交互关系的目标的标注的中心点以及标注的交互关键点根据标注的检测框确定，标注的偏移量根据存在交互关系的目标的标注的中心点以及标注的交互关键点确定。
根据权利要求9所述的方法，其中，所述神经网络采用样本图像训练得到，包括：

利用所述神经网络提取所述样本图像的特征数据；

利用所述神经网络对所述样本图像的特征数据下采样得到所述样本图像的热力图；

利用所述神经网络基于所述样本图像的热力图预测所述样本图像中各点的位置偏移、所述样本图像中的各个交互关键点、所述样本图像中的每个目标的中心点、所述样本图像中的每个目标的检测框的高度和宽度；

利用所述神经网络基于所述样本图像的特征数据预测至少两个偏移量；

基于所述样本图像中的各个目标的中心点、所述样本图像中的所述交互关键点以及所述样本图像中的至少两个偏移量预测所述样本图像中的目标之间的交互关系；

根据预测的位置偏移、所述样本图像中存在交互关系的目标的预测的中心点及预测的检测框的高度和宽度、所述样本图像中存在交互关系的目标对应的预测的交互关键点及其对应的预测的偏移量，以及标注的位置偏移以及所述样本图像中标注的存在交互关系的目标的检测框，调整所述神经网络的网络参数值。
一种图像处理装置，所述装置包括：提取单元、第一确定单元、第二确定单元和第三确定单元；其中，

所述提取单元，配置为提取第一图像的特征数据；

所述第一确定单元，配置为基于所述提取单元提取的所述特征数据确定所述第一图像中的各个交互关键点以及每个目标的中心点；一个交互关键点为连线上距离所述连线的中点预设范围内的一个点，所述连线为一个交互动作中的两个目标的中心点之间的连线；

所述第二确定单元，配置为基于所述提取单元提取的所述特征数据确定至少两个偏移量；一个偏移量表征一个交互动作中的交互关键点与该交互动作中的一个目标的中心点的偏移量；

所述第三确定单元，配置为基于各个目标的中心点、所述交互关键点以及所述至少两个偏移量确定所述第一图像中的目标之间的交互关系。
根据权利要求11所述的装置，其中，所述第一确定单元，配置为基于所述特征数据确定所述第一图像中的每个目标的中心点，以及每个目标的置信度；基于所述特征数据确定所述第一图像中的交互关键点，以及每个交互关键点对应各个交互动作类别的置信度；

所述第三确定单元，配置为基于各个目标的中心点、所述交互关键点、所述至少两个偏移量、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。
根据权利要求12所述的装置，其中，所述第一确定单元，配置为基于所述特征数据确定所述第一图像中的每个目标的中心点及其类别，以及每个目标属于各个预设类别的置信度；

所述第三确定单元，配置为基于各个目标的中心点及其类别、所述交互关键点、所述至少两个偏移量、每个目标属于各个预设类别的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。
根据权利要求12或13所述的装置，其中，所述第三确定单元，配置为针对一个交互关键点，确定与所述交互关键点相对应的两个偏移量；根据所述交互关键点以及与所述交互关键点相对应的两个偏移量，确定与该交互关键点对应的两个预测中心点；根据各目标的中心点以及与各个交互关键点对应的两个预测中心点，确定每个交互关键点对应的两个目标；根据每个交互关键点对应的两个目标、每个目标的置信度以及每个交互关键点对应各个预设交互动作类别的置信度，确定所述第一图像中的目标之间的交互关系。
根据权利要求14所述的装置，其中，所述第三确定单元，配置为针对一个交互关键点，将所述交互关键点对应一个预设交互动作类别的置信度与所述交互关键点对应的两个目标的置信度相乘，得到第一置信度，所述第一置信度为所述交互关键点对应的两个目标之间的交互关系属于该交互动作类别的置信度；响应于所述第一置信度大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系属于所述预设交互动作类别；响应于所述第一置信度不大于置信度阈值，确定所述交互关键点对应的两个目标之间的交互关系不属于所述预设交互动作类别。
根据权利要求15所述的装置，其中，所述第三确定单元，还配置为在确定一个交互关键点对应的两个目标之间的交互关系不属于各个预设交互动作类别之后，确定所述交互关键点对应的两个目标之间不存在交互关系。
根据权利要求14至16任一项所述的装置，其中，所述第三确定单元，配置为针对一个预测中心点，确定各目标的中心点与所述预测中心点之间的距离；将中心点与所述该预测中心点之间的距离小于预设距离阈值的目标作为该预测中心点对应的交互关键点所对应的目标。
根据权利要求11至17任一项所述的装置，其中，所述第一确定单元，配置为将所述特征数据下采样得到所述第一图像的热力图；根据所述热力图确定所述第一图像中各点的位置偏移、所述第一图像中的每个目标的中心点以及每个目标的检测框的高度和宽度；还配置为在基于所述特征数据确定所述第一图像中的每个目标的中心点之后，根据所述第一图像中具有交互关系的目标的中心点的位置偏移对所述第一图像中具有交互关系的目标的中心点的位置进行修正，得到所述第一图像中具有交互关系的目标的中心点的修正后的位置；根据所述第一图像中具有交互关系的目标的中心点的修正后的位置及其检测框的高度和宽度，确定所述第一图像中具有交互关系的目标的检测框。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至10任一项所述方法的步骤。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求1至10中任意一项所述的方法。