WO2021047232A1

WO2021047232A1 - 交互行为识别方法、装置、计算机设备和存储介质

Info

Publication number: WO2021047232A1
Application number: PCT/CN2020/096994
Authority: WO
Inventors: 庄喜阳; 余代伟; 孙皓; 杨现
Original assignee: 苏宁易购集团股份有限公司; 苏宁云计算有限公司
Priority date: 2019-09-11
Filing date: 2020-06-19
Publication date: 2021-03-18
Also published as: CN110674712A; CA3154025A1

Abstract

本申请涉及一种交互行为识别方法、装置、计算机设备和存储介质。该方法包括：获取待检测图像；通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，检测模型用于进行人体姿态检测；根据人体姿态信息，对人体姿态进行跟踪，得到人体运动轨迹信息；根据手部位置信息，对手部位置进行目标跟踪，获取手部区域图像；通过预设的分类识别模型对手部区域图像进行物品识别，得到物品识别结果，分类识别模型用于进行物品识别；根据人体运动轨迹信息和物品识别结果，得到第一交互行为识别结果。本方法能够提高交互行为的识别精度，并具有更好的可迁移性更好。

Description

交互行为识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及一种交互行为识别方法、装置、计算机设备和存储介质。

背景技术

随着科技发展，无人售货技术开始日益被各大零售商推崇，该项技术通过采用传感器、图像分析、计算机视觉和等多种智能识别技术实现无人结算。其中，运用图像识别技术感知人与货架之间的相对位置和货架上商品的移动，进行人货交互行为识别，是保证顾客正常结算消费的重要的前提。

然而，现有的人货交互行为识别方法通常使用的是模版和规则匹配，而模版的定义和规则的制定，需要耗费大量的人力劳动，并且往往只适用于常用人体姿态的识别，识别准确度较差，而且可移植性很弱，只能应用于特定场景的人货交互行为。

发明内容

基于此，有必要针对上述技术问题，提供一种识别精度更高、可迁移性更好的交互行为识别方法、装置、计算机设备和存储介质。

一种交互行为识别方法，所述方法包括：

获取待检测图像；

通过预设的检测模型对所述待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，所述检测模型用于进行人体姿态检测；

根据所述人体姿态信息，对所述人体姿态进行跟踪，得到人体运动轨迹信息；根据所述手部位置信息，对所述手部位置进行目标跟踪，获取手部区域图像；

通过预设的分类识别模型对所述手部区域图像进行物品识别，得到物品识别结果，所述分类识别模型用于进行物品识别；

根据所述人体运动轨迹信息和所述物品识别结果，得到第一交互行为识别结果。

在其中一个实施例中，所述通过预设的检测模型对所述待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，包括：

对所述待检测图像进行预设处理，得到所述待检测图像中的人体图像；

通过预设的检测模型对所述人体图像进行人体姿态检测，得到所述人体姿态信息和所述手部位置信息。

在其中一个实施例中，所述方法还包括：

根据所述待检测图像，获取人体位置信息；

根据所述人体运动轨迹信息、所述物品识别结果、所述人体位置信息及预设的货架信息，得到第二交互行为识别结果，所述第二交互行为识别结果为人货交互行为识别结果。

在其中一个实施例中，所述获取待检测图像，包括：

获取图像采集装置在预设的第一拍摄视角采集的所述待检测图像；

优选地，所述预设的第一拍摄视角为垂直于地面的俯拍视角，所述待检测图像为RGBD数据。

在其中一个实施例中，所述方法还包括：

获取样本图像数据；

对所述样本图像数据中的人体图像进行关键点标注和手部位置标注，得到第一标注图像数据；

对所述第一标注图像数据进行图像增强处理，得到第一训练数据集；

将所述第一训练数据集输入HRNet模型中进行训练，得到所述检测模型。

在其中一个实施例中，所述方法还包括：

对所述样本图像数据中的手部区域进行标注且对位于所述手部区域内的物品进行物品类别标注，得到第二标注图像数据；

对所述第二标注图像数据进行图像增强处理，得到第二训练数据集；

将所述第二训练数据集输入卷积神经网络中进行训练，得到所述预设的分类识别模型，所述卷积神经网络为yolov3-tiny网络或者vgg16网络。

在其中一个实施例中，所述获取样本图像数据，包括：

获取预设时间范围内图像采集装置在预设的第二拍摄视角采集的图像数据；

从采集到的所述图像数据中筛选得到具有人货交互行为的样本图像数据，优选地，所述预设的第二拍摄视角为垂直于地面的俯拍视角，所述样本图像数据为RGBD数据。

一种交互行为识别装置，所述装置包括：

第一获取模块，用于获取待检测图像；

第一检测模块，用于通过预设的检测模型对所述待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，所述检测模型用于进行人体姿态检测；

跟踪模块，用于根据所述人体姿态信息，对所述人体姿态进行跟踪，得到人体运动轨迹信息，且根据所述手部位置信息，对所述手部位置进行目标跟踪，获取手部区域图像；

第二检测模块，用于通过预设的分类识别模型对所述手部区域图像进行物品识别，得到物品识别结果，所述分类识别模型用于进行物品识别；

第一交互行为识别模块，用于根据所述人体运动轨迹信息和所述物品识别结果，得到第一交互行为识别结果。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待检测图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

上述交互行为识别方法、装置、计算机设备和存储介质，通过检测模型和分类识别模型，对待检测图像进行交互行为识别，在原有模型的基础上只需采集少量数据，即可在不同的门店进行部署，具有较强的移植性，部署成本较低，而且检测模型能够更灵活准确地识别交互行为，提高了识别精度。

附图说明

图1为一个实施例中交互行为识别方法的应用环境图；

图2为一个实施例中交互行为识别方法的流程示意图；

图3为另一个实施例中交互行为识别方法的流程示意图；

图4为一个实施例中检测模型训练步骤的流程示意图；

图5为一个实施例中分类识别模型训练步骤的流程示意图；

图6为一个实施例中交互行为识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的交互行为识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种图像采集装置，进一步具体地，终端102可以采用一个或多个拍摄角度垂直于地面的深度摄像头，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种交互行为识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待检测图像；

其中，待检测图像为待检测的人与物体之间的交互行为图像。

在其中一个实施例中，步骤202包括以下内容：服务器获取图像采集装置在预设的第一拍摄视角采集的待检测图像；优选地，预设的第一拍摄视角为垂直于地面或者接近垂直于地面的俯拍视角，待检测图像为RGBD数据。

也就是说，待检测图像为图像采集装置在俯拍视角场景下采集到的RGBD数据，图像采集装置可以采用设置在货架上方的深度摄像头，第一拍摄视角可以不与地面垂直，在安装环境允许的情况下可以为任意接近垂直的俯拍视角，尽量避免出现拍摄死角。

本技术方案利用俯拍视角的深度摄像头，检测人货交互行为，与传统的与地面呈一定夹角的相机安装方式相比，可以有效地规避了基于斜视视角的人及货架遮挡问题，以及手部跟踪难度加大的问题；在实际应用中，在俯拍视角进行图像采集，可以更好地对不同人交叉取货行为的发生进行识别。

步骤204，通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，该检测模型用于进行人体姿态检测；

其中，该检测模型为人体姿态检测模型，可以用于进行人体骨骼关键点检测。

具体地，服务器将人体图像输入到检测模型；在检测模型中对人体图像进行人体姿态检测；获取检测模型输出的人体姿态信息和手部位置信息；人体姿态检测可以为常用的骨骼线检测方法，则得到的人体姿态信息为人体骨骼关键点图像，手部位置信息为手部在该人体骨骼关键点图像中的具体位置。

步骤206，根据人体姿态信息，对人体姿态进行跟踪，得到人体运动轨迹信息；且根据手部位置信息，对手部位置进行目标跟踪，获取手部区域图像；

具体地，采用目标跟踪算法，例如可以适应运动目标的大小形状改变Camshift算法，分别对人体和手部的运动轨迹进行跟踪，得到人体运动轨迹信息，并在跟踪过程中扩充人手位置，获取手部区域图像。

步骤208，通过预设的分类识别模型对手部区域图像进行物品识别，得到物品识别结果，该分类识别模型用于进行物品识别；

其中，分类识别模型为物品识别模型，可以采用深度学习训练出的物品识别模型。

具体地，将手部区域图像输入到分类识别模型，在分类识别模型中对手部区域图像进行检测，判断手部区域是否拿有物品，当有物品时，分类识别模型对该物品进行识别，输出物品识别结果；另一方面，该分类识别模型还可以对所述手部区域图像进行肤色判断，对刻意用衣服等物品进行遮挡手部的行为及时发出预警，达到减少货损的目的。

步骤210，根据人体运动轨迹信息和该物品识别结果，得到第一交互行为识别结果。

其中，第一交互行为识别结果为人与物品的交互行为识别结果。

具体地，上述人体运动轨迹信息可以用于判断人的行为动作，例如伸手、俯身、弯腰及下蹲等，再根据人体手部是否拿有物品，以及当手部拿有物品时，对该物品进行识别得到的物品识别结果，可以判断出人体在拿起或者放下物品，即分析得到人与物品的交互行为识别结果。

本技术方案提供的交互行为识别方法中，采用了检测模型和分类识别模型对待检测图像进行交互行为识别，经过模型训练和算法调优，能够自动识别人与物品之间的交互行为，识别结果更准确；而且在当前检测模型和分类识别模型的基础上只需采集少量数据，即可在不同的场景进行部署，具有较强的移植性，部署成本较低。

在其中一个实施例中，如图3所示，该方法包括以下步骤：

步骤302，获取待检测图像；

步骤304，对待检测图像进行预设处理，得到待检测图像中的人体图像；

其中，步骤304为从待检测图像中提取后续步骤需要使用的人体图像的过程，而屏蔽掉不需要的背景图像。

具体地，上述预设处理可以采用背景建模，也就是说，对待检测图像进行基于混合高斯的背景建模，得到背景模型；

根据待检测图像和背景模型，得到待检测图像中的人体图像。

步骤306，通过预设的检测模型对人体图像进行人体姿态检测，得到人体姿态信息和手部位置信息；

步骤308，根据人体姿态信息，对人体姿态进行跟踪，得到人体运动轨迹信息，且根据手部位置信息，对手部位置进行目标跟踪，获取手部区域图像；

步骤310，通过预设的分类识别模型对手部区域图像进行物品识别，得到物品识别结果，该分类识别模型用于进行物品识别；

步骤312，根据人体运动轨迹信息和物品识别结果，得到第一交互行为识别结果。

本实施例中，步骤304通过对待检测图像的预处理，屏蔽掉不需要的背景图像，只保留后续要使用的人体图像，从而减少接下来步骤中需要处理的数据量，提高了数据处理效率。

在其中一个实施例中，该方法还包括：

根据待检测图像，获取人体位置信息；

其中，该人体位置信息可以指人体在三维世界坐标系中的位置信息。

具体地，获取待检测图像的在三维世界坐标系中的采集位置信息；根据人体图像在待检测图像中的位置信息，以及采集位置信息，进行三维世界坐标变换，得到人体在三维世界坐标系中的位置信息。

根据人体运动轨迹信息、物品识别结果、人体位置信息及预设的货架信息，得到第二交互行为识别结果，该第二交互行为识别结果为人货交互行为识别结果。

其中，货架信息包括货架位置信息和货架中的物品信息，该货架位置信息为货架所在三维世界坐标位置。

具体地，根据所述人体位置信息和所述预设的货架信息，得到所述人体位置对应的货架信息；通过跟踪人体与货架所在三维世界坐标位置来确认人体与货架的一次交互行为，然后在跟踪过程中通过识别手部区域是否有与货架相关联的商品，进一步确认一次有效人货交互行为的发生，此处有效人货交互行为可以为顾客从货架上完成一次取货行为。

本技术方案通过三维世界坐标变换，换算出顾客所在世界坐标系中的位置，与货架进行关联，可以识别顾客是否发生一次有效的人货交互行为；另一方面，在识别人货交互行为的基础上，结合物品识别结果，在货架存量已知的前提下，通过监控人与货架的有效交互次数，可以间接地实现货架的现有库存量的盘点，缺货时，服务器可以及时提醒店员进行理货，大大减少了人力盘货成本。

在其中一个实施例中，如图4所示，该方法还包括检测模型训练步骤，具体包括以下步骤：

步骤402，获取样本图像数据；

具体地，获取预设时间范围内图像采集装置在预设的第二拍摄视角采集的图像数据，即采集一定数量级的交互行为图像数据；从采集到的该图像数据中筛选得到具有人货交互行为的样本图像数据，该预设的第二拍摄视角可以为垂直于地面或接近垂直于地面的俯拍视角，该样本图像数据为RGBD数据。

步骤404，对该样本图像数据中的人体图像进行关键点标注和手部位置标注，得到第一标注图像数据；

具体地，该样本图像数据需要基本覆盖实际场景中不同的人货交互行为，还可以对样本数据进行增强，增加样本图像数据数量，提高交互行为过程中姿态幅度大的训练样本比例，比如增加俯身，弯腰，下蹲等人货交互行为姿态比例，提高检测模型的检测准确度。具体实施过程中，可以将该第一标注图像数据的一部分作为训练数据集，其余部分作为验证数据集。

步骤406，对第一标注图像数据进行图像增强处理，得到第一训练数据集；具体实施过程中，对第一标注图像数据中的训练数据集进行图像增强处理，得到第一训练数据集。

具体地，所述图像增强处理可以包括以下任意一种或多种图像变换方法，例如：图像归一化、随机裁剪图像、图像缩放、图像翻转、图像仿射变换、图像对比度变化、图像色调变化、图像饱和度变化，以及在图像上添加色调干扰块等。

步骤408，将第一训练数据集输入HRNet模型中进行训练，得到检测模型。具体地，可以采用HRNet模型的不同网络架构来训练人体姿态检测模型，在通过验证数据集对不同网络架构训练得到的各模型进行验证评估，选择效果最优的模型，设定为检测模型。

在其中一个实施例中，如图5所示，该方法还包括分类识别模型训练步骤，具体包括以下步骤：

步骤502，获取样本图像数据；

步骤504，对样本图像数据中的手部区域进行标注且对位于手部区域内的物品进行物品类别标注，得到第二标注图像数据；

步骤506，对第二标注图像数据进行图像增强处理，得到第二训练数据集；

步骤508，将第二训练数据集输入yolov3-tiny网络或者vgg16网络中进行训练，得到预设的分类识别模型。

本技术方案通过视线垂直或接近垂直于地面的深度摄像头采集RGBD数据，再通过人工整理收集具有人货交互行为的RGBD数据作为训练样本，即样本图像数据，利用深度学习训练，用训练模型结果来识别人体的不同姿态，检测模型能够更灵活准确地识别交互行为，而且具有较强的移植性。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

一种交互行为识别装置，如图6所示，提供了一种交互行为识别装置，包括：第一获取模块602、第一检测模块604、跟踪模块606、第二检测模块608和第一交互行为识别模块610，其中：

第一获取模块602，用于获取待检测图像；

第一检测模块604，用于通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，检测模型用于进行人体姿态检测；

跟踪模块606，用于根据人体姿态信息，对人体姿态进行跟踪，得到人体运动轨迹信息，且根据手部位置信息，对手部位置进行目标跟踪，获取手部区域图像；

第二检测模块608，用于通过预设的分类识别模型对手部区域图像进行物品识别，得到物品识别结果，分类识别模型用于进行物品识别；

第一交互行为识别模块610，用于根据人体运动轨迹信息和物品识别结果，得到第一交互行为识别结果。

在其中一个实施例中，第一检测模块604还用于对待检测图像进行预设处理，得到待检测图像中的人体图像；通过预设的检测模型对人体图像进行人体姿态检测，得到人体姿态信息和手部位置信息。

在其中一个实施例中，该装置还包括：

人体位置模块，用于根据待检测图像，获取人体位置信息；

第二交互行为识别模块，用于根据人体运动轨迹信息、物品识别结果、人体位置信息及预设的货架信息，得到第二交互行为识别结果，第二交互行为识别结果为人货交互行为识别结果。

在其中一个实施例中，第一获取模块602还用于获取图像采集装置在预设的第一拍摄视角采集的待检测图像；优选地，预设的第一拍摄视角为垂直于地面的俯拍视角，待检测图像为RGBD数据。

在其中一个实施例中，该装置还包括：

第二获取模块，用于获取样本图像数据；

第一标注模块，用于对样本图像数据中的人体图像进行关键点标注和手部位置标注，得到第一标注图像数据；

第一增强模块，用于对第一标注图像数据进行图像增强处理，得到第一训练数据集；

第一训练模块，用于将第一训练数据集输入HRNet模型中进行训练，得到检测模型。

在其中一个实施例中，该装置还包括：

第二标注模块，用于对样本图像数据中的手部区域进行标注且对位于手部区域内的物品进行物品类别标注，得到第二标注图像数据；

第二增强模块，用于对第二标注图像数据进行图像增强处理，得到第二训练数据集；

第二训练模块，用于将第二训练数据集输入yolov3-tiny网络或者vgg16网络中进行训练，得到预设的分类识别模型。

在其中一个实施例中，第二获取模块还用于获取预设时间范围内图像采集装置在预设的第二拍摄视角采集的图像数据；从采集到的图像数据中筛选得到具有人货交互行为的样本图像数据，优选地，预设的第二拍摄视角为垂直于地面的俯拍视角，样本图像数据为RGBD数据。

关于交互行为识别装置的具体限定可以参见上文中对于交互行为识别方法的限定，在此不再赘述。上述交互行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种交互行为识别方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待检测图像；通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，检测模型用于进行人体姿态检测；根据人体姿态信息，对人体姿态进行跟踪，得到人体运动轨迹信息，且根据手部位置信息，对手部位置进行目标跟踪，获取手部区域图像；通过预设的分类识别模型对手部区域图像进行物品识别，得到物品识别结果，分类识别模型用于进行物品识别；根据人体运动轨迹信息和物品识别结果，得到第一交互行为识别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，包括：对待检测图像进行预设处理，得到待检测图像中的人体图像；通过预设的检测模型对人体图像进行人体姿态检测，得到人体姿态信息和手部位置信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据待检测图像，获取人体位置信息；根据人体运动轨迹信息、物品识别结果、人体位置信息及预设的货架信息，得到第二交互行为识别结果，第二交互行为识别结果为人货交互行为识别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取待检测图像，包括：获取图像采集装置在预设的第一拍摄视角采集的待检测图像；优选地，预设的第一拍摄视角为垂直于地面的俯拍视角，待检测图像为RGBD数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取样本图像数据；对样本图像数据中的人体图像进行关键点标注和手部位置标注，得到第一标注图像数据；对第一标注图像数据进行图像增强处理，得到第一训练数据集；将第一训练数据集输入HRNet模型中进行训练，得到检测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对样本图像数据中的手部区域进行标注且对位于手部区域内的物品进行物品类别标注，得到第二标注图像数据；对第二标注图像数据进行图像增强处理，得到第二训练数据集；将第二训练数据集输入卷积神经网络中进行训练，得到预设的分类识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取样本图像数据，包括：获取预设时间范围内图像采集装置在预设的第二拍摄视角采集的图像数据；从采集到的图像数据中筛选得到具有人货交互行为的样本图像数据，优选地，预设的第二拍摄视角为垂直于地面的俯拍视角，样本图像数据为RGBD数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待检测图像；通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，检测模型用于进行人体姿态检测；根据人体姿态信息，对人体姿态进行跟踪，得到人体运动轨迹信息，且根据手部位置信息，对手部位置进行目标跟踪，获取手部区域图像；通过预设的分类识别模型对手部区域图像进行物品识别，得到物品识别结果，分类识别模型用于进行物品识别；根据人体运动轨迹信息和物品识别结果，得到第一交互行为识别结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过预设的检测模型对待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，包括：对待检测图像进行预设处理，得到待检测图像中的人体图像；通过预设的检测模型对人体图像进行人体姿态检测，得到人体姿态信息和手部位置信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据待检测图像，获取人体位置信息；根据人体运动轨迹信息、物品识别结果、人体位置信息及预设的货架信息，得到第二交互行为识别结果，第二交互行为识别结果为人货交互行为识别结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取待检测图像，包括：获取图像采集装置在预设的第一拍摄视角采集的待检测图像；优选地，预设的第一拍摄视角为垂直于地面的俯拍视角，待检测图像为RGBD数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取样本图像数据；对样本图像数据中的人体图像进行关键点标注和手部位置标注，得到第一标注图像数据；对第一标注图像数据进行图像增强处理，得到第一训练数据集；将第一训练数据集输入HRNet模型中进行训练，得到检测模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对样本图像数据中的手部区域进行标注且对位于手部区域内的物品进行物品类别标注，得到第二标注图像数据；对第二标注图像数据进行图像增强处理，得到第二训练数据集；将第二训练数据集输入卷积神经网络中进行训练，得到预设的分类识别模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取样本图像数据，包括：获取预设时间范围内图像采集装置在预设的第二拍摄视角采集的图像数据；从采集到的图像数据中筛选得到具有人货交互行为的样本图像数据，优选地，预设的第二拍摄视角为垂直于地面的俯拍视角，样本图像数据为RGBD数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种交互行为识别方法，其特征在于，所述方法包括：

获取待检测图像；

通过预设的检测模型对所述待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，所述检测模型用于进行人体姿态检测；

根据所述人体姿态信息，对所述人体姿态进行跟踪，得到人体运动轨迹信息；根据所述手部位置信息，对所述手部位置进行目标跟踪，获取手部区域图像；

通过预设的分类识别模型对所述手部区域图像进行物品识别，得到物品识别结果，所述分类识别模型用于进行物品识别；

根据所述人体运动轨迹信息和所述物品识别结果，得到第一交互行为识别结果。
根据权利要求1所述的方法，其特征在于，所述通过预设的检测模型对所述待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，包括：

对所述待检测图像进行预设处理，得到所述待检测图像中的人体图像；

通过预设的检测模型对所述人体图像进行人体姿态检测，得到所述人体姿态信息和所述手部位置信息。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述待检测图像，获取人体位置信息；

根据所述人体运动轨迹信息、所述物品识别结果、所述人体位置信息及预设的货架信息，得到第二交互行为识别结果，所述第二交互行为识别结果为人货交互行为识别结果。
根据权利要求3所述的方法，其特征在于，所述获取待检测图像，包括：

获取图像采集装置在预设的第一拍摄视角采集的所述待检测图像；

优选地，所述预设的第一拍摄视角为垂直于地面的俯拍视角，所述待检测图像为RGBD数据。
根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

获取样本图像数据；

对所述样本图像数据中的人体图像进行关键点标注和手部位置标注，得到第一标注图像数据；

对所述第一标注图像数据进行图像增强处理，得到第一训练数据集；

将所述第一训练数据集输入HRNet模型中进行训练，得到所述检测模型。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

对所述样本图像数据中的手部区域进行标注且对位于所述手部区域内的物品进行物品类别标注，得到第二标注图像数据；

对所述第二标注图像数据进行图像增强处理，得到第二训练数据集；

将所述第二训练数据集输入卷积神经网络中进行训练，得到所述预设的分类识别模型；优选地，所述卷积神经网络为yolov3-tiny网络或者vgg16网络。
根据权利要求6所述的方法，其特征在于，所述获取样本图像数据，包括：

获取预设时间范围内图像采集装置在预设的第二拍摄视角采集的图像数据；

从采集到的所述图像数据中筛选得到具有人货交互行为的样本图像数据，优选地，所述预设的第二拍摄视角为垂直于地面的俯拍视角，所述样本图像数据为RGBD数据。
一种交互行为识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待检测图像；

第一检测模块，用于通过预设的检测模型对所述待检测图像进行人体姿态检测，得到人体姿态信息和手部位置信息，所述检测模型用于进行人体姿态检测；

跟踪模块，用于根据所述人体姿态信息，对所述人体姿态进行跟踪，得到人体运动轨迹信息，且根据所述手部位置信息，对所述手部位置进行目标跟踪，获取手部区域图像；

第二检测模块，用于通过预设的分类识别模型对所述手部区域图像进行物品识别，得到物品识别结果，所述分类识别模型用于进行物品识别；

第一交互行为识别模块，用于根据所述人体运动轨迹信息和所述物品识别结果，得到第一交互行为识别结果。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。