WO2023279531A1

WO2023279531A1 - 一种基于人体姿态识别的打钻视频退杆计数方法

Info

Publication number: WO2023279531A1
Application number: PCT/CN2021/118738
Authority: WO
Inventors: 姚超修; 吴航海; 胡亚磊; 谢浩; 武福生; 蒋泽; 蒋志龙; 陈佩佩; 王琪; 郝东波; 徐晓华; 胡金成; 曹宁宁
Original assignee: 天地（常州）自动化股份有限公司; 中煤科工集团常州研究院有限公司
Priority date: 2021-07-05
Filing date: 2021-09-16
Publication date: 2023-01-12
Also published as: CN113591590A; CN113591590B

Abstract

本发明公开了一种基于人体姿态识别的打钻视频退杆计数方法，利用前端矿用本安摄像仪获取打钻工作面退杆时的录像，进而采集到视频数据；视频数据通过环网传输到地面服务器上，地面服务器对视频数据进行分析处理；训练具有人体关键点检测功能的AlphaPose模型以及钻杆、钻机、人体识别模型；检测钻杆，对检测到的钻杆进行框选，记录目标框的相关参数；检测人，对检测到的人进行人体骨骼关键点检测，并记录人体关键点的坐标；后端服务器算法通过检测工人是否抓取钻杆和是否有搬运动作联合判断实际获取的钻杆。该方法通过人体姿态识别来检测工人取下钻杆这一连续动作，自动计算出工人取出钻杆的数量，从而提高智能视频分析钻杆计数的准确率。

Description

一种基于人体姿态识别的打钻视频退杆计数方法

技术领域

本发明涉及智能图像识别的技术领域，尤其是一种基于人体姿态识别的打钻视频退杆计数方法。

背景技术

随着井下视频监控的普及，智能图像识别在煤矿中的应用越来越广泛。智能图像识别技术借用矿井摄像仪采集的数字图像，通过内嵌入摄像机的智能化算法或后端服务器算法进行运算分析，实现对视频内容的感知，进而根据设定的规则，判断识别相应目标并进行相应报警。由于智能视频识别采用了无接触式检测，因此智能视频识别具备检测范围广、检测成本低等优势，且能24小时不间断工作，这使得工作效率大大提高。

但现在大多煤矿现场依然靠地面人为回看录像的方式对打钻退杆进行计数，煤矿井下打钻工作面为工人准备的手动按钮钻杆计数操作方式繁琐且效果不佳，无法进行有效计数；同时往往每段视频录像都长达1～2小时，且煤矿井下工作环境恶劣，光线昏暗，工作人员需要时刻集中精力回看录像，长期连续工作后，极易出现因疲劳而造成的漏检、误检。

虽然现在也有一些智能视频分析进行自动钻杆计数，但效果却不是很理想，其中最主要的原因是，这些方法往往都是截取工人取钻杆前后几帧的图片，并通过神经网络提取工人拿取钻杆时瞬间的特征，一旦视频中检测到工人手触碰到末端钻杆即进行+1计数。但往往实际工作作业时会出现工人手扶钻杆、错位重叠等现象，并未真正取下，此时如果依然计数就会造成误检。

发明内容

本发明要解决的技术问题是：为了克服现有技术中存在的不足，提供一种基于人体姿态识别的打钻视频退杆计数方法，通过人体姿态识别来检测工人取下钻杆这一连续动作，自动计算出工人取出钻杆的数量，从而提高智能视频分析钻杆计数的准确率。

本发明解决其技术问题所采用的技术方案是：一种基于人体姿态识别的打钻视频退杆计数方法，具体步骤如下：

步骤1、数据采集：利用前端矿用本安摄像仪获取打钻工作面退杆时的录像，进而采集到视频数据；

步骤2、数据预处理及标签制作：视频数据通过环网传输到地面服务器上，地面服务器对视频数据进行分析处理；

步骤3、训练具有人体关键点检测功能的AlphaPose模型以及钻杆、钻机、人体识别模型；

步骤4、检测钻杆，对检测到的钻杆进行框选，并记录目标框的相关参数；同时，检测人，对检测到的人进行人体骨骼关键点检测，并记录人体关键点的坐标；

步骤5、后端服务器算法通过检测工人是否抓取钻杆和是否有搬运动作联合判断实际获取的钻杆：判断手部关键点坐标与钻杆框选区域是否有重合，当手部关键点坐标与钻杆框选区域没有重合，则重复步骤4；当手臂关键点坐标与钻杆框选区域有重合，则通过全身关键点运动轨迹判断是否存在搬运钻杆的动作；当通过全身关键点运动轨迹判断不存在搬运钻杆的动作，则钻杆数保持不变；当通过全身关键点运动轨迹判断存在搬运钻杆的动作，则在已取钻杆数量的基础上加1。

进一步具体地限定，上述技术方案中，在步骤4中，目标框的相关参数包括框的中心点位置、框的长度以及框的高度。

进一步具体地限定，上述技术方案中，在步骤4中，人体关键点的坐标包括人体头部的坐标、人体肩部的坐标、人体手部的坐标、人体膝盖部的坐标以及人体脚部的坐标。

进一步具体地限定，上述技术方案中，在步骤2中，采用labelImg工具对采集到的图片数据打标签，每一类相同的图片打上对应类别的标签。

本发明的有益效果是：本发明的一种基于人体姿态识别的打钻视频退杆计数方法，具有以下优点：

一、可通过分析视频录像直接对钻杆数量进行计数，避免长时间段、高强度的人工计数；

二、通过检测工人是否抓取钻杆并分析人体运动轨迹是否有搬运动作，对打钻退杆数量进行精确计数，拥有极高的准确率；

三、适用于对原先矿下打钻面通用的摄像仪进行改造方案，只需在后端服务器上智能分析录像即可，改造成本低，施工步骤简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的算法流程图；

图2是本发明的原理示意图；

图3是本发明的算法效果示意图一；

图4是本发明的算法效果示意图二；

图5是本发明的算法效果示意图三。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

见图1、图2、图3、图4和图5，本发明的一种基于人体姿态识别的打钻视频退杆计数方法，包括前端矿用本安摄像仪、环网和后端服务器，其中的前端矿用本安摄像仪具备自动对焦、强光抑制、补光灯等功能。前端矿用本安摄像仪至少200万像素，防护等级至少为IP54。后端服务器的算法采用具有人体关键点检测功能的AlphaPose模型以及钻杆、钻机、人体识别模型，对钻杆和人体骨骼关键点同时进行检测，再通过分析人体运动轨迹判断是否搬取钻杆，以达到准确计数。前端矿用本安摄像仪安装于井下打钻工作面，用于记录打钻退杆时的录像。通过环网将前端矿用本安摄像仪采集到的数据传到地面，数据通过后端服务器进行算法分析，检测视频中工人获取钻杆数量，以达到自动计数的功能。

见图2，该基于人体姿态识别的打钻视频退杆计数方法，具体原理是：首先井下摄像仪获取退杆录像，然后工业环网传输数据，最终后端算法处理完成智能计数。

见图1，该基于人体姿态识别的打钻视频退杆计数方法，具体步骤如下：

步骤1、数据采集：利用前端矿用本安摄像仪获取打钻工作面退杆时的录像，进而采集到视频数据。

步骤2、数据预处理及标签制作：视频数据通过环网传输到地面服务器上，地面服务器对视频数据进行分析处理。实验中采用labelImg工具对采集到的图片数据打标签，每一类相同的图片打上对应类别的标签。如矿井中的设备被标记为“machine”，人物被标记为“person”，目标物钻杆被标记为“object”等。人体关键点标签采用MS COCO数据集中的Keypoint evaluation。

步骤3、训练具有人体关键点检测功能的AlphaPose模型以及钻杆、钻机、人体识别模型。

步骤4、检测钻杆，对检测到的钻杆进行框选，并记录目标框的相关参数，目标框的相关参数包括框的中心点位置、框的长度以及框的高度；同时，检测人，对检测到的人进行人体骨骼关键点检测，并记录人体关键点的坐标，人体关键点的坐标包括人体头部的坐标、人体肩部的坐标、人体手部的坐标、人体膝盖部的坐标以及人体脚部的坐标。

步骤5、后端服务器算法通过检测工人是否抓取钻杆和是否有搬运动作联合判断实际获取的钻杆，避免漏检和误检：判断手部关键点坐标与钻杆框选区域是否有重合，当手部关键点坐标与钻杆框选区域没有重合，则重复步骤4；当手臂关键点坐标与钻杆框选区域有重合，则通过全身关键点运动轨迹判断是否存在搬运钻杆的动作；当通过全身关键点运动轨迹判断不存在搬运钻杆的动作，则钻杆数保持不变；当通过全身关键点运动轨迹判断存在搬运钻杆的动作，则在已取钻杆数量的基础上加1。

例如算法检测到钻杆后，输出钻杆的boundingbox坐标为(X1,Y1,X2,Y2)，其中X1,Y1为物体框左上角坐标，X2,Y2为物体框右下角坐标。框的中心点和框的长高即可计算得出。同理，人的人体关键点坐标也是一组(x，y)的位置坐标，后续通过坐标间的逻辑判断即可进行检测。文中提到的是否重合，即坐标或boundingbox间IOU是否超过阈值。

其中，后端服务器算法的细节分为以下几部分：

(1)STN(空间变换网络)：STN的全称为Spatial Transformer Network，中文含义为空间变换网络。对于不规则的人体图像输入，通过STN操作之后，得到准确人的框。输入候选区域，用于获取高质量的候选区域。即对视频流中的人体图片数据进行锚定画框。由于在视频流中的人物一直在移动，因此通过解码得到的人体图片数据具有曲折性，即不规则形，本发明中采用STN对图片数据进行操作，允许神经网络学习如何对输入图像执行空间变换，以增强模型的几何不变性。

STN为2D的仿射变换，定义如下：

其中，i表示图片数据中第i个坐标点；s表示新的坐标名称；t表示原始坐标名称；

为变换后坐标，具体地，

为变换后人物图像数据中的横坐标，

为变换后人物图像数据中的纵坐标；

为变换前坐标，具体地，

为变换前原始人物图像数据中像素点的横坐标，

为变换前原始人物图像数据中像素点的纵坐标，1代表2D仿射变换前人物图像数据中像素点的的竖坐标默认数值；θ ₁、θ ₂以及θ ₃为变换参数，其中，

(2)SPPE(单人姿态估计)：SPPE的全称为single person pose estimat or，中文含义为单人姿态估计。

(3)SDTN(空间逆变换网络)：将估计的姿态映射回原始的图像坐标。STD N的全称为Spatial Transformer Networks，中文含义为空间逆变换网络。

SDTN的定义如下：

其中，γ ₁、γ ₂以及γ ₃为变换参数，γ ₁、γ ₂以及γ ₃与θ ₁、θ ₂以及θ ₃的关系如下：

[γ ₁ γ ₂]＝[θ ₁ θ ₂] ^-1 (3)

γ ₃＝-1×[γ ₁ γ ₂]θ ₃ (4)

(4)Pose-NMS：消除额外的估计到的姿态。Pose-NMS的全称为parametr ic pose nonmaximum suppression，中文含义为参数姿态非最大抑制，此处可以理解为消除额外的估计到的姿态。

定义：令第i个姿态由m个关节点组成，其中，i和m均为大于等于1的正整数，第i个姿态的集合，定义为：

其中k为location，location表示关节定位点；c为socre。，score表示当前定位点的位姿得分。

消除过程：score最高的姿态作为基准，重复消除接近基准姿态的姿态，直到剩下单一的姿态。消除准则：消除标准用于重复消除剩余姿态，消除准则为：

f(Pi,Pj|Λ,η)＝1[d(Pi,Pj|Λ,λ)≤η] (5)

其中，f表示消除准则，当输出为1，则删除当前姿态Pi，反之保留；Pi与Pj分别表示不同的姿态；Λ表示姿态距离度量的参数集；η表示阈值；d表示姿态距离度量；λ表示平衡姿态距离和空间距离的权重；f(.)整体表示姿态点消除准则；d(·)整体表示姿态距离度量函数，姿态距离度量函数d(·)包括姿态距离和空间距离，若d(·)不大于η，则上面f(·)的输出为1，表明由于P _i和基准姿态P _j过于相似，因而P _i需要被消除。其定义如下：

d(Pi,Pj|Λ)＝K _Sim(Pi,Pj|σ1)+λH _sim(Pi,Pj|σ2) (6)

其中，K _sim表示软匹配函数，即不同特征之间的相似度；σ1和σ2分别表示学习规则，即梯度的初始化。Λ＝{σ1,σ2,λ}

姿态距离用于消除和其他姿态太近且太相似的姿态，假定P _i的bbox是B _i，bbox表示姿态P _i选定框的位置信息。其定义为如下的soft matching公式(不同特征之间score的相似度)：

其中，i、j表示不同的姿态点；c表示集合；is witnin表示如果位姿P _j的中心点在以

的box中时，应进行清除；otherwise表示反之不予清除；

为中心在

的box，并且每个坐标

为原始坐标B _i的1/10；box表示与位姿P _i坐标同中心的框，其长度与宽度均为P _i姿态框坐标的1/10。

得到具体人体关键点定位后，再根据其运动轨迹判定是否有搬运动作。

本发明的目的是在后端智能分析打钻退杆录像视频，通过人体姿态识别来检测工人取下钻杆这一连续动作，自动计算出工人取出钻杆的数量，而不是只识别工人手取钻杆这2-3视频帧的特征，从而提高智能视频分析钻杆计数的准确率。本发明的优点是：(1)可通过分析视频录像直接对钻杆数量进行计数，避免长时间段、高强度的人工计数；(2)通过检测工人是否抓取钻杆并分析人体运动轨迹是否有搬运动作，对打钻退杆数量进行精确计数，拥有极高的准确率；(3)适用于对原先矿下打钻面通用的摄像仪进行改造方案，只需在后端服务器上智能分析录像即可，改造成本低，施工步骤简单。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

一种基于人体姿态识别的打钻视频退杆计数方法，其特征在于，具体步骤如下：

步骤1、数据采集：利用前端矿用本安摄像仪获取打钻工作面退杆时的录像，进而采集到视频数据；

步骤2、数据预处理及标签制作：视频数据通过环网传输到地面服务器上，地面服务器对视频数据进行分析处理；

步骤3、训练具有人体关键点检测功能的AlphaPose模型以及钻杆、钻机、人体识别模型；

步骤4、检测钻杆，对检测到的钻杆进行框选，并记录目标框的相关参数；同时，检测人，对检测到的人进行人体骨骼关键点检测，并记录人体关键点的坐标；

步骤5、后端服务器算法通过检测工人是否抓取钻杆和是否有搬运动作联合判断实际获取的钻杆：判断手部关键点坐标与钻杆框选区域是否有重合，当手部关键点坐标与钻杆框选区域没有重合，则重复步骤4；当手臂关键点坐标与钻杆框选区域有重合，则通过全身关键点运动轨迹判断是否存在搬运钻杆的动作；当通过全身关键点运动轨迹判断不存在搬运钻杆的动作，则钻杆数保持不变；当通过全身关键点运动轨迹判断存在搬运钻杆的动作，则在已取钻杆数量的基础上加1。
根据权利要求1所述的一种基于人体姿态识别的打钻视频退杆计数方法，其特征在于：在步骤4中，目标框的相关参数包括框的中心点位置、框的长度以及框的高度。
根据权利要求1所述的一种基于人体姿态识别的打钻视频退杆计数方法，其特征在于：在步骤4中，人体关键点的坐标包括人体头部的坐标、人体肩部的坐标、人体手部的坐标、人体膝盖部的坐标以及人体脚部的坐标。
根据权利要求1所述的一种基于人体姿态识别的打钻视频退杆计数方法，其特征在于：在步骤2中，采用labelImg工具对采集到的图片数据打标签，每一类相同的图片打上对应类别的标签。