WO2020253308A1

WO2020253308A1 - 矿井下皮带运输人员人机交互行为安全监控与预警方法

Info

Publication number: WO2020253308A1
Application number: PCT/CN2020/082006
Authority: WO
Inventors: 孙彦景; 董锴文; 程小舟; 云霄; 侯晓峰; 王博文; 王斌; 徐宏力; 陈晓晶
Original assignee: 中国矿业大学
Priority date: 2019-06-21
Filing date: 2020-03-30
Publication date: 2020-12-24
Also published as: CN110425005A; CN110425005B

Abstract

一种矿井下皮带运输人员人机交互行为安全监控与预警方法。基于相机标定原理对视频中的皮带位置进行定位，并基于皮带位置及尺寸进行三维ROI划定；采用"自底向上"的关键点提取方法，对皮带运输人员进行先检测再聚类的多人关键点检测，保证检测精度的同时提高检测效率；将人体关键点和ROI区域分别进行两次投影，在两个投影面上对人体和皮带位置关系进行估计，筛选出人机交互中的不安全行为并进行预警，以消除人员与皮带区域的非正常接触造成的皮带运输系统重大安全隐患。

Description

矿井下皮带运输人员人机交互行为安全监控与预警方法

技术领域

本发明属于矿井下操作监控领域，特别涉及了一种矿井下皮带运输人员行为安全监控方法。

背景技术

我国的煤炭生产行业的发展一直处于世界的领先地位，但煤矿开采作为一个高危行业，多年来存在着极大的生产安全隐患。煤矿的皮带运输机作为当前矿井下最常见的运输系统，它的安全运行直接影响煤矿生产的安全水平。现阶段针对皮带运输系统的安全管理工作大多采用人工监视的方式，具有持续时间短、覆盖范围窄以及成本高昂等局限性。因此开发一套基于视频监控模式的针对皮带运输机及其相关工作人员的安全预警系统，对于提高皮带运输系统的安全生产水平有着重要意义。

目前基于视频监控的煤矿从业人员安全行为预警系统主要仅仅基于对人员的动作进行分析和识别的方式实现危险行为预警，如杨超宇等人在2016年提出的基于特征提取和SVM分类的安全行为监控方法，以及张立亚在2017年提出的基于动目标检测的井下危险区域监测方法，通过采用矩形框对井下人员进行定位，实现人员安全行为监控；朱艾春等人在2018年提出的基于生成对抗训练的困难样本挖掘沙漏网络的煤矿井下人员姿态识别方法，针对矩形框的局限性，通过人体关键点检测对井下人员进行定位与安全识别，提高了井下人员安全识别精度和鲁棒性。以上方法对无人机交互(即人与设备的交互)的不安全行为有较好的评估和识别效果，但井下大部分安全事故都发生在人机不安全交互的过程中，仅仅通过人员动作识别或人员位置判断实现安全预警而不对人机之间交互行为进行识别是远远不够的。同时，现有算法模型(如朱艾春等人用的生成对抗训练的困难样本挖掘)存在结构复杂、运行速度慢以及检测速度随检测人数增加而线性增加等问题，不具备较好的应用前景。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了矿井下皮带运输人员人机交互行为安全监控与预警方法。

为了实现上述技术目的，本发明的技术方案为：

矿井下皮带运输人员人机交互行为安全监控与预警方法，包括以下步骤：

(1)通过监控摄像头采集矿井下的实时视频流；

(2)利用相机标定原理对视频中的皮带进行尺寸估计，再据此划定一个三维的ROI区域，即皮带危险区域；

(3)在视频中检测所有人的人体关键点，通过局部亲和场衡量关键点之间的关联程度，并结合二分图匹配优化方法将属于单个人的人体关键点进行聚类，达到检测视频中每个人的人体关键点的目的；

(4)确定检测到的人体关键点在世界坐标系中x、y轴分量，对每个人体关键点自定义一个高度分量z，3个分量组合为完整的人体关键点的世界坐标；

(5)根据皮带危险区域与每个人的人体关键点的相对位置关系，判断人机相互行为是否安全，进而确定是否需要预警。

进一步地，在步骤(3)中，将视频中的每一帧图片作为输入，提取其中的深层特征，得到的特征图F；将特征图F输入到两条卷积神经网络的步骤1中，在步骤1中，第一条卷积神经网络会预测一组关键点的置信图S ¹＝ρ ¹(F)，其中ρ ¹表示该卷积神经网络在步骤1的推理过程；第二条卷积神经网络会预测一组局部亲和场

其中

表示该卷积神经网络在步骤1的推理过程，它的作用是将预测出的人体关键点根据每个人、每条肢干进行聚类，以得到一组完整的人体关键点信息；随后，两条卷积神经网络步骤1的预测预测结果分别与原始的特征图F串联在一起输入到后续步骤中，以得到更加精确的预测结果，后续步骤通过下式表示：

上式中，S ^t和L ^t分别为步骤t得到的置信图和局部亲和场，ρ ^t和

分别为两条卷积神经网络步骤t的推理过程。

进一步地，在两条卷积神经网络的每个步骤后分别应用均方误差损失函数，两条卷积神经网络在步骤t的损失函数如下：

上式中，

和

分别为两条卷积神经网络在步骤t的损失函数；p为待检测图片中任意一点的坐标；W(p)为一个布尔值，当训练数据集中的标注不存在时W(p)＝0，反之W(p)＝1；

表示点p处第j个人体关键点在步骤t的置信图，

表示置信图的真实位置；

表示点p处在步骤t的局部亲和场，

表示局部亲和场真实位置；

定义图片中任一位置p点的关键点置信度的真实参照如下：

上式中，x _j,k表示已标注的训练样本中第k个人的第j个人体关键点的真实坐标，σ是控制置信点高斯图离散程度的常数；

进行取最大值的操作，则得到第k个人的第j个人体关键点的置信参照

进一步地，一个人包含9个人体关键点，这9个人体关键点分别表征人的鼻子、胸口、右肩、右手、左肩、左手、胯骨、右脚和左脚。

进一步地，在步骤(5)中，根据步骤(2)得到的皮带危险区域确定皮带危险区域正视图投影和俯视图投影；对于视频中的每个人，计算其人体关键点与皮带危险区域俯视图投影之间的最小距离d _T、人体关键点与皮带危险区域正视图投影之间的最小距离d _F以及该人体关键点的高度h，若d _T和d _F同时小于等于安全距离阈值d，且h小于皮带危险区域正视图投影的高度，则判断该人员的人机交互行为是不安全的，发出预警。

进一步地，在步骤(5)中，构建深度神经网络分类器，利用该分类器对检测到的人体关键点信息进行动作分类，将每一帧图片中的人体关键点位置信息组合为一个样本，对应于一种动作的类别，使用标注好的大量人体关键点—动作样本对分类器进行训练，使其具备识别单帧图片中人体动作的能力，根据分类器的识别结果确定不同动作对应的安全距离阈值d _i，其中下标i代表第i类动作。

进一步地，考虑到监控视频中的人员动作具有连贯性，在单帧动作识别的基础上加入了连续多帧的概率判断模型：以连续的M张图片为判断单元，使用单帧动作分类器返回对这M张图片中动作的分类结果，并记录不同分类结果的计数，最后计算各个分类结果占总结果数的比率，比率最大的即为这M张图片的动作分类结果。

进一步地，动作分类结果包含3类：摔倒、下蹲和吸烟；对这3类动作分配不同的安全系数γ _i，并据此计算各自的安全距离阈值d _i＝γ _i·d，其中i＝1,2,3，根据安全距离阈值判断该动作下人员的人机交互行为是否安全。

采用上述技术方案带来的有益效果：

本发明基于相机标定成像原理对视频中的皮带位置进行定位，并基于皮带位置及尺寸进行三维ROI划定；采用“自底向上”的关键点提取方法，对皮带运输人员进行先检测再聚类的多人关键点检测，保证检测精度的同时提高检测效率；将人体关键点和ROI区域分别进行两次投影，一次为正面投影，另外一次为俯视投影，在两个投影面上对人体和皮带位置关系进行估计；构建深度神经网络对单帧图片中的关键点信息进行行为分类，返回每个人的动作标签，将人员动作识别与位置判断相结合，对不同安全系数的动作基于不同的尺度进行位置判断。通过本发明筛选出人机交互中的不安全行为并进行预警，以消除人员与皮带区域的非正常接触造成的皮带运输系统重大安全隐患。

附图说明

图1是本发明整体流程图；

图2是皮带危险区域三视投影图；

图3是相机标定示意图；

图4是关键点预测网络结构示意图；

图5是关键点的坐标—置信度曲线图；

图6是皮带坐标变换及投影示意图；

图7是人体关键点简化示意图；

图8是投影法评估不安全动作示意图；

图9是井下人员动作分类示意图；

图10是摔倒时安全位置判断示意图；

图11是蹲下时安全位置判断示意图；

图12是吸烟时安全位置判断示意图；

图13是本发明具体实施过程示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明提出的矿井下皮带运输人员人机交互行为安全监控与预警方法的流程如图1所示。对于由监控摄像头采集到的实时视频流，使用相机标定原理对皮带位置进行三维ROI(感兴趣区域)建模，然后基于“自底向上”的方法对皮带运输人员进行关键点检测，并基于关键点信息使用DNN进行动作分类，最后将ROI与关键点在正视和俯视方向上进行投影，基于不同动作的安全距离阈值评估关键点和ROI区域之间的位置关系对危险动作做出判断和预警。

1、皮带危险区域建模

在皮带安全预警识别中，划定皮带不安全的感兴趣区域(ROI)是检测阶段的基础任务。本发明通过评估人体关键点与划定的皮带ROI之间的位置关系来对危险动作进行识别，如果采取传统的方法对皮带ROI区域进行2D划定，将不可避免地提高误报警率，这是由于2D形态的ROI无法评估竖直方向上人和皮带之间的位置关系。举例来说，如果某一矿工处于高于皮带的某一台阶上正常工作，此时根据2D形态的ROI下就有极大概率会将其评估的不安全行为。为了解决上述问题，本发明提出根据皮带位置建立一种3D形态的ROI模型，根据相机标定成像原理对视频中的皮带进行尺寸估计，再据此划定一个3D形态的ROI区域，此区域三视图如图2所示。

2、相机标定皮带尺寸

(ⅰ)皮带尺寸测量原理：已知单目摄像机的内参数，以及单目镜头内的图片图像坐标系坐标，确立图像坐标系和世界坐标系的关系，从而对皮带以及周围工作人员位置进行三维建模。

(ii)图像坐标系：图像坐标系：是一个以像素为单位的坐标系，它的原点在左上方，每个像素点的位置是以像素为单位来表示的，所以这样的坐标系叫图像像素坐标系(u,v)，u和v分别表示像素在数字图像中的列数和行数。

(ⅲ)世界坐标系：由用户定义的三维坐标系，用于描述三维空间中的物体和相机的位置。以X，Y，Z表示。

由图可知左上角为图像坐标系UO ₁P，以O ₂为原点的摄像机坐标系以及世界坐标系XO ₃Y，其中已知量有：

摄像机高度H，像素坐标中心对应的世界坐标点与摄像头在y轴上的距离O ₃M，像素坐标中心点O ₁的图像坐标(ucenter,vcenter)，测量点P为待测点Q在世界坐标Y轴上的投影，其像素坐标为P ₁(0,v)。实际像素的长度x _pix，实际像素的宽度y _pix，O ₁O ₂为摄像头焦距f。标定示意图如图3所示。

Y坐标计算为：

β＝α-γ，

其中，γ表示O ₁O ₂和P ₁P形成的夹角，α为摄像机与水平面的角度，由O ₁O ₂与Y轴所成的锐角表示，计算得到角度β以后，根据直角三角形的性质可计算垂直方向的坐标Y＝O ₃P。

X坐标计算为：

由

得到

可得水平方向坐标X＝PQ，则Q点的的真实坐标为(X，Y)。

3、井下人体关键点检测

传统的关键点检测算法大多采用“自顶向下”的方法，即先在待检测图像中检测所有的人，再分别对每个人的关键点进行检测，这种方法很难在大人数场景下进行高速检测。而本发明采用“自底向上”的结构，首先在视频中检测所有人的关键点，再通过二分图匹配优化的方法将属于单个人的关键点进行聚类，最后达到检测视频中每个人的身体关键点的目的。检测速度不因检测人数的增加而降低，能实现多人人体关键点实时检测。关键点检测结构如图4所示。

将彩色RGB图片作为输入，通过VGG19提取其中的深层特征，得到图4中的特征图。随后将特征图输入到两条卷积神经网络(Convolutional Neural Networks,CNNs)分支的步骤1中，在这一步骤中，分支1网络会预测一组关键点的置信图S ¹＝ρ ¹(F)，其中ρ ¹表示分支1网络在步骤1的推理过程；而分支2网络则会预测一组“局部亲和场”

表示分支2网络在步骤1的推理过程，它的作用是将预测出的关键点根据每个人、每条肢干进行聚类，以得到一组完整的人体关键点信息。随后，来自两条分支钱一个步骤的预测结果都会和原始的特征图串联在一起输入到后面的步骤中，以得到更加精确的预测结果。随后的推理步骤可以由下式表示：

其中ρ ^t和

表示两条CNNs分支在步骤t的推理过程。

为了引导网络迭代预测关键点部位的置信图和“局部亲和场”，对于每条分支，在每一个步骤后都应用了L ₂损失(也称为均方误差)，用于衡量预测值和真实值之间的误差。这里采用了一个空间加权值以解决一些数据集并未将所有人的关键点进行标注的问题。每个CNNs分支在步骤t的损失函数可以由下式表示：

其中

为关键点置信图的真实位置；

为“局部亲和场”的真实位置；W为一个布尔值，当训练数据集中的标注不存在时W＝0，反之W＝1，主要是用来避免检测网络在无标注情况下对真实关键点的惩罚。

定义图片中任一位置p点的关键点置信度的真实参照为：

其中p为待检测图片中任意一点的坐标，k表示图片中第k个人，x _j,k则表示已标注的训练样本中第k个人的第j个关键点的真实坐标，σ是控制置信点高斯图离散程度的常数。图5为每个k,j所对应的关键点的坐标—置信度曲线图。

通过对上图进行取最大值的操作，就可以得到第k个人身上第j个关键点的置信参照

4、关键点坐标与ROI区域的正俯视投影方法

“自底向上”的关键点检测方法最终将输出各个关键点的坐标信息，上述单目视觉的方法可以计算出视频中某一像素坐标点所对应的世界坐标中的x _w,y _w轴分量，对于正俯视投影来说已经足够。但对于人体关键点来说，如果不能计算出其各点的z轴分量，就无法对其在正视图方向上进行投影，同时由于单目视觉中的目标像素不包含能反映3D关系的深度信息，故其无法完成由图像坐标系到世界坐标系的转换。为了解决这一问题，本发明对人体的关键点模型进行了简化：在已知各关键点在世界坐标中的x _w,y _w轴分量后，在下图所示关键点模型基础上为每个关键点自定义一个高度分量z _w，使其与已知的x _w,y _w轴分量组合为完整的人体关键点的世界坐标x _w,y _w,z _w。与关键点坐标相对应，皮带危险区域ROI在正视和俯视方向上的投影如图6所示。

为了降低系统运行时间，将人体关键点模型做了简化，图7中的(a)为原始系统预测的人体关键点模型，一共有25个关键点，省略原始模型中的部分关键点，保留其中编号为0，2，5，4，8，7，22，19的关键点，将其简化为7中的(b)所示的简化模型。

在此模型中，将0点的z _w轴分量设置为1.6m；1点，2点和5点都设置为1.3m；4，8，7点为1m；22，19点由于和皮带在一个平面故将其设置为0m。投影效果如图8所示，图8中的(a)为俯视投影，(b)为正视投影。

简化人体关键点模型后，如果在正视和俯视投影方向上关键点与危险区域ROI之间的最小距离d _T以及d _F同时小于等于安全距离阈值d，并且正视图中的h小于皮带危险区域的高度(1.5m)时，系统就会将此时的动作评估为不安全动作并发出预警。

5、矿井下人员危险行为识别方法

由于上述基于位置关系的不安全行为评估方法无法具体地判断危险动作的类型，如人员在设备旁摔倒、倚靠设备或坐在设备上，而这些行为又存在着极大的安全隐患，所以对井下皮带运输人员的具体动作进行识别是一个亟待解决的问题。

本发明在位置关系判断的危险动作评估的基础上加入了具体动作类型的识别，根据不同动作危险程度的大小，设定了不同的安全距离阈值。

通过构建一个简单的深度神经网络分类器，可以对上文中采集到的关键点信息进行行为分类，每一帧图片中的关键点位置信息组合为一个样本，对应于一种动作的类别。使用标注好的大量关键点—动作样本对分类器进行训练，使其具备识别单帧图片中人体动作的能力。除此之外，考虑到监控视频中的人员动作具有连贯性，通常前后多帧的关联性很大，所以在单帧动作识别的基础上加入了连续多帧的概率判断模型：以连续的五张图片为判断单元，使用单帧动作分类器返回对这五张图片中动作的分类结果，并记录不同分类结果的计数，最后计算各个结果占总结果数的比率，比率最大的就为这五张图片的动作分类结果。基于深度神经网络的井下人员行为分类器流程如图9所示。

待识别的不安全动作包括：摔倒、下蹲和吸烟，这三类动作均会对皮带运输人员的安全产生不同程度的影响，因此，为这三种动作分别设置了不同的安全系数，摔倒γ ₁＝2.0，下蹲γ ₂＝1.5，吸烟γ ₃＝1.3，通过计算d _i＝γ _i*d(i＝1,2,3)可以得到不同动作对应的安全距离阈值，通过将行为识别与位置评估相结合，可以对具有不同安全系数的动作在相应的安全距离内进行预警，实现危险动作提前预警的功能，大大提高了安全预警系统的可靠性。图10-12依次为3种动作对应的安全判断示意图。

当三种危险动作与皮带之间的水平距离d _Ti、d _Fi小于各自的安全阈值d _i，同时与皮带水平距离最近的关键点与水平面的竖直高度h _i小于皮带ROI区域高度时，系统将会判断此时的状态为不安全行为，并发出报警。

图13给出了本发明了一种具体实施过程，图13中的(a)为皮带危险区域和人体关键点检测图，(b)为人体关键点与皮带危险区域的俯视图，(c)为人体关键点与皮带危险区域的正视图。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，包括以下步骤：

(1)通过监控摄像头采集矿井下的实时视频流；

(2)利用相机标定原理对视频中的皮带进行尺寸估计，再据此划定一个三维的ROI区域，即皮带危险区域；

(3)在视频中检测所有人的人体关键点，通过局部亲和场衡量关键点之间的关联程度，并结合二分图匹配优化方法将属于单个人的人体关键点进行聚类，达到检测视频中每个人的人体关键点的目的；

(4)确定检测到的人体关键点在世界坐标系中x、y轴分量，对每个人体关键点自定义一个高度分量z，3个分量组合为完整的人体关键点的世界坐标；

(5)根据皮带危险区域与每个人的人体关键点的相对位置关系，判断人机相互行为是否安全，进而确定是否需要预警。
根据权利要求1所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，在步骤(3)中，将视频中的每一帧图片作为输入，提取其中的深层特征，得到的特征图F；将特征图F输入到两条卷积神经网络的步骤1中，在步骤1中，第一条卷积神经网络会预测一组关键点的置信图S ¹＝ρ ¹(F)，其中ρ ¹表示该卷积神经网络在步骤1的推理过程；第二条卷积神经网络会预测一组局部亲和场
其中
表示该卷积神经网络在步骤1的推理过程，它的作用是将预测出的人体关键点根据每个人、每条肢干进行聚类，以得到一组完整的人体关键点信息；随后，两条卷积神经网络步骤1的预测预测结果分别与原始的特征图F串联在一起输入到后续步骤中，以得到更加精确的预测结果，后续步骤通过下式表示：

上式中，S ^t和L ^t分别为步骤t得到的置信图和局部亲和场，ρ ^t和
分别为两条卷积神经网络步骤t的推理过程。
根据权利要求2所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，在两条卷积神经网络的每个步骤后分别应用均方误差损失函数，两条卷积神经网络在步骤t的损失函数如下：

上式中，
和
分别为两条卷积神经网络在步骤t的损失函数；p为待检测图片中任意一点的坐标；W(p)为一个布尔值，当训练数据集中的标注不存在时W(p)＝0，反之W(p)＝1；
表示点p处第j个人体关键点在步骤t的置信图，
表示置信图的真实位置；
表示点p处在步骤t的局部亲和场，
表示局部亲和场真实位置；

定义图片中任一位置p点的关键点置信度的真实参照如下：

上式中，x _j,k表示已标注的训练样本中第k个人的第j个人体关键点的真实坐标，σ是控制置信点高斯图离散程度的常数；

进行取最大值的操作，则得到第k个人的第j个人体关键点的置信参照
根据权利要求1所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，一个人包含9个人体关键点，这9个人体关键点分别表征人的鼻子、胸口、右肩、右手、左肩、左手、胯骨、右脚和左脚。
根据权利要求1所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，在步骤(5)中，根据步骤(2)得到的皮带危险区域确定皮带危险区域正视图投影和俯视图投影；对于视频中的每个人，计算其人体关键点与皮带危险区域俯视图投影之间的最小距离d _T、人体关键点与皮带危险区域正视图投影之间的最小距离d _F以及该人体关键点的高度h，若d _T和d _F同时小于等于安全距离阈值d，且h小于皮带危险区域正视图投影的高度，则判断该人员的人机交互行为是不安全的，发出预警。
根据权利要求5所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，在步骤(5)中，构建深度神经网络分类器，利用该分类器对检测到的人体关键点信息进行动作分类，将每一帧图片中的人体关键点位置信息组合为一个样本，对应于一种动作的类别，使用标注好的大量人体关键点—动作样本对分类器进行训练，使其具备识别单帧图片中人体动作的能力，根据分类器的识别结果确定不同动作对应的安全距离阈值d _i，其中下标i代表第i类动作。
根据权利要求6所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，考虑到监控视频中的人员动作具有连贯性，在单帧动作识别的基础上加入了连续多帧的概率判断模型：以连续的M张图片为判断单元，使用单帧动作分类器返回对这M张图片中动作的分类结果，并记录不同分类结果的计数，最后计算各个分类结果占总结果数的比率，比率最大的即为这M张图片的动作分类结果。
根据权利要求6所述矿井下皮带运输人员人机交互行为安全监控与预警方法，其特征在于，动作分类结果包含3类：摔倒、下蹲和吸烟；对这3类动作分配不同的安全系数γ _i，并据此计算各自的安全距离阈值d _i＝γ _i·d，其中i＝1,2,3，根据安全距离阈值判断该动作下人员的人机交互行为是否安全。