WO2021093276A1

WO2021093276A1 - 人群计数系统中基于可变形高斯核的训练数据生成方法

Info

Publication number: WO2021093276A1
Application number: PCT/CN2020/086534
Authority: WO
Inventors: 刘阳; 倪国栋; 胡卫明; 李兵; 沈志忠; 孔祥斌
Original assignee: 通号通信信息集团有限公司
Priority date: 2019-11-12
Filing date: 2020-04-24
Publication date: 2021-05-20
Also published as: CN111027389A; CN111027389B; US20220222930A1

Abstract

一种人群计数系统中基于可变形高斯核的训练数据生成方法，其步骤：从训练数据中找出一组相互重叠的高斯核；对被遮挡的高斯核进行伸缩；对被遮挡的高斯核进行旋转；对被遮挡的高斯核的中心点坐标进行调整；判断训练数据中是否还有未被选取过的高斯核，得到的带灰度数值的人群密度图作为训练数据输出。有效地增加了训练数据的人群密度图与真实图像的特征相似性，使卷积神经网络更容易学习到训练数据与真实图像之间的规律，提高了人群计数系统的精确性。可以广泛在计算机视觉方向应用。

Description

人群计数系统中基于可变形高斯核的训练数据生成方法

技术领域

本发明涉及一种模式识别领域，特别是关于一种在计算机视觉方向应用的人群计数系统中基于可变形高斯核的训练数据生成方法。

背景技术

近年来人群行为分析常用的基础方法是基于卷积神经网络深度学习的人群计数系统，其主要原理是：通过大量的训练，让卷积神经网络自动学习人类头部的主要特征(例如近似圆形，相对于背景来说颜色较深的头发等)，最终将网络输出的卷积图与事先做好的、使用类似于人头形状的二维高斯核密度函数(以下简称高斯核)来表示每个人头所在的位置的人群密度图的对比差异。因为单个高斯核在人群密度图中的各个像素点处数值的积分之和为1，所以只需要统计输出的人群密度图中属于各个高斯核的像素点处数值的积分总和，系统就可以得到对原始画面中总人数的估计数值。系统将其对总人数的估计数值与训练数据中的实际数值，以及网络输出的卷积图与训练数据中的人群密度图之间的差异，作为网络反向误差传播的依据，最终通过迭代，修改网络中的相关参数，训练网络对于人头形状目标的识别能力。

鉴于现有的绝大部分人群计数数据库中只给出图片中的人头二维坐标作为训练数据(即训练算法去完成的目标)，为了便于系统将输出的人群密度图与训练数据进行误差比对，优化卷积神经网络的训练效果，系统需要将训练数据中每个人头的二维坐标，转化为画面中类似人头的形状。因此，人群计数系统的训练数据生成方法，均采用二维高斯核密度函数，以每个人头位置坐标为中心点，在画面中生成用于训练的模拟人头形状，以达到对更好训练效果。

如上所述，人群计数系统的训练数据生成中，最关键的一个步骤就是以人头的二维坐标为中心点，生成与之对应的高斯核，为了解释高斯核的具体生成方法，首先将连续型二维高斯函数的表达式展示如下：

其中(x ₀,y ₀)为该函数的中心点位置，即人头坐标。σ _x与σ _y分别为该函数在x轴方向与y轴方向的方差。考虑到人头基本可以视作圆形，为了便于计算，上述文献中默认取σ _x＝σ _y。

于是在离散域内，一个尺度为(2k+1)*(2k+1)离散的高斯核可以被表示为：

其中A为为了使高斯核截止区域内各个像素点的高斯核灰度数值积分后等于1而设置的常数，其数值并不一定等于公式1中的

项的数值，需要根据实际情况加以调整，调整的目的是使得属于同一个人头head对应的那个高斯核的各个离散像素点的灰度数值相加总和为1，因此，其计算方法如下：

将公式3称为：传统人群计数系统的离散高斯核表达式。系统对训练数据中的每一个人头的坐标，重复上述过程，然后将生成的所有高斯核离散像素点的灰度数值以叠加的方式绘制在同一张画面中，就完成了训练数据的生成。

然而在现实中人群图片中大量存在一个现象，即人头因为互相遮挡而出现重叠，并且按照透视关系原理，两个相互遮挡的人头在摄像机视角方向的中心点位置越接近，其相互重叠的面积比例越高。

按照现有方法，相互重叠的两个人头都用各向均等的圆形的高斯核来代表，而在原始人群图片中位置靠前的人头拥有比较完整、清晰的圆形边缘，与训练数据中的圆形高斯核的形状非常近似，卷积神经网络可以比较容易地通过学习训练数据，将其识别出来；而位置靠后被遮挡的人头依照重叠程度的大小呈现不同程度的月牙形，其视觉重心向未重叠部分移动。此时，如果继续使用圆形高斯核，由于高斯核自身的性质，其越接近圆心处灰度数值越大，两个相互重叠的圆形高斯核的视觉重心位于其中心点连线附近。此时就会使得被遮挡的人头在原图中的视觉中心，不仅与对应的被遮挡的高斯核在训练数据人群密度图中得视觉重心不一致，还容易与遮挡其的人头对应的高斯核融合成一个整体，人群计数系统的卷积神经网络不容易通过对圆形的高斯核的训练，学习到被遮挡的人头的特征规律并将其与前方遮挡其的人头分开，最终导致训练效果差，系统输出的人群密度图不准确，人群计数的误差较大。

发明内容

针对上述问题，本发明的目的是提供一种人群计数系统中基于可变形高斯核的训练数据生成方法，其有效地增加了训练数据的人群密度图与真实图像的特征相似性，使卷积神经网络更容易学习到训练数据与真实图像之间的规律，提高了人群计数系统的精确性。

为实现上述目的，本发明采取以下技术方案：一种人群计数系统中基于可变形高斯核的训练数据生成方法，其包括以下步骤：1)从训练数据中找出一组相互重叠的高斯核；2)对被遮挡的高斯核进行伸缩；3)对被遮挡的高斯核进行旋转；4)对被遮挡的高斯核的中心点坐标进行调整；5)判断训练数据中是否还有未被选取过的高斯核，得到的带灰度数值的人群密度图作为训练数据输出。

进一步，所述步骤1)中，依次读取使用传统人群计数系统的高斯核生成的训练数据中每个高斯核的中心点坐标，将该高斯核记录为被选取过的高斯核，并找出与之距离最近的另一个高斯核的中心点坐标；若其中心点坐标之间的几何距离小于其方差相加之和，则认为这两个训练数据的高斯核在原始图片中所对应的人头之间发生重叠，即这两个高斯核之间发生重叠。

进一步，每个高斯核只与和自身中心点坐标之间的几何距离最近的另一个进行是否相互重叠的判断，若判断结果为它们相互重叠，则将它们都作为被选取过的高斯核，然后转至步骤2)；否则，转至步骤5)。

进一步，所述步骤2)中，对于被判断为相互重叠的高斯核a与b，如果其中一个高斯核a的方差大于另一个高斯核b的方差，则认为是a对应的人头离拍摄人群画面摄像头的直线距离更近，在画面中a遮挡了b。

进一步，对高斯核b沿坐标轴方向进行伸缩：将高斯核b的方差分解为分别沿x轴与y轴的两个相互独立的方差分量σ _{b_x}与σ _{b_y}，并默认将x轴方向作为高斯核a与b中心点坐标连线的方向；按照以下公式将被遮挡的高斯核b沿着x轴方向的方差分量减小，并保持高斯核b沿着y轴方向的方差分量不变：

将伸缩后的高斯核b的方差代入传统人群计数系统的离散高斯核表达式，得到经过伸缩后的离散高斯核表达式。

进一步，所述步骤3)中，假设人群密度图画面的x轴正向与高斯核a与b的中心点连线指向b的一端沿着反时针方向相差角度θ，则高斯核b需要以其中心点为原点，沿着反时针方向旋转角度θ；将属于人群密度图画面中的点的坐标(x，y)按照平面直角坐标系反时针方向旋转角度θ的坐标变换规则进行变换，得到该点在被遮挡的高斯核b旋转后的坐标系中的坐标(x ^*，y ^*)；将该点在被遮挡的高斯核b旋转后的坐标系中的坐标代入经过伸缩后的离散高斯核表达式，得到经过伸缩、旋转后的离散高斯核表达式。

进一步，所述坐标(x ^*，y ^*)为：

进一步，所述步骤4)中，将高斯核b的中心点坐标沿着高斯核a与b的中心点连线方向，向着高斯核b的方向移动，移动的距离等于步骤2)中高斯核b的方差沿着x轴减少的数值

进一步，所述高斯核b调整后的中心点坐标

为：

进一步，所述步骤5)中，如果训练数据中还有未被步骤1)选取过的高斯核，则转至步骤1)；反之，则对人群密度图中每个像素点，将其所属的高斯核的灰度数值相加，并将得到的带灰度数值的人群密度图作为训练数据输出，结束。

本发明由于采取以上技术方案，其具有以下优点：1、针对传统的人群计数系统使用的圆形高斯核在处理被遮挡的人头时，圆形的高斯核被遮挡后的视觉重心经常与实际画面中被遮挡的人头的视觉重心不一致，且相互重叠的人头对应的卷积核中心点分离度不足，从而使得人群计数系统的卷积神经网络不容易在训练中学习到被遮挡的人头的特征规律，最终导致训练效果差，系统输出的人群密度图误差较大，影响人群计数的精度这一问题。本发明对已知数据中所蕴含的信息进行了充分的挖掘，最大程度地利用训练数据中高斯核的中心点坐标和方差，对被遮挡的高斯核进行伸缩、旋转、中心点坐标调整，有效地增加了训练数据的人群密度图与真实图像的特征相似性，使卷积神经网络更容易学习到训练数据与真实图像之间的规律，提高了人群计数系统的精确性。2、本发明可直接嵌套在传统人群计数系统的高斯核生成方法中，有效地与传统方法共享卷积神经网络结构和输入数据，对于原有人群计数系统的主要工作流程也基本不用进行修改，工程量小。3、在实际使用中，每个高斯核只与和自身距离最近的另一个进行是否相互重叠的判断，并且只有当它们被判断为相互重叠时才执行后续对高斯核的伸缩、旋转、中心点调整等步骤，从而保证每个人头的高斯核最多进行一次形变，算法复杂度不会随着训练数据中高斯核的数量增加呈指数上升。4、高斯核变形步骤有严谨的数学原理，保证了变形后的高斯核积分数值仍然为1，即变形后的高斯核仍然能被用来计算其对应的人头的数量。5、本发明所有步骤均全自动实现，执行过程中无需用户的额外操作，也无需用户重新测量相关数据，节省了人力、物力和时间成本。

附图说明

图1是本发明的整体流程示意图；

图2是平面坐标系旋转原理示意图；

图3是可变形的高斯核的效果图。

本发明最佳实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种人群计数系统中基于可变形高斯核的训练数据生成方法，其包括以下步骤：

1)从训练数据中找出一组相互重叠的高斯核：

依次读取使用传统人群计数系统的高斯核生成的训练数据中每个高斯核的中心点坐标(即人头中心点坐标)，将该高斯核记录为被选取过的高斯核，并找出与之距离最近的另一个高斯核的中心点坐标。

对于上述两个高斯核a与b中心点坐标分别为(x _{0_a},y _{0_a})与(x _{0_b},y _{0_b})，其各自高斯核密度函数方差分别为σ _a与σ _b(因为原始训练数据中的高斯核在二维坐标系下为圆形，故此处对每个高斯核用单一的方差数值)，若其中心点坐标之间的几何距离小于其方差相加之和，则认为这两个训练数据的高斯核在原始图片中所对应的人头之间发生重叠，即这两个高斯核之间发生重叠。

每个高斯核只与和自身中心点坐标之间的几何距离最近的另一个进行是否相互重叠的判断，若判断结果为它们相互重叠，则将它们都作为被选取过的高斯核，然后转至步骤2)；否则，转至步骤5)。

2)对被遮挡的高斯核进行伸缩：

对于被判断为相互重叠的高斯核a与b，如果其中一个高斯核a的方差大于另一个高斯核b的方差，即σ _a＞σ _b，则认为是a对应的人头离拍摄人群画面摄像头的直线距离更近，在画面中a遮挡了b。

此时，需要对高斯核b沿坐标轴方向进行伸缩。将高斯核b的方差分解为分别沿x轴与y轴的两个相互独立的方差分量σ _{b_x}与σ _{b_y}，并默认将x轴方向作为高斯核a与b中心点坐标连线的方向。按照以下公式将被遮挡的高斯核b沿着x轴方向的方差分量减小，并保持高斯核b沿着y轴方向的方差分量不变，得到对高斯核b的经过伸缩后的沿x轴与y轴的两个相互独立的方差

与

将伸缩后的高斯核b的方差代入传统人群计数系统的离散高斯核表达式(公式3)，就可以得到经过伸缩后的离散高斯核表达式。

3)对被遮挡的高斯核进行旋转：

在实际中，高斯核a与b的中心点连线方向可能为人群密度图画面的二维坐标系中的任意方向，其不一定为b自身的x轴方向。假设人群密度图画面的x轴正向与高斯核a与b的中心点连线指向b的一端沿着反时针方向相差角度θ，则高斯核b需要以其中心点为原点，沿着反时针方向旋转角度θ(如图2所示)。

将属于人群密度图画面中的点的坐标(x，y)按照平面直角坐标系反时针方向旋转角度θ的坐标变换规则进行变换，就得到该点在被遮挡的高斯核b旋转后的坐标系中的坐标(x ^*，y ^*)。将该点在被遮挡的高斯核b旋转后的坐标系中的坐标代入经过伸缩后的离散高斯核表达式，得到经过伸缩、旋转后的离散高斯核表达式。

4)对被遮挡的高斯核的中心点坐标进行调整：

由于高斯核b被a遮挡，其对应的人头在原始图片中的视觉效果是，其未被遮挡部分(即可视部分)的几何重心点实际上也发生了变化，即沿着人头在其中心点连线向高斯核b对应人头的方向移动。为了保证人群密度图的视觉特征与原始图片接近，将高斯核b的中心点坐标沿着高斯核a与b的中心点连线方向，向着高斯核b的方向移动，移动的距离等于步骤2)中高斯核b的方差沿着x轴减少的数值

通过上述操作完成对于对被遮挡的高斯核b的中心点坐标的调整。高斯核b调整后的中心点坐标

如下：

将被遮挡的高斯核b的调整后中心点坐标代入经过伸缩、旋转后的离散高斯核表达式，得到经过伸缩、旋转、中心点坐标调整后的离散高斯核表达式。可变形的高斯核的效果如图3所示。

5)判断训练数据中是否还有未被选取过的高斯核：

如果训练数据中还有未被步骤1)选取过的高斯核，则转至步骤1)；反之，则对人群密度图中每个像素点，将其所属的高斯核的灰度数值相加，并将得到的带灰度数值的人群密度图作为训练数据输出，结束。

综上，本发明使用可变形的高斯核代替传统方法中固定的圆形高斯核。当判断出传统的圆形存在相互遮挡的现象时，其认为高斯和对应的人头发生了相互遮挡。对于被遮挡的高斯核，本发明通过依次使用伸缩、旋转、中心点坐标调整等变形方法，将变形后的高斯核在人群密度图中的视觉重心调整到与原始图片中被遮挡的人头露出来的部分的视觉重心基本一致，同时还增加了相互遮挡的高斯核的视觉重心之间的分离度，有利于卷积神经网络对于被遮挡的人头的特征学习。因为被遮挡的高斯核的完整性没有被破坏，所以本发明保证了训练数据中每个高斯核积分后的数值仍然为1，仍然满足人群计数的要求。通过本发明的改进，保证了训练数据中作为目标的人群密度图与实际图片中的特征规律的一致性，增强了卷积神经网络的训练效果，最终提高了人群计数系统的精确性。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

一种人群计数系统中基于可变形高斯核的训练数据生成方法，其特征在于包括以下步骤：

1)从训练数据中找出一组相互重叠的高斯核；

2)对被遮挡的高斯核进行伸缩；

3)对被遮挡的高斯核进行旋转；

4)对被遮挡的高斯核的中心点坐标进行调整；

5)判断训练数据中是否还有未被选取过的高斯核，得到的带灰度数值的人群密度图作为训练数据输出。
如权利要求1所述训练数据生成方法，其特征在于：所述步骤1)中，依次读取使用传统人群计数系统的高斯核生成的训练数据中每个高斯核的中心点坐标，将该高斯核记录为被选取过的高斯核，并找出与之距离最近的另一个高斯核的中心点坐标；若其中心点坐标之间的几何距离小于其方差相加之和，则认为这两个训练数据的高斯核在原始图片中所对应的人头之间发生重叠，即这两个高斯核之间发生重叠。
如权利要求2所述训练数据生成方法，其特征在于：每个高斯核只与和自身中心点坐标之间的几何距离最近的另一个进行是否相互重叠的判断，若判断结果为它们相互重叠，则将它们都作为被选取过的高斯核，然后转至步骤2)；否则，转至步骤5)。
如权利要求1所述训练数据生成方法，其特征在于：所述步骤2)中，对于被判断为相互重叠的高斯核a与b，如果其中一个高斯核a的方差大于另一个高斯核b的方差，则认为是a对应的人头离拍摄人群画面摄像头的直线距离更近，在画面中a遮挡了b。
如权利要求4所述训练数据生成方法，其特征在于：对高斯核b沿坐标轴方向进行伸缩：

将高斯核b的方差分解为分别沿x轴与y轴的两个相互独立的方差分量σ _{b_x}与σ _{b_y}，并默认将x轴方向作为高斯核a与b中心点坐标连线的方向；按照以下公式将被遮挡的高斯核b沿着x轴方向的方差分量减小，并保持高斯核b沿着y轴方向的方差分量不变：

将伸缩后的高斯核b的方差代入传统人群计数系统的离散高斯核表达式，得到经过伸缩后的离散高斯核表达式。
如权利要求1所述训练数据生成方法，其特征在于：所述步骤3)中，假设人群密度图画面的x轴正向与高斯核a与b的中心点连线指向b的一端沿着反时针方向相差角度θ，则高斯核b需要以其中心点为原点，沿着反时针方向旋转角度θ；将属于人群密度图画面中的点的坐标(x，y)按照平面直角坐标系反时针方向旋转角度θ的坐标变换规则进行变换，得到该点在被遮挡的高斯核b旋转后的坐标系中的坐标(x ^*，y ^*)；将该点在被遮挡的高斯核b旋转后的坐标系中的坐标代入经过伸缩后的离散高斯核表达式，得到经过伸缩、旋转后的离散高斯核表达式。
如权利要求6所述训练数据生成方法，其特征在于：所述坐标(x ^*，y ^*)为：
如权利要求1所述训练数据生成方法，其特征在于：所述步骤4)中，将高斯核b的中心点坐标沿着高斯核a与b的中心点连线方向，向着高斯核b的方向移动，移动的距离等于步骤2)中高斯核b的方差沿着x轴减少的数值
如权利要求8所述训练数据生成方法，其特征在于：所述高斯核b调整后的中心点坐标
为：
如权利要求1所述训练数据生成方法，其特征在于：所述步骤5)中，如果训练数据中还有未被步骤1)选取过的高斯核，则转至步骤1)；反之，则对人群密度图中每个像素点，将其所属的高斯核的灰度数值相加，并将得到的带灰度数值的人群密度图作为训练数据输出，结束。