WO2018059408A1

WO2018059408A1 - 跨线计数方法和神经网络训练方法、装置和电子设备

Info

Publication number: WO2018059408A1
Application number: PCT/CN2017/103530
Authority: WO
Inventors: 王晓刚; 赵倬毅; 李鸿升; 赵瑞
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-09-29
Filing date: 2017-09-26
Publication date: 2018-04-05
Also published as: CN106407946B; CN106407946A

Abstract

本申请实施例公开了一种跨线计数方法和神经网络训练方法、装置和电子设备，其中，跨线计数方法包括：向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由神经网络输出多个原始帧图像的人群计数图，人群计数图中包括每个位置的计数向量；分别以多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过LOI的人数；分别累积至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内，LOI在至少一个方向上的跨线人数。本申请实施例可以应用于多种不同的场景，有利于提高跨线计数结果的客观性和准确性。

Description

跨线计数方法和神经网络训练方法、装置和电子设备

本申请要求在2016年09月29日提交中国专利局、申请号为201610867834.1、发明名称为“跨线计数方法和深度神经网络训练方法、装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术，尤其是一种跨线计数方法和神经网络训练方法、装置和电子设备。

背景技术

视频中的人群自动计数技术在人群流量监控和公共安全等方面发挥着越来越重要的作用，尤其是跨线计数方法，可用于实时统计关键道路或进出口的人流量，进而给出一个区域内的人群总数的估计。

当前主流的跨线计数方法都是基于时序切片图像(Temporal Slice)的方法。所谓的时序切片图像的方法，是指将视频每帧提取的线上的像素向量(彩色图像是三通道向量)在时间维度进行累积，形成一个时序切片的二维图像，然后直接利用人工标记的跨线人数作为监督信号，基于这一时序切片图像学习一个回归模型，估计时序切片图像中的人群数量，从而得到一定时段内的跨线人数。

发明内容

本申请实施例提供一种跨线计数的技术方案。

根据本申请实施例的一个方面，提供的一种跨线计数方法，包括：

向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述神经网络输出所述多个原始帧图像的人群计数图；所述人群计数图中包括帧图像中至少一个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据所述当前帧图像的人群计数图，获取所述当前帧图像从至少一个方向通过所述LOI的人数；

分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数。

根据本申请实施例的另一个方面，提供的一种神经网络训练方法，包括：

将样本视频的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件；所述神经网络包括卷积神经网络和元素相乘网络。

根据本申请实施例的又一个方面，提供的一种基于上述神经网络训练方法训练得到的神经网络进行视频中人群跨线计数的方法。

根据本申请实施例的又一个方面，提供的一种跨线计数装置，包括：

第一获取单元，作为神经网络，用于接收需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，输出所述原始帧图像的人群计数图；所述人群计数图中包括帧图像中至少一个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

第二获取单元，用于分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据所述当前帧图像的人群计数图，获取所述当前帧图像从至少一个方向通过所述LOI的人数；

第三获取单元，用于分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数。

根据本申请实施例的又一个方面，提供一种神经网络训练装置，包括：

网络训练单元，用于将样本视频的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件；所述神经网络包括卷积神经网络CNN和元素相乘网络。

根据本申请实施例的又一个方面，提供的一种电子设备，包括本申请上述任一实施例所述的跨线计数装置或者神经网络训练装置。

根据本申请实施例的再一个方面，提供的另一种电子设备，包括：

处理器和本申请上述任一实施例所述的跨线计数装置；

在处理器运行本申请上述任一实施例所述的跨线计数装置时，本申请上述任一实施例所述的跨线计数装置中的单元被运行。

根据本申请实施例的再一个方面，提供的又一种电子设备，包括：

处理器和本申请上述任一实施例所述的神经网络训练装置；

在处理器运行本申请上述任一实施例所述的神经网络训练装置时，本申请上述任一实施例所述的神经网络训练装置中的单元被运行。

根据本申请实施例的再一个方面，提供的再一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请上述任一实施例所述方法对应的操作。

根据本申请实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请上述任一实施例所述方法中各步骤的指令。

根据本申请实施例的再一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请上述任一实施例所述方法中各步骤的操作。

基于本申请上述实施例提供的跨线计数方法和神经网络训练方法、装置和电子设备，提出了一种神经网络的训练方法，以及基于训练好的神经网络的进行人群跨线计数的技术方案，将样本视频输入至神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对神经网络进行迭代训练直至满足预设条件，获得神经网络；通过向该神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，可输出原始帧图像中各帧图像的人群计数图，即：每个位置上，当前帧图像与相邻的前帧图像之间在计数方向(例如，二维坐标平面x轴和y轴的至少一个坐标方向)分别通过的人数；分别针对各帧图像，根据人群计数图获取从至少一个方向通过LOI的人数，并分别累积至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内LOI在至少一个方向上的跨线人数。本申请实施例直接以原始视频中的原始帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，有利于避免视频中人群密度较大、人群移动速度低或静止不动、或者监控摄像头视角比较低等情形时，时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，对于人群密度较大、人群移动速度低或静止不动的情形同样适用，并且可以跨场景应用；并且，本申请实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，有利于提高跨线计数结果的客观性和准确性。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请跨线计数方法一个实施例的流程图。

图2为本申请跨线计数方法另一个实施例的流程图。

图3为本申请神经网络训练方法一个实施例的流程图。

图4为本申请实施例中通过两个阶段对神经网络进行训练的一个示意图。

图5为本申请跨线计数装置一个实施例的结构示意图。

图6为本申请跨线计数装置另一个实施例的结构示意图。

图7为本申请神经网络训练装置一个实施例的结构示意图。

图8为本申请电子设备一个实施例的结构示意图。

图9为本申请电子设备另一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外可选说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统、服务器、终端设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统、服务器、终端设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本申请实施例中，从原始的视频得到每帧图像的人群计数图(Counting Map)；然后对每帧图像的人群计数图在要进行跨线计数的感兴趣线(LOI)上累积，得到该LOI上瞬时的两个方向的跨线计数值，即通过LOI的人数；接着分别对两个方向，累积待分析时间段T内的瞬时跨线计数值，得到该待分析时间段T内的人群跨线计数值。

图1为本申请跨线计数方法一个实施例的流程图。如图1所示，该实施例的跨线计数方法包括：

102，向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由该神经网络输出需要上述多个原始帧图像的人群计数图。

本申请实施例中引入了人群计数图，该人群计数图包括帧图像中至少一个位置的计数向量，即：人群计数图的每个位置都会记录一个二维的计数向量，这个二维的计数向量表示当前帧图像与相邻的前帧图像之间在计数方向上通过的人数，例如在二维坐标平面的两个坐标方向(即：x轴和y轴方向)分别通过的人数。人群计数图是一个数学意义上的近似图，人群计数图中每个位置上计数向量的值通常会小于1，它表示在当前帧图像与相邻的前帧图像之间有一个人的多少比例通过了该位置。

作为本申请各实施例的一个可选示例，该操作102中，向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像之后，还可以依次从上述视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。其中，顺序抽取的至少两帧图像可以是连续的原始帧图像、或者是不连续的原始帧图像，也可以至少两帧图像中的部分为连续的原始帧图像、部分为不连续的原始帧图像。即：本申请实施例中，可以基于需要，对对视频中与待分析时间段T对应的全部原始帧图像进行人群跨线计数，也可以从中抽取部分原始帧图像进行人群跨线计数，而不需要待分析时间段T对应的全部原始帧图像均参与人群跨线计数。

作为本申请各实施例的一个可选示例，本申请各实施例中的神经网络可以是深度神经网络。

在一个可选示例中，操作102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取单元执行。

104，分别以上述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的LOI，根据当前帧图像的人群计数图，获取当前帧图像从至少一个方向通过LOI的人数，例如从一个方向通过LOI的人数、或者分别从两个方向通过LOI的人数。

本申请各实施例中的LOI可以根据需要进行人群计数的应用需求设置，可以是视频场景中的任意需要进行人群计数的位置连线，例如，地铁出入口两侧形成的连线、商场门口两侧形成的连线等。本申请各实施例中，可以根据需求统计从各个方向通过某一LOI的人数，其中，从某一方向上通过LOI的人数也称为LOI在该方向上的跨线人数。例如，设置地铁出入口两侧形成的连线为LOI，可以通过统计一段时间内该LOI的跨线人数，获知该段时间内进入该地铁口的人数、走出该地铁口的人数、或者进出该地铁口的总人数。

在一个可选示例中，操作104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取单元执行。

106，分别累积至少一个方向上，上述多个原始帧图像中的各帧图像通过上述LOI的人数，获得待分析时间段T内，上述LOI在上述至少一个方向上的跨线人数，例如从一个方向通过LOI的人数、或者分别从两个方向通过LOI的人数。

在一个可选示例中，操作106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三获取单元执行。

基于本申请上述实施例，提出了一种基于神经网络(CNN)的进行人群跨线计数的技术方案，通过神经网络分别获取视频中与待分析时间段T对应的各帧图像的人群计数图，分别针对各帧图像获取从至少一个方向通过LOI的人数，分别累积至少一个方向上各帧图像通过该LOI的人数，获得待分析时间段T内该LOI分别在至少一个方向上的跨线人数。由于本申请实施例直接以原始视频中的各帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用；并且，本申请实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，有利于提高跨线计数结果的客观性和准确性。

在本申请各跨线计数方法实施例的一个可选示例中，操作104中，可以获取当前帧图像从一个方向通过LOI的人数。相应地，操作106中，累积该方向上，上述多个原始帧图像中的各帧图像通过LOI的人数，便可获得待分析时间段T内，该LOI在该方向上的跨线人数。

另外，操作104中，也可以获取当前帧图像分别从两个方向通过LOI的人数。在本发明各实施例的一个可选示例中，两个方向包括：垂直于LOI，从该LOI的一侧到该LOI另一侧的方向、和从该另一侧到该一侧的方向；或者，还可以是不垂直于该LOI，从该LOI的一侧到该LOI另一侧的方向及其反方向。相应地，操作106中，分别累积这两个方向上，上述多个原始帧图像中的各帧图像通过该LOI的人数，便可获得待分析时间段T内，该LOI分别在这两个方向上的跨线人数，从而可以全面了解该LOI的双向跨线人数。

在本申请各跨线计数方法实施例的另一个可选示例中，可以通过如下方式，生成当前帧图像的人群计数图：

向神经网络输入多个原始帧图像，利用该神经网络中的卷积神经网络，生成当前帧图像的人群密度图和人群速度图。其中的人群密度图用于表示当前帧图像中至少一个位置的人群密度，人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度；

向神经网络中的元素相乘网络(elementwise product network)输入当前帧图像的人群密度图和人群速度图，利用该元素相乘网络将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得当前帧图像的人群计数图。

本申请上述实施例中，先基于视频中的至少两帧图像，获得帧图像的人群密度图和人群速度图，假设行人在两帧的密度分布和行走速度保持不变，将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘来获得帧图像的人群计数图，实现了人群计数图的准确获取。

在本申请各跨线计数方法实施例的另一个可选示例中，基于本申请实施得到帧图像的人群计数图后，针对任意一条要进行跨线计数的LOI，可以通过如下方式，获取当前帧图像分别从两个方向通过上述LOI的人数：

分别将人群计数图中在上述LOI上至少一个位置的计数向量在LOI的法线方向进行投影，获得该LOI上至少一个位置的标量值，该标量值的正负表示该LOI的两个方向，例如进入地铁出入口这一LOI和走出地铁出入口这一LOI的两个方向；

分别对上述LOI上的正标量值和负标量值进行累加，获得当前帧图像在该LOI的两个方向分别通过的人数。

例如，可以通过如下公式分别对LOI上的正标量值和负标量值进行累加：

其中，c_1,t和c_2,t分别表示当前帧图像中LOI两个方向上t时刻的瞬时跨线计数值，θ_p表示当前位置p处的计数向量(C_t,x(p),C_t,y(p))与LOI法线方向的夹角，t为待分析时间段T内的任一时刻。

在得到帧图像中LOI上两个方向的瞬时跨线计数值c_1,t和c_2,t后，可以通过公式为c₁＝∑_{t|t∈T}c_1,t，c₂＝∑_{t|t∈T}c_2,t，在待分析时间段T内对各时刻t的c_1,t和c_2,t进行累积，即可得到待分析时间段T内的跨线人数，c₁和c₂分别表示在待分析时间段T内LOI在两个方向上的跨线人数。

在本申请跨线计数方法的又一实施例中，获得当前帧图像在LOI上的两个方向分别通过的人数以后，可以对该LOI在两个方向上的跨线人数进行累加，从而获得待分析时间段T内，通过该LOI的跨线总人数。

图2为本申请跨线计数方法另一个实施例的流程图。如图2所示，该实施例的跨线计数方法包括：

202，神经网络依次从需要进行人群跨线计数的视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。

其中，顺序抽取的至少两帧图像可以是连续的原始帧图像，还可以是不连续的原始帧图像，还可以部分为连续的原始帧图像、部分为不连续的原始帧图像。人群计数图中包括帧图像中每个位置的计数向量，即：人群计数图的每个位置都会记录一个二维的计数向量，这个二维的计数向量用于表示当前帧图像与相邻的前帧图像之间在x轴和y轴方向分别通过的人数。

在一个可选示例中，操作202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取单元执行。

204，分别以上述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的LOI，分别将人群计数图中在该LOI上至少一个位置的计数向量在该LOI的法线方向进行投影，获得该LOI上至少一个位置的标量值，该标量值的正负分别表示该LOI的两个方向。

206，分别对上述LOI上的正标量值和负标量值进行累加，获得当前帧图像在该LOI的两个方向分别通过的人数，为当前帧图像对应的t时刻，分别在LOI上的两个方向上的瞬时跨线计数值。

在一个可选示例中，操作204-206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取单元执行。

208，分别累积待分析时间段T内多个原始帧图像在两个方向上通过LOI的人数，获得待分析时间段T内，LOI分别在两个方向上的跨线人数。

在一个可选示例中，操作208可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三获取单元执行。

210，对LOI在两个方向上的跨线人数进行累加，获得待分析时间段T内，通过LOI的跨线总人数。

在一个可选示例中，操作210可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的计算单元执行。

在本申请上述各实施例的跨线计数方法之前，还可以预先对初始的神经网络进行训练获得神经网络，获得的神经网络可以用于本申请上述各实施例的跨线计数方法，另外也可以用于其它需要人群计数图的应用情形。在本申请实施例的一个可选示例中，可以预设一个神经网络，该神经网络包括卷积神经网络(CNN)和元素相乘网络。将一个以上样本视频的多个原始帧图像输入至神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对该神经网络进行迭代训练，直至满足预设条件，获得最终的神经网络。在一个可选示例中，该操作可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的网络训练单元执行。

基于本申请上述实施例提供的神经网络训练方法，将原始的样本视频输入至神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对神经网络进行迭代训练，以便基于训练好的神经网络进行人群跨线计数。由于该神经网络直接以原始视频中的原始帧图像作为输入进行训练、而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，避免了视频中人群密度较大、人群移动速度低或静止不动、或者监控摄像头视角比较低等情形时，时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，对于人群密度较大、人群移动速度低或静止不动的情形同样适用，并且可以跨场景应用；并且，本申请实施例训练神经网络时基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得训练好的神经网络用于跨线计数时获得的跨线计数结果更加客观、准确。

在本申请实施例的一个可选示例中，上述多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图。相应地，该实施例中，将样本视频的多个原始帧图像输入至神经网络，以该多个原始帧图像预先标注的人群计数图作为监督信号，对神经网络进行迭代训练直至满足预设条件，可以包括：

分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入至卷积神经网络，以训练样本预先标注的人群密度图和人群速度图作为监督信号，对该卷积神经网络进行迭代训练，直至满足第一预设收敛条件，获得最终的卷积神经网络。其中，相邻两帧图像可以是原始视频中连续的两帧原始图像，也可以是从原始视频中按照一定时间间隔或帧图像间隔抽取出来的不连续的原始帧图像；

分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入神经网络，以预先标注的人群计数图作为监督信号，对该神经网络进行迭代训练，直至满足第二预设收敛条件，获得最终的神经网络。

为了学习得到更好的神经网络，本申请上述实施例中，通过两个阶段对神经网络进行训练。在第一个阶段对人群密度图和人群速度图分别给出估计，这是两个相对简单且语义信息相对明显的任务；在第二阶段对人群计数图给出直接估计。

值得注意的是，在完成第一阶段的训练后，我们已经可以利用人群密度和速度图相乘得到人群计数图，但是实际应用中，由于在第一阶段的训练过程中没有对人群密度图和速度图给出空间位置匹配约束，得到的人群密度图和速度图可能存在空间位置上不匹配的情况。由于第二阶段训练的目标是由第一阶段输出的人群密度图和人群速度在对应位置的元素相乘得到，本申请实施例在第一阶段训练完成后，通过第二阶段训练，对此空间位置上的不匹配进行了矫正，以有效保证人群密度图和速度图在空间位置上的匹配；并且，在第二阶段利用人群计数图作为监督信号，更利于复杂的神经网络的学习，使得训练得到的神经网络具有更强、更准确的计数能力。

在本申请神经网络训练方法的另一个实施例中，还可以在神经网络进行迭代训练之前，执行如下操作：

分别针对样本视频中上述多个原始帧图像中的各帧图像进行行人定位，获得样本视频中各帧图像中的行人位置并对各行人分别分配行人标识(ID)，其中，每个行人ID用于在上述视频中唯一标识一个行人；

分别在样本视频中上述多个原始帧图像中的各帧图像标定各行人的行人信息，该行人信息包括行人位置与行人ID。

由于几何透视图包括样本视频中不同位置的像素数与场景的真实物理尺寸之间的对应关系，根据样本视频中多个原始帧图像的各帧图像中的行人位置与几何透视图，在样本视频中多个原始帧图像的各帧图像中标注各行人的行人信息，可以根据行人在真实场景中的位置以及行人的物理尺寸，在样本视频场景中以相应大小的图标标记该行人位置。例如，在t时刻对应的样本视频的帧图像中，可以标注行人人头的位置信息：P_t＝{P_t ¹,…,P_t ⁿ,}，其中t表示时刻，{1,…,n}表示每个行人的行人ID，此处示例性地以序号表示行人ID。

在神经网络的训练过程中，对样本视频中的行人进行标定并分配行人ID时，可以不针对样本视频中的每帧图像均进行标定，可以根据行人的运动情况和移动速度按照预设间隔(例如，1秒)进行标注，中间的帧图像的行人及其行人ID可以通过前后标定的两帧图像中的行人及其行人ID插值近似得到，以简化标注工作量。另外，可以样本视频中所有的原始帧图像均参加神经网络训练，也可以抽取其中一部分原始帧图像参与神经网络训练，这样可以在训练任务一定的情况下，训练较多的样本视频，参与神经网络训练的帧图像的总数量越多，神经网络的训练效果越好，训练得到的神经网络鲁棒性也更好。

图3为本申请神经网络训练方法一个实施例的流程图。预设的神经网络可以包括CNN和元素相乘网络。训练完成后得到的神经网络，也包括相应的CNN和元素相乘网络。在一个可选示例中，图3所示实施例可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的网络训练单元执行。如图3所示，该实施例神经网络训练方法包括：

302，预先针对样本视频的场景设置该样本视频的几何透视图，包括样本视频中不同位置的像素数与场景的真实物理尺寸之间的对应关系；分别针对样本视频中参与网络训练的多个原始帧图像中各帧图像进行行人定位，获得各帧图像中的行人位置并对各行人分别分配行人ID。

由于不同行人的身体大小不同、且人头更不易被遮挡，为了更准确、客观的表示行人位置，本申请实施例中可以各行人的人头的位置作为该行人位置。

304，根据上述样本视频的多个原始帧图像中各帧图像中的行人位置，分别在上述样本视频的多个原始帧图像中各帧图像标定各行人的行人信息，该行人信息包括行人位置与行人ID。

306，分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入至卷积神经网络，以训练样本预先标注的人群密度图和人群速度图作为监督信号，对卷积神经网络进行迭代训练，直至满足第一预设收敛条件，获得最终的卷积神经网络。

其中，人群密度图用于表示当前帧图像中至少一个位置的人群密度，人群速度图用于表示当前帧图像中各行人从前帧图像移动到当前帧图像的速度。

在一个可选示例中，分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入至卷积神经网络后，卷积神经网络以当前训练样本中的后帧图像作为当前帧图像，根据各帧图像标定的行人信息，生成当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人信息与几何透视图，生成当前帧图像的人群速度图；比较卷积神经网络生成的人群密度图和人群速度图与被标注的人群密度图和人群速度图之间的偏差是否小于预设条件，或者卷积神经网络进行迭代训练的次数是否达到预设次数阈值；若上述偏差不小于预设条件或者迭代训练的次数未达到预设次数阈值，则对卷积神经网络的网络参数进行调整，然后继续该操作306，直至上述偏差小于预设条件或者迭代训练的次数达到预设次数阈值，对卷积神经网络的训练结束，获得最终的卷积神经网络。

可选地，上述样本视频中多个原始帧图像中的相邻两帧图像可以是连续的两帧原始图像，也可以是从连续的三帧以上的原始帧图像中顺序抽取的连续两帧原始图像，还可以是不连续的两帧原始图像，或从不连续的三帧以上的帧图像顺序抽取的两帧原始图像，或者还可以是原始图像的光流图像。在抽取的帧图像的数量大于两帧时，当前帧图像和前帧图像分别是在原始样本视频中位置靠后和靠前的两帧图像，不需要二者的帧序号连续。

其中一个可选示例中，卷积神经网络可以通过如下方式，生成当前帧图像的人群密度图：

根据当前帧图像中的行人信息，分别获取当前帧图像中至少一个位置的人群密度值；

根据当前帧图像中至少一个位置的人群密度值与几何透视图生成当前帧图像的人群密度图。

例如，根据各帧图像中的行人位置，分别在各帧图像中标注各行人位置后，可以获得帧图像中至少一个位置的人群密度值；通过如下公式可以计算获得帧图像中的人群密度图：

其中，D_t(p)表示在帧图像中p位置的人群密度值；

表示一个以人头标记P为中心的归一化的二维高斯分布在P位置的值；即：以一个高斯核来表示一个行人人头的位置)；σ_P表示高斯分布的方差，σ_P的值可以根据每个样本视频场景的几何透视图来确定，以保证每个人有着相同的物理尺寸。

在另一个可选示例中，卷积神经网络可以通过如下方式，生成当前帧图像的人群速度图：

根据当前帧图像中各行人在前帧图像和当前帧图像中的位置差、以及前帧图像和当前帧图像的对应的时刻差获取当前帧图像中各行人的移动速度；

根据当前帧图像中各行人的移动速度和行人位置，获取当前帧图像中至少一个位置的人群速度；

根据当前帧图像中至少一个位置的人群速度与几何透视图生成当前帧图像的人群速度图。

例如，可以通过以下公式计算获得帧图像中的人群速度图：

其中，V_t(p)表示在p位置的人群速度值；

表示标记人头标记P在当前帧图像中的移动速度，可根据相邻两帧图像的位置差

来得到；K(p；P,r_P)是一个圆盘型的函数，圆盘的中心是人头标记P，半径为r_P，半径r_P可以通过如下方式选取：

由几何透视图，将根据经验设定的人头的真实物理尺寸换算成对应位置的像素数，例如，半径r_P的取值可以根据经验选取为0.15m；K(p；P,r_P)＝1(p≤‖P-r_P‖²)。

308，分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至神经网络，以预先标注的人群计数图作为监督信号，对神经网络进行迭代训练，直至满足第二预设收敛条件，获得最终的神经网络。

在一个可选示例中，分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至神经网络后，由神经网络中的卷积神经网络以当前训练样本中的后帧图像作为当前帧图像，根据样本视频中各帧图像标定的行人信息与几何透视图，生成当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人信息与几何透视图，生成当前帧图像的人群速度图并输入至神经网络中的元素相乘网络；由元素相乘网络将卷积神经网络输入的当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得当前帧图像的人群计数图。比较元素相乘网络输出的人群计数图与预先标注的人群计数图之间的偏差是否小于预设条件，或者神经网络进行迭代训练的次数是否达到预设次数阈值；若上述偏差不小于预设条件或者迭代训练的次数未达到预设次数阈值，则对元素相乘网络的网络参数进行调整，然后继续执行该操作308，直至上述偏差小于预设条件或者迭代训练的次数达到预设次数阈值，对神经网络的训练结束，获得最终的元素相乘网络，从而获得最终的神经网络。

为了获得人群计数图，本申请上述各实施例中，先基于样本视频中多个原始帧图像中的至少两帧图像和几何透视图，获得帧图像的人群密度图和人群速度图，假设行人在两帧的密度分布和行走速度保持不变，将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘来获得帧图像的人群计数图，实现了人群计数图的便捷获取。

在本申请图3所示实施例中，引入深度学习的模型---神经网络，直接以原始视频作为训练样本视频，将其中的帧图像作为卷积神经网络的输入，并且利用语义信息丰富、像素级的人群密度图与被标注的人群密度图、人群计数图作为监督信号，并且，训练时基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，从而训练得到用于进行跨线计数的神经网络，具有高度的鲁棒性，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用，不存在时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，可以使得跨线计数结果更加客观、准确。

为了学习得到更好的神经网络，图3所示的实施例中，通过两个阶段对神经网络进行训练。第一个阶段对应于操作306，通过卷积神经网络对人群密度图和人群速度图分别给出估计，这是两个相对简单且语义信息相对明显的任务；第二阶段对应于操作308，通过元素相乘网络对人群计数图给出直接估计。

如图4所示，为本申请实施例中通过两个阶段对神经网络进行训练的一个示意图。将样本视频中的相邻两帧图像作为一个训练样本输入神经网络中的卷积神经网络，在第一阶段，由卷积神经网络输出人群密度图和人群速度图；将该人群密度图和人群速度图输入至神经网络中的元素相乘网络，在第二阶段，由元素相乘网络输出人群计数图。

值得注意的是，在完成第一阶段的训练后，我们已经可以利用人群密度和速度图相乘得到人群计数图，但是实际应用中，由于在第一阶段的训练过程中没有对人群密度图和速度图给出空间位置匹配约束，得到的人群密度图和速度图可能存在空间位置上不匹配的情况。由于第二阶段训练的目标是由第一阶段输出的两个人群密度图和人群速度在对应位置的元素相乘得到，本申请实施例通过第二阶段训练，对此空间位置上的不匹配进行了矫正，以便有效保证人群密度图和速度图在空间位置上的匹配；并且，在第二阶段利用人群计数图作为监督信号，更利于复杂神经网络的学习，使得训练得到的神经网络具有更强、更准确的计数能力。

在图3所示实施例的一个可选示例中，例如可以在满足以下任意一个或多个条件时，认为满足第一预设收敛条件：

针对各样本视频中的多个原始帧图像，卷积神经网络输出的人群密度图和人群速度图与预先标注的人群密度图和人群速度图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第一预设阈值，即：卷积神经网络输出的人群密度图与预先标注的人群密度图和人群速度图一致的图像的帧数与输入至卷积神经网络的样本视频中图像的帧数的比例达到第一预设阈值，同时，卷积神经网络输出的人群速度图与预先标注的人群速度图一致的图像的帧数与输入至卷积神经网络的样本视频中图像的帧数的比例达到第一预设阈值；

针对各样本视频中上述多个原始帧图像中的各帧图像，卷积神经网络输出的人群密度图与预先标注的人群密度图之间的相似度、卷积神经网络输出的人群速度图与预先标注的人群速度图之间的相似度大于第二预设阈值；

针对各样本视频中的上述多个原始帧图像，卷积神经网络输出的人群密度图与预先标注的人群密度图之间的平均相似度、卷积神经网络输出的人群速度图与预先标注的人群速度图之间的平均相似度大于第三预设阈值；

卷积神经网络进行迭代训练的次数达到第四预设阈值。

在图3所示实施例的另一个可选示例中，例如可以在满足以下任意一个或多个条件时，认为满足第二预设收敛条件：

针对各样本视频中上述多个原始帧图像，元素相乘网络输出的人群计数图与预先标注的人群计数图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第五预设阈值；

针对各样本视频中的各帧图像，元素相乘网络输出的人群计数图与预先标注的人群计数图之间的相似度大于第六预设阈值；

针对各样本视频中的所有帧图像，元素相乘网络输出的人群计数图与人工标注得到的人群计数图之间的平均相似度大于第七预设阈值；

神经网络第二部分进行迭代训练的次数达到第八预设阈值。

其中，可以根据实际需求，设置在满足包括但不限于以下任意一个或多个条件时，认为人群密度图与预先标注的人群密度图(或人群速度图与预先标注的人群速度图)一致：

卷积神经网络输出的人群密度图与预先标注的人群密度图(或卷积神经网络输出的人群速度图与预先标注的人群速度图)的图像特征相同；

预先标注的人群密度图的图像特征包括但多于卷积神经网络输出的人群密度图的图像特征(或预先标注的人群速度图的图像特征包括但多于卷积神经网络输出的人群速度图的图像特征)；

卷积神经网络输出的人群密度图与预先标注的人群密度图(或卷积神经网络输出的人群速度图与预先标注的人群速度图)的图像特征之间的相同特征达到一定数量或者预设的一定比例；

卷积神经网络输出的人群密度图与预先标注的人群密度图(或卷积神经网络输出的人群速度图与预先标注的人群速度图)的图像特征之间的相同特征满足其他预设条件。

另外，也可以根据实际需求，设置在满足包括但不限于以下任意一个或多个条件时，认为元素相乘网络输出的人群计数图与预先标注的人群计数图一致：

元素相乘网络输出的人群计数图与预先标注的人群密度图的图像特征相同；

预先标注的人群密度图的图像特征包括但多于元素相乘网络输出的人群计数图的图像特征；

元素相乘网络输出的人群计数图与预先标注的人群计数图的图像特征之间的相同特征达到一定数量或者预设的一定比例；

元素相乘网络输出的人群计数图与预先标注的人群计数图的图像特征之间的相同特征满足其他预设条件。

另外，在本申请各实施例的一个可选示例中，两个图之间的相似度，例如，卷积神经网络输出的人群密度图与预先标注的人群密度图之间的相似度，卷积神经网络输出的人群速度图与预先标注的人群速度图之间的相似度，元素相乘网络输出的人群计数图与预先标注的人群密度图之间的相似度，可以通过两图的欧式距离(L2)距离衡量。因此，可以先获取两个图之间的欧式距离，并比较该两个图之间的欧式距离是否大于预设阈值，来确认两个图之间的相似度是否大于该预设阈值。

另外，本申请上述实施例还提供了一种基于上述神经网络训练方法训练得到的神经网络进行视频中人群跨线计数的方法。

示例性地，基于上述神经网络训练方法训练得到的神经网络，可以通过本申请上述任一实施例的跨线计数方法实施例，对视频中人群进行跨线计数。此处不再赘述。

通过本申请上述神经网络训练方法训练得到的神经网络后，可以基于该神经网络获取视频中帧图像的人群计数图，以便进行视频中人群跨线计数。将需要进行跨线计数的视频的原始帧图像输入该神经网络，该神经网络便可以通过但不限于如本申请上述任一实施例记载的操作输出帧图像的人群计数图。另外，本申请上述实施例的跨线计数方法使用的神经网络可以基于本申请上述任一实施例的神经网络训练方法获得，也可以通过其他的训练方法获得，只要训练得到的神经网络可以针对输入的原始帧图像输出帧图像的人群计数图即可。

本申请实施例提供的任一种跨线计数方法和神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种跨线计数方法和神经网络训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种跨线计数方法和神经网络训练方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述物体检测方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本申请跨线计数装置一个实施例的结构示意图。该实施例的跨线计数装置可用于实现本申请上述各跨线计数方法实施例。如图5所示，该实施例的跨线计数装置包括：第一获取单元，第二获取单元和第三获取单元。其中：

第一获取单元，作为神经网络，用于接收需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，输出原始帧图像的人群计数图。

其中，人群计数图中包括帧图像中至少一个位置的计数向量，该计数向量用于表示多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向(例如二维坐标平面的两个坐标方向)分别通过的人数。

示例性地，第一获取单元，可选用于依次从视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。

第二获取单元，用于分别以多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过该LOI的人数，例如可以获取当前帧图像从一个方向通过该LOI的人数，也可以获取当前帧图像分别从两个方向通过LOI的人数。

示例性地，第二获取单元可选可用于分别将人群计数图中在该LOI上至少一个位置的计数向量在该LOI的法线方向进行投影，获得该LOI上至少一个位置的标量值，该标量值的正负表示LOI的两个方向；以及分别对该LOI上的正标量值和负标量值进行累加，获得当前帧图像在LOI上的两个方向分别通过的人数。

第三获取单元，用于分别累积上述至少一个方向上多个原始帧图像通过上述LOI的人数，获得待分析时间段T内，该LOI在上述至少一个方向上的跨线人数。

示例性地，第二获取单元获取当前帧图像从一个方向通过LOI的人数时，第三获取单元相应累积该方向上上述多个原始帧图像中的各帧图像通过该LOI的人数，获得待分析时间段T内，该LOI在该方向上的跨线人数。第二获取单元获取当前帧图像分别从两个方向通过该LOI的人数时，第三获取单元分别累积这两个方向上上述多个原始帧图像中的各帧图像通过该LOI的人数，获得待分析时间段T内，该LOI分别在这两个方向上的跨线人数。

基于本申请实施例的人群跨线计数装置，通过神经网络分别获取视频中与待分析时间段T对应的各帧图像的人群计数图，分别针对各帧图像，根据人群计数图获取从至少一个方向通过LOI的人数，并分别累积至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内LOI在至少一个方向上的跨线人数。由于本申请实施例直接以原始视频中的各帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用；并且，本申请实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，有利于提高跨线计数结果的客观性和准确性。

图6为本申请跨线计数装置另一个实施例的结构示意图。如图6所示，与图5所示的实施例相比，该实施例的跨线计数装置中，第一获取单元可选包括卷积神经网络和元素相乘网络。其中：

卷积神经网络，用于接收输入的至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群密度图和人群速度图。其中，人群密度图用于表示当前帧图像中至少一个位置的人群密度，人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度。

示例性地，卷积神经网络生成当前帧图像的人群密度图时，可用于根据当前帧图像中的行人信息，分别获取当前帧图像中至少一个位置的人群密度值；以及根据当前帧图像中至少一个位置的人群密度值生成当前帧图像的人群密度图；生成当前帧图像的人群速度图时，可用于根据当前训练样本中当前帧图像中各行人在前帧图像和当前帧图像中的位置差、以及前帧图像和当前帧图像的对应的时刻差获取当前帧图像中各行人的移动速度；根据当前帧图像中各行人的移动速度和行人位置，获取当前帧图像中至少一个位置的人群速度；以及根据当前帧图像中至少一个位置的人群速度生成当前帧图像的人群速度图。

元素相乘网络，用于将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得当前帧图像的人群计数图。

进一步地，再参见图6，在本申请跨线计数装置的另一个实施例中，还可以包括计算单元，用于对LOI在两个方向上的跨线人数进行累加，获得待分析时间段T内，通过该LOI的跨线总人数。

图7为本申请神经网络训练装置一个实施例的结构示意图。本申请各实施例的神经网络训练装置可用于实现本申请上述各神经网络训练方法实施例。如图7所示，该实施例的神经网络训练装置包括网络训练单元，用于将样本视频的多个原始帧图像输入至神经网络，以样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对神经网络进行迭代训练直至满足预设条件，获得最终的神经网络。其中的神经网络包括CNN和元素相乘网络。

基于本申请上述实施例提供的神经网络训练装置，将原始的样本视频输入至神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对神经网络进行迭代训练直至满足预设条件，以便基于训练好的神经网络进行人群跨线计数。由于该神经网络直接以原始视频中的原始帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，可以避免视频中人群密度较大、人群移动速度低或静止不动、或者监控摄像头视角比较低等情形时，时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，对于人群密度较大、人群移动速度低或静止不动的情形同样适用，并且可以跨场景应用；并且，本申请实施例训练神经网络时基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，有利于提高跨线计数结果的客观性和准确性。

在上述神经网络训练装置实施例的一个可选示例中，多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图。相应地，该实施例中，网络训练单元可示例性地通过如下方式对神经网络进行训练：

分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至卷积神经网络，以该训练样本预先标注的人群密度图和人群速度图作为监督信号，对卷积神经网络进行迭代训练直至满足第一预设收敛条件，获得最终的卷积神经网络；以及

分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入神经网络，以该训练样本预先标注的人群计数图作为监督信号，对神经网络进行迭代训练直至满足第二预设收敛条件，获得最终的神经网络。

其中，对神经网络的训练过程、满足第一预设收敛条件、以及满足第二预设收敛条件的实现，可以参考上述图3所示实施例的记载，此处不再赘述。

本申请实施例还提供了一种电子设备，包括本申请上述任一实施例提供的跨线计数装置、或者神经网络训练装置。

可选地，本申请实施例的电子设备可以是任意具有数据处理功能的设备，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

另外，本申请实施例还提供了另一种电子设备，包括：处理器和本申请上述任一实施例的跨线计数装置；在处理器运行本申请上述任一实施例的跨线计数装置时，本申请上述任一实施例的跨线计数装置中的单元被运行。

另外，本申请实施例还提供了又一种电子设备，包括：

处理器和本申请上述任一实施例的神经网络训练装置；

在处理器运行本申请上述任一实施例的神经网络训练装置时，本申请上述任一实施例的神经网络训练装置中的单元被运行。

另外，本申请实施例还提供了再一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行本申请上述任一实施例方法对应的操作。

参照图8，示出了根据本申请种电子设备一实施例的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。如图8所示，该电子设备可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。其中：

处理器、通信接口、以及存储器通过通信总线完成相互间的通信。

通信接口，用于与其它设备比如其它客户端或服务器等的网元通信。

处理器可能是中央处理器(CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路，或者是图形处理器(Graphics Processing Unit，GPU)。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

存储器，用于至少一可执行指令，该可执行指令使处理器执行如本申请上述任一实施例跨线计数方法和神经网络训练方法对应的操作。存储器可能包含高速随机存取存储器 (random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。图9为本申请电子设备一个实施例的结构示意图。如图9所示，用于实现本申请实施例的电子设备包括中央处理单元(CPU)或者图形处理单元(GPU)，其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本申请实施例提供的跨线计数方法对应的操作，例如：向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述神经网络输出所述多个原始帧图像的人群计数图；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过所述LOI的人数；分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数。另外，中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本申请实施例提供的神经网络训练方法对应的操作，例如：将样本视频的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件；所述神经网络包括卷积神经网络和元素相乘网络。

此外，在RAM中，还可存储有系统操作所需的各种程序和数据。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要预先安装入存储部分。

另外，本申请实施例还提供了一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，该设备中的处理器执行用于实现本申请上述任一实施例方法中各步骤的指令。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，所述程序代码可包括对应执行本申请实施例提供的任一项跨线计数方法步骤对应的指令，例如，向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述神经网络输出所述多个原始帧图像的人群计数图的指令；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过所述LOI的人数的指令；分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数的指令。所述程序代码还可包括对应执行本申请实施例提供的任一项神经网络训练方法步骤对应的指令，例如，将样本视频中的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件的指令；所述神经网络包括卷积神经网络和元素相乘网络。该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)或图形处理单元(GPU)执行时，执行本申请的方法中限定的上述功能。

本申请实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本申请上述任一实施例方法中各步骤的操作。在其中一个可选示例中，所述指令包括：向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述神经网络输出所述多个原始帧图像的人群计数图的指令；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过所述LOI的人数的指令；分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的跨线人数的指令。或者，所述指令包括：将样本视频中的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件的指令；所述神经网络包括卷积神经网络和元素相乘网络。

本申请实施例可以应用于所有需要进行人群流量统计的场景，例如：

场景1:需要统计地铁出入口在待分析时间段T的跨线人数时，通过监控摄像头采集地铁各出入口的视频，分别以地铁各出入口作为LOI，将地铁各出入口在待分析时间段T的视频输入至本申请实施例的神经网络，通过本申请实施例的跨线计数方法，即可获得地铁各出入口在待分析时间段T的跨线人数，从而实现对各出入口的人流情况进行统计、分析，可以对地铁运营负荷给出估计，方便优化车辆调度并合理管控人流保障旅客安全和顺利出行；

场景2:针对城市群众游行，通过街道监控摄像头采集游行街道的视频，在游行街道上宽度方向设置LOI，将游行街道在LOI上上待分析时间段T的视频输入至本申请实施例的神经网络，通过本申请实施例的跨线计数方法，即可获得给出参加游行人数及人群移动状态，方便调配警力保障游行有序和公众安全；

场景3:针对景区或者公共体育场馆，亦可通过监控摄像头采集景区或者公共体育场馆的视频，在景区或场馆的出入口设置LOI，将景区或者公共体育场馆的视频输入至本申请实施例的神经网络，通过本申请实施例的跨线计数方法，即可对进出景区或场馆的人群进行统计，从而合理管控人流，避免过于拥挤发生踩踏事故等危险。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于装置、设备实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法、装置和设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法、装置和设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上可选描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上可选描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种跨线计数方法，其特征在于，包括：

向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述神经网络输出所述多个原始帧图像的人群计数图；所述人群计数图中包括帧图像中至少一个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据所述当前帧图像的人群计数图，获取所述当前帧图像从至少一个方向通过所述LOI的人数；

分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数。
根据权利要求1所述的方法，其特征在于，所述计数方向包括二维坐标平面的两个坐标方向。
根据权利要求1或2所述的方法，其特征在于，所述获取所述当前帧图像从至少一个方向通过所述LOI的人数，包括：获取所述当前帧图像分别从两个方向通过所述LOI的人数；

所述分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数，包括:

分别累积所述两个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述两个方向上的跨线人数。
根据权利要求1至3任意一项所述的方法，其特征在于，所述向神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像之后，还包括：

所述神经网络依次从所述视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以所述至少两帧图像中的后帧图像作为当前帧图像，生成所述当前帧图像的人群计数图。
根据权利要求4所述的方法，其特征在于，所述生成所述当前帧图像的人群计数图包括：

利用所述神经网络中的卷积神经网络，生成所述当前帧图像的人群密度图和人群速度图；所述人群密度图用于表示所述当前帧图像中至少一个位置的人群密度，所述人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到所述当前帧图像的速度；

利用所述神经网络中的元素相乘网络，将所述当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得所述当前帧图像的人群计数图。
根据权利要求3至5任意一项所述的方法，其特征在于，所述获取所述当前帧图像分别从两个方向通过所述LOI的人数，包括：

分别将所述人群计数图中在所述LOI上至少一个位置的计数向量在所述LOI的法线方向进行投影，获得所述LOI上至少一个位置的标量值，所述标量值的正负表示所述LOI的两个方向；

分别对所述LOI上的正标量值和负标量值进行累加，获得所述当前帧图像在所述LOI的两个方向分别通过的人数。
根据权利要求3至6任意一项所述的方法，其特征在于，还包括：

对所述LOI在所述两个方向上的跨线人数进行累加，获得所述待分析时间段T内，通过所述LOI的跨线总人数。
一种神经网络训练方法，其特征在于，包括：

将样本视频的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件；所述神经网络包括卷积神经网络和元素相乘网络。
根据权利要求8所述的方法，其特征在于，所述多个原始帧图像分别标注有人群密度图和人群速度图、人群计数图；

所述将样本视频的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件，包括：

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至所述卷积神经网络，以所述训练样本预先标注的人群密度图和人群速度图作为监督信号，对所述卷积神经网络进行迭代训练直至满足第一预设收敛条件；以及

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入所述神经网络，以所述训练样本预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足第二预设收敛条件。
根据权利要求9所述的方法，其特征在于，还包括：

分别针对所述多个原始帧图像中的各帧图像进行行人定位，获得各帧图像中的行人位置并对各行人分别分配行人标识ID，其中，行人ID用于在所述视频中唯一标识一个行人；

分别在所述各帧图像标定各行人的行人信息，所述行人信息包括行人位置与行人ID。
根据权利要求10所述的方法，其特征在于，还包括：

预先针对所述样本视频的场景设置所述样本视频的几何透视图；所述几何透视图包括所述样本视频中不同位置的像素数与所述场景的真实物理尺寸之间的对应关系；

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至所述卷积神经网络之后，还包括：

所述卷积神经网络以当前训练样本中的后帧图像作为当前帧图像，根据所述各帧图像标定的行人信息与所述几何透视图，生成所述当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人信息与所述几何透视图，生成所述当前帧图像的人群速度图。
根据权利要求11所述的方法，其特征在于，所述生成所述当前帧图像的人群密度图，包括：

根据所述当前帧图像中的行人信息与所述几何透视图，分别获取所述当前帧图像中至少一个位置的人群密度值；

根据所述当前帧图像中至少一个位置的人群密度值生成所述当前帧图像的人群密度图。
根据权利要求11或12所述的方法，其特征在于，所述生成所述当前帧图像的人群速度图，包括：

根据当前训练样本中当前帧图像中各行人在前帧图像和当前帧图像中的位置差、以及所述前帧图像和所述当前帧图像的对应的时刻差，获取所述当前帧图像中各行人的移动速度；

根据所述当前帧图像中各行人的移动速度和行人位置，获取所述当前帧图像中至少一个位置的人群速度；

根据所述当前帧图像中至少一个位置的人群速度与所述几何透视图，生成所述当前帧图像的人群速度图。
根据权利要求9至13任意一项所述的方法，其特征在于，所述满足第一预设收敛条件，包括：

针对所述多个原始帧图像，所述卷积神经网络输出的人群密度图和人群速度图与预先标注的人群密度图和人群速度图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第一预设阈值；和/或

针对所述多个原始帧图像中的各帧图像，所述卷积神经网络输出的人群密度图与预先标注的人群密度图之间的相似度、所述卷积神经网络输出的人群速度图与预先标注的人群速度图之间的相似度大于第二预设阈值；和/或

针对所述多个原始帧图像，所述卷积神经网络输出的人群密度图与预先标注的人群密度图之间的平均相似度、所述卷积神经网络输出的人群速度图与预先标注的人群速度图之间的平均相似度大于第三预设阈值；和/或

所述卷积神经网络进行迭代训练的次数达到第四预设阈值。
根据权利要求9至13任意一项所述的方法，其特征在于，所述满足第二预设收敛条件包括：

针对所述多个原始帧图像，所述元素相乘网络输出的人群计数图与预先标注的人群计数图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第五预设阈值；和/或

针对所述多个原始帧图像中的各帧图像，所述元素相乘网络输出的人群计数图与预先标注的人群计数图之间的相似度大于第六预设阈值；和/或

针对所述多个原始帧图像，所述元素相乘网络输出的人群计数图与预先标注得到的人群计数图之间的平均相似度大于第七预设阈值；和/或

所述神经网络第二部分进行迭代训练的次数达到第八预设阈值。
一种基于权利要求8至15任一所述的神经网络训练方法训练得到的神经网络进行视频中人群跨线计数的方法。
一种跨线计数装置，其特征在于，包括：

第一获取单元，作为神经网络，用于接收需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，输出所述原始帧图像的人群计数图；所述人群计数图中包括帧图像中至少一个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

第二获取单元，用于分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据所述当前帧图像的人群计数图，获取所述当前帧图像从至少一个方向通过所述LOI的人数；

第三获取单元，用于分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI在所述至少一个方向上的跨线人数。
根据权利要求17所述的装置，其特征在于，所述计数方向包括二维坐标平面的两个坐标方向。
根据权利要求17或18所述的装置，其特征在于，所述第二获取单元用于获取所述当前帧图像分别从两个方向通过所述LOI的人数；

所述第三获取单元用于分别累积所述两个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述两个方向上的跨线人数。
根据权利要求17至19任意一项所述的装置，其特征在于，所述第一获取单元用于依次从所述视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以所述至少两帧图像中的后帧图像作为当前帧图像，生成所述当前帧图像的人群计数图。
根据权利要求20所述的装置，其特征在于，所述第一获取单元包括：

卷积神经网络，用于接收输入的至少两帧图像，以所述至少两帧图像中的后帧图像作为当前帧图像，生成所述当前帧图像的人群密度图和人群速度图；所述人群密度图用于表示所述当前帧图像中至少一个位置的人群密度，所述人群速度图用于表示所述当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度；

元素相乘网络，用于将所述当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得所述当前帧图像的人群计数图。
根据权利要求17至21任意一项所述的装置，其特征在于，第二获取单元用于：

分别将所述人群计数图中在所述LOI上至少一个位置的计数向量在所述LOI的法线方向进行投影，获得所述LOI上至少一个位置的标量值，所述标量值的正负表示所述LOI的两个方向；以及

分别对所述LOI上的正标量值和负标量值进行累加，获得所述当前帧图像在所述LOI的两个方向分别通过的人数。
根据权利要求19至22任意一项所述的装置，其特征在于，还包括：

计算单元，用于对所述LOI在所述两个方向上的跨线人数进行累加，获得所述待分析时间段T内，通过所述LOI的跨线总人数。
一种神经网络训练装置，其特征在于，包括：

网络训练单元，用于将样本视频的多个原始帧图像输入至神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足预设条件；所述神经网络包括卷积神经网络CNN和元素相乘网络。
根据权利要求24所述的装置，其特征在于，所述多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图；

所述网络训练单元用于：

分别所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至所述卷积神经网络，以所述训练样本预先标注的人群密度图和人群速度图作为监督信号，对所述卷积神经网络进行迭代训练直至满足第一预设收敛条件；以及

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入所述神经网络，以所述训练样本预先标注的人群计数图作为监督信号，对所述神经网络进行迭代训练直至满足第二预设收敛条件。
根据权利要求25所述的装置，其特征在于，所述样本视频的场景被预先标注几何透视图，所述几何透视图包括所述样本视频中不同位置的像素数与所述场景的真实物理尺寸之间的对应关系；所述多个原始帧图像中被预先标定各行人的行人信息，所述行人信息包括行人位置与行人ID，行人ID唯一标识一个行人；

所述卷积神经网络，用于以当前训练样本中的后帧图像作为当前帧图像，根据各帧图像标定的行人信息与所述几何透视图，生成所述当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人与所述几何透视图，生成所述当前帧图像的人群速度图。
根据权利要求26所述的装置，其特征在于，所述卷积神经网络生成当前帧图像的人群密度图时，用于根据当前帧图像中的行人信息与所述几何透视图，分别获取所述当前帧图像中至少一个位置的人群密度值；以及根据所述当前帧图像中至少一个位置的人群密度值生成所述当前帧图像的人群密度图。
根据权利要求25至27任意一项所述的装置，其特征在于，所述卷积神经网络生成所述当前帧图像的人群速度图时，用于：

根据当前训练样本中当前帧图像中各行人在前帧图像和所述当前帧图像中的位置差、以及所述前帧图像和所述当前帧图像的对应的时刻差，获取所述当前帧图像中各行人的移动速度；

根据所述当前帧图像中各行人的移动速度和行人位置，获取所述当前帧图像中至少一个位置的人群速度；

根据所述当前帧图像中至少一个位置的人群速度与所述几何透视图，生成所述当前帧图像的人群速度图。
一种电子设备，其特征在于，包括：权利要求17至23任意一项所述的跨线计数装置；或者权利要求24至28任意一项所述的神经网络训练装置。
一种电子设备，其特征在于，包括：

处理器和权利要求17至23任意一项所述的跨线计数装置；

在处理器运行权利要求17至23任意一项所述的跨线计数装置时，权利要求17至23任意一项所述的跨线计数装置中的单元被运行。
一种电子设备，其特征在于，包括：

处理器和权利要求24至28任意一项所述的神经网络训练装置；

在处理器运行权利要求24至28任意一项所述的神经网络训练装置时，权利要求24至28任意一项所述的神经网络训练装置中的单元被运行。
一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行权利要求1-16任一所述方法对应的操作。
一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-16任一所述方法中各步骤的指令。
一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-16任一所述方法中各步骤的操作。