WO2020147410A1

WO2020147410A1 - 行人检测方法、系统、计算机设备及计算机可存储介质

Info

Publication number: WO2020147410A1
Application number: PCT/CN2019/118471
Authority: WO
Inventors: 贾雪丽; 程宁; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-14
Filing date: 2019-11-14
Publication date: 2020-07-23
Also published as: CN109902556A

Abstract

一种行人检测方法，所述方法包括：将待检测图片输入到所述YOLO神经网络；通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作；通过预设的B个行人预测框在2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及根据所述输出张量获取所述待检测图片中的行人及行人所在位置。本方法可以有效提高小物体的预测准确性。

Description

行人检测方法、系统、计算机设备及计算机可存储介质

本申请申明2019年01月14日递交的申请号为201910031726.4、名称为“行人检测方法、系统、计算机设备及计算机可存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请实施例涉及计算机数据处理领域，尤其涉及一种行人检测方法、系统、计算机设备及非易失性计算机可读存储介质。

背景技术

近年来，深度卷积网络推动目标分类、目标检测、语义分割等领域取得了巨大的发展。其中，行人检测技术成为了计算机视觉领域的一个研究热点问题。行人检测技术可以应用在视频监控、智能辅助驾驶、行人分析以及智能机器人等领域，对人们的生活产生了深远的影响。

行人检测技术一类解决方案是基于梯度方向直方图(Histogram Of Gradient，HOG)进行改进的。但是这种行人检测技术的检测精度主要依赖于研究人员的特征的设计，但设计出优秀的特征即使对于有扎实的专业基础的研究者来说也是十分困难的。另一类解决方案是，随着深度学习技术的兴起，本领域技术人员开始使用深度卷积网络自动的在数据集中提取特征，从而有效地避免了传统方法中依靠研究人员手工设计特征，有效地提高了检测的精度。

例如，基于YOLO(You Only Look Once)v1、YOLOv2等神经网络，其凭借检测速度快、准确度高等优点开始被人们重视并应用于行人检测技术中。然而，发明人发现基于上述神经网络的检测技术，对小目标的检测能力较差。

发明内容

有鉴于此，本申请实施例的目的是提供一种行人检测方法、系统、计算机设备及非易失性计算机可读存储介质，可以有效解决对小目标的检测能力较差的技术问题。

为实现上述目的，本申请实施例提供了一种基于YOLO神经网络的行人检测方法，所述方法包括：

将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图，所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图；

通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及

根据所述输出张量获取所述待检测图片中的行人及行人所在位置。

为实现上述目的，本申请实施例还提供了行人检测系统，包括：

输入模块，用于将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

特征提取模块，用于通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图，所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图；

行人预测框处理模块，用于通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及

获取模块，用于根据所述输出张量获取所述待检测图片中的行人及行人所在位置。

为实现上述目的，本申请实施例还提供了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层还耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

为实现上述目的，本申请实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

本申请实施例提供的行人检测方法、系统、计算机设备及非易失性计算机可读存储介质，通过新增一个包括第M+1个池化层和第N+1的支线，该支线在YOLO神经网络的卷积中间过程中提取待检测图片的特征，用于保留更多小目标的信息，从而有效提高了小物体的预测准确性。

附图说明

图1为本申请行人检测方法实施例一的流程图。

图2为本申请行人检测方法实施例二的流程图。

图3为本申请行人检测方法实施例二中YOLO神经网络的结构示意图。

图4为本申请行人检测系统实施例三的程序模块示意图。

图5为本申请计算机设备实施例四的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

以下实施例将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1，示出了本申请实施例一之基于YOLO神经网络的行人检测方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S100，将待检测图片输入到所述YOLO神经网络。

所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层。

进一步的，预先配置所述YOLO神经网络：所述主线包括依顺序耦合的第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层、第五池化层、第六组卷积层，所述第四池化层之后还耦合有所述支线，所述支线包括依序耦合的第六池化层和第七组卷积层，其中，依序耦合的所述第五组卷积层、第五池化层和第六组卷积层与依序耦合的第六池化层和第七组卷积层之间为并联关系。

步骤102，通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图。

所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图。

步骤104，通过预设的B个行人预测框(anchor box)在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率。

为所述2A个x*y卷积特征图中的每个网格配置B个行人预测框，获取每个网格上对应的B个行人预测框的(5+C)的向量；

其中，“5”表示单个网格对应其中一个行人预测框所预测得到的4个坐标值(t _x、t _y、t _w、t _h)和1个置信度t _o，t _o表示该单个网格对应的行人预测框中是否存在物体，C表示该单个网格对应的行人类别的条件类别概率。

步骤106，根据所述输出张量获取所述待检测图片中的行人及行人所在位置。

根据每个网格上对应的B个行人预测框的(5+C)的向量，预测每个网格上对应的B个边界框(bounding box)的边界框数据，所述边界框数据包括每个边界框在所述待检测图片中的位置、尺寸和行人类别的行人类别概率；其中，预测每个网格上对应的B个边界框的边界框数据的计算公式包括：

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

其中，σ为sigmoid函数，用于将边界框的偏移值维持在(0,1)范围内，使得边界框的中心位置被约束在相应的网格内，防止偏移过多；t _x：预测边界框中心点距所在网格左边的距离；t _y：预测边界框中心点距所在网格上边的距离；c _x、c _y为该网格距离所述待检测图片左上角的位置偏移，每个网格的长和宽为1；p _w、p _h为行人预测框的宽度和长度；t _w：预测边界框的宽度，除以所述待检测图片宽度归一化后的值；t _h：预测边界框的高度，除以所述待检测图片高度归一化后的值；Pr(object)：行人类别的条件类别概率；b _x、b _y为边界框的坐标信息；b _w、b _h为边界框的尺寸信息；

为边界框和实际边界框的交并比，所述交并比为交集部分面积和并集部分面积之比；σ(t _o)为边界框对行人类别的行人类别概率。

IOU＝交集部分面积/并集部分面积，边界框和实际边界框完全重合时IOU＝1，不相交时IOU＝0，即用于体现了预测的边界框与真实边界框的接近程度。

通过每个网格对应的B个边界框对应的B个行人类别概率，得到x*y*B个边界框对应的x*y*B个行人类别概率，选择大于预设阈值的一个或多个目标边界框。

在一实施例中，还包括步骤：通过损失函数得到所述YOLO神经网络实际输出和样本标签值之间的偏差，用于训练所述YOLO神经网络。

为判断网格i的第j个边界框是否负责这个物体，是则取1，否则取0。

为判断有物体的中心落在网格i中，网格中包含有物体的中心，则负责预测该物体的行人类别概率。

为判断网格i的第j个边界框中不存在物体。

λ _coord为坐标损失权重，取5，λ _noobj为置信度损失权重，取0.5。

在式(1)和式(2)为坐标预测部分，式(3)为含物体的边界框的置信度预测部分，式(4)为不含物体的边界框的置信度预测部分，式(5)为行人类别预测部分。

实施例二

参阅图2，示出了本申请实施例二之基于YOLO神经网络的行人检测方法的步骤流程图。

步骤S200，配置YOLO神经网络。

所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层、第五池化层、第六组卷积层。所述第四池化层之后还耦合所述支线，所述支线包括依序耦合的第六池化层和第七组卷积层。因此，依序耦合的所述第五组卷积层、第五池化层和第六组卷积层与依序耦合的第六池化层和第七组卷积层为并联关系。

具体的，如图3所示：

所述第一组卷积层包括：由32个3X3卷积核组成的第一卷积层；

所述第一池化层包括：步长为2的池化层；

所述第二组卷积层包括：由64个3X3卷积核组成的第二卷积层；

所述第二池化层包括：步长为2的池化层；

所述第三组卷积层包括依序耦合的：由128个3X3卷积核组成的第三卷积层、由64个1X1卷积核组成的第四卷积层、由128个3X3卷积核组成的第五卷积层；

所述第三池化层包括：步长为2的池化层；

所述第四组卷积层包括依序耦合的：由256个3X3卷积核组成的第六卷积层、由128个1X1卷积核组成的第七卷积层、由256个3X3卷积核组成的第八卷积层；

所述第四池化层包括：步长为2的池化层；

所述第五组卷积层包括依序耦合的：由512个3X3卷积核组成的第九卷积层、由256个1X1卷积核组成的第十卷积层、由512个3X3卷积核组成的第十一卷积层、由256个1X1卷积核组成的第十二卷积层、由512个3X3卷积核组成的第十三卷积层；

所述第五池化层包括：步长为2的池化层；

所述第六组卷积层包括依序耦合的：由1024个3X3卷积核组成的第十四卷积层、由512个1X1卷积核组成的第十五卷积层、由1024个1X1卷积核组成的第十六卷积层、由512个1X1卷积核组成的第十七卷积层、由1024个3X3卷积核组成的第十八卷积层、由1024个3X3卷积核组成的第十九卷积层、由1024个3X3卷积核组成的第二十卷积层、由1024个3X3卷积核组成的第二十一卷积层、由125个1X1卷积核组成的第二十二卷积层；

所述第六池化层：步长为2的池化层；

所述第七组卷积层包括依序耦合的：由125个1X1卷积核组成的第二十三卷积层。

步骤S202，将416*416像素规格的待检测图片输入到所述YOLO神经网络。

步骤204，通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到250个13*13卷积特征图。

所述250个卷积特征图包括所述第二十二卷积层输出125个13*13卷积特征图以及所述第二十三卷积层输出125个13*13卷积特征图。

步骤206，通过5个行人预测框在所述250个13*13卷积特征图上做卷积操作，输出13*13*5*(5+C)的输出张量，C表示C个条件类别概率。

5个行人预测框为根据不同的面积比例和长宽比例的5个先验框。

每个13*13卷积特征图由13*13个网格组成。

为所述250个13*13卷积特征图中的每个网格配置5个行人预测框，获取每个网格上对应的5个行人预测框的(5+C)的向量。

步骤208，根据所述输出张量获取所述待检测图片中的行人及行人所在位置。

根据每个网格上对应的5个行人预测框的(5+C)的向量，预测每个网格上对应的5个边界框(bounding box)的边界框数据，所述边界框数据包括每个边界框在所述待检测图片中的位置、尺寸和行人类别的行人类别概率。

通过每个网格对应的5个边界框对应的5个行人类别概率，得到13*13*5个边界框对应的13*13*5个行人类别概率，选择大于预设阈值的一个或多个目标边界框。

实施例三

请继续参阅图4，示出了本申请行人检测系统实施例三的程序模块示意图。在本实施例中，行人检测系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请，并可实现上述行人检测方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。以下描述将具体介绍本实施例各程序模块的功能：

输入模块200，用于将待检测图片输入到所述YOLO神经网络。

特征提取模块202，用于通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图。

行人预测框处理模块204，用于通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率。

具体的，行人预测框处理模块204，用于：为所述2A个x*y卷积特征图中的每个网格配置B个行人预测框，获取每个网格上对应的B个行人预测框的(5+C)的向量。也即，将行人预测框在x*y卷积特征图上做滑窗操作，每个滑到一对应网格处，得到相应的向量。

“5”表示单个网格对应其中一个行人预测框所预测得到的4个坐标值(t _x、t _y、t _w、t _h)和1个置信度t _o，t _o表示该单个网格对应的行人预测框中是否存在物体，C表示该单个网格对应的行人类别的条件类别概率。

获取模块206，用于根据所述输出张量获取所述待检测图片中的行人及行人所在位置。

具体的，获取模块206用于：

根据每个网格上对应的B个行人预测框的(5+C)的向量，预测每个网格上对应的B个边界框的边界框数据，所述边界框数据包括每个边界框在所述待检测图片中的位置、尺寸和行人类别的行人类别概率；其中，预测每个网格上对应的B个边界框的边界框数据的计算公式包括：

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

其中，σ为sigmoid函数；t _x：预测边界框中心点距所在网格左边的距离；t _y：预测边界框中心点距所在网格上边的距离；c _x、c _y为该网格距离所述待检测图片左上角的位置偏移，每个网格的长和宽为1；p _w、p _h为行人预测框的宽度和长度；t _w：预测边界框的宽度，除以所述待检测图片宽度归一化后的值；t _h：预测边界框的高度，除以所述待检测图片高度归一化后的值；Pr(object)：行人类别的条件类别概率；

在一实施例中：

还包括配置模块208，用于配置所述YOLO神经网络；

所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层、第五池化层、第六组卷积层。所述第四池化层之后还耦合所述支线，所述支线包括依序耦合的第六池化层和第七组卷积层。因此，依序耦合的所述第五组卷积层、第五池化层和第六组卷积层与依序耦合的第六池化层和第七组卷积层为并联关系。。

进一步：

所述第一池化层包括：步长为2的池化层；

所述第二池化层包括：步长为2的池化层；

所述第三池化层包括：步长为2的池化层；

所述第四组卷积层包括依序耦合的：由256个3X3卷积核组成的第六卷积层、由256个1X1卷积核组成的第七卷积层、由256个3X3卷积核组成的第八卷积层；

所述第四池化层包括：步长为2的池化层；

所述第五组卷积层包括依序耦合的：由512个3X3卷积核组成的第九卷积层、由128个1X1卷积核组成的第十卷积层、由512个3X3卷积核组成的第十一卷积层、由256个1X1卷积核组成的第十二卷积层、由512个3X3卷积核组成的第十三卷积层；

所述第五池化层包括：步长为2的池化层；

所述第六池化层：步长为2的池化层；

在一实施例中：

还包括训练模块210，用于：

通过损失函数得到所述YOLO神经网络实际输出和样本标签值之间的偏差，用于训练所述YOLO神经网络。

实施例四

参阅图5，是本申请实施例四之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及行人检测系统20。其中：

本实施例中，存储器21至少包括一种类型的非易失性计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例五的行人检测系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行行人检测系统20，以实现实施例一或二的行人检测方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图5仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述行人检测系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本申请。

例如，图4示出了所述实现行人检测系统20实施例四的程序模块示意图，该实施例中，所述基于行人检测系统20可以被划分为输入模块200、特征提取模块202、行人预测框处理模块204、获取模块206、配置模块208和训练模块210。其中，本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。所述程序模块200-210的具体功能在实施例三中已有详细描述，在此不再赘述。

实施例五

本实施例还提供一种非易失性计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机可读指令，程序被处理器执行时实现相应功能。本实施例的非易失性计算机可读存储介质用于存储行人检测系统20，被处理器执行如下步骤：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于YOLO神经网络的行人检测方法，所述方法包括：

将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层还耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图，所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图；

通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及

根据所述输出张量获取所述待检测图片中的行人及行人所在位置。
根据权利要求1所述的行人检测方法，将待检测图片输入到所述YOLO神经网络的步骤之前，还包括：

配置所述YOLO神经网络；

其中，所述主线包括依顺序耦合的第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层、第五池化层、第六组卷积层，所述第四池化层之后还耦合有所述支线，所述支线包括依序耦合的第六池化层和第七组卷积层，其中，依序耦合的所述第五组卷积层、第五池化层和第六组卷积层与依序耦合的第六池化层和第七组卷积层之间为并联关系。
根据权利要求2所述的行人检测方法，通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量的步骤，包括：

为所述2A个x*y卷积特征图中的每个网格配置B个行人预测框，获取每个网格上对应的B个行人预测框的(5+C)的向量；

其中，“5”表示单个网格对应其中一个行人预测框所预测得到的4个坐标值(t _x、t _y、t _w、t _h)和1个置信度t _o，t _o表示该单个网格对应的行人预测框中是否存在物体，C表示该单个网格对应的行人类别的条件类别概率。
根据权利要求3所述的行人检测方法，根据所述输出张量获取所述待检测图片中的行人及行人所在位置的步骤，包括：

根据每个网格上对应的B个行人预测框的(5+C)的向量，预测每个网格上对应的B个边界框的边界框数据，所述边界框数据包括每个边界框在所述待检测图片中的位置、尺寸和行人类别的行人类别概率；其中，预测每个网格上对应的B个边界框的边界框数据的计算公式包括：

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

其中，σ为sigmoid函数；t _x：预测边界框中心点距所在网格左边的距离；t _y：预测边界框中心点距所在网格上边的距离；c _x、c _y为该网格距离所述待检测图片左上角的位置偏移，每个网格的长和宽为1；p _w、p _h为行人预测框的宽度和长度；t _w：预测边界框的宽度，除以所述待检测图片宽度归一化后的值；t _h：预测边界框的高度，除以所述待检测图片高度归一化后的值；Pr(object)：行人类别的条件类别概率；
为边界框和实际边界框的交并比，所述交并比为交集部分面积和并集部分面积之比；b _x、b _y为边界框的坐标信息；b _w、b _h为边界框的尺寸信息；σ(t _o)为边界框对行人类别的行人类别概率。
根据权利要求4所述的行人检测方法，根据所述输出张量获取所述待检测图片中的行人及行人所在位置的步骤，包括：

通过每个网格对应的B个边界框对应的B个行人类别概率，得到x*y*B个边界框对应的x*y*B个行人类别概率，选择大于预设阈值的一个或多个目标边界框。
根据权利要求2所述的行人检测方法，其特征在于：

所述第一组卷积层包括：由32个3X3卷积核组成的第一卷积层；

所述第一池化层包括：步长为2的池化层；

所述第二组卷积层包括：由64个3X3卷积核组成的第二卷积层；

所述第二池化层包括：步长为2的池化层；

所述第三组卷积层包括依序耦合的：由128个3X3卷积核组成的第三卷积层、由64个1X1卷积核组成的第四卷积层、由128个3X3卷积核组成的第五卷积层；

所述第三池化层包括：步长为2的池化层；

所述第四组卷积层包括依序耦合的：由256个3X3卷积核组成的第六卷积层、由128个1X1卷积核组成的第七卷积层、由256个3X3卷积核组成的第八卷积层；

所述第四池化层包括：步长为2的池化层；

所述第五组卷积层包括依序耦合的：由512个3X3卷积核组成的第九卷积层、由256 个1X1卷积核组成的第十卷积层、由512个3X3卷积核组成的第十一卷积层、由256个1X1卷积核组成的第十二卷积层、由512个3X3卷积核组成的第十三卷积层；

所述第五池化层包括：步长为2的池化层；

所述第六组卷积层包括依序耦合的：由1024个3X3卷积核组成的第十四卷积层、由512个1X1卷积核组成的第十五卷积层、由1024个1X1卷积核组成的第十六卷积层、由512个1X1卷积核组成的第十七卷积层、由1024个3X3卷积核组成的第十八卷积层、由1024个3X3卷积核组成的第十九卷积层、由1024个3X3卷积核组成的第二十卷积层、由1024个3X3卷积核组成的第二十一卷积层、由125个1X1卷积核组成的第二十二卷积层；

所述第六池化层：步长为2的池化层；

所述第七组卷积层包括依序耦合的：由125个1X1卷积核组成的第二十三卷积层。
根据权利要求1所述的行人检测方法，还包括：

通过损失函数得到所述YOLO神经网络实际输出和样本标签值之间的偏差，用于训练所述YOLO神经网络。
一种行人检测系统，包括：

输入模块，用于将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

特征提取模块，用于通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图，所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图；

行人预测框处理模块，用于通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及

获取模块，用于根据所述输出张量获取所述待检测图片中的行人及行人所在位置。
一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层还耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y 卷积特征图，所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图；

通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及

根据所述输出张量获取所述待检测图片中的行人及行人所在位置。
根据权利要求9所述的计算机设备，将待检测图片输入到所述YOLO神经网络的步骤之前，还包括：

配置所述YOLO神经网络；

其中，所述主线包括依顺序耦合的第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层、第五池化层、第六组卷积层，所述第四池化层之后还耦合有所述支线，所述支线包括依序耦合的第六池化层和第七组卷积层，其中，依序耦合的所述第五组卷积层、第五池化层和第六组卷积层与依序耦合的第六池化层和第七组卷积层之间为并联关系。
根据权利要求10所述的计算机设备，通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量的步骤，包括：

为所述2A个x*y卷积特征图中的每个网格配置B个行人预测框，获取每个网格上对应的B个行人预测框的(5+C)的向量；

其中，“5”表示单个网格对应其中一个行人预测框所预测得到的4个坐标值(t _x、t _y、t _w、t _h)和1个置信度t _o，t _o表示该单个网格对应的行人预测框中是否存在物体，C表示该单个网格对应的行人类别的条件类别概率。
根据权利要求11所述的计算机设备，根据所述输出张量获取所述待检测图片中的行人及行人所在位置的步骤，包括：

根据每个网格上对应的B个行人预测框的(5+C)的向量，预测每个网格上对应的B个边界框的边界框数据，所述边界框数据包括每个边界框在所述待检测图片中的位置、尺寸和行人类别的行人类别概率；其中，预测每个网格上对应的B个边界框的边界框数据的计算公式包括：

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

其中，σ为sigmoid函数；t _x：预测边界框中心点距所在网格左边的距离；t _y：预测边界框中心点距所在网格上边的距离；c _x、c _y为该网格距离所述待检测图片左上角的位置偏移，每个网格的长和宽为1；p _w、p _h为行人预测框的宽度和长度；t _w：预测边界框的宽度，除以所述待检测图片宽度归一化后的值；t _h：预测边界框的高度，除以所述待检测图片高度归一化后的值；Pr(object)：行人类别的条件类别概率；
为边界框和实际边界框的交并比，所述交并比为交集部分面积和并集部分面积之比；b _x、b _y为边界框的坐标信息；b _w、b _h为边界框的尺寸信息；σ(t _o)为边界框对行人类别的行人类别概率。
根据权利要求12所述的计算机设备，根据所述输出张量获取所述待检测图片中的行人及行人所在位置的步骤，包括：

通过每个网格对应的B个边界框对应的B个行人类别概率，得到x*y*B个边界框对应的x*y*B个行人类别概率，选择大于预设阈值的一个或多个目标边界框。
根据权利要求10所述的计算机设备，其特征在于：

所述第一组卷积层包括：由32个3X3卷积核组成的第一卷积层；

所述第一池化层包括：步长为2的池化层；

所述第二组卷积层包括：由64个3X3卷积核组成的第二卷积层；

所述第二池化层包括：步长为2的池化层；

所述第三组卷积层包括依序耦合的：由128个3X3卷积核组成的第三卷积层、由64个1X1卷积核组成的第四卷积层、由128个3X3卷积核组成的第五卷积层；

所述第三池化层包括：步长为2的池化层；

所述第四组卷积层包括依序耦合的：由256个3X3卷积核组成的第六卷积层、由128个1X1卷积核组成的第七卷积层、由256个3X3卷积核组成的第八卷积层；

所述第四池化层包括：步长为2的池化层；

所述第五组卷积层包括依序耦合的：由512个3X3卷积核组成的第九卷积层、由256个1X1卷积核组成的第十卷积层、由512个3X3卷积核组成的第十一卷积层、由256个1X1卷积核组成的第十二卷积层、由512个3X3卷积核组成的第十三卷积层；

所述第五池化层包括：步长为2的池化层；

所述第六组卷积层包括依序耦合的：由1024个3X3卷积核组成的第十四卷积层、由512个1X1卷积核组成的第十五卷积层、由1024个1X1卷积核组成的第十六卷积层、由512个1X1卷积核组成的第十七卷积层、由1024个3X3卷积核组成的第十八卷积层、由1024个3X3卷积核组成的第十九卷积层、由1024个3X3卷积核组成的第二十卷积层、由1024 个3X3卷积核组成的第二十一卷积层、由125个1X1卷积核组成的第二十二卷积层；

所述第六池化层：步长为2的池化层；

所述第七组卷积层包括依序耦合的：由125个1X1卷积核组成的第二十三卷积层。
根据权利要求9所述的计算机设备，还包括：

通过损失函数得到所述YOLO神经网络实际输出和样本标签值之间的偏差，用于训练所述YOLO神经网络。
一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

将待检测图片输入到所述YOLO神经网络，所述YOLO神经网络包括主线和支线，所述主线包括依顺序耦合的N个卷积层，所述N个卷积层之间配置有M个池化层，第M-1个池化层还耦合所述支线，所述支线包括依序耦合的第M+1个池化层和第N+1个卷积层；

通过所述YOLO神经网络对所述待检测图片执行卷积操作和池化操作，以得到2A个x*y卷积特征图，所述2A个x*y卷积特征图包括所述第N个卷积层输出A个x*y卷积特征图以及所述第N+1个卷积层输出A个x*y卷积特征图；

通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量，C表示C个条件类别概率；及

根据所述输出张量获取所述待检测图片中的行人及行人所在位置。
根据权利要求9所述的非易失性计算机可读存储介质，将待检测图片输入到所述YOLO神经网络的步骤之前，还包括：

配置所述YOLO神经网络；

其中，所述主线包括依顺序耦合的第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层、第五池化层、第六组卷积层，所述第四池化层之后还耦合有所述支线，所述支线包括依序耦合的第六池化层和第七组卷积层，其中，依序耦合的所述第五组卷积层、第五池化层和第六组卷积层与依序耦合的第六池化层和第七组卷积层之间为并联关系。
根据权利要求17所述的非易失性计算机可读存储介质，通过预设的B个行人预测框在所述2A个x*y卷积特征图上做卷积操作，输出x*y*B*(5+C)的输出张量的步骤，包括：

为所述2A个x*y卷积特征图中的每个网格配置B个行人预测框，获取每个网格上对应的B个行人预测框的(5+C)的向量；

其中，“5”表示单个网格对应其中一个行人预测框所预测得到的4个坐标值(t _x、t _y、t _w、t _h)和1个置信度t _o，t _o表示该单个网格对应的行人预测框中是否存在物体，C表示该单个网格对应的行人类别的条件类别概率。
根据权利要求18所述的非易失性计算机可读存储介质，根据所述输出张量获取所述待检测图片中的行人及行人所在位置的步骤，包括：

根据每个网格上对应的B个行人预测框的(5+C)的向量，预测每个网格上对应的B个边界框的边界框数据，所述边界框数据包括每个边界框在所述待检测图片中的位置、尺寸和行人类别的行人类别概率；其中，预测每个网格上对应的B个边界框的边界框数据的计算公式包括：

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

其中，σ为sigmoid函数；t _x：预测边界框中心点距所在网格左边的距离；t _y：预测边界框中心点距所在网格上边的距离；c _x、c _y为该网格距离所述待检测图片左上角的位置偏移，每个网格的长和宽为1；p _w、p _h为行人预测框的宽度和长度；t _w：预测边界框的宽度，除以所述待检测图片宽度归一化后的值；t _h：预测边界框的高度，除以所述待检测图片高度归一化后的值；Pr(object)：行人类别的条件类别概率；
为边界框和实际边界框的交并比，所述交并比为交集部分面积和并集部分面积之比；b _x、b _y为边界框的坐标信息；b _w、b _h为边界框的尺寸信息；σ(t _o)为边界框对行人类别的行人类别概率。
根据权利要求19所述的非易失性计算机可读存储介质，根据所述输出张量获取所述待检测图片中的行人及行人所在位置的步骤，包括：

通过每个网格对应的B个边界框对应的B个行人类别概率，得到x*y*B个边界框对应的x*y*B个行人类别概率，选择大于预设阈值的一个或多个目标边界框。