WO2020164270A1

WO2020164270A1 - 基于深度学习的行人检测方法、系统、装置及存储介质

Info

Publication number: WO2020164270A1
Application number: PCT/CN2019/117799
Authority: WO
Inventors: 石磊; 马进; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-02-15
Filing date: 2019-11-13
Publication date: 2020-08-20
Also published as: CN109961009B; CN109961009A

Abstract

一种基于深度学习的行人检测方法、系统、装置及存储介质，涉及深度学习技术领域，其中的方法包括：采集行人图像数据集，并将图像数据集按预设比例划分为训练图像和测试图像（S110）；创建卷积神经网络模型，并通过预训练模型对卷积神经网络模型的参数进行初始化（S120）；将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型（S130）；通过行人检测模型对测试图像进行行人检测及标注（S140）。该方法通过深度学习将训练好的模型部署到移动终端，能够实现对行人的灵活检测，通用性强、成本低。

Description

基于深度学习的行人检测方法、系统、装置及存储介质

本申请要求申请号为201910117952.4，申请日为2019年2月15日，发明创造名称为“基于深度学习的行人检测方法、系统、装置及存储介质”的专利申请的优先权。

技术领域

本申请涉及深度学习技术领域，尤其涉及一种基于深度学习的行人检测方法、系统、装置及存储介质。

背景技术

行人检测就是计算机对于给定的图像和视频，判断出其中是否有行人，如果有还需要给出行人的具体位置。行人检测是行人跟踪，行为分析，行人身份识别辅助智能驾驶、智能监控、道路行人分析、客流统计分析、智能机器人等研究的基础和前提，一个好的行人检测算法能够为后者提供有力的支持和保障。

近年来行人检测进入了快速发展阶段，深度学习算法被引入到行人检测中，利用深度学习学到的行人特征具有很强的层次表达能力和很好的鲁棒性，故越来越多地取代传统的诸如手工设计HOG、LBP特征、采用SVM或增强学习等算法而得到实际应用。

目前常用的行人检测方法包括：背景差法、帧差法、光流法、模板匹配法和基于机器学习的方法等。发明人意识到，前述四种方法都是基于图像处理技术的人体检测方法，然而这些方法在面对人体衣着、体形、人体姿势、人体遮挡、光照问题以及复杂背景等方面的问题时，所体现出来的准确率和鲁棒性很差。此外，现有的行人检测系统，还需要使用高清摄像机及相应的网络传输及图像处理单元，导致行人检测系统庞大笨重，便携性差、成本高。

发明内容

本申请提供一种基于深度学习的行人检测方法、系统、装置及存储介质，以解决目前行人检测系统庞大笨重，便携性差、成本高等问题。

第一方面，本申请提供一种基于深度学习的行人检测方法，应用于电子装置包括：

采集行人图像数据集，并将图像数据集按预设比例划分为训练图像和测试图像；

创建卷积神经网络模型，并通过预训练模型对卷积神经网络模型的参数进行初始化；

将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型；

通过行人检测模型对测试图像进行行人检测及标注。

第二方面，本申请还提供一种基于深度学习的行人检测系统，其特征在于，系统包括：

检测模型创建单元，用于创建行人检测模型；

预处理单元，用于对待检测图像进行对象提取、尺寸归一化和色彩空间归一化处理；

图片检测单元，用于通过行人检测模型对预处理单元处理后的图像进行检测，并在检测到行人时，标注行人的坐标值和位置信息。

第三方面，本申请还提供一种电子装置，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如上基于深度学习的行人检测方法的步骤。

第四方面，本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述基于深度学习的行人检测方法的步骤。

本申请提出的基于深度学习的行人检测方法、系统、装置及存储介质，能够采用深度学习算法，将训练出的模型部署到安卓移动端，并开发出对应的移动app，用户通过智能安卓手机即可方便地对移动端采集到的图像或视频信息实时进行行人检测，并能够联网下载最新的算法模型；此外，用户采集的样本图片还可用于对线上模型进行更新迭代，无需额外的硬件资源，成本低、应用范围广。

附图说明

图1为本申请基于深度学习的行人检测方法的应用环境示意图；

图2为本申请基于深度学习的行人检测方法的流程图；

图3为本申请基于深度学习的行人检测系统的结构框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种基于深度学习的行人检测方法，应用于一种电子装置1。

参照图1所示，为本申请述基于深度学习的行人检测方法较佳实施例的应用环境示意。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备，但并不局限于此。

该电子装置1包括：处理器12、存储器11、网络接口14及通信总线13。

存储器11包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，可读存储介质也可以是电子装置1的外部存储器11，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，存储器11的可读存储介质通常用于存储安装于电子装置1的基于深度学习的行人检测程序10等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于深度学习的行人检测程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线13用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-14的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子装置1的显示器的面积可以与触摸传感器的面积相同，也可以不同。可选地，将显示器与触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子装置1还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子装置的限定，具体的电子装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2示出了本申请实施例的基于深度学习的行人检测方法的流程，该方法可应用于上述的电子装置1中，具体包括以下步骤：

步骤S110：采集行人图像数据集，并将图像数据集按预设比例划分为训练图像和测试图像。

其中，行人图像数据集可通过收集公开的行人检测图像数据(例如，Caltech行人数据集、TUD行人数据库NICTA数据集、ETH数据集、CVC行人数据集等)和已有的道路卡口监控视频获取。

此外，预设比例范围可控制在7:3至4:1的范围内，优选地预设比例为4:1，在数据量一定时，训练图像和测试图像按照4:1划分能够尽可能多的利用数据训练出泛化性较佳的模型，并科学地评估所创建的网络模型的性能，可通过测试图像评估行人检测的准确率。

步骤S120：创建卷积神经网络模型，并通过预训练模型对卷积神经网络模型的参数进行初始化。

其中，预训练模型是一种深度学习构架，已经过训练用于执行大量数据上的特定任务(例如，识别图片中的分类问题)，这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。在谈论预训练模型时，通常指的是在Imagenet上训练的CNN(用于视觉相关任务的架构)。

创建卷积神经网络模型的步骤进一步包括：

S121：创建卷积神经网络模型的基础网络。

S122：将基础网络的卷积层输出的特征图送入RPN候选区域网络，确定特征图的候选区域。

S123：将卷积层输出的特征图和候选区域同时送入判别网络，获取定位行人目标的候选框，候选框用于对待检测图像中的行人进行框选定位。

作为示例，创建的卷积神经网络模型参数包括：20层卷积神经网络，具体为13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层；并通过ImageNet数据集的预训练模型对Conv卷积层、MaxPool池化层及FullConnectedq全连接层的网络参数进行初始化。

卷积神经网络模型结构如下表所示：

层	大小	输入	输出
Conv1×2	3×3	224×224	224×224

Pool1	2×2	224×224	112×112
Conv2×2	3×3	112×112	112×112
Pool2	2×2	112×112	56×56
Conv3×3	3×3	56×56	56×56
Pool3	2×2	56×56	28×28
Conv4×3	3×3	28×28	28×28
Pool4	2×2	28×28	14×14
Conv5×3	3×3	14×14	14×14
Pool5	2×2	14×14	7×7
Fc6	4096	7×7	4096
Fc7	4096	4096	4096
Softmax	1	4096	1000

步骤S130：将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型。

具体地，将训练图像归一化处理为长宽均为224大小，然后输入两个卷积层Conv1×2(Conv1_1、Conv1_2)中，其卷积核大小均为3×3，输出特征图大小均为224×224，接着将卷积层输出的特征图输入到池化层Pool1中进行池化操作，池化核大小为2×2，输出大小为112×112的特征图，类似的后续的卷积层池化层所做运算均如上表所示，直至Fc6层(FullConnectedq全连接层)输入7×7的特征图，输出长度为4096的向量，Fc7输出输出大小均为4096，Softmax层输出大小为1000。

上述神经网络结构即可作为卷积神经网络模型的基础网络。

截取基础网络的一部分作为特征提取网络，特征提取网络分别与RPN候选区域网络和判别网络连接，同时RPN候选区域网络也与判别网络连接，最终由判别网络输出选定行人后的结果。

具体地，将卷积层神经网络模型的卷积层5输出的特征图送入RPN候选区域网络，确定候选区域。然后，将卷积层5输出的特征图和候选区域同时送入判别网络，得到定位行人目标的候选框。

作为示例，RPN候选区域网络包括3个Conv层，1个Softmax层、1个 bbox层以及1个Proposal层。判别网络输入包括1个ROI Pooling层、4个Fc层、1个Softmax层以及1个bbox层。卷积层5输出的特征图送入RPN候选区域网络，通过RPN候选区域网络的Proposal层输出候选区域，该候选区域与卷积层5输出的特征图同时送入判别网络，通过判别网络识别得到定位的行人目标。

进一步地，RPN是由一个卷积层(256维)、relu、左右两个层(clclayer和reglayer)构成的小网络，应用在滑动窗口区域上，所有的滑动窗口共享RPN，这个卷积层对比普通的卷积层而言，第一：其能够将n×n×channels的输入通过256个n×n大小的卷积核生成1*1*256的featuremap，即最后是256维的特征。第二：它的输入就是滑动窗口n×n对应的特征图区域，经过它卷积后特征图变成1×1。第三：由于此时输出的是1*1*256，所有clslayer和reglayer是用1x1的卷积核进行进一步的特征提取，这里1x1卷积核卷积时，对各个通道都有不同的参数，因为输入又是1x1的图片，所以相当于全连接的功能，相当于把1*1*256展平成256，然后进行全连接。

将训练图像输入卷积神经网络模型进行训练，直至卷积神经网络模型的实际输出与待标注目标图像之间的误差小于预设值，网络训练终止，形成行人检测模型。

其中，将训练图像输入卷积神经网络模型进行训练，通过前向后向传播拟合参数，降低卷积神经网络模型的实际输出与待标注目标之间的误差，当误差小于预设值时，卷积神经网络模型训练终止，并得到行人检测模型。

在上述卷积神经网络模型训练过程中，一次迭代的过程包括：通过反向传播和梯度下降算法来拟合行人目标的检测，通过降低候选框坐标的误差和目标类别(行人、背景)的误差，来达到降低整个卷积神经网络误差的目的，再通过前向传播更新模型中的权重，达到10000次迭代后，训练终止。

步骤S140：通过行人检测模型对测试图像进行行人检测及标注。

与上述基于深度学习的行人检测方法相对应，本申请还提供一种基于深度学习的行人检测系统。

图3示出了根据本申请实施例的基于深度学习的行人检测的结构。

如图3所示，本申请实施例基于深度学习的行人检测系统200主要包括以下几个单元：

1、检测模型创建单元210，用于创建行人检测模型。

检测模型创建单元210进一步包括：

图像数据采集模块211，用于采集行人图像数据集，并将图像数据集按预设比例划分为训练图像和测试图像。

卷积神经网络模型创建模块212，用于创建卷积神经网络模型，并通过预训练模型对卷积神经网络模型的参数进行初始化。

卷积神经网络模型创建模块212进一步包括：

基础网络创建模块，用于创建卷积神经网络模型的基础网络。

候选区域确定模块，用于将基础网络的卷积层输出的特征图送入RPN候选区域网络，确定特征图的候选区域。

定位模块，用于将卷积层输出的特征图和候选区域同时送入判别网络，获取定位行人目标的候选框，候选框用于对待检测图像中的行人进行框选定位。

训练模块213，用于将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型。

作为具体示例，创建的卷积神经网络模型参数包括：20层卷积神经网络，具体为13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层；并通过ImageNet数据集的预训练模型对Conv卷积层、MaxPool池化层及FullConnectedq全连接层的网络参数进行初始化。

将训练图像归一化处理为长宽均为224大小，然后输入两个卷积层Conv1×2(Conv1_1、Conv1_2)中，其卷积核大小均为3×3，输出特征图大小均为224×224，接着将卷积层输出的特征图输入到池化层Pool1中进行池化操作，池化核大小为2×2，输出大小为112×112的特征图，类似的后续的卷积层池化层所做运算均如上表所示，直至Fc6层(FullConnectedq全连接层)输入7×7的特征图，输出长度为4096的向量，Fc7输出输出大小均为4096，Softmax层输出大小为1000。

上述神经网络结构即可作为卷积神经网络模型的基础网络。

作为示例，RPN候选区域网络包括3个Conv层，1个Softmax层、1个bbox层以及1个Proposal层。判别网络输入包括1个ROI Pooling层、4个Fc层、1个Softmax层以及1个bbox层。卷积层5输出的特征图送入RPN候选区域网络，通过RPN候选区域网络的Proposal层输出候选区域，该候选区域与卷积层5输出的特征图同时送入判别网络，通过判别网络识别得到定位的行人目标。

2、预处理单元220，用于对待检测图像进行对象提取、尺寸归一化和色彩空间归一化处理。

其中，对象提取是指通过轮廓提取，从待测图片中检测出物体的轮廓，并根据检测出的轮廓进行对应裁剪；尺寸归一化是指将裁剪出的目标图像的尺寸转换为行人检测模型预设的统一尺寸；色彩空间归一化是指将尺寸归一化后的图片的色彩空间统一转换到统一色彩空间中。

3、图片检测单元230，用于通过行人检测模型对预处理单元处理后的图像进行检测，并在检测到行人时，标注行人的坐标值和位置信息。

此外，本申请提供的基于深度学习的行人检测系统还可以包括：

视频拆解单元，用于将待检测的视频拆解为多个单帧图像数据。

例如，在用户使用电子装置进行行人检测时，可采用拍照或者录制视频的方式，当输入系统的待测信息为录制的视频信息时，可通过视频拆解单元将视频拆解为多个单帧图像，以便行人检测模型进行检测识别。

样本上传单元，用于将未识别出的图像通过无线网络上传到线上服务器，以扩充行人图像数据集。

模型更新单元，用于通过移动终端下载线上服务器利用新图像数据集训练形成的行人检测模型。

利用上述基于深度学习的行人检测方法及系统，能够将行人检测模型部署至电子装置(例如，安卓移动终端)，并通过电子装置与线上服务器进行信息交互，移动终端能够反馈更多样本图片供服务器训练优化行人检测模型，而服务器也能够提供最新行人检测模型给移动终端下载使用。

在本申请的一个具体实施例中，还提供一种电子装置，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：采集行人图像数据集，并将图像数据集按预设比例划分为训练图像和测试图像；创建卷积神经网络模型，并通过预训练模型对卷积神经网络模型的参数进行初始化；将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型；通过行人检测模型对测试图像进行行人检测及标注。

具体地，将行人检测模型部署至安卓移动终端的过程包括：将服务器端训练的行人检测模型持久化，并对生成的文件进行合并、变量值固定后保存为pb模型；然后，将pb模型重新编译为移动终端可识别的语言，并将其移植部署到移动终端，形成行人检测APP。在用户使用过程中，将拍摄的照片或者录制的视频送入移动终端进行行人检测即可。

作为示例，本申请还提供一种移动终端，包括基于深度学习的行人检测系统，以及实现行人检测系统与服务器网络连接的传输模块。

在一个具体实施方式中，处理器所执行的创建卷积神经网络模型的步骤包括：创建卷积神经网络模型的基础网络；将基础网络的卷积层输出的特征图送入RPN候选区域网络，确定特征图的候选区域；将卷积层输出的特征图和候选区域同时送入判别网络，获取定位行人目标的候选框；候选框用于对待检测图像中的行人进行框选定位。

在一个具体实施方式中，基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层；并通过ImageNet数据集的预训练模型对Conv卷积层、MaxPool池化层及FullConnectedq全连接层的网络参数进行初始化。

在一个具体实施方式中，RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层；判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。

在一个具体实施方式中，处理器执行的将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型的步骤包括：通过前向后向传播拟合参数，降低卷积神经网络模型的实际输出与待标注目标之间的误差，当误差小于预设值时，卷积神经网络模型训练终止，并得到行人检测模型。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：采集行人图像数据集，并将图像数据集按预设比例划分为训练图像和测试图像；创建卷积神经网络模型，并通过预训练模型对卷积神经网络模型的参数进行初始化；将训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型；通过行人检测模型对测试图像进行行人检测及标注。

利用上述根据本申请的基于深度学习的行人检测方法、系统、装置及存储介质，能够以APP的形式向用户提供服务，同时利用安卓智能手机已有的硬件和网络资源，实现对行人的实时快速检测，成本低、携带方便。此外，在大规模应用过程中，可提供海量样本图片供卷积神经模型训练更新，从而提高检测的准确度，并使得检测模型泛化性强、适用场景多样。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于深度学习的行人检测方法，应用于电子装置，其特征在于，所述方法包括：

采集行人图像数据集，并将所述图像数据集按预设比例划分为训练图像和测试图像；

创建卷积神经网络模型，并通过预训练模型对所述卷积神经网络模型的参数进行初始化；

将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型；

通过所述行人检测模型对所述测试图像进行行人检测及标注。
根据权利要求1所述的基于深度学习的行人检测方法，其特征在于，所述创建卷积神经网络模型的步骤包括：

创建所述卷积神经网络模型的基础网络；

将所述基础网络的卷积层输出的特征图送入RPN候选区域网络，确定所述特征图的候选区域；

将所述卷积层输出的特征图和所述候选区域同时送入判别网络，获取定位行人目标的候选框；

所述候选框用于对待检测图像中的行人进行框选定位。
根据权利要求2所述的基于深度学习的行人检测方法，其特征在于，

所述基础网络包括交叉设置的卷积层和池化层、与最后一层池化层连接的全连接层，以及与最后一层全连接层连接的输出层。
根据权利要求3所述的基于深度学习的行人检测方法，其特征在于，

所述基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层；

并通过ImageNet数据集的预训练模型对所述Conv卷积层、所述MaxPool池化层及所述FullConnectedq全连接层的网络参数进行初始化。
根据权利要求4所述的基于深度学习的行人检测方法，其特征在于，所述创建所述卷积神经网络模型的基础网络的步骤包括：

将所述训练图像输入卷积层，所述卷积层的卷积核大小为3*3，所述卷积层的输出特征图大小为224*224；

将所述卷积层输出的特征图输入是池化层进行池化处理，所述池化层的池化核大小为2*2，所述池化层的输出特征图的大小为112*112；

循环执行上述步骤，直至将最后一层池化层的输出特征图输入全连接层，所述全连接层输出长度为4096的向量；

所述全连接层与所述输出层连接，所述输出层输出大小为1000的向量。
根据权利要求2所述的基于深度学习的行人检测方法，其特征在于，

所述RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层；

所述判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
根据权利要求2所述的基于深度学习的行人检测方法，其特征在于，

将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型的步骤包括：

通过前向后向传播拟合参数，降低所述卷积神经网络模型的实际输出与待标注目标之间的误差，当所述误差小于预设值时，所述卷积神经网络模型训练终止，并得到所述行人检测模型。
根据权利要求7所述的基于深度学习的行人检测方法，其特征在于，所述通过前向后向传播拟合参数的步骤包括：

所述拟合参数的一次迭代的过程包括：

通过反向传播和梯度下降算法来拟合行人目标的检测，以降低所述候选框坐标的误差，以及目标类别的误差；其中，所述目标类别包括行人和背景；

通过向前传播更新所述卷积神经网络模型中的权重；

重复迭代过程至预设次数后，训练终止。
根据权利要求1所述的基于深度学习的行人检测方法，其特征在于，所述方法还包括对所述训练图像进行归一化处理；其中，

所述归一化处理包括对象提取、尺寸归一化和色彩空间归一化处理；

所述对象提取是指通过轮廓提取，从所述训练图像中检测出物体的轮廓，并根据检测出的轮廓进行对应裁剪；

所述尺寸归一化是指将裁剪出的目标图像的尺寸转换为所述行人检测模型预设的统一尺寸；

所述色彩空间归一化是指将尺寸归一化后的图片的色彩空间统一转换到统一色彩空间中。
一种基于深度学习的行人检测系统，其特征在于，所述系统包括：

检测模型创建单元，用于创建行人检测模型；

预处理单元，用于对待检测图像进行对象提取、尺寸归一化和色彩空间归一化处理；

图片检测单元，用于通过行人检测模型对预处理单元处理后的图像进行检测，并在检测到行人时，标注行人的坐标值和位置信息。
根据权利要求10所述的基于深度学习的行人检测系统，其特征在于，所述系统还包括：

视频拆解单元，用于将待检测的视频拆解为多个单帧图像数据；

样本上传单元，用于将未识别出的图像通过无线网络上传到线上服务器，以扩充行人图像数据集；

模型更新单元，用于通过移动终端下载线上服务器利用新图像数据集训练形成的行人检测模型。
根据权利要求10所述的基于深度学习的行人检测系统，其特征在于，所述检测模型创建单元包括：

图像数据采集模块，用于采集行人图像数据集，并将所述图像数据集按预设比例划分为训练图像和测试图像；

卷积神经网络模型创建模块，用于创建卷积神经网络模型，并通过预训练模型对所述卷积神经网络模型的参数进行初始化；

训练模块，用于将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型。
根据权利要求12所述的基于深度学习的行人检测系统，其特征在于，所述卷积神经网络模型创建模块包括：

基础网络创建模块，用于创建所述卷积神经网络模型的基础网络；

候选区域确定模块，用于将所述基础网络的卷积层输出的特征图送入RPN候选区域网络，确定所述特征图的候选区域；

候选框确定模块，用于将所述卷积层输出的特征图和所述候选区域同时送入判别网络，获取定位行人目标的候选框；所述候选框用于对待检测图像中的行人进行框选定位。
根据权利要求13所述的基于深度学习的行人检测系统，其特征在于，

所述基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层；

并通过ImageNet数据集的预训练模型对所述Conv卷积层、所述MaxPool池化层及所述FullConnectedq全连接层的网络参数进行初始化。
根据权利要求13所述的基于深度学习的行人检测系统，其特征在于，

所述RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层；

所述判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下所示步骤：

采集行人图像数据集，并将所述图像数据集按预设比例划分为训练图像和测试图像；

创建卷积神经网络模型，并通过预训练模型对所述卷积神经网络模型的参数进行初始化；

将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练，直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值，并形成行人检测模型；

通过所述行人检测模型对所述测试图像进行行人检测及标注。
根据权利要求16所述的电子装置，其特征在于，所述创建卷积神经网络模型的步骤包括：

创建所述卷积神经网络模型的基础网络；

将所述基础网络的卷积层输出的特征图送入RPN候选区域网络，确定所述特征图的候选区域；

将所述卷积层输出的特征图和所述候选区域同时送入判别网络，获取定位行人目标的候选框；

所述候选框用于对待检测图像中的行人进行框选定位。
根据权利要求17所述的电子装置，其特征在于，

所述基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层；

并通过ImageNet数据集的预训练模型对所述Conv卷积层、所述MaxPool池化层及所述FullConnectedq全连接层的网络参数进行初始化。
根据权利要求17所述的电子装置，其特征在于，

所述RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层；

所述判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至9中任一项权利要求所述基于深度学习的行人检测方法的步骤。