WO2021244364A1

WO2021244364A1 - 基于深度图像的行人检测方法及装置

Info

Publication number: WO2021244364A1
Application number: PCT/CN2021/095972
Authority: WO
Inventors: 荆伟; 尹延涛; 梁贵钘; 李永翔
Original assignee: 苏宁易购集团股份有限公司
Priority date: 2020-06-03
Filing date: 2021-05-26
Publication date: 2021-12-09
Also published as: CN111652136B; CN111652136A

Abstract

本发明公开一种基于深度图像的行人检测方法及装置，通过深度摄像头俯拍采集场景内的行人数据，提升了行人检测数据的准确性。该方法包括：基于第一深度图像中框选的地面区域构建地面拟合公式，以及基于至少一个标记物区域构建对应的标记物拟合公式；将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版；根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新；将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域；采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到人体检测数据。

Description

基于深度图像的行人检测方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于深度图像的行人检测方法及装置。

背景技术

在人工智能蓬勃发展的时代，各种新的事物如雨后春笋一样发展起来，无人超市、无人商店等新事物纷纷涌现。随着智能零售的时代潮流，将线下零售和人工智能相结合，提供一种和线上购物一样流畅的全新购物方式成为新的研究方向。通过在一个封闭场景利用全覆盖式摄像头拍摄进入场景内的每一个顾客的行为轨迹，实时提供商品推荐和结算等服务，真正意义上做到即拿即走的无感知购物体验。。

技术问题

目前为数不多的行人检测多采用斜拍方案，优点在于拍摄投影面积较大，便于获取更多的特征信息，但随之而来的是遮挡问题导致部分特征信息的缺失，如两人并排行走，一人的部分身体特征会被另一人遮挡，对于无人店这样的复杂场景中，遮挡可能带来出店无法结算的问题，影响了用户的购物体验。

技术解决方案

本发明的目的在于提供一种基于深度图像的行人检测方法及装置，通过深度摄像头俯拍的形式采集场景内的行人数据，有效解决了单摄像头斜拍带来的遮挡信息缺失问题，提高了行人检测数据的准确性。

为了实现上述目的，本发明的第一方面提供一种基于深度图像的行人检测方法，所述深度图像由深度摄像头俯拍获取，所述方法包括：

基于第一深度图像中框选的地面区域构建地面拟合公式，以及基于至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式；

将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版；

根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新；

将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域；

采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到人体检测数据。

优选地，基于第一深度图像中框选的地面区域构建地面拟合公式的方法包括：

S11，统计与地面区域对应的数据集合，所述数据集合包括多个图像点；

S12，从地面区域中随机选择n个图像点组建地面初始数据集，n≥3且n为整数；

S13，基于当前选择的n个图像点构建初始地面拟合公式，遍历初始数据集中未被选择的图像点，将其依次代入初始地面拟合公式计算对应图像点的地面拟合值；

S14，将小于第一阈值的地面拟合值筛选出来，生成第i轮的有效地面拟合值集合，i的初始值为1；

S15，当第i轮的有效地面拟合值集合对应的图像点数量与地面区域中图像点总数量的比值大于第二阈值，则将第i轮有效地面拟合值集合中的全部地面拟合值累加；

S16，当第i轮中全部地面拟合值的累加结果小于第三阈值，则将第i轮对应的初始地面拟合公式定义为地面拟合公式，当第i轮对应的全部地面拟合值累加结果大于第三阈值，令i=i+1，并在i未达到阈值轮数时返回步骤S12，否则执行步骤S17；

S17，将所有轮中全部地面拟合值累加结果最小值对应的初始地面拟合公式定义为地面拟合公式。

较佳地，基于标记物区域构建对应的标记物拟合公式的方法包括：

S21，统计与标记物区域一一对应的数据集合，所述数据集合中包括多个图像点；

S22，从标记物区域中随机选择n个图像点组建标记物初始数据集，n≥3且n为整数；

S23，基于当前选择的n个图像点构建初始标记物拟合公式，遍历初始数据集中未被选择的图像点，将其依次代入初始标记物拟合公式计算对应图像点的标记物拟合值；

S24，将小于第一阈值的标记物拟合值筛选出来，生成第i轮的有效标记物拟合值集合，i的初始值为1；

S25，当第i轮的有效标记物拟合值集合对应的图像点数量与标记物区域中图像点总数量的比值大于第二阈值，则将第i轮有效标记物拟合值集合中的全部标记物拟合值累加；

S26，当第i轮中全部标记物拟合值的累加结果小于第三阈值，则将第i轮对应的初始标记物拟合公式定义为标记物拟合公式，当第i轮对应的全部标记物拟合值累加结果大于第三阈值，令i=i+1，并在i未达到阈值轮数时返回步骤S22，否则执行步骤S27；

S27，将所有轮中全部标记物拟合值累加结果最小值对应的初始标记物拟合公式定义为标记物拟合公式。

进一步地，将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版的方法包括：

基于地面拟合公式构建地面方程，以及基于标记物拟合公式构建标记物方程；

遍历第一深度图像中的图像点，分别代入地面方程和标记物方程得到该图像点的地面距离和标记物距离；

筛选出地面距离小于地面阈值的图像点填充为地面蒙版，以及筛选出标记物距离小于标记物阈值的图像点填充为标记物蒙版；

将地面蒙版和全部的标记物蒙版融合，得到当前场景的背景蒙版。

优选地，根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新的方法包括：

依次将第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行大小值比对，m的初始值为1；

识别深度值发生变化的像素点，将第m+1帧第二深度图像中对应位置像素点的深度值更新为比对结果中的大值，令m=m+1，重新对第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行比对，直至得到最后一帧第二深度图像中各位置像素点及其对应的深度值；

将最后一帧第二深度图像中各位置像素点及其对应的深度值与背景蒙版中各位置像素点及其对应的深度值进行大小值比对；

识别深度值发生变化的像素点，将背景蒙版中对应位置像素点的深度值更新为比对结果中的小值。

较佳地，将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域的方法包括：

将实时获取的第三深度图像中的各位置像素点及其对应的深度值与更新后的背景蒙版中各位置像素点及其对应的深度值进行大小值比对；

识别所述第三深度图像中深度值变小的像素点，汇总得到包含人体像素的前景区域。

进一步地，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理的方法包括：

根据设定的生长阈值，采用连通域标记算法识别出前景区域中的人体像素点集；

识别前景区域中人体像素点集的数量，当为多个人体像素点集时分别计算每个人体像素点集的中心点；

将得到的中心点两两连线并计算连线距离，同时将各条连线向地面区域正投影，分别获取到每条连线与地面方程的夹角

；

基于连线距离及对应的夹角

，得到两个人体像素点集对应的人体距离；

当人体距离大于距离阈值时，将两个人体像素点集对应为两个不同人体产生的人体区域，反之将两个人体像素点集视为同一个人体产生的人体区域。

优选地，得到人体检测数据的方法包括：

基于设定的距离间隔采用降采样方式寻找一个人体区域或者多个人体区域的局部最高像素点；

通过区域生长方式锁定一个人体区域或者多个人体区域的头部区域，同时利用地面方程计算一个人体区域或多个人体区域对应的人体检测数据，所述人体检测数据包括人体身高和头部的像素点坐标。

较佳地，所述标记物区域为货架区域

本发明的第二方面提供一种基于深度图像的行人检测装置，应用于上述技术方案所述的基于深度图像的行人检测方法中，所述装置包括：

拟合公式构建单元，基于第一深度图像中框选的地面区域构建地面拟合公式，以及基于至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式；

蒙版生成单元，将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版；

蒙版更新单元，根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新；

前景区域识别单元，将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域；

人体检测单元，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到人体检测数据。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于深度图像的行人检测方法的步骤。

有益效果

本发明提供的基于深度图像的行人检测方法，实际应用时可将其划分为算法准备阶段、算法初始化阶段和算法检测应用阶段，其中，算法准备阶段也即背景蒙版生成阶段，其具体过程为：首先获取通过深度摄像头俯拍当前检测场景的深度图像，并在第一深度图像中框选出地面区域和至少一个标记物区域，构建出地面拟合公式及对应的标记物拟合公式，然后将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版。算法初始化阶段也即背景蒙版更新阶段，其具体过程为：根据获取的多帧连续第二深度图像中的像素点参数值以及背景蒙版中的像素点参数值，对背景蒙版进行背景更新。算法检测应用阶段可分为前景区域识别阶段和人体区域检测阶段，其对应的具体过程为：将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到一个人体区域或者多个人体区域的人体检测数据。

可见，本发明使用俯拍方式获取深度图像并建立的背景蒙版，解决了斜拍带来遮挡导致信息缺失的问题，提升了行人检测的适用场景，另外，使用深度相机相比较于普通相机来说增加了图像的信息维度，可获取到包括人体身高和头部三维空间坐标的数据，提高了行人检测数据的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中基于深度图像的行人检测方法的流程示意图。

本发明的实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种基于深度图像的行人检测方法，深度图像由深度摄像头俯拍获取，该方法包括：

本实施例提供的基于深度图像的行人检测方法，实际应用时可将其划分为算法准备阶段、算法初始化阶段和算法检测应用阶段，其中，算法准备阶段也即背景蒙版生成阶段，其具体过程为：首先获取通过深度摄像头俯拍当前检测场景的深度图像，并在第一深度图像中框选出地面区域和至少一个标记物区域，构建出地面拟合公式及对应的标记物拟合公式，然后将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版。算法初始化阶段也即背景蒙版更新阶段，其具体过程为：根据获取的多帧连续第二深度图像中的像素点参数值以及背景蒙版中的像素点参数值，对背景蒙版进行背景更新。算法检测应用阶段可分为前景区域识别阶段和人体区域检测阶段，其对应的具体过程为：将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到一个人体区域或者多个人体区域的人体检测数据。

可见，本实施例使用俯拍方式获取深度图像并建立的背景蒙版，解决了斜拍带来遮挡导致信息缺失的问题，提升了行人检测的适用场景，另外，使用深度相机相比较于普通相机来说增加了图像的信息维度，可获取到包括人体身高和头部三维空间坐标的数据，提高了行人检测数据的准确性。

需要说明的是，上述实施例中的第一深度图像、第二深度图像和第三深度图像的区别仅在于用途不同，其中，第一深度图像是为构建地面拟合公式和构建地面拟合公式所使用，第二深度图像是为更新背景蒙版所使用，第三深度图像是用于获取人体检测数据的实时检测图像。例如，将通过深度摄像头俯拍监控区域得到的第1帧深度图像作为第一深度图像，将第2帧-第100帧深度图像作为第二深度图像，在背景蒙版更新完成后，将深度摄像头俯拍监控区域得到的实时图像作为第三深度图像。

上述实施例中，基于第一深度图像中框选的地面区域构建地面拟合公式的方法包括：

上述实施例中，基于标记物区域构建对应的标记物拟合公式的方法包括：

具体实施时，下文以标记物拟合公式为例进行说明：

首先通过程序设定的交互模式框选出地面区域，筛选出仅包含地面图像点的数据集合，然后随机选择3个图像点组建地面初始数据集，采用平面公式拟合初始地面拟合公式，

，其中，i表示深度摄像头的编号，若全场景仅使用1台深度摄像头，则i的取值为1，也即仅针对这一台深度摄像头拍摄的第一深度图像构建地面拟合公式，若全场景使用了w台深度摄像头，则i取值分别遍历1至n，也即需要针仅对这w台深度摄像头拍摄的第一深度图像一一构建出对应的地面拟合公式。

在初始地面拟合公式构建完成后，遍历初始数据集中未被选择的图像点（除了已选择的3个图像点），将每个图像点对应的视觉坐标值（ x 、 y 、 z）依次代入初始地面拟合公式（

）计算出遍历的图像点对应的地面拟合值 error_current，将小于第一阈值e的地面拟合值筛选出来，组成与本轮初始地面拟合公式对应的有效地面拟合值集合，在本轮有效地面拟合值集合中对应的图像点数量与地面区域中图像点总数量的比值大于第二阈值d时，则将本轮有效地面拟合值集合中的全部地面拟合值累加得到结果

，并在本轮中

＜

，

为第三阈值，则基于本轮初始地面拟合公式中的 a 、 b 、 c 、 d的值构建出地面拟合公式，而在本轮中

≥

，需重复上述步骤进入下一轮，也即重新选择3个图像点组建地面初始数据集，构建出初始地面拟合公式并得到本轮中的全部地面拟合值累加结果，直至将所有轮中全部地面拟合值累加结果最小值对应的初始地面拟合公式定义为地面拟合公式。

通过上述过程，可有效避免一些异常点的干扰，求得的地面拟合公式更加贴合地面，另外，由于地面拟合公式中 a 、 b 、 c 、 d的值是采用随机一致性算法求得的，因此得到的地面拟合公式可作为第一深度图像中地面区域的最优模型，有效的滤除了异常点的影响，防止建立的地面方程偏离地面。

同理，标记物拟合公式的构建过程与地面拟合公式的构建过程逻辑一致，本实施例在此不做赘述，但需要强调的是，由于标记物区域通常不止一个，故需针对多个标记物区域一一对应的标记物拟合公式。

上述实施例中将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版的方法包括：

具体实施时，利用通用方程

分别计算地面方程和标记物方程，当分子

为地面拟合公式，且分母 a 、 b 、 c为地面拟合公式中的值时，则该方程表示地面方程，当分子

为标记物拟合公式，且分母 a 、 b 、 c为标记物拟合公式中的值时，则该方程表示标记物方程。在地面方程和标记物方程构建完成后，通过遍历第一深度图像中的全部图像点，并分别代入地面方程和标记物方程得到该图像点的地面距离和标记物距离，筛选出地面距离小于地面阈值的图像点填充为地面蒙版，以及筛选出标记物距离小于标记物阈值的图像点填充为标记物蒙版。

示例性地，地面阈值和标记物阈值均设置为10cm，也即地面10cm以内的区域定义为地面蒙版，将标记物10cm以的区域内定义为标记物蒙版，最终将地面蒙版和全部的标记物蒙版区域定义为当前场景的背景蒙版。通过场景背景蒙版的建立，有效的滤除了标记物区域和地面区域上的噪声，并且解决了深度摄像头拍摄这些区域产生的噪声导致算法性能下降的问题。

上述实施例中，根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新的方法包括：

具体实施时，首先对深度摄像头的内参和外参进行标定，用来对图像进行二维坐标到三维坐标的转换，以便通过实际的物理意义进行相关计算。然后利用每个深度摄像头连续拍摄100帧第二深度图像，针对每个深度摄像头拍摄的100帧第二深度图像对背景蒙版进行背景更新。更新过程为：通过对100帧第二深度图像中各相同位置像素点(row，col)的深度值进行比较，从100帧第二深度图像中筛选出每个相同位置像素点(row，col) 对应深度值的最大值，使得输出的第100帧第二深度图像中各位置像素点(row，col) 对应的深度值均为上述100帧第二深度图像中的最大值，这样设置的目的在于：由于深度摄像头采用的是俯拍方案，因此当第二深度图像中出现过往物体（如行人穿过）时，相应位置像素点的深度值会变小，通过取100帧第二深度图像中相同位置像素点对应深度值的最大值，可以有效避免第二深度图像偶然出现过往物体造成的影响，避免了背景蒙版中出现过往物体的像素点。然后使用第100帧第二深度图像中各位置像素点及其对应的深度值与背景蒙版中各位置像素点及其对应的深度值进行大小值比对，识别深度值发生变化的像素点，将背景蒙版中对应位置像素点的深度值更新为比对结果中的小值，以确保更新后背景蒙版的准确性。

可以理解的是，像素点参数值通过像素点在像素坐标系中的坐标参数表示，图像点参数值通过图像点在视觉坐标系中的坐标参数表示。

上述实施例中，将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域的方法包括：

通过类似帧差法，可有效滤除实时获取的第三深度图像中的噪声，提升前景区域识别的准确性。

上述实施例中，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理的方法包括：

；

基于连线距离及对应的夹角

，得到两个人体像素点集对应的人体距离；

具体实施时，通过连通域标记算法识别出前景区域中的人体像素点集，首先设定生长阈值 th_grow以限制生长的范围及截至条件，然后将生长方式设置为八连通生长方式，在前景区域中从左上向右下遍历像素点识别出人体像素点集，若像素点未被遍历则

，若像素点已被遍历计算下一个像素点的生长条件，若满足

<th_grow，则表示下一

与当前

的生长差值小于阈值 th_grow，则置下一

为当前

，否则这个方向的像素点生长截至，转由另一方向重新生长，直至全部

，也即全部

均被遍历为止得到一个或多个人体像素点集，此方案相比较于面积过滤方案，可通过生长阈值控制限制生长的条件，防止密集人群中出现人影粘连的情况。然后，通过计算各个人体像素点集的中心点及两两中心点在地面区域上的投影距离，如中心点A与中心点B，两点直线线段为AB，AB与地面方程的夹角为θ，两个人体像素点集对应的人体距离的计算公式为

，若人体距离大于距离阈值时，将两个人体像素点集对应为两个不同人体产生的人体区域，反之将两个人体像素点集视为同一个人体产生的人体区域。

上述实施例中，得到人体检测数据的方法包括：

具体实施时，基于设定的距离间隔采用降采样方式寻找一个人体区域或者多个人体区域的局部最高像素点，然后通过小范围的区域生长得到一个人体区域或者多个人体区域的头部区域，此步骤为限定区域生长的变体，允许向高处生长，在向低处生长时候加了一个阈值，可防止人头过分生长到肩部，然后计算头部区域中像素点的平均值，得到人头中心点的三维坐标(x,y,z)，通过公式

计算出人头距离地面的身高。综上，人体检测数据包括头部区域和身体身高、以及头部中心点的二维、三维坐标。

考虑到一个拍摄场景中会同时使用多台深度摄像头处理多人同时进入场景内的活动情况，在安装深度摄像头时可使每台深度摄像头拍摄的视角小部分重叠，最大化利用摄像头的视角覆盖面，同时使用REID模块的跨镜追踪技术来实现行人跟踪检测功能。且各个深度摄像头的检测分开进行，最后再通过相互校验融合数据，随着场地的扩大深度摄像头在增加时可迅速扩展，具有良好的算法鲁棒性、多场景复用性、和新版本扩展性。

实施例二

本实施例提供一种基于深度图像的行人检测装置，包括：

与现有技术相比，本发明实施例提供的基于深度图像的行人检测装置的有益效果与上述实施例一提供的基于深度图像的行人检测方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于深度图像的行人检测方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于深度图像的行人检测方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种基于深度图像的行人检测方法，所述深度图像由深度摄像头俯拍获取，其特征在于，所述方法包括：

基于第一深度图像中框选的地面区域构建地面拟合公式，以及基于至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式；

将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版；

根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新；

将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域；

采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到人体检测数据。
根据权利要求1所述的方法，其特征在于，基于第一深度图像中框选的地面区域构建地面拟合公式的方法包括：

S11，统计与地面区域对应的数据集合，所述数据集合包括多个图像点；

S12，从地面区域中随机选择n个图像点组建地面初始数据集，n≥3且n为整数；

S13，基于当前选择的n个图像点构建初始地面拟合公式，遍历初始数据集中未被选择的图像点，将其依次代入初始地面拟合公式计算对应图像点的地面拟合值；

S14，将小于第一阈值的地面拟合值筛选出来，生成第i轮的有效地面拟合值集合，i的初始值为1；

S15，当第i轮的有效地面拟合值集合对应的图像点数量与地面区域中图像点总数量的比值大于第二阈值，则将第i轮有效地面拟合值集合中的全部地面拟合值累加；

S16，当第i轮中全部地面拟合值的累加结果小于第三阈值，则将第i轮对应的初始地面拟合公式定义为地面拟合公式，当第i轮对应的全部地面拟合值累加结果大于第三阈值，令i=i+1，并在i未达到阈值轮数时返回步骤S12，否则执行步骤S17；

S17，将所有轮中全部地面拟合值累加结果最小值对应的初始地面拟合公式定义为地面拟合公式。
根据权利要求1所述的方法，其特征在于，基于至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式的方法包括：

S21，统计与标记物区域一一对应的数据集合，所述数据集合中包括多个图像点；

S22，从标记物区域中随机选择n个图像点组建标记物初始数据集，n≥3且n为整数；

S23，基于当前选择的n个图像点构建初始标记物拟合公式，遍历初始数据集中未被选择的图像点，将其依次代入初始标记物拟合公式计算对应图像点的标记物拟合值；

S24，将小于第一阈值的标记物拟合值筛选出来，生成第i轮的有效标记物拟合值集合，i的初始值为1；

S25，当第i轮的有效标记物拟合值集合对应的图像点数量与标记物区域中图像点总数量的比值大于第二阈值，则将第i轮有效标记物拟合值集合中的全部标记物拟合值累加；

S26，当第i轮中全部标记物拟合值的累加结果小于第三阈值，则将第i轮对应的初始标记物拟合公式定义为标记物拟合公式，当第i轮对应的全部标记物拟合值累加结果大于第三阈值，令i=i+1，并在i未达到阈值轮数时返回步骤S22，否则执行步骤S27；

S27，将所有轮中全部标记物拟合值累加结果最小值对应的初始标记物拟合公式定义为标记物拟合公式。
根据权利要求1-3任一项所述的方法，其特征在于，将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版的方法包括：

基于地面拟合公式构建地面方程，以及基于标记物拟合公式构建标记物方程；

遍历第一深度图像中的图像点，分别代入地面方程和标记物方程得到该图像点的地面距离和标记物距离；

筛选出地面距离小于地面阈值的图像点填充为地面蒙版，以及筛选出标记物距离小于标记物阈值的图像点填充为标记物蒙版；

将地面蒙版和全部的标记物蒙版融合，得到当前场景的背景蒙版。
根据权利要求4所述的方法，其特征在于，根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新的方法包括：

依次将第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行大小值比对，m的初始值为1；

识别深度值发生变化的像素点，将第m+1帧第二深度图像中对应位置像素点的深度值更新为比对结果中的大值，令m=m+1，重新对第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行比对，直至得到最后一帧第二深度图像中各位置像素点及其对应的深度值；

将最后一帧第二深度图像中各位置像素点及其对应的深度值与背景蒙版中各位置像素点及其对应的深度值进行大小值比对；

识别深度值发生变化的像素点，将背景蒙版中对应位置像素点的深度值更新为比对结果中的小值。
根据权利要求5所述的方法，其特征在于，将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域的方法包括：

将实时获取的第三深度图像中的各位置像素点及其对应的深度值与更新后的背景蒙版中各位置像素点及其对应的深度值进行大小值比对；

识别所述第三深度图像中深度值变小的像素点，汇总得到包含人体像素的前景区域。
根据权利要求6所述的方法，其特征在于，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理的方法包括：

根据设定的生长阈值，采用连通域标记算法识别出前景区域中的人体像素点集；

识别前景区域中人体像素点集的数量，当为多个人体像素点集时分别计算每个人体像素点集的中心点；

将得到的中心点两两连线并计算连线距离，同时将各条连线向地面区域正投影，分别获取到每条连线与地面方程的夹角
；

基于连线距离及对应的夹角
，得到两个人体像素点集对应的人体距离；

当人体距离大于距离阈值时，将两个人体像素点集对应为两个不同人体产生的人体区域，反之将两个人体像素点集视为同一个人体产生的人体区域。
根据权利要求7所述的方法，其特征在于，得到人体检测数据的方法包括：

基于设定的距离间隔采用降采样方式寻找一个人体区域或者多个人体区域的局部最高像素点；

通过区域生长方式锁定一个人体区域或者多个人体区域的头部区域，同时利用地面方程计算一个人体区域或多个人体区域对应的人体检测数据，所述人体检测数据包括人体身高和头部的像素点坐标。
根据权利要求1-3、5-8任一项所述的方法，其特征在于，所述标记物区域为货架区域。
一种基于深度图像的行人检测装置，所述深度图像由深度摄像头俯拍获取，其特征在于，所述装置包括：

拟合公式构建单元，基于第一深度图像中框选的地面区域构建地面拟合公式，以及基于至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式；

蒙版生成单元，将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景的背景蒙版；

蒙版更新单元，根据多帧连续的第二深度图像中的像素点以及背景蒙版中的像素点，对背景蒙版进行背景更新；

前景区域识别单元，将实时获取的第三深度图像与更新后的背景蒙版进行像素点比对，锁定第三深度图像中包含人体像素的前景区域；

人体检测单元，采用区域生长方式对前景区域中的人体区域进行合并和/或分割处理，得到人体检测数据。