WO2022001925A1

WO2022001925A1 - 行人追踪方法和设备，及计算机可读存储介质

Info

Publication number: WO2022001925A1
Application number: PCT/CN2021/102652
Authority: WO
Inventors: 窦笑; 申光; 侯春华; 李东方
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-06-29
Filing date: 2021-06-28
Publication date: 2022-01-06
Also published as: US20230351794A1; EP4174716A1; CN113935358A; EP4174716A4

Abstract

一种行人追踪方法和设备，以及计算机可读存储介质，涉及通信技术领域。行人追踪方法包括：对预设监控摄像头采集的视频画面进行行人轨迹分析，生成行人轨迹图片集（S110）；对行人轨迹图片集进行多模态特征提取，并形成行人多模态数据库（S120）；以及，将行人多模态数据库输入到训练好的多模态识别系统中，进行行人追踪，生成行人在预设监控摄像头中的移动轨迹（S130）。

Description

行人追踪方法和设备，及计算机可读存储介质

本申请要求在2020年6月29日提交中国专利局、申请号为202010603573.9的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域。

背景技术

视频监控已经遍布在我们生活的各个角落中，并且人脸识别技术已经非常成熟。然而，在实际的安防应用场景中，并非所有的摄像头都能够拍摄到清晰的人脸，由于头发、口罩和帽子等遮挡，很难通过人脸识别系统判定行人身份。不仅如此，在实际的应用场景中，一个摄像头往往无法覆盖所有的区域，而且多个摄像头之间一般也没有重叠，因此跨镜追踪检索系统对人员进行锁定和查找显得十分必要。

目前，跨镜追踪技术在产业界和学术界都受到广泛关注，并取得显著进展，从政策方面看，公安部推出平安城市的概念，并且发布了多项预研课题，相关的行业标准也在紧锣密鼓的制定当中。

发明内容

本申请实施例的一个方面提供一种行人追踪方法，包括：对预设监控摄像头采集的视频画面进行行人轨迹分析，生成行人轨迹图片集；对行人轨迹图片集进行多模态特征提取，并形成行人多模态数据库；以及，将行人多模态数据库输入到训练好的多模态识别系统中，进行行人追踪，生成行人在预设监控摄像头中的移动轨迹。

本申请实施例的另一个方面提供一种行人追踪设备，包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序，以及用于实现处理器和存储器之间的连接通信的数据总线；程序被处理器执行，以实现本申请实施例提供的行人追踪方法的至少一个步骤。

本申请实施例的再一个方面提供一种计算机可读存储介质，其上存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现本申请实施例提供的行人追踪方法的至少一个步骤。

附图说明

图1是本申请实施例提供的行人追踪方法的一种流程图。

图2是本申请实施例提供的行人追踪方法的一种流程图。

图3是本申请实施例提供的行人追踪系统的一种结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

跨镜追踪检索系统使用最多的就是行人重识别。在该领域，大多研究者一般采用基于行人图片特征来定位和检索行人的方案，这样对行人特征的鲁棒性提出了很高的要求，但是真实的场景往往都非常复杂，比如无正脸照、姿态变换、服装变换、遮挡、光线、摄像头分辨率较低和室内外环境变化等，这些因素通常会导致行人检索与追踪的失败。

本申请提出了一种基于多模态的跨镜追踪检索系统，以多目标行人追踪为基础，结合行人重识别网络、行人质量分析、行人属性分析、人脸识别和摄像头的时间和空间位置信息，来进一步提高跨镜追踪检索的准确率和速度。

如图1所示，本申请实施例提供了一种行人追踪方法，包括以下步骤S110-步骤130。

在步骤S110中，对预设监控摄像头采集的视频画面进行行人轨迹分析，生成行人轨迹图片集。

在步骤S120中，对行人轨迹图片集进行多模态特征提取，并形成行人多模态数据库。

在步骤S130中，将行人多模态数据库输入到训练好的多模态识别系统中，进行行人追踪，生成行人在预设监控摄像头中的移动轨迹。

在一种可实施方式中，该行人追踪方法还可包括：接收目标行人轨迹，提取目标行人的多模态特征，并在行人多模态数据库中查找与目标行人的多模态特征匹配的第一行人轨迹；将目标行人轨迹和第一行人轨迹合并生成第二行人轨迹，在行人多模态数据库中查询与第二行人轨迹匹配的行人轨迹；以及，根据与第二行人轨迹匹配的行人轨迹，生成目标行人在预设监控摄像头中的移动轨迹。

在一种可实施方式中，该行人追踪方法还可包括：从行人轨迹图片集选取质量参数在预设范围内的图像，并对选取的质量参数在预设范围内的图像进行特征提取。

在一种可实施方式中，可根据训练集对多模态识别系统中各模态参数的影响因子进行调整，得到训练好的多模态识别系统。

在一种可实施方式中，行人轨迹图片集中的图片名称可包括：轨迹标识(ID)、视频帧号、图片拍摄时间，和/或地点信息。

在一种可实施方式中，生成行人在预设监控摄像头中的移动轨迹，可包括：根据监控摄像机分布拓扑的图结构进行行人的移动规律分析。

具体地，可将监控摄像头的时空拓扑关系与目标的外观表现模型匹配算法进行结合,使用监控摄像头拓扑的图结构分析行人移动和转移的规律，从而对行人的跨镜追踪进行时空约束。如果跟踪目标在某个节点(摄像头)处消失，则在其相邻几步可达的节点处进行目标检测，再进行匹配与关联。

更进一步地，空间关系定义了节点之间是否建立边，以及边的方向。图模型的建立过程中，如果两个节点之间在物理空间位置上一步可达，即不经过其他任何节点，则为它们之间建立一条边。

在实际应用系统中，采用统计学习方法为目标的运动建立时间约束，从而定义节点之间合理的权值。想要获取一组摄像头节点数据的统计规律往往比较困难，这是由许多因素决定的：包括目标的运动规律、摄像机的地理位置、监控周边交通环境变化等。在本申请实施例中，对所有观测时间进行聚类并计算每个类内的方差；根据摄像头相对坐标及路线情况初始化权重，根据行人重识别比对情况进行修正。

考虑到行人无法同时出现在多个摄像头以及从一个摄像头移动到另一个摄像头需要考虑其时间统计规律，可以利用该时空约束显著减少待查询的样本量，减少了查询时间并提高了检索性能。

结合摄像头的空间经纬坐标及可行走路线的空间约束，可以估计出摄像头节点间的连接关系及初始移动时间。后续结合行人重识别的间隔时间进行不断的修正，可以获得摄像头网络拓扑的边权值。

后续查询时，首先根据待查询轨迹确定以此节点为中心的摄像机网络拓扑中的临近节点，再结合边权值限定临近节点中查询数据的时间范围。在每个临近节点的对应时间范围内进行轨迹匹配。

在临近节点A中匹配到目标后，则以该节点为新的网络中心，在摄像机网络拓扑中的临近节点中继续查询，并更新行人行进轨迹和出现的时间节点。在查询结束后完成行人行进轨迹的绘制。

若在推荐的时间范围内没有匹配到目标，则在扩大的时间范围内进一步查询，若仍没有查询到，则在以该节点为中心的下一层临近节点进行查询。

在一种可实施方式中，多模态特征可包括以下一种或多种：行人特征、人脸特征和行人属性特征。行人特征可包括以下一种或多种：高矮胖瘦的体型特征和姿势特征。人脸特征信息可包括以下一种或多种：脸型特征、脸部表情特征和肤色特征。行人属性信息可包括以下一种或多种：发型长短、发型颜色、服装款式、服装颜色以及携带物品。

本申请实施例还提供一种行人追踪设备，包括存储器、处理器、存储在存储器上并可在处理器上运行的程序，以及用于实现处理器和存储器之间的连接通信的数据总线。程序被处理器执行时，可实现本申请实施例提供的行人追踪方法的至少一个步骤，例如，图1所示的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现本申请实施例提供的行人追踪方法的至少一个步骤，例如，图1所示的步骤。

本申请实施例公开了一种利用多模态信息融合来对不同摄像头下同一行人进行检索与追踪的系统，如图2所示，该系统实施行人追踪方法可包括以下步骤S1-步骤S6。

在步骤S1中，获取监控区域中不同摄像头的视频。

在步骤S2中，对获取到的离线视频进行行人检测，并完成行人轨迹提取，相应的行人轨迹图片集中的图片名以轨迹ID、视频帧号和对应时间、地点复合命名(例0001_00025_202003210915_NJ)，保存在以轨迹ID命名的子文件夹下。

在步骤S3中，通过行人质量分析，提取行人轨迹图片集中质量参数在预设范围内的图像；在一种可实施方式中，可选取图片质量较好且时间较分散的5张图片，作为最佳5张(top5)行人轨迹。

在步骤S4中，分别利用行人重识别网络、人脸识别网络和行人属性网络提取top5行人轨迹的行人特征、人脸特征(若未检测到人脸数据置为空)和行人属性特征，特征提取完成，把三种特征和(轨迹ID、视频帧号、时间、地点)保存到数据库中。

在一种可实施方式中，行人重识别网络是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，通过行人重识别网络确定行人特征。

行人属性网络用于提取行人属性，行人属性是关于行人外貌的语义性描述，人体不同的部位具有不同的属性，例如，人体头部相关属性有“短发”及“长发”等；衣服款式相关属性有“长袖”、“短袖”、“连衣裙”和“短裤”等；携带物相关属性有“双肩包”、“单肩包”、“手提包”和“无携带”等。在不同环境和场合可以对行人属性进行选择和细分，使之有利于行人的再识别。行人属性信息与人的外观信息相关联的，是更为具体的语义信息，在进行行人比对或行人检索时，根据行人属性的相似情况可以过滤不相关数据。

在步骤S5中，采用一批人工标注好的测试集来优化多模态权重参数。

在步骤S6中，输出最终检测结果。

本申请实施例提供的方案相对于其它只基于行人图片特征来定位和检索的方案，融合了人脸、行人属性、时间和空间等多模态信息，使得检索更具备鲁棒性，更能够适应复杂的真实场景。

图3是本申请实施例提供的基于多模态检索的跨镜行人追踪系统的一种结构框图。如图3所示，该系统可包括：数据获取与轨迹提取模块、最佳轨迹提取模块、特征提取和多模态信息入库模块、多模态权重参数调整模块，和检索交互和结果展示模块。

数据获取与轨迹提取模块，从监控的视频单元中获取离线视频图像，每个监控单元只负责自己区域的数据保存和提取，保存到指定文件夹下，对已保存的视频进行轨迹追踪提取，并对行人图片自动标注轨迹ID、图片帧号、时间信息和位置信息。

最佳轨迹提取模块，从行人轨迹中筛选出行人质量较完整的，同时，具有较大时间间隔的5张行人轨迹图片。

特征提取和多模态信息入库模块是提取行人、人脸和行人属特征，并将这三种特征和轨迹ID、行人轨迹图片时间和空间信息，保存到行人多模态数据库中。

多模态权重参数调整模块是使用一批标注的测试集来优化多模态参数值的权重，最终达到针对不同的数据集有自己最优的模态参数。

检索交互和结果展示模块能够提供界面化操作轨迹搜索轨迹和图片搜索轨迹，并能够显示最优轨迹和每个摄像头下的最优轨迹排名，并能够通过轨迹中的图片帧号，可以搜索到视频中该轨迹，并进行实时播放。

本申请实施例提供的基于多模态的跨镜追踪检索系统，可获取监控区域的离线视频，对视频中的行人进行行人检索，采用轨迹追踪算法进行行人轨迹提取，并对每张图片完成以轨迹ID、视频帧号和对应时间、地点复合命名，通过行人质量分析提取轨迹中的最佳5张行人图片。对其所有轨迹图片进行人脸、行人和行人属性特征进行提取，特征提取完成后将所有的多模态信息入库。使用测试集对多模态系统参数进行自适应调整，最后完成跨镜头的行人轨迹搜索，并将结果显示在界面上。该方法相对人工检索方法，很大程度上减少了工作量，高效率的同时还有较高的准确率，该方案可实现跨镜头的行人检索，为智慧安防和平安城市提供了相当有力的支持。

请参见图2，下面对上述各步骤进行详细的描述。

在步骤S1中，确定检索区域，并获取该区域监控的离线视频，该区域可以是商场、写字楼、居民小区和社区等相对固定的场所，并且该离线视频应该是某一时间段的，至少是同一天的监控视频。将视频保存到本地，并标记摄像头ID、位置和起始时间，在本实施例中，选取三个不同角度的镜头，摄像头ID为C0、C1和C2。

在步骤S2中，对各个摄像头下的离线视频进行行人检测、轨迹追踪。相应的行人轨迹图片集中图片以轨迹ID、视频帧号和对应时间、地点复合命名(例0001_00025_202003210915_NJ)，保存在以轨迹ID命名的子文件夹下。这里行人检测模型采用的是SSD(Single Shot MultiBox Detector，深度学习目标检测算法)算法来获取当前帧行人的位置框和边界框，采用匈牙利追踪算法获取行人轨迹。

在步骤S3中，对上步获取的行人轨迹，使用行人质量分析模型，这里采用的是人体骨骼关键点检测算法，通过骨骼关键点的个数来判别行人的完整性，若图片中行人骨骼关键点的个数等于预设值，则判断获取的该行人的图片信息完整。在本实施例中，选取的关键点包括：头部、肩部、手掌、脚掌。对于有较多行人图片的轨迹，提取该轨迹中质量较好且时间较分散的5张图片，作为top5行人轨迹。

在步骤S4中，分别利用行人重识别网络、人脸识别网络和行人属性网络提取top5行人轨迹的行人特征、人脸特征(若未检测到人脸数据置为空)和行人属性特征，特征提取完成，把三种特征和(轨迹ID、视频帧号、时间、地点)保存到行人多模态数据库中。

在步骤S5中，因为跨镜追踪的数据集对场景要求非常严格，在网络上没有任何资源可供使用，所以采用了自己构建的训练集，通过提取三个不同镜头下的离线监控视频，三个摄像头分别命名为C0、C1和C2。然后对离线视频进行行人多目标检测跟踪、审核和人工标注。查询(query)数据归属于C0摄像头，被查询轨迹(gallery)数据分属于两个摄像头C1和C2。使用该标注好的训练集优化多模态识别系统，经过上述S4步骤，完成一系列的多模态信息入库(该数据库归属于多模态权重优化数据库，与之前S4步生成的信息检索数据库不存在冲突)，每条轨迹包含5张图片，在进行人脸、行人特征及行人属性比对时将采取批量特征比对的方式进行，然后采用C0->C1，C0->C2的检索方式，最终对C0->C1，C0->C2，统计检索命中率。然后动态的调整多模态权重参数，重新进行C0->C1，C0->C2，统计检索命中率。当检索命中率达到最高时认为，当前的多模态参数为最优多模态参数，既完成多模态参数特征的优化调整。

在步骤S6中，最终采用优化好的多模态权重参数，对S4步已经生成的信息检索数据库，进行跨镜下的行人检索，输出最终检测结果。根据本申请实施例，最终能够提供界面化操作轨迹搜索轨迹和图片搜索轨迹，并能够显示最优轨迹和每个摄像头下的最优轨迹排名，并能够通过轨迹中的图片帧号，可以搜索到视频中该轨迹，并进行实时播放。

本申请实施例提供的这种基于多模态的跨镜追踪检索系统，可应用于如下两种场景：行人轨迹搜索和行人图片搜索。利用数据库中的轨迹ID，行人特征、人脸特征，行人属性和摄像头位置信息，来进行轨迹和图片快速准确的检索，利用不同特征之间的约束，来达到精确匹配的效果。

轨迹匹配的任务目的是：任意选中一个已抽取的轨迹，根据多模态特征进行检索，在同一个视频内以及视频间匹配出与其相关的所有轨迹。具体实施可包括以下步骤S11-步骤S15。

在步骤S11中，确定检索区域，并获取该区域监控的离线视频，该区域可以是商场、写字楼、居民小区和社区等相对固定的场所，并且该离线视频应该是某一时间段的，至少是同一天的监控视频。将视频保存到本地，并标记摄像头ID、位置和起始时间，在本实施例中，选取三个不同角度的镜头，摄像头ID为C0、C1和C2。

在步骤S12中，对各个摄像头下的离线视频进行行人检测、轨迹追踪。相应的行人轨迹图片以轨迹ID、视频帧号和对应时间、地点复合命名(例0001_00025_202003210915_NJ)，保存在以轨迹ID命名的子文件夹下。这里行人检测模型采用的是SSD算法来获取当前帧行人的位置框和边界框，采用匈牙利追踪算法获取行人轨迹。

在步骤S13中，对上步获取的行人轨迹，使用行人质量分析模型，这里采用的是人体骨骼关键点检测算法，通过骨骼关键点的个数来判别行人的完整性，对于有较多行人图片的轨迹，提取该轨迹中质量较好且时间较分散的5张图片，作为top5行人轨迹。

在步骤S14中，分别利用行人重识别网络、人脸识别网络和行人属性网络提取top5行人轨迹的行人特征、人脸特征(若未检测到人脸数据置为空)和行人属性特征，特征提取完成，把三种特征和(轨迹ID、视频帧号、时间、地点)保存到信息检索数据库中。

在步骤S15中，在该步完成轨迹匹配和图匹配。在选取视频内匹配和视频间匹配优先级时，考虑到视频内的图像是同源数据，在进行匹配时更能保证准确性，所以优先处理视频内的轨迹匹配。同时在选用特征的作用优先级时，考虑到人脸特征是行人最为鲁棒的特征，优先进行人脸特征的比对，根据S14步骤中存储的结构性特征，并根据不同特征作用的先后、视频内轨迹匹配及视频间轨迹匹配的优先级，匹配工作的流程包括以下1)-3)。

1)首先进行视频内的轨迹匹配，首先使用目标轨迹的人脸特征，与其它含有人脸特征的轨迹进行批量化的特征比对，若能完成特征匹配，并在行人特征比对和行人属性的批量特征比对时有一定的相关性，则认为轨迹能够匹配成功。其次将匹配到的轨迹与目标轨迹结合作为第二行人轨迹，在剩余的轨迹内进行查询，查询算法为使用行人特征和行人属性特征的批量特征比对，在该过程中将使用重排序算法进行轨迹匹配。该过程充分结合初步查询的稳定轨迹，使第二行人轨迹中包含更多姿态和角度的样本，使该过程的查询更加的稳定。至此完成了视频内的轨迹匹配。

2)然后进行视频间的轨迹匹配，与视频内的轨迹匹配较类似，也要首先使用query中的人脸特征与时空约束中的临近节点中的行人轨迹进行批量特征匹配。然后利用结合了初次匹配到的样本作为query在临近节点中进行再次查询。不同的是，考虑到跨镜过程中数据源的变化，该过程中特征比对的阈值将适当降低。

3)以行人图片搜索行人图片，对传入的待查询图片要进行结构化的特征提取，通过进行行人检测、行人特征提取、行人属性识别及人脸检测、人脸特征提取完成其特征结构化。在进行以图搜图时，首先在可疑节点的视频轨迹内进行查询，查询到目标轨迹后，后续将使用轨迹匹配的算法进行进一步查询。

若在可疑节点没有查询到目标行人，则进一步扩大范围，在临近节点内进行全量查询，若能确定大致时间范围，则可疑进一步增加检索的效率和准确性。

至此，已完成以行人轨迹匹配搜素轨迹和以行人图片搜索行人图片的过程。

综上所述，本申请实施例提供的技术方案可包括以下步骤11)-步骤16)。

在步骤11)中，在进行行人轨迹提取时，对行人图片自动标注轨迹ID、时间信息和位置信息，在后续跨镜检索的时候可以利用轨迹ID、图片帧号、时间和空间信息。同时，该系统还能够同时对多个镜头下的多个视频进行轨迹提取。

在步骤12)中，行人质量分析采用的是人体骨骼关键点检测技术，通过该技术选取几个关键点，通过检测到的关键点个数来判断行人的完整性，会输出一个完整性得分，通过该得分提取一些质量较差的行人图片(这样会去除一些遮挡较为严重的行人图片)，然后在利用图片的时间信息选取轨迹中5张时间间隔较大的图片(因为相邻帧图片之间的行人姿态变化较小，多个不同姿态同一个行人的轨迹特征更具有判别性，同时五张图片可以减少轨迹匹配的计算量)。

在步骤13)中，本申请结合了行人多目标跟踪、关键点骨骼检测、行人重识别、行人属性结构化、人脸识别和摄像机的拓扑时空约束等多模态信息的融合来实现跨摄像头下的行人追踪检索方案。

在步骤14)中，利用多模态信息融合后的特征来更好的实现跨镜头下行人轨迹搜索行人轨迹，行人图片搜索行人轨迹的目标，最终实现跨镜追踪。

在步骤15)中，在进行目标行人的跨镜追踪时，可能面临巨大的数据量，进行全量搜索查询几乎是不可能的。本系统将摄像机的时空拓扑关系与目标的外观表现模型匹配算法进行结合，使用摄像机网络拓扑的图结构分析行人移动和转移的规律，从而对行人的跨镜追踪进行时空约束。

在步骤16)中，采用一批标注好的实际场景的数据集来优化各个模态之间的权重参数来达到跨镜追踪检索的最优效果。

本申请实施例提供的行人追踪方法和设备，以及计算机可读存储介质，可以自动完成跨镜追踪检索，打破单一固定摄像头的视角局限，同时也避免了手动回放大量监控视频来搜寻检索目标，极大地提高了检索效率，并且提高了追踪范围。多模态信息的利用，该跨镜检索特征综合了多种模态信息，包括人脸、行人、属性和时空信息，形成了多模态特征的互补，综合后的特征更具有特征判别性，在进行跨镜追踪检索时具有更好的鲁棒性，同时提高了检索精度。该系统能够通过测试集自适应地调整多模态权重参数，这样在很大的程度上解决了摄像头的跨域问题，通过参数的调整能够更好的适应不同的监控场景。该系统具有较好的人机交互界面，能够界面化的配置摄像头位置信息，模态权重参数信息，能够通过按键操作，行人追踪，特征提取和特征入库，界面化操作轨迹检索轨迹，行人图片搜索轨迹，界面显示最优轨迹，不同摄像头下的轨迹搜索排名，并能够进行轨迹播放。数据库信息可视化，非常便于操作使用。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

一种行人追踪方法，包括：

对预设监控摄像头采集的视频画面进行行人轨迹分析，生成行人轨迹图片集；

对所述行人轨迹图片集进行多模态特征提取，并形成行人多模态数据库；以及

将所述行人多模态数据库输入到训练好的多模态识别系统中，进行行人追踪，生成行人在所述预设监控摄像头中的移动轨迹。
根据权利要求1所述的方法，还包括：

接收目标行人轨迹，提取所述目标行人的多模态特征，并在所述行人多模态数据库中查找与所述目标行人的多模态特征匹配的第一行人轨迹；

将所述目标行人轨迹和所述第一行人轨迹合并生成第二行人轨迹，在所述行人多模态数据库中查询与所述第二行人轨迹匹配的行人轨迹；以及

根据与所述第二行人轨迹匹配的行人轨迹，生成所述目标行人在所述预设监控摄像头中的所述移动轨迹。
根据权利要求1所述的方法，还包括：从所述行人轨迹图片集选取质量参数在预设范围内的图像，并对所述选取的质量参数在预设范围内的图像进行特征提取。
根据权利要求1所述的方法，其中，所述训练好的多模态识别系统是根据训练集对所述多模态识别系统中各模态参数的影响因子进行调整得到的。
根据权利要求1所述的方法，其中，所述行人轨迹图片集中的图片名称包括：轨迹标识ID、视频帧号、所述图片拍摄时间和地点信息。
根据权利要求1所述的方法，其中，生成所述行人在所述预设监控摄像头中的所述移动轨迹，包括：

根据所述监控摄像机分布拓扑的图结构进行所述行人的移动规律分析。
根据权利要求1-6中任一项所述的方法，其中，所述多模态特征包括以下一种或多种：行人特征、人脸特征和行人属性特征。
根据权利要求7所述的方法，其中，所述行人特征包括以下一种或多种：高矮胖瘦的体型特征和姿势特征；

所述人脸特征信息包括以下一种或多种：脸型特征、脸部表情特征和肤色特征；和/或

所述行人属性信息包括以下一种或多种：发型长短、发型颜色、服装款式、服装颜色以及携带物品。
一种行人追踪设备，包括：存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序，以及用于实现所述处理器和所述存储器之间的连接通信的数据总线；其中，所述程序被所述处理器执行时实现根据权利要求1-8中任一项所述的行人追踪方法。
一种计算机可读存储介质，其上存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现根据权利要求1-8中任一项所述的行人追踪方法。