WO2022247711A1

WO2022247711A1 - 一种目标关联视频追踪处理方法和装置

Info

Publication number: WO2022247711A1
Application number: PCT/CN2022/093647
Authority: WO
Inventors: 秦军瑞; 吴劲; 李启文; 段志奎; 邝伟锋; 许剑锋; 邓锐; 李洋
Original assignee: 广州智慧城市发展研究院
Priority date: 2021-05-24
Filing date: 2022-05-18
Publication date: 2022-12-01
Also published as: CN113343795A; CN113343795B

Abstract

本公开提供了一种目标关联视频追踪处理方法和装置，以多区域设置的不同监控摄像头采集多组视频，通过计算视频图像帧序列中目标的图像和时间、地点特征，从而实现实时监测有行动关联性合作行动的概率值的功能。计算标注为同一目标的概率偏差距D，并获取其空间连接性C，根据D和C对比集合T中各目标的移动时间和移动路线，计算出集合T中各目标之间有行动关联性的概率值。相比现有的目标追踪技术，有如下优点：(1)充分利用了视频监测目标的时间地点特征，进行目标追踪；(2)有效监测目标之间行动关联性概率，实现概率阈值监控；(3)达到有针对性大幅度视频压缩的效果。

Description

一种目标关联视频追踪处理方法和装置

技术领域

本公开涉及目标追踪技术领域，具体涉及一种目标关联视频追踪处理方法和装置。

背景技术

计算机视觉算法是目前广泛有效的目标识别技术，在公共场合的目标识别和目标追踪有广泛的应用，但单纯使用计算机视觉算法不足以进行公共场所的目标关联视频追踪。在已有的目标关联视频追踪方法技术中，绝大多数方法仅仅着眼于视频中目标的识别，大程度忽略了对目标的地点和时间的特征计算，难以计算目标移动的行动趋势。

发明内容

本公开提供一种目标关联视频追踪处理方法和装置，以多区域设置的不同监控摄像头采集多组视频，通过计算视频图像帧序列中目标的图像和时间、地点特征，从而实现实时监测有行动关联性合作行动的概率值的功能。

为了实现上述目的，根据本公开的一方面，提供一种目标关联视频追踪处理方法和装置，所述方法包括以下步骤：

步骤1，通过多个区域设置的不同位置的监控摄像头采集多个视频，通过目标检测算法对各个视频进行目标检测得到的多个目标作为集合T；

步骤2，将每一段视频处理为标记有采集时间地点的图像帧序列S；

步骤3，通过计算不同图像帧序列S的各个目标的时间地点特征，求出标注为同一目标的概率偏差距D；

步骤4，根据计算所得同一目标在当前采集地点l _i到下一采集地点定位l _i+1的特征值，来获取其空间连接性C；

步骤5，以同一目标的移动时间和移动路线，根据D和C对比集合T中各目标的移动时间和移动路线，计算出集合T中各目标之间有行动关联性的概率值。

进一步地，在步骤1中，通过多个区域设置的不同位置的监控摄像头采集多个视频，通过目标检测算法对各个视频进行目标检测得到的多个目标作为集合T的方法为：在多个区域的公共场所或人行道放置多个不同位置的摄像头，全天候采集行人视频信息，提取视频段V的视频帧P＝{P _t,…,P _t-n}(t为视频段V的总帧数，n为(0,t)的正整数)，利用Spatial-Temporal Graph Transformer即简称为STGT算法(参考文献为：Chu P,Wang J,You Q,et al.Spatial-Temporal Graph Transformer for Multiple Object Tracking[J].2021.)或利用SiamFC++算法(参考文献为：Xu Y,Wang Z,Li Z,et al.SiamFC++:Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines[J].2019.)，对视频帧P进行筛选预处理，输出多个目标目标作为集合T以及含有检测目标的视频帧集P`。

进一步地，在步骤2中，将每一段视频处理为标记有采集时间地点的图像帧序列S：用记录摄像头采集时间和采集地点，标注视频帧集P`中各图像帧记录的采集时间和采集地点，由此将每一视频帧集处理为标记有采集时间地点的图像帧序列S，序列S中每个数据项s由图像帧、其对应的采集时间、其对应的采集地点组成。

进一步地，在步骤2中，还包括以下步骤：将图像帧序列S，通过各摄像头的无线网络连接输送到服务器后端数据库进行数据长期存储，或者直接在服务器上储存S的实时数据集。

进一步地，在步骤3中，通过计算不同图像帧序列S的各个目标的时间地点特征，求出标注为同一目标的概率偏差距D，具体为：

步骤3.1，取序列S中每个数据项s中的图像帧，将其图像帧转化为512×512的图像帧数组f,令f(m,n)为数组f的第m行第n列取值，m和n皆为小于等于512的正整数；

步骤3.2，令n序列S的长度，设数据项s的序号i取值范围属于[1，n]，则S中第i个数据项s _i中的图像帧的图像帧矩阵为f _i，该第i个数据项中对应的读取时间取年、月、日、时、分、秒为一个6维数组表示为d _i,该第i个数据项中对应的读取位置定位取经度o _i、纬度a _i为一个2维数组表示为l _i＝[o _i,a _i]，则有S中第i个数据项s _i数学表示为s _i＝[f _i，d _i，l _i]；

步骤3.3，设函数K(f,d,l)以提取数据项s的特征值k _i，

其中R(d,l)为d _i,l _i的处理过程，令d(m,n),l(m,n)为数组d _i,l _i的第m行第n列取值，具体计算为R(d,l)＝[exp(d(1,1)*l(1,1))+exp(d(1,1)*l(1,2)]+[exp(d(1,2)*l(1,1))+exp(d(1,2)*l(1,2)]+[exp(d(1,3)*l(1,1))+exp(d(1,3)*l(1,2)]+[exp(d(1,4)*l(1,1))+exp(d(1,4)*l(1,2)]+[exp(d(1,5)*l(1,1))+exp(d(1,5)*l(1,2)]+[exp(d(1,6)* l(1,1))+exp(d(1,6)*l(1,2)]，即s _i＝[f _i，d _i，l _i]通过函数K(s _i)＝K(f _i，d _i，l _i)可以得到k _i＝K(s _i)，则有序列S可表示为K(S)＝{k ₁,k ₂,…,k _i-1,k _i}；

步骤3.4，设集合T中不同目标a和b,将对应含有a和b的任意两个视频处理为标记有采集时间地点的图像帧序列S _a和S _b，计算两段不同序列S _a和S _b的概率偏差距，判断两段视频中的目标的概率偏差距D _a-b，具体计算为：K(S _a)＝{k _a,1,k _a,2,…,k _a,i-1,k _a,i},K(S _b)＝{k _b,1,k _b,2,…,k _b,i-1,k _b,i},

k _a,i和k _b,i分别为S _a和S _b中数据项的通过步骤3.3得到的特征值。

进一步地，在步骤4中，根据计算所得同一目标在当前采集地点l _i到下一采集地点定位l _i+1的特征值，来获取其空间连接性C的方法为：用步骤3所得的序列S中第i个数据项中对应的采集地点定位取经度、维度为一个2维数组l _i，根据目标的移动轨迹{l ₁,l ₂,…,l _i-1,l _i}相连形成路线L _i,取该目标的下一采集地点定位l _i+1，计算l _i和l _i+1两者定位空间的连接性为

以衡量两者定位空间的连接概率。

进一步地，在步骤5中，以同一目标的移动时间和移动路线，根据D和C对比集合T中各目标的移动时间和移动路线，计算出集合T中各目标之间有行动关联性的概率值，具体方法为：将集合T中两目标a和b的任意不同序列S _a和S _b通过两序列的概率偏差距D _a-b，同时在各条路线L _i中各采集地点定位l _i和定位l _i+1的连接性C ^i,i+1计算得到{C ^1,2,C ^2,3,…,C ^i-1,i,C ^i,i+1}，设目标a和b有行动关联性的概率值为β，则

表示，在目标a和b于路线L _i中均有从定位l _i移动到定位l ⁱ⁺¹的位移行动时，两目标被视为有行动关联性的概率值算作

由此检测到目标之间有行动关联性的概率值，实时进行监测，输出概率值，当概率值大于概率阈值时则判断目标a和b有关联性否则无关联性，概率阈值取值为[0.8,1]或概率阈值设为集合T中所有目标两两之间进行有行动关联性合作行动的概率值的算术平均值。

进一步地，在步骤5中，还包括：设目标人物为a，通过与a有关联性的判断，筛选出存储所有视频中包含与a有关联性目标所在的对应视频并存储到数据库中，然后删除掉与目标人物a无关联性的其他目标的视频，无需存储与a无关联性的所有目标的所在视频，达到有针对性大幅度视频压缩的效果。

一种目标关联视频追踪处理装置包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种目标关联视频追踪处理方法中的步骤，所述一种目标关联视频追踪处理装置运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的计算设备中。所述一种目标关联视频追踪处理装置也可被称为一种目标关联视频追踪处理系统。

本公开的有益效果为：本公开提供了一种目标关联视频追踪处理方法和装置，以多区域设置的不同监控摄像头采集多组视频，通过计算视频图像帧序列中目标的图像和时间、地点特征，从而实现实时监测有行动关联性合作行动的概率值的功能。相比现有的目标追踪技术，有如下优点：(1)充分利用了视频监测目标的时间地点特征，进行目标追踪；(2)有效监测目标之间行动关联性概率，实现概率阈值监控；(3)达到有针对性大幅度视频压缩的效果。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术目标来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种目标关联视频追踪处理方法和装置的流程图；

图2所示为概率偏差距D的计算流程图；

图3所示为行动关联性的概率值的计算流程图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种目标关联视频追踪处理方法和装置的流程图，下面结合图1来阐述根据本公开的实施方式的一种目标关联视频追踪处理方法和装置。

本公开提出一种目标关联视频追踪处理方法和装置，具体包括以下步骤：

进一步地，在步骤1中，通过多个区域设置的不同位置的监控摄像头采集多个视频，通过目标检测算法对各个视频进行目标检测得到的多个目标作为集合T的方法为：在多个区域的公共场所或人行道放置多个不同位置的摄像头，全天候采集行人视频信息，提取视频段V的视频帧P＝{P _t,…,P _t-n}(t为视频段V的总帧数，n为(0,t)的正整数，例如V的总帧数为100帧)，利用Spatial-Temporal Graph Transformer即简称为STGT算法(参考文献为：Chu P,Wang J,You Q,et al.Spatial-Temporal Graph Transformer for Multiple Object Tracking[J].2021.)或利用SiamFC++算法(参考文献为：Xu Y,Wang Z,Li Z,et al.SiamFC++:Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines[J].2019.)，对视频帧P进行筛选预处理，输出多个目标目标作为集合T以及含有检测目标的视频帧集P`。

步骤3.1，取序列S中每个数据项s中的图像帧，将其图像帧转化为512×512的图像帧数组f,令f(m,n)为数组f的第m行第n列取值(m，n皆为小于等于512的正整数)；

步骤3.3，设函数K(f,d,l)以提取数据项s的特征值k _i，

其中R(d,l)为d _i,l _i的处理过程，令d(m,n),l(m,n)为数组d _i,l _i的第m行第n列取值，具体计算为R(d,l)＝[exp(d(1,1)*l(1,1))+exp(d(1,1)*l(1,2)]+[exp(d(1,2)*l(1,1))+exp(d(1,2)*l(1,2)]+[exp(d(1,3)*l(1,1))+exp(d(1,3)*l(1,2)]+[exp(d(1,4)*l(1,1))+exp(d(1,4)*l(1,2)]+[exp(d(1,5)*l(1,1))+exp(d(1,5)*l(1,2)]+[exp(d(1,6)*l(1,1))+exp(d(1,6)*l(1,2)]，即s _i＝[f _i，d _i，l _i]通过函数K(s _i)＝K(f _i，d _i，l _i)可以得到k _i＝K(s _i)，则有序列S可表示为K(S)＝{k ₁,k ₂,…,k _i-1,k _i}；

以衡量两者定位空间的连接概率。

所述一种目标关联视频追踪处理装置包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种目标关联视频追踪处理方法中的步骤，所述一种目标关联视频追踪处理装置运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的计算设备中。

本公开的实施例提供的一种目标关联视频追踪处理方法和装置，以多区域设置的不同监控摄像头采集多组视频，通过计算视频图像帧序列中目标的图像和时间、地点特征，从而实现实时监测有行动关联性合作行动的概率值的功能。相比现有的目标追踪技术，本公开所述方法充分利用了视频监测目标的时间地点特征，进行目标追踪，并能有效监测目标之间行动关联性概率，实现了概率阈值监控，并且达到有针对性大幅度视频压缩的效果。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

一种视频目标跟踪路线标注方法，其特征在于，所述方法包括以下步骤：

步骤1，通过多个区域设置的不同位置的监控摄像头采集多个视频，通过目标检测算法对各个视频进行目标检测得到的多个目标作为集合T；

步骤2，将每一段视频处理为标记有采集时间地点的图像帧序列S；

步骤3，通过计算不同图像帧序列S的各个目标的时间地点特征，求出标注为同一目标的概率偏差距D；

步骤4，根据计算所得同一目标在当前采集地点l _i到下一采集地点定位l _i+1的特征值，来获取其空间连接性C；

步骤5，以同一目标的移动时间和移动路线，根据D和C对比集合T中各目标的移动时间和移动路线，计算出集合T中各目标之间有行动关联性的概率值。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤1中，通过多个区域设置的不同位置的监控摄像头采集多个视频，通过目标检测算法对各个视频进行目标检测得到的多个目标作为集合T的方法为：在多个区域的公共场所或人行道放置多个不同位置的摄像头，全天候采集行人视频信息，提取视频段V的视频帧P＝{P _t,…,P _t-n}，t为视频段V的总帧数，n为(0,t)的正整数，利用Spatial-Temporal Graph Transformer即简称为STGT算法或利用SiamFC++算法对视频帧P进行筛选预处理，输出多个目标目标作为集合T以及含有检测目标的视频帧集P`。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤2中，将每一段视频处理为标记有采集时间地点的图像帧序列S：用记录摄像头采集时间和采集地点，标注视频帧集P`中各图像帧记录的采集时间和采集地点，由此将每一视频帧集处理为标记有采集时间地点的图像帧序列S，序列S中每个数据项s由图像帧、其对应的采集时间、其对应的采集地点组成。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤2中，还包括以下步骤：将图像帧序列S，通过各摄像头的无线网络连接输送到服务器后端数据库进行数据长期存储，或者直接在服务器上储存S的实时数据集。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤3中，通过计算不同图像帧序列S的各个目标的时间地点特征，求出标注为同一目标的概率偏差距D，具体为：

步骤3.1，取序列S中每个数据项s中的图像帧，将其图像帧转化为512×512的图像帧数组f,令f(m,n)为数组f的第m行第n列取值；

步骤3.2，令n序列S的长度，设数据项s的序号i取值范围属于[1，n]，则S中第i个数据项s _i中的图像帧的图像帧矩阵为f _i，该第i个数据项中对应的读取时间取年、月、日、时、分、秒为一个6维数组表示为d _i,该第i个数据项中对应的读取位置定位取经度o _i、纬度a _i为一个2维数组表示为l _i＝[o _i,a _i]，则有S中第i个数据项s _i数学表示为s _i＝[f _i，d _i，l _i]；

步骤3.3，设函数K(f,d,l)以提取数据项s的特征值k _i，

其中R(d,l)为d _i,l _i的处理过程，令d(m,n),l(m,n)为数组d _i,l _i的第m行第n列取值，具体计算为R(d,l)＝[exp(d(1,1)*l(1,1))+exp(d(1,1)*l(1,2)]+[exp(d(1,2)*l(1,1))+exp(d(1,2)*l(1,2)]+[exp(d(1,3)*l(1,1))+exp(d(1,3)*l(1,2)]+[exp(d(1,4)*l(1,1))+exp(d(1,4)*l(1,2)]+[exp(d(1,5)*l(1,1))+exp(d(1,5)*l(1,2)]+[exp(d(1,6)*l(1,1))+exp(d(1,6)*l(1,2)]，即s _i＝[f _i，d _i，l _i]通过函数K(s _i)＝K(f _i，d _i，l _i)可以得到k _i＝K(s _i)，则有序列S可表示为K(S)＝{k ₁,k ₂,…,k _i-1,k _i}；

步骤3.4，设集合T中不同目标a和b,将对应含有a和b的任意两个视频处理为标记有采集时间地点的图像帧序列S _a和S _b，计算两段不同序列S _a和S _b的概率偏差距，判断两段视频中的目标的概率偏差距D _a-b，具体计算为：K(S _a)＝{k _a,1,k _a,2,…,k _a,i-1,k _a,i},K(S _b)＝{k _b,1,k _b,2,…,k _b,i-1,k _b,i},

k _a,i和k _b,i分别为S _a和S _b中数据项的通过步骤3.3得到的特征值。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤4中，根据计算所得同一目标在当前采集地点l _i到下一采集地点定位l _i+1的特征值，来获取其空间连接性C的方法为：用步骤3所得的序列S中第i个数据项中对应的采集地点定位取经度、维度为一个2维数组l _i，根据目标的移动轨迹{l ₁,l ₂,…,l _i-1,l _i}相连形成路线L _i,取该目标的下一采集地点定位l _i+1，计算l _i和l _i+1两者定位空间的连接性为

以衡量两者定位空间的连接概率。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤5中，以同一目标的移动时间和移动路线，根据D和C对比集合T中各目标的移动时间和移动路线，计算出集合T中各目标之间有行动关联性的概率值，具体方法为：将集合T中两目标a和b的任意不同序列S _a和S _b通过两序列的概率偏差距D _a-b，同时在各条路线L _i中各采集地点定位 l _i和定位l _i+1的连接性C ^i,i+1计算得到{C ^1,2,C ^2,3,…,C ^i-1,i,C ^i,i+1}，设目标a和b有行动关联性的概率值为β，则
表示，在目标a和b于路线L _i中均有从定位l _i移动到定位l _i+1的位移行动时，两目标被视为有行动关联性的概率值算作
由此检测到目标之间有行动关联性的概率值，实时进行监测，输出概率值，当概率值大于概率阈值时则判断目标a和b有关联性否则无关联性，概率阈值取值为[0.8,1]或概率阈值设为集合T中所有目标两两之间有行动关联性的概率值的算术平均值。
根据权利要求1所述的一种目标关联视频追踪处理方法，其特征在于，在步骤5中，还包括：设目标人物为a，通过权利要求7所述方法，筛选出所有视频中包含与a有关联性目标所在的对应视频并存储到数据库中。
一种目标关联视频追踪处理装置，其特征在于，所述一种目标关联视频追踪处理装置包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的一种目标关联视频追踪处理方法中的步骤，所述一种目标关联视频追踪处理装置运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的计算设备中。