WO2020173226A1 - 一种时空行为检测方法 - Google Patents

一种时空行为检测方法 Download PDF

Info

Publication number
WO2020173226A1
WO2020173226A1 PCT/CN2020/070684 CN2020070684W WO2020173226A1 WO 2020173226 A1 WO2020173226 A1 WO 2020173226A1 CN 2020070684 W CN2020070684 W CN 2020070684W WO 2020173226 A1 WO2020173226 A1 WO 2020173226A1
Authority
WO
WIPO (PCT)
Prior art keywords
spatiotemporal
layer
behavior
convolution
network
Prior art date
Application number
PCT/CN2020/070684
Other languages
English (en)
French (fr)
Inventor
桑农
张士伟
李致远
高常鑫
邵远杰
Original Assignee
华中科技大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华中科技大学 filed Critical 华中科技大学
Priority to US16/965,015 priority Critical patent/US11120270B2/en
Publication of WO2020173226A1 publication Critical patent/WO2020173226A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/16Spatio-temporal transformations, e.g. video cubism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the invention belongs to the field of computer vision, and more specifically, relates to a spatiotemporal behavior detection method.
  • Behavior analysis is an important and active research hotspot in current computer vision. It is not only widely used in the field of social security, such as abnormal behavior detection in surveillance environments, detection and recognition of theft behavior in shopping malls, but also in human-computer interaction.
  • the replacement status such as service robots that effectively predict the behavior of the elderly to prevent accidents, can also be used for the detection and recognition of pornographic, reactionary, and violent behaviors such as existing social networks and live broadcast platforms.
  • the current behavior detection methods are divided into two categories from the required supervision information: one is a method based on strong supervision, the supervision signal includes a detection frame, the start and end marks of the behavior in time, and the video tag; the other One is based on weakly supervised method, whose supervised signal only has video category mark.
  • the first type of method has been studied a lot, and has achieved good performance on the public data set, but it still cannot meet the actual needs, because in actual scenarios, a large number of sample labels are required to achieve acceptable performance, and Due to the difficulty and particularity of behavior marking, this demand is difficult to meet.
  • the second type of method is based on the weakly supervised method, which makes better use of existing samples that only contain category labels, and can effectively mine behavior characteristics in a self-learning way.
  • the behavior must have three elements, namely, the behavior executor, specific movement information, and timing.
  • the existing methods cannot focus on these three aspects at the same time.
  • the current method mainly uses the attention mechanism of multi-instance learning and model self-study to locate the target behavior, which makes this kind of method have low robustness, and will greatly reduce the performance of this kind of method in complex situations and when there are many objects.
  • the purpose of the present invention is to provide a spatiotemporal behavior detection method, which aims to solve the weakly supervised spatiotemporal behavior detection method due to the inability of the prior art to effectively combine executors, specific motion information, and sequential recognition behaviors The problem of poor robustness.
  • the present invention provides a spatiotemporal behavior detection method, including:
  • the step (1) specifically includes:
  • the step (2) specifically includes:
  • the step (3) specifically includes:
  • the step (4) specifically includes:
  • the step (6) specifically includes:
  • the step (6.1) specifically includes:
  • sum(H(x,y,w,h)) represents the interval [x,y,w,h]
  • the hyperparameter ⁇ is set to 0.00002
  • (x,y) represents the starting point of the object candidate frame on the heat map.
  • the initial coordinates, w, h represent the width and height of the candidate frame, and H represents all the calories in the candidate frame;
  • B t represents the object detection frame at time t
  • B s is the object candidate frame obtained above
  • the function S represents adjusting the size of B s to be consistent with B t-1 while keeping the center unchanged.
  • the specific steps of obtaining the probability distribution diagram of the behavior include:
  • the step (3.4) specifically includes:
  • f m is the feature map of the m-th layer
  • f o is the model output after adding object saliency supervision
  • the hyperparameter ⁇ is used to adjust the saliency degree of the object.
  • the step (3.5) specifically includes:
  • f m is the feature map of the m-th layer
  • f o' is the model output after adding motion saliency supervision
  • the hyperparameter ⁇ is used to adjust the motion saliency degree.
  • l sparse
  • l class is used for classification cross-entropy loss
  • is the weight coefficient
  • the feature maps with non-zero sparse weights are selected, and the feature maps with sparse weights approximately zero are eliminated.
  • the feature maps with larger weight coefficients are more likely to contain behavior.
  • the spatiotemporal behavior detection technology provided by the present invention effectively considers the two attributes of object and motion when learning deep models, and performs end-to-end learning of all features, which can provide more discriminative features for behavior detection.
  • the method of object detection and optical flow prediction not only reduces the behavior search space, but also has better robustness in complex scenes with many objects.
  • the spatiotemporal behavior detection technology provided by the present invention utilizes the sparse constraint method.
  • behavior detection time and space positioning can be completed at one time. Compared with other independent two-step methods, the detection is more reliable and at the same time The detection efficiency is greatly improved.
  • the spatiotemporal behavior detection technology provided by the present invention not only uses the spatiotemporal convolutional network to consider the spatiotemporal characteristics of behavior, but also designs a spatiotemporal deconvolution structure, which effectively compensates for the time loss of the spatiotemporal convolution structure, and is more conducive to video frames Level positioning.
  • Figure 1 is a flow chart of the weakly supervised behavior detection method provided by the present invention.
  • Figure 2 is a spatiotemporal convolution-deconvolution network provided by the present invention.
  • Figure 3 is a weakly supervised timing detection structure provided by the present invention.
  • the present invention provides a weakly supervised spatiotemporal behavior detection method, including:
  • the step (1) specifically includes:
  • the remaining detection frames are not continuous within 10 frames apart in time and the detection frames with IoU (Intersection over Union) greater than 0.5 are tracked forward or backward.
  • IoU Intersection over Union
  • the step (2) specifically includes:
  • dense flow is used in the calculation of all inter-frame optical flows of the sample video, and the set parameters include: the maximum boundary value (Bound) is 15, and the sampling step is 1. Normalize the horizontal and vertical optical flow diagrams calculated under this setting;
  • step (3) specifically includes:
  • the input sample video in the aforementioned spatio-temporal convolution and deconvolution network needs to be preprocessed, and the video frame is normalized to a size of 3*160*160, and normalized to the same normal distribution.
  • the method of adding object saliency supervision in step (3.5) is: constructing the object saliency map A H according to the object detection frame contained in the object set, the detection frame with the object is set to 1, the rest is set to 0, in time and space
  • f m is the feature map of the m-th layer
  • f o is the model output after adding object saliency supervision
  • the hyperparameter ⁇ is used to adjust the saliency degree of the object. In this embodiment, it is set to 0.5, which will save background information to a certain extent .
  • the step (3.6) Method of adding significant movement supervision is: in the input sequence, the light extraction flow diagram of the sequence by A M optical flow method, the m-th layer of the space-time network deconvolution and convolution Add motion saliency supervision to the feature map, namely:
  • f m is the feature map of the m-th layer
  • f o' is the model output after adding motion saliency supervision
  • the hyperparameter ⁇ is used to adjust the saliency of the motion. In this embodiment, it is set to 1, which can increase the attention of sports Keep certain non-sports information.
  • step (4) specifically includes:
  • the following steps are specifically included:
  • the objective functions of the spatiotemporal convolution and deconvolution network are:
  • l sparse
  • 1 is the sparse loss, which is used to force the elimination of the part with the sparse coefficient of 0 to retain the non-zero value of the sparse coefficient
  • l class is used to classify the cross-entropy loss
  • the spatio-temporal convolution-deconvolution network is first pre-trained on the data set Kinetics, and secondly, the network training is performed on the target data, and the learning rate is set to 0.001, 160 rounds of training.
  • the feature maps with non-zero sparse weights are selected, and the feature maps with sparse weights approximately zero are eliminated.
  • the feature maps with larger weight coefficients are more likely to contain behavior.
  • calculating the behavior category corresponding to each time segment in the test sample video adopts a gradient-based category activation map method to perform the spatial positioning behavior.
  • step (6) when performing behavior detection on the test sample video, it is divided into space detection and time detection; specifically including the following steps:
  • the specific steps of obtaining the behavior probability distribution graph are:
  • step (6.1) the specific steps of step (6.1) include:
  • sum(H(x,y,w,h)) represents the interval [x,y,w,h]
  • the hyperparameter ⁇ is set to 0.00002
  • (x,y) represents the starting point of the object candidate frame on the heat map.
  • the initial coordinates, w, h represent the width and height of the candidate frame, and H represents all the calories in the candidate frame;
  • B t represents the object detection frame at time t
  • B s is the object candidate frame obtained above
  • the function S represents adjusting the size of B s to be consistent with B t-1 while keeping the center unchanged.
  • non-zero segments are used as the time interval of the behavior.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

一种时空行为检测方法,包括对样本视频中所有帧进行对象检测,获取候选对象集合;计算样本视频中所有帧间光流信息,获取运动集合;构建附加对象注意机制和运动注意机制的时空卷积-反卷积网络;对样本视频的各时间片段进行时空卷积处理后,均添加对应的稀疏变量和稀疏约束得到网络结构S;以基于交叉熵的分类损失和稀疏约束的损失为目标函数,对网络结构S进行训练;计算测试样本视频中各时间片段对应的行为类别与稀疏系数,获取对象行为时空位置。该方法通过对象检测和光流预测,不仅减少行为搜索空间,而且时空行为检测具有良好的鲁棒性。

Description

一种时空行为检测方法 【技术领域】
本发明属于计算机视觉领域,更具体地,涉及一种时空行为检测方法。
【背景技术】
行为分析是当前计算机视觉中一个重要而活跃的研究热点,它不但在社会安全领域有着广泛应用,比如监控环境下的异常行为检测、商场中的偷窃行为检测识别,还在人机交互中有着不可取代的地位,比如服务机器人对老人的行为进行有效的预测以防止意外发生,除此之外,还可用于现有的社交网络、直播平台等色情、反动、暴力等行为的检测与识别。
目前的行为检测方法,从需要的监督信息上划分为两大类:一种为基于强监督的方法,其监督信号包括检测框,行为在时间上的起始和截至标记以及视频标签;另一种为基于弱有监督的方法,其监督信号只有视频的类别标记。目前对第一类方法研究较多,并且在公开数据集上取得了较好的性能,但还仍然不能满足实际需求,因为在实际场景下如果要取得可接受的性能需要大量的样本标记,而且由于行为标记的困难和特殊性导致这种需求很难被满足。第二类方法基于弱有监督的方法更好的利用现有的仅包含类别标记的样本,能够以自学习的方式有效地挖掘行为特征。但是行为必须具备三要素,分别是行为执行者、特定运动信息和时序性,现有的方法没能同时集中解决这三个方面。目前的方法主要是利用多实例学习和模型自学的注意机制来定位目标行为,使得这类方法鲁棒性低,在复杂场合中、以及对象较多的时候会极大地降低该类方法的性能。
由此可见,现有时空行为检测方法存在需要大量的人力物力、不实用、鲁棒性较低的技术问题。
【发明内容】
针对现有技术的缺陷,本发明的目的在于提供一种时空行为检测方法, 旨在解决因现有技术无法有效结合执行者、特定运动信息和时序性识别行为而导致弱有监督时空行为检测方法鲁棒性差的问题。
为实现上述目的,本发明提供了一种时空行为检测方法,包括:
(1)对样本视频中所有帧进行对象检测,获取候选对象集合;
(2)计算样本视频中所有帧间光流信息,获取运动集合;
(3)基于候选对象集合和运动集合,构建附加对象注意机制和运动注意机制的时空卷积-反卷积网络;
(4)以时空卷积-反卷积网络为输入,对样本视频的各时间片段进行时空卷积处理后,均添加对应的稀疏变量和稀疏约束得到网络结构S;
(5)以基于交叉熵函数的分类损失和稀疏约束的损失为目标函数,对网络结构S进行训练;
(6)以网络结构S为基础,计算测试样本视频中各时间片段对应的行为类别、稀疏系数以及其分布概率图,获取对象行为时空位置。
优选地,所述步骤(1)具体包括:
(1.1)将样本视频中包含的图像缩放到同一尺寸下;
(1.2)利用目标检测器和FPN分别对归一化后的图像进行对象检测,获取两种对象检测框结果;
(1.3)对两种对象检测框的并集进行非极大抑制,获取筛选的对象位置;
(1.4)利用快速跟踪方法和滤波器对未被筛选的对象检测框进行跟踪,找回未检出的对象位置。
优选地,所述步骤(2)具体包括:
(2.1)对光流信息包含的光流水平和竖直方向上的值进行归一化;
(2.2)在光流图水平和竖直方向上利用勾股定理,获取单通道的灰度图;
(2.3)根据灰度图获取运动信息区间。
优选地,所述步骤(3)具体包括:
(3.1)全局平均池化时空卷积网络中下采样层的最后一层,获取卷积层 的向量化表达;
(3.2)将卷积层的向量化表达与下层样的最后一层相加获取反卷积网络上采样层的第一层;
(3.3)在反卷积网络的每一层特征图上叠加对应下采样层的特征图,完成时空卷积和反卷积网络的构建;
(3.4)对时空反卷积网络上采样层的最后一层特征图采用全局平均池化做向量化表达;
(3.5)在上述时空卷积和反卷积网络中选取任一层的特征图中加入对象显著性监督;
(3.6)在上述时空卷积和反卷积网络中选取任一层的特征图中加入运动显著性监督,完成时空卷积-反卷积网络的构建;
(3.7)在卷积层的向量化表达和反卷积层的向量化表达后均连接全连接层,所述全连接层用于对行为类别的预测。
优选地,所述步骤(4)具体包括:
(4.1)样本视频分成的T个时间片段通过时空卷积后,将时空卷积网络连接的全连接层的特征x i(i=1,...,T)拼接;
(4.2)采用全局平均池化方法计算T维的权值向量w=[w 1,w 2,...,w T];
(4.3)在上述时空卷积-反卷积网络中增加根据权值向量获取的稀疏约束,完成网络结构S的构建。
优选地,所述步骤(6)具体包括:
(6.1)对热力图上采样获取的检测框进行非极大抑制,获取对象候选框;
(6.2)通过计算样本视频中各时间片段对应的权值向量,筛选行为的时间区间;
(6.3)将对象候选框对应的空间位置和时间区间结合,获取对象行为时空位置。
优选地,所述步骤(6.1)具体包括:
(6.1.1)利用基于梯度的类别激活图(Grad-CAM)计算行为的概率分布图;
(6.1.2)在热力图上进行密采样,获取多尺度的检测框;
(6.1.3)对各检测框进行阈值为0.3的非极大抑制,获取对象候选框;
(6.1.4)对对象候选框进行排序,排序公式如下:
Figure PCTCN2020070684-appb-000001
其中,sum(H(x,y,w,h))表示区间[x,y,w,h],超参数ε设置为0.00002,(x,y)代表对象候选框在热力图上对应的起始坐标,w,h分别代表候选框的宽与高,H代表候选框中所有热量值;
(6.1.5)对获取的对象候选框进行修正,修正公式如下:
Figure PCTCN2020070684-appb-000002
其中,B t表示t时刻的对象检测框,B s为上述获取的对象候选框,函数S表示将B s调整尺寸与B t-1一致,同时保持中心不变。
优选地,所述获取行为的概率分布图的具体步骤包括:
a.计算网络结构S中第c类和第k层特征图对应通道权重
Figure PCTCN2020070684-appb-000003
b.基于上述获取的通道权重和特征图,计算基于梯度的类别激活图:
Figure PCTCN2020070684-appb-000004
其中,
Figure PCTCN2020070684-appb-000005
为第c类的行为的类别激活图。
优选地,所述步骤(3.4)具体包括:
(3.4.1)根据对象集合中包含的对象检测框构建对象显著性图A H
(3.4.2)在时空卷积和反卷积网络的第m层的特征图中加入对象显著性监督,获取模型输出:
f o=(1+A H·f m)/(1+α)
其中,f m为第m层特征图,f o为加入对象显著性监督后的模型输出,超参α用于调整对象显著性程度。
优选地,所述步骤(3.5)具体包括:
(3.5.1)在输入序列中,利用光流法提取序列中的光流图A M
(3.5.2)在时空卷积和反卷积网络的第m层的特征图中加入运动显著性监督,获取模型输出:
f o'=(1+A M·f m)/(1+β)
其中,f m为第m层特征图,f o'为加入运动显著性监督后的模型输出,超参β用于调整运动显著性程度。
所述步骤(4.3)增加稀疏约束后,时空卷积和反卷积网络的目标函数为:
l=l class+λl sparse
其中,l sparse=||w|| 1为稀疏损失,用于强制淘汰稀疏系数为0的部分保留稀疏系数为非0值部分,l class为用于分类交叉熵损失,λ为权重系数。
基于网络结构S的学习,筛选稀疏权重为非零的特征图,淘汰稀疏权重近似为零的特征图,通常,权重系数越大对应的特征图更有可能包含行为。
通过本发明所构思的以上技术方案,与现有技术相比,能够取得以下
有益效果:
(1)本发明提供的时空行为检测技术,在深度模型学习时,有效考虑对象和运动这两个属性,并将所有的特征进行端到端学习,能够为行为检测提供更加判别的特征。同时,通过对象检测和光流预测的方法,不仅减少行为搜索空间,而且在对象很多的复杂场景中具有较好的鲁棒性。
(2)本发明提供的时空行为检测技术,利用稀疏约束的方法,在行为 检测中时间和空间定位可一次性完成,相比于其他方法独立的两步法,不仅检测更具有可靠性,同时检测效率大大提升。
(3)本发明提供的时空行为检测技术,不仅利用时空卷积网络考虑行为的时空特征,而且设计了时空反卷积结构,有效弥补时空卷积结构的时间损失,更加有利于对视频的帧级定位。
【附图说明】
图1是本发明提供的基于弱有监督的行为检测方法流程图;
图2是本发明提供的时空卷积-反卷积网络;
图3是本发明提供的弱有监督时序检测结构。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于弱有监督的时空行为检测方法,包括:
(1)对样本视频中所有帧进行对象检测,获取候选对象集合;
(2)计算样本视频中所有帧间光流信息,获取运动集合;
(3)基于候选对象集合和运动集合,构建附加对象注意机制和运动注意机制的时空卷积-反卷积网络;
(4)以时空卷积-反卷积网络为输入,对样本视频的各时间片段进行时空卷积处理后,均添加对应的稀疏变量和稀疏约束得到网络结构S;
(5)以基于交叉熵函数的分类损失和稀疏约束的损失为目标函数,对网络结构S进行训练;
(6)以网络结构S为基础,计算测试样本视频中各时间片段对应的行为类别、稀疏系数以及其分布概率图,获取对象行为时空位置。
优选地,所述步骤(1)具体包括:
(1.1)将样本视频中包含的图像缩放到同一尺寸下,实施例中为300*300像素;
(1.2)利用目标检测器(Faster-RCNN)和FPN(Feature Pyramid Network)分别对归一化后的图像进行对象检测,获取两种对象检测框结果;
(1.3)对两种对象检测框的并集进行非极大抑制,获取筛选的对象位置;优选地,所述非极大抑制的阈值设置为0.5;
(1.4)利用快速跟踪方法和滤波器未被筛选的对象检测框进行跟踪,找回未检出的对象位置;
优选地,对剩余检测框在在时间上相隔10帧之内不连续且IoU(Intersection over Union)大于0.5的检测框进行向前或向后跟踪。
优选地,所述步骤(2)具体包括:
(2.1)对光流信息包含的光流水平和竖直方向上的值进行归一化;
优选地,在对样本视频的所有帧间光流计算过程中采用密光流(Dense flow),设置的参数包括:最大的边界值(Bound)为15,采样步长为1。将在此设置下计算得到的水平和竖直方向的光流图进行归一化处理;
(2.2)在光流图水平和竖直方向上利用勾股定理,获取单通道的灰度图;
(2.3)根据灰度图获取运动信息区间。
优选地,如图2所示,步骤(3)具体包括:
(3.1)全局平均池化时空卷积网络中下采样层的最后一层,获取卷积层的向量化表达;
(3.2)将卷积层的向量化表达与下层样的最后一层相加获取反卷积网络上采样层的第一层;
(3.3)在反卷积网络的每一层特征图上叠加对应下采样层的特征图,完成时空卷积和反卷积网络的构建;
(3.4)对时空反卷积网络上采样层的最后一层特征图采用全局平均池化做向量化表达;
优选地,在上述时空卷积和反卷积网络中输入样本视频需进行预处理,将视频帧归一化到3*160*160的尺寸中,并归一化到相同的正态分布中。
(3.5)在上述时空卷积和反卷积网络中选取任一层的特征图中加入对象显著性监督;
优选地,步骤(3.5)中加入对象显著性监督的方法为:根据对象集合中包含的对象检测框构建对象显著性图A H,有对象的检测框设置为1,剩余设置为0,在时空卷积和反卷积网络的第m层的特征图中加入对象显著性监督,即:
f o=(1+A H·f m)/(1+α)
其中,f m为第m层特征图,f o为加入对象显著性监督后的模型输出,超参α用于调整对象显著性程度,该实施例中设置为0.5,将一定程度的保存背景信息。
(3.6)在上述时空卷积和反卷积网络中选取任一层的特征图中加入运动显著性监督,完成时空卷积-反卷积网络的构建;
优选地,步骤(3.6)中加入运动显著性监督的方法为:在输入序列中,通过光流法提取该序列的光流图A M,在时空卷积和反卷积网络的第m层的特征图中加入运动显著性监督,即:
f o'=(1+A M·f m)/(1+β)
其中,f m为第m层特征图,f o'为加入运动显著性监督后的模型输出,超参β用于调整运动显著性程度,该实施例中设置为1,在增加运动注意的同时保留一定的非运动信息。
(3.7)在卷积层的向量化表达和反卷积层的向量化表达后均连接全连接层,所述全连接层用于行为类别的预测。
优选地,如图3所示,步骤(4)具体包括:
(4.1)将样本视频分成T个时间片段,均输入时空卷积-反卷积网络, 并将时空卷积网络对应的全连接层的特征x i(i=1,...,T)拼接;
(4.2)采用全局平均池化方法计算T维的权值向量w=[w 1,w 2,...,w T];
(4.3)在上述时空卷积-反卷积网络中增加稀疏约束,获取网络结构S。
优选地,在构建基于稀疏约束的时间定位网络结构S时,具体包括如下步骤:
a.将时空卷积网络下层样的最后一层通过全局平均池化方法降至一维向量;
b.分别为各片段对应的一维向量增加一个权值向量w=[w 1,w 2,...,w T];
c.将权值向量与一维向量相乘后均值求和,求取的特征一方面添加全连接层用于行为分类,另一方面用于时空反卷积网络;
优选地,上述步骤(4.3)中增加稀疏约束后,时空卷积和反卷积网络的目标函数为:
l=l class+λl sparse
其中,l sparse=||w|| 1为稀疏损失,用于强制淘汰稀疏系数为0的部分保留稀疏系数为非0值部分,l class为用于分类交叉熵损失,λ为权重系数,本实施例中λ=0.0001。
优选地,所述步骤(5)对网络结构S进行训练的过程中,首先将时空卷积-反卷积网络在数据集Kinetics做预训练,其次,在目标数据做网络训练,学习率设置为0.001,训练160轮。
基于网络结构S的学习,筛选稀疏权重为非零的特征图,淘汰稀疏权重近似为零的特征图,通常,权重系数越大对应的特征图更有可能包含行为。
优选地,所述步骤(6)中计算测试样本视频中各时间片段对应的行为类别采用基于梯度的类别激活图方法进行空间定位行为。
优选地,所述步骤(6)中在对测试样本视频进行行为检测时,分为空 间检测和时间检测;具体包括如下步骤:
(6.1)对热力图上采样获取的检测框进行非极大抑制,获取对象候选框;
优选地,获取行为概率分布图的具体步骤为:
a.获取网络结构S中全局平均池化后特征图对应每个通道的权重
Figure PCTCN2020070684-appb-000006
Figure PCTCN2020070684-appb-000007
其中,
Figure PCTCN2020070684-appb-000008
表示第c类(0≤c≤L-1,L表示总的行为类别数)目标在k层特征图的权重,y c表示第c类行为目标的得分,
Figure PCTCN2020070684-appb-000009
表示第k层特征图所处位置(i,j)对应的激活值;
b.基于梯度的类别激活图,计算行为的概率分布图,即热力图:
Figure PCTCN2020070684-appb-000010
其中,
Figure PCTCN2020070684-appb-000011
为第c类的行为的类别激活图;
优选地,步骤(6.1)的具体步骤包括:
(6.1.1)利用基于梯度的类别激活图(Grad-CAM)计算行为的概率分布图;
(6.1.2)在热力图上进行密采样,获取多尺度的检测框;
(6.1.3)对各检测框进行阈值为0.3的非极大抑制,获取对象候选框;
(6.1.4)对对象候选框进行排序,排序公式如下:
Figure PCTCN2020070684-appb-000012
其中,sum(H(x,y,w,h))表示区间[x,y,w,h],超参数ε设置为0.00002,(x,y)代表对象候选框在热力图上对应的起始坐标,w,h分别代表候选框的宽与高,H代表候选框中所有热量值;
(6.1.5)对获取的对象候选框进行修正,修正公式如下:
Figure PCTCN2020070684-appb-000013
其中,B t表示t时刻的对象检测框,B s为上述获取的对象候选框,函数S表示将B s调整尺寸与B t-1一致,同时保持中心不变,通过上述方式可实现对每个时刻的向后更新,从而解决了显著图无法涵盖行为全身的问题。
(6.2)通过计算样本视频中时间片段对应的权值向量,筛选行为的时间区间;
优选地,非0的片段作为行为的时间区间。
(6.3)将对象候选框对应的空间位置和时间区间结合,获取对象行为时空位置。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

  1. 一种时空行为检测方法,其特征在于,包括:
    (1)对样本视频中所有帧进行对象检测,获取候选对象集合;
    (2)计算样本视频中所有帧间光流信息,获取运动集合;
    (3)基于候选对象集合和运动集合,构建附加对象注意机制和运动注意机制的时空卷积-反卷积网络;
    (4)以时空卷积-反卷积网络为输入,对样本视频的各时间片段进行时空卷积处理后,均添加对应的稀疏变量和稀疏约束得到网络结构S;
    (5)以基于交叉熵的分类损失和稀疏约束的损失为目标函数,对网络结构S进行训练;
    (6)以网络结构S为基础,计算测试样本视频中各时间片段对应的行为类别、稀疏系数以及其分布概率图,获取对象行为时空位置。
  2. 如权利要求1所述的时空行为检测方法,其特征在于,所述步骤(1)具体包括:
    (1.1)将样本视频中包含的图像缩放到同一尺寸下;
    (1.2)利用目标检测器和FPN分别对归一化后的图像进行对象检测,获取两种对象检测框结果;
    (1.3)对两种对象检测框的并集进行非极大抑制,获取筛选的对象位置;
    (1.4)利用快速跟踪方法和滤波器对未被筛选的对象检测框进行跟踪,找回未检出的对象位置。
  3. 如权利要求1或2所述的时空行为检测方法,其特征在于,所述步骤(2)具体包括:
    (2.1)对光流信息包含的光流水平和竖直方向上的值进行归一化;
    (2.2)在光流图水平和竖直方向上利用勾股定理,获取单通道的灰度图;
    (2.3)根据灰度图获取运动信息区间。
  4. 如权利要求3所述的时空行为检测方法,其特征在于,所述步骤(3)具体包括:
    (3.1)全局平均池化时空卷积网络中下采样层的最后一层,获取卷积层的向量化表达;
    (3.2)将卷积层的向量化表达与下层样的最后一层相加获取反卷积网络上采样层的第一层;
    (3.3)在反卷积网络的每一层特征图上叠加对应下采样层的特征图,完成时空卷积和反卷积网络的构建;
    (3.4)对时空反卷积网络上采样层的最后一层特征图采用全局平均池化做向量化表达;
    (3.5)在上述时空卷积和反卷积网络中选取任一层的特征图中加入对象显著性监督;
    (3.6)在上述时空卷积和反卷积网络中选取任一层的特征图中加入运动显著性监督,完成时空卷积-反卷积网络的构建;
    (3.7)在卷积层的向量化表达和反卷积层的向量化表达后均连接全连接层,所述全连接层用于对行为类别的预测;
  5. 如权利要求4所述的时空行为检测方法,其特征在于,所述步骤(4)具体包括:
    (4.1)样本视频分成的T个时间片段通过时空卷积后,将时空卷积网络连接的全连接层的特征x i(i=1,...,T)拼接;
    (4.2)采用全局平均池化方法计算T维的权值向量w=[w 1,w 2,...,w T];
    (4.3)在上述时空卷积-反卷积网络中增加根据权值向量获取的稀疏约束,完成网络结构S的构建。
  6. 如权利要求5所述的时空行为检测方法,其特征在于,所述步骤(6)具体包括:
    (6.1)对热力图上采样获取的检测框进行非极大抑制,获取对象候选框;
    (6.2)通过计算样本视频中各时间片段对应的权值向量,筛选行为的时间区间;
    (6.3)将对象候选框对应的空间位置和时间区间结合,获取对象行为时空位置。
  7. 如权利要求6所述的时空行为检测方法,其特征在于,所述步骤(6.1)具体包括:
    (6.1.1)利用基于梯度的类别激活图(Grad-CAM)计算行为的概率分布图;
    (6.1.2)在热力图上进行密采样,获取多尺度的检测框;
    (6.1.3)对各检测框进行阈值为0.3的非极大抑制,获取对象候选框;
    (6.1.4)对对象候选框进行排序,排序公式如下:
    Figure PCTCN2020070684-appb-100001
    其中,sum(H(x,y,w,h))表示区间[x,y,w,h],超参数ε设置为0.00002,(x,y)代表对象候选框在热力图上对应的起始坐标,w,h分别代表候选框的宽与高,H代表候选框中所有热量值;
    (6.1.5)对获取的对象候选框进行修正,修正公式如下:
    Figure PCTCN2020070684-appb-100002
    其中,B t表示t时刻的对象检测框,B s为上述获取的对象候选框,函数S表示将B s调整尺寸与B t-1一致,同时保持中心不变。
  8. 如权利要求4所述的时空行为检测方法,其特征在于,所述步骤(3.4)具体包括:
    (3.4.1)根据对象集合中包含的对象检测框构建对象显著性图A H
    (3.4.2)在时空卷积和反卷积网络的第m层特征图中加入对象显著性监 督,获取模型输出:
    f o=(1+A H·f m)/(1+α)
    其中,f m为第m层特征图,f o为加入对象显著性监督后的模型输出,超参α用于调整对象显著性程度。
  9. 如权利要求4所述的时空行为检测方法,其特征在于,所述步骤(3.5)具体包括:
    (3.5.1)在输入序列中,利用光流法提取序列中的光流图A M
    (3.5.2)在时空卷积和反卷积网络的第m层特征图中加入运动显著性监督,获取模型输出:
    f o'=(1+A M·f m)/(1+β)
    其中,f m为第m层特征图,f o'为加入运动显著性监督后的模型输出,超参β用于调整运动显著性程度。
  10. 如权利要求5所述的时空行为检测方法,其特征在于,所述步骤(4.3)增加稀疏约束后,时空卷积和反卷积网络的目标函数为:
    l=l class+λl sparse
    其中,l sparse=||w|| 1为稀疏损失,用于强制淘汰稀疏系数为0的部分,保留稀疏系数为非0值部分,l class为用于分类交叉熵损失,λ为权重系数。
PCT/CN2020/070684 2019-02-28 2020-01-07 一种时空行为检测方法 WO2020173226A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/965,015 US11120270B2 (en) 2019-02-28 2020-01-07 Spatiotemporal action detection method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910153037.0 2019-02-28
CN201910153037.0A CN109961019B (zh) 2019-02-28 2019-02-28 一种时空行为检测方法

Publications (1)

Publication Number Publication Date
WO2020173226A1 true WO2020173226A1 (zh) 2020-09-03

Family

ID=67023971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/070684 WO2020173226A1 (zh) 2019-02-28 2020-01-07 一种时空行为检测方法

Country Status (3)

Country Link
US (1) US11120270B2 (zh)
CN (1) CN109961019B (zh)
WO (1) WO2020173226A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法
CN113313682A (zh) * 2021-05-28 2021-08-27 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113469331A (zh) * 2021-06-28 2021-10-01 中国科学技术大学 基于全局和局部时空图卷积的车辆尾气预测方法及系统
CN113920387A (zh) * 2021-09-13 2022-01-11 西北大学 一种短时rPPG信号检测模型的构建方法及检测方法
CN114373194A (zh) * 2022-01-14 2022-04-19 南京邮电大学 基于关键帧与注意力机制的人体行为识别方法
CN114613004A (zh) * 2022-02-28 2022-06-10 电子科技大学 一种人体动作的轻量化在线检测方法
WO2022191214A1 (ja) 2021-03-09 2022-09-15 株式会社 東芝 シンチレータアレイ、およびそれを用いた放射線検出器、放射線検査装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961019B (zh) 2019-02-28 2021-03-26 华中科技大学 一种时空行为检测方法
CN110378288B (zh) * 2019-07-19 2021-03-26 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
CN110866908B (zh) * 2019-11-12 2021-03-26 腾讯科技(深圳)有限公司 图像处理方法、装置、服务器及存储介质
CN110909677B (zh) * 2019-11-22 2024-04-02 国网安徽省电力有限公司检修分公司 多目标跟踪及行为分析的方法、系统及存储介质
CN110909819A (zh) * 2019-12-02 2020-03-24 集美大学 基于时域的电磁信息泄漏检测方法、终端设备及存储介质
CN111259790B (zh) * 2020-01-15 2023-06-20 上海交通大学 用于中短时视频的从粗到细的行为快速检测与分类方法及系统
CN111695590B (zh) * 2020-04-24 2022-05-03 浙江大学 约束优化类激活映射的深度神经网络特征可视化方法
WO2021220398A1 (ja) * 2020-04-28 2021-11-04 楽天株式会社 オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム
CN112184767A (zh) * 2020-09-22 2021-01-05 深研人工智能技术(深圳)有限公司 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
CN112419227B (zh) * 2020-10-14 2024-02-20 北京大学深圳研究生院 基于小目标搜索缩放技术的水下目标检测方法和系统
CN112733691A (zh) * 2021-01-04 2021-04-30 北京工业大学 一种基于注意力机制的多方向的无人机航拍的车辆检测方法
CN112731567B (zh) * 2021-01-11 2021-09-21 河海大学 一种用于超高频微波的时空协同干湿增强判别方法
CN113822172B (zh) * 2021-08-30 2024-06-14 中国科学院上海微系统与信息技术研究所 一种视频时空行为检测方法
CN113887419B (zh) * 2021-09-30 2023-05-12 四川大学 一种基于提取视频时空信息的人体行为识别方法及系统
CN114220169A (zh) * 2021-12-16 2022-03-22 山东大学 一种基于Yolo-TSM的轻量级实时监控异常行为检测方法
CN114998805A (zh) * 2022-06-14 2022-09-02 南京邮电大学 基于dcgan时空信息迁移补偿的视觉隐私保护居家健康行为视频同态监测方法
CN115841642B (zh) * 2022-11-30 2023-11-07 中国电子科技集团公司第十研究所 动态特征辅助的可见光火情检测识别方法、设备及介质
CN116524414B (zh) * 2023-06-26 2023-10-17 广州英码信息科技有限公司 一种打架行为识别方法、系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100104199A1 (en) * 2008-04-24 2010-04-29 Gm Global Technology Operations, Inc. Method for detecting a clear path of travel for a vehicle enhanced by object detection
CN108805015A (zh) * 2018-04-26 2018-11-13 常州大学 加权卷积自编码长短期记忆网络人群异常检测方法
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
CN109961019A (zh) * 2019-02-28 2019-07-02 华中科技大学 一种时空行为检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933417B (zh) * 2015-06-26 2019-03-15 苏州大学 一种基于稀疏时空特征的行为识别方法
CN107506712B (zh) * 2017-08-15 2021-05-18 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
US10796452B2 (en) * 2017-12-03 2020-10-06 Facebook, Inc. Optimizations for structure mapping and up-sampling
CN108830157B (zh) * 2018-05-15 2021-01-22 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
AU2019308228B2 (en) * 2018-07-16 2021-06-03 Accel Robotics Corporation Autonomous store tracking system
CN109063609A (zh) * 2018-07-18 2018-12-21 电子科技大学 一种基于光流特征与全卷积语义分割特征结合的异常行为检测方法
US11468538B2 (en) * 2019-04-05 2022-10-11 Baker Hughes Oilfield Operations Llc Segmentation and prediction of low-level temporal plume patterns

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100104199A1 (en) * 2008-04-24 2010-04-29 Gm Global Technology Operations, Inc. Method for detecting a clear path of travel for a vehicle enhanced by object detection
CN108805015A (zh) * 2018-04-26 2018-11-13 常州大学 加权卷积自编码长短期记忆网络人群异常检测方法
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
CN109961019A (zh) * 2019-02-28 2019-07-02 华中科技大学 一种时空行为检测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法
CN112434655B (zh) * 2020-12-07 2022-11-08 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法
WO2022191214A1 (ja) 2021-03-09 2022-09-15 株式会社 東芝 シンチレータアレイ、およびそれを用いた放射線検出器、放射線検査装置
CN113313682A (zh) * 2021-05-28 2021-08-27 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113313682B (zh) * 2021-05-28 2023-03-21 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113469331A (zh) * 2021-06-28 2021-10-01 中国科学技术大学 基于全局和局部时空图卷积的车辆尾气预测方法及系统
CN113469331B (zh) * 2021-06-28 2024-02-13 中国科学技术大学 基于全局和局部时空图卷积的车辆尾气预测方法及系统
CN113920387A (zh) * 2021-09-13 2022-01-11 西北大学 一种短时rPPG信号检测模型的构建方法及检测方法
CN113920387B (zh) * 2021-09-13 2023-08-08 西北大学 一种短时rPPG信号检测模型的构建方法及检测方法
CN114373194A (zh) * 2022-01-14 2022-04-19 南京邮电大学 基于关键帧与注意力机制的人体行为识别方法
CN114613004A (zh) * 2022-02-28 2022-06-10 电子科技大学 一种人体动作的轻量化在线检测方法

Also Published As

Publication number Publication date
US11120270B2 (en) 2021-09-14
CN109961019B (zh) 2021-03-26
US20210248378A1 (en) 2021-08-12
CN109961019A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
WO2020173226A1 (zh) 一种时空行为检测方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
US10210391B1 (en) Method and system for detecting actions in videos using contour sequences
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN111723693B (zh) 一种基于小样本学习的人群计数方法
CN111680655A (zh) 一种面向无人机航拍影像的视频目标检测方法
CN104680559B (zh) 基于运动行为模式的多视角室内行人跟踪方法
CN109711344B (zh) 一种前端智能化的特定异常行为检测方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
US20150104062A1 (en) Probabilistic neural network based moving object detection method and an apparatus using the same
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN113536972B (zh) 一种基于目标域伪标签的自监督跨域人群计数方法
CN110633643A (zh) 一种面向智慧社区的异常行为检测方法及系统
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
CN102799900A (zh) 一种基于检测中支持在线聚类学习的对象跟踪方法
Yang et al. Counting crowds using a scale-distribution-aware network and adaptive human-shaped kernel
CN112270381A (zh) 基于深度学习的人流量检测方法
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN113269038B (zh) 一种基于多尺度的行人检测方法
Hou et al. A survey of efficient deep learning models for moving object segmentation
CN116993779B (zh) 一种适于监控视频下的车辆目标跟踪方法
Pillai et al. Fine-Tuned EfficientNetB4 Transfer Learning Model for Weather Classification
CN114821441A (zh) 联合ads-b信息的基于深度学习的机场场面运动目标识别方法
CN110602487B (zh) 一种基于tsn网络的视频画面抖动检测方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20762163

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20762163

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20762163

Country of ref document: EP

Kind code of ref document: A1