WO2022037087A1 - 监控边缘计算中提升视频目标检测性能的方法及装置 - Google Patents

监控边缘计算中提升视频目标检测性能的方法及装置 Download PDF

Info

Publication number
WO2022037087A1
WO2022037087A1 PCT/CN2021/086314 CN2021086314W WO2022037087A1 WO 2022037087 A1 WO2022037087 A1 WO 2022037087A1 CN 2021086314 W CN2021086314 W CN 2021086314W WO 2022037087 A1 WO2022037087 A1 WO 2022037087A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
detection
size
sub
sliding window
Prior art date
Application number
PCT/CN2021/086314
Other languages
English (en)
French (fr)
Inventor
韦虎
涂治国
Original Assignee
眸芯科技(上海)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 眸芯科技(上海)有限公司 filed Critical 眸芯科技(上海)有限公司
Publication of WO2022037087A1 publication Critical patent/WO2022037087A1/zh
Priority to US18/168,588 priority Critical patent/US20230196705A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • RCNN Global System for Mobile Communications
  • Faster RCNN Faster RCNN
  • mAP mean Average Precision
  • YOLO, SSD, DenseBox and other methods are regression methods based on deep learning, which improves performance to a very high frame rate.
  • the computing power and bandwidth of current devices are very limited.
  • neural network algorithms such as SSD, YOLO, MobileNet_SSD, MTCNN, and DensNet with lower computing power requirements are often used on these devices.
  • their real-time detection computing power and bandwidth requirements still exceed the capabilities of most current hardware.
  • the original input image and the sliding window sub-images in each rectangular sliding window are scaled in different proportions, and the resolution of the processed original input image is lower than that of the sliding window sub-image;
  • the input size determination unit is configured to: determine the input size of the target detection neural network algorithm used according to the computing power of the current device, and the minimum detection size and the maximum detection size that the algorithm can detect the target under the corresponding input size;
  • the rectangular sub-image area dividing unit is configured to: divide the input rectangle of the detection neural network algorithm into a plurality of rectangular sub-image areas according to the aforementioned input size, and each rectangular sub-image area is greater than or equal to the minimum detection size that can be detected by the algorithm;
  • the rectangular sub-image area includes a full-image mapping sub-image area and a sliding-window mapping sub-image area, and the aspect ratio of the full-image mapping sub-image area is the same as that of the original input image for displaying images reduced to low resolutions.
  • the original input image, the sliding window mapping sub-image area is used to display the corresponding sliding window sub-image;
  • Step 121 Determine the size of the full image map sub-image area on the input rectangle of the detection neural network algorithm: according to the size of the target of the nearest detection distance L0 on the original input image, select an initial scaling ratio, so that the original input image The closest target on the scale is smaller than or equal to the maximum detection size that the algorithm can detect, so as to detect the closest distance target on the full-map mapping sub-image area, and at the same time leave enough space for each sliding-window mapping sub-image area, the original input image After the zoom ratio to the full-map mapping sub-image area is determined, the farthest detection distance L1 that can be detected on the full-map mapping sub-image area is also determined;
  • the sizes and/or aspect ratios of the plurality of rectangular sliding windows are different;
  • FIG. 1 is an example diagram of the relationship between the size of the target on the input image and the distance provided by the present invention.
  • the step of S400 may further include: combining and mapping the detection results of each sliding window sub-image onto the original input image for display and output.
  • each sliding window can correspond to different resolutions and scanning periods, corresponding to different detection distances, so that the low frame rate detection of distant small targets and the high frame rate detection of close targets can be combined. , which can ensure the detection of nearby targets, and can also scan and detect small targets in the distance; at the same time, the use of stitched images to adapt the detection neural network with a fixed input scale can simplify the complexity of algorithm design and improve the characteristics of effective computing power.
  • the detection neural network algorithm with smaller input size can also realize the real-time detection of monitoring extremely far and extremely close targets, thereby improving the accuracy of the target detection function on the monitoring edge computing device, detection distance, frame rate performance and other requirements. Missing and false detection rates.
  • the steps of determining the size of multiple rectangular sliding windows for scanning according to the input size of the target detection neural network algorithm and the original input image size are:
  • Step 122 in the remaining space, select a rectangular size area as a sliding window mapping sub-image area, so that the target at the distance L1 on the original input image can fall within the sliding window mapping sub-image area after being reduced, And can be detected by the detection algorithm; adjust the zoom ratio so that the target with the farthest detection distance L2 on the original input image can be detected.
  • the target with the farthest detection distance L2 on the original input image stays on the original input image for longer than one round of scanning time of the sliding window.
  • the sizes and/or aspect ratios of the plurality of rectangular sliding windows may be different.
  • Scanning rules can be set by default by the system, or can be customized by users according to their needs.
  • the preset scanning rule is: scan the entire image in sequence from left to right and top to bottom at a constant speed, or scan the entire image according to a random movement rule, or scan the entire image in an order specified by the user.
  • the detection results of each sliding window sub-image can also be acquired, and the moving speed and/or dwell time during scanning of the rectangular sliding window can be adaptively adjusted according to the foregoing detection results.
  • Step 24 Adjust the size of each sub-image area and the corresponding zoom ratio so that the detection distance is the farthest. Returning to the process from step 21 to step 23, adjust the size and zoom ratio of each sub-image area so that the detection distance is the farthest.
  • the sliding window setting module is used to determine the size of a plurality of rectangular sliding windows for scanning according to the input size of the target detection neural network algorithm and the original input image size, and the rectangular sliding window can be scanned in frames according to preset scanning rules. Move to a different position on the original input image.
  • the image preprocessing module is connected with the sliding window setting module, and is used for scaling the original input image and the sliding window sub-images in each rectangular sliding window according to different proportions during detection of each frame, and the processed original input image
  • the resolution of the image is lower than the resolution of the sliding window sub-image; and, combining and splicing the zoomed images into a rectangular input image, which is used as the detection input image.
  • the sizes and/or aspect ratios of the plurality of rectangular sliding windows are different.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了监控边缘计算中提升视频目标检测性能的方法及装置,涉及数字图像处理技术领域。所述方法包括步骤:根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置;每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图进行缩放处理,处理后原始输入图像的分辨率低于滑动窗子图的分辨率;将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像;通过对应输入尺度的目标检测神经网络算法对检测输入图像进行检测。本发明降低了监控边缘计算设备上目标检测算法的算力和带宽需求,优化了目标检测距离。

Description

监控边缘计算中提升视频目标检测性能的方法及装置 技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种监控边缘计算中提升视频目标检测性能的方法及装置。
背景技术
随着人工智能和深度学习技术的快速发展,在监控领域,基于卷积神经网络(CNN)算法的目标检测方法得到了广泛应用,常用的目标检测流程是从左到右、从上到下滑动窗口,利用分类识别目标。为了在不同观察距离处检测不同的目标类型,我们可以使用不同大小和宽高比的窗口(滑动窗)。目标检测算法中,常用的比如RCNN、Fast RCNN和Faster RCNN等是基于候选区域和深度学习分类的方法,从 RCNN 到 Fast RCNN,再到 Faster RCNN,不断刷新 mAP(mean Average Precision);而YOLO、SSD、DenseBox 等方法是基于深度学习的回归方法,将性能提高到一个非常高的帧率。在监控的边缘计算应用场景,如IPC、NVR、DVR等设备上,当前设备的算力和带宽都非常有限。为了满足实时目标检测的帧率要求,在这些设备上往往采用了算力要求较低的SSD、YOLO、MobileNet_SSD、MTCNN、DensNet等神经网络算法。然而,即使是这些相对低复杂度的算法,在常用的视频图像分辨率下(如1080P),其实时检测算力和带宽的要求仍然超过了当前大部分硬件的能力。
一方面,为了解决算力和带宽不足的技术问题,现有技术中提供了以下几种方法:第一种方法,也是最常见的方法,是对算法采用的神经网络进行简化(剪枝和低比特量化)。然而,由于剪枝和低比特量化后的神经网络其目标检测的准确率往往有显著下降,漏检误检率明显上升,并且低比特量化还受限于硬件对量化比特(bit)的支持程度。第二种方法,是降低目标检测的实际帧率,只检测关键帧,在非关键帧则采用低复杂度的目标跟踪算法来弥补检测帧率不够的问题。但是,这种方法碰到物体运动较快时,可能会碰到漏检和跟踪出错的问题。第三种方法,是牺牲算法的检测距离。比如删去SSD等网络的最后的小尺度特征卷积层,这样算力和带宽需求能减小,但会降低能检出目标的最大尺度,使得贴近摄像头的人脸或人形就无法检出。第四种方法,是对输入图像进行缩小,采用小输入尺寸的神经网络算法。但这样会导致输入图像的分辨率下降,限制了能检出目标的最小尺度,使得远处的人脸和人形等因为像素过少而无法检出。
另一方面,为了检测不同距离的目标,现有技术中常用的方法是:对原始输入图像进行多尺度缩放,生成多尺度金字塔图像组,然后对不同尺度的输入图分别检测。检测近处大尺寸目标时,在缩小的图像上检测;检测远处目标时,在高分辨率的大尺寸图像上检测。然而,上述方法设计复杂,需要为每级图像尺度设计训练神经网络,对设备的算力和带宽提出了较高需求。
综上所述,已有的低复杂度优化方法,都无法在检测准确率、帧率、最远和最近检测距离等方面实现面面俱到,只适合特定的应用场景。而实际的监控应用场景复杂,监控设备既需要满足较高的目标检测准确率,又需要足够的帧率以检测快速经过的目标,还需要对近处的大尺度目标和远处的小尺度目标都能被检测到(在目标贴近摄像头或在远处经过时都能被检测到)。如何提升监控边缘计算设备上目标检测功能的准确率、检测远近距离、帧率性能等要求是当前亟需解决的技术问题。
技术问题
本发明的目的在于:克服现有技术的不足,提供了一种监控边缘计算中提升视频目标检测性能的方法及装置。本发明利用监控视频图像中检测目标在远处和近处的运动向量的大小不同的特点,将远处小目标低帧率检测和近处目标高帧率检测相结合,并利用拼接图像适配固定输入尺度的检测神经网络的特点,降低了监控边缘计算设备上目标检测算法的算力和带宽需求,优化了目标检测距离。
技术解决方案
为实现上述目标,本发明提供了如下技术方案:
一种监控边缘计算中提升视频目标检测性能的方法,包括步骤:
根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置;
每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理,处理后的原始输入图像的分辨率低于滑动窗子图的分辨率;
将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像;
通过对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。
进一步,还包括步骤:将各滑动窗子图的检测结果合并映射到原始输入图像上。
进一步,根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸的步骤为:
步骤110,根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸;
步骤120,按照前述输入尺寸,将检测神经网络算法输入矩形分割成多个矩形子图区,每个矩形子图区大于等于算法能检测的最小检测尺寸;所述矩形子图区包括全图映射子图区和滑动窗映射子图区,所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像,所述滑动窗映射子图区用于显示对应的滑动窗子图;
其中,各矩形子图区的分割步骤如下,
步骤121,在检测神经网络算法输入矩形上确定所述全图映射子图区的大小:根据最近检测距离L0的目标在原始输入图像上的大小,选择一个初始缩放比例,使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间,所述原始输入图像到全图映射子图区的缩放比例确定后,也确定了全图映射子图区上能检测到的最远检测距离L1;
步骤122,在剩下的空间上,选择一个矩形大小区域作为一个滑动窗映射子图区,使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内,并且能够被检测算法检测到;调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到;
步骤123,重复步骤122以确定其他滑动窗映射子图区的大小,将最远检测距离逐步扩大,直到没有合适的空间用来设置为滑动窗映射子图区;
步骤124,重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例,使得检测距离最远。
进一步,步骤122中,原始输入图像上最远检测距离L2的目标在原始输入图像上停留所用时间长于滑动窗的一轮扫描时间。
进一步,所述多个矩形滑动窗的大小和/或长宽比不同;
所述预设的扫描规则为从左往右从上往下顺序匀速扫描全图,或者按照随机移动规则扫描全图,或者按照用户制定的顺序扫描全图。
进一步,获取各滑动窗子图的检测结果,根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。
本发明还提供了一种监控边缘计算中提升视频目标检测性能的装置,包括如下结构:
滑动窗设置模块,用于根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置;
图像预处理模块,与滑动窗设置模块连接,用于在每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理,处理后的原始输入图像的分辨率低于滑动窗子图的分辨率;以及,将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像;
目标检测模块,与滑动窗设置模块和图像预处理模块连接,用于采用对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。
进一步,还包括结果显示模块,用于将各滑动窗子图的检测结果合并映射到原始输入图像上显示输出。
进一步,所述滑动窗设置模块包括输入尺寸确定单元和矩形子图区分割单元;
所述输入尺寸确定单元被配置为:根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸;
所述矩形子图区分割单元被配置为:按照前述输入尺寸,将检测神经网络算法输入矩形分割成多个矩形子图区,每个矩形子图区大于等于算法能检测的最小检测尺寸;所述矩形子图区包括全图映射子图区和滑动窗映射子图区,所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像,所述滑动窗映射子图区用于显示对应的滑动窗子图;
其中,各矩形子图区的分割步骤如下,
步骤121,在检测神经网络算法输入矩形上确定所述全图映射子图区的大小:根据最近检测距离L0的目标在原始输入图像上的大小,选择一个初始缩放比例,使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间,所述原始输入图像到全图映射子图区的缩放比例确定后,也确定了全图映射子图区上能检测到的最远检测距离L1;
步骤122,在剩下的空间上,选择一个矩形大小区域作为一个滑动窗映射子图区,使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内,并且能够被检测算法检测到;调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到;
步骤123,重复步骤122以确定其他滑动窗映射子图区的大小,将最远检测距离逐步扩大,直到没有合适的空间用来设置为滑动窗映射子图区;
步骤124,重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例,使得检测距离最远。
进一步,所述多个矩形滑动窗的大小和/或长宽比不同;
所述预设的扫描规则为从左往右从上往下顺序匀速扫描全图,或者按照随机移动规则扫描全图,或者按照用户制定的顺序扫描全图。
本发明由于采用以上技术方案,与现有技术相比,作为举例,具有以下的优点和积极效果:利用监控视频图像中检测目标在远处和近处的运动向量的大小不同的特点,将远处小目标低帧率检测和近处目标高帧率检测相结合,通过低分辨率图像和高分辨率图像拼接构造拼接图像,能够保证近处目标的检测,同时也能扫描检测到远处小目标;并利用拼接图像适配固定输入尺度的检测神经网络可以简化算法设计复杂度和提升有效算力的特点,降低了监控边缘计算设备上目标检测算法的算力和带宽需求,优化了目标检测距离。
有益效果
相比于现有的多尺度目标检测方法,一方面,多尺度目标检测方法往往需要检测从高到低多级分辨率的输入图,计算所需的算力和带宽都较大,而本发明可以仅采用于小输入尺寸目标检测算法而达到近似的检测距离,尤其适合于算力和带宽受限制的监控边缘计算应用场景。另一方面,常用的基于神经网络的多尺度检测方法需要为每个输入尺度设计相应的网络,设计和训练网络的复杂度更大,而本发明可仅采用固定的输入尺度,显著简化了神经网络训练和设计复杂度;再一方面,当原始输入图像和神经网络输入尺寸长宽比不一致时,现有的添加黑边的方法会浪费算力和带宽,而本发明提出的方法可以充分利用硬件性能,在提升目标检测设备的检测能力的同时提高了设备算力的利用效率。
附图说明
图1为本发明提供的目标在输入图像上的尺寸与距离的关系示例图。
图2为现有技术提供的对检测算法输入图像补黑边的示例图。
图3为本发明实施例提供的监控边缘计算中提升视频目标检测性能的方法的流程图。
图4为本发明实施例提供的原始输入图像和滑动窗经缩放拼接生成检测输入图像的操作示例图。
附图标记说明:
大尺寸人脸10,中等尺寸人脸20,小尺寸人脸30;原始输入图像100,检测输入图像200,黑边300。
本发明的实施方式
以下结合附图和具体实施例对本发明公开的监控边缘计算中提升视频目标检测性能的方法及装置作进一步详细说明。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中,各附图所出现的相同标号代表相同的特征或者部件,可应用于不同实施例中。因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
需说明的是,本说明书所附图中所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响发明所能产生的功效及所能达成的目的下,均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现,其中可以不按所述的或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
实施例
根据监控摄像头的光学原理,同一被摄物体在摄像机ccd(charge coupled device,电荷耦合器件)靶面上成像的尺度(长/宽)和被摄物体至镜头的距离成反比,即其在被拍摄的视频画面中的大小,以及在视频画面中的平面移动速度(即运动向量),都遵循与物体至镜头的距离成反比的原理。因此,如果同一检测目标以相同速度运动,在拍摄视频中会表现为在近处的运动向量相对较大(体现在在画面上的移动速度较快),远处目标的运动向量相对较小(体现在在画面上的移动速度较慢)的特点。这种“近大远小”、“近快远慢”的现象是摄像机的内在原理。参见图1所示,在监控视频中,处于近处的检测目标尺寸较大,在视频中其运动向量也相对较大,目标在画面上移动速度较快,需要较高的检测帧率才能避免漏检;而远处的检测目标在图像中尺寸相对较小,在视频中其运动向量也相对较小,目标在画面上移动速度较慢,可以采用较低的检测帧率进行检测。
需要说明的是,视频图像中检测目标在远处和近处的运动向量大小不同,是基于上述摄像时“近大远小”、“近快远慢”的客观规律,目标在近处的运动向量大是相对于其在远处的运动向量小而言,具体的运动向量的大小的值不应作为对本发明的限制。
所述检测目标,作为举例而非限制,可以是人脸、人形、车型等。图1中示例了采用人脸作为检测目标的方式,在监控输入图像中显示有3个检测目标,分别为距离为L0的大尺寸近处人脸,距离为L1的中等尺寸远处人脸和距离为L2的小尺寸更远处人脸,三者距离摄像头的距离依次增大。
另一方面,基于神经网络的检测算法,其参数、网络结构常常对应指定的输入尺寸,检测输入图像尺寸不能随意调整,每改变一次输入尺寸都可能需要重新进行网络设计和训练。而大多数情况下,原始输入图像和检测输入尺寸并不匹配,如果强行改变图像的长宽比进行缩放可能会降低目标检测的准确率,因此这时候往往需要将原始输入图像扩展黑边生成检测输入图(也可称为检测算法输入图),以适配检测网络的输入长宽比尺寸要求,参见图2所示,图2中原始输入图像100的尺寸为1920*1080(长*宽),检测输入图像200的尺寸为320*240(长*宽),所述检测输入图像200的下方为黑边300。这些黑边区图像参与计算实际浪费了算力和带宽,如果将黑边区用图像内容替代,可以充分利用算力提高检测性能。
基于以上原理,本发明提供了一种监控边缘计算中提升视频目标检测性能的方法。参见图3所示,所述方法包括如下步骤:
S100,根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置。
S200,每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理,处理后的原始输入图像的分辨率低于滑动窗子图的分辨率。
S300,将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像。
S400,通过前述目标检测神经网络算法对前述检测输入图像进行检测。
所述S400之后还可以包括步骤:将各滑动窗子图的检测结果合并映射到原始输入图像上进行显示输出。
本发明提供的上述技术方案,通过预先设定多种不同大小或长宽比的矩形滑动窗,所述矩形滑动窗能够按照设定的规则按帧在原始输入图像上移动到不同的位置。对每帧图像进行检测时,先将原始输入图像和各矩形滑动窗中的滑动窗子图分别进行不同比例的缩放,原始输入图像缩小成较低分辨率,而滑动窗子图保持较高分辨率,然后再将缩放后的各图像组合拼接成一张尺寸小于原始输入图像的矩形输入图像后作为检测输入图像;最后,采用对应输入尺度的神经网络目标检测算法对检测输入图像进行检测,并将各子图检测结果合并映射到原始输入图上。上述技术方案中,作为检测输入图像的拼接图像中包含了低分辨率全画面子图和高分辨率滑动窗子图。检测时,低分辨率全画面子图每帧都会被检测,所以检测帧率高,在所述较低分辨率全画面子图上可以搜到近处的目标;而高分辨率滑动窗子图,每帧只检测整张高分辨率图像的一个局部,每帧滑动窗移动,需要若干帧完成一轮扫描,即同一局部区域要等若干帧后才能在高分辨率子图上再次检测,因此滑动窗子图检测是低帧率的,这种子图分辨率高可以用来检测远处目标。由于远处目标在图像中尺寸小,运动慢,即使检测窗口不大,检测帧率低,也不容易漏检。多个滑动窗组合,每个滑动窗可以对应不同的分辨率和扫描周期,对应不同的检测距离,这样可以实现将远处小目标低帧率检测和近处目标高帧率检测相结合,如此,能够保证近处目标的检测,同时也能扫描检测到远处小目标;同时,利用拼接图像适配固定输入尺度的检测神经网络可以简化算法设计复杂度和提升有效算力的特点,使得采用较小输入尺寸的检测神经网络算法,也能实现对监控极远和极近目标的实时检测,从而提升监控边缘计算设备上目标检测功能的准确率、检测远近距离、帧率性能等要求,降低漏检和误检率。
本实施例中,优选的,根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸的步骤为:
步骤110,根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸。
步骤120,按照前述输入尺寸,将检测神经网络算法输入矩形分割成多个矩形子图区,每个矩形子图区大于等于算法能检测的最小检测尺寸。所述矩形子图区包括全图映射子图区和滑动窗映射子图区。所述全图映射子图区的长宽比与原始输入图像的长宽比相同,其用于显示缩小到低分辨率的原始输入图像(即全图映射子图),所述滑动窗映射子图区用于显示对应的滑动窗子图。
其中,各矩形子图区的分割步骤如下:
步骤121,在检测神经网络算法输入矩形上确定所述全图映射子图区的大小:根据最近检测距离L0的目标在原始输入图像上的大小,选择一个初始缩放比例,使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间,所述原始输入图像到全图映射子图区的缩放比例确定后,也确定了全图映射子图区上能检测到的最远检测距离L1。
步骤122,在剩下的空间上,选择一个矩形大小区域作为一个滑动窗映射子图区,使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内,并且能够被检测算法检测到;调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到。其中,原始输入图像上最远检测距离L2的目标在原始输入图像上停留所用时间长于滑动窗的一轮扫描时间。
步骤123,重复步骤122以确定其他滑动窗映射子图区的大小,将最远检测距离逐步扩大,直到没有合适的空间用来设置为滑动窗映射子图区。
步骤124,重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例,使得检测距离最远。
本发明提出的矩形子图区分割方法,由近至远,根据原始输入图像上目标大小和距离的对应关系,以及目标在图像内停留时间与滑动窗扫描周期的制约关系,逐步确定各段距离范围内目标对应的子图大小和缩放比例。
本实施例中,所述多个矩形滑动窗的大小和/或长宽比可以不同。
扫描规则可以由系统默认设置,也可以由用户根据需要个性化设置。
优选的,所述预设的扫描规则为:从左往右从上往下顺序匀速扫描全图,或者按照随机移动规则扫描全图,或者按照用户制定的顺序扫描全图。进一步,还可以获取各滑动窗子图的检测结果,根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。
下面以设置2个矩形滑动窗为例,结合图4详细描述本发明的实施步骤。
步骤1,根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸。
步骤2,按给定检测神经网络的输入尺寸,将检测网络输入矩形分割成若干矩形子图区,参见图4所示,示例了分成3个矩形子图区,每个矩形子图区都应大于等于算法能检测的最小检测尺寸。其中1个子图区的长宽比保持与原始输入图像的长宽比相同,为全图映射子图区,用于显示全图映射子图;剩下的2个矩形子图区称为滑动窗映射子图区,用于显示滑动窗子图。
所述全图映射子图区的大小,对应原始输入图像的某一缩小比例。因此全图映射子图区的大小对应了原始输入图像上目标能被检测到的某一大小范围,也就是对应了离摄像头某段距离范围的目标。
其中,对各矩形子图区的分割步骤如下:
步骤21,先在检测算法输入矩形上确定全图映射子图区的大小。根据最近检测距离L0的目标在原始输入图像上的大小,选择一个合适的初始缩放比例,使得原始输入图像上的最近目标缩放后小于等于算法能检测的最大目标尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间。原始输入图像到全图映射子图区的缩放比例确定后,同时也确定了全图映射子图区上能检测到的最远检测距离L1,即全图映射子图区上最小检测尺寸在原始输入图像上对应的目标大小。
步骤22,接着,在剩下的空间上,选择一个合适的矩形大小区域分割为一个滑动窗映射子图区,使原始输入图像上距离L1的目标缩小后,可以落在滑动窗映射子图区内,并且能够被检测算法检测到,即大于等于最小检测尺寸。按照缩放比例,这一滑动窗映射子图区对应原始输入图像上一定大小的滑动窗区域。滑动窗每帧按照设定的规则移动,在一定周期内扫描完原始输入图像全图。调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到,即距离L2的目标缩小后大于等于最小检测尺寸,并且距离L2的目标在原始输入图像上停留所用时间长于滑动窗的一轮扫描时间。
滑动窗移动的规则(即扫描规则),可以是从左往右从上往下顺序匀速扫描全图,也可以按照特定的顺序扫描全图,也可以是按随机移动规则扫描全图。进一步,还可以根据检测结果自适应调整滑动窗移动速度或停留时间。
步骤23,依次确定其他滑动窗映射子图区大小。重复前述步骤22,将最远检测距离逐步扩展,直到没有合适空间用来设置为滑动窗映射子图区。
步骤24,调整各子图区大小和对应缩放比例,使得检测距离最远。回归步骤21至步骤23的过程,调整各子图区的大小和缩放比例,使得检测距离最远。
步骤3,每帧检测时,将原始输入图像和各滑动窗位置子图分别按比例缩放,再将缩放后的各图像组合拼接成矩形输入图像,作为检测输入图像,参见图4所示。
步骤4,最后,采用对应神经网络目标检测算法对检测输入图像进行检测,并将各子图检测结果合并映射到原始输入图上。
上述方法使得原始输入图像缩小成较低分辨率的全图映射子图,采用高帧率来检测近处目标,而各滑动窗子图保持了较高分辨率,采用较低帧率来检测远处目标。从而使得监控边缘计算设备在使用小输入尺寸的神经网络目标检测算法时,能尽可能的检测到近处和远处的目标。
本发明提供的通过全图映射子图和滑动窗子图拼接形成矩形输入图像作为检测输入图像送目标检测神经网络算法进行检测的方法,还能够显著提升不同景深模糊程度下的目标检测性能。
本发明的另一实施例,还提供了一种监控边缘计算中提升视频目标检测性能的装置。
所述装置包括滑动窗设置模块,图像预处理模块和目标检测模块。
所述滑动窗设置模块,用于根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置。
所述图像预处理模块,与滑动窗设置模块连接,用于在每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理,处理后的原始输入图像的分辨率低于滑动窗子图的分辨率;以及,将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像。
所述目标检测模块,与滑动窗设置模块和图像预处理模块连接,用于采用对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。
所述装置还可以包括结果显示模块,通过所述结果显示模块可以将各滑动窗子图的检测结果合并映射到原始输入图像上显示输出。
本实施例中,所述滑动窗设置模块具体可以包括输入尺寸确定单元和矩形子图区分割单元。
所述输入尺寸确定单元被配置为:根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸。
所述矩形子图区分割单元被配置为:按照前述输入尺寸,将检测神经网络算法输入矩形分割成多个矩形子图区,每个矩形子图区大于等于算法能检测的最小检测尺寸。所述矩形子图区包括全图映射子图区和滑动窗映射子图区,所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像,所述滑动窗映射子图区用于显示对应的滑动窗子图。
优选的,矩形子图区分割单元进行各矩形子图区的分割步骤如下:
步骤121,在检测神经网络算法输入矩形上确定所述全图映射子图区的大小:根据最近检测距离L0的目标在原始输入图像上的大小,选择一个初始缩放比例,使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间,所述原始输入图像到全图映射子图区的缩放比例确定后,也确定了全图映射子图区上能检测到的最远检测距离L1。
步骤122,在剩下的空间上,选择一个矩形大小区域作为一个滑动窗映射子图区,使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内,并且能够被检测算法检测到;调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到。
步骤123,重复步骤122以确定其他滑动窗映射子图区的大小,将最远检测距离逐步扩大,直到没有合适的空间用来设置为滑动窗映射子图区。
步骤124,重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例,使得检测距离最远。
本实施例中,所述多个矩形滑动窗的大小和/或长宽比不同。
所述预设的扫描规则可以为从左往右从上往下顺序匀速扫描全图,或者按照随机移动规则扫描全图,或者按照用户制定的顺序扫描全图。
其它技术特征参见在前实施例的描述,在此不再赘述。
在上面的描述中,本发明的公开内容并不旨在将其自身限于这些方面。而是,在本公开内容的目标保护范围内,各组件可以以任意数目选择性地且操作性地进行合并。另外,像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的,而不是排他性的或封闭性,除非其被明确限定为相反的含义。所有技术、科技或其他方面的术语都符合本领域技术人员所理解的含义,除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释,除非本公开内容明确将其限定成那样。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

  1. 一种监控边缘计算中提升视频目标检测性能的方法,其特征在于包括步骤:
    根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置;
    每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理,处理后的原始输入图像的分辨率低于滑动窗子图的分辨率;
    将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像;
    通过对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。
  2. 根据权利要求1所述的方法,其特征在于还包括步骤:将各滑动窗子图的检测结果合并映射到原始输入图像上。
  3. 根据权利要求1或2所述的方法,其特征在于:根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸的步骤为,
    步骤110,根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸;
    步骤120,按照前述输入尺寸,将检测神经网络算法输入矩形分割成多个矩形子图区,每个矩形子图区大于等于算法能检测的最小检测尺寸;所述矩形子图区包括全图映射子图区和滑动窗映射子图区,所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像,所述滑动窗映射子图区用于显示对应的滑动窗子图;
    其中,各矩形子图区的分割步骤如下,
    步骤121,在检测神经网络算法输入矩形上确定所述全图映射子图区的大小:根据最近检测距离L0的目标在原始输入图像上的大小,选择一个初始缩放比例,使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间,所述原始输入图像到全图映射子图区的缩放比例确定后,也确定了全图映射子图区上能检测到的最远检测距离L1;
    步骤122,在剩下的空间上,选择一个矩形大小区域作为一个滑动窗映射子图区,使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内,并且能够被检测算法检测到;调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到;
    步骤123,重复步骤122以确定其他滑动窗映射子图区的大小,将最远检测距离逐步扩大,直到没有合适的空间用来设置为滑动窗映射子图区;
    步骤124,重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例,使得检测距离最远。
  4. 根据权利要求3所述的方法,其特征在于:步骤122中,原始输入图像上最远检测距离L2的目标在原始图像上停留所用时间长于滑动窗的一轮扫描时间。
  5. 根据权利要求3所述的方法,其特征在于:所述多个矩形滑动窗的大小和/或长宽比不同;
    所述预设的扫描规则为从左往右从上往下顺序匀速扫描全图,或者按照随机移动规则扫描全图,或者按照用户制定的顺序扫描全图。
  6. 根据权利要求5所述的方法,其特征在于:获取各滑动窗子图的检测结果,根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。
  7. 一种监控边缘计算中提升视频目标检测性能的装置,其特征在于包括:
    滑动窗设置模块,用于根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸,所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置;
    图像预处理模块,与滑动窗设置模块连接,用于在每帧检测时,将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理,处理后的原始输入图像的分辨率低于滑动窗子图的分辨率;以及,将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像;
    目标检测模块,与滑动窗设置模块和图像预处理模块连接,用于采用对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。
  8. 根据权利要求7所述的装置,其特征在于:还包括结果显示模块,用于将各滑动窗子图的检测结果合并映射到原始输入图像上显示输出。
  9. 根据权利要求7或8所述的装置,其特征在于:所述滑动窗设置模块包括输入尺寸确定单元和矩形子图区分割单元;
    所述输入尺寸确定单元被配置为:根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸,以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸;
    所述矩形子图区分割单元被配置为:按照前述输入尺寸,将检测神经网络算法输入矩形分割成多个矩形子图区,每个矩形子图区大于等于算法能检测的最小检测尺寸;所述矩形子图区包括全图映射子图区和滑动窗映射子图区,所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像,所述滑动窗映射子图区用于显示对应的滑动窗子图;
    其中,各矩形子图区的分割步骤如下,
    步骤121,在检测神经网络算法输入矩形上确定所述全图映射子图区的大小:根据最近检测距离L0的目标在原始输入图像上的大小,选择一个初始缩放比例,使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸,以便在全图映射子图区上检测到最近距离目标,同时给各滑动窗映射子图区留下足够空间,所述原始输入图像到全图映射子图区的缩放比例确定后,也确定了全图映射子图区上能检测到的最远检测距离L1;
    步骤122,在剩下的空间上,选择一个矩形大小区域作为一个滑动窗映射子图区,使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内,并且能够被检测算法检测到;调整缩放比例,使得原始输入图像上最远检测距离L2的目标能被检测到;
    步骤123,重复步骤122以确定其他滑动窗映射子图区的大小,将最远检测距离逐步扩大,直到没有合适的空间用来设置为滑动窗映射子图区;
    步骤124,重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例,使得检测距离最远。
  10. 根据权利要求7所述的装置,其特征在于:所述多个矩形滑动窗的大小和/或长宽比不同;
    所述预设的扫描规则为从左往右从上往下顺序匀速扫描全图,或者按照随机移动规则扫描全图,或者按照用户制定的顺序扫描全图。
PCT/CN2021/086314 2020-08-18 2021-04-11 监控边缘计算中提升视频目标检测性能的方法及装置 WO2022037087A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/168,588 US20230196705A1 (en) 2020-08-18 2023-02-14 Method and apparatus for improving video target detection performance in surveillance edge computing

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010828519.4A CN111709407B (zh) 2020-08-18 2020-08-18 监控边缘计算中提升视频目标检测性能的方法及装置
CN202010828519.4 2020-08-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/168,588 Continuation US20230196705A1 (en) 2020-08-18 2023-02-14 Method and apparatus for improving video target detection performance in surveillance edge computing

Publications (1)

Publication Number Publication Date
WO2022037087A1 true WO2022037087A1 (zh) 2022-02-24

Family

ID=72547181

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/086314 WO2022037087A1 (zh) 2020-08-18 2021-04-11 监控边缘计算中提升视频目标检测性能的方法及装置

Country Status (3)

Country Link
US (1) US20230196705A1 (zh)
CN (1) CN111709407B (zh)
WO (1) WO2022037087A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207073A1 (zh) * 2022-04-29 2023-11-02 浪潮电子信息产业股份有限公司 一种目标检测方法、装置、设备及介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709407B (zh) * 2020-08-18 2020-11-13 眸芯科技(上海)有限公司 监控边缘计算中提升视频目标检测性能的方法及装置
CN112613570B (zh) * 2020-12-29 2024-06-11 深圳云天励飞技术股份有限公司 一种图像检测方法、图像检测装置、设备及存储介质
CN113344957B (zh) * 2021-07-19 2022-03-01 北京城市网邻信息技术有限公司 图像处理方法、图像处理装置和非瞬时性存储介质
CN115100646B (zh) * 2022-06-27 2023-01-31 武汉兰丁智能医学股份有限公司 细胞图像高清晰快速拼接识别标记方法
CN116079759A (zh) * 2023-04-07 2023-05-09 西安零远树信息科技有限公司 一种基于服务机器人用识别系统
CN116503863B (zh) * 2023-06-26 2023-09-15 尚特杰电力科技有限公司 光伏板编号方法、存储介质、控制器
CN117094994B (zh) * 2023-10-17 2024-02-09 苏州元脑智能科技有限公司 滑窗参数确定方法、图像识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336951A (zh) * 2013-06-28 2013-10-02 深圳市智美达科技有限公司 视频监控目标检测方法和装置
CN104809438A (zh) * 2015-04-29 2015-07-29 腾讯科技(深圳)有限公司 一种检测电子眼的方法和设备
CN105354549A (zh) * 2015-11-02 2016-02-24 南京理工大学 基于似物性估计的快速行人检测方法
US20160086024A1 (en) * 2012-03-30 2016-03-24 Canon Kabushiki Kaisha Object detection method, object detection apparatus, and program
CN111488839A (zh) * 2020-04-14 2020-08-04 上海富瀚微电子股份有限公司 一种目标检测方法和目标检测系统
CN111709407A (zh) * 2020-08-18 2020-09-25 眸芯科技(上海)有限公司 监控边缘计算中提升视频目标检测性能的方法及装置
CN112084886A (zh) * 2020-08-18 2020-12-15 眸芯科技(上海)有限公司 提升检测神经网络目标检测性能的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
CN106650575A (zh) * 2016-09-19 2017-05-10 北京小米移动软件有限公司 人脸检测方法及装置
CN110263774B (zh) * 2019-08-19 2019-11-22 珠海亿智电子科技有限公司 一种人脸检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160086024A1 (en) * 2012-03-30 2016-03-24 Canon Kabushiki Kaisha Object detection method, object detection apparatus, and program
CN103336951A (zh) * 2013-06-28 2013-10-02 深圳市智美达科技有限公司 视频监控目标检测方法和装置
CN104809438A (zh) * 2015-04-29 2015-07-29 腾讯科技(深圳)有限公司 一种检测电子眼的方法和设备
CN105354549A (zh) * 2015-11-02 2016-02-24 南京理工大学 基于似物性估计的快速行人检测方法
CN111488839A (zh) * 2020-04-14 2020-08-04 上海富瀚微电子股份有限公司 一种目标检测方法和目标检测系统
CN111709407A (zh) * 2020-08-18 2020-09-25 眸芯科技(上海)有限公司 监控边缘计算中提升视频目标检测性能的方法及装置
CN112084886A (zh) * 2020-08-18 2020-12-15 眸芯科技(上海)有限公司 提升检测神经网络目标检测性能的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KISANTAL, MATE ET AL.: "Augmentation for small object detection", 《HTTPS://ARXIV.ORG/PDF/1902.07296.PDF》, 19 February 2019 (2019-02-19) *
李佳田 等 (LI, JIATIAN ET AL.): "RME: 基于滑动窗口的实时人脸检测算法 (RME: An Algorithm for Real-Time Face Detection based on Sliding Window)", 《高技术通讯》 (CHINESE HIGH TECHNOLOGY LETTERS), vol. 26, no. 8-9, 30 September 2016 (2016-09-30), ISSN: 1002-0470 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207073A1 (zh) * 2022-04-29 2023-11-02 浪潮电子信息产业股份有限公司 一种目标检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111709407B (zh) 2020-11-13
CN111709407A (zh) 2020-09-25
US20230196705A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
US20230196705A1 (en) Method and apparatus for improving video target detection performance in surveillance edge computing
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
CN108898567B (zh) 图像降噪方法、装置及系统
US20220222786A1 (en) Image processing method, smart device, and computer readable storage medium
CN112329658B (zh) 一种对于yolov3网络的检测算法改进方法
KR101643607B1 (ko) 영상 데이터 생성 방법 및 장치
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
US9615039B2 (en) Systems and methods for reducing noise in video streams
WO2018201809A1 (zh) 基于双摄像头的图像处理装置及方法
CN112084886B (zh) 提升检测神经网络目标检测性能的方法及装置
WO2020253618A1 (zh) 一种视频抖动的检测方法及装置
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
CN111915484A (zh) 基于密集匹配与自适应融合的参考图引导超分辨率方法
WO2021082883A1 (zh) 主体检测方法和装置、电子设备、计算机可读存储介质
CN111815517B (zh) 一种基于球机抓拍图片的自适应全景拼接方法
WO2024002211A1 (zh) 一种图像处理方法及相关装置
US11127111B2 (en) Selective allocation of processing resources for processing image data
TWI554107B (zh) 可改變縮放比例的影像調整方法及其攝影機與影像處理系統
Tan et al. High dynamic range imaging for dynamic scenes with large-scale motions and severe saturation
WO2022193132A1 (zh) 图像检测方法、装置和电子设备
Deng et al. Selective kernel and motion-emphasized loss based attention-guided network for HDR imaging of dynamic scenes
CN114240979A (zh) 用于高分辨率图像的基于深度学习的亚像素边缘提取算法
Hu et al. Gray spot detection in surveillance video using convolutional neural network
RU2817534C1 (ru) Способ автоматического обнаружения объектов с использованием системы технического зрения, установленной на бвс
Xing et al. Focus on objects: An image super-resolution model for region of interest

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21857188

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21857188

Country of ref document: EP

Kind code of ref document: A1