WO2019232836A1 - 基于改进全卷积网络的多尺度感知行人检测方法 - Google Patents

基于改进全卷积网络的多尺度感知行人检测方法 Download PDF

Info

Publication number
WO2019232836A1
WO2019232836A1 PCT/CN2018/093046 CN2018093046W WO2019232836A1 WO 2019232836 A1 WO2019232836 A1 WO 2019232836A1 CN 2018093046 W CN2018093046 W CN 2018093046W WO 2019232836 A1 WO2019232836 A1 WO 2019232836A1
Authority
WO
WIPO (PCT)
Prior art keywords
scale
pedestrian
network
layer
rpn
Prior art date
Application number
PCT/CN2018/093046
Other languages
English (en)
French (fr)
Inventor
彭力
刘辉
闻继伟
谢林柏
李稳
Original Assignee
江南大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 江南大学 filed Critical 江南大学
Priority to US16/618,269 priority Critical patent/US10977521B2/en
Publication of WO2019232836A1 publication Critical patent/WO2019232836A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/545Interprogram communication where tasks reside in different layers, e.g. user- and kernel-space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the present invention relates to the technical field of pedestrian detection, and in particular, to a multi-scale perceptual pedestrian detection method based on an improved full convolutional network.
  • a multi-scale perceptual pedestrian detection method based on an improved full convolution network includes:
  • the first four layers of the ResNet-50 network are used to extract pedestrian areas in the image and generate feature maps of different scales
  • the res5a_branch2b, res5b_branch2b, and res5c_branch2b layers are introduced with a deformable convolution layer and an offset layer.
  • the convolution kernel size is 3 ⁇ 3
  • the expansion size is 2
  • the step size is 1
  • the margin is 2
  • the scale discrimination layer outputs RoI-N and RoI-F of different scales, respectively, to construct a multi-scale sensing network, which is composed of a near-scale detection network and a far-scale detection network;
  • the Soft-NMS algorithm is used to suppress redundant information in the generation box.
  • step "res5a_branch2b layer, res5b_branch2b layer and res5c_branch2b layer in ResNet-50 respectively introduce a deformable convolution layer and an offset layer, the convolution kernel size is 3 ⁇ 3, the expansion size is 2, step The length is 1, the margin is 2, and the multi-scale feature map is output; the multi-scale feature map y (p 0 ) in "" is calculated as:
  • y (p 0 ) ⁇ w (p n ) ⁇ x (p 0 + p n + ⁇ p n )
  • each pixel point p n in the convolution window corresponds to the weight w
  • p 0 represents each pixel point of the window output
  • x is the pixel point set of the input layer
  • the sampling position is p n .
  • the deformable convolution uses the offset ⁇ p n ( ⁇ p n
  • n 1, ..., N ⁇ ) to increase the receptive field of the regular grid R
  • N
  • the RoIs method is as follows: the scale of the anchor points in the cascade RPN is changed to 32, 64, 128, 256, 512, the ratio is 1: 2, 1: 1, 2: 1, 15 anchor points are generated, and the method of sliding windows , RPN-N obtains the pedestrian scale suggestion (reg-N) and classification score of the near-scale, and then uses reg-N as the input of RPN-F. RPN-F directly obtains the pedestrian RoIs from the original picture through the regional coordinate value of reg-N. Get the final score and suggestions for pedestrian areas.
  • the step "determines the height of each extracted pedestrian RoI defines a scale discrimination layer according to the input information of the pictures obtained by the cascaded RPN, and outputs the near-scale RoIs-N and the far distance.
  • RoIs-F of the scale The process of the scale discrimination layer in "" is as follows:
  • N represents the number of training samples in the current layer, i represents a pedestrian bounding box, and y represents the ordinate of the pedestrian labeled box;
  • Scale n represents a near-scale network
  • Scale f represents a far-scale network. If the region of interest of a pedestrian contained in the input picture is determined to be a far-scale pedestrian, Scale f is activated, and the RoI-F is pooled and transmitted to the far-scale detection network. Medium detection; if it is determined to be a near-scale pedestrian, Scale n is activated, and RoI-N is pooled and propagated to the near-scale detection network for training.
  • the step "scale discrimination layer outputs RoI-N and RoI-F of different scales respectively, and builds a multi-scale sensing network, which is composed of a near-scale detection network and a far-scale detection network.
  • the calculation method of the Soft-NMS is:
  • the detection score is s i ; after IoU is greater than the threshold N t , the score s i is
  • Each trained pedestrian suggestion has a label of the true category g and a true bounding box regression target value t * .
  • the multi-task loss function L is used to jointly output the parameters of the two detection sub-networks at each target suggestion i:
  • L cls and L loc are the classification and bounding box regression loss functions, respectively, and L cls is the Softmax loss function, which outputs the accurate value of classification.
  • the step "normalize the input picture size to predetermined pixels and input them to the RoIDataLayer of the ResNet-50 network to learn pedestrian characteristics;" said predetermined pixels are 640x480.
  • a computer device includes a memory, a processor, and a computer program stored on the memory and executable on the processor. When the processor executes the program, the steps of any one of the methods are implemented.
  • a computer-readable storage medium having stored thereon a computer program that, when executed by a processor, implements the steps of any one of the methods.
  • a processor is configured to run a program, and when the program runs, the method according to any one of the methods is executed.
  • the above-mentioned multi-scale perceptual pedestrian detection method based on an improved full convolutional network can detect pedestrians of different scales in a complex background and reduce the occurrence of traffic accidents.
  • This method introduces a deformable convolutional layer into the full convolutional network structure.
  • Multi-scale pedestrian suggested areas are extracted through cascading RPN, a multi-scale discrimination strategy is proposed, a multi-scale perception network is constructed, and a Soft-NMS detection algorithm is introduced to fuse the classification and regression values of each network output to output the results of pedestrian detection.
  • FIG. 1 is a network structure diagram of a multi-scale perceptual pedestrian detection method based on an improved full convolutional network according to an embodiment of the present application.
  • FIG. 2 is an example diagram of a deformable convolution based on an improved full-scale convolutional network-based multi-scale perceptual pedestrian detection method according to an embodiment of the present application.
  • FIG. 3 is a process diagram of extracting suggestions of different scales based on a cascaded RPN based on an improved full-scale convolutional network-based multi-scale perceptual pedestrian detection method according to an embodiment of the present application.
  • FIG. 4 is a comparison chart of pedestrian multi-scale detection results of a Caltech dataset based on a multi-scale perceptual pedestrian detection method based on an improved full convolutional network provided by an embodiment of the present application.
  • FIG. 5 is a comparison diagram of pedestrian multi-scale detection results in an ETH data set based on an improved full-scale convolutional network-based multi-scale aware pedestrian detection method according to an embodiment of the present application.
  • FIG. 6 is a schematic flowchart of a multi-scale perceptual pedestrian detection method based on an improved full convolutional network according to an embodiment of the present application.
  • a multi-scale perceptual pedestrian detection method based on an improved full convolution network includes:
  • the first four layers of the ResNet-50 network are used to extract pedestrian areas in the image and generate feature maps of different scales
  • the res5a_branch2b, res5b_branch2b, and res5c_branch2b layers are introduced with a deformable convolution layer and an offset layer.
  • the convolution kernel size is 3 ⁇ 3
  • the expansion size is 2
  • the step size is 1
  • the margin is 2
  • the output is Multi-scale feature map y (p 0 ):
  • the scale discrimination layer outputs RoI-N and RoI-F of different scales, respectively, to construct a multi-scale sensing network, which is composed of a near-scale detection network and a far-scale detection network;
  • the Soft-NMS algorithm is used to suppress redundant information in the generation box.
  • step "res5a_branch2b layer, res5b_branch2b layer and res5c_branch2b layer in ResNet-50 respectively introduce a deformable convolution layer and an offset layer, the convolution kernel size is 3 ⁇ 3, the expansion size is 2, step The length is 1, the margin is 2, and the multi-scale feature map is output; the multi-scale feature map y (p 0 ) in "" is calculated as:
  • y (p 0 ) ⁇ w (p n ) ⁇ x (p 0 + p n + ⁇ p n )
  • each pixel point p n in the convolution window corresponds to the weight w
  • p 0 represents each pixel point of the window output
  • x is the pixel point set of the input layer
  • the sampling position is p n .
  • the deformable convolution uses the offset ⁇ p n ( ⁇ p n
  • n 1, ..., N ⁇ ) to increase the receptive field of the regular grid R
  • N
  • the RoIs method is as follows: the scale of the anchor points in the cascade RPN is changed to 32, 64, 128, 256, 512, the ratio is 1: 2, 1: 1, 2: 1, 15 anchor points are generated, and the method of sliding windows , RPN-N obtains the pedestrian scale suggestion (reg-N) and classification score of the near-scale, and then uses reg-N as the input of RPN-F. RPN-F directly obtains the pedestrian RoIs from the original picture through the regional coordinate value of reg-N. Get the final score and suggestions for pedestrian areas.
  • the step "determines the height of each extracted pedestrian RoI defines a scale discrimination layer according to the input information of the pictures obtained by the cascaded RPN, and outputs the near-scale RoIs-N and the far distance.
  • RoIs-F of the scale The process of the scale discrimination layer in "" is as follows:
  • N represents the number of training samples in the current layer, i represents a pedestrian bounding box, and y represents the ordinate of the pedestrian labeled box;
  • Scale n represents a near-scale network
  • Scale f represents a far-scale network. If the region of interest of a pedestrian contained in the input picture is determined to be a far-scale pedestrian, Scale f is activated, and the RoI-F is pooled and transmitted to the far-scale detection network. Medium detection; if it is determined to be a near-scale pedestrian, Scale n is activated, and RoI-N is pooled and propagated to the near-scale detection network for training.
  • the calculation method of the Soft-NMS is:
  • Each trained pedestrian suggestion has a label of the true category g and a true bounding box regression target value t * .
  • the multi-task loss function L is used to jointly output the parameters of the two detection sub-networks at each target suggestion i:
  • L cls and L loc are the classification and bounding box regression loss functions, respectively, and L cls is the Softmax loss function, which outputs the accurate value of classification.
  • the step "normalize the input picture size to predetermined pixels and input them to the RoIDataLayer of the ResNet-50 network to learn pedestrian characteristics;" said predetermined pixels are 640x480.
  • a computer device includes a memory, a processor, and a computer program stored on the memory and executable on the processor. When the processor executes the program, the steps of any one of the methods are implemented.
  • a computer-readable storage medium having stored thereon a computer program that, when executed by a processor, implements the steps of any one of the methods.
  • a processor is configured to run a program, and when the program runs, the method according to any one of the methods is executed.
  • the above-mentioned multi-scale perceptual pedestrian detection method based on an improved full convolutional network can detect pedestrians of different scales in a complex background and reduce the occurrence of traffic accidents.
  • This method introduces a deformable convolutional layer into the full convolutional network structure.
  • Multi-scale pedestrian suggested areas are extracted through cascading RPN, a multi-scale discrimination strategy is proposed, a multi-scale perception network is constructed, and a Soft-NMS detection algorithm is introduced to fuse the classification and regression values of each network output to output the results of pedestrian detection.
  • Learn pedestrian characteristics normalize the input picture size to a size of 640 ⁇ 480 pixels and input it to the “RoIDataLayer” of the ResNet-50 network to learn pedestrian characteristics.
  • Extracting pedestrian multi-scale feature maps Introducing deformable convolution in the ResNet-50 network, expanding the feature map receptive field, and extracting pedestrian multi-scale feature maps.
  • a deformable convolution layer and an offset layer are respectively introduced.
  • the convolution kernel size is 3 ⁇ 3
  • the expansion size is 2
  • the step size is 1
  • the padding is 2
  • the shape can be deformed.
  • the convolution group is 4.
  • the traditional convolution output feature map y (p 0 ) is obtained by equation (1):
  • Each pixel point p n in the convolution window corresponds to a weight w
  • p 0 represents each pixel point of the window output
  • x is a set of pixel points of the input layer
  • the sampling position is p n .
  • Deformable convolution uses the offset ⁇ p n ( ⁇ p n
  • G ( ⁇ , ⁇ ) is a bilinear interpolation kernel, and the G function can be divided into two Product of one-dimensional kernels
  • the RoI pooling layer pools each RoI into a fixed-length feature vector, which is propagated forward to the fully connected layer, as shown in Figure 2.
  • the cascaded RPN network is introduced to extract regional suggestions, and then input them into the scale discrimination layer to determine the category of the current bounding box, which belongs to near-scale or far-scale pedestrians.
  • RPN-N obtains the pedestrian's regional suggestion (reg-N) and classification score (cls-N), and then enters reg-N into RPN-F.
  • RPN-F obtains the obtained reg-N Obtain a pedestrian area from the original picture, and get the final score (cls-F) and area recommendation (reg-F).
  • the reg-N output from RPN-N is used as the input of RPN-F by cascading RPN, instead of the structure of the anchor point in RPN-F, and the final regional proposal is directly calculated.
  • RPN-F compared with the sliding window method, it can save calculation time to a large extent, and it is better than a single RPN to extract pedestrian suggestions, as shown in Figure 3.
  • Scale n represents a near-scale network
  • Scale f represents a far-scale network
  • Scale f is activated to propagate RoI to the far-scale network for detection; if it is determined to be a near-scale pedestrian, Scale n is activated to propagate RoI to the near-scale network Training. Since each picture will contain multiple pedestrian areas, in order to reduce the calculation time, a multi-scale perception network (MSAN) is constructed according to the current discrimination mechanism.
  • MSAN multi-scale perception network
  • the scale discrimination layer outputs RoI-N and RoI-F of different scales respectively.
  • a multi-scale perception network is constructed.
  • Each subnetwork has two output layers.
  • t i (t x , t y , t w , t h ).
  • t i specifies the position transformation and bounding box offset value relative to the original position and size of the object proposal
  • t x , t y , t w , and t h represent the coordinates and width and height of the bounding box, respectively.
  • the Soft-NMS algorithm is introduced to suppress redundant information in the generation box.
  • the traditional NMS algorithm and Soft-NMS formula are as follows:
  • the detection score is s i ; when IoU is greater than the threshold N t , the score is 0. This process is continuously applied recursively to the remaining detection frames. According to the design of the algorithm, if an object is within a preset overlap threshold, the object to be detected may not be detected. Soft-NMS attenuates the detection score of the non-maximum detection frame instead of completely removing it. After IoU is greater than the threshold N t , the score s i is s i (1-iou (M, b i )). Simple modification of the traditional NMS algorithm without additional parameters can improve the detection accuracy by about 1.5% and the detection speed.
  • Each trained pedestrian suggestion has a label of a true category g and a true bounding box regression target value t * .
  • the multi-task loss function L is proposed at each target to jointly output the parameters of the two detection sub-networks:
  • L cls and L loc are the classification and bounding box regression loss functions, respectively.
  • L cls is a Softmax loss function, which outputs the accurate value of classification
  • L loc is a SmoothL 1 loss function, which outputs the bounding box coordinates and width and height. 1 [g ⁇ 1] When the classification value g ⁇ 1 is 1, otherwise it is 0.
  • the Soft-NMS algorithm is used to output the detection results. The algorithm can accurately output the detection results under different input scales. As shown in Figure 5 and the following table.

Abstract

本发明涉及一种基于改进全卷积网络的多尺度感知行人检测方法,属于行人检测领域。首先,通过在全卷积网络结构中引进可形变卷积层,扩大特征图的感受野;其次,通过级联RPN提取多尺度行人建议区域,引入多尺度判别策略,定义尺度判别层,判别行人建议区域的尺度类别;最后构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,获取最终的行人检测结果。实验表明,本发明的检测算法在基准行人检测数据集Caltech和ETH上产生较低的检测误差,优于当前数据集中所有检测算法的精度,并适用于检测远尺度的行人。

Description

基于改进全卷积网络的多尺度感知行人检测方法 技术领域
本发明涉及行人检测技术领域,特别是涉及基于改进全卷积网络的多尺度感知行人检测方法。
背景技术
近年来,随着智能视频监控、车辆辅助驾驶(ADAS)、基于内容的图像或者视频的探索和人体行为分析等领域的广泛应用,以及一些新的应领域的出现,如家庭服务机器人、基于航拍图像的行人等,行人检测技术的研究已经成为了机器视觉领域的重要研究课题。行人检测技术具有很大的挑战性和提升空间,主要是因为行人目标比人脸目标有更大幅度的姿态变化,而且在视频或者图片中不同行人尺寸跨度较大。由于行人所在背景不同、光照强度不同、服饰装扮的多样性等,使得实时检测行人检测而且高精度非常困难,特别是在智能车辆辅助驾驶这个领域。
传统技术存在以下技术问题:
由于环境的复杂性,当前的算法在雨天或者黑夜条件下检测到行人的精度达不到工业的要求。
发明内容
基于此,有必要针对上述技术问题,提供一种基于改进全卷积网络的多尺度感知行人检测方法,可以在复杂背景下检测出不同尺度的行人,减少交通事故的发生,该方法通过在全卷积网络结构中引进可形变卷积层,通过级联RPN提取多尺度行人建议区域,提出多尺度判别策略,构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,输出行人检测的结果。
一种基于改进全卷积网络的多尺度感知行人检测方法,包括:
将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer, 学习行人特征;
ResNet-50网络的前四层用于提取图像中的行人区域,生成不同尺度的特征图;
在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图y(p 0);
分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享;
在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;
对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;
尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;
利用Soft-NMS算法来抑制生成框中的冗余信息。
在另外的一个实施例中,步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图;”中的多尺度特征图y(p 0)计算公式为:
y(p 0)=∑w(p n)·x(p 0+p n+Δp n)
其中卷积窗口中的每个像素点p n对应权重w,p 0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为p n,可变形卷积利用偏移量Δp n({Δp n|n=1,...,N})来增大规则网格R的感受野,N=|R|表示网格中像素个数,采样偏移位置为p n+Δp n
在另外的一个实施例中,步骤“在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;”中的级联RPN获取不同高度的RoIs方式如下:级联RPN中锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,通过滑动窗口的方式,RPN-N获 取近尺度的行人区域建议(reg-N)和分类得分,然后将reg-N作为RPN-F的输入,RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs,得到最终的得分值和行人区域建议。
在另外的一个实施例中,步骤“对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;”中的尺度判别层判别过程如下:
根据级联RPN获取不同尺度的RoIs,定义每个RoI的边界框j的高度大小为H j=y max-y min;在第m层(m=3,4,5)的平均高度
Figure PCTCN2018093046-appb-000001
N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标;
引进符号函数ε(x),判断后输出近尺度的RoIs和远尺度的RoIs;
Figure PCTCN2018093046-appb-000002
Figure PCTCN2018093046-appb-000003
其中,Scale n表示近尺度网络,Scale f表示远尺度网络,如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scale f,将RoI-F池化后传播到远尺度检测网络中检测;若判定为近尺度行人,则激活Scale n,将RoI-N池化后传播到近尺度检测网络中训练。
在另外的一个实施例中,步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;”的近尺度检测网络和远尺度检测网络组成为:每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布s i=(s 0,s 1),另一层输出每个边界框回归偏移值t i=(t x,t y,t w,t h),其中,t i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,t x,t y,t w,t h分别表示 边界框的坐标和宽度与高度。
在另外的一个实施例中,步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中,Soft-NMS的计算方法为:
当IoU小于阈值N t时,检测得分值为s i;在IoU大于阈值N t后,得分值s i
Figure PCTCN2018093046-appb-000004
s i(1-iou(M,b i));
每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t *的标签,多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数:
Figure PCTCN2018093046-appb-000005
其中L cls和L loc分别是分类和边界框回归损失函数,L cls是Softmax损失函数,输出分类的准确值。
在另外的一个实施例中,步骤“将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;”中所述预定像素是640x480。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
上述基于改进全卷积网络的多尺度感知行人检测方法,可以在复杂背景下检测出不同尺度的行人,减少交通事故的发生,该方法通过在全卷积网络结构中引进可形变卷积层,通过级联RPN提取多尺度行人建议区域,提出多尺度判别策略,构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,输出行人检测的结果。
附图说明
图1为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的网络结构图。
图2为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的可形变卷积示例图。
图3为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的级联RPN提取不同尺度建议的过程图。
图4为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的Caltech数据集行人多尺度检测结果对比图。
图5为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的ETH数据集行人多尺度检测结果对比图。
图6为本申请实施例提供的一种基于改进全卷积网络的多尺度感知行人检测方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参阅图6,一种基于改进全卷积网络的多尺度感知行人检测方法,包括:
将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;
ResNet-50网络的前四层用于提取图像中的行人区域,生成不同尺度的特征图;
在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图y(p 0):
分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享;
在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN, 级联后提取不同高度的RoIs;
对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;
尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;
利用Soft-NMS算法来抑制生成框中的冗余信息。
在另外的一个实施例中,步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图;”中的多尺度特征图y(p 0)计算公式为:
y(p 0)=∑w(p n)·x(p 0+p n+Δp n)
其中卷积窗口中的每个像素点p n对应权重w,p 0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为p n,可变形卷积利用偏移量Δp n({Δp n|n=1,...,N})来增大规则网格R的感受野,N=|R|表示网格中像素个数,采样偏移位置为p n+Δp n
在另外的一个实施例中,步骤“在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;”中的级联RPN获取不同高度的RoIs方式如下:级联RPN中锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,通过滑动窗口的方式,RPN-N获取近尺度的行人区域建议(reg-N)和分类得分,然后将reg-N作为RPN-F的输入,RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs,得到最终的得分值和行人区域建议。
在另外的一个实施例中,步骤“对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;”中的尺度判别层判别过程如下:
根据级联RPN获取不同尺度的RoIs,定义每个RoI的边界框j的高度大小为H j=y max-y min;在第m层(m=3,4,5)的平均高度
Figure PCTCN2018093046-appb-000006
N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标;
引进符号函数ε(x),判断后输出近尺度的RoIs和远尺度的RoIs;
Figure PCTCN2018093046-appb-000007
Figure PCTCN2018093046-appb-000008
其中,Scale n表示近尺度网络,Scale f表示远尺度网络,如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scale f,将RoI-F池化后传播到远尺度检测网络中检测;若判定为近尺度行人,则激活Scale n,将RoI-N池化后传播到近尺度检测网络中训练。
在另外的一个实施例中,步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;”的近尺度检测网络和远尺度检测网络组成为:每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布s i=(s 0,s 1),另一层输出每个边界框回归偏移值t i=(t x,t y,t w,t h),其中,t i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,t x,t y,t w,t h分别表示边界框的坐标和宽度与高度。
在另外的一个实施例中,步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中,Soft-NMS的计算方法为:
当IoU小于阈值N t时,检测得分值为s i;在IoU大于阈值N t后,得分值s i
Figure PCTCN2018093046-appb-000009
s i(1-iou(M,b i));
每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t *的标签,多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的 参数:
Figure PCTCN2018093046-appb-000010
其中L cls和L loc分别是分类和边界框回归损失函数,L cls是Softmax损失函数,输出分类的准确值。
在另外的一个实施例中,步骤“将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;”中所述预定像素是640x480。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
上述基于改进全卷积网络的多尺度感知行人检测方法,可以在复杂背景下检测出不同尺度的行人,减少交通事故的发生,该方法通过在全卷积网络结构中引进可形变卷积层,通过级联RPN提取多尺度行人建议区域,提出多尺度判别策略,构建一个多尺度感知网络,引进Soft-NMS检测算法,融合每个网络输出的分类值和回归值,输出行人检测的结果。
下面介绍本发明的一个具体应用场景:
学习行人特征:将输入图片尺寸归一化为640×480像素的大小,输入到ResNet-50网络的“RoIDataLayer”,学习行人特征。
提取行人多尺度特征图:在ResNet-50网络中引入可形变卷积,扩大特征图感受野,提取行人多尺度特征图。
在res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,扩张大小为2,步长为1,留白(pad)为2,可形变卷积组为4。传统的卷积输出特征图y(p 0)通过等式(1)获得:
y(p 0)=∑w(p n)·x(p 0+p n))  (1)
其中卷积窗口中的每个像素点p n对应权重w,p 0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为p n。可变形卷积利用偏移量Δp n ({Δp n|n=1,...,N})来增大规则网格R的感受野,其中N=|R|表示网格中像素个数,如等式(2):
y(p 0)=∑w(p n)·x(p 0+p n+Δp n) (2)
采样偏移位置为p n+Δp n。由于Δp n为分数,所以等式(2)通过双线性插值为
x(p)=∑G(q,p)·x(q) (3)
其中p表示任意位置(p=p 0+p n+Δp n),q枚举特征图x中的所有整体空间位置,G(·,·)为双线性插值内核,G函数可以分为两个一维内核的乘积
G(q,p)=g(q x,p x)·g(q y,p y) (4)
其中g(x,y)=max(0,1-|x-y|),可以快速计算G(q,p)非零时的q值。
移除了ResNet-50模型的平均池化层,在C3、C4、C5的最后增加了一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享。保留了原始输入图像中的空间信息,RoI池化层将每个RoI池化为固定长度的特征向量,该特征向量前向传播到全连接层,如图2所示。
引进级联RPN网络提取区域建议,然后输入到尺度判别层中,判断当前边界框的类别,是属于近尺度或者远尺度行人。
将锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,用于提取原图片中的不同尺度的RoIs。通过滑动窗口的方式,RPN-N获取行人的区域建议(reg-N)和分类得分(cls-N),然后将reg-N输入到RPN-F中,RPN-F通过获取到的reg-N在原图片获取行人区域,得到最终的得分值(cls-F)和区域建议(reg-F)。对于获取不同尺度的行人RoIs,通过级联RPN的方式,将RPN-N中输出的reg-N作为RPN-F的输入,代替了RPN-F中锚点的结构,直接计算出最终的区域建议(reg-F),相比于滑动窗口的方式,可以很大程度上节省计算的时间,而且比单个RPN提取行人建议的效果好,如图3所示。
对于行人建议j的边界框高度H j=y max-y min。在当前第m层(m=3,4,5)的行人建议的平均高度
Figure PCTCN2018093046-appb-000011
(N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标)。定义了一个符号函数ε(x)
Figure PCTCN2018093046-appb-000012
Figure PCTCN2018093046-appb-000013
其中,Scale n表示为近尺度网络,Scale f表示远尺度网络。符号函数ε(x)表示为
Figure PCTCN2018093046-appb-000014
如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scale f,将RoI传播到远尺度网络中检测;若判定为近尺度行人,则激活Scale n,将RoI传播到近尺度网络中训练。由于每张图片会包含多个行人区域,为了减少计算时间,根据当前的判别机制,构建了一个多尺度感知网络(MSAN)。
尺度判别层分别输出不同尺度的RoI-N和RoI-F,为了分别检测不同尺度的RoIs,构建了一个多尺度感知网络。
每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布s i=(s 0,s 1),另一层输出每个边界框回归偏移值t i=(t x,t y,t w,t h)。其中,t i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,t x,t y,t w,t h分别表示边界框的坐标和宽度与高度。
引进Soft-NMS算法来抑制生成框中的冗余信息。传统的NMS算法和Soft-NMS的公式如下:
Figure PCTCN2018093046-appb-000015
Figure PCTCN2018093046-appb-000016
当IoU小于阈值N t时,检测得分值为s i;IoU大于阈值N t时,得分值为0。该过程被不断递归的应用于其余检测框。根据算法的设计,如果一个物体处于预设的重叠阈值之内,可能会导致检测不到该待检测物体。而Soft-NMS对非最大检测框的检测分数进行衰减而非彻底移除。在IoU大于阈值N t后,得分值s i为s i(1-iou(M,b i))。在传统的NMS算法进行简单的改动,而且不增额外的参数,可以提高检测精度1.5%左右和检测速度。
每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t *的标签。多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数:
Figure PCTCN2018093046-appb-000017
其中L cls和L loc分别是分类和边界框回归损失函数。L cls是Softmax损失函数,输出分类的准确值;L loc为SmoothL 1损失函数,输出边界框坐标和宽高。1[g≥1]当分类值g≥1为1,否则为0。通过联合两个子检测网络(NSN和FSN)的输出,使用Soft-NMS算法输出检测结果,该算法在不同范围的输入尺度下,可以准确的输出检测结果。如图5和下表所示。
表1 漏检率与检测速度
Figure PCTCN2018093046-appb-000018
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

  1. 一种基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,包括:
    将所述输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;
    ResNet-50网络的前四层用于提取图像中的行人区域,生成不同尺度的特征图;
    在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图y(p 0);
    分别在C3、C4、C5的最后一层增加一个随机初始化的1×1卷积,将最后输出通道尺度减少到1024维,实现每个卷积层的特征共享;
    在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;
    对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;
    尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;
    利用Soft-NMS算法来抑制生成框中的冗余信息。
  2. 根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“在ResNet-50的res5a_branch2b层、res5b_branch2b层和res5c_branch2b层分别引入可形变卷积层和偏移层,卷积核大小为3×3,膨胀大小为2,步长为1,留白为2,输出多尺度特征图;”中的多尺度特征图y(p 0)计算公式为:
    y(p 0)=∑w(p n)·x(p 0+p n+Δp n)
    其中卷积窗口中的每个像素点p n对应权重w,p 0代表窗口输出的每个像素点,x是输入层像素点集合,采样位置为p n,可变形卷积利用偏移量Δp n({Δp n|n=1,...,N})来增大规则网格R的感受野,N=|R|表示网格中像素个数,采样偏移位置为p n+Δp n
  3. 根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“在ResNet-50的res4f层引入级联RPN网络,定义近尺度RPN和远尺度RPN,级联后提取不同高度的RoIs;”中的级联RPN获取不同高度的RoIs方式如下:级联RPN中锚点的尺度改为32,64,128,256,512,比例为1:2,1:1,2:1,生成15个锚点,通过滑动窗口的方式,RPN-N获取近尺度的行人区域建议(reg-N)和分类得分,然后将reg-N作为RPN-F的输入,RPN-F通过reg-N的区域坐标值在原图片直接获取行人RoIs,得到最终的得分值和行人区域建议。
  4. 根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“对每个提取到的行人RoI的高度进行判断,根据级联RPN获取到的图片的输入信息,定义一个尺度判别层,输出近尺度的RoIs-N和远尺度的RoIs-F;”中的尺度判别层判别过程如下:
    根据级联RPN获取不同尺度的RoIs,定义每个RoI的边界框j的高度大小为H j=y max-y min;在第m层(m=3,4,5)的平均高度
    Figure PCTCN2018093046-appb-100001
    N表示当前层训练样本数量,i表示一个行人边界框,y表示获取到行人标注框的纵坐标;
    引进符号函数ε(x),判断后输出近尺度的RoIs和远尺度的RoIs;
    Figure PCTCN2018093046-appb-100002
    Figure PCTCN2018093046-appb-100003
    其中,Scale n表示近尺度网络,Scale f表示远尺度网络,如果输入图片中包含的行人感兴趣区域判定为远尺度行人,则激活Scale f,将RoI-F池化后传播到远尺度检测网络中检测;若判定为近尺度行人,则激活Scale n,将RoI-N池化后传播到近尺度检测网络中训练。
  5. 根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“尺度判别层分别输出不同尺度的RoI-N和RoI-F,构建一个多尺度感知网络,所述多尺度感知网络由近尺度检测网络和远尺度检测网络组成;”的近尺度检测网络和远尺度检测网络组成为:每个子网络都有两个输出层,对于每个目标建议i,第一个输出层输出离散置信值分布s i=(s 0,s 1),另一层输出每个边界框回归偏移值t i=(t x,t y,t w,t h)其中,t i指定相对于对象提议的原始位置和大小的位置转换和边界框偏移值,t x,t y,t w,t h分别表示边界框的坐标和宽度与高度。
  6. 根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“利用Soft-NMS算法来抑制生成框中的冗余信息。”中,Soft-NMS的计算方法为:
    Figure PCTCN2018093046-appb-100004
    当IoU小于阈值N t时,检测得分值为s i;在IoU大于阈值N t后,得分值s i为s i(1-iou(M,b i));
    每个训练的行人建议都有一个真实的类别g和一个真实边界框回归目标值t *的标签,多任务损失函数L在每个目标建议i用来联合输出两个检测子网络的参数:
    Figure PCTCN2018093046-appb-100005
    其中L cls和L loc分别是分类和边界框回归损失函数,L cls是Softmax损失函数,输出分类的准确值。
  7. 根据权利要求1所述的基于改进全卷积网络的多尺度感知行人检测方法,其特征在于,步骤“将输入图片尺寸归一化为预定像素,输入到ResNet-50网络的RoIDataLayer,学习行人特征;”中所述预定像素是640x480。
  8. 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。
  9. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程 序被处理器执行时实现权利要求1到7任一项所述方法的步骤。
  10. 一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到7任一项所述的方法。
PCT/CN2018/093046 2018-06-04 2018-06-27 基于改进全卷积网络的多尺度感知行人检测方法 WO2019232836A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/618,269 US10977521B2 (en) 2018-06-04 2018-06-27 Multi-scale aware pedestrian detection method based on improved full convolutional network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810563873.1A CN108830205B (zh) 2018-06-04 2018-06-04 基于改进全卷积网络的多尺度感知行人检测方法
CN201810563873.1 2018-06-04

Publications (1)

Publication Number Publication Date
WO2019232836A1 true WO2019232836A1 (zh) 2019-12-12

Family

ID=64143628

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/093046 WO2019232836A1 (zh) 2018-06-04 2018-06-27 基于改进全卷积网络的多尺度感知行人检测方法

Country Status (3)

Country Link
US (1) US10977521B2 (zh)
CN (1) CN108830205B (zh)
WO (1) WO2019232836A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738336A (zh) * 2020-06-22 2020-10-02 上海应用技术大学 基于多尺度特征融合的图像检测方法
CN111914924A (zh) * 2020-07-28 2020-11-10 西安电子科技大学 一种快速舰船目标检测方法、存储介质及计算设备
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用系统
CN112115862A (zh) * 2020-09-18 2020-12-22 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112132093A (zh) * 2020-09-30 2020-12-25 湖南省气象科学研究所 高分辨率遥感图像目标检测方法、装置和计算机设备
CN112381021A (zh) * 2020-11-20 2021-02-19 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
CN112651490A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 人脸关键点检测模型的训练方法及设备、可读存储介质
CN112686107A (zh) * 2020-12-21 2021-04-20 中国铁道科学研究院集团有限公司电子计算技术研究所 隧道入侵物体检测方法及装置
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN113222003A (zh) * 2021-05-08 2021-08-06 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及系统
CN113326779A (zh) * 2021-05-31 2021-08-31 中煤科工集团沈阳研究院有限公司 一种井下巷道积水检测识别方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113705583A (zh) * 2021-08-16 2021-11-26 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
WO2022131399A1 (ko) * 2020-12-15 2022-06-23 주식회사 써로마인드 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN114782986A (zh) * 2022-03-28 2022-07-22 佳源科技股份有限公司 基于深度学习的安全帽佩戴检测方法、装置、设备及介质
CN115082713A (zh) * 2022-08-24 2022-09-20 中国科学院自动化研究所 引入空间对比信息的目标检测框提取方法、系统及设备
CN116612122A (zh) * 2023-07-20 2023-08-18 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522855B (zh) * 2018-11-23 2020-07-14 广州广电银通金融电子科技有限公司 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质
CN109598220B (zh) * 2018-11-26 2021-07-30 山东大学 一种基于多元输入多尺度卷积的人数统计方法
CN109583517A (zh) * 2018-12-26 2019-04-05 华东交通大学 一种适用于小目标检测的增强的全卷积实例语义分割算法
CN109670555B (zh) * 2018-12-27 2023-07-07 吉林大学 基于深度学习的实例级行人检测和行人重识别系统
CN109741318B (zh) * 2018-12-30 2022-03-29 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN110009599A (zh) * 2019-02-01 2019-07-12 腾讯科技(深圳)有限公司 肝占位检测方法、装置、设备及存储介质
CN109948480A (zh) * 2019-03-05 2019-06-28 中国电子科技集团公司第二十八研究所 一种针对任意四边形的非极大值抑制方法
CN110348543B (zh) * 2019-06-10 2023-01-06 腾讯医疗健康(深圳)有限公司 眼底图像识别方法、装置、计算机设备及存储介质
CN110472640B (zh) * 2019-08-15 2022-03-15 山东浪潮科学研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110533000A (zh) * 2019-09-06 2019-12-03 厦门美图之家科技有限公司 人脸图像检测方法、装置、计算机设备和可读存储介质
CN110610509B (zh) * 2019-09-18 2023-07-21 上海大学 可指定类别的优化抠图方法及系统
CN110728200B (zh) * 2019-09-23 2023-06-06 武汉大学 一种基于深度学习的实时行人检测方法及系统
CN112989898A (zh) * 2019-12-18 2021-06-18 中国船舶重工集团公司第七一一研究所 图像处理方法、系统、计算机设备、可读存储介质与船舶
CN111144376B (zh) * 2019-12-31 2023-12-05 华南理工大学 视频目标检测特征提取方法
CN111401163B (zh) * 2020-03-04 2022-04-15 南京林业大学 基于多尺度注意力感知卷积网络的目标数量统计方法
CN111738069A (zh) * 2020-05-13 2020-10-02 北京三快在线科技有限公司 人脸检测方法、装置、电子设备及存储介质
CN111723743A (zh) * 2020-06-19 2020-09-29 北京邮电大学 一种小尺度行人快速检测方法
CN112132258B (zh) * 2020-08-26 2022-06-24 中国海洋大学 一种基于可变形卷积的多任务图像处理方法
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法
CN111931729B (zh) * 2020-09-23 2021-01-08 平安国际智慧城市科技股份有限公司 基于人工智能的行人检测方法、装置、设备及介质
CN112364855B (zh) * 2021-01-14 2021-04-06 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及系统
CN112949486B (zh) * 2021-03-01 2022-05-17 八维通科技有限公司 基于神经网络的智能交通数据处理方法及装置
CN112818942B (zh) * 2021-03-05 2022-11-18 清华大学 一种车辆行驶过程中行人动作识别方法和系统
CN113158789B (zh) * 2021-03-15 2023-08-25 华南理工大学 一种遥感图像的目标检测方法、系统、装置及介质
CN113033638A (zh) * 2021-03-16 2021-06-25 苏州海宸威视智能科技有限公司 一种基于感受野感知的无锚点框目标检测方法
CN113095479B (zh) * 2021-03-22 2024-03-12 北京工业大学 一种基于多尺度注意力机制的冰下层结构提取方法
CN112906658A (zh) * 2021-03-30 2021-06-04 航天时代飞鸿技术有限公司 一种无人机侦查地面目标的轻量化自动检测方法
CN113191204B (zh) * 2021-04-07 2022-06-17 华中科技大学 一种多尺度遮挡行人检测方法及系统
CN113033500B (zh) * 2021-05-06 2021-12-03 成都考拉悠然科技有限公司 动作片段检测方法、模型训练方法及装置
CN113505640A (zh) * 2021-05-31 2021-10-15 东南大学 一种基于多尺度特征融合的小尺度行人检测方法
CN113343846B (zh) * 2021-06-04 2024-03-15 温州大学 一种基于深浅层特征融合的反光衣检测系统
CN113435266B (zh) * 2021-06-09 2023-09-01 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法
CN113378704B (zh) * 2021-06-09 2022-11-11 武汉理工大学 一种多目标检测方法、设备及存储介质
CN113255589B (zh) * 2021-06-25 2021-10-15 北京电信易通信息技术股份有限公司 一种基于多卷积融合网络的目标检测方法及系统
CN113469973A (zh) * 2021-06-30 2021-10-01 佛山市南海区广工大数控装备协同创新研究院 一种基于erfam-yolov3网络结构的pcb电子元件的检测方法
CN113516076B (zh) * 2021-07-12 2023-09-01 大连民族大学 一种基于注意力机制改进的轻量化YOLO v4安全防护检测方法
CN113469286A (zh) * 2021-07-27 2021-10-01 北京信息科技大学 一种基于区域卷积神经网络的航天器多局部构件检测方法
CN113705359B (zh) * 2021-08-03 2024-05-03 江南大学 一种基于洗衣机滚筒图像的多尺度衣物检测系统及方法
CN113743470B (zh) * 2021-08-04 2022-08-23 浙江联运环境工程股份有限公司 自动破袋分类箱基于ai算法垃圾识别精度提升方法
CN113610037A (zh) * 2021-08-17 2021-11-05 北京计算机技术及应用研究所 一种基于头部和可见区域线索的遮挡行人检测方法
CN113657587B (zh) * 2021-08-17 2023-09-26 上海大学 基于fpga的可变形卷积加速方法及装置
CN113723400A (zh) * 2021-08-23 2021-11-30 中南大学 一种基于红外图像的电解槽极板故障识别方法、系统、终端及可读存储介质
CN113971731A (zh) * 2021-10-28 2022-01-25 燕山大学 一种目标检测方法、装置及电子设备
CN113822278B (zh) * 2021-11-22 2022-02-11 松立控股集团股份有限公司 一种无受限场景车牌识别方法
CN114332697A (zh) * 2021-12-19 2022-04-12 西安科技大学 输电线路中多类目标故障检测方法、系统、设备及介质
CN114155246B (zh) * 2022-02-10 2022-06-14 国网江西省电力有限公司电力科学研究院 一种基于可变形卷积的输电塔销钉缺陷检测方法
CN114743045B (zh) * 2022-03-31 2023-09-26 电子科技大学 一种基于双分支区域建议网络的小样本目标检测方法
CN115147664A (zh) * 2022-07-28 2022-10-04 哈尔滨市科佳通用机电股份有限公司 一种铁路货车制动阀防盗罩脱落的故障图像识别方法
CN115272665B (zh) * 2022-09-27 2023-03-24 南京信息工程大学 一种基于改进ssd算法的交通障碍检测方法和系统
CN116524420B (zh) * 2023-07-03 2023-09-12 武汉大学 一种交通场景下的关键目标检测方法及系统
CN117475389B (zh) * 2023-12-27 2024-03-15 山东海润数聚科技有限公司 一种人行横道信号灯的控制方法、系统、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874894A (zh) * 2017-03-28 2017-06-20 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN108090417A (zh) * 2017-11-27 2018-05-29 上海交通大学 一种基于卷积神经网络的人脸检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN108073929B (zh) * 2016-11-15 2023-11-24 北京三星通信技术研究有限公司 基于动态视觉传感器的物体检测方法及设备
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874894A (zh) * 2017-03-28 2017-06-20 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN108090417A (zh) * 2017-11-27 2018-05-29 上海交通大学 一种基于卷积神经网络的人脸检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI, LUNING: "Face Detect Method Based on Fully-connected Neutral Network", SCIENCE & TECHNOLOGY, CHINA MASTER S THESES FULL-TEXT DATABASE, vol. 2018, no. 1, 15 January 2018 (2018-01-15), pages 1138 - 1243, ISSN: 1674-0246 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用系统
CN111738336A (zh) * 2020-06-22 2020-10-02 上海应用技术大学 基于多尺度特征融合的图像检测方法
CN111738336B (zh) * 2020-06-22 2024-04-05 上海应用技术大学 基于多尺度特征融合的图像检测方法
CN111914924B (zh) * 2020-07-28 2024-02-06 西安电子科技大学 一种快速舰船目标检测方法、存储介质及计算设备
CN111914924A (zh) * 2020-07-28 2020-11-10 西安电子科技大学 一种快速舰船目标检测方法、存储介质及计算设备
CN112115862A (zh) * 2020-09-18 2020-12-22 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112115862B (zh) * 2020-09-18 2023-08-29 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112132093A (zh) * 2020-09-30 2020-12-25 湖南省气象科学研究所 高分辨率遥感图像目标检测方法、装置和计算机设备
CN112132093B (zh) * 2020-09-30 2024-01-05 湖南省气象科学研究所 高分辨率遥感图像目标检测方法、装置和计算机设备
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
CN112381021A (zh) * 2020-11-20 2021-02-19 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112381021B (zh) * 2020-11-20 2022-07-12 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
WO2022131399A1 (ko) * 2020-12-15 2022-06-23 주식회사 써로마인드 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN112686107A (zh) * 2020-12-21 2021-04-20 中国铁道科学研究院集团有限公司电子计算技术研究所 隧道入侵物体检测方法及装置
CN112651490B (zh) * 2020-12-28 2024-01-05 深圳万兴软件有限公司 人脸关键点检测模型的训练方法及设备、可读存储介质
CN112651490A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 人脸关键点检测模型的训练方法及设备、可读存储介质
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN113222003A (zh) * 2021-05-08 2021-08-06 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及系统
CN113222003B (zh) * 2021-05-08 2023-08-01 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及系统
CN113326779A (zh) * 2021-05-31 2021-08-31 中煤科工集团沈阳研究院有限公司 一种井下巷道积水检测识别方法
CN113326779B (zh) * 2021-05-31 2024-03-22 中煤科工集团沈阳研究院有限公司 一种井下巷道积水检测识别方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113705583A (zh) * 2021-08-16 2021-11-26 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
CN113705583B (zh) * 2021-08-16 2024-03-22 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
CN114782986A (zh) * 2022-03-28 2022-07-22 佳源科技股份有限公司 基于深度学习的安全帽佩戴检测方法、装置、设备及介质
CN114782986B (zh) * 2022-03-28 2024-04-26 佳源科技股份有限公司 基于深度学习的安全帽佩戴检测方法、装置、设备及介质
CN115082713B (zh) * 2022-08-24 2022-11-25 中国科学院自动化研究所 引入空间对比信息的目标检测框提取方法、系统及设备
CN115082713A (zh) * 2022-08-24 2022-09-20 中国科学院自动化研究所 引入空间对比信息的目标检测框提取方法、系统及设备
CN116612122B (zh) * 2023-07-20 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN116612122A (zh) * 2023-07-20 2023-08-18 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN108830205A (zh) 2018-11-16
CN108830205B (zh) 2019-06-14
US10977521B2 (en) 2021-04-13
US20210056351A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
WO2019232836A1 (zh) 基于改进全卷积网络的多尺度感知行人检测方法
US20200311871A1 (en) Image reconstruction method and device
US10229346B1 (en) Learning method, learning device for detecting object using edge image and testing method, testing device using the same
WO2020253416A1 (zh) 物体检测方法、装置和计算机存储介质
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
US9965719B2 (en) Subcategory-aware convolutional neural networks for object detection
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
JP6088792B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
US8792722B2 (en) Hand gesture detection
US8750573B2 (en) Hand gesture detection
KR20200093426A (ko) 이미지 분석 기반으로 환경에 영향 받지 않는 감시를 위한 보행자 검출기의 학습 방법 및 학습 장치, 그리고, 이를 이용하여 테스트 방법 및 테스트장치
CN109635694B (zh) 一种行人检测方法、装置、设备及计算机可读存储介质
WO2019237567A1 (zh) 基于卷积神经网络的跌倒检测方法
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
US10083352B1 (en) Presence detection and detection localization
WO2023082882A1 (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
EP3702957B1 (en) Target detection method and apparatus, and computer device
WO2018082308A1 (zh) 一种图像处理方法及终端
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
CN110622177A (zh) 实例分割
CN108022244B (zh) 一种基于前景和背景种子用于显著目标检测的超图优化方法
WO2023206935A1 (zh) 一种行人重识别方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18921376

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18921376

Country of ref document: EP

Kind code of ref document: A1