WO2020164270A1 - 基于深度学习的行人检测方法、系统、装置及存储介质 - Google Patents

基于深度学习的行人检测方法、系统、装置及存储介质 Download PDF

Info

Publication number
WO2020164270A1
WO2020164270A1 PCT/CN2019/117799 CN2019117799W WO2020164270A1 WO 2020164270 A1 WO2020164270 A1 WO 2020164270A1 CN 2019117799 W CN2019117799 W CN 2019117799W WO 2020164270 A1 WO2020164270 A1 WO 2020164270A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
model
pedestrian detection
neural network
training
Prior art date
Application number
PCT/CN2019/117799
Other languages
English (en)
French (fr)
Inventor
石磊
马进
王健宗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020164270A1 publication Critical patent/WO2020164270A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Definitions

  • This application relates to the field of deep learning technology, and in particular to a method, system, device and storage medium for pedestrian detection based on deep learning.
  • Pedestrian detection means that the computer judges whether there is a pedestrian in a given image and video, and if there is a pedestrian, the specific location of the pedestrian needs to be given.
  • Pedestrian detection is the basis and premise of research on pedestrian tracking, behavior analysis, pedestrian identification assisted intelligent driving, intelligent monitoring, road pedestrian analysis, passenger flow statistical analysis, intelligent robots, etc.
  • a good pedestrian detection algorithm can provide strong support for the latter And protection.
  • the commonly used pedestrian detection methods include: background difference method, frame difference method, optical flow method, template matching method and method based on machine learning.
  • the inventor realizes that the aforementioned four methods are all human detection methods based on image processing technology. However, these methods are reflected in the problems of human clothing, body shape, human posture, human body occlusion, lighting problems, and complex backgrounds. The accuracy and robustness are very poor.
  • the existing pedestrian detection system also requires the use of high-definition cameras and corresponding network transmission and image processing units, resulting in a large and heavy pedestrian detection system, poor portability, and high cost.
  • This application provides a pedestrian detection method, system, device, and storage medium based on deep learning to solve the problems of large and heavy pedestrian detection systems, poor portability, and high cost.
  • this application provides a pedestrian detection method based on deep learning, which is applied to an electronic device including:
  • Pedestrian detection and annotation are performed on the test image through the pedestrian detection model.
  • the present application also provides a pedestrian detection system based on deep learning, characterized in that the system includes:
  • the detection model creation unit is used to create a pedestrian detection model
  • the preprocessing unit is used to perform object extraction, size normalization and color space normalization processing on the image to be detected;
  • the picture detection unit is used to detect the image processed by the preprocessing unit through the pedestrian detection model, and to mark the coordinate value and position information of the pedestrian when the pedestrian is detected.
  • the present application also provides an electronic device including a memory and a processor.
  • the memory stores computer-readable instructions.
  • the processor executes the above-mentioned deep learning-based pedestrian detection method. A step of.
  • the present application also provides a storage medium storing computer-readable instructions.
  • the computer-readable instructions are executed by one or more processors, the one or more processors execute the above-mentioned deep learning-based pedestrian detection Method steps.
  • the deep learning-based pedestrian detection method, system, device, and storage medium proposed in this application can use deep learning algorithms to deploy the trained model to the Android mobile terminal and develop the corresponding mobile app.
  • the user can use the smart Android phone to instantly Pedestrian detection can be conveniently performed on the image or video information collected by the mobile terminal in real time, and the latest algorithm model can be downloaded online; in addition, the sample pictures collected by users can also be used to update and iterate online models without additional hardware resources , Low cost and wide application range.
  • Figure 1 is a schematic diagram of the application environment of the pedestrian detection method based on deep learning in this application;
  • Figure 2 is a flowchart of a pedestrian detection method based on deep learning in this application
  • Figure 3 is a structural block diagram of a pedestrian detection system based on deep learning in this application.
  • This application provides a pedestrian detection method based on deep learning, which is applied to an electronic device 1.
  • FIG. 1 it is a schematic diagram of the application environment of the preferred embodiment of the deep learning-based pedestrian detection method described in this application.
  • the electronic device 1 may be a terminal device with computing functions such as a server, a smart phone, a tablet computer, a portable computer, a desktop computer, etc., but it is not limited to this.
  • the electronic device 1 includes a processor 12, a memory 11, a network interface 14 and a communication bus 13.
  • the memory 11 includes at least one type of readable storage medium.
  • At least one type of readable storage medium may be a non-volatile storage medium such as flash memory, hard disk, multimedia card, card-type memory 11, and so on.
  • the readable storage medium may be an internal storage unit of the electronic device 1, such as a hard disk of the electronic device 1.
  • the readable storage medium may also be the external memory 11 of the electronic device 1, such as a plug-in hard disk equipped on the electronic device 1, a smart media card (SMC), and a secure digital (Secure Digital). , SD) card, flash card (Flash Card), etc.
  • the readable storage medium of the memory 11 is generally used to store the deep learning-based pedestrian detection program 10 installed in the electronic device 1 and the like.
  • the memory 11 can also be used to temporarily store data that has been output or will be output.
  • the processor 12 may be a central processing unit (CPU), a microprocessor or other data processing chip, which is used to run the program code or process data stored in the memory 11, for example, perform deep learning based 10 of the pedestrian detection procedures.
  • CPU central processing unit
  • microprocessor or other data processing chip, which is used to run the program code or process data stored in the memory 11, for example, perform deep learning based 10 of the pedestrian detection procedures.
  • the network interface 14 may optionally include a standard wired interface and a wireless interface (such as a WI-FI interface), and is generally used to establish a communication connection between the electronic device 1 and other electronic devices.
  • the communication bus 13 is used to realize the connection and communication between these components.
  • FIG. 1 only shows the electronic device 1 with the components 11-14, but it should be understood that it is not required to implement all the illustrated components, and more or fewer components may be implemented instead.
  • the electronic device 1 may also include a user interface.
  • the user interface may include an input unit such as a keyboard (Keyboard), a voice input device such as a microphone (microphone) and other devices with voice recognition functions, and a voice output device such as audio, earphones, etc.
  • the user interface may also include a standard wired interface and a wireless interface.
  • the electronic device 1 may also include a display, and the display may also be called a display screen or a display unit.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, and an organic light-emitting diode (Organic Light-Emitting Diode, OLED) touch device.
  • OLED Organic Light-Emitting Diode
  • the display is used for displaying information processed in the electronic device 1 and for displaying a visualized user interface.
  • the electronic device 1 further includes a touch sensor.
  • the area provided by the touch sensor for the user to perform touch operations is called the touch area.
  • the touch sensor here may be a resistive touch sensor, a capacitive touch sensor, etc.
  • the touch sensor includes not only a contact type touch sensor, but also a proximity type touch sensor and the like.
  • the touch sensor may be a single sensor, or may be, for example, multiple sensors arranged in an array.
  • the area of the display of the electronic device 1 may be the same as or different from the area of the touch sensor.
  • the display and the touch sensor are stacked to form a touch display screen. The device detects the touch operation triggered by the user based on the touch screen.
  • the electronic device 1 may also include a radio frequency (RF) circuit, a sensor, an audio circuit, etc., which will not be repeated here.
  • RF radio frequency
  • FIG. 1 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the electronic device to which the solution of the present application is applied.
  • the specific electronic device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • FIG. 2 shows the flow of the deep learning-based pedestrian detection method according to an embodiment of the present application.
  • the method can be applied to the above-mentioned electronic device 1, and specifically includes the following steps:
  • Step S110 Collect a pedestrian image data set, and divide the image data set into a training image and a test image according to a preset ratio.
  • the pedestrian image data set can be obtained by collecting public pedestrian detection image data (for example, Caltech pedestrian data set, TUD pedestrian database NICTA data set, ETH data set, CVC pedestrian data set, etc.) and existing road bayonet surveillance videos .
  • public pedestrian detection image data for example, Caltech pedestrian data set, TUD pedestrian database NICTA data set, ETH data set, CVC pedestrian data set, etc.
  • existing road bayonet surveillance videos for example, Caltech pedestrian data set, TUD pedestrian database NICTA data set, ETH data set, CVC pedestrian data set, etc.
  • the preset ratio range can be controlled within the range of 7:3 to 4:1, preferably the preset ratio is 4:1.
  • the training image and the test image can be divided as much as possible according to 4:1 Use the data to train a model with better generalization, and scientifically evaluate the performance of the created network model, and the accuracy of pedestrian detection can be evaluated through test images.
  • Step S120 Create a convolutional neural network model, and initialize the parameters of the convolutional neural network model through the pre-training model.
  • the pre-training model is a deep learning framework that has been trained to perform specific tasks on a large amount of data (for example, identifying classification problems in pictures). This type of training is not easy to perform and usually requires a lot of resources. Resources available to people who can use deep learning models.
  • CNNs architectures for vision-related tasks trained on Imagenet.
  • the steps to create a convolutional neural network model further include:
  • S121 Create the basic network of the convolutional neural network model.
  • S122 Send the feature map output by the convolutional layer of the basic network into the RPN candidate area network, and determine the candidate area of the feature map.
  • S123 Simultaneously send the feature map and the candidate region output by the convolutional layer into the discrimination network to obtain a candidate frame for locating pedestrian targets.
  • the candidate frame is used for frame selection and positioning of pedestrians in the image to be detected.
  • the created convolutional neural network model parameters include: 20-layer convolutional neural network, specifically 13 Conv convolutional layers, 4 MaxPool pooling layers, 2 FullConnectedq fully connected layers and 1 Softmax layer; and pass The pre-trained model of the ImageNet dataset initializes the network parameters of the Conv convolutional layer, the MaxPool pooling layer, and the FullConnectedq fully connected layer.
  • the convolutional neural network model structure is shown in the following table:
  • Step S130 Input the training image into the initialized convolutional neural network model for training, until the error between the actual output of the convolutional neural network model and the target to be labeled in the training image is less than the preset value, and form pedestrian detection model.
  • the training image is normalized to a size of 224 in length and width, and then input to the two convolutional layers Conv1 ⁇ 2 (Conv1_1, Conv1_2), the size of the convolution kernel is 3 ⁇ 3, and the size of the output feature map Both are 224 ⁇ 224, and then input the feature map output by the convolutional layer into the pooling layer Pool1 for pooling operation.
  • the pooling core size is 2 ⁇ 2, and the output size is 112 ⁇ 112 feature maps, similar to the follow-up
  • the operations performed by the convolutional layer pooling layer are as shown in the above table, until the Fc6 layer (FullConnectedq fully connected layer) inputs a 7 ⁇ 7 feature map, and outputs a vector with a length of 4096.
  • the output size of the Fc7 is 4096, and the Softmax layer outputs
  • the size is 1000.
  • the above neural network structure can be used as the basic network of the convolutional neural network model.
  • a part of the basic network is intercepted as a feature extraction network.
  • the feature extraction network is respectively connected to the RPN candidate area network and the discrimination network.
  • the RPN candidate area network is also connected to the discrimination network.
  • the discrimination network finally outputs the result of selecting pedestrians.
  • the feature map output by the convolutional layer 5 of the convolutional layer neural network model is sent to the RPN candidate area network to determine the candidate area. Then, the feature map and the candidate area output by the convolutional layer 5 are sent to the discrimination network at the same time to obtain the candidate frame for locating the pedestrian target.
  • the RPN candidate area network includes 3 Conv layers, 1 Softmax layer, 1 bbox layer, and 1 Proposal layer.
  • the discriminant network input includes 1 ROI Pooling layer, 4 Fc layers, 1 Softmax layer, and 1 bbox layer.
  • the feature map output by the convolutional layer 5 is sent to the RPN candidate area network, and the candidate area is output through the Proposal layer of the RPN candidate area network.
  • the candidate area and the feature map output by the convolutional layer 5 are sent to the discriminant network at the same time, and obtained by the discriminant network recognition Pedestrian targets for positioning.
  • RPN is a small network composed of a convolutional layer (256 dimensions), relu, and two left and right layers (clclayer and reglayer). It is applied to the sliding window area. All sliding windows share RPN.
  • This convolutional layer contrast
  • For the ordinary convolutional layer first: it can generate a 1*1*256 featuremap from the input of n ⁇ n ⁇ channels through 256 n ⁇ n-sized convolution kernels, that is, 256-dimensional features at the end. Second: Its input is the feature map area corresponding to the sliding window n ⁇ n, and the feature map becomes 1 ⁇ 1 after its convolution. Third: Since the output at this time is 1*1*256, all clslayer and reglayer use the 1x1 convolution kernel for further feature extraction.
  • each channel has different parameters. Because the input is a 1x1 picture, it is equivalent to the function of full connection, which is equivalent to flattening 1*1*256 into 256, and then performing full connection.
  • the training image is input into the convolutional neural network model for training, until the error between the actual output of the convolutional neural network model and the target image to be labeled is less than the preset value, the network training is terminated, and a pedestrian detection model is formed.
  • the training image is input into the convolutional neural network model for training, and the fitting parameters are propagated forward and backward to reduce the error between the actual output of the convolutional neural network model and the target to be labeled.
  • the error is less than the preset value, The training of the convolutional neural network model is terminated, and a pedestrian detection model is obtained.
  • an iterative process includes: fitting pedestrian target detection through backpropagation and gradient descent algorithms, and reducing the error of candidate frame coordinates and target category (pedestrian, background) error , To achieve the purpose of reducing the error of the entire convolutional neural network, and then update the weights in the model through forward propagation. After reaching 10,000 iterations, the training is terminated.
  • Step S140 Perform pedestrian detection and annotation on the test image through the pedestrian detection model.
  • this application also provides a deep learning-based pedestrian detection system.
  • Fig. 3 shows the structure of pedestrian detection based on deep learning according to an embodiment of the present application.
  • the pedestrian detection system 200 based on deep learning in the embodiment of the present application mainly includes the following units:
  • the detection model creation unit 210 is used to create a pedestrian detection model.
  • the detection model creation unit 210 further includes:
  • the image data collection module 211 is used to collect a pedestrian image data set, and divide the image data set into a training image and a test image according to a preset ratio.
  • the pedestrian image data set can be obtained by collecting public pedestrian detection image data (for example, Caltech pedestrian data set, TUD pedestrian database NICTA data set, ETH data set, CVC pedestrian data set, etc.) and existing road bayonet surveillance videos .
  • public pedestrian detection image data for example, Caltech pedestrian data set, TUD pedestrian database NICTA data set, ETH data set, CVC pedestrian data set, etc.
  • existing road bayonet surveillance videos for example, Caltech pedestrian data set, TUD pedestrian database NICTA data set, ETH data set, CVC pedestrian data set, etc.
  • the preset ratio range can be controlled within the range of 7:3 to 4:1, preferably the preset ratio is 4:1.
  • the training image and the test image can be divided as much as possible according to 4:1 Use the data to train a model with better generalization, and scientifically evaluate the performance of the created network model, and the accuracy of pedestrian detection can be evaluated through test images.
  • the convolutional neural network model creation module 212 is used to create a convolutional neural network model, and initialize the parameters of the convolutional neural network model through the pre-training model.
  • the pre-training model is a deep learning framework that has been trained to perform specific tasks on a large amount of data (for example, identifying classification problems in pictures). This type of training is not easy to perform and usually requires a lot of resources. Resources available to people who can use deep learning models.
  • CNNs architectures for vision-related tasks trained on Imagenet.
  • the convolutional neural network model creation module 212 further includes:
  • the basic network creation module is used to create the basic network of the convolutional neural network model.
  • the candidate area determination module is used to send the feature map output by the convolutional layer of the basic network into the RPN candidate area network to determine the candidate area of the feature map.
  • the positioning module is used to send the feature map and the candidate region output by the convolutional layer into the discrimination network at the same time to obtain the candidate frame for locating the pedestrian target.
  • the candidate frame is used for frame selection and positioning of the pedestrian in the image to be detected.
  • the training module 213 is used to input the training image into the initialized convolutional neural network model for training until the error between the actual output of the convolutional neural network model and the target to be labeled in the training image is less than the preset value, and Form a pedestrian detection model.
  • the created convolutional neural network model parameters include: 20-layer convolutional neural network, specifically 13 Conv convolutional layers, 4 MaxPool pooling layers, 2 FullConnectedq fully connected layers and 1 Softmax layer; and The network parameters of Conv convolutional layer, MaxPool pooling layer and FullConnectedq fully connected layer are initialized through the pre-trained model of ImageNet data set.
  • the training image is normalized to a size of 224 in length and width, and then input into two convolutional layers Conv1 ⁇ 2 (Conv1_1, Conv1_2), the size of the convolution kernel is 3 ⁇ 3, and the size of the output feature map is 224 ⁇ 224, then input the feature map output by the convolutional layer into the pooling layer Pool1 for pooling operation.
  • the pooling core size is 2 ⁇ 2, and the output size is 112 ⁇ 112 feature maps, similar to subsequent convolutional layers
  • the calculations performed by the pooling layer are as shown in the table above, until the Fc6 layer (FullConnectedq fully connected layer) inputs a 7 ⁇ 7 feature map, and outputs a vector with a length of 4096.
  • the output size of the Fc7 is 4096
  • the output size of the Softmax layer is 1000 .
  • the above neural network structure can be used as the basic network of the convolutional neural network model.
  • a part of the basic network is intercepted as a feature extraction network.
  • the feature extraction network is respectively connected to the RPN candidate area network and the discrimination network.
  • the RPN candidate area network is also connected to the discrimination network.
  • the discrimination network finally outputs the result of selecting pedestrians.
  • the feature map output by the convolutional layer 5 of the convolutional layer neural network model is sent to the RPN candidate area network to determine the candidate area. Then, the feature map and the candidate area output by the convolutional layer 5 are sent to the discrimination network at the same time to obtain the candidate frame for locating the pedestrian target.
  • the RPN candidate area network includes 3 Conv layers, 1 Softmax layer, 1 bbox layer, and 1 Proposal layer.
  • the discriminant network input includes 1 ROI Pooling layer, 4 Fc layers, 1 Softmax layer, and 1 bbox layer.
  • the feature map output by the convolutional layer 5 is sent to the RPN candidate area network, and the candidate area is output through the Proposal layer of the RPN candidate area network.
  • the candidate area and the feature map output by the convolutional layer 5 are sent to the discriminant network at the same time, and obtained by the discriminant network recognition Pedestrian targets for positioning.
  • the preprocessing unit 220 is used to perform object extraction, size normalization and color space normalization processing on the image to be detected.
  • object extraction refers to the detection of the contour of the object from the picture to be tested through contour extraction, and corresponding cropping according to the detected contour
  • size normalization refers to the conversion of the size of the cropped target image into a pedestrian detection model The preset uniform size
  • color space normalization refers to the uniform conversion of the color space of the picture after the size is normalized to the uniform color space.
  • the picture detection unit 230 is used to detect the image processed by the preprocessing unit through the pedestrian detection model, and mark the coordinate value and position information of the pedestrian when the pedestrian is detected.
  • the pedestrian detection system based on deep learning may also include:
  • the video disassembly unit is used to disassemble the video to be detected into multiple single frames of image data.
  • the video can be disassembled into multiple single frames through the video disassembly unit Image so that the pedestrian detection model can detect and recognize.
  • the sample uploading unit is used to upload the unidentified images to the online server through the wireless network to expand the pedestrian image data set.
  • the model update unit is used for downloading the pedestrian detection model formed by the online server training with the new image data set through the mobile terminal.
  • the pedestrian detection model can be deployed to an electronic device (for example, an Android mobile terminal), and information can be exchanged with an online server through the electronic device.
  • the mobile terminal can feed back more sample pictures for The server trains and optimizes the pedestrian detection model, and the server can also provide the latest pedestrian detection model for mobile terminals to download and use.
  • an electronic device including a memory and a processor, and computer-readable instructions are stored in the memory.
  • the processor executes the following steps: Pedestrian image data set, and divide the image data set into training images and test images according to a preset ratio; create a convolutional neural network model, and initialize the parameters of the convolutional neural network model through the pre-training model; initialize the training image input
  • the processed convolutional neural network model is trained until the error between the actual output of the convolutional neural network model and the target to be labeled in the training image is less than the preset value, and a pedestrian detection model is formed; the pedestrian detection model is used to test Images are detected and annotated for pedestrians.
  • the process of deploying the pedestrian detection model to the Android mobile terminal includes: persisting the pedestrian detection model trained on the server side, merging the generated files, and saving the variable value as a pb model; then, re-creating the pb model Compile it into a language that can be recognized by the mobile terminal, and transplant it to the mobile terminal to form a pedestrian detection APP.
  • the present application also provides a mobile terminal, including a pedestrian detection system based on deep learning, and a transmission module that connects the pedestrian detection system to the server network.
  • the step of creating a convolutional neural network model executed by the processor includes: creating a basic network of the convolutional neural network model; sending the feature map output by the convolutional layer of the basic network into the RPN candidate area network, Determine the candidate area of the feature map; send the feature map and candidate area output by the convolutional layer into the discrimination network at the same time to obtain the candidate frame for locating the pedestrian target; the candidate frame is used for frame selection and positioning of the pedestrian in the image to be detected.
  • the basic network includes 13 Conv convolutional layers, 4 MaxPool pooling layers, 2 FullConnectedq fully connected layers, and 1 Softmax layer; and the Conv convolutional layer is performed through the pre-training model of the ImageNet dataset. , The network parameters of the MaxPool pooling layer and FullConnectedq fully connected layer are initialized.
  • the RPN candidate area network includes 3 Conv convolutional layers, 1 Softmax layer, 1 bbox layer, and 1 Proposal layer; the discrimination network includes 1 ROI Pooling layer, 4 FullConnectedq fully connected layers, 1 Softmax layer and 1 bbox layer.
  • the processor executes the input of the training image into the initialized convolutional neural network model for training until the error between the actual output of the convolutional neural network model and the target to be labeled in the training image is less than
  • the steps of presetting the value and forming a pedestrian detection model include: propagating the fitting parameters forward and backward to reduce the error between the actual output of the convolutional neural network model and the target to be labeled.
  • the volume The training of the product neural network model is terminated, and a pedestrian detection model is obtained.
  • This application also provides a storage medium storing computer-readable instructions.
  • the one or more processors When the computer-readable instructions are executed by one or more processors, the one or more processors perform the following steps: collecting a pedestrian image data set, and combining the image The data set is divided into training images and test images according to the preset ratio; a convolutional neural network model is created, and the parameters of the convolutional neural network model are initialized through the pre-training model; the training image is input to the initialized convolutional neural network model Training is performed in the CNN model until the error between the actual output of the convolutional neural network model and the target to be labeled in the training image is less than the preset value, and a pedestrian detection model is formed; pedestrian detection and labeling are performed on the test image through the pedestrian detection model.
  • Using the above-mentioned deep learning-based pedestrian detection method, system, device, and storage medium according to the present application can provide users with services in the form of APP, while using the existing hardware and network resources of Android smartphones to achieve real-time and rapid pedestrian detection Detection, low cost and easy to carry.
  • a large number of sample images can be provided for training and updating of the convolutional neural model, thereby improving the accuracy of detection, and making the detection model strong in generalization and diverse in applicable scenarios.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的行人检测方法、系统、装置及存储介质,涉及深度学习技术领域,其中的方法包括:采集行人图像数据集,并将图像数据集按预设比例划分为训练图像和测试图像(S110);创建卷积神经网络模型,并通过预训练模型对卷积神经网络模型的参数进行初始化(S120);将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型(S130);通过行人检测模型对测试图像进行行人检测及标注(S140)。该方法通过深度学习将训练好的模型部署到移动终端,能够实现对行人的灵活检测,通用性强、成本低。

Description

基于深度学习的行人检测方法、系统、装置及存储介质
本申请要求申请号为201910117952.4,申请日为2019年2月15日,发明创造名称为“基于深度学习的行人检测方法、系统、装置及存储介质”的专利申请的优先权。
技术领域
本申请涉及深度学习技术领域,尤其涉及一种基于深度学习的行人检测方法、系统、装置及存储介质。
背景技术
行人检测就是计算机对于给定的图像和视频,判断出其中是否有行人,如果有还需要给出行人的具体位置。行人检测是行人跟踪,行为分析,行人身份识别辅助智能驾驶、智能监控、道路行人分析、客流统计分析、智能机器人等研究的基础和前提,一个好的行人检测算法能够为后者提供有力的支持和保障。
近年来行人检测进入了快速发展阶段,深度学习算法被引入到行人检测中,利用深度学习学到的行人特征具有很强的层次表达能力和很好的鲁棒性,故越来越多地取代传统的诸如手工设计HOG、LBP特征、采用SVM或增强学习等算法而得到实际应用。
目前常用的行人检测方法包括:背景差法、帧差法、光流法、模板匹配法和基于机器学习的方法等。发明人意识到,前述四种方法都是基于图像处理技术的人体检测方法,然而这些方法在面对人体衣着、体形、人体姿势、人体遮挡、光照问题以及复杂背景等方面的问题时,所体现出来的准确率和鲁棒性很差。此外,现有的行人检测系统,还需要使用高清摄像机及相应的网络传输及图像处理单元,导致行人检测系统庞大笨重,便携性差、成本高。
发明内容
本申请提供一种基于深度学习的行人检测方法、系统、装置及存储介质, 以解决目前行人检测系统庞大笨重,便携性差、成本高等问题。
第一方面,本申请提供一种基于深度学习的行人检测方法,应用于电子装置包括:
采集行人图像数据集,并将图像数据集按预设比例划分为训练图像和测试图像;
创建卷积神经网络模型,并通过预训练模型对卷积神经网络模型的参数进行初始化;
将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型;
通过行人检测模型对测试图像进行行人检测及标注。
第二方面,本申请还提供一种基于深度学习的行人检测系统,其特征在于,系统包括:
检测模型创建单元,用于创建行人检测模型;
预处理单元,用于对待检测图像进行对象提取、尺寸归一化和色彩空间归一化处理;
图片检测单元,用于通过行人检测模型对预处理单元处理后的图像进行检测,并在检测到行人时,标注行人的坐标值和位置信息。
第三方面,本申请还提供一种电子装置,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如上基于深度学习的行人检测方法的步骤。
第四方面,本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述基于深度学习的行人检测方法的步骤。
本申请提出的基于深度学习的行人检测方法、系统、装置及存储介质,能够采用深度学习算法,将训练出的模型部署到安卓移动端,并开发出对应的移动app,用户通过智能安卓手机即可方便地对移动端采集到的图像或视频信息实时进行行人检测,并能够联网下载最新的算法模型;此外,用户采集的样本图片还可用于对线上模型进行更新迭代,无需额外的硬件资源,成本低、应用范围广。
附图说明
图1为本申请基于深度学习的行人检测方法的应用环境示意图;
图2为本申请基于深度学习的行人检测方法的流程图;
图3为本申请基于深度学习的行人检测系统的结构框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种基于深度学习的行人检测方法,应用于一种电子装置1。
参照图1所示,为本申请述基于深度学习的行人检测方法较佳实施例的应用环境示意。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备,但并不局限于此。
该电子装置1包括:处理器12、存储器11、网络接口14及通信总线13。
存储器11包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器11,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的基于深度学习的行人检测程序10等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于深度学习的行人检测程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线13用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与触摸传感器的面积相同,也可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子装置的限定,具体的电子装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2示出了本申请实施例的基于深度学习的行人检测方法的流程,该方法可应用于上述的电子装置1中,具体包括以下步骤:
步骤S110:采集行人图像数据集,并将图像数据集按预设比例划分为训 练图像和测试图像。
其中,行人图像数据集可通过收集公开的行人检测图像数据(例如,Caltech行人数据集、TUD行人数据库NICTA数据集、ETH数据集、CVC行人数据集等)和已有的道路卡口监控视频获取。
此外,预设比例范围可控制在7:3至4:1的范围内,优选地预设比例为4:1,在数据量一定时,训练图像和测试图像按照4:1划分能够尽可能多的利用数据训练出泛化性较佳的模型,并科学地评估所创建的网络模型的性能,可通过测试图像评估行人检测的准确率。
步骤S120:创建卷积神经网络模型,并通过预训练模型对卷积神经网络模型的参数进行初始化。
其中,预训练模型是一种深度学习构架,已经过训练用于执行大量数据上的特定任务(例如,识别图片中的分类问题),这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。在谈论预训练模型时,通常指的是在Imagenet上训练的CNN(用于视觉相关任务的架构)。
创建卷积神经网络模型的步骤进一步包括:
S121:创建卷积神经网络模型的基础网络。
S122:将基础网络的卷积层输出的特征图送入RPN候选区域网络,确定特征图的候选区域。
S123:将卷积层输出的特征图和候选区域同时送入判别网络,获取定位行人目标的候选框,候选框用于对待检测图像中的行人进行框选定位。
作为示例,创建的卷积神经网络模型参数包括:20层卷积神经网络,具体为13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层;并通过ImageNet数据集的预训练模型对Conv卷积层、MaxPool池化层及FullConnectedq全连接层的网络参数进行初始化。
卷积神经网络模型结构如下表所示:
大小 输入 输出
Conv1×2 3×3 224×224 224×224
Pool1 2×2 224×224 112×112
Conv2×2 3×3 112×112 112×112
Pool2 2×2 112×112 56×56
Conv3×3 3×3 56×56 56×56
Pool3 2×2 56×56 28×28
Conv4×3 3×3 28×28 28×28
Pool4 2×2 28×28 14×14
Conv5×3 3×3 14×14 14×14
Pool5 2×2 14×14 7×7
Fc6 4096 7×7 4096
Fc7 4096 4096 4096
Softmax 1 4096 1000
步骤S130:将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型。
具体地,将训练图像归一化处理为长宽均为224大小,然后输入两个卷积层Conv1×2(Conv1_1、Conv1_2)中,其卷积核大小均为3×3,输出特征图大小均为224×224,接着将卷积层输出的特征图输入到池化层Pool1中进行池化操作,池化核大小为2×2,输出大小为112×112的特征图,类似的后续的卷积层池化层所做运算均如上表所示,直至Fc6层(FullConnectedq全连接层)输入7×7的特征图,输出长度为4096的向量,Fc7输出输出大小均为4096,Softmax层输出大小为1000。
上述神经网络结构即可作为卷积神经网络模型的基础网络。
截取基础网络的一部分作为特征提取网络,特征提取网络分别与RPN候选区域网络和判别网络连接,同时RPN候选区域网络也与判别网络连接,最终由判别网络输出选定行人后的结果。
具体地,将卷积层神经网络模型的卷积层5输出的特征图送入RPN候选区域网络,确定候选区域。然后,将卷积层5输出的特征图和候选区域同时送入判别网络,得到定位行人目标的候选框。
作为示例,RPN候选区域网络包括3个Conv层,1个Softmax层、1个 bbox层以及1个Proposal层。判别网络输入包括1个ROI Pooling层、4个Fc层、1个Softmax层以及1个bbox层。卷积层5输出的特征图送入RPN候选区域网络,通过RPN候选区域网络的Proposal层输出候选区域,该候选区域与卷积层5输出的特征图同时送入判别网络,通过判别网络识别得到定位的行人目标。
进一步地,RPN是由一个卷积层(256维)、relu、左右两个层(clclayer和reglayer)构成的小网络,应用在滑动窗口区域上,所有的滑动窗口共享RPN,这个卷积层对比普通的卷积层而言,第一:其能够将n×n×channels的输入通过256个n×n大小的卷积核生成1*1*256的featuremap,即最后是256维的特征。第二:它的输入就是滑动窗口n×n对应的特征图区域,经过它卷积后特征图变成1×1。第三:由于此时输出的是1*1*256,所有clslayer和reglayer是用1x1的卷积核进行进一步的特征提取,这里1x1卷积核卷积时,对各个通道都有不同的参数,因为输入又是1x1的图片,所以相当于全连接的功能,相当于把1*1*256展平成256,然后进行全连接。
将训练图像输入卷积神经网络模型进行训练,直至卷积神经网络模型的实际输出与待标注目标图像之间的误差小于预设值,网络训练终止,形成行人检测模型。
其中,将训练图像输入卷积神经网络模型进行训练,通过前向后向传播拟合参数,降低卷积神经网络模型的实际输出与待标注目标之间的误差,当误差小于预设值时,卷积神经网络模型训练终止,并得到行人检测模型。
在上述卷积神经网络模型训练过程中,一次迭代的过程包括:通过反向传播和梯度下降算法来拟合行人目标的检测,通过降低候选框坐标的误差和目标类别(行人、背景)的误差,来达到降低整个卷积神经网络误差的目的,再通过前向传播更新模型中的权重,达到10000次迭代后,训练终止。
步骤S140:通过行人检测模型对测试图像进行行人检测及标注。
与上述基于深度学习的行人检测方法相对应,本申请还提供一种基于深度学习的行人检测系统。
图3示出了根据本申请实施例的基于深度学习的行人检测的结构。
如图3所示,本申请实施例基于深度学习的行人检测系统200主要包括以下几个单元:
1、检测模型创建单元210,用于创建行人检测模型。
检测模型创建单元210进一步包括:
图像数据采集模块211,用于采集行人图像数据集,并将图像数据集按预设比例划分为训练图像和测试图像。
其中,行人图像数据集可通过收集公开的行人检测图像数据(例如,Caltech行人数据集、TUD行人数据库NICTA数据集、ETH数据集、CVC行人数据集等)和已有的道路卡口监控视频获取。
此外,预设比例范围可控制在7:3至4:1的范围内,优选地预设比例为4:1,在数据量一定时,训练图像和测试图像按照4:1划分能够尽可能多的利用数据训练出泛化性较佳的模型,并科学地评估所创建的网络模型的性能,可通过测试图像评估行人检测的准确率。
卷积神经网络模型创建模块212,用于创建卷积神经网络模型,并通过预训练模型对卷积神经网络模型的参数进行初始化。
其中,预训练模型是一种深度学习构架,已经过训练用于执行大量数据上的特定任务(例如,识别图片中的分类问题),这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。在谈论预训练模型时,通常指的是在Imagenet上训练的CNN(用于视觉相关任务的架构)。
卷积神经网络模型创建模块212进一步包括:
基础网络创建模块,用于创建卷积神经网络模型的基础网络。
候选区域确定模块,用于将基础网络的卷积层输出的特征图送入RPN候选区域网络,确定特征图的候选区域。
定位模块,用于将卷积层输出的特征图和候选区域同时送入判别网络,获取定位行人目标的候选框,候选框用于对待检测图像中的行人进行框选定位。
训练模块213,用于将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型。
作为具体示例,创建的卷积神经网络模型参数包括:20层卷积神经网络,具体为13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接 层和1个Softmax层;并通过ImageNet数据集的预训练模型对Conv卷积层、MaxPool池化层及FullConnectedq全连接层的网络参数进行初始化。
将训练图像归一化处理为长宽均为224大小,然后输入两个卷积层Conv1×2(Conv1_1、Conv1_2)中,其卷积核大小均为3×3,输出特征图大小均为224×224,接着将卷积层输出的特征图输入到池化层Pool1中进行池化操作,池化核大小为2×2,输出大小为112×112的特征图,类似的后续的卷积层池化层所做运算均如上表所示,直至Fc6层(FullConnectedq全连接层)输入7×7的特征图,输出长度为4096的向量,Fc7输出输出大小均为4096,Softmax层输出大小为1000。
上述神经网络结构即可作为卷积神经网络模型的基础网络。
截取基础网络的一部分作为特征提取网络,特征提取网络分别与RPN候选区域网络和判别网络连接,同时RPN候选区域网络也与判别网络连接,最终由判别网络输出选定行人后的结果。
具体地,将卷积层神经网络模型的卷积层5输出的特征图送入RPN候选区域网络,确定候选区域。然后,将卷积层5输出的特征图和候选区域同时送入判别网络,得到定位行人目标的候选框。
作为示例,RPN候选区域网络包括3个Conv层,1个Softmax层、1个bbox层以及1个Proposal层。判别网络输入包括1个ROI Pooling层、4个Fc层、1个Softmax层以及1个bbox层。卷积层5输出的特征图送入RPN候选区域网络,通过RPN候选区域网络的Proposal层输出候选区域,该候选区域与卷积层5输出的特征图同时送入判别网络,通过判别网络识别得到定位的行人目标。
2、预处理单元220,用于对待检测图像进行对象提取、尺寸归一化和色彩空间归一化处理。
其中,对象提取是指通过轮廓提取,从待测图片中检测出物体的轮廓,并根据检测出的轮廓进行对应裁剪;尺寸归一化是指将裁剪出的目标图像的尺寸转换为行人检测模型预设的统一尺寸;色彩空间归一化是指将尺寸归一化后的图片的色彩空间统一转换到统一色彩空间中。
3、图片检测单元230,用于通过行人检测模型对预处理单元处理后的图像进行检测,并在检测到行人时,标注行人的坐标值和位置信息。
此外,本申请提供的基于深度学习的行人检测系统还可以包括:
视频拆解单元,用于将待检测的视频拆解为多个单帧图像数据。
例如,在用户使用电子装置进行行人检测时,可采用拍照或者录制视频的方式,当输入系统的待测信息为录制的视频信息时,可通过视频拆解单元将视频拆解为多个单帧图像,以便行人检测模型进行检测识别。
样本上传单元,用于将未识别出的图像通过无线网络上传到线上服务器,以扩充行人图像数据集。
模型更新单元,用于通过移动终端下载线上服务器利用新图像数据集训练形成的行人检测模型。
利用上述基于深度学习的行人检测方法及系统,能够将行人检测模型部署至电子装置(例如,安卓移动终端),并通过电子装置与线上服务器进行信息交互,移动终端能够反馈更多样本图片供服务器训练优化行人检测模型,而服务器也能够提供最新行人检测模型给移动终端下载使用。
在本申请的一个具体实施例中,还提供一种电子装置,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:采集行人图像数据集,并将图像数据集按预设比例划分为训练图像和测试图像;创建卷积神经网络模型,并通过预训练模型对卷积神经网络模型的参数进行初始化;将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型;通过行人检测模型对测试图像进行行人检测及标注。
具体地,将行人检测模型部署至安卓移动终端的过程包括:将服务器端训练的行人检测模型持久化,并对生成的文件进行合并、变量值固定后保存为pb模型;然后,将pb模型重新编译为移动终端可识别的语言,并将其移植部署到移动终端,形成行人检测APP。在用户使用过程中,将拍摄的照片或者录制的视频送入移动终端进行行人检测即可。
作为示例,本申请还提供一种移动终端,包括基于深度学习的行人检测系统,以及实现行人检测系统与服务器网络连接的传输模块。
在一个具体实施方式中,处理器所执行的创建卷积神经网络模型的步骤包括:创建卷积神经网络模型的基础网络;将基础网络的卷积层输出的特征 图送入RPN候选区域网络,确定特征图的候选区域;将卷积层输出的特征图和候选区域同时送入判别网络,获取定位行人目标的候选框;候选框用于对待检测图像中的行人进行框选定位。
在一个具体实施方式中,基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层;并通过ImageNet数据集的预训练模型对Conv卷积层、MaxPool池化层及FullConnectedq全连接层的网络参数进行初始化。
在一个具体实施方式中,RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层;判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
在一个具体实施方式中,处理器执行的将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型的步骤包括:通过前向后向传播拟合参数,降低卷积神经网络模型的实际输出与待标注目标之间的误差,当误差小于预设值时,卷积神经网络模型训练终止,并得到行人检测模型。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:采集行人图像数据集,并将图像数据集按预设比例划分为训练图像和测试图像;创建卷积神经网络模型,并通过预训练模型对卷积神经网络模型的参数进行初始化;将训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至卷积神经网络模型的实际输出与训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型;通过行人检测模型对测试图像进行行人检测及标注。
利用上述根据本申请的基于深度学习的行人检测方法、系统、装置及存储介质,能够以APP的形式向用户提供服务,同时利用安卓智能手机已有的硬件和网络资源,实现对行人的实时快速检测,成本低、携带方便。此外,在大规模应用过程中,可提供海量样本图片供卷积神经模型训练更新,从而提高检测的准确度,并使得检测模型泛化性强、适用场景多样。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于深度学习的行人检测方法,应用于电子装置,其特征在于,所述方法包括:
    采集行人图像数据集,并将所述图像数据集按预设比例划分为训练图像和测试图像;
    创建卷积神经网络模型,并通过预训练模型对所述卷积神经网络模型的参数进行初始化;
    将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型;
    通过所述行人检测模型对所述测试图像进行行人检测及标注。
  2. 根据权利要求1所述的基于深度学习的行人检测方法,其特征在于,所述创建卷积神经网络模型的步骤包括:
    创建所述卷积神经网络模型的基础网络;
    将所述基础网络的卷积层输出的特征图送入RPN候选区域网络,确定所述特征图的候选区域;
    将所述卷积层输出的特征图和所述候选区域同时送入判别网络,获取定位行人目标的候选框;
    所述候选框用于对待检测图像中的行人进行框选定位。
  3. 根据权利要求2所述的基于深度学习的行人检测方法,其特征在于,
    所述基础网络包括交叉设置的卷积层和池化层、与最后一层池化层连接的全连接层,以及与最后一层全连接层连接的输出层。
  4. 根据权利要求3所述的基于深度学习的行人检测方法,其特征在于,
    所述基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层;
    并通过ImageNet数据集的预训练模型对所述Conv卷积层、所述MaxPool池化层及所述FullConnectedq全连接层的网络参数进行初始化。
  5. 根据权利要求4所述的基于深度学习的行人检测方法,其特征在于,所述创建所述卷积神经网络模型的基础网络的步骤包括:
    将所述训练图像输入卷积层,所述卷积层的卷积核大小为3*3,所述卷积层的输出特征图大小为224*224;
    将所述卷积层输出的特征图输入是池化层进行池化处理,所述池化层的池化核大小为2*2,所述池化层的输出特征图的大小为112*112;
    循环执行上述步骤,直至将最后一层池化层的输出特征图输入全连接层,所述全连接层输出长度为4096的向量;
    所述全连接层与所述输出层连接,所述输出层输出大小为1000的向量。
  6. 根据权利要求2所述的基于深度学习的行人检测方法,其特征在于,
    所述RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层;
    所述判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
  7. 根据权利要求2所述的基于深度学习的行人检测方法,其特征在于,
    将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型的步骤包括:
    通过前向后向传播拟合参数,降低所述卷积神经网络模型的实际输出与待标注目标之间的误差,当所述误差小于预设值时,所述卷积神经网络模型训练终止,并得到所述行人检测模型。
  8. 根据权利要求7所述的基于深度学习的行人检测方法,其特征在于,所述通过前向后向传播拟合参数的步骤包括:
    所述拟合参数的一次迭代的过程包括:
    通过反向传播和梯度下降算法来拟合行人目标的检测,以降低所述候选框坐标的误差,以及目标类别的误差;其中,所述目标类别包括行人和背景;
    通过向前传播更新所述卷积神经网络模型中的权重;
    重复迭代过程至预设次数后,训练终止。
  9. 根据权利要求1所述的基于深度学习的行人检测方法,其特征在于,所述方法还包括对所述训练图像进行归一化处理;其中,
    所述归一化处理包括对象提取、尺寸归一化和色彩空间归一化处理;
    所述对象提取是指通过轮廓提取,从所述训练图像中检测出物体的轮廓, 并根据检测出的轮廓进行对应裁剪;
    所述尺寸归一化是指将裁剪出的目标图像的尺寸转换为所述行人检测模型预设的统一尺寸;
    所述色彩空间归一化是指将尺寸归一化后的图片的色彩空间统一转换到统一色彩空间中。
  10. 一种基于深度学习的行人检测系统,其特征在于,所述系统包括:
    检测模型创建单元,用于创建行人检测模型;
    预处理单元,用于对待检测图像进行对象提取、尺寸归一化和色彩空间归一化处理;
    图片检测单元,用于通过行人检测模型对预处理单元处理后的图像进行检测,并在检测到行人时,标注行人的坐标值和位置信息。
  11. 根据权利要求10所述的基于深度学习的行人检测系统,其特征在于,所述系统还包括:
    视频拆解单元,用于将待检测的视频拆解为多个单帧图像数据;
    样本上传单元,用于将未识别出的图像通过无线网络上传到线上服务器,以扩充行人图像数据集;
    模型更新单元,用于通过移动终端下载线上服务器利用新图像数据集训练形成的行人检测模型。
  12. 根据权利要求10所述的基于深度学习的行人检测系统,其特征在于,所述检测模型创建单元包括:
    图像数据采集模块,用于采集行人图像数据集,并将所述图像数据集按预设比例划分为训练图像和测试图像;
    卷积神经网络模型创建模块,用于创建卷积神经网络模型,并通过预训练模型对所述卷积神经网络模型的参数进行初始化;
    训练模块,用于将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型。
  13. 根据权利要求12所述的基于深度学习的行人检测系统,其特征在于,所述卷积神经网络模型创建模块包括:
    基础网络创建模块,用于创建所述卷积神经网络模型的基础网络;
    候选区域确定模块,用于将所述基础网络的卷积层输出的特征图送入RPN候选区域网络,确定所述特征图的候选区域;
    候选框确定模块,用于将所述卷积层输出的特征图和所述候选区域同时送入判别网络,获取定位行人目标的候选框;所述候选框用于对待检测图像中的行人进行框选定位。
  14. 根据权利要求13所述的基于深度学习的行人检测系统,其特征在于,
    所述基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层;
    并通过ImageNet数据集的预训练模型对所述Conv卷积层、所述MaxPool池化层及所述FullConnectedq全连接层的网络参数进行初始化。
  15. 根据权利要求13所述的基于深度学习的行人检测系统,其特征在于,
    所述RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层;
    所述判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
  16. 一种电子装置,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如下所示步骤:
    采集行人图像数据集,并将所述图像数据集按预设比例划分为训练图像和测试图像;
    创建卷积神经网络模型,并通过预训练模型对所述卷积神经网络模型的参数进行初始化;
    将所述训练图像输入初始化处理后的卷积神经网络模型中进行训练,直至所述卷积神经网络模型的实际输出与所述训练图像中的待标注目标之间的误差小于预设值,并形成行人检测模型;
    通过所述行人检测模型对所述测试图像进行行人检测及标注。
  17. 根据权利要求16所述的电子装置,其特征在于,所述创建卷积神经网络模型的步骤包括:
    创建所述卷积神经网络模型的基础网络;
    将所述基础网络的卷积层输出的特征图送入RPN候选区域网络,确定所 述特征图的候选区域;
    将所述卷积层输出的特征图和所述候选区域同时送入判别网络,获取定位行人目标的候选框;
    所述候选框用于对待检测图像中的行人进行框选定位。
  18. 根据权利要求17所述的电子装置,其特征在于,
    所述基础网络包括13个Conv卷积层、4个MaxPool池化层、2个FullConnectedq全连接层和1个Softmax层;
    并通过ImageNet数据集的预训练模型对所述Conv卷积层、所述MaxPool池化层及所述FullConnectedq全连接层的网络参数进行初始化。
  19. 根据权利要求17所述的电子装置,其特征在于,
    所述RPN候选区域网络包括3个Conv卷积层、1个Softmax层、1个bbox层以及1个Proposal层;
    所述判别网络包括1个ROI Pooling层、4个FullConnectedq全连接层、1个Softmax层以及1个bbox层。
  20. 一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至9中任一项权利要求所述基于深度学习的行人检测方法的步骤。
PCT/CN2019/117799 2019-02-15 2019-11-13 基于深度学习的行人检测方法、系统、装置及存储介质 WO2020164270A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910117952.4A CN109961009B (zh) 2019-02-15 2019-02-15 基于深度学习的行人检测方法、系统、装置及存储介质
CN201910117952.4 2019-02-15

Publications (1)

Publication Number Publication Date
WO2020164270A1 true WO2020164270A1 (zh) 2020-08-20

Family

ID=67023811

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117799 WO2020164270A1 (zh) 2019-02-15 2019-11-13 基于深度学习的行人检测方法、系统、装置及存储介质

Country Status (2)

Country Link
CN (1) CN109961009B (zh)
WO (1) WO2020164270A1 (zh)

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951260A (zh) * 2020-08-21 2020-11-17 苏州大学 基于部分特征融合卷积神经网络实时目标计数系统及方法
CN112132279A (zh) * 2020-09-23 2020-12-25 平安科技(深圳)有限公司 卷积神经网络模型压缩方法、装置、设备及存储介质
CN112149535A (zh) * 2020-09-11 2020-12-29 华侨大学 一种结合SegNet和U-Net的车道线检测方法和装置
CN112149665A (zh) * 2020-09-04 2020-12-29 浙江工业大学 一种基于深度学习的高性能多尺度目标检测方法
CN112183397A (zh) * 2020-09-30 2021-01-05 四川弘和通讯有限公司 基于空洞卷积神经网络的坐防护栏行为的识别方法
CN112200218A (zh) * 2020-09-10 2021-01-08 浙江大华技术股份有限公司 一种模型训练方法、装置及电子设备
CN112215336A (zh) * 2020-09-30 2021-01-12 招商局金融科技有限公司 基于用户行为的数据标注方法、装置、设备及存储介质
CN112257774A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 基于联邦学习的目标检测方法、装置、设备及存储介质
CN112270228A (zh) * 2020-10-16 2021-01-26 西安工程大学 一种基于dcca融合特征的行人重识别方法
CN112308212A (zh) * 2020-11-02 2021-02-02 佛山科学技术学院 一种基于神经网络的安防图像高清恢复方法及系统
CN112330550A (zh) * 2020-10-16 2021-02-05 西安工业大学 一种基于图像盲解卷积技术的图像复原方法及系统
CN112329849A (zh) * 2020-11-04 2021-02-05 中冶赛迪重庆信息技术有限公司 基于机器视觉的废钢料场卸料状态识别方法、介质及终端
CN112492343A (zh) * 2020-12-16 2021-03-12 浙江大华技术股份有限公司 一种视频直播监控方法及相关装置
CN112487911A (zh) * 2020-11-24 2021-03-12 中国信息通信科技集团有限公司 智能监控环境下基于改进yolov3的实时行人检测方法及装置
CN112507832A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 监控场景下的犬只检测方法、装置、电子设备和存储介质
CN112597915A (zh) * 2020-12-26 2021-04-02 上海有个机器人有限公司 对室内近距离行人进行识别的方法、装置、介质和机器人
CN112633074A (zh) * 2020-11-30 2021-04-09 浙江大华汽车技术有限公司 行人信息的检测方法和装置、存储介质及电子设备
CN112700435A (zh) * 2021-01-12 2021-04-23 华南理工大学 一种基于深度学习的墙体缺陷检测方法
CN112733920A (zh) * 2020-12-31 2021-04-30 中国地质调查局成都地质调查中心 一种基于深度学习的图像识别方法及系统
CN112966546A (zh) * 2021-01-04 2021-06-15 航天时代飞鸿技术有限公司 一种基于无人机侦察图像的嵌入式姿态估计方法
CN112965081A (zh) * 2021-02-05 2021-06-15 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN112991312A (zh) * 2021-03-29 2021-06-18 中国农业科学院果树研究所 一种基于ai深度学习的梨品种苗木鉴别方法
CN113052039A (zh) * 2021-03-16 2021-06-29 北京邮电大学 一种交通路网行人密度检测的方法、系统及服务器
CN113067980A (zh) * 2021-03-23 2021-07-02 北京澎思科技有限公司 图像采集方法、装置、电子设备及存储介质
CN113128563A (zh) * 2021-03-23 2021-07-16 武汉泰沃滋信息技术有限公司 一种高速工程车辆检测方法、装置、设备及存储介质
CN113160062A (zh) * 2021-05-25 2021-07-23 烟台艾睿光电科技有限公司 一种红外图像目标检测方法、装置、设备及存储介质
CN113156439A (zh) * 2021-05-08 2021-07-23 中国石油大学(华东) 一种基于数据驱动的sar风场海浪联合反演方法及系统
CN113158968A (zh) * 2021-05-10 2021-07-23 苏州大学 一种基于图像处理的嵌入式物体认知系统
CN113297888A (zh) * 2020-09-18 2021-08-24 阿里巴巴集团控股有限公司 一种图像内容检测结果核查方法及装置
CN113435336A (zh) * 2021-06-28 2021-09-24 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
CN113591838A (zh) * 2021-06-28 2021-11-02 北京旷视科技有限公司 目标检测方法、装置、电子设备和存储介质
CN113706496A (zh) * 2021-08-23 2021-11-26 中国飞机强度研究所 一种基于深度学习模型的飞行器结构裂纹检测方法
CN113866571A (zh) * 2021-08-06 2021-12-31 厦门欧易奇机器人有限公司 一种局放源定位方法、装置以及设备
CN113869181A (zh) * 2021-09-24 2021-12-31 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN113989546A (zh) * 2021-10-11 2022-01-28 中冶南方工程技术有限公司 一种基于神经网络的料场皮带运输监控方法
CN114038010A (zh) * 2021-11-05 2022-02-11 熵基科技股份有限公司 一种行人属性识别方法、设备和介质
CN114088405A (zh) * 2021-11-10 2022-02-25 中国人民解放军陆军炮兵防空兵学院 一种基于声谱图的cnn故障诊断模型的发动机故障诊断方法
CN114419330A (zh) * 2022-01-24 2022-04-29 西北大学 一种二维深度假图泛化检测方法、系统、设备及存储介质
CN114445748A (zh) * 2022-01-28 2022-05-06 深圳市中云慧通科技有限公司 一种视频人体特征检测、联动告警方法及存储介质
CN114501329A (zh) * 2021-12-15 2022-05-13 厦门智小金智能科技有限公司 一种基于1d-cnn的室内定位模型的环境自适应训练方法及装置
CN114642413A (zh) * 2020-12-21 2022-06-21 奥泰医疗系统有限责任公司 一种基于深度学习的mri头部3d图像自动扫描定位方法
CN114821288A (zh) * 2021-01-29 2022-07-29 中强光电股份有限公司 图像辨识方法以及无人机系统
CN114882216A (zh) * 2022-04-18 2022-08-09 华南理工大学 一种基于深度学习的服装钉扣质量检测方法、系统及介质
CN114898291A (zh) * 2022-05-17 2022-08-12 国家电网有限公司 一种基于摄像头巡检路径的视觉监测方法
CN115049965A (zh) * 2022-06-29 2022-09-13 深圳市城市公共安全技术研究院有限公司 一种检测模型的训练方法、装置、电子设备及存储介质
CN115424129A (zh) * 2022-10-13 2022-12-02 哈尔滨市科佳通用机电股份有限公司 一种墙板破损的异常检测方法及检测系统
CN115423829A (zh) * 2022-07-29 2022-12-02 江苏省水利科学研究院 一种单波段遥感影像水体快速提取方法及系统
CN115493532A (zh) * 2022-11-07 2022-12-20 西安中科慧远视觉技术有限公司 测量板材表面待测量元素面积的测量系统、方法及介质
CN116704266A (zh) * 2023-07-28 2023-09-05 国网浙江省电力有限公司信息通信分公司 一种电力设备故障检测方法、装置、设备及存储介质
CN116824511A (zh) * 2023-08-03 2023-09-29 行为科技(北京)有限公司 一种基于深度学习和颜色空间的工装识别方法和装置
CN117173448A (zh) * 2023-07-18 2023-12-05 国网湖北省电力有限公司经济技术研究院 一种基建工程进度智能化管控与预警方法及装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961009B (zh) * 2019-02-15 2023-10-31 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测系统
CN110717521B (zh) * 2019-09-09 2024-04-30 中国平安财产保险股份有限公司 智能业务实现方法、装置及计算机可读存储介质
CN111161292B (zh) * 2019-11-21 2023-09-05 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用系统
CN111291632B (zh) * 2020-01-17 2023-07-11 厦门熵基科技有限公司 一种行人状态检测方法、装置以及设备
CN111325105A (zh) * 2020-01-22 2020-06-23 上海眼控科技股份有限公司 目标检测方法、装置、设备和存储介质
CN111368688A (zh) * 2020-02-28 2020-07-03 深圳市商汤科技有限公司 行人监测方法及相关产品
CN111460895B (zh) * 2020-03-03 2023-03-28 广州大学 视觉数据中防护设备的检测方法、装置和存储介质
CN111753625B (zh) * 2020-03-18 2024-04-09 北京沃东天骏信息技术有限公司 一种行人检测方法、装置、设备及介质
CN111598226B (zh) * 2020-05-18 2023-07-25 山东浪潮科学研究院有限公司 一种用于图像识别的卷积网络可视化方法及装置
CN111709451B (zh) * 2020-05-21 2023-10-17 五邑大学 酒瓶表面缺陷检测方法、电子装置及存储介质
CN112052907A (zh) * 2020-09-15 2020-12-08 浙江智慧视频安防创新中心有限公司 基于图像边缘信息的目标检测方法、装置及存储介质
CN112101297B (zh) * 2020-10-14 2023-05-30 杭州海康威视数字技术股份有限公司 训练数据集确定方法、行为分析方法、装置、系统及介质
CN112733589B (zh) * 2020-10-29 2023-01-03 广西科技大学 一种基于深度学习的红外图像行人检测方法
CN112465786A (zh) * 2020-12-01 2021-03-09 平安科技(深圳)有限公司 模型训练方法、数据处理方法、装置、客户端及存储介质
CN112528983B (zh) * 2020-12-16 2023-12-26 国网江苏省电力有限公司检修分公司 一种暗光条件下gis隔离/接地开关视频图像采集系统
CN112949486B (zh) * 2021-03-01 2022-05-17 八维通科技有限公司 基于神经网络的智能交通数据处理方法及装置
CN113139427A (zh) * 2021-03-12 2021-07-20 浙江智慧视频安防创新中心有限公司 基于深度学习的蒸汽管网智能监控方法、系统及设备
CN114170623A (zh) * 2021-11-15 2022-03-11 华侨大学 一种人物交互检测设备及其方法、装置、可读存储介质
CN115482441B (zh) * 2022-11-11 2023-06-23 北京阿丘科技有限公司 训练数据筛选方法、装置及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022237A (zh) * 2016-05-13 2016-10-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法
CN106845430A (zh) * 2017-02-06 2017-06-13 东华大学 基于加速区域卷积神经网络的行人检测与跟踪方法
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
CN107910061A (zh) * 2017-12-01 2018-04-13 中南大学 一种医疗数据处理方法及系统
CN108564109A (zh) * 2018-03-21 2018-09-21 天津大学 一种基于深度学习的遥感图像目标检测方法
CN108596044A (zh) * 2018-04-02 2018-09-28 中国人民解放军陆军工程大学 基于深度卷积神经网络的行人检测方法
CN109961009A (zh) * 2019-02-15 2019-07-02 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664838A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于改进rpn深度网络的端到端的监控场景行人检测方法
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
CN108460407A (zh) * 2018-02-02 2018-08-28 东华大学 一种基于深度学习的行人属性精细化识别方法
CN108805070A (zh) * 2018-06-05 2018-11-13 合肥湛达智能科技有限公司 一种基于嵌入式终端的深度学习行人检测方法
CN109285139A (zh) * 2018-07-23 2019-01-29 同济大学 一种基于深度学习的x射线成像焊缝检测方法
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022237A (zh) * 2016-05-13 2016-10-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
CN106845430A (zh) * 2017-02-06 2017-06-13 东华大学 基于加速区域卷积神经网络的行人检测与跟踪方法
CN107910061A (zh) * 2017-12-01 2018-04-13 中南大学 一种医疗数据处理方法及系统
CN108564109A (zh) * 2018-03-21 2018-09-21 天津大学 一种基于深度学习的遥感图像目标检测方法
CN108596044A (zh) * 2018-04-02 2018-09-28 中国人民解放军陆军工程大学 基于深度卷积神经网络的行人检测方法
CN109961009A (zh) * 2019-02-15 2019-07-02 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951260A (zh) * 2020-08-21 2020-11-17 苏州大学 基于部分特征融合卷积神经网络实时目标计数系统及方法
CN112149665A (zh) * 2020-09-04 2020-12-29 浙江工业大学 一种基于深度学习的高性能多尺度目标检测方法
CN112149665B (zh) * 2020-09-04 2024-05-07 浙江工业大学 一种基于深度学习的高性能多尺度目标检测方法
CN112200218A (zh) * 2020-09-10 2021-01-08 浙江大华技术股份有限公司 一种模型训练方法、装置及电子设备
CN112149535B (zh) * 2020-09-11 2023-06-27 华侨大学 一种结合SegNet和U-Net的车道线检测方法和装置
CN112149535A (zh) * 2020-09-11 2020-12-29 华侨大学 一种结合SegNet和U-Net的车道线检测方法和装置
CN113297888B (zh) * 2020-09-18 2024-06-07 阿里巴巴集团控股有限公司 一种图像内容检测结果核查方法及装置
CN113297888A (zh) * 2020-09-18 2021-08-24 阿里巴巴集团控股有限公司 一种图像内容检测结果核查方法及装置
CN112132279B (zh) * 2020-09-23 2023-09-15 平安科技(深圳)有限公司 卷积神经网络模型压缩方法、装置、设备及存储介质
CN112132279A (zh) * 2020-09-23 2020-12-25 平安科技(深圳)有限公司 卷积神经网络模型压缩方法、装置、设备及存储介质
CN112215336B (zh) * 2020-09-30 2024-02-09 招商局金融科技有限公司 基于用户行为的数据标注方法、装置、设备及存储介质
CN112183397A (zh) * 2020-09-30 2021-01-05 四川弘和通讯有限公司 基于空洞卷积神经网络的坐防护栏行为的识别方法
CN112215336A (zh) * 2020-09-30 2021-01-12 招商局金融科技有限公司 基于用户行为的数据标注方法、装置、设备及存储介质
CN112330550A (zh) * 2020-10-16 2021-02-05 西安工业大学 一种基于图像盲解卷积技术的图像复原方法及系统
CN112270228A (zh) * 2020-10-16 2021-01-26 西安工程大学 一种基于dcca融合特征的行人重识别方法
CN112330550B (zh) * 2020-10-16 2023-08-08 西安工业大学 一种基于图像盲解卷积技术的图像复原方法及系统
CN112257774B (zh) * 2020-10-20 2024-03-15 平安科技(深圳)有限公司 基于联邦学习的目标检测方法、装置、设备及存储介质
CN112257774A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 基于联邦学习的目标检测方法、装置、设备及存储介质
CN112308212A (zh) * 2020-11-02 2021-02-02 佛山科学技术学院 一种基于神经网络的安防图像高清恢复方法及系统
CN112329849A (zh) * 2020-11-04 2021-02-05 中冶赛迪重庆信息技术有限公司 基于机器视觉的废钢料场卸料状态识别方法、介质及终端
CN112487911B (zh) * 2020-11-24 2024-05-24 中国信息通信科技集团有限公司 智能监控环境下基于改进yolov3的实时行人检测方法及装置
CN112487911A (zh) * 2020-11-24 2021-03-12 中国信息通信科技集团有限公司 智能监控环境下基于改进yolov3的实时行人检测方法及装置
CN112633074A (zh) * 2020-11-30 2021-04-09 浙江大华汽车技术有限公司 行人信息的检测方法和装置、存储介质及电子设备
CN112633074B (zh) * 2020-11-30 2024-01-30 浙江华锐捷技术有限公司 行人信息的检测方法和装置、存储介质及电子设备
CN112507832A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 监控场景下的犬只检测方法、装置、电子设备和存储介质
CN112492343B (zh) * 2020-12-16 2023-11-10 浙江大华技术股份有限公司 一种视频直播监控方法及相关装置
CN112492343A (zh) * 2020-12-16 2021-03-12 浙江大华技术股份有限公司 一种视频直播监控方法及相关装置
CN114642413A (zh) * 2020-12-21 2022-06-21 奥泰医疗系统有限责任公司 一种基于深度学习的mri头部3d图像自动扫描定位方法
CN112597915B (zh) * 2020-12-26 2024-04-09 上海有个机器人有限公司 对室内近距离行人进行识别的方法、装置、介质和机器人
CN112597915A (zh) * 2020-12-26 2021-04-02 上海有个机器人有限公司 对室内近距离行人进行识别的方法、装置、介质和机器人
CN112733920A (zh) * 2020-12-31 2021-04-30 中国地质调查局成都地质调查中心 一种基于深度学习的图像识别方法及系统
CN112966546A (zh) * 2021-01-04 2021-06-15 航天时代飞鸿技术有限公司 一种基于无人机侦察图像的嵌入式姿态估计方法
CN112700435A (zh) * 2021-01-12 2021-04-23 华南理工大学 一种基于深度学习的墙体缺陷检测方法
CN112700435B (zh) * 2021-01-12 2023-04-07 华南理工大学 一种基于深度学习的墙体缺陷检测方法
CN114821288A (zh) * 2021-01-29 2022-07-29 中强光电股份有限公司 图像辨识方法以及无人机系统
CN112965081A (zh) * 2021-02-05 2021-06-15 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN112965081B (zh) * 2021-02-05 2023-08-01 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN113052039A (zh) * 2021-03-16 2021-06-29 北京邮电大学 一种交通路网行人密度检测的方法、系统及服务器
CN113128563A (zh) * 2021-03-23 2021-07-16 武汉泰沃滋信息技术有限公司 一种高速工程车辆检测方法、装置、设备及存储介质
CN113128563B (zh) * 2021-03-23 2023-11-17 武汉泰沃滋信息技术有限公司 一种高速工程车辆检测方法、装置、设备及存储介质
CN113067980A (zh) * 2021-03-23 2021-07-02 北京澎思科技有限公司 图像采集方法、装置、电子设备及存储介质
CN112991312A (zh) * 2021-03-29 2021-06-18 中国农业科学院果树研究所 一种基于ai深度学习的梨品种苗木鉴别方法
CN112991312B (zh) * 2021-03-29 2023-11-07 中国农业科学院果树研究所 一种基于ai深度学习的梨品种苗木鉴别方法
CN113156439B (zh) * 2021-05-08 2022-08-30 中国石油大学(华东) 一种基于数据驱动的sar风场海浪联合反演方法及系统
CN113156439A (zh) * 2021-05-08 2021-07-23 中国石油大学(华东) 一种基于数据驱动的sar风场海浪联合反演方法及系统
CN113158968A (zh) * 2021-05-10 2021-07-23 苏州大学 一种基于图像处理的嵌入式物体认知系统
CN113160062A (zh) * 2021-05-25 2021-07-23 烟台艾睿光电科技有限公司 一种红外图像目标检测方法、装置、设备及存储介质
CN113591838A (zh) * 2021-06-28 2021-11-02 北京旷视科技有限公司 目标检测方法、装置、电子设备和存储介质
CN113435336B (zh) * 2021-06-28 2022-10-04 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
CN113435336A (zh) * 2021-06-28 2021-09-24 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
CN113591838B (zh) * 2021-06-28 2023-08-29 北京旷视科技有限公司 目标检测方法、装置、电子设备和存储介质
CN113866571A (zh) * 2021-08-06 2021-12-31 厦门欧易奇机器人有限公司 一种局放源定位方法、装置以及设备
CN113706496B (zh) * 2021-08-23 2024-04-12 中国飞机强度研究所 一种基于深度学习模型的飞行器结构裂纹检测方法
CN113706496A (zh) * 2021-08-23 2021-11-26 中国飞机强度研究所 一种基于深度学习模型的飞行器结构裂纹检测方法
CN113869181B (zh) * 2021-09-24 2023-05-02 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN113869181A (zh) * 2021-09-24 2021-12-31 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN113989546A (zh) * 2021-10-11 2022-01-28 中冶南方工程技术有限公司 一种基于神经网络的料场皮带运输监控方法
CN114038010B (zh) * 2021-11-05 2024-05-07 熵基科技股份有限公司 一种行人属性识别方法、设备和介质
CN114038010A (zh) * 2021-11-05 2022-02-11 熵基科技股份有限公司 一种行人属性识别方法、设备和介质
CN114088405A (zh) * 2021-11-10 2022-02-25 中国人民解放军陆军炮兵防空兵学院 一种基于声谱图的cnn故障诊断模型的发动机故障诊断方法
CN114501329A (zh) * 2021-12-15 2022-05-13 厦门智小金智能科技有限公司 一种基于1d-cnn的室内定位模型的环境自适应训练方法及装置
CN114419330B (zh) * 2022-01-24 2024-02-09 西北大学 一种二维深度假图泛化检测方法、系统、设备及存储介质
CN114419330A (zh) * 2022-01-24 2022-04-29 西北大学 一种二维深度假图泛化检测方法、系统、设备及存储介质
CN114445748A (zh) * 2022-01-28 2022-05-06 深圳市中云慧通科技有限公司 一种视频人体特征检测、联动告警方法及存储介质
CN114882216A (zh) * 2022-04-18 2022-08-09 华南理工大学 一种基于深度学习的服装钉扣质量检测方法、系统及介质
CN114882216B (zh) * 2022-04-18 2024-04-30 华南理工大学 一种基于深度学习的服装钉扣质量检测方法、系统及介质
CN114898291A (zh) * 2022-05-17 2022-08-12 国家电网有限公司 一种基于摄像头巡检路径的视觉监测方法
CN114898291B (zh) * 2022-05-17 2024-02-20 国家电网有限公司 一种基于摄像头巡检路径的视觉监测方法
CN115049965A (zh) * 2022-06-29 2022-09-13 深圳市城市公共安全技术研究院有限公司 一种检测模型的训练方法、装置、电子设备及存储介质
CN115423829A (zh) * 2022-07-29 2022-12-02 江苏省水利科学研究院 一种单波段遥感影像水体快速提取方法及系统
CN115423829B (zh) * 2022-07-29 2024-03-01 江苏省水利科学研究院 一种单波段遥感影像水体快速提取方法及系统
CN115424129A (zh) * 2022-10-13 2022-12-02 哈尔滨市科佳通用机电股份有限公司 一种墙板破损的异常检测方法及检测系统
CN115424129B (zh) * 2022-10-13 2023-08-11 哈尔滨市科佳通用机电股份有限公司 一种墙板破损的异常检测方法及检测系统
CN115493532B (zh) * 2022-11-07 2023-02-28 西安中科慧远视觉技术有限公司 测量板材表面待测量元素面积的测量系统、方法及介质
CN115493532A (zh) * 2022-11-07 2022-12-20 西安中科慧远视觉技术有限公司 测量板材表面待测量元素面积的测量系统、方法及介质
CN117173448A (zh) * 2023-07-18 2023-12-05 国网湖北省电力有限公司经济技术研究院 一种基建工程进度智能化管控与预警方法及装置
CN117173448B (zh) * 2023-07-18 2024-05-24 国网湖北省电力有限公司经济技术研究院 一种基建工程进度智能化管控与预警方法及装置
CN116704266B (zh) * 2023-07-28 2023-10-31 国网浙江省电力有限公司信息通信分公司 一种电力设备故障检测方法、装置、设备及存储介质
CN116704266A (zh) * 2023-07-28 2023-09-05 国网浙江省电力有限公司信息通信分公司 一种电力设备故障检测方法、装置、设备及存储介质
CN116824511A (zh) * 2023-08-03 2023-09-29 行为科技(北京)有限公司 一种基于深度学习和颜色空间的工装识别方法和装置

Also Published As

Publication number Publication date
CN109961009B (zh) 2023-10-31
CN109961009A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
WO2020164270A1 (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
WO2021238281A1 (zh) 一种神经网络的训练方法、图像分类系统及相关设备
US10366313B2 (en) Activation layers for deep learning networks
CN109284733B (zh) 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法
WO2021227726A1 (zh) 面部检测、图像检测神经网络训练方法、装置和设备
CN109002766B (zh) 一种表情识别方法及装置
WO2019205391A1 (zh) 车辆损伤分类模型的生成装置、方法及计算机可读存储介质
WO2017020514A1 (zh) 图片场景判定方法、装置以及服务器
WO2021259393A2 (zh) 图像处理方法及装置、电子设备
WO2018021942A2 (ru) Распознавание лиц с помощью искусственной нейронной сети
WO2021012494A1 (zh) 基于深度学习的人脸识别方法、装置及计算机可读存储介质
WO2019033571A1 (zh) 面部特征点检测方法、装置及存储介质
US11816149B2 (en) Electronic device and control method thereof
KR20180104609A (ko) 다수의 이미지 일치성을 바탕으로 보험클레임 사기 방지를 실현하는 방법, 시스템, 기기 및 판독 가능 저장매체
WO2019033569A1 (zh) 眼球动作分析方法、装置及存储介质
WO2021238548A1 (zh) 区域识别方法、装置、设备及可读存储介质
WO2021104125A1 (zh) 禽蛋异常的识别方法、装置及系统、存储介质、电子装置
WO2022001106A1 (zh) 关键点检测方法、装置、电子设备及存储介质
WO2019033570A1 (zh) 嘴唇动作分析方法、装置及存储介质
US10650234B2 (en) Eyeball movement capturing method and device, and storage medium
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN111931859B (zh) 一种多标签图像识别方法和装置
WO2019033568A1 (zh) 嘴唇动作捕捉方法、装置及存储介质
WO2022042120A1 (zh) 目标图像提取方法、神经网络训练方法及装置
WO2021031704A1 (zh) 对象追踪方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19915373

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19915373

Country of ref document: EP

Kind code of ref document: A1