WO2019169816A1 - 一种用于精细化识别车辆属性的深度神经网络及训练方法 - Google Patents

一种用于精细化识别车辆属性的深度神经网络及训练方法 Download PDF

Info

Publication number
WO2019169816A1
WO2019169816A1 PCT/CN2018/095060 CN2018095060W WO2019169816A1 WO 2019169816 A1 WO2019169816 A1 WO 2019169816A1 CN 2018095060 W CN2018095060 W CN 2018095060W WO 2019169816 A1 WO2019169816 A1 WO 2019169816A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
feature
branch
recognition
vehicle
Prior art date
Application number
PCT/CN2018/095060
Other languages
English (en)
French (fr)
Inventor
林倞
周启贤
吴文熙
陈日全
王青
Original Assignee
中山大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中山大学 filed Critical 中山大学
Publication of WO2019169816A1 publication Critical patent/WO2019169816A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the present invention relates to the field of computer vision and pattern recognition technology, and in particular to a deep neural network for finely identifying vehicle attributes and a training method thereof.
  • Vehicle refinement attribute recognition technology is a basic technology in the field of intelligent traffic security. Identifying vehicle attributes can improve the computer's understanding of the target vehicle and help solve some of the more difficult problems in the field of traffic security, such as automatic vehicle retrieval and vehicle re-identification. .
  • Vehicle attribute recognition is a classic problem in computer vision and pattern recognition.
  • the identified vehicle attributes generally include the color of the vehicle, the type of vehicle, the brand manufacturer of the vehicle, etc.
  • the scenes of technical application are generally used in road imaging to identify the fineness of passing vehicles. Attributes, labeling vehicles.
  • the key technology to solve such problems is the image recognition classification algorithm.
  • the difficulty lies in the influence of illumination, scale and occlusion on the recognition accuracy.
  • the vehicle attribute recognition technology adopted in the early stage is mainly based on manual features and machine learning classifiers. The effect is better.
  • Scale-invariant features (SIFT features) and direction gradient histogram features (HOG) are used as manual features.
  • the framework and support vector machine (SVM) solve the vehicle attribute classification problem and separately model different attributes.
  • SVM support vector machine
  • the method is that the characteristics of the deep network output can be learned.
  • the learned features are far superior to the manual features, so that the classification is performed by the classifier, and the effect is better than the traditional manual features plus the classifier.
  • the deep learning method has strong learning ability. As long as the training data involves various complex scenes (light, scale, occlusion), the model can show excellent performance in these complex scenes.
  • Chinese Patent Application Publication No. 105678275A discloses a vehicle identification method which first preprocesses picture data, calculates an average vector of all pictures, and then calculates a difference between a vector formed by each training sample picture and the average vector. Then calculating a covariance matrix of the training sample picture, obtaining feature vectors and eigenvalues according to the covariance matrix and arranging them in order, extracting feature vectors by principal component analysis (PCA), and finally using a BP neural network as a BP neural network Classifier.
  • PCA principal component analysis
  • 105787466A discloses a method and system for finely identifying a vehicle type, which performs grayscale and normalization processing on the acquired original vehicle image; calculates a gradient and direction of each pixel of the normalized image; The gradient and direction of the normalized image are subjected to directional gradient histogram feature extraction and local linear constraint coding to obtain the coding vector of the normalized image. According to the obtained coding vector, the weighted space pyramid is used to process the normalized image after local linear constraint coding. The final expression vector of the vehicle image is finally classified by car type using an SVM.
  • the Chinese Patent Application Publication No. 102737221B provides a method and device for identifying a vehicle color, which locates a reference area of vehicle color recognition according to texture and structure information of an image, and then performs identification of the main identification area and the auxiliary recognition area. The result weighted voting of the recognition area and the auxiliary recognition area results in the final color recognition.
  • the Chinese patent application with the publication number 103544480A provides a vehicle color recognition method, which first divides the vehicle into a color car and a black and white silver gray car by counting the characteristic parameters such as the reference region saturation; if the judgment result is a color car, The color area is separated and the area is color-recognized; if the result is a black-and-white silver-gray car, the reference area is segmented, and the color of the vehicle is determined by voting.
  • the Chinese patent application with the publication number 106203420A provides a method for color recognition of a bayonet vehicle, which uses a deep convolutional neural network, but does not input a complete car picture, the input is a color recognition region of interest, and the output is a feature. Vector, then classify the vector with SVM or softmax.
  • the Chinese patent application with the publication No. 103500327A provides a vehicle type identification method for the same brand vehicle based on the spatial position information, which first locates the license plate position, extracts the characteristic regions of the N test vehicles relative to the position of the license plate, and calculates each feature region.
  • the feature vector is used as a classification. This method can help to avoid some redundant information and improve the classification accuracy because of the help of the license plate position.
  • the Chinese Patent Application Publication No. 105930812A provides a vehicle brand type recognition method based on a fusion feature sparse coding model, which considers traditional features such as Curvelet transform, HOG feature, PHOG feature, Harr feature, EOH feature, Gabor wavelet, etc.
  • the Chinese patent application with the publication number 105488517A provides a vehicle brand model identification method based on deep learning. More than 20 million captured pictures are prepared by using high-end card slot points of different cities, and are manually screened according to the brand model of the vehicle. Divided into more than 3,000 categories, the establishment of a rich database of vehicle brand model images covering various conditions. Then, using the license plate recognition technology to accurately locate the license plate position in the bayonet picture, accurately estimate the car face area according to the license plate position information, and normalize the car face area. They designed a convolutional neural network with four convolutional layers and two fully connected layers to extract the characteristics of the batch of data, and then use SVM as a classifier.
  • the above-mentioned Chinese Patent Application Publication Nos. 105678275A, 105787466A, 103500327A, 105930812A mainly use some statistical and low-level features on the gradient to characterize the type of vehicle, and do not use high-level semantic features; the publication numbers are 105678275A, 105787466A,
  • the Chinese patent applications of 102737221B and 103544480A have data pre-processing or post-processing steps, but the process is cumbersome;
  • the Chinese patent application with the publication number 105488517A is a method for brand identification of big data vehicles, which uses deep learning technology, but its depth.
  • the network is too simple, with only four convolutional layers and two fully connected layers, and the identifiable vehicle has a single viewing angle, limited to the brand recognition of the vehicle image on the front of the vehicle.
  • the present invention provides a deep neural network for refining the identification of vehicle attributes, including:
  • a depth residual network for extracting features of the input picture to obtain a feature map, and the extracted features are shared by multiple attribute recognition tasks
  • the feature migration layer includes a plurality of feature migration units for identifying, for each attribute, a task migration shared feature to make it more suitable for a specific task;
  • a plurality of loss calculation units respectively corresponding to each attribute recognition task branch are respectively connected to each full connection layer for calculating the loss using the cross entropy as a loss function of the multi-classifier, and returning the loss through the stochastic gradient descent optimization algorithm after the loss calculation , update the parameters.
  • the deep neural network further comprises a plurality of bilinear pooling units connected to the feature migration layer for obtaining a more discriminative feature vector to access the fully connected layer using a bilinear pooling operation.
  • the common deep network image classification algorithm is used to access a fully connected layer, and output a 1-D probability vector, and the length is classified. The number of categories.
  • the brand/sub-brand recognition task using a compressed bilinear pooling operation, inputting a feature map, outputting a more discriminative one-dimensional feature vector, and then transferring the feature vector with a fully connected layer A probability vector whose length is the number of classification categories.
  • each feature migration unit includes a plurality of convolutional layers, each convolutional layer employing a convolution kernel to migrate the shared features to more adapt to a particular task.
  • each feature migration unit comprises two convolutional layers, each convolutional layer employing a 1*1 convolution kernel.
  • the present invention also provides a training method for refining a deep neural network for identifying vehicle attributes, comprising the following steps:
  • Step one training a classification branch of a certain attribute identification task and a shared convolution layer by using a data set to obtain a pre-training model with better discriminability;
  • Step 2 using the pre-training model, fixing the shared convolution layer, and training each branch with a larger learning rate using different data sets;
  • Step 3 Integrate all non-uniform data sets into one large mixed data set, and jointly train all recognition tasks with a small learning rate to optimize all parameters of the neural network.
  • step 1 the sub-brand classification branch and the shared convolution layer are trained by using the data set to obtain a pre-training model with better discriminability.
  • the color classification branch, the vehicle type classification branch, the perspective classification branch, and the brand branch are trained using other inconsistent data sets.
  • the default attribute is replaced with a label that does not participate in the computational loss.
  • the present invention provides a deep neural network for refining the attributes of a vehicle and a training method thereof, which realizes the purpose of simultaneously identifying a plurality of refined vehicle attributes using only one neural network, and is not limited.
  • the multi-attribute identification branch of the present invention shares the same feature, and does not need to extract features for each recognition task using a neural network, saving calculation and improving recognition time; the present invention introduces a feature migration layer to identify each attribute.
  • the branch can make full use of the shared feature, improve the accuracy of the single branch without affecting the recognition effect of other branches; the invention supports end-to-end training, and the framework is simple and elegant; the invention supports training on non-uniform data sets, and supports the default.
  • the data training of the attribute has strong applicability; the multiple attribute recognition tasks of the present invention play a mutually reinforcing role in multi-task coordination training, and improve the accuracy of each branch.
  • FIG. 1 is a system architecture diagram of a deep neural network for refining the attributes of a vehicle according to the present invention
  • FIG. 2 is a flow chart showing the steps of a training method for a deep neural network for refining the attributes of a vehicle according to the present invention
  • FIG. 3 is an example of a data set A picture of a specific embodiment of the present invention.
  • FIG. 4 is an example of a BCD picture of a data set in accordance with an embodiment of the present invention.
  • FIG. 1 is a system architecture diagram of a deep neural network for refining the attributes of a vehicle according to the present invention.
  • the present invention is a deep neural network for refining the attributes of a vehicle, including:
  • the depth residual network 101 is configured to perform feature extraction on the input picture to obtain a feature map, and the extracted features are shared by multiple attribute recognition tasks.
  • the input picture is kept to have an aspect ratio of 512, and the shortest side is 512, randomly flipped, and a sub-picture of 448*448 is randomly taken out and input into the 101-layer deep residual network 101, and the depth residual is obtained.
  • the network 101 will downsample the input picture by a factor of 32 to obtain a feature map of 14*14 with a channel number of 2048.
  • the feature migration layer 102 includes a plurality of feature migration units for identifying, for each attribute identification task, a shared feature to make it more suitable for a specific task.
  • each feature migration unit corresponds to one attribute identification task
  • each feature migration unit includes a plurality of convolution layers (in the embodiment of the present invention, including two convolution layers), each convolution layer adopts 1 *1 Convolution kernel to migrate shared features to make it more responsive to specific tasks.
  • the plurality of attribute recognition tasks include brand identification, sub-brand identification, vehicle type identification, perspective recognition, and color recognition, but the invention is not limited thereto.
  • the feature map obtained by the depth residual network 101 is an input of five different attribute recognition tasks, respectively.
  • the present invention adds two convolutional layers composed of 1*1 convolution kernels to feature migration of the shared features for generation.
  • the 1*1 convolution kernel only re-weights the values of the different channels at each position, and the different positions do not affect each other, and the original feature map is not downsampled. 14*14 resolution.
  • a plurality of bilinear pooling units 103 coupled to the feature migration layer 102, are used to obtain discriminative feature vectors using bilinear pooling operations to accommodate fine grain identification tasks for brand and sub-brand recognition.
  • a plurality of fully connected layers 104 are connected to the feature migration layer 102 or the bilinear pooling unit 103 to obtain feature vectors corresponding to the respective attribute recognition tasks.
  • the feature vector is obtained by using the fully connected layer 104 for the recognition task of the vehicle type, the viewing angle, the color, etc., and the fine-grained identification task such as the brand and the sub-brand identification is first passed through the bilinear pooling unit 103 and then through the fully connected layer. 104 obtains a feature vector.
  • the plurality of loss calculation units 105 respectively identify the task branches, and connect the respective fully connected layers 104 for calculating the loss by using the softmax cross entropy as a loss function, and returning the loss by the random gradient descent optimization algorithm after the loss calculation. , update the parameters.
  • Softmax cross entropy loss is calculated as follows: Softmax cross entropy loss is calculated in two steps, first calculating the softmax function of the probability vector, and then calculating the cross entropy loss. It is assumed here that z is the probability vector of the input calculation loss, and f(z) is the output of softmax, then:
  • y is the real category of the sample corresponding to z, and its loss function is defined as:
  • the gradient calculated by the above formula is returned by the backward propagation algorithm, and the weights and offset values of each neuron are updated in steps.
  • the principle of the backward propagation algorithm is to use the chain-like rule of derivative numbers to step forward from the loss function step by step until the weight of each neuron in the neural network and the gradient of the offset function, ie the derivative, are obtained.
  • the training parameters can then be updated in steps along the gradient direction at the learning rate, as follows:
  • is the learning rate
  • w is the neuron weight
  • b is the neuron bias
  • the invention uses a general deep network image classification algorithm, accesses a fully connected layer 104, and outputs a 1-D (The one-dimensional probability vector, the length is the number of categories of classification (the number of classification categories here is determined by the task. For example, the model needs to identify 10 colors, 12 vehicle types, 5 perspectives, 100 brands, 300 sub-brands.
  • the number of classification categories of the color classification branch is 10
  • the number of classification categories of the vehicle type is 12
  • the number of classification categories of the perspective is 5
  • the number of classification categories of the brand is 100
  • the number of classification categories of the sub-brand is 300
  • crossover with softmax The entropy function is used as a loss function to calculate the predicted category and the supervised information given.
  • the stochastic gradient descent optimization algorithm is used to return the loss and update the parameters.
  • the task is characterized by the inter-class gap ratio.
  • the intra-class gap is small, and the recognition accuracy using the general image classification algorithm is not ideal.
  • the present invention uses a compressed bilinear pooling operation to lose Enter a feature map of 2048*14*14, output a discriminative strong 1-D feature vector with a length of 32768, and then use a fully connected layer to convert this feature vector into a probability vector with the length of the classification category, using softmax Cross entropy is used as a loss function to calculate the loss and update the parameters by random gradient descent.
  • FIG. 2 is a flow chart showing the steps of a training method for a deep neural network for refining the attributes of a vehicle according to the present invention.
  • the present invention provides a training method for refining a deep neural network for identifying vehicle attributes, including the following steps:
  • Step S201 using a data set to train a classification branch of a certain attribute recognition task and a shared convolution layer to obtain a pre-training model with better discriminativeness.
  • the invention supports training on non-uniform data sets.
  • non-uniform data often occurs, that is, some data has only certain categories of labels, but some categories of labels are missing, such as data set A only color and car.
  • Type tags data set B has a view and a label for the brand sub-brand.
  • the method of the invention can be trained on these data sets, and each branch task can achieve good effects. For example, using the data set B to train the sub-brand classification branch and the shared convolution layer, the pre-training with better discriminantness is obtained.
  • the model because the sub-brand has the widest classification category, and has the best ability to generalize to other tasks, using this model as a follow-up pre-training model.
  • the specific method is: shielding color, car type, viewing angle, brand classification branch, training the sub-brand classification branch parameters and sharing network parameters separately, until the best effect is achieved in the sub-brand classification task.
  • step S202 the pre-training model is used to fix the shared convolution layer, and each branch is trained with a larger learning rate using different data sets.
  • a larger learning rate refers to between 0.01 and 0.001
  • the training process is a parameter of a fixed shared layer and other unrelated other branch layers, and only the parameters of the branch portion are trained.
  • Step S203 integrating all non-uniform data sets into one large mixed data set, and jointly training all the recognition tasks with a small learning rate, optimizing all parameters of the neural network, and using one for the default attributes. Replace the tag that is involved in calculating the loss, such as 255.
  • the smaller learning rate here refers to between 0.001 and 0.0001, which trains all parameters of the entire network.
  • Embodiment 1 The implementation method of the VGG16-based multi-vehicle refined attribute recognition method includes four stages of data preparation, environment configuration, model training and model testing.
  • non-uniform data training is performed on several different data sets: data set A has 160,000 pictures, the attributes of the labels are car type, brand, sub-brand; data set B has 25,000 monitoring views. Car pictures, marked attributes include car type, brand, sub-brand; data set C has 15,000 views of the car image, the marked attributes have color; data set D has 26,000 views of the viewing angle picture, the attributes of the annotation have perspective.
  • Data set A is a high-definition car picture, as shown in Figure 3
  • the data set BCD is a surveillance view car picture, as shown in Figure 4.
  • This embodiment is based on the deep learning framework Caffe development, and the experimental environment needs to be configured according to the Caffe official website tutorial.
  • the key dependencies are: CUDA 8.0, CUDNN V5, OpenCV 2.4.9, Python 2.7.2.
  • model training step is divided into two parts. First, each branch is separately trained, and then joint fine-tuning is performed, and multiple non-uniform data sets are used to participate in the training.
  • the input data is randomly flipped horizontally, then the aspect ratio is scaled down, and the shortest side is 512. Finally, the random crop is out of the 448*448 subgraph, minus the grayscale mean of each color channel, and input into the network.
  • the specific method is: suppose the picture is high at h and w is wide. Each time in the range of [0, w-448) and [0, h-448), the integers x and y are randomly taken and taken out on this picture. The starting point of the upper left corner is (x, y), and the coordinates of the end point of the lower right corner are (x+448, y+448).
  • the model structure is as shown in FIG. 1, in which the VGG16 network is used to replace the deep residual network, the last pooled layer of VGG16 is removed, and the feature of conv5_3 is extracted and input into each attribute identification branch.
  • Each attribute recognition branch has two feature migration layers in front to filter the shared features, and obtain the special features to achieve the task.
  • the feature migration layer is composed of a convolutional layer of 1*1 convolution kernel, and the number of channels and inputs are output. The number of channels is the same.
  • the task is connected to a fully connected layer, and a 1-D probability vector is output, and the length is the number of categories of the classification. Then use the softmax cross entropy function as the loss function.
  • a compressed bilinear pooling operation is used, a 512*28*28 feature map is input, and a discriminating line extremely strong 1-D eigenvector is output with a length of 8192. Then use a fully connected layer to transform this feature vector into a probability vector whose length is the number of classification categories, using softmax cross entropy as the loss function.
  • the sub-brand classification branch and the shared convolution layer are trained by the large data set A with large data volume, and the pre-training model with better discriminantness is obtained.
  • the pre-training model is then used to hold the shared convolutional layer and train each branch with a different data set.
  • the data classification B is used to train the brand classification branch, the training sub-brand classification branch, and the training vehicle type classification branch. Train the color classification branch with data set C. Classify branches using the data set D training perspective.
  • the method handled here is to label the default attribute as a label that is ignored when calculating the loss. For example, suppose that the label of 255 is ignored in the calculation of cross entropy loss, that is, the loss is not calculated for the category with label 255, and the gradient is not returned. .
  • the model testing process includes three parts: data input processing, model prediction, and result output.
  • Input processing uses multiple cropping methods to improve the accuracy of model prediction. Keep the aspect ratio of the image to be tested, and zoom to the shortest side of 512. In the upper left corner, the lower left corner, the upper right corner, and the lower right corner of the 512*x image, a 448*448 subgraph is cropped in the middle. The 512*x picture is flipped horizontally, and in the upper left corner, the lower left corner, the upper right corner, and the lower right corner, a subgraph of 448*448 is cropped in the middle. A total of 10 sub-graphs of 448*448 are generated here, which are combined into a batch and entered into the network.
  • Embodiment 2 The implementation of the ResNet-101-based multi-vehicle refined attribute recognition method includes four stages of data preparation, environment configuration, model training and model testing:
  • the present invention performs non-uniform data training on several different data sets.
  • the attributes marked include car type, brand and sub-brand.
  • Data set B has 25,000 car pictures with monitoring angles.
  • the attributes marked are car type, brand, sub-brand;
  • data set C has 15000.
  • Zhang monitors the view of the car picture, the attributes of the mark have color;
  • the data set D has 26,000 views of the view angle, and the attributes of the mark have a view angle.
  • Data set A is a high-definition car picture, as shown in Figure 3
  • the data set BCD is a surveillance view car picture, as shown in Figure 4.
  • This embodiment is based on the deep learning framework Caffe development, and the experimental environment needs to be configured according to the Caffe official website tutorial.
  • the key dependencies are: CUDA 8.0, CUDNN V5, OpenCV 2.4.9, Python 2.7.2.
  • the model training step of this embodiment is divided into two parts. First, each branch is separately trained, and then joint fine-tuning is performed, and multiple non-uniform data sets are used to participate in the training.
  • the input data is randomly flipped horizontally, then the aspect ratio is scaled down, and the shortest side is 512. Finally, the random crop is out of the 448*448 subgraph, minus the grayscale mean of each color channel, and input into the network.
  • the specific method is: suppose the picture is high at h and w is wide. Each time in the range of [0, w-448) and [0, h-448), the integers x and y are randomly taken and taken out on this picture. The starting point of the upper left corner is (x, y), and the coordinates of the end point of the lower right corner are (x+448, y+448).
  • the model structure is as shown in FIG. 1. All the attribute classification branches share the 101-layer deep residual network, and the feature of the res5c is extracted and input into each attribute identification branch.
  • Each attribute recognition branch has two feature migration layers in front to filter the shared features, and obtain the special features for this task.
  • the feature migration layer is composed of a convolutional layer of 1*1 convolution kernel, and the number of channels and inputs are output. The number of channels is the same.
  • the task is connected to a fully connected layer, and a 1-D probability vector is output, and the length is the number of categories of the classification. Then use the softmax cross entropy function as the loss function.
  • a compressed bilinear pooling operation is used, and a feature map of 2048*14*14 is input, and a strong 1-D feature vector of the discriminant line is output, and the length is 32768. Then use a fully connected layer to transform this feature vector into a probability vector whose length is the number of classification categories, using softmax cross entropy as the loss function.
  • the sub-brand classification branch and the shared convolution layer are trained by the large data set A with large data volume, and the pre-training model with better discriminantness is obtained.
  • This pre-training model is then used to hold the shared convolutional layer and train each branch with a different data set. Train the brand classification branch with data set B, train the sub-brand classification branch, and train the vehicle type classification branch. Train the color classification branch with data set C. Classify branches using the data set D training perspective.
  • the model testing process includes three parts: data input processing, model prediction, and result output.
  • Input processing uses multiple crop methods to improve the accuracy of model prediction. Keep the aspect ratio of the image to be tested, and zoom to the shortest side of 512. In the upper left corner, the lower left corner, the upper right corner, and the lower right corner of the 512*x image, a 448*448 subgraph is cropped in the middle. The 512*x picture is flipped horizontally, and in the upper left corner, the lower left corner, the upper right corner, and the lower right corner, a subgraph of 448*448 is cropped in the middle. A total of 10 sub-graphs of 448*448 are generated here, which are combined into a batch and entered into the network.
  • the present invention has the following advantages:
  • Multi-attribute identification branches share the same features, and do not need to extract features for each recognition task using a neural network, saving calculations and improving recognition time;

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种用于精细化识别车辆属性的深度神经网络及训练方法,该网络包括:深度残差网络(101),用于对输入的图片进行特征提取,得到特征图;特征迁移层(102),包括多个特征迁移单元,用于针对各属性识别任务迁移共享的特征,使之适应于特定的任务;多个全连接层(104),对应各属性识别任务分支,连接于特征迁移层(102),以得到对应各属性识别任务的特征向量;多个损失计算单元(105),对应各属性识别任务分支,分别连接各全连接层(104),用于使用交叉熵作为多分类器的损失函数计算损失;多个参数更新单元,对应于各属性识别任务,连接各损失计算单元(105),通过随机梯度下降优化算法回传损失,更新参数,实现了只用一个神经网络就能同时识别多种精细化的车辆属性的目的。

Description

一种用于精细化识别车辆属性的深度神经网络及训练方法 技术领域
本发明涉及计算机视觉与模式识别技术领域,特别是涉及一种用于精细化识别车辆属性的深度神经网络及其训练方法。
背景技术
车辆精细化属性识别技术是智能交通安防领域的一项基本技术,识别车辆属性可以提高计算机对目标车辆的理解,有助于解决一些更难的交通安防领域问题,比如车辆自动检索,车辆重识别。
车辆属性识别是计算机视觉与模式识别中的一个经典问题,识别的车辆属性一般有车辆的颜色、车辆的类型、车辆的品牌厂商等,技术应用的场景一般在道路摄像中,识别过往车辆的精细化属性,对车辆分类标签化。解决这类问题的关键技术是图像识别分类算法,其难点在于光照、尺度、遮挡对识别精度的影响。
早期采用的车辆属性识别技术以手工特征加上机器学习分类器为主,效果比较好的有采用尺度不变特征(SIFT特征),方向梯度直方图特征(HOG)作为手工特征,用视角词袋框架和支持向量机(SVM)来解决车辆属性分类问题,分别对不同的属性分别建模。后来大家广泛采用深度学习来解决图像分类问题, 通过大数据和强大的计算力,用随机梯度下降的优化算法优化网络上千万的参数,让网络很好地提取到车辆的特征,区别于传统方法的是深度网络输出的特征可学,最终通过学习出来的特征要远优于手工特征,这样再用分类器进行分类,效果要比传统的手工特征加上分类器的做法好。深度学习的方法具有很强的学习能力,只要训练数据涉及各类复杂场景(光照、尺度、遮挡),那模型便能在这些复杂的场景表现出优异的性能。
公开号为105678275A的中国专利申请揭示了一种车辆识别方法,其先对图片数据预处理,计算全部图片的平均向量,再计算出每个训练样本图片所构成向量与所述平均向量的差值;然后计算所述训练样本图片的协方差矩阵,根据所述协方差矩阵求出特征向量和特征值并按序排列,用主成分分析法(PCA)提取特征向量,最后用一个BP神经网络作为分类器。公开号为105787466A的中国专利申请揭示了一种车辆类型的精细识别方法及系统,其对获取的原始车辆图像进行灰度化和标准化处理;计算标准化图像每个像素点的梯度和方向;根据计算的梯度和方向对标准化图像进行方向梯度直方图特征提取和局部线性约束编码,得到标准化图像的编码向量;根据得到的编码向量采用权值空间金字塔对局部线性约束编码后的标准化图像进行处理,得到车辆图像的最终表达向量,最后用一个SVM对这个特征向量进行车类型分类。
公开号为102737221B的中国专利申请提供了一种车辆颜色的识别方法及装置,其根据图像的纹理和结构信息定位车辆颜色识别的参考区域,之后再进 行主识别区域和辅助识别区域的识别,主识别区域和辅助识别区域的结果加权投票得出最终的颜色识别的结果。公开号为103544480A的中国专利申请提供了一种车辆颜色识别方法,其通过对参考区域饱和度等特征参数的统计,首先将车辆分为彩色车和黑白银灰色车;若判定结果为彩色车,分离出彩色区域,并对此区域进行颜色识别;若判定结果为黑白银灰车,则将参考区域分割,通过投票的方法确定车辆的颜色。公开号为106203420A的中国专利申请提供了一种卡口车辆颜色识别方法,其用一个深度卷积神经网络,但并非输入一辆完整的汽车图片,输入是颜色识别感兴趣区域,输出是一条特征向量,再用SVM或者softmax对该向量分类。
公开号为103500327A的中国专利申请提供了一种基于空间位置信息的同一品牌车辆的车型识别方法,其先定位车牌位置,相对车牌的位置提取N个待测车型的特征区域,计算每个特征区域的特征向量用作分类,这种做法由于有车牌位置的帮助,可以巧妙地避开一些冗余信息,提高分类准确度。公开号为105930812A中国专利申请提供了一种基于融合特征稀疏编码模型的车辆品牌类型识别方法,其认为传统的特征,如Curvelet变换、HOG特征、PHOG特征、Harr特征、EOH特征、Gabor小波等都有各自的局限性,提出了一种融合特征稀疏编码的方法来增强特征的判别力。公开号为105488517A的中国专利申请提供了一种基于深度学习的车辆品牌型号识别方法利用不同城市的高清卡口点位搜集准备了2000多万张抓拍图片,经过人工筛选,根据车辆的品牌型号精确 分成三千多类,建立丰富的涵盖各种条件的车辆品牌型号图片数据库。然后再利用车牌识别技术精确定位卡口图片中的车牌位置,根据车牌位置信息准确估计车脸区域,归一化车脸区域。他们设计了一个4个卷积层两个全连接层的卷积神经网络来提取这批数据的特征,然后用SVM做分类器。
然而,上述公开号为105678275A、105787466A、103500327A、105930812A的中国专利申请主要用了一些统计和梯度上的低层特征来表征车辆的类型,并没有用到高层的语义特征;公开号为105678275A、105787466A、102737221B、103544480A的中国专利申请都有数据预处理或者结果后处理步骤,但其流程繁琐;公开号为105488517A的中国专利申请是一个大数据车辆品牌识别的方法,运用到了深度学习技术,但其深度网络过于简单,只有四个卷积层和两个全连接层,而且可识别的车辆视角单一,仅限于车前脸的监控车辆图片的品牌识别。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种用于精细化识别车辆属性的深度神经网络及其训练方法,以实现只用一个神经网络就能同时识别多种精细化的车辆属性的目的,节省计算,提高识别时间。
为达上述目的,本发明提出一种用于精细化识别车辆属性的深度神经网络,包括:
深度残差网络,用于对输入的图片进行特征提取,得到特征图,所提取的 特征供多个属性识别任务共享;
特征迁移层,包括多个特征迁移单元,用于针对各属性识别任务迁移共享的特征,使之更适应于特定的任务;
多个全连接层,对应各属性识别任务分支,连接于所述特征迁移层,以得到对应各属性识别任务的特征向量;
多个损失计算单元,对应各属性识别任务分支,分别连接各全连接层,用于使用交叉熵作为多分类器的损失函数计算损失,并于损失计算后,通过随机梯度下降优化算法回传损失,更新参数。
优选地,所述深度神经网络还包括多个双线性池化单元,连接所述特征迁移层,用于使用双线性池化操作得到判别性更强的特征向量接入全连接层。
优选地,对于车类型识别,视角识别,颜色识别类间差距比较大的识别任务,使用通用的深度网络图像分类算法,接入一个全连接层,输出一个1-D的概率向量,长度为分类的类别数目。
优选地,对于品牌/子品牌识别任务,使用压缩的双线性池化操作,输入一个特征图,输出一个判别性较强的一维的特征向量,然后用一个全连接层将此特征向量转为长度为分类类别数的概率向量。
优选地,每个特征迁移单元包括多个卷积层,每个卷积层采用卷积核,以迁移共享的特征,使之更适应于特定的任务。
优选地,每个特征迁移单元包括两个卷积层,每个卷积层采用1*1卷积核。
为达到上述目的,本发明还提供一种用于精细化识别车辆属性的深度神经网络的训练方法,包括如下步骤:
步骤一,利用一数据集训练某一属性识别任务的分类分支以及共享的卷积层,得到判别性较好的预训练模型;
步骤二,利用该预训练模型,固定住共享的卷积层,利用不同的数据集用较大的学习率训练每个分支;
步骤三,将所有非一致数据集整合至一起变成一个大型混合数据集,并利用较小的学习率联合训练所有的识别任务,优化该神经网络的全部参数。
优选地,于步骤一中,利用该数据集训练子品牌分类分支以及共享的卷积层,得到判别性较好的预训练模型。
优选地,于步骤二中,利用其它不一致数据集训练颜色分类分支、车类型分类分支、视角分类分支以及品牌分支。
优选地,于步骤三中,对于缺省的属性用一个不参与计算损失的标签代替。
与现有技术相比,本发明一种用于精细化识别车辆属性的深度神经网络及其训练方法实现了只用一个神经网络就能同时识别多种精细化的车辆属性的目的,且不局限于单属性识别领域;本发明的多属性识别分支共享同样的特征,不需要为每个识别任务都用一个神经网络提取特征,节省计算,提高识别时间;本发明引入特征迁移层使得各个属性识别分支能充分利用共享特征,提高单一分支的准确率又不影响其他分支的识别效果;本发明支持端到端训练,框架简 洁优雅;本发明支持在非一致数据集上训练,支持对有缺省属性的数据训练,适用性强;本发明的多种属性识别任务在多任务协调训练时起到互相促进的作用,提高了各分支的准确率。
附图说明
图1为本发明一种用于精细化识别车辆属性的深度神经网络的系统架构图;
图2为本发明一种用于精细化识别车辆属性的深度神经网络的训练方法的步骤流程图;
图3为本发明具体实施例之数据集A图片示例;
图4为本发明具体实施例之数据集BCD图片示例。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种用于精细化识别车辆属性的深度神经网络的系统架构图。如图1所示,本发明一种用于精细化识别车辆属性的深度神经网络,包括:
深度残差网络101,用于对输入的图片进行特征提取,得到特征图,所提 取的特征供多个属性识别任务共享。
在本发明具体实施例中,将输入图片保持长宽比放缩到最短边为512,随机翻转,随机取出448*448的子图,输进101层的深度残差网络101,该深度残差网络101将对输入图片下采样32倍,得到一个14*14,通道数为2048的特征图。
特征迁移层102,包括多个特征迁移单元,用于针对各属性识别任务迁移共享的特征,使之更适应于特定的任务。具体地说,每个特征迁移单元对应一个属性识别任务,每个特征迁移单元包括多个卷积层(在本发明具体实施例中,包括两个卷积层),每个卷积层采用1*1卷积核,以迁移共享的特征,使之更适应于特定的任务。在本发明具体实施例中,多个属性识别任务包括品牌识别、子品牌识别、车类型识别、视角识别以及颜色识别等,但本发明不以此为限。
也就是说,深度残差网络101得到的特征图分别是五个不同属性识别任务的输入。但由于五个任务所需要的关注重点是不一样的,因此对于每个属性识别任务,本发明加入两个由1*1卷积核组成的卷积层对共享的特征做特征迁移,生成用于特定任务的专用特征,这里1*1的卷积核只对每个位置的不同通道的值重新加权,不同位置之间不相互影响,也不会对原特征图下采样,保持了原有的14*14分辨率。
多个双线性池化单元103,连接特征迁移层102,用于使用双线性池化操作得到判别性更强的特征向量,以适应用于对于品牌和子品牌识别这样的细粒 度识别任务。
多个全连接层104,对应各属性识别任务分支,连接于特征迁移层102或双线性池化单元103,以得到对应各属性识别任务的特征向量。具体地说,对于车类型、视角、颜色等识别任务使用全连接层104得到特征向量,对于品牌和子品牌识别这样的细粒度识别任务,则先通过双线性池化单元103再通过全连接层104得到特征向量。
多个损失计算单元105,对应各属性识别任务分支,分别连接各全连接层104,用于利用softmax交叉熵作为损失函数,计算损失,并于损失计算后,通过随机梯度下降优化算法回传损失,更新参数。
具体地,Softmax交叉熵损失的计算如下:Softmax交叉熵损失分两步计算,首先计算概率向量的softmax函数,然后再计算交叉熵损失。这里假设z是输入计算损失的概率向量,f(z)是softmax的输出,则:
Figure PCTCN2018095060-appb-000001
假设y是z对应样本的真实类别,其损失函数定义为:
l(y,z)=-logf(z y)
代入上式得:
Figure PCTCN2018095060-appb-000002
对上式求导,则有:
Figure PCTCN2018095060-appb-000003
在本发明具体实施例中,利用后向传播算法回传上式计算的梯度,梯次更新每个神经元的权重和偏置值。后向传播算法的原理是利用求导数的链式法则, 一步一步地从损失函数往前求导,直至得到神经网络中每个神经元的权重和偏置关于损失函数的梯度,即导数。然后可训练参数(权重和偏置)沿梯度方向以学习率为步长更新值,公式如下:
Figure PCTCN2018095060-appb-000004
Figure PCTCN2018095060-appb-000005
其中α是指学习率,w是神经元权重,b是神经元偏置。
也就是说,对于车类型识别,视角识别,颜色识别这三种类间差距比较大的识别任务,本发明使用通用的深度网络图像分类算法,接入一个全连接层104,输出一个1-D(一维)的概率向量,长度是分类的类别数目(这里的分类类别数由任务决定。比如需要用该模型识别10种颜色,12种车类型,5个视角,100个品牌,300个子品牌。那么颜色分类分支的分类类别数为10,车类型的分类类别数为12,视角的分类类别数为5,品牌的分类类别数为100,子品牌的分类类别数为300),然后用softmax交叉熵函数作为损失函数,计算预测的类别和给予的监督信息做比对,通过随机梯度下降优化算法回传损失,更新参数;对于品牌/子品牌识别任务,这类任务的特点是类间差距比类内差距小,使用一般的图像分类算法的识别准确率不理想,因此本发明使用了压缩的双线性池化操作,输入一个2048*14*14的特征图,输出一个判别性极强1-D特征向量,长度为32768,然后利用一个全连接层将此特征向量转为长度为分类类别数的概率向量,用softmax交叉熵作为损失函数,计算损失,并通过随机梯度下降更新参数。
图2为本发明一种用于精细化识别车辆属性的深度神经网络的训练方法的 步骤流程图。如图2所示,本发明一种用于精细化识别车辆属性的深度神经网络的训练方法,包括如下步骤:
步骤S201,利用一数据集训练某一属性识别任务的分类分支以及共享的卷积层,得到判别性比较好的预训练模型。
本发明支持在非一致数据集上训练,在实际应用中经常会出现非一致数据的情况,即某些数据只有某些类别的标签,但缺失一些类别的标签,比如数据集A只有颜色和车类型标签,数据集B有视角和品牌子品牌的标签。本发明的方法可以在这些数据集上训练,并且各分支任务都能取得很好的效果,例如,利用数据集B训练子品牌分类分支以及共享的卷积层,得到判别性比较好的预训练模型,因为子品牌的分类类别最广,向其他任务泛化的能力最好,用该模型作为后续的预训练模型。具体方法是:屏蔽颜色、车类型、视角、品牌分类分支,单独训练子品牌分类分支的参数和共享网络的参数,直至在子品牌分类任务中达到最好效果。
步骤S202,利用该预训练模型,固定住共享的卷积层,利用不同的数据集用较大的学习率训练每个分支。例如,利用数据集A训练颜色分类分支,训练车类型分类分支,利用数据集训练视角分类分支,训练品牌分类分支,训练子品牌分类分支。在本发明具体实施例中,较大的学习率是指0.01到0.001之间,其训练过程是固定共享层和非相关的其他分支层的参数,仅训练分支部分的参数。
步骤S203,将所有非一致数据集整合至一起变成一个大型混合数据集,并利用较小的学习率联合训练所有的识别任务,优化该神经网络的全部参数,对于缺省的属性用一个不参与计算损失的标签代替,比如255。这里的较小的学习率是指0.001到0.0001之间,其训练整个网络的全部参数。
以下通过具体实施例来进一步说明本发明:
实施例一:基于VGG16的多种车辆精细化属性识别方法的实施方案包括了数据准备、环境配置、模型训练和模型测试四个阶段。
1.1数据准备阶段:
在本实施例中,在几个不同的数据集上进行非一致数据训练:数据集A有16万张图片,标注的属性有车类型,品牌,子品牌;数据集B有25000张监控视角的汽车图片,标注的属性有车类型,品牌,子品牌;数据集C有15000张监控视角汽车图片,标注的属性有颜色;数据集D有26000张监控视角图片,标注的属性有视角。数据集A是高清汽车图片,如图3所示,数据集BCD是监控视角汽车图片,如图4所示。
1.2环境准备阶段:
本实施例基于深度学习框架Caffe进行开发,需要按照Caffe官网教程配置好实验环境。关键依赖版本为:CUDA 8.0,CUDNN V5,OpenCV 2.4.9,Python 2.7.2。
1.3.模型训练:
具体地,模型训练步骤分为两部分,首先单独训练各个分支,然后进行联合微调,用到了多个非一致数据集参与训练。
1.3.1输入数据预处理
对输入的数据进行随机水平翻转,然后保持长宽比放缩,放缩到最短边为512,最后随机crop出448*448子图,减去每个颜色通道的灰度均值,输进网络。具体做法是:假设图片此时的高为h,宽为w,每次在[0,w-448)和[0,h-448)范围内随机取整数x和y,在这张图上取出左上角起点为(x,y),右下角终点的坐标为(x+448,y+448)的子图。
1.3.2模型结构
在本实施例中,模型结构如图1所示,其中用VGG16网络代替深度残差网络,去掉VGG16最后一个池化层,取出conv5_3的特征输进每个属性识别分支。
每个属性识别分支前面都有两个特征迁移层来过滤共享的特征,得到实现该任务的专用特征,特征迁移层由1*1的卷积核的卷积层构成,输出的通道数与输入的通道数相同。
对于车类型识别,视角识别,颜色识别这三个属性识别任务,接入一个全连接层,输出一个1-D的概率向量,长度是分类的类别数目。然后用softmax交叉熵函数作为损失函数。对于品牌/子品牌识别任务,使用了压缩的双线性池化操作,输入一个512*28*28的特征图,输出一个判别线极强1-D特征向量,长 度为8192。然后用一个全连接层将此特征向量转为长度为分类类别数的概率向量,用softmax交叉熵作为损失函数。
1.3.3单独训练各个分支
首先利用数据量大的大数据集A训练子品牌分类分支以及共享的卷积层,得到判别性比较好的预训练模型。
然后利用该预训练模型,固定住共享的卷积层,用不同的数据集训练每个分支。具体地,用数据集B训练品牌分类分支,训练子品牌分类分支,训练车类型分类分支。用数据集C训练颜色分类分支。用数据集D训练视角分类分支。
1.3.4联合微调
将所有数据集整合到一起变成一个大型混合数据集,每张图片都只有部分的属性标注,没有全部的属性标注。这里处理的方法是将缺省的属性标注为一个在计算损失的时候忽略的标签,比如假设在交叉熵损失计算时忽略255这个标签,即对标签为255的类别不计算损失,不回传梯度。
利用一个较小的学习率(例如0.0001)在这个混合数据集上优化这个网络的全部参数,发现各个任务的识别准确率都有提升,证明每个属性识别分支之间共享深度卷积特征不仅能起到提高计算效率(不用为每一个任务都算一个深度特征图),也能起到互补提高的作用。
1.4模型测试。
模型测试过程包括数据输入处理,模型预测,结果输出三部分。
输入处理采用多次crop(裁剪)的方法提高模型预测的准确率。对要测试的图片进行保持宽高比放缩,放缩到最短边为512。在这个512*x的图片上的左上角,左下角,右上角,右下角,中间都分别crop一个448*448的子图。对512*x的图片进行水平翻转,同样地在其左上角,左下角,右上角,右下角,中间都分别crop一个448*448的子图。这里总共产生10张448*448的子图,将它们组成一个batch,输进网络。
用之前训练好的模型,输入一个batch_size为10的batch(批处理),输出每个属性的分类结果。模型为每张子图的每个分类属性都预测了一个概率向量,将这10张子图的结果做平均,得出最终的分类结果。
实施例二:基于ResNet-101的多种车辆精细化属性识别方法的实施方案包括了数据准备、环境配置、模型训练和模型测试四个阶段:
2.1数据准备阶段。
本发明在几个不同的数据集上进行非一致数据训练。数据集A有16万张图片,标注的属性有车类型,品牌,子品牌;数据集B有25000张监控视角的汽车图片,标注的属性有车类型,品牌,子品牌;数据集C有15000张监控视角汽车图片,标注的属性有颜色;数据集D有26000张监控视角图片,标注的属性有视角。数据集A是高清汽车图片,如图3所示,数据集BCD是监控视角汽车图片,如图4所示。
2.2环境准备阶段。
本实施例基于深度学习框架Caffe进行开发,需要按照Caffe官网教程配置好实验环境。关键依赖版本为:CUDA 8.0,CUDNN V5,OpenCV 2.4.9,Python 2.7.2。
2.3模型训练。
本实施例的模型训练步骤分为两部分,首先单独训练各个分支,然后进行联合微调,用到了多个非一致数据集参与训练。
2.3.1输入数据预处理
对输入的数据进行随机水平翻转,然后保持长宽比放缩,放缩到最短边为512,最后随机crop出448*448子图,减去每个颜色通道的灰度均值,输进网络。具体做法是:假设图片此时的高为h,宽为w,每次在[0,w-448)和[0,h-448)范围内随机取整数x和y,在这张图上取出左上角起点为(x,y),右下角终点的坐标为(x+448,y+448)的子图。
2.3.2模型结构
在本实施例中,其模型结构如图1所示,所有属性分类分支共享101层的深度残差网络,取出res5c的特征输进每个属性识别分支。
每个属性识别分支前面都有两个特征迁移层来过滤共享的特征,得到做这个任务的专用特征,特征迁移层由1*1的卷积核的卷积层构成,输出的通道数与输入的通道数相同。
对于车类型识别,视角识别,颜色识别这三个属性识别任务,接入一个全 连接层,输出一个1-D的概率向量,长度是分类的类别数目。然后用softmax交叉熵函数作为损失函数。对于品牌/子品牌识别任务,使用了压缩的双线性池化操作,输入一个2048*14*14的特征图,输出一个判别线极强1-D特征向量,长度为32768。然后用一个全连接层将此特征向量转为长度为分类类别数的概率向量,用softmax交叉熵作为损失函数。
2.3.3单独训练各个分支
首先利用数据量大的大数据集A训练子品牌分类分支以及共享的卷积层,得到判别性比较好的预训练模型。
然后利用这个预训练模型,固定住共享的卷积层,用不同的数据集训练每个分支。用数据集B训练品牌分类分支,训练子品牌分类分支,训练车类型分类分支。用数据集C训练颜色分类分支。用数据集D训练视角分类分支。
2.3.4联合微调
将所有数据集整合到一起变成一个大型混合数据集,每张图片都只有部分的属性标注,没有全部的属性标注。这里我们处理的方法是将缺省的属性标注为一个在计算损失的时候忽略的标签,比如我们假设在交叉熵损失计算时忽略255这个标签,即对标签为255的类别不计算损失,不回传梯度。
用一个较小的学习率(0.0001)在这个混合数据集上优化这个网络的全部参数,发现各个任务的识别准确率都有提升,证明每个属性识别分支之间共享深度卷积特征不仅能起到提高计算效率(不用为每一个任务都算一个深度特征 图),也能起到互补提高的作用。
2.4模型测试。
模型测试过程包括数据输入处理,模型预测,结果输出三部分。
输入处理采用多次crop的方法提高模型预测的准确率。对要测试的图片进行保持宽高比放缩,放缩到最短边为512。在这个512*x的图片上的左上角,左下角,右上角,右下角,中间都分别crop一个448*448的子图。对512*x的图片进行水平翻转,同样地在其左上角,左下角,右上角,右下角,中间都分别crop一个448*448的子图。这里总共产生10张448*448的子图,将它们组成一个batch,输进网络。
用之前训练好的模型,输入一个batch_size为10的batch,输出每个属性的分类结果。模型为每张子图的每个分类属性都预测了一个概率向量,我们将这10张子图的结果做平均,得出最终的分类结果。
与现有技术相比,本发明具有如下优点:
(1)只用一个神经网络能同时识别多种精细化的车辆属性,不局限于单属性识别领域;
(2)多属性识别分支共享同样的特征,不需要为每个识别任务都用一个神经网络提取特征,节省计算,提高识别时间;
(3)引入特征迁移层使得各个属性识别分支能充分利用共享特征,提高单一分支的准确率又不影响其他分支的识别效果;
(4)支持端到端训练,框架简洁优雅;
(5)支持在非一致数据集上训练,支持对有缺省属性的数据训练,适用性强;
(6)多种属性识别任务在多任务协调训练时起到互相促进的作用,提高了各分支的准确率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

  1. 一种用于精细化识别车辆属性的深度神经网络,包括:
    深度残差网络,用于对输入的图片进行特征提取,得到特征图,所提取的特征供多个属性识别任务共享;
    特征迁移层,包括多个特征迁移单元,用于针对各属性识别任务迁移共享的特征,使之更适应于特定的任务;
    多个全连接层,对应各属性识别任务分支,连接于所述特征迁移层,以得到对应各属性识别任务的特征向量;
    多个损失计算单元,对应各属性识别任务分支,分别连接各全连接层,用于使用交叉熵作为多分类器的损失函数计算损失,并于损失计算后,通过随机梯度下降优化算法回传损失,更新参数。
  2. 如权利要求1所述的一种用于精细化识别车辆属性的深度神经网络,其特征在于:所述深度神经网络还包括多个双线性池化单元,连接所述特征迁移层,用于使用双线性池化操作得到判别性更强的特征向量接入全连接层。
  3. 如权利要求1所述的一种用于精细化识别车辆属性的深度神经网络,其特征在于:对于车类型识别,视角识别,颜色识别类间差距比较大的识别任务,使用通用的深度网络图像分类算法,接入一个全连接层,输出一个一维的概率向量,长度为分类的类别数目。
  4. 如权利要求2所述的一种用于精细化识别车辆属性的深度神经网络, 其特征在于:对于品牌/子品牌识别任务,使用压缩的双线性池化操作,输入一个特征图,输出一个判别性极强一维的特征向量,然后用一个全连接层将此特征向量转为长度为分类类别数的概率向量。
  5. 如权利要求1所述的一种用于精细化识别车辆属性的深度神经网络,其特征在于:每个特征迁移单元包括多个卷积层,每个卷积层采用卷积核,以迁移共享的特征,使之更适应于特定的任务。
  6. 如权利要求5所述的一种用于精细化识别车辆属性的深度神经网络,其特征在于:每个特征迁移单元包括两个卷积层,每个卷积层采用1*1卷积核。
  7. 一种用于精细化识别车辆属性的深度神经网络的训练方法,包括如下步骤:
    步骤一,利用一数据集训练某一属性识别任务的分类分支以及共享的卷积层,得到判别性较好的预训练模型;
    步骤二,利用该预训练模型,固定住共享的卷积层,利用不同的数据集用较大的学习率训练每个分支;
    步骤三,将所有非一致数据集整合至一起变成一个大型混合数据集,并利用较小的学习率联合训练所有的识别任务,优化该神经网络的全部参数。
  8. 如权利要求7所述的一种用于精细化识别车辆属性的深度神经网络的训练方法,其特征在于:于步骤一中,利用该数据集训练子品牌分类分支以及共享的卷积层,得到判别性较好的预训练模型。
  9. 如权利要求7所述的一种用于精细化识别车辆属性的深度神经网络的训练方法,其特征在于:于步骤二中,利用其它不一致数据集训练颜色分类分支、车类型分类分支、视角分类分支以及品牌分支。
  10. 如权利要求7所述的一种用于精细化识别车辆属性的深度神经网络的训练方法,其特征在于:于步骤三中,对于缺省的属性用一个不参与计算损失的标签代替。
PCT/CN2018/095060 2018-03-09 2018-07-10 一种用于精细化识别车辆属性的深度神经网络及训练方法 WO2019169816A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810194741.6A CN108549926A (zh) 2018-03-09 2018-03-09 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN201810194741.6 2018-03-09

Publications (1)

Publication Number Publication Date
WO2019169816A1 true WO2019169816A1 (zh) 2019-09-12

Family

ID=63516097

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/095060 WO2019169816A1 (zh) 2018-03-09 2018-07-10 一种用于精细化识别车辆属性的深度神经网络及训练方法

Country Status (2)

Country Link
CN (1) CN108549926A (zh)
WO (1) WO2019169816A1 (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674884A (zh) * 2019-09-30 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于特征融合的图像识别方法
CN110852417A (zh) * 2019-10-10 2020-02-28 华东师范大学 面向物联网应用的单深度神经网络模型鲁棒性提升方法
CN110909742A (zh) * 2019-11-19 2020-03-24 上海眼控科技股份有限公司 车牌检测方法、系统、平台和存储介质
CN110929610A (zh) * 2019-11-12 2020-03-27 上海五零盛同信息科技有限公司 基于cnn模型和迁移学习的植物病害识别方法及系统
CN110956214A (zh) * 2019-12-03 2020-04-03 北京车和家信息技术有限公司 一种自动驾驶视觉定位模型的训练方法及装置
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN111310862A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN111314934A (zh) * 2020-02-14 2020-06-19 西北工业大学 一种统一最优判决的网络协同探测方法
CN111401122A (zh) * 2019-12-27 2020-07-10 航天信息股份有限公司 一种基于知识分类的复杂目标渐近识别方法及装置
CN111429465A (zh) * 2020-03-18 2020-07-17 浙江科技学院 基于视差净化的二型残差双目显着物体图像分割方法
CN111476307A (zh) * 2020-04-13 2020-07-31 河北工业大学 一种基于深度领域适应的锂电池表面缺陷检测方法
CN111598948A (zh) * 2020-04-03 2020-08-28 上海嘉奥信息科技发展有限公司 基于深度学习的ct影像椎弓根植钉通道规划方法和系统
CN111696101A (zh) * 2020-06-18 2020-09-22 中国农业大学 一种基于SE-Inception的轻量级茄科病害识别方法
CN111723738A (zh) * 2020-06-19 2020-09-29 安徽工业大学 一种基于迁移学习的煤岩壳质组显微图像分类方法及系统
CN111738302A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统
CN111860087A (zh) * 2019-10-16 2020-10-30 北京嘀嘀无限科技发展有限公司 信息检测方法、信息检测装置、计算机设备及存储介质
CN111881987A (zh) * 2020-07-31 2020-11-03 西安工业大学 基于深度学习的苹果病毒识别方法
CN111881739A (zh) * 2020-06-19 2020-11-03 安徽清新互联信息科技有限公司 一种汽车尾灯状态识别方法
CN111967492A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备以及存储介质
CN111967528A (zh) * 2020-08-27 2020-11-20 北京大学 基于稀疏编码的深度学习网络结构搜索的图像识别方法
CN112149500A (zh) * 2020-08-14 2020-12-29 浙江大学 一种部分遮挡的人脸识别小样本学习方法
CN112149720A (zh) * 2020-09-09 2020-12-29 南京信息工程大学 一种细粒度车辆类型识别方法
CN112464846A (zh) * 2020-12-03 2021-03-09 武汉理工大学 一种车站货运列车车厢异常故障的自动识别方法
CN112508078A (zh) * 2020-12-02 2021-03-16 携程旅游信息技术(上海)有限公司 图像多任务多标签识别方法、系统、设备及介质
CN112613536A (zh) * 2020-12-08 2021-04-06 燕山大学 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN112766493A (zh) * 2021-01-19 2021-05-07 北京市商汤科技开发有限公司 多任务神经网络的训练方法、装置、电子设备及存储介质
CN112784921A (zh) * 2021-02-02 2021-05-11 西北工业大学 任务注意力引导的小样本图像互补学习分类算法
CN112818736A (zh) * 2020-12-10 2021-05-18 西南交通大学 应急指挥大数据支撑平台
CN112884653A (zh) * 2021-03-01 2021-06-01 西北大学 一种基于断裂面信息的兵马俑碎块拼接方法及系统
CN113011436A (zh) * 2021-02-26 2021-06-22 北京工业大学 一种基于卷积神经网络的中医舌色苔色协同分类方法
CN113094808A (zh) * 2021-03-22 2021-07-09 大连理工大学 一种基于仿真数据和人工智能的汽车碰撞损伤等级实时预测方法
CN113468978A (zh) * 2021-05-26 2021-10-01 北京邮电大学 基于深度学习的细粒度车身颜色分类方法、装置和设备
CN113780535A (zh) * 2021-09-27 2021-12-10 华中科技大学 一种应用于边缘设备的模型训练方法及系统
CN113963231A (zh) * 2021-10-15 2022-01-21 中国石油大学(华东) 基于图像增强与样本平衡优化的行人属性识别方法
TWI755669B (zh) * 2020-01-02 2022-02-21 中華電信股份有限公司 同型車檢索系統及方法
CN114155496A (zh) * 2021-11-29 2022-03-08 西安烽火软件科技有限公司 一种基于自注意力的车辆属性多任务协同识别方法
CN114237046A (zh) * 2021-12-03 2022-03-25 国网山东省电力公司枣庄供电公司 一种基于sift数据特征提取算法与bp神经网络模型的局部放电模式识别方法
CN114694171A (zh) * 2022-02-22 2022-07-01 电子科技大学 一种基于自监督模式特征增强的行人属性识别方法
CN114881940A (zh) * 2022-04-21 2022-08-09 北京航空航天大学 一种高温合金螺栓热镦后头部缺陷识别方法
CN115083169A (zh) * 2022-06-14 2022-09-20 公安部交通管理科学研究所 一种假冒救护车的嫌疑车辆的发现方法
CN115731436A (zh) * 2022-09-21 2023-03-03 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法
CN111008694B (zh) * 2019-12-02 2023-10-27 许昌北邮万联网络技术有限公司 基于深度卷积对抗生成网络的无数据模型量化压缩方法
CN117315430A (zh) * 2023-11-28 2023-12-29 华侨大学 面向大范围车辆再辨识的不完备模态特征融合方法
CN117409298A (zh) * 2023-12-15 2024-01-16 西安航空学院 针对路面车辆识别的多尺寸目标精确识别方法及设备
CN111695587B (zh) * 2020-04-01 2024-04-16 新华三技术有限公司 一种车辆品牌型号识别方法及装置

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147707B (zh) * 2018-10-25 2021-07-20 初速度(苏州)科技有限公司 一种高精度车辆识别方法及系统
CN109472360B (zh) 2018-10-30 2020-09-04 北京地平线机器人技术研发有限公司 神经网络的更新方法、更新装置和电子设备
CN109685110B (zh) * 2018-11-28 2022-01-28 北京陌上花科技有限公司 图像分类网络的训练方法、图像分类方法及装置、服务器
CN111275061A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 车辆属性识别方法及其模型训练方法、装置和电子设备
CN109753999B (zh) * 2018-12-21 2022-06-07 西北工业大学 针对任意视角汽车图片的细粒度车型识别方法
CN109978132A (zh) * 2018-12-24 2019-07-05 中国科学院深圳先进技术研究院 一种精细化车辆识别的神经网络方法及系统
CN109816001A (zh) * 2019-01-10 2019-05-28 高新兴科技集团股份有限公司 一种基于深度学习的车辆多属性识别方法、装置和设备
CN110334572B (zh) * 2019-04-04 2021-07-13 南京航空航天大学 一种多角度下车型精细识别方法
CN110070082B (zh) * 2019-04-22 2022-02-11 苏州科达科技股份有限公司 车牌识别方法、装置、设备及存储介质
CN111860068A (zh) * 2019-04-30 2020-10-30 四川大学 一种基于跨层精简双线性网络的细粒度鸟类识别方法
CN110135437B (zh) * 2019-05-06 2022-04-05 北京百度网讯科技有限公司 用于车辆的定损方法、装置、电子设备和计算机存储介质
CN110209857B (zh) * 2019-05-23 2022-04-22 厦门市美亚柏科信息股份有限公司 基于神经网络结构搜索的车辆多属性识别方法、装置、介质
CN110210401B (zh) * 2019-06-03 2022-10-21 多维协同人工智能技术研究院(重庆)有限公司 一种弱光下的目标智能检测方法
CN110378237B (zh) * 2019-06-21 2021-06-11 浙江工商大学 基于深度度量融合网络的面部表情识别方法
CN110533024B (zh) * 2019-07-10 2021-11-23 杭州电子科技大学 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN110321970A (zh) * 2019-07-11 2019-10-11 山东领能电子科技有限公司 一种基于分枝神经网络的多特征细粒度的目标分类方法
CN110472664A (zh) * 2019-07-17 2019-11-19 杭州有盾网络科技有限公司 一种基于深度学习的证件图片识别方法、装置及设备
CN110399828B (zh) * 2019-07-23 2022-10-28 吉林大学 一种基于多角度的深度卷积神经网络的车辆再识别方法
CN110598749A (zh) * 2019-08-13 2019-12-20 广东数鼎科技有限公司 一种基于卷积神经网络ai算法的图像识车实现系统
CN110598621A (zh) * 2019-09-06 2019-12-20 高新兴科技集团股份有限公司 车辆品牌识别方法、装置、设备及计算机可读存储介质
CN112541374B (zh) * 2019-09-20 2024-04-30 南京行者易智能交通科技有限公司 一种基于深度学习的乘客属性的获取方法、装置及模型训练方法
CN111222409A (zh) * 2019-11-26 2020-06-02 北京迈格威科技有限公司 车辆品牌的标注方法、装置及系统
CN110991349B (zh) * 2019-12-05 2023-02-10 中国科学院重庆绿色智能技术研究院 一种基于度量学习的轻量级车辆属性识别方法
CN111126224A (zh) * 2019-12-17 2020-05-08 成都通甲优博科技有限责任公司 车辆检测方法及分类识别模型训练方法
CN111325739B (zh) * 2020-02-28 2020-12-29 推想医疗科技股份有限公司 肺部病灶检测的方法及装置,和图像检测模型的训练方法
CN111401251B (zh) * 2020-03-17 2023-12-26 北京百度网讯科技有限公司 车道线提取方法、装置、电子设备及计算机可读存储介质
CN111091165A (zh) * 2020-03-25 2020-05-01 北京精诊医疗科技有限公司 一种图像的细粒度识别方法
CN111612855B (zh) * 2020-04-09 2024-06-14 北京旷视科技有限公司 物体颜色识别方法、装置及电子设备
CN111598000A (zh) * 2020-05-18 2020-08-28 中移(杭州)信息技术有限公司 基于多任务的人脸识别方法、装置、服务器和可读存储介质
CN111754784B (zh) * 2020-06-23 2022-05-24 高新兴科技集团股份有限公司 基于注意力机制的多层网络的车辆主子品牌识别方法
CN111814857B (zh) * 2020-06-29 2021-07-06 浙江大华技术股份有限公司 目标重识别方法及其网络训练方法、相关装置
CN112016617B (zh) * 2020-08-27 2023-12-01 中国平安财产保险股份有限公司 细粒度分类方法、装置及计算机可读存储介质
CN112200193B (zh) * 2020-12-03 2021-03-16 中国科学院自动化研究所 基于多属性融合的分布式车牌识别方法、系统、装置
CN112766349B (zh) * 2021-01-12 2021-08-24 齐鲁工业大学 一种基于机器视觉与触觉感知的物体描述生成方法
CN112861724A (zh) * 2021-02-06 2021-05-28 安徽理工大学 一种中药识别系统
CN113221982A (zh) * 2021-04-28 2021-08-06 深圳市捷顺科技实业股份有限公司 一种车辆识别方法、车辆识别模型创建方法及相关组件
CN114882448B (zh) * 2022-04-01 2023-10-31 北京卓视智通科技有限责任公司 一种车辆监控方法和电子设备
CN115294644B (zh) * 2022-06-24 2024-07-02 北京昭衍新药研究中心股份有限公司 一种基于3d卷积参数重构的快速猴子行为识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326893A (zh) * 2016-08-25 2017-01-11 安徽水滴科技有限责任公司 一种基于区域辨别的车辆颜色识别方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN106845371A (zh) * 2016-12-31 2017-06-13 中国科学技术大学 一种城市路网机动车尾气排放遥感监控系统
CN106934396A (zh) * 2017-03-09 2017-07-07 深圳市捷顺科技实业股份有限公司 一种车牌检索方法及系统
CN107273828A (zh) * 2017-05-29 2017-10-20 浙江师范大学 一种基于区域的全卷积神经网络的路牌检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599869B (zh) * 2016-12-22 2019-12-03 安徽大学 一种基于多任务卷积神经网络的车辆属性识别方法
CN107145857B (zh) * 2017-04-29 2021-05-04 深圳市深网视界科技有限公司 人脸属性识别方法、装置和模型建立方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326893A (zh) * 2016-08-25 2017-01-11 安徽水滴科技有限责任公司 一种基于区域辨别的车辆颜色识别方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN106845371A (zh) * 2016-12-31 2017-06-13 中国科学技术大学 一种城市路网机动车尾气排放遥感监控系统
CN106934396A (zh) * 2017-03-09 2017-07-07 深圳市捷顺科技实业股份有限公司 一种车牌检索方法及系统
CN107273828A (zh) * 2017-05-29 2017-10-20 浙江师范大学 一种基于区域的全卷积神经网络的路牌检测方法

Cited By (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674884A (zh) * 2019-09-30 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于特征融合的图像识别方法
CN110852417B (zh) * 2019-10-10 2023-04-07 华东师范大学 面向物联网应用的单深度神经网络模型鲁棒性提升方法
CN110852417A (zh) * 2019-10-10 2020-02-28 华东师范大学 面向物联网应用的单深度神经网络模型鲁棒性提升方法
CN111860087A (zh) * 2019-10-16 2020-10-30 北京嘀嘀无限科技发展有限公司 信息检测方法、信息检测装置、计算机设备及存储介质
CN110929610A (zh) * 2019-11-12 2020-03-27 上海五零盛同信息科技有限公司 基于cnn模型和迁移学习的植物病害识别方法及系统
CN110929610B (zh) * 2019-11-12 2023-05-23 上海五零盛同信息科技有限公司 基于cnn模型和迁移学习的植物病害识别方法及系统
CN110909742A (zh) * 2019-11-19 2020-03-24 上海眼控科技股份有限公司 车牌检测方法、系统、平台和存储介质
CN111008694B (zh) * 2019-12-02 2023-10-27 许昌北邮万联网络技术有限公司 基于深度卷积对抗生成网络的无数据模型量化压缩方法
CN110956214B (zh) * 2019-12-03 2023-10-13 北京车和家信息技术有限公司 一种自动驾驶视觉定位模型的训练方法及装置
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN110956214A (zh) * 2019-12-03 2020-04-03 北京车和家信息技术有限公司 一种自动驾驶视觉定位模型的训练方法及装置
CN111401122A (zh) * 2019-12-27 2020-07-10 航天信息股份有限公司 一种基于知识分类的复杂目标渐近识别方法及装置
CN111401122B (zh) * 2019-12-27 2023-09-26 航天信息股份有限公司 一种基于知识分类的复杂目标渐近识别方法及装置
TWI755669B (zh) * 2020-01-02 2022-02-21 中華電信股份有限公司 同型車檢索系統及方法
CN111314934A (zh) * 2020-02-14 2020-06-19 西北工业大学 一种统一最优判决的网络协同探测方法
CN111429465A (zh) * 2020-03-18 2020-07-17 浙江科技学院 基于视差净化的二型残差双目显着物体图像分割方法
CN111429465B (zh) * 2020-03-18 2023-05-23 浙江科技学院 基于视差净化的二型残差双目显着物体图像分割方法
CN111310862A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN111310862B (zh) * 2020-03-27 2024-02-09 西安电子科技大学 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN111695587B (zh) * 2020-04-01 2024-04-16 新华三技术有限公司 一种车辆品牌型号识别方法及装置
CN111598948A (zh) * 2020-04-03 2020-08-28 上海嘉奥信息科技发展有限公司 基于深度学习的ct影像椎弓根植钉通道规划方法和系统
CN111598948B (zh) * 2020-04-03 2024-02-20 上海嘉奥信息科技发展有限公司 基于深度学习的ct影像椎弓根植钉通道规划方法和系统
CN111476307B (zh) * 2020-04-13 2023-06-20 河北工业大学 一种基于深度领域适应的锂电池表面缺陷检测方法
CN111476307A (zh) * 2020-04-13 2020-07-31 河北工业大学 一种基于深度领域适应的锂电池表面缺陷检测方法
CN111738302B (zh) * 2020-05-28 2023-06-20 华南理工大学 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统
CN111738302A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统
CN111696101A (zh) * 2020-06-18 2020-09-22 中国农业大学 一种基于SE-Inception的轻量级茄科病害识别方法
CN111723738A (zh) * 2020-06-19 2020-09-29 安徽工业大学 一种基于迁移学习的煤岩壳质组显微图像分类方法及系统
CN111881739A (zh) * 2020-06-19 2020-11-03 安徽清新互联信息科技有限公司 一种汽车尾灯状态识别方法
CN111967492A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备以及存储介质
CN111881987A (zh) * 2020-07-31 2020-11-03 西安工业大学 基于深度学习的苹果病毒识别方法
CN112149500B (zh) * 2020-08-14 2023-11-17 浙江大学 一种部分遮挡的人脸识别小样本学习方法
CN112149500A (zh) * 2020-08-14 2020-12-29 浙江大学 一种部分遮挡的人脸识别小样本学习方法
CN111967528B (zh) * 2020-08-27 2023-12-26 北京大学 基于稀疏编码的深度学习网络结构搜索的图像识别方法
CN111967528A (zh) * 2020-08-27 2020-11-20 北京大学 基于稀疏编码的深度学习网络结构搜索的图像识别方法
CN112149720A (zh) * 2020-09-09 2020-12-29 南京信息工程大学 一种细粒度车辆类型识别方法
CN112508078A (zh) * 2020-12-02 2021-03-16 携程旅游信息技术(上海)有限公司 图像多任务多标签识别方法、系统、设备及介质
CN112508078B (zh) * 2020-12-02 2024-06-14 携程旅游信息技术(上海)有限公司 图像多任务多标签识别方法、系统、设备及介质
CN112464846A (zh) * 2020-12-03 2021-03-09 武汉理工大学 一种车站货运列车车厢异常故障的自动识别方法
CN112464846B (zh) * 2020-12-03 2024-04-02 武汉理工大学 一种车站货运列车车厢异常故障的自动识别方法
CN112613536A (zh) * 2020-12-08 2021-04-06 燕山大学 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN112818736A (zh) * 2020-12-10 2021-05-18 西南交通大学 应急指挥大数据支撑平台
CN112766493A (zh) * 2021-01-19 2021-05-07 北京市商汤科技开发有限公司 多任务神经网络的训练方法、装置、电子设备及存储介质
CN112766493B (zh) * 2021-01-19 2023-04-07 北京市商汤科技开发有限公司 多任务神经网络的训练方法、装置、电子设备及存储介质
CN112784921A (zh) * 2021-02-02 2021-05-11 西北工业大学 任务注意力引导的小样本图像互补学习分类算法
CN113011436A (zh) * 2021-02-26 2021-06-22 北京工业大学 一种基于卷积神经网络的中医舌色苔色协同分类方法
CN112884653A (zh) * 2021-03-01 2021-06-01 西北大学 一种基于断裂面信息的兵马俑碎块拼接方法及系统
CN113094808A (zh) * 2021-03-22 2021-07-09 大连理工大学 一种基于仿真数据和人工智能的汽车碰撞损伤等级实时预测方法
CN113468978A (zh) * 2021-05-26 2021-10-01 北京邮电大学 基于深度学习的细粒度车身颜色分类方法、装置和设备
CN113468978B (zh) * 2021-05-26 2023-11-24 北京邮电大学 基于深度学习的细粒度车身颜色分类方法、装置和设备
CN113780535B (zh) * 2021-09-27 2024-06-04 华中科技大学 一种应用于边缘设备的模型训练方法及系统
CN113780535A (zh) * 2021-09-27 2021-12-10 华中科技大学 一种应用于边缘设备的模型训练方法及系统
CN113963231A (zh) * 2021-10-15 2022-01-21 中国石油大学(华东) 基于图像增强与样本平衡优化的行人属性识别方法
CN114155496A (zh) * 2021-11-29 2022-03-08 西安烽火软件科技有限公司 一种基于自注意力的车辆属性多任务协同识别方法
CN114155496B (zh) * 2021-11-29 2024-04-26 西安烽火软件科技有限公司 一种基于自注意力的车辆属性多任务协同识别方法
CN114237046B (zh) * 2021-12-03 2023-09-26 国网山东省电力公司枣庄供电公司 一种基于sift数据特征提取算法与bp神经网络模型的局部放电模式识别方法
CN114237046A (zh) * 2021-12-03 2022-03-25 国网山东省电力公司枣庄供电公司 一种基于sift数据特征提取算法与bp神经网络模型的局部放电模式识别方法
CN114694171B (zh) * 2022-02-22 2023-10-10 电子科技大学 一种基于自监督模式特征增强的行人属性识别方法
CN114694171A (zh) * 2022-02-22 2022-07-01 电子科技大学 一种基于自监督模式特征增强的行人属性识别方法
CN114881940A (zh) * 2022-04-21 2022-08-09 北京航空航天大学 一种高温合金螺栓热镦后头部缺陷识别方法
CN115083169B (zh) * 2022-06-14 2023-07-18 公安部交通管理科学研究所 一种假冒救护车的嫌疑车辆的发现方法
CN115083169A (zh) * 2022-06-14 2022-09-20 公安部交通管理科学研究所 一种假冒救护车的嫌疑车辆的发现方法
CN115731436A (zh) * 2022-09-21 2023-03-03 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法
CN115731436B (zh) * 2022-09-21 2023-09-26 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法
CN117315430B (zh) * 2023-11-28 2024-03-12 华侨大学 面向大范围车辆再辨识的不完备模态特征融合方法
CN117315430A (zh) * 2023-11-28 2023-12-29 华侨大学 面向大范围车辆再辨识的不完备模态特征融合方法
CN117409298B (zh) * 2023-12-15 2024-04-02 西安航空学院 针对路面车辆识别的多尺寸目标精确识别方法及设备
CN117409298A (zh) * 2023-12-15 2024-01-16 西安航空学院 针对路面车辆识别的多尺寸目标精确识别方法及设备

Also Published As

Publication number Publication date
CN108549926A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
WO2019169816A1 (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN109740478B (zh) 车辆检测及识别方法、装置、计算机设备及可读存储介质
CN109583482B (zh) 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法
Silva et al. A flexible approach for automatic license plate recognition in unconstrained scenarios
US20190130215A1 (en) Training method and detection method for object recognition
US8620026B2 (en) Video-based detection of multiple object types under varying poses
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
US8494259B2 (en) Biologically-inspired metadata extraction (BIME) of visual data using a multi-level universal scene descriptor (USD)
CN102509098B (zh) 一种鱼眼图像车辆识别方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
US10445602B2 (en) Apparatus and method for recognizing traffic signs
Varghese et al. An efficient algorithm for detection of vacant spaces in delimited and non-delimited parking lots
CN105718882A (zh) 一种分辨率自适应特征提取与融合的行人重识别方法
CN114359851A (zh) 无人驾驶目标检测方法、装置、设备及介质
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN108230330B (zh) 一种快速的高速公路路面分割和摄像机定位的方法
Zhou et al. YOLO-CIR: The network based on YOLO and ConvNeXt for infrared object detection
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
De Oliveira et al. Vehicle-Rear: A new dataset to explore feature fusion for vehicle identification using convolutional neural networks
Chiu et al. See the difference: Direct pre-image reconstruction and pose estimation by differentiating hog
Wang et al. Automatically detecting the wild giant panda using deep learning with context and species distribution model
Fan et al. Siamese graph convolution network for face sketch recognition: an application using graph structure for face photo-sketch recognition
Özyurt et al. A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function
Vrtagić et al. Video Data Extraction and Processing for Investigation of Vehicles' Impact on the Asphalt Deformation Through the Prism of Computational Algorithms.
Qu et al. An intelligent vehicle image segmentation and quality assessment model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18908953

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18908953

Country of ref document: EP

Kind code of ref document: A1