WO2021244079A1 - 智能家居环境中图像目标检测方法 - Google Patents

智能家居环境中图像目标检测方法 Download PDF

Info

Publication number
WO2021244079A1
WO2021244079A1 PCT/CN2021/078415 CN2021078415W WO2021244079A1 WO 2021244079 A1 WO2021244079 A1 WO 2021244079A1 CN 2021078415 W CN2021078415 W CN 2021078415W WO 2021244079 A1 WO2021244079 A1 WO 2021244079A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
smart home
home environment
feature extraction
network
Prior art date
Application number
PCT/CN2021/078415
Other languages
English (en)
French (fr)
Inventor
奚雪峰
段杰
崔志明
王金亮
夏炜
史庆伟
王坚
曾诚
Original Assignee
苏州科技大学
昆山市公安局
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州科技大学, 昆山市公安局 filed Critical 苏州科技大学
Publication of WO2021244079A1 publication Critical patent/WO2021244079A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the invention relates to an image target detection method in a smart home environment.
  • Target detection is an important technology in computer vision, and it has a wide range of applications in the fields of autopilot, intelligent robotics, and intelligent security.
  • the classic target detection methods include the detection method based on HOG features proposed by Dalal in 2005, and the Deformable Part Model (DPM) detection method proposed by Felzenswalb et al. in 2008.
  • the method first uses the gradient operator to calculate The HOG feature of the target object is extracted and the sliding window + SVM method is used for classification, which performs well in target detection.
  • Convolutional neural network is a very important model in computer vision and image processing. It has a wide range of applications in image classification, face recognition, action recognition, image segmentation, target detection, etc., and has achieved great success. Compared with the traditional target detection method, the deep neural network has strong ability to extract features, and the detection accuracy and detection speed are greatly improved.
  • the widely used neural network-based target detection methods are mainly divided into two categories: one is the "two-stage detector", which divides the target detection into two steps, first determines the candidate frame and then recognizes the target in the area
  • the detection accuracy of this type of method is relatively high, and the detection speed is relatively low, generally only reaching 5fps.
  • Typical networks include RCNN, FAST-RCNN, FASTER-RCNN, etc.; the other type is "one-stage detector", this type of method Using regression ideas to complete the detection and recognition of the selected box at the same time, to achieve end-to-end detection and recognition.
  • Typical networks include YOLO, SSD, etc. This type of method has extremely fast detection speed but relatively low detection accuracy.
  • the purpose of the present invention is to overcome the shortcomings of the prior art and provide a method for detecting image targets in a smart home environment.
  • ImageNet data to pre-train the model
  • use random seed fusion multiple image enhancement methods to enhance and expand the home data
  • the above-mentioned method for detecting image targets in a smart home environment includes the following steps:
  • VGG16 is a series of convolutional layers connected to each other to form a feature map with reduced spatial resolution and increased receptive field, loss of information and details; the introduction of hollow convolution, and the simulation of human vision through the convolution kernel In the different receptive field structure in the convolution kernel, the convolution kernel accepts the hollow convolution with different expansion rates to simulate the relationship between the receptive field and the eccentricity; for the feature extraction network, the parameters trained on ImageNet are used for the preprocessed image Conduct training
  • the neural network is used to extract features of the image, and then form the corresponding prediction bounding box, perform regression and classification calculations on the predicted bounding box, and suppress the output of the final result through non-maximum value.
  • the home data set is 8,000 images selected from more than 100,000 images, and each image is manually shot with different backgrounds. Under different angles, different distances, different occlusion situations and different complex stacking situations of various objects, the data set meets the generalization and robustness requirements of network training.
  • the data set contains 23 categories, covering all categories in common home environments .
  • step a) label lmg is used for the filtered data set, and an xml file corresponding to the labeled image is generated, and each xml file records Image name, label object category and its corresponding pixel coordinate information.
  • step a random seeds are used to perform rotation transformation, flip transformation, scaling transformation, translation transformation, size transformation, color transformation, noise disturbance, and elastic distortion data
  • the enhancement mode is randomly combined, and the data is enhanced and expanded.
  • step b full convolution processing is adopted for the inconsistent image sizes to make it adaptive to images with various aspect ratios.
  • step b) C.Relu is introduced as the activation function, which allows simultaneous activation in the positive and negative directions, while maintaining the same degree of non-saturation and non-linearity , To reduce redundancy during activation.
  • step b) during the training process, a total of 40,000 to 60,000 batches are trained, batch_size is 8 to 32, and the Adam algorithm is used on the basis of ImageNet pre-training parameters Optimization; Based on the parameters of ImageNet pre-training, the Adam algorithm is used for optimization, and the first-order matrix estimation and the second-order matrix estimation of the gradient are used for dynamic adjustment;
  • the exponential decay learning rate is adopted, that is, the learning rate will be adjusted and changed according to the speed of training decline.
  • the formula of the exponential decay learning rate is:
  • lr is the current learning rate
  • lr 0 is the initial learning rate
  • gamma is the learning rate decay coefficient
  • globalstep is the current iteration number
  • decaysteps is the decay speed
  • * is the multiplication sign
  • is the power operation.
  • step c) cluster analysis is performed on the data set samples through the K-means algorithm, and 3 a priori boxes 13 ⁇ 13, 13 ⁇ 13, 26 ⁇ 26, 52 ⁇ 52, the number of channels is 3, the size of the subsequent bounding box will be fine-tuned based on 9 a priori boxes; for an input image, feature extraction through the basic network, input into the FPN structure, and finally generate 3 scales
  • the feature map of is used as prediction; the feature map is divided into grid areas, and three bounding boxes are predicted on each grid, a total of:
  • the smart home environment detection target image wherein the step d), by the neural network feature extraction, to obtain the coordinates of each boundary frame prediction four: t x, t y, t w, t h, the target
  • the distance from the network to the upper left corner is (c x , c y )
  • the corresponding bounding box width and height are p w , p h
  • the corresponding prediction relationship is as follows:
  • t x, t y is the predicted value of the network
  • is a sigmoid function, t w, t h coordinate, p w, p h Cell corresponding bounding box width and height;
  • the present invention has significant advantages and beneficial effects, which are specifically embodied in the following aspects:
  • the target detection method for smart home environment images based on migration learning of the present invention is an integrated deep neural network method. It is used for target detection of smart home images.
  • a lightweight neural network is used to reduce the number of neural network layers. The amount of calculation; secondly, use the migration learning method to pre-train the model, so that it has a good performance on the smart home data set with a small amount of data;
  • 2Data screening is more targeted.
  • the screened data is different best angles, different distances, different occlusion situations and different complex stacking conditions of various objects under different weather, different lighting, and different backgrounds.
  • the data can reach network training.
  • Generalization and robustness requirements; data enhancement and expansion do not use a single data enhancement method, but use random seeds to fuse multiple data enhancement methods with a certain probability to form a new data enhancement method and further increase data Generalization and robustness;
  • 3Introduce hollow convolution instead of traditional neural network convolution and pooling operations, by simulating different receptive field structures in human vision, so that the convolution kernel can accept different expansion rates between the receptive field and eccentricity. Improving the cascaded network VGG16 will form a series of feature maps that continue to decrease in spatial resolution and increase in receptive fields, lose some important information and details, and improve the model's ability to detect small objects.
  • the C.Relu activation function is introduced, which allows simultaneous activation in the positive and negative directions, while maintaining the same degree of non-saturation and nonlinearity. It can save both positive and negative linear responses after convolution, reducing the traditional activation function.
  • the redundancy of convolutional learning and can make more effective use of trainable parameters;
  • FIG. 1 Schematic diagram of the process of the present invention
  • Figure 2 Schematic diagram of the hole convolution module
  • Figure 3 Schematic diagram of the feature extraction network structure.
  • the image target detection method in the smart home environment first uses ImageNet data for model pre-training, and uses random seed fusion multiple image enhancement methods to enhance and expand the home data to ensure the balance of each type of enhanced data , Replace the feature extraction network of the model, replace it with a more lightweight network, and use holes to replace the convolution and pooling layers of the traditional neural network, and use pre-trained model parameters to perform processing on the processed home data set Retrain the model; after that, save the second-trained model and encapsulate it;
  • a corresponding xml file For the annotated images, a corresponding xml file will be generated. Each xml file records the image name, the labeled object category and its corresponding pixel coordinates and other information; using random Seed, random combination of data enhancement methods such as rotation, flip transformation, zoom transformation, translation transformation, size transformation, color transformation, noise disturbance, elastic distortion, etc., with a certain probability, to enhance and expand the data, and finally be enhanced and expanded The later data set reaches 12,000;
  • (a) and (b) represent two different hole convolution modules, and simulate the human vision through 1*1, 3*3, 5*5 and other convolution kernels.
  • the convolution kernel accepts the cavity convolution with different expansion rates to simulate the relationship between the receptive field and eccentricity; (a) and (b) represent different simulation structures. The difference between the two is whether to use a smaller.
  • the convolution kernel replaces the large convolution kernel to reduce the amount of calculation; the traditional convolution and pooling methods lose some information due to the pooling operation, and the hole convolution keeps the convolution kernel size parameter unchanged while increasing the convolution
  • the integrated field of view extracts more global information and enhances the ability to extract small object information.
  • VGG16 is a pipelined feature extraction network.
  • the original VGG16 is a series of cascaded convolutional layers, forming a series of feature maps with decreasing spatial resolution and increasing receptive fields, losing some important
  • the model retains the same cascading structure as VGG16.
  • the RFB-s module is used to replace the traditional convolutional pooling layer.
  • RFB is used for the feature layer with relatively small resolution.
  • RFB-s modules Replace the convolutional pooling layer; replace the first, second, and third layers with RFB-s modules, replace the fourth and fifth layers with RFB; replace the first fusion layer with RFB-s, and replace the second and third fusion layers
  • RFB instead; in addition, flexibly set the expansion rate and the size of the standard convolution kernel to simulate the relationship between the human eye's receptive field and eccentricity; use RFB and RFB-s modules to reduce network parameters and reduce the amount of calculation; make the network more Lightweight, and the ability to extract features of small objects has been improved;
  • the Relu activation function is used. Relu clears the negative value to zero and generates sparse activation, so it is necessary to learn two linearly related positive Phase and anti-phase parameters, the learning of redundant parameters increases the computational cost of the network invisibly;
  • C.Relu Concatenated Rectified Linear Units
  • the basic principle is to allow simultaneous activation in the positive and negative directions, At the same time, the same degree of non-saturation and nonlinearity is maintained; therefore, the positive and negative linear responses can be saved at the same time after convolution, reducing the redundancy of convolutional learning caused by the Relu activation function, and more effective use of trainable parameters ;
  • the function expression of C.Relu is
  • C.Relu is used for nonlinear speech processing.
  • the implementation process of C.Relu in the convolutional neural network is: directly invert the features obtained by convolution, and then convolve with the original Connect the features, and then go through the Relu activation function once;
  • the parameters pre-trained by ImageNet are used, and the improved model is used for training.
  • a total of 60,000 batches are trained, and the batch_size is 8; Adam is used for optimization, and no pooling operation is required during the training process;
  • lr is the current learning rate
  • lr 0 is the initial learning rate
  • gamma is the learning rate decay coefficient (usually between 0 and 1)
  • globalstep is the current iteration number
  • decaysteps is the decay speed
  • * is the multiplication sign
  • is the power Operations.
  • each bounding box prediction is obtained: t x , t y , t w , t h , the distance from the target network to the upper left corner is (c x , c y ) and it corresponds to The width and height of the bounding box are p w , p h , and the corresponding prediction relationship is as follows
  • Each grid also predicts the probability P r (Object) of the object in the prediction box, and scores it by the following formula:
  • the four evaluation indicators are recall rate, accuracy rate, average precision mean and Frame; compared with the original model, the accuracy rate of the present invention is increased to 72.84. %, which is an increase of 4.71%; the recall rate is increased to 73.4%, which is an increase of 2.2%; the average precision and detection speed are increased by 1.2% and 27FPS respectively; and the detection accuracy of small objects is improved by the present invention.
  • the present invention uses a shallower and lighter network for feature extraction, introduces hole convolution for the extraction of home image features, and further optimizes by introducing the C.Relu function to reduce the amount of calculation; it can obtain good and faster Home object detection method; secondly, the model is pre-trained using migration learning, so that it has a good performance on the smart home data set with a small amount of data.
  • the target detection method for smart home environment images based on migration learning of the present invention is an integrated deep neural network method, which is used for target detection of smart home images.
  • a lightweight neural network is used to reduce neural network problems. The number of layers reduces the amount of calculation; secondly, the model is pre-trained using migration learning, so that it has a good performance on the smart home data set with a small amount of data;
  • the screening of data is more targeted.
  • the screened data is based on different best angles, different distances, different occlusion situations and different complex stacking conditions of various objects under different weather, different lighting, and different backgrounds.
  • the data can guarantee the network training Generalization and robustness requirements; data enhancement and expansion do not use a single data enhancement method, but use random seeds to fuse multiple data enhancement methods with a certain probability to form a new data enhancement method to further increase the data Generalization and robustness;
  • the convolution kernel accepts the cavity convolution with different expansion rates to simulate the relationship between the receptive field and the eccentricity, and improving the cascade network VGG16 will form a series of spatial resolutions. The rate continues to decrease, and the receptive field continues to increase the feature map, which loses some important information and details, and improves the model's ability to detect small objects.
  • the C.Relu activation function is introduced to allow simultaneous activation in the positive and negative directions while maintaining the same degree of non-saturation and nonlinearity. It can save both positive and negative linear responses after convolution, reducing the traditional activation function. Redundancy of convolutional learning, and more effective use of trainable parameters;
  • the network design has a certain pertinence and can improve the target of smart home robots
  • the detection capability provides a certain impetus for the development of smart home robots and promotes the development of smart home robots.

Abstract

本发明涉及智能家居环境中图像目标检测方法,通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据增强及扩充预处理操作,利用特征提取网络,引入空洞卷积,采用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练; 保存二次训练好的模型,对其进行封装,对图像库和检测库中的图像进行k-means聚类分析,形成特定的目标检测特征库; 当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取得到预测边框的四个坐标,对预测边框进行回归和分类计算,通过非极大值抑制输出检测结果。满足智能家居环境中目标检测要求。

Description

智能家居环境中图像目标检测方法 技术领域
本发明涉及一种智能家居环境中图像目标检测方法。
背景技术
目标检测是计算机视觉方面一个重要的技术,在汽车自动驾驶、智能机器人技术、智能安防等领域有着广泛的应用。经典的目标检测方法有Dalal于2005年提出的基于HOG特征的检测方法,Felzenswalb等人于2008年提出的可变行组件模型(Deformable Part Model,DPM)检测方法,该方法先利用梯度算子计算出目标物体的HOG特征并采用滑动窗口+SVM的方法进行分类,在目标检测方面表现良好。
近年来,随着计算性能的大幅提升,人工智能和神经网络迅猛发展,基于深度学习的各种计算机视觉处理方式得到广泛应用。卷积神经网络是计算机视觉和图像处理方面一个非常重要的模型,在图像分类、人脸识别、动作识别、图像分割、目标检测等方面具有广泛应用,并取得巨大成功。与传统的目标检测方法相比,深度神经网络提取特征能力强,检测精度和检测速度大幅提升。目前广泛使用的基于神经网络的目标检测方式主要分两类:一类是“二阶段检测器”,该类方法将目标检测分为两步,先确定候选框然后再对区域内的目标进行识别,该类方法检测精度相对较高,检测速度相对低,一般只能达到5fps,典型的网络有RCNN、FAST-RCNN、FASTER-RCNN等;另外一类是“一阶段检测器”,该类方法利用回归思想同时完成后选框的检测与识别,实现端到端的检测与识别,典型网络有 YOLO、SSD等,该类方法检测速度极快,但检测精度相对较低。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种智能家居环境中图像目标检测方法。
本发明的目的通过以下技术方案来实现:
智能家居环境中图像目标检测方法,特点是:
首先通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,采用轻量化的网络进行特征提取,引入空洞卷积,利用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像通过k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取,得到预测边框的四个坐标,然后对预测边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
进一步地,上述的智能家居环境中图像目标检测方法,其中,包括以下步骤:
a)首先,数据的筛选、标签和预处理
从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;对生成的数据集进行数据预处理;
b)然后,利用特征提取网络进行特征提取并训练模型
采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;
c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;
d)最后,通过回归和分类计算输出目标检测的结果;
通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),训练过程中,总计训练40000~60000个batch,batch_size为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;
采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:
Figure PCTCN2021078415-appb-000001
其中,lr为当前学习率,lr 0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:
1×(3×(1313+2626+52×52))×(5+k)=1×1064×(5+k)个边界框,k代表类别数。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:t x,t y,t w,t h,目标网络到左上角的距离为(c x,c y),对应的边界框宽和高为p w,p h,对应的预测关系如下:
b x=σ(t x)+c x,b y=δ(t y)+c y
b w=p we tw,b h=p he th
其中,t x,t y为网络预测值,σ为sigmoid函数,t w,t h为坐标,p w,p h为Cell对应的边界框的宽高;
每个网格预测物体在预测框中的概率P r(Object),通过如下公式进行打分:
Figure PCTCN2021078415-appb-000002
其中,
Figure PCTCN2021078415-appb-000003
为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时P r(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法,用于智能家居图像的目标检测,通过轻量化的神经网络,以减少神经网络的层数,减少计算量;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现;
②数据的筛选更有针对性,筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据可达到网络训练的泛化性和鲁棒性要求;数据的增强和扩充不在使用单个的数据增强方式,而是通过随机种子,以一定的概率融合多种数据增强方式,形成新的数据增强方式,进一步增加数据的泛化性和鲁棒性;
③引入空洞卷积,代替传统的神经网络的卷积和池化操作,通过模拟人类视觉中的不同感受野结构,使卷积核接受不同膨胀率的空洞卷积模拟 感受野和偏心率之间的关系,改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节的问题,提高模型对小物体的目标检测的能力。
④引入C.Relu激活函数,允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,可以在卷积之后同时保存正的和负的线性响应,减少传统激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;
⑤通过数据的筛选、标签和预处理,模型的迁移学习及特征提取网络的改进与二次训练,满足实际智能家居环境中目标检测的要求;网络设计具有一定的针对性,能够提升智能家居机器人目标检测的能力,为智能家居机器人的发展提供一定的动力,促进智能家居机器人的发展。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。
附图说明
图1:本发明的流程示意图;
图2:空洞卷积模块示意图;
图3:特征提取网络结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明具体实施方案。
如图1所示,智能家居环境中图像目标检测方法,首先通过ImageNet数据进行模型预训练,采用随机种子融合多种图像增强方式将家居数据进 行增强和扩充操作,保证每类增强数据的平衡性,将模型的特征提取网络进行替换,用更加轻量化的网络进行代替,并且采用空洞代替传统神经网络的卷积与池化层,采用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;之后,保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像进行k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用替换后的特征提取网络进行特征的提取得到预测边框的四个坐标,然后对每一个边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
具体包括以下步骤:
a)首先,数据的筛选、打标签和预处理;
家居数据没有现成的大规模的数据集,需要从海量的图像库中筛选出一些符合智能家居环境的图像;从10万多张图像中筛选出8000张图像,每张图像均为手工拍摄;不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集包含信息丰富,可达到网络训练的泛化性和鲁棒性要求;数据集包含23个类别,涵盖常见的家居环境中所有类别;
对筛选好的数据集用labellmg进行标签的制作,对于标注后的图像会生成与其相对应的xml文件,每个xml文件记录图像名称,标注的对象类别及其对应的像素坐标等信息;采用随机种子,以一定的概率对旋转、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变等数据增强方式进行随机组合,对数据进行增强及扩充操作,最终经过增强和扩充后的数据集达到12000张;
b)然后,替换模型的特征提取网络并训练模型;
引入空洞卷积,如图2所示,(a)和(b)分别代表两种不同的空洞卷积模块,通过1*1、3*3、5*5等卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;(a) 和(b)代表不同的模拟结构,两者的差别在于是否用更小的卷积核替换大卷积核,以减少计算量;传统的卷积和池化方式因池化操作损失一些信息,而空洞卷积在保持卷积核大小参数不变的同时,增大卷积的视野,提取更多的全局信息,增强对小物体信息的提取能力。
利用VGG16作为特征提取网络,VGG16是一种流水线形特征提取网络,原始的VGG16是一连串级联的卷积层,形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节;模型保留与VGG16相同的级联结构,在具有相对大分辨率的特征层,采用RFB-s模块代替传统的卷积池化层,针对相对小分辨率的特征层,采用RFB代替卷积池化层;将第一、二、三层用RFB-s模块代替,第四层和第五层用RFB代替;第一个融合层用RFB-s代替,第二、三融合层用RFB代替;此外,灵活设置膨胀率和标准卷积核的大小模拟人眼的感受野和偏心率之间的关系;用RFB和RFB-s模块来减少网络参数,减少计算量;使网络更加轻量化,且对于小物体特征的提取能力有所提升;
由于卷积核学习到的参数分布具有很强的正负相关性,在卷积神经网络中,采用Relu激活函数,Relu将负值清零并产生稀疏激活,所以需要学习两个线性相关的正相位和反相位的参数,对冗余参数的学习无形中增加了网络的计算消耗;引入C.Relu(Concatenated Rectified Linear Units)函数,其基本原理是允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性;因此,可以在卷积之后同时保存正的和负的线性响应,减少Relu激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;C.Relu的函数表达式为
C·Relu(x)=[Relu(x),Relu(-x)],
Figure PCTCN2021078415-appb-000004
在特征提取网络的低卷积层中,采用C.Relu进行非线性话处理,C.Relu在卷积神经网络中的实现过程为:将卷积得到的特征直接取反, 再与原卷积特征相连,然后经过一次Relu激活函数即可;
训练过程中,采用ImageNet预训练好的参数,用改进后的模型进行训练,总计训练了60000个batch,batch_size为8;使用Adam进行优化,训练过程中不需要池化操作;
采用指数衰减学习率,即学习率回根据训练下降的速度自行调节变化,防止产生震荡,加快收敛速度;指数衰减学习率的公式为:
Figure PCTCN2021078415-appb-000005
其中,lr为当前学习率,lr 0为初始学习率,gamma为学习率衰减系数(一般在0~1之间),globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
c)继而,对图像库和目标检测库中的图像进行k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续编大小将基于9个先验框进行微调;
对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将这些特征图划分为网格区域,在每个网格上预测三个边界框,一共产生1×(3×(1313+2626+52×52))×(5+k)=1×1064×(5+k)个边界框,k代表类别数;
d)最后,通过回归和分类计算输出目标检测的结果;
通过改进后的神经网络进行特征提取得到每个边界框预测四个坐标:t x,t y,t w,t h,目标网络到左上角的距离为(c x,c y)并且它对应的边界框宽和高为p w,p h,对应的预测关系如下
b x=σ(t x)+c x,b y=δ(t y)+c y
b w=p we tw,b h=p he th
每个网格还预测物体在预测框中的概率P r(Object),并且通过如下公式进行打分:
Figure PCTCN2021078415-appb-000006
其中,
Figure PCTCN2021078415-appb-000007
为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时P r(Object)=1,否则为0;预测框最终通过非极大值抑制得出最后的结果。
结合四种主流的评估指标,对原模型和本发明的表现进行评估,四个评价指标分别为召回率、精准率、平均精度均值和Frame;与原模型相比,本发明精准率提高到72.84%,提高4.71个百分点;召回率提高到73.4%,提高2.2个百分点;在平均精度均值和检测速度方面分别提升了1.2%和27FPS;并且,本发明对小物体检测精度有所提高。
本发明采用更浅、更轻量化的网络进行特征的提取,引入空洞卷积,用于家居图像特征的提取,通过引入C.Relu函数进一步进行优化,减少计算量;可以获得良好且更加快速的家居目标检测方式;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现。
综上所述,本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法,用于智能家居图像的目标检测,通过轻量化的神经网络,以减少神经网络的层数,减少计算量;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现;
数据的筛选更有针对性,筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据可保证网络训练的泛化性和鲁棒性要求;数据的增强和扩充不在使用单个的数据增强方式,而是通过随机种子,以一定的概率融 合多种数据增强方式,形成新的数据增强方式,进一步增加数据的泛化性和鲁棒性;
引入空洞卷积,通过模拟人类视觉中的不同感受野结构,使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系,改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节的问题,提高模型对小物体的目标检测的能力。
引入C.Relu激活函数,允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,可以在卷积之后同时保存正的和负的线性响应,减少传统激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;
通过数据的筛选、标签和预处理,模型的迁移学习及特征提取网络的改进与二次训练,满足实际智能家居环境中目标检测的要求;网络设计具有一定的针对性,能够提升智能家居机器人目标检测的能力,为智能家居机器人的发展提供一定的动力,促进智能家居机器人的发展。
需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。

Claims (10)

  1. 智能家居环境中图像目标检测方法,其特征在于:
    首先通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,采用轻量化的网络进行特征提取,引入空洞卷积,利用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,进行封装;
    对图像库和目标检测库中的图像通过k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取,得到预测边框的四个坐标,然后对预测边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
  2. 根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:包括以下步骤:
    a)首先,数据的筛选、标签和预处理
    从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;对生成的数据集进行数据预处理;
    b)然后,利用特征提取网络进行特征提取并训练模型
    采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;
    c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;
    d)最后,通过回归和分类计算输出目标检测的结果;
    通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果。
  3. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。
  4. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。
  5. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。
  6. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。
  7. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。
  8. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),训练过程中,总计训练40000~60000个batch,batch_size 为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;
    采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:
    Figure PCTCN2021078415-appb-100001
    其中,lr为当前学习率,lr 0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
  9. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:
    1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数。
  10. 根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:t x,t y,t w,t h,目标网络到左上角的距离为(c x,c y),对应的边界框宽和高为p w,p h,对应的预测关系如下:
    b x=σ(t x)+c x,b y=δ(t y)+c y
    b w=p we tw,b h=p he th
    其中,t x,t y为网络预测值,σ为sigmoid函数,t w,t h为坐标,p w,p h为Cell对应的边界框的宽高;
    每个网格预测物体在预测框中的概率P r(Object),通过如下公式进行打分:
    Figure PCTCN2021078415-appb-100002
    其中,
    Figure PCTCN2021078415-appb-100003
    为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时P r(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。
PCT/CN2021/078415 2020-06-02 2021-03-01 智能家居环境中图像目标检测方法 WO2021244079A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010489218.3 2020-06-02
CN202010489218.3A CN111476219A (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法

Publications (1)

Publication Number Publication Date
WO2021244079A1 true WO2021244079A1 (zh) 2021-12-09

Family

ID=71763646

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/078415 WO2021244079A1 (zh) 2020-06-02 2021-03-01 智能家居环境中图像目标检测方法

Country Status (2)

Country Link
CN (1) CN111476219A (zh)
WO (1) WO2021244079A1 (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120077A (zh) * 2022-01-27 2022-03-01 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114241308A (zh) * 2021-12-17 2022-03-25 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114330460A (zh) * 2022-01-12 2022-04-12 齐鲁工业大学 一种基于灵巧手触觉的物体属性识别方法
CN114445689A (zh) * 2022-01-29 2022-05-06 福州大学 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114494151A (zh) * 2021-12-30 2022-05-13 山东师范大学 一种复杂果园环境下的果实检测方法及系统
CN114511644A (zh) * 2022-01-21 2022-05-17 电子科技大学 一种基于深度学习的自适应数字伪装方法
CN114663769A (zh) * 2022-04-07 2022-06-24 杭州电子科技大学 一种基于YOLO v5的水果识别方法
CN114724179A (zh) * 2022-03-10 2022-07-08 大连海洋大学 一种基于深度学习的水下扇贝识别方法
CN114782735A (zh) * 2022-02-22 2022-07-22 北京航空航天大学杭州创新研究院 一种基于多区域数据增强的菜品识别方法
CN114782355A (zh) * 2022-04-18 2022-07-22 华南理工大学 基于改进vgg16网络的胃癌数字病理切片检测方法
CN114821433A (zh) * 2022-05-05 2022-07-29 南京智慧水运科技有限公司 一种基于目标检测信度动态融合的目标识别方法
CN114821368A (zh) * 2022-05-05 2022-07-29 合肥工业大学 一种基于强化学习和Transformer的电力缺陷检测方法
CN114821315A (zh) * 2022-04-24 2022-07-29 福州大学 结合边缘检测和多任务学习的遥感影像耕地地块提取方法
CN114842208A (zh) * 2022-06-08 2022-08-02 南昌大学 一种基于深度学习的电网危害鸟种目标检测方法
CN114862751A (zh) * 2022-01-21 2022-08-05 西北工业大学 一种用于快速识别全息图像中铝燃烧颗粒的目标检测方法
CN114882556A (zh) * 2022-04-26 2022-08-09 西北大学 一种基于改进的YoloX的戏曲角色妆容脸部检测方法
CN114898327A (zh) * 2022-03-15 2022-08-12 武汉理工大学 一种基于轻量化深度学习网络的车辆检测方法
CN114913428A (zh) * 2022-04-26 2022-08-16 哈尔滨理工大学 一种基于深度学习的遥感图像目标检测系统
CN114926629A (zh) * 2022-03-31 2022-08-19 北京工业大学 一种基于轻量化卷积神经网络的红外船目标显著性检测方法
CN114973390A (zh) * 2022-05-30 2022-08-30 西北工业大学 结合眼动注意力机制的复杂背景红外微弱目标检测方法
CN114972208A (zh) * 2022-05-05 2022-08-30 扬州大学 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN114972869A (zh) * 2022-05-30 2022-08-30 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN114972525A (zh) * 2022-04-21 2022-08-30 浙江理工大学 一种面向机器人抓取及增强现实的空间目标六自由度姿态估计方法
CN115100495A (zh) * 2022-07-08 2022-09-23 福州大学 基于子特征融合的轻量化安全帽检测方法
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN115169504A (zh) * 2022-09-06 2022-10-11 山东洲蓝环保科技有限公司 一种煤气精脱硫工艺中的设备异常识别方法
CN115220361A (zh) * 2022-08-02 2022-10-21 福州大学 基于深度学习的智能家居服务管控方法
CN115221207A (zh) * 2022-06-21 2022-10-21 广州极点三维信息科技有限公司 一种智能家居方案设计方法、系统、装置及存储介质
CN115482227A (zh) * 2022-09-26 2022-12-16 中机生产力促进中心有限公司 机器视觉自适应成像环境调整方法
CN115546555A (zh) * 2022-10-18 2022-12-30 安徽大学 一种基于混合表征学习增强的轻量化sar目标检测方法
CN115631326A (zh) * 2022-08-15 2023-01-20 无锡东如科技有限公司 一种智能机器人的知识驱动3d视觉检测方法
CN115775236A (zh) * 2022-11-24 2023-03-10 广东工业大学 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统
CN116245557A (zh) * 2023-03-28 2023-06-09 啄木鸟房屋科技发展(广东)股份有限公司 一种用于分析住户体验的数据处理方法及装置
CN116309465A (zh) * 2023-03-21 2023-06-23 湖南中医药大学 一种基于改进的YOLOv5的自然环境下舌像检测定位方法
CN116342985A (zh) * 2023-02-14 2023-06-27 中南大学 一种用于动态智能货柜的鲁棒性特征学习方法
CN116580285A (zh) * 2023-07-14 2023-08-11 西安益迪惟科智能科技有限责任公司 铁路绝缘子夜间目标识别检测方法
CN116611503A (zh) * 2023-07-21 2023-08-18 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN116863252A (zh) * 2023-09-04 2023-10-10 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN116977931A (zh) * 2023-07-31 2023-10-31 深圳市星河智善科技有限公司 一种基于深度学习的高空抛物识别方法
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117152422A (zh) * 2023-10-31 2023-12-01 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备
CN117315446A (zh) * 2023-11-29 2023-12-29 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种面向复杂环境下水库溢洪道异常智能识别方法
CN117350926A (zh) * 2023-12-04 2024-01-05 北京航空航天大学合肥创新研究院 一种基于目标权重的多模态数据增强方法
CN117351022A (zh) * 2023-12-06 2024-01-05 长沙能川信息科技有限公司 一种基于复杂环境下的输电线路绝缘子缺陷检测方法
CN117527399A (zh) * 2023-11-28 2024-02-06 广州视声智能股份有限公司 用于智能家居的信息安全加密方法及系统
CN117611877A (zh) * 2023-10-30 2024-02-27 西安电子科技大学 基于ls-yolo网络的遥感影像滑坡体检测方法
CN117689020A (zh) * 2024-02-04 2024-03-12 青岛海尔科技有限公司 基于大模型构建智能家居本体的方法及装置、电子设备
WO2024051296A1 (zh) * 2022-09-07 2024-03-14 南京邮电大学 一种复杂天气下障碍物检测方法及装置
CN114782735B (zh) * 2022-02-22 2024-04-26 北京航空航天大学杭州创新研究院 一种基于多区域数据增强的菜品识别方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476219A (zh) * 2020-06-02 2020-07-31 苏州科技大学 智能家居环境中图像目标检测方法
CN111738231B (zh) * 2020-08-06 2020-12-11 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN112597801B (zh) * 2020-11-24 2023-08-01 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112598043B (zh) * 2020-12-17 2023-08-18 杭州电子科技大学 一种基于弱监督学习的协同显著性检测方法
CN113221761B (zh) * 2021-05-17 2023-09-05 深圳大学 基于集成式Yolo网络的iPSCs群落检测方法、存储介质及装置
CN113283428B (zh) * 2021-07-20 2021-10-08 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
CN114494890B (zh) * 2022-04-14 2022-08-23 广州市玄武无线科技股份有限公司 一种模型训练方法、商品图像管理方法及装置
CN117590761B (zh) * 2023-12-29 2024-04-19 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法
US20180268556A1 (en) * 2017-03-17 2018-09-20 Uurmi Systems Pvt Ltd Method for detecting moving objects in a video having non-stationary background
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110751134A (zh) * 2019-12-23 2020-02-04 长沙智能驾驶研究院有限公司 目标检测方法、存储介质及计算机设备
CN110796037A (zh) * 2019-10-15 2020-02-14 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN110956119A (zh) * 2019-11-26 2020-04-03 大连理工大学 一种准确且快速的图像中目标检测方法
CN111476219A (zh) * 2020-06-02 2020-07-31 苏州科技大学 智能家居环境中图像目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268556A1 (en) * 2017-03-17 2018-09-20 Uurmi Systems Pvt Ltd Method for detecting moving objects in a video having non-stationary background
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110796037A (zh) * 2019-10-15 2020-02-14 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN110956119A (zh) * 2019-11-26 2020-04-03 大连理工大学 一种准确且快速的图像中目标检测方法
CN110751134A (zh) * 2019-12-23 2020-02-04 长沙智能驾驶研究院有限公司 目标检测方法、存储介质及计算机设备
CN111476219A (zh) * 2020-06-02 2020-07-31 苏州科技大学 智能家居环境中图像目标检测方法

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241308A (zh) * 2021-12-17 2022-03-25 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114241308B (zh) * 2021-12-17 2023-08-04 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114494151A (zh) * 2021-12-30 2022-05-13 山东师范大学 一种复杂果园环境下的果实检测方法及系统
CN114330460A (zh) * 2022-01-12 2022-04-12 齐鲁工业大学 一种基于灵巧手触觉的物体属性识别方法
CN114511644A (zh) * 2022-01-21 2022-05-17 电子科技大学 一种基于深度学习的自适应数字伪装方法
CN114862751B (zh) * 2022-01-21 2024-03-22 西北工业大学 一种用于快速识别全息图像中铝燃烧颗粒的目标检测方法
CN114511644B (zh) * 2022-01-21 2023-06-09 电子科技大学 一种基于深度学习的自适应数字伪装方法
CN114862751A (zh) * 2022-01-21 2022-08-05 西北工业大学 一种用于快速识别全息图像中铝燃烧颗粒的目标检测方法
CN114120077A (zh) * 2022-01-27 2022-03-01 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114445689A (zh) * 2022-01-29 2022-05-06 福州大学 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114782735B (zh) * 2022-02-22 2024-04-26 北京航空航天大学杭州创新研究院 一种基于多区域数据增强的菜品识别方法
CN114782735A (zh) * 2022-02-22 2022-07-22 北京航空航天大学杭州创新研究院 一种基于多区域数据增强的菜品识别方法
CN114724179A (zh) * 2022-03-10 2022-07-08 大连海洋大学 一种基于深度学习的水下扇贝识别方法
CN114724179B (zh) * 2022-03-10 2024-04-30 大连海洋大学 一种基于深度学习的水下扇贝识别方法
CN114898327B (zh) * 2022-03-15 2024-04-26 武汉理工大学 一种基于轻量化深度学习网络的车辆检测方法
CN114898327A (zh) * 2022-03-15 2022-08-12 武汉理工大学 一种基于轻量化深度学习网络的车辆检测方法
CN114926629B (zh) * 2022-03-31 2024-03-22 北京工业大学 一种基于轻量化卷积神经网络的红外船目标显著性检测方法
CN114926629A (zh) * 2022-03-31 2022-08-19 北京工业大学 一种基于轻量化卷积神经网络的红外船目标显著性检测方法
CN114663769B (zh) * 2022-04-07 2023-04-18 杭州电子科技大学 一种基于YOLO v5的水果识别方法
CN114663769A (zh) * 2022-04-07 2022-06-24 杭州电子科技大学 一种基于YOLO v5的水果识别方法
CN114782355A (zh) * 2022-04-18 2022-07-22 华南理工大学 基于改进vgg16网络的胃癌数字病理切片检测方法
CN114972525A (zh) * 2022-04-21 2022-08-30 浙江理工大学 一种面向机器人抓取及增强现实的空间目标六自由度姿态估计方法
CN114821315A (zh) * 2022-04-24 2022-07-29 福州大学 结合边缘检测和多任务学习的遥感影像耕地地块提取方法
CN114913428A (zh) * 2022-04-26 2022-08-16 哈尔滨理工大学 一种基于深度学习的遥感图像目标检测系统
CN114882556A (zh) * 2022-04-26 2022-08-09 西北大学 一种基于改进的YoloX的戏曲角色妆容脸部检测方法
CN114882556B (zh) * 2022-04-26 2024-03-15 西北大学 一种基于改进的YoloX的戏曲角色妆容脸部检测方法
CN114821368A (zh) * 2022-05-05 2022-07-29 合肥工业大学 一种基于强化学习和Transformer的电力缺陷检测方法
CN114821368B (zh) * 2022-05-05 2024-03-01 合肥工业大学 一种基于强化学习和Transformer的电力缺陷检测方法
CN114821433A (zh) * 2022-05-05 2022-07-29 南京智慧水运科技有限公司 一种基于目标检测信度动态融合的目标识别方法
CN114972208B (zh) * 2022-05-05 2024-04-09 扬州大学 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN114821433B (zh) * 2022-05-05 2024-04-12 南京智慧水运科技有限公司 一种基于目标检测信度动态融合的目标识别方法
CN114972208A (zh) * 2022-05-05 2022-08-30 扬州大学 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN114973390B (zh) * 2022-05-30 2024-03-12 西北工业大学 结合眼动注意力机制的复杂背景红外微弱目标检测方法
CN114972869B (zh) * 2022-05-30 2024-02-20 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN114973390A (zh) * 2022-05-30 2022-08-30 西北工业大学 结合眼动注意力机制的复杂背景红外微弱目标检测方法
CN114972869A (zh) * 2022-05-30 2022-08-30 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN114842208A (zh) * 2022-06-08 2022-08-02 南昌大学 一种基于深度学习的电网危害鸟种目标检测方法
CN114842208B (zh) * 2022-06-08 2024-05-03 南昌大学 一种基于深度学习的电网危害鸟种目标检测方法
CN115221207A (zh) * 2022-06-21 2022-10-21 广州极点三维信息科技有限公司 一种智能家居方案设计方法、系统、装置及存储介质
CN115221207B (zh) * 2022-06-21 2023-04-11 广州极点三维信息科技有限公司 一种智能家居方案设计方法、系统、装置及存储介质
CN115100495A (zh) * 2022-07-08 2022-09-23 福州大学 基于子特征融合的轻量化安全帽检测方法
CN115220361A (zh) * 2022-08-02 2022-10-21 福州大学 基于深度学习的智能家居服务管控方法
CN115631326A (zh) * 2022-08-15 2023-01-20 无锡东如科技有限公司 一种智能机器人的知识驱动3d视觉检测方法
CN115631326B (zh) * 2022-08-15 2023-10-31 无锡东如科技有限公司 一种智能机器人的知识驱动3d视觉检测方法
CN115169504A (zh) * 2022-09-06 2022-10-11 山东洲蓝环保科技有限公司 一种煤气精脱硫工艺中的设备异常识别方法
WO2024051296A1 (zh) * 2022-09-07 2024-03-14 南京邮电大学 一种复杂天气下障碍物检测方法及装置
CN115482227B (zh) * 2022-09-26 2023-09-12 中机生产力促进中心有限公司 机器视觉自适应成像环境调整方法
CN115482227A (zh) * 2022-09-26 2022-12-16 中机生产力促进中心有限公司 机器视觉自适应成像环境调整方法
CN115546555B (zh) * 2022-10-18 2024-05-03 安徽大学 一种基于混合表征学习增强的轻量化sar目标检测方法
CN115546555A (zh) * 2022-10-18 2022-12-30 安徽大学 一种基于混合表征学习增强的轻量化sar目标检测方法
CN115775236A (zh) * 2022-11-24 2023-03-10 广东工业大学 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统
CN116342985A (zh) * 2023-02-14 2023-06-27 中南大学 一种用于动态智能货柜的鲁棒性特征学习方法
CN116342985B (zh) * 2023-02-14 2023-09-12 中南大学 一种用于动态智能货柜的鲁棒性特征学习方法
CN116309465A (zh) * 2023-03-21 2023-06-23 湖南中医药大学 一种基于改进的YOLOv5的自然环境下舌像检测定位方法
CN116309465B (zh) * 2023-03-21 2024-02-13 湖南中医药大学 一种基于改进的YOLOv5的自然环境下舌像检测定位方法
CN116245557A (zh) * 2023-03-28 2023-06-09 啄木鸟房屋科技发展(广东)股份有限公司 一种用于分析住户体验的数据处理方法及装置
CN116245557B (zh) * 2023-03-28 2023-09-19 啄木鸟房屋科技发展(广东)股份有限公司 一种用于分析住户体验的数据处理方法及装置
CN116580285A (zh) * 2023-07-14 2023-08-11 西安益迪惟科智能科技有限责任公司 铁路绝缘子夜间目标识别检测方法
CN116580285B (zh) * 2023-07-14 2023-09-22 西安益迪惟科智能科技有限责任公司 铁路绝缘子夜间目标识别检测方法
CN116611503A (zh) * 2023-07-21 2023-08-18 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN116611503B (zh) * 2023-07-21 2023-09-22 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN116977931A (zh) * 2023-07-31 2023-10-31 深圳市星河智善科技有限公司 一种基于深度学习的高空抛物识别方法
CN116863252B (zh) * 2023-09-04 2023-11-21 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN116863252A (zh) * 2023-09-04 2023-10-10 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117611877A (zh) * 2023-10-30 2024-02-27 西安电子科技大学 基于ls-yolo网络的遥感影像滑坡体检测方法
CN117152422A (zh) * 2023-10-31 2023-12-01 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备
CN117152422B (zh) * 2023-10-31 2024-02-13 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备
CN117527399A (zh) * 2023-11-28 2024-02-06 广州视声智能股份有限公司 用于智能家居的信息安全加密方法及系统
CN117315446A (zh) * 2023-11-29 2023-12-29 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种面向复杂环境下水库溢洪道异常智能识别方法
CN117315446B (zh) * 2023-11-29 2024-02-09 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种面向复杂环境下水库溢洪道异常智能识别方法
CN117350926A (zh) * 2023-12-04 2024-01-05 北京航空航天大学合肥创新研究院 一种基于目标权重的多模态数据增强方法
CN117350926B (zh) * 2023-12-04 2024-02-13 北京航空航天大学合肥创新研究院 一种基于目标权重的多模态数据增强方法
CN117351022B (zh) * 2023-12-06 2024-03-08 长沙能川信息科技有限公司 一种基于复杂环境下的输电线路绝缘子缺陷检测方法
CN117351022A (zh) * 2023-12-06 2024-01-05 长沙能川信息科技有限公司 一种基于复杂环境下的输电线路绝缘子缺陷检测方法
CN117689020A (zh) * 2024-02-04 2024-03-12 青岛海尔科技有限公司 基于大模型构建智能家居本体的方法及装置、电子设备

Also Published As

Publication number Publication date
CN111476219A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
WO2021244079A1 (zh) 智能家居环境中图像目标检测方法
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN107403200A (zh) 改进图像分割算法结合深度学习的多重不良图片分类方法
CN111783772A (zh) 一种基于RP-ResNet网络的抓取检测方法
CN111612051B (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN112364931A (zh) 基于元特征和权重调整的少样本目标检测方法及网络模型
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
WO2021051987A1 (zh) 神经网络模型训练的方法和装置
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN115222946B (zh) 一种单阶段实例图像分割方法、装置以及计算机设备
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN111222534A (zh) 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法
Yang et al. Research on classification algorithms for attention mechanism
Rao et al. Roads detection of aerial image with FCN-CRF model
CN116363415A (zh) 一种基于自适应特征层融合的船舶目标检测方法
Li et al. An enhanced squeezenet based network for real-time road-object segmentation
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21818050

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21818050

Country of ref document: EP

Kind code of ref document: A1