WO2021244079A1

WO2021244079A1 - 智能家居环境中图像目标检测方法

Info

Publication number: WO2021244079A1
Application number: PCT/CN2021/078415
Authority: WO
Inventors: 奚雪峰; 段杰; 崔志明; 王金亮; 夏炜; 史庆伟; 王坚; 曾诚
Original assignee: 苏州科技大学; 昆山市公安局
Priority date: 2020-06-02
Filing date: 2021-03-01
Publication date: 2021-12-09
Also published as: CN111476219A

Abstract

本发明涉及智能家居环境中图像目标检测方法，通过ImageNet数据进行模型的预训练，采用随机种子融合多种图像增强方式将家居数据增强及扩充预处理操作，利用特征提取网络，引入空洞卷积，采用预训练好的模型参数，对处理好的家居数据集进行模型的再次训练; 保存二次训练好的模型，对其进行封装，对图像库和检测库中的图像进行k-means聚类分析，形成特定的目标检测特征库; 当输入单张家居图像时，对输入的图像用特征提取网络进行特征的提取得到预测边框的四个坐标，对预测边框进行回归和分类计算，通过非极大值抑制输出检测结果。满足智能家居环境中目标检测要求。

Description

智能家居环境中图像目标检测方法

技术领域

本发明涉及一种智能家居环境中图像目标检测方法。

背景技术

目标检测是计算机视觉方面一个重要的技术，在汽车自动驾驶、智能机器人技术、智能安防等领域有着广泛的应用。经典的目标检测方法有Dalal于2005年提出的基于HOG特征的检测方法，Felzenswalb等人于2008年提出的可变行组件模型(Deformable Part Model，DPM)检测方法，该方法先利用梯度算子计算出目标物体的HOG特征并采用滑动窗口+SVM的方法进行分类，在目标检测方面表现良好。

近年来，随着计算性能的大幅提升，人工智能和神经网络迅猛发展，基于深度学习的各种计算机视觉处理方式得到广泛应用。卷积神经网络是计算机视觉和图像处理方面一个非常重要的模型，在图像分类、人脸识别、动作识别、图像分割、目标检测等方面具有广泛应用，并取得巨大成功。与传统的目标检测方法相比，深度神经网络提取特征能力强，检测精度和检测速度大幅提升。目前广泛使用的基于神经网络的目标检测方式主要分两类：一类是“二阶段检测器”，该类方法将目标检测分为两步，先确定候选框然后再对区域内的目标进行识别，该类方法检测精度相对较高，检测速度相对低，一般只能达到5fps，典型的网络有RCNN、FAST-RCNN、FASTER-RCNN等；另外一类是“一阶段检测器”，该类方法利用回归思想同时完成后选框的检测与识别，实现端到端的检测与识别，典型网络有 YOLO、SSD等，该类方法检测速度极快，但检测精度相对较低。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种智能家居环境中图像目标检测方法。

本发明的目的通过以下技术方案来实现：

智能家居环境中图像目标检测方法，特点是：

首先通过ImageNet数据进行模型的预训练，采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作，采用轻量化的网络进行特征提取，引入空洞卷积，利用预训练好的模型参数，对处理好的家居数据集进行模型的再次训练；保存二次训练好的模型，进行封装；

对图像库和目标检测库中的图像通过k-means算法进行聚类分析，形成特定的目标检测特征库；当输入单张家居图像时，对输入的图像用特征提取网络进行特征的提取，得到预测边框的四个坐标，然后对预测边框进行回归和分类计算，最后通过非极大值抑制输出检测结果。

进一步地，上述的智能家居环境中图像目标检测方法，其中，包括以下步骤：

a)首先，数据的筛选、标签和预处理

从海量的图像库中筛选出符合智能家居环境的图像；随后对筛选的图像打标签，生成目标检测数据集；对生成的数据集进行数据预处理；

b)然后，利用特征提取网络进行特征提取并训练模型

采用16层VGG16作为特征提取网络，VGG16为一连串级联网的卷积层，形成空间分辨率降低、感受野增大的特征图，损失信息和细节；引入空洞卷积，通过卷积核模拟人类视觉中的不同感受野结构，卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系；针对特征提取网络，利用在ImageNet上训练好的参数，对预处理好的图像进行训练；

c)继而，对图像库和目标检测库中的图像通过k-means算法进行聚类分析，在3个不同尺度生成3个先验框，通道数为3，后续框大小将基于9个先验框进行微调；

d)最后，通过回归和分类计算输出目标检测的结果；

通过神经网络对图像进行特征的提取，进而形成相应的预测边界框，对预测边界框进行回归和分类计算，并且通过非极大值抑制输出最后的结果。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤a)，家居数据集是从10万多张图像中筛选出的8000张图像，每张图像均为手工拍摄，不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况，数据集达到网络训练的泛化性和鲁棒性要求，数据集包含23个类别，涵盖常见的家居环境中所有类别。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤a)，对筛选好的数据集用labellmg进行标签制作，对于标注后的图像生成与其相对应的xml文件，每个xml文件记录图像名称，标注对象类别及其对应的像素坐标信息。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤a)，采用随机种子，对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合，对数据进行增强及扩充操作。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤b)，对图像大小不一致，采用全卷积处理，使其自适应各类长宽比的图像。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤b)，引入C.Relu作为激活函数，即允许在正方向和负方向上同时激活，同时保持相同程度的非饱和与非线性，减少激活时的冗余。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤b)，训练过程中，总计训练40000～60000个batch，batch_size为8～32，在ImageNet预训练参数的基础上采用Adam算法进行优化；在ImageNet预训练的参数基础上采用Adam算法进行优化，利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整；

采用指数衰减学习率，即学习率会根据训练下降的速度自行调节变化，指数衰减学习率的公式为：

其中，lr为当前学习率，lr ₀为初始学习率，gamma为学习率衰减系数，globalstep为当前迭代次数，decaysteps为衰减速度，*为乘号，^为幂次运算。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤c)，通过K-means算法对数据集样本进行聚类分析，在3个不同尺度上生成3个先验框13×13、26×26、52×52，通道数为3，后续边界框的大小将基于9个先验框进行微调；对于一个输入图像，经过基础网络进行特征提取，输入到FPN结构，最终生成3个尺度的特征图作为预测；将特征图划分为网格区域，在每个网格上预测三个边界框，一共：

1×(3×(1313+2626+52×52))×(5+k)＝1×1064×(5+k)个边界框，k代表类别数。

进一步地，上述的智能家居环境中图像目标检测方法，其中，步骤d)，通过神经网络进行特征提取，得到每个边界框预测四个坐标：t _x，t _y，t _w，t _h，目标网络到左上角的距离为(c _x，c _y)，对应的边界框宽和高为p _w，p _h，对应的预测关系如下:

b _x＝σ(t _x)+c _x，b _y＝δ(t _y)+c _y

b _w＝p _we _tw，b _h＝p _he ^th

其中，t _x，t _y为网络预测值，σ为sigmoid函数，t _w，t _h为坐标,p ^w，p ^h为Cell对应的边界框的宽高；

每个网格预测物体在预测框中的概率P _r(Object)，通过如下公式进行打分：

其中，

为预测框和ground truth的交并比，conf(Object)为置信度，当前网格中存在目标时P _r(Object)＝1，否则为0，预测框最终通过非极大值抑制得出最后的结果。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

①本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法，用于智能家居图像的目标检测，通过轻量化的神经网络，以减少神经网络的层数，减少计算量；其次，使用迁移学习的方式对模型进行预训练，使得在数据量较小的智能家居数据集上有着良好的表现；

②数据的筛选更有针对性，筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况，数据可达到网络训练的泛化性和鲁棒性要求；数据的增强和扩充不在使用单个的数据增强方式，而是通过随机种子，以一定的概率融合多种数据增强方式，形成新的数据增强方式，进一步增加数据的泛化性和鲁棒性；

③引入空洞卷积，代替传统的神经网络的卷积和池化操作，通过模拟人类视觉中的不同感受野结构，使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系，改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图，损失一些重要的信息和细节的问题，提高模型对小物体的目标检测的能力。

④引入C.Relu激活函数，允许在正方向和负方向上同时激活，同时保持相同程度的非饱和与非线性，可以在卷积之后同时保存正的和负的线性响应，减少传统激活函数引起的卷积学习的冗余，而且可以更加有效的利用可训练参数；

⑤通过数据的筛选、标签和预处理，模型的迁移学习及特征提取网络的改进与二次训练，满足实际智能家居环境中目标检测的要求；网络设计具有一定的针对性，能够提升智能家居机器人目标检测的能力，为智能家居机器人的发展提供一定的动力，促进智能家居机器人的发展。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。

附图说明

图1：本发明的流程示意图；

图2：空洞卷积模块示意图；

图3：特征提取网络结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现详细说明具体实施方案。

如图1所示，智能家居环境中图像目标检测方法，首先通过ImageNet数据进行模型预训练，采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作，保证每类增强数据的平衡性，将模型的特征提取网络进行替换，用更加轻量化的网络进行代替，并且采用空洞代替传统神经网络的卷积与池化层，采用预训练好的模型参数，对处理好的家居数据集进行模型的再次训练；之后，保存二次训练好的模型，进行封装；

对图像库和目标检测库中的图像进行k-means算法进行聚类分析，形成特定的目标检测特征库；当输入单张家居图像时，对输入的图像用替换后的特征提取网络进行特征的提取得到预测边框的四个坐标，然后对每一个边框进行回归和分类计算，最后通过非极大值抑制输出检测结果。

具体包括以下步骤：

a)首先，数据的筛选、打标签和预处理；

家居数据没有现成的大规模的数据集，需要从海量的图像库中筛选出一些符合智能家居环境的图像；从10万多张图像中筛选出8000张图像，每张图像均为手工拍摄；不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况，数据集包含信息丰富，可达到网络训练的泛化性和鲁棒性要求；数据集包含23个类别，涵盖常见的家居环境中所有类别；

对筛选好的数据集用labellmg进行标签的制作，对于标注后的图像会生成与其相对应的xml文件，每个xml文件记录图像名称，标注的对象类别及其对应的像素坐标等信息；采用随机种子，以一定的概率对旋转、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变等数据增强方式进行随机组合，对数据进行增强及扩充操作，最终经过增强和扩充后的数据集达到12000张；

b)然后，替换模型的特征提取网络并训练模型；

引入空洞卷积，如图2所示，(a)和(b)分别代表两种不同的空洞卷积模块，通过1*1、3*3、5*5等卷积核模拟人类视觉中的不同感受野结构，卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系；(a) 和(b)代表不同的模拟结构，两者的差别在于是否用更小的卷积核替换大卷积核，以减少计算量；传统的卷积和池化方式因池化操作损失一些信息，而空洞卷积在保持卷积核大小参数不变的同时，增大卷积的视野，提取更多的全局信息，增强对小物体信息的提取能力。

利用VGG16作为特征提取网络，VGG16是一种流水线形特征提取网络，原始的VGG16是一连串级联的卷积层，形成一系列空间分辨率不断降低、感受野不断的增大特征图，损失一些重要的信息和细节；模型保留与VGG16相同的级联结构，在具有相对大分辨率的特征层，采用RFB-s模块代替传统的卷积池化层，针对相对小分辨率的特征层，采用RFB代替卷积池化层；将第一、二、三层用RFB-s模块代替，第四层和第五层用RFB代替；第一个融合层用RFB-s代替，第二、三融合层用RFB代替；此外，灵活设置膨胀率和标准卷积核的大小模拟人眼的感受野和偏心率之间的关系；用RFB和RFB-s模块来减少网络参数，减少计算量；使网络更加轻量化，且对于小物体特征的提取能力有所提升；

由于卷积核学习到的参数分布具有很强的正负相关性，在卷积神经网络中，采用Relu激活函数，Relu将负值清零并产生稀疏激活，所以需要学习两个线性相关的正相位和反相位的参数，对冗余参数的学习无形中增加了网络的计算消耗；引入C.Relu(Concatenated Rectified Linear Units)函数，其基本原理是允许在正方向和负方向上同时激活，同时保持相同程度的非饱和与非线性；因此，可以在卷积之后同时保存正的和负的线性响应，减少Relu激活函数引起的卷积学习的冗余，而且可以更加有效的利用可训练参数；C.Relu的函数表达式为

C·Relu(x)＝[Relu(x)，Relu(-x)]，

在特征提取网络的低卷积层中，采用C.Relu进行非线性话处理，C.Relu在卷积神经网络中的实现过程为：将卷积得到的特征直接取反，再与原卷积特征相连，然后经过一次Relu激活函数即可；

训练过程中，采用ImageNet预训练好的参数，用改进后的模型进行训练，总计训练了60000个batch，batch_size为8；使用Adam进行优化，训练过程中不需要池化操作；

采用指数衰减学习率，即学习率回根据训练下降的速度自行调节变化，防止产生震荡，加快收敛速度；指数衰减学习率的公式为：

其中，lr为当前学习率，lr ₀为初始学习率，gamma为学习率衰减系数(一般在0～1之间)，globalstep为当前迭代次数，decaysteps为衰减速度，*为乘号，^为幂次运算。

c)继而，对图像库和目标检测库中的图像进行k-means算法进行聚类分析，在3个不同尺度生成3个先验框，通道数为3，后续编大小将基于9个先验框进行微调；

对于一个输入图像，经过基础网络进行特征提取，输入到FPN结构，最终生成3个尺度的特征图作为预测；将这些特征图划分为网格区域，在每个网格上预测三个边界框，一共产生1×(3×(1313+2626+52×52))×(5+k)＝1×1064×(5+k)个边界框，k代表类别数；

d)最后，通过回归和分类计算输出目标检测的结果；

通过改进后的神经网络进行特征提取得到每个边界框预测四个坐标：t _x，t _y，t _w，t _h，目标网络到左上角的距离为(c _x，c _y)并且它对应的边界框宽和高为p _w，p _h，对应的预测关系如下

b _x＝σ(t _x)+c _x，b _y＝δ(t _y)+c _y

b _w＝p _we ^tw，b _h＝p _he ^th

每个网格还预测物体在预测框中的概率P _r(Object)，并且通过如下公式进行打分：

其中，

为预测框和ground truth的交并比，conf(Object)为置信度，当前网格中存在目标时P _r(Object)＝1，否则为0；预测框最终通过非极大值抑制得出最后的结果。

结合四种主流的评估指标，对原模型和本发明的表现进行评估，四个评价指标分别为召回率、精准率、平均精度均值和Frame；与原模型相比，本发明精准率提高到72.84％，提高4.71个百分点；召回率提高到73.4％，提高2.2个百分点；在平均精度均值和检测速度方面分别提升了1.2％和27FPS；并且，本发明对小物体检测精度有所提高。

本发明采用更浅、更轻量化的网络进行特征的提取，引入空洞卷积，用于家居图像特征的提取，通过引入C.Relu函数进一步进行优化，减少计算量；可以获得良好且更加快速的家居目标检测方式；其次，使用迁移学习的方式对模型进行预训练，使得在数据量较小的智能家居数据集上有着良好的表现。

综上所述，本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法，用于智能家居图像的目标检测，通过轻量化的神经网络，以减少神经网络的层数，减少计算量；其次，使用迁移学习的方式对模型进行预训练，使得在数据量较小的智能家居数据集上有着良好的表现；

数据的筛选更有针对性，筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况，数据可保证网络训练的泛化性和鲁棒性要求；数据的增强和扩充不在使用单个的数据增强方式，而是通过随机种子，以一定的概率融合多种数据增强方式，形成新的数据增强方式，进一步增加数据的泛化性和鲁棒性；

引入空洞卷积，通过模拟人类视觉中的不同感受野结构，使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系，改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图，损失一些重要的信息和细节的问题，提高模型对小物体的目标检测的能力。

引入C.Relu激活函数，允许在正方向和负方向上同时激活，同时保持相同程度的非饱和与非线性，可以在卷积之后同时保存正的和负的线性响应，减少传统激活函数引起的卷积学习的冗余，而且可以更加有效的利用可训练参数；

通过数据的筛选、标签和预处理，模型的迁移学习及特征提取网络的改进与二次训练，满足实际智能家居环境中目标检测的要求；网络设计具有一定的针对性，能够提升智能家居机器人目标检测的能力，为智能家居机器人的发展提供一定的动力，促进智能家居机器人的发展。

需要说明的是：以上所述仅为本发明的优选实施方式，并非用以限定本发明的权利范围；同时以上的描述，对于相关技术领域的专门人士应可明了及实施，因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在申请专利范围中。

Claims

智能家居环境中图像目标检测方法，其特征在于：

首先通过ImageNet数据进行模型的预训练，采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作，采用轻量化的网络进行特征提取，引入空洞卷积，利用预训练好的模型参数，对处理好的家居数据集进行模型的再次训练；保存二次训练好的模型，进行封装；

对图像库和目标检测库中的图像通过k-means算法进行聚类分析，形成特定的目标检测特征库；当输入单张家居图像时，对输入的图像用特征提取网络进行特征的提取，得到预测边框的四个坐标，然后对预测边框进行回归和分类计算，最后通过非极大值抑制输出检测结果。
根据权利要求1所述的智能家居环境中图像目标检测方法，其特征在于：包括以下步骤：

a)首先，数据的筛选、标签和预处理

从海量的图像库中筛选出符合智能家居环境的图像；随后对筛选的图像打标签，生成目标检测数据集；对生成的数据集进行数据预处理；

b)然后，利用特征提取网络进行特征提取并训练模型

采用16层VGG16作为特征提取网络，VGG16为一连串级联网的卷积层，形成空间分辨率降低、感受野增大的特征图，损失信息和细节；引入空洞卷积，通过卷积核模拟人类视觉中的不同感受野结构，卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系；针对特征提取网络，利用在ImageNet上训练好的参数，对预处理好的图像进行训练；

c)继而，对图像库和目标检测库中的图像通过k-means算法进行聚类分析，在3个不同尺度生成3个先验框，通道数为3，后续框大小将基于9个先验框进行微调；

d)最后，通过回归和分类计算输出目标检测的结果；

通过神经网络对图像进行特征的提取，进而形成相应的预测边界框，对预测边界框进行回归和分类计算，并且通过非极大值抑制输出最后的结果。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤a)，家居数据集是从10万多张图像中筛选出的8000张图像，每张图像均为手工拍摄，不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况，数据集达到网络训练的泛化性和鲁棒性要求，数据集包含23个类别，涵盖常见的家居环境中所有类别。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤a)，对筛选好的数据集用labellmg进行标签制作，对于标注后的图像生成与其相对应的xml文件，每个xml文件记录图像名称，标注对象类别及其对应的像素坐标信息。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤a)，采用随机种子，对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合，对数据进行增强及扩充操作。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤b)，对图像大小不一致，采用全卷积处理，使其自适应各类长宽比的图像。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤b)，引入C.Relu作为激活函数，即允许在正方向和负方向上同时激活，同时保持相同程度的非饱和与非线性，减少激活时的冗余。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤b)，训练过程中，总计训练40000～60000个batch，batch_size 为8～32，在ImageNet预训练参数的基础上采用Adam算法进行优化；在ImageNet预训练的参数基础上采用Adam算法进行优化，利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整；

采用指数衰减学习率，即学习率会根据训练下降的速度自行调节变化，指数衰减学习率的公式为：

其中，lr为当前学习率，lr ₀为初始学习率，gamma为学习率衰减系数，globalstep为当前迭代次数，decaysteps为衰减速度，*为乘号，^为幂次运算。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤c)，通过K-means算法对数据集样本进行聚类分析，在3个不同尺度上生成3个先验框13×13、26×26、52×52，通道数为3，后续边界框的大小将基于9个先验框进行微调；对于一个输入图像，经过基础网络进行特征提取，输入到FPN结构，最终生成3个尺度的特征图作为预测；将特征图划分为网格区域，在每个网格上预测三个边界框，一共：

1×(3×(13×13+26×26+52×52))×(5+k)＝1×10647×(5+k)个边界框，k代表类别数。
根据权利要求2所述的智能家居环境中图像目标检测方法，其特征在于：步骤d)，通过神经网络进行特征提取，得到每个边界框预测四个坐标：t _x，t _y，t _w，t _h，目标网络到左上角的距离为(c _x，c _y)，对应的边界框宽和高为p _w，p _h，对应的预测关系如下:

b _x＝σ(t _x)+c _x，b _y＝δ(t _y)+c _y

b _w＝p _we ^tw，b _h＝p _he ^th

其中，t _x，t _y为网络预测值，σ为sigmoid函数，t _w，t _h为坐标,p ^w，p ^h为Cell对应的边界框的宽高；

每个网格预测物体在预测框中的概率P _r(Object)，通过如下公式进行打分：

其中，
为预测框和ground truth的交并比，conf(Object)为置信度，当前网格中存在目标时P _r(Object)＝1，否则为0，预测框最终通过非极大值抑制得出最后的结果。