WO2019218410A1

WO2019218410A1 - 图像分类方法、计算机设备和存储介质

Info

Publication number: WO2019218410A1
Application number: PCT/CN2018/090370
Authority: WO
Inventors: 林迪; 黄惠
Original assignee: 深圳大学
Priority date: 2018-05-15
Filing date: 2018-06-08
Publication date: 2019-11-21
Also published as: CN108764306B; CN108764306A; US20210365732A1; US11238311B2

Abstract

一种图像分类方法包括：计算机设备获取待分类图像，将待分类图像输入已训练的图像分类模型，已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；已分割图像经过所述校准子网络，校准子网络对目标对象进行校准得到已校准图像；已校准图像经过所述分类子网络进行细粒度分类，得到待分类图像对应的类别。

Description

图像分类方法、计算机设备和存储介质

本申请要求于2018年05月15日提交中国专利局，申请号为201810462613.5，申请名称为“图像分类方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像分类方法、计算机设备和存储介质。

背景技术

细粒度的识别强调识别不同形状和姿势的物体类别之间的细微差别。细粒度物体识别的目的是识别子对象的对象类，它用来寻找动物、产品品牌以及建筑风格之间的细微差异。

传统的分类方法用定位和校准来减少姿势变化，因为所有的步骤都被独立的处理，因此每一个在定位中出现的误差都能够影响校准和分类，细粒度分类的准确度受到影响。

发明内容

根据本申请提供的各种实施例提供一种图像分类方法、计算机设备和存储介质。

一种图像分类方法，包括：

计算机设备获取待分类图像，将所述待分类图像输入已训练的图像分类模型，所述已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；

所述计算机设备将所述待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；

所述计算机设备将所述已分割图像经过所述校准子网络，所述校准子网络对目标对象进行校准得到已校准图像；及

所述计算机设备将所述已校准图像经过所述分类子网络进行细粒度分类，得到所述待分类图像对应的类别。

在其中一个实施例中，所述定位分割子网络包括定位子网络和分割子网络，所述定位子网络与分割子网络共享卷积神经网络的参数。

在其中一个实施例中，图像分类模型的训练步骤包括：

所述计算机设备获取训练图像集合，所述训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签；

所述计算机设备从所述训练图像集合获取各个类别对应的模板；

所述计算机设备将所述训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像；

所述计算机设备根据所述模板对所述已分割训练图像进行校准得到已校准训练图像；

所述计算机设备将所述已校准训练图像输入分类子网络得到对应的当前输出类别；

所述计算机设备获取图像分类模型对应的总目标函数，所述总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中所述定位分割子网络目标函数是关于所述阀门联动函数的函数，根据所述当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值；

所述计算机设备根据所述阀门联动函数调整定位分割子网络参数和分类子网络参数，直到所述总目标函数的取值满足收敛条件；

所述计算机设备得到所述已训练的图像分类模型。

在其中一个实施例中，所述从所述训练图像集合获取各个类别对应的模板，包括：

所述计算机设备计算所述训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵；

所述计算机设备将所述相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群；

所述计算机设备获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到所述各个类别对应的模板，所述模板用于对图像进行校准。

在其中一个实施例中，所述根据所述模板对所述已分割训练图像进行校准得到已校准训练图像，包括：

所述计算机设备获取校准目标函数，所述校准目标函数包括相似度函数、距离函数和前景置信度函数；

所述计算机设备调整模板中心点、旋转角度、缩放比和当前模板，直到所述校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板；

所述计算机设备根据所述目标模板中心点、目标旋转角度、目标缩放比和目标模板对所述已分割训练图像进行校准，得到已校准训练图像。

在其中一个实施例中，所述总目标函数通过以下公式定义：

J(W _c,W _ls；I,L ^gt,y ^gt,o ^gt)＝E _c(W _c；V(L,O；I,L _f,O _f),y ^gt)+E _ls(W _ls；I,L ^gt,o ^gt)

其中J为总目标函数，E _c表示定位分割子网络目标函数，E _ls表示分类子网络目标函数，W _c表示定位分割子网络需要确定的参数，W _ls表示分类子网络需要确定的参数，V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，I是输入的原始图像，y ^gt是标准类别标签，L ^gt是标准定位标注框，o ^gt是标准分割标注框。

在其中一个实施例中，所述阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，在前向过程中，L＝L _f,O＝O _f，在反向过程中L和O是变量，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，c ^*是校准时采用的模板中心点，θ ^*是校准时采用的旋转角度，α ^*是校准时采用的目标缩放比，I表示对所述原始图像校准后的图像，E _a为校准能量函数，所述校准能量函数通过以下公式定义：

E _a(c,θ，α，t；I,L,O)＝S(I(c,θ，α),t)+λ _dD(c,L)+λ _sF(O,t _m)，其中c表示模板中心点，θ表示旋转角度，α表示目标缩放比，t表示模板，S为相似度函数，其中λ _d和λ _s是自定义的常量，D为距离函数，F为前景置信度函数，t _m为模板的二元掩膜。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取待分类图像，将所述待分类图像输入已训练的图像分类模型，所述已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；

所述待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；

所述已分割图像经过所述校准子网络，所述校准子网络对目标对象进行校准得到已校准图像；及

所述已校准图像经过所述分类子网络进行细粒度分类，得到所述待分类图像对应的类别。

一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中图像分类方法的应用环境图；

图2为一个实施例中图像分类方法的流程示意图；

图3为一个实施例中得到已训练的图像分类模型的流程示意图；

图4为一个实施例中确定类别对应的模板的流程示意图；

图5为一个实施例中鸟头和鸟躯干的训练图像示意图，其中被选中为模板的图像显示在图5(a)和图5(b)的第一列；

图6为一个实施例中根据模板得到已校准训练图像的流程示意图；

图7为一个实施例中校准部分的前景置信度图和二元掩膜的示意图；

图8为一个实施例中校准前和校准后的图像对比示意图；

图9为一个实施例中深度系统图像分类系统的处理过程示意图；

图10为一个实施例中分别设置不共享卷积神经网络参数和参数共享，部分定位结果比较示意图；

图11为一个实施例中分别设置不共享卷积神经网络参数和参数共享，分割精度比较示意图；

图12为一个实施例中输入图像和各种情况下的分割结果示意图；

图13为在CUB-200-2011数据集上有和没有使用阀门联动功能的物体分割精度对比示意图；

图14中为本申请方法与其他方法在头和躯干的定位准确率比较结果；

图15为一个实施例中包含头和躯干的预测边界框的定位示意图；

图16为在CUB-200-2011数据集上就物体分割本申请方法与其他分割方法的比较示意图；

图17为不同算法对应的不同的分割结果示意图；

图18为在CUB-200-2011数据集中鸟头和躯干语义部分的分类精度示意图；

图19为在CUB-200-2011数据集上本申请最后的分类精确度与其他的前沿的方法的比较结果示意图；

图20为不同方法在CUB-200-2010数据集中鸟头和躯干语义部分的分类精度示意图；

图21为本申请方法与其他方法对应的分类精确度比较示意图；

图22为在StandfordCars-96数据集上标注掩膜的示意图；

图23为本申请的深度系统和其他的方法在StandfordCars-96数据集上的分类精确度示意图；

图24为一个实施例中图像分类装置的结构框图；

图25为另一个实施例中图像分类装置的结构框图；及

图26为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像分类方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端可获取用户输入的待分类图像，将待分类图像发送至服务器104进行分类或直接在终端102进行分类。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像分类方法，以该方法应用于图1中的终端或服务器为例进行说明，包括以下步骤：

步骤S210，获取待分类图像，将所述待分类图像输入已训练的图像分类模型，所述已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数。

其中，待分类图像是指需要指定细粒度类别的图像。待分类图像可以实时采集的图像，也可以是从存储的文件中获取的图像。图像分类模型用于对输入图像进行细粒度类别的分类，输出对应的分类结果。可对待分类图像进行前处理，如将待分类图像的分辨率进行统一。

定位分割子网络用于得到定位区域和分割区域，其中定位分割子网络可以由相互关联的定位子网络和分割子网络组成，也可以由相互独立的定位子网络和分割子网络组成。相互关联是指两个子网络的训练过程统一，是关联训练得到的，如存在共享参数等。定位子网络输出目标物体的基本位置，可通过定位框进行展示。分割子网络通过二类回归的预成型为目标物体和背景产生了像素级的分割。

校准子网络被公式化为阀门联动函数，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数，形成一个基于定位结果和分割结果的校准模块，通过阀门联动函数调整定位分割子网络和分类子网络的参数对图像分类模型进行训练，阀门联动函数使得定位分割子网络、校准子网络、分类子网络在训练阶段作为一个整体，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，使得校准和其他的基于深度卷积神经网络成分的子网络结合起来。

具体地，可以将图像分类模型的目标函数定义为与阀门联动函数、分类子网络参数相关联，而阀门联动函数又是关于定位分割子网络输出的定位区域和分割区域的函数，定位分割子网络输出的定位区域和分割区域是与定位分割子网络参数相关的，从而在训练过程中，通过阀门联动函数调整定位分割子网络和分类子网络的参数。在满足上述约束条件的基础上，阀门联动函数的具体定义可根据需要自定义。在图像分类模型添加了阀门联动函数作为定位分割子网络和分类模块的桥梁。在训练的时候，这个函数适应性的控制从分类模块到定位分割子网络的更新信号传播。

步骤S220，待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像。

具体地，待分类图像经过定位分割子网络中的定位子网络输出定位区域，可以是包含(x ₁，y ₁)、(x ₂，y ₂)的边界框，其中x ₁、x ₂为边界框的横向起始坐标和横向终止坐标，y ₁、y ₂为边界框的纵向起始坐标和纵向终止坐标。将包含定位区域的图像进一步通过定位分割子网络中的分割子网络产生了像素级的物体区域，得到已分割图像。

步骤S230，已分割图像经过校准子网络，校准子网络对目标对象进行校准得到已校准图像。

具体地，校准子网络从定位和分割网络得到物体部位的定位结果L和分割结果O，然后执行模板对齐，并将坐标对齐的图像提供给分类子网络。模板对齐是校准的过程，模板的个数可以为一个或多个，可通过多模板选择来掌握姿势变化。

校准时需要求解参数，包括目标模板中心点、目标旋转角度、目标缩放比和目标模板。求解参数时，先获取相似度函数、距离函数和前景置信度函数，再将对应的已知量代入上述函数，通过调整模板中心点、旋转角度、缩放比和模板，使得上述函数组成的目标函数满足收敛条件，从而得到目标模板中心点、目标旋转角度、目标缩放比和目标模板。从而通过目标模板对已分割图像以目标模板中心点为中心，进行目标旋转角度的旋转和目标缩放比的图像缩放得到已校准图像。

步骤S240，已校准图像经过分类子网络进行细粒度分类，得到待分类图像对应的类别。

具体地，已校准图像经过分类子网络，输出对应的类别标签，从而得到对应的待分类图像对应的细粒度类别。

本实施例中，通过获取待分类图像，将待分类图像输入已训练的图像分类模型，已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数，待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；已分割图像经过所述校准子网络，校准子网络对目标对象进行校准得到已校准图像；已校准图像经过所述分类子网络进行细粒度分类，得到待分类图像对应的类别，可提高图像分类的精准性。

在一个实施例中，定位分割子网络包括定位子网络和分割子网络，所述定位子网络与分割子网络共享卷积神经网络的参数。

具体地，定位子网络和分割子网络共享卷积神经网络的参数，将定位和分割联合训练，共享卷积神经网络的参数能生成更加精准的模型，比对定位子网络和分割子网络分别独立得到的模型的准确度高。

其中，定位子网络包括了一组参数W ₁和一个为回归边界框(x ₁，y ₁)(x ₂，y ₂)输出的回归值L，给定一个输入图像I∈R ^h×w×3，边界框回归量L＝(x ₁,y ₁,x ₂,y ₂)，我们将定位子网表述为：L＝f _l(W _l；I)，其中f _l表示定位子网络函数，W ₁表示定位子网络参数，L＝(x ₁,y ₁,x ₂,y ₂)表示定位框。

使用分割子网络生成一个反向映射，O(c _i)＝P(o _i＝1|c _i,W _s)，其中0代表背景，1代表前景，O表示像素属于前景的概率值。大的概率意味着像素点位于一个物体区域的内部，反向映射减少了校准操作被应用在背景上的可能性。

将定位子网络和分割子网络共享的一组参数表示为W _ls。在一个实施例中，我们制订了定位和分割的目标函数为：

其中E _ls为定位分割子网络的目标函数，f _l表示定位子网络函数，I表示输入图像，L ^gt表示标准定位标注框，c _i表示像素点，

表示像素点c _i的真实取值，o _i表示像素点c _i的取值，P表示概率函数，N表示输入图像的像素点的总个数。通过定位子网络和分割子网络共享参数的定位分割子网络的目标函数，可以平衡定位和分割间的损失值。我们将定位子网络和分割子网络的输出部分建立在一组基础卷积层上面。这组基础卷积层生成的特征被定位子网络和分割子网络共享，用于生成定位坐标以及像素级别的分割结果。

在一个实施例中，如图3所示，图像分类模型的训练步骤包括：

步骤S310，获取训练图像集合，训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签。

具体地，训练图像集合中包括了多个训练图像，每个训练图像包括标准定位标注框，标准分割标注框和标准类别标签，其中标准定位标注框用于标注真实的定位结果，标准分割标注框用于标注真实的像素级分割结果，标准类别标签用于标注真实的分类结果。

步骤S320，从训练图像集合获取各个类别对应的模板。

具体地，训练图像集合中的多个训练图像可聚类为不同的类别，不同的类别使用对应不同的模板，模板用于对训练图像进行校准。可根据不同类别对应的各个训练图像间的相似性从各个训练图像中为不同的类别选取对应的模板。其中选取模板的方法可根据需要自定义。各个类别对应的模板的个数不限定，可以为一个或多个。

步骤S330，将训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像。

具体地，训练时，可通过随机的参数对图像分类模型进行初始化，将训练图像集合中的各个训练图像输入定位分割子网络，得到与当前参数对应的包含当前定位区域和当前分割区域的已分割训练图像。

步骤S340，根据模板对已分割训练图像进行校准得到已校准训练图像。

具体地，校准的过程需要先调整模板中心点，再根据调整模板中心点后的模板对待校准图像调整旋转角度、缩放比，当存在多个模板时，还需要选取目标模板。可通过自定义的校准目标函数确定目标模板中心点、目标旋转角度、目标缩放比和目标模板。

步骤S350，将已校准训练图像输入分类子网络得到对应的当前输出类别。

具体地，分类子网络是图像分类模型的最后一个模块。已校准训练图像作为输入，表示为I ^*∈R ^h×w×3。分类卷积神经网络被表达为：y＝f _c(W _c；I ^*)，其中W _c为分类子网络的参数，I ^*是经过姿态校准的部分，是已校准训练图像。f _c是分类子网络的函数名，输出是一个类别标签y。在整个训练过程中，标准类别标签是期望标签，预测的种类标签y应该与标准类别标签一致。将已校准训练图像输入分类子网络得到当前参数对应的当前输出预测类别。

步骤S360，获取图像分类模型对应的总目标函数，总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中定位分割子网络目标函数是关于所述阀门联动函数的函数，根据当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值。

具体地，总目标函数是关于定位分割子网络目标函数和分类子网络目标函数的函数，且校准子网络被公式化成阀门联动函数，在前向过程，阀门联动函数用于得到校准后的图像，而在后向过程，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数，阀门联动函数被用于调整定位分割子网络的参数。使得定位分割子网络目标函数和分类子网络在训练阶段作为一个整体进进行训练。阀门联动函数是关于校准能量函数和已校准图像的函数，校准能量函数是关于校准目标函数和前向传播能量的函数，阀门联动函数保留了校准能量的函数，为此部分的变量位置和对象性映射可以被视为输入，它使得更新分类信号能够通过链式规则传递到定位分割子网络。

步骤S370，根据阀门联动函数调整定位分割子网络参数和分类子网络参数，直到总目标函数的取值满足收敛条件，得到已训练的图像分类模型。

具体地，定位分割子网络参数和分类子网络参数是需要被确定的参数，定位分割子网络和分类子网络在训练过程中被1的两个因子所平衡，通过最小化总目标函数来更新定位分割子网络和分类子网络。

本实施例中，当训练图像分类模型的时候，阀门联动功能能够适应性的折衷分类和校准的误差，同时，也能更新定位分割子网络和分类子网络的参数，确定更准确的模型参数。

在一个实施例中，如图4所示，步骤S320包括：

步骤S321，计算训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵。

具体地，通过相似性算法来计算任意两个训练图像之间的相似性，具体的计算方法可自定义，如训练图像集合中包括N个训练图像，则计算任意两个训练图像之间相似性，组成相似性矩阵R ^N×N。在一个实施例中，在计算图像R _i，R _j的相似性时，为了减少光照变化带来的影响，正则化了每个图像的像素值，将像素的范围量化成256个数值，然后分别计算，比如，P _i，P _j，是两个属于R _i和R _j的灰阶值。灰阶值的正则化和分布值的计算遵循归一化的颜色直方图的构造。R _i和R _j有相同的尺寸，每两个像素点在R _i和R _j中有着相同的位置，这形成了一个灰阶值的2D元组。通过使用这个元组，我们计算了R _i和R _j的灰阶值的联合分布，表示为P _ij。根据这个P _i，P _j，P _ij，定义相似函数：

其中S表示相似函数，用于衡量两张图像的姿态是否相似，R _i，R _j表示两个尺寸相同的图像，P _i，P _j分别表示R _i和R _j的灰阶值分布，类似频率直方图，P _ij表示R _i和R _j的灰阶值的联合分布，m,n表示像素坐标值，M和N分别表示图像的长和宽。

步骤S322，将相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群。

具体地，谱聚类是一种聚类算法，对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多。相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群。

步骤S323，获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到所述各个类别对应的模板，所述模板用于对图像进行校准。

具体地，每个集群都有一个中心，我们通过相似函数来计算每个集群中的训练图像与集群中心的相似度，从而得出和集群中心最为相似的训练图像，这个训练图像就是这个集群对应的模板，一个集群对应一个类别，从而得到各个类别对应的模板。一个类别对应的模板可以为一个或多个。如图5所示，为鸟头和鸟躯干的训练图像示意图，其中被选中为模板的图像显示在图5(a)和图5(b)的第一列。

本实施例中，通过计算图像间的相似性和聚类算法自适应的计算得到各个类别对应的模板，动态选取模板，提高了模板选取的准确性。

在一个实施例中，如图6所示，步骤S340包括：

步骤S341，获取校准目标函数，所述校准目标函数包括相似度函数、距离函数和前景置信度函数。

具体地，校准目标函数用于确定目标模板中心点、目标旋转角度、目标缩放比和目标模板，相似度函数用于描述待校准图像与模板之间的相似性，距离函数与模板中心点与定位分割子网络的输出的定位框的中心点之间的距离相关，前景置信度函数用于描述模板所覆盖的区域的前景置信度。通过明晓物体的前景形状，当我们通过模板来校准部分区域的时候，背景的影响能被降低，所以需要测量被模板覆盖的校准部分的前景置信度。如图7所示，显示了校准部分的前景置信度图和二元掩膜。

在一个实施例中，距离函数通过以下公式定义：

其中D(c,L)表示距离函数，c表示模板中心点，L是定位分割子网络的输出的定位框，c ^r(L)表示定位分割子网络的输出的定位框的中心点。其中σ按经验可自定义，在一个实施例中设置为15。

表示边界框L的中心。

相似性的测量根据像素值的分布而定义，但是缺乏关键性的物体的形状信息，通过前景置信度函数描述物体的形状信息。对于模板t，给出了二元掩膜t _m，使t _m(c _i)∈{0，1}，这意味着像素点c _i属于背景或是前景，0或1分别表示背景和前景。对于c _i，分别用O _f(c _i)和O _b(c _i)来作为前景或背景的分值，通过下面来计算：

O _f(c _i)＝-log(1-O(c _i)),O _b(c _i)＝-logO(c _i)

其中O _f表示像素的前景置信度，O _b表示像素的背景置信度，O _f越高意味着像素点在前景的可能性越大，O _b越高意味着像素点在背景的可能性越大。假设t _m总共有N个像素点，其中包括N _f个前景点，N _b个背景点，定义前景置信度如下：

其中F表示模板所覆盖的区域的前景置信度，t _m表示模板的二元掩膜，N _f表示模板的二元掩膜所包含的前景像素数目，N _b表示模板的二元掩膜所包含的背景像素数目。促使前景可能性高的部分地区定位在模板的前景区域，同时抑制背景区域与前景区域重叠的模板，经过前景置信度的引导，前景区域能被更好的校准。

在一个实施例中，校准目标函数定义如下：

E _a(c,θ，α，t；I,L,O)＝S(I(c,θ，α),t)+λ _dD(c,L)+λ _sF(O,t _m)

其中E _a表示校准目标函数，c，θ，α，t分别表示需要校准的参数，分别为模板中心点、旋转角度、缩放比和当前模板。其中λ _d和λ _s是常量，可自定义，在一个实施例中，它们被分别设为0.001和0.003。

步骤S342，调整模板中心点、旋转角度、缩放比和当前模板，直到所述校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板。

具体地，通过最大化校准目标函数来得到目标模板中心点、目标旋转角度、目标缩放比和目标模板。校准目标函数的输出越大代表越值得信赖的校准。

步骤S343，根据目标模板中心点、目标旋转角度、目标缩放比和目标模板对已分割训练图像进行校准，得到已校准训练图像。

具体地，得到目标模板中心点、目标旋转角度、目标缩放比和目标模板后，就可对已分割训练图像进行校准，得到已校准训练图像。如图8所示，为一个实施例中校准前和校准后的图像对比示意图。在图8(a)中，左边的列展示了鸟头部未经过校准的图像，右边的列展示了鸟头部通过模板校准后的图像。在图8(b)中，左边的列展示了鸟躯干未经过校准的图像，右边的列展示了鸟躯干通过模板校准后的图像。

本实施例中，动态计算得到目标模板中心点、目标旋转角度、目标缩放比和目标模板，计算算法综合考虑了相似度、中心距离和前景置信度，使得校准结果更值得信赖。

在一个实施例中，总目标函数通过以下公式定义：

在一个实施例中，阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，

L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，在前向过程中，L＝L _f,O＝O _f，在反向过程中L和O是变量，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，c ^*是校准时采用的模板中心点，θ ^*是校准时采用的旋转角度，α ^*是校准时采用的目标缩放比，I表示对所述原始图像校准后的图像，E _a为校准能量函数，所述校准能量函数通过以下公式定义：

具体地，原始图像进行姿态校准后的图像为I(c ^*，θ ^*，α ^*)，在训练的正向传播阶段，即前向过程中L和O是常量，在训练的反向传播阶段，L和O是变量。其中{c ^*,θ ^*,α ^*,t ^*}＝argmax _{c,θ，α，t}E _a(c,θ，α，t；I,L _f,O _f)表示c ^*,θ ^*,α ^*,t ^*满足使校准能量函数最大。其中阀门联动函数折衷了三个关键的条件：1)校准能量函数，2)关于L _f和O _f的前向传播能量，3)姿态校准后的图像。

在前向传播阶段，校准子网络接收的输入为L _f和O _f，前向过程中L和O是常量，校准能量函数以及前向传播能量处于一个比率形式，在前向传播阶段此比率为1，使得阀门联动函数的输出为V(L _f,O _f；L,L _f,O _f)＝I(c ^*,θ ^*，α ^*)，即阀门联动函数的输出为已校准图像。

其中，阀门联动函数保留了校准能量函数，使得更新分类信号能够通过链式规则传递到定位分割子网络。在反向传播阶段，校准子网络V(L _f,O _f；L, _f,O _f)的输出成为了L和O的一个函数。因此，图像分类模型的总目标函数被制定为：

通过最小化这个客观函数来更新定位分割子网络和分类子网络，为了更新分类子网络，我们计算了J关于W _c的梯度。为了更新定位分割子网络，关于W _ls的梯度这样计算：

其中E _ls和E _c分别表示定位分割子网络和分类子网的训练参数，

表示在定位分割内的反向传播阶段。

其中

可以展开为：

其中

在分类的反向传播阶段传递有效信息，梯度

和

被用来更新定位分割子网。根据链式法则，阀门联动函数V在反向传播阶段连接了分类和定位分割子网，具体通过

和

连接。由于连接可用，定位分割子网的更新对分类的反向传播信号敏感。

此外，分类子网络和定位分割子网络之间的信号交流能被阀门联动函数适应性的调整。在反向传播阶段，阀门联动函数V可以被写成：

其中，e＝E _a(c ^*,θ ^*,α ^*,t ^*；I,L,O)是在前向传播中计算的校准能量。这个前向传播校准能量被应用，从而适应性的对定位分割部分进行更新。阀门联动函数从分类子网中提取信息，而且能适应性的对定位分割部分进行更新。

在前向传播阶段，校准能量被当作一个在BP阶段的常量。根据这个能量，连接部分

可表示为：

被扩展为：

其中c＝(c _x,c _y),同时:

其中，

可被视为一个控制分类影响的阀，一个大的校准分值e相当于前向传播阶段中更好的校准。在反向传播阶段，

被用来给分类子网络中的更新信号

重设权重。阀门联动函数相当于在分类和校准误差之间进行折衷。

在这种情况下，一个大的e意味着在反向传播阶段较好的校准，来自分类子网络的信息被减少为

相反的，如果e很小，则校准准确率降低。因此，为了定位分割子网络的更新可设置合适的

引进更多的分类信息。可以将

理解成一个在反向传播阶段的动态学习率，自适应的匹配性能。

其中，

的连接部分可以写成如下形式：

局部偏导数

可以这样表示：

除了适应性的因子

分割的更新也被模板t _m所引导，正如公式(1)指定的,在公式(1)的定义下，在t _m(c _i)＝1下的模板允许

来监督分割操作。另一方面，这个信号在t _m(c _i)＝0的时候变成了

这意味着通过模板的前景和背景区域可以灵活的转变这个控制信号。由于与部分区域匹配的模板掩码可用，网络不仅受到减小全局分割误差的对象区域的监督，而且受到纠正对象边界的模板形状信息的监督。如图10所示，从图中可看出包含额外形状信息确实提升了分割结果的准确性。由于用了这种自调整机制在阀门联动函数连接分类和校准，定位分割子网络在反向传播阶段也能够被加强。

如图9，为一个实施例中，深度系统图像分类系统的处理过程示意图，该系统由定位分割、校准和分类这三个子网络组成。在阀门联动函数的调整下，在前向传播阶段，校准子网络为分类子网络输出了姿势校准的部位图像，同时，分类和校准的误差也能在反向传播阶段被传回到定位分割子网络。

进一步的，在3个数据集上(①Caltech-UCSD Bird-200-2011)②Caltech-UCSD Bird-200-2010③Standford Cars-196)评估了本算法。由于①号数据集更多的被使用于分析实验。因此，主要的评估实施在①号数据集上，然后使用其他两个数据集来和近来的一些技术做比较。具体实验过程如下：

实施过程中，鸟头和躯干被视作语义部分。我们分别给它们训练了两个深度系统得到图像分类模型。所有的卷积神经网络模型是基于VGG-16网络来调整的。在定位分割子网络中，所有的输入图像被初始化大小为224×224。删除了原始的全连接层。其中输出了一个结构，这个结构为定位边界框和为前景和背景标签的像素概率映射。训练模型时，先初始化定位分割子网络，其中分类子网络的输入为224×224的图片。第一个全连接层被扩展为4096维的特征。然后，通过卷积神经网络所提取出来的特征训练一个支持向量机分类器。

对于校准操作，在模板选择中，所有的在①号数据集中的为关于头和躯干的5994个部分标注都被使用。这5994个部分被裁剪为224×224。使用谱聚类算法将这些数据分成了30个集群。从每个集群中，选择贴近集群中心的集群区域以及其镜像版本作为两个模板。这个操作最终形成了60个模板。旋转角度θ是一个范围为[-60，60]的整数，变化间隔为10°。所有的输入图像和模板都被重设为224×224大小，图像中的待校准区域比任何一个模板都小，为了匹配待校准区域和模板的大小，需要按比例放大输入图像。为头设置了放大比例集合{1.5，2.7，4.0，7.7，15.0}，为躯干设置了放大比例集合{1.2，1.4，2.0，2.5，3.5}。

依据模板的搜寻空间，旋转角度以及放缩比例在验证集的表现而发生调整，这个验证集包含了1000张从训练集中随意挑选的图像。通过扩展查找空间，发现了性能提升。因此，根据所有的实验表现，保持使用查找空间。姿势相似度函数的结果可以被预先计算而存放起来，在GPU的加速下，遍历整个姿势位置、模板、放缩比例以及旋转角度来完成计算姿势相似度，每张图片只需要5s的时间。因此，姿势相似度能够在前向传播中很快的查出来，使得每张图片的训练时间为15ms，测试时间为8ms。

在Caltech-UCSD Bird-200-2011数据集上评估了我们的方法。这个数据集包含11788张鸟的图像，分成了200个下属类别。每张图像包含标准定位分割标注框和标准类别标签。在整个训练和测试过程中，我们利用了数据集的边界框来简化分类。训练测试四角定位，定义两种语义模板，分为头和躯干。在鸟的头部和躯干的地方使用相应的矩形覆盖了标注部分。

1)定位分割子网络分析

为了获取物体和部分的联系，定位和分割共享了卷积的参数。为了调查参数共享的效率，在卷积神经网络中分别设置不共享卷积神经网络参数和参数共享，并进行比较，部分定位结果的比较结果如图10所示。在图10中，计算了正确定位部分百分比，这是根据排名靠前的部分定位来计算的，并且将与真实表现的重叠部分≥0.5的视为正确的。不共享卷积神经网络参数时，在头和躯干上定位结果正确率分别为93.2和94.3，通过参数共享的分割，在头和躯干上有更好的定位结果，正确率分别为95.0和97.0。

在图11中展示了在卷积神经网络中分别设置不共享卷积神经网络参数和参数共享，并进行比较分割精度，其中，“bg”和“fg”缩写词分别表示背景和前景，使用了检测评价函数分数来评估分割表现。计算一个平均的检测评价函数分数来评估总体的分割精度。通过比较结果看出，参数共享提升了在前景和背景区域上的分割精度，如图12所示，展示了输入图像和各种情况下的分割结果，其中，图12(a)表示输入图像，图12(b)表示分割真实结果，图12(c)表示没有进行参数共享的分割结果，图12(d)表示不含阀门联动函数的分割结果，图12(e)表示基于深度系统框架的分割结果，可见图12(c)和图12(e)的视觉差异很明显，包含阀门联动函数的分割结果精准很多。

为了更进一步的理解阀门联动函数对定位分割的性能提升，将这个子网从联合的深度系统模块移除，然后再与完整的深度系统相比较。

在图8中展示了定位精度上的比较，就重叠部分大于0.5，0.6，0.7的正确定位部分百分比测试了表现。在全部的配置上，定位分支比深度系统模型的表现差一点。比较而言，去除阀门联动函数的系统，其中分割子网也会遭受性能退化，如图13所示，展示了在CUB-200-2011数据集上有和没有使用阀门联动功能的物体分割精度，图12(d)展示了分割结果。造成性能降低的原因是，在是缺少阀门联动函数时，定位分割子网络没有从校准和分类操作中得到回馈，而存在阀门联动函数的深度系统在迭代中更新了校准和分类，使得结果更准确。

为了评估部分定位的性能，在图14中展示了本申请方法与其他方法在头和躯干的定位准确率比较结果，我们使用VGG-6的结构。在使用相同的实验设置下，图14中显示了比较结果。

对于头和躯干部位，相比早前的最好的结果93.4和96.2，本申请算法结果是95.0和97.0。图15展示了一些例子，是包含头和躯干的预测边界框的。与先前的定位-校准-分割模型相比，我们的深度系统模型在整体部位的定位操作上提升了性能。特别是由于小区域而改变的头部的定位被显著的从90.0提高到了95.0。性能差距表明本申请的定位分割子网络捕获物体部分关系的重要性，这对于边界框的回归是有益的。

本申请的深度模型包括分割，为物体的分割来训练一个基准的全卷积神经网络。除了基于卷积神经网络的解决办法，交互式的物体分割工具GrabCut 和协同分割方法可以被使用。在图16中给出了这些方法的分割精度，表示在CUB-200-2011数据集上就物体分割本申请方法与其他分割方法的比较。

正如图16中展示的，与本申请的深度图像分类模型的分数84.5相比，基准全卷积神经网络产生的平均检测评价函数分数仅仅为78.8。这个性能退化源于基准的全卷积神经网络没有从参数共享中得到提升。对于不含卷积神经网络的方法等，GrabCut和协同分割方法，由于它们依赖于丢失语义对象信息的低级图像表示，因而表现了更低的精度。图17体现了这一点，图17展示了不同的分割结果示意图，其中图17(a)表示输入图像，图17(b)表示分割真实结果，图17(c)表示GrabCut的结果，图17(d)表示协同分割的结果，图17(e)表示基准全卷积神经网络的分割结果，图17(f)表示本申请深度系统的分割分支的分割结果。

2)子网络组合分析

上面的实验结果表明伴随三个子网络的深度系统框架在部分定位和物体分割中的表现很好。我们也在下面5个案例中评估了在细粒度分类的表现和删除一个或者两个子网络的实验。

第一、在删除了定位分割子网络的情况下验证图像上的分割精度，验证结果显示在图18的第一行,没有这个模块，全图的分类精度只有76.3，其中图18展示了CUB-200-2011数据集中鸟头和躯干语义部分的分类精度，分别用定位子网络和校准子网络来评估实验表现。

第二、在深度系统框架中阻断了校准子网络来阻断前向传播和反向传播。定位分割子网络被用来为分类提出部分假设，剩下的定位分割和分类模块在反向传播阶段中被独立的训练。图18中的第二行的验证结果表明在校准过程中缺少信息传播是不可取的。

第三、在校准子网中使用阀门联动函数来为前向传播阶段的分类来输出姿势校准部分，但是阀门联动函数在反向传播阶段被禁用，以防止分类和校准误差从反向传播到定位和分割。在这种方法中，在鸟的头部只达到了78.2的精确度。因此，在前向传播和反向传播阶段的校准子网络是很有必要的。

第四、在前向和反向的过程中使阀门联动函数生效。但是，分割分支被移除后，框架就降级成了我们早先的定位校准分类模型，由定位、校准、分类组成。没有分割分支，只有定位结果，是不能够像图14中的第四行表现的那样充分的。不出意料，这个模型结构导致了在头部和躯干部位分类的性能退化。

第五、使用了完整的深度系统架构，通过图18显示，在头部识别中产生了最好的分数79.5，证实了包含阀门联动函数的深度系统能很好的进行细粒度识别，实际上在分类，定位和分割上也起到了促进作用。

通过用躯干部分来替换整个图像，发现了一个关于分类精确度的巨大的表现差距(76.3VS52.2)。在图14中关于躯干定位的高正确定位部分百分比显示了差的定位造成了细微的表现差距。通过对比包括更多的有区别的头部的图像，总结出鸟的躯干在鸟类的种类鉴别中重要，在校准子网络通过对鸟的躯干的分类提升分类精确度。在添加了校准和阀门联动函数时，分类结果获得了11.1的提升。说明提取了更好的躯干部位的特征，躯干部分的值得信赖的特征很重要，它能将头部和整张图像结合在一起，这有利于最终的分类效果。

3)全局比较

在图19中展示了在CUB-200-2011数据集上本申请最后的分类精确度与其他的前沿的方法的比较结果，所有的比较方法使用的卷积神经网络模型总结在表8的第一列，在训练和测试阶段就给定了整个鸟的标准边界框，所有实现都是基于这样一个设置的。在系统中，将每一个图像投放到训练网络中来提取头部和躯干部位的特征。

表8显示使用头部和躯干部位的特征得到了79.5和63.3的精度，连接了两个特征向量来组成一个联合表现，产生了83.7的精度。最后，基于一个使用预训练模型的全图，微调了深度卷积神经网络模型。第六层为一个SVM分类器而提取特征，获得了76.3的精度。在连接了头部，躯干，和全图的特征之后，精度提升到了88.5。作为比较，[35]，[62]的方法也考虑了头部和躯干，同时组合了全图的卷积神经网络特征。本申请方法精度提升主要是由于使用了阀门联动函数的深度系统框架中进行了值得信赖的定位、分割和校准操作。4)应用Caltech-UCSDBird-200-2010数据集

Caltech-UCSDBird-200-2010数据集提供了200个鸟的种类的共6033张图片。数据集没有提供部分标注，只包含了很少的训练集和测试集。因此，它能验证在Caltech-UCSDBird-200-2010数据集上训练的深度系统框架在这个数据集上的表现。

在图20中展示了不同方法在CUB-200-2010数据集中鸟头和躯干语义部分的分类精度。通过使用Caltech-UCSDBird-200-2010数据集的训练集而获得定位分割子网和校准子网。当得到了姿势校准的部分图像之后，在这个数据集上更新分类子网络。

本申请方法对应的全图分类精确度是63.7，通过定位-分割子网，鸟头部的分类精确度为67.3。在这个方法中，获得了3.6的表现提升。在结合了校准操作之后，这个提升幅度变成了6.5，最好的躯干识别精度49.1是通过添加定位、分割、校准操作而实现的。

在最后的实验中，就分类精确度与其他的方法做了比较，结果显示在图21中。在[62]的方法中，结果为66.1，在[35]的定位-校准-分类模型中，结果为66.5。本申请方法的鸟头部表现出了70.2的精确度，头和躯干的结合表现出了74.9的精确度。

与早前的实验相似，将全图考虑其中，在联合了全部的特征后，本申请的分类结果精准度提高为77.5。本申请分类方法的表现超过了以前的最佳结果，达到了显著的水平。如果使用部分标注来调整局部分割和对齐子网络，则可以在这个数据集中获得更好的性能。

5)应用4StandfordCars-96数据集

除鸟的种类分类之外，本申请的深度系统图像分类模型可以应用于其他对象类型的细粒度识别。在这个部分使用StandfordCars-96数据集来作为评估基准。这个汽车的数据集包含从196个种类的16185个图像，也是为细粒度识别任务而准备的，共有8144个训练图像和8041个测试图像。不同于Caltech-UCSD Bird-200-2011数据集，StandfordCars-96数据集没有提供对象任务。为了有利于此数据集上的深度系统图像分类模型，我们额外提供了16185张图像的所有车的二元掩膜。图22展现了掩膜标注的示例，在StandfordCars-96数据集上标注掩膜的例子。

在图23中，比较了本申请的深度系统和其他的方法在StandfordCars-96数据集上的分类精确度。当对车的种类应用本申请的深度系统图像分类模型时，在没有任何细分部分的情况下对于车执行了定位、分割和校准的操作。相似的，比较的方法也将整车作为输入。通过使用VGG架构，早先的最好的结果是[29]中提出方法对应的92.6。通过使用相同的VGG结构来构造我们的深度系统图像分类模型，获得了比别的方法更好的表现。在StandfordCars-96数据集上的96.3的结果阐释了本申请的深度系统提供给车更精确的分类。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，还提供了一种计算机设备，该计算机设备的内部结构可如图26所示，该计算机设备包括图像分类装置，图像分类装置中包括各个模块，每个模块可全部或部分通过软件、硬件或其组合来实现。

在一个实施例中，如图24所示，提供了一种图像分类装置，包括：

输入模块510，用于获取待分类图像，将待分类图像输入已训练的图像分类模型，已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数。

分割模块520，用于待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像。

校准模块530，用于已分割图像经过校准子网络，校准子网络对目标对象进行校准得到已校准图像。

类别确定模块540，用于已校准图像经过分类子网络进行细粒度分类，得到待分类图像对应的类别。

在一个实施例中，如图25所示，装置还包括：

训练模块550，用于获取训练图像集合，训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签；从训练图像集合获取各个类别对应的模板；将训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像；根据模板对已分割训练图像进行校准得到已校准训练图像；将已校准训练图像输入分类子网络得到对应的当前输出类别；获取图像分类模型对应的总目标函数，总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中定位分割子网络目标函数是关于阀门联动函数的函数，根据当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值；根据阀门联动函数调整定位分割子网络参数和分类子网络参数，直到总目标函数的取值满足收敛条件；得到已训练的图像分类模型。

在一个实施例中，训练模块550还用于计算所述训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵；将相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群；获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到各个类别对应的模板，模板用于对图像进行校准。

在一个实施例中，训练模块550还用于获取校准目标函数，所述校准目标函数包括相似度函数、距离函数和前景置信度函数；调整模板中心点、旋转角度、缩放比和当前模板，直到所述校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板；根据所述目标模板中心点、目标旋转角度、目标缩放比和目标模板对所述已分割训练图像进行校准，得到已校准训练图像。

在一个实施例中，总目标函数通过以下公式定义：

在一个实施例中，阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，

上述图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图26所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现上述实施例所述的图像分类方法。

本领域技术人员可以理解，图26中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机可读指令，处理器执行计算机可读指令时实现以下步骤：获取待分类图像，将待分类图像输入已训练的图像分类模型，已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；已分割图像经过校准子网络，校准子网络对目标对象进行校准得到已校准图像；已校准图像经过分类子网络进行细粒度分类，得到待分类图像对应的类别。

在一个实施例中，定位分割子网络包括定位子网络和分割子网络，定位子网络与分割子网络共享卷积神经网络的参数。

在一个实施例中，图像分类模型的训练包括：获取训练图像集合，训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签；从训练图像集合获取各个类别对应的模板；将训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像；根据模板对已分割训练图像进行校准得到已校准训练图像；将已校准训练图像输入分类子网络得到对应的当前输出类别；获取图像分类模型对应的总目标函数，总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中定位分割子网络目标函数是关于阀门联动函数的函数，根据当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值；根据阀门联动函数调整定位分割子网络参数和分类子网络参数，直到总目标函数的取值满足收敛条件；得到已训练的图像分类模型。

在一个实施例中，从训练图像集合获取各个类别对应的模板，包括：计算训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵；将相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群，获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到各个类别对应的模板，模板用于对图像进行校准。

在一个实施例中，根据模板对已分割训练图像进行校准得到已校准训练图像，包括：获取校准目标函数，校准目标函数包括相似度函数、距离函数和前景置信度函数；调整模板中心点、旋转角度、缩放比和当前模板，直到校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板；根据目标模板中心点、目标旋转角度、目标缩放比和目标模板对所述已分割训练图像进行校准，得到已校准训练图像。

在一个实施例中，总目标函数通过以下公式定义：

在一个实施例中，阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，

在一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：：获取待分类图像，将待分类图像输入已训练的图像分类模型，已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；已分割图像经过校准子网络，校准子网络对目标对象进行校准得到已校准图像；已校准图像经过分类子网络进行细粒度分类，得到待分类图像对应的类别。

在一个实施例中，总目标函数通过以下公式定义：

在一个实施例中，阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像分类方法，包括：

计算机设备获取待分类图像，将所述待分类图像输入已训练的图像分类模型，所述已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；

所述计算机设备将所述待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；

所述计算机设备将所述已分割图像经过所述校准子网络，所述校准子网络对目标对象进行校准得到已校准图像；及

所述计算机设备将所述已校准图像经过所述分类子网络进行细粒度分类，得到所述待分类图像对应的类别。
根据权利要求1所述的方法，其特征在于，所述定位分割子网络包括定位子网络和分割子网络，所述定位子网络与分割子网络共享卷积神经网络的参数。
根据权利要求1所述的方法，其特征在于，所述图像分类模型的训练步骤包括：

所述计算机设备获取训练图像集合，所述训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签；

所述计算机设备从所述训练图像集合获取各个类别对应的模板；

所述计算机设备将所述训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像；

所述计算机设备根据所述模板对所述已分割训练图像进行校准得到已校准训练图像；

所述计算机设备将所述已校准训练图像输入分类子网络得到对应的当前输出类别；

所述计算机设备获取图像分类模型对应的总目标函数，所述总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中所述定位分割子网络目标函数是关于所述阀门联动函数的函数，根据所述当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值；

所述计算机设备根据所述阀门联动函数调整定位分割子网络参数和分类子网络参数，直到所述总目标函数的取值满足收敛条件；

所述计算机设备得到所述已训练的图像分类模型。
根据权利要求3所述的方法，其特征在于，所述从所述训练图像集合获取各个类别对应的模板，包括：

所述计算机设备计算所述训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵；

所述计算机设备将所述相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群；

所述计算机设备获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到所述各个类别对应的模板，所述模板用于对图像进行校准。
根据权利要求3所述的方法，其特征在于，所述根据所述模板对所述已分割训练图像进行校准得到已校准训练图像，包括：

所述计算机设备获取校准目标函数，所述校准目标函数包括相似度函数、距离函数和前景置信度函数；

所述计算机设备调整模板中心点、旋转角度、缩放比和当前模板，直到所述校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板；

所述计算机设备根据所述目标模板中心点、目标旋转角度、目标缩放比和目标模板对所述已分割训练图像进行校准，得到已校准训练图像。
根据权利要求3所述的方法，其特征在于，所述总目标函数通过以下公式定义：

J(W _c，W _ls；I，L ^gt，y ^gt，o ^gt)＝E _c(W _c；V(L，O；I，L _f，O _f)，y ^gt)+E _ls(W _ls；I，L ^gt，o ^gt)

其中J为总目标函数，E _c表示定位分割子网络目标函数，E _ls表示分类子网络目标函数，W _c表示定位分割子网络需要确定的参数，W _ls表示分类子网络需要确定的参数，V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，I是输入的原始图像，y ^gt是标准类别标签，L ^gt是标准定位标注框，o ^gt是标准分割标注框。
根据权利要求1所述的方法，其特征在于，所述阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，在前向过程中，L＝L _f,O＝O _f，在反向过程中L和O是变量，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，c ^*是校准时采用的模板中心点，θ ^*是校准时采用的旋转角度，α ^*是校准时采用的目标缩放比，I表示对所述原始图像校准后的图像，E _a为校准能量函数，所述校准能量函数通过以下公式定义：

E _a(c，θ，α，t；I，L，O)＝S(I(c，θ，α)，t)+λ _dD(c，L)+λ _sF(O，t _m)，其中c表示模板中心点，θ表示旋转角度，α表示目标缩放比，t表示模板，S为相似度函数，其中λ _d和λ _s是自定义的常量，D为距离函数，F为前景置信度函数，t _m为模板的二元掩膜。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取待分类图像，将所述待分类图像输入已训练的图像分类模型，所述已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；

所述待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；

所述已分割图像经过所述校准子网络，所述校准子网络对目标对象进行校准得到已校准图像；及

所述已校准图像经过所述分类子网络进行细粒度分类，得到所述待分类图像对应的类别。
根据权利要求8所述的计算机设备，其特征在于，所述定位分割子网络包括定位子网络和分割子网络，所述定位子网络与分割子网络共享卷积神经网络的参数。
根据权利要求8所述的计算机设备，其特征在于，所述图像分类模型的训练，包括：

获取训练图像集合，所述训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签；

从所述训练图像集合获取各个类别对应的模板；

将所述训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像；

根据所述模板对所述已分割训练图像进行校准得到已校准训练图像；

将所述已校准训练图像输入分类子网络得到对应的当前输出类别；

获取图像分类模型对应的总目标函数，所述总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中所述定位分割子网络目标函数是关于所述阀门联动函数的函数，根据所述当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值；

根据所述阀门联动函数调整定位分割子网络参数和分类子网络参数，直到所述总目标函数的取值满足收敛条件；

得到所述已训练的图像分类模型。
根据权利要求10所述的计算机设备，其特征在于，所述从所述训练图像集合获取各个类别对应的模板，包括：

计算所述训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵；

将所述相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群；

获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到所述各个类别对应的模板，所述模板用于对图像进行校准。
根据权利要求10所述的计算机设备，其特征在于，所述根据所述模板对所述已分割训练图像进行校准得到已校准训练图像，包括：

获取校准目标函数，所述校准目标函数包括相似度函数、距离函数和前景置信度函数；

调整模板中心点、旋转角度、缩放比和当前模板，直到所述校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板；

根据所述目标模板中心点、目标旋转角度、目标缩放比和目标模板对所述已分割训练图像进行校准，得到已校准训练图像。
根据权利要求10所述的计算机设备，其特征在于，所述总目标函数通过以下公式定义：

J(W _c，W _ls；I，L ^gt，y ^gt，o ^gt)＝E _c(W _c；V(L，O；I，L _f，O _f)，y ^gt)+E _ls(W _ls；I，L ^gt，o ^gt)

其中J为总目标函数，E _c表示定位分割子网络目标函数，E _ls表示分类子网络目标函数，W _c表示定位分割子网络需要确定的参数，W _ls表示分类子网络需要确定的参数，V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，I是输入的原始图像，y ^gt是标准类别标签，L ^gt是标准定位标注框，o ^gt是标准分割标注框。
根据权利要求8所述的计算机设备，其特征在于，所述阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，在前向过程中，L＝L _f,O＝O _f，在反向过程中L和O是变量，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，c ^*是校准时采用的模板中心点，θ ^*是校准时采用的旋转角度，α ^*是校准时采用的目标缩放比，I表示对所述原始图像校准后的图像，E _a为校准能量函数，所述校准能量函数通过以下公式定义：

E _a(c，θ，α，t；I，L，O)＝S(I(c，θ，α)，t)+λ _dD(c，L)+λ _sF(O，t _m)，其中c表示模板中心点，θ表示旋转角度，α表示目标缩放比，t表示模板，S为相似度函数，其中λ _d和λ _s是自定义的常量，D为距离函数，F为前景置信度函数，t _m为模板的二元掩膜。
一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取待分类图像，将所述待分类图像输入已训练的图像分类模型，所述已训练的图像分类模型包括定位分割子网络、校准子网络和分类子网络，所述校准子网络被公式化为阀门联动函数，图像分类模型是通过阀门联动函数调整定位分割子网络和分类子网络的参数训练得到的，在训练的正向传播阶段，阀门联动函数的输出为已校准图像，在训练的反向传播阶段，阀门联动函数的输出为关于定位分割子网络输出的定位区域和分割区域的函数；

所述待分类图像经过定位分割子网络进行目标对象定位和分割得到包含定位区域和分割区域的已分割图像；

所述已分割图像经过所述校准子网络，所述校准子网络对目标对象进行校准得到已校准图像；及

所述已校准图像经过所述分类子网络进行细粒度分类，得到所述待分类图像对应的类别。
根据权利要求15所述的存储介质，其特征在于，所述定位分割子网络包括定位子网络和分割子网络，所述定位子网络与分割子网络共享卷积神经网络的参数。
根据权利要求15所述的存储介质，其特征在于，所述图像分类模型的训练，包括：

获取训练图像集合，所述训练图像集合中的各个训练图像包括标准定位标注框，标准分割标注框和标准类别标签；

从所述训练图像集合获取各个类别对应的模板；

将所述训练图像集合中的各个训练图像输入定位分割子网络，得到包含当前定位区域和当前分割区域的已分割训练图像；

根据所述模板对所述已分割训练图像进行校准得到已校准训练图像；

将所述已校准训练图像输入分类子网络得到对应的当前输出类别；

获取图像分类模型对应的总目标函数，所述总目标函数包括定位分割子网络目标函数和分类子网络目标函数，其中所述定位分割子网络目标函数是关于所述阀门联动函数的函数，根据所述当前输出类别、标准定位标注框，标准分割标注框和标准类别标签计算得到总目标函数的取值；

根据所述阀门联动函数调整定位分割子网络参数和分类子网络参数，直到所述总目标函数的取值满足收敛条件；

得到所述已训练的图像分类模型。
根据权利要求17所述的存储介质，其特征在于，所述从所述训练图像集合获取各个类别对应的模板，包括：

计算所述训练图像集合中任意两个训练图像之间的相似性，组成相似性矩阵；

将所述相似性矩阵经过谱聚类算法，将各个训练图像分成对应的多个集群；

获取各个集群中心，根据各个集群中各个训练图像与对应的集群中心的相似度，确定各个集群对应的目标训练图像得到所述各个类别对应的模板，所述模板用于对图像进行校准。
根据权利要求17所述的存储介质，其特征在于，所述根据所述模板对所述已分割训练图像进行校准得到已校准训练图像，包括：

获取校准目标函数，所述校准目标函数包括相似度函数、距离函数和前景置信度函数；

调整模板中心点、旋转角度、缩放比和当前模板，直到所述校准目标函数满足收敛条件，得到对应的目标模板中心点、目标旋转角度、目标缩放比和目标模板；

根据所述目标模板中心点、目标旋转角度、目标缩放比和目标模板对所述已分割训练图像进行校准，得到已校准训练图像。
根据权利要求17所述的存储介质，其特征在于，所述总目标函数通过以下公式定义：

J(W _c，W _ls；I，L ^gt，y ^gt，o ^gt)＝E _c(W _c；V(L，O；I，L _f，O _f)，y ^gt)+E _ls(W _ls；I，L ^gt，o ^gt)

其中J为总目标函数，E _c表示定位分割子网络目标函数，E _ls表示分类子网络目标函数，W _c表示定位分割子网络需要确定的参数，W _ls表示分类子网络需要确定的参数，V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，I是输入的原始图像，y ^gt是标准类别标签，L ^gt是标准定位标注框，o ^gt是标准分割标注框。
根据权利要求15所述的存储介质，其特征在于，所述阀门联动函数通过以下公式定义：

其中：V表示阀门联动函数，L是定位分割子网络输出的定位区域，O是定位分割子网络输出的分割区域，在前向过程中，L＝L _f,O＝O _f，在反向过程中L和O是变量，I是输入的原始图像，L _f是定位分割子网络在前向过程输出的定位区域，O _f是定位分割子网络在前向过程输出的分割区域，c ^*是校准时采用的模板中心点，θ ^*是校准时采用的旋转角度，α ^*是校准时采用的目标缩放比，I表示对所述原始图像校准后的图像，E _a为校准能量函数，所述校准能量函数通过以下公式定义：

E _a(c，θ，α，t；I，L，O)＝S(I(c，θ，α)，t)+λ _dD(c，L)+λ _sF(O，t _m)，其中c表示模板中心点，θ表示旋转角度，α表示目标缩放比，t表示模板，S为相似度函数，其中λ _d和λ _s是自定义的常量，D为距离函数，F为前景置信度函数，t _m为模板的二元掩膜。