WO2020192471A1

WO2020192471A1 - 一种图像分类模型训练的方法、图像处理的方法及装置

Info

Publication number: WO2020192471A1
Application number: PCT/CN2020/079496
Authority: WO
Inventors: 揭泽群
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-03-26
Filing date: 2020-03-16
Publication date: 2020-10-01
Also published as: US20210241109A1; KR102698958B1; CN109784424B; EP3951654A4; KR20210072051A; EP3951654A1; JP7185039B2; CN109784424A; JP2022505775A

Abstract

本申请公开了一种图像分类模型训练的方法，包括：获取待训练图像；当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取待训练图像的第一预测类别标注信息；根据图像内容类别信息以及第一预测类别标注信息，采用分类损失函数确定第二模型参数；当固定待训练图像分类网络的第二模型参数时，通过待训练偏移量网络获取待训练图像的第二预测类别标注信息；根据图像内容类别信息以及第二预测类别标注信息，采用分类损失函数确定第三模型参数；根据第二模型参数与第三模型参数得到图像语义分割网络模型。本申请通过AI实现像素级标记和模型训练，无需人工标注，从而减少人工标注成本，进而提升了模型训练的效率。

Description

一种图像分类模型训练的方法、图像处理的方法及装置

本申请要求于2019年03月26日提交的申请号为201910233985.5、发明名称为“一种图像分类模型训练的方法、图像处理的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种图像分类模型训练的方法、图像处理的方法及装置。

背景技术

图像语义分割是图像理解的基石性技术，在自动驾驶系统(比如街景识别与理解)、无人机应用(比如对着陆点判断)以及穿戴式设备应用中都起着举足轻重的左右。图像是由许多像素组成的，而语义分割就是将像素按照图像中表达语义含义的不同进行分割，使得机器自动分割并识别出图像中的内容。

目前，通常训练一个深度卷积神经网络来实现全图分类，再根据该深度卷积神经网络定位待训练图像中所对应图像内容区域，然后利用这些经过全图分类标注的图像内容区域作为分割的监督信息，最后训练得到图像语义分割网络模型。

然而，在训练图像语义分割网络模型时，所使用的待训练图像往往需要经过像素级标注。以分辨率为1024×2048的待训练图像为例，人工进行像素级别标注一张该分辨率大小的图像通常需要1.5小时，由此导致人工标注成本过高，且导致模型训练效率较低。

发明内容

本申请实施例提供了一种图像分类模型训练的方法、图像处理的方法及装置，可以对标注为图像级别的待训练图像进行训练，在保证图像语义分割网络模型性能的情况下，无需人工进行像素级别标注，从而减少了人工标注成本，进而提升了模型训练的效率。

有鉴于此，本申请第一方面提供一种图像分类模型训练的方法，所述方法由计算机设备执行，包括：

获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息；

当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

根据所述图像内容类别信息以及所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数；

当固定所述待训练图像分类网络的所述第二模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息；

根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数；

根据所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果。

本申请第二方面提供一种图像处理的方法，所述方法由计算机设备执行，包括：

获取待处理图像；

通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

根据所述语义分割结果对所述待处理图像进行处理。

本申请第三方面提供一种模型训练装置，所述装置用于计算机设备中，包括：

获取模块，用于获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息；

所述获取模块，还用于当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

确定模块，用于根据所述图像内容类别信息以及所述获取模块获取的所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数；

所述获取模块，还用于当固定所述待训练图像分类网络的所述第二模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息；

所述确定模块，还用于根据所述图像内容类别信息以及所述获取模块获取的所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数；

训练模块，用于根据所述确定模块确定的所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述确定模块，具体用于根据所述图像内容类别信息以及所述第一预测类别标注信息，确定在各个类别所对应的预测概率值；

根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失；

当所述分类损失函数的分类损失为最小值时，确定所述待训练图像分类网络所对应的所述第二模型参数。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述确定模块，具体用于根据所述图像内容类别信息以及所述第二预测类别标注信息，确定在各个类别所对应的预测概率值；

当所述分类损失函数的分类损失为最大值时，确定所述待训练偏移量网络所对应的所述第三模型参数。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述分类损失函数表示为：

其中，所述L表示所述分类损失函数，所述I()表示狄拉克函数，所述N表示类别总数，所述c表示第c类别，所述k为大于或等于1，且小于或等于所述N，所述P _c表示所述第c类别所对应的预测概率值。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述获取模块，还用于通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前，通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像，其中，所述可变形卷积神经网络用于预测所述待训练图像的偏移变量；

所述获取模块，具体用于通过所述待训练偏移量网络获取所述待训练特征图像所对应的所述第二预测类别标注信息。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述获取模块，具体用于采用如下方式生成所述待训练特征图像；

其中，所述y(p ₀)表示所述待训练特征图像所述p ₀表示所述待训练特征图像中的像素值，所述p _n表示采样点在卷积核中的位置，所述Δp _n表示所述偏移变量，所述w(p _n)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值，所述x(p ₀+p _n+Δp _n)表示所述待训练图像对应位置的像素值。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

所述获取模块，还用于所述确定模块根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后，当固定所述待训练偏移量网络所对应的所述第三模型参数时，通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息；

所述确定模块，还用于根据所述图像内容类别信息以及所述获取模块获取的所述第三预测类别标注信息，采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数；

所述获取模块，还用于当固定所述待训练图像分类网络的所述第四模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息；

所述确定模块，还用于根据所述图像内容类别信息以及所述获取模块获取的所述第四预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数；

所述训练模块，具体用于根据所述确定模块302确定的所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数，对所述待训练图像语义分割网络模型进行训练，得到所述图像语义分割网络模型。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

所述训练模块，具体用于当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时，根据每次训练所述待训练偏移量网络的偏移变量，确定所述待训练图像所对应的图像内容区域，其中，所述N为大于或等于1的整数；

根据所述图像内容区域，采用目标损失函数对待训练图像语义分割网络模型进行训练；

当所述目标损失函数的损失结果为最小值时，生成所述图像语义分割网络模型。

在一种可能的设计中，在本申请实施例的第三方面的第八种实现方式中，

所述目标损失函数表示为：

其中，所述L _seg表示所述目标损失函数，所述N表示类别总数，所述c表示第c类别，所述k为大于或等于1，且小于或等于所述N，所述I()表示狄拉克函数，所述

表示所述第c类别在像素点的预测概率值，所述i表示所述像素点在所述待训练图像中的横坐标位置，所述j表示所述像素点在所述待训练图像中的纵坐标位置。

本申请第四方面提供一种图像处理装置，所述装置用于计算机设备中，包括：

获取模块，用于获取待处理图像；

所述获取模块，还用于通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

处理模块，用于根据所述获取模块获取的所述语义分割结果对所述待处理图像进行处理。

本申请第五方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待处理图像；

根据所述语义分割结果对所述待处理图像进行处理；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种图像分类模型训练的方法，首先获取待训练图像，当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取待训练图像的第一预测类别标注信息，然后根据图像内容类别信息以及第一预测类别标注信息，采用分类损失函数确定待训练图像分类网络所对应的第二模型参数，当固定待训练图像分类网络的第二模型参数时，通过待训练偏移量网络获取待训练图像的第二预测类别标注信息，然后根据图像内容类别信息以及第二预测类别标注信息，采用分类损失函数确定待训练偏移量网络所对应的第三模型参数，最后可以根据第二模型参数与第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型。通过上述方式，采用偏移量网络以及图像分类网络，可以对标注为图像级别的待训练图像进行训练，在保证图像语义分割网络模型性能的情况下，无需人工进行像素级别标注，从而减少了人工标注成本，进而提升了模型训练的效率。

附图说明

图1为本申请实施例中图像处理系统的一个架构示意图；

图2为本申请实施例中图像语义分割网络模型的一个流程框架示意图；

图3为本申请实施例中图像分类模型训练的方法一个实施例示意图；

图4为本申请实施例中偏移量网络与图像分类网络的一个结构示意图；

图5为本申请实施例中可变形卷积神经网络的一个结构示意图；

图6为本申请实施例中图像处理的方法一个实施例示意图；

图7为本申请实施例中基于可变形卷积神经网络的一个图像处理流程示意图；

图8为本申请实施例中模型训练装置一个实施例示意图；

图9为本申请实施例中图像处理装置一个实施例示意图；

图10为本申请实施例中服务器一个结构示意图；

图11为本申请实施例中终端设备一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提出一种图像语义分割网络模型的训练方法，以及利用该图像语义分割网络模型进行图像处理的方法。该方法可以通过人工智能来减少图像语义分割的模型训练过程中的人工标记，提高模型训练效率。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，ORC)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请所提供的方法主要应用于人工智能领域下的计算机视觉领域，在计算机视觉领域中，分割、检测、识别以及跟踪这几个问题是紧密相连的。不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题，图像语义分割是从像素级理解图像，需要确定图像中每个像素的对应的目标类别。类别对于算法精度的要求是永无止境的，计算机对图像内容的理解可以从一开始整幅图像给出一个语义标签(图像分类)，进步到画出图中出现的图像内容位置。更进一步地，需要让计算机理解图像中的每一个像素点的语义信息，从而让计算机像人一样去看图像，这就是图像语义分割。

与图像分类与图像内容检测不同的是，图像语义分割的目标是给图像中的每一个像素点都标注一个标签，简单理解，语义分割是计算机视觉中十分重要的领域，它是指像素级地识别图像，即标注出图像中每个像素所属的对象类别。基于本申请提供的图像处理方法，可以应用于自动驾驶场景，即需要为车辆增加必要的感知，以了解车辆所处的环境，以便自动驾驶的汽车可以安全行驶。还可以用于医学图像诊断，机器可以增强放射医生进行的分析，大大减少了运行诊断测试所需的时间，比如对胸部X光片进行分割，可以得到心脏区域和肺部区域。

为了便于理解，本申请提出了一种图像处理的方法，该方法应用于图1所示的图像处理系统，请参阅图1，图1为本申请实施例中图像处理系统的一个架构示意图，如图所示，本申请所提供的模型训练装置可以部署于服务器，图像处理装置可以部署于客户端，可选的，图像处理装置也可以部署于服务器，此处以图像处理装置部署于客户端为例进行说明。首先，服务器训练一个可变形的卷积神经网络实现全图的分类，然后，服务器利用对抗学习的策略，使网络主干(即图像分类网络)和网络分支(即偏移量网络)进行交替训练，在每次训练偏移量网络时，服务器利用增大分类损失函数产生的梯度更新该网络分支，使其能够逐渐找到对全图分类贡献较弱的区域，从而获得目标图像内容的图像内容区域。最后，将定位得到的图像内容区域作为分割的监督信息，由此训练得到一个图像语义分割网络模型，以实现图像分割。

当客户端与服务器联网时，客户端可以从服务器中下载图像语义分割网络模型，进而将待处理图像输入至该图像语义分割网络模型，通过图像语义分割网络模型输出待处理图像的语义分割结果。或者，客户端也可以将待处理图像上传至服务器，由服务器利用图像语义分割网络模型对待处理图像进行处理，从而得到语义分割结果，并将语音分割结果返回给客户端。当客户端与服务器未联网时，服务器也可以直接在后台利用图像语义分割网络模型对待处理图像进行处理，从而得到语义分割结果。

需要说明的是，客户端可以部署于终端设备上，其中，终端设备包含但不仅限于无人车、机器人、平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。

为了便于理解，请参阅图2，图2为本申请实施例中图像语义分割网络模型的一个流程框架示意图，如图所示，先获取训练图像21以及图像级别的类别标注信息22，然后利用训练图像21以及类别标注信息22训练得到一个弱监督的图像语义分割网络模型23，接下来获取一个未知的测试图像24，将该测试图像24输入至图像语义分割网络模型23，由该图像语义分割网络模型23对未知的测试图像进行分割24，从而预测得到测试图像的语义分割结果25。

结合上述介绍，下面将对本申请中图像分类模型训练的方法进行介绍。其中，该方法可以由计算机设备执行，例如，可以由计算机设备中的模型训练装置来执行，其中该计算机设备可以是上述图1所示系统中的服务器。请参阅图3，本申请实施例中图像分类模型训练的方法一个实施例包括：

101、获取待训练图像，其中，待训练图像具有类别标注信息，类别标注信息用于表示待训练图像中存在的图像内容类别信息；

本实施例中，模型训练装置首先需要获取待训练图像，其中，待训练图像具有类别标注信息。类别标注信息用于表示待训练图像中存在的图像内容类别信息，比如，在待训练图像中标注出“人”、“马”、“电视”以及“沙发”等图像内容类别信息。可选地，图像内容类别信息除了可以是指图像中的物体所对应的类别信息以外，还可以是天空、云朵、草坪以及大海等场景所对应的类别信息。

在一个示例中，可以是从数据库中下载待训练图像，然后以人工标注的方式对待训练图像进行标注，由此得到待训练图像的类别标注信息。也可以是在具有海量用户数据的网站中自动爬取带有类别标注信息的待训练图像。可以理解的是，待训练图像包含但不仅限于如下格式，位图(BitMaP，BMP)格式、个人电脑交换(Personal Computer Exchange，PCX)格式、标签图像文件格式(TagImage FileFormat，TIF)、图形交换格式(Graphics Interchange Format，GIF)、联合照片专家组(Joint Photographic Expert Group，JPEG)格式、可交换的图像文件格式(Exchangeable Image file Format，EXIF)、可缩放矢量图形(Scalable Vector Graphics，SVG)格式、图纸交换格式(Drawing Exchange Format，DXF)、封装式页描述语言(Encapsulated PostScript，EPS)格式、便携式网络图形(Portable Network Graphics，PNG)格式、高动态范围成像(High Dynamic Range Imaging，HDRI)以及图元文件格式(Windows Metafile Format，WMF)。

在爬取网站中的待训练图像时，该待训练图像可存在于超级文本标记语言(HyperText Markup Language，HTML)、图片、文档(Document，Doc)、多媒体、动态网页以及便携式文档格式(Portable Document Format，PDF)等格式中。

102、当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取待训练图像的第一预测类别标注信息，其中，待训练偏移量网络用于根据偏移变量对图像进行分类，待训练图像分类网络用于对图像中的图像内容进行分类；

本实施例中，在模型训练装置获取到待训练图像以及该待训练图像所对应的类别标注信息之后，开始进行图像分类网络与偏移量网络的交替训练。例如，请参阅图4，图4为本申请实施例中偏移量网络与图像分类网络的一个结构示意图，如图所示，在训练待训练图像分类网络41的时候，需要先固定待训练偏移量网络42的权重值，即固定待训练偏移量网络42的第一模型参数，然后将待训练图像43输入至待训练图像分类网络41，由该待训练图像分类网络41输出待训练图像43的第一预测类别标注信息。

其中，待训练偏移量网络42用于提供对分类贡献较弱的输入点位置，根据改变后的偏移变量44，可达到定位到判别性较弱的图像内容区域的目的。待训练图像分类网络41用于对整体图像中的图像内容区域进行分类。

103、根据图像内容类别信息以及第一预测类别标注信息，采用分类损失函数确定待训练图像分类网络所对应的第二模型参数；

本实施例中，模型训练装置采用分类损失函数对待训练图像分类网络进行训练，分类损失函数用于估计模型预测值与真实值的不一致程度，其中，待训练图像的图像内容类别信息属于真实值，待训练图像的第一预测类别标注信息属于预测值，分类损失函数越小，表示图像分类网络的鲁棒性就越好。于是，根据分类损失函数能够得到待训练图像分类网络所对应的第二模型参数。

104、当固定待训练图像分类网络的第二模型参数时，通过待训练偏移量网络获取待训练图像的第二预测类别标注信息；

本实施例中，在模型训练装置在训练得到待训练图像分类网络的第二模型参数之后，基于模型的交替训练，此时需要固定待训练图像分类网络的权重值，即固定待训练图像分类网络的第二模型参数，然后将待训练图像输入至待训练偏移量网络，由该待训练偏移量网络输出待训练图像的第二预测类别标注信息。

可以理解的是，在待训练图像分类网络与待训练偏移量网络进行交替训练的时候，可以先固定待训练偏移量网络的模型参数，然后对待训练图像分类网络进行训练。也可以先固定待训练图像分类网络的模型参数，然后对待训练偏移量网络进行训练。本申请以先固定待训练偏移量网络的模型参数，再对待训练图像分类网络进行训练为例进行介绍，然而，这并不应理解为对本申请的限定。

105、根据图像内容类别信息以及第二预测类别标注信息，采用分类损失函数确定待训练偏移量网络所对应的第三模型参数；

本实施例中，模型训练装置采用同一个分类损失函数对待训练偏移量网络进行训练，分类损失函数用于估计模型预测值与真实值的不一致程度，其中，待训练图像的图像内容类别信息属于真实值，待训练图像的第二预测类别标注信息属于预测值。于是，根据分类损失函数能够得到偏移量网络所对应的第二模型参数。

106、根据第二模型参数与第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，图像语义分割网络模型用于确定待处理图像的语义分割结果。

本实施例中，在经过至少一轮交替训练之后，模型训练装置根据每轮训练得到的模型参数(包括训练得到的第二模型参数和第三模型参数)，对待训练图像语义分割网络模型进行训练。在一种示例性的方案中，在交替训练结束之后，将偏移量网络在训练过程中预测到的偏移变量融合为一个图像内容区域，最后，利用所得到的图像内容区域作为像素级分割的监督信息，采用该监督信息对待训练图像语义分割网络模型进行训练，从而得到图像语义分割网络模型。当待处理图像输入至图像语义分割网络模型时，由该图像语义分割网络模型输出相应的语义分割结果。

监督学习(supervised learning)主要用于解决两类问题，分别为回归(regression)以及分类(classification)，回归对应于定量输出，分类对应于定性输出。简单地说，由已知数据通过计算得到一个明确的值就是回归，例如y＝f(x)就是典型的回归关系。由已知数据或已标注的数据，通过计算得到一个类别就是分类。

本申请实施例中，通过上述方式，采用偏移量网络以及图像分类网络，可以对标注为图像级别的待训练图像进行训练，在保证图像语义分割网络模型性能的情况下，无需人工进行像素级别标注，从而减少了人工标注成本，进而提升了模型训练的效率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像分类模型训练的方法的第一个可选实施例中，根据图像内容类别信息以及第一预测类别标注信息，采用分类损失函数确定待训练图像分类网络所对应的第二模型参数，包括：

根据图像内容类别信息以及第一预测类别标注信息，确定在各个类别所对应的预测概率值；

根据各个类别所对应的预测概率值确定分类损失函数的分类损失；

当分类损失函数的分类损失为最小值时，确定待训练图像分类网络所对应的第二模型参数。

本实施例中，介绍了一种确定第二模型参数的方法。首先，根据真实值(即待训练图像的图像内容类别信息)以及预测值(即待训练图像的第一预测类别标注信息)，确定每个类别所对应的预测概率值。假设有5个类别，分别为“人”、“马”、“冰箱”、“电视”和“沙发”五个类别，第一预测类别标注信息包括“人”、“冰箱”、“电视”和“沙发”，可以得到预测概率值为，“人”的预测概率值为0.93，“冰箱”的预测概率值为0.88，“马”的预测概率值为0，“电视”的预测概率值为0.5，“沙发”的预测概率值为0.65。接下来，根据每个类别所对应的预测概率值确定分类损失函数的分类损失。

当该分类损失函数的分类损失达到最小值时，即可获取该最小值下待训练图像分类网络所对应的模型参数，该模型参数即为第二模型参数。可以理解的是，本申请中分类损失函数的分类损失可以是指交叉熵分类损失。

其次，本申请实施例中，通过上述方式，通过最小化图像级别的分类损失函数的分类损失，能够得到具有全图分类能力的图像分类网络，且该图像分类网络具有较好的鲁棒性，具有更强的图像分类效果。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像分类模型训练的方法第二个可选实施例中，根据图像内容类别信息以及第二预测类别标注信息，采用分类损失函数确定待训练偏移量网络所对应的第三模型参数，包括：

根据图像内容类别信息以及第二预测类别标注信息，确定在各个类别所对应的预测概率值；

当分类损失函数的分类损失为最大值时，确定待训练偏移量网络所对应的第三模型参数。

本实施例中，介绍了一种确定第三模型参数的方法。首先，根据真实值(即待训练图像的图像内容类别信息)以及预测值(即待训练图像的第二预测类别标注信息)，确定每个类别所对应的预测概率值，这里的第二预测类别标注信息是经过可变形卷积神经网络处理后得到的。假设有5个类别，分别为“人”、“马”、“冰箱”、“电视”和“沙发”五个类别，第二预测类别标注信息包括“人”、“马”、“冰箱”、“电视”和“沙发”，可以得到预测概率值为，“人”的预测概率值为0.75，“冰箱”的预测概率值为0.65，“马”的预测概率值为0.19，“冰箱”的预测概率值为0.66，“电视”的预测概率值为0.43，“沙发”的预测概率值为0.78。接下来，根据每个类别所对应的预测概率值确定分类损失函数的分类损失。

当该分类损失函数的分类损失达到最大值时，即可获取该最大值下待训练偏移量网络所对应的模型参数，该模型参数即为第三模型参数。可以理解的是，本申请中分类损失函数的分类损失可以是指交叉熵分类损失。

在实际应用中，时间序列或图像往往都是连续的，而我们输入到模型中的数据，往往是不连续的，因此，可以在输入中加入微小的扰动使得模型可以更好地对抗噪声扰动。即获取一个对抗样本，使它尽可能被分类为好，并且与某个原来的样本在样本空间里还很接近(距离无限小)。可以理解的是，可以采用梯度下降法或者牛顿法等，计算得到模型参数。

其次，本申请实施例中，通过上述方式，通过最大化图像级别的分类损失函数的分类损失，能够提升图像分类网络的分类难度，达到对抗训练的效果，从而使得图像分类网络的分类效果更好，即具有更强的图像分类效果。此外，通过最大化图像级别的分类损失函数的分类损失，还可以使偏移量网络提供对分类贡献较弱的输入点的位置，根据改变后的偏移变量，达到定位到判别性较弱的图像内容区域的目的。

可选地，在上述图3以及图3对应的第一个或第二个实施例的基础上，本申请实施例提供的图像分类模型训练的方法第三个可选实施例中，分类损失函数可以表示为：

其中，L表示分类损失函数，I()表示狄拉克函数，N表示类别总数，c表示第c类别，k为大于或等于1，且小于或等于N，P _c表示第c类别所对应的预测概率值。

本实施例中，定义了一个用于训练得到图像分类网络和偏移量网络的分类损失函数，即采用如下分类损失函数：

由此可见，在训练图像分类网络和偏移量网络时，以图像级别的图像内容区域作为训练对象，从而得到的图像分类网络和偏移量网络能够预测图像中每个图像内容区域的类别。

再次，本申请实施例中，提供了分类损失函数的示例性的内容。通过上述方式，能够为方案的实现提供可行的方法，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像分类模型训练的方法第四个可选实施例中，通过待训练偏移量网络获取待训练图像的第二预测类别标注信息之前，还可以包括：

通过可变形卷积神经网络获取待训练图像所对应的待训练特征图像，其中，可变形卷积神经网络用于预测待训练图像的偏移变量；

通过待训练偏移量网络获取待训练图像的第二预测类别标注信息，可以包括：

通过待训练偏移量网络待训练特征图像所对应的第二预测类别标注信息。

本实施例中，介绍了一种利用可变形卷积神经网络生成第二预测类别标注信息。在一示例性的方案中，首先将待训练图像输入至可变形卷积神经网络(deformable convolution)，通过可变形卷积神经网络输出一个预测得到的偏移变量，偏移变量即为一个卷积核每个权重值对应的输入像素的位置偏移量，采用偏移变量能够改变操作的实际输入特征。

为了便于理解，请参阅图5，图5为本申请实施例中可变形卷积神经网络的一个结构示意图，如图所示，传统卷积窗口只要训练每个卷积窗口的像素权重值即可，而可变形卷积网络需要额外增加一些参数用来训练卷积窗口的形状。图5中的偏移区域51就是变形卷积外加的待训练参数，待训练参数的大小和待训练图像52的大小一样，卷积窗口在偏移区域51上滑动就呈现了卷积像素偏移的效果，达到采样点优化的效果，最后输出待训练特征图像53。将待训练特征图像输入至待训练偏移量网络，由待训练偏移量网络输出第二预测类别标注信息。

其次，本申请实施例中，通过上述方式，能够预测一个卷积核中每个权重对应的输入像素的位置偏移变量，来改变卷积操作的实际输入特征，由此训练得到最有效的变换方式，从而可以实现对抗训练的模式。

可选地，在上述图3对应的第四个实施例的基础上，本申请实施例提供的图像分类模型训练的方法第五个可选实施例中，通过可变形卷积神经网络获取待训练图像所对应的待训练特征图像，可以包括：

采用如下方式生成待训练特征图像；

其中，y(p ₀)表示待训练特征图像p ₀表示待训练特征图像中的像素值，p _n表示采样点在卷积核中的位置，Δp _n表示偏移变量，w(p _n)表示卷积核在待训练图像对应位置进行卷积运算的权重值，x(p ₀+p _n+Δp _n)表示待训练图像对应位置的像素值。

本实施例中，介绍了一种通过可变形卷积神经网络获取待训练特征图像的方法，对输出位置为p ₀的特征，若使用传统的卷积层，其相应的输入特征位置集合为p ₀+p _n，其中，p _n∈R，R为所有以0为中心的标准的正方形偏移量，例如，一个3×3卷积核所对应的R为{(0,0)，(-1,-1),(-1,1),(1,1),(1,-1),(-1,0),(1,0),(0,1),(0,1)}。而可变形卷积神经网络的输入特征集合在p ₀+p _n的基础上，引入一个预测得到的额外偏移变量，因此，实际输入的特征位置集合为p ₀+p _n+Δp _n，即输出层y(p ₀)表示为：

再次，本申请实施例中，提供了一种生成待训练特征图像的示例性的方式，通过上述方式，能够为方案的实现提供可行的方法，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像分类模型训练的方法第六个可选实施例中，根据图像内容类别信息以及第二预测类别标注信息，采用分类损失函数确定待训练图像分类网络所对应的第三模型参数之后，还可以包括：

当固定待训练偏移量网络所对应的第三模型参数时，通过待训练图像分类网络获取待训练图像的第三预测类别标注信息；

根据图像内容类别信息以及第三预测类别标注信息，采用分类损失函数确定待训练图像分类网络所对应的第四模型参数；

当固定待训练图像分类网络的第四模型参数时，通过待训练偏移量网络获取待训练图像的第四预测类别标注信息；

根据图像内容类别信息以及第四预测类别标注信息，采用分类损失函数确定待训练偏移量网络所对应的第五模型参数；

根据第二模型参数与第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，包括：

根据第二模型参数、第三模型参数、第四模型参数以及第五模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型。

本实施例中，介绍另一轮模型交替训练的过程，在模型训练装置完成一次交替训练之后，即可开始下一轮的条件训练。例如，在训练待训练图像分类网的时候，需要先固定待训练偏移量网络的权重值，即固定待训练偏移量网络的第三模型参数，然后将待训练图像输入至待训练图像分类网络，由该待训练图像分类网络输出待训练图像的第三预测类别标注信息。于是，模型训练装置采用分类损失函数对待训练图像分类网络进行训练，分类损失函数用于估计模型预测值与真实值的不一致程度，其中，待训练图像的图像内容类别信息属于真实值，待训练图像的第三预测类别标注信息属于预测值，分类损失函数越小，表示图像分类网络的鲁棒性就越好。于是，根据分类损失函数能够得到待训练图像分类网络所对应的第四模型参数。

在模型训练装置在训练得到待训练图像分类网络的第四模型参数之后，基于模型的交替训练，此时需要固定待训练图像分类网络的权重值，即固定待训练图像分类网络的第四模型参数，然后将待训练图像输入至待训练偏移量网络，由该待训练偏移量网络输出待训练图像的第四预测类别标注信息。

模型训练装置采用同一个分类损失函数对待训练偏移量网络进行训练，分类损失函数用于估计模型预测值与真实值的不一致程度，其中，待训练图像的图像内容类别信息属于真实值，待训练图像的第四预测类别标注信息属于预测值。于是，根据分类损失函数能够得到偏移量网络所对应的第五模型参数。

在经过多轮交替训练之后，模型训练装置根据每轮训练得到的模型参数(包括训练得到的第二模型参数、第三模型参数、第四模型参数以及第五模型参数)，对待训练图像语义分割网络模型进行训练。在一示例性的方案中，在交替训练结束之后，将偏移量网络在训练过程中预测到的偏移变量融合为一个较为完整的图像内容区域，最后，利用所得到的图像内容区域作为像素级分割的监督信息，采用该监督信息对待训练图像语义分割网络模型进行训练，从而得到图像语义分割网络模型。当待处理图像输入至图像语义分割网络模型时，由该图像语义分割网络模型输出相应的语义分割结果。

其次，本申请实施例中，通过上述方式，固定其中一个分支，训练另一个分支的策略，能使图像分类网络与偏移量网络不断进行对抗学习，一方面使得图像分类网络在以信息量更弱的区域为输入后训练分类器不断增强，另一方面偏移量网络的分支亦能不断定位到判别性更弱的区域。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像分类模型训练的方法第七个可选实施例中，根据第二模型参数与第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，可以包括：

当采用第二模型参数与第三模型参数对待训练偏移量网络经过N次训练时，根据每次训练待训练偏移量网络的偏移变量，确定待训练图像所对应的图像内容区域，其中，N为大于或等于1的整数；

根据图像内容区域，采用目标损失函数对待训练图像语义分割网络模型进行训练；

当目标损失函数的损失结果为最小值时，生成图像语义分割网络模型。

本实施例中，介绍一种生成图像语义分割网络模型的方法，在N次交替训练结束后，将偏移量网络在训练过程中预测得到的偏移变量全部融合，由此可得到较为完整的图像内容区域，即得到待训练图像所对应的图像内容区域，利用所得的的图像内容区域作为像素级分割的监督信息，然后采用目标损失函数对待训练图像语义分割网络模型进行训练，当目标损失函数的损失结果为最小值时，生成图像语义分割网络模型。

图像语义分割网络模型的应用范围很广，比如帮助修图师进行精确美图，或者辅助无人驾驶汽车准确的理解前方障碍等。利用图像语义分割网络模型进行语义分割的方法有多种，比如使用阈值法，阈值法的目标是将一个灰度图像转换为一个前背景分离的二值图像，假设灰度图中仅包含两个主要类别，前景图像内容以及背景图像，然后通过平衡图像统计直方图的方式，找到一个很好的像素阈值，将图像中所有点区分到这两类中去，其中，大于阈值的点是图像内容，反之则为背景。

又比如使用像素聚类的方法，首先选取K个中心点，然后按照每个像素点与这K个像素的差别大小，将图像的所有点分配到这K个中心，之后重新计算每个类中心，并按照上述步骤迭代优化，从而将图像中的所有像素分为K个类别。

又比如使用图像边缘分割的方法，利用所提取到的边缘信息，将图像中的不同区域分割出来。

其次，本申请实施例中，通过上述方式，克服了对数据标注的要求过高的问题，不需要对海量的图像进行像素级标注，从而实现弱监督条件下的图像语义分割，仅需提供图像级别标注，而不需要昂贵的像素级别信息即可取得与现有方法可比的语义分割精度。

可选地，在上述图3对应的第七个实施例的基础上，本申请实施例提供的图像分类模型训练的方法第八个可选实施例中，目标损失函数可以表示为：

其中，L _seg表示目标损失函数，N表示类别总数，c表示第c类别，k为大于或等于1，且小于或等于N，I()表示狄拉克函数，

表示第c类别在像素点的预测概率值，i表示像素点在待训练图像中的横坐标位置，j表示像素点在待训练图像中的纵坐标位置。

本实施例中，定义了一个用于训练得到图像语义分割网络模型的目标损失函数，即采用如下目标损失函数：

由此可见，在训练图像语义分割网络模型时，以像素级别的图像作为训练对象，从而得到的图像语义分割网络模型能够预测图像中每个特征点的类别。

再次，本申请实施例中，提供了目标损失函数的示例性内容。通过上述方式，能够为方案的实现提供可行的方法，从而提升方案的可行性和可操作性。

结合上述介绍，下面将对本申请中图像处理的方法进行介绍。其中，该方法可以由计算机设备执行，例如，可以由计算机设备中的模型训练装置来执行，其中该计算机设备可以是上述图1所示系统中的终端设备或者服务器。请参阅图6，本申请实施例中图像处理的方法一个实施例包括：

201、获取待处理图像；

本实施例中，在模型训练装置训练得到一个图像语义分割网络模型之后，图像处理装置可以获取一个待处理图像。其中，当图像处理装置部署在无人车中时，图像处理装置可以通过摄像头获取无人车在行驶过程中采集到的街景图。当图像处理装置部署在机器人中时，图像处理装置可以实时采集机器人所在环境下的实景图。当图像处理装置部署在手机或者平板电脑等手持设备上时，图像处理装置可以获取用户拍摄的照片，或者从网站上下载的图片，这些图像均可以作为待处理图像。

可以理解的是，待处理图像包含但不仅限于如下格式，BMP格式、PCX格式、TIF、GIF、JPEG格式、EXIF、SVG格式、DXF、EPS格式、PNG格式、HDRI格式以及WMF。

202、通过图像语义分割网络模型获取待处理图像的语义分割结果，其中，图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，待训练偏移量网络用于根据偏移变量对图像进行分类，待训练图像分类网络用于对图像中的图像内容进行分类；

本实施例中，图像处理装置将待处理图像输入至图像语义分割网络模型，由该图像语义分割网络模型输出相应的语义分割结果。其中，图像语义分割网络模型是通过待训练图像分类网络以及待训练偏移量网络交替训练得到的，该待训练偏移量网络用于根据偏移变量对图像进行分类，待训练图像分类网络用于对图像中的图像内容进行分类。可以理解的是，图像语义分割网络模型的训练过程如上述图3以及图3对应的第一个至第八个实施例所描述的内容，故此处不做赘述。

可以理解的是，图像语义分割网络模型可以是基于全卷积神经网络(Fully Convolutional Networks，FCN)、条件随机场(conditional random field，CRF)或者马尔科夫随机场(Markov random field，MRF)训练得到的，也可以是通过其他结构的神经网络训练得到的，此处不做限定。

其中，FCN主要使用了卷积化(Convolutional)、上采样(Upsample)以及跳跃结构(Skip Layer)三种技术。卷积化即是将普通的分类网络，比如VGG16或者残差网络(Residual Neural Network，ResNet)50/101等网络丢弃全连接层，更换对应的卷积层即可。上采样即是反卷积(Deconvolution)，反卷积和卷积类似，都是相乘相加的运算。反卷积是一对多，反卷积的前向和后向传播，只用颠倒卷积的前后向传播即可。跳跃结构的作用就在于优化结果，因为如果将全卷积之后的结果直接上采样得到的结果是较为粗糙的，所以需要将不同池化层的结果进行上采样之后来优化输出。

203、根据语义分割结果对待处理图像进行处理。

本实施例中，图像处理装置根据语义分割结果对该待处理图像进行处理，可选地，语义分割结果可以用于网站进行以图搜图，即搜索与待处理图像相关的其他图像。还可以应基于图像内容分析的个性化推荐等。语义分割结果通常具有如下特点，第一，分割得到的不同区域内部平整，其纹理和灰度有相似性；第二，相邻语义分割区域对分割所依据的性质有明显的差异；第三，分割后不同语义区域的边界有明确且规整。

本申请实施例中，通过上述方式，可以实现弱监督的图像语义分割，能够应用于缺乏精细像素级别分割标注数据的情况，仅仅依靠全图分类标注，实现高准确率的图像分割。

为了便于理解，请参阅图7，图7为本申请实施例中基于可变形卷积神经网络的一个图像处理流程示意图，如图所示，首先获取一个待处理图像71，从该待处理图像中提取感兴趣图像，比如图7所示的红色汽车，将从待处理图像中提取的感兴趣图像输入至卷积层72，通过感兴趣区域池化层73得到感兴趣图像的特征图74。在一示例性的方案中，假设池化的目标为一个3×3的特征图，那么可以首先将输入的感兴趣图像的进行感兴趣区域池化，得到3×3大小的特征图74，然后通过全连接层75，输出为每一个区域对应的偏移变量76。经过另一个全连接层77，从而得到语义分割结果(包括分类信息78和定位信息79)。

下面对本申请中的模型训练装置进行详细描述。其中，该装置可以用于计算机设备中，例如，该计算机设备可以是上述图1所示系统中的服务器。请参阅图8，图8为本申请实施例中模型训练装置一个实施例示意图，模型训练装置30包括：

获取模块301，用于获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息；

所述获取模块301，还用于当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

确定模块302，用于根据所述图像内容类别信息以及所述获取模块301获取的所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数；

所述获取模块301，还用于当固定所述待训练图像分类网络的所述第二模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息；

所述确定模块302，还用于根据所述图像内容类别信息以及所述获取模块301获取的所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数；

训练模块303，用于根据所述确定模块302确定的所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果。

本实施例中，获取模块301获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息，当固定待训练偏移量网络的第一模型参数时，所述获取模块301通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类，确定模块302根据所述图像内容类别信息以及所述获取模块301获取的所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数，当固定所述待训练图像分类网络的所述第二模型参数时，所述获取模块301通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息，所述确定模块302根据所述图像内容类别信息以及所述获取模块301获取的所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数，训练模块303根据所述确定模块302确定的所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置30的另一实施例中，

所述确定模块302，具体用于根据所述图像内容类别信息以及所述第一预测类别标注信息，确定在各个类别所对应的预测概率值；

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置30 的另一实施例中，

所述确定模块302，具体用于根据所述图像内容类别信息以及所述第二预测类别标注信息，确定在各个类别所对应的预测概率值；

所述分类损失函数表示为：

再次，本申请实施例中，提供了分类损失函数的具体内容。通过上述方式，能够为方案的实现提供可行的方法，从而提升方案的可行性和可操作性。

所述获取模块301，还用于通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前，通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像，其中，所述可变形卷积神经网络用于预测所述待训练图像的偏移变量；

所述获取模块301，具体用于采用如下方式生成所述待训练特征图像；

再次，本申请实施例中，提供了一种生成待训练特征图像的示例性方式，通过上述方式，能够为方案的实现提供可行的方法，从而提升方案的可行性和可操作性。

所述获取模块301，还用于所述确定模块302根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后，当固定所述待训练偏移量网络所对应的所述第三模型参数时，通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息；

所述确定模块302，还用于根据所述图像内容类别信息以及所述获取模块301获取的所述第三预测类别标注信息，采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数；

所述获取模块301，还用于当固定所述待训练图像分类网络的所述第四模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息；

所述确定模块302，还用于根据所述图像内容类别信息以及所述获取模块301获取的所述第四预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数；

所述训练模块303，具体用于根据所述确定模块302确定的所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数，对所述待训练图像语义分割网络模型进行训练，得到所述图像语义分割网络模型。

所述训练模块303，具体用于当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时，根据每次训练所述待训练偏移量网络的偏移变量，确定所述待训练图像所对应的图像内容区域，其中，所述N为大于或等于1的整数；

所述目标损失函数表示为：

下面对本申请中的图像处理装置进行详细描述。其中，该装置可以用于计算机设备中，例如，该计算机设备可以是上述图1所示系统中的服务器或者终端设备。请参阅图9，图9为本申请实施例中图像处理装置一个实施例示意图，图像处理装置40包括：

获取模块401，用于获取待处理图像；

所述获取模块401，还用于通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

处理模块402，用于根据所述获取模块401获取的所述语义分割结果对所述待处理图像进行处理。

本实施例中，获取模块401获取待处理图像，所述获取模块401通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类，处理模块402根据所述获取模块401获取的所述语义分割结果对所述待处理图像进行处理。

图10是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU522还可以用于执行上述图3或图6所示实施例中的全部或者部分步骤。

本申请实施例还提供了另一种图像处理装置，如图11所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11，手机包括：射频(radio frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。例如，输入单元630可包括触控面板631以及其他输入设备632。除了触控面板631，输入单元630还可以包括其他输入设备632。例如，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641。虽然在图11中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。

虽然图11示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。

手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理系统与处理器680逻辑相连。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器680还可以用于执行上述图3或图6所示实施例中的全部或者部分步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种图像分类模型训练的方法，其特征在于，所述方法由计算机设备执行，包括：

获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息；

当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

根据所述图像内容类别信息以及所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数；

当固定所述待训练图像分类网络的所述第二模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息；

根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数；

根据所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
根据权利要求1所述的方法，其特征在于，所述根据所述图像内容类别信息以及所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数，包括：

根据所述图像内容类别信息以及所述第一预测类别标注信息，确定在各个类别所对应的预测概率值；

根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失；

当所述分类损失函数的分类损失为最小值时，确定所述待训练图像分类网络所对应的所述第二模型参数。
根据权利要求1所述的方法，其特征在于，所述根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数，包括：

根据所述图像内容类别信息以及所述第二预测类别标注信息，确定在各个类别所对应的预测概率值；

根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失；

当所述分类损失函数的分类损失为最大值时，确定所述待训练偏移量网络所对应的所述第三模型参数。
根据权利要求1至3中任一项所述的方法，其特征在于，所述分类损失函数表示为：

其中，所述L表示所述分类损失函数，所述I( )表示狄拉克函数，所述N表示类别总数，所述c表示第c类别，所述k为大于或等于1，且小于或等于所述N，所述P _c表示所述第c类别所对应的预测概率值。
根据权利要求1所述的方法，其特征在于，所述通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前，所述方法还包括：

通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像，其中，所述可变形卷积神经网络用于预测所述待训练图像的偏移变量；

所述通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息，包括：

通过所述待训练偏移量网络获取所述待训练特征图像所对应的所述第二预测类别标注信息。
根据权利要求5所述的方法，其特征在于，所述通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像，包括：

采用如下方式生成所述待训练特征图像；

其中，所述y(p ₀)表示所述待训练特征图像所述p ₀表示所述待训练特征图像中的像素值，所述p _n表示采样点在卷积核中的位置，所述Δp _n表示所述偏移变量，所述w(p _n)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值，所述x(p ₀+p _n+Δp _n)表示所述待训练图像对应位置的像素值。
根据权利要求1所述的方法，其特征在于，所述根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后，所述方法还包括：

当固定所述待训练偏移量网络所对应的所述第三模型参数时，通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息；

根据所述图像内容类别信息以及所述第三预测类别标注信息，采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数；

当固定所述待训练图像分类网络的所述第四模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息；

根据所述图像内容类别信息以及所述第四预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数；

所述根据所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，包括：

根据所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数，对所述待训练图像语义分割网络模型进行训练，得到所述图像语义分割网络模型。
根据权利要求1所述的方法，其特征在于，所述根据所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，包括：

当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时，根据每次训练所述待训练偏移量网络的偏移变量，确定所述待训练图像所对应的图像内容区域，其中，所述N为大于或等于1的整数；

根据所述图像内容区域，采用目标损失函数对待训练图像语义分割网络模型进行训练；

当所述目标损失函数的损失结果为最小值时，生成所述图像语义分割网络模型。
根据权利要求8所述的方法，其特征在于，所述目标损失函数表示为：

其中，所述L _seg表示所述目标损失函数，所述N表示类别总数，所述c表示第c类别，所述k为大于或等于1，且小于或等于所述N，所述I( )表示狄拉克函数，所述
表示所述第c类别在像素点的预测概率值，所述i表示所述像素点在所述待训练图像中的横坐标位置，所述j表示所述像素点在所述待训练图像中的纵坐标位置。
一种图像处理的方法，其特征在于，所述方法由计算机设备执行，包括：

获取待处理图像；

通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

根据所述语义分割结果对所述待处理图像进行处理。
一种模型训练装置，其特征在于，所述装置用于计算机设备中，包括：

获取模块，用于获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息；

所述获取模块，还用于当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

确定模块，用于根据所述图像内容类别信息以及所述获取模块获取的所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数；

所述获取模块，还用于当固定所述待训练图像分类网络的所述第二模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息；

所述确定模块，还用于根据所述图像内容类别信息以及所述获取模块获取的所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数；

训练模块，用于根据所述确定模块确定的所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
一种图像处理装置，其特征在于，所述装置用于计算机设备中，包括：

获取模块，用于获取待处理图像；

所述获取模块，还用于通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

处理模块，用于根据所述获取模块获取的所述语义分割结果对所述待处理图像进行处理。
一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待训练图像，其中，所述待训练图像具有类别标注信息，所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息；

当固定待训练偏移量网络的第一模型参数时，通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息，其中，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

根据所述图像内容类别信息以及所述第一预测类别标注信息，采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数；

当固定所述待训练图像分类网络的所述第二模型参数时，通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息；

根据所述图像内容类别信息以及所述第二预测类别标注信息，采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数；

根据所述第二模型参数与所述第三模型参数，对待训练图像语义分割网络模型进行训练，得到图像语义分割网络模型，其中，所述图像语义分割网络模型用于确定待处理图像的语义分割结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。
一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待处理图像；

通过图像语义分割网络模型获取所述待处理图像的语义分割结果，其中，所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的，所述待训练偏移量网络用于根据偏移变量对图像进行分类，所述待训练图像分类网络用于对图像中的图像内容进行分类；

根据所述语义分割结果对所述待处理图像进行处理；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或执行如权利要求10所述的方法。