WO2021203882A1

WO2021203882A1 - 姿态检测及视频处理方法、装置、电子设备和存储介质

Info

Publication number: WO2021203882A1
Application number: PCT/CN2021/079122
Authority: WO
Inventors: 赵扬波; 张展鹏
Original assignee: 深圳市商汤科技有限公司
Priority date: 2020-04-07
Filing date: 2021-03-04
Publication date: 2021-10-14
Also published as: JP2022531763A; KR20210137213A; CN111598124B; TW202139062A; CN111598124A

Abstract

提供了一种图像处理方法及装置、处理器、电子设备、存储介质。图像处理方法包括：获取待处理图像（101）；使用图像处理神经网络对待处理图像进行处理，得到待处理图像的处理结果（102）；图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到；未标注图像集的采集条件与待处理图像的采集条件相同；已标注图像集的采集条件与未标注图像集的采集条件不同。

Description

姿态检测及视频处理方法、装置、电子设备和存储介质

相关申请的交叉引用

本公开基于申请号为202010264926.7、申请日为2020年04月07日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及计算机技术领域，尤其涉及一种图像处理及装置、处理器、电子设备、存储介质。

背景技术

得益于强大的性能，近几年神经网络被广泛应用于图像处理领域。在使用神经网络之前，需要对神经网络进行训练。传统方法中，使用训练数据对神经网络进行训练得到训练好的神经网络，并将已训练好的神经网络应用于不同的应用场景。然而，基于一个应用场景的训练数据训练好的神经网络应用到其他应用场景中时，得到的处理结果准确度较低。

发明内容

本公开提供一种图像处理及装置、处理器、电子设备、存储介质。

第一方面，提供了一种图像处理方法，所述方法包括：

获取待处理图像；

使用图像处理神经网络对所述待处理图像进行处理，得到所述待处理图像的处理结果；所述图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到；所述未标注图像集的采集条件与所述待处理图像的采集条件相同；所述已标注图像集的采集条件与所述未标注图像集的采集条件不同。

在该方面中，以未标注图像集和已标注图像集为训练数据对神经网络进行训练，可基于已标注图像集确定未标注图像集的标签，从而可降低对未标注图像集进行标注的人力成本，并提高标注效率。在使用已标注图像集、未标注图像集、未标注图像集的标签对神经网络进行训练，可使神经网络在训练过程中学习到第二采集条件的信息，从而可在使用训练得到的图像处理神经网络对待处理图像进行处理的过程中，提高得到的处理结果的准确度。

结合本公开任一实施方式，所述方法还包括：

获取所述未标注图像集、所述已标注图像集以及第一待训练神经网络；

基于所述已标注图像集，得到所述未标注图像集的标签；

将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络。

在该实施方式中，基于已标注图像集对未标注图像集进行标注，从而可节省人力成本，并提高标注效率。使用已标注图像集和未标注图像集对第一待训练神经网络进行训练，可使第一待训练神经网络在训练过程学习到未标注图像集的采集条件的信息，得到图像处理神经网络。这样，使用图像处理神经网络对待处理图像进行处理，可提高处理结果的准确度。

结合本公开任一实施方式，所述基于所述已标注图像集，得到所述未标注图像集的标签，包括：

将所述已标注图像集作为训练数据，对所述第一待训练神经网络进行训练，得到第二待训练神经网络；

使用所述第二待训练神经网络对所述未标注图像集进行处理，得到所述未标注图像集的标签。

在该实施方式中，使用第一待训练神经网络对未标注图像集进行处理，得到未标注图像集的标签后，将已标注图像集和未标注图像集作为训练数据、未标注图像集的标签作为未标注图像集的监督信息，对第二待训练神经网络进行训练，以增大训练周期数，提升训练效果，从而提高训练得到的图像处理神经网络对待处理图像进行处理得到的处理结果的准确度。

结合本公开任一实施方式，所述将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络，包括：

使用所述第二待训练神经网络对所述已标注图像集进行处理得到第一结果，使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果；

依据所述第一结果与所述已标注图像集的标签之间的差异得到第一差异，依据所述第二结果与所述未标注图像集的标签之间的差异得到第二差异；

依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失；

基于所述第二待训练神经网络的损失，调整所述第二待训练神经网络的参数，得到所述图像处理神经网络。

在该实施方式中，依据第一差异和第二差异，得到第二待训练神经网络的损失，并基于第二待训练神经网络的损失调整第二待训练神经网络的参数，可完成对第二待训练神经网络的训练，得到图像处理神经网络。

结合本公开任一实施方式，所述已标注图像集的标签和所述未标注图像的标签均携带类别信息；

在所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失之前，所述方法还包括：

确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度；所述训练图像集包括所述已标注图像集和所述未标注图像集；所述第一图像的类别与所述第二图像的类别相同，且所述第一图像的类别与所述第三图像的类别不同；

依据所述第一相似度和所述第二相似度之间的差异，得到三元组损失；

所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失，包括：

依据所述第一差异和所述第二差异，得到类别损失；

依据所述类别损失和所述三元组损失，得到所述第二待训练神经网络的损失。

在该实施方式中，依据第一相似度和第二相似度得到三元组损失，并在对第二待训练神经网络的训练过程中，依据类别损失和三元组损失确定第二待训练神经网络的损失，可使第二待训练神经网络在训练过程中，提高对图像的类别的区分能力。

结合本公开任一实施方式，在所述确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，以及所述确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度之前，所述方法还包括：

确定第一图像的类内最难图像作为第二图像，确定第一图像的类外最难图像作为第三图像；所述类内最难图像为类内图像集中与所述第一图像之间的相似度最小的图像；所述类外最难图像为类外图像集中与所述第一图像之间的相似度最大的图像；所述类内图像集包括标签与所述第一图像的标签相同的图像；所述类外图像集包括标签与所述第一图像的标签不同的图像。

通过上述方式，同类的图像之间的相似度最小值比不同类的图像之间的相似度最大值都大，从而使得任意两张属于同一类的图像之间的相似度都要比任意两张属于不同类的图像之间的相似度大。

结合本公开任一实施方式，在所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果之前，所述方法还包括：

对所述未标注图像集进行数据增强处理，得到增强后的图像集；

所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果，包括：

使用所述第二待训练神经网络对所述增强后的图像集和所述未标注图像集进行处理，得到所述第二结果。

在该实施方式中，通过对未标注图像集进行数据增强处理，增加采集条件与未标注图像集的采集条件相同的图像的数量，进而提升第二待训练神经网络的训练效果。这样，在使用训练得到的图像处理神经网络对待处理图像进行处理的过程中，可提高得到的处理结果的准确度。

结合本公开任一实施方式，所述数据集增强处理包括以下至少一种：旋转处理、擦除处理、剪裁处理、模糊处理。

结合本公开任一实施方式，图像的所述采集条件包括：采集所述图像的成像设备的参数。

第二方面，提供了一种图像处理装置，所述装置包括：

获取部分，被配置为获取待处理图像；

处理部分，被配置为使用图像处理神经网络对所述待处理图像进行处理，得到所述待处理图像的处理结果；所述图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到；所述未标注图像集的采集条件与所述待处理图像的采集条件相同；所述已标注图像集的采集条件与所述未标注图像集的采集条件不同。

结合本公开任一实施方式，所述获取部分，还被配置为获取所述未标注图像集、所述已标注图像集以及第一待训练神经网络；

所述处理部分，还被配置为基于所述已标注图像集，得到所述未标注图像集的标签；

所述装置还包括：

训练部分，被配置为将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络。

结合本公开任一实施方式，所述处理部分，还被配置为：

所述装置还包括：第一确定部分，被配置为在所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失之前，确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度；所述训练图像集包括所述已标注图像集和所述未标注图像集；所述第一图像的类别与所述第二图像的类别相同，且所述第一图像的类别与所述第三图像的类别不同；

第二确定部分，被配置为依据所述第一相似度和所述第二相似度之间的差异，得到三元组损失；

所述处理部分，还用于依据所述第一差异和所述第二差异，得到类别损失；

结合本公开任一实施方式，所述装置还包括：

第三确定部分，被配置为在所述确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，以及所述确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度之前，确定第一图像的类内最难图像作为第二图像，确定第一图像的类外最难图像作为第三图像；所述类内最难图像为类内图像集中与所述第一图像之间的相似度最小的图像；所述类外最难图像为类外图像集中与所述第一图像之间的相似度最大的图像；所述类内图像集包括标签与所述第一图像的标签相同的图像；所述类外图像集包括标签与所述第一图像的标签不同的图像。

结合本公开任一实施方式，所述装置还包括：

数据增强处理部分，被配置为在所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果之前，对所述未标注图像集进行数据增强处理，得到增强后的图像集；

所述处理部分被配置为：

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本公开实施例或背景技术中的技术方案，下面将对本公开实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的一种图像处理方法的流程示意图；

图2为本公开实施例提供的另一种图像处理方法的流程示意图；

图3为本公开实施例提供的一种图像处理装置的结构示意图；

图4为本公开实施例提供的一种图像处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

得益于强大的性能，近几年神经网络被广泛应用于图像处理领域，用以执行各种任务。例如，使用神经网络对执行图像分类任务，又例如，使用神经网络执行图像分割任务。为表述方便，下文将执行任务称为应用，将神经网络执行任务所处理的图像称为应用图像。

神经网络在应用过程中的表现效果很大程度取决于对神经网络的训练效果，影响神经网络的训练效果的因素众多，训练图像的图像质量与应用图像的图像质量之间的差异即为众多因素中的一个。图像质量包括：图像的分辨率、图像的信噪比、图像的清晰度。训练图像的图像质量与应用图像的图像质量之间的差异包括以下至少一种：训练图像的分辨率与应用图像的分辨率之间的差异、训练图像的信噪比与应用图像的分辨率之间的差异、训练图像的清晰度与应用图像的清晰度之间的差异。而导致训练图像的图像质量与应用图像的图像质量之间存在差异的原因之一为：训练图像的采集条件与应用图像的采集条件之间的差异。

本公开实施例中，训练图像的采集条件与应用图像的采集条件(下文将称为第一采集条件)之间的差异包括以下至少一种：采集训练图像的成像设备(下文将称为训练成像设备)的参数与采集应用图像的成像设备(下文将称为应用成像设备)的参数之间的差异、采集训练图像的环境与采集应用图像的环境之间的差异。

采集训练图像的成像设备的参数与采集应用图像的成像设备的参数之间的差异包括：训练成像设备的硬件配置与应用成像设备的硬件配置之间的差异。例如，训练设备采集的图像的分辨率为1920×1080，应用设备采集的图像的分辨率为1280×1024。又例如，训练设备的焦距范围为：10毫米-22毫米，应用成像设备的焦距范围为：18毫米-135毫米。

采集图像的环境包括以下至少一种：采集图像的天气、采集图像的场景。例如，采集图像的天气可以是阴天，采集图像的天气也可以是雨天，采集图像的天气还可以是晴天。雨天采集的图像的环境和晴天采集的图像的环境不同，阴天采集的图像的环境和晴天采集的图像的环境不同。又例如，场景可以是汽车内部，场景也可以是候机厅，场景还可以是高速公路，采集汽车内部的图像的场景与采集候机厅的图像的场景不同，采集高速公路的图像的场景与采集候机厅的图像的场景不同。

使用训练图像对神经网络进行训练，得到训练后的神经网络。使用训练后的神经网络执行任务，即使用训练后的神经网络对应用图像进行处理，得到处理结果。例如，在执行图像分类任务的过程中，使用训练后的神经网络对应用图像进行处理，得到分类结果。又例如，在执行图像分割任务的过程中，使用训练后的神经网络对应用图像进行处理，得到分割结果。但在训练图像与应用图像之间存在差异的情况下，上述处理结果(包括分类结果和分割结果)的准确度低。

举例来说，通过A城市的监控摄像头在阴天采集包含行人的图像(下文将称为A地采集的图像)，并通过对A地采集的图像中的行人的身份进行标注得到训练图像。使用训练图像训练神经网络a，使训练后的神经网络a可以用于识别在A地采集的图像中的行人的身份。现需要使用训练后的神经网络a识别在B地采集的图像中的行人的身份，由于训练图像均为阴天采集的图像，而从B地采集的图像包括：阴天采集的图像、晴天采集的图像、雨天采集的图像，不同的天气采集的图像中的环境亮度、清晰度不一样，环境亮度和清晰度的不同影响神经网络的识别准确度，使用训练后的神经网络a对晴天或雨天采集的图像中的行人的身份进行识别，得到的识别结果的准确度低。此外，A地的监控摄像头的参数和B地的监控摄像头的参数也不一样(如拍摄视角，又如分辨率)，这也将导致训练后的神经网络a对B地采集到的图像中的行人的身份的识别准确度低。

为提高处理结果的准确度，传统方法通过将应用场景下的第一采集条件下采集的图像作为训练图像，对神经网络进行训练。但这种方法需要对第一采集条件下采集的图像进行标注，而神经网络的训练图像的数量大，传统方法需要耗费大量的人力成本，且标注效率低。

基于此，本公开实施例提供了一种技术方案，以在降低人力成本、提高标注效率的前提下，提高基于神经网络得到的处理结果的准确度。

本公开实施例的执行主体可以为图像处理装置，其中，图像处理装置可以是以下中的一种：手机、计算机、服务器、平板电脑。本申请实施例还可以通过处理器执行计算机代码实现本申请的图像处理方法。

下面结合本公开实施例中的附图对本公开实施例进行描述。

请参阅图1，图1是本公开实施例提供的一种图像处理方法的流程示意图。

101、获取待处理图像。

本公开实施例中，待处理图像可以包含任意内容。例如，待处理图像可以包括道路。又例如，待处理图像可以包括道路和车辆。再例如，待处理图像可以包括人。本公开对待处理图像中的内容不做限定。

在一种获取待处理图像的实现方式中，图像处理装置接收用户通过输入组件输入的待处理图像。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取待处理图像的实现方式中，图像处理装置接收第一终端发送的待处理图像。这里，第一终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。

在又一种获取待处理图像的实现方式中，图像处理装置可以通过自身的图像采集组件，例如摄像头，直接采集得到待处理图像。

102、使用图像处理神经网络对上述待处理图像进行处理，得到上述待处理图像的处理结果。

本公开实施例中，图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到，其中，未标注图像集的采集条件与待处理图像的采集条件(下文将称为第二采集条件)相同，已标注图像集的采集条件(下文将称为第三采集条件)与未标注图像集的采集条件不同。

举例来说，待处理图像为在候机室采集的图像，未标注图像集中的图像也为在候机室采集的图像，已标注图像集中的图像非在候机室采集的图像。又例如，待处理图像为摄像头A采集的图像，未标注图像集中的图像也为摄像头A采集的图像，已标注图像集中的图像为摄像头B采集的图像。

本公开实施例中，已标注图像集中的图像均携带有标签。例如，使用图像处理网络执行的图像分类任务为：判断图像中包含的内容是苹果、香蕉、梨子、桃子、橙子、西瓜中的哪一种，那么已标注图像集中的图像的标签包括苹果、香蕉、梨子、桃子、橙子、西瓜中的一种。又例如，使用图像处理网络执行的任务为行人重识别，即识别图像中包含的人物的身份，那么已标注图像集中的图像的标签包括人物的身份(如张三、李四、王五、周六等)。再例如，使用图像处理网络执行的任务为将人物所覆盖的像素区域从图像中分割出来，那么已标注图像集中的图像标签包括人物轮廓，该人物轮廓所包围的像素区域即为人物所覆盖的像素区域。

在将未标注图像集和已标注图像集作为训练数据对神经网络进行训练的过程中，可基于已标注图像集确定未标注图像集的标签，进而可使用已标注图像集、未标注图像集、未标注图像集的标签对神经网络进行训练，这样，在使用训练后的神经网络对第二采集条件下采集的图像进行处理的过程中，可提高得到的处理结果的准确度。

举例来说，已标注图像集中的图像均为在候机室采集的图像，待处理图像和未标注图像集中的图像均为在汽车内部采集的图像。由于未标注图像集中的图像均未携带标签，无法使用未标注图像集对神经网络进行训练，而候机室内的环境与汽车内部的环境不同(如：候机室内的光线与汽车内部的光线不同，又如：候机室内的物体与汽车内部的物体不同)，仅使用已标注图像集对神经网络进行训练，无法使神经网络通过训练学习到汽车内部的环境的信息，从而在使用训练后的神经网络对待处理图像进行处理的过程中，使得到的处理结果的准确度低。在本公开实施例中，将已标注图像集和未标注图像集作为训练数据，可基于已标注图像集确定未标注图像集的标签，从而可使用未标注图像集和未标注图像集的标签作为训练数据对神经网络进行训练，这样，神经网络在训练过程中可学习到汽车内部的环境的信息，进而提高处理结果的准确度。

在一种基于已标注图像集确定未标注图像集的标签的实现方式中(下文将称为第一种实现方式)，使用已标注图像集作为训练数据，对神经网络进行训练，得到训练后的神经网络。使用训练后的神经网络对未标注图像集进行处理，得到未标注图像集的标签。使用已标注图像集、未标注图像集、未标注图像集的标签对训练后的神经网络进行训练，得到图像处理神经网络。举例来说，已标注图像集包括图像a，未标注图像集包括图像b，其中，图像a的标签为A。使用神经网络对图像a进行处理，得到第一处理结果。依据第一处理结果与A之间的差异，得到第一中间损失。基于第一中间损失调整神经网络的参数，得到训练后的神经网络。使用训练后的神经网络对图像b进行处理，得到第二处理结果，作为图像b的标签。

在另一种基于已标注图像集确定未标注图像集的标签的实现方式中(下文将称为第二种实现方式)，对已标注图像集进行特征提取处理，得到第一中间特征数据集。将第一中间特征数据集作为训练数据、已标注图像集的标签作为第一中间特征数据集的监督信息，对支持向量机(support vetor machine，SVM)进行训练，得到训练后的SVM。对未标注图像集进行特征提取处理，得到第二中间特征数据集。使用训练后的SVM对第二中间特征数据集进行处理，得到第二中间特征数据集的标签，作为未标注图像集的标签。举例来说，已标注图像集包括图像a和图像b，未标注图像集包括图像c，其中，图像a的标签为A，图像b的标签为B。对图像a进行特征提取处理，得到图像a的特征数据，对图像b进行特征提取处理，得到图像b的特征数据。使用图像a的特征数据和图像b的特征数据对SVM进行训练，得到训练后的SVM。对图像c进行特征提取处理，得到图像c的特征数据。使用训练后的SVM对图像c进行处理，得到目标处理结果，作为图像c的标签。

在又一种基于已标注图像集确定未标注图像集的标签的实现方式中(下文将称为第三种实现方式)，对未标注图像集进行聚类处理，得到至少一个簇，其中，每个簇包含至少一张图像。以标签为依据对已标注图像集进行划分，得到至少一个图像集，其中，每个图像集包含至少一张图像，且每个图像集中的图像的标签相同。分别确定与每个簇之间的相似度最大的图像集，作为最大相似度图像集。将最大相似度图像集的标签作为簇的标签，即簇中数据的标签。举例来说，已标注图像集包括图像a、图像b、图像c，未标注图像集包括图像d、图像e、图像f，其中，图像a的标签和图像b的标签均为A，图像c的标签为B。对未标注图像集进行聚类处理，得到第一簇和第二簇，其中，第一簇包括图像d和图像e，第二簇包括图像f。以标签为依据对已标注图像集进行划分，得到第一图像集和第二图像集，其中，第一图像集包括图像a和图像b，第二图像集包括图像c，第一图像集的标签为A，第二图像集的标签为B。确定第一簇与第一图像集之间的相似度为s ₁，确定第一簇与第二图像集之间的相似度为s ₂，确定第二簇与第一图像集之间的相似度为s ₃，确定第二簇与第二图像集之间的相似度为s ₄。在s ₁大于s ₂的情况下，第一簇的最大相似度集为第一图像集，第一簇的标签为A，即可确定图像d的标签和图像e的标签均为A。在s ₁小于s ₂的情况下，第一簇的最大相似度集为第二图像集，第一簇的标签为B，即可确定图像d的标签和图像e的标签均为B。在s ₃大于s ₄的情况下，第二簇的最大相似度集为第一图像集，第二簇的标签为A，即可确定图像f的标签为A。在s ₃小于s ₄的情况下，第二簇的最大相似度集为第二图像集，第二簇的标签为B，即可确定图像f的标签为B。

在一种确定第一簇和第一图像集之间的相似度的实现方式中，假设第一簇的质心为图像A，第一图像集的质心为图像B。确定图像A和图像B之间的相似度，作为第一簇和第一图像集之间的相似度。

在另一种确定第一簇和第一图像集之间的相似度的实现方式中，分别确定第一簇中的每张图像与第一图像集簇中的每张图像之间的相似度，得到相似度集。将相似度集中的最大值作为第一簇和第一图像集之间的相似度。

在又一种确定第一簇和第一图像集之间的相似度的实现方式中，分别确定第一簇中的每张图像与第一图像集簇中的每张图像之间的相似度，得到相似度集。将相似度集中的最小值或平均值作为第一簇和第一图像集之间的相似度。

同理，可通过确定第一簇和第一图像集之间的相似度的实现方式确定第一簇和第二图像集之间的相似度、第二簇和第一图像集之间的相似度、第二簇和第二图像集之间的相似度。

本公开实施例中，以未标注图像集和已标注图像集为训练数据对神经网络进行训练，可基于已标注图像集确定未标注图像集的标签，从而可降低对未标注图像集进行标注的人力成本，并提高标注效率。在使用已标注图像集、未标注图像集、未标注图像集的标签对神经网络进行训练，可使神经网络在训练过程中学习到第二采集条件的信息，从而可在使用训练得到的图像处理神经网络对待处理图像进行处理的过程中，提高得到的处理结果的准确度。

请参阅图2，图2是本公开实施例提供的一种图像处理神经网络的训练方法的流程示意图。本实施例的执行主体可以是图像处理装置，也可以不是图像装置，即图像处理神经网络的训练方法的执行主体与使用图像处理网络对待处理图像进行处理的执行主体可以相同，也可以不同，本公开实施例对本实施例的执行主体不做限定。为表述方便，下文将本实施例的执行主体称为训练装置，其中，训练装置可以是以下任意一种：手机、计算机、平板电脑、服务器、处理器。

201、获取未标注图像集、已标注图像集以及第一待训练神经网络。

训练装置获取未标注图像集的实现方式，可参见步骤101中图像处理装置获取未标注图像集的实现方式，训练装置获取已标注图像集的实现方式，可参见步骤101中图像处理装置获取已标注图像集的实现方式，此处将不再赘述。

本公开实施例中，第一待训练神经网络为任意神经网络。例如，第一待训练神经网络可以由卷积层、池化层、归一化层、全连接层、下采样层、上采样层、分类器中的至少一种网络层堆叠组成。本公开实施例对第一待训练神经网络的结构不做限定。

在一种获取第一待训练神经网络的实现方式中，训练装置接收用户通过输入组件输入的第一待训练神经网络。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一待训练神经网络的实现方式中，训练装置接收第二终端发送的第一待训练神经网络。其中，上述第二终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。

在又一种获取第一待训练神经网络的实现方式中，训练装置可以从自身的存储部件中获取预存的第一待训练神经网络。

202、基于上述已标注图像集，得到上述未标注图像集的标签。

如步骤102所述，基于已标注图像集，可得到未标注图像集的标签。本步骤采用的是步骤102中的第一种实现方式，将已标注图像集作为训练数据，对第一待训练神经网络进行训练，得到第二待训练神经网络。使用第二待训练神经网络对未标注图像集进行处理，得到未标注图像集的标签。

203、将上述已标注图像集和上述未标注图像集作为训练数据、上述未标注图像集的标签作为上述未标注图像集的监督信息，对上述第一待训练神经网络进行训练，得到上述图像处理神经网络。

在得到未标注图像集的标签后，可将未标注图像集作为训练数据对第一待训练神经网络进行训练。

由于影响神经网络的训练效果的因素还包括训练数据的数量，这里，训练数据的数量越多，神经网络的训练效果越好。因此在本公开实施例中，在对第一待训练神经网络进行训练的过程中，将已标注图像集和未标注图像集作为训练数据、未标注图像集的标签作为未标注图像集的监督信息，对第一待训练神经网络进行训练，以提升训练效果。这样，在使用训练得到的图像处理神经网络对待处理图像进行处理的过程中，可提高得到的处理结果的准确度。

举例来说，已标注图像集包括图像a，未标注图像集包括图像b，其中，图像a的标签为A，经步骤202的处理确定图像b的标签为B。使用第一待训练神经网络对图像a进行处理，得到第一中间结果。确定第一中间结果与A之间的差异，得到第一中间差异。基于第一中间差异，确定第一待训练神经网络的损失，并基于第一待训练神经网络的损失调整第一待训练神经网络的参数，得到第三待训练神经网络。使用第三待训练神经网络对图像b进行处理，得到第二中间结果。确定第一中间结果与B之间的差异，得到第二中间差异。基于第二中间差异，确定第三待训练神经网络的损失，并基于第三待训练神经网络的损失调整第三待训练神经网络的参数，得到图像处理神经网络。

由于影响神经网络的训练效果的因素还包括训练周期数，其中，训练周期数越多，神经网络的训练效果越好。这里，使用第一待训练神经网络对未标注图像集进行处理，得到未标注图像集的标签后，将已标注图像集和未标注图像集作为训练数据、未标注图像集的标签作为未标注图像集的监督信息，对第二待训练神经网络进行训练，以增大训练周期数，提升训练效果，从而提高训练得到的图像处理神经网络对待处理图像进行处理得到的处理结果的准确度。

在神经网络的训练过程中，神经网络将所有训练数据处理完，即完成一个训练周期。举例来说，训练数据包括图像a、图像b。在训练过程中的第一次迭代中，神经网络对图像a进行处理，得到图像a的结果。基于图像a的结果和图像a的标签，得到神经网络的损失，并基于神经网络的损失，调整神经网络的参数，得到第一次迭代后的神经网络。在第二次迭代中，第一次迭代后的神经网络对图像b进行处理，得到图像b的结果。基于图像b的结果和图像b的标签，得到第一次迭代后的神经网络的损失，并基于第一次迭代后的神经网络的损失，调整第一次迭代后的神经网络的参数，得到第二次迭代后的神经网络。在第三次迭代中，第二次迭代后的神经网络对图像a进行处理，得到图像a的结果。基于图像a的结果和图像a的标签，得到第二次迭代后的神经网络的损失，并基于第二次迭代后的神经网络的损失，调整第二次迭代后的神经网络的参数，得到第三次迭代后的神经网络。其中，第一个训练周期包括第一次迭代和第二次迭代，第三次迭代属于第二个训练周期。

在一种可能实现的方式中，使用第二待训练神经网络对已标注图像集进行处理得到第一结果，使用第二待训练神经网络对未标注图像集进行处理得到第二结果。依据第一结果与已标注图像集的标签之间的差异得到第一差异，依据第二结果与未标注图像集的标签之间的差异得到第二差异。依据第一差异和第二差异，得到第二待训练神经网络的损失。由于第二待训练神经网络为通过使用已标注图像集对第一待训练神经网络进行训练得到，也就是说，第二待训练神经网络的已训练周期数比第一待训练神经网络的已训练周期数大。因此，在得到未标注图像集的标签后，使用已标注图像集和未标注图像集作为训练数据、未标注图像集的监督信息对第二待训练神经网络进行训练的效果，比使用已标注图像集和未标注图像集作为训练数据、未标注图像集的监督信息对第一待训练神经网络进行训练的效果好。

在一种依据第一差异和第二差异得到第二待训练神经网络的损失的实现方式中，依据第一差异，确定第二待训练神经网络的第一次迭代损失，并基于第一次迭代损失调整第二待训练神经网络的参数，得到第一次迭代后的第二待训练神经网络。依据第二差异，确定第二待训练神经网络的第二次迭代损失，并基于第二次迭代损失调整第一次迭代后的第二待训练神经网络的参数，得到图像处理神经网络。

在另一种依据第一差异和第二差异得到第二待训练神经网络的损失的实现方式中，可对第一差异和第二差异进行加权求和，或者加权求和后再加一个常数等方式，得到第二待训练神经网络的损失。例如，未标注图像集的采集条件与待处理图像的采集条件相同，可使第二差异的权重比第一差异的权重大，以使图像处理神经网络通过训练学习到更多第二采集条件的信息，从而在使用训练后的神经网络对待处理图像进行处理的过程中，可提高得到的处理结果的准确度。

由于类别相同的图像之间的相似度应该大于类别不同的图像之间的相似度，若在对图像进行分类处理的过程中，将相似度小的两张图像的标签确定为相同，而将相似度大的两张图像的标签确定为不同，将降低处理结果的准确度。例如，图像a与图像b之间的相似度为s ₁，图像a与图像c之间的相似度为s ₂，s ₁小于s ₂。若神经网络在对图像a、图像b、图像c进行处理的过程中，将图像a的标签与图像b的标签确定为相同，而将图像a的标签与图像c的标签确定为不同，得到的处理结果是错误的。

为进一步提高处理结果的准确度，作为一种可选的实施方式，在执行步骤“依据第一差异和所述第二差异，得到第二待训练神经网络的损失”之前，可执行以下步骤：

21、确定训练图像集中的第一图像与上述训练图像集中的第二图像之间的相似度得到第一相似度，确定上述训练图像集中的第一图像与上述训练图像集中的第三图像之间的相似度得到第二相似度。

本步骤中，训练图像集包括已标注图像集和未标注图像集。第一图像的标签与第二图像的标签相同，即第一图像的类别与第二图像的类别相同。第一图像的标签与第三图像的标签不同，即第一图像的类别与第三图像的类别不同。确定第一图像和第二图像之间的相似度，作为第一相似度。确定第一图像与第二图像之间的相似度，作为第二相似度。

本公开实施例中，两张图像之间的相似度可以是以下中的一种：两张图像之间的欧式距离(euclidean distance)、两张图像之间的余弦相似度、两张图像之间的马氏距离(mahalanobis distance)、两张图像之间的皮尔逊相关系数(pearson correlation coefficient)、两张图像之间的汉明距离(hamming distance)。

22、依据第一相似度和第二相似度之间的差异，得到三元组损失。

由于第一相似度为同一类图像之间的相似度，第二相似度为不同类图像之间的相似度，第一相似度应该比第二相似度大。因此可依据第一相似度与第二相似度之间的差异，得到三元组损失。

在一种可能实现的方式中，假设第一相似度为s ₁，第二相似度为s ₂，三元组损失为L _t，s ₁，s ₂，L _t满足下式：

其中，m为正数。

在另一种可能实现的方式中，假设第一相似度为s ₁，第二相似度为s ₂，三元组损失为L _t，s ₁，s ₂，L _t满足下式：

其中，k和n均为正数。

在又一种可能实现的方式中，假设第一相似度为s ₁，第二相似度为s ₂，三元组损失为L _t，s ₁，s ₂，L _t满足下式：

其中，k和n均为正数。

23、步骤“依据第一差异和所述第二差异，得到第二待训练神经网络的损失”包括以下步骤：

1、依据第一差异和第二差异，得到类别损失。

本步骤的实现过程可参见步骤203中“依据第一差异和第二差异，得到第二待训练神经网络的损失”的实现过程。需要理解的是，在本步骤中，依据第一差异和第二差异，得到的损失不是第二待训练神经网络的损失，而是类别损失。

2、依据类别损失和三元组损失，得到第二待训练神经网络的损失。

在一种可能实现的方式中，假设第二待训练神经网络的损失为L，类别损失为L _c，三元组损失为L _t。L、L _c、L _t满足下式：

L＝k ₁L _c+k ₂L _t…公式(4)

其中，k ₁和k ₂均为小于或等于1的正数。

在另一种可能实现的方式中，假设第二待训练神经网络的损失为L，类别损失为L _c，三元组损失为L _t。L、L _c、L _t满足下式：

其中，k ₁和k ₂均为小于或等于1的正数。

在又一种可能实现的方式中，假设第二待训练神经网络的损失为L，类别损失为L _c，三元组损失为L _t。L、L _c、L _t满足下式：

L＝(k ₁L _c+k ₂L _t) ²…公式(6)

其中，k ₁和k ₂均为小于或等于1的正数。

由于属于同一类别的图像中，不同的图像之间的相似度也不同，通过第一图像和第二图像确定第一相似度，以及通过第一图像和第三图像确定第二相似度，并使第一相似度大于第二相似度，可能存在误差。例如，训练图像集包括图像a、图像b、图像c、图像d、图像e，其中，图像a的类别、图像b的类别、图像e的类别均为A，图像c的类别和图像d的类别均为B。图像a与图像b之间的相似度为s ₁，图像a与图像c之间的相似度为s ₂，图像a与图像d之间的相似度为s ₃，图像a与图像e之间的相似度为s ₄。在图像a为第一图像、图像b为第二图像、图像c为第三图像的情况下，s ₁为第一相似度，s ₂为第二相似度。通过对神经网络进行训练，可使s ₁大于s ₂，但无法保证s ₁大于s ₃、s ₄大于s ₂、s ₄大于s ₃。显然，s ₁小于s ₃、s ₄小于s ₂、s ₄小于s ₃均是错误的。

上述错误的存在，将导致神经网络的训练变差，进而降低处理结果的准确度。本公开实施例提供了一种确定第一图像、第二图像、第三图像的实现方式，以减小上述错误发生的概率，进而提高处理结果的准确度。

作为一种可选的实施方式，在执行步骤21之前，可执行以下步骤：

确定第一图像的类内最难图像作为第二图像，确定第一图像的类外最难图像作为第三图像。

本公开实施例中，类内最难图像对为标签相同的图像的中相似度最小的两张图像，类外最难图像对为标签不同的图像的中相似度最大的两张图像。假设类内最难图像对包含图像a和图像b，则称图像b为图像a的类内最难图像，称图像a为图像b的类内最难图像。假设类外最难图像对包含图像c和图像d，则称图像c为图像d的类外最难图像，称图像c为图像d的类外最难图像。

举例来说，假定图像1的类别、图像2的类别、图像3的类别均相同，图像1的类别与图像4的类别、图像5的类别均不同，图像1与图像2之间的相似度比图像1与图像3之间的相似度小，图像1与图像4之间的相似度比图像1与图像5之间的相似度小。在第一图像为图像1的情况下，类内最难图像对包括图像1和图像2，类外最难图像对包括图像1和图像5，图像2为图像1的类内最难图像，图像5为图像1的类外最难图像，即图像2为第二图像、图像5为第三图像。

通过将第一图像的类内最难图像作为第二图像、将第一图像的类外最难图像作为第三图像，依据第一图像和第二图像确定第一相似度、依据第一图像和第三图像确定第二相似度，并基于第一相似度与第二相似度之间的差异确定第二待训练神经网络的损失，可使第二待训练神经网络在训练过程中，提高对图像的类别的区分能力。

为进一步增加训练图像集中采集条件为第二采集条件的图像的数量，以提升第二待训练神经网络的训练效果。在一些实施例中，在将未标注图像集输入至第二待训练神经网络之前，可对未标注图像集进行数据增强处理，得到增强后的图像集，并将得到增强后的图像集和未标注图像集作为训练数据对第二待训练神经网络进行训练。这样，可达到扩充第二待训练神经网络的训练数据的效果。

由于增强后的图像集与未标注图像集的标签相同，将使用第二待训练神经网络对未标注图像集和增强后的图像集进行处理得到的结果，作为第二结果，并可依据第二结果与未标注图像集的标签之间的差异得到第二差异。

举例来说(例2)，未标注图像集包括图像a和图像b，图像a的标签为A，图像b的标签为B。对图像a进行数据增强处理得到图像c，对图像b进行数据增强处理得到图像d，则图像c的标签为A，图像d的标签为B。使用第二待训练神经网络对未标注图像集和增强后的图像集进行处理，得到的第二结果包括结果a、结果b、结果c、结果d，其中，结果a通过使用第二待训练神经网络对图像a进行处理得到，结果b通过使用第二待训练神经网络对图像b进行处理得到，结果c通过使用第二待训练神经网络对图像c进行处理得到，结果d通过使用第二待训练神经网络对图像d进行处理得到。

在本公开的一些实施例中，上述数据集增强处理包括以下至少一种：旋转处理、擦除处理、剪裁处理、模糊处理。

对图像进行旋转处理为以图像的几何中心点为旋转中心，参考角度为旋转角度，对图像进行旋转，其中，参考角度可依据用户的需求进行调整。对图像进行擦除处理可将图像中的任意一块像素区域中图像内容去除。如将该像素区域中的像素值调整为0。对图像进行剪裁处理为从图像中截取预定尺寸的图像，其中，预定尺寸可依据用户的需求进行调整。通过对图像进行模糊处理，可使图像中的至少部分内容模糊。

在本公开实施例提供的图像处理神经网络的训练方法中，基于第一采集条件下采集的图像集对第二采集条件下采集的图像集进行标注，从而可节省人力成本，并提高标注效率。使用第一采集条件下采集的图像集和第二采集条件下采集的图像集对第一待训练神经网络进行训练，可得到图像处理神经网络，且图像处理神经网络对第二采集条件下采集的图像进行处理，得到的处理结果的准确度高。对于任意采集条件，基于本公开实施例提供的技术方案均可得到的适配的图像处理神经网络，其中，与采集条件适配的图像处理神经网络指图像处理神经网络对该采集条件下采集的图像进行处理，得到处理结果的准确度高。

基于本公开实施例提供的技术方案，本公开实施例还提供了几种可能的应用场景。

场景1：随着政府、企业、个人的安全管理意识加强和智能硬件设备的普及，越来越多的具有人脸识别功能的门禁设备投入到实际应用当中。在一些实施例中，门禁设备通过摄像头采集来访者的人脸图像，作为待识别图像，并使用神经网络对待识别图像进行处理，以确定来访者的身份。然而对应与不同的应用场景，门禁设备采集待识别图像时的采集条件不同。因此如何有效的提高不同应用场景下门禁设备的识别准确度具有非常重要的意义。

例如，A公司的大门装载有门禁设备a，且已使用了一段时间。A公司在办公楼内新安装了门禁设备b。也就是说，门禁设备a安装于室外，门禁设备b安装于室内。显然，门禁设备a采集待识别图像时的采集条件与门禁设备b采集待识别图像时的采集条件不同。采集条件的不同将导致图像处理神经网络的识别准确度低。假设门禁设备a使用的是第一神经网络，其中，第一神经网络通过门禁设备a采集的包含A公司的员工的人脸图像(下文将称为图像集c)训练得到，需要注意的是，图像集c中的图像均携带有标签，标签包括图像中人物的身份(如张三、李四、王五)。将第一神经网络应用于门禁设备b得到的识别准确度低。

为提高门禁设备b的识别准确度，A公司的管理人员可通过门禁设备b采集包含A公司的员工的人脸图像(下文将称为图像集d)，并使用第一神经网络对图像集d进行处理，得到图像集d的标签。将用图像集c和图像集d作为训练数据、图像集d的标签作为图像集d的监督信息，对第一神经网络进行训练，得到第二神经网络。将第二神经网络部署于门禁设备b上，可提高门禁设备b的识别准确度。

场景2：随着公共场所内摄像头数量的快速增长，如何有效的通过海量视频流确定视频流中的人物的属性，并依据人物的属性，确定人物的行踪具有重要意义。

在B地方，服务器与候机室内的监控摄像头(下文将称为监控摄像头e)之间具有通信连接，服务器通过该通信连接可获取监控摄像头e采集到的视频流(下文将称为第一视频流)，并使用第三神经网络对第一视频流中的图像进行处理，以得到第一视频流中的人物的属性，其中，第三神经网络通过监控摄像头e采集的包含人物的图像(下文将称为图像集f)训练得到，需要注意的是，图像集f中的图像均携带有标签，标签包括人物的属性，该属性包括以下至少一种：上衣颜色、裤子颜色、裤子长度、帽子款式、鞋子颜色、打不打伞、箱包类别、有无口罩、发型、性别。例如，第一视频流包括图像g和图像h。使用第三神经网络对第一视频流进行处理，确定图像g中的人物的属性包括：白色上衣、黑色裤子、不戴眼镜、短发、女人，确定图像h中的人物的属性包括：白色上衣、黑色裤子、白色鞋子、戴眼镜、戴口罩、手拿雨伞、短发、男人。

B地方的相关执法人员在路口处新安装了监控摄像头i，以获取路口处的行人的属性。由于候机室内的环境与路口处的环境不同，若使用第三神经网络对监控摄像头i进行处理，得到的行人的属性的准确度低。

基于本公开实施例提供的技术方案，B地方的相关执法人员可通过监控摄像头i采集包含行人的图像(下文将称为图像集j)，并使用第三神经网络对图像集j进行处理，得到图像集j的标签。将用图像集f和图像集j作为训练数据、图像集j的标签作为图像集j的监督信息，对第三神经网络进行训练，得到第四神经网络。使用第四神经网络对监控摄像头i采集的第二视频流进行处理，可提高获得的第二视频流中的行人的属性的准确度。

场景3：随着道路上的车辆越来越多，如何预防道路交通事故也越来越受关注，其中，人为因素在道路交通事故成因方面占很大的比例，包括由驾驶员注意力不集中、注意力下降等原因引起的分心驾驶。因此，如何有效监测驾驶员是否分心驾驶具有非常重要的意义。

车载终端通过在安装在车辆上的摄像头采集包含驾驶员的脸部的图像，并使用神经网络对包含驾驶员的脸部的图像进行处理，可确定驾驶员是否分心驾驶。

C公司为驾驶员注意力监测方案的提供厂商，C公司使用D公司的车型k上的摄像头采集到的包含驾驶员的脸部的图像(下文将称为图像集m)对第五神经网络进行训练，得到第六神经网络。需要注意的是，图像集m中的图像均携带有标签，标签包括驾驶员分心驾驶或驾驶员未分心驾驶。将第六神经网络部署于车型k，车型k的车载终端可使用第六神经网络确定驾驶员是否分心驾驶。

现D公司生产出了新车型(下文将称为车型n)，并希望C公司为车型n提供驾驶员注意力监测方案。由于车型k上安装的摄像头(下文将称为摄像头p)与车型n上安装的摄像头不同，且车型k的内部环境与车型n的内部环境不同，若将第六神经网络部署于车型n，通过第六神经网络得到的监测结果(包括驾驶员分心驾驶或驾驶员未分心驾驶)的准确度低。

基于本公开实施例提供的技术方案，C公司的工作人员可通过摄像头p采集包含驾驶员的脸部的图像(下文将称为图像集q)，并使用第六神经网络对图像集q进行处理，得到图像集q的标签。将用图像集m和图像集q作为训练数据、图像集q的标签作为图像集q的监督信息，对第六神经网络进行训练，得到第七神经网络。将第七神经网络部署于车型n，车型n的车载终使用过第七神经网络确定驾驶员是否分心驾驶，得到的监测结果准确度高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本公开实施例的方法，下面提供了本公开实施例的装置。

请参阅图3，图3为本公开实施例提供的一种图像处理装置的结构示意图，该装置1包括：获取部分11以及处理部分12，其中：

获取部分11，被配置为获取待处理图像；

处理部分12，被配置为使用图像处理神经网络对所述待处理图像进行处理，得到所述待处理图像的处理结果；所述图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到；所述未标注图像集的采集条件与所述待处理图像的采集条件相同；所述已标注图像集的采集条件与所述未标注图像集的采集条件不同。

结合本公开任一实施方式，所述获取部分11，还被配置为获取所述未标注图像集、所述已标注图像集以及第一待训练神经网络；

所述处理部分12，还被配置为基于所述已标注图像集，得到所述未标注图像集的标签；

所述装置1还包括：

训练部分13，被配置为将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络。

结合本公开任一实施方式，所述处理部分12，还被配置为：

所述装置1还包括：第一确定部分14，被配置为在所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失之前，确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度；所述训练图像集包括所述已标注图像集和所述未标注图像集；所述第一图像的类别与所述第二图像的类别相同，且所述第一图像的类别与所述第三图像的类别不同；

第二确定部分15，被配置为依据所述第一相似度和所述第二相似度之间的差异，得到三元组损失；

所述处理部分12，还被配置为依据所述第一差异和所述第二差异，得到类别损失；

结合本公开任一实施方式，所述装置1还包括：

第三确定部分16，被配置为在所述确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，以及所述确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度之前，确定第一图像的类内最难图像作为第二图像，确定第一图像的类外最难图像作为第三图像；所述类内最难图像为类内图像集中与所述第一图像之间的相似度最小的图像；所述类外最难图像为类外图像集中与所述第一图像之间的相似度最大的图像；所述类内图像集包括标签与所述第一图像的标签相同的图像；所述类外图像集包括标签与所述第一图像的标签不同的图像。

结合本公开任一实施方式，所述装置1还包括：

数据增强处理部分17，被配置为在所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果之前，对所述未标注图像集进行数据增强处理，得到增强后的图像集；

所述处理部分12被配置为：

在本公开实施例以及其他的实施例中，“部分”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是单元，还可以是模块也可以是非模块化的。

本公开实施例中，以未标注图像集和已标注图像集为训练数据对神经网络进行训练，可基于已标注图像集确定未标注图像集的标签，从而可降低对为标注图像集进行标注的人力成本，并提高标注效率。在使用已标注图像集、未标注图像集、未标注图像集的标签对神经网络进行训练，可使神经网络在训练过程中学习到第二采集条件的信息，从而可在使用训练得到的图像处理神经网络对待处理图像进行处理的过程中，提高得到的处理结果的准确度。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图4为本公开实施例提供的一种图像处理装置的硬件结构示意图。该图像处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本公开实施例对此不作限定。应当理解，本公开的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。在一些实施例中，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。在一些实施例中，该处理器还可以为其他类型的处理器等等，本公开实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本公开方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本公开实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的待处理图像，又或者该存储器22还可用于存储通过处理器21得到的处理结果等等，本公开实施例对于该存储器中所存储的数据不作限定。

可以理解的是，图4示出了一种图像处理装置的简化设计。在实际应用中，图像处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本公开实施例的图像处理装置都在本公开的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本公开各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

工业实用性

Claims

一种图像处理方法，所述方法包括：

获取待处理图像；

使用图像处理神经网络对所述待处理图像进行处理，得到所述待处理图像的处理结果；所述图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到；所述未标注图像集的采集条件与所述待处理图像的采集条件相同；所述已标注图像集的采集条件与所述未标注图像集的采集条件不同。
根据权利要求1所述的方法，其中，所述方法还包括：

获取所述未标注图像集、所述已标注图像集以及第一待训练神经网络；

基于所述已标注图像集，得到所述未标注图像集的标签；

将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络。
根据权利要求2所述的方法，其中，所述基于所述已标注图像集，得到所述未标注图像集的标签，包括：

将所述已标注图像集作为训练数据，对所述第一待训练神经网络进行训练，得到第二待训练神经网络；

使用所述第二待训练神经网络对所述未标注图像集进行处理，得到所述未标注图像集的标签。
根据权利要求3所述的方法，其中，所述将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络，包括：

使用所述第二待训练神经网络对所述已标注图像集进行处理得到第一结果，使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果；

依据所述第一结果与所述已标注图像集的标签之间的差异得到第一差异，依据所述第二结果与所述未标注图像集的标签之间的差异得到第二差异；

依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失；

基于所述第二待训练神经网络的损失，调整所述第二待训练神经网络的参数，得到所述图像处理神经网络。
根据权利要求4所述的方法，其中，所述已标注图像集的标签和所述未标注图像的标签均携带类别信息；

在所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失之前，所述方法还包括：

确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度；所述训练图像集包括所述已标注图像集和所述未标注图像集；所述第一图像的类别与所述第二图像的类别相同，且所述第一图像的类别与所述第三图像的类别不同；

依据所述第一相似度和所述第二相似度之间的差异，得到三元组损失；

所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失，包括：

依据所述第一差异和所述第二差异，得到类别损失；

依据所述类别损失和所述三元组损失，得到所述第二待训练神经网络的损失。
根据权利要求5所述的方法，其中，在所述确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，以及所述确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度之前，所述方法还包括：

确定第一图像的类内最难图像作为第二图像，确定第一图像的类外最难图像作为第三图像；所述类内最难图像为类内图像集中与所述第一图像之间的相似度最小的图像；所述类外最难图像为类外图像集中与所述第一图像之间的相似度最大的图像；所述类内图像集包括标签与所述第一图像的标签相同的图像；所述类外图像集包括标签与所述第一图像的标签不同的图像。
根据权利要求4至6中任意一项所述的方法，其中，在所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果之前，所述方法还包括：

对所述未标注图像集进行数据增强处理，得到增强后的图像集；

所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果，包括：

使用所述第二待训练神经网络对所述增强后的图像集和所述未标注图像集进行处理，得到所述第二结果。
一种图像处理装置，所述装置包括：

获取部分，被配置为获取待处理图像；

处理部分，被配置为使用图像处理神经网络对所述待处理图像进行处理，得到所述待处理图像的处理结果；所述图像处理神经网络以未标注图像集和已标注图像集为训练数据训练得到；所述未标注图像集的采集条件与所述待处理图像的采集条件相同；所述已标注图像集的采集条件与所述未标注图像集的采集条件不同。
根据权利要求8所述的图像处理装置，其中，

所述获取部分，还被配置为获取所述未标注图像集、所述已标注图像集以及第一待训练神经网络；

所述处理部分，还被配置为基于所述已标注图像集，得到所述未标注图像集的标签；

所述装置还包括：训练部分，被配置为将所述已标注图像集和所述未标注图像集作为训练数据、所述未标注图像集的标签作为所述未标注图像集的监督信息，对所述第一待训练神经网络进行训练，得到所述图像处理神经网络。
根据权利要求9所述的图像处理装置，其中，所述处理部分，还被配置为：

将所述已标注图像集作为训练数据，对所述第一待训练神经网络进行训练，得到第二待训练神经网络；

使用所述第二待训练神经网络对所述未标注图像集进行处理，得到所述未标注图像集的标签。
根据权利要求10所述的图像处理装置，其中，所述处理部分，还被配置为：

使用所述第二待训练神经网络对所述已标注图像集进行处理得到第一结果，使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果；

依据所述第一结果与所述已标注图像集的标签之间的差异得到第一差异，依据所述第二结果与所述未标注图像集的标签之间的差异得到第二差异；

依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失；

基于所述第二待训练神经网络的损失，调整所述第二待训练神经网络的参数，得到所述图像处理神经网络。
根据权利要求11所述的图像处理装置，其中，所述已标注图像集的标签和所述未标注图像的标签均携带类别信息；

所述装置还包括：第一确定部分，被配置为在所述依据所述第一差异和所述第二差异，得到所述第二待训练神经网络的损失之前，确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度；所述训练图像集包括所述已标注图像集和所述未标注图像集；所述第一图像的类别与所述第二图像的类别相同，且所述第一图像的类别与所述第三图像的类别不同；

第二确定部分，被配置为依据所述第一相似度和所述第二相似度之间的差异，得到三元组损失；

所述处理部分，还用于依据所述第一差异和所述第二差异，得到类别损失；

依据所述类别损失和所述三元组损失，得到所述第二待训练神经网络的损失。
根据权利要求12所述的图像处理装置，其中，所述装置还包括：

第三确定部分，被配置为在所述确定训练图像集中的第一图像与所述训练图像集中的第二图像之间的相似度得到第一相似度，以及所述确定所述训练图像集中的第一图像与所述训练图像集中的第三图像之间的相似度得到第二相似度之前，确定第一图像的类内最难图像作为第二图像，确定第一图像的类外最难图像作为第三图像；所述类内最难图像为类内图像集中与所述第一图像之间的相似度最小的图像；所述类外最难图像为类外图像集中与所述第一图像之间的相似度最大的图像；所述类内图像集包括标签与所述第一图像的标签相同的图像；所述类外图像集包括标签与所述第一图像的标签不同的图像。
根据权利要求10至12任意一项所述的图像处理装置，其中，所述装置还包括：

数据增强处理部分，被配置为在所述使用所述第二待训练神经网络对所述未标注图像集进行处理得到第二结果之前，对所述未标注图像集进行数据增强处理，得到增强后的图像集；

所述处理部分，被配置为使用所述第二待训练神经网络对所述增强后的图像集和所述未标注图像集进行处理，得到所述第二结果。
一种处理器，所述处理器用于执行如权利要求1至7中任意一项所述的方法。
一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至7中任意一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至7中任意一项所述的方法。
一种计算机程序，包括计算机可读代码，在所述计算机可读代码在电子设备中运行，被所述电子设备中的处理器执行的情况下，实现权利要求1至7中任意一项所述的方法。