WO2021087985A1

WO2021087985A1 - 模型训练方法、装置、存储介质及电子设备

Info

Publication number: WO2021087985A1
Application number: PCT/CN2019/116710
Authority: WO
Inventors: 高洪涛
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2021-05-14
Also published as: CN114424253A

Abstract

一种模型训练方法、装置、存储介质及电子设备，其中，该方法包括：获取样本图像集；将样本图像集输入深度神经网络训练；若输入的为分类图像，则基于第一损失函数计算损失值；若输入的为目标检测图像，则基于第一损失函数和第二损失函数计算损失值；基于损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型。该方法能够提高深度神经网络对图像类别预测和目标检测的准确度。

Description

模型训练方法、装置、存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，具体涉及一种模型训练方法、装置、存储介质及电子设备。

背景技术

图像处理是一种使用计算机对图像进行分析，以达到所需结果的技术。而在图像处理技术领域中，图像的类别预测已经成为重要的研究课题。随着神经网络模型的研究推进，通过模型对图像进行类别预测从而得到图像的预测类别的方法逐渐受到了广泛认可。由此可见，如何通过模型训练，以提高对后续图像类别预测的准确性尤其重要。

发明内容

本申请实施例提供一种模型训练方法、装置、存储介质及电子设备，能够提高深度神经网络对图像类别预测的准确度。

第一方面，本申请实施例提供一种模型训练方法，包括：

获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置

第二方面，本申请实施例提供一种模型训练装置，包括：

图像获取模块，用于获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

图像输入模块，用于将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

第一计算模块，用于若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

第二计算模块，用于若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

迭代训练模块，用于基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行：

基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。

第四方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行：

本申请实施例提供的方案，在训练深度神经网络时，获取包含有目标检测图像和分类图像的样本图像集合，使用样本图像集中的样本图像训练预设的深度神经网络进行训练，在训练过程中，当输入深度神经网络的样本图像为分类图像时，基于第一损失函数计算损失值，当输入深度神经网络的样本图像为目标检测图像时，基于第一损失函数和第二损失函数计算损失值，并基于损失值进行反向传播，以更新网络参数直至收敛，上述训练方案中，联合目标检测图像和分类图像对预设的深度神经网络进行训练，由于目标检测图像携带有位置信息和第一类别标签，位置信息指示了类别物在图像中的具体位置，使得在训练网络的过程中，网络能够更准确地提取到类别物的特征，提高了图像识别模型训练得到的图像识别模型对于图像类别预测的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的第一种流程示意图。

图2为本申请实施例提供的模型训练方法的第二种流程示意图。

图3为本申请实施例提供的模型训练装置的结构示意图。

图4为本申请实施例提供的电子设备的结构示意图。

图5为本申请实施例提供的电子设备的模型训练电路的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种模型训练方法，包括：

在一些实施例中，所述分类图像携带有第二类别标签，所述目标检测图像携带有位置信息和第一类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；

所述基于第一损失函数计算损失值之前，还包括：

若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

若是，则执行基于所述第一损失函数计算损失值；

若否，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。

在一些实施例中，所述第三损失函数＝k*第一损失函数，其中，k＞1。

在一些实施例中，所述第一损失函数为m*f，所述第三损失函数为n*f，其中，f为基础损失函数，0＜m＜1，n＞1。

在一些实施例中，所述深度神经网络为卷积神经网络；全部分类图像携带的第二类别标签构成第二类别标签集合，所述第一类别标签集合中的标签种类少于所述第二类别标签集合的标签种类。

在一些实施例中，所述基于计算得到的损失值进行反向传播，以更新网络参数直至收敛之后，还包括：

获取待分类图像；

根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。

本申请实施例提供一种模型训练方法，该模型训练方法的执行主体可以是本申请实施例提供的模型训练装置，或者集成了该模型训练装置的电子设备，其中该模型训练装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的模型训练方法的第一种流程示意图。本申请实施例提供的模型训练方法的具体流程可以如下：

在101中、获取样本图像集，样本图像集中包含有目标检测图像和分类图像，其中，目标检测图像携带有位置信息和第一类别标签。

基于目标检测的图像多分类属于强监督，需要提供图像中每个类别物的位置信息，但是这样的分类模型的训练样本量大时，标注位置信息是一个很大的人力成本。一般的图像多分类属于弱监督的图像分类方法，这种分类方法只需要标注图像的类别名称即可，但是这种分类方法无法识别类别物在图像中位置。

本申请实施例的模型训练方案可以应用于图像分类与定位模型，该模型不仅可以识别图像的类别，而且可以识别类别物在图像中位置。例如，可以通过目标框标记出类别物所在的位置。其中，该模型可以基于深度神经网络进行构建，例如，BP(back propagation，反向传播)神经网络，卷积神经网络等。

本申请采用两种训练样本混合构成样本图像集，其中，两种样本图像包括目标检测图像和分类图像，目标检测图像即携带有类别标签，又具有位置信息，该位置信息指示了类别物在图像中的位置。分类图像携带有类别标签。为了便于接下来的描述，将目标检测图像携带的类别标签记为第一类别标签，将分类图像携带的类别标签记为第二类别标签。全部目标检测图像携带的第一类别标签构成第一类别标签集合；全部分类图像携带的第二类别标签构成第二类别标签集合。在一些实施例中，第二类别标签集合中的标签类别可以与第一类别标签集合中的类别标签有部分重合。

在102中、将样本图像集中的样本图像输入预设的深度神经网络进行训练。

采用两种训练样本混合构成样本图像训练模型，实质上是强监督算法和直接分类联合训练。在训练的过程中，混合有目标检测图像和分类图像的样本图像集中的样本图片会随机地输入到预设的神经网络中进行计算。并根据输入的样本图像的种类的不同，采用不同的损失函数计算损失值。

在103中、若输入深度神经网络的样本图像为分类图像，则基于第一损失函数计算损失值。

在104中、若输入深度神经网络的样本图像为目标检测图像，则基于第一损失函数和第二损失函数计算损失值。

当使用分类图像训练网络时，网络中的损失函数由第一损失函数构成，第一损失函数用于计算图像分类时产生的损失值。由于此时训练数据中没有目标框，因此，在误差信息反向传播时，只会对涉及到分类训练部分的网络参数进行更新，而涉及到目标检测部分的网络参数则不会进行更新。由于此时训练数据中携带有目标框，因此，在误差信息反向传播时，会对涉及到分类训练部分的网络参数，以及涉及到目标检测部分的网络参数则进行更新，也就是说，会对全部的网络参数更新。

当使用目标检测图像训练网络时，网络中的损失函数由第一损失函数和第二损失函数构成，第二损失函数用于计算对图像进行目标检测时产生的损失值，第一损失函数用于计算对图像分类时产生损失值。

因此，该深度神经网络的训练过程中涉及到两个损失函数。其总的损失函数可以表示为L＝L _p+L _cls，其中，L _cls为第一损失函数，L _p为第二损失函数。当若输入深度神经网络的样本图像为分类图像，则L _p＝0。

其中，在本实施例中，可以根据使用的深度神经网络选择损失函数。例如，可以采用均方差函数或者交叉熵函数等作为损失函数。

在105中、基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，图像识别模型用于识别输入图像的类别以及类别物的位置。

在网络的训练过程中，基于上述损失函数和计算方式计算损失值，并基于计算得到的损失值进行反向传播，以更新网络参数直至网络收敛。例如，直至迭代训练的次数达到预设值，或者直至损失值达到最小，或者直至损失值小于预设值。在训练至收敛后，确定网络参数，并将确定网络参数后的深度神经网络作为图像数识别模型。

其中，在网络的训练过程中，由于目标检测图像携带有位置信息，位置信息指示了类别物在图像中的具体位置，使得在训练网络的过程中，网络能够更准确地提取到类别物的特征。通过这样的方式，输入到网络的样本图像为分类图像时，即使分类图像中没有携带位置信息，由于经过目标检测图像的训练，网络识别类别物的特征的能力增强，也能够更准确的识别分类图像中类别物的特征，并以较高准确度确定类别物所在的位置。可以理解的是，本申请中的类别物是指样本图像对应的类别标签对应的物体。

例如，以预设的深度神经网络为卷积神经网络为例，使用交叉熵函数作为损失函数，输入训练数据，根据损失函数计算损失值，基于损失值反向传播，以优化网络的各卷积层中各卷积核中的权重。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提出的模型训练方法，在训练深度神经网络时，获取包含有目标检测图像和分类图像的样本图像集合，使用样本图像集中的样本图像训练预设的深度神经网络进行训练，在训练过程中，当输入深度神经网络的样本图像为分类图像时，基于第一损失函数计算损失值，当输入深度神经网络的样本图像为目标检测图像时，基于第一损失函数和第二损失函数计算损失值，并基于损失值进行反向传播，以更新网络参数直至收敛，上述训练方案中，联合目标检测图像和分类图像对预设的深度神经网络进行训练，由于目标检测图像携带有位置信息和第一类别标签，位置信息指示了类别物在图像中的具体位置，使得在训练网络的过程中，网络能够更准确地提取到类别物的特征，提高了图像识别模型训练得到的图像识别模型对于图像类别预测的准确度。

下面将在上述实施例描述的方法基础上，对本申请的模型训练方法做进一步详细介绍。请参阅图2，图2是本发明实施例提供的模型训练方法的第二流程示意图。该方法包括：

在201中，获取样本图像集，样本图像集中包含有目标检测图像和分类图像，其中，目标检测图像携带有位置信息和第一类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合。

本实施例采用两种训练样本混合构成样本图像集，其中，两种样本图像包括目标检测图像和分类图像，目标检测图像即携带有类别标签，又具有位置信息，该位置信息指示了类别物在图像中的位置。分类图像携带有类别标签。为了便于接下来的描述，将目标检测图像携带的类别标签记为第一类别标签，将分类图像携带的类别标签记为第二类别标签。全部目标检测图像携带的第一类别标签构成第一类别标签集合；全部分类图像携带的第二类别标签构成第二类别标签集合。在一些实施例中，第二类别标签集合中的标签类别可以与第一类别标签集合中的类别标签有部分重合。

例如，将该深度神经网络用于动物的分类。样本图像为动物图像，其中，目标检测图像不仅携带有动物的类别标签，每一张图像中还以目标框的形式标识出了该图像对应的类别动物所在的位置。但是，目标检测图像中的动物类别只有动物大类，例如，狗、猫、鹿等，但是没有更细的类别划分，例如，没有将狗分为金毛犬、哈士奇、牧羊犬等。与此同时，分类图像中仅携带有动物的类别标签，并没有标识出动物在图像中的具体位置，但是，分类图像具有更广和更深的类别标签。例如，分类图像的类别中包含有目标检测图像中所没有的大类，比如，目标检测图像中没有大象这个类别，但是分类图像中有这个类别。分类图像的类别中还可以包含有目标检测图像中所没有的小类别，例如，目标检测图像中没有金毛犬、哈士奇、牧羊犬等小类别，但是分类图像中有这些类别。也就是说，第二类别标签集合中的类别标签的种类数量可以大于第一类别标签集合中的类别标签的种类数量。

基于本实施例的方案，将上述两种样本图像混合在一起，作为训练样本，采用联合训练的方式训练深度神经网络，训练得到的网络能够对目标检测图像中没有出现过的小类别的狗也会输出较高准确度的位置信息。

在202中，将样本图像集中的样本图像输入预设的深度神经网络进行训练。

在203中，若输入深度神经网络的样本图像为分类图像，则判断输入的分类图像对应的第二类别标签是否包含在第一类别标签集合中。

在204中，若是，则基于第一损失函数计算损失值。

在205中，若否，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，第一损失函数计算得到的损失值小于第三损失函数计算得到的损失值。

基于上述例子，虽然采用联合训练的方式训练深度神经网络，训练得到的网络能够对目标检测图像中没有出现过的小类别的狗也会输出较高准确度的位置信息。但是在训练过程中，对于分类图像中出现的目标检测图像中没有的大类别时，例如，分类图像的类别中包含有目标检测图像中所没有的大象类别，这个时候位置检测的准确率就会较差。本实施例中，以一种新的损失值计算方式来解决这个问题。

当输入到深度神经网络的样本图像为分类图像时，先判断输入的分类图像对应的第二类别标签是否包含在第一类别标签集合中。如果在，则基于第一损失函数计算损失值。如果不在，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，第一损失函数计算得到的损失值小于第三损失函数计算得到的损失值。即，当分类图像的类别中包含有目标检测图像中所没有的类别时，为了提高网络目标检测的准确度，此时使用区别于另一情况(分类图像的类别包含在目标检测图像的类别中的情况)的第三损失函数计算损失值，使得计算得到的损失值更大，使得网络对于这一类别更加敏感，能够更加准确地学习到这一类别图像的特征，以对模型参数进行优化，进而提升对类别和目标的检测准确度。

例如，在一些实施中，第三损失函数＝k*第一损失函数，其中，k＞1。该实施例中，在第一损失函数的公式基础上，乘以一个权重系数，得到第三损失函数，该权重系数为一个大于1的常数，比如，在一些实施例中，k＝1～3；又比如，在一些实施例中，k＝1～1.5；又比如，在一些实施例中，k＝1.5～2。

又例如，在一些实施例中，第一损失函数为m*f，第三损失函数为n*f，其中，f为基础损失函数，0＜m＜1，n＞1。例如，f为交叉熵损失函数，第一损失函数的计算公式为交叉熵损失函数的计算公式乘以一个小于1的正数得到的，第二损失函数的计算公式为交叉熵损失函数的计算公式乘以一个大于1的常数得到的。

在206中，若输入深度神经网络的样本图像为目标检测图像，则基于第一损失函数和第二损失函数计算损失值。

在207中，基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，图像识别模型用于识别输入图像的类别以及类别物的位置。

在一些实施例中基于计算得到的损失值进行反向传播，以更新网络参数直至收敛之后，还包括：获取待分类图像；根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。

该实施例中，使用训练得到的图像识别模型进行图像类别的识别，将待分类图像输入图像识别模型进行计算，得到该待分类图像对应的类别标签，以及图像中对应的类别物在图像中的位置。

由上可知，本发明实施例提出的模型训练方法，在将分类数据和目标检测数据联合训练的基础上，当输入深度神经网络的样本图像为分类图像时，如果该分类图像对应的类别标签没有包含在目标检测图像的类别标签中时，以较大的损失值进行反向传播，扩展该模型对多类别的识别能力，提高了多分类的准确率。

本申请实施例还提供一种模型训练装置，包括：

迭代训练模块，用于基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。

在一些实施例中，所述分类图像携带有第二类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；所述装置还包括：

标签检测模块，用于若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

所述第一计算模块还用于：

若输入的分类图像对应的第二类别标签包含在所述第一类别标签集合中，则基于所述第一损失函数计算损失值；

若输入的分类图像对应的第二类别标签不包含在所述第一类别标签集合中，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。

在一些实施例中，所述装置还包括图像分类模块，所述图像分类模块用于：

获取待分类图像；

以及，根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。

在一实施例中还提供了一种模型训练装置。请参阅图3，图3为本申请实施例提供的模型训练装置300的结构示意图。其中该模型训练装置300应用于电子设备，该模型训练装置300包括图像获取模块301、图像输入模块302、第一计算模块303、第二计算模块304以及迭代训练模块305，如下：

图像获取模块301，用于获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

图像输入模块302，用于将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

第一计算模块303，用于若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

第二计算模块304，用于若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

迭代训练模块305，用于基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。

该模型训练装置300还包括标签检测模块，该标签检测模块用于若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

第一计算模块303还用于：若输入的分类图像对应的第二类别标签包含在所述第一类别标签集合中，则基于所述第一损失函数计算损失值；

以及，若输入的分类图像对应的第二类别标签不包含在所述第一类别标签集合中，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。

在一些实施例中，该模型训练装置300还包括标图像分类模块，该图像分类模块用于：获取待分类图像；根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

应当说明的是，本申请实施例提供的模型训练装置与上文实施例中的模型训练方法属于同一构思，在模型训练装置上可以运行模型训练方法实施例中提供的任一方法，其具体实现过程详见模型训练方法实施例，此处不再赘述。

由上可知，本申请实施例提出的模型训练装置，在训练深度神经网络时，获取包含有目标检测图像和分类图像的样本图像集合，使用样本图像集中的样本图像训练预设的深度神经网络进行训练，在训练过程中，当输入深度神经网络的样本图像为分类图像时，基于第一损失函数计算损失值，当输入深度神经网络的样本图像为目标检测图像时，基于第一损失函数和第二损失函数计算损失值，并基于损失值进行反向传播，以更新网络参数直至收敛，上述训练方案中，联合目标检测图像和分类图像对预设的深度神经网络进行训练，由于目标检测图像携带有位置信息和第一类别标签，位置信息指示了类别物在图像中的具体位置，使得在训练网络的过程中，网络能够更准确地提取到类别物的特征，提高了图像识别模型训练得到的图像识别模型对于图像类别预测的准确度。

本申请实施例还提供一种电子设备，该电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图4，图4为本申请实施例提供的电子设备的结构示意图。电子设备800可以包括摄像模组801、存储器802、处理器803、触摸显示屏804、扬声器805、麦克风806等部件。

摄像模组801可以包括模型训练电路，模型训练电路可以利用硬件和/或软件组件实现，可包括定义图像信号处理(Image Signal Processing)管线的各种处理单元。模型训练电路至少可以包括：摄像头、图像信号处理器(Image Signal Processor，ISP处理器)、控制逻辑器、图像存储器以及显示器等。其中摄像头至少可以包括一个或多个透镜和图像传感器。图像传感器可包括色彩滤镜阵列(如Bayer滤镜)。图像传感器可获取用图像传感器的每个成像像素捕捉的光强度和波长信息，并提供可由图像信号处理器处理的一组原始图像数据。

图像信号处理器可以按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，图像信号处理器可对原始图像数据进行一个或多个模型训练操作、收集关于图像数据的统计信息。其中，模型训练操作可按相同或不同的位深度精度进行。原始图像数据经过图像信号处理器处理后可存储至图像存储器中。图像信号处理器还可从图像存储器处接收图像数据。

图像存储器可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像存储器的图像数据时，图像信号处理器可进行一个或多个模型训练操作，如时域滤波。处理后的图像数据可发送给图像存储器，以便在被显示之前进行另外的处理。图像信号处理器还可从图像存储器接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。处理后的图像数据可输出给显示器，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，图像信号处理器的输出还可发送给图像存储器，且显示器可从图像存储器读取图像数据。在一种实施方式中，图像存储器可被配置为实现一个或多个帧缓冲器。

图像信号处理器确定的统计数据可发送给控制逻辑器。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜阴影校正等图像传感器的统计信息。

控制逻辑器可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的统计数据，确定摄像头的控制参数以及ISP控制参数。例如，摄像头的控制参数可包括照相机闪光控制参数、透镜的控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵等。

请参阅图5，图5为本实施例中模型训练电路的结构示意图。为便于说明，仅示出与本发明实施例相关的模型训练技术的各个方面。

例如模型训练电路可以包括：摄像头、图像信号处理器、控制逻辑器、图像存储器、显示器。其中，摄像头可以包括一个或多个透镜和图像传感器。在一些实施例中，摄像头可为长焦摄像头或广角摄像头中的任一者。

摄像头采集的图像传输给图像信号处理器进行处理。图像信号处理器处理图像后，可将图像的统计数据(如图像的亮度、图像的反差值、图像的颜色等)发送给控制逻辑器。控制逻辑器可根据统计数据确定摄像头的控制参数，从而摄像头可根据控制参数进行自动对焦、自动曝光等操作。图像经过图像信号处理器进行处理后可存储至图像存储器中。图像信号处理器也可以读取图像存储器中存储的图像以进行处理。另外，图像经过图像信号处理器进行处理后可直接发送至显示器进行显示。显示器也可以读取图像存储器中的图像以进行显示。

此外，图中没有展示的，电子设备还可以包括CPU和供电模块。CPU和逻辑控制器、图像信号处理器、图像存储器和显示器均连接，CPU用于实现全局控制。供电模块用于为各个模块供电。

存储器802存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器803通过运行存储在存储器802的应用程序，从而执行各种功能应用以及数据处理。

处理器803是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器802内的应用程序，以及调用存储在存储器802内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

触摸显示屏804可以用于接收用户对电子设备的触摸控制操作。扬声器805可以播放声音信号。麦克风806可以用于拾取声音信号。

在本实施例中，电子设备中的处理器803会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器802中，并由处理器803来运行存储在存储器802中的应用程序，从而执行：

在一些实施例中，所述分类图像携带有第二类别标签，所述目标检测图像携带有位置信息和第一类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；处理器803还执行：

若是，则执行基于所述第一损失函数计算损失值；

在一些实施例中，处理器803还执行：

获取待分类图像；根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。

由上可知，本申请实施例提供了一种电子设备，所述电子设备在训练深度神经网络时，获取包含有目标检测图像和分类图像的样本图像集合，使用样本图像集中的样本图像训练预设的深度神经网络进行训练，在训练过程中，当输入深度神经网络的样本图像为分类图像时，基于第一损失函数计算损失值，当输入深度神经网络的样本图像为目标检测图像时，基于第一损失函数和第二损失函数计算损失值，并基于损失值进行反向传播，以更新网络参数直至收敛，上述训练方案中，联合目标检测图像和分类图像对预设的深度神经网络进行训练，由于目标检测图像携带有位置信息和第一类别标签，位置信息指示了类别物在图像中的具体位置，使得在训练网络的过程中，网络能够更准确地提取到类别物的特征，提高了图像识别模型训练得到的图像识别模型对于图像类别预测的准确度。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的模型训练方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

此外，本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上对本申请实施例所提供的模型训练方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种模型训练方法，其特征在于，包括：

获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。
如权利要求1所述的模型训练方法，其特征在于，所述分类图像携带有第二类别标签，所述目标检测图像携带有位置信息和第一类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；

所述基于第一损失函数计算损失值之前，还包括：

若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

若是，则执行基于所述第一损失函数计算损失值；

若否，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。
如权利要求2所述的模型训练方法，其特征在于，所述第三损失函数＝k*第一损失函数，其中，k＞1。
如权利要求2所述的模型训练方法，其特征在于，所述第一损失函数为m*f，所述第三损失函数为n*f，其中，f为基础损失函数，0＜m＜1，n＞1。
如权利要求2所述的模型训练方法，其特征在于，所述深度神经网络为卷积神经网络；全部分类图像携带的第二类别标签构成第二类别标签集合，所述第一类别标签集合中的标签种类少于所述第二类别标签集合的标签种类。
如权利要求1所述的模型训练方法，其特征在于，所述基于计算得到的损失值进行反向传播，以更新网络参数直至收敛之后，还包括：

获取待分类图像；

根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。
一种模型训练装置，其特征在于，包括：

图像获取模块，用于获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

图像输入模块，用于将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

第一计算模块，用于若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

第二计算模块，用于若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

迭代训练模块，用于基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。
如权利要求7所述的模型训练装置，其特征在于，所述分类图像携带有第二类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；所述装置还包括：

标签检测模块，用于若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

所述第一计算模块还用于：

若输入的分类图像对应的第二类别标签包含在所述第一类别标签集合中，则基于所述第一损失函数计算损失值；

若输入的分类图像对应的第二类别标签不包含在所述第一类别标签集合中，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。
如权利要求8所述的模型训练装置，其特征在于，所述第三损失函数＝k*第一损失函数，其中，k＞1。
如权利要求8所述的模型训练装置，其特征在于，所述第一损失函数为m*f，所述第三损失函数为n*f，其中，f为基础损失函数，0＜m＜1，n＞1。
如权利要求8所述的模型训练装置，其特征在于，所述深度神经网络为卷积神经网络；全部分类图像携带的第二类别标签构成第二类别标签集合，所述第一类别标签集合中的标签种类少于所述第二类别标签集合的标签种类。
如权利要求7所述的模型训练装置，其特征在于，所述装置还包括图像分类模块，所述图像分类模块用于：

获取待分类图像；

以及，根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。
一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行：

获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。
如权利要求13所述存储介质，其特征在于，所述分类图像携带有第二类别标签，所述目标检测图像携带有位置信息和第一类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；

当所述计算机程序在计算机上运行时，还可以使所述计算机执行：

若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

若是，则执行基于所述第一损失函数计算损失值；

若否，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。
一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行：

获取样本图像集，所述样本图像集中包含有目标检测图像和分类图像，其中，所述目标检测图像携带有位置信息和第一类别标签；

将所述样本图像集中的样本图像输入预设的深度神经网络进行训练；

若输入所述深度神经网络的样本图像为所述分类图像，则基于第一损失函数计算损失值；

若输入所述深度神经网络的样本图像为所述目标检测图像，则基于所述第一损失函数和第二损失函数计算损失值；

基于计算得到的损失值进行反向传播以更新网络参数直至收敛，得到图像识别模型，所述图像识别模型用于识别输入图像的类别以及类别物的位置。
如权利要求15所述的电子设备，其特征在于，所述分类图像携带有第二类别标签，所述目标检测图像携带有位置信息和第一类别标签，全部目标检测图像携带的第一类别标签构成第一类别标签集合；所述处理器还可以通过调用所述计算机程序，用于执行：

若输入所述深度神经网络的样本图像为所述分类图像，则判断输入的分类图像对应的第二类别标签是否包含在所述第一类别标签集合中；

若是，则执行基于所述第一损失函数计算损失值；

若否，则基于第三损失函数计算损失值，其中，当输入的样本图像相同时，所述第一损失函数计算得到的损失值小于所述第三损失函数计算得到的损失值。
如权利要求16所述的电子设备，其特征在于，所述第三损失函数＝k*第一损失函数，其中，k＞1。
如权利要求16所述的电子设备，其特征在于，所述第一损失函数为m*f，所述第三损失函数为n*f，其中，f为基础损失函数，0＜m＜1，n＞1。
如权利要求16所述的电子设备，其特征在于，所述深度神经网络为卷积神经网络；全部分类图像携带的第二类别标签构成第二类别标签集合，所述第一类别标签集合中的标签种类少于所述第二类别标签集合的标签种类。
如权利要求15所述的电子设备，其特征在于，所述处理器还可以通过调用所述计算机程序，用于执行：

获取待分类图像；

根据所述图像识别模型对所述待分类图像进行图像识别，以确定所述待分类图像对应的目标类别，以及属于所述目标类别的对象在所述待分类图像中的位置。