WO2022199500A1

WO2022199500A1 - 一种模型训练方法、场景识别方法及相关设备

Info

Publication number: WO2022199500A1
Application number: PCT/CN2022/081883
Authority: WO
Inventors: 戚向涛; 刘艳
Original assignee: 华为技术有限公司
Priority date: 2021-03-22
Filing date: 2022-03-21
Publication date: 2022-09-29
Also published as: EP4287068A1; CN115187824A; US20240169687A1

Abstract

一种模型训练方法、场景识别方法及相关设备，用于提高场景识别的准确率。本申请实施例方法包括：获取第一图像，利用物体检测模型识别第一图像中与场景识别无关的目标物体的图像，对第一图像中目标物体所在的区域进行掩膜处理，得到第三图像；然后利用图像生成模型生成与场景识别无关的多张样本物体图像，组合样本物体图像和第三图像，得到目标图像；将目标图像输入到第一卷积神经网络进行训练，并将第三图像输入到第二卷积神经网络进行训练，得到场景识别模型，场景识别模型能够降低对目标图像中产生差异的图像特征的关注度，并更容易学习到不同场景类别之间差异特征，场景识别模型能够提升场景识别的准确率。

Description

一种模型训练方法、场景识别方法及相关设备

本申请要求于2021年03月22日提交中国专利局、申请号为202110301843.5、发明名称为“一种模型训练方法、场景识别方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及人工智能应用领域中的计算机视觉领域中的一种模型训练方法、场景识别方法及相关设备。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能的应用领域包括计算机视觉领域，场景识别是计算机视觉领域的重要分支技术。场景识别是指对图像中能够体现的环境或主体(人或物)所处的环境进行识别(或称为“分类”)，旨在通过提取和分析场景图像中的特征，获取场景的信息，从而对图像所属的场景进行识别。

当前技术中的场景识别装置大多采用通用的图像识别模型(既用于识别对象，又用于识别场景)来对场景图像进行识别，通用的图像识别模型对场景识别的准确率有限，且场景识别的应用场景受限。

发明内容

本申请实施例提供了一种模型训练方法、场景识别方法及相关设备，用于提高场景识别的准确率。

第一方面，本申请提供了一种模型训练方法，该方法应用于训练设备，所述方法包括：训练设备获取第一训练数据集，第一训练数据集中包括多张第一图像，该第一图像为场景图像，例如，一张第一图像为“办公室”场景的图像，第一图像中可能包括与场景识别无关的物体的图像；训练设备利用物体检测模型识别第一图像中的第一区域，第一区域是与场景识别无关的图像区域；然后，训练设备对第一区域进行掩膜处理，得到第三图像；掩膜处理的作用是对第一区域进行遮挡；再后，训练设备获取图像生成模型生成的多张样本物体图像，样本物体图像是与场景识别无关的物体的图像；训练设备将多张样本物体图像分别替换到第三图像中掩膜覆盖的第一区域，得到多张目标图像；组合得到多张目标图像，一方面从数据量上来说，对第一训练数据集中的图像的数量进行了扩充。另一方面从图像之间的差异上来说，针对同一个类别的图片，第三图像中保留了与场景识别相关的背景的图像，而图像生成模型生成的样本物体图像用于作为新合成的目标图像之间的差异图像。最后，训练设备利用目标图像的数据集训练第一卷积神经网络，并利用第三图像的数据集训练第二卷积神经网络，得到场景识别模型，场景识别模型包括第一卷积神经网络和第二卷积神经网络。本申请实施例中，训练设备通过大量的新合成的目标图像对第一卷积神经网络进行训练，同一个类别的场景图像中引入与场景识别无关的物体的图像，使得场景识别模型降低对场景图像中差异图像的特征的关注度，从而减弱类内差异性对场景识别模型分类性能造成的不利影响。另外，训练设备遮挡掉与场景识别无关的图像区域后，通过与场景识别有关的图像(即第三图像)对第二卷积神经网络进行训练，第二卷积神经网络更容易学习到不同场景类别之间差异特征，从而减弱类间相似性对场景识别模型分类性能造成的不利影响。训练设备得到的场景识别模型能够降低同类别的场景图像的类内差异性对场景识别模型的分类性能带来的负面影响，和不同场景类别的类间相似性对场景识别模型的分类性能带来的负面影响，进而能够提升场景识别的准确率。

在一个可选的实现方式中，所述方法还包括：训练设备将第一图像输入到图像识别模型，该图像识别模型为通用的图像识别模型(既用于图像识别，也用于场景识别)，训练设备利用图像识别模型得到第一图像的第一分类结果及第一图像的热力图，其中，热力图用于展示目标物体所在的区域，目标物体的图像特征是与场景识别无关的图像特征，第一分类结果指示的类别为非场景类别或错误的场景类别；训练设备对第一图像中除了目标物体所在第一区域之外的第二区域进行掩膜处理，即对第二区域进行遮挡，得到第二图像(即仅包含目标物体的图像)；然后，训练设备利用第二训练数据集对第一模型进行训练，得到物体检测模型，第二训练数据集包括多个样本数据，样本数据包括输入数据和输出数据，其中，输入数据为第二图像，输出数据为位置坐标，位置坐标用于指示目标物体所在的区域。本实施例中，训练设备通过第一图像的热力图可以确定第一图像中图像识别模型做出该分类决策影响最大的区域，通过热力图能够确定与场景识别无关的目标物体的位置，通过第二图像对第一模型(如神经网络)进行训练，得到物体检测模型，物体检测模型用于识别一个场景图像中哪部分区域与场景识别无关，进而也就可以确定出一个场景图像中哪部分区域与场景识别有关。

在一个可选的实现方式中，所述方法还包括：训练设备利用第二图像对生成式对抗网络GAN进行训练，得到图像生成模型。图像生成模型用于生成大量的与场景识别无关的多张样本物体图像，从而可以得到用于训练场景识别模型的目标图像，通过多张样本物体图像得到的多张目标图像既对第一训练数据集中的图像的数量进行了扩充，又可以针对同一个类别的图片，用于作为新合成的目标图像之间的差异图像，从而减弱类内差异性对场景识别模型分类性能造成的不利影响，以提高场景识别模型的性能。

在一个可选的实现方式中，目标图像和第三图像均对应第一类别的标签，所述利用目标图像训练第一卷积神经网络，并利用第三图像训练第二卷积神经网络可以具体包括：训练设备通过第一卷积神经网络的第一卷积层提取目标图像的图像特征，并通过第二卷积神经网络的第二卷积层提取第三图像的图像特征，并将第三图像的图像特征输出至第一卷积层，以与目标图像的图像特征进行融合；然后，融合后的图像特征输出至第一卷积神经网络的输出层，通过第一卷积神经网络的输出层(如全连接层和分类器)输出第一类别的标签。第二卷积神经网络提取的第三图像的图像特征是第一图像中与场景识别相关的图像特征，第二卷积神经网络等效于注意力模型，第二卷积神经网络将提取的图像特征融合到第一卷积神经网络的最后一层卷积层，使得场景识别模型更关注与场景识别相关的图像特征。并且通过遮挡掉与场景识别无关的物体图像(目标物体)后，通过与场景识别有关的图像对第二卷积神经网络进行训练，第二卷积神经网络更容易学习到不同场景类别之间差异特征，从而减弱类间相似性对场景识别模型分类性能造成的不利影响。

第二方面，本申请实施例提供了一种场景识别方法，应用于执行设备，该方法包括：执行设备获取待识别的第一场景图像，然后，执行设备利用物体检测模型检测第一场景图像中与场景识别无关的物体所在的第一区域；执行设备对第一区域进行掩膜处理，得到第二场景图像；再后，执行设备将第一场景图像输入到场景识别模型中的第一卷积神经网络，将第二场景图像输入到场景识别模型中的第二卷积神经网络，利用场景识别模型输出分类结果，第一卷积神经网络是利用目标图像的数据集进行训练得到的，第二卷积神经网络是利用第三图像的数据集训练得到的，并且目标图像是由图像生成模型生成的多张样本物体图像分别替换到第三图像中的第一区域后得到的，第三图像是利用物体检测模型识别第一图像中与场景识别无关的第一区域后，对第一区域进行掩膜处理后得到的，第一图像是训练数据集中的图像。本申请实施例中，第一卷积神经网络是通过对目标图像学习后得到的，而目标图像是由相同的背景图像与不同的差异物体图像(与场景识别无关的物体的图像)进行合成后得到的。使得场景识别模型对第一场景图像中与场景识别无关的图像特征关注度降低，从而减少相同类别的场景图像之间的类内差异性对场景识别模型的分类性能带来的负面影响。第二卷积神经网络是通过对与场景识别有关的图像学习后得到的，使得场景识别图像提取与场景识别有关的那部分图像的图像特征，且更关注与第一场景图像中与场景识别有关的图像特征，能够降低不同类别的场景图像的类间相似性对场景识别模型的分类性能带来的负面影响。以使第一场景图像的分类结果的准确性大大提高。

在一个可选的实现方式中，执行设备将第一场景图像输入到场景识别模型中的第一卷积神经网络，将第二场景图像输入到场景识别模型中的第二卷积神经网络，利用场景识别模型输出分类结果可以具体包括：执行设备通过第一卷积神经网络的第一卷积层提取第一场景图像的图像特征，并通过第二卷积神经网络的第二卷积层提取第二场景图像的图像特征，并将第二场景图像的图像特征输出至第一卷积层，以与第一场景图像的图像特征进行融合，从而使场景识别模型关注全局信息；第一卷积神经网络将融合后的图像特征输出至输出层，通过第一卷积神经网络的输出层(全连接层和分类器)输出分类结果。

在一个可选的实现方式中，若分类结果指示第一场景，第一场景与耳机的第一降噪模式具有对应关系；当执行设备是终端设备时，执行设备与耳机连接，所述方法还包括：执行设备根据分类结果将耳机的降噪模式调整为第一降噪模式，执行设备可以对场景图像进行识别，根据场景识别得到的分类结果自动调整耳机的降噪模式，无需用户手动来设置耳机的降噪模式。或者，当执行设备是服务器时，用户设备与耳机连接，所述方法还包括：执行设备向用户设备发送分类结果，分类结果用于触发用户设备将耳机的降噪模式调整为第一降噪模式。本申请实施例中，执行设备可以对场景图像进行识别，并将分类结果发送给用户设备，从而使得用户设备根据场景识别得到的分类结果自动调整耳机的降噪模式，无需用户手动来设置耳机的降噪模式。

在一个可选的实现方式中，若分类结果指示第一场景，第一场景与第一音量值具有对应关系；当执行设备是终端设备时，所述方法还包括：执行设备根据分类结果将执行设备的系统音量调整为第一音量值。本申请实施例中，执行设备能够根据场景图像的分类结果自适应调整系统音量值，无需用户根据不同的环境频繁调整手机的系统音量值。或者，当执行设备是服务器时，所述方法还包括：执行设备向用户设备发送分类结果，分类结果用于触发用户设备将用户设备的系统音量调整为第一音量值，从而使得用户设备能够根据场景识别得到的分类结果自动调整调整手机的系统音量值，无需用户手动来调整手机的系统音量值，提升用于体验。

在一个可选的实现方式中，所述获取待识别的第一场景图像可以包括：执行设备接收用户设备发送的待识别的第一场景图像；或者，执行设备通过摄像头或图像传感器采集待识别的第一场景图像。

第三方面，本申请实施例提供了一种模型训练装置，包括：

获取模块，用于获取第一训练数据集，第一训练数据集中包括多张第一图像；

处理模块，用于利用物体检测模型识别第一图像中的第一区域，第一区域是与场景识别无关的图像区域；对第一区域进行掩膜处理，得到第三图像；获取图像生成模型生成的多张样本物体图像，样本物体图像是与场景识别无关的物体的图像；将多张样本物体图像分别替换到第三图像中掩膜覆盖的第一区域，得到多张目标图像；利用目标图像的数据集训练第一卷积神经网络，并利用第三图像的数据集训练第二卷积神经网络，得到场景识别模型，场景识别模型包括第一卷积神经网络和第二卷积神经网络。

在一个可选的实现方式中，处理模块，还用于将第一图像输入到图像识别模型，利用图像识别模型得到第一图像的第一分类结果及第一图像的热力图，热力图用于展示目标物体所在的区域，目标物体的图像特征是与场景识别无关的图像特征，第一分类结果指示的类别为非场景类别或错误的场景类别；对第一图像中除了目标物体所在第一区域之外的第二区域进行掩膜处理，得到第二图像；利用第二训练数据集对第一模型进行训练，得到物体检测模型，第二训练数据集包括多个样本数据，样本数据包括输入数据和输出数据，其中，输入数据为第二图像，输出数据为位置坐标，位置坐标用于指示目标物体所在的区域。

在一个可选的实现方式中，处理模块，还用于利用第二图像对生成式对抗网络GAN进行训练，得到图像生成模型。

在一个可选的实现方式中，目标图像和第三图像均对应第一类别的标签；处理模块，还用于通过第一卷积神经网络的第一卷积层提取目标图像的图像特征，并通过第二卷积神经网络的第二卷积层提取第三图像的图像特征，并将第三图像的图像特征输出至第一卷积层，以与目标图像的图像特征进行融合；通过第一卷积神经网络的输出层根据融合后的图像特征输出第一类别的标签。

第四方面，本申请实施例提供了一种场景识别装置，包括：

获取模块，用于获取待识别的第一场景图像；

处理模块，用于利用物体检测模型检测第一场景图像中与场景识别无关的物体所在的第一区域；对第一区域进行掩膜处理，得到第二场景图像；将第一场景图像输入到场景识别模型中的第一卷积神经网络，将第二场景图像输入到场景识别模型中的第二卷积神经网络，利用场景识别模型输出分类结果，其中，第一卷积神经网络是利用目标图像的数据集进行训练得到的，第二卷积神经网络是利用第三图像的数据集训练得到的，目标图像是由图像生成模型生成的多张样本物体图像分别替换到第三图像中的第一区域后得到的，第三图像是利用物体检测模型识别第一图像中与场景识别无关的第一区域后，对第一区域进行掩膜处理后得到的，第一图像是训练数据集中的图像。

在一个可选的实现方式中，处理模块，还用于通过第一卷积神经网络的第一卷积层提取第一场景图像的图像特征，并通过第二卷积神经网络的第二卷积层提取第二场景图像的图像特征，并将第二场景图像的图像特征输出至第一卷积层，以与第一场景图像的图像特征进行融合；通过第一卷积神经网络的输出层根据融合后的图像特征输出分类结果。

在一个可选的实现方式中，所述装置还包括发送模块；若分类结果指示第一场景，第一场景与耳机的第一降噪模式具有对应关系；处理模块，还用于根据分类结果将耳机的降噪模式调整为第一降噪模式；或者，发送模块，用于向用户设备发送分类结果，分类结果用于触发用户设备将耳机的降噪模式调整为第一降噪模式。

在一个可选的实现方式中，若分类结果指示第一场景，第一场景与第一音量值具有对应关系；处理模块，还用于根据分类结果将执行设备的系统音量调整为第一音量值；或者，发送模块，还用于向用户设备发送分类结果，分类结果用于触发用户设备将用户设备的系统音量调整为第一音量值。

在一个可选的实现方式中，获取模块还具体用于：接收用户设备发送的待识别的第一场景图像；或者，通过摄像头或图像传感器采集待识别的第一场景图像。

第五方面，本申请实施例提供了一种电子设备，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述电子设备执行如上述第一方面中任一项所述的方法；或者，当所述程序或指令被所述处理器执行时，使得所述电子设备执行如上述第二方面中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码被计算机执行时，使得计算机实现上述如上述第一方面中任一项所述的方法；或者，当所述计算机程序代码被计算机执行时，使得计算机实现上述如上述第二方面中任一项所述的方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，用于储存计算机程序或指令，所述计算机程序或指令被执行时使得计算机执行如上述第一方面中任一项所述的方法；或者，所述计算机程序或指令被执行时使得计算机执行如上述第二方面中任一项所述的方法。

附图说明

图1为本申请实施例中的人工智能主体架构示意图；

图2A和图2B为本申请实施例中的系统架构的示意图；

图3为原图及原图的热力图的示意图；

图4为本申请实施例中对物体检测模型和图像生成模型的进行训练的步骤流程示意图；

图5为本申请实施例中对第一图像掩膜进行处理后，得到第二图像的示意图；

图6为本申请实施例中场景识别模型的架构的示意图；

图7为本申请实施例中对场景识别模型进行训练的步骤流程示意图；

图8为本申请实施例中对第一图像进行掩膜处理后，得到第三图像的示意图；

图9为本申请实施例中物体检测模型和场景识别模型的架构图；

图10为本申请实施例中一种场景识别方法的一个实施例的步骤流程示意图；

图11A、图11B和图11C为本申请实施例中耳机降噪模式与场景的对应关系的设置界面示意图；

图12为本申请实施例中修改场景与降噪模式的对应关系的场景示意图；

图13为本申请实施例中场景与系统音量值的对应关系的设置界面示意图；

图14为本申请实施例中一种模型训练装置的一个实施例的结构示意图；

图15为本申请实施例中神经网络处理器的一个实施例的结构示意图；

图16为本申请实施例中一种电子设备的结构示意图；

图17为本申请实施例中一种场景识别装置的一个实施例的结构示意图；

图18为本申请实施例中另一种电子设备的结构示意图。

具体实施方式

本申请涉及人工智能的应用领域中的计算机视觉领域，尤其涉及计算机视觉领域中的场景识别。首先对人工智能主体框架进行说明。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

场景识别是计算机视觉领域的一个重要分支技术。场景识别是指对图像中能够体现的环境或主体(人或物)所处的环境进行识别(或称为“分类”)。相对于以主体(或称为“对象”)为中心的图像识别，场景识别关注图像的全局信息。由此识别装置容易将与环境不相关的物体作为识别场景的关键特征，导致场景识别的两个难点。其一，相同场景类别的场景图像之间具有差异性(即类内差异性)，这种差异性可能是由与环境不相关的物体之间的差别带来的。例如，图像A是小明戴口罩在机场的照片，图像B是小明没有戴口罩在机场的照片，图像A和图像B同样是“机场”场景，识别装置更容易将图像A中与环境无关的“人脸”作为图像识别的关键特征，得到错误的分类结果(如“医院”)。其二，不同场景类别的场景图像之间具有相似性(即类间相似性)，这种类间相似性可能是由与环境不相关的物体的相似性带来的。例如，图像C为高铁内部包括座椅的图像，图像D为机场内部包括座椅的图像。识别装置更容易将座椅作为识别场景的关键特征，对图像D进行场景识别，将图像D中的座椅作为识别的关键特征，得到错误的分类结果(如“高铁”)。类内差异性和类间相似性导致场景识别的准确率降低。

基于上述问题，本申请实施例提供了一种场景图像识别方法，该方法用于降低场景图像的类内差异性及类间相似性，从而提高场景识别的准确率。请参阅图2A所示，本申请实施例提供了一种系统架构，数据采集设备210用于采集图像，将采集的图像作为训练数据存入数据库230，训练设备220基于数据库230中维护的图像数据生成物体检测模型和场景识别模型。其中，物体检测模型用于检测待识别的图像中“与场景(环境)识别无关”的区域。场景识别模型用于对待识别的场景图像进行识别。训练设备220由一个或多个服务器实现，可选地，训练设备220由一个或多个终端设备实现。执行设备240获取到来自训练设备220的物体检测模型和场景识别模型，将物体检测模型和场景识别模型装载于执行设备240内。执行设备240获取待识别的场景图像后，能够利用物体检测模型和场景识别模型对待识别的场景图像进行识别，得到分类结果。执行设备240为终端设备，例如，执行设备240包括但不限于手机、个人计算机、平板电脑、可穿戴设备(例如手表、手环、VR/AR设备)和车载终端等。可选地，请参阅图2B所示，系统架构还包括用户设备250，用户设备250包括但不限于手机、个人计算机、平板电脑、可穿戴设备(例如手表、手环、VR/AR设备)和车载终端等。执行设备240由一个或多个服务器实现。用户设备250可以通过任何通信机制或通信标准的通信网络与执行设备240进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。用户设备250用于采集待识别的场景图像，并将待识别的场景图像发送至执行设备240，执行设备240接收来自用户设备250的待识别的场景图像，利用物体检测模型和场景识别模型对待识别的场景图像进行识别，得到分类结果。执行设备240将该分类结果发送至用户设备250。可选地，训练设备220和执行设备240可以是相同的设备，例如，一个服务器(或服务器集群)既用于实现训练设备220的功能，又用于实现执行设备240的功能。

本申请实施例提供一种模型训练方法，该方法应用于上述系统架构中的训练设备。训练设备获取第一训练数据集，第一训练数据集中包括多张第一图像，利用物体检测模型识别第一图像中与场景识别无关的目标物体的图像，训练设备对第一图像中目标物体所在的区域进行掩膜处理，得到第三图像(即仅包含与场景识别有关的图像)。训练设备利用图像生成模型生成大量的与场景识别无关的样本物体图像，组合样本物体图像和第三图像，得到组合后的目标图像。训练设备将组合后的目标图像输入到第一卷积神经网络进行训练，并将第三图像输入到第二卷积神经网络进行训练，得到场景识别模型，场景识别模型包括第一卷积神经网络和第二卷积神经网络。通过大量的新合成的目标图像对第一卷积神经网络进行训练，从而使同一个类别的场景图像中引入与场景识别无关的物体图像，进而使场景识别模型降低对目标图像中产生差异的图像特征的关注度，从而降低同类别的场景图像的类内差异性对场景识别模型的分类性能带来的负面影响。并且通过与场景识别有关的图像对第二卷积神经网络进行训练，从而使第二卷积神经网络更容易学习到不同场景类别之间差异特征，进而降低不同场景类别的类间相似性对场景识别模型的分类性能带来的负面影响，提升了场景识别的准确率。

并且，本申请实施例提供了一种场景识别方法，该方法应用于上述系统架构中的执行设备。执行设备通过摄像头和/或图像传感器采集待识别的第一场景图像。然后，执行设备利用上述训练设备得到的物体检测模型检测第一场景图像中与场景识别无关的物体所在的第一区域。执行设备对第一区域进行掩膜处理，得到第二场景图像。执行设备将所述第一场景图像和第二场景图像输入到上述训练设备得到场景识别模型，利用所述场景识别模型输出分类结果。

为了更好理解本申请，首先对本申请中涉及的词语进行说明。

场景识别，是指对图像中能够体现的环境或对象(人或物)所处的环境进行分类，场景图像的类别可以包括但不限定于“机场”类，“高铁”类，“医院”类，“办公室”类，“咖啡厅”等等。可选地，场景图像的类别还可以是例如“室内场景”类、“室外场景”类，或者“嘈杂场景”类、“安静场景”类、“监听场景”类等。场景图像的类别根据具体的应用场景进行配置，具体的并不限定。

场景图片的类内差异性，是指同一类别的场景图片具有差异，导致类内差异性大的图片容易被误分到其他类别中。例如，一张办公室场景的图像中包括“人脸”图像，该包含“人脸”的办公室图片由于引入了差异信息(人脸的图像)被误分到其他类别，即被误分到非“办公室”类别。

场景图片的类间相似性，是指不同类别的场景图像中具有相似的物体图像，导致不同类别的场景图像被误分到一类中。例如，高铁内部的图片和机场内部的图片中都包括“椅子”，由于“椅子”具有相似性，高铁内部的图片和机场内部的图片容易被分到同一类中，例如都被分到“高铁”类别，或者都被分到“机场”类别。

热力图(gradient-weighted class activation map，CAM)，是帮助可视化卷积神经网络(convolutional neural networks，CNN)的工具，用于描述一张图像中的哪个局部位置让CNN做出了最终的分类决策。CAM中包括与输出类别相关的二维特征网格，每个网络的位置表示输出类别的重要程度。请参阅图3所示，图3为原图及原图的热力图的示意图，以热力图的形式呈现图像中每个网格位置与分类结果的相似程度。图3中包括一只猫和一只狗，CNN将该图像分类到“狗”的类别，从热力图上能够看出，CNN是识别到了“狗的脸部位置”的特征，即将狗的脸部的特征作为了分类的关键特征，将该图像分类到“狗”的类别中。

下面对热力图的基本原理进行简要说明。将一张图像输入到卷积神经网络中，通过卷积神经网络提取图像特征，对卷积神经网络模型的最后一个特征图(feature map)做全局平均池化(global average pooling，GAP)，计算各通道均值，然后计算最大的那个类别的输出相对于最后一个特征图的梯度，再把这个梯度可视化到原图上。直观来说，热力图能够展现卷积神经网络抽取到的高层特征的哪部分对最终的分类决策影响最大。

生成式对抗网络(generative adversarial networks，GAN)，用于生成样本数据。本申请中GAN用于生成一个图像中与场景识别无关的物体的图像。GAN包括生成模型(generative model，G)和判别模型(discriminative model，D)。其中，生成模型用于生成一个类似真实训练数据的样本，目标是越像真实样本越好。判别模型是一个二分类器，用于估计一个样本来自于真实训练样本的概率，若判别模型估计样本来自于真实的训练样本，判别模型输出大概率。若判别模型估计样本来自于生成模型生成的样本，则判别模型输出小概率。可以理解为，生成模型的目标是想方设法生成和真实样本一样的样本，使得判别模型判别不出来。而判别模型的目标是想方设法检测出来生成模型生成的样本。通过G和D的对抗与博弈，使得GAN生成的样本接近真实的样本，从而可以得到大量的样本数据。

本申请包括两个部分，第一个部分：模型训练过程。第二个部分：执行(推理)过程。下面首先对模型训练的过程进行说明。

一、模型训练过程。训练过程的执行主体是训练设备。模型训练的过程主要涉及3个模型：物体检测模型，图像生成模型和场景识别模型。

请参阅图4所示，首先对物体检测模型和图像生成模型的训练过程进行说明。

S10、训练设备获取第一训练数据集，第一训练数据集中包括多张第一图像(或者称为“原始图像”)。

数据采集设备采集图像，并将采集的图像存入数据库。训练设备从数据库获取第一训练数据集。例如，数据采集设备为带有图像传感器的设备，如照相机，摄像机或手机等。第一训练数据集中包括大量的不同类别的图像。例如，A1-“机场”类，A2-“高铁”类，A3-“地铁”类，A4-“办公室”类，A5-“医院”等等，具体的并不限定。应理解，对于第一训练数据集中图像的分类按照不同的需求分类方式有多种，具体的分类依据具体的应用场景不同而具有不同的分类。需要说明的是，本申请中为了区别第一训练数据集中的原始图像和对原始图像进行处理后的图像，将原始图像称为“第一图像”。对第一图像中“与场景识别有关的图像”进行掩膜处理后的图像称为“第二图像”(仅保留与场景识别无关的物体图像)。对第一图像中“与场景识别无关的物体图像”进行掩膜处理后的图像称为“第三图像”(仅保留与场景识别有关的图像)。

S11、训练设备将第一图像输入到图像识别模型，利用图像识别模型得到第一图像的第一分类结果及第一图像的热力图。

其中，热力图用于展示目标物体所在的区域，目标物体的图像特征是与场景识别无关的图像特征，第一分类结果指示的类别为非场景类别或错误的场景类别。图像识别模型是通用的对象识别模型，用于识别图像中的目标物体(或称为“目标对象”)。例如，第一图像是“一个人在办公室工作”的场景图像，将该第一图像输入到通用的图像识别模型，图像识别模型输出第一图像的第一分类结果是“人”，通过第一图像的热力图得到图像识别模型做出该分类决策影响最大的区域(即人脸所在的区域)。通用的图像识别模型更关注图像中主体的图像特征，故而输出的分类结果所指示的类别(如“人”)是非场景类别或错误的场景类别。

上述步骤S11的目的是得到第一图像的热力图，通过热力图能够确定与场景识别无关的目标物体(如“人脸”)的位置，从而可以得到仅包括目标物体的图像(下述步骤S12)，也可以得到第一图像中遮挡目标物体后剩余区域的图像(下述步骤S22)。

S12、训练设备对第一图像中除了目标物体所在第一区域之外的第二区域进行掩膜处理，得到第二图像(即仅包含目标物体的图像)。

第一图像为第一训练数据集中的任意一张图像。第一训练数据集中的每张图像均会经过上述步骤S11和步骤S12的处理，即得到第二训练数据集，第二训练数据集中包含多张第二图像。需要说明的是，本申请中为了区别图像中“与场景识别无关的物体所在的区域”和“与场景识别有关的区域”，将“与场景识别无关的物体所在的区域”称为“第一区域”，将“与场景识别有关的区域”称为第二区域。示例性的，请参阅图5所示，图5中以第一图像A为例进行说明，第一图像A为包括“人脸”的办公室场景的图像，“人脸”501为与“办公室”场景识别无关的目标物体，“人脸”所在的第一区域502是与场景识别无关的区域。第一图像A中除了第一区域502之外的区域为第二区域503，对第二区域503进行掩膜处理(如将第二区域的像素值设置为0)，得到的图像为第二图像A。

S13、训练设备利用第二训练数据集对第一模型进行训练，得到物体检测模型。物体检测模型用于检测输入的第一图像中与场景识别无关的物体所在的第一区域。其中，第一模型可以是神经网络模型。

第二训练数据集包括多个样本数据，每个样本数据包括输入数据和输出数据，其中输入数据为第二图像，输出数据为位置坐标，位置坐标用于指示目标物体所在的矩形区域。

根据上述步骤S10-步骤S13，得到物体检测模型。

S14、训练设备通过第二图像对GAN网络进行训练，得到图像生成模型。训练设备利用图像生成模型生成与目标物体同类别的多个样本物体图像。

通过第二图像对GAN网络进行优化(或者说训练)的过程如下。当固定生成模型(G)的时候，对于判别模型(D)进行优化。当输入第二图像(即真实数据)时，D优化网络结构使自己输出1。当输入来自G生成的数据时，D优化网络结构使自己输出0。当固定D的时候，G优化自己的网络使自己输出尽可能和真实数据一样的样本，并且使得生成的样本经过D的判别之后，D能够输出高概率值。G和D的训练过程交替进行，这个对抗的过程使得G生成的图像越来越逼真，D“打假”的能力也越来越强。

例如，第二图像A为“人脸”的图像，图像生成模型会生成大量的“人脸”图像，图像生成模型生成的“人脸”图像并不是现实中某人的“人脸”，而是图像生成模型根据对第二图像A的学习后制造出来的，具有真实“人脸”的全部特征。再如，如果第二图像B是“椅子”的图像，图像生成模型会生成大量的“椅子”图像等等。

通过上述步骤S10-步骤S12，和步骤S14，得到图像生成模型。上述步骤S13和步骤S14没有时序上的限定，S13和S14可以同步执行，即同步得到图像生成模型和物体检测模型。或者，S13在步骤S14之前执行，即先得到物体检测模型，后得到图像生成模型。或者，S13在步骤S14之后执行，即先得到图像生成模型，后得到物体检测模型。

下面对场景识别模型的训练过程进行说明。首先对场景识别模型的架构进行说明。请参阅图6所示，场景识别模型包括两个分支结构(或者称为一个主干结构和一个分支结构)，两个分支结构为两个并联的子网络。为了区分两个子网络，两个子网络分别称为第一卷积神经网络和第二卷积神经网络。其中，第一卷积神经网络包括多个第一卷积层、第一全连接层和分类器。其中，第一卷积层、第一全连接层和分类器依次连接。第二卷积神经网络包括多个第二卷积层和第二全连接层。第二全连接层连接到最后一层第一卷积层。本申请实施例中，为了区分第一卷积神经网络和第二卷积神经网络中的卷积层和全连接层，将第一卷积神经网络中的卷积层称为“第一卷积层”，将第二卷积神经网络中的卷积层称为“第二卷积层”，将第一卷积神经网络中的全连接层称为“第一全连接层”，第二卷积神经网络中的全连接层称为“第二全连接层”。

请参阅图7所示，场景识别模型的训练过程如下述步骤S20-步骤S25所示。

S20、训练设备获取第一数据训练集。第一训练数据集中包括多个第一图像(或称为“原始图像”)。

本步骤请参阅上述图5对应的示例中的步骤S10的说明，此处不赘述。

S21、训练设备将第一图像输入到物体检测模型，利用物体检测模型识别第一图像中的第一区域。第一区域是与场景识别无关的图像区域。物体检测模型是上述图4对应的示例中的步骤S11-步骤S13得到的物体检测模型。

示例性地，第一图像C是一张前景图像是人脸，背景图像是办公室的一张场景图像。将第一图像C输入到物体检测模型，物体检测模型输出4个坐标点，4个坐标点指示出包括人脸的第一区域，第一区域是与场景识别无关的区域。

S22、训练设备对第一区域进行掩膜处理，得到第三图像。

示例性的，请参阅图8所示，第一图像C包括人脸501的区域是第一区域502，第一图像C中除了第一区域502之外的区域为第二区域503，对第一区域502进行掩膜处理，得到第三图像。掩膜处理的作用是对第一区域502进行遮挡，例如，将第一区域的像素值设置为“0”，使得第三图像中仅包含第二区域503的图像，即第三图像中主要包含与场景识别有关的图像。

S23、训练设备获取图像生成模型生成的多张样本物体图像。样本物体图像是与场景识别无关的物体的图像。

图像生成模型根据第一训练集中每张第一图像中“与场景识别无关”的物体生成大量的样本物体图像。本步骤请参阅上述图4对应的示例中的S14的说明，此处不赘述。

S24、训练设备将多张样本物体图像分别替换到第三图像中掩膜覆盖的区域，得到多张目标图像。

第三图像可以理解是已经遮挡掉与场景识别无关的物体图像(也称为“干扰图像”)后，仅包括与场景识别有关的背景的图像。例如，针对第一类别的场景图像中的一张图像，其中，第一类别为多个场景类别中的任一种类别。第一类别以“办公室”类别为例，如针对“办公室”类中的一张场景图像(第一图像A)，训练设备将第一图像A中的干扰图像“人脸”对应的区域屏蔽后，得到第三图像A。然后，将图像生成模型生成的大量的不同的“人脸”图像替换到第三图像A中掩膜覆盖的区域，组合得到多张目标图像(组合后的新图像)。组合后的多张目标图像对应的标签仍然是“办公室”类。再如，针对“办公室”类别的另一张场景图像(第一图像B)，将第一图像B中的干扰图像“椅子”对应的区域屏蔽后，得到第三图像B，即第三图像B中包含掩膜覆盖的区域，然后，将图像生成模型生成的大量的“椅子”图像分别替换到第三图像B中掩膜覆盖的区域，组合得到多张目标图像，多张目标图像对应的标签仍然是“办公室”。可选地，训练设备也可以将图像生成模型生成的“椅子”图像替换到第三图像A中掩膜覆盖的区域，组合得到多张目标图像。或者，训练设备将图像生成模型生成的“人脸”图像替换到第三图像B中掩膜覆盖的区域，组合得到多张目标图像。

本步骤中，组合第三图像和图像生成模型生成的样本物体图像，从而能够得到大量的新的目标图像。第一训练数据集中的每张第一图像都经过步骤S21和步骤S22处理，然后将图像生成模型生成的多张样本物体图像分别与第三图像组合。组合得到多张目标图像，一方面从数据量上来说，对第一训练数据集中的图像的数量进行了扩充。另一方面从图像之间的差异上来说，针对同一个类别的图片，第三图像中保留了与场景识别相关的背景的图像，而图像生成模型生成的样本物体图像用于作为新合成的场景图片之间的差异图像，组合得到的新的目标图像所对应的标签还是第一类别(如办公室类别)，目标图像用于作为场景识别模型的训练数据。用多张目标图像训练场景识别模型，多张目标图像有相同(或相似的)的背景的图像，从而降低场景识别模型对同一类别的场景图像的类内差异性的关注度(或敏感度)，使得场景识别模型更少地关注同一类别的场景图像的类内差异性(如不同的前景图像)，从而更多地关注同一场景图像的类内相似性(如相同的背景图像)，进而提高场景识别模型的分类准确率。

S25、训练设备将目标图像输入到第一卷积神经网络，利用目标图像的数据集训练第一卷积神经网络，并将第三图像输入到第二卷积神经网络，利用第三图像的数据集训练第二卷积神经网络，得到场景识别模型，场景识别模型包括第一卷积神经网络和第二卷积神经网络。

在对场景识别模型进行训练时，对于第一卷积神经网络的训练数据和对第二卷积神经网络的训练数据是不同的。即对第一卷积神经网络的训练数据是大量的目标图像(即组合得到的新的场景图像)，而对第二卷积神经网络的训练数据是第三图像(即将原始图像中与场景识别无关的物体掩膜掉后的图像)。

举例来说，一张办公室场景的原始图像A包括前景图像(人脸)和背景图像。其中“人脸”在这张原始图像A中是与场景识别无关的物体，那么将“人脸”所在的区域遮挡掉，得到图像B(第三图像)，图像B就会作为第二卷积神经网络的输入。同时，将图像B中被遮挡的区域替换成其他的与场景识别不相关的物体图像(如物体生成模型生成的人脸，或椅子等)，就会得到多张目标图像(如图像C，图像D和图像F等等)。多张目标图像就会作为第一卷积神经网络的输入。目标图像和第三图像的相同点是：目标图像(图像C，图像D和图像F)的背景图像都相同，都来自于原始图像A；第三图像(图像B)的图像信息也来自于原始图像A。目标图像和第三图像的不同点是：目标图像(图像C，图像D和图像F)中既包括与场景识别相关的图像，也包含与场景识别无关的物体图像；第三图像(图像B)中只包含与场景识别相关的图像。即对场景识别模型训练的过程中，场景识别模型的两个分支结构同时接收到两路训练数据。

下面对两个分支结构分别进行说明。针对第一分支结构，第一卷积神经网络的卷积层(也称为“第一卷积层”)用于提取目标图像的图像特征。第一卷积神经网络中可分为多个阶段的卷积特征提取操作，例如，多个阶段的卷积特征提取操作按照从左到右的顺序(从浅层到高层)可以记为“block_1”，“block_2”…“block_n”。每个阶段对应的图像的尺寸不同，从“block_1”到“block_n”的图像特征(feature)的尺寸变小。n以5为例，block_1的尺度为224×224×64；block_2的尺寸为112×112×128；block_3的尺寸为56×56×256；block_4的尺寸为28×28×512；block_5的尺寸为14×14×512。将最后一个卷积层(block_n)的前两个卷积层(block_n-2和block_n-1)的特征图通过池化(如平均池化)，改变这两个block的尺寸后，将block_n-2和block_n-1的特征融合到最后一个block_n的图像特征中，从而使得多尺度特征进行融合，即高层次的特征和浅层次的特征进行融合。使得场景识别模型能够更关注全局特征。并且，通过大量的新合成的目标图像对第一卷积神经网络进行训练，同一个类别的场景图像中引入与场景识别无关的物体图像，使得场景识别模型对场景图像中差异图像的特征降低关注度，从而减弱类内差异性对场景识别模型分类性能造成的不利影响。需要说明的是，本申请实施例中所述的“特征融合”可以通过对图像特征(或称为特征图)进行拼接(concatenate，简称concat)、求和或加权平均等方式实现。

同时针对第二分支结构，第二卷积神经网络的卷积层(也称为第二卷积层)用于提取第三图像的图像特征。第三图像的图像特征经过全连接层(第二全连接层)，第二全连接层输出的图像特征融合到第一卷积神经网络的最后一层卷积层block_n，融合之后的图像特征通过第一卷积神经网络的全连接层(第一全连接层)和分类器输出分类结果(标签)。第二卷积神经网络提取的第三图像的图像特征是原始图像中与场景识别相关的图像特征，第二卷积神经网络等效于注意力模型，第二卷积神经网络将提取的图像特征融合到第一卷积神经网络的最后一层卷积层，使得场景识别模型更关注与场景识别相关的图像特征。并且通过遮挡掉与场景识别无关的物体图像后，通过与场景识别有关的图像对第二卷积神经网络进行训练，第二卷积神经网络更容易学习到不同场景类别之间差异特征，从而减弱类间相似性对场景识别模型分类性能造成的不利影响。

可选地，第一卷积神经网络和第二卷积神经网络提取到的浅层特征具有相似性，为了减少模型参数量，及减小模型体积，第一卷积神经网络和第二卷积神经网络可以复用部分卷积层。例如，第一卷积神经网络和第二卷积神经网络均包括20个卷积层，第一卷积神经网络和第二卷积神经网络可以复用前8个卷积层，而第一卷积神经网络中的第9个卷积层-第20个卷积层(如记做“卷积层9a-卷积层20a”)与第二卷积神经网络中的第9个卷积层-第20个卷积层(如记做“卷积层9b-卷积层20b”)分别部署。

二、场景识别的执行过程。场景识别的执行过程的执行主体是执行设备。例如执行设备可以是手机。

请参阅9所示，图9是物体检测模型和场景识别模型的架构图。终端设备中装载有场景识别模型和物体检测模型。物体检测模型用于检测输入的图像中与场景识别无关的物体所在的区域，场景识别模型用于对待识别的图像进行场景分类。场景识别模型的架构请参阅上述图6对应的架构说明，此处不赘述。请参阅图10所示，图10为一种场景识别方法的步骤流程示意图。

步骤S30、执行设备通过摄像头采集待识别的第一场景图像。

摄像头可以是用户主动开启的，例如，用户点击摄像头图标，执行设备接收到用户点击摄像头的操作，控制开启摄像头，摄像头采集第一场景图像。或者，摄像头可以是应用(application，APP)调用开启的，例如，在即时通信APP的视频通话过程中，摄像头开启，摄像头采集第一场景图像。又或者，摄像头可以是产生场景识别需求后自启动的，例如，执行设备通过传感器检测到设备的位置变化，执行设备当前所处场景可能也发生变化，需要重新识别场景，因此摄像头自启动，摄像头采集第一场景图像。执行设备以手机为例，摄像头可以是前置摄像头，也可以是后置摄像头，具体的并不限定。

步骤S31、执行设备利用物体检测模型检测第一场景图像中与场景识别无关的物体所在的第一区域。

本步骤中的物体检测模型是上述图4对应的示例中步骤S11-步骤S13中训练得到的物体检测模型。执行设备将待识别的第一场景图像输入到物体检测模型，物体检测模型输出位置坐标，位置坐标用于指示第一区域。例如，位置坐标为4个像素点，4个像素点指示一个矩形区域，矩形区域(即第一区域)内的物体图像是与场景识别无关的图像。例如，第一场景图像是一张办公室场景的图像，第一场景图像中的中间区域是一个“人脸”的图像，通过物体检测模型检测到“人脸”所在第一区域。

步骤S32、执行设备对所述第一区域进行掩膜处理，得到第二场景图像。

掩膜处理的作用是对第一区域进行遮挡，使得第二场景图像中不包含与场景识别无关的图像，仅包含与场景识别有关的图像。例如，将“人脸”所在的矩形区域像素值设置为“0”，遮挡“人脸”所在的区域，得到第二场景图像。

步骤S33、执行设备将所述第一场景图像和第二场景图像输入到场景识别模型，利用场景识别模型输出分类结果。

场景识别模型包括第一卷积神经网络和第二卷积神经网络，其中，所述第一卷积神经网络用于接收第一场景图像，并提取第一场景图像的第一图像特征。第二卷积神经网络用于接收第二场景图像，并提取所述第二场景图像的第二图像特征，将第二图像特征输出至第一卷积神经网络的最后一层卷积层，将第二图像特征融合到第一图像特征，然后，第一卷积神经网络将融合后的图像特征输出至输出层(包括第一全连接层和分类器)，通过输出层输出分类结果。

本申请实施例中，第一卷积神经网络是通过对目标图像学习后得到的，而目标图像是由相同背景图像与不同的差异物体图像(与场景识别无关的物体图像)进行合成后得到的。使得场景识别模型对第一场景图像中与场景识别无关的图像特征关注度降低，从而减少相同类别的场景图像之间的类内差异性对场景识别模型的分类性能带来的负面影响。第二卷积神经网络是通过对与场景识别有关的图像学习后得到的，使得场景识别图像提取与场景识别有关的那部分图像的图像特征，且更关注与第一场景图像中与场景识别有关的图像特征，能够降低不同类别的场景图像的类间相似性对场景识别模型的分类性能带来的负面影响。以使待识别的第一场景图像的分类结果的准确性大大提高。

本申请实施例提供的场景识别方法可以应用到很多具体的应用场景。在第一个应用场景中，手机能够根据场景图像的分类结果调整耳机的降噪模式，参见下述S34A的说明。在第二个应用场景中，手机能够根据场景图像的分类结果调整音量，参见下述S34B的说明。下面对第一场景图像的分类结果能够应用的应用场景进行说明。

第一个应用场景的相关说明。首先对耳机的降噪模式进行简要说明。手里中预先配置两个及两个以上的降噪模式。如第一模式(或称为“深度降噪模式”)，第二模式(或称为“生活降噪模式”)，第三模式(或称为“通透模式”或称为“监听模式”)等。耳机降噪的一般原理是，耳机通过耳机上设置的微麦拾取环境噪声，耳机产生抗噪声波将外部声音抵消，使得外部声音进入用户的耳朵之前实现全部降噪或部分降噪。其中，第一模式用于控制耳机开启深度降噪，使得耳机屏蔽周围环境中的大部分噪音。公共交通诸如机场，火车，地铁等的轰鸣声以及闹市区环境的嘈杂声容易带给人纷扰焦躁的感觉，如果将耳机切换到深度降噪模式，则可以有效隔绝环境的嘈杂声。第二模式用于控制耳机启动普通降噪，使得耳机屏蔽周围环境周的少部分噪音。当耳机启动第二模式时，用户能够听到外界环境中部分声音，这种模式适用于餐厅，街道，商场等生活场所，在日常生活中能够过滤掉部分嘈杂的噪音，但同时也能够感知到周围环境的声音。第三模式是指在降低环境噪音的情况下，同时兼顾人声和语音，避免错过重要的工作信息。上述三种降噪模式仅是示例性说明，并非限定。

对当前技术中，耳机切换降噪模式的方法进行说明。当耳机连接手机时，用户需要通过手机中的设置界面来设置当前耳机的降噪模式，如“设置”-“通用”-“降噪模式”-“深度降噪”。例如，当前用户在地铁上，用户想要调整耳机的降噪模式，需要打开手机的设置界面，设置“深度降噪”模式，以屏蔽掉外界全部的噪音。当用户到超市时，用户需要重新打开设置界面，如“设置”-“耳机”-“降噪模式”-“生活降噪”等，操作步骤繁琐。或者，另一种切换降噪模式的方法中，打开降噪开关后，用户同时按压“音量+”、“音量-”按键进行循环切换三种降噪模式。按压“音量+”、“-按键”一次，进入生活降噪。第二次按压“音量+”、“-按键”，进入兼听模式。第三次按压“音量+”、“-按键”，切换到“深度降噪”模式，这种通过物理按键的方式切换耳机降噪模式，也是需要用户多次按压物理键来切换降噪模式，用户操作不便。

步骤S34A、执行设备根据第一场景图像的分类结果调整耳机的降噪模式。

本申请实施例中，手机可以对场景图像进行识别，根据场景识别得到的分类结果自动调整耳机的降噪模式，无需用户手动来设置降噪模式。示例性的，不同的场景与降噪模式具有对应关系，手机可以根据场景及场景与降噪模型的对应关系来调整降噪模式。不同的场景和降噪模式如下表1所示。

表1

上表1中，各种降噪模式和场景的对应关系仅是举例说明，并不造成限定。上表1中的对应关系可以是预先默认配置的。或者，用户可以根据实际需要，自行设置各降噪模式和场景的对应关系。例如，请参阅图11A-图11C所示，手机显示设置界面，手机接收用户的选择操作(例如点击操作)，手机根据用户的选择操作确定各降噪模式与场景的对应关系。如在深度降噪模式的设置界面，用户勾选“地铁”、“机场”和“高铁”，手机建立“地铁”、“机场”、“高铁”和深度降噪模式的对应关系。同理，在生活降噪模式的设置界面，用户勾选“咖啡厅”和“超市”，手机建立生活降噪模式与“咖啡厅”和“超市”的对应关系。在监听降噪模式的设置界面，用户勾选“办公室”，手机建立监听降噪模式与“办公室”的对应关系。

在另一种可能的实现方式中，手机可根据用户在不同场景下对降噪模式的历史设置数据，基于预设规则、统计分析和/或统计学习，自动建立各种降噪模式和场景的对应关系。手机采集用户当前所处环境的场景图像，利用场景识别模型对场景图像进行识别，得到识别结果，识别结果用于指示用户所处的第一场景(或环境)。手机查询历史设置数据，历史设置数据包括用户设置的第一场景与每种耳机降噪模式的对应关系的历史数据，若第一场景与第一降噪模式的对应关系的设置频次大于第一阈值，则手机自动建立第一场景与第一降噪模式的对应关系。例如，第一场景以“地铁”为例，历史设置数据如下表2所示。

表2

从上述表2可以看出在历史设置数据中，地铁场景下，用户设置“深度降噪模式”的频次(80％)大于第一阈值(如第一阈值为70％)，用户设置“生活降噪模式”的频次(20％)小于第一阈值。则手机建立“地铁”与“深度降噪模式”的对应关系。本实现方式中，不需要用户手动设置，即可实现降噪模式的个性化调整。可选地，用户也可以手动修改手机自动建立的对应关系，进行个性化配置。将第一场景与第一降噪模式的对应关系修改为第一场景与第二降噪模式的对应关系。例如，请参阅图12所示，手机显示设置界面，设置界面显示“地铁”与“深度降噪模式”具有对应关系，“深度降噪模式”关联有选择键，手机响应于用户对选择键的操作，将“地铁”与“深度降噪模式”的对应关系修改为“地铁”与“生活降噪模式”。本实现方式中，手机可以接收用户的选择操作，修改手机自动建立的场景与降噪模式的对应关系，进行个性化配置，使得用户可以根据自身所处的环境及实际需求配置场景与降噪模式的对应关系，提升用户体验。

本申请实施例的一个应用场景，用户当前身处地铁环境中，通过耳机听音乐，用户可以开启手机的摄像头，或者手机的摄像头自启动，手机通过摄像头采集一张地铁内部中的场景照片，手机可以通过手机的前摄像头采集图像，也可以通过手机的后摄像头采集图像，具体的不限定。例如，手机通过前置摄像头采集到场景图像，虽然场景图像中包含用户的“人脸”图像，通过本实施例中场景识别的方法，可以准确的识别到该场景图像的分类结果为第一场景(如“地铁”场景)。手机根据第一场景及第一场景与第一降噪模式(如深度降噪模式)的对应关系，将耳机的降噪模型切换到第一降噪模式(如深度降噪模式)。本申请实施例中，手机可以对采集的场景图像进行场景识别，根据场景识别的分类结果自动调整耳机的降噪模式，不需要用户按照操作步骤调整降噪模式，实现方便。

再如，在另一个应用场景中，如果用户当前正在使用即时通信APP的视频通话功能，即时通信APP已经调用摄像头，摄像头实时采集用户所处的场景图像。为了降低手机的计算量，手机可以每间隔一个时间段获取一帧场景图像，然后对该场景图像进行场景识别。例如，时间段的时长可以为10分钟，15分钟或20分钟等。时间段的时长的设置依据是，通常情况下，用户从一个环境到另一个不同的环境大概需要的时长。一般情况下，用户不会在短时间内频繁变更所处的环境。例如，用户从“地铁”到“办公室”。或者，从“办公室”到“超市”等，需要有时间间隔。例如，时间段以10分钟为例。当用户使用手机与对方进行视频通话时，用户的手机的摄像头每间隔10分钟采集一帧场景图像。例如，在2021.3.7 10:20:01采集场景图像A，手机识别场景图像A的分类结果是“地铁”，然后手机根据该分类结果调整手机降噪模式为“深度降噪模式”，耳机执行深度降噪模式，用户几乎听不到外界的噪声，仅能听到视频通话中对方的语音内容。用户在2021.3.7 10:25:00出地铁，手机在2021.3.7 10:30:01采集场景图像B，手机识别场景图像B的分类结果是“办公室”，手机根据该分类结果调整手机降噪模式为“监听降噪模式”。耳机切换到监听降噪模式，耳机屏蔽了环境中的噪声声音，用户听不到环境中的噪声声音，但是用户依然能听到办公室环境中同事打招呼的声音，以及同事间谈论交流问题的声音，同时用户能够听到视频通话中对方的语音内容。本申请实施例中，手机通过场景识别的分类结果自动调整耳机降噪模式，不需要用户手动按步骤调整耳机降噪模式，提升用户体验。

第二个应用场景的相关说明。系统声音包括耳机，铃声，通话及媒体的声音等。用户所处的环境不同，对于手机的系统音量需求不同。例如，在嘈杂的环境(如地铁，超市)中时，用户需要将系统音量调大，如需要将铃声和提示音的音量调大，才不会错过电话或信息，需要将通话音量调大，才能听清楚对方的声音。而当用户在比较安静的环境(如办公室，图书馆等)中时，又不希望手机的系统声音的音量过大。如手机的铃声和提示音等音量过大会影响到其他人，并且如果通话音量过大，可能泄露隐私。在这种相对安静的环境中，用户又会将系统声音的音量降低。如此，用户可能需要在不同的环境中反复调整系统声音的音量大小。通常情况下，用户为了方便调整系统声音的音量，在安静的环境中，直接将手机的铃声和提示音调整为静音，虽然用户的这种操作可以避免打扰他人，但是直接将手机的铃声调整为静音，也会使用户不能及时接到并回复用户的电话及信息。

步骤S34B、执行设备根据第一场景图像的分类结果调整执行设备的系统音量。

本申请实施例中，手机采集场景图像，手机能够根据场景图像的分类结果自适应调整系统音量值，无需用户根据不同的环境频繁调整手机的系统音量值。示例性的，请参阅图13所示，手机显示系统音量值的设置界面，设置界面显示每个场景对应的用于调整音量值的进度条，用户可以通过滑动进度条来设置每个场景对应的音量值。或者，在另一种实现方式中，无需用户设置不同场景对应的音量值，手机根据经验值，默认配置不同的场景与系统音量值的对应关系。不同的场景与系统音量值的对应关系如下表3所示。下表3中示出的具体场景及每个场景对应的音量值仅是示例性说明，并非限定。

表3

场景	系统音量值
地铁	90
机场	90
高铁	80

咖啡厅	50
超市	50
办公室	20

在一个应用场景中，用户身处于咖啡厅环境中，用户开启手机摄像头，或者手机摄像头自启动，手机获取摄像头采集到的一张场景图像C，手机对场景图像C进行场景识别，得到分类结果C(咖啡厅场景)。手机根据该分类结果C调整系统音量的音量值。例如，手机根据“咖啡厅”场景将系统声音调整至50。当手机来电，铃声的音量值为50，较小的音量既不会打扰到其他人，而且又能使用户听见铃声(或提示音)，避免用户错失来电。当用户从咖啡厅进入到地铁后，用户身处地铁环境中，用户开启手机摄像头，或者手机摄像头自启动，手机通过摄像头采集到场景图像D，手机根据场景图像D对用户所处的环境进行识别，得到分类结果D(地铁场景)，手机根据该分类结果D(地铁场景)将系统音量值调整至90，从而使得用户可以在地铁中仍然可以听到手机的系统声音。

再如，在另一个应用场景中，如果用户当前正在使用即时通信APP的视频通话功能，即时通信APP已经调用摄像头，摄像头实时采集用户所处的场景图像。为了降低手机的计算量，手机可以每间隔一个时间段获取一帧场景图像，然后对该场景图像进行场景识别。例如，时间段的时长可以为10分钟，15分钟或20分钟等。时间段的时长的设置依据是，通常情况下，用户从一个环境到另一个不同的环境大概需要的时长。当用户使用手机与对方进行视频通话时，用户的手机的摄像头每间隔10分钟采集一帧场景图像。例如，在2021.3.8 10:20:01采集场景图像C，手机识别场景图像C的分类结果是“地铁”，然后手机根据该分类结果调整耳机的音量值是90，耳机中的音量增大，用户可以清楚地听到耳机中的声音。用户在2021.3.8 10:25:00出地铁，手机在2021.3.8 10:30:01采集场景图像D，手机识别场景图像D的分类结果是“办公室”，手机根据该分类结果调整耳机的音量值是50。耳机的音量减小，用户既能够听到对方的语音内容，而且耳机的音量适中，不会引起用户耳朵不适，也不会泄露耳机中的语音信息。

本申请实施例中，手机通过摄像头采集用户所处环境的场景图像，然后对场景图像进行识别，根据场景图像的分类结果，即用户所处的环境来自适应调整系统音量值，无需用户根据所处的不同环境反复手动调节系统音量，提升用户体验。

应理解，在上述图2B对应的架构中，用户设备(如手机)从执行设备接收待识别的第一场景图像的分类结果，分类结果用于触发用户设备将耳机的降噪模式调整为所述第一降噪模式。该分类结果所指示的场景与第一降噪模式具有对应关系。即用户设备根据第一场景图像的分类结果调整耳机的降噪模式的具体说明请参阅上述步骤S34A的具体说明，此处不赘述。

可选地，用户设备(如手机)从执行设备接收待识别的第一场景图像的分类结果，分类结果用于触发用户设备将用户设备的系统音量调整为所述第一音量值。该分类结果所指示的场景与第一音量值具有对应关系。即用户设备根据第一场景图像的分类结果调整用户设备的系统音量值的说明请参阅上述步骤S34B的具体说明，此处不赘述。

相对于上述方法实施例，本申请还提供了模型训练方法所应用的装置。模型训练方法应用于一种模型训练装置，该模型训练装置可以是上述方法实施例中所述的训练设备，或者，模型训练装置也可以是训练设备中的处理器，或者，模型训练装置可以是训练设备中的芯片系统。请参阅图14所示，本申请提供了一种模型训练装置1400的一个实施例，模型训练装置包括获取模块1401和处理模块1402。

获取模块1401，用于获取第一训练数据集，所述第一训练数据集中包括多张第一图像；

处理模块1402，用于利用物体检测模型识别所述第一图像中的第一区域，所述第一区域是与场景识别无关的图像区域；对所述第一区域进行掩膜处理，得到第三图像；获取图像生成模型生成的多张样本物体图像，所述样本物体图像是与场景识别无关的物体的图像；将所述多张样本物体图像分别替换到所述第三图像中掩膜覆盖的第一区域，得到多张目标图像；利用所述目标图像的数据集训练第一卷积神经网络，并利用所述第三图像的数据集训练第二卷积神经网络，得到场景识别模型，所述场景识别模型包括所述第一卷积神经网络和所述第二卷积神经网络。

可选地，获取模块1401，由收发模块代替。可选地，收发模块为收发器。其中，收发器具有发送和/或接收的功能。可选地，收发器由接收器和/或发射器代替。

可选地，收发模块为通信接口。可选地，通信接口是输入输出接口或者收发电路。输入输出接口包括输入接口和输出接口。收发电路包括输入接口电路和输出接口电路。

可选地，处理模块1402为处理器，处理器是通用处理器或者专用处理器等。可选地，处理器包括用于实现接收和发送功能的收发单元。例如该收发单元是收发电路，或者是接口，或者是接口电路。用于实现接收和发送功能的收发电路、接口或接口电路是分开的部署的，可选地，是集成在一起部署的。上述收发电路、接口或接口电路用于代码或数据的读写，或者，上述收发电路、接口或接口电路用于信号的传输或传递。

进一步的，获取模块1401用于执行上述图4对应的示例中的步骤S10，图7对应的示例中的步骤S20。处理模块1402用于执行上述图4对应的示例中的步骤S11-步骤S14，图7对应的示例中的步骤S20-步骤S25。

具体的，在一个可能的实现方式中，处理模块1402还具体用于：

将所述第一图像输入到图像识别模型，利用所述图像识别模型得到第一图像的第一分类结果及所述第一图像的热力图，所述热力图用于展示目标物体所在的区域，所述目标物体的图像特征是与场景识别无关的图像特征，所述第一分类结果指示的类别为非场景类别或错误的场景类别；

对所述第一图像中除了所述目标物体所在第一区域之外的第二区域进行掩膜处理，得到第二图像；

利用第二训练数据集对第一模型进行训练，得到所述物体检测模型，所述第二训练数据集包括多个样本数据，所述样本数据包括输入数据和输出数据，其中，输入数据为所述第二图像，输出数据为位置坐标，所述位置坐标用于指示所述目标物体所在的区域。

在一个可能的实现方式中，处理模块1402，还用于利用所述第二图像对生成式对抗网络GAN进行训练，得到所述图像生成模型。

在一个可能的实现方式中，处理模块1402还具体用于：

通过所述第一卷积神经网络的第一卷积层提取所述目标图像的图像特征，并通过所述第二卷积神经网络的第二卷积层提取所述第三图像的图像特征，并将所述第三图像的图像特征输出至所述第一卷积层，以与所述目标图像的图像特征进行融合；

通过所述第一卷积神经网络的输出层根据融合后的图像特征输出所述第一类别的标签。

在一个可能的设计中，处理模块1402的功能由一个处理装置实现，处理装置的功能部分或全部通过软件、硬件或其结合实现。因此，可以理解，以上各个模块可以是软件，硬件或二者结合实现。此时，处理装置包括存储器和处理器，其中，存储器用于存储计算机程序，处理器读取并执行存储器中存储的计算机程序，以执行上述方法实施例中的相应处理和/或步骤。处理器包括但不限于CPU、DSP、图像信号处理器、神经网络处理器(neural network processing unit，NPU)和微控制器中的一个或多个。

可选地，处理装置仅包括处理器。用于存储计算机程序的存储器位于处理装置之外，处理器通过电路/电线与存储器连接，以读取并执行存储器中存储的计算机程序。可选地，处理装置的功能部分或全部通过硬件实现。此时，处理装置包括输入接口电路，逻辑电路和输出接口电路。可选地，所述处理装置可以是一个或多个芯片，或一个或多个集成电路。

可选地，物体检测模型、图像生成模型、场景识别模型可以是神经网络模型，可嵌入、集成于或运行于神经网络处理器(NPU)。

请参阅图15所示，为便于理解，简要介绍神经网络处理器150。神经网络处理器150作为协处理器挂载到主处理器上，主处理器例如可以包括CPU，主处理器用于分配任务。神经网络处理器的核心部分为运算电路1503，通过控制器1504控制运算电路1503提取存储器中的矩阵数据并进行乘法运算。在一些实现中，运算电路1503内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路1503是二维脉动阵列。运算电路1503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1508中。

统一存储器1506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)1505被搬运到权重存储器1502中。输入数据也通过DMAC被搬运到统一存储器1506中。

总线接口单元(bus interface unit，BIU)1510，用于AXI总线与DMAC和取指存储器(instruction fetch buffer)1509的交互。

总线接口单元1510，用于取指存储器1509从外部存储器获取指令，还用于存储单元访问控制器1505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1506或将权重数据搬运到权重存储器1502中或将输入数据数据搬运到输入存储器1501中。

向量计算单元1507多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元能1507将经处理的输出的向量存储到统一缓存器1506。例如，向量计算单元1507可以将非线性函数应用到运算电路1503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1503的激活输入，例如用于在神经网络中的后续层中的使用。控制器1504连接的取指存储器(instruction fetch buffer)1509，用于存储控制器1504使用的指令；统一存储器1506，输入存储器1501，权重存储器1502以及取指存储器1509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

请参阅图16所示，本申请提供了一种电子设备1600，电子设备1600是上述方法实施例中的训练设备，用于执行上述方法实施例中训练设备的功能。本实施例中电子设备1600以服务器为例进行说明。

服务器包括一个或一个以上中央处理器(central processing units，CPU)1622(例如，一个或一个以上处理器)和存储器1632，一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储设备)。其中，存储器1632和存储介质1630是短暂存储或持久存储。存储在存储介质1630的程序包括一个或一个以上模块(图示没标出)，每个模块包括对装置中的一系列指令操作。更进一步地，中央处理器1622设置为与存储介质1630通信，在服务器上执行存储介质1630中的一系列指令操作。

可选地，服务器还包括一个或一个以上电源1626，一个或一个以上有线或无线网络接口1650，一个或一个以上输入输出接口1658，和/或，一个或一个以上操作系统1641。

可选地，中央处理器1622包括上述图15所示的NPU。

另外，在一个可选的设计中，图14中的获取模块1401的功能由图16中的网络接口1650执行。图14中的处理模块1402的功能由图16中的中央处理器1622执行。

本申请还提供了场景识别方法所应用的场景识别装置。场景识别装置用于执行上述方法实施例中执行设备所执行的功能。场景识别装置可以是上述方法实施例中的执行设备，或者，场景识别装置也可以是执行设备中的处理器，或者，场景识别装置可以是执行设备中的芯片系统。请参阅图17所示，本申请提供了一种场景识别装置1700的一个实施例，场景识别装置1700包括获取模块1701和处理模块1702，可选地，场景识别装置还包括发送模块1703。

获取模块1701，用于获取待识别的第一场景图像；

处理模块1702，用于利用物体检测模型检测所述第一场景图像中与场景识别无关的物体所在的第一区域；

对所述第一区域进行掩膜处理，得到第二场景图像；

将所述第一场景图像输入到场景识别模型中的第一卷积神经网络，将所述第二场景图像输入到场景识别模型中的第二卷积神经网络，利用所述场景识别模型输出分类结果，其中，所述第一卷积神经网络是利用目标图像的数据集进行训练得到的，所述第二卷积神经网络是利用第三图像的数据集训练得到的，所述目标图像是由图像生成模型生成的多张样本物体图像分别替换到所述第三图像中的第一区域后得到的，所述第三图像是利用物体检测模型识别第一图像中与场景识别无关的第一区域后，对所述第一区域进行掩膜处理后得到的，所述第一图像是训练数据集中的图像。

可选地，物体检测模型、图像生成模型、场景识别模型可以是神经网络模型，可嵌入、集成于或运行于上述如上述图15所示的神经网络处理器(NPU)。

可选地，获取模块1701，由收发模块代替。可选地，收发模块为收发器。其中，收发器具有发送和/或接收的功能。可选地，收发器由接收器和/或发射器代替。

可选地，处理模块1702为处理器，处理器是通用处理器或者专用处理器等。可选地，处理器包括用于实现接收和发送功能的收发单元。例如该收发单元是收发电路，或者是接口，或者是接口电路。用于实现接收和发送功能的收发电路、接口或接口电路是分开的部署的，可选地，是集成在一起部署的。上述收发电路、接口或接口电路用于代码或数据的读写，或者，上述收发电路、接口或接口电路用于信号的传输或传递。

在一个可能的设计中，处理模块1702的功能由一个处理装置实现，处理装置的功能部分或全部通过软件、硬件或其结合实现。因此，可以理解，以上各个模块可以是软件，硬件或二者结合实现。此时，处理装置包括存储器和处理器，其中，存储器用于存储计算机程序，处理器读取并执行存储器中存储的计算机程序，以执行上述方法实施例中的相应处理和/或步骤。处理器包括但不限于CPU、DSP、图像信号处理器、神经网络处理器(neural network processing unit，NPU)和微控制器中的一个或多个。

进一步的，获取模块1701用于执行上述方法实施例中图10对应的示例中的步骤S30。处理模块1702用于执行上述方法实施例中图10对应的示例中的步骤S31-步骤S33。可选地，当执行设备为终端设备时，处理模块1702还用于执行步骤S34A和步骤S34B。

具体的，在一个可选的实现方式中，处理模块1702还用于：通过所述第一卷积神经网络的第一卷积层提取所述第一场景图像的图像特征，并通过所述第二卷积神经网络的第二卷积层提取所述第二场景图像的图像特征，并将所述第二场景图像的图像特征输出至所述第一卷积层，以与所述第一场景图像的图像特征进行融合；通过所述第一卷积神经网络的输出层根据融合后的图像特征输出所述分类结果。

具体的，在一个可选的实现方式中，若所述分类结果指示第一场景，所述第一场景与所述耳机的第一降噪模式具有对应关系；

处理模块1702，还用于根据所述分类结果将所述耳机的降噪模式调整为所述第一降噪模式；

或者，

发送模块1703，用于向所述用户设备发送所述分类结果，所述分类结果用于触发所述用户设备将所述耳机的降噪模式调整为所述第一降噪模式。

在一个可选的实现方式中，若所述分类结果指示第一场景，所述第一场景与第一音量值具有对应关系；

处理模块1702，还用于根据所述分类结果将所述执行设备的系统音量调整为所述第一音量值；

或者，

发送模块1703，用于向所述用户设备发送所述分类结果，所述分类结果用于触发所述用户设备将所述用户设备的系统音量调整为所述第一音量值。

可选地，发送模块1703，由收发模块代替。可选地，收发模块为收发器。其中，收发器具有发送和/或接收的功能。可选地，收发器由接收器和/或发射器代替。

在一个可选的实现方式中，所述获取模块1701，还用于接收用户设备发送的待识别的第一场景图像；或者，通过摄像头或图像传感器采集待识别的第一场景图像。

请参阅图18所示，本申请实施例还提供了另一种电子设备。该电子设备1800用于执行上述方法实施例中执行设备所执行的功能。本申请实施例中，电子设备以手机为例进行说明。电子设备1800包括处理器1801、存储器1802、输入单元1803、显示单元1804、摄像头1805、通信单元1806和音频电路1807等部件。存储器1802可用于存储软件程序以及模块，处理器1801通过运行存储在存储器1802的软件程序以及模块，从而执行装置的各种功能应用以及数据处理。存储器1802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器1801可以是如图17对应的实施例中提到的处理装置。可选地，处理器1801包括但不限于各类型的处理器，如之前提到的CPU、DSP、图像信号处理器、如15所示的神经网络处理器和微控制器中的一个或多个。

输入单元1803可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元1803可包括触控面板1831。触控面板1831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1831上或在触控面板1831附近的操作)。

显示单元1804可用于显示各种图像信息。显示单元1804可包括显示面板1841，可选的，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1841。在某些实施例中，可以将触控面板1831与显示面板1841集成而实现装置的输入和输出功能。

摄像头1805，用于采集待识别的场景图像，或者，用于采集场景图像，将采集的场景图像发送至数据库。

通信单元1806，用于建立通信信道，使电子设备通过通信信道以连接至远程服务器，并从所述远程服务器获取物体检测模型及场景识别模型。所述通信单元1806可以包括无线局域网模块、蓝牙模块、基带模块等通信模块，以及所述通信模块对应的射频(radio frequency，RF)电路，用于进行无线局域网络通信、蓝牙通信、红外线通信及/或蜂窝式通信系统通信。所述通信模块用于控制电子设备中的各组件的通信，并且可以支持直接内存存取。

可选地，所述通信单元1806中的各种通信模块一般以集成电路芯片的形式出现，并可进行选择性组合，而不必包括所有通信模块及对应的天线组。例如，所述通信单元1806可以仅包括基带芯片、射频芯片以及相应的天线以在一个蜂窝通信系统中提供通信功能。经由所述通信单元1806建立的无线通信连接，所述电子设备可以连接至蜂窝网或因特网。

音频电路1807、扬声器1808和传声器1809可提供用户与手机之间的音频接口。音频电路1807可将接收到的音频数据转换后的电信号，传输到扬声器1808，由扬声器1808转换为声音信号输出。传声器1809将收集的声音信号转换为电信号，由音频电路1807接收后转换为音频数据，再将音频数据输出处理器1801处理后，经通信单元1806以发送给比如另一手机，或者将音频数据输出至存储器1802以便进一步处理。

本申请实施例中，电子设备与外部耳机有线或无线连接(如通过蓝牙模块连接)，通信单元1806用于向训练设备发送待识别的场景图像，并从服务器接收该场景图像的分类结果，处理器1801还用于根据分类结果调整耳机的降噪模式。或者，处理器1801还用于根据分类结果调整系统音量的音量值。

可选地，处理器1801用于对待识别的场景图像进行场景识别，得到分类结果。处理器1801根据该分类结果调整耳机的降噪模式。或者，处理器1801还用于根据分类结果调整系统音量的音量值。

本申请实施例提供了一种计算机可读介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机执行上述方法实施例中训练设备所执行的方法；或者，当计算机程序在计算机上运行时，使得计算机执行上述方法实施例中执行设备所执行的方法。

本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口例如是输入/输出接口、管脚或电路等。处理器用于读取指令以执行上述方法实施例中训练设备所执行的方法；或者，处理器用于读取指令以执行上述方法实施例中执行设备所执行的方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述方法实施例中训练设备所执行的方法；或者，该计算机程序产品被计算机执行时实现上述方法实施例中执行设备所执行的方法。

其中，可选地，上述任一处提到的处理器，是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)。

所属领域的技术人员能够清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种模型训练方法，其特征在于，应用于训练设备，包括：

获取第一训练数据集，所述第一训练数据集中包括多张第一图像；

利用物体检测模型识别所述第一图像中的第一区域，所述第一区域是与场景识别无关的图像区域；

对所述第一区域进行掩膜处理，得到第三图像；

获取图像生成模型生成的多张样本物体图像，所述样本物体图像是与场景识别无关的物体的图像；

将所述多张样本物体图像分别替换到所述第三图像中掩膜覆盖的第一区域，得到多张目标图像；

利用所述目标图像的数据集训练第一卷积神经网络，并利用所述第三图像的数据集训练第二卷积神经网络，得到场景识别模型，所述场景识别模型包括所述第一卷积神经网络和所述第二卷积神经网络。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第一图像输入到图像识别模型，利用所述图像识别模型得到所述第一图像的第一分类结果及所述第一图像的热力图，所述热力图用于展示目标物体所在的区域，所述目标物体的图像特征是与场景识别无关的图像特征，所述第一分类结果指示的类别为非场景类别或错误的场景类别；

对所述第一图像中除了所述目标物体所在第一区域之外的第二区域进行掩膜处理，得到第二图像；

利用第二训练数据集对第一模型进行训练，得到所述物体检测模型，所述第二训练数据集包括多个样本数据，所述样本数据包括输入数据和输出数据，其中，所述输入数据为所述第二图像，所述输出数据为位置坐标，所述位置坐标用于指示所述目标物体所在的区域。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

利用所述第二图像对生成式对抗网络GAN进行训练，得到所述图像生成模型。
根据权利要求1-3中任一项所述的方法，其特征在于，所述目标图像和所述第三图像均对应第一类别的标签，所述利用所述目标图像的数据集训练第一卷积神经网络，并利用所述第三图像的数据集训练所述第二卷积神经网络，包括：

通过所述第一卷积神经网络的第一卷积层提取所述目标图像的图像特征，并通过所述第二卷积神经网络的第二卷积层提取所述第三图像的图像特征，并将所述第三图像的图像特征输出至所述第一卷积层，以与所述目标图像的图像特征进行融合；

通过所述第一卷积神经网络的输出层根据融合后的图像特征输出所述第一类别的标签。
一种场景识别方法，其特征在于，应用于执行设备，包括：

获取待识别的第一场景图像；

利用物体检测模型检测所述第一场景图像中与场景识别无关的物体所在的第一区域；

对所述第一区域进行掩膜处理，得到第二场景图像；

将所述第一场景图像输入到场景识别模型中的第一卷积神经网络，将所述第二场景图像输入到所述场景识别模型中的第二卷积神经网络，利用所述场景识别模型输出分类结果，其中，所述第一卷积神经网络是利用目标图像的数据集进行训练得到的，所述第二卷积神经网络是利用第三图像的数据集训练得到的，所述目标图像是由图像生成模型生成的多张样本物体图像分别替换到所述第三图像中的第一区域后得到的，所述第三图像是利用物体检测模型识别第一图像中与场景识别无关的第一区域后，对所述第一区域进行掩膜处理后得到的，所述第一图像是训练数据集中的图像。
根据权利要求5所述的方法，其特征在于，所述将所述第一场景图像输入到场景识别模型中的第一卷积神经网络，将所述第二场景图像输入到场景识别模型中的第二卷积神经网络，利用所述场景识别模型输出分类结果，包括：

通过所述第一卷积神经网络的第一卷积层提取所述第一场景图像的图像特征，并通过所述第二卷积神经网络的第二卷积层提取所述第二场景图像的图像特征，并将所述第二场景图像的图像特征输出至所述第一卷积层，以与所述第一场景图像的图像特征进行融合；

通过所述第一卷积神经网络的输出层根据融合后的图像特征输出所述分类结果。
根据权利要求5或6所述的方法，其特征在于，若所述分类结果指示第一场景，所述第一场景与耳机的第一降噪模式具有对应关系；

所述执行设备是终端设备，所述执行设备与所述耳机连接，所述方法还包括：

根据所述分类结果将所述耳机的降噪模式调整为所述第一降噪模式；

或者，

所述执行设备是服务器，用户设备与所述耳机连接，所述方法还包括：

向所述用户设备发送所述分类结果，所述分类结果用于触发所述用户设备将所述耳机的降噪模式调整为所述第一降噪模式。
根据权利要求5或6所述的方法，其特征在于，若所述分类结果指示第一场景，所述第一场景与第一音量值具有对应关系；

所述执行设备是终端设备，所述方法还包括：

根据所述分类结果将所述执行设备的系统音量调整为所述第一音量值；

或者，

所述执行设备是服务器，所述方法还包括：

向用户设备发送所述分类结果，所述分类结果用于触发所述用户设备将所述用户设备的系统音量调整为所述第一音量值。
根据权利要求5-8中任一项所述的方法，其特征在于，所述获取待识别的第一场景图像，包括：

接收用户设备发送的待识别的第一场景图像；

或者，

通过摄像头或图像传感器采集待识别的第一场景图像。
一种电子设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述电子设备执行如权利要求1至4中任一项所述的方法；或者，当所述程序或指令被所述处理器执行时，使得所述电子设备执行如权利要求5至9中任一项所述的方法。
一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，其特征在于，当所述计算机程序代码被计算机执行时，使得计算机实现上述如权利要求1至4中任一项所述的方法；或者，当所述计算机程序代码被计算机执行时，使得计算机实现上述如权利要求5至9中任一项所述的方法。
一种计算机可读存储介质，其特征在于，用于储存计算机程序或指令，所述计算机程序或指令被执行时使得计算机执行如权利要求1至4中任一项所述的方法；或者，所述计算机程序或指令被执行时使得计算机执行如权利要求5至9中任一项所述的方法。