WO2020015470A1

WO2020015470A1 - 图像处理方法、装置、移动终端及计算机可读存储介质

Info

Publication number: WO2020015470A1
Application number: PCT/CN2019/089941
Authority: WO
Inventors: 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-07-16
Filing date: 2019-06-04
Publication date: 2020-01-23
Also published as: CN108900769A; CN108900769B

Abstract

一种图像处理方法和装置包括：获取待处理的预览图像；识别所述预览图像的场景；所述场景包括背景类别和前景目标；当所述前景目标为人像时，检测所述人像的面部表情信息；根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。

Description

图像处理方法、装置、移动终端及计算机可读存储介质

相关申请的交叉引用

本申请要求于2018年7月16日提交中国专利局、申请号为201810779736.1、发明名称为“图像处理方法、装置、移动终端及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机应用领域，特别是涉及一种图像处理方法、装置、移动终端及计算机可读存储介质。

背景技术

随着移动终端的不断发展，尤其是智能手机设备的出现，几乎所有的移动终端设备都具有拍摄功能。但是，人们在拍摄照片时，背景图像通常较为固定，而人物的表情却非常丰富，当人物表情变化时，背景图像无法做出相应的变化，使得人物图像和背景图像不协调，图像观赏性低。

发明内容

本申请实施例提供一种图像处理方法、装置、移动终端及计算机可读存储介质，可以协调人物图像和背景图像。

一种图像处理方法，包括：

获取待处理的预览图像；

识别所述预览图像的场景；所述场景包括背景类别和前景目标；

当所述前景目标为人像时，检测所述人像的面部表情信息；及

根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。

一种图像处理装置，包括：

获取模块，用于获取待处理的预览图像；

识别模块，用于识别所述预览图像的场景；所述场景包括背景类别和前景目标；

检测模块，用于当所述前景目标为人像时，检测所述人像的面部表情信息；及

调节模块，用于根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。

一种移动终端，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的图像处理方法的操作。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的图像处理方法的操作。

本申请实施例中图像处理方法、装置、移动终端及计算机可读存储介质，通过获取待处理的预览图像；识别所述预览图像的场景；所述场景包括背景类别和前景目标；当所述前景目标为人像时，检测所述人像的面部表情信息；根据所述面部表情信息和背景类别调节所述预览图像中背景图像的特征参数，使得处理后的图像中人物图像和背景图像协调。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中图像处理方法的流程图；

图2为一个实施例中神经网络的架构示意图；

图3为一个实施例中拍摄场景的类别示意图；

图4为一个实施例的基于神经网络对预览图像的场景进行识别的方法的流程图；

图5为另一个实施例中神经网络的架构示意图；

图6为另一个实施例基于神经网络对预览图像的场景进行识别的方法的流程图；

图7为一个实施例中预览图像中前景目标的边界框示意图；

图8为一个实施例中检测人像的面部表情信息的方法的流程图；

图9为另一个实施例中检测人像的面部表情信息的方法的流程图；

图10为一个实施例中调节预览图像中背景图像的特征参数的方法的流程图；

图11为一个实施例中图像处理装置的结构框图；

图12A为一个实施例中移动终端的内部结构示意图；

图12B为一个实施例中服务器的内部结构示意图；

图13为一个实施例中图像处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中图像处理方法的流程图。如图1所示，一种图像处理方法，包括操作102至操作108。

操作102：获取待处理的预览图像。

本实施例中，待处理的图像可以为连续多帧预览图像，连续多帧预览图像可以是连续两帧及两帧以上的预览图像。连续多帧预览图像可以是指计算机设备的摄像头在预设时间内采集的多帧预览图像。例如，计算机设备的摄像头在0.1秒内采集了3帧预览图像，则可以将这3帧预览图像作为连续多帧预览图像。

操作104：识别预览图像的场景。其中，该场景包括背景类别和前景目标。

本实施例中，移动终端中的处理器基于神经网络识别预览图像的场景。应当理解地，神经网络可以为卷积神经网络(Convolutional Neural Network，CNN)，CNN是指在传统的多层神经网络的基础上发展起来的一种针对图像分类和识别的一种神经网络模型，相对与传统的多层神经网络，CNN引入了卷积算法和池化算法。其中，卷积算法是指将局部区域内的数据进行加权叠加的一种数学算法，池化算法是指将局部区域内的数据进行采样处理的一种数学算法。

具体而言，CNN模型由卷积层与池化层交替组成，如图2所示，输入层210输入预览图像，卷积层220对输入层的图像的各个局部区域进行图像特征提取，池化层230对卷积层的图像特征进行采样以降低维数，然后再以若干层全连接层240对图像特征进行连接，以最后一层隐藏层250的输出值为最终提取的特征。根据最终提取的特征对场景信息进行识别，其中场景信息包括了背景类别信息和前景目标类别信息。

在一个实施例中，在卷积神经网络的最后一层隐藏层250后配置softmax分析器，通过softmax分析器对上述最终提取的特征进行分析，可以得到图像中的背景对应的类别的概率和前景目标对应类别的概率。

需要说明的是，在采用神经网络对预览图像的背景类别和前景目标进行识别之前，需要对神经网络进行训练，其训练过程包括：

首先，可将包含有至少一个背景训练目标(包括：风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等)和前景训练目标(包括主体对象：人像、婴儿、猫、狗、美食等)的训练图像输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取，通过SIFT(Scale-invariant feature transform)特征、方向梯度直方图(Histogram of Oriented Gradient，HOG)特征等提取特征，再通过SSD(Single Shot MultiBox Detector)、VGG(Visual Geometry Group)等目标检测算法，对背景训练目标进行检测得到第一预测置信度，对前景训练目标进行检测得到第二预测置信度。第一预测置信度为采用该神经网络预测出的该训练图像中背景区域某一像素点属于该背景训练目标的置信度。第二预测置信度为采用该神经网络预测出的该训练图像中前景区域某一像素点属于该前景训练目标的置信度。训练图像中可以预先标注背景训练目标和前景训练目标，得到第一真实置信度和第二真实置信度。该第一真实置信度表示在该训练图像中预先标注的该像素点属于该背景训练目标的置信度。第二真实置信度表示在该训练图像中预先标注的该像素点属于该前景训练目标的置信度。针对图像中的每个像素点，真实置信度可以表示为1(或正值)和0(或负值)，分别用以表示该像素点属于训练目标和不属于训练目标。

其次，求取第一预测置信度与第一真实置信度之间的差异得到第一损失函数，求其第二预测置信度与第二真实置信度之间的差异得到第二损失函数。第一损失函数和第二损失函数均可采用对数函数、双曲线函数、绝对值函数等。

最后，将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数，并根据所述目标损失函数调节所述神经网络的参数，对所述神经网络进行训练。

在一实施例中，如图3所示，训练图像的拍摄场景可包括背景区域的类别、前景目标和其他。背景区域的类别可包括风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。前景目标可为人像、婴儿、猫、狗、美食等。其他可为文本文档、微距等。

操作106：当前景目标为人像时，检测人像的面部表情信息。

具体而言，前景目标包括人像、婴儿、猫、狗、美食等。当检测到预览图像中的前景目标为人像时，采用神经网络提取人像的人脸特征点，根据人脸特征点获取对应的面部表情信息。其中，人脸特征点可以为面部器官的轮廓形状或者面部特定区域的面部动作特征(例如面部特定区域的人脸肌肉运动特征)。

应当理解地，面部表情信息可以是开心情感信息，也可以是悲伤情感信息或者平静情感信息，由于人脸面部表情变化的多样性，在此不做具体限定。在一实施例中，计算机设备的数据库中预先存储有人脸特征点与面部表情信息的对应关系，查询该数据库即可得到面部表情信息。

一实施例中，采用面部行为编码系统检测人像的面部表情信息。具体而言，面部行为编码系统(Facial Action Coding System，FACS)是根据人脸的解剖学特点，将人脸划分成若干既相互独立又相互联系的运动单元(Action Unit，AU)，并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情信息。FACS将许多现实生活中人类的表情进行了分类，并定义了7个主要的情绪表情，满足在不同的文化环境下所表达意义不变的特性，该7个情绪表情分别是快乐(Happiness)、悲伤(Sadness)、愤怒(Anger)、恐惧(Fear)、惊讶(Surprise)、厌恶(Disgust)、轻蔑(Contempt)。FACS是一种基于解剖学的系统，可以用于描述上述每种情绪对应的面部运动。例如，FACS包括多个运动单元(Action Unit，AU)，每个AU描述一组面部肌肉，多个AU一起共同组成一个特定的面部运动，通过检测该面部运动可以获取该面部运动对应的面部表情信息。

操作108：根据面部表情信息和背景类别调节预览图像中背景图像的特征参数。

本实施例中，调节预览图像中背景图像的特征参数的方式可以包括很多种，例如，可以调节背景图像的字幕，也可以调节背景图像的色调，还可以调节背景图像的亮度或者调节背景图像的动画等。根据不同的面部表情可以对背景图像进行相应的调节，使得背景图像与人物图像中的面部表情协调。

上述图像处理方法，通过获取待处理的预览图像；识别所述预览图像的场景，所述场景包括背景类别和前景目标；当所述前景目标为人像时，检测所述人像的面部表情信息；根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数，使得处理后的图像中人物图像和背景图像协调，从而使图像更具有观赏性。

在一实施例中，场景包括背景类别和前景目标，如图4所示，识别预览图像的场景的方法，包括操作402至操作410。：

操作402：采用神经网络的基础网络对预览图像进行特征提取，得到特征数据。

操作404：将特征数据输入到神经网络的分类网络对预览图像的背景进行分类检测，输出第一置信度图。其中，第一置信度图中的每个像素点表示预览图像中每个像素点属于背景检测目标的置信度。

操作406：将特征数据输入到神经网络的目标检测网络对预览图像的前景目标进行检测，输出第二置信度图。其中，第二置信度图中的每个像素点表示预览图像中每个像素点属于前景检测目标的置信度。

操作408：根据第一置信度图和第二置信度图进行加权得到预览图像的最终置信度图。

操作410：根据最终置信度图确定预览图像的背景类别和前景目标类别。

本实施例中，如图5所示，神经网络包括基础网络510、分类网络520和目标检测网络530。其中，利用基础网络510提取预览图像的特征数据；再将特征数据分别输入至分类网络520和目标检测网络530，通过分类网络520对预览图像的背景进行分类检测，得到待第一置信度图，以及通过目标检测网络530对预览图像的前景进行目标检测，得第二置信度图；根据第一置信度图和第二置信度图进行加权得到预览图像的最终置信度图；根据最终置信度图确定预览图像的背景类别和前景目标类别。

需要说明的是，在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信度是被测量参数的测量值的可信程度。

在一实施例中，如图6所示，识别预览图像的场景的方法，还包括操作602至操作606。

操作602：采用神经网络的目标检测网络对预览图像的前景目标位置进行检测，输出边界框检测图。其中，边界框检测图包含预览图像中各像素点的对应向量，所述对应向量表示对应的像素点与对应检测边界框的位置关系，所述检测边界框为采用神经网络在预览图像中检测到的前景目标的边界框。

操作604：根据第一置信度图、第二置信度图和边界框检测图进行加权得到预览图像的最终置信度图。

操作606：根据最终置信度图确定预览图像的背景类别、前景目标类别和前景目标位置。

具体而言，参见图7，该边界框检测图710包含该边界框中每个像素点的对应向量，该对应向量表示其对应的像素点与对应的边界框位置关系。其中，边界框检测图710中的对应像素点的向量确定第一四维向量和第二四维向量。该第一四维向量为x＝(x ₁,x ₂,x ₃,x ₄),该第一四维向量中的元素为该像素点至前景目标的边界框图710的上、下、左、右边界的距离；该第二四维向量为x’＝(x ₁’,x ₂’,x ₃’,x ₄’)，该第二四维向量中的元素分别为该像素点至与该像素点对应的预览图像的边界框检测图700的上、下、左、右边界的距离。可以理解地，通过检测边界框检测图710中所有像素点对应的第二四维向量，即可确定前景目标位置。在一实施例中，神经网络的目标检测网络对预览图像的前景目标进行检测，输出第二置信度图和边界框检测图710，根据第一置信度图、第二置信度图和边界框检测图710进行加权可得到预览图像的最终置信度图；根据最终置信度图可确定预览图像的背景类别、前景目标类别和前景目标位置。进一步地，前景目标的边界框检测图710的面积为X＝(x ₁+x ₂)*(x ₃+x ₄)。需要说明的是，本实施例中的边界框检测图710为矩形框图，在其它实施例中，边界框检测图以为任意形状的框图，在此不做具体限定。

在一实施例中，待处理的预览图像为连续多帧的预览图像，如图8所示，当前景目标为人像时，检测该人像的面部表情信息的方法，包括操作802至操作806。

操作802：获取连续多帧预览图像中人像的面部运动数据。

操作804：基于面部行为编码系统将面部运动数据与预设特征数据进行匹配。

操作806：当面部运动数据与预设特征数据一致时，获取特征数据对应的预设面部表情，并将该预设面部表情作为人像的面部表情信息。

本实施例中，基于图5所示的神经网络可以检测前景目标的类别，当前景目标为人像时，利用神经网络的目标检测网络530检测该人像的面部运动情况，并获取面部运动数据。应当理解地，该面部运动数据可分解为2个状态数据和1个过程数据：开始状态、结束状态和偏移过程，该2个状态数据和1个过程数据分别对应不同帧的预览图像：开始帧、结束帧和偏移帧(偏移帧指的是开始帧与结束帧之间的所有帧)。具体而言，神经网络对开始帧、偏移帧和结束帧的预览图像按照帧时序进行检测，获取开始帧、偏移帧和结束帧所组成的预览图像中的面部运动数据。

进一步地，将不同帧(开始帧、偏移帧和结束帧)所组成的面部运动数据与FACS定义的预设特征数据进行匹配。其中，FACS定义了多个运动单元的预设特征数据，并且通过不同运动单元之间的组合可以描述不同的面部表情信息。例如，运动单元AU1指：拉动中部的眉毛向上；对应的面部表情描述为：悲伤。运动单元AU4指：将眉毛压低并使眉毛聚拢；对应的面部表情描述为：碰到生理上或心理上阻隔。将AU1和AU4组合在一起，以1秒至2秒的速度快速出现，这个时候，这个组合对应的面部表情描述为：失望。在其他实施例中，根据面部器官的不同区域及不同的运动方式还可以定义其他运动单元，在此不做具体限定。

应当理解地，每个运动单元包括了多个帧的预设特征数据，该预设特征数据对应于特定区域的面部运动数据。需要说明的是，特定区域除了眉毛区域，还包括面部其他器官的区域，在此不做具体限定。当面部运动数据(包括不同帧的面部运动数据)与运动单元的预设特征数据(包括不同帧的面部运动数据)一致时，获取预设特征数据对应的预设面部表情(例如AU1+AU4对应的失望)，并将该预设面部表情作为人像的面部表情信息。

在一实施例中，如图9所示，检测人像的面部表情信息，还包括操作902至操作906。

操作902：确定预览图像中的人脸区域。

操作904：获取与人脸区域对应的深度信息。

操作906：根据人脸区域和对应的深度信息确定面部表情。

本实施例中，预览图像为深度图像(Depth map)，深度图像为一种普遍的三维场景信息表达方式。深度图像中的每个像素点的灰度值可用于表征场景中某一点距离摄像机的远近。此外，深度图像可由摄像机中设置的被动测距传感或主动深度传感获取，在此不做具体限定。例如，通过摄像机对目标场景发射连续的近红外脉冲，然后用传感器接收由前景目标反射回的光脉冲，通过比较发射光脉冲与经过前景目标反射的光脉冲的相位差，可以推算得到光脉冲之间的传输延迟进而得到前景目标相对于发射器的距离，最终得到一幅深度图像。当前景目标为人像时，基于神经网络中的目标检测网络530检测人脸区域。具体而言，参见图7，人脸区域可通过目标检测网络530输出的以人脸为检测目标的边界框检测图获取。

一实施例中，深度信息的获取与深度图像的获取方式有关。例如，当摄像机基于结构光(结构光是具有特定模式的光，其具有例如点、线、面等模式图案)获取深度图像时，通过结构光的模式图案可以得到的深度图像中人脸区域的位置以及形变程度，并利用三角原理计算即可得到人脸区域中各点的深度信息。其中，这里的深度信息指人脸区域中各点的三维信息。

一实施例中，在根据人脸区域和对应的深度信息确定面部表情的过程中，首先定位一些特征点，例如在五官以及五官之间例如脸颊等部分定位多个特征点，这些特征点基本能够表征五官以及面部的变化。再通过图像卷积抽取特征点的Gabor小波系数，以Gabor特征的匹配距离作为相似度的度量标准。提取特征之后，表情识别可通过多层神经网络实现。此外，表情识别的还可通过基于卷积神经网络的算法实现。

在一实施例中，根据面部表情信息和背景类别调节背景图像的特征参数，包括：根据面部表情信息和背景类别调节背景图像的以下至少之一的特征参数，例如，色调、亮度、色彩、对比度、曝光度、光效等。可以理解地，具体背景类别包括室内，风景，强光，夜晚等场景，当计算机设备检测出前景目标为人像，且识别出人像的面部表情，以及检测出前景目标所在场景(即背景类别)时，根据人像的面部表情和场景种类(背景类别)，可对背景图像的色调、亮度、色彩、对比度、光效等参数进行处理，使得背景图像与人像的面部表情协调。例如，识别的面部表情为悲伤，背景图像为风景时，可将风景色调调节为冷色调(比如暗灰色)并且降低对比度，以烘托悲伤的氛围。

一实施例中，如图10所示，根据面部表情信息和背景类别调节背景图像的特征参数，包括操作1002至操作1006。

操作1002：根据背景类别确定特征参数中的待调节特征参数。

操作1004：根据面部表情信息确定待调节特征参数的调节模式。

操作1006：根据调节模式调节待调节特征参数。

本实施例中，不同的背景类别具有其优选的待调节特征参数。例如，当背景类别为风景时，优选的待调节特征参数设置为色调；当背景类别为强光或夜晚时，优选的待调节特征参数设置为光效；当背景类别为室内时，优选的待调节特征参数设置为色彩。可以理解地，根据背景类别的特点可以为不同的背景设置至少一个优选的待调节特征参数。一实施例中，还可以根据用户的需求设置不同背景类别的优选的待调节特征参数，在此不做具体限定。

当背景类别和其优选的待调节特征参数确定后，根据面部表情信息确定调节模式，并根据调节模式调节待调节特征参数。例如，背景类别为强光，优选的待调节特征参数为光效，此时若检测到面部表情信息为悲伤，则确定调节模式为：添加冷色调(比如蓝色调)的光线效果。根据该调节模式改变待调节特征参数(光效)，以烘托悲伤的氛围。在其他实施例中，还可以根据用户实际需求设置调节模式，在此不做具体限定。

图11为一个实施例中图像处理装置的结构框图。如图11所示，一种图像处理装置，包括获取模块1110、识别模块1120、确定模块1130和构图模块1140。其中：

获取模块1110：用于获取待处理的预览图像。

识别模块1120：用于识别所述预览图像的场景；所述场景包括背景类别和前景目标。

检测模块1130：用于当所述前景目标为人像时，检测所述人像的面部表情信息。

调节模块1140：用于根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。

本申请实施例中，通过获取模块1110获取待处理的预览图像；识别模块1120识别所述预览图像的场景；所述场景包括背景图像和前景目标；检测模块1130当所述前景目标为人像时，检测所述人像的面部表情信息；调节模块1140根据所述面部表情信息调节所述背景图像，使得处理后的图像中人物图像和背景图像协调，从而提高图像的观赏性。

在一个实施例中，识别模块1120，还包括：

特征提取单元，用于采用神经网络的基础网络对所述预览图像进行特征提取，得到特征数据。

分类单元：用于采用神经网络的分类网络对所述预览图像的背景进行分类检测，输出第一置信度图；所述第一置信度图中的每个像素点表示所述预览图像中每个像素点属于背景检测目标的置信度。

目标检测单元，用于采用神经网络的目标检测网络对所述预览图像的前景目标进行检测，输出第二置信度图；所述第二置信度图中的每个像素点表示所述预览图像中每个像素点属于前景检测目标的置信度。

计算单元：用于根据所述第一置信度图和所述第二置信度图进行加权得到所述预览图像的最终置信度图。

第一确定单元，根据所述最终置信度图确定所述预览图像的背景类别和前景目标类别。

在一个实施例中，目标检测单元，还包括：

目标位置检测子单元：用于采用神经网络的目标检测网络对所述预览图像的前景目标位置进行检测，输出边界框检测图，所述边界框检测图包含所述预览图像中各像素点的对应向量，所述对应向量表示对应的像素点与对应检测边界框的位置关系，所述检测边界框为采用神经网络在所述待检测图像中检测到的前景目标的边界框。

在一个实施例中，计算单元还用于根据所述第一置信度图、第二置信度图和边界框检测图进行加权得到所述预览图像的最终置信度图。

在一个实施例中，第一确定单元还用于根据所述最终置信度图确定所述预览图像的背景类别、前景目标类别和前景目标位置。

在一个实施例中，检测模块1130采用面部行为编码系统检测所述人像的面部表情信息。

在一个实施例中，检测模块1130，还包括：

第一获取单元，用于所述连续多帧预览图像中人像的面部运动数据。

匹配单元，用于基于面部行为编码系统将所述面部运动数据与预设特征数据进行匹配。

第二获取单元，用于当所述面部运动数据与所述预设特征数据一致时，获取所述特征数据对应的预设面部表情，并将所述预设面部表情作为所述人像的面部表情信息。

在一个实施例中，检测模块1130，还包括：

第二确定单元，用于确定所述预览图像中的人脸区域。

第二获取单元，用于获取与人脸区域对应的深度信息。

第三确定单元，用于根据人脸区域和对应的深度信息确定所述面部表情信息。

在一实施例中，调节模块1140根据所述面部表情信息调节所述背景图像的以下至少之一的信息：所述背景图像的色调、所述背景图像的亮度或者所述背景图像的对比度。

在一实施例中，调节模块1140，还包括：

第四确定单元，用于根据所述背景类别确定所述特征参数中的待调节特征参数。

第五确定单元，用于根据所述面部表情信息确定所述待调节特征参数的调节模式。

调节单元，根据所述调节模式调节所述待调节特征参数。

应该理解的是，虽然图1、图4、图6、图8、图9、图10的流程图中的各个操作按照箭头的指示依次显示，但是这些操作并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些操作的执行并没有严格的顺序限制，这些操作可以以其它的顺序执行。而且，图1、图4、图6、图8、图9、图10中的至少一部分操作可以包括多个子操作或者多个阶段，这些子操作或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子操作或者阶段的执行顺序也不必然是依次进行，而是可以与其它操作或者其它操作的子操作或者阶段的至少一部分轮流或者交替地执行。

上述图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像处理装置按照需要划分为不同的模块，以完成上述图像处理装置的全部或部分功能。

本申请实施例还提供一种移动终端。该移动终端包括存储器及处理器，该存储器中储存有计算机程序，该计算机程序被该处理器执行时，使得该处理器执行该图像处理方法的操作。

本申请实施例还提供一种计算机可读存储介质。一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现该图像处理方法的操作。

图12A为一个实施例中移动终端的内部结构示意图。如图12A所示，该移动终端包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个移动终端的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于移动终端的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种神经网络模型处理方法或图像处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的移动终端进行通信。该移动终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

图12B为一个实施例中服务器(或云端等)的内部结构示意图。如图12B所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个移动终端的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于移动终端的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种图像处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的移动终端进行通信。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图12B中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例中提供的图像处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在移动终端或服务器上运行。该计算机程序构成的程序模块可存储在移动终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的操作。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行图像处理方法。

本申请实施例还提供一种移动终端。上述移动终端中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图13为一个实施例中图像处理电路的示意图。如图13所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图13所示，图像处理电路包括ISP处理器1340和控制逻辑器1350。成像设备1310捕捉的图像数据首先由ISP处理器1340处理，ISP处理器1340对图像数据进行分析以捕捉可用于确定和/或成像设备1310的一个或多个控制参数的图像统计信息。成像设备1310可包括具有一个或多个透镜1312和图像传感器1314的照相机。图像传感器1314可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器1314可获取用图像传感器1314的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器1340处理的一组原始图像数据。传感器1320(如陀螺仪)可基于传感器1320接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器1340。传感器1320接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器1314也可将原始图像数据发送给传感器1320，传感器1320可基于传感器1320接口类型把原始图像数据提供给ISP处理器1340，或者传感器1320将原始图像数据存储到图像存储器1330中。

ISP处理器1340按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，ISP处理器1340可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器1340还可从图像存储器1330接收图像数据。例如，传感器1320接口将原始图像数据发送给图像存储器1330，图像存储器1330中的原始图像数据再提供给ISP处理器1340以供处理。图像存储器1330可为存储器装置的一部分、存储设备、或移动终端内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器1314接口或来自传感器1320接口或来自图像存储器1330的原始图像数据时，ISP处理器1340可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器1330，以便在被显示之前进行另外的处理。ISP处理器1340从图像存储器1330接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器1340处理后的图像数据可输出给显示器1370，以供用户观看和 /或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器1340的输出还可发送给图像存储器1330，且显示器1370可从图像存储器1330读取图像数据。在一个实施例中，图像存储器1330可被配置为实现一个或多个帧缓冲器。此外，ISP处理器1340的输出可发送给编码器/解码器1360，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器1370设备上之前解压缩。编码器/解码器1360可由CPU或GPU或协处理器实现。

ISP处理器1340确定的统计数据可发送给控制逻辑器1350单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜1312阴影校正等图像传感器1314统计信息。控制逻辑器1350可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备1310的控制参数及ISP处理器1340的控制参数。例如，成像设备1310的控制参数可包括传感器1320控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜1312控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调节(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜1312阴影校正参数。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchl ink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，其特征在于，包括：

获取待处理的预览图像；

识别所述预览图像的场景；所述场景包括背景类别和前景目标；

当所述前景目标为人像时，检测所述人像的面部表情信息；及

根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。
根据权利要求1所述的方法，其特征在于，所述待处理的预览图像为连续多帧预览图像，所述检测所述人像的面部表情信息，包括：

获取所述连续多帧预览图像中人像的面部运动数据；

基于面部行为编码系统将所述面部运动数据与预设特征数据进行匹配；

当所述面部运动数据与所述预设特征数据一致时，获取所述特征数据对应的预设面部表情，并将所述预设面部表情作为所述人像的面部表情信息。
根据权利要求1所述的方法，其特征在于，所述检测所述人像的面部表情信息，还包括：

确定所述预览图像中的人脸区域；

获取与人脸区域对应的深度信息；

根据人脸区域和对应的深度信息确定所述面部表情信息。
根据权利要求1所述的方法，其特征在于，所述根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数，包括：

根据所述面部表情信息和背景类别调节所述预览图像中背景图像的以下至少之一的特征参数：色调、亮度、色彩、对比度、曝光度、光效。
根据权利要求1所述的方法，其特征在于，所述根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数，还包括：

根据所述背景类别确定所述特征参数中的待调节特征参数；

根据所述面部表情信息确定所述待调节特征参数的调节模式；

根据所述调节模式调节所述待调节特征参数。
根据权利要求1所述的方法，其特征在于，所述识别所述预览图像的场景的方法，包括：

采用神经网络的基础网络对预览图像进行特征提取，得到特征数据；

将所述特征数据输入到所述神经网络的分类网络对预览图像的背景进行分类检测，输出第一置信度图；所述第一置信度图中的每个像素点表示预览图像中每个像素点属于背景检测目标的置信度；

将所述特征数据输入到所述神经网络的目标检测网络对预览图像的前景目标进行检测，输出第二置信度图；所述第二置信度图中的每个像素点表示预览图像中每个像素点属于前景检测目标的置信度；

根据所述第一置信度图和所述第二置信度图进行加权得到预览图像的最终置信度图；

根据所述最终置信度图确定预览图像的背景类别和前景目标类别。
根据权利要求6所述的方法，其特征在于，所述识别所述预览图像的场景的方法，还包括：

采用神经网络的目标检测网络对预览图像的前景目标位置进行检测，输出边界框检测图，所述边界框检测图包含预览图像中各像素点的对应向量，所述对应向量表示对应的像素点与对应检测边界框的位置关系，所述检测边界框为采用神经网络在所述待检测图像中检测到的前景目标的边界框；

根据所述第一置信度图、第二置信度图和边界框检测图进行加权得到预览图像的最终置信度图；

根据所述最终置信度图确定预览图像的背景类别、前景目标类别和前景目标位置。
根据权利要求6所述的方法，其特征在于，所述神经网络通过以下操作进行训练：

将包含有至少一个背景训练目标和前景训练目标的训练图像输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取；

通过目标检测算法对所述背景训练目标进行检测得到第一预测置信度，对所述前景训练目标进行检测得到第二预测置信度；

所述训练图像中预先标注背景训练目标和前景训练目标，得到第一真实置信度和第二真实置信度；

求取第一预测置信度与第一真实置信度之间的差异得到第一损失函数，求其第二预测置信度与第二真实置信度之间的差异得到第二损失函数；

将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数，并根据所述目标损失函数调节所述神经网络的参数，对所述神经网络进行训练。
一种图像处理装置，包括：

获取模块，用于获取待处理的预览图像；

识别模块，用于识别所述预览图像的场景；所述场景包括背景类别和前景目标；

检测模块，用于当所述前景目标为人像时，检测所述人像的面部表情信息；及

调节模块，用于根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。
一种移动终端，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作：。

获取待处理的预览图像；

识别所述预览图像的场景；所述场景包括背景类别和前景目标；

当所述前景目标为人像时，检测所述人像的面部表情信息；及

根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数。
根据权利要求10所述的移动终端，其特征在于，所述待处理的预览图像为连续多帧预览图像，所述检测所述人像的面部表情信息，包括：

获取所述连续多帧预览图像中人像的面部运动数据；

基于面部行为编码系统将所述面部运动数据与预设特征数据进行匹配；

当所述面部运动数据与所述预设特征数据一致时，获取所述特征数据对应的预设面部表情，并将所述预设面部表情作为所述人像的面部表情信息。
根据权利要求10所述的移动终端，其特征在于，所述检测所述人像的面部表情信息，还包括：

确定所述预览图像中的人脸区域；

获取与人脸区域对应的深度信息；

根据人脸区域和对应的深度信息确定所述面部表情信息。
根据权利要求10所述的移动终端，其特征在于，所述根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数，包括：

根据所述面部表情信息和背景类别调节所述预览图像中背景图像的以下至少之一的特征参数：色调、亮度、色彩、对比度、曝光度、光效。
根据权利要求10所述的移动终端，其特征在于，所述根据所述面部表情信息和所述背景类别调节所述预览图像中背景图像的特征参数，还包括：

根据所述背景类别确定所述特征参数中的待调节特征参数；

根据所述面部表情信息确定所述待调节特征参数的调节模式；

根据所述调节模式调节所述待调节特征参数。
根据权利要求10所述的移动终端，其特征在于，所述识别所述预览图像的场景的方法，包括：

采用神经网络的基础网络对预览图像进行特征提取，得到特征数据；

将所述特征数据输入到所述神经网络的分类网络对预览图像的背景进行分类检测，输出第一置信度图；所述第一置信度图中的每个像素点表示预览图像中每个像素点属于背景检测目标的置信度；

将所述特征数据输入到所述神经网络的目标检测网络对预览图像的前景目标进行检测，输出第二置信度图；所述第二置信度图中的每个像素点表示预览图像中每个像素点属于前景检测目标的置信度；

根据所述第一置信度图和所述第二置信度图进行加权得到预览图像的最终置信度图；

根据所述最终置信度图确定预览图像的背景类别和前景目标类别。
根据权利要求15所述的移动终端，其特征在于，所述识别所述预览图像的场景的方法，还包括：

采用神经网络的目标检测网络对预览图像的前景目标位置进行检测，输出边界框检测图，所述边界框检测图包含预览图像中各像素点的对应向量，所述对应向量表示对应的像素点与对应检测边界框的位置关系，所述检测边界框为采用神经网络在所述待检测图像中检测到的前景目标的边界框；

根据所述第一置信度图、第二置信度图和边界框检测图进行加权得到预览图像的最终置信度图；

根据所述最终置信度图确定预览图像的背景类别、前景目标类别和前景目标位置。
根据权利要求15所述的移动终端，其特征在于，所述处理器还用于通过以下操作训练神经网络：

将包含有至少一个背景训练目标和前景训练目标的训练图像输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取；

通过目标检测算法对所述背景训练目标进行检测得到第一预测置信度，对所述前景训练目标进行检测得到第二预测置信度；

所述训练图像中预先标注背景训练目标和前景训练目标，得到第一真实置信度和第二真实置信度；

求取第一预测置信度与第一真实置信度之间的差异得到第一损失函数，求其第二预测置信度与第二真实置信度之间的差异得到第二损失函数；

将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数，并根据所述目标损失函数调节所述神经网络的参数，对所述神经网络进行训练。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的图像处理方法的操作。