WO2020019873A1

WO2020019873A1 - 图像处理方法、装置、终端及计算机可读存储介质

Info

Publication number: WO2020019873A1
Application number: PCT/CN2019/089825
Authority: WO
Inventors: 熊唯; 黄飞
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-07-23
Filing date: 2019-06-03
Publication date: 2020-01-30
Also published as: US11631275B2; US20230222770A1; CN110147805B; KR102635373B1; EP3828769A1; JP7058760B2; US20200394388A1; KR20200128565A; EP3828769B1; JP2021524957A; CN110147805A; EP3828769A4

Abstract

本发明实施例公开了一种图像处理方法、装置、终端及计算机可读存储介质，属于计算机技术领域。该方法包括：获取已训练的像素分类模型，像素分类模型用于确定任一图像中每个像素的分类标识，分类标识包括头部分类标识，头部分类标识用于表示对应的像素位于头部区域；基于像素分类模型对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识；根据分类标识为头部分类标识的像素，确定目标图像的头部区域，对头部区域进行编辑处理。

Description

图像处理方法、装置、终端及计算机可读存储介质

本申请要求于2018年07月23日提交中国专利局，申请号为2018108126754，发明名称为“图像处理方法、装置、终端及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种图像处理方法、装置、终端及计算机可读存储介质。

背景技术

随着互联网的日益普及和多媒体技术的快速发展，照片和短视频等多媒体数据在互联网中得到了广泛传播，丰富多样的图像处理方式也开始兴起。其中，将图像中的头部区域识别出来，对头部区域进行编辑处理的方式新颖独特，趣味性强，受到了广大用户的欢迎。

针对照片或短视频中的图像，如果用户要对图像中的头部进行编辑处理，可以在头部所在的位置通过滑动操作或者拖拽操作确定矩形框，使头部位于矩形框内部。终端会将用户确定的矩形框作为头部区域，对头部区域进行编辑处理。

上述由用户手动确定矩形框的方式会导致头部区域内不仅包含头部，还包含头部的周围区域，因此确定的头部区域不够准确，导致编辑处理的效果不佳。

发明内容

根据本申请的各种实施例，提供了一种图像处理方法、装置、终端及计算机可读存储介质。

一种图像处理方法，由终端执行，所述方法包括：

获取已训练的像素分类模型，所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识至少包括头部分类标识，所述头部分类标识用于表示对应的像素位于头部区域；

基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

根据所述分类标识中的头部分类标识确定所述目标图像的头部区域，对所述头部区域进行编辑处理。

一种图像处理装置，所述装置包括：

第一获取模块，用于获取已训练的像素分类模型、所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识至少包括头部分类标识，所述头部分类标识用于表示对应的像素位于头部区域；

分类模块，用于基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

第一处理模块，用于根据所述分类标识中的头部分类标识确定所述目标图像的头部区域，对所述头部区域进行编辑处理。

一种用于图像处理的终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行所述图像处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行所述图像处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种图像处理方法的应用环境图；

图1b是本发明实施例提供的一种图像处理方法的流程图；

图2是本发明实施例提供的一种表情识别模型的训练流程图；

图3是本发明实施例提供的一种像素分类模型的训练流程图；

图4是本发明实施例提供的一种像素分类模型的结构示意图；

图5是本发明实施例提供的一种头部区域的处理效果示意图；

图6是本发明实施例提供的一种图像处理方法的流程图；

图7是本发明实施例提供的一种图像处理装置的结构示意图；

图8是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

相关技术中，当要对目标图像中的头部区域进行编辑处理时，通常先由用户手动确定头部区域，导致确定的头部区域内不仅包括头部，还包括头部的周围区域，无法做到对头部边缘的精细抠取。而本发明实施例提供了一种图像处理方法，能够基于像素分类模型对目标图像中的像素进行分类，以确定目标图像中的头部区域，实现了像素级别的头部识别，能够做到对头部边缘的精细抠取，并对精细抠取的头部区域进行编辑处理，提高了准确性。

本发明实施例可以应用于对图像的头部区域进行编辑处理的任一场景下。例如，当终端拍摄一张照片时，可以采用本发明实施例提供的方法对照片中的头部区域进行编辑处理。或者，当终端拍摄了一段视频或者正在拍摄视频的过程中，可以采用本发明实施例提供的方法对视频中每一帧图像的头部区域进行编辑处理。

或者，终端安装专门用于对图像进行编辑处理的第三方应用，可以在第三方应用中调用图库中的照片或视频，并采用本发明实施例提供的方法，对照片或视频中的头部区域进行编辑处理，将编辑处理完成后的照片或视频存储于图库中。其中，上述的图库可以是本地图库，也可以是服务器侧的图库。

图1a为一个实施例中图像处理方法的应用环境图。参照图1a，该图像处理方法应用于图像处理系统。该图像处理系统包括终端110和服务器120。终端110与服务器120通过网络连接。终端110通过摄像头采集目标图像(或视频)，或从服务器120的图库或本地图库获取目标图像(或视频)；然后，获取已训练的像素分类模型，该像素分类模型用于确定任一图像中每个像素的分类标识，分类标识至少包括头部分类标识，头部分类标识用于表示对应的像素位于头部区域；基于像素分类模型对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识；根据分类标识中的头部分类标识确定目标图像的头部区域，对头部区域进行编辑处理。

其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图1b是本发明实施例提供的一种图像处理方法的流程图。本发明实施例的执行主体为终端，参见图1b，该方法包括：

101、终端确定待处理的目标图像，对目标图像进行人脸检测，得到目标图像的人脸区域。

102、终端获取已训练的表情识别模型，基于表情识别模型对人脸区域进行识别，得到人脸区域的表情类别。

本发明实施例应用于对目标图像的头部区域进行编辑处理的场景下，终端可以确定待处理的目标图像，识别出目标图像的头部区域后进行编辑处理。

并且，终端可以根据目标图像中的人脸区域的表情进行编辑处理，由于终端确定的目标图像中包括人脸区域，还可能会包括非人脸区域，则对目标图像进行人脸检测，得到人脸区域，并获取表情识别模型，将人脸区域输入到表情识别模型中，对人脸区域进行识别，得到表情类别。

其中，进行人脸检测时可以采用预设的人脸检测算法，或者也可以调用终端提供的人脸检测接口对目标图像进行人脸检测。表情识别模型用于将人脸区域划分为至少两个表情类别，如惊讶表情、高兴表情等，该至少两个表情类别可以在训练表情识别模型时确定。

训练装置在训练该表情识别模型的过程中，可以获取多个样本人脸图像以及每个样本人脸图像的表情类别，根据多个样本人脸图像以及每个样本人脸图像的表情类别进行多次迭代训练，得到表情识别模型，直至训练出的表情识别模型的识别准确率达到第二预设阈值时为止。

在一种可能实现方式中，训练装置可以构建初始的表情识别模型，获取训练数据集和测试数据集，训练数据集和测试数据集中均包括多个样本人脸图像以及对应的表情类别。例如，该训练装置可以采用爬虫程序对网络中的人脸图像进行抓取，获取到多个样本人脸图像，并对每个样本人脸图像中的表情类别进行标记。

在训练阶段，将训练数据集中的多个样本人脸图像作为表情识别模型的输入，将对应的表情类别作为表情识别模型的输出，对表情识别模型进行迭代训练，使表情识别模型对人脸图像中的表情特征进行学习，具备表情识别的能力。之后，将测试数据集中的每个样本人脸图像作为表情识别模型的输入，基于表情识别模型分别获取每个样本人脸图像对应的测试表情类别，将测试表情类别与标注的实际表情类别进行对比，从而确定表情识别模型的识别准确率。当表情识别模型的识别准确率小于第二预设阈值时，继续根据训练数据集进行训练，直至训练出的表情识别模型的识别准确率达到第二预设阈值时，训练完成。

其中，该第二预设阈值可以根据表情识别的精确度需求以及计算量需求确定，可以为95％或者99％等数值。该训练装置可以为终端本身，或者该训练装置也可以为除终端以外的其他设备，如服务器等，该训练装置进行离线训练后将表情识别模型发送给终端，供终端使用。该训练装置可以采用线性分类器、支持向量机、深层神经网络和决策树等训练算法中的至少一个来训练表情识别模型，相应地，训练出的表情识别模型可以包括线性分类器模型、支持向量机模型、深层神经网络模型和决策树模型等模型中的至少一种。

示例性地，表情识别模型的训练流程图可以如图2所示。以表情识别模型为Mobilenet(一种轻量级深层神经网络模型)为例，该网络模型运算速度快，网络模型体积小，识别率较准确，能够快速响应用户的大量需求，较少后台负担。

假设输入的目标图像尺寸为224*224，该网络模型的每个网络层的参数可以如下表1所示。

表1

网络层/步幅	卷积核/通道数	特征图大小
Conv/s2	3*3/32	11211232
DepthSepConv/s1	3*3/64	11211264
DepthSepConv/s2	3*3/128	5656128
DepthSepConv/s1	3*3/128	5656128
DepthSepConv/s2	3*3/256	2828128

网络层/步幅	卷积核/通道数	特征图大小
DepthSepConv/s1	3*3/256	2828256
DepthSepConv/s2	3*3/512	1414512
DepthSepConv/s1*5	3*3/512	1414512
DepthSepConv/s2	3*3/1024	771024
DepthSepConv/s1	3*3/1024	771024
pooling	7*7	111024
Conv/s1	33N	11N

其中，Conv为卷积层，DepthSepConv网络层为深度可分离卷积层，在该层中会先进行3*3的深度卷积操作，再进行1*1的点云卷积操作，pooling为池化层。

每个网络层中卷积操作的步幅参数为s1或s2，其中s1的值为1，s2的值为2。每个网络层的特征图大小为该网络层输出的数据大小，最后一层输出的特征图大小为1*1*N，N即为表情类别的个数。

通过上述网络模型可以看出，将224*224的目标图像输入至表情识别模型后，最终输出了N维数据，将N维数据通过softmax(柔性最大值传输函数)计算可以得到N维数据中概率最高的数据。该N维数据可以代表目标图像中人脸表情属于N个表情类别的概率，其中概率最高的数据即为目标图像中人脸表情最可能属于的表情类别。

103、当人脸区域的表情类别为目标表情类别时，终端获取已训练的像素分类模型，基于像素分类模型对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识。

终端可以设置一种或多种目标表情类别，仅在目标图像具有符合目标表情类别的人脸区域时，才对目标图像的头部区域进行编辑处理。因此，当终端基于表情识别模型确定目标图像中人脸区域的表情类别时，判断该表情类别是否为目标表情类别。当该表情类别不是目标表情类别时，不再进行编辑处理。

而当该表情类别是目标表情类别时，为了识别出模板图像中的头部区域，终端先获取像素分类模型，将目标图像输入到像素分类模型中，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识。

其中，像素分类模型用于确定任一图像中像素的分类标识，分类标识包括头部分类标识和非头部分类标识，头部分类标识用于表示对应的像素位于头部区域，非头部分类标识用于表示对应的像素位于非头部区域，从而能够将每个像素划分至头部区域或者非头部区域。头部分类标识和非头部分类标识是在训练像素分类模型时确定的不同分类标识，如头部分类标识为1，非头部分类标识为0。

训练装置在训练该像素分类模型的过程中，可以获取多个样本图像以及每个样本图像中每个像素的分类标识，根据多个样本图像以及每个样本图像中每个像素的分类标识进行多次迭代训练，得到像素分类模型，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。

在一种可能实现方式中，该训练装置可以构建初始的像素分类模型，获取训练数据集和测试数据集，训练数据集和测试数据集中均包括多个样本图像以及每个样本图像中每个像素的分类标识。例如，该训练装置可以采用爬虫程序对网络中的样本图像进行抓取，获取到多个样本图像，并根据每个样本图像中的头部区域，对每个样本图像中每个像素的分类标识进行标记。

在训练阶段，将训练数据集中的多个样本图像作为像素分类模型的输入，将样本图像中每个像素的分类标识作为像素分类模型的输出，对像素分类模型进行迭代训练，使像素分类模型对样本图像中的头部区域特征进行学习，具备划分头部区域像素的能力。之后，将测试数据集中的每个样本图像作为像素分类模型的输入，基于像素分类模型分别获取每个样本图像中每个像素的测试分类标识，将测试分类标识与标注的实际分类标识进行对比，从而确定像素分类模型的分类准确率。当像素分类模型的分类准确率小于第一预设阈值时，继续根据训练数据集进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时，训练完成。

其中，该第一预设阈值可以根据样本图像中像素分类的精确度需求以及计算量需求确定，可以为95％或者99％等数值。该训练装置可以为终端本身，或者该训练装置也可以为除终端以外的其他设备，如服务器等，该训练装置进行离线训练后将像素分类模型发送给终端，供终端使用。该训练装置可以采用线性分类器、支持向量机、深度神经网络、决策树等训练算法中的至少一个来训练像素分类模型，相应地，训练出的像素分类模型可以包括线性分类器模型、支持向量机模型、深层神经网络模型和决策树模型等模型中的至少一个。

示例性地，像素分类模型的训练流程图可以如图3所示。以像素分类模型为由语义分割网络和Mobilenet基础网络模型构成的网络模型为例，参见图4，将目标图像输入到网络模型中，通过语义分割网络进行粗糙预测，再经过多分辨率卷积和反卷积操作最终获取到目标图像的尺寸，再对目标图像的每个像素进行分类，如果分类得到的分类标识为1，认为该像素是头部区域中的像素，否则认为该像素是非头部区域的像素。

104、终端根据分类标识为头部分类标识的像素，确定目标图像的头部区域。

确定目标图像中每个像素的分类标识后，可以将分类标识为头部分类标识的多个像素构成的区域确定为目标图像的头部区域。

105、终端根据预先设置的表情类别与处理方式之间的对应关系，确定目标表情类别对应的目标处理方式，采用目标处理方式对目标图像中的头部区域进行编辑处理。

本发明实施例中，终端可以预先设置表情类别与处理方式之间的对应关系，表示对于属于特定表情类别的头部区域可以采用对应的处理方式进行编辑处理。因此，终端确定目标表情类别对应的目标处理方式，采用目标处理方式对目标图像中的头部区域进行编辑处理。

其中，该对应关系中所设置的处理方式可以包括以下至少一项：对头部区域进行放大处理或缩小处理、在头部区域内添加素材、显示头部区域抖动的动态效果或者其他处理方式等。其中，可添加的素材可以包括发光特效、贴纸、挂件等。

例如，表情类别与处理方式之间的对应关系可以如表2所示。

表2

表情类别	处理方式
惊讶	对头部区域进行放大处理
高兴	在头部区域添加发光特效
恐惧	对头部区域进行抖动处理
喜欢	在头部区域内添加贴纸
……	……

参见图5，当目标图像中的表情识别为高兴类别时，在目标图像中的头部区域左侧添加与高兴表情相匹配的文字贴纸“满脸写着高兴”和笑脸贴纸。

需要说明的是，在另一实施例中，终端也可以不设置该对应关系，在目标图像具有符合目标表情类别的人脸区域时，只需按照预设处理方式对头部区域进行编辑处理即可。该预设处理方式可以由终端默认设置，也可以由用户预先设置，或者也可以根据用户在目标图像中的编辑操作确定。

例如，终端显示添加贴纸选项和添加发光特效选项，当检测到用户对添加发光特效选项的选择操作时，在头部区域添加发光特效。

需要说明的是，本发明实施例仅是以先对目标图像中的人脸区域进行表情识别，在表情类别为目标表情类别时才对头部区域进行编辑处理。而在另一实施例中，终端也可以不对目标图像中的人脸区域进行表情识别，当获取到目标图像时可以直接执行步骤103-105对头部区域进行编辑处理。

需要说明的是，本发明实施例仅是以目标图像为例进行说明，该目标图像可以为单个图像或者也可以为视频中的图像。该单个图像或该视频可以由终端拍摄得到，或者可以由其他设备发送给终端。

例如，终端获取目标视频，目标视频包括按照先后顺序排列的多个图像，将多个图像中的每个图像分别作为目标图像，对视频中的多个图像的每个像素进行分类，得到分类标识后，可以对视频中的每个图像中的头部区域均采用本发明实施例提供的方法进行编辑处理。

图6是本发明实施例提供的一种图像处理方法的流程图，参见图6，当终端拍摄到视频时，针对视频中的每个图像，先进行人脸检测，基于表情识别模型对检测到的人脸区域进行识别，当识别出的表情类别为目标表情类别时，基于像素分类模型，对目标图像进行像素级别地分类，确定目标图像中的头部区域，对头部区域进行编辑处理。

本发明实施例提供的方法，通过基于像素分类模型，对目标图像中的每个像素进行分类，得到目标图像中每个像素的分类标识；根据分类标识为头部分类标识的像素，确定目标图像的头部区域，能够基于像素分类模型对目标图像中的像素进行分类，以确定目标图像中的头部区域，实现了像素级别的头部识别，能够做到对头部边缘的精细抠取，提高了头部区域的准确性，提升了头部区域的编辑处理效果。

并且，在进行头部识别之前先对目标图像中的人脸区域进行表情识别，当人脸区域的表情类别为目标表情类别时，再对目标图像进行像素级别的头部识别，能够对特定表情的人脸区域进行编辑处理，提高了针对性。

并且，采用与目标表情类别对应的目标处理方式，对头部区域进行编辑处理，保证处理方式与头部区域的表情相匹配，进一步提升了处理效果。

应该理解的是，虽然图1b-3、6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1b-3、6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交底地执行。

图7是本发明实施例提供的一种图像处理装置的结构示意图，参见图7，该装置包括：

第一获取模块701，用于执行上述实施例中获取已训练的像素分类模型的步骤；

分类模块702，用于执行上述实施例中基于像素分类模型，对目标图像中的每个像素进行分类的步骤；

第一处理模块703，用于执行上述实施例中确定目标图像的头部区域，对头部区域进行编辑处理的步骤。

可选地，装置还包括：

第二获取模块，用于执行上述实施例中获取多个样本图像以及多个样本图像中每个像素的分类标识的步骤；

第一训练模块，用于执行上述实施例中根据多个样本图像以及多个样本图像中每个像素的分类标识进行训练的步骤。

可选地，装置还包括：

检测模块，用于执行上述实施例中对目标图像进行人脸检测，得到目标图像的人脸区域的步骤；

第三获取模块，用于执行上述实施例中获取已训练的表情识别模型的步骤；

表情识别模块，用于执行上述实施例中基于表情识别模型对人脸区域进行识别，得到人脸区域的表情类别的步骤；

分类模块702，还用于当人脸区域的表情类别为目标表情类别时，执行上述实施例中基于像素分类模型对目标图像中的每个像素进行分类的步骤。

可选地，第一处理模块703，包括：

目标处理单元，用于执行上述实施例中确定目标表情类别对应的目标处理方式的步骤；

编辑处理单元，用于执行上述实施例中采用目标处理方式对头部区域进行编辑处理的步骤。

可选地，装置还包括：

第四获取模块，用于执行上述实施例中获取多个样本人脸图像以及每个样本人脸图像的表情类别的步骤；

第二训练模块，用于执行上述实施例中根据多个样本人脸图像以及每个样本人脸图像的表情类别进行训练的步骤。

可选地，装置还包括：

视频处理模块，用于执行上述实施例中获取目标视频，将多个图像中的每个图像分别作为目标图像的步骤。

可选地，第一处理模块703，包括：

缩放处理单元，用于执行上述实施例中对头部区域进行放大处理或缩小处理的步骤；

或者素材添加单元，用于执行上述实施例中在头部区域内添加素材的步骤；

或者动态处理单元，用于执行上述实施例中显示头部区域抖动的动态效果的步骤。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例。

上述图像处理装置可以实现为一种计算机程序的形式，计算机程序可在终端上运行。终端上的计算机可读存储介质中可存储组成该图像处理装置的各个程序模块，比如，图7所示的第一获取模块701、分类模块702和第一处理模块 703。各个程序模块构成的计算机程序在被处理器执行时，使得处理器执行本申请各个实施例的图像处理方法中的步骤。

图8示出了本发明一个示例性实施例提供的终端800的结构示意图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏 805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件808可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商标志集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例还提供了一种用于图像处理的终端，该终端包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的图像处理方法中所具有的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的图像处理方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，由终端执行，其特征在于，所述方法包括：

获取已训练的像素分类模型，所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识至少包括头部分类标识，所述头部分类标识用于表示对应的像素位于头部区域；

基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

根据所述分类标识中的头部分类标识确定所述目标图像的头部区域，对所述头部区域进行编辑处理。
根据权利要求1所述的方法，其特征在于，所述获取已训练的像素分类模型之前，所述方法还包括：

获取多个样本图像以及所述多个样本图像中每个像素的分类标识；

根据所述多个样本图像以及所述多个样本图像中每个像素的分类标识进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。
根据权利要求1所述的方法，其特征在于，所述基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识之前，所述方法还包括：

对所述目标图像进行人脸检测，得到所述目标图像的人脸区域；

获取已训练的表情识别模型；

基于所述表情识别模型对所述人脸区域进行识别，得到所述人脸区域的表情类别；

当所述人脸区域的表情类别为目标表情类别时，执行所述基于所述像素分类模型对所述目标图像中的每个像素进行分类的步骤。
根据权利要求3所述的方法，其特征在于，所述对所述头部区域进行编辑处理，包括：

根据预先设置的表情类别与处理方式之间的对应关系，确定所述目标表情类别对应的目标处理方式；

采用所述目标处理方式对所述头部区域进行编辑处理。
根据权利要求3所述的方法，其特征在于，所述获取已训练的表情识别模型之前，所述方法还包括：

获取多个样本人脸图像以及每个样本人脸图像的表情类别；

根据所述多个样本人脸图像以及每个样本人脸图像的表情类别进行训练，直至训练出的表情识别模型的识别准确率达到第二预设阈值时为止。
根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识之前，所述方法还包括：

获取目标视频，所述目标视频包括按照先后顺序排列的多个图像；

将所述多个图像中的每个图像分别作为所述目标图像，执行基于所述像素分类模型对目标图像中的每个像素进行分类的步骤。
根据权利要求1-5任一项所述的方法，其特征在于，所述对所述头部区域进行编辑处理，包括：

对所述头部区域进行放大处理；或者，

对所述头部区域进行缩小处理；或者，

在所述头部区域内添加素材；或者，

显示所述头部区域抖动的动态效果。
一种图像处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取已训练的像素分类模型、所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识至少包括头部分类标识，所述头部分类标识用于表示对应的像素位于头部区域；

分类模块，用于基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

第一处理模块，用于根据所述分类标识中的头部分类标识确定所述目标图像的头部区域，对所述头部区域进行编辑处理。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取多个样本图像以及所述多个样本图像中每个像素的分类标识；

第一训练模块，用于根据所述多个样本图像以及所述多个样本图像中每个像素的分类标识进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

检测模块，用于对所述目标图像进行人脸检测，得到所述目标图像的人脸区域；

第三获取模块，用于获取已训练的表情识别模型；

表情识别模块，用于基于所述表情识别模型对所述人脸区域进行识别，得到所述人脸区域的表情类别；

所述分类模块，还用于当所述人脸区域的表情类别为目标表情类别时，执行所述基于所述像素分类模型对所述目标图像中的每个像素进行分类的步骤。
根据权利要求10所述的装置，其特征在于，所述第一处理模块，包括：

目标处理单元，用于根据预先设置的表情类别与处理方式之间的对应关系，确定所述目标表情类别对应的目标处理方式；

编辑处理单元，用于采用所述目标处理方式对所述头部区域进行编辑处理。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

第四获取模块，用于获取多个样本人脸图像以及每个样本人脸图像的表情类别；

第二训练模块，用于根据所述多个样本人脸图像以及每个样本人脸图像的表情类别进行训练，直至训练出的表情识别模型的识别准确率达到第二预设阈值时为止。
根据权利要求8-12所述的装置，其特征在于，所述装置还包括：

视频处理模块，用于获取目标视频，所述目标视频包括按照先后顺序排列的多个图像，将所述多个图像中的每个图像分别作为所述目标图像。
一种用于图像处理的终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以下步骤：

获取已训练的像素分类模型，所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识至少包括头部分类标识，所述头部分类标识用于表示对应的像素位于头部区域；

基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

根据所述分类标识中的头部分类标识确定所述目标图像的头部区域，对所述头部区域进行编辑处理。
如权利要求14所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以下步骤：

获取多个样本图像以及所述多个样本图像中每个像素的分类标识；

根据所述多个样本图像以及所述多个样本图像中每个像素的分类标识进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。
如权利要求14所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以下步骤：

对所述目标图像进行人脸检测，得到所述目标图像的人脸区域；

获取已训练的表情识别模型；

基于所述表情识别模型对所述人脸区域进行识别，得到所述人脸区域的表情类别；

当所述人脸区域的表情类别为目标表情类别时，执行所述基于所述像素分类模型对所述目标图像中的每个像素进行分类的步骤。
如权利要求16所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行对所述头部区域进行编辑处理的步骤时，使得所述处理器具体执行以下步骤：

根据预先设置的表情类别与处理方式之间的对应关系，确定所述目标表情类别对应的目标处理方式；

采用所述目标处理方式对所述头部区域进行编辑处理。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行时，使得所述处理器执行以下步骤：

获取已训练的像素分类模型，所述像素分类模型用于确定任一图像中每个像素的分类标识，所述分类标识至少包括头部分类标识，所述头部分类标识用于表示对应的像素位于头部区域；

基于所述像素分类模型对目标图像中的每个像素进行分类，得到所述目标图像中每个像素的分类标识；

根据所述分类标识中的头部分类标识确定所述目标图像的头部区域，对所述头部区域进行编辑处理。
如权利要求18所述的计算机可读存储介质，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以下步骤：

获取多个样本图像以及所述多个样本图像中每个像素的分类标识；

根据所述多个样本图像以及所述多个样本图像中每个像素的分类标识进行训练，直至训练出的像素分类模型的分类准确率达到第一预设阈值时为止。
如权利要求18所述的计算机可读存储介质，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以下步骤：

对所述目标图像进行人脸检测，得到所述目标图像的人脸区域；

获取已训练的表情识别模型；

基于所述表情识别模型对所述人脸区域进行识别，得到所述人脸区域的表情类别；

当所述人脸区域的表情类别为目标表情类别时，执行所述基于所述像素分类模型对所述目标图像中的每个像素进行分类的步骤。