WO2020011001A1

WO2020011001A1 - 图像处理方法、装置、存储介质和计算机设备

Info

Publication number: WO2020011001A1
Application number: PCT/CN2019/092586
Authority: WO
Inventors: 程君; 朱莹; 李昊沅; 李峰; 左小祥
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-07-11
Filing date: 2019-06-24
Publication date: 2020-01-16
Also published as: US11367196B2; US20200380690A1; CN110163861A

Abstract

本申请涉及一种图像处理方法、装置、存储介质和计算机设备，该方法包括：获取采集的图像帧；在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，第二图像帧的采集时间位于第一图像帧的采集时间之后；在检测到动作时获取附加元素；将附加元素添加至第二图像帧之后采集的图像帧中。本申请提供的方案提高了图像处理效率。

Description

图像处理方法、装置、存储介质和计算机设备

本申请要求于2018年7月11日提交、申请号为201810755907.7、发明名称为“图像处理方法、装置、存储介质和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像处理方法、装置、存储介质和计算机设备。

背景技术

随着计算机技术的发展，图像处理技术也不断进步。用户可以通过专业的图像处理软件对图像进行处理，使得经过处理的图像表现更好。用户还可以通过图像处理软件，在图像中附加由图像处理软件提供的素材，让经过处理的图像能够传递更多的信息。

然而，目前的图像处理方式，需要用户展开图像处理软件的素材库，浏览素材库，从素材库中选择合适的素材，调整素材在图像中的位置，从而确认修改，完成图像处理。于是目前的图像处理方式需要大量的人工操作，耗时长，导致图像处理过程效率低。

发明内容

基于此，提供一种图像处理方法、装置、存储介质和计算机设备，能够解决目前图像处理效率比较低的问题，。

一种图像处理方法，应用于图像处理系统，所述方法包括：

获取采集的图像帧；

在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；

当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，所述第二图像帧的采集时间位于所述第一图像帧的采集时间之后；

在检测到所述动作时获取附加元素；

将所述附加元素添加至所述第二图像帧之后采集的图像帧中。

一种图像处理装置，包括：

获取模块，用于获取采集的图像帧；

确定模块，用于在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；

判定模块，用于当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，所述第二图像帧的采集时间位于所述第一图像帧的采集时间之后；

添加模块，用于在检测到所述动作时获取附加元素；将所述附加元素添加至所述第二图像帧之后采集的图像帧中。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取采集的图像帧；

在检测到所述动作时获取附加元素；

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取采集的图像帧；

在检测到所述动作时获取附加元素；

上述图像处理方法、装置、存储介质和计算机设备，在获取到采集的图像帧后，自动在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域，继而再根据多帧图像帧中目标区域和参考区域的位置关系，判定是否有触发添加附加元素的动作。这样即可在判定该动作时便自动将附加元素添加至后续采集的图像帧中，避免了人工操作的繁琐步骤，极大地提高了图像处理效率。

附图说明

图1为一个实施例中图像处理方法的应用环境图；

图2为一个实施例中图像处理方法的流程示意图；

图3为一个具体的实施例中图像语义分割模型对获取的图像帧进行处理的原理示意图；

图4为一个实施例中从获取的图像帧中分割出手部区域的示意图；

图5为一个实施例中满足动作判定开始条件的图像帧的示意图；

图6为一个实施例中满足动作判定结束条件的图像帧的示意图；

图7为一个实施例中添加附加元素的图像帧的示意图；

图8为一个具体的施例中图像处理方法的流程图；

图9为一个实施例中图像处理装置的模块结构图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中图像处理方法的应用环境图。参照图1，该图像处理方法应用于图像处理系统。该图像处理系统包括终端110和服务器120。其中，终端110和服务器120通过网络连接。终端110与服务器120均可执行该图像处理方法。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120具体可以是独立的服务器，也可以是多个独立的服务器组成的服务器集群。

终端110可以获取采集的图像帧，该图像帧可以是终端110通过内置的图像采集装置或者外部连接的图像采集装置采集的，内置的图像采集装置具体可以是终端110的前置摄像头或者后置摄像头；该图像帧也可以是其它计算机设备采集后发送至终端110的。终端110继而可以在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域，并在采集时间在前的图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且采集时间在后的图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，判定检测到触发添加附加元素的动作。这样终端110即可在检测到该动作时获取附加元素，将获取的附加元素添加至采集时间在后的图像帧之后采集的图像帧中。

终端110也可将获取的图像帧发送至服务器120，由服务器120在判定采集时间在前的图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且采集时间在后的图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，通知终端110检测到触发添加附加元素的动作，终端110继而获取附加元素，将获取的附加元素添加至采集时间在后的图像帧之后采集的图像帧中。

终端110也可将获取的图像帧发送至服务器120，由服务器120在采集时间在前的图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且采集时间在后的图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，判定检测到触发添加附加元素的动作，并获取附加元素，将获取的附加元素添加至采集时间在后的图像帧之后采集的图像帧中，再将添加附加元素后的图像帧反馈至终端110。

图2为一个实施例中图像处理方法的流程示意图。本实施例以该图像处理方法应用于计算机设备来举例说明，该计算机设备可以是图1中的终端110或者服务器120。参照图2，该方法具体包括如下步骤：

S202，获取采集的图像帧。

其中，图像帧是通过物理成像原理对成像目标进行成像而得到的数据。

在一个实施例中，在计算机设备为终端时，终端具体可按照固定或动态的帧率采集图像帧，获取采集的图像帧。其中，按照固定或动态的帧率采集图像帧，能够使图像帧按照该固定或动态的帧率播放，形成连续的动态画面。

在一个实施例中，在计算机设备为终端时，终端可通过内置或者外部连接的图像采集装置，在图像采集装置当前的拍摄范围内采集图像帧，获取采集的图像帧。其中，图像采集装置的拍摄范围可因终端的姿态和位置的变化而变化。终端的图像采集装置具体可以包括前置摄像头或者后置摄像头。

在一个实施例中，在计算机设备为终端时，终端可通过社交应用提供的拍摄模式采集图像帧，获取采集的图像帧。其中，社交应用是能够基于社交网络进行网络社交互动的应用。社交应用包括即时通信应用、SNS(Social Network Service，社交网站)应用、直播应用或者拍照应用等。

在一个实施例中，在计算机设备为终端时，终端可接收另一终端发送的、由另一终端采集的图像帧，获取接收的图像帧。比如，终端通过运行在终端上的社交应用建立视频会话时，接收其他会话方所对应的终端采集后发送的图像帧。

在一个实施例中，在计算机设备为终端时，终端可通过直播应用提供的拍摄模式采集图像帧，将采集的图像帧作为直播数据，以通过直播应用进行直播。终端也可接收另一终端发送的、由另一终端通过直播应用提供的拍摄模式采集的图像帧，将接收到的图像帧作为直播数据，以通过直播应用播放其他用户通过直播应用发起的直播。

在一个实施例中，在计算机设备为服务器时，前述实施例中的终端在获取到图像帧后可上传至服务器，服务器从而获取到采集的图像帧。

在一个具体的实施例中，计算机设备为终端。终端上安装有视频录制应用。终端可根据用户指令运行该视频录制应用，通过该视频录制应用调用终端内置的摄像头采集图像帧，并在采集图像帧时，按照图像帧的采集时序实时获取采集的图像帧。

上述实施例中，计算机设备获取图像帧的帧率小于或者等于图像采集装置采集图像帧的帧率。

S204，在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域。

其中，图像语义分割是将图像中的像素按照表达语义的不同进行分割。图像语义分割用于实现对图像按照语义划分为多个像素区域。本质上，图像语义分割实现的是图像像素级的分类，通过对像素点进行分类，实现整幅图像的语义标注。需要说明的是，本申请实施例中不对分类单位进行限定，可以是逐像素分类，也可以是按图像块分类，一个图像块包括多个像素。

目标区域是图像帧中作为目标检测动作的区域。参考区域是图像帧中作为参考检测动作的区域。在不同的图像帧中，目标区域是动态区域，参考区域是静态区域。不同的图像帧中目标区域与参考区域的位置关系不同。可以理解，这里的静态区域不是绝对的静态，是相对于目标区域而言静态的区域。

举例说明，假设摄像头在采集图像帧时，用户做出了撩头动作，由于撩头是一个持续的动作。那么用户在用手做撩头动作时摄像头采集的一系列图像帧中，手是撩头动作的执行部位，那么手部区域即为目标区域，在不同的图像帧中是动态变化的；面部是撩头动作的参考部位，那么面部区域即为参考区域，相对手部而言是静态的。在此场景下，目标区域是动态区域，参考区域是相对静态区域。

再比如，摄像头在采集图像帧时，用户做出了跳跃动作，由于跳跃是一个持续的动作。那么用户在跳跃时摄像头采集的一系列图像帧中，人体是跳跃动作的执行部位，那么人体区域即为目标区域，在不同的图像帧中是动态变化的。为方便计算，也可选择脚部区域(人体局部区域)作为目标区域。地面则是跳跃动作的参考部位，那么地面区域即为参考区域。在此场景下，参考区域是绝对静态区域。

具体地，终端可将获取的图像帧编码为语义分割特征矩阵，然后解码该语义分割特征矩阵得到语义分割图像，再根据属于目标类别的像素点从语义分割图像中分割出目标区域，根据属于参考类别的像素点从语义分割图像中分割出参考区域。其中，语义分割图像中的像素点，具有表示所属分类类别的像素值，且与得到该语义分割图像的原始图像帧中的像素点对应。

本领域技术人员可以理解，语义分割特征矩阵是对图像帧中图像内容的语义特征的低维表达，涵盖了该整个图像帧的语义特征信息。语义分割图像是分割为若干个互不重叠的、具有一定语义的区域的图像。语义分割图像中像素点的像素值用于反映相应像素点所属的分类类别。像素点的分类可以是二分类，也可以是多分类。像素点二分类，是指将语义分割图像中的像素点分为两种不同的像素值，用于代表两种不同的分类类别，比如地图图像中对应道路的像素点和其他像素点。像素点多分类，是指将语义分割图像中的像素点分为两种以上的像素值，用于代表两种以上的分类类别，比如风景地图中对应天空的像素点、对应大地的像素点以及对应人物的像素点等。语义分割图像的图像尺寸与原始图像帧的图像尺寸一致。这样，可以理解为对原始图像帧进行了逐像素点分类，根据语义分割图像中的像素点的像素值，即可得到原始图像帧中的每个像素点隶属的类别。

S206，当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

其中，第一图像帧和第二图像帧为获取到的任意图像帧，且第二图像帧的采集时间位于第一图像帧的采集时间之后。

其中，动作判定开始条件是判定开始执行特定动作的约束条件。动作判定结束条件是正在执行特定动作的约束条件。由于动作是一个持续的过程，那么可以理解，只有既获取到满足动作判定开始条件的图像帧，又在之后获取到满足动作判定结束条件的图像帧时，才能判定检测到的动作。

举例说明，假设摄像头在采集图像帧时，用户做出了撩头动作，由于撩头是一个持续的动作。那么只有在检测到用户开始撩头，之后又检测到用户正在撩头时，才能判定有撩头动作。而用户在开始撩头后立即又停止动作，这时就不能认为是检测到了撩头动作。

再比如，假设摄像头在采集图像帧时，用户做出了跳跃动作，由于跳跃是一个持续的动作。那么只有在检测到用户起跳，之后又检测到用户离开地面(正在跳跃)时，才能判定有跳跃动作。而用户在起跳后立即又停止动作未离开地面，这时就不能认为是检测到了跳跃动作。

触发添加附加元素的动作，是触发在采集的图像帧中添加附加元素的动作。触发添加附加元素的动作比如撩头动作、捂脸动作或者摸下巴动作等。附加元素是用于额外增加在图像帧中的数据。附加元素具体可以是装饰元素，比如挂件。装饰元素是能够以可视化形式展示的用于装饰的数据。附加元素比如在图像帧中显示来修饰图像内容的数据。附加元素比如面具、盔甲、彩带、蓝天或者白云等，本申请实施例中对附加元素的种类不进行限定。附加元素可以是动态数据，比如动态图片；也可以是静态数据，比如静态图片。

在一个实施例中，触发添加附加元素的动作可以是一个或者多个。当触发添加附加元素的动作为多个时，不同的动作可以对应相同的动作判定开始条件，或者对应相同的动作判定结束条件。这多个动作可以触发添加在图像帧中统一的位置添加统一的附加元素，也可以分别触发在图像帧中不同的位置添加统一的附加元素，还可以分别触发在图像帧中不同的位置添加不同的附加元素。

可以理解，这里的采集时间在前以及采集时间在后所涉及的先后关系，是指目标区域和参考区域的位置关系满足动作判定开始条件的图像帧的采集时间，在目标区域和参考区域的位置关系满足动作判定结束条件图像帧的采集时间之前。

S208，在检测到动作时获取附加元素。

具体地，终端在检测到动作时，可以查询事先建立的动作与附加元素的对应关系，根据该对应关系查询与检测到的动作对应的附加元素，获取查询到的附加元素。

在一个实施例中，动作对应的附加元素的数量可以为一个或者多个。当动作对应的附加元素的数量可以为多个时，终端可从这多个附加元素中随机选取附加元素，也可根据当前登录的用户标识的用户标签，选取与该用户标签匹配的附加元素。

S210，将附加元素添加至第二图像帧之后采集的图像帧中。

可以理解，这里的第二图像帧，是目标区域和参考区域的位置关系满足动作判定结束条件的图像帧，是在目标区域和参考区域的位置关系满足动作判定开始条件的第一图像帧之后采集的图像帧。

具体地，计算机设备可在判定检测到触发添加附加元素的动作后，将目标区域和参考区域的位置关系满足动作判定结束条件的图像帧(也就是采集时间在后的图像帧)作为分界帧，在采集时间在该分界帧后的图像帧中添加附加元素。其中，添加附加元素的图像帧，可以是在该分界帧的采集时间后采集的全部图像帧，也可以是在该分界帧的采集时间后采集的部分图像帧，还可以包括该分界帧本帧。

在一个具体的实施例中，计算机设备为终端。终端上安装有视频录制应用。终端可根据用户指令运行该视频录制应用，通过该视频录制应用调用终端内置的摄像头采集图像帧，并在采集图像帧时，按照图像帧的采集时序实时获取采集的图像帧。可以理解，摄像头采集图像帧是实时且持续的过程，终端获取采集的图像帧也是实时且持续的过程，终端在每获取一帧图像帧后，即判定该图像帧中目标区域和参考区域的位置关系是否满足动作判定开始条件；在满足动作判定开始条件时，则对获取的下一帧图像帧判定是否满足动作判定结束条件；在满足动作判定结束条件时，则从获取的下一帧图像帧开始添加附加元素(可以包括当前满足动作判定结束条件的图像帧)。

举例说明，终端实时采集了一系列图像帧P ₁、P ₂…P _i、P _i+1…P _n，这些图像帧按采集时序排列。终端判定图像帧P ₂中目标区域和参考区域的位置关系满足动作判定开始条件，且判定图像帧P _i中目标区域和参考区域的位置关系满足动作判定结束条件；进而可以则判定检测到触发添加附加元素的动作。那么，终端即可从P _i或P _i+1开始添加附加元素。

上述图像处理方法，在获取到采集的图像帧后，自动在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域，继而再根据多帧图像帧中目标区域和参考区域的位置关系，判定是否有触发添加附加元素的动作。这样即可在判定该动作时便自动将附加元素添加至后续采集的图像帧中，避免了人工操作的繁琐步骤，极大地提高了图像处理效率。

在一个实施例中，S204包括：将获取的图像帧输入图像语义分割模型；通过图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵；根据目标区域概率分布矩阵确定获取的图像帧中的目标区域；根据参考区域概率分布矩阵确定获取的图像帧中的参考区域。

其中，图像语义分割模型是经过训练后具备语义分割功能的机器学习模型。机器学习英文全称为Machine Learning，简称ML。机器学习模型可通过样本学习具备特定的能力。机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经网络等。

在本实施例中，图像语义分割模型具体为神经网络模型。神经网络模型具体可以是卷积神经网络模型(CNN)。卷积神经网络模型的卷积层(Convolution Layer)中包括多个卷积核(Convolution Kernel)。卷积核是卷积层对输入进行卷积运算的算子。每个卷积核对输入进行卷积运算后可得到一个输出。神经网络模型的池化层(Pooling Layer)层也称为采样层，用于对输入进行压缩，通常有均值池化(Mean Pooling)和最大值池化(Max Pooling)两种形式。池化可以看作一种特殊的卷积过程。

图像语义分割模型可以理解为分类器，用于对输入图像帧中包括的像素点进行逐像素分类。图像语义分割模型的分类类别的数量可以在训练时自定义控制。在本实施例中，图像语义分割模型被设置为多分类器，分类类别包括目标类别、参考类别和背景类别三种。模型输入图像帧，属于目标类别的像素点即为目标区域的像素点，属于参考类别的像素点即为参考区域的像素点，属于背景类别的像素点即为背景区域的像素点。这样即可根据像素点所属的类别对像素点进行划分，确定获取的图像帧中的目标区域和参考区域。

举例说明，当触发添加附加元素的动作为撩头动作时，目标类别即为手部类别，参考类别即为面部类别。获取的图像帧中属于手部类别的像素点即为手部区域的像素点，属于面部类别的像素点即为面部区域的像素点。这样即可根据像素点所属的类别对像素点进行划分，确定获取的图像帧中的手部区域和面部区域。

目标区域概率分布矩阵的矩阵元素，具有表示属于目标类别的概率值，且与输入模型的图像帧中的像素点对应。也就是说，假设输入模型的图像帧为2*2，那么目标区域概率分布矩阵也为2*2，矩阵位置(m,n)的矩阵元素的值即为图像帧中像素位置(m,n)的像素点属于目标类别的概率。其中，矩阵(图像帧)以左上角的矩阵位置(像素位置)为(0,0)。

同理，参考区域概率分布矩阵的矩阵元素，具有表示属于参考类别的概率值，且与输入模型的图像帧中的像素点对应。也就是说，假设输入模型的图像帧为2*2，那么目标区域概率分布矩阵也为2*2，矩阵位置(m,n)的矩阵元素的值即为图像帧中像素位置(m,n)的像素点属于参考类别的概率。

具体地，终端可将获取的图像帧输入事先训练好的图像语义分割模型，通过图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵。终端可再将目标区域概率分布矩阵中概率值大于预设概率的矩阵元素所对应的像素点围成的区域确定为目标区域，并将参考区域概率分布矩阵中概率值大于预设概率的矩阵元素所对应的像素点围成的区域确定为参考区域。预设概率是事先设定的用于判定是否被分类为当前类别的分界值。

图3为一个具体的实施例中图像语义分割模型对获取的图像帧进行处理的原理示意图。参考图3，图像语义分割模型为U型对称模型，在前的网络层的输出通过跳跃连接(Skip connection)作为对应位置的网络层的输入。图像语义分割模型的输入为获取的图像帧的特征图(如RGB三通道特征图)，图像语义分割模型中的网络层对输入该层的特征图进行操作得到特征图输出，图像语义分割模型的输出可以是语义分割图像，也可以是概率分布矩阵，根据训练时的样本和标签决定。其中，图中m*n*k(如3*256*256、或64*256*256)中m表示特征图的数量，n*k表示特征图的尺寸。可以理解，图中的参数均为示例，不对实际使用的模型参数进行限定。网络层对特征图的操作包括：卷积变化(Convolution)、归一变化(BatchNorm)、激活变化(ReLU)、最大池化(MaxPool)以及上采样(Upsampling)等。

上述实施例中，在获取到图像帧后，即自动将该图像帧输入训练好的机器学习模型，根据机器学习模型输出目标区域概率分布矩阵和参考区域概率分布矩阵来确定目标区域和参考区域。其中，概率分布矩阵中的矩阵元素，具有表示图像帧中对应的像素点属于特定分类类别的概率值，这样即可自动根据属于目标类别的像素点来确定目标区域，根据属于参考类别的像素点来确定参考区域，提高了图像区域划分的准确率，且为后续判断动作判定开始条件或者动作判定结束条件是否满足奠定了基础。

在一个实施例中，目标区域为手部区域；参考区域为面部区域。该图像处理方法还包括：确定获取的图像帧中的手部区域所对应的手势类型。当手势类型为触发添加附加元素的手势类型时，即可判断获取的图像帧中目标区域和参考区域的位置关系是否满足动作判定开始条件。

当第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，包括：如果第一图像帧的手势类型为触发类型，当第一图像帧中手部区域和面部区域的位置关系满足动作判定开始条件、且第一图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

其中，手部与面部均为生物(人或动物)的肢体部分。手部区域是手部所在的区域。手部区域可以是手部轮廓以内围成的区域，也可以是包括手部且手部占比高的规则区域。面部区域可以是面部轮廓围成的区域，也可以是包括面部且面部占比高的规则区域。手势是由用户通过手部做出的动作形态。手势类型是获取的图像帧中手势所属的类型。

图4示出了一个实施例中从获取的图像帧中分割出手部区域的示意图。参考图4(a)为获取的图像帧，终端可通过图像语义分割确定该图像帧中的手部区域401。再参考图4(b) 为从获取的包括手部区域的图像帧中，按照规则形状分割出的手部区域得到的图像。

可以理解，相比于直接对获取的原始图像中手部区域所对应的手势类型进行识别，从获取的原始图像中分割出手部区域之后再对分割出的手部区域进行识别，避免手部区域占整个图像的比例较小时识别不准确的问题，能够减少原始图像中相对于手部区域的背景区域对手部区域中手势的手势类型进行识别的干扰，可以提高识别的准确度。

具体地，计算机设备可采用预先训练好的手势识别模型对图像帧中手势所属的手势类型进行识别。从获取的图像帧中截取手部区域得到手部图像，输入手势识别模型中，通过手势识别模型中的隐藏层对手部图像对应的特征进行运算，输出手部图像中手势的手势类型，在识别出的手势类型为触发添加附加元素的手势类型时，才继续判定该获取的图像帧中手部区域和面部区域的位置关系是否满足动作判定开始条件，否则识别获取的下一帧图像帧中的手部区域所对应的手势类型是否为触发添加附加元素的手势类型。

进一步地，终端在识别出获取的某帧图像帧中手部区域所对应的手势类型为触发添加附加元素的手势类型，且该图像帧中手部区域和面部区域的位置关系满足动作判定开始条件时，才继续判定在该图像帧后获取的下一帧图像帧中手部区域所对应的手势类型是否为触发添加附加元素的手势类型，并在判定该下一帧图像帧中手部区域所对应的手势类型为触发添加附加元素的手势类型，才继续判定该下一帧图像帧中手部区域和面部区域的位置关系是否满足动作判定结束条件，直到检测到在后采集的另外一帧图像帧中手部区域所对应的手势类型为触发添加附加元素的手势类型，且该图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，就判定检测到了触发添加附加元素的动作。

其中，手势识别模型为机器学习模型。当计算机设备预先设置的触发添加附加元素的手势类型唯一时，手势识别模型即为二分类模型。用于训练二分类模型的图像样本包括属于触发添加附加元素的手势类型的正样本，及不属于触发添加附加元素的手势类型的负样本。当计算机设备预先设置的触发添加附加元素的手势类型多样时，手势识别模型即为多分类模型。用于训练多分类模型的图像样本包括属于各触发添加附加元素的手势类型的样本。手势识别模型具体可利用ConvNet Configuration模型作为初始模型，根据训练样本训练该初始模型，得到适用于手势识别的模型参数。

在一个实施例中，计算机设备还可将从获取的图像帧中截取手部区域得到的手部图像，与属于触发添加附加元素的手势类型的手部图像模板进行特征匹配，在匹配成功时，判定获取的图像帧中的手部区域所对应的手势类型为触发添加附加元素的手势类型。

上述实施例中，在具体的目标区域为手部区域、参考区域为面部区域的场景下，在识别出获取的图像帧中的手部区域所对应的手势类型为触发添加附加元素的手势类型时，才继续判断动作判定开始条件或者动作判定结束条件是否满足，避免了在无效手势下判断动作判定开始条件或者动作判定结束条件造成的资源浪费，提高了图像处理效率。

在一个实施例中，当第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，包括：从第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；在计时时长未达到预设时长、且第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

可以理解，动作不仅具有持续性还具有连贯性。通俗地说，就是在动作开始后是连贯地完成的。比如，对于撩头动作，只有在检测到用户开始撩头，之后又连贯地持续撩头(也就是在一定时间范围内检测到正在撩头)时，才能判定有撩头动作；而用户在开始撩头后立即停止动作，并等待较长时间后再继续撩头，这时就不能认为是检测到了撩头动作。再比如，对于跳跃动作，只有既检测到用户起跳，之后又检测到用户继起跳后连贯地离开地面(正在跳跃)时，才能判定有跳跃动作；而用户在起跳后立即停止动作未离开地面，并等待较长时间后再离开地面，这时就不能认为是检测到了跳跃动作。

具体地，计算机设备在每获取一帧图像帧时，便判断该图像帧是否满足动作判定开始条件，在判定某帧图像帧满足动作判定开始条件时开始计时。这样，计算机设备便在计时的时候，继续获取图像帧，并判断该图像帧是否满足动作判定结束条件。只有在计时时长未达到预设时长、且继续获取的图像帧满足动作判定结束条件时，才判定检测到触发添加附加元素的动作。若计算机设备直到计时时长达到预设时长，仍未检测到在计时时间段内继续获取的图像帧满足动作判定结束条件时，则判定未检测到触发添加附加元素的动作。此时，计算机设备则继续获取图像帧，不再判断该图像帧是否满足动作判定结束条件，而是判断该图像帧是否满足动作判定开始条件，从而继续在判定某帧图像帧满足动作判定开始条件时开始计时，以继续检测触发添加附加元素的动作。其中，预设时长是根据实际经验判定动作形成的时长。

在一个实施例中，该图像处理方法还包括：当第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第一预设数值时，则判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，当第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第二预设数值、且目标区域的中心位置位于参考区域中心位置的上方时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。

其中，第一预设数值和第二预设数值是预先设置的数值。第一预设数值具体地可以为0.5，第二预设数值具体可以为0.2。可以理解，获取的图像帧中目标区域和参考区域的交集占目标区域的占比超过第一预设数值，或者获取的图像帧中目标区域和参考区域的交集占目标区域的占比超过第二预设数值、且目标区域的中心位置位于参考区域中心位置的上方，是根据实际经验确定的满足动作判定开始条件时，目标区域和参考区域的位置关系。

图5为一个实施例中满足动作判定开始条件的图像帧的示意图。在本实施例中触发添加附加元素的动作为撩头动作，目标区域为手部区域，参考区域为面部区域。参考图5(a)，可以看出手部区域和面部区域的交集占手部区域的占比超过第一预设数值(0.5)，可以判定该图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。在参考图5(b)，可以看出手部区域和面部区域的交集占手部区域的占比超过第二预设数值(0.2)、且手部区域的中心位置O1位于面部区域中心位置O2的上方时，可以判定该图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。

在一个实施例中，该图像处理方法还包括：确定第二图像帧中的参考区域中的参考位置；当第二图像帧中目标区域位于参考区域中的参考位置之上时，判定第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。

其中，参考位置是用来判定图像帧中目标区域与参考区域的位置关系是否满足动作判定结束条件的对照位置。可以理解，图像帧中目标区域位于参考区域中的参考位置之上是根据实际经验确定的满足动作判定结束条件时，目标区域和参考区域的位置关系。

图6为一个实施例中满足动作判定结束条件的图像帧的示意图。在本实施例中触发添加附加元素的动作为撩头动作，目标区域为手部区域，参考区域为面部区域，参考位置为面部区域中眉毛所在位置。参考图6，可以看出该图像帧中手部区域位于面部区域中的眉毛位置之上，可以判定该图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。

上述实施例中，提供了具体判断图像帧是否满足动作判定开始条件或动作判定结束条件的依据，保证了动作判定的有效进行。而且，只有在判定获取的图像帧满足动作判定开始条件，且在之后的预设时长内继续获取的图像帧判定满足动作判定结束条件时，才判定检测到了动作，使得动作的检测符合实际认知且有效。

可以理解，判定获取的图像帧满足动作判定开始条件，且在之后的预设时长内继续获取的图像帧判定满足动作判定结束条件，表示满足动作判定开始条件的图像帧的采集时间与满足动作判定结束条件的图像帧的采集时间之间的时间间隔小于或等于预设时长。

在一个实施例中，目标区域为手部区域；参考区域为面部区域；参考位置为眉毛所在位置。将附加元素添加至第二图像帧之后采集的图像帧中，包括：在第二图像帧之后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域；在第二图像帧后采集的图像帧中，将附加元素自适应添加至确定的区域。

具体地，计算机设备可对第二图像帧后采集的图像帧进行人脸检测，确定该第二图像帧中人脸区域中的左右眉基准点，根据该基准点确定眉毛所在位置，再确定面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域，从而将附加元素自适应添加至确定的区域。

其中，将附加元素自适应添加至确定的区域，可以是将附加元素的尺寸调整至确定的区域的尺寸，这样，确定的区域的尺寸会随着手部区域的动作逐渐增大，而附加元素也随着确定的区域的尺寸增大而逐渐增大显示尺寸。将附加元素自适应添加至确定的区域，也可以是将附加元素的部分区域添加至确定的区域，其中，附加元素的部分区域以附加元素的某一边界为边界，该边界与确定的区域的边界对应，这样，确定的区域的尺寸会随着手部区域的动作逐渐增大，而附加元素也随着确定的区域的尺寸增大而逐渐由局部显示变为全部显示，且显示的局部越来越大。

图7为一个实施例中添加附加元素的图像帧的示意图。在本实施例中触发添加附加元素的动作为撩头动作，目标区域为手部区域，参考区域为面部区域，参考位置为面部区域中眉毛所在位置。参考图7，可以看出从(a)至(b)面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域逐渐增大，在该区域中添加的附加元素的尺寸也越来越大。

在本实施例中，将附加元素自适应添加至确定的区域直至完整添加，而非直接添加完整的附加元素，避免了附加元素添加过程的单一性和突兀，通过根据手部区域的移动逐渐自适应添加附加元素提高增强了交互性。

在另外的实施例中，计算机设备还可对附加元素的边界作虚化处理。

在一个实施例中，该图像处理方法还包括：在未检测到触发添加附加元素的动作时，将获取的图像帧按照采集的时序逐帧播放；在检测到触发添加附加元素的动作后，将添加附加元素后的图像帧按照采集的时序逐帧播放。

具体地，计算机设备可在采集图像帧后，实时播放采集的图像帧。在未检测到触发添加附加元素的动作时，也就是说当前采集到的图像帧无需添加附加元素，那么则可直接渲染采集的图像帧形成预览画面，以可视化方式展示采集的图像帧。在检测到触发添加附加元素的动作后，也就是说当前采集到的图像帧需要添加附加元素，那么则将附加元素添加到在检测到触发添加附加元素的动作后采集的图像帧中，渲染添加附加元素后的图像帧形成预览画面，以可视化方式展示添加附加元素后的图像帧。

在本实施例中，在拍摄过程中，一边对采集的图像帧检测触发添加附加元素的动作，一边根据采集的视频帧或添加附加元素后的图像帧实时生成预览画面，以供用户观看。这样用户便可实时了解录制成视频的内容，以便在出现错误时及时修正或重新录制。

在一个实施例中，该图像处理方法还包括：用添加附加元素后的图像帧，替换添加附加元素前的相应图像帧；根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；其中，替换后所确定的图像帧中，添加附加元素后的图像帧的采集时间，是添加附加元素前的相应图像帧的采集时间。

其中，替换后所确定的图像帧，包括在添加附加元素前原始采集的图像帧，还包括在添加附加元素后，通过添加附加元素得到的图像帧。也即是，对于获取的多个图像帧来说，有些图像帧中未添加附加元素，而有些图像帧中添加了附加元素，因此所确定的多个图像帧中，既包括未添加附加元素的图像帧，即原始采集的图像帧，也包括添加附加元素后的图像帧，即通过替换得到的图像帧。

其中，替换后所确定的图像帧中，未进行替换操作的原始图像帧的采集时间，是该图像帧真实的采集时间。替换后所确定的图像帧中通过替换得到的图像帧的采集时间，是添加附件元素前的相应图像帧的采集时间。

举例说明，原始采集图像帧A、B、C和D，从图像帧C开始添加附加元素。对图像帧C添加附加元素得到图像帧C1，对图像帧D添加附加元素得到图像帧D1。那么则用图像帧C1来替换图像帧C，用图像帧D1来替换图像帧D，替换后所确定的图像帧即为A、B、C1和D1，也就是用这些图像帧来生成视频。

具体地，计算机设备可用添加附加元素后得到的图像帧，替换添加附加元素前的相应图像帧，再根据替换后所确定的各图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频。其中，按采集时间的时序可以是按时间逆序，也可以是按时间顺序。

进一步地，计算机设备在生成录制的视频后，可将该视频分享至社交会话中，或者将视频发布至社交发布平台。

在本实施例中，实现了在拍摄过程中即自动且实时地对采集的图像帧进行处理，并实时地生成视频，避免了需要后续手动处理带来的繁琐步骤，极大地简化了操作，提高了视频生成效率。

图8示出了一个具体的实施例中图像处理方法的流程图。在本实施例中，触发添加附加元素的动作为撩头动作，目标区域为手部区域，参考区域为面部区域，参考位置为面部区域中眉毛所在位置。计算机设备为终端。终端上安装有视频录制应用。终端可根据用户指令运行该视频录制应用，通过该视频录制应用调用终端内置的摄像头采集图像帧，并在采集图像帧时，按照图像帧的采集时序实时获取采集的图像帧。

终端在获取采集的图像帧后，可确定获取的图像帧中的手部区域所对应的手势类型，判断该手势类型是否为触发类型；若否，则获取下一帧图像帧，继续确定该图像帧中的手部区域所对应的手势类型；若是，则判断图像帧中目标区域和参考区域的位置关系是否满足动作判定开始条件。其中，动作判定开始条件为：图像帧中目标区域和参考区域的交集占目标区域的占比超过第一预设数值，或者，图像帧中目标区域和参考区域的交集占目标区域的占比超过第二预设数值、且目标区域的中心位置位于参考区域中心位置的上方。

终端在判定图像帧未满足动作判定开始条件时，则获取下一帧图像帧，继续确定该图像帧中的手部区域所对应的手势类型；在判定图像帧满足动作判定开始条件时，则开始计时并继续获取下一帧图像帧。终端继而确定继续获取的图像帧中的手部区域所对应的手势类型，判断该手势类型是否为触发类型；若否，则获取下一帧图像帧，继续确定该图像帧中的手部区域所对应的手势类型；若是，则判断继续获取的图像帧中目标区域和参考区域的位置关系是否满足动作判定结束条件。其中，动作判定结束条件为：图像帧中目标区域位于参考区域中的参考位置之上。

终端在计时时长未达到预设时长时检测到图像帧满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，在继续获取的图像帧后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域；在继续获取的图像帧后采集的图像帧中，将附加元素自适应添加至确定的区域。终端在计时时长达到预设时长是仍未检测到图像帧满足动作判定结束条件时，获取下一帧图像帧，继续确定该图像帧中的手部区域所对应的手势类型，并在手势类型为触发类型时检测动作判定开始条件是否满足。

终端还可在图像处理时，实时用添加附加元素后的图像帧，替换添加附加元素前的相应图像帧，根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；也可以在结束图像帧采集后，根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图9所示，在一个实施例中，提供了一种图像处理装置900。参照图9，该图像处理装置900包括：获取模块901、确定模块902、判定模块903和添加模块904。

获取模块901，用于获取采集的图像帧。

确定模块902，用于在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域。

判定模块903，用于当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，第二图像帧的采集时间位于第一图像帧的采集时间之后。

添加模块904，用于在检测到动作时获取附加元素；将附加元素添加至第二图像帧之后采集的图像帧中。

在一个实施例中，确定模块902还用于将获取的图像帧输入图像语义分割模型；通过图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵；根据目标区域概率分布矩阵确定获取的图像帧中的目标区域；根据参考区域概率分布矩阵确定获取的图像帧中的参考区域。

在一个实施例中，目标区域为手部区域；参考区域为面部区域。确定模块902还用于确定获取的图像帧中的手部区域所对应的手势类型。判定模块903还用于如果第一图像帧的手势类型为触发类型，当第一图像帧中手部区域和面部区域的位置关系满足动作判定开始条件、且第二图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

在一个实施例中，判定模块903还用于从第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；在计时时长未达到预设时长、且在第一图像帧之后获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

在一个实施例中，判定模块903还用于在第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第一预设数值时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，在第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第二预设数值、且目标区域的中心位置位于参考区域中心位置的上方时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。

在一个实施例中，判定模块903还用于确定第二图像帧中的参考区域中的参考位置；当第二图像帧中目标区域位于参考区域中的参考位置之上时，判定第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。

在一个实施例中，目标区域为手部区域；参考区域为面部区域；参考位置为眉毛所在位置。添加模块904还用于在第二图像帧之后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域；在第二图像帧之后采集的图像帧中，将附加元素添加至确定的区域。

在一个实施例中，获取模块901还用于在未检测到触发添加附加元素的动作时，将获取的图像帧按照采集的时序逐帧播放。添加模块904还用于在检测到触发添加附加元素的动作后，将添加附加元素后的图像帧按照采集的时序逐帧播放。

在一个实施例中，添加模块904还用于用添加附加元素后的图像帧，替换添加附加元素前的相应图像帧；根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；其中，替换后所确定的图像帧中，添加附加元素后的图像帧的采集时间，是添加附加元素前的相应图像帧的采集时间。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现图像处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行图像处理方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图像处理装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该图像处理装置的各个程序模块，比如，图9所示的获取模块901、确定模块902、判定模块903和添加模块904等。各个程序模块组成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像处理方法中的步骤。

例如，图10所示的计算机设备可以通过如图9所示的图像处理装置900中的获取模块901获取采集的图像帧。通过确定模块902在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域。通过判定模块903当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，第二图像帧的采集时间位于第一图像帧的采集时间之后。通过添加模块904在检测到动作时获取附加元素；将附加元素添加至第二图像帧之后采集的图像帧中。

在一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，使得处理器执行以下步骤：获取采集的图像帧；在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，第二图像帧的采集时间位于第一图像帧的采集时间之后；在检测到动作时获取附加元素；将附加元素添加至第二图像帧之后采集的图像帧中。

在一个实施例中，在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域，包括：将获取的图像帧输入图像语义分割模型；通过图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵；根据目标区域概率分布矩阵确定获取的图像帧中的目标区域；根据参考区域概率分布矩阵确定获取的图像帧中的参考区域。

在一个实施例中，目标区域为手部区域；参考区域为面部区域。该计算机程序还使得处理器执行以下步骤：确定获取的图像帧中的手部区域所对应的手势类型；

该计算机程序还使得处理器执行以下步骤：如果第一图像帧的手势类型为触发类型，当第一图像帧中手部区域和面部区域的位置关系满足动作判定开始条件、且第二图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

在一个实施例中，该计算机程序还使得处理器执行以下步骤：从第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；在计时时长未达到预设时长、且在第一图像帧之后获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

在一个实施例中，该计算机程序还使得处理器执行以下步骤：在第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第一预设数值时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，在第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第二预设数值、且目标区域的中心位置位于参考区域中心位置的上方时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。

在一个实施例中，该计算机程序还使得处理器执行以下步骤：确定第二图像帧中的参考区域中的参考位置；当第二图像帧中目标区域位于参考区域中的参考位置之上时，判定第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。

在一个实施例中，目标区域为手部区域；参考区域为面部区域；参考位置为眉毛所在位置。将附加元素添加至在采集时间在后的图像帧后采集的图像帧中，包括：在第二图像帧之后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域；在第二图像帧之后采集的图像帧中，将附加元素添加至确定的区域。

在一个实施例中，该计算机程序还使得处理器执行以下步骤：在未检测到触发添加附加元素的动作时，将获取的图像帧按照采集的时序逐帧播放；在检测到触发添加附加元素的动作后，将添加附加元素后的图像帧按照采集的时序逐帧播放。

在一个实施例中，该计算机程序还使得处理器执行以下步骤：用添加附加元素后的图像帧，替换添加附加元素前的相应图像帧；根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；其中，替换后所确定的图像帧中，添加附加元素后的图像帧的采集时间，是添加附加元素前的相应图像帧的采集时间。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：其中，上述计算机程序被处理器执行时，使得处理器执行以下步骤：

获取采集的图像帧；

当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，第二图像帧的采集时间位于第一图像帧的采集时间之后；

在检测到动作时获取附加元素；

将附加元素添加至第二图像帧之后采集的图像帧中。

在一个实施例中，计算机程序被处理器执行在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域的步骤时，使得处理器执行以下步骤：

将获取的图像帧输入图像语义分割模型；

通过图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵；

根据目标区域概率分布矩阵确定获取的图像帧中的目标区域；

根据参考区域概率分布矩阵确定获取的图像帧中的参考区域。

在一个实施例中，目标区域为手部区域；参考区域为面部区域；计算机程序被处理器执行时，使得处理器执行以下步骤：

确定获取的图像帧中的手部区域所对应的手势类型；

计算机程序被处理器执行当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作的步骤时，使得处理器执行以下步骤：

如果第一图像帧的手势类型为触发类型，当第一图像帧中手部区域和面部区域的位置关系满足动作判定开始条件、且第二图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

在一个实施例中，计算机程序被处理器执行当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作的步骤时，使得处理器执行以下步骤：

从第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；

在计时时长未达到预设时长、且在第一图像帧之后获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。

在一个实施例中，计算机程序被处理器执行时，使得处理器执行以下步骤：

在第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第一预设数值时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，

在第一图像帧中目标区域和参考区域的交集占目标区域的占比超过第二预设数值、且目标区域的中心位置位于参考区域中心位置的上方时，判定第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。

确定第二图像帧中的参考区域中的参考位置；

当第二图像帧中目标区域位于参考区域中的参考位置之上时，判定第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。

在一个实施例中，目标区域为手部区域；参考区域为面部区域；参考位置为眉毛所在位置；计算机程序被处理器执行将附加元素添加至在第二图像帧之后采集的图像帧中的步骤时，使得处理器执行以下步骤：

在第二图像帧之后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近眉毛所在位置的边界形成的区域；

在第二图像帧之后采集的图像帧中，将附加元素添加至确定的区域。

在未检测到触发添加附加元素的动作时，将获取的图像帧按照采集的时序逐帧播放；

在检测到触发添加附加元素的动作后，将添加附加元素后的图像帧按照采集的时序逐帧播放。

用添加附加元素后的图像帧，替换添加附加元素前的相应图像帧；

根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；

其中，替换后所确定的图像帧中，添加附加元素后的图像帧的采集时间，是添加附加元素前的相应图像帧的采集时间。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，其特征在于，应用于图像处理系统，所述方法包括：

获取采集的图像帧；

在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；

当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，所述第二图像帧的采集时间位于所述第一图像帧的采集时间之后；

在检测到所述动作时获取附加元素；

将所述附加元素添加至所述第二图像帧之后采集的图像帧中。
根据权利要求1所述的方法，其特征在于，所述在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域，包括：

将获取的图像帧输入图像语义分割模型；

通过所述图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵；

根据所述目标区域概率分布矩阵确定获取的图像帧中的目标区域；

根据所述参考区域概率分布矩阵确定获取的图像帧中的参考区域。
根据权利要求2所述的方法，其特征在于，所述目标区域为手部区域；所述参考区域为面部区域；所述方法还包括：

确定获取的图像帧中的手部区域所对应的手势类型；

所述当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，包括：

如果所述第一图像帧的手势类型为触发类型，当所述第一图像帧中手部区域和面部区域的位置关系满足动作判定开始条件、且所述第二图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。
根据权利要求1所述的方法，其特征在于，所述当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，包括：

从所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；

在计时时长未达到预设时长、且在所述第一图像帧之后获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述第一图像帧中目标区域和参考区域的交集占所述目标区域的占比超过第一预设数值时，判定所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，

在所述第一图像帧中目标区域和参考区域的交集占所述目标区域的占比超过第二预设数值、且所述目标区域的中心位置位于所述参考区域中心位置的上方时，判定所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定所述第二图像帧中的参考区域中的参考位置；

当所述第二图像帧中目标区域位于参考区域中的参考位置之上时，判定所述第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。
根据权利要求6所述的方法，其特征在于，所述目标区域为手部区域；所述参考区域为面部区域；所述参考位置为眉毛所在位置；

所述将所述附加元素添加至在所述第二图像帧之后采集的图像帧中，包括：

在所述第二图像帧之后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近所述眉毛所在位置的边界形成的区域；

在所述第二图像帧之后采集的图像帧中，将所述附加元素添加至确定的所述区域。
根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

在未检测到所述触发添加附加元素的动作时，将获取的图像帧按照采集的时序逐帧播放；

在检测到所述触发添加附加元素的动作后，将添加附加元素后的图像帧按照采集的时序逐帧播放。
根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

用添加所述附加元素后的图像帧，替换添加所述附加元素前的相应图像帧；

根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；

其中，替换后所确定的图像帧中，添加所述附加元素后的图像帧的采集时间，是添加所述附加元素前的相应图像帧的采集时间。
一种图像处理装置，其特征在于，包括：

获取模块，用于获取采集的图像帧；

确定模块，用于在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；

判定模块，用于当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，所述第二图像帧的采集时间位于所述第一图像帧的采集时间之后；

添加模块，用于在检测到所述动作时获取附加元素；将所述附加元素添加至所述第二图像帧之后采集的图像帧中。
根据权利要求10所述的装置，其特征在于，所述确定模块还用于将获取的图像帧输入图像语义分割模型；通过所述图像语义分割模型输出的目标区域概率分布矩阵和参考区域概率分布矩阵；根据所述目标区域概率分布矩阵确定获取的图像帧中的目标区域；根据所述参考区域概率分布矩阵确定获取的图像帧中的参考区域。
根据权利要求10所述的装置，其特征在于，所述判定模块还用于从所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；在计时时长未达到预设时长、且在所述第一图像帧之后获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。
根据权利要求12所述的装置，其特征在于，所述判定模块还用于当所述第一图像帧中目标区域和参考区域的交集占所述目标区域的占比超过第一预设数值时，则判定所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，当所述第一图像帧中目标区域和参考区域的交集占所述目标区域的占比超过第二预设数值、且所述目标区域的中心位置位于所述参考区域中心位置的上方时，判定所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述的方法的步骤。
一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取采集的图像帧；

在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域；

当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作，所述第二图像帧的采集时间位于所述第一图像帧的采集时间之后；

在检测到所述动作时获取附加元素；

将所述附加元素添加至所述第二图像帧之后采集的图像帧中。
根据权利要求15所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行在获取的图像帧中确定通过图像语义分割得到的目标区域和参考区域的步骤时，使得所述处理器执行以下步骤：

将获取的图像帧输入图像语义分割模型；

通过所述图像语义分割模型输出目标区域概率分布矩阵和参考区域概率分布矩阵；

根据所述目标区域概率分布矩阵确定获取的图像帧中的目标区域；

根据所述参考区域概率分布矩阵确定获取的图像帧中的参考区域。
根据权利要求16所述的计算机设备，其特征在于，所述目标区域为手部区域；所述参考区域为面部区域；所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

确定获取的图像帧中的手部区域所对应的手势类型；

所述计算机程序被所述处理器执行当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作的步骤时，使得所述处理器执行以下步骤：

如果所述第一图像帧的手势类型为触发类型，当所述第一图像帧中手部区域和面部区域的位置关系满足动作判定开始条件、且所述第二图像帧中手部区域和面部区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。
根据权利要求15所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行当获取的第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件、且获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作的步骤时，使得所述处理器执行以下步骤：

从所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件时开始计时；

在计时时长未达到预设时长、且在所述第一图像帧之后获取的第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件时，则判定检测到触发添加附加元素的动作。
根据权利要求18所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

在所述第一图像帧中目标区域和参考区域的交集占所述目标区域的占比超过第一预设数值时，判定所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件；或者，

在所述第一图像帧中目标区域和参考区域的交集占所述目标区域的占比超过第二预设数值、且所述目标区域的中心位置位于所述参考区域中心位置的上方时，判定所述第一图像帧中目标区域和参考区域的位置关系满足动作判定开始条件。
根据权利要求18所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

确定所述第二图像帧中的参考区域中的参考位置；

当所述第二图像帧中目标区域位于参考区域中的参考位置之上时，判定所述第二图像帧中目标区域和参考区域的位置关系满足动作判定结束条件。
根据权利要求20所述的计算机设备，其特征在于，所述目标区域为手部区域；所述参考区域为面部区域；所述参考位置为眉毛所在位置；所述计算机程序被所述处理器执行将所述附加元素添加至在所述第二图像帧之后采集的图像帧中的步骤时，使得所述处理器执行以下步骤：

在所述第二图像帧之后采集的图像帧中，确定面部区域中眉毛所在位置与手部区域靠近所述眉毛所在位置的边界形成的区域；

在所述第二图像帧之后采集的图像帧中，将所述附加元素添加至确定的所述区域。
根据权利要求15-21中任一项所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

在未检测到所述触发添加附加元素的动作时，将获取的图像帧按照采集的时序逐帧播放；

在检测到所述触发添加附加元素的动作后，将添加附加元素后的图像帧按照采集的时序逐帧播放。
根据权利要求15-21中任一项所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

用添加所述附加元素后的图像帧，替换添加所述附加元素前的相应图像帧；

根据替换后所确定的图像帧的采集时间，将替换后所确定的图像帧按采集时间的时序生成录制的视频；

其中，替换后所确定的图像帧中，添加所述附加元素后的图像帧的采集时间，是添加所述附加元素前的相应图像帧的采集时间。