WO2018133825A1

WO2018133825A1 - 视频通话中视频图像的处理方法、终端设备、服务器及存储介质

Info

Publication number: WO2018133825A1
Application number: PCT/CN2018/073336
Authority: WO
Inventors: 李斌; 易成; 王新亮
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-01-23
Filing date: 2018-01-19
Publication date: 2018-07-26
Also published as: CN108347578B; CN108347578A

Abstract

本公开揭示了一种视频通话中视频图像的处理方法及装置，属于互联网技术领域。所述方法包括：接收第二终端设备发送的第二视频通话数据，第二视频通话数据包括第二视频图像数据，以及从第二视频图像数据中提取出的第二人脸特征点位置数据，根据第二人脸特征点位置数据确定第二视频图像数据中的第二人脸特征点，以第二人脸特征点为轮廓提取第二视频图像数据中的第二人脸数据，获取第一视频通话图像中第一人脸的人脸区域，根据第二人脸数据，在第一视频通话图像中第一人脸的人脸区域绘制第二人脸，以便将第一视频通话图像中的第一人脸替换为第二人脸。上述视频通话中视频图像的处理方法及装置能够在视频通话过程中实现人脸的实时更换。

Description

视频通话中视频图像的处理方法、终端设备、服务器及存储介质

本申请要求于2017年01月23日提交中国专利局、申请号为201710058161.X、发明名称为“视频通话中视频图像的处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及互联网应用技术领域，特别涉及一种视频通话中视频图像的处理方法、终端设备、服务器及存储介质。

背景

随着计算机应用技术的高速发展，视频换脸特效技术得到广泛的应用。通过在视频中进行脸部更换，从而增强视频观赏的乐趣。目前，在视频中实现换脸时，需要更换人脸的两个视频都位于同一个终端设备中，在经过人脸识别到视频中的人脸图像后，通过人脸替换等技术进行人脸更换。

技术内容

为了解决相关技术中在视频通话过程中无法实现人脸更换的技术问题，本公开提供了视频通话中视频图像的处理方法及装置。

各实施例的一种视频通话中视频图像的处理方法可以应用于参与视频通话的第一终端设备，参与所述视频通话的终端设备还包括第二终端设备，所述方法包括：

接收第二终端设备发送的第二视频通话数据，所述第二视频通话数据包括第二视频图像数据，以及从所述第二视频图像数据中提取出的第二人脸特征点位置数据；

根据所述第二人脸特征点位置数据确定所述第二视频图像数据中的第二人脸特征点；

以所述第二人脸特征点为轮廓提取所述第二视频图像数据中的第二人脸数据；

获取第一视频通话图像中第一人脸的人脸区域；根据所述第二人脸数据，在所述第一视频通话图像中第一人脸的人脸区域绘制第二人脸，以便将所述第一视频通话图像中的第一人脸替换为所述第二人脸。

各实施例的一种终端设备，可以与第二终端设备进行视频通话，所述终端设备包括处理器和存储器，所述存储器存储有计算机可读指令，可以使所述处理器：

接收第二终端发送的第二视频通话数据，所述第二视频通话数据包括第二视频图像数据，以及从所述第二视频图像数据中提取出的第二人脸特征点位置数据；

获取第一视频通话图像中第一人脸的人脸区域；

根据所述第二人脸数据，在所述第一视频通话图像中第一人脸的人脸区域绘制第二人脸，以便将所述第一视频通话图像中的第一人脸替换为所述第二人脸。

各实施例的一种视频通话中视频图像的处理方法可以应用于服务器，所述服务器为参与视频通话的终端进行视频通话数据传输，所述方法包括：

接收终端进行视频通话而发送的视频通话数据，所述视频通话数据包括第一终端和第二终端参与视频通话所发送的第一视频通话数据和第二视频通话数据；

从所述第一视频通话数据和第二视频通话数据提取分别对应于第一视频通话图像数据和第二视频通话图像数据的人脸特征点位置数据；

根据所述人脸特征点位置数据从所述第一视频通话图像数据和第二视频通话图像数据相应提取第一人脸数据和第二人脸数据；

根据所述第一人脸数据和第二人脸数据使第一视频通话图像数据和第二视频通话图像数据中的人脸发生替换，得到二者之间发生人脸替换的第一视频通话图像数据和第二视频通话图像数据，并向相应终端设备返回。

各实施例的一种服务器，所述服务器为参与视频通话的终端设备进行视频通话数据传输，所述服务器包括处理器和存储器，所述存储器存储有计算机可读指令可以使所述处理器：

接收终端设备进行视频通话而发送的视频通话数据，所述视频通话数据包括第一终端设备和第二终端设备参与视频通话所发送的第一视频通话数据和第二视频通话数据；

各实施例还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使处理器执行各实施例的方法。

由第二终端设备提供第二人脸特征点位置数据的各实施例中，第一终端设备从第二终端设备收到的第二视频图像数据是经过压缩后通过网络传输的，因此图像质量受到较大影响。而第一终端设备从第二视频图像数据中提取第二人脸数据是基于第二终端设备提供的第二人脸特征点位置数据，该数据是第二终端设备从第二终端设备的摄像头采集的视频图像数据中提取的，从而保证了第二人脸特征点位置数据的准确性，进而保证了第一终端设备提取的第二人脸数据的准确性。

由服务器执行人脸替换的各实施例中，通过服务器对视频通话过程中的第一终端设备和第二终端设备进行人脸替换，降低了对终端设备处理能力的要求，节约了终端设备的处理资源。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种实施环境中终端设备的示意图；

图2是根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图；

图3是根据一示例性实施例示出的进行人脸更换的示意图；

图4是根据另一示例性实施例示出的一种视频通话中视频图像的处理方法流程图；

图5是根据一示例性实施例示出的一种人脸识别获取人脸区域后提取人脸特征点位置数据的示意图；

图6是根据另一示例性实施例示出的一种视频通话中视频图像的处理方法流程图；

图7是根据一示例性实施例示出的视频通话中视频图像的处理方法中步骤S131的一种具体实现流程图；

图8是根据另一示例性实施例示出的一种视频通话中视频图像的处理方法流程图；

图9是根据一示例性实施例示出的一种视频通话中进行人脸更换的示意图；

图10是根据另一示例性实施例示出的一种视频通话中视频图像的处理方法流程图；

图11是据一示例性实施例示出的视频通话过程中数据传输架构图；

图12是在图11示出的数据传输架构下进行视频通话中视频图像的处理方法示意图；

图13是根据一示例性实施例示出的一种视频通话中视频图像的处理装置的框图；

图14是根据另一示例性实施例示出的一种视频通话中视频图像的处理装置的框图；

图15是根据另一示例性实施例示出的一种视频通话中视频图像的处理装置的框图；

图16是根据一示例性实施例示出的视频通话中视频图像的处理装置中纹理映射子模块131的一种具体实现流程图；

图17是根据另一示例性实施例示出的一种视频通话中视频图像的处理装置的框图；

图18是根据另一示例性实施例示出的一种视频通话中视频图像的处理装置的框图。

实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本申请提出一种视频通话中视频图像的处理方法、终端设备、服务器及存储介质。在一个实施例中，本公开涉及的实施环境包括：终端设备和装设在终端设备上的视频图像处理模组。其中，终端设备具有独立操作系统，独立运行空间，可以安装软件以及第三方服务商提供的软件。视频图像处理模组是能够对视频图像进行处理的硬件模块。

图1是根据一示例性实施例示出的一种装置100的框图。装置100可以应用于上述实施环境中的终端设备(简称终端)。

参考图1，装置100可以包括以下一个或者多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105，传感器组件107以及通信组件108。

处理组件101可以包括一个或多个处理器109来执行存储器102中存储的指令，以完成上述的方法的全部或部分步骤。

存储器102被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器102中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器109执行，以完成图2、图3、图4和图5任一所示方法中的全部或者部分步骤。

图2是根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图。该视频通话中视频图像的处理方法用于上述所示实施环境的终端设备中，例如，参与视频通话的第一终端，参与视频通话的终端还包括第二终端，如图2所示，该视频通话中视频图像的处理方法可以包括以下步骤。

在步骤S110中，接收第二终端发送的第二视频通话数据。

参与视频通话的终端包括第一终端和第二终端。可以理解的是，第一终端和第二终端均可作为接收端和发送端。视频通话过程中，第一终端接收第二终端传送的视频通话数据，并向第二终端发送其采集的视频通话数据，从而实现二者之间的视频通话。

第一终端接收的第二终端发送的第二视频通话数据中，包括用于显示第二视频通话图像的第二视频图像数据和从第二终端视频通话图像中提取出的第二人脸特征点位置数据。

人脸中包括有多种关键部位，例如，鼻子、眼睛、嘴巴、眉毛等。各关键部位均有其独特的特征。人脸特征点位置为各关键部位的特征点所在位置。

人脸特征点位置为各人脸特征点在视频通话图像中的位置。例如，鼻子、眼睛、嘴巴、眉毛等各关键部位的特征点在视频通话图像中的位置。

在一个示例性的实施例中，在对视频通话图像的关键部位进行识别后，获取表征各关键部位的特征点，在视频通话图像的坐标系中，获取各人脸特征点的坐标位置，即为人脸特征点位置。

第二人脸特征点位置数据是第二人脸特征点在第二视频图像数据中的位置数据。从第二视频图像数据中提取出第二人脸特征点位置数据的方式有多种，可以是根据第二视频图像数据，建立一个坐标系，进而根据第二人脸特征点在该坐标系中的坐标位置，提取第二人脸特征点位置数据；也可以按照预定的顺序对第二视频图像数据中各像素点进行编号，进而提取出第二人脸特征点的编号数据；还可以通过其他方式从第二视频图像数据中提取出第二人脸特征点位置数据，在此不作限定。

通过人脸特征点位置数据表征人脸特征点在视频通话图像中的位置，进而将人脸特征点位置数据随视频通话图像的视频图像数据一起发送，由于人脸特征点位置数据的数据量很小，因而对视频通话时视频通话数据发送的数据量几乎没有影响。

在步骤S120中，根据第二人脸特征点位置数据确定第二视频图像数据中的第二人脸特征点。

由于第二人脸特征点位置数据表征各人脸特征点在第二视频通话图像中的位置，因而根据第二人脸特征点位置数据，确定第二视频通话图像中的人脸特征点。

如上所述，第二人脸特征点位置数据是第二人脸特征点在第二视频图像数据中的位置数据。因而，根据第二人脸特征点位置数据，在第二视频图像数据中的相应位置提取第二人脸特征点。例如，第二人脸特征点位置数据为坐标数据时，根据第二人脸特征点的坐标，在第二视频图像数据中提取第二人脸特征点；第二人脸特征点位置数据为像素编号数据时，根据第二人脸特征点的像素编号，在第二视频图像数据中提取第二人脸特征点。

在步骤S130中，以第二人脸特征点为轮廓提取第二视频图像数据中的第二人脸数据。

在一示例性的实施例中，根据人脸特征点位置数据，在第二视频通话图像的第二视频图像数据中提取出第二人脸特征点的像素数据，以第二人脸特征点的为轮廓，在第二视频图像数据中提取第二人脸特征点轮廓内的所有人脸像素点，组成第二视频图像数据中的第二人脸数据。

在步骤S140中，获取第一视频通话图像中第一人脸的人脸区域。

第一视频通话图像中第一人脸的人脸区域是第一终端对其采集的第一视频图像数据进行人脸识别后而识别出的人脸区域。

在步骤S150中，根据第二人脸数据，在第一视频通话图像中第一人脸的人脸区域绘制第二特征人脸(即第二视频通话图像中的第二人脸，简称第二人脸)，以便将第一视频通话图像中的第一人脸替换为第二特征人脸。

需要说明的是，不同人脸数据中各人脸特征点的位置分布存在一定的差异，并且不同人脸数据对应的人脸区域大小可能存在一定的差别。因此人脸替换之前需对人脸进行绘制，以保证替换后的视频通话图像中，人脸和身体的布局相互协调，达到较好的视频特效效果。

第一视频通话图像中第一人脸的人脸区域为第一终端自身在获取采集的第一视频通话图像的视频图像数据后，进行人脸识别而识别出的人脸区域。

根据第一视频通话图像中第一人脸的人脸区域，采用第二人脸数据进行人脸的绘制，使绘制后得到的第二特征人脸大小及轮廓与第一视频通话图像中第一人脸的人脸区域一致。

实现第二特征人脸的绘制可以按照第二人脸数据中各人脸特征点的分布进行绘制；也可以按照第一视频通话图像中第一人脸的人脸区域大小及轮廓，采用第二人脸数据进行绘制；还可以采用其他的方式进行第二特征人脸的绘制，在此不作限定。

在进行第二特征人脸的绘制后，将该第二特征人脸置于第一视频通话图像中第一人脸的人脸区域，替换第一视频通话图像中的第一人脸。

图3是根据一示例性实施例示出的进行人脸更换的示意图。图3中，提取第二人脸数据后，按照第一视频通话图像中的人脸区域进行第二特征人脸的绘制，再将第二特征人脸替换第一视频通话图像中的第一人脸。

利用如上所述的方法，第一终端自身在接收第二终端发送的第二视频通话图像的第二视频图像数据和第二视频通话图像中的第二人脸特征点位置数据后，根据第二人脸特征点位置数据在第二视频图像数据中提取第二人脸数据，并采用第二人脸数据绘制出第二特征人脸，替换第一视频通话图像中的第一人脸。由于视频通话过程中进行视频图像数据与人脸特征点位置数据的传输，并根据人脸特征点位置数据进行人脸的提取，保证了人脸更换的准确性，且无需高网络带宽就能实现视频通话过程中的实时换脸。

图4是根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图。该视频通话中视频图像的处理方法还可以包括以下步骤。

在步骤S210中，获取自身采集的第一视频图像数据，第一视频图像数据用于显示第一视频通话图像。

在视频通话过程中，第一终端自身也将进行视频图像数据的采集，以实现视频通话时的图像显示。

在步骤S220中，对第一视频图像数据进行人脸识别，获取第一视频通话图像中第一人脸的人脸区域。

人脸识别是根据人脸中各关键部位的特征信息，识别视频通话图像中人脸的各关键部位，获取视频通话图像中的人脸区域。

可以采用多种方法实现对第一视频图像数据的人脸识别，例如ASM(Active Shape Models，主动形状模型)方法、AAM(Active Appearence Models，主动表观模型)方法、级联回归等算法等。

在一个示例性的实施例中，采用ASM方法进行人脸识别。ASM是基于PDM(Point Distribution Model，点分布模型)的方法，对于外形相似的物体的形状通过若干关键特征点的坐标串接起来以构成原始的形状向量。对训练集中的所有形状向量对齐后进行PCA(Principal Component Analysis，主成分分析)分析建模，保留的主成分形成最终的形状模型。进而针对视频通话时采集的第一视频通话数据，通过ASM搜索进行局部纹理信息的搜索匹配，形成迭代过程，使得形状模型最终匹配到输入的形状模式上去。

在一个示例性的实施例中，采用级联回归算法中的随机森林方法进行人脸识别，主要思路包含两个阶段：

(1)线下训练阶段：收集大量人脸特征点的训练样本(包含人脸图像，以及手工标定的特征点位置)，然后根据每个人脸特征点的局部二值这样一个图像特征建立随机森林(机器学习算法名词，一种级联回归器)，并对这类随机森林通过训练样本进行机器学习，得到所有随机森林里面所有节点的具体参数值。

(2)线上识别阶段：针对需进行人脸识别的视频图像数据，首先计算出视频图像数据中的所有局部二值特征，然后用线下训练阶段得到的随机森林对视频图像数据中的各特征点进行判别，得到最终的人脸特征点。

在步骤S230中，在第一人脸的人脸区域中提取第一视频通话图像中的第一人脸特征点位置数据。

第一视频通话数据中的人脸特征点位置数据表针各人脸特征点在第一视频通话图像中的位置。例如，鼻子、眼睛、嘴巴、眉毛等各关键部位的特征点在第一视频通话图像中的位置。

在一个示例性的实施例中，在对第一视频通话图像的关键部位进行识别后，获取表征各关键部位的特征点，在第一视频通话图像的坐标系中，获取各人脸特征点的坐标位置，即为第一视频通话图像中的人脸特征点位置。

图5是根据一示例性实施例示出的一种人脸识别获取人脸区域后提取人脸特征点位置数据的示意图。图5中，通过获取第一视频通话图像中人脸特征点的坐标位置，即为第一人脸特征点位置数据。

在步骤S240中，通过第一视频图像数据和第一人脸特征点位置数据得到第一视频通话数据，并向第二终端发送第一视频通话数据。

通过第一人脸特征点位置数据表征人脸特征点在第一视频通话图像中的位置，进而随第一视频通话图像的视频图像数据一起发送，由于第一人脸特征点位置的数据量很小，因而对视频通话时发送第一视频通话数据的数据量几乎没有影响。

例如，在终端2和终端1的视频通话过程中，终端1采集的视频通话图像数据为数据B。终端1将在数据B中提取人脸特征点位置数据B0，终端1将数据B和人脸特征点位置数据B0一起发送给终端2。

通常地，在向第二终端发送第一视频通话数据之前，还将对第一视频通话数据中的第一视频图像数据进行编码处理，调节对应第一视频通话图像的分辨率；类似的，接收到第二终端发送的第二视频通话数据中，第二视频图像数据也是经过编码处理的。从而在视频通话时，使经过编码后进行显示的第一视频通话图像与第二视频通话图像的分辨率相同，避免换脸后的视频通话图像中，因第一终端与第二终端的图像采集设备不同而导致身体与脸部的分辨率相差较大，造成图像不协调。

利用如上所述的方法，作为视频通话数据发送端的第一终端将在自身采集的第一视频图像数据中提取第一人脸特征点位置数据，进而将第一人脸特征点位置数据和第一视频图像数据一起发送给视频通话的对端，以根据人脸特征点位置数据提取人脸后实现视频通话过程中的实时换脸。

图6是根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图。针对图4所示的视频通话中视频图像的处理方法，步骤S230之前还可以包括以下步骤。

在步骤S260中，判断对应于第一视频通话图像的人脸数量是否大于一个，若为是，则执行步骤S270，若为否，则执行步骤S230。

可以理解的是，第一视频通话图像中可能存在两个或两个以上的人脸。当第一视频通话图像中的人脸数量为两个或两个以上时，需选取出一个人脸，作为第一视频通话图像中的第一人脸，进而将第一人脸作为与第二终端进行人脸交换的人脸区域。

在一个示例性的实施例中，当第一视频通话图像中存在多个人脸时，选取人脸区域面积最大的人脸作为第一视频通话图像中的第一人脸；当第一视频通话图像中存在的人脸区域面积相同的多个人脸时，随机选一个人脸。

在另一个示例性的实施例中，当第一视频通话图像中存在多个人脸时，选取与上一帧视频通话图像中的人脸区域有区域交叠的人脸；如果没有区域交叠的人脸区域，或者有区域重叠的人脸区域数量不只一个时，则选取人脸区域面积最大的人脸作为第一视频通话图像中的第一人脸。

在步骤S270中，获取各人脸的人脸区域面积。

在步骤S280中，选取人脸区域面积最大的一个人脸作为第一人脸，第一人脸的人脸区域将作为第一视频通话图像中提取第一人脸特征点位置数据的人脸区域。

利用如上所述的方法，视频通话图像中存在多个人脸时，选取一个人脸的人脸区域作为进行人脸替换的人脸区域，保证了人脸替换时的准确性。

根据一示例性实施例示出的对图2所示的视频通话中视频图像的处理方法中步骤S150的细节描述。该步骤S150可以包括以下步骤。

在步骤S151中，根据第二人脸特征点位置数据和第一视频通话图像中的第一人脸特征点位置数据，进行第二人脸数据在第一视频通话图像中的纹理映射，得到在第一视频通话图像中第一人脸的人脸区域绘制的第二特征人脸。

纹理映射是根据第一视频通话图像中的人脸特征点对第二人脸数据进行一系列人脸特征点变换，使变换后得到的第二特征人脸与第一视频通话图像中第一人脸的人脸区域大小及形状相一致。

可以理解的是，由于不同人的人脸不同、人脸在视频通话图像中的面积占比不同等因素，视频通话过程中采集到视频双方的视频通话图像中，人脸的大小及各关键部分的分布均存在一定的差异。

因此，在对第一视频通话图像进行人脸的替换之前，通过对第二视频图像数据中的第二人脸数据进行纹理映射，即根据第二人脸特征点位置数据和第一视频通话图像中的第一人脸特征点位置数据，对第二人脸数据进行纹理映射，以保证经纹理映射后得到的第二特征人脸与第一视频通话图像中第一人脸的人脸区域大小及形状相一致。

如前所述的，第一终端在对自身采集的第一视频图像数据进行人脸识别后，将获取第一视频通话图像中的第一人脸特征点位置数据及对应第一视频通话图像中第一人脸的人脸区域。

根据第一人脸特征点位置数据和第一视频通话图像中第一人脸的人脸区域，采用第二人脸数据进行第二特征人脸的绘制，使第二特征人脸与第一视频通话图像中的身体部分相协调。

实现对第二人脸数据进行纹理映射得到为第一视频通话图像中第一人脸的人脸区域绘制的第二特征人脸，可以根据第一视频图像数据中的第一人脸特征点位置数据，采用第二人脸数据进行纹理映射，得到绘制的第二特征人脸；也可以按照第一视频通话图像中第一人脸的人脸区域大小及轮廓，采用第二人脸数据进行纹理映射，得到第二特征人脸；还可以采用其他的方式对第二人脸数据进行纹理映射，在此不作限定。

利用如上所述的方法，根据第二人脸特征点位置数据和第一视频通话图像中的第一人脸特征点位置数据，为第一视频通话图像中第一人脸的人脸区域绘制第二特征人脸，保证了纹理映射后得到的第二特征人脸与第一视频通话图像中第一人脸的人脸区域大小与形状一致。

可选的，图7是根据一示例性实施例示出的对步骤S151的细节的描述。该步骤S151可以包括以下步骤。

在步骤S1511中，根据第二人脸特征点位置数据和第一视频通话图像中的第一人脸特征点位置数据，分别将第二人脸数据对应第二人脸的人脸区域和第一视频通话图像中第一人脸的人脸区域相应地分割成多个三角形区域。

需要说明的是，第一终端接收到第二终端发送的第二人脸特征点位置数据表征的人脸特征点数量，是与第一终端对其自身采集的第一视频图像数据进行人脸识别后提取的第一人脸特征点数量是相同的。

三角形区域是相邻任意三个人脸特征点相连接而形成的。

在步骤S1512中，按照第一人脸的人脸区域中的三角形区域，对第二人脸的人脸区域中相应的三角形区域进行变换，得到在第一视频通话图像中第一人脸的人脸区域绘制的第二特征人脸。

在一示例性实施例中，根据第一人脸特征点位置数据和第二人脸特征点位置数据，进行第二人脸数据在第一视频通话图像中的纹理映射的过程包括：

(1)人脸区域三角化：根据第一人脸特征点位置数据和第二人脸特征点位置数据，将第一视频通话图像中第一人脸的人脸区域和第二人脸数据对应第二人脸的人脸区域相应地分割成多个三角形，每个三角形的边都是相邻两个人脸特征点之间的连线。

(2)针对第一视频通话图像中第一人脸的人脸区域和第二人脸数据对应第二人脸的人脸区域中的每个对应三角形：将第一视频通话图像中第一人脸的人脸区域中任意三个人脸特征点X1、X2、X3对应的三角形triangle1图像，通过计算机图像计算内置函数，例如opengl纹理贴图、opencv的wrap Triangle方法等，根据三角形triangle1图像，对第二人脸数据中对应三个人脸特征点Y1、Y2、Y3对应的三角形triangle2图像进行缩放绘制。

利用如上所述的方法，根据第一人脸特征点位置数据和第二人脸特征点位置数据，通过人脸区域三角化后，按照第一人脸的人脸区域中的三角形区域对第二人脸数据对应第二人脸的人脸区域中相应的三角形区域进行变换，保证了变换后得到的第二特征人脸与第一视频通话图像中第一人脸的人脸区域大小与形状一致。

图8是根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图。针对图2所示的视频通话中视频图像的处理方法，步骤S120之后还可以包括以下步骤。

在步骤S310中，根据第二人脸数据得到第二视频通话图像中第二人脸的人脸区域。

在步骤S320中，根据第一视频通话图像中第一人脸的人脸区域对应的第一人脸数据，在第二视频通话图像中第二人脸的人脸区域绘制第一特征人脸，以便将第二视频通话图像中的第二人脸替换为第一特征人脸。

图9是根据一示例性实施例示出的一种视频通话中进行人脸更换的示意图。图9中，第一终端同时显示的视频通话图像包括第一视频通话图像和第二视频通话图像，第一终端通过对第一视频通话图像和第二视频通话图像进行人脸更换，显示的第一视频通话图像中的人脸为第二特征人脸，显示的第二视频通话图像中的人脸为第一特征人脸。

通过如上所述的方法，第一终端在显示的第二视频通话图像中，采用第一视频通话图像中的人脸对第二视频通话图像中的人脸区域进行替换显示，从而对第一视频通话图像和第二视频通话图像进行换脸后同时显示，实现视频通话过程中的实时换脸。

根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图。针对图2所示的视频通话中视频图像的处理方法，步骤S140之后还可以包括以下步骤。

在步骤中，在替换后的第一视频通话图像中，根据与第二特征人脸位置相邻的视频通话图像，对替换后的第二特征人脸进行图像融合。

图像融合是在替换绘制后的第一视频通话图像中，对替换后的第二特征人脸图像进行修调，使人脸边缘、人脸肤色、亮度、人脸图像品质等属性与周边的图像相融合，以实现人脸图像与身体图像的平缓过渡，提高视频通话图像的质量。

图10是根据一示例性实施例示出的一种视频通话中视频图像的处理方法流程图。该视频通话中视频图像的处理方法应用于服务器，服务器为参与视频通话的终端进行视频通话数据传输，该视频通话中视频图像的处理方法可以包括以下步骤。

在步骤S410中，接收终端进行视频通话而发送的视频通话数据，视频通话数据包括第一终端和第二终端参与视频通话所发送的第一视频通话数据和第二视频通话数据。

需要说明的是，视频通话的终端包括第一终端与第二终端，服务器为参与视频通话的第一终端与第二终端进行视频通话数据传输。

视频通话过程中，服务器将接收到第一终端与第二终端各自发送的视频通话数据，即第一视频通话数据和第二视频通话数据。

在步骤S420中，从第一视频通话数据和第二视频通话数据提取分别对应于第一视频通话图像数据和第二视频通话图像数据的人脸特征点位置数据。

需要说明的是，视频通话数据中包含有视频图像数据与人脸特征点位置数据，即，第一视频通话数据包括第一视频图像数据与第一人脸特征点位置数据，第二视频通话数据包括第二视频图像数据与第二人脸特征点位置数据。

因此，从第一视频通话数据中提取对应于第一视频通话图像数据的第一人脸特征点位置数据，从第二视频通话数据中提取对应于第二视频通话图像数据的第二人脸特征点位置数据。

在步骤S430中，根据人脸特征点位置数据从第一视频通话图像数据和第二视频通话图像数据相应提取第一人脸数据和第二人脸数据。

根据人脸特征点位置数据，在对应的视频图像数据中确定人脸特征点，进而以人脸特征点为轮廓在对应的视频图像数据中进行人脸数据的提取。

在步骤S440中，根据第一人脸数据和第二人脸数据使第一视频通话图像数据和第二视频通话图像数据中的人脸发生替换，得到二者之间发生人脸替换的第一视频通话图像数据和第二视频通话图像数据，并向相应终端返回。

向终端返回人脸替换的视频通话图像数据时，可以是将人脸替换后的第一视频通话图像数据返回给第一终端，将人脸替换后的第二视频通话图像数据返回给第二终端；也可以是将人脸替换后的第一视频通话图像数据返回给第二终端，将人脸替换后的第二视频通话图像数据返回给第一终端；还可以是将人脸替换后的第一视频通话图像数据和第二视频通话图像数据均返回给第一终端和第二终端。

通过如上所述的方法，通过服务器对视频通话过程中的第一终端和第二终端进行人脸替换，避免终端重复进行图像数据处理，提高了图像数据的处理效率。

下面结合一个具体的应用场景来详细阐述如上的视频通话中视频图像的处理方法。视频通话中视频图像的处理方法运行于一视频客户端中。具体的，图11是据一示例性实施例示出的视频通话过程中数据传输架构图。视频客户端1和视频客户端2的视频通话过程中，视频客户端1在采集视频通话图像的视频图像数据后，进行人脸识别，提取人脸特征点位置，并通过视频传输服务器向视频客户端2发送视频通话图像的视频图像数据和人脸特征点位置，同时，视频客户端1接收视频客户端2发送的视频通话图像的视频图像数据和人脸特征点位置。

图12是在图11示出的数据传输架构下进行视频通话中视频图像的处理方法示意图。

步骤S1110，人脸识别人脸区域及人脸特征点提取。视频客户端1对自身采集的第一视频通话图像的视频图像数据进行人脸识别，提取本地视频通话图像中人脸区域的人脸特征点位置。

步骤S1120，视频通话数据发送。视频客户端1向视频客户端2发送视频通话数据，视频通话数据包括本地视频通话图像的本地视频图像数据和本地视频通话图像中人脸区域的人脸特征点位置。

步骤S1130，对端视频通话数据接收。视频客户端1接收视频客户端2发送的对端视频通话图像的对端视频图像数据和从该对端视频通话图像中提取的人脸特征点位置。

步骤S1140，人脸数据提取。视频客户端1在根据人脸特征点位置在对端视频图像数据中提取对端人脸数据。

步骤S1150，人脸绘制。视频客户端1采用对端人脸数据为本地视频通话图像绘制对端人脸，采用本地视频通话图像中的人脸数据为对端视频通话图像绘制本地人脸。

步骤S1160，人脸替换。视频客户端1采用本地人脸替换对端视频通话图像中的人脸区域，并采用对端人脸替换本地视频通话图像中的人脸区域。

步骤S1170，图像融合。在替换后的本地视频通话图像和对端视频通话图像中，分别对替换后的本地人脸和对人脸进行图像融合。

下述为本公开装置实施例，可以用于执行本上述视频通话中视频图像的处理方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开视频通话中视频图像的处理方法实施例。

图13是根据一示例性实施例示出的一种视频通话中视频图像的处理装置的框图，其应用于参与视频通话的第一终端，参与视频通话的终端还包括第二终端，该装置包括但不限于：第二通话数据接收模块110、第二人脸特征点确定模块120、第二人脸数据提取模块130、人脸区域获取模块140及第二人脸绘制模块150。

第二通话数据接收模块110，用于接收第二终端发送的第二视频通话数据，第二视频通话数据包括第二视频图像数据，以及从第二视频图像数据中提取出的第二人脸特征点位置数据；

第二人脸特征点确定模块120，用于根据第二人脸特征点位置数据确定第二视频图像数据中的第二人脸特征点；

第二人脸数据提取模块130，用于以第二人脸特征点为轮廓提取第二视频图像数据中的第二人脸数据；

人脸区域获取模块140，用于获取第一视频通话图像中第一人脸的人脸区域；

第二特征人脸绘制模块150，用于根据第二人脸数据，在第一视频通话图像中第一人脸的人脸区域绘制第二特征人脸，以便将第一视频通话图像中的第一人脸替换为第二特征人脸。

上述装置中各个模块的功能和作用的实现过程具体详见上述视频通话中视频图像的处理方法中对应步骤的实现过程，在此不再赘述。

可选的，如图14所示，图13中的视频通话中视频图像的处理装置还包括但不限于：视频图像数据获取模块210、人脸识别模块220、第一特征点位置提取模块230和视频通话数据发送模块240。

视频图像数据获取模块210，用于获取自身采集的第一视频图像数据，第一视频图像数据用于显示第一视频通话图像；

人脸识别模块220，用于对第一视频图像数据进行人脸识别，获取第一视频通话图像中第一人脸的人脸区域；

第一特征点位置提取模块230，用于在第一人脸的人脸区域中提取第一视频通话图像中的第一人脸特征点位置数据；

视频通话数据发送模块240，用于通过第一视频图像数据和第一人脸特征点位置数据得到第一视频通话数据，并向第二终端发送第一视频通话数据。

可选的，如图15所示，图14中的视频通话中视频图像的处理装置还包括但不限于：人脸区域数量判断模块260、面积获取模块270和第一人脸确定模块280。

人脸数量判断模块260，用于断对应于第一视频通话图像的人脸数量是否大于一个；

面积获取模块270，用于当第一视频通话图像的人脸数量大于一个时，获取各人脸的人脸区域面积；

第一人脸确定模块280，用于选取人脸区域面积最大的一个人脸作为第一人脸，第一人脸的人脸区域将作为第一视频通话图像中提取第一人脸特征点位置数据的人脸区域。

可选的，第二特征人脸绘制模块150包括但不限于：纹理映射子模块151。

纹理映射子模块151，用于根据第二人脸特征点位置数据和第一视频通话图像中的第一人脸特征点位置数据，进行第二人脸数据在第一视频通话图像中的纹理映射，得到在第一视频通话图像中第一人脸的人脸区域绘制的第二特征人脸。

可选的，如图16所示，纹理映射子模块151包括但不限于：人脸区域分割单元1511和第二特征人脸绘制单元1512。

人脸区域分割单元1511，用于根据第二人脸特征点位置数据和第一视频通话图像中的第一人脸特征点位置数据，分别将第二人脸数据对应第二人脸的人脸区域和第一视频通话图像中第一人脸的人脸区域相应地分割成多个三角形区域；

第二特征人脸绘制单元1512，用于按照第一人脸的人脸区域中的三角形区域，对第二人脸的人脸区域中相应的三角形区域进行变换，得到在第一视频通话图像中第一人脸的人脸区域绘制的第二特征人脸。

可选的，如图17所示，图13中的视频通话中视频图像的处理装置还包括但不限于：人脸区域获取模块310和第一人脸绘制模块320。

人脸区域获取模块310，用于根据第二人脸数据得到第二视频通话图像中第二人脸的人脸区域；

第一特征人脸绘制模块320，用于根据第一视频通话图像中第一人脸的人脸区域对应的第一人脸数据，在第二视频通话图像中第二人脸的人脸区域绘制第一特征人脸，以便将第二视频通话图像中的第二人脸替换为第一特征人脸。

可选的，图13中的视频通话中视频图像的处理装置还包括但不限于：图像融合模块。

图像融合模块，用于在替换后的第一视频通话图像中，根据与第二特征人脸位置相邻的视频通话图像，对替换后的第二特征人脸进行图像融合。

图18是根据一示例性实施例示出的一种视频通话中视频图像的处理装置的框图，其应用于服务器，该服务器为参与视频通话的终端进行视频通话数据传输，该装置包括但不限于：终端数据接收模块410、特征点位置提取模块420、人脸数据提取模块430及人脸对换模块440。

终端数据接收模块410，用于接收终端进行视频通话而发送的视频通话数据，视频通话数据包括第一终端和第二终端参与视频通话所发送的第一视频通话数据和第二视频通话数据；

特征点位置提取模块420，用于从第一视频通话数据和第二视频通话数据提取分别对应于第一视频通话图像数据和第二视频通话图像数据的人脸特征点位置数据；

人脸数据提取模块430，用于根据人脸特征点位置数据从第一视频通话图像数据和第二视频通话图像数据相应提取第一人脸数据和第二人脸数据；

人脸对换模块440，用于根据第一人脸数据和第二人脸数据使第一视频通话图像数据和第二视频通话图像数据中的人脸发生替换，得到二者之间发生人脸替换的第一视频通话图像数据和第二视频通话图像数据，并向相应终端返回。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种视频通话中视频图像的处理方法，其应用于参与视频通话的第一终端设备，参与所述视频通话的终端设备还包括第二终端设备，其中，所述方法包括：

接收第二终端设备发送的第二视频通话数据，所述第二视频通话数据包括第二视频图像数据，以及从所述第二视频图像数据中提取出的第二人脸特征点位置数据；

根据所述第二人脸特征点位置数据确定所述第二视频图像数据中的第二人脸特征点；

以所述第二人脸特征点为轮廓提取所述第二视频图像数据中的第二人脸数据；

获取第一视频通话图像中第一人脸的人脸区域；

根据所述第二人脸数据，在所述第一视频通话图像中第一人脸的人脸区域绘制第二人脸，以便将所述第一视频通话图像中的第一人脸替换为所述第二人脸。
根据权利要求1所述的方法，其中，所述方法还包括：

获取自身采集的第一视频图像数据，所述第一视频图像数据用于显示第一视频通话图像；

对所述第一视频图像数据进行人脸识别，获取所述第一视频通话图像中第一人脸的人脸区域；

在所述第一人脸的人脸区域中提取所述第一视频通话图像中的第一人脸特征点位置数据；

通过所述第一视频图像数据和第一人脸特征点位置数据得到第一视频通话数据，并向所述第二终端设备发送所述第一视频通话数据。
根据权利要求2所述的方法，其中，所述在所述第一人脸的人脸区域中提取所述第一视频通话图像中的第一人脸特征点位置数据步骤之前，所述方法还包括：

判断对应于所述第一视频通话图像的人脸数量是否大于一个，若为是，则获取各人脸的人脸区域面积；

选取人脸区域面积最大的一个人脸作为第一人脸，所述第一人脸的人脸区域将作为所述第一视频通话图像中提取第一人脸特征点位置数据的人脸区域。
根据权利要求1所述的方法，其中，所述根据所述第二人脸数据，在所述第一视频通话图像中第一人脸的人脸区域绘制第二人脸，以便将所述第一视频通话图像中的第一人脸替换为所述第二人脸，包括：

根据所述第二人脸特征点位置数据和所述第一视频通话图像中的第一人脸特征点位置数据，进行所述第二人脸数据在所述第一视频通话图像中的纹理映射，得到在所述第一视频通话图像中第一人脸的人脸区域绘制的第二人脸。
根据权利要求4所述的方法，其中，所述根据所述第二人脸特征点位置数据和所述第一视频通话图像中的第一人脸特征点位置数据，进行所述第二人脸数据在所述第一视频通话图像中的纹理映射，得到在所述第一视频通话图像中第一人脸的人脸区域绘制的第二人脸，包括：

根据所述第二人脸特征点位置数据和所述第一视频通话图像中的第一人脸特征点位置数据，分别将所述第二人脸数据对应第二人脸的人脸区域和所述第一视频通话图像中第一人脸的人脸区域相应地分割成多个三角形区域；

按照所述第一人脸的人脸区域中的三角形区域，对所述第二人脸的人脸区域中相应的三角形区域进行变换，得到在所述第一视频通话图像中第一人脸的人脸区域绘制的第二人脸。
根据权利要求1所述的方法，其中，所述以所述第二人脸特征点为轮廓提取所述第二视频图像数据中的第二人脸数据步骤之后，所述方法还包括：

根据所述第二人脸数据得到所述第二视频通话图像中第二人脸的人脸区域；

根据所述第一视频通话图像中第一人脸的人脸区域对应的第一人脸数据，在所述第二视频通话图像中第二人脸的人脸区域绘制第一特征人脸，以便将所述第二视频通话图像中的第二人脸替换为所述第一特征人脸。
一种视频通话中视频图像的处理方法，其中，所述方法应用于服务器，所述服务器为参与视频通话的终端设备进行视频通话数据传输，所述方法包括：

接收终端设备进行视频通话而发送的视频通话数据，所述视频通话数据包括第一终端设备和第二终端设备参与视频通话所发送的第一视频通话数据和第二视频通话数据；

从所述第一视频通话数据和第二视频通话数据提取分别对应于第一视频通话图像数据和第二视频通话图像数据的人脸特征点位置数据；

根据所述人脸特征点位置数据从所述第一视频通话图像数据和第二视频通话图像数据相应提取第一人脸数据和第二人脸数据；

根据所述第一人脸数据和第二人脸数据使第一视频通话图像数据和第二视频通话图像数据中的人脸发生替换，得到二者之间发生人脸替换的第一视频通话图像数据和第二视频通话图像数据，并向相应终端设备返回。
一种终端设备，可以与第二终端设备进行视频通话，其中，所述终端设备包括处理器和存储器，所述存储器存储有计算机可读指令，可以使所述处理器：

接收第二终端设备发送的第二视频通话数据，所述第二视频通话数据包括第二视频图像数据，以及从所述第二视频图像数据中提取出的第二人脸特征点位置数据；

根据所述第二人脸特征点位置数据确定所述第二视频图像数据中的第二人脸特征点；

以所述第二人脸特征点为轮廓提取所述第二视频图像数据中的第二人脸数据；

获取第一视频通话图像中第一人脸的人脸区域；

根据所述第二人脸数据，在所述第一视频通话图像中第一人脸的人脸区域绘制第二人脸，以便将所述第一视频通话图像中的第一人脸替换为所述第二人脸。
根据权利要求8所述的终端设备，其中，所述计算机可读指令可以使所述处理器：

获取自身采集的第一视频图像数据，所述第一视频图像数据用于显示第一视频通话图像；

对所述第一视频图像数据进行人脸识别，获取所述第一视频通话图像中第一人脸的人脸区域；

在所述第一人脸的人脸区域中提取所述第一视频通话图像中的第一人脸特征点位置数据；

通过所述第一视频图像数据和第一人脸特征点位置数据得到第一视频通话数据，并向所述第二终端设备发送所述第一视频通话数据。
根据权利要求9所述的终端设备，其中，所述计算机可读指令可以使所述处理器：

断对应于所述第一视频通话图像的人脸数量是否大于一个；

当所述第一视频通话图像的人脸数量大于一个时，获取各人脸的人脸区域面积；

选取人脸区域面积最大的一个人脸作为第一人脸，所述第一人脸的人脸区域将作为所述第一视频通话图像中提取第一人脸特征点位置数据的人脸区域。
根据权利要求8所述的终端设备，其中，所述计算机可读指令可以使所述处理器：

根据所述第二人脸特征点位置数据和所述第一视频通话图像中的第一人脸特征点位置数据，进行所述第二人脸数据在所述第一视频通话图像中的纹理映射，得到在所述第一视频通话图像中第一人脸的人脸区域绘制的第二人脸。
根据权利要求11所述的终端设备，其中，所述计算机可读指令可以使所述处理器：

根据所述第二人脸特征点位置数据和所述第一视频通话图像中的第一人脸特征点位置数据，分别将所述第二人脸数据对应第二人脸的人脸区域和所述第一视频通话图像中第一人脸的人脸区域相应地分割成多个三角形区域；

按照所述第一人脸的人脸区域中的三角形区域，对所述第二人脸的人脸区域中相应的三角形区域进行变换，得到在所述第一视频通话图像中第一人脸的人脸区域绘制的第二人脸。
根据权利要求8所述的终端设备，其中，所述计算机可读指令可以使所述处理器：

根据所述第二人脸数据得到所述第二视频通话图像中第二人脸的人脸区域；

根据所述第一视频通话图像中第一人脸的人脸区域对应的第一人脸数据，在所述第二视频通话图像中第二人脸的人脸区域绘制第一特征人脸，以便将所述第二视频通话图像中的第二人脸替换为所述第一特征人脸。
一种服务器，所述服务器为参与视频通话的终端设备进行视频通话数据传输，所述服务器包括处理器和存储器，

所述存储器存储有计算机可读指令可以使所述处理器：

接收终端设备进行视频通话而发送的视频通话数据，所述视频通话数据包括第一终端设备和第二终端设备参与视频通话所发送的第一视频通话数据和第二视频通话数据；

从所述第一视频通话数据和第二视频通话数据提取分别对应于第一视频通话图像数据和第二视频通话图像数据的人脸特征点位置数据；

根据所述人脸特征点位置数据从所述第一视频通话图像数据和第二视频通话图像数据相应提取第一人脸数据和第二人脸数据；

根据所述第一人脸数据和第二人脸数据使第一视频通话图像数据和第二视频通话图像数据中的人脸发生替换，得到二者之间发生人脸替换的第一视频通话图像数据和第二视频通话图像数据，并向相应终端设备返回。
一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至6任一项所述的方法。
一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如权利要求7所述的方法。