WO2021139706A1

WO2021139706A1 - 图像处理的方法、设备及系统

Info

Publication number: WO2021139706A1
Application number: PCT/CN2021/070579
Authority: WO
Inventors: 梁运恺; 高扬; 叶威威
Original assignee: 华为技术有限公司
Priority date: 2020-01-08
Filing date: 2021-01-07
Publication date: 2021-07-15
Also published as: CN113099150B; CN113099150A

Abstract

本申请提供一种图像处理的方法、设备及系统，该方法包括：获取用户的第一帧面部图像，用户的第一帧面部图像包括多个面部器官图像。获取与多个面部器官图像相匹配的多个第一图像。向接收端发送用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，多个第一图像的索引用于获取多个第一图像，从而可以降低对网络带宽的要求，即在网络传输带宽有限的情况下，仍能保证较佳的视频效果。

Description

图像处理的方法、设备及系统

本申请要求在2020年1月8日提交中国专利局、申请号为202010018738.6、申请名称为“图像处理的方法、设备及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频技术领域，尤其涉及一种图像处理的方法、设备及系统。

背景技术

目前，视频通话是一种比语音通话更有效的远程交流互动方式，它除了能够传达声音信息外，还可以传递肢体动作与面部表情等信息，使双方的交流更加深入。

传统视频方式是一种实景视频方式，即本端利用摄像头实时采集参与视频的人物、背景等画面帧，并生成视频流，再将视频流通过网络传输至远端，以使远端进行视频呈现。然而，高分辨率的视频流传输对网络传输带宽要求较高，传统视频方式较难实现实时的高质量视频通话。甚至在网络环境较差的情况下，视频画面会出现丢包，花屏等现象。总之，在网络传输带宽有限的情况下，采用传统视频方式进行视频通话的效果不佳，影响了用户体验。

发明内容

本申请提供一种图像处理的方法、设备及系统，从而降低对网络传输带宽的要求，进而提高视频通话效果以及用户体验感。

第一方面，本申请提供一种图像处理方法，包括：获取用户的第一帧面部图像，用户的第一帧面部图像包括多个面部器官图像。获取与多个面部器官图像相匹配的多个第一图像。向接收端发送用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，多个第一图像的索引用于获取多个第一图像。

在本申请中，由于发送端无需向接收端发送用户的第一帧面部图像，而仅发送包括多个第一图像的索引的数据包即可。从而可以降低对网络带宽的要求，即在网络传输带宽有限的情况下，仍能保证较佳的视频效果。

可选的，多个面部器官图像是用户真实的面部器官的图像，多个第一图像是为用户虚拟的面部器官的图像。由于第一图像是用户虚拟的面部器官的图像，从而保护了用户的个人隐私，进而提高了本申请技术方案的适用范围。

可选的，获取与多个面部器官图像相匹配的多个第一图像，包括：对于多个面部器官图像中的每一个面部器官图像，将面部器官图像和与面部器官图像对应的标准器官图像进行对比，确定第一差异值。根据第一差异值获取面部器官图像相匹配的第一图像，面部器官图像相匹配的第一图像与标准器官图像的第二差异值与第一差异值满足第一条件。通过该方法可以有效的获取与多个面部器官图像相匹配的多个第一图像。

可选的，上述方法还包括发送端向接收端发送至少一个音频数据包，音频数据包的时间戳和用户的第一帧面部图像的数据包的时间戳相匹配。基于此，使用户在听觉和视觉上达到同步的效果。

可选的，上述方法还包括：获取用户的第二帧面部图像，用户的第二帧面部图像早于用户的第一帧面部图像。获取与用户的第二帧面部图像的多个面部器官图像相匹配的多个第二图像。向接收端发送用户的第二帧面部图像的数据包，用户的第二帧面部图像的数据包包括多个第二图像的索引，多个第二图像的索引用于获取多个第二图像。由于发送端无需向接收端发送用户的第二帧面部图像，而仅发送包括多个第二图像的索引的数据包即可。从而可以降低对网络带宽的要求，即在网络传输带宽有限的情况下，仍能保证较佳的视频效果。

可选的，上述方法还包括：接收接收端发送的指示信息，指示信息用于指示发送早于用户的第一帧面部图像的面部图像，也就是说，该指示信息用于指示发送早于用户的第一帧面部图像的面部图像的数据包。即不是所有情况下，发送端都要发送早于用户的第一帧面部图像的面部图像，从而降低对通信资源的消耗。

第二方面，本申请提供一种图像处理方法，包括：从发送端接收用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，用户的第一帧面部图像包括多个面部器官图像，多个第一图像与多个面部器官图像相匹配。获取多个第一图像。根据多个第一图像生成接收端第一帧面部图像。由于发送端无需向接收端发送用户的第一帧面部图像，而仅发送包括多个第一图像的索引的数据包即可。从而可以降低对网络带宽的要求，即在网络传输带宽有限的情况下，仍能保证较佳的视频效果。

可选的，多个面部器官图像是用户真实的面部器官的图像，多个第一图像是为用户虚拟的面部器官的图像。

可选的，上述方法还包括：接收来自发送端的至少一个音频数据包，音频数据包的时间戳和用户的第一帧面部图像的数据包的时间戳相匹配。基于此，使用户在听觉和视觉上达到同步的效果。

可选的，上述方法还包括：从发送端接收用户的第二帧面部图像的数据包，用户的第二帧面部图像早于用户的第一帧面部图像，用户的第二帧面部图像的数据包包括多个第二图像的索引，多个第二图像与用户的第二帧面部图像包括的多个面部器官图像相匹配。由于发送端无需向接收端发送用户的第二帧面部图像，而仅发送包括多个第二图像的索引的数据包即可。从而可以降低对网络带宽的要求，即在网络传输带宽有限的情况下，仍能保证较佳的视频效果。

可选的，上述方法还包括：向发送端发送指示信息，指示信息用于指示发送早于用户的第一帧面部图像的面部图像。即不是所有情况下，只有在发送端接收到该指示信息时，发送端才发送早于用户的第一帧面部图像的面部图像，从而降低对通信资源的消耗。

可选的，上述方法还包括：若已生成接收端第一帧面部图像，则丢弃用户的第二帧面部图像的数据包。而无需生成接收端第二帧面部图像，从而降低对接收端功耗。

可选的，上述方法还包括：若还未生成与用户的第三帧面部图像对应的接收端第三帧面部图像，其中，用户的第三帧面部图像早于用户的第二帧面部图像，则根据用户的第二帧面部图像的数据包生成接收端第二帧面部图像。

可选的，当接收端侧的用户同时和多个发端侧的用户进行视频时，接收端通过AR/VR技术生成视频背景图像，使得多个接收端第一帧面部图像能被融合至一个背景场景下，从而可以提高用户的体验感和互动性。

下面将介绍图像处理装置、设备、系统、存储介质及计算机程序产品，其效果和参考上述方法部分对应的效果，下面对此不再赘述。

第三方面，本申请提供一种图像处理装置，包括：第一获取模块、第二获取模块和第一发送模块。其中，第一获取模块用于获取用户的第一帧面部图像，用户的第一帧面部图像包括多个面部器官图像。第二获取模块用于获取与多个面部器官图像相匹配的多个第一图像。第一发送模块用于向接收端发送用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，多个第一图像的索引用于获取多个第一图像。

第四方面，本申请提供一种图像处理装置，包括：第一接收模块、第一获取模块、第一生成模块。其中，第一接收模块用于从发送端接收用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，用户的第一帧面部图像包括多个面部器官图像，多个第一图像与多个面部器官图像相匹配。第一获取模块用于获取多个第一图像。第一生成模块用于根据多个第一图像生成接收端第一帧面部图像。

第五方面，本申请提供一种终端设备，包括：存储器和处理器。存储器存储有可被处理器执行的指令，指令被处理器执行，以使处理器能够执行第一方面、第二方面、第一方面的可选方式、第二方面的可选方式中任一项的方法。

第六方面，本申请提供一种计算机可读存储介质，存储介质存储有计算机指令，计算机指令用于使计算机执行如第一方面、第二方面、第一方面的可选方式、第二方面的可选方式中任一项的方法。

第七方面，本申请提供一种计算机程序产品，该计算机程序产品存储有计算机指令，计算机指令用于使计算机执行如第一方面、第二方面、第一方面的可选方式、第二方面的可选方式中任一项的方法。

综上，本申请提供一种图像处理的方法、设备及系统，在发送端和接收端配置图像样本库，发送端和接收端之间传递样本库中的图像索引以实现图像的传递，从而减少对网络传输的带宽要求，进而提高视频通话效果和用户体验感。进一步的，将视频场景建立在AR或者VR技术上，利用虚拟的人物和视频场景传递丰富的表情与姿态信息，从而可以保护用户的个人隐私。更进一步地，当接收端侧的用户同时和多个发端侧的用户进行视频时，接收端通过AR/VR技术生成视频背景图像，使得多个接收端第一帧面部图像能被融合至一个背景场景下，从而可以提高用户的体验感和互动性。

附图说明

图1为本申请实施例提供的系统架构图；

图2为本申请实施例提供的图像处理方法的流程图；

图3为本申请实施例提供的图像处理过程的示意图；

图4为本申请另一实施例提供的图像处理方法的流程图；

图5为本申请实施例提供的音频数据包序列和面部图像的数据包序列的示意图；

图6为本申请一实施例提供的第一数据包以及第一缓存队列的示意图；

图7为本申请一实施例提供的接收端对面部图像的数据包的处理方法流程图；

图8为本申请一实施例提供的图像处理示意图；

图9为本申请另一实施例提供的图像处理示意图；

图10为本申请再一实施例提供的图像处理示意图；

图11为本申请一实施例提供的一种图像处理装置的示意图；

图12为本申请另一实施例提供的一种图像处理装置的示意图；

图13为本申请一实施例提供的终端设备的示意图；

图14为本申请一实施例提供的一种图像处理系统的示意图。

具体实施方式

传统视频方式是一种实景视频方式，即本端利用摄像头实时采集参与视频的人物、背景等画面帧，并生成视频流，再将视频流通过网络传输至远端，以使远端进行视频呈现。然而，传统视频方式在网络传输带宽有限的情况下，采用传统视频方式进行视频通话的效果不佳，影响用户体验。进一步的，传统视频方式容易暴露个人的穿着打扮、所处地点或精神状态等个人隐私，导致传统视频方式的使用范围较窄。

为解决上述问题，本申请提供一种图像处理的方法、设备及系统。其中，本申请的主旨思想是：在发送端和接收端配置图像样本库，发送端和接收端之间传递样本库中的图像索引以实现图像的传递，从而减少对网络传输的带宽要求。进一步的，将视频场景建立在增强现实(augmented reality，AR)或者虚拟现实(virtual reality，VR)技术上，利用虚拟的人物和视频场景传递丰富的表情与姿态信息。

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请实施例的技术方案进行描述。

本申请实施例的技术方案可以应用于各种通信系统，例如第三代(3 generation，3G)移动通信系统、第四代(4 generation，4G)移动通信系统、第五代(5 generation，5G)移动通信系统、新空口(new radio，NR)或者无线保真(wireless fidelity，WiFi)等网络。

示例性地，图1为本申请实施例提供的系统架构图，如图1所示，发送端11和接收端12上均具有摄像头，通过该摄像头可以进行图像采集，发送端11和接收端12在信令面采用会话初始协议(session initiation protocol，SIP)，媒体面采用实时传输协议(real-time transport protocol，RTP)或者实时传输控制协议(real-time control protocol，RTCP)，因此发送端11采用RTP或者RTCP向接收端12发送面部图像的数据包。其中，发送端11可以调用实时网络(real-time network，RTN)软件开发工具包(software development kit，SDK)将面部图像的数据包通过RTN发送给服务器 13，服务器13将该面部图像的数据包转发给接收端12。接收端12调用RTN SDK接收面部图像的数据包，接收端12按照RTP数据包的格式对面部图像的数据包进行解析，接收端12根据解析后的数据包，通过图形处理器(graphics processing unit，GPU)或者网络处理器(network process units，NPU)，实现图像三维(3-dimension，3D)渲染功能。其中，如图1所示，GPU/NPU的虚线框表示的是GPU/NPU在终端设备内部，而不是在终端设备的显示屏上显示的。上述终端设备可以是手机或者AR/VR设备等，例如是VR头显设备、AR眼镜等。

需要说明的是，上述发送端和接收端可以不通过服务器进行数据传输，即二者可以直连，以进行数据传输，例如：发送端调用RTN SDK将面部图像的数据包通过RTN发送给接收端。接收端调用RTN SDK接收面部图像的数据包，接收端按照RTP数据包的格式对面部图像的数据包进行解析，并根据解析后的数据包，通过GPU或者NPU实现图像3D渲染功能。

下面将对本申请技术方案进行详细阐述：

图2为本申请实施例提供的图像处理方法的流程图，该方法涉及发送端和接收端，该发送端和接收端可以分别是两个不同的终端设备，例如是两个不同的手机，或者，发送端是手机，接收端是AR/VR设备，或者，发送端是AR/VR设备，接收端是手机等，本申请对此不做限制。如图2所示，该方法包括如下步骤：

步骤S201：发送端获取用户的第一帧面部图像，用户的第一帧面部图像包括多个面部器官图像。

步骤S202：发送端获取与多个面部器官图像相匹配的多个第一图像。

步骤S203：发送端向接收端发送用户的第一帧面部图像的数据包，该数据包包括多个第一图像的索引，多个第一图像的索引用于获取多个第一图像。

步骤S204：接收端获取多个第一图像。

步骤S205：接收端根据多个第一图像生成接收端第一帧面部图像。

结合步骤S201至步骤S203进行说明：

在视频通话场景下，发送端通过自己的摄像头，如前置摄像头采集用户的画面，可以得到多帧面部图像。这里的用户的第一帧面部图像表示当前帧面部图像，它可以是用户的首帧面部图像，也可以不是首帧面部图像，这里的“第一”仅仅是与下文将要提到的第二帧面部图像作以区别，没有实际的含义。该用户的第一帧面部图像所包括的多个面部器官图像均是用户真实的面部器官的图像。需要说明的是，上述面部器官可以是粒度较粗意义上的面部器官，比如可以是眼睛、鼻子、嘴巴、耳朵等。也可以是粒度较细意义上的面部器官，比如是眼球、眼白、眼睫毛、左侧鼻翼、右侧鼻翼、鼻梁等。

针对一个面部器官图像，所谓与该面部器官图像相匹配的第一图像意味着第一图像所呈现出的面部器官特征与该面部器官图像所呈现出的面部器官特征相近似。例如，第一图像可以是满足如下条件的第一图像：该第一图像与该面部器官图像的差异最小，或者该第一图像与该面部器官图像的差异的绝对值小于预设阈值。又或者，假设该面部器官图像和与该面部器官图像对应的标准器官图像的差异值为第一差异值，该第一图像与该标准器官图像的差异值为第二差异值，该第二差异值与第一差异值的差值最小，或者该第二差异值与第一差异值的差异的绝对值小于预设阈值。其中，任一面部器官图像对应的标准器官图像是指该面部器官对应的标准图像，比如面部器官是眼睛，其对应的标准器官图像是眼睛对应的标准图像。

可选的，本申请中的第一图像是为用户虚拟的面部器官的图像，即是面部器官的虚拟图像，该虚拟图像可以被理解为卡通人物面部器官的图像或者是明星面部器官的图像等。

可选的，通过以下方式，获取该多个第一图像：针对上述多个面部器官图像中的每一个面部器官图像，根据该面部器官图像获取第一图像，其中，该第一图像与该面部器官图像的差异最小。例如，若用户的第一帧面部图像为用户大笑时的画面，多个面部器官图像包括眉毛、眯着的眼睛、鼻子、上扬的嘴巴和耳朵的图像，针对眯着的眼睛的图像，将该图像和样本库中的至少一个眼睛的图像进行对比，获取与该图像的差异最小的眼睛的图像，该差异最小的眼睛的图像即为第一图像。或者，该第一图像与该面部器官图像的差异值的绝对值小于预设阈值。该预设阈值可以根据实际情况设置。仍以上述用户的第一帧面部图像为用户大笑时的画面为例，针对眯着的眼睛的图像，将该图像和样本库中的至少一个眼睛的图像进行对比，获取与该图像的差异值的绝对值小于预设阈值的眼睛的图像，该差异值的绝对值小于预设阈值的眼睛的图像即为第一图像。

又或者，针对上述多个面部器官图像中的每一个面部器官图像，将该面部器官图像和与该面部器官图像对应的标准器官图像进行对比，确定第一差异值；根据第一差异值获取该面部器官图像对应的第一图像，其中，该第二差异值和第一差异值的差值最小。例如，若用户的第一帧面部图像为用户大笑时的画面，多个面部器官图像包括眉毛、眯着的眼睛、鼻子、上扬的嘴巴和耳朵的图像，针对眯着的眼睛的图像，确定该图像与标准眼睛的图像的第一差异值，确定样本库中至少一个眼睛的图像与该标准眼睛的图像的第二差异值，获取第二差异值和第一差异值的差值最小的眼睛的图像，该差值最小的眼睛的图像即为第一图像。或者，第一图像与标准器官图像的第二差异值与第一差异值的差值的绝对值小于预设阈值，该预设阈值可以根据实际情况设置。仍以上述用户的第一帧面部图像为用户大笑时的画面为例，针对眯着的眼睛的图像，确定该图像与标准眼睛的图像的第一差异值，确定样本库中至少一个眼睛的图像与该标准眼睛的图像的第二差异值，获取第二差异值与第一差异值的差值的绝对值小于预设阈值的眼睛的图像，该差值的绝对值小于预设阈值的眼睛的图像即为第一图像。

其中，发送端可以通过如下方式确定面部器官图像和该面部器官图像对应的标准器官图像的第一差异值，但不限于此：

可选方式一：发送端获取该面部器官图像中多个第一像素点的像素值，并获取样本库中各个标准器官图像中多个第二像素点的像素值，其中多个第一像素点和多个第二像素点一一对应。进一步地，发送端针对每个标准器官图像，发送端计算多个第一像素点与该标准器官图像中的多个第二像素点的像素值之差的绝对值，并对所有绝对值相加，以得到第一差异值。

可选方式二：发送端获取该面部器官图像中多个第一像素点的像素值，并获取样本库中各个标准器官图像中多个第二像素点的像素值，其中多个第一像素点和多个第二像素点一一对应。进一步地，发送端针对每个标准器官图像，发送端计算多个第一像素点与该标准器官图像中的多个第二像素点的像素值之差的绝对值，并对所有绝对值求平方和，以得到第一差异值。

同样，发送端计算第二差异值的方法与计算第一差异值的方法相同，本申请对此不再赘述。

其中，上述各个标准器官图像和/或各个第一图像可以在发送端本地样本库中或者在云端的样本库中，本申请对此不做限制。

上述多个第一图像的索引与多个第一图像一一对应，可选的，每个索引是浮点型数值，多个第一图像的索引个数范围是【70，312】。可选的，每个索引是整型数值。通过该索引，接收端可以在样本库中获取与该索引对应的第一图像。

需要说明的是，第一图像可以以面部器官特征值的形式存储在样本库中。如果接收端存储的是第一图像的特征值，那么接收端是根据多个第一图像分别对应的特征值生成接收端第一帧面部图像。

针对步骤S204和步骤S205进行说明：

图3为本申请实施例提供的图像处理过程的示意图，如图3所示，接收端在本地样本库或者云端样本库中存储有各个索引(即图3所示的索引1、2……70，这里的数字表示的并不是索引为该数字，而仅仅是为了区分这70个索引)对应的各个面部器官(如眼睛、嘴巴、鼻子、脸颊等)的第一图像，接收端的本地样本库或者云端样本库中存储有各个面部器官的第一图像和各个第一图像的索引。基于此，接收端可以根据各个第一图像的索引确定各个第一图像。例如：若接收端接收到眯着的眼睛对应的第一图像的索引，则接收端根据该索引确定眯着的眼睛的第一图像。

可选方式一：接收端获取到多个第一图像之后，通过3D模型，对这些第一图像进行渲染，以生成接收端第一帧面部图像，该接收端第一帧面部图像为虚拟图像。

可选方式二：为了防止用户的第一帧面部图像的数据包中不能完全包括所有面部器官的索引，或者，在传输该用户的第一帧面部图像的数据包时，造成该用户的第一帧面部图像的数据包中有一些索引丢失的情况。接收端还可以获取用户的其他至少一帧面部图像(下述以用户的第二帧面部图像为例)的数据包。用户的第二帧面部图像的数据包包括多个面部器官的多个第二图像的索引，通过多个第二图像的索引可以确定多个第二图像，第二图像也是虚拟图像。基于此，接收端可以结合用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包，来生成接收端第一帧面部图像。其中，“结合用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包，来生成接收端第一帧面部图像”指的是：若接收端接收到的用户的第一帧面部图像的数据包存在某面部器官对应的索引，则通过该索引获取该面部器官对应的第一图像，并将该第一图像作为接收端第一帧面部图像的组成部分；若接收端接收到的用户的第一帧面部图像的数据包不包括某面部器官对应的索引，且用户的第二帧面部图像的数据包包括该面部器官对应的索引，则接收端通过该索引获取该面部器官对应的图像，并将该图像作为接收端第一帧面部图像的组成部分。

或者，按照面部图像的数据包的接收顺序，若上述其他至少一帧面部图像的数据包中最早接收到的一个存在某面部器官对应的索引，则通过该索引获取该面部器官对应的图像，并将该图像作为接收端第一帧面部图像的组成部分。若最早接收到的一个面部图像的数据包不包括某面部器官对应的索引，它之后的面部图像的数据包或者用户的第一帧面部图像的数据包包括该面部器官对应的索引，则接收端通过该索引获取该面部器官对应的图像，并将该图像作为接收端第一帧面部图像的组成部分。

可选的，接收端通过AR/VR技术生成视频背景图像。例如：当接收端侧的用户同时和多个发端侧的用户进行视频时，接收端通过AR/VR技术生成视频背景图像，使得多个用户各自的接收端第一帧面部图像能被融合至一个背景场景下。

可选的，接收端可以选择与接收端第一帧面部图像适配的视频背景图像，比如：若接收端第一帧面部图像是卡通人物面部器官的图像，则接收端选择卡通背景图像。若接收端第一帧面部图像是明星面部器官的图像，则接收端选择明星参与的影视作品的海报图像作为视频背景图像。其中，接收端第一帧面部图像与视频背景图像具有对应关系，该对应关系是一对一、一对多、多对一、或者多对多关系。例如：当进行两人视频时，即接收端显示屏上目前显示一个用户对应的接收端第一帧面部图像，该接收端第一帧面部图像可以对应一个视频背景图像或者多个视频背景图像，当该接收端第一帧面部图像对应多个视频背景图像时，接收端可以在多个视频背景图像中任意选择一个视频背景图像，或者按照预设规则选择一个视频背景图像。当进三人及三人以上的视频时，即接收端显示屏上目前显示多个用户对应的接收端第一帧面部图像，这些接收端第一帧面部图像可以对应一个视频背景图像或者多个视频背景图像，当这些接收端第一帧面部图像对应多个视频背景图像时，接收端可以在多个视频背景图像中任意选择一个视频背景图像，或者按照预设规则选择一个视频背景图像。

可选的，在本申请中，接收端还可以对接收端第一帧面部图像进行旋转、缩放等，还可以在面部图像上添加表情特效或者手势特效等，以增加趣味性。

综上，本申请提供一种图像处理方法，首先，由于发送端无需向接收端发送用户的第一帧面部图像，而仅发送包括多个第一图像的索引的数据包即可。从而可以降低对网络带宽的要求，即在网络传输带宽有限的情况下，仍能保证较佳的视频效果。例如：目前传统视频在高清高帧率的视频画面的情况下，其占用带宽较大。一般情况下，若要在接收端呈现2K画质的视频画面，传统视频方式则需要传输2K视频的视频画面帧，以30每秒传输帧数(frames per second，FPS)、H264编码方式进行编码，其传输过程需要的带宽约为8兆比特每秒(million bits per second，Mbps)。而若采用本申请提供的图像处理方法，即发送端仅发送包括各个面部器官对应的索引的数据包，若要在接收端呈现2K画质的视频画面，用户的第一帧面部图像的数据包占用带宽约为：

帧率*用户的第一帧面部图像的数据包中索引个数*每浮点数比特位/千(计算机)/文本压缩率＝带宽

假设帧率为30FPS，用户的第一帧面部图像的数据包中索引个数为70，每浮点数比特位为32bit/float、千(计算机)为1024kb、文本压缩率为10，则计算得到带宽为6.56千比特每秒(kilobit per second，kbps)，该带宽约为在传统视频方式下占用带宽的1/1250。因此，本申请还可以按60FPS、90FPS甚至大于500FPS的帧率采集面部图像的数据包，从而更加连贯地、精细地呈现视频画面。

其次，本申请提供的图像处理方法，不会暴露个人的穿着打扮、所处地点或精神状态等个人隐私，从而可以扩大本申请技术方案的使用范围。

最后，当接收端侧的用户同时和多个发端侧的用户进行视频时，接收端通过AR/VR技术生成视频背景图像，使得多个接收端第一帧面部图像能被融合至一个背景场景下，从而可以提高用户的体验感和互动性。

在上一实施例的基础上，发送端还向接收端发送音频数据包，使用户在听觉和视觉上达到同步的效果。因此，接收端需要对接收端第一帧面部图像和至少一个音频数据包进行数据同步。具体地，图4为本申请另一实施例提供的图像处理方法的流程图，如图4所示，图像处理方法还包括如下步骤：

步骤S401：发送端获取用户的第一帧面部图像，用户的第一帧面部图像包括多个面部器官图像。

步骤S402：发送端获取与多个面部器官图像相匹配的多个第一图像。

步骤S403：发送端向接收端发送用户的第一帧面部图像的数据包，该数据包包括多个第一图像的索引，多个第一图像的索引用于获取多个第一图像。

步骤S404：接收端获取多个第一图像。

步骤S405：接收端根据多个第一图像生成接收端第一帧面部图像。

步骤S406：发送端向接收端发送至少一个音频数据包。

步骤S407：接收端显示接收端第一帧面部图像，并同步上述至少一个音频数据包。

其中，步骤S401至步骤S405，与，步骤S201至步骤S205相同，其内容可参考步骤S201至步骤S205的内容，对此不再赘述。

针对步骤S406进行说明：至少一个音频数据包的时间戳和用户的第一帧面部图像的数据包的时间戳相匹配。所谓“至少一个音频数据包的时间戳和用户的第一帧面部图像的数据包的时间戳相匹配”指的是：上述至少一个音频数据包中各个音频数据包的时间戳大于或等于该用户的第一帧面部图像的数据包的时间戳，且上述至少一个音频数据包中各个音频数据包的时间戳小于该用户的第一帧面部图像的数据包的下一个数据包的时间戳。例如：用户的第一帧面部图像的数据包的时间戳为n，至少一个音频数据包中各个音频数据包的时间戳为n、n+160、n+320……和n+2880的音频数据包，用户的第一帧面部图像的数据的下一个数据包的时间戳为n+3000。

其中，任一个音频数据包或者面部图像的数据包中的时间戳反映了该数据包的第一个八位组的采样时刻。在RTP中，时间戳占用32个比特位。

在一次视频中，发送端可以对时间戳的初始值进行随机设置。比如：设置为n。假设上述用户的第一帧面部图像的数据包为这一次视频中的首帧面部图像的数据包，则该用户的第一帧面部图像的数据包的时间戳为n，并且上述至少一个音频数据包中的第一个音频数据包的时间戳也为n。

其中，发送端按照音频数据包的采集频率得到多个音频数据包，并按照面部图像的数据包的采集频率得到多个面部图像的数据包。例如：音频数据包的采集频率为8千赫兹(kilo hertz，kHz)，每0.02秒(seconds，S)打包一个音频数据包，则相邻音频数据包的时间戳增量为：0.02*8000＝160S。面部图像的数据包的采集频率为90kHz，每(1/30)S打包一个面部图像的数据包，则相邻面部图像的数据包的时间戳增量为：(1/30)*90*1000＝3000S。图5为本申请实施例提供的音频数据包序列和面部图像的数据包序列的示意图，如图5所示，第一行是由多个音频数据包构成的音频数据包序列，第二行是由多帧面部图像的数据包构成的面部图像的数据包序列，音频数据包序列中第T帧音频数据包的时间戳为n，第T+1帧音频数据包的时间戳为n+160……第T+18帧音频数据包的时间戳为n+2880，第T+19帧音频数据包的时间戳为n+3040……第T+38帧音频数据包的时间戳为n+6080。面部图像的数据包序列中第T帧面部图像的数据包的时间戳为n，第T+1帧面部图像的数据包的时间戳为n+3000……第T+2帧面部图像的数据包的时间戳为n+6000。

针对步骤S407进行说明：接收端在生成接收端第一帧面部图像时，还会生成接收端第一帧面部图像的时间戳，该时间戳可以是用户的第一帧面部图像的数据包的时间戳。进一步地，接收端采用和发送端相同的准则，确定时间戳相匹配的音频数据包和接收端面部图像。例如：时间戳为n的接收端第一帧面部图像，与其相匹配的至少一个音频数据包是时间戳为n、n+160、n+320……和n+2880的音频数据包。

接收端第一帧面部图像和上述至少一个音频数据包是需要同步，因此，终端设备在显示接收端第一帧面部图像同时，同步播放至少一个音频数据包的内容。例如，显示接收端第一帧面部图像的同时，同步播放n、n+160、n+320……和n+2880的音频数据包。

需要说明的是，上述步骤S406中部分内容与步骤S403可以同时进行，而步骤S406中另一部分内容在步骤S403之后执行，比如上述至少一个音频数据包中的第一个音频数据包和用户的第一帧面部图像的数据包需要同时被发送至接收端。而上述至少一个音频数据包中除第一个音频数据包中的其他音频数据包在用户的第一帧面部图像的数据包之后被发送。

综上，在本申请中，接收端在显示接收端第一帧面部图像的同时，可以同步播放与其相匹配的至少一个音频数据包，从而使用户在听觉和视觉上达到同步的效果。

可选的，接收端还从发送端接收用户的第二帧面部图像的数据包，用户的第二帧面部图像早于用户的第一帧面部图像，即用户的第二帧面部图像的生成时间早于用户的第一帧面部图像的生成时间。用户的第二帧面部图像的数据包包括多个第二图像的索引，用户的第二帧面部图像包括多个面部器官图像，多个第二图像与该多个面部器官图像相匹配。其中，发送端可以将该用户的第一帧面部图像和用户的第二帧面部图像分开发送给接收端。例如：发送端先发送用户的第一帧面部图像，再发送用户的第二帧面部图像。或者，发送端可以将该用户的第一帧面部图像和用户的第二帧面部图像一起发送给接收端，例如：发送端可以向接收端发送第一数据包，第一数据包包括用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包。需注意的是，发送面部图像，也可以理解为发送面部图像的数据包。

其中，接收端可以向发送端发送指示信息，该指示信息用于指示发送早于用户的第一帧面部图像的面部图像。发送端根据该指示信息，向接收端发送用户的第二帧面部图像的数据包。

进一步的，该指示信息可以指示发送用户的第一帧面部图像时携带早于用户的第一帧面部图像的面部图像。考虑到发送端始终一起发送用户的第一帧面部图像和早于用户的第一帧面部图像，会增加发送端的传输负担，因此，接收端可以在自己连续多次未接收到连续的面部图像的数据包时，向发送端发送该指示信息。

然而，对于接收端而言，在有些情况下，其并不需要用户的第二帧面部图像的数据包。例如：若接收端已根据用户的第一帧面部图像的数据包生成接收端第一帧面部图像的数据包，那么接收端无需根据用户的第二帧面部图像的数据包生成接收端第二帧面部图像，则丢弃用户的第二帧面部图像的数据包。

相反地，若接收端还未根据用户的第三帧面部图像生成接收端第三帧面部图像，那么接收端可以根据用户的第二帧面部图像的数据包生成接收端第二帧面部图像，其中，用户的第三帧面部图像的数据包的生成时间早于用户的第二帧面部图像的数据包的生成时间。

发送端在向接收端分开发送多个面部图像的数据包时，有些面部图像的数据包由于网络状态不佳等原因会被延迟接收，因此接收端可以增加同步等待时长，该同步等待时长指的是接收端等待上述延迟接收的面部图像的数据包的时长，该同步等待时长可以是20毫秒、30毫秒等，本申请对此不做限制。

为了防止面部图像的数据包丢包的情况，发送端可以将用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包一起发送给接收端。其中，用户的第二帧面部图像的数据包与用户的第一帧面部图像的数据包在时间上连续。例如：图6为本申请一实施例提供的第一数据包以及第一缓存队列的示意图，如图6所示，接收端的第一缓存队列中存储有已接收到的第T-7帧至第T-3帧面部图像的数据包，但是由于第T-2帧面部图像的数据包和第T-1帧面部图像的数据包发生丢包情况，因此第一缓存队列中并未存储第T-2帧面部图像的数据包和第T-1帧面部图像的数据包。而第一数据包包括第T帧面部图像的数据包、第T-1帧、第T-2帧和第T-3帧面部图像的数据包。其中，第T帧面部图像的数据包可以为上述的用户的第一帧面部图像数据包，第T-1帧为上述的用户的第二帧面部图像数据包。接收端将第T-1帧和第T-2帧面部图像的数据包加入至第一缓存队列，以解决丢包问题。

为减少发送端的传输负担，接收端可以在自己连续多次未接收到连续的面部图像的数据包时，向发送端发送用于指示发送用户的第一帧面部图像时携带早于用户的第一帧面部图像的面部图像的指示信息。即当发送端接收到该指示信息时，发送端才会在第一数据包中携带用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包。当发送端未接收到该指示信息时，发送端在发送用户的第一帧面部图像时，不携带用户的第二帧面部图像。其中，接收端可以设置一个网络状态变量S，该网络状态变量的初始值为0，接收端每接收到一个面部图像的数据包，则判断该面部图像的数据包和接收端接收到的前一个面部图像的数据包是否为连续的数据包，如果是，则令S+1，否则，则令S-1。一旦S达到-(N+1)，即接收端接收到的非连续的面部图像的数据包的连续次数为N+1，则接收端向发送端发送指示信息，以指示发送用户的第一帧面部图像时携带早于用户的第一帧面部图像的面部图像，并且接收端令S＝0。此外，当接收端接收到的第一数据包中包括用户的第一帧面部图像和用户的第二帧面部图像时，接收端对用户的第二帧面部图像的数据包选择性的放入第一缓存队列中。可选的，一旦S达到N+1，即接收端接收到的连续的面部图像的数据包的连续次数为N+1，则接收端向发送端发送另一指示信息，以指示无需在发送用户的第一帧面部图像时携带早于用户的第一帧面部图像的面部图像。为了方便起见，将用于指示发送当前面部图像时携带早于当前面部图像的面部图像的指示信息，称为第一指示信息。将用于指示无需在发送当前面部图像时携带早于当前面部图像的面部图像的指示信息，称为第二指示信息。需要说明的是，第一指示可替换为用于指示发送当前面部图像时，增加早于当前面部图像的面部图像的携带，第二指示信息可替换为用于指示发送当前面部图像时，减少早于当前面部图像的面部图像的携带。

具体地，图7为本申请一实施例提供的接收端对面部图像的数据包的处理方法流程图，如图7所示，该方法的执行主体为接收端，该方法包括如下步骤：

步骤S701：接收用户的第一帧面部图像的数据包。

步骤S702：判断用户的第一帧面部图像的数据包和前一个接收到的用户面部图像数据包是否为连续的数据包。若用户的第一帧面部图像的数据包和前一个接收到的用户面部图像数据包为连续的数据包，则执行步骤S703，否则，则执行步骤S707。

步骤S703：令S＝S+1。

步骤S704：判断S是否达到N+1，若是，则执行步骤S705，若否，则执行步骤S706。

步骤S705：向发送端发送第二指示信息，并令S＝0。

步骤S706：将用户的第一帧面部图像的数据包缓存至第一缓存队列中。

其中，若用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包被打包在第一数据包中发送，则从该第一数据包中取出用户的第一帧面部图像的数据包，并将该用户的第一帧面部图像的数据包缓存至第一缓存队列中。例如：用户的第一帧面部图像为第T帧面部图像，用户的第二帧面部图像为第T-1帧面部图像，第T帧、第T-1帧、第T-2帧面部图像的数据包被打包在第一数据包中发送，则接收端将第T帧面部图像的数据包存储至第一缓存队列中。

步骤S707：令S＝S-1。

步骤S708：判断S是否达到-(N+1)，若是，则执行步骤S709，若否，则执行步骤S710。

步骤S709：向发送端发送第一指示信息，并令S＝0。

步骤S710：判断第一数据包是否包括用户的第一帧面部图像的数据包和用户的第二帧面部图像的数据包，若是，则执行步骤S711，若否，则执行步骤S714。

步骤S711：判断第一数据包中生成时间最早的面部图像是否早于第一缓存队列中生成时间最晚的面部图像。若是，则执行步骤S712，若否，则执行步骤S713。

步骤S712：将第一数据包中的面部图像的数据包加入第一缓存队列中。

假设用户的第一帧面部图像为第T帧面部图像，用户的第二帧面部图像为第T-1帧面部图像，上述第一数据包包括：第T帧面部图像的数据包、第T-1帧面部图像的数据包和第T-2帧面部图像的数据包。第一缓存队列中生成时间最晚的面部图像为第T-3帧面部图像包，第T-2帧面部图像早于第T-3帧面部图像，这种情况下，接收端将第T-1帧面部图像的数据包、第T-1帧面部图像的数据包和第T-2帧面部图像的数据包均加入第一缓存队列中。

步骤S713：将第一数据包中晚于第一缓存队列中生成时间最晚的面部图像的面部图像的数据包加入第一缓存队列中。

假设用户的第一帧面部图像为第T帧面部图像，用户的第二帧面部图像为第T-1帧面部图像，第一数据包包括：第T帧面部图像的数据包、第T-1帧面部图像的数据包、第T-2帧面部图像的数据包、第T-3帧面部图像的数据包，而第一缓存队列中生成时间最晚的面部图像为第T-3帧面部图像，这种情况下，将第T帧面部图像的数据包、第T-1帧面部图像的数据包和第T-2帧面部图像的数据包均加入第一缓存队列中，丢弃第一数据包中的第T-3帧面部图像的数据包。

步骤S714：判断用户的第一帧面部图像是否早于第一缓存队列中生成时间最晚的面部图像，如果是，则执行步骤S715，否则，则执行步骤S716。

步骤S715：丢弃用户的第一帧面部图像的数据包。

步骤S716：将用户的第一帧面部图像的数据包缓存至第一缓存队列中。

最后，接收端可以从第一缓存队列中选择2至3帧面部图像的数据包，缓存至第二缓存队列以进行渲染。

例如：图8为本申请一实施例提供的图像处理示意图，如图8所示，接收端接收到了第T帧面部图像的数据包，但还未存储至第一缓存队列中，第一缓存队列当前存储有第T-1帧面部图像的数据包至第T-7帧面部图像的数据包，而接收端在生成接收端第一帧面部图像时，仅调度第T帧面部图像的数据包至第T-2帧面部图像的数据包，将这3帧面部图像的数据包存储至第二缓存队列中，并清除第一缓存队列中的第T-7帧至第T-3帧面部图像的数据包。接收端中的渲染模块可以从第T-2帧面部图像开始渲染，依次递减，等第二缓存队列内的3帧面部图像的数据包渲染完毕后，第二缓存队列继续从第一缓存队列中获取面部图像的数据包。其中，接收端对第二缓存队列的刷新频率可以是每秒30帧，只要能保证渲染模块每次可以获取2至3帧面部图像的数据包即可。

综上，在本申请中，用户的第一帧面部图像的数据包和用户的第二帧数据包可以携带在一个数据包中。其中，用户的第二帧面部图像与用户的第一帧面部图像在时间上连续，从而可以防止面部图像的数据包丢包的情况，基于此，可以提高接收端第一帧面部图像的质量。另外，接收端可以在自己连续多次未接收到连续的面部图像的数据包时，向发送端发送指示信息，以指示发送用户的第一帧面部图像时携带早于用户的第一帧面部图像的面部图像。即当发送端接收到该指示信息时，发送端才会将用户的第二帧面部图像与用户的第一帧面部图像一起发送。当发送端未接收到该指示信息时，发送端不在发送用户的第一帧面部图像时携带用户的第二帧面部，从而可以降低发送端的传输负担。

若用户的第一帧面部图像和第一缓存队列中生成时间最晚的面部图像非连续，且在接收用户的第一帧面部图像之后，接收到与用户的第一帧面部图像连续的用户的第二帧面部图像，即生成时间晚的用户面部图像先被接收端接收，生成时间早的用户面部图像后被接收端接收。根据情况，接收端可以选择丢弃用户的第二帧面部图像，将用户的第一帧面部图像的数据包缓存至第一缓存队列中；或者选择将用户的第二帧面部图像的数据包和用户的第一帧面部图像的数据包缓存至第一缓存队列中。

例如：图9为本申请另一实施例提供的图像处理示意图，在图9所示的情况下，接收端丢弃用户的第二帧面部图像。如图9所示，接收端先接收到了第T帧面部图像的数据包，且接收端已将第T帧缓存至第二缓存队列进行渲染，后接收到第T-1帧面部图像的数据包和第T-2帧面部图像的数据包。为了防止第一缓存队列中出现乱序的面部图像的数据包，接收端丢弃第T-1帧面部图像的数据包和第T-2帧面部图像的数据包。基于此，渲染模块可以获取到跳帧，即第T帧面部图像的数据包、第T-3帧面部图像的数据包和第T-4帧面部图像的数据包，由于接收端对第二缓存队列的刷新频率比较高，不影响接收端视频通话时的观感。

例如：图10为本申请再一实施例提供的图像处理示意图，在图10所示的情况下，接收端将用户的第二帧面部图像加入第一缓存队列。如图10所示，接收端先接收到了第T帧面部图像的数据包，且接收端还未将第T-3帧缓存至第二缓存队列进行渲染，后接收到第T-1帧面部图像的数据包和第T-2帧面部图像的数据包。为了保证第一缓存队列中面部图像的数据包的连续性，接收端将第T-1帧面部图像的数据包和第T-2帧面部图像的数据包加入至第一缓存队列。基于此，后续渲染模块可以获取第T帧面部图像的数据包、第T-1帧面部图像的数据包和第T-2帧面部图像的数据包，保证渲染出的接收端面部图像的连续性。

即，在本申请中，如果出现乱序的情况，即后至的用户的第二帧面部图像本应该在用户的第一帧面部图像之前接收到，但是由于延迟，导致用户的第二帧面部图像相对于用户的第一帧面部图像后至。若用户的第一帧面部图像已经用于生成接收端第一面部图像，则丢弃用户的第二帧面部图像；若还未用用户的第三帧面部图像生成接收端第三帧面部图像，其中用户的第三帧面部图像早于用户的第二帧面部图像，则将用户的第二帧面部图像加入第一缓存队列，即根据用户的第二帧面部图像的生成接收端第二帧面部图像。

需要注意的是，上面介绍了接收端每次根据一帧面部图像的数据包生成接收端面部图像的情况，然而，如步骤S205的可选方式二所述，接收端还可以结合用户的第一帧面部图像的数据包和用户的其他至少一帧面部图像的数据包，来生成接收端第一帧面部图像。对于根据多少帧用户的面部图像的数据包生成接收端面部图像，本申请不做限定。

图11为本申请一实施例提供的一种图像处理装置的示意图，该图像处理装置是上述发送端的部分或者全部，如图11所示，该装置包括：

第一获取模块1101，用于获取用户的第一帧面部图像，用户的第一帧面部图像包括多个面部器官图像。

第二获取模块1102，用于获取与多个面部器官图像相匹配的多个第一图像。

第一发送模块1103，用于向接收端发送用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，多个第一图像的索引用于获取多个第一图像。

可选的，第二获取模块1102具体用于：对于多个面部器官图像中的每一个面部器官图像，将面部器官图像和与面部器官图像对应的标准器官图像进行对比，确定第一差异值。根据第一差异值获取面部器官图像相匹配的第一图像，面部器官图像相匹配的第一图像与标准器官图像的第二差异值与第一差异值满足第一条件。

可选的，该装置还包括：第二发送模块1104，用于向接收端发送至少一个音频数据包，音频数据包的时间戳和用户的第一帧面部图像的数据包的时间戳相匹配。

可选的，该装置还包括：

第三获取模块1105，用于获取用户的第二帧面部图像，用户的第二帧面部图像早于用户的第一帧面部图像。

第四获取模块1106，用于获取与用户的第二帧面部图像的多个面部器官图像相匹配的多个第二图像。

第三发送模块1107，用于向接收端发送用户的第二帧面部图像的数据包，用户的第二帧面部图像的数据包包括多个第二图像的索引，多个第二图像的索引用于获取多个第二图像。

可选的，该装置还包括：接收模块1108，用于接收接收端发送的指示信息，指示信息用于指示发送早于用户的第一帧面部图像的面部图像。

本申请提供的图像处理装置，可以用于执行上述发送端对应的图像处理方法，其内容和效果可参考方法实施例部分，对此不再赘述。

图12为本申请另一实施例提供的一种图像处理装置的示意图，该图像处理装置是上述接收端的部分或者全部，如图12所示，该装置包括：

第一接收模块1201，用于从发送端接收用户的第一帧面部图像的数据包，用户的第一帧面部图像的数据包包括多个第一图像的索引，用户的第一帧面部图像包括多个面部器官图像，多个第一图像与多个面部器官图像相匹配。

第一获取模块1202，用于获取多个第一图像。

第一生成模块1203，用于根据多个第一图像生成接收端第一帧面部图像。

可选的，该装置还包括：第二接收模块1204，用于接收来自发送端的至少一个音频数据包，音频数据包的时间戳和用户的第一帧面部图像的数据包的时间戳相匹配。

可选的，该装置还包括：第三接收模块1205，用于从发送端接收用户的第二帧面部图像的数据包，用户的第二帧面部图像早于用户的第一帧面部图像，用户的第二帧面部图像的数据包包括多个第二图像的索引，多个第二图像与用户的第二帧面部图像包括的多个面部器官图像相匹配。

可选的，该装置还包括：发送模块1206，用于向发送端发送指示信息，指示信息用于指示发送早于用户的第一帧面部图像的面部图像。

可选的，该装置还包括：丢弃模块1207，用于若已生成接收端第一帧面部图像，则丢弃用户的第二帧面部图像的数据包。

可选的，该装置还包括：第二生成模块1208，用于若还未生成与用户的第三帧面部图像对应的接收端第三帧面部图像，其中，用户的第三帧面部图像早于用户的第二帧面部图像，则根据用户的第二帧面部图像的数据包生成接收端第二帧面部图像。

本申请提供的图像处理装置，可以用于执行上述接收端对应的图像处理方法，其内容和效果可参考方法实施例部分，对此不再赘述。

图13为本申请一实施例提供的终端设备的示意图，该终端设备可以是上述的发送端或者接收端，如图13所示，该终端设备包括：存储器1301、处理器1302和收发器1303。其中存储器1301存储有可被处理器执行的指令，指令被处理器执行，以使处理器1302能够执行上述发送端或者接收端对应的图像处理方法。收发器1303用于实现终端设备之间的数据传输。

其中，终端设备可以包括一个或多个处理器1302。存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(static random-access memory，SRAM)，电可擦除可编程只读存储器(electrically erasable programmable read only memor，EEPROM)，可擦除可编程只读存储器(erasable programmable read-only memory，EPROM)，可编程只读存储器(programmable read-only memory，PROM)，只读存储器(read-only memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。

终端设备还可以包括以下一个或多个组件：电源组件，多媒体组件，音频组件，输入/输出(input/output，I/O)的接口，传感器组件。

电源组件为终端的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件包括在终端设备和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括液晶显示器(liquid crystal display，LCD)和触摸面板(touch panel，TP)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当终端设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当终端设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

I/O接口为处理器和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，该传感器组件可以包括光传感器，如互补金属氧化物半导体(complementary metal oxide semiconductor，CMOS)或电荷耦合元件(charge-coupled device，CCD)图像传感器中的至少一项，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器中的至少一项。

本申请提供的终端设备，可以用于执行上述发送端或接收端对应的图像处理方法，其内容和效果可参考方法实施例部分，对此不再赘述。

图14为本申请一实施例提供的一种图像处理系统1400的示意图，如图14所示，该系统包括：发送端1401和接收端1402，二者可以直连，也可以通过中间设备，如服务器实现连接。其中，发送端1401用于执行上述发送端对应的图像处理方法，接收端1402用于执行上述接收端1402对应的图像处理方法，其内容和效果可参考方法实施例部分，对此不再赘述。

本申请还提供一种计算机可读存储介质。其中，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供图像处理方法。

计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现上述图像处理方法的计算机指令。计算机可读存储介质亦为存储器，其可以是高速随机存取存储器，也可以是非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。

本申请还提供一种计算机程序产品，该计算机程序产品存储有计算机指令，计算机指令用于使计算机执行上述的图像处理方法，其内容和效果可参考方法实施例部分，对此不再赘述。

Claims

一种图像处理方法，其特征在于，包括：

获取用户的第一帧面部图像，所述用户的第一帧面部图像包括多个面部器官图像；

获取与所述多个面部器官图像相匹配的多个第一图像；

向接收端发送所述用户的第一帧面部图像的数据包，所述用户的第一帧面部图像的数据包包括所述多个第一图像的索引，所述多个第一图像的索引用于获取所述多个第一图像。
根据权利要求1所述的方法，其特征在于，

所述多个面部器官图像是所述用户真实的面部器官的图像，所述多个第一图像是为所述用户虚拟的面部器官的图像。
根据权利要求1或2所述的方法，其特征在于，所述获取与所述多个面部器官图像相匹配的多个第一图像，包括：

对于所述多个面部器官图像中的每一个面部器官图像，将所述面部器官图像和与所述面部器官图像对应的标准器官图像进行对比，确定第一差异值；

根据所述第一差异值获取所述面部器官图像相匹配的第一图像，所述面部器官图像相匹配的第一图像与所述标准器官图像的第二差异值与所述第一差异值满足第一条件。
根据权利要求1-3任一项所述的方法，其特征在于，还包括：

向所述接收端发送至少一个音频数据包，所述音频数据包的时间戳和所述用户的第一帧面部图像的数据包的时间戳相匹配。
根据权利要求1-4任一项所述的方法，其特征在于，还包括：

获取用户的第二帧面部图像，所述用户的第二帧面部图像早于所述用户的第一帧面部图像；

获取与所述用户的第二帧面部图像的多个面部器官图像相匹配的多个第二图像；

向所述接收端发送所述用户的第二帧面部图像的数据包，所述用户的第二帧面部图像的数据包包括所述多个第二图像的索引，所述多个第二图像的索引用于获取所述多个第二图像。
根据权利要求5所述的方法，其特征在于，还包括：

接收所述接收端发送的指示信息，所述指示信息用于指示发送早于所述用户的第一帧面部图像的面部图像。
一种图像处理方法，其特征在于，包括：

从发送端接收用户的第一帧面部图像的数据包，所述用户的第一帧面部图像的数据包包括多个第一图像的索引，所述用户的第一帧面部图像包括多个面部器官图像，所述多个第一图像与所述多个面部器官图像相匹配；

获取所述多个第一图像；

根据所述多个第一图像生成接收端第一帧面部图像。
根据权利要求7所述的方法，其特征在于，

所述多个面部器官图像是所述用户真实的面部器官的图像，所述多个第一图像是为所述用户虚拟的面部器官的图像。
根据权利要求7或8所述的方法，其特征在于，还包括：

接收来自所述发送端的至少一个音频数据包，所述音频数据包的时间戳和所述用户的第一帧面部图像的数据包的时间戳相匹配。
根据权利要求7-9任一项所述的方法，其特征在于，还包括：

从所述发送端接收所述用户的第二帧面部图像的数据包，所述用户的第二帧面部图像早于所述用户的第一帧面部图像，所述用户的第二帧面部图像的数据包包括多个第二图像的索引，所述多个第二图像与所述用户的第二帧面部图像包括的多个面部器官图像相匹配。
根据权利要求10所述的方法，其特征在于，还包括：

向所述发送端发送指示信息，所述指示信息用于指示发送早于所述用户的第一帧面部图像的面部图像。
根据权利要求10或11所述的方法，其特征在于，还包括：

若已生成所述接收端第一帧面部图像，则丢弃所述用户的第二帧面部图像的数据包。
根据权利要求10或11所述的方法，其特征在于，还包括：

若还未生成与用户的第三帧面部图像对应的接收端第三帧面部图像，其中，所述用户的第三帧面部图像早于所述用户的第二帧面部图像，则根据所述用户的第二帧面部图像的数据包生成接收端第二帧面部图像。
一种图像处理装置，其特征在于，包括：

第一获取模块，用于获取用户的第一帧面部图像，所述用户的第一帧面部图像包括多个面部器官图像；

第二获取模块，用于获取与所述多个面部器官图像相匹配的多个第一图像；

第一发送模块，用于向接收端发送所述用户的第一帧面部图像的数据包，所述用户的第一帧面部图像的数据包包括所述多个第一图像的索引，所述多个第一图像的索引用于获取所述多个第一图像。
根据权利要求14所述的装置，其特征在于，

所述多个面部器官图像是所述用户真实的面部器官的图像，所述多个第一图像是为所述用户虚拟的面部器官的图像。
根据权利要求14或15所述的装置，其特征在于，所述第二获取模块具体用于：

对于所述多个面部器官图像中的每一个面部器官图像，将所述面部器官图像和与所述面部器官图像对应的标准器官图像进行对比，确定第一差异值；

根据所述第一差异值获取所述面部器官图像相匹配的第一图像，所述面部器官图像相匹配的第一图像与所述标准器官图像的第二差异值与所述第一差异值满足第一条件。
根据权利要求14-16任一项所述的装置，其特征在于，还包括：

第二发送模块，用于向所述接收端发送至少一个音频数据包，所述音频数据包的时间戳和所述用户的第一帧面部图像的数据包的时间戳相匹配。
根据权利要求14-17任一项所述的装置，其特征在于，还包括：

第三获取模块，用于获取用户的第二帧面部图像，所述用户的第二帧面部图像早于所述用户的第一帧面部图像；

第四获取模块，用于获取与所述用户的第二帧面部图像的多个面部器官图像相匹配的多个第二图像；

第三发送模块，用于向所述接收端发送所述用户的第二帧面部图像的数据包，所述用户的第二帧面部图像的数据包包括所述多个第二图像的索引，所述多个第二图像的索引用于获取所述多个第二图像。
根据权利要求18所述的装置，其特征在于，还包括：

接收模块，用于接收所述接收端发送的指示信息，所述指示信息用于指示发送早于所述用户的第一帧面部图像的面部图像。
一种图像处理装置，其特征在于，包括：

第一接收模块，用于从发送端接收用户的第一帧面部图像的数据包，所述用户的第一帧面部图像的数据包包括多个第一图像的索引，所述用户的第一帧面部图像包括多个面部器官图像，所述多个第一图像与所述多个面部器官图像相匹配；

第一获取模块，用于获取所述多个第一图像；

第一生成模块，用于根据所述多个第一图像生成接收端第一帧面部图像。
根据权利要求20所述的装置，其特征在于，

所述多个面部器官图像是所述用户真实的面部器官的图像，所述多个第一图像是为所述用户虚拟的面部器官的图像。
根据权利要求20或21所述的装置，其特征在于，还包括：

第二接收模块，用于接收来自所述发送端的至少一个音频数据包，所述音频数据包的时间戳和所述用户的第一帧面部图像的数据包的时间戳相匹配。
根据权利要求20-22任一项所述的装置，其特征在于，还包括：

第三接收模块，用于从所述发送端接收所述用户的第二帧面部图像的数据包，所述用户的第二帧面部图像早于所述用户的第一帧面部图像，所述用户的第二帧面部图像的数据包包括多个第二图像的索引，所述多个第二图像与所述用户的第二帧面部图像包括的多个面部器官图像相匹配。
根据权利要求23所述的装置，其特征在于，还包括：

发送模块，用于向所述发送端发送指示信息，所述指示信息用于指示发送早于所述用户的第一帧面部图像的面部图像。
根据权利要求23或24所述的装置，其特征在于，还包括：

丢弃模块，用于若已生成所述接收端第一帧面部图像，则丢弃所述用户的第二帧面部图像的数据包。
根据权利要求23或24所述的装置，其特征在于，还包括：

第二生成模块，用于若还未生成与用户的第三帧面部图像对应的接收端第三帧面部图像，其中，所述用户的第三帧面部图像早于所述用户的第二帧面部图像，则根据所述用户的第二帧面部图像的数据包生成接收端第二帧面部图像。
一种图像处理装置，其特征在于，包括：存储器和处理器；

所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行权利要求1-13中任一项所述的方法。
根据权利要求27所述的装置，其特征在于，所述装置为终端设备。
一种图像处理装置，其特征在于，用于执行如权利要求1-6中任一项所述方法，或者，用于执行如权利要求7-13中任一项所述方法。
一种图像处理系统，其特征在于，包括：用于执行权利要求1-6任一项所述方法的发送端以及用于执行权利要求7-13任一项所述方法的接收端。
一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-13中任一项所述的方法。
一种计算机程序产品，其特征在于，存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-13中任一项所述的方法。