WO2019041992A1

WO2019041992A1 - 一种图像处理方法、装置和终端设备

Info

Publication number: WO2019041992A1
Application number: PCT/CN2018/092887
Authority: WO
Inventors: 戴天荣; 朱育革; 赵大川; 陈翔
Original assignee: 歌尔股份有限公司
Priority date: 2017-08-30
Filing date: 2018-06-26
Publication date: 2019-03-07
Also published as: US11295550B2; CN107680069B; US20210374390A1; CN107680069A

Abstract

本发明公开了一种图像处理方法、装置和终端设备。该方法包括：从摄像头采集的视频流中获取指定目标的实际图像；从实际图像中识别出指定目标脸部的未被虚拟现实头戴设备遮挡区域和被虚拟现实头戴设备遮挡区域，获取与未被遮挡区域对应的第一脸部图像数据；根据第一脸部图像数据和预设的脸部表情模型，得到与第一脸部图像数据匹配的第二脸部图像数据，第二脸部图像数据与被遮挡区域相对应；将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。该图像处理装置包括第一获取单元、识别单元、第二获取单元和生成单元，用于执行上述的方法步骤。本方案有利于社交双方及时获得对方的表情信息，保证社交的顺利进行，提升用户体验。

Description

一种图像处理方法、装置和终端设备

技术领域

本发明涉及计算机技术领域，特别涉及一种图像处理方法、装置和终端设备。

背景技术

虚拟现实技术(Virtual Reality,简称VR)的一个重要应用领域是社交领域。例如，VR视频直播的应用中，主持人侧配置360度摄像头，采集直播地点的全视角场景视频，经由网络共享给接入端的VR头戴显示设备(Head Mounted Device，简称HMD)，访客通过佩戴VR HMD体验主持人侧的场景视频，并可以通过转动头部来观看不同视角的场景。该应用的特点是VR视频数据流为单向传输。随着VR社交需求的不断提升，VR社交需要两点之间实现VR视频数据流的双向流动，即社交双方都需要同时配置360度摄像头和VR HMD，同时采集本地全视角视频并发送给对方，由对方从VR HMD中观看。

但是，因为社交双方均佩戴VR HMD，这将导致本地摄像头拍摄到的人脸都会被VR HMD遮挡住眼睛及周围部分。因为眼部周围图像带有非常丰富的表情信息，表情信息的缺失严重影响VR技术在社交领域的应用。所以，急需一种图像处理方案，对被VR HMD遮挡住的眼睛及周围部分进行重建，以保证社交过程中表情信息的完整。

发明内容

鉴于上述问题，提出了本发明的一种图像处理方法、装置和终端设备，以便解决或至少部分地解决上述问题。

根据本发明的一个方面，提供了一种图像处理方法，该方法包括：

从摄像头采集的视频流中获取指定目标的实际图像，其中，指定目标佩戴有虚拟现实头戴设备；

从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据；

根据第一脸部图像数据和预设的脸部表情模型，得到与第一脸部图像数据匹配的第二脸部图像数据，第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应；

将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。

根据本发明的另一个方面，提供了一种图像处理装置，该装置包括：

第一获取单元，用于从摄像头采集的视频流中获取指定目标的实际图像，其中，指定目标佩戴有虚拟现实头戴设备；

识别单元，用于从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据；

第二获取单元，用于根据第一脸部图像数据和预设的脸部表情模型，得到与第一脸部图像数据匹配的第二脸部图像数据，第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应；

生成单元，用于将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。

根据本发明的又一个方面，提供了一种终端设备，该终端设备包括：如前所述的图像处理装置。

综上所述，本发明技术方案的有益效果是：当获取到戴有虚拟现实头戴设备的指定目标的实际图像后，先从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，将未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据输入到预设的脸部表情模型中，就可以得到与第一脸部图像数据匹配的第二脸部图像数据；然后将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。因为第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应，且带有表情信息，所以合成图像则是完整的带有表情信息的图像，相比较使用静态图片来说，合成图像更加逼真、准确，有利于社交双方及时获得对方的表情信息，提高社交质量，保证社交的顺利进行，提升用户体验。

附图说明

图1为本发明一个实施例提供的一种图像处理方法的流程示意图；

图2为本发明一个实施例提供的一种图像处理装置的功能结构示意图；

图3为本发明另一个实施例提供的一种图像处理装置的功能结构示意图；

图4为本发明一个实施例提供的一种终端设备的功能结构示意图。

具体实施方式

本发明的设计思路是：鉴于使用眼部的静态图片覆盖被VR HMD遮挡的部分的技术方案，仍然会导致表情信息的缺失，且静态图片与脸部其余部分不能很好的融合，会很不自然。又考虑到，人脸被虚拟现实头戴显示设备遮挡的眼部及周边部分的图像，与未被虚拟现实头戴显示设备遮挡的脸部图像信息之间有着强相关的关系。本技术方案引入脸部表情模型，通过脸部表情模型得到与未被虚拟现实头戴显示设备遮挡的脸部图像信息匹配的遮挡区域的脸部图像，进而获得具有完整表情信息的合成图像。为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1为本发明一个实施例提供的一种图像处理方法的流程示意图。如图1所示，该图像处理方法包括：

步骤S110，从摄像头采集的视频流中获取指定目标的实际图像，其中，指定目标佩戴有虚拟现实头戴设备(VR HMD)。

本实施例中，摄像头设置在可以采集到指定目标的位置，该摄像头可以是摄像头单品，也可以是终端设备上设置的摄像头，只要满足实施本方法的装置可以获取到摄像头采集的视频流即可。在社交应用中，参与社交的包括甲方用户和乙方用户，甲方用户和乙方用户均佩戴VR HMD，且均配置有摄像头，该摄像头可以分别采集到包括甲方用户和乙方用户的视频流，例如，甲方用户处配置的摄像头可以采集到包括甲方用户的视频流，乙方用户处配置的摄像头可以采集到包括乙方用户的视频流。本实施例是从参与社交的其中一侧用户来说的，例如，从甲方用户侧来说，摄像头通过采集指定目标(甲方用户)的视频流传输给社交对方(乙方用户)。在本实施例中，该指定目标可以是佩戴VR HMD进行社交的用户，指定目标佩戴着VR HMD，所以实际图像中，指定目标的人脸的眼睛以及眼睛周围部分是被VR HMD遮挡的，无法获取到完整的表情信息，影响社交过程。为了对摄像头采集的图像进行处理，需要从摄像头采集的视频流中获取一指定目标的实际图像。

步骤S120，从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据。

本实施例中，通过图像识别方法识别出实际图像中指定目标的脸部，并识别出脸部未被VR HMD遮挡的区域和被VR HMD遮挡的区域，因为需要通过未被VR HMD遮挡区域，得到与被VR HMD遮挡区域相匹配的图像数据，所以需要从实际图像中获取识别出的未被虚拟现实头戴显示设备遮挡区域的第一脸部图像数据。

步骤S130，根据第一脸部图像数据和预设的脸部表情模型，得到与第一脸部图像数据匹配的第二脸部图像数据，第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应。

本实施例中，预设的脸部表情模型是通过指定目标样本训练得到的(例如，使用神经网络进行机器学习)，在样本训练中可以获得未被VR HMD遮挡的图像数据与被VR HMD遮挡区域的图像数据之间的关系，因此，根据从实际图像中获取的第一脸部图像数据和预设的脸部表情模型，就可以得到与第一脸部图像数据匹配的第二脸部图像数据，即得到与被VR HMD遮挡区域相匹配的图像数据。

针对一个用户来说，只需要进行一次样本训练就可以，但是当用户更换VR HMD时，因为会存在更换前和更换后的VR HMD的大小不一致的情况，需要进行重新训练，防止根据原预设的脸部表情模型生成的第二脸部图像与第一脸部图像数据不能进行完美的融合。

步骤S140，将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。

通过图像融合方法，将第一脸部图像数据和和第二脸部图像数据相融合，生成合成图像。因为，第二脸部图像数据是与被VR HMD遮挡区域相匹配的带有表情信息的图像，因此，合成图像中带有指定目标的完整表情，获得合成图像后，就可以将该合成图像从参与社交的本侧用户发送参与该社交的另一侧用户。

因为第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应，且带有表情信息，所以合成图像则是完整的带有表情信息的图像，相比较使用没有表情信息的静态图片融合的合成图像来说，本实施例的合成图像更加逼真、准确，有利于社交双方及时获得对方的表情信息，提高社交质量，保证社交的顺利进行，提升用户体验。

在本发明的一个实施例中，步骤S130中的根据第一脸部图像数据和预设的脸部表情模型，得到与第一脸部图像数据匹配的第二脸部图像数据包括：将第一脸部图像数据输入到预设的脸部表情模型中，以使脸部表情模型识别第一脸部图像数据，输出与第一脸部图像数据相匹配的第二脸部图像数据。

如上文说明，在预设的脸部表情模型中有未被VR HMD遮挡的图像数据与被VR HMD遮挡区域的图像数据之间的关系，当将第一脸部图像数据输入到预设的脸部表情模型后，脸部表情模型识别第一脸部图像数据，就会输出与第一脸部图像数据相匹配的第二脸部图像数据。也就是说，预设的脸部表情模型会自动分析第一脸部图像数据，然后根据第一脸部图像数据直接生成与第一脸部数据匹配的第二脸部图像数据，有利于提高图像处理的效率，进一步增加用户体验。

进一步地，上述的预设的脸部表情模型是通过深度神经网络得到的，通过深度神经网络得到预设的脸部表情模型包括：

(1)获取摄像头在第一场景下采集的指定目标的多个第一样本图像，以及在第二场景下采集的指定目标的多个第二样本图像；其中，在第一场景下，指定目标佩戴有虚拟现实头戴设备；在第二场景下，指定目标未佩戴虚拟现实头戴显示设备，且各第二样本图像中包含指定用户的脸部表情。

在本实施例中，获取多个第一样本图像的目的是为了可以将第二样本图像中与被VR HMD遮挡区域对应的部分提取出来，例如，被VR HMD遮挡区域是眼部区域，则需要将第二样本图像中的眼部区域提取出来。多个第二样本图像中应该包含用户各种表情信息，以便在对实际图像进行处理时，可以匹配到更加准确的第二图像数据。

(2)从第一样本图像中识别出第一被遮挡区域，获取第一被遮挡区域信息。

如上文说明，为了将第二样本图像中与被VR HMD遮挡区域对应的部分提取出来，需要识别出第一样本图像中的第一被遮挡区域，然后获取到第一被遮挡区域信息，例如，区域边界的坐标信息。

(3)根据第一被遮挡区域信息，对第二样本图像的指定目标脸部的与第一被遮挡区域对应的区域进行标记，获得标记区域。

这里获得的标记区域是第一样本图像中的被遮挡区域相同的区域，该标记区域相当于遮挡区域未被遮挡状态下的图像元素，该标记区域中包括指定目标的表情信息。例如，第一被遮挡区域是眼部区域，那么在对第二样本图像的指定目标脸部进行标记时，则对第二样本图像的指定目标脸部的眼部区域进行标记。

(4)将第二样本图像中标记区域的图像放入第一指定集合中，将该第一指定集合作为深度神经网络训练时的输出集合；将第二样本图像中的指定目标脸部的未被标记区域的图像放入第二指定集合中，将该第二指定集合作为深度神经网络训练时的输入集合，放入第一指定集合的图像作为输出集合中的图像元素，放入第二指定集合中的图像作为输入集合中的图像元素。其中，第二指定集合与第一指定集合中的图像元素有一一对应的输入输出对应关系，也就是说，第一指定集合中和第二指定集合中的具有一一对应关系的两个图像元素来自同一个第二样本图像。例如，第二指定集合中的是样本图像1的眼部区域的图像元素，则第一指定集合的与其具有一一对应关系的是样本图像1的非眼部区域的图像元素。

(5)将输入集合和输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练，确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系，以使在第一脸部图像数据输入到预设的脸部表情模型时，预设的脸部表情模型根据识别的第一脸部图像数据和函数关系输出与第一脸部图像数据匹配的第二脸部图像数据。

在本实施例中，将输入集合和输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练，因为输入集合中的是第二样本中的未被标记区域的图像元素(相当于未被遮挡区域的图像元素)，输出集合中的图像元素是与输入集合中的各图像元素一一对应的标记区域图像(相当于被遮挡区域在未遮挡状态下的图像元素)。所以通过预设的深度神经网络中进行训练后，就可以得到遮挡区域图像和与该遮挡区域在不遮挡状态下的该区域图像之间的函数关系。

在一个具体的例子中，第一样本图像中被遮挡区域是眼部区域，则输入集合中的图像元素是第二样本图像中的非眼部区域的图像元素，输出集合则是第二样本图像中的眼部区域未被遮挡状态下的眼部区域的图像元素，通过预设的深度神经网络中进行训练后，就可以得到非眼部区域的图像元素和眼部区域未被遮挡状态下的眼部区域的图像元素之间的函数关系。

上述得到的函数关系即是未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系，当确定了未遮挡区域图像后，就可以根据该函数关系，生成与未遮挡区域图像匹配的遮挡区域图像。当获取到摄像头采集的视频流时，确定该视频流中的指定目标的实际图像，从实际图像中识别出指定目标脸部的未被遮挡区域，根据上述得到的函数关系，就可以生成与该未被遮挡区域匹配的遮挡区域的图像数据，将未被遮挡区域的图像与获得的遮挡区域的图像数据相融合，就可以生成合成图像。该合成图像则是指定目标完整的脸部图像，该脸部图像是未被遮挡的脸部图像。

本实施例，设计一个深度神经网络，其类型、层数以及每一层的节点数量，根据图像分辨率和所需生成效果设定。采用深度神经网络的机器学习方法，通过对指定目标的样本图像进行机器学习，获得指定目标的脸部表情模型。且，本实施例第二指定集合与第一指定集合中的图像元素有一一对应的输入输出对应关系，也就是说，本实施例通过深度神经网络进行有监督式的训练，将具有输入输出对应关系的图像元素输入到深度神经网络中进行训练生成神经网络模型参数，因为输入的图像元素和输出的图像元素有对应关系，通过训练就可以生成未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系：output＝f(input)，input为脸部未遮挡区域的图像，output则为生成的眼部及周围对应于遮挡区域的脸部图像。

可见，本实施例引入深度神经网络的机器学习方法，对指定目标的样本图像进行训练，利用人工智能通过对指定目标的样本图像训练-预测的方式来生成被VR HMD遮挡区域的图像数据，可以使得合成图像与指定目标更加匹配，生成的合成图像更加自然，增强用户体验。

损失函数是机器学习优化中至关重要的一部分。它能根据预测结果，衡量出模型预测能力的好坏。在实际应用中，选取损失函数会受到诸多因素的制约，比如是否有异常值、机器学习算法的选择、梯度下降的时间复杂度、求导的难易程度以及预测值的置信度等等。因此，不同类型的数据适合的损失函数也是不同的。在本发明的一个本实施例中，在预设的深度神经网络训练过程中，预设的深度神经网络训练的损失函数是输出集合中的图像和生成的与输入集合中的图像相匹配的图像之间的均方差。

在本实施例中，输入集合中的图像元素和输出集合中的图像元素有一一对应关系。当确定函数关系后，通过输入集合中的图像元素和确定的函数关系，生成与输入集合中的图像元素相匹配的图像，则该损失函数是该输出集合中的图像元素和实际生成的与输入集合中的图像元素相匹配的图像之间的均方差。例如，输入集合中的图像元素1、2、3，分别与输出集合中的图像元素4、5、6具有一一对应关系，根据确定的函数关系和图形元素1、2、3，实际生成与图像元素1、2、3匹配的图像元素7、8、9，则损失函数是图像元素4和图像元素7、图像元素5和图像元素8、图像元素6和图像元素9之间的均方差。

在实际应用中，VR HMD比指定目标的脸部要大，图像中除了指定目标的脸部区域的部分，VR HMD还会遮挡一部分非脸部区域，如果仅对脸部进行图像处理，生成的合成图像与真实效果的差距较大，需要对被VR HMD遮挡的非脸部图像进行去遮挡处理，可以通过下述的方法进行：

(1)在本发明的一个实施例中，图1所示的方法还包括：从实际图像中识别出被虚拟现实头戴设备遮挡的非脸部区域；从视频流中获取实际图像之前的多个第三图像，从第三图像中提取背景图像，使用背景图像中与被虚拟现实头戴设备遮挡的非脸部区域相匹配的图像数据，对被虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。

这里第三图像的个数不具体限定。因为摄像头采集视频流是与环境的位置是相对固定的，可以根据实际图像之前的多个图像帧中的背景图像信息进行去遮挡处理。

(2)在本发明的另一个实施例中，图1所示的方法还包括：从实际图像中识别出被虚拟现实头戴设备遮挡的非脸部图像数据，将非脸部图像数据输入到预设的非脸部模型中，以使预设的非脸部模型识别非脸部图像数据，输出与被虚拟现实头戴设备遮挡的非脸部区域匹配的第四图像数据，根据第四图像数据对被虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。

本实施例中预设的非脸部模型可以通过无监督训练的神经网络生成。上述的去遮挡处理可以采用图像融合方法，将获取的与被VR HMD遮挡的非脸部区域相匹配的图像数据或者第四图像数据与实际图像中未被VR HMD遮挡的图像数据进行融合。

通过上述的(1)和(2)对被虚拟现实头戴设备遮挡的非脸部区域，避免第一脸部图像数据和第二脸部图像数据融合后，与非脸部区域的衔接处过于明显，保证生成的合成图像更加真实、完整，而非仅仅体现指定目标的表情信息，整个合成图像更具有观赏性，增强用户体验。

在本发明的一个实施例中，该图像处理方法在实际应用中，生成合成图像是将第一脸部图像数据、第二脸部图像数据、非人脸部分中未被VR HMD遮挡的图像数据，以及获取的与被VR HMD遮挡的非脸部区域相匹配的图像数据或者第四图像数据进行融合，以生成完整的合成图像。

例如，本实施例中被VR HMD遮挡的非脸部图像数据可以是指定目标的头发或耳朵等区域，通过上述的(1)或(2)就可以将被遮挡的头发或耳朵展现出来，使得生成的合成图像更加逼真。

图2为本发明一个实施例提供的一种图像处理装置的功能结构示意图。如图2所示，该图像处理装置200包括：

第一获取单元210，用于从摄像头采集的视频流中获取指定目标的实际图像，其中，指定目标佩戴有虚拟现实头戴设备。

识别单元220，用于从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据。

第二获取单元230，用于根据第一脸部图像数据和预设的脸部表情模型，得到与第一脸部图像数据匹配的第二脸部图像数据，第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应。

生成单元240，用于将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。

在本发明的一个实施例中，第二获取单元230，用于将第一脸部图像数据输入到预设的脸部表情模型中，以使脸部表情模型识别第一脸部图像数据，输出与第一脸部图像数据相匹配的第二脸部图像数据。

在本发明的一个实施例中，第二获取单元230还包括：

训练模块，用于通过深度神经网络得到预设的脸部表情模型，具体用于：获取摄像头在第一场景下采集的指定目标的多个第一样本图像，以及在第二场景下采集的指定目标的多个第二样本图像；其中，在第一场景下，指定目标佩戴有虚拟现实头戴设备；在第二场景下，指定目标未佩戴虚拟现实头戴显示设备，且各第二样本图像中包含指定用户的脸部表情；从第一样本图像中识别出第一被遮挡区域，获取第一被遮挡区域信息；根据第一被遮挡区域信息，对第二样本图像的指定目标脸部的与第一被遮挡区域对应的区域进行标记；将第二样本图像中标记区域的图像放入第一指定集合中，将该第一指定集合作为深度神经网络训练时的输出集合；将第二样本图像中的指定目标脸部的未被标记区域的图像放入第二指定集合中，将该第二指定集合作为深度神经网络训练时的输入集合；第二指定集合与第一指定集合中的图像元素有一一对应的输入输出对应关系；将输入集合和输出集合中的每一具有对输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练，确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系，以使第二获取单元将第一脸部图像数据输入到预设的脸部表情模型，预设的脸部表情模型根据输入的第一脸部图像数据和函数关系输出与其匹配的第二脸部图像数据。

进一步地，在预设的深度神经网络训练过程中，预设的深度神经网络训练的损失函数是输出集合中的图像和生成的与输入集合中的图像相匹配的图像之间的均方差。

在本发明的一个实施例中，图2所示的图像处理装置200还包括：

处理单元，用于从实际图像中识别出被虚拟现实头戴设备遮挡的非脸部区域；从视频流中获取实际图像之前的多个第三图像，从第三图像中提取背景图像，使用背景图像中与被虚拟现实头戴设备遮挡的非脸部区域对应的图像数据，对被虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。

处理单元，用于从实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部图像数据，将非脸部图像数据输入到预设的非脸部模型中，以使预设的非脸部模型识别非脸部图像数据，输出与被非脸部区域匹配的第四图像数据，根据第四图像数据对非脸部区域进行去遮挡处理。

与前述图像数据的处理方法实施例相对应的，本发明还提供了一种图像数据的处理装置实施例。

图3为本发明另一个实施例提供的一种图像处理装置的结构示意图。如图3所示，图像处理装置300包括存储器310和处理器320，存储器310和处理器320之间通过内部总线330通讯连接，存储器310存储有能够被处理器320执行的图像处理的计算机程序311，该图像处理的计算机程序311被处理器320执行时能够实现上述方法步骤。

在不同的实施例中，存储器310可以是内存或者非易失性存储器。其中非易失性存储器可以是：存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。内存可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存。进一步，非易失性存储器和内存作为机器可读存储介质，其上可存储由处理器320执行的图像处理的计算机程序311。

图4为本发明一个实施例提供的一种终端设备的功能结构示意图。如图4所示，该终端设备400包括：如图2或图3所示的图像处理装置410。

在本发明的一个实施例中，该终端设备400是虚拟现实头戴显示设备。或者，该终端设备400是在社交过程中与虚拟现实头戴显示设备进行连接的计算机或服务器，可以通过计算机或者服务器将参与社交的本侧用户的合成图像发送给参与社交的另一侧用户。

需要说明的是，图2、图3所示的装置和图4所示的终端设备的各实施例与图1所示的方法的各实施例对应相同，上文已有详细说明，在此不再赘述。

综上所述，本发明技术方案的有益效果是：当获取到戴有虚拟现实头戴设备的指定目标的实际图像后，先从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，将未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据输入到预设的脸部表情模型中，就可以得到与第一脸部图像数据匹配的第二脸部图像数据；然后将第一脸部图像数据和第二脸部图像数据相融合，生成合成图像。因为第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应，且带有表情信息，所以合成图像则是完整的带有表情信息的图像，有利于社交双方及时获得对方的表情信息，提高社交质量，保证社交的顺利进行，提升用户体验。

以上所述，仅为本发明的具体实施方式，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白，上述的具体描述只是更好的解释本发明的目的，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种图像处理方法，其中，所述方法包括：

从摄像头采集的视频流中获取指定目标的实际图像，其中，所述指定目标佩戴有虚拟现实头戴设备；

从所述实际图像中识别出所述指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，获取与所述未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据；

根据所述第一脸部图像数据和预设的脸部表情模型，得到与所述第一脸部图像数据匹配的第二脸部图像数据，所述第二脸部图像数据与所述被虚拟现实头戴显示设备遮挡区域相对应；

将所述第一脸部图像数据和所述第二脸部图像数据相融合，生成合成图像。
如权利要求1所述的图像处理方法，其中，所述根据所述第一脸部图像数据和预设的脸部表情模型，得到与所述第一脸部图像数据匹配的第二脸部图像数据包括：

将所述第一脸部图像数据输入到所述预设的脸部表情模型中，以使所述脸部表情模型识别所述第一脸部图像数据，输出与所述第一脸部图像数据相匹配的第二脸部图像数据。
如权利要求2所述的图像处理方法，其中，所述预设的脸部表情模型是通过深度神经网络得到的，所述通过深度神经网络得到预设的脸部表情模型包括：

获取摄像头在第一场景下采集的所述指定目标的多个第一样本图像，以及在第二场景下采集的所述指定目标的多个第二样本图像；其中，在所述第一场景下，所述指定目标佩戴有所述虚拟现实头戴设备；在所述第二场景下，所述指定目标未佩戴所述虚拟现实头戴显示设备，且各第二样本图像中包含所述指定用户的脸部表情；

从所述第一样本图像中识别出第一被遮挡区域，获取所述第一被遮挡区域信息；

根据所述第一被遮挡区域信息，对所述第二样本图像的所述指定目标脸部的与所述第一被遮挡区域对应的区域进行标记；

将所述第二样本图像中标记区域的图像放入第一指定集合中，将该第一指定集合作为深度神经网络训练时的输出集合；将所述第二样本图像中的所述指定目标脸部的未被标记区域的图像放入第二指定集合中，将该第二指定集合作为深度神经网络训练时的输入集合；所述第二指定集合与所述第一指定集合中的图像元素有一一对应的输入输出对应关系；

将所述输入集合和所述输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练，确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系，以使在所述第一脸部图像数据输入到所述预设的脸部表情模型时，所述预设的脸部表情模型根据输入的所述第一脸部图像数据和所述函数关系输出与其匹配的第二脸部图像数据。
如权利要求3所述的图像处理方法，其中，

在所述预设的深度神经网络训练过程中，所述预设的深度神经网络训练的损失函数是所述输出集合中的图像和生成的与所述输入集合中的图像相匹配的图像之间的均方差。
如权利要求1所述的图像处理方法，其中，所述方法还包括：

从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部区域；

从所述视频流中获取所述实际图像之前的多个第三图像，从所述第三图像中提取背景图像，使用所述背景图像中与被所述虚拟现实头戴设备遮挡的非脸部区域对应的图像数据，对所述被所述虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
如权利要求1所述的图像处理方法，其中，所述方法还包括：

从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部图像数据，将所述非脸部图像数据输入到预设的非脸部模型中，以使所述预设的非脸部模型识别所述非脸部图像数据，输出与被所述虚拟现实头戴设备遮挡的非脸部区域匹配的第四图像数据，根据所述第四图像数据对所述被所述虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
一种图像处理装置，所述装置包括：

第一获取单元，用于从摄像头采集的视频流中获取指定目标的实际图像，其中，所述指定目标佩戴有虚拟现实头戴设备；

识别单元，用于从所述实际图像中识别出所述指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域，获取与所述未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据；

第二获取单元，用于根据所述第一脸部图像数据和预设的脸部表情模型，得到与所述第一脸部图像数据匹配的第二脸部图像数据，所述第二脸部图像数据与所述被虚拟现实头戴显示设备遮挡区域相对应；

生成单元，用于将所述第一脸部图像数据和所述第二脸部图像数据相融合，生成合成图像。
如权利要求7所述的图像处理装置，其中，所述第二获取单元，用于将第一脸部图像数据输入到预设的脸部表情模型中，以使脸部表情模型识别第一脸部图像数据，输出与第一脸部图像数据相匹配的第二脸部图像数据。
如权利要求8所述的图像处理装置，其中，所述第二获取单元还包括：

训练模块，用于通过深度神经网络得到所述预设的脸部表情模型，具体用于：

获取摄像头在第一场景下采集的所述指定目标的多个第一样本图像，以及在第二场景下采集的所述指定目标的多个第二样本图像；其中，在所述第一场景下，所述指定目标佩戴有所述虚拟现实头戴设备；在所述第二场景下，所述指定目标未佩戴所述虚拟现实头戴显示设备，且各第二样本图像中包含所述指定用户的脸部表情；

从所述第一样本图像中识别出第一被遮挡区域，获取所述第一被遮挡区域信息；

根据所述第一被遮挡区域信息，对所述第二样本图像的所述指定目标脸部的与所述第一被遮挡区域对应的区域进行标记；

将所述第二样本图像中标记区域的图像放入第一指定集合中，将该第一指定集合作为深度神经网络训练时的输出集合；将所述第二样本图像中的所述指定目标脸部的未被标记区域的图像放入第二指定集合中，将该第二指定集合作为深度神经网络训练时的输入集合；所述第二指定集合与所述第一指定集合中的图像元素有一一对应的输入输出对应关系；

将所述输入集合和所述输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练，确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系，以使所述第二获取单元将所述第一脸部图像数据输入到所述预设的脸部表情模型，所述预设的脸部表情模型根据输入的所述第一脸部图像数据和所述函数关系输出与其匹配的第二脸部图像数据。
如权利要求9所述的图像处理装置，其中，在所述训练模块得到预设的深度神经网络训练过程中，预设的深度神经网络训练的损失函数是输出集合中的图像和生成的与输入集合中的图像相匹配的图像之间的均方差。
如权利要求7所述的图像处理装置，其中，所述装置还包括：

处理单元，用于从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部区域；从所述视频流中获取所述实际图像之前的多个第三图像，从所述第三图像中提取背景图像，使用所述背景图像中与被所述虚拟现实头戴设备遮挡的非脸部区域对应的图像数据，对被所述虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
如权利要求7所述的图像处理装置，其中，所述装置还包括：

处理单元，用于从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部图像数据，将所述非脸部图像数据输入到预设的非脸部模型中，以使所述预设的非脸部模型识别所述非脸部图像数据，输出与被所述非脸部区域匹配的第四图像数据，根据所述第四图像数据对所述非脸部区域进行去遮挡处理。
一种终端设备，其中，所述终端设备包括：如权利要求7-12任一项所述的图像处理装置。