WO2018121699A1

WO2018121699A1 - 视频通信方法、设备和终端

Info

Publication number: WO2018121699A1
Application number: PCT/CN2017/119602
Authority: WO
Inventors: 于洋; 李子军
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-12-29
Filing date: 2017-12-28
Publication date: 2018-07-05
Also published as: CN108259806A

Abstract

一种视频通信方法包括：获取本地用户的第一当前视频画面，并接收对端用户的第二当前视频画面；分别对所述第一当前视频画面和所述第二当前视频画面进行人脸识别，基于人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象；以及，将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，得到融合人物形象的第二虚拟立体场景，以使所述第二虚拟立体场景呈现在本地。

Description

视频通信方法、设备和终端

技术领域

本公开涉及可视通信领域，例如涉及一种视频通信方法、设备和终端。

背景技术

随着互联网时代通讯技术的发展，人们可以通过网络更加方便快捷的进行即时通讯，可视通讯在语音通讯模式上增加了视频画面，使通讯过程更加形象具体，增加了传递的信息量，满足了人们的感官需求。可视通讯将是今后主流的通讯模式之一。

发明内容

以下实施例提供一种视频通信方法、设备和终端，能够解决可视通信技术中出现的通讯效果单一、整体关联性差和互动性低的问题。

一种视频通信方法，包括：

获取本地用户的第一当前视频画面，并接收对端用户的第二当前视频画面；

分别对所述第一当前视频画面和所述第二当前视频画面进行人脸识别，基于人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象；以及，

将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，得到融合人物形象的第二虚拟立体场景，以使所述第二虚拟立体场景呈现在本地。

一实施例中，所述的方法还包括：将所述第一当前视频画面发送至对端。

一实施例中，所述人脸识别结果包括：识别出的所述本地用户的第一人脸图像和识别出的所述对端用户的第二人脸图像；

所述基于人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象，包括：

在所述第一当前视频画面中，对所述本地用户的整体人物图像进行边缘检测，得到所述本地用户的第一边缘检测结果；根据所述第一人脸图像和所述第一边缘检测结果，生成所述第一三维人物形象；

在所述第二当前视频画面中，对所述对端用户的整体人物图像进行边缘检测，得到所述对端用户的第二边缘检测结果；以及，根据所述第二人脸图像和所述第二边缘检测结果，生成所述第二三维人物形象。

一实施例中，在所述生成所述第一三维人物形象之前，所述方法还包括：根据所述第一人脸图像、以及所述第一人脸图像到所述第一三维人物形象的第一尺寸映射关系，确定所述第一三维人物形象的第一尺寸；以及

在所述生成所述第二三维人物形象之前，所述方法还包括：根据所述第二人脸图像、以及所述第二人脸图像到所述第二三维人物形象的第二尺寸映射关系，确定所述第二三维人物形象的第二尺寸。

一实施例中，所述将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，包括：

获取本地拍摄角度数据和对端拍摄角度数据，其中，所述本地拍摄角度数据用于表示所述第一当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示所述第二当前视频画面对应的摄像头拍摄角度；

根据所述本地拍摄角度数据和所述对端拍摄角度数据，确定所述第一虚拟立体场景中所述第一三维人物形象与所述第二三维人物形象的相对方位关系；以及，

基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中。

一实施例中，在所述将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中之前，所述方法还包括：设置所述第一三维人物形象在所述第一虚拟立体场景中的第一位置区域，以及所述第二三维人物形象在所述第一虚拟立体场景中的第二位置区域；其中，

所述基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中，包括：基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象同时布置在所述第一虚拟立体场景中；根据所述第一位置区域以及所述第二位置区域，确定所述第一虚拟立体场景中一个或多个虚拟立体元素的位置；以及，根据所述一个或多个虚拟立体元素的位置，在所述第一虚拟立体场景中的相应位置生成所述一个或多个虚拟立体元素。

一种视频通信设备，包括：获取模块、识别模块、构建模块以及融合模块；其中，

获取模块，设置为获取本地用户的第一当前视频画面，，并接收对端用户的第二当前视频画面；

识别模块，设置为分别对所述第一当前视频画面和所述第二当前视频画面进行人脸识别，得出人脸识别结果；

构建模块，设置为基于所述人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象；以及

融合模块，设置为将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，得到融合人物形象的第二虚拟立体场景，以使所述第二虚拟立体场景呈现在本地。

一实施例中，所述的设备，还包括：

发送模块，设置为将所述第一当前视频画面发送至对端。

所述构建模块，设置为在所述第一当前视频画面中，对所述本地用户的整体人物图像进行边缘检测，得到所述本地用户的第一边缘检测结果；根据所述第一人脸图像和所述第一边缘检测结果，生成所述第一三维人物形象；

在所述第二当前视频画面中，对所述对端用户的整体人物图像进行边缘检测，得到所述对端用户的第二边缘检测结果；以及，根据所述第一人脸图像和所述第一边缘检测结果，生成所述第一三维人物形象。

一实施例中，所述构建模块，还设置为在生成所述第一三维人物形象之前，根据所述第一人脸图像、以及所述第一人脸图像到所述第一三维人物形象的第一尺寸映射关系，确定所述第一三维人物形象的第一尺寸；以及，

在生成所述第二三维人物形象之前，根据所述第二人脸图像、以及所述第二人脸图像到所述第二三维人物形象的第二尺寸映射关系，确定所述第二三维人物形象的第二尺寸。

一实施例中，所述融合模块设置为获取本地拍摄角度数据和对端拍摄角度数据，根据所述本地拍摄角度数据和所述对端拍摄角度数据，确定所述第一虚拟立体场景中所述第一三维人物形象与所述第二三维人物形象的相对方位关系；以及，基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中；其中，所述本地拍摄角度数据用于表示所述第一当前视频画面对应的摄像头拍摄角度，以及所述对端拍摄角度数据用于表示所述第二当前视频画面对应的摄像头拍摄角度。

一实施例中，所述融合模块，还设置为在将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中之前，设置所述第一三维人物形象在所述的第一虚拟立体场景中的第一位置区域，以及所述第二三维人物形象在所述第一虚拟立体场景中的第二位置区域；所述融合模块，设置为基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象同时布置在所述第一虚拟立体场景中；根据所述第一位置区域以及所述第二位置区域，确定所述第一虚拟立体场景中一个或多个虚拟立体元素的位置；以及，根据所述一个或多个虚拟立体元素的位置，在所述第一虚拟立体场景中的相应位置生成所述一个或多个虚拟立体元素。

一种终端，所述终端包括权利要求上述任一项所述的设备。

一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于上述任一项视频通信的方法。

一种终端，包括上述任一种视频通信设备。

一种终端，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的方法。

附图说明

图1a为一实施例提供的视频通信方法的流程图；

图1b为一实施例提供的图1a中步骤103的方法流程图；

图1c为另一实施例提供的视频通信方法的流程图；

图2a为一实施例提供的视频通信设备的组成结构示意图；

图2b为另一实施例提供的视频通信设备的组成结构示意图；

图3为另一实施例提供的视频通信设备的组成结构示意图；以及

图4为一实施例提供的终端的硬件结构示意图。

具体实施方式

相关技术中的可视通信只能单方面采集通讯方的视频画面，并传输给通讯的另一方，在本地端只能将本地采集的己方画面和传输来的对方画面进行分别展示；由于两个画面来源不同，内容不同，相对独立，会导致通讯效果单一，整体关联性差，互动性低，无法形成较为形象的交流沟通氛围，导致用户体验降低。一实施例提供了一种视频通信方法、设备和终端，能够实现本地用户和对端用户的可视通信，本地和对端可以是视频通信的双方，本地用户和对端用户均可以使用具有通信功能的终端实现可视通信。终端可以是移动终端，也可以是固定终端。在本地用户和对端用户使用的终端上，均可以设置有摄像头，摄像头用于实时采集用户的图像。

基于上述记载的本地用户的终端、对端用户的终端和摄像头，提出以下实施例。

一实施例提供了一种视频通信方法，图1a为本实施例提供的视频通信方法的流程图，如图1a所示，该流程包括以下步骤。

步骤101中，采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端，以及接收对端用户的当前视频画面。

本地和对端均可以采用摄像头采集用户的视频画面；。在对端采集到对端用户的当前视频画面后，可以将对端用户的当前视频画面实时发送至本地，本地可以接收对端用户的当前视频画面。一实施例中，对端在采集到对端用户的当前视频画面后，可以将对端用户的当前视频画面进行视频编码，将视频编码后的视频数据发送至本地，本地用户接收到视频数据后，对接收的视频数据进行解码，得到对端用户的当前视频画面。

在本地，可以获取本地用户的当前视频画面，接收对端用户的当前视频画面，可以对本地用户的当前视频画面和对端用户的当前视频画面进行处理。

步骤102中，分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，基于人脸识别结果构建所述本地用户的三维人物形象和所述对端用户的三维人物形象。

一实施例中，在人脸识别的过程中，还可以定位人脸在对应图像中的位置，可以利用人脸识别检测程序对本地用户的当前视频画面和所述对端用户的当前视频画面同步提取人脸图像，下面示例性地说明人脸识别过程。

人脸识别过程可以包括：

采用统计原理，预先获取多个“人面部”和“非人面部”的图像，建立样本库，训练出用于区分“人面部”和“非人面部”的分类器。

对待检测图像进行一定比例的缩放，对缩放后的图像中的所有区域均利用上述分类器进行检测，判断当前检测的区域为人脸(人面部)对应的区域还是非人脸(非人面部)对应的区域。

根据判断结果，确定人脸的位置和大小。

人脸识别结果可以包括：本地用户的人脸图像和对端用户的人脸图像。

一实施例中，在本地用户的当前视频画面中，可以对所述本地用户的整体人物图像进行边缘检测，得到所述本地用户的边缘检测结果。根据所述本地用户的人脸图像和所述本地用户的边缘检测结果，生成所述本地用户的三维人物形象；以及在所述对端用户的当前视频画面中，对所述对端用户的整体人物图像进行边缘检测，得到所述对端用户的边缘检测结果，根据所述对端用户的人脸图像和所述对端用户的边缘检测结果，生成所述对端用户的三维人物形象。

一实施例中，在生成本地用户的三维人物形象时，可以在本地用户的当前视频画面确定本地用户的整体人物形象区域。一实施例中，在确定本地用户的整体人物形象区域后，可以对本地用户的当前视频画面中除本地用户的整体人物形象区域外的区域进行透明化处理，便于实现后期融合。

一实施例中，在生成对端用户的三维人物形象时，可以在对端用户的当前视频画面确定对端用户的整体人物形象区域。在确定对端用户的整体人物形象区域后，可以对对端用户的当前视频画面中除对端用户的整体人物形象区域外的区域进行透明化处理，便于实现后期融合。

在一个实施例中，在确定本地用户的整体人物形象区域和对端用户的整体人物形象区域后，还可以缩放以下至少之一：本地用户的当前视频画面，和对端用户的当前视频画面，使本地用户的当前视频画面与对端用户的当前视频画面的尺寸统一。

在一个实施例中，在生成本地用户的整体人物形象区域后，可以根据本地用户的人脸图像、以及预先设置的三维人物形象的模板，生成本地用户的三维人物形象。在生成对端用户的整体人物形象区域后，可以根据对端用户的人脸图像、以及预先设置的三维人物形象的模板，生成对端用户的三维人物形象。

在一个实施例中，在生成本地用户的三维人物形象之前，还可以根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸。其中，人脸图像到三维人物形象的尺寸映射关系可以是人脸图像的尺寸与虚拟立体场景中三维人物形象的人脸之间的尺寸转换关系。

在一个实施例中，在生成对端用户的三维人物形象之前，还可以根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。人脸图像到三维人物形象的尺寸映射关系，是将人脸图像转换到特定场景中三维人物形象

一实施例中，在生成本地用户或对端用户的三维人物形象时，可以在生成本地用户或对端用户的初始三维人物形象后，采用增强现实技术对本地用户或对端用户的初始三维人物形象按照预先设置的人物装饰方式进行装饰，得到本地用户或对端用户的三维人物形象。上述步骤可以在步骤101前执行，可以由用户设置用于体现人物装饰方式的人物装饰模板。

步骤103中，将所述本地用户的三维人物形象和所述对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景。

可以设置多个虚拟立体场景，例如设置的虚拟立体场景可以是会议室场景、客厅场景或公园场景。每个虚拟立体场景可以由多个虚拟立体元素组成，例如，会议室场景中设置会议桌椅为虚拟立体元素，或者客厅场景中设置沙发、电视以及茶几为虚拟立体元素。在设置多个虚拟立体场景后，可以由用户选择其中一个虚拟立体场景作为预先构建的虚拟立体场景。

一实施例中，可以采用增强现实技术，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至虚拟立体场景中。

在上述实施例的基础上，图1b为一实施例提供的图1a中步骤103的方法流程图，如图1b所示，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，可以包括步骤1031、步骤1032和步骤1033。

步骤1031中，获取本地拍摄角度数据和对端拍摄角度数据，所述本地拍摄角度数据用于表示所述本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示所述对端用户的当前视频画面对应的摄像头拍摄角度。

在一个实施例中，可以由本地用户预先向对应终端输入本地拍摄角度数据，由对端用户向对应终端输入对端拍摄角度数据。在一个实施例中，设置为拍摄本地用户和对端用户的摄像头可以在外部信号控制下转动，此时，摄像头能够获取自身的拍摄角度。

步骤1032中，根据所述本地拍摄角度数据和所述对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与所述对端用户的三维人物形象的相对方位关系。

可以根据本地拍摄角度数据和对端拍摄角度数据进行角度位置关系映射，从而确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系。

示例性地，可以将采集本地用户的当前视频画面的摄像头记为本地摄像头，将采集对端用户的当前视频画面的摄像头记为对端摄像头。

当本地摄像头朝向正前方，且对端摄像头朝向正前方时，虚拟立体场景中本地用户的三维人物形象可以处在对端用户的三维人物形象的正前方或正后方。

一实施例中，当本地摄像头朝向正前方，且对端摄像头朝向自身的右前方时，虚拟立体场景中对端用户的三维人物形象可以处在本地用户的三维人物形象的右前方，对端用户的三维人物形象偏离本地用户的三维人物形象的正前方的角度可以等于对端摄像头的朝向偏离对端摄像头正前方的角度。

一实施例中，当本地摄像头朝向正前方，且对端摄像头朝向自身的左前方时，虚拟立体场景中对端用户的三维人物形象可以处在本地用户的三维人物形象的左前方，对端用户的三维人物形象偏离本地用户的三维人物形象的正前方的角度可以等于对端摄像头的朝向偏离对端摄像头正前方的角度。

一实施例中，当本地摄像头朝向自身的右前方，且对端摄像头朝向自身的正前方时，虚拟立体场景中本地用户的三维人物形象可以处在对端用户的三维人物形象的右前方，本地用户的三维人物形象偏离对端用户的三维人物形象的正前方的角度可以等于本地摄像头的朝向偏离本地摄像头正前方的角度。

一实施例中，当本地摄像头朝向自身的左前方，且对端摄像头朝向自身的正前方时，虚拟立体场景中本地用户的三维人物形象可以处在对端用户的三维人物形象的左前方，本地用户的三维人物形象偏离对端用户的三维人物形象的左前方的角度可以等于本地摄像头的朝向偏离本地摄像头正前方的角度。

步骤1033中，基于所确定的所述相对方位关系，采用增强现实技术将所述本地用户的三维人物形象和所述对端用户的三维人物形象融合至预先构建的虚拟立体场景中。

一实施例中，还可以预先设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域。其中，位置区域用于表示对应的三维人物形象在虚拟立体场景中的一个大致的区域，并非表示对应的三维人物形象在虚拟立体场景中的精确位置。

一实施例中，步骤1033包括基于所确定的所述相对方位关系，将所述本地用户的三维人物形象和所述对端用户的三维人物形象同时布置在预先建立的虚拟立体场景中；根据所述本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及所述对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中一个或多个虚拟立体元素的位置；在所述预先构建的虚拟立体场景中，根据所述预先构建的虚拟立体场景中一个或多个虚拟立体元素的位置，在相应位置生成所述一个或多个虚拟立体元素。

布置本地用户的三维人物形象和对端用户的三维人物形象的虚拟立体场景初始时并非构建的虚拟立体场景，可以基于所确定的相对方位关系，将本地用户的三维人物形象和对端用户的三维人物形象同时布置在一个没有其余虚拟立体元素的虚拟立体场景中。可以根据本地用户的三维人物形象在初始虚拟立体场景中的第一位置区域、以及对端用户的三维人物形象在初始虚拟立体场景中的第二位置区域，确定所述预先构建的虚拟立体场景中一个或多个虚拟立体元素的位置。

例如，当预先构建的虚拟立体场景为客厅场景，本地用户的三维人物形象在虚拟立体场景中的第一位置区域、以及对端用户的三维人物形象在虚拟立体场景中的第二位置区域均为沙发区域时，此时，可以构建沙发对应的虚拟立体元素。

还可以预先设置虚拟立体场景中本地用户的三维人物形象向用户呈现的角度、以及对端用户的三维人物形象向用户呈现的角度，可以基于所确定的相对方位关系、虚拟立体场景中本地用户的三维人物形象向用户呈现的角度、以及对端用户的三维人物形象向用户呈现的角度，将本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中。

在上述步骤完成后，融合人物形象的虚拟立体场景中，本地用户的三维人物形象和对端用户的三维人物形象均可以按照预先设置的角度进行呈现。例如，虚拟立体场景中本地用户的三维人物形象的面部可以设置为背向用户呈现，虚拟立体场景中本地用户的三维人物形象的面部可以设置为面向用户呈现，则在得出的融合人物形象的虚拟立体场景中，本地用户的三维人物形象和对端用户的三维人物形象均可以按照预先设置的角度进行呈现。

在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中时，可以将三维人物形象和虚拟立体场景融合成一个完整的空间画面。步骤104中，将所述融合人物形象的虚拟立体场景在本地呈现。

可以由本地的显示器呈现所述融合人物形象的虚拟立体场景。

步骤101中，在采集本地用户的当前视频画面的时，还可以采集本地的音频信息，其中，本地的音频信息可以包括本地用户的语音信息。可以将采集的本地的音频信息发送至对端。对端也可以采集对端的音频信息，并将对端的音频信息发送至本地。可以利用麦克风采集音频信息。

在将所述融合人物形象的虚拟立体场景在本地呈现的时，还可以同步播放本地的音频信息以及对端的音频信息。

在一个实施例中，在步骤101之前，可以设置初始数据，初始数据可以包括以下一项或多项：初始虚拟立体场景、本地用户的三维人物形象在虚拟立体场景中的初始位置区域、对端用户的三维人物形象在虚拟立体场景中的初始位置区域、虚拟立体场景中本地用户的三维人物形象向用户呈现的初始角度、虚拟立体场景中对端用户的三维人物形象向用户呈现的初始角度、本地用户的初始人物装饰方式、以及对端用户的初始人物装饰方式。

在设置初始数据后，在进行视频通信的过程中，用户可以实时更改初始数据中的任意一项，从而改变人物形象与虚拟立体场景的融合效果。

应用上述实施例中的视频通信方法，可以将本地用户的三维人物形象及对端用户的三维人物形象与虚拟立体场景进行融合，并可以将融合后的即时场景呈现给用户，可以获得双方同处一地进行交流的场景。可以提取通信双方的画面并将通信双方的画面融合到一个自定义的个性化虚拟场景中，给用户模拟同时同地交流沟通的氛围，营造一种面对面同时同地交流的氛围。还可以对场景和人物装饰进行个性化定制，丰富了通讯的内容和趣味性，提高了用户的感官体验。

上述实施例中的技术方法能够避免了可视通讯方案双方画面独立，关联性差，互动性低，以及不够形象具体的特点。

图1c为一实施例提供的视频通信方法的流程图，在上述实施例的基础上，如图1c所示，该方法包括以下步骤。

步骤110中，获取本地用户的第一当前视频画面，并接收对端用户的第二当前视频画面。

步骤120中，分别对所述第一当前视频画面和所述第二当前视频画面进行人脸识别，基于人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象。

步骤130中，将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，得到融合人物形象的第二虚拟立体场景，以使所述第二虚拟立体场景呈现在本地。

一实施例中，视频通信还包括：将所述第一当前视频画面发送至对端。

一实施例中，在所述生成所述第一三维人物形象之前，所述方法还包括：根据所述第一人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定所述第一三维人物形象的第一尺寸；以及

在所述生成所述第二三维人物形象之前，所述方法还包括：根据所述第二人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定所述第二三维人物形象的第二尺寸。

一实施例中，其中，所述将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，包括：

针对本申请提供的视频通信方法，还提出一种视频通信设备。

图2a为本实施例的视频通信设备的组成结构示意图，如图2a所示，该视频通信设备包括：第一获取模块201、第一识别模块202、第一构建模块203、第一融合模块204和呈现模块205。

第一获取模块201设置为采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端，并接收对端用户的当前视频画面。

识别模块202设置为分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，得出人脸识别结果。

构建模块203设置为基于所述人脸识别结果构建所述本地用户的三维人物形象和所述对端用户的三维人物形象。

融合模块204设置为将所述本地用户的三维人物形象和所述对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景。

呈现模块205设置为将所述融合人物形象的虚拟立体场景在本地呈现。

一实施例中，所述人脸识别结果包括：识别出的本地用户的人脸图像和识别出的对端用户的人脸图像。

所述构建模块203，设置为在本地用户的当前视频画面中，对本地用户的整体人物图像进行边缘检测，得到本地用户的边缘检测结果；根据本地用户的人脸图像和所述本地用户的边缘检测结果，生成本地用户的三维人物形象；在对端用户的当前视频画面中，对对端用户的整体人物图像进行边缘检测，得到对端用户的边缘检测结果；以及，根据对端用户的人脸图像和所述对端用户的边缘检测结果，生成对端用户的三维人物形象。

一实施例中，所述构建模块203，还可以设置为在生成本地用户的三维人物形象之前，根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸。以及，在生成对端用户的三维人物形象之前，根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。

一实施例中，所述融合模块204设置为获取本地拍摄角度数据和对端拍摄角度数据，根据本地拍摄角度数据和对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系；以及基于所述相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中。其中，所述本地拍摄角度数据用于表示本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示对端用户的当前视频画面对应的摄像头拍摄角度。

一实施例中，所述融合模块204，还设置为在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中之前，设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域。

一实施例中，所述融合模块204设置为基于所述相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中；根据本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中一个或多个虚拟立体元素的位置；以及，在所述虚拟立体场景中，根据所述虚拟立体场景中一个或多个虚拟元素的位置，生成一个或多个虚拟立体元素。

所述第一获取模块201可以从终端中的摄像头获取本地用户的的当前视频画面或对端用户的视频画面，所述第一获取模块201、第一识别模块202、第一构建模块203和第一融合模块204均可以由位于终端中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)实现，所述呈现模块205可由位于终端中的显示器等实现。

一实施例提供了一种视频通信设备，图2b为本实施例的视频通信设备的组成结构示意图，在上述实施例的基础上，如图2b所示，该视频通信设备包括：第二获取模块210、第二识别模块220、第二构建模块230以及第二融合模块240。

第二获取模块210设置为获取本地用户的当前视频画面，并接收对端用户的当前视频画面。

第二识别模块220设置为分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，得出人脸识别结果。

第二构建模块230设置为基于所述人脸识别结果构建所述本地用户的三维人物形象和所述对端用户的三维人物形象。

第二融合模块240设置为将所述本地用户的三维人物形象和所述对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景，以使所述融合人物形象的虚拟立体场景呈现在本地。

所述第二获取模块210，第二识别模块220、第二构建模块230和第二融合模块240均可以由位于终端中的CPU、MPU、DSP或FPGA实现。

一实施例中，视频通信设备还包括：发送模块250。发送模块250设置为将所述第一当前视频画面发送至对端。

一实施例中，所述融合模块，设置为获取本地拍摄角度数据和对端拍摄角度数据，根据所述本地拍摄角度数据和所述对端拍摄角度数据，确定所述第一虚拟立体场景中所述第一三维人物形象与所述第二三维人物形象的相对方位关系；以及，基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中；其中，所述本地拍摄角度数据用于表示所述第一当前视频画面对应的摄像头拍摄角度，以及所述对端拍摄角度数据用于表示所述第二当前视频画面对应的摄像头拍摄角度。

基于上述实施例提供的视频通信方法，一实施例提出了一种视频通信设备，图3为本实施例提供的一种视频通信设备的组成结构示意图，如图3所示，该视频通信设备可以包括：通信模块301(也称通信电路)、数据处理模块302、音视频采集模块303(也称音视频采集电路)、主控模块304(也称主控控制器)和输出模块305(也称输出电路)，其中，主控模块304可以分别连接通信模块301、数据处理模块302、音视频采集模块303和输出模块305，数据处理模块302可以分别连接通信模块301、音视频采集模块303和输出模块305，通信模块301可以连接音视频采集模块303。

主控模块304可以设置为负责整体业务流程控制和资源分配，主控模块可以采用高性能微控制器实现。

数据处理模块302可以设置为接收主控模块发送的控制信息，并根据控制信息进行数据处理，还可以设置为接收来自音视频采集模块和通信模块的信息。数据处理模块302可以基于采集和接收的信息，进行人脸识别检测，提取人物图像，并可以利用增强现实技术将三维人物形象与虚拟立体场景进行融合。数据处理模块可以由高性能处理器实现。

音视频采集模块303可以设置为采集本地用户的视频画面和本地音频信息，将采集到的本地用户的视频画面和本地音频信息发送至数据处理模块302和通信模块301。音视频采集模块303可以利用至少一个摄像头和至少一个麦克风实现。一实施例中，音视频采集模块303可以利用多个摄像头提供不同角度方位的视频信息。

通信模块301可以设置为接收主控模块304发送的控制信息，并根据接收的控制信息，对接收的来自对端的信息进行解码后发送至本地的数据处理模块302。通信模块301还可以配置为根据接收的控制信息，对来自音视频采集模块303的信息进行编码，将编码后的信息可以发送至对端的通信模块301。

数据处理模块302还可以配置为将融合三维人物形象的虚拟立体场景、本地的音频信息以及对端的音频信息同步输出至输出模块305。

输出模块305可以设置为接收主控模块304发送的控制信息，根据接收的控制信息，可以将融合三维人物形象的虚拟立体场景、本地用户的语音信息以及对端用户的语音信息同步呈现给用户。输出模块305可以由显示器和扬声器实现。

上述实施例可提供为方法、系统、或计算机程序产品。因此，上述实施例可采用硬件、软件、或软件和硬件结合的形式实现。

上述实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述实施例中方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

一实施例提供了一种终端的硬件结构示意图。参见图4，该终端包括：

至少一个处理器(processor)40，图4中以一个处理器40为例；以及存储器(memory)41，还可以包括图像采集设备42、显示器43、通信接口(Communications Interface)44和总线45。其中，处理器40、存储器41、图像采集设备42、显示器43以及通信接口44可以通过总线45完成相互间的通信。

图像采集设备42设置为采集本地用户的当前视频画面。显示器43设置为显示所述融合人物形象的虚拟立体场景。通信接口44可以用于信息传输。处理器40可以调用存储器41中的逻辑指令，以执行图1c所在实施例中的方法。

此外，上述的存储器41中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如图1c所在实施例中的方法对应的程序指令或模块。处理器40通过运行存储在存储器41中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现图1c所在实施例中的方法。

存储器41可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器。

本申请是参照根据上述实施例的方法、设备(系统)、和计算机程序产品的流程图和方框图中至少之一来描述的。应理解可由计算机程序指令实现流程图中的每一流程、或方框图中的每一方框、或者，流程图中的每一流程和方框图中每一方框。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现以下至少之一中指定的功能的装置：流程图中的一个流程或多个流程，以及方框图中的一个方框或多个方框。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现以下至少之一中指定的功能的装置：流程图中的一个流程或多个流程，以及方框图中的一个方框或多个方框。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现以下至少之一：在流程图中一个流程或多个流程指定的功能的步骤，和方框图中一个方框或多个方框中指定的功能。

工业实用性

视频通信方法、设备和终端，能够解决可视通信技术中出现的通讯效果单一、整体关联性差和互动性低的问题。

Claims

一种视频通信方法，包括：

获取本地用户的第一当前视频画面，并接收对端用户的第二当前视频画面；

分别对所述第一当前视频画面和所述第二当前视频画面进行人脸识别，基于人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象；以及，

将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，得到融合人物形象的第二虚拟立体场景，以使所述第二虚拟立体场景呈现在本地。
根据权利要求1所述的方法，还包括：将所述第一当前视频画面发送至对端。
根据权利要求1或2所述的方法，其中，所述人脸识别结果包括：识别出的所述本地用户的第一人脸图像和识别出的所述对端用户的第二人脸图像；

所述基于人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象，包括：

在所述第一当前视频画面中，对所述本地用户的整体人物图像进行边缘检测，得到所述本地用户的第一边缘检测结果；根据所述第一人脸图像和所述第一边缘检测结果，生成所述第一三维人物形象；

在所述第二当前视频画面中，对所述对端用户的整体人物图像进行边缘检测，得到所述对端用户的第二边缘检测结果；以及，根据所述第二人脸图像和所述第二边缘检测结果，生成所述第二三维人物形象。
根据权利要求3所述的方法，在所述生成所述第一三维人物形象之前，所述方法还包括：根据所述第一人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定所述第一三维人物形象的第一尺寸；以及

在所述生成所述第二三维人物形象之前，所述方法还包括：根据所述第二人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定所述第二三维人物形象的第二尺寸。
根据权利要求1或2所述的方法，其中，所述将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，包括：

获取本地拍摄角度数据和对端拍摄角度数据，其中，所述本地拍摄角度数据用于表示所述第一当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示所述第二当前视频画面对应的摄像头拍摄角度；

根据所述本地拍摄角度数据和所述对端拍摄角度数据，确定所述第一虚拟立体场景中所述第一三维人物形象与所述第二三维人物形象的相对方位关系；以及，

基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中。
根据权利要求4所述的方法，在所述将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中之前，所述方法还包括：设置所述第一三维人物形象在所述第一虚拟立体场景中的第一位置区域，以及所述第二三维人物形象在所述第一虚拟立体场景中的第二位置区域；其中，

所述基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中，包括：基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象同时布置在所述第一虚拟立体场景中；根据所述第一位置区域以及所述第二位置区域，确定所述第一虚拟立体场景中一个或多个虚拟立体元素的位置；以及，根据所述一个或多个虚拟立体元素的位置，在所述第一虚拟立体场景中的相应位置生成所述一个或多个虚拟立体元素。
一种视频通信设备，包括：获取模块、识别模块、构建模块以及融合模块；其中，

获取模块，设置为获取本地用户的第一当前视频画面，，并接收对端用户的第二当前视频画面；

识别模块，设置为分别对所述第一当前视频画面和所述第二当前视频画面进行人脸识别，得出人脸识别结果；

构建模块，设置为基于所述人脸识别结果构建所述本地用户的第一三维人物形象和所述对端用户的第二三维人物形象；以及

融合模块，设置为将所述第一三维人物形象和所述第二三维人物形象融合至预先构建的第一虚拟立体场景中，得到融合人物形象的第二虚拟立体场景，以使所述第二虚拟立体场景呈现在本地。
根据权利要求7所述的设备，还包括：

发送模块，设置为将所述第一当前视频画面发送至对端。
根据权利要求7或8所述的设备，其中，所述人脸识别结果包括：识别出的所述本地用户的第一人脸图像和识别出的所述对端用户的第二人脸图像；

所述构建模块，设置为在所述第一当前视频画面中，对所述本地用户的整体人物图像进行边缘检测，得到所述本地用户的第一边缘检测结果；根据所述第一人脸图像和所述第一边缘检测结果，生成所述第一三维人物形象；

在所述第二当前视频画面中，对所述对端用户的整体人物图像进行边缘检测，得到所述对端用户的第二边缘检测结果；以及，根据所述第一人脸图像和所述第一边缘检测结果，生成所述第一三维人物形象。
根据权利要求9所述的设备，其中，所述构建模块，还设置为在生成所述第一三维人物形象之前，根据所述第一人脸图像、以及所述第一人脸图像到所述第一三维人物形象的第一尺寸映射关系，确定所述第一三维人物形象的第一尺寸；以及，

在生成所述第二三维人物形象之前，根据所述第二人脸图像、以及所述第二人脸图像到所述第二三维人物形象的第二尺寸映射关系，确定所述第二三维人物形象的第二尺寸。
根据权利要求7或8所述的设备其中，所述融合模块，设置为获取本地拍摄角度数据和对端拍摄角度数据，根据所述本地拍摄角度数据和所述对端拍摄角度数据，确定所述第一虚拟立体场景中所述第一三维人物形象与所述第二三维人物形象的相对方位关系；以及，基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中；其中，所述本地拍摄角度数据用于表示所述第一当前视频画面对应的摄像头拍摄角度，以及所述对端拍摄角度数据用于表示所述第二当前视频画面对应的摄像头拍摄角度。
根据权利要求11所述的设备，其中，所述融合模块，还设置为在将所述第一三维人物形象和所述第二三维人物形象融合至所述第一虚拟立体场景中之前，设置所述第一三维人物形象在所述的第一虚拟立体场景中的第一位置区域，以及所述第二三维人物形象在所述第一虚拟立体场景中的第二位置区域；所述融合模块，设置为基于所述相对方位关系，将所述第一三维人物形象和所述第二三维人物形象同时布置在所述第一虚拟立体场景中；根据所述第一位置区域以及所述第二位置区域，确定所述第一虚拟立体场景中一个或多个虚拟立体元素的位置；以及，根据所述一个或多个虚拟立体元素的位置，在所述第一虚拟立体场景中的相应位置生成所述一个或多个虚拟立体元素。
一种终端，包括权利要求7至12任一项所述的设备。14、一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-6任一项视频通信的方法。