WO2018153267A1

WO2018153267A1 - 群组视频会话的方法及网络设备

Info

Publication number: WO2018153267A1
Application number: PCT/CN2018/075749
Authority: WO
Inventors: 李凯
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-02-24
Filing date: 2018-02-08
Publication date: 2018-08-30
Also published as: US10609334B2; TW201832051A; TWI650675B; US20190297304A1

Abstract

本发明是关于一种群组视频会话的方法及网络设备，涉及网络技术领域。本发明通过确定群组视频会话中每个用户的用户类型，根据用户类型处理群组视频会话的视频数据，从而当用户类型为虚拟用户时，可以得到与虚拟用户所指示的虚拟现实显示模式匹配的目标视频数据，当用户类型为普通用户时，可以得到与普通用户所指示的二维显示模式匹配的目标视频数据，从而为不同类型的用户采用合理的显示模式显示视频数据，使得不同类型的用户之间能够不受限制地进行群组视频会话，提高了群组视频会话的灵活性。

Description

群组视频会话的方法及网络设备

本申请要求于2017年2月24日提交中国国家知识产权局、申请号为2017101044392、2017101044424、2017101046699，发明名称均为“群组视频会话的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及VR(Virtual Reality，虚拟现实)技术领域，特别涉及一种群组视频会话的方法及网络设备。

背景技术

VR技术是一种可以创建和体验虚拟世界的技术，能够模拟出的逼真环境并智能地感知用户的行为，使得用户感觉身临其境。因此，VR技术在社交方面的应用受到了广泛关注，基于VR技术进行群组视频会话的方法应运而生。

目前，在群组视频会话时，服务器可以为多个使用VR设备的虚拟用户创建出虚拟环境，将虚拟用户选择的虚拟人物与虚拟环境叠加，以表达虚拟用户在虚拟环境中的影像，进而，服务器可以将虚拟用户的音频与影像叠加的视频发送给虚拟用户，为虚拟用户带来视觉和听觉体验，使虚拟用户仿佛在虚拟的世界中与其他虚拟用户畅谈。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

虚拟用户只能和虚拟用户之间进行群组视频会话，在VR设备尚未普及的今天，众多未使用VR设备的普通用户与虚拟用户之间存在很大地沟通障碍，导致群组视频会话时的限制性强，灵活性差。

发明内容

本发明实施例提供了一种群组视频会话的方法及网络设备，使得不同类型的用户之间能够不受限制地进行群组视频会话，提高了群组视频会话的灵活性。所述技术方案如下：

一方面，提供了一种群组视频会话的方法，所述方法包括：

创建群组视频会话；

对于所述群组视频会话中的每个用户，根据所述用户的设备信息，确定所述用户的用户类型，所述用户类型包括普通用户和虚拟用户，所述普通用户用于指示所述用户在参与所述群组视频会话时采用二维显示模式，所述虚拟用户用于指示所述用户在参与所述群组视频会话时采用虚拟现实显示模式；

根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据，所述目标视频数据的视频显示模式与所述用户的用户类型所指示的视频显示模式匹配；

在所述群组视频会话的进行过程中，向所述用户的用户设备发送目标视频数据，使所述用户进行群组视频会话。

一方面，提供了一种群组视频会话的方法，所述方法包括：

接收服务器发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；

显示所述目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，所述群组视频会话中的虚拟用户以二维虚拟人物的形式显示。

一方面，提供了一种群组视频会话的方法，所述方法包括：

接收服务器发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；

显示所述目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，所述群组视频会话中的虚拟用户在所述虚拟环境中以三维虚拟人物的形式显示。

一方面，提供了一种群组视频会话的装置，所述装置包括：

创建模块，用于创建群组视频会话；

确定模块，用于对于所述群组视频会话中的每个用户，根据所述用户的设备信息，确定所述用户的用户类型，所述用户类型包括普通用户和虚拟用户，所述普通用户用于指示所述用户在参与所述群组视频会话时采用二维显示模式，所述虚拟用户用于指示所述用户在参与所述群组视频会话时采用虚拟现实显示模式；

处理模块，用于根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据，所述目标视频数据的视频显示模式与所述用户的用户类型所指示的视频显示模式匹配；

发送模块，用于在所述群组视频会话的进行过程中，向所述用户的用户设备发送目标视频数据，使所述用户进行群组视频会话。

一方面，提供了一种群组视频会话的装置，所述装置包括：

接收模块，用于接收服务器发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；

显示模块，用于显示所述目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，所述群组视频会话中的虚拟用户以二维虚拟人物的形式显示。

一方面，提供了一种群组视频会话的装置，所述装置包括：

接收模块，用于接收服务器发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；

显示模块，用于显示所述目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，所述群组视频会话中的虚拟用户在所述虚拟环境中以三维虚拟人物的形式显示。

一方面，提供了一种网络设备，所述网络设备包括存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以执行下述群组视频会话的方法的步骤：

创建群组视频会话；

一方面，提供了一种终端，所述终端包括存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以执行下述群组视频会话的方法的步骤：

接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；

一方面，提供了一种虚拟现实VR设备，所述VR设备包括存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以执行下述群组视频会话的方法的步骤：

接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；

一方面，提供了一种群组视频会话系统，所述系统包括：

网络设备，被配置为创建群组视频会话；对于所述群组视频会话中的每个用户，根据所述用户的设备信息，确定所述用户的用户类型，所述用户类型包括普通用户和虚拟用户，所述普通用户用于指示所述用户在参与所述群组视频会话时采用二维显示模式，所述虚拟用户用于指示所述用户在参与所述群组视频会话时采用虚拟现实显示模式；根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据，所述目标视频数据的视频显示模式与所述用户的用户类型所指示的视频显示模式匹配；在所述群组视频会话的进行过程中，向所述用户的用户设备发送目标视频数据，使所述用户进行群组视频会话；

终端，被配置为接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；显示所述目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，所述群组视频会话中的虚拟用户以二维虚拟人物的形式显示；

虚拟现实VR设备，被配置为接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；显示所述目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，所述群组视频会话中的虚拟用户在所述虚拟环境中以三维虚拟人物的形式显示。

一方面，提供了一种群组视频会话的方法，所述方法包括：

获取群组视频会话中第一用户的虚拟人物，所述第一用户的虚拟人物至少根据所述第一用户的头部特征数据和所述第一用户对应的肢体模型得到；

在所述群组视频会话的过程中，基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据，所述视频数据中所述第一用户的虚拟人物的动作与所述第一用户的实际动作匹配；

向参与所述群组视频会话的第二用户所在终端发送所述第一用户的视频数据，以实现所述群组视频会话。

一方面，提供了一种群组视频会话的装置，所述装置包括：

虚拟人物获取模块，用于获取群组视频会话中第一用户的虚拟人物，所述第一用户的虚拟人物至少根据所述第一用户的头部特征数据和所述第一用户对应的肢体模型得到；

视频数据获取模块，用于在所述群组视频会话的过程中，基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据，所述视频数据中所述第一用户的虚拟人物的动作与所述第一用户的实际动作匹配；

发送模块，用于向参与所述群组视频会话的第二用户所在终端发送所述第一用户的视频数据，以实现所述群组视频会话。

一方面，提供了一种群组视频会话的方法，所述方法包括：

在群组视频会话过程中，获取待展示的目标物的三维交互模型；

根据所述群组视频会话中多个用户中每个用户的视角，对所述目标物的三维交互模型进行处理，得到所述用户的视频数据，所述用户的视频数据包含对所述目标物的三维交互模型进行视角变换得到的模型数据；

将所述多个用户的视频数据分别发送至所述多个用户所在终端。

一方面，提供了一种群组视频会话的装置，所述装置包括：

交互模型获取模块，用于在群组视频会话过程中，获取待展示的目标物的三维交互模型；

处理模块，用于根据所述群组视频会话中多个用户中每个用户的视角，对所述目标物的三维交互模型进行处理，得到所述用户的视频数据，所述用户的视频数据包含对所述目标物的三维交互模型进行视角变换得到的模型数据；

发送模块，用于将所述多个用户的视频数据分别发送至所述多个用户所在终端。

本发明实施例通过确定群组视频会话中每个用户的用户类型，根据用户类型处理群组视频会话的视频数据，从而当用户类型为虚拟用户时，可以得到与虚拟用户所指示的虚拟现实显示模式匹配的目标视频数据，当用户类型为普通用户时，可以得到与普通用户所指示的二维显示模式匹配的目标视频数据，从而为不同类型的用户采用合理的显示模式显示视频数据，使得不同类型的用户之间能够不受限制地进行群组视频会话，提高了群组视频会话的灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种群组视频会话的实施环境示意图；

图2是本发明实施例提供的一种群组视频会话的方法流程图；

图3是本发明实施例提供的一种用户显示位置的示意图；

图4是本发明实施例提供的一种群组视频会话场景的示意图；

图5是本发明实施例提供的一种显示场景示意图；

图6是本发明实施例提供的一种虚拟用户进行群组视频会话的流程图；

图7是本发明实施例提供的一种群组视频会话的装置框图；

图8是本发明实施例提供的一种群组视频会话的装置框图；

图9是本发明实施例提供的一种群组视频会话的装置框图；

图10是本发明实施例提供的一种群组视频会话的方法流程图；

图11是本发明实施例提供的一种获取虚拟人物的流程图；

图12是本发明实施例提供的一种获取头部方位数据的流程图；

图13是本发明实施例提供的一种获取视频数据的流程图；

图14是本发明实施例提供的一种群组视频会话的流程图；

图15是本发明实施例提供的一种显示视频数据的流程图；

图16是本发明实施例提供的一种群组视频会话的装置框图；

图17是本发明实施例提供的一种群组视频会话的方法流程图；

图18是本发明实施例提供的一种三维交互模型的示意图；

图19是本发明实施例提供的一种调整三维交互模型的流程图；

图20是本发明实施例提供的一种交互流程图；

图21是本发明实施例提供的一种群组视频会话的装置框图；

图22是本发明实施例提供的一种群组视频会话的装置框图；

图23是本发明实施例提供的一种群组视频会话的装置框图；

图24是本发明实施例提供的一种群组视频会话的装置框图；

图25是本发明实施例提供的一种群组视频会话的装置框图；

图26是本发明实施例提供的一种群组视频会话的装置框图；

图27示出了本发明一个示例性实施例提供的终端2700的结构框图；

图28是本发明实施例提供的一种网络设备的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种群组视频会话的实施环境示意图。参见图 1，该实施环境中包括：

至少一个终端101(如，移动终端和平板电脑)、至少一个VR设备102和至少一个服务器103。其中，终端101、VR设备102和服务器103的交互过程可对应下述实施例中的群组视频会话的过程；服务器103用于为不同类型的用户创建群组视频会话、接收并处理终端101和VR设备102所发送的视频数据、将处理后的视频数据发送至终端101或VR设备102，使得不同类型的用户之间能够进行群组视频会话。终端101用于将摄像头拍摄到的视频数据实时发送至服务器103、接收并显示服务器103处理后的视频数据。VR设备102用于将传感设备采集到的用户的行为特征数据发送至服务器103、接收并显示服务器103处理后的视频数据。

其中，服务器103还可以用于获取使用终端101或VR设备102的用户的虚拟人物、基于该用户的虚拟人物和行为特征数据得到视频数据。终端101用于接收并显示服务器103发送的视频数据。VR设备102也可以还用于获取VR设备102的用户的虚拟人物、基于该用户的虚拟人物和行为特征数据得到视频数据。

另外，该服务器103还可以配置至少一个数据库，如五官模型数据库、肢体模型数据、虚拟人物数据库、用户资料数据库和用户关系链数据库等等。该五官模型数据库用于存储卡通化的五官模型；肢体模型数据库用于存储卡通化的肢体模型，该肢体模型数据库还可以存储有着装；虚拟人物数据库用于对应存储用户的用户标识和虚拟人物；用户资料数据库至少用于存储用户的年龄数据、性别数据和职业数据等用户属性；用户关系链数据库用于存储用户具有的用户关系链数据，如，用户关系链数据至少用于指示与该用户为好友关系或群组关系的用户。

需要说明的是，当VR设备102用于获取虚拟人物时，可以从服务器103配置的至少一个数据库中获取五官模型、肢体模型或虚拟人物。而且，本发明实施例中涉及的虚拟人物(包括头部模型和肢体模型)可以为三维形式。

图2是本发明实施例提供的一种群组视频会话的方法流程图。参见图2，该方法应用于服务器与终端、VR设备的交互过程。

201、服务器创建群组视频会话。

群组视频会话是指多个(两个或两个以上)用户基于服务器进行的视频会话。其中，多个用户可以是该服务器对应的社交平台上的多个用户，该多个用户之间可能是群组关系或好友关系。

该步骤中，当服务器接收任一用户设备的群组视频会话请求时，可以创建群组视频会话。本发明实施例对该群组视频会话请求的发起方式不做限定。例如，由某用户在已建立的群组中对该群组中的所有用户发起群组视频会话请求，该举例中，群组视频会话请求可以携带该群组的群组标识，使得服务器可以根据群组标识获取该群组中每个用户的用户标识。又例如，该用户也可以从已建立的群组中或者用户关系链中选择一些用户后发起群组视频会话请求，该举例中，群组视频会话请求可以携带该用户和被选择用户的用户标识。服务器获取到用户标识后，可以将用户标识对应的用户添加到群组视频会话中，从而创建群组视频会话。

202、对于群组视频会话中的每个用户，服务器根据该用户的设备信息，确定该用户的用户类型。

设备信息可以是用户登录服务器所使用的用户设备的设备型号，设备型号的表现形式如：手机品牌+手机型号，使得服务器可以根据设备型号与设备类型的对应关系确定该用户设备的设备类型，设备类型可以为PC(Personal Computer，个人电脑)终端、移动终端或VR设备。

该步骤中，服务器可以通过多种方式获取设备信息，例如，用户设备向服务器发送登录请求时，登录请求可以携带用户标识和设备信息，使得服务器接收到登录请求时能够提取出用户标识和设备信息，并对应存储，或者，服务器向用户设备发送设备信息获取请求，使得用户设备将设备信息发送至服务器。

由于群组视频会话中的用户可能使用不同的用户设备登录服务器，不同的用户设备支持的视频显示模式不同(VR设备支持虚拟现实显示模式，终端支持二维显示模式)。因此，服务器需要为使用不同用户设备的用户采用不同的方式处理视频数据，以得到与用户设备支持的视频显示模式匹配的视频数据，而为了确定如何为某个用户处理视频数据，服务器需要先确定该用户的用户类型。用户类型包括普通用户和虚拟用户，普通用户用于指示用户在参与群组视频会话时采用二维显示模式，如果该用户为普通用户，说明该用户是使用非VR设备登录服务器的用户，非VR设备如移动终端、平板电脑等，虚拟用户用于指示用户在参与群组视频会话时采用虚拟现实显示模式，如果该用户为虚拟用户，说明该用户是使用VR设备登录服务器的用户。

该步骤中，服务器可以根据预先配置的设备信息、设备类型与用户类型的对应关系，查询与用户的设备信息对应的用户类型。该对应关系的举例参见表1：

表1

设备信息	设备类型	用户类型
XX thinkpad	PC终端	普通用户
WW N7	移动终端	普通用户
UU VR	VR设备	虚拟用户

事实上，用户也可以自行设置设备信息，例如，在VR设备上提供设备信息设置页面，VR设备用户可以将当前的设备信息设置为“WW N7”，也可以保留默认设置的“UU N7”，使得服务器可以获取到VR设备用户所设置的设备信息，从而确定VR设备用户趋于体验的用户类型。

203、服务器根据用户的用户类型所指示的视频显示模式，对群组视频会话的视频数据进行处理，得到用户的目标视频数据。

其中，目标视频数据的视频显示模式与用户的用户类型所指示的视频显示模式匹配。该步骤中，如果该用户的用户类型为普通用户，服务器确定该用户在参与本次群组视频会话时采用二维显示模式，并为该用户采用与二维显示模式对应的视频数据处理方式，如果该用户的用户类型为虚拟用户，服务器确定该用户在参与本次视频会话时采用虚拟现实显示模式，并为该用户采用与虚拟现实显示模式对应的视频数据处理方式。本发明实施例对具体的处理过程不做限定。下面，针对每种类型的用户对应的视频数据处理方式，分别进行介绍：

用户类型为普通用户时的处理过程如以下步骤203A-203C：

203A、如果该用户的用户类型为普通用户，服务器将群组视频会话中虚拟用户对应的三维虚拟人物转换为二维虚拟人物。

三维虚拟人物用于以三维图像数据表达虚拟用户的人物形象，使得在群组视频会话时可以将该用户显示为三维虚拟人物。该步骤中，服务器可以通过多种方式获取三维虚拟人物。例如，在虚拟用户确认进入群组视频会话之前，为虚拟用户提供多个三维虚拟人物，将虚拟用户所选择的三维虚拟人物作为该虚拟用户对应的三维虚拟人物。又例如，服务器获取该虚拟用户的用户属性，将与用户属性匹配的三维虚拟人物作为该虚拟用户对应的三维虚拟人物，该举例中，用户属性包括年龄、性别和职业等信息，以虚拟用户的用户属性是30岁的女教师为例，服务器可以选择女教师形象的三维虚拟人物作为该虚拟用户对应的三维虚拟人物。

进一步地，服务器基于获取到的三维虚拟人物，可以将三维虚拟人物转换成二维虚拟人物，需要说明的是，该二维虚拟人物可以是静止的，也可以是动态的，本发明实施例对此不做限定。例如，为了节约服务器的运算资源，可以直接从三维虚拟人物对应的三维图像数据中提取出某一视角的二维图像数据，将该视角的二维图像数据作为二维虚拟人物，为了尽可能全面地表达虚拟用户，该视角可以是正面视角。又例如，为了形象地展示虚拟用户的行为，服务器可以获取三维虚拟人物和VR设备采集到的虚拟用户的行为特征数据，该行为特征数据包括虚拟用户的表情特征数据或肢体特征数据，进而，服务器可以根据行为特征数据确定三维虚拟人物的行为特征，生成与行为特征符合的三维虚拟人物，使得三维虚拟人物的行为与虚拟用户的行为同步，再将三维虚拟人物转换成二维虚拟人物，该具体处理过程可以参见如下述图10所示过程，在此不做详述。

203B、服务器对二维虚拟人物、虚拟用户选择的二维背景、以及虚拟用户对应的音频数据进行合成，得到第一二维视频数据。

基于步骤203A获取到的二维虚拟人物，为了给该用户提供更丰富的视觉效果，服务器还可以为该二维虚拟人物添加二维背景。该二维背景是指二维虚拟人物的背景，如二维会议背景和二维沙滩背景。服务器可以在为虚拟用户进入群组视频会话之前提供多个二维背景，或获取虚拟用户所选择的二维背景。事实上，服务器也可以通过其他方式获取该二维背景，例如，随机获取该虚拟用户对应的二维背景。又例如，为了尽可能给群组视频会话中的用户带来相同的体验效果，服务器可以该群组视频会话对应的虚拟环境所映射的二维图像数据作为二维背景，或者，服务器可以获取该虚拟环境的标签，将与该标签相同的二维图像数据作为二维背景，如，虚拟环境的标签为“森林”，服务器可以将标签为“森林”的二维图像数据作为二维背景，当然，该二维背景可以是静态的，也可以是动态的。

该步骤中，服务器可以确定二维虚拟人物在二维背景上的显示位置和合成尺寸，对二维虚拟人物原来的显示尺寸进行调整，得到符合合成尺寸的二维虚拟人物，将该二维虚拟人物合成至二维背景上对应的显示位置，且二维虚拟人物的图层在二维背景的图层之上，得到虚拟用户当前对应的图像数据。事实上，服务器也可以确定二维背景上与显示位置和合成尺寸对应的显示区域，移除该显示区域内的像素点，并将该二维虚拟人物对应的图像数据嵌入该显示区域，从而将嵌入后的二维图像数据作为虚拟用户当前对应的图像数据。

在群组视频会话的过程中，当任一用户发言时，用户设备可以将所录制的音频数据实时发送至服务器，因此，当服务器接收到该虚拟用户对应的音频数据时，可以将当前的图像数据与音频数据进行合成，得到第一二维视频数据，以表达虚拟用户当前的言行。当然，如果服务器当前没有接收到该虚拟用户对应的音频数据，可以直接将当前的图像数据作为第一二维视频数据。

203C、服务器对至少一个第一二维视频数据与至少一个第二二维视频数据进行合成，得到该用户的目标视频数据。

第二二维视频数据是指群组视频会话中普通用户的二维视频数据。该步骤中，服务器确定群组视频会话中各个用户当前的二维视频数据的显示位置和合成尺寸，将各个用户当前的视频数据按照所确定的显示位置和合成尺寸，与虚拟环境合成为一份二维视频数据，且用户的二维视频数据的图层在虚拟环境的图层之上，将合成的二维视频数据作为该用户的目标视频数据。

需要说明的是，步骤202B和202C的两步合成过程也可以对应于一个合成过程，该合成过程中，服务器省略合成第一二维视频数据的步骤，直接对二维虚拟人物、二维背景、虚拟用户对应的音频数据和第二二维视频数据进行合成，从而得到目标视频数据。

用户类型为虚拟用户时的处理过程如以下步骤203D-203H：

203D、如果该用户的用户类型为虚拟用户，服务器确定群组视频会话对应的虚拟环境。

虚拟环境是指虚拟用户在群组视频会话时的三维背景，如，圆桌会议虚拟环境、沙滩虚拟环境和桌游虚拟环境等三维图像。本发明实施例对确定虚拟环境的具体方式不做限定。例如，服务器可以采用以下三种确定方式：

第一种确定方式、服务器将用户触发的虚拟环境选项对应的虚拟环境确定为用户在群组视频会话中对应的虚拟环境。

为使提供虚拟环境的过程更加人性化，服务器可以提供多样化的虚拟环境，并由用户自由选择群组视频会话时的虚拟环境。该确定方式中，服务器可以在VR设备(或者与VR设备绑定的终端)上提供至少一个虚拟环境选项和对应的虚拟环境缩略图，每个虚拟环境选项对应一个虚拟环境。当VR设备检测到虚拟用户对某个虚拟环境选项的触发操作时，可以向服务器发送虚拟环境选项对应的虚拟环境标识，服务器获取到该虚拟环境标识时，可以将该虚拟环境标识对应的虚拟环境确定为该用户在群组视频会话时的虚拟环境。

第二种确定方式、根据群组视频会话中的用户数量，确定群组视频会话对应的虚拟环境的容量，将符合容量的虚拟环境确定为群组视频会话对应的虚拟环境。

为了给用户呈现合理的虚拟环境，以避免虚拟环境显得拥挤或者空旷，该确定方式中，服务器可以获取群组视频会话中的用户数量，从而确定虚拟环境应该具有的容量，该容量用于指示虚拟环境所能容纳的用户数量，例如，圆桌会议虚拟环境的容量对应于该虚拟环境中的座椅数量。进一步地，服务器根据所确定的容量，可以从已存储的多个虚拟环境中选择一个与该容量最相近的虚拟环境。例如，用户数量为12，服务器存储了三个圆桌会议虚拟环境，每个圆桌会议虚拟环境中的座椅数量为5、10和15，因此服务器可以将座椅数量为12的圆桌会议虚拟环境确定为该用户在群组视频会话时对应的虚拟环境。

第三种确定方式、分析群组视频会话中的每个用户选择过的虚拟环境，得到每个虚拟环境的被选择次数，将被选择次数最多的虚拟环境确定为群组视频会话对应的虚拟环境。

该确定方式中，服务器通过综合分析每个用户选择过的虚拟环境，得出了更多用户所偏爱的虚拟环境。例如，群组视频会话中有5个用户，每个用户选择虚拟环境的情况如表2所示，因此，服务器通过表2可以确定该虚拟环境1被选择次数最多(4次)，将虚拟环境1确定为该用户在群组视频会话时对应的虚拟环境。

表2

用户	虚拟环境
A	虚拟环境1、虚拟环境2、
B	虚拟环境3、
C	虚拟环境1、
D	虚拟环境1、虚拟环境3、
E	虚拟环境1、

需要说明的是，在以上三种确定方式中，为了节省服务器的运算资源，服务器为某一用户确定虚拟环境后，可以直接将该用户对应的虚拟环境确定为群组视频会话中每个虚拟用户对应的虚拟环境。

事实上，以上三种确定方式中的任意两种或三种确定方式也可以相结合，本发明实施例对结合方式不做限定。例如，第一种确定方式和第三种确定方式结合，如果服务器接收到该用户触发的虚拟环境标识，则确定虚拟环境标识对应的虚拟环境，否则，服务器采用第三种确定方式。

203E、以虚拟环境为三维背景，服务器确定群组视频会话中的每个用户在虚拟环境中的显示位置。

该步骤中，为使群组视频会话中各个用户合理地融入虚拟环境，服务器需要确定每个用户在虚拟环境中的显示位置，该显示位置是指普通用户的视频数据的合成位置或虚拟用户的三维虚拟人物的合成位置。本发明实施例对确定显示位置的方式不做限定，例如，对于该用户来说，可以默认该用户的视角为正面视角，使该用户对应的三维虚拟人物的朝向与正面视角的朝向一致。因此，该用户可以在群组视频会话中显示，也可以不显示，如果显示，参见图3，该用户可以对应图3中箭头所指的显示位置。另外，对于其他用户来说，服务器可以采用以下五种确定方式(确定方式1-确定方式5)来确定显示位置。

确定方式1、根据该用户与群组视频会话中其他用户之间的社交数据，分析用户与其他用户之间的亲密度，按照亲密度高低顺序从该用户的任一侧开始排列其他用户的显示位置。

为了营造更逼真的会话场景，该确定方式顾及了各个用户实际会话时的社交倾向，依据亲密度确定各个用户的显示位置。其中，社交数据不限于聊天次数、成为好友的时长和评论点赞次数等数据。本发明实施例对分析亲密度的方法不做限定。例如，以C表示亲密度，聊天次数以chat表示，权重为0.4；成为好友的时长以time表示，权重为0.3；评论点赞次数以comment表示，权重为0.3，则亲密度可以表示为：

C＝0.4*chat+0.3*time+0.3*comment

因此，假如其他用户分别为用户1、用户2、用户3和用户4，这些用户与该用户之间的社交数据参见表3，以C1、C2、C3和C4表示与这些用户该用户之间的亲密度，则C1为37、C2为4、C3为82、C4为76。因此，服务器可以将距离该用户最近的位置确定为用户3的显示位置，并按照亲密度高低依次排列用户4、用户1和用户2的显示位置。

表3

用户	chat(次)	time(天)	comment(次)
用户1	10	100天	10次
用户2	1	10天	2次
用户3	40	200天	20次
用户4	100	100天	20次

确定方式2、获取其他用户的用户身份，将该用户的对面位置确定为其他用户中用户身份最高的用户的显示位置，并随机确定其他用户中剩余用户的显示位置。

为了突出某些用户在群组视频会话时的主导作用，服务器可以依据用户身份确定显示位置。其中，用户身份用于指示该用户在本次群组视频会话中的重要程度。本发明实施例对衡量用户身份的标准不做限定。例如，如果其他用户中用户A是群组视频会话的发起用户，说明用户A很可能主导本次群组视频会话，因此将用户A确定为身份最高的用户。又例如，如果其他用户中用户B是该群组视频会话对应的群组中的管理员，也可以将用户B确定为身份最高的用户。

确定方式3、按照其他用户加入群组视频会话的时间先后顺序，从用户的任一侧开始排列其他用户的显示位置。

为了确定显示位置的过程更加简便，节约服务器的运算资源，可以直接依据用户加入群组视频会话的时间确定显示位置。一般地，由用户自行确认是否加入群组视频会话，因此，当用户设备检测到某一用户对加入群组视频会话的确认操作时，可以向服务器发送确认加入消息，当服务器接收到该群组视频会话中的第一个确认加入消息时，可以将该确认加入消息对应的用户排列在与该用户距离最近的显示位置，并依次排列之后接收到的确认加入消息对应的用户的显示位置。

确定方式4、根据该用户在虚拟环境中选择的位置，将该用户所选择的位置确定为用户在虚拟环境中的显示位置。

为了确定显示位置的过程更加任性化，服务器也支持用户自行选择显示位置。该确定方式中，服务器可以在群组视频会话开始之前向每个用户提供虚拟环境模板，由每个用户在虚拟环境模板上自行选择显示位置，当然，为了避免各个用户在选择显示位置时发生冲突，服务器理应实时更显当前已被选择的显示位置，例如，当某一显示位置被选择时，服务器可以为该显示位置添加不可选标记，使得各个用户在可选的显示位置中选择出显示位置。

确定方式5、将该用户的对面位置确定为普通用户的显示位置，并随机确定其他用户中剩余用户的显示位置。

考虑到普通用户一般以二维人物形式显示，在三维的虚拟环境中，为了避免该普通用户对应的二维视频数据失真，以尽可能展示普通用户的全貌，服务器可以将该用户的对面位置确定为普通用户的显示位置，并随机确定剩余用户的显示位置。

需要说明的是，每个用户理应对应一块显示区域，因此，当某一用户A选择一个显示位置时，服务器确定的是用户A所对应的显示区域。而且，为了在虚拟环境中显示各个用户时的间距更加均匀，服务器可以事先在虚拟环境中划分出显示区域，例如，对于圆桌会议虚拟环境，每个座椅处对应一块显示区域。

当然，以上五种确定方式中的任意两种或两种以上确定方式也可以相结合，例如，确定方式4和确定方式5结合，服务器先将该用户的对面位置确定为普通用户的显示位置，并向每个虚拟用户提供虚拟环境模板，且该虚拟环境模板上已为普通用户确定的显示位置处具有不可选标记，使得每个虚拟用户可以在可选的显示位置中自行选择一个显示位置。

203F、对于群组视频会话中的普通用户，服务器将普通用户的指定视频数据合成至该普通用户对应的显示位置。

指定视频数据是指基于接收到的普通用户的视频数据得到的符合虚拟现实显示模式的视频数据，该步骤中，由于普通用户包括第一普通用户和第二普通用户，第一普通用户是指使用双目摄像头的普通用户，第二普通用户是指使用单目摄像头的普通用户，两种普通用户的视频数据不同，因此服务器得到指定视频数据的方式也不同，本发明实施例以情况1和情况2进行说明：

情况1、如果普通用户包括第一普通用户，将第一普通用户的两路二维视频数据转换为第一三维视频数据，将第一三维视频数据作为指定视频数据，或，如果普通用户包括第一普通用户，将第一普通用户的两路二维视频数据作为指定视频数据。

该情况下，为了在虚拟环境中以三维人物的形式显示第一普通用户，服务器可以采用两种方式得到指定视频数据：

第一种方式、将两路二维视频数据转换成第一三维视频数据。由于两路二维视频数据分别对应从两个视角捕捉的普通用户的实际场景，以其中一路二维视频数据的一个像素点为参照，确定另一路二维视频中与该像素点对应的像素点，这两个像素点对应实际场景中同一位置，从而确定两个像素点的视差，两路二维视频数据中的各个像素点经上述处理后，可以得到视差图，根据视差图构建出实际场景的三维图像数据。

第二种方式、直接将两路二维视频数据作为指定视频数据，在将指定视频数据发送至VR设备时，也发送指定显示指令，该指定显示指令用于指示VR设备将两路二维视频数据分别渲染在左右眼屏幕中，通过将不同视角的两路二维视频数据分别渲染在左右眼屏幕中，可以在显示时形成视差，达到三维显示效果。

情况2、如果普通用户包括第二普通用户，将第二普通用户的二维视频数据作为指定视频数据。

需要说明的是，本发明实施例对确定普通用户的用户类型的方式不做限定。例如，如果服务器同时接收到一个普通用户的两路二维视频数据，可以确定该普通用户的用户类型为第一普通用户，否则，可以确定该普通用户为第二普通用户。

基于步骤203E确定的显示位置以及该步骤202F得到的指定视频数据，服务器可以将该指定视频数据合成至该普通用户对应的显示位置。当然，为了显示效果更加真实，在合成之前，服务器可以根据预设设置的合成尺寸，将指定视频数据对应的显示尺寸调整至该合成尺寸，该合成尺寸可以通过虚拟环境与真实人物的比例确定，每个虚拟环境可以对应一个合成尺寸。

需要说明的是，由于该指定视频数据仅是一个视角(对于第二普通用户)或两个视角(对于第一普通用户)的视频数据，在合成时该指定视频数据仅占据虚拟环境中的二维空间位置。而且，每个普通用户的显示位置不同，为了给用户提供更好的显示效果，服务器可以在合成时为指定视频数据的图层边缘添加边框，使得指定视频数据的显示效果为渲染在虚拟环境中的“虚拟屏幕”上。当然，如果两个或两个以上的指定视频数据的显示位置相邻，服务器也可以在合成时为这些指定视频数据的图层边缘添加边框，使得两个或两个以上的普通用户能够显示在一个“虚拟屏幕”中。参见图4，本发明实施例提供了一种群组视频会话场景的示意图，如果图4中(a)图所示，一个普通用户在一个“虚拟屏幕”中显示，如图4中(b)图所示，两个普通用户在一个“虚拟屏幕”中显示。

203G、对于群组视频会话中的虚拟用户，服务器将虚拟用户的三维虚拟人物和音频数据合成至虚拟用户对应的显示位置。

该步骤中，服务器可以获取虚拟用户的三维虚拟人物(获取过程与步骤203A同理)，将三维虚拟人物调整至合成尺寸，将调整后的三维虚拟人物合成至虚拟用户对应的显示位置，并将合成后的三维图像数据与获取到的虚拟用户的音频数据合成，得该虚拟用户的音视频数据。

203H、服务器将合成后的视频数据作为用户的目标视频数据。

通过步骤203F和203G的合成过程，服务器最终可以得到目标视频数据，该目标视频数据中包括了群组视频会话中每个虚拟用户对应的虚拟人物以及每个普通用户的视频数据。

204、在群组视频会话的进行过程中，服务器向用户的用户设备发送目标视频数据，使该用户进行群组视频会话。

对于群组视频会话中的每个用户来说，如果该用户的用户类型为普通用户，服务器可以将步骤203A-203C所得到的目标视频数据发送至该用户的终端，如果该用户的用户类型为虚拟用户，服务器可以将步骤203D-203H所得到的目标视频数据发送至该用户的VR设备，使得每个用户都能够进行群组视频会话。参见图5，本发明实施例提供了一种显示场景示意图。其中，以终端登录服务器的用户为终端用户，以VR设备登录服务器的用户为VR设备用户。

需要说明的是，在群组视频会话的过程中的某些用户也可以具有指定管理权限，指定管理权限是指在群组视频会话的过程中邀请或移除用户的权限，本发明实施例对哪些用户具有指定管理权限不做限定。例如，服务器可以将该指定管理权限对群组视频会话的发起用户开放。如图6所示，本发明实施例提供了一种虚拟用户进行群组视频会话的流程图。该虚拟用户可以邀请群组视频会话之外的其他用户进入群组视频会话，也可以将某一用户从群组视频会话中移除，也可以向其他用户发送私聊请求，或者接受其他用户的私聊请求。

205、当终端接收到服务器发送群组视频会话的目标视频数据时，显示目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，群组视频会话中的虚拟用户以二维虚拟人物的形式显示。

终端用户的用户类型为普通用户，因此，终端用户在参与群组视频会话时采用二维显示模式。

由于各个用户的二维视频数据已在服务器侧按照显示位置和显示尺寸进行合成，当终端接收到目标视频数据时，可以在屏幕上渲染该目标视频数据，从而在屏幕上的各个区域显示出普通用户的二维人物或虚拟用户对应的二维虚拟人物。

206、当VR设备接收到服务器发送群组视频会话的目标视频数据时，显示目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，群组视频会话中的虚拟用户在虚拟环境中以三维虚拟人物的形式显示。

VR设备用户的用户类型为虚拟用户，因此，VR设备用户在参与群组视频会话时采用虚拟现实显示模式。

由于普通用户的二维视频数据或三维视频数据、以及虚拟用户对应的三维虚拟人物已在服务器侧按照显示位置进行合成，当VR设备接收到目标视频数据时，可以在VR设备的左右眼屏幕中渲染该目标视频数据，使得VR设备能够在普通用户对应的显示位置上，显示普通用户的二维人物或三维人物，而且在虚拟用户对应的显示位置上，显示虚拟用户的三维虚拟人物。

另外，为了明确提示VR设备用户正在发言的用户，基于目标视频数据，如果VR设备检测到群组视频会话中任一用户正在发言，在该用户对应的显示位置上显示发言提示。其中，发言提示的表现形式不限于“正在发言”的文字提示、箭头图标或闪烁图标等。本发明实施例对检测用户是否发言的方式不做限定。例如，当VR设备从当前的目标视频数据中检测到该用户的音频数据时，确定该用户正在发言，并进一步确定该用户对应的显示位置，在其显示位置上显示发言提示。

另外，当用户的用户类型为普通用户时，将群组视频会话中虚拟用户对应的三维虚拟人物转换为二维虚拟人物，并将二维虚拟人物与二维背景、音频数据进行合成，得到该虚拟用户的二维视频数据，使得虚拟用户的二维视频数据与该用户对应的二维显示模式匹配，从而为该用户提供了处理群组视频会话中虚拟用户的视频数据的具体方式。

另外，当用户的用户类型为虚拟用户时，可以确定群组视频会话中各个用户在虚拟环境中的显示位置，将普通用户的二维视频数据以及虚拟用户的三维虚拟人物分别合成至对应的显示位置，使得合成的视频数据与该用户对应的虚拟现实显示模式匹配，从而为该用户提供了处理群组视频会话中虚拟用户的视频数据的具体方式。

另外，对于第一普通用户和第二普通用户，提供了不同的获取指定视频数据的方式：将第一普通用户的两路二维视频数据处理成第一三维视频数据，或直接将两路二维视频数据获取为指定视频数据，并告知VR设备显示方式；将第二普通用户的二维视频数据作为指定视频数据。通过两种不同的获取方式，可以智能地提供与普通用户的用户类型对应的显示效果。

另外，提供了至少三种确定群组视频会话对应的虚拟环境的具体方法，既可以支持用户自行选择虚拟环境，也可以根据群组视频会话中的用户数量，选定容量与用户数量匹配的虚拟环境，还可以分析每个用户曾经选择过的虚拟环境，选定被选择次数最多的虚拟环境，使得确定虚拟环境的方式更加多样。

另外，提供了至少五种确定方式，以确定每个用户在虚拟环境中的显示位置：依据用户之间的亲密度、用户身份或用户加入群组视频会话的时间，由服务器智能地为每个用户选择座位，或者，更加人性化地由用户自行选择显示位置，或者，为了尽可能展示普通用户的全貌，将普通用户的显示位置与该用户的正面视角相对。

图7是本发明实施例提供的一种群组视频会话的装置框图。参见图7，该装置具体包括：

创建模块701，创建群组视频会话；

确定模块702，对于群组视频会话中的每个用户，根据用户的设备信息，确定用户的用户类型，用户类型包括普通用户和虚拟用户，普通用户用于指示用户在参与群组视频会话时采用二维显示模式，虚拟用户用于指示用户在参与群组视频会话时采用虚拟现实显示模式；

处理模块703，用于根据用户的用户类型所指示的视频显示模式，对群组视频会话的视频数据进行处理，得到用户的目标视频数据，目标视频数据的视频显示模式与用户的用户类型所指示的视频显示模式匹配；

发送模块704，用于在群组视频会话的进行过程中，向用户的用户设备发送目标视频数据，使用户进行群组视频会话。

在一种可能实现方式中，处理模块703用于：如果用户的用户类型为普通用户，将群组视频会话中虚拟用户对应的三维虚拟人物转换为二维虚拟人物；对二维虚拟人物、虚拟用户选择的二维背景、以及虚拟用户对应的音频数据进行合成，得到第一二维视频数据；对至少一个第一二维视频数据与至少一个第二二维视频数据进行合成，得到用户的目标视频数据，第二二维视频数据是指群组视频会话中普通用户的二维视频数据。

在一种可能实现方式中，处理模块703用于：如果用户的用户类型为虚拟用户，确定群组视频会话对应的虚拟环境；以虚拟环境为三维背景，确定群组视频会话中的每个用户在虚拟环境中的显示位置；对于群组视频会话中的普通用户，将普通用户的指定视频数据合成至普通用户对应的显示位置；对于群组视频会话中的虚拟用户，将虚拟用户的三维虚拟人物和音频数据合成至虚拟用户对应的显示位置；将合成后的视频数据作为用户的目标视频数据。

在一种可能实现方式中，处理模块703还用于：如果普通用户包括第一普通用户，将第一普通用户的两路二维视频数据转换为第一三维视频数据，将第一三维视频数据作为指定视频数据，第一普通用户是指使用双目摄像头的普通用户，或，如果普通用户包括第一普通用户，将第一普通用户的两路二维视频数据作为指定视频数据；如果普通用户包括第二普通用户，将第二普通用户的二维视频数据作为指定视频数据，第二普通用户是指使用单目摄像头的普通用户。

在一种可能实现方式中，处理模块703用于：将用户触发的虚拟环境选项对应的虚拟环境确定为用户在群组视频会话中对应的虚拟环境；或，

处理模块703用于：根据群组视频会话中的用户数量，确定群组视频会话对应的虚拟环境的容量，将符合容量的虚拟环境确定为群组视频会话对应的虚拟环境；或，

处理模块703用于：分析群组视频会话中的每个用户选择过的虚拟环境，得到每个虚拟环境的被选择次数，将被选择次数最多的虚拟环境确定为群组视频会话对应的虚拟环境。

在一种可能实现方式中，处理模块703用于：根据用户与群组视频会话中其他用户之间的社交数据，分析用户与其他用户之间的亲密度，按照亲密度高低顺序从用户的任一侧开始排列其他用户的显示位置；或，

处理模块703用于：获取其他用户的用户身份，将用户的对面位置确定为其他用户中用户身份最高的用户的显示位置，并随机确定其他用户中剩余用户的显示位置；或，

处理模块703用于：按照其他用户加入群组视频会话的时间先后顺序，从用户的任一侧开始排列其他用户的显示位置；或，

处理模块703用于：根据用户在虚拟环境中选择的位置，将用户所选择的位置确定为用户在虚拟环境中的显示位置；或，

处理模块703用于：将用户的对面位置确定为普通用户的显示位置，并随机确定其他用户中剩余用户的显示位置。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图8是本发明实施例提供的一种群组视频会话的装置框图。参见图8，该装置具体包括：

接收模块801，用于接收服务器发送群组视频会话的目标视频数据，目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，终端用户的用户类型为普通用户，普通用户用于指示终端用户在参与群组视频会话时采用二维显示模式；

显示模块802，用于显示目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，群组视频会话中的虚拟用户以二维虚拟人物的形式显示。

本发明实施例通过接收目标视频数据，由于目标视频数据是服务器根据用户类型处理得到，使得该目标视频数据与普通用户所指示的二维显示模式匹配，从而为终端用户采用合理的显示模式显示视频数据，使得不同类型的用户之间能够不受限制地进行群组视频会话，提高了群组视频会话的灵活性。

图9是本发明实施例提供的一种群组视频会话的装置框图。参见图9，该装置具体包括：

接收模块901，用于接收服务器发送群组视频会话的目标视频数据，目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，VR设备用户的用户类型为虚拟用户，虚拟用户用于指示VR设备用户在参与群组视频会话时采用虚拟现实显示模式；

显示模块902，用于显示目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，群组视频会话中的虚拟用户在虚拟环境中以三维虚拟人物的形式显示。

本发明实施例通过接收目标视频数据，由于目标视频数据是服务器根据用户类型处理得到，使得该目标视频数据与虚拟用户所指示的二维显示模式匹配，从而为VR设备用户采用合理的显示模式显示视频数据，使得不同类型的用户之间能够不受限制地进行群组视频会话，提高了群组视频会话的灵活性。

在一种可能实现方式中，显示模块902用于：在普通用户对应的显示位置上，显示普通用户的二维人物或三维人物；在虚拟用户对应的显示位置上，显示虚拟用户的三维虚拟人物。

在一种可能实现方式中，显示模块902还用于：基于目标视频数据，如果检测到群组视频会话中任一用户正在发言，在用户对应的显示位置上显示发言提示。

需要说明的是：上述实施例提供的群组视频会话的装置在群组视频会话时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的群组视频会话的装置与群组视频会话的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

进一步地，在进行群组视频会话时，每个虚拟用户的实际形象都有各自的特征，而VR设备上提供的虚拟人物有限，很可能与虚拟用户的真实形象大相径庭，导致虚拟人物表达虚拟用户的效果差，群组视频会话时的视觉效果差，为此，本实施例还提供了更符合用户实际形象和实际动作的会话方法，以争抢群组视频会话时的视觉效果，该过程可以在上述实施例中对群组视频会话的视频数据进行处理，得到用户的目标视频数据的过程中进行，还可以在VR设备上生成用户的视频数据或是进行视频数据合成时进行，本公开实施例对此不做限定。

图10是本发明实施例提供的一种群组视频会话的方法流程图。参见图10，该方法可以应用于服务器或者VR设备，以服务器作为执行主体为例，该方法具体包括：

1001、服务器获取群组视频会话中第一用户的虚拟人物。

群组视频会话是指多个(两个或两个以上)用户基于服务器进行的视频会话。其中，多个用户可以是该服务器对应的社交平台上的多个用户，该多个用户之间可能是群组关系或好友关系。需要说明的是，该群组视频会话中的用户可以是使用VR设备的虚拟用户，也可以是使用传统终端(如，台式电脑、移动电话)的传统用户。

第一用户可以是该群组视频会话中的任一用户。第一用户的虚拟人物至少根据第一用户的头部特征数据和第一用户对应的肢体模型得到。本发明实施例对获取虚拟人物的时机不做限定。例如，当服务器为多个用户创建群组视频会话时，获取该多个用户中每个用户的虚拟人物。又例如，在群组视频会话的过程中，该第一用户接受该群组视频会话中某一用户的邀请，使得服务器确定该第一用户加入群组视频会话时，获取该第一用户的虚拟人物。

本发明实施例中，服务器可以根据第一用户的头部特征数据和对应的肢体模型，实时地为第一用户创建虚拟人物，从而获取到该虚拟人物。或者，服务器配置的虚拟人物数据库中也可能预先存储了第一用户的虚拟人物，因此服务器也可以根据第一用户的用户标识，在虚拟人物数据库中查询是否存在与用户标识对应的虚拟人物，如果是，则可以直接获取到该第一用户的虚拟人物，如果否，则可以实时地为该第一用户创建虚拟人物。事实上，虚拟人物数据库中预先存储的虚拟人物也是由服务器创建的，也即是，获取虚拟人物的过程包括创建过程。其中，基于创建过程获取到虚拟人物的过程可以采用以下步骤1001A-1001D进行获取：

1001A、服务器获取第一用户的头部特征数据。

该头部特征数据用于描述该第一用户的实际头部形象，可以用于指示该第一用户的头发区域、头发色调、脸部区域、脸部色调、五官位置和五官形态中的至少一项。其中，五官形态至少包括五官色调和五官轮廓。

本发明实施例对获取头部特征数据的方式不做限定。例如：

服务器获取第一用户的头部图像数据，对头部图像数据的色调分布进行分析，得到头部特征数据。该头部图像数据的来源可以有多种，如，第一用户的云相册中的头部图像数据(大头照)，或者第一用户的摄像头当前拍摄的头部图像数据。当然，服务器也可以获取多张第一用户的头部图像，从而更全面地分析头部图像数据。事实上，服务器也可以提供拍摄提示，该拍摄提示用于提示用户以不同的拍摄角度进行拍摄，使得服务器能够获取到不同拍摄角度的头部图像数据，从而使得后续得到的头部模型与第一用户的实际形象更为匹配。

由于用户的头发、脸部和五官的色调各具特征(如，黄种人发色一般为黑色，脸部一般偏黄，眼部为黑白，嘴部为红色)，且色调明暗(如，嘴部、鼻梁和脑门等相对突出的部分一般较亮，鼻翼和眼窝一般较暗)也各有不同，因此，服务器可以基于上述特征得到头部特征数据：

在确定脸部色调和脸部区域时，服务器可以将头部图像数据中的像素点的颜色值与已配置的多种肤色进行比较，如果超过第一比例的连续像素点的颜色值均与某一种肤色匹配，则可以将该肤色确定为脸部色调，并将匹配的连续像素点所构成的图像区域确定为脸部区域。

在确定头发色调和头发区域时，服务器可以将与脸部区域相邻的连续像素点确定为头发区域，并提取该连续像素点的颜色值作为头发色调。

在确定五官位置时，由于嘴部、眼睛和眉毛的色调与脸部色调不同，服务器可以将确定的脸部区域内的空心区域分别确定为嘴部、眼睛和眉毛位置。其中，眉毛的位置位于最上面，其次是眼睛，嘴部位于最下面。而且，由于耳部相对脸部向外侧突出，服务器可以确定脸部区域的两侧的边缘像素点，分析该边缘像素点的切线斜率，如果从像素点A到像素点B的切线斜率的变化率均满足预设变化率，则可以将像素点A至像素点B所在的区域确定为耳部位置。另外，由于鼻子相对脸部较为立体，一般在鼻子两侧和下面会形成阴影，且鼻梁亮度较高，因此服务器可以分析出脸部区域中明暗度高于第一明暗度的连续像素点，且位于该连续像素点两侧的连续像素点、下方的连续像素点的明暗度低于第二明暗度，将这三部分连续像素点所在的区域确定为鼻子位置。根据上述确定的五官位置，服务器可以根据五官位置所在的边缘像素点所构成的形状确定为五官轮廓，将五官位置所在的像素点的颜色确定为五官色调，从而得到五官形态。当然，为了表征鼻子的立体程度，服务器可以记录鼻子位置中高于第一明暗度的像素点与低于第二明暗度的像素点的明暗度比例，该明暗度比例越高，表明第一用户的鼻子越立体。

事实上，以上获取头部特征数据的方式仅是示例性的，本发明实施例也可以采用任一种方式获取头部特征数据，例如，基于人脸模板的识别算法或利用神经网络进行识别的算法。

当然，服务器还可以继续对确定的头部特征数据进行修正，例如，根据该头部特征数据中的五官位置，确定五官比例，将该五官比例与已配置的正常五官比例进行比较，如果不符合正常五官比例，服务器可以适应性修正五官中某一部分的位置，使得五官比例符合正常五官比例。事实上，该正常五官比例用于指示正常的五官比例所处的范围，因此在比较过程中，该五官比例符合正常的五官比例所处的范围即可。

需要说明的是，为了节省服务器的运算资源，服务器也可以分析必要头部特征数据，必要头部特征数据用于简要地描述该第一用户的实际头部形象，如，必要头部特征数据可以用于指示脸部色调、五官位置和五官形态。

1001B、服务器根据头部特征数据，生成与头部特征数据匹配的头部模型。

基于步骤1001A获取到的头部特征数据，为了更细致地表达虚拟人物的头部模型，使其头部模型与第一用户的实际长相更为匹配，该步骤可以具体为：根据脸部区域和头发区域，确定头部轮廓模型，头部轮廓模型包括脸部轮廓模型和头发轮廓模型；根据脸部色调和头发色调，填充脸部轮廓模型和头发轮廓模型；获取与五官形态匹配的五官模型；按照五官位置，将五官模型合成至脸部轮廓模型，生成与头部特征数据匹配的头部模型。

例如，服务器确定脸部色调为乳白色、头发色调为棕色，则服务器可以根据脸部区域(头发区域)的边缘像素点构成的形状确定为脸部轮廓(头发轮廓)，从而生成脸部轮廓模型(头发轮廓模型)，从而确定头部轮廓模型，进而，服务器可以用乳白色填充脸部轮廓模型，得到脸部模型，用棕色填充头发轮廓模型，得到头发模型。进一步地，服务器可以将鼻子形态、嘴部形态等五官形态与五官模型数据库中卡通化的五官模型进行比较，获取与五官色调、五官轮廓相似度最高的五官模型，并按照五官位置，将获取的五官模型分别合成至已填充的脸部轮廓模型上，按照脸部轮廓模型与头发轮廓模型的弧度，构建三维的头部模型，使得生成的头部模型与第一用户的实际头部形象匹配。

事实上，服务器也可以根据五官形态生成卡通化的五官模型，例如，用嘴部形态中的嘴部色调填充嘴部轮廓，并加深嘴部轮廓的两端连线上的像素点，生成嘴部模型，且嘴部模型呈“两瓣”效果。例如，眼部形态中的眼部色调至少包括两种，即眼球色调和眼白色调，眼白色调一般为偏白色调，因此，服务器是可以用眼部色调中的偏白色调填充眼部轮廓，用眼部色调中的另一色调填充眼部轮廓中的球型轮廓，该球型轮廓与眼部轮廓相切。

需要说明的是，为了更加细致地表达第一用户的头部形象，服务器还可以进一步处理该头部模型。例如，服务器为头发模型添加纹理，并获取该第一用户的年龄数据，在脸部模型上添加与该第一用户的年龄匹配的纹理。又例如，服务器获取该第一用户的性别数据，如果该第一用户为女性，则可以延长眼部模型上的睫毛长度，加强嘴部模型的亮度。又例如，服务器获取第一用户的职业数据，如果该第一用户为学生，则可以在脸部模型上添加眼镜模型。

1001C、服务器根据第一用户的用户属性，确定第一用户对应的肢体模型。

其中，用户属性不限于用户的性别、年龄和职业。一般地，用户会在社交平台上注册账号时填写用户属性，使得服务器能够得到用户属性，并将用户属性与用户标识对应存储。

由于用户的实际形象往往与性别、年龄、职业、身高、体重等用户属性密切相关，因此，为使虚拟人物更加符合第一用户的实际形象，服务器可以根据第一用户的用户标识，获取该用户标识对应的用户属性，进而，根据用户属性，从肢体模型数据库中选择与用户属性匹配的肢体模型。而且，服务器也会提供着装模型。

其中，本发明实施例对提供着装的方式不做限定。例如，该肢体模型中可以包括着装，或者，服务器也可以单独提供着装模型，该着装模型可以存储于肢体模型数据库，也可以存储于服务器配置的着装模型数据库。如果服务器单独提供着装模型，则可以将着装模型和对应的着装选项提供给第一用户，使得第一用户可以通过着装选项选择对应的着装模型。或者，服务器也可以获取第一用户的图像数据，确定图像数据中该第一用户所穿的服装，匹配出与第一用户所穿的服装对应的着装模型，将该着装模型提供给第一用户。在匹配着装模型时，不限于根据服装颜色或形状进行匹配。或者，服务器可以根据用户属性确定该第一用户的着装模型，具体过程与下述确定肢体模型的过程类似。

另外，如果肢体模型中包括着装模型，服务器也可以采用以下至少三种用户属性确定肢体模型：

(1)、根据第一用户的性别数据，确定与第一用户的性别数据匹配的肢体模型。

一般地，男性身材较为强壮，女性身材较为弱小，因此，肢体模型数据库中可以针对男性和女性身材的特点，提供多种男性或女性专用的肢体模型，每个肢体模型对应一个性别标签，使得服务器可以根据性别标签，确定一个与该第一用户的性别数据匹配的肢体模型，而且，男性标签的肢体模型的着装可以为裤装，女性标签的肢体模型的着装可以为裙装。

(2)、根据第一用户的年龄数据，确定与第一用户的年龄数据匹配的肢体模型。

一般地，如果用户年龄越大，该用户的服装风格会更加成熟。因此，肢体模型数据库中可以针对用户所属的年龄段，提供多种服装风格的肢体模型，每个肢体模型对应一个年龄段标签，例如，着装上有漫画人物的肢体模型对应的年龄段标签为18岁以下，使得服务器可以根据年龄段标签，确定与该第一用户的年龄数据符合的肢体模型。

(3)、根据第一用户的职业数据，确定与第一用户的职业数据匹配的肢体模型。

在实际生活中，不同职业的用户的职业装也有所不同，因此，在肢体模型数据库中也可以提供多种身着职业装的肢体模型，每个肢体模型对应一个职业标签，例如，西装肢体模型对应的职业标签为白领，校服肢体模型对应的职业标签为学生，使得服务器可以根据职业标签，确定与该第一用户的职业数据符合的肢体模型。

需要说明的是，本发明实施例对每个肢体模型对应的标签的形式不做限定。例如，每个肢体模型可以同时对应上述至少两种标签，或者，每个肢体模型对应的一个标签同时具有两层含义，如，该标签为女教师标签。一旦肢体模型对应至少两种标签或对应的标签具有两层以上的含义，均可以使服务器可以根据至少两种用户属性，确定第一用户对应的肢体模型。例如，服务器根据第一用户的性别数据和职业数据，确定该第一用户为女医生，则可以从肢体模型数据库中查找性别标签为女性、且职业标签为医生的肢体模型，或查找标签为女医生的肢体模型，均可以将查找到的肢体模型确定为该第一用户对应的肢体模型。

需要说明的是，在确定肢体模型时，除了根据用户属性，还可以参考群组视频会话对应的群组类型、群组视频会话中的虚拟环境以及当前的实际温度。该群组类型是指该群组视频会话中多个用户所属群组的群组类型。以下将分别说明参考上述三种数据确定肢体模型的具体方式：

确定方式1、服务器确定群组视频会话中多个用户所属群组的群组类型，将与群组类型匹配的肢体模型确定为与第一用户的肢体模型。例如，每个肢体模型对应一个群组类型标签，西装肢体模型可以对应公司群组标签，因此，当该群组类型为公司群组时，服务器可以查找到公司群组标签对应的西装肢体模型，将西装肢体模型确定为第一用户的肢体模型。

确定方式2、服务器确定群组视频会话对应的虚拟环境类型，将与虚拟环境类型匹配的肢体模型确定为第一用户的肢体模型。例如，该虚拟环境的类型为沙滩，则服务器可以将沙滩服肢体模型确定为该第一用户对应的肢体模型。

确定方式3、服务器获取当前的实际温度，将与当前的实际温度匹配的肢体模型确定为第一用户的肢体模型。例如，当前的实际温度为35度，则服务器可以将夏装肢体模型确定为该第一用户对应的肢体模型。

事实上，服务器确定第一用户的肢体模型时，也可以为第一用户提供调整选项。本发明实施例对调整选项和提供调整选项的方式不做具体限定。例如，服务器确定第一用户的初始肢体模型后，将初始肢体模型和调整选项提供给第一用户，该调整选项包括身高调整选项、体型调整选项和着装调整选项，第一用户可以通过触发身高调整选项调整身高的高低、触发体型调整选项调整体型的胖瘦、触发着装调整选项更换着装。

需要说明的是，该步骤1001C为本发明实施例的可选步骤，事实上，由于头部模型足以表征该第一用户的实际形象，为了实现过程简单，减少服务器的运算资源，也可以根据第一用户的性别数据随机从肢体模型数据库中选择一个与性别数据匹配的肢体模型即可。

另外，需要说明的是，本发明实施例对上述步骤1001A和1001C的时序不做限定。事实上，服务器也可以先确定肢体模型，或者，服务器同时确定头部模型和肢体模型。

1001D、服务器对头部模型和肢体模型进行合成，得到第一用户的虚拟人物。

通过步骤1001，服务器获取了用户的头部图像数据，进行了人脸和头发技术处理，获得了人脸和五官定位，依据五官模型数据和肢体模型数据库等生成头部模型，并确定肢体模型，将头部模型在肢体模型的上部进行合成，从而得到一个完整的虚拟人物。参见图11，本发明实施例提供了一种获取虚拟人物的流程图。

需要说明的是，为使得到的虚拟人物的视觉效果更好，服务器在合成时也可以结合头部模型与肢体模型的比例。例如，服务器按照第一用户的身高数据和已配置的正常人的头身比例数据，确定头部模型和肢体模型的合成尺寸，并将头部模型和肢体模型调整至确定的合成尺寸，再进行合成虚拟人物的过程，使得所得到的虚拟人物更加符合第一用户的实际形象。事实上，为使虚拟人物更具吸引力，服务器也可以合成“Q版”的虚拟人物，“Q版”的虚拟人物是指头身比例不符合正常人的头身比例的虚拟人物。一般地，为使“Q版”的虚拟人物更为可爱，其头身比例数据可以较为夸张，如，头身比例数据为1:1。服务器可以按照已配置的“Q版”的头身比例数据，确定头部模型和肢体模型的合成尺寸，并将头部模型和肢体模型调整至确定的合成尺寸，再进行合成，从而得到“Q版”的虚拟人物。

1002、服务器在群组视频会话的过程中，基于第一用户的虚拟人物和第一用户的行为特征数据，获取第一用户的视频数据。

其中，行为特征数据用于指示该第一用户的实际动作，至少包括表情特征数据、嘴型特征数据、头部方位特征数据和眼神方向特征数据中任一种。通过以上步骤1001，服务器获取到静态的虚拟人物，本发明实施例中，为使该虚拟人物动态化，服务器获取第一用户的视频数据，且该视频数据中第一用户的虚拟人物的动作与第一用户的实际动作匹配。本发明实施例对获取该视频数据的方式不做限定。例如，基于上述至少四种行为特征数据，本发明实施例提供了以下至少四种获取视频数据的方式：

获取方式1、行为特征数据包括表情特征数据时，当服务器检测到第一用户的表情特征数据为指定表情特征数据时，获取与指定表情特征数据对应的肢体特征数据；将指定表情特征数据实时映射至第一用户的虚拟人物的头部模型，并将肢体特征数据实时映射至第一用户的虚拟人物的肢体模型，得到第一用户的视频数据。

为使虚拟人物更符合第一用户当前的实际形象，形象地表达第一用户的形态，服务器可以将指定表情特征数据和肢体特征数据联合映射至虚拟人物。该获取方式中，服务器可以实时获取第一用户的摄像头拍摄到的图像数据，标记并追踪图像数据中脸部区域和五官位置的像素点，或脸部区域和五官位置的关键像素点，从而捕获到该第一用户的表情特征数据，关键像素点用于基础性地描述五官位置和五官形态。进而，服务器可以比较该表情特征数据的像素点分布、与指定表情特征数据的像素点分布，该指定表情特征数据是指服务器已配置的表情特征数据，每个指定表情特征数据对应配置一个肢体特征数据，如果二者的相似度达到预设阈值，则检测到该表情特征数据为指定表情特征数据。

以指定表情特征数据为嘴部大张特征数据为例，若服务器捕获到的图像数据中的嘴部位置的像素点分布与嘴部大张特征数据的像素点分布匹配，可以获取与嘴部大张特征数据对应的手部捂嘴特征数据，因此，服务器可以为嘴部模型建立三维坐标，在三维坐标上根据嘴部大张特征数据指示的像素点分布调整嘴部模型的像素点分布，从而将嘴部大张特征数据映射至头部模型中的嘴部模型；同理，服务器也可以根据手部捂嘴特征数据指示的像素点分布调整手臂模型的像素点分布，从而将手部捂嘴特征数据映射至肢体模型中的手臂模型，使得虚拟人物动态化，进而得到第一用户的视频数据。

以指定表情特征数据为哭泣表情特征数据为例，若服务器捕获到的图像数据中的眼部位置的像素点分布与哭泣表情特征数据的像素点分布匹配，也可以获取与哭泣表情特征数据对应的手部揉眼特征数据，将哭泣表情特征数据映射至头部模型中的眼部模型，并根据手部揉眼特征数据指示的像素点分布调整手臂模型的像素点分布，从而将手部揉眼特征数据映射至肢体模型中的手臂模型。

需要说明的是，为使视频数据中的影像合理过渡，服务器也可以在连续多帧视频数据中渐次调整嘴部模型和手臂模型对应的像素点分布，从而得到能够反映虚拟人物动作变化的多帧视频数据。

该获取方式通过在检测到用户的实际人物形象的表情特征数据与已配置的指定表情特征数据匹配时，获取与指定表情特征数据匹配的肢体特征数据，并为该用户的虚拟人物赋予指定表情特征和肢体特征，从而得到视频数据，由于用户自身佩戴VR设备时不容易直接通过肢体动作表达自身情绪，该获取过程不仅使得虚拟人物能够模拟用户的实际表情，更可以通过表情特征预测该用户的情绪，并以肢体特征突出表达用户的情绪，从而同时以表情和肢体动作联合的方式模拟用户的人物形象，使得虚拟人物的表现力和真实性更强。

获取方式2、行为特征数据包括嘴型特征数据时，服务器将第一用户的嘴型特征数据实时映射至第一用户的虚拟人物的头部模型，得到第一用户的视频数据。

为使第一用户的视频数据同步第一用户发言时的嘴部动作，当服务器接收到第一用户的音频数据时，获取已配置的嘴型特征数据，该嘴型特征数据用于指示嘴部持续处于开合状态，进而，服务器可以将该嘴型特征数据实时映射至头部模型中的嘴部模型，并将音频数据与映射后的虚拟人物进行合成，从而得到第一用户的视频数据，直到接收音频数据的过程结束，服务器取消映射嘴部模型的过程，并将嘴部模型恢复至默认状态，该默认状态是指嘴部模型保持闭合的状态。

获取方式3、行为特征数据包括头部方位特征数据时，服务器获取第一用户的传感器采集到的第一用户的头部方位数据；将第一用户的头部方位特征数据实时映射至第一用户的虚拟人物的头部模型，得到第一用户的视频数据。

为了使虚拟人物更加生动地表达第一用户的实际形象，服务器可以实时获取第一用户的传感器(如，VR设备上的九轴传感器)采集到的头部方位数据，该头部方位数据至少用于指示第一用户的俯仰角或左右旋转角，进而，服务器可以根据头部方位数据所指示的俯仰角或左右旋转角，相对该虚拟人物的肢体模型旋转该头部模型，从而将头部方位特征该数据实时映射至头部模型。

当然，为使获取的头部方位数据更加准确，服务器还可以结合第一用户的摄像头拍摄到的图像数据，参照图12，本发明实施例提供了一种获取头部方位数据的流程图。服务器可以获取摄像头捕获到的图像数据，根据图像数据中脸部区域的像素点变化，当脸部区域的像素点集中地向一侧偏移时，确定头部处于偏转状态，并将偏移方向的反方向确定为头部偏转方向(对于自拍的情况)，并根据像素点的偏移量确定偏转角度，从而得到头部方位特征数据。在结合上述两种获取头部方位特征数据的方式时，服务器可以确定两项头部方位特征数据之间的数据误差，如果数据误差大于容错误差，可以重新进行获取头部方位特征数据的过程，如果数据误差小于容错误差，可以采用数据融合的方式得到头部特征数据，如，取头部特征数据的平均值作为正确的头部特征数据。

获取方式4、行为特征数据包括眼神方向特征数据，服务器获取第一用户的摄像头拍摄到的第一用户的眼部图像数据；根据第一用户的眼部图像数据，获取第一用户的眼神方向特征数据；将第一用户的眼神方向特征数据实时映射至第一用户的虚拟人物的头部模型，得到第一用户的视频数据。

为增强群组视频会话中各个用户之间的交互，服务器还可以获取眼神方向特征数据，该眼神方向特征数据用于指示第一用户的眼球相对眼部的位置，进而可以用于指示第一用户的眼神凝视方向。

由于眼球和眼白的色调不同，服务器可以锁定眼部图像数据中的眼球区域，并实时追踪眼球区域相对眼部的位置，从而获取到眼神方向特征数据。进一步地，服务器可以根据该眼神方向特征数据，调整眼部模型中的眼球位置，并生成得到视频数据，从而将眼神方向特征数据映射至头部模型中的眼部模型。

该获取方式通过拍摄到的眼部图像数据，获取用户的眼神方向特征数据，从而将用户的眼神方向特征数据实时映射至第一用户的虚拟人物的头部模型。不仅使得虚拟人物更加细致地表现用户的真实人物形象，使得虚拟人物与用户的真实人物形象更为匹配，而且能够在表现各个用户的眼神细节的基础上，增强各个用户在群组视频会话中的眼神交流，提高群组视频会话的效率。

事实上，步骤1002所得到的视频数据可作为第一用户的初始视频数据，为了给群组视频会话中的第二用户提供与其视角匹配的视频数据，服务器还可以进一步对初始视频数据进行处理，例如，参照图13，本发明实施例提供了一种获取视频数据的流程图，服务器获取第二用户的视角数据；按照第二用户的视角数据所指示的视角，对初始视频数据进行处理，得到与该视角匹配的第一用户的视频数据。

其中，本发明实施例对获取视角数据的方式不做限定。例如，服务器可以根据第二用户的传感器采集到的头部方位特征数据，得到第二用户的头部方位特征数据对应的视角数据。该举例中，服务器根据头部方位数据，可以确定旋转后的头部模型的朝向为第二用户的视角，从而获取到第二用户的视角数据。

又例如，服务器根据第二用户的摄像头拍摄到的眼部图像数据，获取第二用户的眼神方向特征数据，根据第二用户的眼神方向特征数据得到第二用户的视角数据。该举例中，服务器可以根据眼神方向特征数据所指示的眼球位置，以头部模型的中心指向眼球位置的方向确定为第二用户的视角，从而获取到该视角数据。

进而，服务器可以基于第二用户的视角数据，确定该视角数据所指示的视角在初始视频数据中的视野范围，从而提取出该视野范围内的视频数据作为第一用户的视频数据。参照图14，本发明实施例提供了一种群组视频会话的流程图，该群组视频会话中，服务器可以通过获取虚拟人物，并实时跟踪第一用户的人脸和五官，从而获取到实时的视频数据，并实时地将该视频数据发送至第二用户所在终端。

1003、服务器向参与群组视频会话的第二用户所在终端发送第一用户的视频数据，以实现群组视频会话。

本发明实施例中，对于群组视频会话中的任一用户，服务器均可以按照步骤1001和1002得到该用户的视频数据，因此，为了同步显示各个用户的虚拟人物，服务器可以合成群组视频会话中每个用户的视频数据，将合成后的视频数据发送至第二用户所在终端。当第二用户所在终端接收到视频数据时，可以实时显示视频数据，且该视频数据与第二用户的视角匹配，从而实现群组视频会话。参照图15，本发明实施例提供了一种显示视频数据的流程图，服务器通过获取初始视频数据，按照第二用户的视角数据处理初始视频数据，将处理得到的视频数据发送至第二用户所在终端，使得第二用户所在终端能够按照第二用户的视角实时显示视频数据。需要说明的是，当第一用户所在VR设备作为本发明实施例的执行主体时，可以将该视频数据发送至服务器，通过服务器将该视频数据发送至第二用户所在终端。

本发明实施例通过在群组视频会话中第一用户的虚拟人物，且该虚拟人物根据第一用户的头部特征数据和对应的肢体模型得到，使得该虚拟人物能够匹配与第一用户的实际形象，而且，基于该虚拟人物和行为特征数据得到了该第一用户的视频数据，使得第一用户的虚拟人物的动作能够实时模拟第一用户的实际动作，从而更加灵动地表达第一用户的实际形象，增强了群组视频会话时的视觉效果。

另外，提供了获取虚拟人物的具体方式，根据头部特征数据，生成与头部特征数据匹配的头部模型，且根据第一用户的用户属性，确定与第一用户对应的肢体模型，通过合成头部模型和肢体模型得到虚拟人物，细化了虚拟人物各部分的获取过程，使得虚拟人物具有更加细致的特征，从而更加细致地表达第一用户的实际形象。而且，该肢体模型根据用户属性得到，使虚拟人物更加贴近用户的实际形象。

另外，提供了获取头部特征数据的具体方式，通过分析第一用户的头部图像的色调分布，确定第一用户的头部特征数据，且该头部特征数据可用于指示第一用户的头发区域、头发色调、脸部区域、脸部色调、五官位置和五官形态，从而得到了第一用户的实际头部形象的多项特征，可以更加细致、全面地描述第一用户的实际头部形象。

另外，提供了生成与头部特征数据匹配的头部模型的具体过程，根据脸部区域和头发区域确定脸部轮廓模型和头发轮廓模型，根据脸部色调和头发色调进行填充，并按照五官位置，将与五官形态匹配的五官模型合成至脸部轮廓模型，细化了生成头部模型的过程，且头部模型中每个部分的生成过程均与第一用户的实际头部形象相匹配，从而提高了虚拟人物与第一用户实际形象的匹配程度。

另外，提供了至少三种确定第一用户的肢体模型的方式，根据第一用户的性别、年龄或职业等用户属性，确定与第一用户的用户属性匹配的肢体模型，而且，这三种确定方式也可以相结合，不仅使肢体模型更加符合第一用户的实际形象，而且使确定肢体模型的方式更加多样化。

另外，具体说明了当行为特征数据包括表情特征数据时，获取第一用户的视频数据的具体方式，当检测到表情特征数据为指定表情特征数据时，可以获取与该指定表情特征数据对应的肢体特征数据，从而将指定表情特征数据映射至脸部，将肢体特征数据映射至肢体模型，使得第一用户的虚拟人物的表达形式更加生动。

另外，具体说明了当行为特征数据包括嘴型特征数据、头部方位特征数据以及眼神方向特征数据时，获取第一用户的视频数据的具体方式，不仅使虚拟人物能更加生动地表达第一用户的实际形象，而且使得获取第一视频数据的方式更加多样化。

另外，提供了按照第二用户的视角数据所指示的视角，处理初始视频数据的方式，从而得到与第二用户的视角匹配的第一用户的视频数据，使得为第二用户展示第一用户的虚拟人物的视角更符合实际的视觉效果。

另外，提供了至少两种获取第二用户的视角数据的方式，根据第二用户的传感器采集到的头部方位特征数据，或者根据第二用户的摄像头拍摄到的眼部图像数据，得到视角数据，不仅能够实时地获取第二用户的视角，而且使得获取视角数据的方式多样化。

图16是本发明实施例提供的一种群组视频会话的装置框图。参见图16，该装置具体包括：

虚拟人物获取模块1601，用于获取群组视频会话中第一用户的虚拟人物，第一用户的虚拟人物至少根据第一用户的头部特征数据和第一用户对应的肢体模型得到；

视频数据获取模块1602，用于在群组视频会话的过程中，基于第一用户的虚拟人物和第一用户的行为特征数据，获取第一用户的视频数据，视频数据中第一用户的虚拟人物的动作与第一用户的实际动作匹配；

发送模块1603，用于向参与群组视频会话的第二用户所在终端发送第一用户的视频数据，以实现群组视频会话。

可选地，虚拟人物获取模块1601用于：获取第一用户的头部特征数据；根据头部特征数据，生成与头部特征数据匹配的头部模型；根据第一用户的用户属性，确定第一用户对应的肢体模型；对头部模型和肢体模型进行合成，得到第一用户的虚拟人物。

可选地，虚拟人物获取模块1601用于：获取第一用户的头部图像数据；对头部图像数据的色调分布进行分析，得到头部特征数据，头部特征数据用于指示第一用户的头发区域、头发色调、脸部区域、脸部色调、五官位置和五官形态。

可选地，虚拟人物获取模块1601用于：根据脸部区域和头发区域，确定头部轮廓模型，头部轮廓模型包括脸部轮廓模型和头发轮廓模型；根据脸部色调和头发色调，填充脸部轮廓模型和头发轮廓模型；获取与五官形态匹配的五官模型；按照五官位置，将五官模型合成至脸部轮廓模型，生成与头部特征数据匹配的头部模型。

可选地，虚拟人物获取模块1601用于：根据第一用户的性别数据，确定与第一用户的性别数据匹配的肢体模型；和/或，虚拟人物获取模块1601用于：根据第一用户的年龄数据，确定与第一用户的年龄数据匹配的肢体模型；和/或，虚拟人物获取模块1601用于：根据第一用户的职业数据，确定与第一用户的职业数据匹配的肢体模型。

可选地，行为特征数据包括表情特征数据，视频数据获取模块1602用于：当检测到第一用户的表情特征数据为指定表情特征数据时，获取与指定表情特征数据对应的肢体特征数据；将指定表情特征数据实时映射至第一用户的虚拟人物的头部模型，并将肢体特征数据实时映射至第一用户的虚拟人物的肢体模型，得到第一用户的视频数据。

可选地，行为特征数据包括嘴型特征数据，视频数据获取模块1602用于：将第一用户的嘴型特征数据实时映射至第一用户的虚拟人物的头部模型，得到第一用户的视频数据。

可选地，行为特征数据包括头部方位特征数据，视频数据获取模块1602用于：获取第一用户的传感器采集到的第一用户的头部方位数据；将第一用户的头部方位特征数据实时映射至第一用户的虚拟人物的头部模型，得到第一用户的视频数据。

可选地，行为特征数据包括眼神方向特征数据，视频数据获取模块1602用于：获取第一用户的摄像头拍摄到的第一用户的眼部图像数据；根据第一用户的眼部图像数据，获取第一用户的眼神方向特征数据；将第一用户的眼神方向特征数据实时映射至第一用户的虚拟人物的头部模型，得到第一用户的视频数据。

可选地，视频数据获取模块1602用于：基于第一用户的虚拟人物和第一用户的行为特征数据，获取第一用户的初始视频数据；获取第二用户的视角数据；按照第二用户的视角数据所指示的视角，对初始视频数据进行处理，得到与视角匹配的第一用户的视频数据。

可选地，视频数据获取模块1602用于：根据第二用户的传感器采集到的头部方位特征数据，得到第二用户的头部方位特征数据对应的视角数据；或，视频数据获取模块1602用于：根据第二用户的摄像头拍摄到的眼部图像数据，获取第二用户的眼神方向特征数据，根据第二用户的眼神方向特征数据得到第二用户的视角数据。

在进行群组视频会话过程中，不仅可以展示参与会话的各个用户的虚拟人物，还可以展示一些三维物体模型，并可以基于用户的一些操作来对三维物体模型进行一些角度变化等展示，参见下述图17所述的实施例：

图17是本发明实施例提供的一种群组视频会话的方法流程图。参见图17，该方法应用于服务器，具体包括：

1701、在群组视频会话过程中，服务器获取待展示的目标物的三维交互模型。

其中，群组视频会话是指多个(两个或两个以上)用户基于服务器进行的视频会话。其中，多个用户可以是该服务器对应的社交平台上的多个用户，该多个用户之间可能是群组关系或好友关系。目标物是指群组视频会话中某一用户想要展示的实物。三维交互模型是指根据目标物生成的三维模型，用于基于该群组视频会话中任一用户的控制展示在多个用户的视频数据中。例如，图18是本发明实施例提供的一种三维交互模型的示意图。参见图18，三维交互模型可以是三维几何模型、三维汽车模型和三维图表模型。

该步骤中，服务器可以通过多种方式获取三维交互模型。例如，服务器可以获取第五用户上传的三维物体模型。该举例中，三维交互模型可以是第五用户通过CAD(Computer Aided Design，计算机辅助设计)得到的模型，如，三维汽车模型。

又例如，服务器获取第六用户上传的二维表格，对二维表格进行处理，得到三维表格模型。该举例中，服务器可以通过EXCEL表格直接生成该二维表格对应的三维表格模型。或者，服务器也可以建立三维坐标模型(x，y，z)。例如，当二维表格中有两项参数时(如，班级和人数)，服务器可以采用(x，y)平面的上的不同平面区域表示不同的“班级”参数值，且将每个“班级”参数值对应的“人数”参数值确定为该“班级”参数值对应的z坐标，从而生成柱状图形式的三维表格模型。当然，参照上述举例，服务器也可以生成其他形式的三维表格模型，如饼状图和条形图。而且，在生成三维表格模型时，服务器也可以设置三维表格模型的色调，如，不同的参数对应不同的色调。

事实上，服务器可以基于用户上传的目标物对应的至少一个二维图像数据，对该目标物进行三维建模，如，采用SFS(Shape From Shading，明暗恢复形状)算法，从而得到三维交互模型。

其中，第五用户或第六用户均可以为群组视频会话中的任一用户。进一步地，该第五用户或第六用户也可以是具有上传权限的用户。本发明实施例对具有上传权限的用户不做限定。例如，该具有上传权限的用户为群组视频会话的发起者、或者VIP(Very Important People，贵宾)用户。

1702、服务器根据群组视频会话中多个用户中每个用户的视角，对目标物的三维交互模型进行处理，得到该用户的视频数据，该用户的视频数据包含对目标物的三维交互模型进行视角变换得到的模型数据。

该步骤中，服务器可以获取群组视频会话中每个用户的视角数据，根据该用户的视角数据和该用户的虚拟人物的显示位置，确定该用户的视角，进而，服务器可以提取出该视角对应的三维交互模型的图像数据，将提取的图像数据与会话环境数据进行合成，对合成后的图像数据进行立体编码，从而得到该用户的一帧一帧的视频数据。其中，本发明实施例对立体编码的方法不做限定。例如，根据交错显示原理，服务器将合成后的图像数据编码为两个图场的视频数据，两个图场即单数描线所构成的单图场与偶数描线所构成的偶图场，使得VR设备接收到视频数据时，可以将两个图场的视频数据交错显示于左右眼屏幕中，从而使得用户双眼产生视差，达到三维显示效果。另外，会话环境数据不限于群组视频会话对应的虚拟环境、多个用户分别对应的虚拟人物、每个用户的音频数据等。

需要说明的是，本发明实施例对获取视角数据的方式不做限定。例如，服务器可以根据用户的传感器采集到的头部方位特征数据，得到第二用户的头部方位特征数据对应的视角数据。又例如，服务器根据用户的摄像头拍摄到的眼部图像数据，获取用户的眼神方向特征数据，根据眼神方向特征数据所指示的眼球位置，确定该用户的视角数据。

事实上，为了更好地展示该三维交互模型，在得到视频数据之前，服务器还可以采用不同的方式确定该三维交互模型的显示位置。例如，服务器上配置有默认的显示位置，该默认的显示位置可以是多个用户对应的虚拟人物的对面位置。又例如，服务器将上传该三维交互模型的用户的旁边位置确定为显示位置，以方便该用户对三维交互模型进行演示说明。

本发明实施例中，为了进一步扩展群组视频会话中的交流方式，提高视频会话的实际效率，当服务器接收到对三维交互模型的操作指令时，可以根据操作指令对应的操作方式对三维交互模型进行调整，并基于调整后的三维交互模型执行根据群组视频会话中多个用户中每个用户的视角进行处理和发送的步骤。其中，该操作指令用于指示按照对应的操作方式调整三维交互模型。本发明实施例对操作指令的获取方式不做限定。例如，服务器可以采用以下至少两种获取方式：

获取方式1、服务器获取第一用户的手势特征数据，当手势特征数据与三维交互模型的任一操作方式匹配时，确定接收到与操作方式对应的操作指令。

该手势特征数据用于表征该第一用户的手势，获取手势特征数据的方式可以有多种，如，摄像头或手势传感器。以第一用户的VR设备上的手势传感器为例，服务器可以获取该手势传感器采集到的手势特征数据，根据手势特征数据确定第一用户的手势，当该手势与预设手势(如，指向左方、右方、上方、或下方)匹配时，将预设手势对应的操作方式确定该手势匹配的操作方式，生成并获取与该操作方式对应的操作指令。本发明实施例对具体的操作方式不做限定。例如，参见表4，本发明实施例提供了一种预设手势和操作方式的对应关系：

表4

预设手势	操作方式
指向上方	向上移动三维交互模型
指向下方	向下移动三维交互模型
指向左方	向左旋转三维交互模型
指向右方	向右旋转三维交互模型

获取方式2、服务器获取第二用户对外接设备的操作信息，当操作信息与三维交互模型的任一操作方式匹配时，确定接收到操作方式对应的操作指令，外接设备与第二用户所在终端绑定。

该外接设备可以是鼠标或键盘。当服务器获取到第二用户对外界设备的操作信息时，可以判断是否存在与该操作信息对应的操作方式，如果是，则生成并获取与该操作方式对应的操作指令。参见表5，本发明实施例提供了一种预设手势和操作方式的对应关系：

表5

操作信息

操作方式

单击鼠标左键	放大三维交互模型
单击鼠标右键	缩小三维交互模型
长按鼠标左键进行移动	按鼠标移动方向旋转三维交互模型

当然，第一用户和第二用户可以是群组视频会话中的任一用户，也可以是对该三维交互模型具有操作权限的用户，本发明实施例对此不做限定。

在实际的应用场景中，为了智能地给用户提供交互服务，也可以提示用户可以操作三维交互模型、以及如何进行操作。本发明实施例对提示的时机不做限定。例如，在确定用户有操作三维交互模型的需求时，适时地进行提示：当服务器检测到第七用户对三维交互模型的凝视时长大于预设时长时，将操作提示信息发送至第七用户所在终端，操作提示信息用于提示第七用户能够对三维交互模型进行操作。

其中，对第七用户的说明与对第一用户的说明同理。上述举例中，服务器可以实时监测第七用户的眼神凝视方向，一旦检测到第七用户的眼神凝视方向对准该三维交互模型时，则进行计时，当计时的时长(即凝视时长)大于预设时长时，说明第七用户很可能有操作三维交互模型的需求，因此将操作提示信息发送至第七用户所在终端。其中，本发明实施例对操作提示信息包括的具体内容不做限定。以服务器支持鼠标进行操作为例，该操作提示信息可以包括“通过鼠标即可操作汽车模型”的文字提示信息、以及通过鼠标进行操作的具体方法，如，“单击鼠标左键可以放大汽车模型”和“单击鼠标右键可以缩小汽车模型”。

经过用户的操作过程，服务器可以获取到操作指令，并根据操作指令对应的操作方式对三维交互模型进行调整。本发明实施例对具体的调整过程不做限定。例如，操作指令分别为旋转操作指令、缩放操作指令和移位操作指令为例，对应的调整过程可以具体为：

调整过程1、当操作指令为旋转操作指令时，服务器获取旋转操作指令对应的旋转角度和旋转方向，按照旋转角度和旋转方向，旋转三维交互模型。

该调整过程中，服务器可以提取旋转操作指令中携带的旋转角度和旋转方向，并基于这两项参数旋和当前用户视角所见的三维交互模型，对三维交互模型进行旋转。其中，旋转角度和旋转方向在生成旋转操作指令时进行确定。本发明实施例对确定的具体方式不做限定。例如，当该旋转操作指令根据手势特征数据生成时，旋转方向可以与手势方向相同；旋转角度可以是默认的旋转角度，如，30度，或者，根据手势的持续时长进行确定，如，旋转角度＝持续时长(秒)*30度。又例如，当该旋转操作指令根据操作信息生成时，旋转方向可以与外接设备的移动方向一致，旋转角度可以根据外接设备的移动距离确定，如，旋转角度＝移动距离(厘米)*10度。

调整过程2、当操作指令为缩放操作指令时，服务器获取缩放操作指令对应的缩小比例或放大比例，按照缩小比例和放大比例，缩小或放大三维交互模型。

该调整过程中，服务器可以提取缩放操作指令中携带的缩小比例或放大比例，并基于缩放比例和当前用户视角所见的三维交互模型，对三维交互模型进行缩放。其中，缩放比例可以在生成缩放操作指令时进行确定。本发明实施例对确定的具体方式不做限定。例如，当该缩放操作指令根据操作信息生成时，每次操作可对应默认的缩放比例，如，一次单击鼠标左键对应放大三维交互模型的10％。

调整过程3、当操作指令为移位操作指令时，服务器获取移位操作指令对应的移位方向和移位距离，按照移位方向和移位距离，对三维交互模型进行移位操作。

该调整过程中，服务器可以提取移位操作指令中携带的移位方向和移位距离，并基于这两项参数和当前用户视角所见的三维交互模型，对三维交互模型进行移位。其中，移位方向和移位距离可以在生成移位操作指令时进行确定。本发明实施例对确定的具体方式不做限定。例如，当该移位操作指令根据手势特征数据生成时，移位方向可以与手势方向相同；移位距离可以根据手势的持续时长进行确定，如，移位距离＝持续时长(秒)*三维交互模型长度的10％。又例如，当该移位操作指令根据操作信息生成时，移位方向可以与外接设备的移动方向一致，移位距离可以根据外接设备的移动距离确定，如，移位距离＝移动距离(厘米)*三维交互模型长度的5％。

当然，服务器可能同时接收到以上至少两个操作指令，此时，服务器既可以串行进行至少两个调整过程，也可以并行进行至少两个调整过程。例如，服务器同时接收到旋转操作指令和移位操作指令时，为了更清楚地展示三维交互模型的变化过程，服务器可以对三维交互模型先进行旋转，再进行移位；或者，为使调整过程与用户的操作过程相衔接，服务器可以同时对三维交互模型进行旋转和移位。

需要说明的是，在调整三维交互模型过程中，服务器可以对应调整过程实时生成一帧一帧的视频数据，也即是，根据当前调整的三维交互模型，服务器按照用户当前的视角，将当前调整的三维交互模型与会话环境数据进行合成和编码，得到当前的一帧视频数据，从而为用户展示三维交互模型的动态调整过程。

另外，需要说明的是，以上调整过程可以是服务器单独为各个用户提供服务，即按照每个用户触发的操作指令处理三维交互模型，并得到该用户的视频数据；而在操作三维交互模型需要操作权限时，服务器也可以根据具有操作权限的用户触发的操作指令，按照各个用户的视角处理三维交互模型，从而得到各个用户的视频数据。为了清楚地说明调整过程的流程，参见图19，本发明实施例提供了一种调整三维交互模型的流程图，服务器从获取三维交互模型、监测用户的眼神凝视方向、获取操作信息、进而根据操作信息对应的操作方式调整三维交互模型。

在群组视频会话的过程中，为使多个用户的视频会话有序进行，并突出某一用户的发言过程，当服务器接收到第三用户的发言请求时，可以生成指定视频数据，该指定视频数据用于展示虚拟话筒从虚拟主持人传递至第三用户的虚拟人物的过程；基于指定视频数据，执行根据群组视频会话中多个用户中每个用户的视角进行处理和发送的步骤。

其中，该第三用户可以是群组视频会话中的任一用户。本发明实施例对发言请求的触发方式不做限定。例如，当服务器接收到第三用户的音频数据时自动触发，或者，检测到第三用户的指定操作信息时触发得到，该指定操作信息可以为连续双击鼠标左键。虚拟主持人可以是服务器从虚拟人物数据库中获取的虚拟人物，也可以是群组视频会话中某一用户的虚拟人物。本发明实施例对服务器获取虚拟主持人的方式不做限定。例如，服务器根据群组视频会话对应的群组的群组属性，获取与群组属性匹配的虚拟主持人，如，群组属性为班级时，匹配的虚拟主持人的着装为校服，群组属性为公司时，匹配的虚拟主持人的着装为西装。又例如，服务器随机指定一个用户的虚拟人物为虚拟主持人，或者，在群组视频会话开始时，服务器向VR设备发送用于票选虚拟主持人的投票信息，该投票信息至少包括多个用户的用户信息，由VR设备根据投票信息显示投票界面，当任一用户A选中投票界面上的某个用户信息b时，服务器可以确定该用户A为用户信息b对应的用户B投票，进而，服务器可以统计出得票数最多的用户，将该用户的虚拟人物作为虚拟主持人。

基于上述说明，当服务器接收到第三用户的发言请求时，可以根据第三用户在虚拟环境中的显示位置C、以及虚拟话筒当前的显示位置D，确定虚拟话筒的移动路径，该移动路径可以是D到C的路径(或者，服务器再根据虚拟主持人的显示位置E，将D到E到C的路径确定为移动路径)，进而，服务器可以根据虚拟话筒的移动路径生成一帧一帧的指定视频数据，以动态地表征虚拟话筒的传递过程，进一步地，服务器可以按照每个用户的视角处理并发送视频数据。当然，为了更合理地显示虚拟话筒，在虚拟话筒到达第三用户的显示位置时，服务器可以确定第三用户的虚拟人物的手臂模型的抬起路径，使得生成的至少一帧指定视频数据对应手臂模型抬起并握住虚拟话筒的过程。另外，在传递过程中，服务器可以将虚拟主持人的指定音频数据合成至指定视频数据，该指定音频数据用于指示第三用户将要发言，可以包括“现在由第三用户发言”的一段语音。

事实上，除了上述传递虚拟话筒的方法，还可以通过其他方法突出某一用户的发言过程。例如，当服务器接收到第三用户的发言请求时，降低第四用户的音频数据的音量，第四用户为群组视频会话中除第三用户以外的用户；基于调整后的音频数据，执行根据群组视频会话中多个用户中每个用户的视角进行处理和发送的步骤。该举例中，服务器可以根据第三用户的音频数据的音量V1，将第四用户的音频数据的音量V2调整至小于V1。

需要说明的是，以上两种突出用户发言过程的方法也可以相结合，也即是，当服务器接收到第三用户的发言请求时，可以生成指定视频数据，该指定视频数据用于展示虚拟话筒从虚拟主持人传递至第三用户的虚拟人物的过程，且指定视频数据中第四用户的音频数据的音量被降低。

在实际的应用场景中，服务器有可能在第三用户发言时接收到第四用户的发言请求，此时，本发明实施例对服务器处理第四用户的发言请求的方式不做限定。例如，服务器暂存第四用户的发言请求，直到检测到第三用户的音频数据结束时，按照发言请求的接收顺序，以处理第三用户的发言请求的方式继续处理第四用户的发言请求。当然，在第四用户等待发言的过程中，服务器可以将发言提示信息发送至第四用户所在终端，该发言提示信息用户指示该第四用户何时发言，可以包括如“下一个发言的就是你哦”的文字信息。

本发明实施例中，为了进一步提高群组视频会话的效率，扩展群组视频会话时的交互方式，当服务器接收到多媒体文件播放请求时，可以将与多媒体播放请求对应的多媒体文件合成至多个用户的视频数据。该多媒体文件如音频文件、视频文件或文本文件等。该多媒体文件播放请求可以直接携带该多媒体文件，也可以携带多媒体文件的文件标识，使得服务器从多媒体数据库或网络上获取到文件标识对应的多媒体文件。该扩展的交互方式中，本发明实施例对合成多媒体文件的方法不做限定。例如，当该多媒体文件为音频文件时，服务器可以将音频文件作为背景音频合成至视频数据中；当该多媒体文件为视频文件时，服务器可以按照每个用户的视角，将视频文件合成至该用户对面的虚拟环境中，使得视频文件以“屏幕播放”的方式嵌在虚拟环境中。

基于上述扩展的交互方式，参见图20，本发明实施例提供了一种交互流程图，服务器可以为用户1授权对三维交互模型的操作权限，授权用户2对多媒体文件的播放权限，因此，服务器可以基于用户1的操作信息调整三维交互模型，从而提供操作三维交互模型的服务，也可以基于用户2的多媒体文件播放请求将多媒体文件合成至视频数据，从而提供多媒体文件共享的服务。

1703、服务器将多个用户的视频数据分别发送至多个用户所在终端。

该步骤中，当终端接收到视频数据时，可以显示视频数据，由于该视频数据按照用户的视角进行处理，每个用户均可以从视频数据中看到自身视角的三维交互模型。

需要说明的是，当用户使用VR设备时，服务器可以直接将该视频数据发送至用户所在VR设备，当用户使用传统终端时，服务器可以在处理三维交互模型时，提取某一视角的二维视频数据，从而将二维视频数据发送至用户所在传统终端，使得多个用户可以不受设备类型的限制、自由交流。

本发明实施例通过获取待展示的目标物的三维交互模型，根据群组视频会话中每个用户的视角处理三维交互模型，得到对三维交互模型进行视角变换后的视频数据，并将该视频数据发送至多个用户所在终端，使得多个用户能够在群组视频会话时以自身视角体验同一三维交互模型，并通过三维交互模型进行交流，从而在扩展的交流方式的基础上提高视频会话的效率。

另外，当接收到对三维交互模型的操作指令时，可以按照操作指令对应的操作方式对三维交互模型进行调整，从而为用户提供了操作三维交互模型的服务，而且，可以基于调整后的三维交互模型将视频数据发送至多个用户，使得多个用户可以基于同一三维交互模型进行交互，进一步提高了视频会话的效率。

另外，提供了至少两种获取操作指令的方式，可以通过第一用户的手势特征数据，当手势特征数据与三维交互模型的任一操作方式匹配时，确定接收到与操作方式对应的操作指令，还可以通过第二用户对外接设备的操作信息，当操作信息与某一操作方式匹配时，确定接收到该操作方式对应的操作指令，既可以智能地根据用户手势触发操作指令，也可以根据用户的操作信息触发操作指令，从而提供了多样化的操作指令的获取方式，可操作性更强。

另外，提供了至少三个根据操作指令调整三维交互模型的过程，如，根据旋转操作指令旋转三维交互模型、根据缩放操作指令缩小或放大三维交互模型以及根据移位操作指令对三维交互模型进行移位，从而提供了多样化的调整方式，增加了视频会话的交互强度，进一步提高了视频会话的效率。

另外，为使群组视频会话有序进行，并突出某一用户的发言过程，提供了至少两种处理发言请求的方法，如，生成指定视频数据，该指定视频数据用于展示虚拟话筒从虚拟主持人传递至第三用户的虚拟人物，或者，降低第四用户的音频数据的音量。

另外，提供了至少两种获取三维交互模型的方式，如，获取第五用户上传的三维物体模型，或者，获取第六用户上传的二维表格，并处理得到三维表格模型，从而能够提供多样化的三维交互模型。

另外，进一步扩展了视频会话时的交流方式，如，当接收到多媒体文件播放请求时，可以将多媒体文件合成至多个用户的视频数据，使得多个用户可以共享多媒体文件。

另外，为了提供智能的交互服务，从而提示用户能够操作三维交互模型、以及如何进行操作，当检测到第七用户对三维交互模型的凝视时长大于预设时长时，说明第七用户很可能有操作三维交互模型的需求，因此，可以将操作提示信息发送至第七用户所在终端，从而适时地提示第七用户操作三维交互模型。

图21是本发明实施例提供的一种群组视频会话的装置框图。参见图21，该装置具体包括：

交互模型获取模块2101，用于在群组视频会话过程中，获取待展示的目标物的三维交互模型；

处理模块2102，用于根据群组视频会话中多个用户中每个用户的视角，对目标物的三维交互模型进行处理，得到用户的视频数据，用户的视频数据包含对目标物的三维交互模型进行视角变换得到的模型数据；

发送模块2103，用于将多个用户的视频数据分别发送至多个用户所在终端。

在一种可能实现方式中，基于图21的装置组成，参见图22，该装置还包括：调整模块2104；

调整模块2104，用于当接收到对三维交互模型的操作指令时，根据操作指令对应的操作方式对三维交互模型进行调整；

处理模块2102，用于基于调整后的三维交互模型执行根据群组视频会话中多个用户中每个用户的视角进行处理的步骤；

发送模块2103，用于对处理模块根据群组视频会话中多个用户中每个用户的视角处理后的视频数据进行发送的步骤。

在一种可能实现方式中，基于图21的装置组成，参见图23，该装置还包括：

手势获取模块2105，用于获取第一用户的手势特征数据，当手势特征数据与三维交互模型的任一操作方式匹配时，确定接收到与操作方式对应的操作指令；或，

操作信息获取模块2106，用于获取第二用户对外接设备的操作信息，当操作信息与三维交互模型的任一操作方式匹配时，确定接收到操作方式对应的操作指令，外接设备与第二用户所在终端绑定。

在一种可能实现方式中，调整模块2104用于：当操作指令为旋转操作指令时，获取旋转操作指令对应的旋转角度和旋转方向，按照旋转角度和旋转方向，旋转三维交互模型；和/或，调整模块用于：当操作指令为缩放操作指令时，获取缩放操作指令对应的缩小比例或放大比例，按照缩小比例和放大比例，缩小或放大三维交互模型；和/或，调整模块用于：当操作指令为移位操作指令时，获取移位操作指令对应的移位方向和移位距离，按照移位方向和移位距离，对三维交互模型进行移位操作。

在一种可能实现方式中，基于图21的装置组成，参见图24，该装置还包括：

生成模块2107，用于当接收到第三用户的发言请求时，生成指定视频数据，指定视频数据用于展示虚拟话筒从虚拟主持人传递至第三用户的虚拟人物的过程；

处理模块2102，用于基于指定视频数据，执行根据群组视频会话中多个用户中每个用户的视角进行处理的步骤；

发送模块2103，用于对处理模块根据群组视频会话中多个用户中每个用户的视角处理后的指定视频数据进行发送的步骤。

在一种可能实现方式中，基于图21的装置组成，参见图25，该装置还包括：

降低模块2108，用于当接收到第三用户的发言请求时，降低第四用户的音频数据的音量，第四用户为群组视频会话中除第三用户以外的用户；

处理模块2102，用于基于调整后的音频数据，执行根据群组视频会话中多个用户中每个用户的视角进行处理的步骤；

在一种可能实现方式中，交互模型获取模块2101用于：获取第五用户上传的三维物体模型；或，交互模型获取模块用于2101：获取第六用户上传的二维表格，对二维表格进行处理，得到三维表格模型。

在一种可能实现方式中，基于图21的装置组成，参见图26，该装置还包括：合成模块2109，用于当接收到多媒体文件播放请求时，将与多媒体播放请求对应的多媒体文件合成至多个用户的视频数据。

在一种可能实现方式中，发送模块2103还用于：当检测到第七用户对三维交互模型的凝视时长大于预设时长时，将操作提示信息发送至第七用户所在终端，操作提示信息用于提示第七用户能够对三维交互模型进行操作。

图27示出了本发明一个示例性实施例提供的终端2700的结构框图。该终端2700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端2700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端2700包括有：处理器2701和存储器2702。

处理器2701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器2701所执行以实现本申请中方法实施例提供的XXXX方法。

在一些实施例中，终端2700还可选包括有：外围设备接口2703和至少一个外围设备。处理器2701、存储器2702和外围设备接口2703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2703相连。具体地，外围设备包括：射频电路2704、触摸显示屏2705、摄像头2706、音频电路2707、定位组件2708和电源2709中的至少一种。

外围设备接口2703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器2701和存储器2702。在一些实施例中，处理器2701、存储器2702和外围设备接口2703被集成在同一芯片或电路板上；在一些其他实施例中，处理器2701、存储器2702和外围设备接口2703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路2704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路2704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏2705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2705是触摸显示屏时，显示屏2705还具有采集在显示屏2705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2701进行处理。此时，显示屏2705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2705可以为一个，设置终端2700的前面板；在另一些实施例中，显示屏2705可以为至少两个，分别设置在终端2700的不同表面或呈折叠设计；在再一些实施例中，显示屏2705可以是柔性显示屏，设置在终端2700的弯曲表面上或折叠面上。甚至，显示屏2705还可以设置成非矩形的不规则图形，也即异形屏。显示屏2705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件2706用于采集图像或视频。可选地，摄像头组件2706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件2706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路2707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器2701进行处理，或者输入至射频电路2704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端2700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2701或射频电路2704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路2707还可以包括耳机插孔。

定位组件2708用于定位终端2700的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件2708可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源2709用于为终端2700中的各个组件进行供电。电源2709可以是交流电、直流电、一次性电池或可充电电池。当电源2709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端2700还包括有一个或多个传感器2710。该一个或多个传感器2710包括但不限于：加速度传感器2711、陀螺仪传感器2712、压力传感器2713、指纹传感器2714、光学传感器2715以及接近传感器2716。

加速度传感器2711可以检测以终端2700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器2711可以用于检测重力加速度在三个坐标轴上的分量。处理器2701可以根据加速度传感器2711采集的重力加速度信号，控制触摸显示屏2705以横向视图或纵向视图进行用户界面的显示。加速度传感器2711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器2712可以检测终端2700的机体方向及转动角度，陀螺仪传感器2712可以与加速度传感器2711协同采集用户对终端2700的3D动作。处理器2701根据陀螺仪传感器2712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器2713可以设置在终端2700的侧边框和/或触摸显示屏2705的下层。当压力传感器2713设置在终端2700的侧边框时，可以检测用户对终端2700的握持信号，由处理器2701根据压力传感器2713采集的握持信号进行左右手识别或快捷操作。当压力传感器2713设置在触摸显示屏2705的下层时，由处理器2701根据用户对触摸显示屏2705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器2714用于采集用户的指纹，由处理器2701根据指纹传感器2714采集到的指纹识别用户的身份，或者，由指纹传感器2714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器2701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器2714可以被设置终端2700的正面、背面或侧面。当终端2700上设置有物理按键或厂商Logo时，指纹传感器2714可以与物理按键或厂商Logo集成在一起。

光学传感器2715用于采集环境光强度。在一个实施例中，处理器2701可以根据光学传感器2715采集的环境光强度，控制触摸显示屏2705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏2705的显示亮度；当环境光强度较低时，调低触摸显示屏2705的显示亮度。在另一个实施例中，处理器2701还可以根据光学传感器2715采集的环境光强度，动态调整摄像头组件2706的拍摄参数。

接近传感器2716，也称距离传感器，通常设置在终端2700的前面板。接近传感器2716用于采集用户与终端2700的正面之间的距离。在一个实施例中，当接近传感器2716检测到用户与终端2700的正面之间的距离逐渐变小时，由处理器2701控制触摸显示屏2705从亮屏状态切换为息屏状态；当接近传感器2716检测到用户与终端2700的正面之间的距离逐渐变大时，由处理器2701控制触摸显示屏2705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图27中示出的结构并不构成对终端2700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图28是本发明实施例提供的一种网络设备的结构示意图，该网络设备2800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)2801和一个或一个以上的存储器2802，其中，所述存储器2802中存储有至少一条指令，所述至少一条指令由所述处理器2801加载并执行以实现上述各个方法实施例提供的方法。当然，该网络设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该网络设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中的资源发放方法或资源领取方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种群组视频会话的方法，其特征在于，应用于网络设备，所述方法包括：

创建群组视频会话；

对于所述群组视频会话中的每个用户，根据所述用户的设备信息，确定所述用户的用户类型，所述用户类型包括普通用户和虚拟用户，所述普通用户用于指示所述用户在参与所述群组视频会话时采用二维显示模式，所述虚拟用户用于指示所述用户在参与所述群组视频会话时采用虚拟现实显示模式；

根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据，所述目标视频数据的视频显示模式与所述用户的用户类型所指示的视频显示模式匹配；

在所述群组视频会话的进行过程中，向所述用户的用户设备发送目标视频数据，使所述用户进行群组视频会话。
根据权利要求1所述的方法，其特征在于，所述根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据包括：

如果所述用户的用户类型为普通用户，将所述群组视频会话中虚拟用户对应的三维虚拟人物转换为二维虚拟人物；

对所述二维虚拟人物、所述虚拟用户选择的二维背景、以及所述虚拟用户对应的音频数据进行合成，得到第一二维视频数据；

对至少一个第一二维视频数据与至少一个第二二维视频数据进行合成，得到所述用户的目标视频数据，所述第二二维视频数据是指所述群组视频会话中普通用户的二维视频数据。
根据权利要求1所述的方法，其特征在于，所述根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据包括：

如果所述用户的用户类型为虚拟用户，确定所述群组视频会话对应的虚拟环境；

以所述虚拟环境为三维背景，确定所述群组视频会话中的每个用户在所述虚拟环境中的显示位置；

对于所述群组视频会话中的普通用户，将所述普通用户的指定视频数据合成至所述普通用户对应的显示位置；

对于所述群组视频会话中的虚拟用户，将所述虚拟用户的三维虚拟人物和音频数据合成至所述虚拟用户对应的显示位置；

将合成后的视频数据作为所述用户的目标视频数据。
根据权利要求3所述的方法，其特征在于，所述对于所述群组视频会话中的普通用户，将所述普通用户的指定视频数据合成至所述普通用户对应的显示位置之前，所述方法还包括：

如果所述普通用户包括第一普通用户，将所述第一普通用户的两路二维视频数据转换为第一三维视频数据，将所述第一三维视频数据作为所述指定视频数据，所述第一普通用户是指使用双目摄像头的普通用户，或，如果所述普通用户包括所述第一普通用户，将所述第一普通用户的两路二维视频数据作为所述指定视频数据；

如果所述普通用户包括第二普通用户，将所述第二普通用户的二维视频数据作为所述指定视频数据，所述第二普通用户是指使用单目摄像头的普通用户。
根据权利要求3所述的方法，其特征在于，所述确定所述群组视频会话对应的虚拟环境包括：

将所述用户触发的虚拟环境选项对应的虚拟环境确定为所述用户在所述群组视频会话中对应的虚拟环境；或，

根据所述群组视频会话中的用户数量，确定所述群组视频会话对应的虚拟环境的容量，将符合所述容量的虚拟环境确定为所述群组视频会话对应的虚拟环境；或，

分析所述群组视频会话中的每个用户选择过的虚拟环境，得到每个虚拟环境的被选择次数，将被选择次数最多的虚拟环境确定为所述群组视频会话对应的虚拟环境。
根据权利要求3所述的方法，其特征在于，所述确定所述群组视频会话中的每个用户在所述虚拟环境中的显示位置包括：

根据所述用户与所述群组视频会话中其他用户之间的社交数据，分析所述用户与所述其他用户之间的亲密度，按照亲密度高低顺序从所述用户的任一侧开始排列所述其他用户的显示位置；或，

获取所述其他用户的用户身份，将所述用户的对面位置确定为所述其他用户中用户身份最高的用户的显示位置，并随机确定所述其他用户中剩余用户的显示位置；或，

按照所述其他用户加入所述群组视频会话的时间先后顺序，从所述用户的任一侧开始排列所述其他用户的显示位置；或，

根据所述用户在所述虚拟环境中选择的位置，将所述用户所选择的位置确定为所述用户在所述虚拟环境中的显示位置；或，

将所述用户的对面位置确定为所述普通用户的显示位置，并随机确定所述其他用户中剩余用户的显示位置。
根据权利要求1所述的方法，其特征在于，所述方法包括：

在创建群组视频会话时，获取群组视频会话中第一用户的虚拟人物，所述第一用户的虚拟人物至少根据所述第一用户的头部特征数据和所述第一用户对应的肢体模型得到；

在所述群组视频会话过程中，基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据，所述视频数据中所述第一用户的虚拟人物的动作与所述第一用户的实际动作匹配。
根据权利要求7所述的方法，其特征在于，所述获取群组视频会话中第一用户的虚拟人物包括：

获取所述第一用户的头部特征数据；

根据所述头部特征数据，生成与所述头部特征数据匹配的头部模型；

根据所述第一用户的用户属性，确定所述第一用户对应的肢体模型；

对所述头部模型和所述肢体模型进行合成，得到所述第一用户的虚拟人物。
根据权利要求8所述的方法，其特征在于，所述根据所述第一用户的用户属性，确定所述第一用户对应的肢体模型包括：

根据所述第一用户的性别数据，确定与所述第一用户的性别数据匹配的肢体模型；和/或，

根据所述第一用户的年龄数据，确定与所述第一用户的年龄数据匹配的肢体模型；和/或，

根据所述第一用户的职业数据，确定与所述第一用户的职业数据匹配的肢体模型。
根据权利要求7所述的方法，其特征在于，所述行为特征数据包括表情特征数据，所述基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据包括：

当检测到所述第一用户的表情特征数据为指定表情特征数据时，获取与所述指定表情特征数据对应的肢体特征数据；

将所述指定表情特征数据实时映射至所述第一用户的虚拟人物的头部模型，并将所述肢体特征数据实时映射至所述第一用户的虚拟人物的肢体模型，得到所述第一用户的视频数据。
根据权利要求7所述的方法，其特征在于，所述行为特征数据包括嘴型特征数据，所述基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据包括：

将所述第一用户的嘴型特征数据实时映射至所述第一用户的虚拟人物的头部模型，得到所述第一用户的视频数据。
根据权利要求7所述的方法，其特征在于，所述行为特征数据包括头部方位特征数据，所述基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据包括：

获取所述第一用户的传感器采集到的所述第一用户的头部方位数据；

将所述第一用户的头部方位特征数据实时映射至所述第一用户的虚拟人物的头部模型，得到所述第一用户的视频数据。
根据权利要求7所述的方法，其特征在于，所述行为特征数据包括眼神方向特征数据，所述基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据包括：

获取所述第一用户的摄像头拍摄到的所述第一用户的眼部图像数据；

根据所述第一用户的眼部图像数据，获取所述第一用户的眼神方向特征数据；

将所述第一用户的眼神方向特征数据实时映射至所述第一用户的虚拟人物的头部模型，得到所述第一用户的视频数据。
根据权利要求7所述的方法，其特征在于，所述基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据包括：

基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的初始视频数据；

获取所述第二用户的视角数据；

按照所述第二用户的视角数据所指示的视角，对所述初始视频数据进行处理，得到与所述视角匹配的所述第一用户的视频数据。
根据权利要求1所述的方法，其特征在于，所述方法包括：

在群组视频会话过程中，获取待展示的目标物的三维交互模型；

根据所述群组视频会话中多个用户中每个用户的视角，在所述群组视频会话过程中，对所述目标物的三维交互模型进行处理，得到所述用户的视频数据，所述用户的视频数据包含对所述目标物的三维交互模型进行视角变换得到的模型数据；

将所述多个用户的视频数据分别发送至所述多个用户所在终端。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

当接收到第三用户的发言请求时，降低第四用户的音频数据的音量，所述第四用户为所述群组视频会话中除第三用户以外的用户。
根据权利要求15所述的方法，其特征在于，所述获取待展示的目标物的三维交互模型包括：

获取第五用户上传的三维物体模型；或，

获取第六用户上传的二维表格，对所述二维表格进行处理，得到三维表格模型。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

当接收到多媒体文件播放请求时，将与所述多媒体播放请求对应的多媒体文件合成至所述群组视频会话中多个用户的视频数据。
根据权利要求15所述的方法，其特征在于，在群组视频会话过程中，获取待展示的目标物的三维交互模型之后，所述方法还包括：

当检测到第七用户对所述三维交互模型的凝视时长大于预设时长时，将操作提示信息发送至所述第七用户所在终端，所述操作提示信息用于提示所述第七用户能够对所述三维交互模型进行操作。
一种群组视频会话的方法，其特征在于，应用于终端，所述方法包括：

接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；

显示所述目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，所述群组视频会话中的虚拟用户以二维虚拟人物的形式显示。
一种群组视频会话的方法，其特征在于，应用于虚拟现实VR设备，所述方法包括：

接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；

显示所述目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，所述群组视频会话中的虚拟用户在所述虚拟环境中以三维虚拟人物的形式显示。
根据权利要求21所述的方法，其特征在于，所述显示所述目标视频数据包括：

在所述普通用户对应的显示位置上，显示所述普通用户的二维人物或三维人物；

在所述虚拟用户对应的显示位置上，显示所述虚拟用户的三维虚拟人物。
根据权利要求21所述的方法，其特征在于，所述方法还包括：

基于所述目标视频数据，如果检测到所述群组视频会话中任一用户正在发言，在所述用户对应的显示位置上显示发言提示。
一种网络设备，其特征在于，所述网络设备包括存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以执行下述群组视频会话的方法的步骤：

创建群组视频会话；

对于所述群组视频会话中的每个用户，根据所述用户的设备信息，确定所述用户的用户类型，所述用户类型包括普通用户和虚拟用户，所述普通用户用于指示所述用户在参与所述群组视频会话时采用二维显示模式，所述虚拟用户用于指示所述用户在参与所述群组视频会话时采用虚拟现实显示模式；

根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据，所述目标视频数据的视频显示模式与所述用户的用户类型所指示的视频显示模式匹配；

在所述群组视频会话的进行过程中，向所述用户的用户设备发送目标视频数据，使所述用户进行群组视频会话。
根据权利要求24所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

如果所述用户的用户类型为普通用户，将所述群组视频会话中虚拟用户对应的三维虚拟人物转换为二维虚拟人物；

对所述二维虚拟人物、所述虚拟用户选择的二维背景、以及所述虚拟用户对应的音频数据进行合成，得到第一二维视频数据；

对至少一个第一二维视频数据与至少一个第二二维视频数据进行合成，得到所述用户的目标视频数据，所述第二二维视频数据是指所述群组视频会话中普通用户的二维视频数据。
根据权利要求24所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

如果所述用户的用户类型为虚拟用户，确定所述群组视频会话对应的虚拟环境；

以所述虚拟环境为三维背景，确定所述群组视频会话中的每个用户在所述虚拟环境中的显示位置；

对于所述群组视频会话中的普通用户，将所述普通用户的指定视频数据合成至所述普通用户对应的显示位置；

对于所述群组视频会话中的虚拟用户，将所述虚拟用户的三维虚拟人物和音频数据合成至所述虚拟用户对应的显示位置；

将合成后的视频数据作为所述用户的目标视频数据。
根据权利要求26所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

如果所述普通用户包括第一普通用户，将所述第一普通用户的两路二维视频数据转换为第一三维视频数据，将所述第一三维视频数据作为所述指定视频数据，所述第一普通用户是指使用双目摄像头的普通用户，或，如果所述普通用户包括所述第一普通用户，将所述第一普通用户的两路二维视频数据作为所述指定视频数据；

如果所述普通用户包括第二普通用户，将所述第二普通用户的二维视频数据作为所述指定视频数据，所述第二普通用户是指使用单目摄像头的普通用户。
根据权利要求26所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

将所述用户触发的虚拟环境选项对应的虚拟环境确定为所述用户在所述群组视频会话中对应的虚拟环境；或，

根据所述群组视频会话中的用户数量，确定所述群组视频会话对应的虚拟环境的容量，将符合所述容量的虚拟环境确定为所述群组视频会话对应的虚拟环境；或，

分析所述群组视频会话中的每个用户选择过的虚拟环境，得到每个虚拟环境的被选择次数，将被选择次数最多的虚拟环境确定为所述群组视频会话对应的虚拟环境。
根据权利要求26所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

根据所述用户与所述群组视频会话中其他用户之间的社交数据，分析所述用户与所述其他用户之间的亲密度，按照亲密度高低顺序从所述用户的任一侧开始排列所述其他用户的显示位置；或，

获取所述其他用户的用户身份，将所述用户的对面位置确定为所述其他用户中用户身份最高的用户的显示位置，并随机确定所述其他用户中剩余用户的显示位置；或，

按照所述其他用户加入所述群组视频会话的时间先后顺序，从所述用户的任一侧开始排列所述其他用户的显示位置；或，

根据所述用户在所述虚拟环境中选择的位置，将所述用户所选择的位置确定为所述用户在所述虚拟环境中的显示位置；或，

将所述用户的对面位置确定为所述普通用户的显示位置，并随机确定所述其他用户中剩余用户的显示位置。
根据权利要求24所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

在创建群组视频会话时，获取群组视频会话中第一用户的虚拟人物，所述第一用户的虚拟人物至少根据所述第一用户的头部特征数据和所述第一用户对应的肢体模型得到；

在所述群组视频会话过程中，基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的视频数据，所述视频数据中所述第一用户的虚拟人物的动作与所述第一用户的实际动作匹配。
根据权利要求30所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

获取所述第一用户的头部特征数据；

根据所述头部特征数据，生成与所述头部特征数据匹配的头部模型；

根据所述第一用户的用户属性，确定所述第一用户对应的肢体模型；

对所述头部模型和所述肢体模型进行合成，得到所述第一用户的虚拟人物。
根据权利要求31所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

根据所述第一用户的性别数据，确定与所述第一用户的性别数据匹配的肢体模型；和/或，

根据所述第一用户的年龄数据，确定与所述第一用户的年龄数据匹配的肢体模型；和/或，

根据所述第一用户的职业数据，确定与所述第一用户的职业数据匹配的肢体模型。
根据权利要求30所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

当检测到所述第一用户的表情特征数据为指定表情特征数据时，获取与所述指定表情特征数据对应的肢体特征数据；

将所述指定表情特征数据实时映射至所述第一用户的虚拟人物的头部模型，并将所述肢体特征数据实时映射至所述第一用户的虚拟人物的肢体模型，得到所述第一用户的视频数据。
根据权利要求30所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

将所述第一用户的嘴型特征数据实时映射至所述第一用户的虚拟人物的头部模型，得到所述第一用户的视频数据。
根据权利要求30所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

获取所述第一用户的传感器采集到的所述第一用户的头部方位数据；

将所述第一用户的头部方位特征数据实时映射至所述第一用户的虚拟人物的头部模型，得到所述第一用户的视频数据。
根据权利要求30所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

获取所述第一用户的摄像头拍摄到的所述第一用户的眼部图像数据；

根据所述第一用户的眼部图像数据，获取所述第一用户的眼神方向特征数据；

将所述第一用户的眼神方向特征数据实时映射至所述第一用户的虚拟人物的头部模型，得到所述第一用户的视频数据。
根据权利要求30所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

基于所述第一用户的虚拟人物和所述第一用户的行为特征数据，获取所述第一用户的初始视频数据；

获取所述第二用户的视角数据；

按照所述第二用户的视角数据所指示的视角，对所述初始视频数据进行处理，得到与所述视角匹配的所述第一用户的视频数据。
根据权利要求24所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

在群组视频会话过程中，获取待展示的目标物的三维交互模型；

根据所述群组视频会话中多个用户中每个用户的视角，在所述群组视频会话过程中，对所述目标物的三维交互模型进行处理，得到所述用户的视频数据，所述用户的视频数据包含对所述目标物的三维交互模型进行视角变换得到的模型数据；

将所述多个用户的视频数据分别发送至所述多个用户所在终端。
根据权利要求24所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

当接收到第三用户的发言请求时，降低第四用户的音频数据的音量，所述第四用户为所述群组视频会话中除第三用户以外的用户。
根据权利要求38所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

获取第五用户上传的三维物体模型；或，

获取第六用户上传的二维表格，对所述二维表格进行处理，得到三维表格模型。
根据权利要求24所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

当接收到多媒体文件播放请求时，将与所述多媒体播放请求对应的多媒体文件合成至所述群组视频会话中多个用户的视频数据。
根据权利要求38所述的网络设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

当检测到第七用户对所述三维交互模型的凝视时长大于预设时长时，将操作提示信息发送至所述第七用户所在终端，所述操作提示信息用于提示所述第七用户能够对所述三维交互模型进行操作。
一种终端，其特征在于，所述终端包括存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以执行下述群组视频会话的方法的步骤：

接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；

显示所述目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，所述群组视频会话中的虚拟用户以二维虚拟人物的形式显示。
一种虚拟现实VR设备，其特征在于，所述VR设备包括存储器和处理器，所述存储器用于存储指令，所述处理器被配置为执行所述指令，以执行下述群组视频会话的方法的步骤：

接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；

显示所述目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，所述群组视频会话中的虚拟用户在所述虚拟环境中以三维虚拟人物的形式显示。
根据权利要求44所述的VR设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

在所述普通用户对应的显示位置上，显示所述普通用户的二维人物或三维人物；

在所述虚拟用户对应的显示位置上，显示所述虚拟用户的三维虚拟人物。
根据权利要求44所述的VR设备，其特征在于，所述处理器被配置为执行所述指令，以执行下述步骤：

基于所述目标视频数据，如果检测到所述群组视频会话中任一用户正在发言，在所述用户对应的显示位置上显示发言提示。
一种群组视频会话系统，其特征在于，所述系统包括：

网络设备，被配置为创建群组视频会话；对于所述群组视频会话中的每个用户，根据所述用户的设备信息，确定所述用户的用户类型，所述用户类型包括普通用户和虚拟用户，所述普通用户用于指示所述用户在参与所述群组视频会话时采用二维显示模式，所述虚拟用户用于指示所述用户在参与所述群组视频会话时采用虚拟现实显示模式；根据所述用户的用户类型所指示的视频显示模式，对所述群组视频会话的视频数据进行处理，得到所述用户的目标视频数据，所述目标视频数据的视频显示模式与所述用户的用户类型所指示的视频显示模式匹配；在所述群组视频会话的进行过程中，向所述用户的用户设备发送目标视频数据，使所述用户进行群组视频会话；

终端，被配置为接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与终端用户的用户类型所指示的视频显示模式匹配，所述终端用户的用户类型为普通用户，所述普通用户用于指示所述终端用户在参与所述群组视频会话时采用二维显示模式；显示所述目标视频数据，使群组视频会话中的普通用户以二维人物形式显示，所述群组视频会话中的虚拟用户以二维虚拟人物的形式显示；

虚拟现实VR设备，被配置为接收网络设备发送群组视频会话的目标视频数据，所述目标视频数据的视频显示模式与VR设备用户的用户类型所指示的视频显示模式匹配，所述VR设备用户的用户类型为虚拟用户，所述虚拟用户用于指示所述VR设备用户在参与所述群组视频会话时采用虚拟现实显示模式；显示所述目标视频数据，使群组视频会话中的普通用户在虚拟环境中以二维人物或三维人物的形式显示，所述群组视频会话中的虚拟用户在所述虚拟环境中以三维虚拟人物的形式显示。