WO2018095317A1

WO2018095317A1 - 视频数据处理方法、装置及设备

Info

Publication number: WO2018095317A1
Application number: PCT/CN2017/112217
Authority: WO
Inventors: 叶在伟; 曾伟
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-11-28
Filing date: 2017-11-22
Publication date: 2018-05-31
Also published as: EP3547672A1; CN108377355A; JP2020513704A; EP3547672A4

Abstract

一种视频数据处理方法，包括：在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；以及根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。

Description

视频数据处理方法、装置及设备

技术领域

本公开涉及增强现实(AR，Augmented Reality)技术，例如涉及一种视频数据处理方法、装置及设备。

背景技术

近年来，随着通信网络技术飞速发展，移动互联网技术日新月异，传统的音频交流已经不能满足人们的沟通交流的需要。越来越多的人们希望通过视频通信的方式与对方来进行交流和沟通，因此，很多终端上均提供了视频通信的功能。如今，视频通信在人们的生活和工作中扮演着非常重要的角色。

然而，在视频通话过程中，在本端仅仅只能显示对端摄像头拍摄的二维影像，无法将对端所对应地目标物体融入本端所处的现实场景，仅仅只能让用户可以看到对方的二维形象，从感官上而言，与用户进行视频通信的对方还是位于遥远的他方，并不能让人们感受到对方来到了自己所处的现实环境中，从而，本端视频通话视觉信息缺乏现实感，使得用户从感官上无法真切地体验到对方与自己在进行面对面的交流和沟通，用户体验较差。

发明内容

有鉴于此，本实施例提供一种视频数据处理方法、装置及设备，实现了增强现实的三维视频通话，提高了用户体验。

第一方面，本实施例提供一种视频数据处理方法，包括：在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；以及根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。

第二方面，本实施例提供一种视频数据处理装置，包括：获得模块、融合模块以及生成模块，其中，所述获得模块，设置为在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；所述融合模块，设置为将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；所述生成模块，设置为根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。

第三方面，本实施例提供一种服务器，包括：收发器以及处理器，其中，所述收发器，设置为接收来自第一终端的第一视频数据，并接收来自第二终端的第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；还设置为向所述第二终端发送三维视频数据；所述处理器，设置为将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。

第四方面，本实施例提供一种终端，包括：接收器、立体摄像头、处理器以及显示器，其中，所述接收器，设置为接收来自对端的视频数据，其中，所述对端的视频数据中至少包括所述对端对应的目标物体的第一左视图和第一右视图；所述立体摄像头，设置为同步采集当前所处现实场景的所述第二左视图和所述第二右视图；所述处理器，设置为将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据；所述显示器，设置为显示所述三维视频数据。

第五方面，本实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的方法。本实施例提供的视频数据处理方法、装置及设备能够将第一终端目标物体的图像数据融入第二终端当前的现实场景的图像数据中，增强第二终端视频通话过程中的现实信息，给第二终端的用户提供增强现实的三维视频通话，让用户从感官上感受到目标物体就在当前自己所处的现实环境中，进而，提高了用户体验。

附图概述

图1为实施例一中的视频数据处理方法的流程示意图；

图2为实施例二中的视频数据处理方法的流程示意图；

图3为实施例三中的视频数据处理装置的结构示意图；

图4为实施例四中的服务器的结构示意图；

图5为实施例五中的终端的结构示意图。

具体实施方式

下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚完整地描述。

实施例一

本实施例提供一种视频数据处理方法，在实际应用中，该方法可以应用于多种视频通信业务中需要视频数据处理的场合，可以是终端中的视频通话应用类产品、社交类产品以及智能办公类产品等，也可以是视频业务服务器中的视频数据处理。示例性地，用户可以使用终端上的智能办公类产品来实现与另一用户进行增强现实的视频通话，可以从感官上感受到另一用户来到了自己所处的会议室里，增强自己的通话体验。

那么，图1为实施例一中的视频数据处理方法的流程示意图，参见图1所示，该视频数据处理方法包括：S110-S130。

在S110中，在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据；

其中，第一视频数据中至少包括第一终端对应的目标物体的第一左视图和第一右视图，第二视频数据中至少包括第二终端当前所处现实场景的第二左视图和第二右视图。

这里，当用户想要在视频通话过程中，从感官上让目标物体出现在用户当前所处的现实环境中，获得更具有现实感的视频通话体验时，就可以选择进行增强现实的视频通话业务。这样，在第一终端与第二终端进行视频通话过程中，就会获得至少包括第一终端对应的目标物体的第一左视图和第一右视图的第一视频数据，并且获得至少包括第二终端当前所处现实场景的第二左视图和第二右视图的第二视频数据。从而，就可以将第一终端对应的目标物体的图像数据融入第二终端当前所处的现实场景的图像数据中，来增强第二终端侧用户的视频通话体验。

可选地，第一视频数据可以是包含有目标物体的一帧数据，如第i帧数据，此时，该第一视频数据中包含有在时刻i采集的目标物体的第一左视图和第一右视图；第一视频数据也可以是包含有目标物体的多帧数据，如第j帧至第j+2帧数据，此时，该第一视频数据中包含有在时刻j到时刻j+2采集的目标物体的所有的第一左视图和第一右视图。同样地，第二视频数据可以是包含有现实场景的一帧数据，也可以是包含有现实场景的多帧数据。而且，第二视频数据与第一视频数据是同步对应的，因此，当第一视频数据中包含的是目标物体的第i帧数据时，第二视频数据中也包含的是现实场景的第i帧数据。第一视频数据或第二视频数据的第i帧数据可以是一幅三维图像，从该三维图像中可以获得目标物体或现实场景的左视图与右视图，或者，第一视频数据或第二视频数据的第i帧数据也可以直接是两幅二维图像，即直接就是目标物体或现实场景的左视图与右视图。这里，假设第一视频数据为一个时长为4秒，帧率为25帧/秒的视频数据，那么，就会获得25乘以4，共计100个第一左视图和100个第一右视图。从而，第二视频数据也会对应为一个时长为4秒，帧率为25帧/秒的视频数据。而且，根据时间戳，每一个第一左视图均会对应于一个第二左视图，每一个第一右视图均会对应于一个第二右视图。

在实际应用中，上述第一视频数据与第二视频数据可以分别使用一个双目摄像头来采集，通过处于同一平面且具有相同焦距以及采集方向的左右两个摄像头，能够在同一时刻获得目标物体或者现实场景的两张具有视差的图像，即左视图以及右视图，利用这两幅具有视差的图像能够获得目标物体或者现实场景的三维数据。当然，还可以是其他类型的立体摄像头，如四目摄像头来采集目标物体或者现实场景的视频数据。

在具体实施过程中，第一终端在采集目标物体的左视图和右视图时，目标物体所处的场景可以是简单背景，如纯白色、纯蓝色或纯绿色等，也可以是复杂背景，如环境较为杂乱的马路。然而，为了能够降低提取算法的复杂度，并且便于从包含有目标物体的左视图和右视图中提取出真实的目标物体的图像，目标物体应该尽量处于较为简单例如颜色单一的背景中。可选地，采用与目标物体颜色差距较大的背景，例如由于蓝色和绿色与人的肤色相差较远，当目标物体为人时，可以选择蓝色背景或者绿色背景。

可选地，S110还包括：接收来自第一终端的第一视频数据，并接收来自第二终端的第二视频数据；或者，接收来自第一终端的第一视频数据，并同步采集当前所处现实场景的第二左视图和第二右视图。

可选地，当该方法应用于服务器时，就可以通过接收来自第一终端的第一视频数据，并接收来自第二终端的第二视频数据的方式，来获得第一视频数据和第二视频数据；当该方法应用于第二终端时，就可以通过接收来自第一终端的第一视频数据，并同步采集当前所处现实场景的第二左视图和第二右视图的方式，来获得第一视频数据和第二视频数据。

在S120中，将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合；

这里，为了增强第二终端用户的视频通话的现实感，在获得了第一终端对应的目标物体的第一左视图和第一右视图，并且获得了第二终端当前所处现实场景的第二左视图和第二右视图后，就可以将第一左视图中目标物体的第一图像与第二左视图融合，得到融合后的同时包含有第一终端对应的目标物体和第二终端当前所处现实场景的第二左视图，并将第一右视图中目标物体的第二图像与第二右视图融合，得到融合后的同时包含有第一终端对应的目标物体和第二终端当前所处现实场景的第二右视图。

示例性地，假设第一左视图中目标物体的第一图像为一个站立着的人，而第二左视图中为一棵树，那么，融合后的左视图可以包含一个人站在一棵树旁边。

在实际应用中，在将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合时，可采用基于像素的图像融合算法、基于小波变换的多分辨率图像融合算法、金字塔图像融合算法和基于泊松法的图像合成算法等常用的机器视觉算法中的至少一种，可以是由本领域技术人员在具体实施时根据实际情况来确定。

可选地，在S120之前，还包括：按照预设规则，从第一左视图中提取第一图像，并从第一右视图中提取第二图像。

这里，在将目标物体的第一图像与第二左视图融合，并将目标物体的第二图像与第二右视图融合之前，还需要按照预设的规则，从第一左视图中提取第一图像，并从第一右视图中提取第二图像。

在具体实施过程中，可以利用预先存储的目标物体模型，对第一左视图进行目标识别提取出第一图像，并对第一右视图进行目标识别提取出第二图像；也可以利用预先存储的背景模型，过滤第一左视图中的背景数据获得第一图像，并过滤第一右视图中的背景数据获得第二图像；当然，还可以采用其他方法，如局部泊松抠图算法以及贝叶斯抠图算法等来获得第一图像与第二图像，由本领域技术人员在具体实施过程中确定。

在实际应用中，预先存储的目标物体模型可以是机器学习算法对样本进行建模，预先生成的，也可以是用户手动选择目标区域，通过机器视觉算法实时生成的。同样地，预先存储的背景模型可以是根据预先设定的背景颜色信息生成，也可以用户手动标定背景区域，通过机器视觉算法实时生成的。当然，预先存储的目标物体模型或者背景模型还采用其他方式来获得。

示例性地，可以通过机器学习算法对样本目标，如人或汽车等进行学习，获得目标物体的相关特征库，预先建立出目标物体的视觉模型，然后识别匹配出第一视频数据中的目标物体，获得第一左视图中目标物体的第一图像以及第一右视图中目标物体的第二图像；或者，当背景与前景目标物体的颜色差异时，可以过滤掉背景信息，获得目标物体的图像数据；或者，当背景与前景目标物体有明显差异，利用背景图层过滤法，对背景进行透明化处理，获得目标物体的图像数据；或者，可以为背景建立一个高斯背景模型，然后匹配识别出背景数据，获得目标物体的图像数据。

此外，由于得到的图像往往会存在各种各样的噪声，这些噪声可以是外界环境的光线或灰尘颗粒等引起的外部噪声，也可以是视频采集模块内部电路或图像传感模块材料等引起的内部噪声，这些噪声的存在会使得图像中的目标物模糊甚至无法辨别，从而，会导致获得的目标数据不准确。

因此，在具体实施过程中，为了确保能够准确地从第一左视图中提取第一图像，并从第一右视图中提取第二图像，还需要对第一左视图和第一右视图进行去噪处理，进而使用去噪后的第一左视图和去噪后的第一右视图，来提取第一图像和第二图像。

在实际应用中，在进行去噪处理时，所采用的去噪方法可以是线性滤波法、中值滤波法以及维纳滤波法等空间域去噪方法，也可以是傅里叶变换和小波变换等频域去噪方法，当然，还可以是其他类型的去噪方法如颜色直方图均衡化等。

在S130中，根据融合后的第二左视图和融合后的第二右视图，生成对应的三维视频数据。

这里，在获得了融合后的第二左视图和融合后的第二右视图后，就可以利用三维成像技术，生成包含有目标物体与现实场景相融合的三维视频数据。

在实际应用中，在根据融合后的第二左视图和融合后的第二右视图，生成对应的三维视频数据时，可采用色分法、光分法以及时分法等常用的三维成像技术，由本领域技术人员在具体实施时根据实际情况来确定。

在具体实施过程中，为了让第二终端的用户感受到增强现实的三维视频数据，在S130之后，上述方法还包括：显示上述三维视频数据，或者，向第二终端发送三维视频数据。

可选地，当该方法应用于第二终端时，就第二终端就可以直接显示上述三维视频数据；当该方法应用于服务器时，就需要服务器向第二终端发送上述三维视频数据，第二终端在获得了三维视频数据后，再显示该三维视频数据。

在实际应用中，在用户观看该三维视频数据时，可以采用被动式偏光眼镜，也可以采用主动式快门3D(Three Dimensions，三维)眼镜，当然，还可以采用其他方式如VR(Virtual Reality，虚拟现实)眼镜。一般情况下，根据生成该三维视频数据方法的不同，对应地，用于观看该三维视频数据方法也是不同的，如使用基于时分法的3D技术来生成三维视频数据的，那么，用户就可以使用主动式快门3D眼镜来观看。

至此，便完成了对第二视频数据的处理。

由上述内容可知，本实施例所提供的技术方案，首先会在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，第一视频数据中至少包括第一终端对应的目标物体的第一左视图和第一右视图，第二视频数据中至少包括第二终端当前所处现实场景的第二左视图和第二右视图。然后将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合。最后，根据融合后的第二左视图和融合后的第二右视图，生成第一终端对应的目标物体与第二终端用户当前所处的现实场景相融合的三维视频数据。这样，通过本实施例提供的视频数据处理方法，可以在视频通话过程中，将第一终端对应的目标物体融入到第二终端所处的现实场景中，以增强第二终端视频通话的现实信息，给第二终端的用户提供增强现实的三维视频通话，从而，让第二终端所对应的用户从感官上感受到目标物体就在当前自己所处的现实环境中，进而，可以为用户提供良好的用户体验。

实施例二

基于上述实施例，本实施例提供一种视频通信系统，该系统包括：终端一以及终端二。本实施例提供一种视频数据处理方法，可以是应用于该视频通信系统。

示例性地，以视频会议作为实际应用场景，假设用户B与用户A需要沟通项目方案，但是由于两人不在同一城市，不方便进行面对面的交流，用户B可以在会议室中通过该视频通信系统与用户A进行增强现实的视频通话，从而，通过将坐着的用户A融入到用户B所在会议室中用户B对面椅子中，让用户B从感官上觉得用户A处于自己当前所处的现实环境中。

下面详细地说明增强终端二的用户B视频通话体验的过程。

那么，图2为实施例二中的视频数据处理方法的流程示意图，参见图2所示，该视频数据处理方法包括：S201-S206。

在S201中，终端一获取第一视频数据，并将第一视频数据发送给终端二；

其中，第一视频数据中至少包括用户A的第一左视图和第一右视图。

在具体实施过程中，终端一可以通过一个双目3D摄像头来对用户A进行拍摄，来获取用户A的第一左视图和第一右视图。

在实际应用中，为了便于后续提取用户A的图像数据，用户A可以处于单色背景中，如白色、绿色或蓝色等，一般情况下，当需要采集的目标为人时，由于绿色和蓝色与人的肤色相差较大，因此，可以选择蓝色背景或者绿色背景，作用类似于电影拍摄中的蓝幕或者绿幕。

在S202中，终端二接收第一视频数据，并获取第二视频数据；

其中，第二视频数据为以用户B视角采集的会议室的第二左视图和第二右视图。

在实际应用中，终端二可以是一个可佩戴式头盔，头盔的外侧设置有双目3D摄像头，用户B可以将终端二佩戴于头部，这样就可以获得用户B视角看到的会议室的第二左视图和第二右视图。

在S203中，终端二从第一左视图中提取第一图像，并从第一右视图中提取第二图像；

在S204中，终端二将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合；

这里，在获得了用户A的第一图像和第二图像后，可以将用户A的三维信息融入到会议室中用户B对面的座位中。

在S205中，终端二根据融合后的第二左视图和融合后的第二右视图，生成对应的三维视频数据；

这里，在获得了融合后的第二左视图和融合后的第二右视图，终端二可以通过三维成像技术，生成对应的三维视频数据以便显示给用户B来看。

在S206中，终端二显示三维视频数据。

这里，在生成了三维视频数据后，终端二就可以将三维视频数据显示给用户B来看。示例性地，用户B可以通过终端二观看到用户A与自己处于同一会议室中，且坐在自己对面的座位中。

至此，便完成了对于终端二获取的第二视频数据的处理。

由上述内容可知，通过本实施例所提供的方法，用户B可以通过终端二来将需要进行通话的用户A的影像融入到用户B所处的现实场景的影像中，并通过三维成像技术来显示出来，从而达到增强现实的效果，使得用户B可以从感官上感受到用户A处于自己所在的现实环境中，提高了用户B的视频通话体验。

实施例三

本实施例提供一种视频数据处理装置。图3为实施例三中的视频数据处理装置的结构示意图，参见图3所示，该视频数据处理装置30包括：获得模块301、融合模块302以及生成模块303；其中，获得模块301，设置为在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，第一视频数据中至少包括第一终端对应的目标物体的第一左视图和第一右视图，第二视频数据中至少包括第二终端当前所处现实场景的第二左视图和第二右视图；融合模块302，设置为将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合；生成模块303，设置为根据融合后的第二左视图和融合后的第二右视图，生成对应的三维视频数据。

可选地，该视频数据处理装置，还包括提取模块，设置为按照预设规则，从第一左视图中提取第一图像，并从第一右视图中提取第二图像。

可选地，提取模块，还设置为利用预先存储的目标物体模型，对第一左视图进行目标识别提取出第一图像，并对第一右视图进行目标识别提取出第二图像。

可选地，提取模块，还设置为利用预先存储的背景模型，过滤第一左视图中的背景数据获得第一图像，并过滤第一右视图中的背景数据获得第二图像。

可选地，获得模块，还设置为接收来自第一终端的第一视频数据，并接收来自第二终端的第二视频数据；相应地，该视频数据处理装置还包括：发送模块，设置为向第二终端发送三维视频数据。

可选地，获得模块，还设置为接收来自第一终端的第一视频数据，并同步采集当前所处现实场景的第二左视图和第二右视图；相应地，该视频数据处理装置还包括：显示模块，设置为显示三维视频数据。

在实际应用中，上述获得模块、融合模块、生成模块、提取模块以及发送模块均可由中央处理器(CPU，Central Processing Unit)、图形处理器(GPU，Graphics Processing Unit)、微处理器(MPU，Micro Processor Unit)、数字信号处理器(DSP，Digital Signal Processor)或现场可编程门阵列(FPGA，Field Programmable Gate Array)等实现。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于装置实施例中未披露的技术细节，请参照方法实施例的描述而理解，为节约篇幅，因此不再赘述。

实施例四

本实施例提供一种服务器。图4为实施例四中的服务器的结构示意图，参见图4所示，该服务器40包括：收发器401以及处理器402；其中，收发器401，设置为接收来自第一终端的第一视频数据，并接收来自第二终端的第二视频数据，其中，第一视频数据中至少包括第一终端对应的目标物体的第一左视图和第一右视图，第二视频数据中至少包括第二终端当前所处现实场景的第二左视图和第二右视图；还设置为向第二终端发送三维视频数据；处理器402，设置为将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合；根据融合后的第二左视图和融合后的第二右视图，生成对应的三维视频数据。

可选地，处理器402，还设置为按照预设规则，从第一左视图中提取第一图像，并从第一右视图中提取第二图像。

可选地，处理器402，还设置为利用预先存储的目标物体模型，对第一左视图进行目标识别提取出第一图像，并对第一右视图进行目标识别提取出第二图像。

可选地，处理器402，还设置为利用预先存储的背景模型，过滤第一左视图中的背景数据获得第一图像，并过滤第一右视图中的背景数据获得第二图像。

本实施例还提供了一种计算机可读存储介质，可以是配置于上述实施例的服务器，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一任一实施例所述的视频数据处理方法。

可选的，本实施例所述服务器还包括存储器403，所述存储器403用于存储上述如背景模型以及目标物体模型等数据以及逻辑指令。处理器402可以调用存储器403中的逻辑指令，以执行上述实施例的视频数据处理方法。

上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读取存储介质中。所述存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上服务器实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于服务器实施例中未披露的技术细节，请参照方法实施例的描述而理解，为节约篇幅，因此不再赘述。

实施例五

本实施例提供一种终端。图5为实施例五中的终端的结构示意图，参见图5所示，该终端50包括：接收器501、立体摄像头502、处理器503以及显示器504；其中，接收器501，设置为接收来自对端的视频数据，其中，对端的视频数据中至少包括对端对应的目标物体的第一左视图和第一右视图；立体摄像头502，设置为同步采集当前所处现实场景的第二左视图和第二右视图；处理器503，设置为将第一左视图中目标物体的第一图像与第二左视图融合，并将第一右视图中目标物体的第二图像与第二右视图融合；根据融合后的第二左视图和融合后的第二右视图，生成对应的三维视频数据；显示器504，设置为显示三维视频数据。

可选地，处理器503，还设置为按照预设规则，从第一左视图中提取第一图像，并从第一右视图中提取第二图像。

可选地，处理器503，还设置为利用预先存储的目标物体模型，对第一左视图进行目标识别提取出第一图像，并对第一右视图进行目标识别提取出第二图像。

可选地，处理器503，还设置为利用预先存储的背景模型，过滤第一左视图中的背景数据获得第一图像，并过滤第一右视图中的背景数据获得第二图像。

本实施例还提供了一种计算机可读存储介质，可以是配置于上述实施例的终端中，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一任一实施例所述的视频数据处理方法。

可选的，所述终端还包括存储器505，所述存储器505用于存储上述如背景模型以及目标物体模型等数据以及逻辑指令。处理器503可以调用存储器505中的逻辑指令，以执行上述实施例的视频数据处理方法。

以上终端实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于终端实施例中未披露的技术细节，请参照方法实施例的描述而理解，为节约篇幅，因此不再赘述。

本领域内的技术人员应明白，本实施例可提供为方法、系统或计算机程序产品。因此，本实施例可采用硬件实施例、软件实施例或结合软件和硬件方面的实施例的形式。而且，本实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本实施例是参照根据本实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

工业实用性

本公开提供的视频数据处理方法、装置及设备能够将第一终端目标物体的图像数据融入第二终端当前的现实场景的图像数据中，增强第二终端视频通话过程中的现实信息，给第二终端的用户提供增强现实的三维视频通话，让用户从感官上感受到目标物体就在当前自己所处的现实环境中，进而，提高了用户体验。

Claims

一种视频数据处理方法，包括：

在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；

将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；以及

根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。
根据权利要求1所述的方法，其中，在所述将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合之前，还包括：

按照预设规则，从所述第一左视图中提取所述第一图像，并从所述第一右视图中提取所述第二图像。
根据权利要求2所述的方法，其中，所述按照预设规则，从所述第一左视图中提取所述第一图像，并从所述第一右视图中提取所述第二图像，包括：

利用预先存储的目标物体模型，对所述第一左视图进行目标识别提取出所述第一图像，并对所述第一右视图进行目标识别提取出所述第二图像。
根据权利要求2所述的方法，其中，所述按照预设规则，从所述第一左视图中提取所述第一图像，并从所述第一右视图中提取所述第二图像，包括：

利用预先存储的背景模型，过滤所述第一左视图中的背景数据获得所述第一图像，并过滤所述第一右视图中的背景数据获得所述第二图像。
根据权利要求1-4任一项所述的方法，其中，所述在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，包括：

接收来自所述第一终端的所述第一视频数据，并接收来自所述第二终端的所述第二视频数据；

在所述生成三维视频数据之后，所述方法还包括：

向所述第二终端发送所述三维视频数据。
根据权利要求1-4任一项所述的方法，其中，所述在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，包括：

接收来自所述第一终端的所述第一视频数据，并同步采集所述第二终端当前所处现实场景的所述第二视频数据；

在所述生成三维视频数据之后，所述方法还包括：

显示所述三维视频数据。
一种视频数据处理装置，包括：获得模块、融合模块以及生成模块，其中，

所述获得模块，设置为在第一终端与第二终端进行视频通话过程中，获得第一视频数据和第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；

所述融合模块，设置为将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；

所述生成模块，设置为根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。
根据权利要求7所述的装置，还包括：提取模块，设置为按照预设规则，从所述第一左视图中提取所述第一图像，并从所述第一右视图中提取所述第二图像。
根据权利要求8所述的装置，其中，所述提取模块是设置为利用预先存储的目标物体模型，对所述第一左视图进行目标识别提取出所述第一图像，并对所述第一右视图进行目标识别提取出所述第二图像。
根据权利要求8所述的装置，其中，所述提取模块是设置为利用预先存储的背景模型，过滤所述第一左视图中的背景数据获得所述第一图像，并过滤所述第一右视图中的背景数据获得所述第二图像。
一种服务器，包括：收发器以及处理器，其中，

所述收发器，设置为接收来自第一终端的第一视频数据，并接收来自第二终端的第二视频数据，其中，所述第一视频数据中至少包括所述第一终端对应的目标物体的第一左视图和第一右视图，所述第二视频数据中至少包括所述第二终端当前所处现实场景的第二左视图和第二右视图；所述收发器还设置为向所述第二终端发送三维视频数据；

所述处理器，设置为将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；以及根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据。
一种终端，包括：接收器、立体摄像头、处理器以及显示器，其中，

所述接收器，设置为接收来自对端的视频数据，其中，所述对端的视频数据中至少包括所述对端对应的目标物体的第一左视图和第一右视图；

所述立体摄像头，设置为同步采集当前所处现实场景的所述第二左视图和所述第二右视图；

所述处理器，设置为将所述第一左视图中所述目标物体的第一图像与所述第二左视图融合，并将所述第一右视图中所述目标物体的第二图像与所述第二右视图融合；根据融合后的第二左视图和融合后的第二右视图，生成三维视频数据；

所述显示器，设置为显示所述三维视频数据。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-6任一项所述的方法。