WO2024061295A1

WO2024061295A1 - 视频数据的处理方法和系统

Info

Publication number: WO2024061295A1
Application number: PCT/CN2023/120228
Authority: WO
Inventors: 陈科; 孙洪军; 朱祥
Original assignee: 上海微创医疗机器人（集团）股份有限公司
Priority date: 2022-09-23
Filing date: 2023-09-21
Publication date: 2024-03-28
Also published as: CN115567661A; CN115567661B

Abstract

本申请涉及一种视频数据的处理方法、系统、计算机设备和存储介质，所述方法包括：获取至少两个不同视频源的多路视频数据；将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息；对拼接视频数据进行编码处理，得到多个编码帧；对多个编码帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。不同视频源在同一时刻的视频帧拼接为一个拼接视频帧，使得不同视频源在同一时刻的视频帧能够在相同时间发送，实现不同视频源同一时间的视频帧发送时间的绝对一致，进而实现不同视频源同一时间的视频帧的同步传输。

Description

视频数据的处理方法和系统

本申请要求于2022年9月23日提交中国专利局，申请号为2022111616647，申请名称为“视频数据的处理方法、系统、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像数据远距离同步传输技术领域，特别是涉及一种视频数据的处理方法、系统、计算机设备和存储介质。

背景技术

目前，多通道视频源广泛应用在医疗、影视、导航等领域。多通道视频源的图像发送时通常面临多通道视频源的同步播放的问题。

目前对于多通道视频源的同步播放方式主要是缓存同步，通过提取数据流中的时间标记以及在视频帧加入关键帧信息以及时间戳等头信息进行同步控制。但该方式仍会造成多通道视频源的视频帧不同步，而对产品使用造成影响。以多通道视频源应用在医疗领域的医疗腹腔镜机器人为例，现有医疗腹腔镜机器人三维图像远程传输中，若多视频源不能做到同步，则会出现拖影现象，造成三维图像不清晰，且观看者甚至会出现晕眩的可能。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现不同视频源同一时间的视频帧的同步传输的视频数据的处理方法、系统、设备和存储介质。

本申请提供了一种视频数据的处理方法，所述方法包括：

获取至少两个不同视频源的多路视频数据；

将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息；

对拼接视频数据进行编码处理，得到多个编码帧；

对多个编码帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。

本申请还提供了一种视频数据的处理系统，所述系统包括：

第一获取模块，用于获取至少两个不同视频源的多路视频数据；

帧拼接模块，用于将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息；

编码模块，用于对拼接视频数据进行编码处理，得到多个编码帧；

封装模块，用于对多个编码帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。

上述视频数据的处理方法和系统，获取至少两个不同视频源的多路视频数据，根据不同视频源在同一时刻的视频帧拼接为一帧拼接视频帧，进行编码和封装后发送至目标解码端，由于不同视频源在同一时刻的视频帧拼接为一个拼接视频帧，使得不同视频源在同一时刻的视频帧能够在相同时间发送，实现不同视频源在同一时间的视频帧发送时间的绝对一致，进而实现不同视频源同一时间的视频帧的同步传输。

附图说明

图1为一个实施例中视频数据的处理方法的应用环境图；

图2为一个实施例中视频数据的处理方法的流程示意图；

图3为一个实施例中基于中转服务器、编码端和解码端构建的多路分发网络连接图；

图4为另一个实施例中不同视频源在同一时刻的视频帧拼接为一帧拼接视频帧的流程示意图；

图5为一个实施例中数据封装发送示意图；

图6为一个实施例中实现帧拼接和帧拆分的硬件组合系统的结构图；

图7为一个实施例中编码端的普通帧处理流程图；

图8为一个实施例中编码端的关键帧处理流程图；

图9为一个实施例中编码端的关键帧处理实施例；

图10为一个实施例中编码端的视频流发送流程图；

图11为一个实施例中解码端的视频流接收流程图；

图12为一个实施例中解码端的帧还原示意图；

图13为一个实施例中解码端的帧拆分功能原理图；

图14为一个实施例中解码端的视频流接收流程图；

图15为一个实施例中本地多路分发网络连接图；

图16为一个实施例中中转服务器的视频流转发流程图；

图17为一个实施例中中转服务器的中转流程图；

图18为一个实施例中编码端和解码端的配对设置流程图；

图19为一个实施例中中转服务器的分发原理图；

图20为一个实施例中编码端和解码端的通信流程图；

图21为一个实施例中视频数据的处理系统的结构框图；

图22为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的视频数据的处理方法，可以应用于如图1所示的应用环境中。其中，编码端102获取至少两个不同视频源的多路视频数据；将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到多个拼接视频数据，每个拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息；对拼接视频数据进行编码处理，得到多个编码帧；对多个编码帧进行封装处理，得到待传输的视频流，将视频流传输至中转服务器104或目标解码端。

解码端106接收编码端102发送的视频流，或接收中转服务器104转发的视频流，解码端106对视频流进行解封装处理，得到多个编码帧；对编码帧进行解码处理，得到拼接视频数据；拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息；根据各拼接视频帧的拼接信息，将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧；对不同视频源在同一时刻的视频帧进行渲染后展示。

当编码端102与解码端106部署在不同的局域网内，编码端102通过中转服务器104与解码端106建立连接；当编码端102与解码端106部署在同一局域网内，编码端102通过局域网直接与解码端106建立连接。数据存储系统可以存储中转服务器104需要处理的数据。数据存储系统可以集成在中转服务器104上，也可以放在云上或其他网络服务器上。其中，编码端102和解码端106可以是计算机设备的处理器，计算机设备不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为腹腔镜机器人等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。中转服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频数据的处理方法，以该方法应用于图1中的编码端102为例进行说明，包括以下步骤：

S202，获取至少两个不同视频源的多路视频数据。

其中，获取目标业务场景下至少两个不同视频源的多路视频数据。以目标业务场景为腹腔镜机器人为例，视频源可以是腹腔镜机器人的左眼视频源和右眼视频源，左眼视频源和右眼视频源均输出双路视频数据，每路视频数据均包括视频帧以及视频帧的时间戳。

该业务场景下的系统架构如图3所示，基于中转服务器、编码端和解码端构建多路分发网络连接图，设备B3、B6、B7和B9可以根据实际场景可切换为编码端或者解码端；B1和B4均为腹腔镜机器人；B2、B5、B8和B10均为本地监视器，以本地操作室A为例，本地操作室A的腹腔镜机器人B1通过光纤b1将双路内窥镜图像传输至编码端B3，编码端B3对双路视频数据进行帧合并编码压缩后通过高速网络b5发送至中转服务器或目标解码端，同时，编码端B3对双路内窥镜图像进行环出并通过光纤b2传输至本地监视器B2上。

S204，将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

其中，为实现编码端的相同时刻的两个视频源的发送时间绝对一致，编码端将不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，拼接后再进行编码和压缩处理，得到待传输的视频流，最后将待传输的视频流传输至目标解码端。其中，可以采用帧图像拼接算法或全局迭代就近法等算法将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，拼接方向是可以水平拼接，也可以是垂直拼接，在此不限定拼接算法和拼接方向。

本实施例的编码端对多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到多个拼接视频数据。其中，拼接视频帧的拼接信息是用于标识拼接视频数据中拼接前每张视频帧的像素点的范围。例如，不同视频源在同一时刻的视频帧分别记为第一视频帧和第二视频帧，拼接视频帧的拼接信息标识第一视频帧的原始像素点坐标和范围，以及第二视频帧的原始像素点坐标和范围。

例如，如图4所述，腹腔镜机器人的左眼视频源的双路视频数据记为内窥镜图像-L，右眼视频源的双路视频数据记为内窥镜图像-R，内窥镜图像-L和内窥镜图像-R的分辨率均为1920*1080P，在视频帧拼接的过程中，将腹腔镜机器人的左眼视频源和右眼视频源相同时刻的视频帧拼接为一帧拼接视频帧，拼接视频帧的分辨率为3840*1080P，拼接方向水平，拼接视频帧的拼接信息标识水平方向第1个像素点至第1920个像素点，以及垂直方向1080个像素点的范围为左眼视频源的双路视频数据的像素点范围；水平方向第1921个像素点至第3840个像素点，以及垂直方向1080个像素点的范围为右眼视频源的双路视频数据的像素点范围。

具体地，编码端对多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，为每帧拼接视频帧配置用于标识拼接视频帧的拼接信息，得到多个拼接视频数据。

S206，对拼接视频数据进行编码处理，得到多个编码帧。

其中，编码的基本原理是将视频数据按照一定规则使用某种形式的码流表示与传输。对拼接视频数据进行编码的最主要目的是数据压缩，以解决存储空间和传输带宽完全无法满足保存和传输的需求的问题。编码可以采用H.261、H.262、H.263或H.264编码，本实施例采用H.264编码。

S208，对多个编码帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。

其中，封装的作用在于保护或者防止编码帧被破坏或修改。最常用的封装协议有PPP/HDLC、LAPS、GFP。本实施例采用UDP协议传输视频流，如图5所示，除了DUP报文头，还会在UDP数据部分加入4个字节的数据长度、2个字节的帧编号和H.264帧数据进行封装后发送。

具体地，编码端在每个编码帧的数据包中加入DUP报文头，在UDP数据部分加入4个字节的数据长度、2个字节的帧编号和H.264帧数据进行封装后发送至目标解码端。

上述视频数据的处理方法中，获取将至少两个不同视频源的多路视频数据，根据不同视频源在同一时刻的视频帧拼接为一帧拼接视频帧，进而进行解码和封装后发送至目标解码端，由于不同视频源在同一时刻的视频帧拼接为一个拼接视频帧，使得不同视频源在同一时刻的视频帧能够在相同时间发送，实现不同视频源同一时间的视频帧发送时间的绝对一致，进而实现不同视频源同一时间的视频帧的同步传输。

在一个实施例中，目前对于图像帧拼接的方法一般是采用矩阵拼接器进行帧拼接，但是性能优异的矩阵拼接器基本也有着30ms左右的图像延时，若编码端和解码端都使用矩阵拼接器对图像进行帧拼接和帧拆分，则图像延时就增加了60ms左右。也就是说采用矩阵拼接器也无法实现编码端的发送时间绝对一致。因此，为解决上述问题，本实施例的编码端采用硬件组合的系统实现帧拼接和帧拆分。硬件组合的系统结构如图6所示，包括HDMI解码端、HDMI编码端、CPU芯片和FPGA处理模块，腹腔镜机器人的左眼视频源和右眼视频源的双路视频数据分别经过两路HDMI解码端进行解码处理，解码后再经过FPGA处理模块进行硬件加速处理后，再经过两路HDMI编码端进行编码处理，得到无损拼接的拼接视频帧。

本实施例使用FPGA硬件系统对两个不同视频源的多路视频数据进行无损拼接，得到拼接视频数据，相比传统的图像拼接器延迟高的特征，本实施例采用使用FPGA硬件系统完成拼接的方法具有效率高和延迟低的特点。

在一个实施例中，三维图像数据在远程同步传输中容易出现的丢帧现象，若一路视频源出现丢帧，则影响整体的三维图像视觉效果。因此，为解决上述问题，编码端在对多个编码帧进行封装处理的步骤前，判断当前的编码帧是否为关键帧，当当前的编码帧为关键帧时，复制关键帧。

当当前的编码帧不是关键帧时，判定当前的编码帧为普通帧，在普通帧的数据包中标识普通帧信息。普通帧信息用于标识当前的编码帧为普通帧，普通帧信息可以是常量帧编号或者特定字符，例如常量帧编号可以是000000000。

如图7所示，编码端对普通帧进行封装处理，在封装处理过程中，采用UDP协议，在UDP数据部分加入4个字节的数据长度、2个字节的帧编号和H264帧数据进行封装后发送，其中普通帧的UDP数据部分中2个字节的帧编号为常量帧编号000000000。本实施例中，在普通帧的UDP数据部分加入2个字节常量帧编号的目的，在于解码端对普通帧进行解封装处理后，去掉UDP报文头和数据长度后得到2个字节常量帧编号，根据2个字节常量帧编号判断当前封装数据包的编码帧是否为普通帧。

其中，关键帧是指角色或者物体运动变化中关键动作所对应帧，记为I帧。普通帧包括前向预测帧和双向内插帧，前向预测帧记为P帧，双向内插帧记为B帧。I帧是一个完整的画面，而P帧和B帧记录的是相对于I帧的变化，如果没有I帧，P帧和B帧就无法解码。

本实施例，通过对关键帧进行复制，一方面，可以提高视频帧传输率，有效降低三维图像数据在远程传输过程中视频帧的丢帧率，避免关键帧丢失影响三维图像的视觉效果的问题，另一方面，相较于对所有视频帧进行复制的方案，本实施例仅对关键帧进行复制，可以有效降低网络传输所需的带宽资源。

在一个实施例中，如图8所示，当编码帧为关键帧时，复制所述关键帧，包括以下步骤：

S802，当编码帧为关键帧时，至少复制一帧关键帧。

其中，关键帧复制的数量越多，视频帧的丢帧率就越低，对应地，所需的网络带宽越大。因此，为了保证网络带宽与视频帧的丢帧率之间的平衡，如图9所示，本实施例中关键帧复制2帧或者3帧，从而保证网络带宽与视频帧的丢帧率之间的平衡。

本实施例以复制3帧关键帧为例，将网络丢包率记为X，则通过复制关键帧可实现视频源的丢包率可以从X降低到X³，若X＝10％，则可将视频源的关键帧丢包率降低到0.1％，若X＝5％，则可将视频源的关键帧丢包率降低到0.0125％。在保证网络状况良好的情况下X一般小于1％，显然，本实施例可以极大的降低视频源的关键帧丢包率。

具体地，编码端得到多个编码帧后，判断当前的编码帧是否为关键帧，当当前的编码帧为关键帧时，复制2帧或者3帧关键帧。

S804，在各关键帧的数据包中标识关键帧信息，其中，相同关键帧的关键帧信息相同。

其中，关键帧信息用于标识当前的编码帧为关键帧，关键帧信息可以是帧编号或者特定字符，例如关键帧信息可以是帧编号000000001。

对复制后的关键帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。目标解码端对视频流进行解封装处理，得到编码帧，解码端对编码帧进行解码处理，但是由于关键帧复制了2帧或者3帧，因此在解码过程中，需要对相同的关键帧进行多次解码，降低了解码端的解码效率，增大了解码端播放的视频与编码端的视频源之间的帧数差，导致解码端播放的视频效果低于编码端的视频质量。因此，为解决上述问题，如图9所示，本实施例的编码端在各关键帧的数据包中标识关键帧信息，其中，相同关键帧的关键帧信息相同。解码端根据关键帧信息判断当前的编码帧是否为关键帧，编码端在关键帧的数据包中标识关键帧信息，便于解码端识别当前的编码帧是否为关键帧，提高编码端的关键帧识别效率；编码端设置相同关键帧的关键帧信息相同，便于解码端根据关键帧信息判断当前的编码帧是否已解码，当当前的关键帧的关键帧信息与已解码的关键帧重复时，丢弃编码帧。

具体地，编码端复制2帧或者3帧关键帧后，将复制的关键帧一起进行封装处理，在封装处理过程中，在每个复制的关键帧的数据包中加入相同的关键帧信息，并按照UDP协议进行数据封装和发送。

本实施例中，通过在编码端复制2帧或者3帧关键帧，从而保证网络带宽与视频帧的丢帧率之间的平衡；在各关键帧的数据包中标识关键帧信息，便于解码端识别当前的编码帧是否为关键帧，提高编码端的关键帧识别效率；编码端设置相同关键帧的关键帧信息相同，便于解码端根据关键帧信息判断当前的编码帧是否已解码，当当前的关键帧的关键帧信息与已解码的关键帧重复时，丢弃编码帧，采用帧丢弃的方法，一方面，可以降低远程播放的视频与源视频之间的帧数差；另一方面，可以过滤多余的复制关键帧，以实现播放效果最大程度接近或等同于源视频的质量。

在一个实施例中，如图10所示，提供了一种视频数据的处理方法，以该方法应用于图1中的编码端102为例进行说明，包括以下步骤：

S1002，获取至少两个不同视频源的多路视频数据。

S1004，将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

S1006，对拼接视频数据进行编码处理，得到多个编码帧。

S1008，判断当前的编码帧是否为关键帧，当当前的编码帧不是关键帧时，执行S1010；当当前的编码帧是关键帧时，执行S1012。

S1010，判定当前的编码帧为普通帧，在普通帧的数据包中标识普通帧信息，执行S1016。

S1012，至少复制一帧关键帧。

S1014，在各关键帧的数据包中标识关键帧信息，其中，相同关键帧的关键帧信息相同。

S1016，对编码帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。

S1018，判断多路视频数据是否全部封装，当多路视频数据全部封装时，结束流程；当多路视频数据没有全部封装时，执行S1002。

本实施例中，不同视频源在同一时刻的视频帧拼接为一个拼接视频帧，使得不同视频源在同一时刻的视频帧能够在相同时间发送，实现不同视频源同一时刻的视频帧发送时间的绝对一致，进而实现不同视频源同一时间的视频帧的同步传输；通过对关键帧进行复制，一方面，可以提高视频帧传输率，有效降低三维图像数据在远程传输过程中视频帧的丢帧率，避免关键帧丢失影响三维图像的视觉效果的问题，另一方面，相较于对所有视频帧进行复制的方案，本实施例仅对关键帧进行复制，可以有效降低网络传输所需的带宽资源。

在一个实施例中，如图11所示，提供了一种视频数据的处理方法，以该方法应用于图1中的解码端106为例进行说明，包括以下步骤：

S1102，接收编码端发送的视频流。

其中，当编码端与解码端部署在不同的局域网内，解码端通过中转服务器获取编码端发送的视频流；当编码端与解码端部署在同一局域网内，解码端通过局域网直接获取编码端发送的视频流。

S1104，对视频流进行解封装处理，得到多个编码帧。

其中，解封装是封装的逆过程，主要实现数据从比特流还原为数据的过程。本实施例中，封装的协议采用UDP协议，对应的解封装的过程如图12所示，首先去掉UDP报文头，得到如图12a所示的数据结构，再去掉数据长度，得到如图12b的数据结构，最后去掉帧标号，得到如图12c的数据结构，经上述解封装处理后，得到解码端对应的编码帧。

具体地，如图12所示，解码端接收到编码端发送的视频流后，去掉UDP报文头，再去掉数据长度，最后去掉帧标号，得到解码端对应的编码帧，判断编码端发送的视频流是否全部解封装，若视频流全部解封装，则结束解封装的操作；若视频流还未完全解封装，则重复解封装的过程。

S1106，对编码帧进行解码处理，得到拼接视频数据；拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

其中，解码是将编码帧还原为拼接视频数据，与编码过程相对应。解码算法可以采用快速傅里叶变换算法、离散傅里叶变换算法、频域滤波算法，在此不限定解码的算法。由于编码是将拼接视频数据处理为编码帧，因此，对应的，解码是将编码帧还原为拼接视频数据。

S1108，根据各拼接视频帧的拼接信息，将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。

其中，由上述实施例可知拼接视频帧的拼接信息用于标识拼接视频数据中属于拼接前每张视频帧的像素点的范围。因此，在帧拆分的过程中，按照拼接信息标识的视频帧的像素点的范围将拼接视频帧拆分为原始的两个相同时刻的视频帧。可以采用帧间差分法将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。

例如，如图13所示，以视频源为内窥镜的视频源为例，编码端的拼接视频帧为分辨率为3840*1920P的图像数据，解码端获取到包括3840*1920P的图像数据的视频流后，解码端对视频流进行解封装和解码处理后，得到拼接视频数据，根据拼接视频帧的拼接信息，将分辨率为3840*1920P的图像数据按照水平方向第1个像素点至第1920个像素点，以及垂直方向1080个像素点的范围拆分，得到1920*1080P的左眼视频源的双路视频数据，按照水平方向第1921个像素点至第3840个像素点，以及垂直方向1080个像素点的范围拆分，得到1920*1080P的右眼视频源的双路视频数据，并将两张1920*1080P的双路视频数据输出至本地监视器中。

S1110，对不同视频源在同一时刻的视频帧进行渲染后展示。

其中，视频源的多路视频数据中的不同视频源在同一时刻的视频帧为二维图像，拼接后的拼接视频帧也是二维图像，在解码端通过解封装、解码和帧拆分后，获得了不同视频源在同一时刻的视频帧，为了展示三维效果，在解码端对不同视频源在同一时刻的视频帧处理为三维图像并进行渲染处理，得到同一时刻的三维图像。

本实施例中，通过接收编码端发送的视频流，对视频流进行解封装和解码后，由于在编码端将不同视频源在同一时刻的视频帧拼接为一个拼接视频帧，因此，解码端对视频流进行解封装和解码后，得到拼接视频数据，利用帧拆分技术将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧，使得不同视频源在同一时刻的视频帧能够在相同时间被解码端接收，实现不同视频源同一时间的视频帧接收时间的绝对一致，进而实现不同视频源同一时间的视频帧的同步传输。

可以理解的是，对于不用的目标业务场景，对不同视频源在同一时刻的视频帧进行渲染的方式不同，以应用于腹腔镜机器人为例，两个视频源分别为腹腔镜机器人的左眼视频源和右眼视频源为例，左眼视频源和右眼视频源均输出双路视频数据，对不同视频源在同一时刻的视频帧进行渲染后展示的步骤包括以下步骤：

S1，将腹腔镜机器人的至少两个视频源在同一时刻的视频帧处理为三维图像。

其中，左眼视频源和右眼视频源输出的双路视频数据为二维图像数据，左眼视频源和右眼视频源输出的双路视频数据经过拼接后也是二维图像，为了展示三维效果，在编码端将腹腔镜机器人的至少两个视频源在同一时刻的视频帧处理为三维图像。可以采用3D结构生成器将至少两个视频源在同一时刻的视频帧处理为三维图像。

S2，渲染并展示三维图像。

其中，渲染的目的是使三维图像符合3D场景。

本实施例中，通过将腹腔镜机器人的至少两个视频源在同一时刻的视频帧处理为三维图像，渲染并展示三维图像，可以保证解码端对拼接视频帧进行解封装、解码和帧拆分处理后，可以恢复出原始的三维图像，保证三维图像的无损同步传输和展示。

在一个实施例中，如图14所示，提供一种视频数据控制方法，应用在解码端，由于在编码端复制了2帧或者3帧关键帧，因此解码端在解码过程中，需要对相同的关键帧进行多次解码，降低了解码端的解码效率，增大了解码端播放的视频与编码端的视频源之间的帧数差，导致解码端播放的视频效果低于编码端的视频质量。因此，为了解决上述问题，具体包括以下步骤：

S1402，接收编码端发送的视频流。

S1404，对视频流进行解封装处理，得到多个编码帧。

S1406，根据编码帧的关键帧信息判断当前的编码帧是否是关键帧，当当前的编码帧不是关键帧时，执行S1412；当当前的编码帧是关键帧时，执行S1408。

S1408，判断当前的编码帧的关键帧信息是否与已解码的关键帧重复；当编码帧为关键帧，且与已解码的关键帧重复时，执行S1410；当编码帧为关键帧，且不与已解码的关键帧重复时，执行S1412。

S1410，丢弃关键帧，执行S1418。

S1412，对编码帧进行解码处理，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

S1414，根据各拼接视频帧的拼接信息，将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧；

S1416，对不同视频源在同一时刻的视频帧进行渲染后展示。

S1418，判断视频流的编码帧是否全部解码，当视频流的编码帧全部解码时，结束流程；当视频流的编码帧未完全解码时，执行S1402。

本实施例中，在解码端根据关键帧信息判断当前的编码帧是否是关键帧，以及根据关键帧信息判断当前的编码帧的关键帧信息是否与已解码的关键帧重复，若编码帧为关键帧，且与已解码的关键帧重复，则丢弃编码帧，可提高解码端的解码效率；采用帧丢弃的方法，一方面，可以降低远程播放的视频与源视频之间的帧数差；另一方面，可以过滤多余的复制关键帧，以实现播放效果最大程度接近或等同于源视频的质量。

对于传输方式，可以采用中转服务器的方式，由中转服务器进行转发，也可以采用编码端和解码端直连的方式。

在一个实施例中，编码端与解码端存在无法联网的情况，在这种情况下，可以构建局域网使编码端和解码端直连，此时，接收编码端发送的视频流的步骤包括以下步骤：

S1，接收至少一个编码端的广播消息，广播消息携带有编码端的IP地址。

具体地，如图15所示，本地操作室内的编码端和解码端部署在同一个本地局域网，设备C3、C4和C6可以根据实际场景可切换为编码端或者解码端；C1为腹腔镜机器人；C2、C5和C7均为本地监视器。腹腔镜机器人C1通过光纤c1将双路内窥镜图像传输至编码端C3，编码端C3对双路视频数据进行帧合并编码压缩后通过高速网络c3发送至目标解码端，同时，编码端C3对双路内窥镜图像进行环出并通过光纤c2传输至本地监视器C2上。

具体地，编码端将拼接视频数据进行编码和封装后，通过广播发送的方式将编码端的IP地址发送给同一局域网的多个编码端，解码端接收编码端的广播消息，根据广播消息里的编码端的IP地址确定是否可以接收该IP地址对应的编码端发送的广播消息。

S2，当编码端的IP地址与解码端的IP地址匹配时，接收编码端发送的视频流。

具体地，在解码端上设置配对的编码端的IP地址，解码端接收到编码端发送的广播消息后，将编码端的IP地址与解码端的IP地址进行比对，若解码端上设置的编码端的IP地址与接收的编码端的IP地址相同，则认为编码端与解码端在同一个局域网，此时，解码端向编码端发送应答响应，编码端接收到应答响应后，将视频流发送给匹配的解码端，解码端接收编码端发送的视频流；若解码端上设置的编码端的IP地址与接收的编码端的IP地址不相同，则认为编码端与解码端不在同一个局域网，此时，解码端不响应编码端的广播消息。

本实施例中，将编码端和解码端设置在同一局域网，编码端发送广播消息，广播消息携带有编码端的IP地址，若编码端的IP地址与解码端的IP地址匹配，则解码端接收编码端发送的视频流，采用上述方式可以在编码端或解码端无法联网时将编码端的视频流传输给解码端。

在其中一个实施例中，提供了一种视频数据控制方法，应用于中转服务器，如图16所示，所述方法包括：

S1602，获取编码端发送的视频流和编码端的设备编码，视频流包括对至少两个不同视频源在同一时刻的视频帧拼接得到的拼接视频帧。

其中，如图3所示，基于中转服务器、编码端和解码端构建的多路分发网络连接图，设备B3、B6、B7和B9可以根据实际场景可切换为编码端或者解码端，设备B3通过b5网络连接至中转服务器，设备B6通过b10网络连接至中转服务器，设备B7通过b6网络连接至中转服务器，设备B9通过b7网络连接至中转服务器，进行数据推送或数据拉取。

其中，视频流为编码端将多路视频数据中不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，对拼接视频数据进行编码和封装处理得到的视频流。

具体地，如图17所示，中转服务器实时监听编码端及解码端的端口，当监听到编码端上线后，中转服务器接收编码端发送的视频流和编码端的设备编码。

S1604，为编码端的设备编码创建虚拟房间。

其中，创建虚拟房间的目的在于保证解码端之间不会错误接收到非对应编码端发送的视频流，中转服务器根据每个编码端的设备编码创建一个虚拟房间。虚拟房间可以是中转服务器的存储单元。

S1606，当接收到解码端的数据获取请求时，获取数据获取请求携带的目标设备编码。

其中，如图17所示，当中转服务器监听到编码端和解码端均上线后，中转服务器接收编码端发送的视频流和编码端的设备编码，并根据数据获取请求将视频流转发给解码端。

具体地，当中转服务器监听到编码端和解码端均上线后，中转服务器接收编码端发送的视频流和编码端的设备编码，并接收解码端的数据获取请求，获取数据获取请求携带的目标设备编码。

S1608，当存在与目标设备编码对应的虚拟房间时，向解码端发送视频流，由解码端将拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。

其中，编码端与解码端之间存在配对关系，一个编码端可以对应多个解码端。如图18所示，为编码端和解码端的配对设置流程图，编码端和解码端与中转服务器建立连接后，中转服务器分别采集编码端和解码端的上线信息，并对编码端和解码端进行配对设置，设置一个编码端对应多个解码端的一对多关系，按照一对多关系进行绑定，一次绑定后，后续无需再次绑定，编码端和解码端上线后，可自动完成配对。

具体地，如图19所示，当一个或多个解码端想要获取匹配的编码端发送的视频流时，解码端向中转服务器发送数据获取请求，中转服务器获取数据获取请求携带的目标设备编码，将目标设备编码与创建的虚拟房间进行匹配，若存在与目标设备编码对应的虚拟房间，则向解码端发送该虚拟房间对应的视频流，由解码端将拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。

本实施例中，中转服务器获取编码端发送的视频流和编码端的设备编码，获取解码端的数据获取请求中携带的目标设备编码，将目标设备编码与编码端的设备编码进行匹配，若存在与目标设备编码匹配的编码端的设备编码，则向解码端发送视频流。相比传统的编码端将视频流分别发送给解码端的方式，编码端的视频流只需发送一次，多个解码端到中转服务器进行数据拉取的方式，可以有效降低带宽。

在其中一个实施例中，提供了一种视频数据控制方法，如图20所示，具体包括以下步骤：

S2002，中转服务器监听编码端及解码端的端口。

S2004，编码端将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

S2006，编码端对拼接视频数据进行编码处理，得到多个编码帧。

S2008，判断当前的编码帧是否为关键帧，若当前的编码帧不是关键帧，则执行S2010；若当前的编码帧是关键帧，则执行S2012。

S2010，判定当前的编码帧为普通帧，在普通帧的数据包中标识普通帧信息，执行S2014。

S2012，至少复制一帧关键帧。

S2014，编码端在各关键帧的数据包中标识关键帧信息，其中，相同关键帧的关键帧信息相同。

S2016，编码端对编码帧进行封装处理，得到待传输的视频流。

S2018，中转服务器接收编码端发送的视频流和编码端的设备编码。

S2020，中转服务器为编码端的设备编码创建虚拟房间。

S2022，编码端向中转服务器发送数据获取请求，数据获取请求携带有目标设备编码。

S2024中转服务器接收解码端的数据获取请求，获取数据获取请求携带的目标设备编码。

S2026，中转服务器将目标设备编码与创建的虚拟房间进行匹配，若存在与目标设备编码对应的虚拟房间，则向解码端发送该虚拟房间对应的视频流；若不存在与目标设备编码对应的虚拟房间，则不响应数据获取请求。

S2028，解码端接收中转服务器发送的视频流。

S2030，解码端对视频流进行解封装处理，得到多个编码帧。

S2032，解码端根据编码帧的关键帧信息判断当前的编码帧是否是关键帧，若当前的编码帧不是关键帧，则执行S2038；若当前的编码帧是关键帧，则执行S2034。

S2034，解码端判断当前的编码帧的关键帧信息是否与已解码的关键帧重复；若编码帧为关键帧，且与已解码的关键帧重复，则执行S2036；若编码帧为关键帧，且不与已解码的关键帧重复，则执行S2038。

S2036，解码端丢弃关键帧，执行S2038。

S2038，解码端对编码帧进行解码处理，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

S2040，解码端根据各拼接视频帧的拼接信息，将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧；

S2042，解码端对不同视频源在同一时刻的视频帧进行渲染后展示。

本实施例，获取编码端发送的视频流和编码端的设备编码，获取解码端的数据获取请求中携带的目标设备编码，将目标设备编码与编码端的设备编码进行匹配，若存在与目标设备编码匹配的编码端的设备编码，则向解码端发送视频流。相比传统的编码端将视频流分别发送给解码端的方式，编码端的视频流只需发送一次，多个解码端到中转服务器进行数据拉取的方式，可以有效降低带宽；为每个编码端的设备编码创建虚拟房间，可以保证解码端之间不会错误接收到非对应编码端发送的视频流；将编码端和解码端设置在同一局域网，编码端发送广播消息，广播消息携带有编码端的IP地址，若编码端的IP地址与解码端的IP地址匹配，则解码端接收编码端发送的视频流，采用上述方式可以在编码端或解码端无法联网时将编码端的视频流传输给解码端。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频数据的处理方法的视频数据的处理系统。该系统所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频数据的处理系统实施例中的具体限定可以参见上文中对于视频数据的处理方法的限定，在此不再赘述。

在一个实施例中，如图21所示，提供了一种视频数据的处理系统，应用于编码端，包括：

第一获取模块111，用于获取至少两个不同视频源的多路视频数据。

帧拼接模块112，用于将多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息。

编码模块113，用于对拼接视频数据进行编码处理，得到多个编码帧。

封装模块114，用于对多个编码帧进行封装处理，得到待传输的视频流，将视频流传输至目标解码端。

在一个实施例中，封装模块114还用于在对多个编码帧进行封装处理前，当编码帧为关键帧时，复制该关键帧。

在一个实施例中，封装模块114用于当编码帧为关键帧时，至少复制一帧关键帧；以及在各关键帧的数据包中标识关键帧信息，其中，相同关键帧的关键帧信息相同。

在一个实施例中，如图21所示，目标解码端包括：

接收模块115，用于接收编码端发送的视频流；

解封装模块116，用于对视频流进行解封装处理，得到多个编码帧；

解码模块117，用于对编码帧进行解码处理，得到拼接视频数据；拼接视频数据包括拼接视频帧以及拼接视频帧的拼接信息；

帧拆分模块118，用于根据各拼接视频帧的拼接信息，将各拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧；

渲染模块119，用于对不同视频源在同一时刻的视频帧进行渲染后展示。

在一个实施例中，如图21所示，提供了一种视频数据的处理系统，所述系统还包括中转服务器，其包括：

第二获取模块120，用于获取编码端发送的视频流和编码端的设备编码；视频流包括对至少两个不同视频源在同一时刻的视频帧拼接得到的拼接视频帧。

创建模块121，用于为编码端的设备编码创建虚拟房间。

接收模块122，用于接收到解码端的数据获取请求，获取数据获取请求携带的目标设备编码。

分发模块123，用于在存在与所述目标设备编码对应的虚拟房间时，向解码端发送视频流，由解码端将拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。

上述视频数据的处理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是腹腔机器人，其内部结构图可以如图22所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频数据的处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图22中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

一种视频数据的处理方法，包括：

获取至少两个不同视频源的多路视频数据；

将所述多路视频数据中不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，所述拼接视频数据包括拼接视频帧以及所述拼接视频帧的拼接信息；

对所述拼接视频数据进行编码处理，得到多个编码帧；

对所述多个编码帧进行封装处理，得到待传输的视频流，将所述视频流传输至目标解码端。
根据权利要求1所述的方法，还包括：在所述对所述多个编码帧进行封装处理的步骤前，

当所述编码帧为关键帧时，复制所述关键帧。
根据权利要求2所述的方法，其中，当所述编码帧为关键帧时，复制所述关键帧，包括：

当所述编码帧为关键帧时，至少复制一帧所述关键帧；

在各所述关键帧的数据包中标识关键帧信息，其中，相同关键帧的所述关键帧信息相同。
根据权利要求1所述的方法，其中，所述方法还应用于解码端，包括：

接收编码端发送的视频流；

对所述视频流进行解封装处理，得到多个编码帧；

对所述编码帧进行解码处理，得到拼接视频数据；所述拼接视频数据包括拼接视频帧以及所述拼接视频帧的拼接信息；

根据各所述拼接视频帧的拼接信息，将各所述拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧；

对所述不同视频源在同一时刻的视频帧进行渲染后展示。
根据权利要求4所述的方法，还包括：在所述对所述编码帧进行解码处理，得到拼接视频数据的步骤之前，

当所述编码帧为关键帧，且与已解码的关键帧重复时，丢弃所述编码帧。
根据权利要求4所述的方法，还包括：在所述对所述编码帧进行解码，得到拼接视频数据的步骤之前，

当所述编码帧为关键帧，且不与已解码的关键帧重复时，执行所述对所述编码帧进行解码处理，得到拼接视频数据。
根据权利要求4所述的方法，其中，所述至少两个视频源为手术系统的至少两个视频源；

所述对所述不同视频源在同一时刻的视频帧进行渲染后展示，包括：

将所述手术系统的至少两个视频源在同一时刻的视频帧处理为三维图像；

渲染并展示所述三维图像。
根据权利要求4所述的方法，其中，所述接收编码端发送的视频流，包括：

接收至少一个编码端的广播消息，所述广播消息携带有所述编码端的IP地址；

当所述编码端的IP地址与解码端的IP地址匹配时，接收所述编码端发送的视频流。
根据权利要求1所述的方法，其中，所述方法还应用于中转服务器，包括：

获取编码端发送的视频流和所述编码端的设备编码；所述视频流包括对至少两个不同视频源在同一时刻的视频帧拼接得到的拼接视频帧；

为所述编码端的设备编码创建虚拟房间；

当接收到解码端的数据获取请求时，获取所述数据获取请求携带的目标设备编码；

当存在与所述目标设备编码对应的虚拟房间时，向所述解码端发送所述视频流，由所述解码端将所述拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。
一种视频数据的处理系统，包括：

第一获取模块，用于获取至少两个不同视频源的多路视频数据；

帧拼接模块，用于将所述多路视频数据中的不同视频源在同一时刻的视频帧，拼接为一帧拼接视频帧，得到拼接视频数据，所述拼接视频数据包括拼接视频帧以及所述拼接视频帧的拼接信息；

编码模块，用于对所述拼接视频数据进行编码处理，得到多个编码帧；

封装模块，用于对所述多个编码帧进行封装处理，得到待传输的视频流，将所述视频流传输至目标解码端。
根据权利要求10所述的系统，其中，所述目标解码端包括：

接收模块，用于接收编码端发送的视频流；

解封装模块，用于对所述视频流进行解封装处理，得到多个编码帧；

解码模块，用于对所述编码帧进行解码处理，得到拼接视频数据；所述拼接视频数据包括拼接视频帧以及所述拼接视频帧的拼接信息；

帧拆分模块，用于根据各所述拼接视频帧的拼接信息，将各所述拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧；

渲染模块，用于对所述不同视频源在同一时刻的视频帧进行渲染后展示。
根据权利要求10所述的系统，还包括中转服务器，所述中转服务器包括：

第二获取模块，用于获取编码端发送的视频流和所述编码端的设备编码；所述视频流包括对至少两个不同视频源在同一时刻的视频帧拼接得到的拼接视频帧；

创建模块，用于为所述编码端的设备编码创建虚拟房间；

接收模块，用于接收到解码端的数据获取请求，获取所述数据获取请求携带的目标设备编码；

分发模块，用于在存在与所述目标设备编码对应的虚拟房间时，向所述解码端发送所述视频流，由所述解码端将所述拼接视频帧拆分得到至少两个不同视频源在同一时刻的视频帧。
根据权利要求10所述的系统，其中，所述封装模块还用于在所述对所述多个编码帧进行封装处理前，当所述编码帧为关键帧时，复制所述关键帧。
根据权利要求13所述的系统，其中，所述封装模块用于当所述编码帧为关键帧时，至少复制一帧所述关键帧；以及在各所述关键帧的数据包中标识关键帧信息，其中，相同关键帧的所述关键帧信息相同。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。