WO2020232613A1

WO2020232613A1 - 一种视频处理方法、系统、移动终端、服务器及存储介质

Info

Publication number: WO2020232613A1
Application number: PCT/CN2019/087662
Authority: WO
Inventors: 欧勇盛; 刘国栋; 江国来
Original assignee: 深圳先进技术研究院
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-26

Abstract

本申请公开了一种视频处理方法、系统、移动终端、服务器及存储介质，该视频处理方法应用于客户端，该方法包括：接收服务器发送的第一编码图像帧；判断是否接收到图像丰富指令；若接收到图像丰富指令，则将随机噪声加入第一编码图像帧中，生成第二编码图像帧；其中，第一编码图像帧为浮点型数据，第一编码图像帧与第二编码图像帧之间的差值在预设范围以内。通过上述方式，本申请能够将浮点型数据解码为图像，实现图像的安全传输，并能够对解码出来的图像进行丰富。

Description

一种视频处理方法、系统、移动终端、服务器及存储介质

【技术领域】

本申请涉及图像处理领域，具体涉及一种视频处理方法、系统、移动终端、服务器及存储介质。

【背景技术】

数字图像压缩编码是一种非常重要的技术，对数字图像的传输和存储有着非常重要的意义。传统的图像编码算法是基于像素值的编码，无论是变换编码、预测编码还是其它编码算法均是在像素值的基础上进行压缩，虽然压缩程度逐渐升高，压缩效果越来越好，但基于像素值的编码很难把图像或视频的体积压缩到极小；而且对于传统图像编码算法来说，安全问题也不容忽视，传统图像编码算法需要开发各种保密机制，以保证图像编码后传输的安全性。

【发明内容】

本申请主要解决的问题是提供一种视频处理方法、系统、移动终端、服务器及存储介质，能够将浮点型数据解码为图像，实现图像的安全传输，并能够对解码出来的图像进行丰富。

为解决上述技术问题，本申请采用的技术方案是提供一种视频处理方法，该视频处理方法应用于客户端，该方法包括：接收服务器发送的第一编码图像帧；判断是否接收到图像丰富指令；若接收到图像丰富指令，则将随机噪声加入第一编码图像帧中，生成第二编码图像帧；其中，第一编码图像帧为浮点型数据，第一编码图像帧与第二编码图像帧之间的差值在预设范围以内。

为解决上述技术问题，本申请采用的另一技术方案是提供一种视频处理方法，该视频处理方法应用于服务器，该方法包括：接收输入图像；利用基于神经网络的编码网络对输入图像进行处理，得到第一编码图像帧；其中，第一编码图像帧为浮点型数据，基于神经网络的编码网络至少包括输入层，且每个输入层包括至少两个子输入层，子输入层用于接收输入图像中至少一个通道的数据。

为解决上述技术问题，本申请采用的另一技术方案是提供一种移动终端，该移动终端包括互相连接的存储器和处理器，其中，存储器用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述的视频处理方法。

为解决上述技术问题，本申请采用的另一技术方案是提供一种服务器，该服务器包括互相连接的存储器和处理器，其中，存储器用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述的视频处理方法。

为解决上述技术问题，本申请采用的另一技术方案是提供一种服务器，该视频处理系统包括互相连接的服务器和移动终端，其中，服务器用于对输入图像进行编码处理，得到编码图像帧，移动终端用于对编码图像帧进行解码，得到解码图像帧，其中，移动终端为上述的移动终端，服务器为上述的服务器。

为解决上述技术问题，本申请采用的另一技术方案是提供一种服务器，该计算机存储介质用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述的视频处理方法。

通过上述方案，本申请的有益效果是：客户端接收服务器发送的第一编码图像帧，该第一编码图像帧为浮点型数据；客户端判断是否接收到图像丰富指令，若接收到图像丰富指令，则将随机噪声加入第一编码图像帧中，生成与第二编码图像帧之间的差值在预设范围以内的第二编码图像帧，能够将浮点型数据解码为图像，且由于浮点型数据为基于语义进行编码得到，被第三方截获到也无法进行解码，实现图像的安全传输，并能够对解码出来的图像进行丰富，使得每次用户观看视频时，对于同一帧画面都会看到不同的画面，提高用户观看的新鲜感。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的视频处理方法第一实施例的流程示意图；

图2是本申请提供的视频处理方法第二实施例的流程示意图；

图3是本申请提供的视频处理方法第三实施例的流程示意图；

图4是本申请提供的视频处理方法第四实施例的流程示意图；

图5是本申请提供的编解码网络的结构示意图；

图6是图5对应的编码网络中生成第一编码图像帧的流程示意图；

图7是图5对应的解码网络中生成解码图像帧的流程示意图；

图8是本申请提供的编解码网络的另一结构示意图；

图9是图8对应的编码网络中生成第一编码图像帧的流程示意图；

图10是图8对应的解码网络中生成解码图像帧的流程示意图；

图11是本申请提供的移动终端一实施例的结构示意图；

图12是本申请提供的服务器一实施例的结构示意图；

图13是本申请提供的视频处理系统一实施例的结构示意图；

图14是本申请提供的计算机存储介质一实施例的结构示意图。

【具体实施方式】

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图1，图1是本申请提供的视频处理方法第一实施例的流程示意图，该视频处理方法应用于客户端，该方法包括：

步骤11：接收服务器发送的第一编码图像帧。

该第一编码图像帧为浮点型数据，该浮点型数据为服务器对输入图像进行编码处理后得到，编码处理为基于语义(图像内容)的编码，提取输入图像中的语义，对其进行编码，得到第一编码图像帧，由于第一编码图像帧不是利用基于像素值的编码算法得到，即使第一编码图像帧被第三方截获，在没有对应的解码网络的情况下，第三方无法对第一编码图像帧进行解码，从而保障图像传输的安全性。

步骤12：判断是否接收到图像丰富指令。

客户端可以在接收到第一编码图像帧之后，判断是否接收到用户输入的图像丰富指令或者默认设置的图像丰富指令，该图像丰富指令用于指示对第一编码图像帧进行处理，使得解码后的图像相比输入图像增加一些图像细节或者图像中部分细节改变。

步骤13：若接收到图像丰富指令，则将随机噪声加入第一编码图像帧中，生成第二编码图像帧。

该随机噪声也为浮点型数据，且数据长度和第一编码图像帧一致；客户端设置有不加入任何噪声和加入随机噪声两种模式，用户可以选择进入两种模式中的一种模式或者默认加入随机噪声。

在处于加入随机噪声模式时，第一编码图像帧与第二编码图像帧之间的差值在预设范围以内，以保证分别对第一编码图像帧和第二编码图像帧进行解码后，解码出来的两张图像的差别在可允许的范围内，两张图像的内容大致是相同的，仅在某些细节可能不同，避免解码出来的图像和原图像在内容上有很大差别；这样在用户观看同一部电影或电视剧时，每次打开看到的场景都会有些微不同，增加观看的新鲜感。

例如，输入图像包括草地和一个小孩子，在将随机噪声与第一编码图像帧叠加，再进行解码后，解码出来的图像包括草地和孩子，但是孩子的头上多了一个发卡。

区别于现有技术，本实施例提供了一种视频处理方法，客户端接收服务器发送的第一编码图像帧，并在接收到图像丰富指令后，对第一编码图像帧进行处理，改变图像的部分细节特征，能够将浮点型数据解码为图像，且由于浮点型数据为基于语义进行编码得到，被第三方截获到也无法进行解码，实现图像的安全传输，并能够对解码出来的图像进行丰富，使得每次用户观看视频时，对于同一帧画面都会看到不同的画面，提高用户观看的新鲜感。

参阅图2，图2是本申请提供的视频处理方法第二实施例的流程示意图，该视频处理方法应用于客户端，该方法包括：

步骤201：按照预设时间间隔或间隔预设帧数发送下载请求消息至服务器。

客户端可发送下载请求消息给客户端，以请求服务器将视频中某些编码图像帧下发至客户端，可间隔预设帧数或预设时间来向服务器请求；具体地，客户端需要向服务器请求下载视频中的第一帧对应的编码图像帧，以便根据第一帧对应的编码图像帧去生成接下来的至少一帧图像，顺利播放视频。

步骤202：接收服务器发送的第一编码图像帧。

步骤203：判断是否接收到图像丰富指令。

其中，步骤202-203与上述实施例中步骤12-13类似，在此不再赘述。

步骤204：利用场景转换检测网络判断是否发生场景改变。

该场景转换检测网络为卷积神经网络，其用于检测场景转换是否发生，可使用三维卷积或者二维卷积，利用手工标记的各种图像组成训练集进行训练，输出层为一个神经元直接对应是否产生了场景转换。

步骤205：若发生场景改变，则生成新的随机噪声，并将新的随机噪声加入第一编码图像帧中，生成第二编码图像帧。

步骤206：若未发生场景改变，则继续将当前随机噪声加入第一编码图像帧中，生成第二编码图像帧。

客户端在接收到第一编码图像帧后，若客户端处于加入随机噪声的模式，则执行转场检测，每个视频的首帧(即第0帧)属于发生转场的状态，若视频中图像场景未发生改变，则保持加入的随机噪声不变，继续向第一编码图像帧加入该随机噪声；若视频中图像场景发生改变，则可以生成新的随机噪声，并将新的随机噪声与第一编码图像帧进行叠加，使得在同一场景下可以使用相同的随机噪声处理，显现出相同的细节改变，而转场后有着不同的细节改变。

例如，添加的随机噪声可以使视频中人物的服饰改变、使背景风景、环境装饰等细节改变或使颜色风格改变，但不影响主要剧情，用户重复播放同一部电视剧或电影时，可以观看到不同的内容，保持新鲜感。

步骤207：利用基于神经网络的解码网络对第二编码图像帧进行解码处理，得到解码图像帧。

在接收到第二编码图像帧之后，为了将浮点型数据恢复成图像数据，利用基于神经网络的解码网络来对第二编码图像帧进行解码。

步骤208：利用去除图像退化网络对解码图像帧进行处理，得到第一图像帧。

输入图像在经过编码和解码过程后可能会出现图像模糊，去除图像退化网络可对生成的解码图像帧中所包含的模糊和噪声进行去除。

在一具体的实施例中，客户端可获取多张任意图像作为原始图像；然后对原始图像进行高斯模糊处理或加噪处理，生成相应的训练图像，建立训练集；再利用图像模糊复原网络或图像超分辨率网络对训练集中的训练图像进行训练，利用损失函数来衡量原始图像和去除图像退化网络输出的图像之间的损失，最小化该损失直至训练出符合要求的去除图像退化网络模型。

进一步地，还可以建立测试集，以测试训练出来的去除图像退化网络模型是否去除图像退化的效果比较好。

步骤209：利用运动估计网络对第一图像帧进行估计，生成至少一张第二图像帧。

该运动估计网络为生成式对抗网络(GAN，Generative Adversarial Networks)，生成式对抗网络包括生成网络和判别网络，生成网络包括二维卷积层和三维反卷积层，二维卷积层用于从第一图像帧中提取特征信息，三维反卷积层用于接收特征信息，生成至少一张第二图像帧，判别网络包括三维卷积层和全连接层，其用于判断生成的第二图像帧是否为符合预设要求的图像。

该符合预设要求的图像可以为与视频中位于第一图像帧之后的图像帧相似度比较高的图像，在一具体的实施例中，将第二图像帧的数量定义为α，如果当前客户端向服务器请求的帧数为第i(i为正整数)帧，则下一次发送请求时，可向服务器请求第i+α+1帧，α的值可以为5，当α为0时，客户端需要向服务器请求视频中的每一帧；利用运动估计网络可减少传输信息的数量，进一步增加信息传输的安全性。

服务器端与客户端的操作不是同时进行的，服务器事先对所有视频资源中的所有帧进行编码，并将编码结果和对应的帧号存储起来，待客户端的请求到来时，根据客户端所需的图像帧发送编码后的图像帧给客户端，而且客户端并非对每个图像帧均请求，客户端可利用运动估计网络生成当前帧后的下几帧图像，因而客户端可以每隔几帧向服务器取一帧。

步骤210：将第一图像帧以及第二图像帧发送至视频播放器进行播放。

在客户端利用第一图像帧生成至少一张第二图像帧之后，可将第一图像帧以及与第二图像帧按顺序发送至视频播放器，以进行视频的播放。

区别于现有技术，本实施例提供了一种视频处理方法，客户端接收服务器发送的第一编码图像帧，通过检测场景是否改变来判断向第一编码图像帧中加入的随机噪声是否改变，生成第二编码图像帧，并利用解码网络对第二编码图像帧进行解码，得到解码图像帧，可对解码图像帧进行去退化处理，得到第一图像帧，再利用运动估计网络根据第一图像帧生成至少一张第二图像帧，以避免客户端需要向服务器请求视频中的每一帧，能够减少数据传输的次数，进一步地增加安全性，同时能够对解码出来的图像进行丰富和去退化处理，提高图像质量。

参阅图3，图3是本申请提供的视频处理方法第三实施例的流程示意图，该视频处理方法应用于服务器，该方法包括：

步骤31：接收输入图像。

该输入图像可以为彩色图像，其颜色格式可以为RGB或YCrCb，其中，Y、Cr和Cb分别为亮度、红色差和蓝色差。

步骤32：利用基于神经网络的编码网络对输入图像进行编码处理，得到第一编码图像帧。

第一编码图像帧为浮点型数据，且该浮点型数据与像素值无关，该浮点型数据可以看作图像的一种“样式”，而真正的图像内容被作为分布函数学习到了网络结构中的各层参数中，可实现较高压缩率；具体地，可将一幅1920*1080的图像压缩成64个浮点型数据，大大提升了压缩率，减少了传输视频所需的带宽。

基于神经网络的编码网络至少包括输入层，输入层的个数可以为多个，以方便在训练编码网络模型时，同时对多张输入图像进行处理，且每个输入层包括至少两个子输入层，子输入层用于接收输入图像中至少一个通道的数据；例如，对于YCrCb格式的输入图像，一个子输入层可接收输入图像中Y通道的数据，另一个子输入层可接收输入图像中Cr和Cb通道的数据。

区别于现有技术，本实施例提供了一种视频处理方法，服务器接收输入图像，并利用编码网络对输入图像进行编码处理，得到第一编码图像帧，能够数字图像编码为浮点型数据，且由于浮点型数据为基于语义进行编码得到，被第三方截获到也无法进行解码，实现图像的安全传输。

参阅图4，图4是本申请提供的视频处理方法第四实施例的流程示意图，该视频处理方法应用于服务器，该方法包括：

步骤41：接收输入图像。

步骤42：利用基于神经网络的编码网络对输入图像进行编码处理，得到第一编码图像帧。

基于神经网络的编码网络至少包括输入层、至少一个卷积隐藏层、编码全连接隐藏层以及编码全连接输出层，且每个输入层包括至少两个子输入层，子输入层用于接收输入图像中至少一个通道的数据。

在一具体的实施例中，服务器对多个视频资源利用编码网络进行编码，并将编码结果和对应的帧号存储起来，以便客户端发起请求时，快速找到与帧号对应的编码结果。

步骤43：对第一编码图像帧进行解码处理，得到解码图像帧。

在服务器对输入图像进行编码得到第一编码图像帧后，可对第一编码图像帧进行解码处理，从而得到解码图像帧。

步骤44：在接收到客户端发送的视频观看请求后，将基于神经网络的解码网络发送至客户端。

基于神经网络的解码网络包括解码全连接隐藏层、至少一个反卷积隐藏层以及输出层。服务器可对利用编码网络输出的多个第一编码图像帧进行训练，得到基于神经网络的解码网络，并在客户端发起请求时，将该基于神经网络的解码网络直接发送给客户端；在客户端向服务器发送下载请求消息，以向服务器请求下载第一编码图像帧之后，客户端可利用服务器发送的解码网络直接对第一编码图像帧进行解码，得到解码图像帧。

这种服务器来训练解码网络的方式适用于处理特殊视频，由于所有特殊视频均在客户端进行训练，将占用客户端过多的资源，而且用户还可能很少使用该解码网络，造成资源的浪费，因而可以在服务器中训练，仅在客户端需要的时候，才向服务器发起请求，服务器直接将该解码网络发送给客户端，减轻客户端的负担；例如，对于动漫来说，动漫有着与真人剧完全不同的分布函数，所以动漫的通用编解码网络与真人剧的通用编解码网络不能使用同一个，应针对动漫单独训练通用编解码网络。

在一具体的实施例中，基于神经网络的编解码网络如图5所示，该网络为变分自编码网络，在训练时使用YCrCb颜色空间，编码网络和解码网络均为具有两条支路的网络，输入层包括第一子输入层和第二子输入层，服务器得到第一编码图像帧的步骤具体可如图6所示：

步骤61：利用第一子输入层接收输入图像中第一通道的数据。

输入图像的颜色格式为亮度-红色差-蓝色差，第一通道为亮度通道Y，第二通道为红色差和蓝色差通道CrCb。

步骤62：对输入图像中第二通道的数据进行下采样处理，并将下采样后的数据输入第二子输入层。

对输入图像中红色差和蓝色差通道CrCb的图像数据进行N倍下采样，N为正整数。

步骤63：分别利用卷积隐藏层对第一子输入层和第二子输入层输出的数据进行卷积、激活、池化、批标准化或丢弃正则化处理，得到第一编码图像数据和第二编码图像数据。

每个卷积隐藏层都可有卷积、激活、池化、批标准化或者丢弃正则化五种操作，且池化和丢弃正则化操作是可选项。两个支路的卷积隐藏层的数量以及卷积隐藏层中卷积核的数量不一致，与孪生网络不同的是该编码网络的两个支路不共享权重，且亮度通道Y所在的支路对应的卷积隐藏层的数量多一些。

可分别对第一子输入层和第二子输入层输出的数据进行处理，直至处理后生成的数据的分辨率相同，才停止在两个支路分别进行操作，即生成的第一编码图像数据和第二编码图像数据的分辨率相同。

步骤64：将第一编码图像数据和第二编码图像数据进行合并，得到第三编码图像数据。

例如，第一编码图像数据为320×180×3，第二编码图像数据为320×180×5，进行合并后，得到的第三编码图像数据为320×180×8。

步骤65：利用卷积隐藏层对第三编码图像数据进行卷积、激活、池化、批标准化或丢弃正则化处理，得到第四编码图像数据。

将两个支路生成的第一编码图像数据和第二编码图像数据合并在一起之后，再利用卷积隐藏层对合并后的数据进行各种处理，最终得到第四编码图像数据。

步骤66：对卷积隐藏层输出的第四编码图像数据进行扁平化处理，得到第五编码图像数据。

该扁平化处理用于降维，使得第五编码图像数据的维度小于第四编码图像数据的维度。

步骤67：利用编码全连接隐藏层对第五编码图像数据进行激活、批标准化或丢弃正则化处理，得到第六编码图像数据。

每个编码全连接隐藏层都可有激活、批标准化或者丢弃正则化三种操作，且丢弃正则化操作是可选操作。

步骤68：利用编码全连接输出层对第六编码图像数据进行处理，得到第一编码图像帧。

编码全连接输出层的神经元数量小于编码全连接隐藏层的神经元数量，并且其所占存储空间远小于输入图像的大小；编码全连接输出层也用作基于神经网络的解码网络的输入层，服务器对第一编码图像帧进行解码处理，得到解码图像帧的步骤具体可如图7所示：

步骤71：接收编码全连接输出层输出的第一编码图像帧。

步骤72：利用解码全连接隐藏层对第一编码图像帧进行处理，得到第一解码图像数据。

步骤73：在两个支路中分别设置反卷积隐藏层，分别利用每个支路中的反卷积隐藏层对第一解码图像数据进行反卷积、激活、上池化、批标准化或丢弃正则化处理，以得到两个第二解码图像数据。

每个反卷积隐藏层可包含反卷积、激活、上池化、批标准化或丢弃正则化五种操作，并且上池化和丢弃正则化操作是可选操作，两个支路的反卷积隐藏层的数量以及反卷积隐藏层中反卷积核的数量不一致，且不共享权重，亮度通道Y所在的支路对应的反卷积隐藏层的数量多一些。

步骤74：分别利用输出层对每个第二解码图像数据进行处理，得到第一解码图像帧和第二解码图像帧。

该输出层为反卷积输出层，且亮度通道Y对应的反卷积核的数量为1，红色差和蓝色差通道CrCb对应的反卷积核的数量为2。

步骤75：对第二解码图像帧进行上采样处理，得到第三解码图像帧。

由于第二子输入层接收的是下采样后的数据，在进行合成时，对红色差和蓝色差通道CrCb对应的输出层所输出的图像进行上采样，使得亮度通道Y以及红色差和蓝色差通道CrCb的数据大小保持一致。

步骤76：将第一解码图像帧与第三解码图像帧进行合并，以得到解码图像帧。

除输出层外，整个编解码网络中的卷积核的数量、反卷积核的数量、激活函数、池化参数、上池化参数以及隐藏层中神经元的数量并非硬性要求，可根据需要进行设计。

在一具体的实施例中，由各种电视剧或电影组成训练集对编解码网络进行训练，在YCrCb颜色空间下进行训练时，将每一帧图像的亮度通道Y中的数据发送至编码网络的第一个支路，红色差通道Cr和绿色差通道Cb组成双通道图像后，将数据进行4倍下采样后发送至第二个支路，并且将它们分别作为解码网络的两条支路的标签，进行损失的计算，并将两条支路的损失相加，作为最终的损失。

如果要获得多种分辨率的图像，可利用图像插值算法获得所需的分辨率图像，该编解码网络解码出来的图像质量更优，颜色偏差更小。

本实施例中的编解码网络为特用高质量编解码网络，其适用于对一些特殊视频进行处理，具体地，可由某一电视剧或电影训练得到，负责对该电视剧或电影进行编码和解码；对于普通视频来说，可不用在服务器端进行训练，而是在客户端训练通用高质量编解码网络，通用高质量编解码网络的结构和训练方法与特用高质量编解码网络类似，区别在于在隐藏层数和卷积核的数量上大于或等于特用高质量编解码网络，该通用高质量编解码网络可对大多数视频进行处理。

在另一具体的实施例中，基于神经网络的编码网络和基于神经网络的解码网络如图8所示，基于神经网络的编码网络和基于神经网络的解码网络构成基于神经网络的编解码网络，该网络为变分自编码网络，在训练时使用RGB颜色空间，编码网络为一路输入，解码网络为多路输出，以支持多分辨率输出。服务器得到第一编码图像帧的步骤具体可如图9所示：

步骤91：利用输入层接收输入图像。

该输入图像的颜色格式为红色-绿色-蓝色。

步骤92：利用卷积隐藏层对输入图像进行卷积、激活、池化、批标准化或丢弃正则化处理，得到第七编码图像数据。

卷积隐藏层的数量至少为2个，每个卷积隐藏层都可有卷积、激活、池化、批标准化或者丢弃正则化五种操作，且池化和丢弃正则化操作是可选操作，即在卷积隐藏层需要对前一层输出的数据利用卷积核进行卷积操作以提取输入图像中的特征信息，然后对卷积后的数据进行池化，以对数据进行下采样，再利用激活函数对池化后的数据进行激活，以增加编码网络模型的非线性。

步骤93：对卷积隐藏层输出的第七编码图像数据进行扁平化处理，得到第八编码图像数据。

该扁平化处理用于降维，将三维数据展开至一维，即第八编码图像数据的维度小于第七编码图像数据的维度。

例如，输入图像为1280×720×3，卷积核的数量为5，池化操作进行2倍的下采样，卷积隐藏层的数量为2，第一次卷积后数据为1280×720×5，经过池化后数据为640×360×5，利用激活函数处理后数据为640×360×5，第二次卷积后数据为640×360×10，经过池化后数据为320×180×10，利用激活函数处理后数据为320×180×10，经过扁平化处理后输出变成1维数据，其长度为320×180×10。

步骤94：利用编码全连接隐藏层对第八编码图像数据进行激活、批标准化或丢弃正则化处理，得到第九编码图像数据。

步骤95：利用编码全连接输出层对第九编码图像数据进行处理，得到第一编码图像帧。

编码全连接输出层的神经元数量小于编码全连接隐藏层的神经元数量，并且其所占存储空间远小于输入图像的大小；编码全连接输出层也用作基于神经网络的解码网络的输入层，服务器对第一编码图像帧进行解码处理，得到解码图像帧的步骤具体可如图10所示：

步骤101：接收编码全连接输出层输出的第一编码图像帧。

步骤102：利用解码全连接隐藏层对第一编码图像帧进行处理，得到第三解码图像数据。

步骤103：在至少两个支路中分别设置反卷积隐藏层，分别利用每个支路中的反卷积隐藏层对第三解码图像数据进行反卷积、激活、上池化、批标准化或丢弃正则化处理，得到至少两个第四解码图像数据。

每个反卷积隐藏层可包含反卷积、激活、上池化、批标准化或丢弃正则化五种操作，并且上池化和丢弃正则化操作是可选操作，图8中三个输出支路的反卷积隐藏层的数量以及反卷积隐藏层中反卷积核的数量不一致，且不共享权重，高分辨率输出层图像所在的支路对应的卷积隐藏层的数量多一些；例如，输出层输出的图像的分辨率可分别为1920*1080、1280*720以及640*360。

在一具体的实施例中，可由各种电视剧或电影组成训练集对编解码网络进行训练，在RGB颜色空间下进行训练时将每一帧图像作为输入，并将每一帧图像线性插值成1920*1080、1280*720、640*360三种分辨率，分别将它们与解码网络的三路输出图像进行损失的计算。

步骤104：分别利用输出层对每个第四解码图像数据进行处理，得到相应的解码图像帧。

输出层的数量与支路的数量相同，每个支路中的反卷积隐藏层的数量以及反卷积核的数量不同，且不共享权重，任意两个解码图像帧的分辨率不同，且分辨率越高其所在支路对应的反卷积隐藏层的数量越多。

除输出层外，整个编解码网络中卷积核的数量、反卷积核的数量、激活函数、池化参数、上池化参数以及隐藏层中神经元的数量并非硬性要求，可根据需要进行设计。

本实施例中的编解码网络为特用多分辨率编解码网络，其适用于对一些特殊视频进行处理，具体地，可由某一电视剧或电影训练得到，负责对该电视剧或电影进行编码和解码；对于普通视频来说，可不用在服务器端进行训练，而是在客户端训练通用多分辨率编解码网络，通用多分辨率编解码网络的结构和训练方法与特用多分辨率编解码网络类似，区别在于在隐藏层数和卷积核的数量上大于或等于特用多分辨率编解码网络，该通用多分辨率编解码网络可对大多数视频进行处理。

对于特用编解码网络(包括特用多分辨率编解码网络和特用高质量编解码网络)来说，特用编解码网络解码出来的图像清晰度较高，效果较好，解码时间短，但是用户需要额外点击下载对应某一电视剧或电影的特用解码网络。

特用编解码网络可以实现在视频中加入特效，特效功能需要在编解码网络的训练过程中实现，在训练时使用某一特效装饰后的标签图像作为新的标签图像，去训练编解码网络就可得到生成该特效图像的解码网络，可以做比较复杂的特效，例如，可以完成真人剧转动漫的特效或动漫转真人剧的特效，普通画面转大片风格等，如冰封效果或计算机动画效果等。

此外，还可以根据视频的类型，来训练各种视频题材的通用编解码网络，例如：古装剧或现代剧等类型，这种通用编解码网络只使用所属类型的视频资源进行训练，也仅负责对该类型的视频资源进行编码和解码，其网络结构可以和上述实施例中的网络结构相同，在此不再赘述。

参阅图11，图11是本申请提供的移动终端一实施例的结构示意图，移动终端110包括互相连接的存储器111和处理器112，其中，存储器111用于存储计算机程序，计算机程序在被处理器112执行时，用于实现上述实施例中的视频处理方法。

在移动终端110可训练通用解码网络、去图像退化网络、运动估计网络或场景转换检测网络等。

参阅图12，图12是本申请提供的服务器一实施例的结构示意图，服务器120包括互相连接的存储器121和处理器122，其中，存储器121用于存储计算机程序，计算机程序在被处理器122执行时，用于实现上述实施例中的视频处理方法。

服务器120可训练好通用编码网络、特用编网络以及特用解码网络，服务器120存储有特用解码网络，以便在移动终端发起特用视频的请求时，将特用解码网络发给移动终端，方便移动终端对特用视频进行解码，使得用户能够观看特定视频。

参阅图13，图13是本申请提供的视频处理系统一实施例的结构示意图，视频处理系统130包括互相连接的服务器131和移动终端132，其中，服务器131用于对输入图像进行编码处理，得到编码图像帧，移动终端132用于对编码图像帧进行解码，得到解码图像帧，其中，服务器131为上述实施例中的服务器，移动终端132为上述实施例中的移动终端。

该视频处理系统130为一种基于图像内容的编解码系统，可以将一幅图像压缩至若干个浮点型数据，大大提升了压缩率，减少了传输视频所需的带宽，并且编码形成的浮点型数据极具安全性，即使被截获也不会泄露所传输的信息。

参阅图14，图14是本申请提供的计算机存储介质一实施例的结构示意图，计算机存储介质140用于存储计算机程序141，计算机程序141在被处理器执行时，用于实现上述实施例中的视频处理方法。

其中，该存储介质140可以是服务器、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种视频处理方法，其特征在于，应用于客户端，所述视频处理方法包括：

接收服务器发送的第一编码图像帧；

判断是否接收到图像丰富指令；

若是，则将随机噪声加入所述第一编码图像帧中，生成第二编码图像帧；

其中，所述第一编码图像帧为浮点型数据，所述第一编码图像帧与所述第二编码图像帧之间的差值在预设范围以内。
根据权利要求1所述的视频处理方法，其特征在于，所述将随机噪声加入所述第一编码图像帧中，生成第二编码图像帧的步骤，包括：

利用场景转换检测网络判断是否发生场景改变；

若是，则生成新的随机噪声，并将所述新的随机噪声加入所述第一编码图像帧中，生成所述第二编码图像帧；若否，则继续将当前随机噪声加入所述第一编码图像帧中，生成所述第二编码图像帧。
根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括：

利用基于神经网络的解码网络对所述第二编码图像帧进行解码处理，得到解码图像帧；

利用去除图像退化网络对所述解码图像帧进行处理，得到第一图像帧；

利用运动估计网络对所述第一图像帧进行估计，生成至少一张第二图像帧；

将所述第一图像帧以及所述第二图像帧发送至视频播放器进行播放。
根据权利要求3所述的视频处理方法，其特征在于，所述接收服务器发送的第一编码图像帧的步骤之前，包括：

按照预设时间间隔或间隔预设帧数发送下载请求消息至所述服务器。
根据权利要求3所述的视频处理方法，其特征在于，所述利用去除图像退化网络对所述解码图像帧进行处理，得到第一图像帧的步骤，包括：

获取多张图像作为原始图像；

对所述原始图像进行高斯模糊处理或加噪处理，生成相应的训练图像，建立训练集；

利用图像模糊复原网络或图像超分辨率网络对所述训练集中的训练图像进行训练。
根据权利要求3所述的视频处理方法，其特征在于，

所述运动估计网络为生成式对抗网络，所述生成式对抗网络包括生成网络和判别网络，所述生成网络包括二维卷积层和三维反卷积层，所述二维卷积层用于从所述第一图像帧中提取特征信息，所述三维反卷积层用于接收所述特征信息，生成至少一张所述第二图像帧，所述判别网络包括三维卷积层和全连接层，其用于判断生成的所述第二图像帧是否为符合预设要求的图像。
一种视频处理方法，其特征在于，应用于服务器，所述视频处理方法包括：

接收输入图像；

利用基于神经网络的编码网络对所述输入图像进行编码处理，得到所述第一编码图像帧；

其中，所述第一编码图像帧为浮点型数据，所述基于神经网络的编码网络至少包括输入层，且每个所述输入层包括至少两个子输入层，所述子输入层用于接收所述输入图像中至少一个通道的数据。
根据权利要求7所述的视频处理方法，其特征在于，

所述基于神经网络的编码网络还包括至少一个卷积隐藏层、编码全连接隐藏层以及编码全连接输出层。
根据权利要求8所述的视频处理方法，其特征在于，所述方法还包括：

对所述第一编码图像帧进行解码处理，得到解码图像帧；

在接收到所述客户端发送的视频观看请求后，将基于神经网络的解码网络发送至所述客户端；

其中，所述基于神经网络的解码网络包括解码全连接隐藏层、至少一个反卷积隐藏层以及输出层。
根据权利要求9所述的视频处理方法，其特征在于，所述输入层包括第一子输入层和第二子输入层，所述利用基于神经网络的编码网络对所述输入图像进行编码处理，得到所述第一编码图像帧的步骤，包括：

利用所述第一子输入层接收所述输入图像中第一通道的数据；

对所述输入图像中第二通道的数据进行下采样处理，并将下采样后的数据输入所述第二子输入层；

分别利用所述卷积隐藏层对所述第一子输入层和所述第二子输入层输出的数据进行卷积、激活、池化、批标准化或丢弃正则化处理，得到第一编码图像数据和第二编码图像数据，其中，所述第一编码图像数据和第二编码图像数据的分辨率相同；

将所述第一编码图像数据和所述第二编码图像数据进行合并，得到第三编码图像数据；

利用所述卷积隐藏层对所述第三编码图像数据进行卷积、激活、池化、批标准化或丢弃正则化处理，得到第四编码图像数据；

对所述卷积隐藏层输出的所述第四编码图像数据进行扁平化处理，得到第五编码图像数据，其中，所述第五编码图像数据的维度小于所述第四编码图像数据的维度；

利用所述编码全连接隐藏层对所述第五编码图像数据进行激活、批标准化或丢弃正则化处理，得到第六编码图像数据；

利用编码全连接输出层对所述第六编码图像数据进行处理，得到所述第一编码图像帧。
根据权利要求10所述的视频处理方法，其特征在于，所述对所述第一编码图像帧进行解码处理，得到解码图像帧的步骤，包括：

接收所述编码全连接输出层输出的所述第一编码图像帧；

利用所述解码全连接隐藏层对所述第一编码图像帧进行处理，得到第一解码图像数据；

在两个支路中分别设置反卷积隐藏层，分别利用每个支路中的所述反卷积隐藏层对所述第一解码图像数据进行反卷积、激活、上池化、批标准化或丢弃正则化处理，以得到两个第二解码图像数据；

分别利用所述输出层对每个所述第二解码图像数据进行处理，得到第一解码图像帧和第二解码图像帧；

对所述第二解码图像帧进行上采样处理，得到第三解码图像帧；

将所述第一解码图像帧与所述第三解码图像帧进行合并，以得到所述解码图像帧。
根据权利要求10所述的视频处理方法，其特征在于，

所述输入图像的颜色格式为亮度-红色差-蓝色差，所述第一输入层为亮度通道，所述第二输入层为红色差和蓝色差通道。
根据权利要求9所述的视频处理方法，其特征在于，所述对所述第一编码图像帧进行解码处理，得到解码图像帧的步骤，包括：

接收所述编码全连接输出层输出的所述第一编码图像帧；

利用所述解码全连接隐藏层对所述第一编码图像帧进行处理，得到第三解码图像数据；

在至少两个支路中分别设置反卷积隐藏层，分别利用每个支路中的所述反卷积隐藏层对所述第三解码图像数据进行反卷积、激活、上池化、批标准化或丢弃正则化处理，得到至少两个第四解码图像数据；

分别利用所述输出层对每个所述第四解码图像数据进行处理，得到相应的所述解码图像帧；

其中，所述输出层的数量与所述支路的数量相同，每个支路中的所述反卷积隐藏层的数量以及反卷积核的数量不同，且不共享权重，任意两个所述解码图像帧的分辨率不同，且分辨率越高其所在支路对应的所述反卷积隐藏层的数量越多。
一种移动终端，包括互相连接的存储器和处理器，其中，所述存储器用于存储计算机程序，所述计算机程序在被所述处理器执行时，用于实现权利要求1-6中任一项所述的视频处理方法。
一种服务器，包括互相连接的存储器和处理器，其中，所述存储器用于存储计算机程序，所述计算机程序在被所述处理器执行时，用于实现权利要求7-13中任一项所述的视频处理方法。
一种视频处理系统，其特征在于，包括互相连接的服务器和移动终端，其中，所述服务器用于对输入图像进行编码处理，得到编码图像帧，所述移动终端用于对所述编码图像帧进行解码，得到解码图像帧，其中，所述移动终端为权利要求14所述的移动终端，所述服务器为权利要求15所述的服务器。
一种计算机存储介质，用于存储计算机程序，其特征在于，所述计算机程序在被处理器执行时，用于实现权利要求1-13中任一项所述的视频处理方法。