WO2020238439A1

WO2020238439A1 - 无线自组织网络带宽受限下的视频业务质量增强方法

Info

Publication number: WO2020238439A1
Application number: PCT/CN2020/084255
Authority: WO
Inventors: 丁丹丹; 雷鸣; 王婵; 徐莹莹; 鞠阳; 盛华联; 刘派
Original assignee: 浙江大学
Priority date: 2019-05-24
Filing date: 2020-04-10
Publication date: 2020-12-03
Also published as: CN110099280B; CN110099280A

Abstract

本发明公开了一种用于无线自组织网络环境下进行视频业务质量增强的方法，属于无线自由组网传输及视频图像处理技术研究领域。在带宽受限环境下，通过下采样神经网络对将传输的高分辨率视频进行下采样，得到低分辨率视频，进而对低分辨率视频进行传输以降低带宽需求。在接收端，通过基于视频增强技术，尤其是对一些量化参数较高的低质量帧采用多帧质量增强技术，使用预测神经网络根据当前帧前后图像生成虚拟帧，再通过增强神经网络增强当前帧的质量，得到高分辨率视频图像，提高了主观性能。本发明在降低视频传输业务带宽需求的同时，尽量保证视频质量，达到了有益效果。

Description

无线自组织网络带宽受限下的视频业务质量增强方法

技术领域

本发明涉及无线自组织网络传输技术领域，具体地说，涉及一种在无线自组织网络带宽受限下的视频业务质量增强方法。

背景技术

随着传感器技术、网络技术、人工智能技术的发展，大规模无人系统在工业、军事等领域正得到越来越广泛的应用。如工业传感器网络可用于复杂环境的探测、监视；军事无人机、无人船等可以代替人工进行侦察和任务处理等工作。这些群体协作无人系统能够在野外无预布置网络下顺利精确地相互交互、协同工作，需要无线自组织网络支持；而类似探测、监视、监控、态势感知等功能都需要在无线自组织网络有限的带宽下，实现良好的视频业务质量支撑。

由于带宽与存储的限制，视频一般要经过压缩以大幅减少编码比特数。然而，压缩视频不可避免地存在噪声，严重影响了主观质量。此外，这些噪声可能会降低分类和识别任务的准确性。由于人工智能技术和产业逐步成熟，结合深度神经网络的视频传输与压缩方式渐渐成为一个新的发展方向。

在视频压方面，已经有不少压缩标准得到了广泛应用。H.264/AVC是国际电信联盟(ITU)和国际标准化组织(ISO/IEC)共同提出的视频编码标准，于2003年发布标准。H.265/HEVC是国际电信联盟(ITU)和国际标准化组织(ISO/IEC)共同提出的新一代的高效视频编码标准，相比于前代H.264/AVC，同样编码质量下H.265/HEVC可以节约50％的码率。

不过，现有的视频传输技术与视频压缩技术对视频图像分辨率不进行修改，因此在带宽受限情况下，对实时传输与编码带来困难。为解决上述问题，本发明提出在压缩传输高分辨率视频图像前，对视频图像进行下采用，得到相应的低分辨率视频图像，因此大大降低了无线网络的传输负担，提升了传输效率。在接收端得到重建的低分辨率视频图像后，使用神经网络对图像进行增强，再次获得高分辨率图像。这种方式能够大幅度降低传输带宽需求，满足带宽受限情况下的实时传输。

发明内容

本发明提供了一种无线自组织网络带宽受限下的视频业务质量增强方法，为达到上述目的，本发明采用在传输前对高分辨率视频下采样，接收时再对视频质量进行增强的方法，尤其是对一些视频帧采用多帧的方式进行增强，其过程包括：

(1)对高分辨率视频图像进行下采样操作，将视频图像缩小2 ^M倍，M是非负整数得到对应的低分辨率视频；

(1.1)所述的下采样操作由下采样神经网络完成，并且对不同采样倍数训练不同的网络模型；

(1.2)对所述的下采样神经网络进行训练时，设有相应的上采样神经网络，两个网络共享使用同样的参数。设原始高分辨率视频图像为H，H经过下采样神经网络得到低分辨率视频L，L在接收端得到的重建视频图像为L’，L’经过上采样神经网络得到恢复的高分辨率视频H’，通过最小化下列目标函数对网络模型进行训练：

其中，θ是网络的权重系数。

(2)对得到的低分辨率视频进行信源编码，并在无线自组织网络环境下，对得到的码

流进行传输；

(3)在接收端，对接收到的码流进行信源解码，得到重建的低分辨率视频；

(4)对于该重建的低分辨率视频，以编码组为单位，选定位于编码参考结构中较低层次的视频帧作为待使用多帧方法进行增强的视频帧；

所述的位于编码参考结构中较低层次的视频帧是指在一个编码组中量化参数相对较大的帧。

(5)对选定的视频帧，利用其邻近已经解码的重建帧来预测该帧，得到该帧的虚拟帧；

(5.1)所述的邻近已经解码的重建帧是位置对称且成对出现的，它们的基础量化参数值高于当前帧，具体地：

当前待增强帧的前面第一帧图像与当前待增强帧的后面第一帧图像，根据这对重建帧可得到当前帧的虚拟帧，标记为虚拟帧1；

当前待增强帧的前面第二帧图像与当前待增强帧的后面第二帧图像，根据这对重建帧可得到当前帧的虚拟帧，标记为虚拟帧2；

当前待增强帧的前面第三帧图像与当前待增强帧的后面第三帧图像，根据这对重建帧可得到当前帧的虚拟帧，标记为虚拟帧3；

以此类推。

(5.2)所述的利用其邻近已经解码的重建帧来预测该帧的预测方法是一种基于神经网络的方法，该预测神经网络输入当前帧前后成对的两帧图像，得到当前帧的虚拟帧。设当前帧为X，其前后成对的两帧图像经过网络得到的预测帧为X’，通过最小化以下目标函数训练预测神经网络：

其中，ω是神经网络的权重系数。

(6)利用该帧的虚拟帧与该帧的重建帧，对该帧进行质量增强，得到增强的重建图像。

(6.1)所述的质量增强是指使用增强神经网络，输入待增强帧的当前帧的虚拟帧与当前帧，输出增强的当前帧，增强后视频帧的分辨率放大了2 ^P倍，其中P是非负整数。

(6.2)所输入的具体虚拟帧与当前待增强帧在编码组中的参考层次有关，可能是相对应的虚拟帧1、虚拟帧2、……、虚拟帧N(N是正整数)中的任意一帧或任意两帧，以此类推，或全部帧。

进一步地，作为优选，编码组尺寸为8的情况下，选择位于编码参考结构倒数第一层的帧与位于倒数第二层的帧进行多帧增强；编码组尺寸为16的情况下，选择位于编码参考结构倒数第一层的帧、倒数第二层的帧与倒数第三层的帧进行多帧增强；

进一步地，作为优选，对于位于编码组参考帧结构最后一层的帧，其对应的虚拟帧1将被用到。

在传输前利用下采样技术对高分辨率视频进行了下采样，在接收时再进行增强可以有效降低带宽需求。与现有技术相比，本发明的有益效果为：本发明在传输前利用了神经网络进行下采样，保证了采样有利于编码重建图像的质量恢复，并使得传输带宽需求成倍降低，在同等带宽条件下可以传输更多视频内容。在接收端，一些量化参数高的图像质量受损尤为严重，本发明通过多帧质量增强技术提高其图像，具体地，利用神经网络通过预测的方式根据前后多帧图像预测得到当前帧的虚拟帧，进而辅助当前帧的质量增强，提高了增强性能。综上，本发明在降低视频传输业务带宽需求的同时，尽量保证视频质量，达到了有益效果。

附图说明

图1是在无线自组织网络环境下进行视频业务质量增强的方法示意图；

图2是实施例中的下采样神经网络结构示意图；

图3是实施例中的上采样神经网络结构示意图；

图4是实施例提供的应用于图1的视频增强单元的增强方法流程图；

图5是实施例中H.265/HEVC视频压缩的常用的分层编码结构；

图6为实施例中H.265/HEVC视频压缩的常用的分层编码参考结构；

图7是实施例中的预测神经网络结构示意图；

图8为实施例中所用的神经网络结构示意图。

具体实施方式

为了使本发明的技术方案和优点变得更加清晰，接下来将结合附图对技术方案的具体实施方式作更加详细地说明：

参见图1，本发明实施例用于在无线自组织网络环境下进行视频业务质量增强的方法包括视频下采样单元、视频压缩单元、视频传输单元、视频解压缩单元与视频增强单元。其中，

视频下采样单元100对高分辨率视频进行下采样，得到对应的低分辨率视频；

视频压缩单元200利用现有视频压缩标准，对低分辨率视频进行压缩，并得到对应的视频码流；

视频传输单元300对上述视频码流进行传输；

视频解压缩单元400对传输过来的码流进行解析，得到重建的低分辨率视频图像；

视频增强单元500对重建的视频图像进行增强，得到增强的视频图像。

以上各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

本实施例的具体实施方式如下：

(1)本实施例中提供的应用于图1的视频下采样单元的下采样神经网络，参见图2所示的本实施例的下采样神经网络结构，对输入的高分辨率图像进行2倍下采样，得到图像的分辨率为原分辨率的四分之一。设原始高分辨率视频图像为H，H经过下采样神经网络得到低分辨率视频L，L在接收端得到的重建视频图像为L'，L'经过上采样神经网络(参见图3)得到恢复的高分辨率视频H'，通过最小化下列目标函数对网络模型进行训练：

其中，θ是网络的权重系数。本实施例中，作为优选，λ取值为0.8。

图2所示的下采样神经网络具体参数配置是：共10层卷积层，第一层卷积层之后进行了下采样2倍操作，该操作对每2×2像素块取一个平均值，每层的卷积核尺寸都是3×3，除最后一层的特征图数目为1外，其余卷积层的特征图数目为64。

图3的上采样神经网络与图2具有对称结构，不再重复。

(2)对得到的低分辨率视频进行信源编码，并在无线自组织网络环境下，对得到的码流进行传输；本实施例使用H.265/HEVC编码器进行压缩，得到压缩的视频码流。其中编码器配置是随机访问模式，编码组尺寸设置为8。

(3)利用H.265/HEVC解码器对传输过来的码流进行解析，得到重建的低分辨率视频图像。

(4)对于该重建的低分辨率视频，以编码组为单位，选定位于编码参考结构中较低层次的视频帧作为待使用多帧方法进行增强的视频帧；本实施例中的编码组尺寸为8，其对应的编码参考结构如图5与图6。在一个编码组中，第1、2、3、5、6、7帧量化参数较大，被选定来进行多帧增强。

(5)对选定的视频帧，利用其邻近已经解码的重建帧来预测该帧，得到该帧的虚拟帧；其中，增强时候对图像进行2 ^P(P是非负整数)上采样。本实施例中，P取值为2。图4为本实施例提供的应用于图1的视频增强单元的增强方法流程图。本实施例中包括以下步骤：

步骤S510，生成虚拟帧；

子步骤S511，选择待增强的低分辨率帧。参见图5，图5是本实施例中H.265/HEVC视频压缩的常用的分层编码结构。本实施例以一种常用的分层编码结构，即解码组大小为8进行说明。图6说明了在一个解码组内帧之间的编码参考结构，其中，第0帧与第8帧位于该参考结构的第一层，第4帧位于第二层，第2帧与第6帧位于第3层，第1帧、第3帧与第5帧位于最后一层。选择对倒数第2层，即第2帧与第6帧、倒数第1层，即第1帧、第3帧与第5帧进行多帧增强。

子步骤S512，根据前、后已有的重建帧，通过预测神经网络获取虚拟帧。具体地，

通过第0帧与第4帧获取第2帧的虚拟帧2；

通过第4帧与第8帧获取第6帧的虚拟帧2；

通过第0帧与第2帧获取第1帧的虚拟帧1；

通过第2帧与第4帧获取第3帧的虚拟帧1；

通过第0帧与第6帧获取第3帧的虚拟帧3；

通过第4帧与第6帧获取第5帧的虚拟帧1；

通过第2帧与第8帧获取第5帧的虚拟帧3；

通过第6帧与第8帧获取第7帧的虚拟帧1；

其中，预测神经网络结构参见图7。预测神经网络具体参数配置是：共10层卷积层，第一层卷积层包括两组，分别输入前向与后向帧，两者输出级联后依次经过9层卷积。其中，前4层卷积后分别进行了下采样2倍操作，该操作对每2×2像素块取一个平均值；后4层卷积后分别进行了上采样2倍操作，该操作将每个像素点扩展成一个2×2像素块；最后一层卷积生成虚拟帧。每层的卷积核尺寸都是3×3，除最后一层的特征图数目为1外，其余卷积层的特征图数目为64。

设当前帧为X，其前后成对的两帧图像经过网络得到的预测帧为X’，通过最小化以下目标函数训练预测神经网络：

其中，ω是预测神经网络的权重系数。

步骤S520，训练增强神经网络，得到图像增强模型；

子步骤S521，在解码端得到重建的低分辨率图像；

子步骤S522，以重建的低分辨率图像以及它的虚拟帧们作为样本，与其对应的原始高分辨率图像作为标签，形成训练集；

子步骤S523，利用上述样本和其对应的标签对神经网络进行训练，获得视频图像质量增强模型。其中训练规则为：

其中，重建的低分辨率图像与对应的虚拟帧经过增强神经网络得到Y'，Y是与其对应的原始高分辨率图像，Θ是神经网络参数。

本实施例使用H.265/HEVC编码器对下采样得到的低分辨率视频进行压缩与解压缩，得到待增强的重建的低分辨率视频图像。其中，可根据不同编码配置、不同编码参数以及不同视频内容，为增强神经网络分别构造不同的训练集。本实施例中，根据量化参数、不同缩放尺寸、不同帧位置，构造不同的训练集，使用训练集训练增强神经网络，得到对应的图像增强模型。在本实施例中，所使用的增强神经网络共11层，每层的卷积核尺寸都是3×3，重建的低分辨率视频帧与其虚拟帧被送入第1层，有几个虚拟帧就对应几个输入，经过第一层卷积所输出的特征图被级联后，送入图3所示的上采样卷积神经网络结构，图8是输入虚拟帧1、虚拟帧2与当前帧的增强神经网络结构。

步骤S530，决策选择增强模型；

解码时，每个视频帧都对应一个基础量化参数、缩放尺寸和帧位置，对一帧重建的低分辨率视频帧，都根据其基础量化参数、对应的缩放尺寸、帧位置选择相应的增强模型。

步骤S540，利用该帧的虚拟帧与该帧的重建帧，对该帧进行质量增强，得到增强的重建图像。进行视频质量增强；

本实施例中，对于编码参考结构中的倒数第1层与倒数第2层的视频帧，采用图8所示的神经网络进行增强，不过输入对应的卷积数目应与输入帧(包括虚拟帧与当前帧)的数目对应。也就是，除自身外，

第1帧使用其对应的虚拟帧1进行增强；

第2帧使用其对应的虚拟帧2进行增强；

第3帧使用其对应的虚拟帧1与虚拟帧3进行增强；

第5帧使用其对应的虚拟帧1与虚拟帧3进行增强；

第6帧使用其对应的虚拟帧2进行增强；

第7帧使用其对应的虚拟帧1进行增强。

对于编码参考结构中的其它帧，则采用基于单帧的增强策略，即图8中去掉虚拟帧1与虚拟帧2这两个输入对应的结构。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

一种无线自组织网络带宽受限下的视频业务质量增强方法，其特征在于，在无线自组织网络环境下进行高分辨率视频业务传输时，包括以下步骤：

(1)对高分辨率视频图像进行下采样操作，将视频图像缩小2 ^M倍，M是非负整数得到对应的低分辨率视频；

所述的下采样操作由下采样神经网络完成，并且对不同采样倍数训练不同的网络模型；

对所述的下采样神经网络进行训练时，设有与下采样神经网络结构对称的上采样神经网络，两个网络共享使用同样的参数，设原始高分辨率视频图像为H，H经过下采样神经网络得到低分辨率视频L，L在接收端得到的重建视频图像为L’，L’经过上采样神经网络得到恢复的高分辨率视频H’，通过最小化下列目标函数对网络模型进行训练：

其中，θ是网络的权重系数，n为训练样本的数目；

(2)对得到的低分辨率视频进行信源编码，并在无线自组织网络环境下，对得到的码流进行传输；

(3)在接收端，对接收到的码流进行信源解码，得到重建的低分辨率视频；

(4)对于该重建的低分辨率视频，以编码组为单位，选定位于编码参考结构中较低层次的视频帧作为待使用多帧方法进行增强的视频帧；

所述的位于编码参考结构中较低层次的视频帧是指在一个编码组中量化参数相对较大的帧；

(5)对选定的视频帧，利用其邻近已经解码的重建帧来预测该帧，得到该帧的虚拟帧；

(5.1)所述的邻近已经解码的重建帧是位置对称且成对出现的，它们的基础量化参数值高于当前帧，具体地：

设当前待增强帧的前面第i帧图像与当前待增强帧的后面第i帧图像为邻近已经解码的重建帧，根据这对重建帧可得到当前帧的虚拟帧，标记为虚拟帧i；

(5.2)所述的利用其邻近已经解码的重建帧来预测该帧的预测方法是一种基于神经网络的方法，该预测神经网络输入当前帧前后成对的两帧图像，得到当前帧的虚拟帧；设当前帧为X，其前后成对的两帧图像经过该预测神经网络得到的预测帧为X’，通过最小化以下目标函数训练该预测神经网络：

其中，ω是神经网络的权重系数，m是训练样本的数目；

(6)当前帧经过解码得到了当前帧的重建帧，利用该帧的虚拟帧与该帧的重建帧，对该帧进行质量增强，得到增强的重建图像；

所述的质量增强是指待增强的当前帧的虚拟帧与重建帧帧经过卷积并将生成的特征图级联后，使用与下采样神经网络结构对称的上采样神经网络，输出增强的当前帧，增强后视频帧的分辨率放大了2 ^P倍，其中P是非负整数。
根据权利要求1所述的一种无线自组织网络带宽受限下的视频业务质量增强方法，其特征在于，所述的编码参考结构中较低层次的帧的位置与编码组尺寸有关，编码组尺寸为8的情况下，选择位于编码参考结构倒数第一层的帧与位于倒数第二层的帧；编码组尺寸为16的情况下，选择位于编码参考结构倒数第一层的帧、倒数第二层的帧与倒数第三层的帧。