WO2023202447A1

WO2023202447A1 - 画质提升模型的训练方法和视频会议系统画质的提升方法

Info

Publication number: WO2023202447A1
Application number: PCT/CN2023/087910
Authority: WO
Inventors: 徐茜; 于维纳
Original assignee: 中兴通讯股份有限公司
Priority date: 2022-04-20
Filing date: 2023-04-12
Publication date: 2023-10-26
Also published as: CN116977191A

Abstract

本申请实施例涉及计算机视觉技术领域，公开了一种画质提升模型的训练方法和视频会议系统画质的提升方法。画质提升模型用于对视频会议系统的视频图像的画质进行提升，方法包括：获取至少一个噪声模型；其中，噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性；获取无噪图像集合，并将无噪图像集合中的无噪图像输入到噪声模型中，得到第二带噪图像，无噪图像和第二带噪图像构成训练数据对；使用训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型。

Description

画质提升模型的训练方法和视频会议系统画质的提升方法

交叉引用

本申请要求在2022年04月20日提交中国专利局、申请号为202210420820.0、发明名称为“画质提升模型的训练方法和视频会议系统画质的提升方法”的中国专利申请的优先权，该申请的全部内容通过引用结合在本发明中。

技术领域

本申请实施例涉及计算机视觉技术领域，尤其涉及一种画质提升模型的训练方法和视频会议系统画质的提升方法。

背景技术

自新冠疫情爆发以来，因疫情防控要求，很多公司逐步开展远程办公模式，减少人员流动。全球范围内对在线办公、在线会议等远程沟通场景应用的需求激增。在视频会议场景中，码率越高会给网络带宽带来越大的压力，由于视频会议是双向互动的产品，延迟过高会增加语音重叠，甚至导致音画不同步，从而影响整个视频会议的体验。为了降低高延迟风险，视频会议一般采用低码率进行视频图像的编码传输，这导致接收设备解码后得到的视频图像画质较差。另外，越来越多高清的接收端显示设备也要求图像的分辨率和清晰度不能过低。因此，如何在视频会议中以低码率传输来保持高画质是需要解决的难点问题。

然而，相关技术手段中的方法存在通用性差、速度慢和画质提升效果不明显等问题，难以满足实际场景中的部署需求。

发明内容

本发明的目的在于解决上述问题，提供一种画质提升模型的训练方法和视频会议系统画质的提升方法，解决了视频会议系统画质提升速度慢和画质提升效果不明显的问题。

为解决上述问题，本申请的实施例提供了一种画质提升模型的训练方法，画质提升模型用于对视频会议系统的视频图像的画质进行提升，方法包括：获取至少一个噪声模型；其中，噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性；获取无噪图像集合，并将无噪图像集合中的无噪图像输入到噪声模型中，得到第二带噪图像，无噪图像和第二带噪图像构成训练数据对；使用训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型。

为解决上述问题，本申请的实施例提供了一种视频会议系统画质的提升方法，包括：获取视频会议系统传输的视频图像；采用画质提升模型对视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像；其中，画质提升模型根据上述画质提升模型的训练方法得到。

为解决上述问题，本申请的实施例提供了一种画质提升模型的训练装置，其特征在于，画质提升模型用于对视频会议系统的视频图像的画质进行提升，包括：获取模块，获取至少一个噪声模型；其中，噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性；加噪模块，获取无噪图像集合，并将无噪图像集合中的无噪图像输入到噪声模型中，得到第二带噪图像，无噪图像和第二带噪图像构成训练数据对；训练模块，使用训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型。

为解决上述问题，本申请的实施例提供了一种视频会议系统画质的提升装置，其特征在于，包括：获取模块，获取视频会议系统传输的视频图像；画质提升模块，采用画质提升模型对视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像；其中，画质提升模型根据上述画质提升模型训练方法得到。

为解决上述问题，本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述画质提升模型的训练方法，或者，能够执行上述视频会议系统画质的提升方法。

为解决上述问题，本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述画质提升模型的训练方法，或者，能够实现上述视频会议系统画质的提升方法。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请一实施例提供的画质提升模型的训练方法的流程图；

图2是本申请一实施例提供的视频会议系统画质的提升方法的流程图；

图3是本申请一实施例提供的画质提升模型的训练装置的结构示意图；

图4是本申请一实施例提供的视频会议系统画质的提升装置的结构示意图；

图5是本申请一实施例提供的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本申请的一实施例涉及一种画质提升模型的训练方法，画质提升模型用于对视频会议系统的视频图像的画质进行提升，方法包括：获取至少一个噪声模型；其中，噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性；获取无噪图像集合，并将无噪图像集合中的无噪图像输入到噪声模型中，得到第二带噪图像，无噪图像和第二带噪图像构成训练数据对；使用训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型，在改善视频图像画质的同时保证了视频会议系统的实时性，解决了画质提升速度慢，画质提升效果不明显的问题。

下面对本实施例中的画质提升模型的训练方法的实现细节进行具体的说明，以下内容仅为方便理解本方案的实现细节，并非实施本方案的必须。具体流程如图1所示，可包括如下步骤：

在步骤101中，获取至少一个噪声模型；其中，噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性。

在本申请实施例中，在获取至少一个噪声模型之前，从视频会议系统的接收端获取第一带噪图像集合；其中，第一带噪图像集合中的各第一带噪图像在编码前的分辨率均低于第一阈值，各第一带噪图像在编码时的码率均低于第二阈值。

在一个例子中，将视频会议系统编码前的视频图像的分辨率下采样固定倍率，例如两倍或四倍，即将视频图像的分辨率降低两倍或四倍，并将视频会议系统的编码器的码率降低，在视频会议系统的接收端采集经视频会议系统低码率编码、传输和解码后的视频图像，即获取第一带噪图像集合。其中，视频会议系统基于H.264或H.265等编码方法使用降低的码率对降低了分辨率的视频图像进行编码，得到码流数据，码流数据经网络传输至视频会议系统的接收端，并对码流数据进行解码。

在一个例子中，使用第一带噪图像训练噪声模型，噪声模型由多个卷积残差块和下采样模块构成，噪声模型中的下采样方法和倍率与视频会议系统中的下采样方法和倍率相同，从而可以模拟视频图像经过视频会议系统对视频图像的下采样。另外，视频会议系统对视频图像进行编码、传输和解码视频图时会导致视频图像具有模糊、马赛克、振铃等噪声，而上述噪声可以看作是对图像使用了不同权重参数的滤波器，并且滤波器可以通过卷积层模拟，那么可以利用卷积层和下采样模块组成的噪声模型学习视频会议系统中视频图像经历的各种复杂变化，从而模拟视频会议系统的噪声特性。

在本申请实施例中，基于所述各第一带噪图像，获取噪声模型的集合；其中，所述第一带噪图像集合中的每一个第一带噪图像，均对应一个噪声模型。

其中，由于视频会议系统中的码率、帧率和图像分辨率等数值会根据实际网络情况、发送端和接收端的配置等因素动态变化，因此，从接收端采集到的第一带噪图像集合中的第一带噪图像具有不同的噪声特性。为了覆盖视频会议场景中多样的图像变化，对采集到的第一带噪图像集合中的每一个第一带噪图像训练一个噪声模型，得到噪声模型的集合。

在本申请实施例中，将第一带噪图像输入到初始噪声模型中，得到第三带噪图像；其中，在输入第一带噪图像时，随机选择是否叠加辛格滤波噪声；将第一带噪图像和第三带噪图像输入到常规卷积神经网络模型中，得到尺寸一致的第一带噪图像的第一组特征图和第三带噪图像的第二组特征图，根据第一组特征图和第二组特征图对初始噪声模型进行训练。

在一个例子中，为了增强振铃噪声，在向初始噪声模型输入第一带噪图像时，随机选择是否叠加辛格滤波噪声，其中，辛格滤波器的核大小范围根据视频会议系统的实际情况进行配置，并且随机叠加的辛格滤波噪声的大小在辛格滤波器的核大小范围内随机选择。

另外，由于视频会议系统中发送端编码前的原始图像和接收端解码后的图像尺寸并不一定成等比例缩放，但像素分布是大体一致的，由于噪声模型学习的是视频会议系统中视频图像经历的各种复杂变化，因此，输入噪声模型的第一带噪图像和噪声模型输出的第三带噪图像也并不一定成等比例缩放，且像素分布是大体一致的，因此，使用卷积神经网络模型将第一带噪图像和第三带噪图像转换成固定尺寸的特征图，将第一带噪图像的特征图作为噪声模型的真实值，将第三带噪图像的特征图作为噪声模型的预测值，根据上述预测值和真实值构建噪声模型的损失函数，根据损失函数对噪声模型进行迭代训练。

在一个例子中，在训练噪声模型时，将一张第一带噪图像分为多个尺寸一致的图像块，向噪声模型中输入一块第一带噪图像图像块，得到第三带噪图像图像块，然后再选择一种图像分类模型(即常规卷积神经网络模型)提取第一带噪图像图像块和第三带噪图像图像块的特征，例如ResNet(残差神经网络，Residual Network)、谷歌提出的高效神经网络(EfficientNet)等，去除掉其中的全局平均化池层和全连接层等不含空间特征的层，只保留特征提取部分，对第一带噪图像图像块和第三带噪图像图像块进行特征提取之后，增加ROI Pooling(感兴趣区域池化，Region of interest pooling)或感兴趣区域对齐(Region of interest Align，ROI Align)等特征尺寸归一化方法，将提取出的第一带噪图像图像块的特征图和第三带噪图像图像块的特征图转换为固定尺寸的两组特征图，根据两组特征图之间的距离，继续使用其他第一带噪图像块进行迭代训练，直至噪声模型训练完成。

在步骤102中，获取无噪图像集合，并将无噪图像集合中的无噪图像输入到噪声模型中，得到第二带噪图像，无噪图像和第二带噪图像构成训练数据对。

在本申请实施例中，针对获取的无噪图像集合中的每一张无噪图像，将无噪图像输入到从噪声模型的集合中随机选择的噪声模型，得到第二带噪图像。

在一个例子中，获取公开数据集中的无噪图像，例如下载收集BVI-DVC、LDV、DIV2K、Flickr2K等公开视频图像数据集，构建无噪图像集合。遍历无噪图像集合中的每一个无噪图像，随机从训练好的噪声模型的集合中选取一个噪声模型，将无噪图像输入到噪声模型中，得到带视频会议噪声特性的第二带噪图像，将输入的无噪图像和得到的第二带噪图像构成训练数据对，用作训练画质提升模型的训练数据。

由于视频会议系统中的视频图像数据一般需要经过多点控制单元进行转发，发送端和接收端的视频图像难以实现帧与帧的一一对应，并且视频会议系统一般会根据网络情况和接收端配置信息动态调节视频图像的分辨率尺寸，无法保证采集到的数据中高分辨率图像与低分辨率图像的倍率都是一致的。此外，发送端视频图像采集设备采集到的高分辨率图像大多已经经过了发送端设备的预处理，并不是未经加工的原始图像，其中已引入噪声信息。因此很难直接从视频会议系统中获取高清无噪图像。另外，在降低码率和分辨率后，视频图像中会额外增加因下采样导致的模糊噪声和因低码率导致的马赛克和振铃等噪声。模糊噪声可以看作高斯滤波，马赛克噪声可以看作卷积操作，振铃噪声可以看作辛格滤波，这些滤波器均可用卷积网络进行模拟。因此，基于上述图像特性本申请实施例提出了一种画质提升网络学习所需数据的生成方法，无需从视频会议系统的发送端获取高清无噪图像，直接对视频会议系统中因低码率低分辨率解码、传输和解码导致的各自图像变化过程进行仿真，获取具有视频会议系统噪声特性的噪声模型，使用噪声模型对公开数据集中高分辨无噪图像进行加噪得到第二带噪图像，然后和高分辨无噪图像构成训练数据对，用于画质提升模型学习。

在步骤103中，使用训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型。

在本申请实施例中，在使用训练数据对对初始画质提升模型进行训练之前，将训练数据对转换为二进制数据格式或lmdb(闪电内存映射数据库，Lightning Memory-Mapped Database)数据库格式；从转换后的训练数据对的第二带噪图像中随机提取出指定尺寸的小块，并从转换后的数据对的无噪图像中提取出对应的小块；使用训练数据对对初始画质提升模型进行训练，包括：使用从训练数据对中提取出的小块对画质提升模型进行训练。

在一个例子中，将训练数据对的数据转换为二进制格式或者lmdb数据库格式，用于在进行画质提升模型训练时，提升数据读取的访问速度。

在一个例子中，从二进制格式或者lmdb数据库格式的训练集中随机选择一组训练数据对，从第二带噪图像中随机扣取大小为指定尺寸的小块，例如尺寸为64x64，小块的尺寸可以根据训练使用的硬件资源进行灵活配置，如果显存或内存空间较大，可以设置为96x96、128x128、192x192等尺寸。设缩放比例为s，从第二带噪图像中扣取64sx64s的小块后，再在无噪图像的对应位置扣取64sx64s的小块，每轮迭代采样多组数据用于模型训练，具体采样的数据组量根据训练的实际情况决定。

在一个例子中，画质提升模型的训练基础损失为L1loss，为了增强视频会议终端显示图像的高频纹理，分别计算画质提升模型输出视频图像和标签视频图像的Canny边缘检测图，然后计算边缘图之间的L1loss。两个损失加权求和作为最终损失，边缘损失权重为0.5，基础L1loss权重为1.0。

在一个例子中，画质提升模型由多个卷积残差块和上采样模块组成，基于上述的训练配置对画质提升模型进行多轮迭代训练，使画质提升模块的损失函数逐渐减小，收敛后得到训练好的权重参数固定的画质提升模型。

在本申请实施例中，对完成训练的画质提升模型进行卷积折叠，包括：遍历画质提升模型中的所有卷积残差块，针对每一个卷积残差块，将卷积残差块折叠成单个卷积；将单个卷积的权重拷贝到经过卷积折叠后的画质提升模型中。

在一个例子中，基于卷积层特性对训练好的画质提升模型进行卷积折叠，遍历画质提升模型中的卷积残差块，针对每一个可折叠的卷积残差块做卷积折叠，将所有可折叠的卷积残差块折叠成单个卷积，并将折叠后的卷积权重拷贝到由多个卷积和上采样模块组成的新的画质提升模型，即为最终用于画质提升的画质提升模型。

在一个例子中，卷积残差块由多个顺序连接的卷积层和多个残差连接组成。第一个卷积层的输入通道为小通道数，输出为大通道数，最后一个卷积层的输入通道为大通道数，输出为小通道数，中间卷积层的输入输出通道均为大通道数。残差连接将卷积残差块的输入连接到残差连接的输出，其他残差连接则是将中间卷积层的输入连接到残差连接的输出。以3个卷积层和2个残差连接组成的卷积残差块为例，卷积层的配置可以设置为8x256x1x1、256x256x3x3、256x8x1x1，第一个数据表示卷积输入通道数，第二个数据表示卷积输出通道数，第三个数据表示卷积核大小，所有卷积残差块均不做上采样或下采样操作，卷积步长均为1。第一个残差连接将卷积残差块的输入连接到其输出，第二个残差连接将3x3卷积输入连接到其输出。将第一卷积层和第二卷积层融合后，再和第三卷积层进行融合，可将卷积残差块折叠成单个8x8x3x3的卷积。

在一个例子中，残差连接可以看做权重参数为单位矩阵的卷积层，根据卷积相加性可以与对应卷积层的权重和偏置分别相加，从而融合成单个卷积层。以3个卷积为例，设每个卷积过程的计算公式都是y＝wx+b，w表示卷积权重，b表示卷积偏置，w和x之间为卷积操作，则三个卷积的计算过程可以记为y3＝w3(w2(w1x+b1)+b2)+b3，将其展开可以得到y3＝w3w2w1x+w3w2b1+w3b2+b3，则折叠后的卷积权重为w3w2w1，偏置为w3w2b1+w3b2+b3。上述卷积操作为：使用单位矩阵作为输入，分别与w1、w2、w3权重矩阵进行连续卷积，再将结果翻转，并重排数据顺序使其符合卷积核参数格式，即为w3w2w1结果，偏置计算得出的w3w2b1，则是将b1扩展成kxk卷积核，再分别与w2、w3进行矩阵操作得到，偏置计算得出的w3b2，则是将b2扩展成kxk卷积核，再与w3进行矩阵操作得到。将串联卷积融合成单个卷积后，再将最外层的残差连接与该卷积融合成单个卷积，从而完成了卷积残差块的卷积折叠。

通过对卷积残差块进行卷积折叠，减少了画质提升卷积神经网络(画质提升模型)的卷积层个数，减少了特征通道个数并去除了残差连接，从而减小画质提升卷积神经网络的参数量和内存访问次数，在不改变画质提升精度的同时进一步提升画质提升方法的推理速度，减少资源消耗。

在本申请实施例中，对所述画质提升模型进行int8量化处理，将经int8 量化处理后的模型作为最终的画质提升模型。将模型推理的前后处理操作移植到画质提升模型结构的内部，如加减均值、维度变换和颜色空间变换等，可以有效的提高在对视频图像进行画质提升时的速度。

在本申请实施例中，画质提升模型的输入和输出图像的图像格式为RGB(红绿蓝，Red Green Blue)格式，采样RGB格式作为画质提升模型的图像格式，画质提升模型的推理效果更佳。

在本申请实施例中，通过第一带噪图像训练用于模拟视频会议系统的噪声特性的噪声模型，并使用噪声模型对无噪图像进行加噪得到带有视频会议系统噪声特性的第二带噪图像，并通过无噪图像和第二带噪图像对画质提升模型进行训练，最后通过对训练好的画质提升模型进行卷积折叠，在提高了画质提升效果的同时也保证了系统的实时性。通过本申请实施例提供的画质提升模型的训练方法训练出的画质提升模型，可以同时实现超分重构和增强去噪的功能，减少了画质提升处理时间，改善了视频图像的画质，解决了常规技术手段中存在的问题。

本申请实施例提出的画质提升模型的训练方法，根据低分辨率低码率导致的噪声特性以及原始图像和终端解码图像像素分布大体一致性的特性，利用卷积神经网络对视频会议系统中因低码率低分辨率编码、传输和解码导致的各种复杂图像变化过程进行仿真，获取噪声模型，再利用噪声模型对无噪图像进行加噪，获取符合视频会议系统噪声特性的第二带噪图像，最后和对应的无噪图像构成训练数据对对画质提升模型进行训练，另外，在基于超分重建和增强去噪这两个任务下学习得到的卷积神经网络特征和权重参数存在明显的相似性，因此，根据这一特性，本申请实施例提出了一种同时进行超分重建和增强去噪的画质提升卷积神经网络(画质提升模型)。不同于相关技术手段中的学习方法，本申请实施例通过构造超分重建和增强去噪混合数据用于画质提升网络学习，只用单个单分支卷积神经网络就同时实现了超分重建和增强去噪任务，增强画质的同时还减少了增强画质的处理时间，极大改善画质提升效果，并且在完成画质提升模型的训练后，对卷积残差块进行卷积折叠，减少了画质提升卷积神经网络的卷积层个数、减少了特征通道个数并去除了残差连接，从而减小了画质提升卷积神经网络的参数量和内存访问次数，在不改变画质提升精度的同时进一步提升画质提升方法的推理速度，减少资源消耗。

本申请实施例还涉及一种视频会议系统画质的提升方法，包括：获取视频会议系统传输的视频图像；采用画质提升模型对视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像；其中，画质提升模型根据上述画质提升模型的训练方法得到。

下面对本实施例中的画质提升模型的训练方法的实现细节进行具体的说明，以下内容仅为方便理解本方案的实现细节，并非实施本方案的必须。具体流程如图2所示，可包括如下步骤：

在步骤201中，获取视频会议系统传输的视频图像。

在一个例子中，在视频会议系统对视频图像进行编码前，降低视频图像的分辨率并将视频会议系统的编码器的码率降低在视频会议系统的接收端采集经视频会议系统低码率编码、传输和解码后的视频图像。

在步骤202中，采用画质提升模型对所述视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像；其中，所述画质提升模型根据上述画质提升模型的训练方法得到。

在一个例子中，针对采集的视频图像中的每一帧图像，使用画质提升模型对视频图像进行分辨率提升和视频图像增强去噪，得到画质提升后的视频图像，并送入显示设备进行显示。

在本申请实施例中，在采用画质提升模型对视频会议系统的视频图像进行画质提升之前，将画质提升模型的类型转换成视频会议系统终端所需的类型。

在一个例子中，将画质提升模型转换为视频会议终端部署所需要的引擎类型，如MNN(移动神经网络，Mobile Neural Network)、TNN(腾讯神经网络，Tencent Neural Network)、TFLITE(TensorFlow Lite)、ONNX(开放神经网络交换，Open Neural Network Exchange)等，并作模型量化。

在本申请实施例中，采用画质提升模型对所述视频会议系统的视频图像进行画质提升之前，还包括：将视频图像拆分成N个尺寸一致的视频图像块，且相邻两个视频图像块之间重叠M像素；在同一时刻，分别将N个尺寸一致的视频图像块输入到画质提升模型中，得到N个高清视频图像块后，将N个高清视频图像块进行图像融合，得到画质提升后的视频图像；其中，M和N均为大于1的整数。

在一个例子中，在将视频图像输入到画质提升模型中之前，将视频图像拆分成四个相同大小且重叠2像素的视频图像块，拆分的方式为自上而下拆分，然后启动4个线程同时对视频图像块进行画质增强，得到四个高清视频图像块，再根据放大倍率进行图像融合，最终得到画质提升后的视频图像，送入显示设备进行显示，将视频图像拆分并同时进行画质提升，在改善实际显示效果的同时，也降低了推理的耗时。

需要说明的是，本申请实施例不对具体的拆分数量和重叠像素的大小进行限制，具体取值根据终端的实际情况决定。

在本申请实施例中，在得到画质提升后的视频图像之后，将高分辨率视频图像的图像格式转换为视频会议系统的图像格式；将高分辨率视频图像的数据格式转换为视频会议系统的数据格式；将高分辨率视频图像的数据类型转换为视频会议系统的数据类型。

在一个例子中，视频会议系统的视频图像格式为YUV，Y表示亮度，UV分别表示色度，三者含义和重要性并不一致。而卷积神经网络输入图像的不同通道会等权重处理，因此采用YUV作为画质提升网络的输入输出图像格式时，画质提升效果明显低于采用RGB作为输入输出图像格式。因此，本申请实施例采用RGB格式作为输入输出图像的图像格式，NCHW作为数据格式，数据类型为float浮点型，由于视频会议系统的图像格式为YUV，数据类型为无符号字符指针(unsigned char)，数据格式为NHWC，因此，在画质提升模型输出画质提升后的视频图像后，需要将视频图像的格式转换为适用于视频会议系统的格式，提供了基于GPU(图形处理器，Graphic Process Unit)算子实现YUV和RGB之间颜色空间转换、NHWC和NCHW之间数据格式转换、unsigned char和float之间数据类型转换的方法，从而减少CPU(中央处理器，Central Process Unit)计算操作，降低视频会议终端部署CPU消耗。

本申请实施例提供的视频会议系统画质的提升方法，只用一个画质提升模型就同时实现了超分重建和增强去噪任务，增强画质的同时还减少了增强画质的处理时间。另外，基于会议系统的需求，对噪声模型的类型以及噪声模型的输出图像的图像格式、数据格式和数据类型进行修改，使得视频会议系统画质提升方法通用性强，画质提升明显且速度块的同时，还可以满足实际场景中的部署需求。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请实施例还涉及一种画质提升模型的训练装置，如图3所示，包括：获取模块301、加噪模块302和训练模块303。

具体地说，获取模块301，用于获取至少一个噪声模型；其中，噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性；加噪模块302，用于获取无噪图像集合，并将无噪图像集合中的无噪图像输入到噪声模型中，得到第二带噪图像，所噪图像和所述第二带噪图像构成训练数据对；训练模块303，用于使用训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型。

在一个例子中，获取模块301使用第一带噪图像训练噪声模型，噪声模型由多个卷积残差块和下采样模块构成，噪声模型中的下采样方法和倍率与视频会议系统中的下采样方法和倍率相同，从而可以模拟视频图像经过视频会议系统对视频图像的下采样。另外，视频会议系统对视频图像进行编码、传输和解码视频图时会导致视频图像具有模糊、马赛克、振铃等噪声，而上述噪声可以看作是对图像使用了不同权重参数的滤波器，并且滤波器可以通过卷积层模拟，那么可以利用卷积层和下采样模块组成的噪声模型学习视频会议系统中视频图像经历的各种复杂变化，从而模拟视频会议系统的噪声特性。

在一个例子中，加噪模块302获取公开数据集中的无噪图像，例如下载收集BVI-DVC、LDV、DIV2K、Flickr2K等公开视频图像数据集，构建无噪图像集合。遍历无噪图像集合中的每一个无噪图像，随机从训练好的噪声模型的集合中选取一个噪声模型，将无噪图像输入到噪声模型中，得到带视频会议噪声特性的第二带噪图像，将输入的无噪图像和得到的第二带噪图像构成训练数据对，用作训练画质提升模型的训练数据。

在一个例子中，训练模块303从二进制格式或者lmdb数据库格式的训练集中随机选择一组训练数据对，从第二带噪图像中随机扣取大小为指定尺寸的小块，例如尺寸为64x64，小块的尺寸可以根据训练使用的硬件资源进行灵活配置，如果显存或内存空间较大，可以设置为96x96、128x128、192x192等尺寸。设缩放比例为s，从第二带噪图像中扣取64sx64s的小块后，再在无噪图像的对应位置扣取64sx64s的小块，每轮迭代采样多组数据用于模型训练，具体采样的数据组量根据训练的实际情况决定。

在一个例子中，训练模块303基于卷积层特性对训练好的画质提升模型进行卷积折叠，遍历画质提升模型中的卷积残差块，针对每一个可折叠的卷积残差块做卷积折叠，将所有可折叠的卷积残差块折叠成单个卷积，并将折叠后的卷积权重拷贝到由多个卷积和上采样模块组成的新的画质提升模型，即为最终用于画质提升的画质提升模型。

本申请实施例提出的画质提升模型的训练装置，根据低分辨率低码率导致的噪声特性以及原始图像和终端解码图像像素分布大体一致性的特性，利用卷积神经网络对视频会议系统中因低码率低分辨率编码、传输和解码导致的各种复杂图像变化过程进行仿真，获取噪声模型，再利用噪声模型对无噪图像进行加噪，获取符合视频会议系统噪声特性的第二带噪图像，最后和对应的无噪图像构成训练数据对对画质提升模型进行训练，极大改善画质提升效果，并且在完成画质提升模型的训练后，对卷积残差块进行卷积折叠，减少了画质提升卷积神经网络的卷积层个数、减少了特征通道个数并去除了残差连接，从而减小了画质提升卷积神经网络的参数量和内存访问次数，在不改变画质提升精度的同时进一步提升画质提升方法的推理速度，减少资源消耗。

不难发现，本实施方式为上述画质提升模型的训练方法实施例相对应的装置实施例，本实施方式可与上述画质提升模型的训练方法实施例互相配合实施。上述画质提升模型的训练方法实施例提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述画质提升模型的训练方法实施例中。

本申请实施例还涉及视频会议系统画质的提升装置，如图4所示，包括：获取模块401和画质提升模块402。

具体地说，获取模块401，用于获取视频会议系统传输的视频图像；画质提升模块402，用于采用画质提升模型对视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像；其中，画质提升模型根据权上述画质提升模型训练方法得到。

在一个例子中，获取模块401，在视频会议系统对视频图像进行编码前，降低视频图像的分辨率，并对视频会议系统的编码器的码率进行降低在视频会议系统的接收端采集经视频会议系统低码率编码、传输和解码后的视频图像。

在一个例子中，画质提升模块402，针对采集的视频图像中的每一帧图像，使用画质提升模型对视频图像进行分辨率提升和视频图像增强去噪，得到画质提升后的视频图像，并送入显示设备进行显示。

在一个例子中，画质提升模块402在将视频图像输入到画质提升模型中之前，将视频图像拆分成四个相同大小且重叠2像素的视频图像块，拆分的方式为自上而下拆分，然后启动4个线程同时对视频图像块进行画质增强，得到四个高清视频图像块，再根据放大倍率进行图像融合，最终得到画质提升后的视频图像，送入显示设备进行显示，将视频图像拆分并同时进行画质提升，在改善实际显示效果的同时，也降低了推理的耗时。

不难发现，本实施方式为上述视频会议系统画质的提升方法实施例相对应的装置实施例，本实施方式可与上述视频会议系统画质的提升方法实施例互相配合实施。上述视频会议系统画质的提升方法实施例提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述视频会议系统画质的提升方法实施例中。

值得一提的是，本申请上述两个实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施方式中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本申请的实施例还提供一种电子设备，如图5所示，包括至少一个处理器501；以及，与所述至少一个处理器501通信连接的存储器502；其中，所述存储器502存储有可被所述至少一个处理器501执行的指令，所述指令被所述至少一个处理器501执行，以使所述至少一个处理器能够执行上述画质提升模型的训练方法，或者，能够执行上述视频会议系统画质的提升方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请的实施例还提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例是提供给本领域普通技术人员来实现和使用本申请的，本领域普通技术人员可以在脱离本申请的发明思想的情况下，对上述实施例做出种种修改或变化，因而本申请的保护范围并不被上述实施例所限，而应该符合权利要求书所提到的创新性特征的最大范围。

Claims

一种画质提升模型的训练方法，其中，所述画质提升模型用于对视频会议系统的视频图像的画质进行提升，所述方法包括：

获取至少一个噪声模型；其中，所述噪声模型基于第一带噪图像训练得到，用于模拟视频会议系统的噪声特性；

获取无噪图像集合，并将所述无噪图像集合中的无噪图像输入到所述噪声模型中，得到第二带噪图像，所述无噪图像和所述第二带噪图像构成训练数据对；

使用所述训练数据对对初始画质提升模型进行训练，并在完成训练后，对完成训练的画质提升模型进行卷积折叠，得到最终的画质提升模型。
根据权利要求1所述的画质提升模型的训练方法，其中，所述噪声模型的训练，包括：

将所述第一带噪图像输入到初始噪声模型中，得到第三带噪图像；其中，在输入所述第一带噪图像时，随机选择是否叠加辛格滤波噪声；

将所述第一带噪图像和所述第三带噪图像输入到卷积神经网络模型中，得到尺寸一致的所述第一带噪图像的第一组特征图和所述第三带噪图像的第二组特征图，根据所述第一组特征图和所述第二组特征图对所述初始噪声模型进行训练。
根据权利要求1所述的画质提升模型的训练方法，其中，在所述获取至少一个噪声模型之前，还包括：

从所述视频会议系统的接收端获取第一带噪图像集合；其中，所述第一带噪图像集合中的各第一带噪图像在编码前的分辨率均低于第一阈值，所述各第一带噪图像在编码时的码率均低于第二阈值；

所述获取至少一个噪声模型，包括：

基于所述各第一带噪图像，获取噪声模型的集合；其中，所述第一带噪图像集合中的每一个第一带噪图像，均对应一个噪声模型；

所述将所述无噪图像集合中的无噪图像输入到所述噪声模型中，得到第二带噪图像，包括：

针对获取的无噪图像集合中的每一张无噪图像，将所述无噪图像输入到从所述噪声模型的集合中随机选择的噪声模型，得到第二带噪图像。
根据权利要求1所述的画质提升模型的训练方法，其中，在所述使用所述训练数据对对初始画质提升模型进行训练之前，还包括：

将所述训练数据对转换为二进制数据格式或闪电内存映射数据库lmdb格式；

从转换后的所述训练数据对的第二带噪图像中随机提取出指定尺寸的小块，并从转换后的所述数据对的无噪图像中提取出对应的小块；

所述使用所述训练数据对对初始画质提升模型进行训练，包括：

使用从所述训练数据对中提取出的小块对画质提升模型进行训练。
根据权利要求1所述的画质提升模型的训练方法，其中，所述对完成训练的画质提升模型进行卷积折叠，包括：

遍历所述画质提升模型中的所有卷积残差块，针对每一个卷积残差块，将所述卷积残差块折叠成单个卷积；

将所述单个卷积的权重拷贝到经过卷积折叠后的画质提升模型中。
根据权利要求1-5中任一项所述的画质提升模型的训练方法，其中，在所述对完成训练的画质提升模型进行卷积折叠之后，还包括：

对所述画质提升模型进行int8量化处理，将经所述int8量化处理后的模型作为所述最终的画质提升模型。
根据权利要求1-5中任一项所述的画质提升模型的训练方法，其中，所述画质提升模型的输入和输出图像的图像格式为RGB格式。
一种视频会议系统画质的提升方法，其中，包括：

获取视频会议系统传输的视频图像；

采用画质提升模型对所述视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像；其中，所述画质提升模型根据权利要求1至7中任一项所述的画质提升模型的训练方法得到。
根据权利要求8所述的视频会议系统画质的提升方法，其中，在所述采用画质提升模型对所述视频会议系统的视频图像进行画质提升之前，还包括：

将所述画质提升模型的类型转换成视频会议系统终端所需的类型。
根据权利要求8所述的视频会议系统画质的提升方法，其中，在所述采用画质提升模型对所述视频会议系统的视频图像进行画质提升之前，还包括：

将所述视频图像拆分成N个尺寸一致的视频图像块，且相邻两个视频图像块之间重叠M像素；

采用画质提升模型对所述视频会议系统的视频图像进行画质提升，得到画质提升后的视频图像，包括：

在同一时刻，分别将所述N个尺寸一致的视频图像块输入到所述画质提升模型中，得到N个高清视频图像块后，将所述N个高清视频图像块进行图像融合，得到画质提升后的视频图像；其中，所述M和N均为大于1的整数。
根据权利要求8-10中任一项所述的视频会议系统画质的提升方法，其中，在所述得到画质提升后的视频图像之后，还包括：

将所述画质提升后的视频图像的图像格式转换为视频会议系统的图像格式；

将所述画质提升后的视频图像的数据格式转换为视频会议系统的数据格式；

将所述画质提升后的视频图像的数据类型转换为视频会议系统的数据类型。
一种电子设备，其中，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的画质提升模型的训练方法，或者，能够执行如权利要求8至11中任一项所述的视频会议系统画质的提升方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的画质提升模型的训练方法，或者，能够实现如权利要求8至11中任一项所述的视频会议系统画质的提升方法。