WO2023036045A1

WO2023036045A1 - 模型训练方法、视频质量评估方法、装置、设备及介质

Info

Publication number: WO2023036045A1
Application number: PCT/CN2022/116480
Authority: WO
Inventors: 陈俊江
Original assignee: 中兴通讯股份有限公司
Priority date: 2021-09-09
Filing date: 2022-09-01
Publication date: 2023-03-16
Also published as: KR20240052000A; CN115775218A

Abstract

本公开提供一种用于视频质量评估的模型训练方法，包括:获取训练视频数据，其中，所述训练视频数据包括参考视频数据和失真视频数据；确定各所述训练视频数据的平均意见值MOS值；根据所述训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。本公开还提供一种视频质量评估方法、装置、设备及介质。

Description

模型训练方法、视频质量评估方法、装置、设备及介质

相关申请的交叉引用

本申请要求2021年9月9日提交给中国专利局的第202111055446.0号专利申请的优先权，其全部内容通过引用合并于此。

技术领域

本申请涉及但不限于图像处理技术领域。

背景技术

随着5G时代的来临，视频应用越来越广泛，如：直播、短视频、视频通话等。在万物诉诸视频的互联网时代，日趋庞大的数据流量给视频业务系统的稳定性带来了严峻的挑战。如何正确地对视频质量进行评估成了制约各项技术发展的重要瓶颈，甚至可以说，视频质量评估成为音视频领域中最为基础、也是最为重要的问题并亟待解决。

发明内容

本公开提供一种用于视频质量评估的模型训练方法、一种视频质量评估方法、一种用于视频质量评估的模型训练装置、一种视频质量评估装置、一种电子设备及一种计算机存储介质。

第一方面，本公开提供一种用于视频质量评估的模型训练方法，包括：获取训练视频数据，其中，所述训练视频数据包括参考视频数据和失真视频数据；确定各所述训练视频数据的平均意见值MOS值；根据所述训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。

又一方面，本公开提供一种视频质量评估方法，包括：根据本文所述的任一方法训练获得的最终质量评估模型对待评估视频数据进行处理，得到所述待评估视频数据的质量评估分数。

又一方面，本公开提供一种用于视频质量评估的模型训练装置，包括：获取模块，配置为获取训练视频数据；其中，所述训练视频数据包括参考视频数据和失真视频数据；处理模块，配置为确定各所述训练视频数据的平均意见值MOS值；训练模块，配置为根据所述训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。

又一方面，本公开提供一种视频质量评估装置，包括：评估模块，配置为根据如前所述的用于视频质量评估的模型训练方法训练获得的最终质量评估模型对待评估视频数据进行处理，得到所述待评估视频数据的质量评估分数。

又一方面，本公开提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本文所述的任一用于视频质量评估的模型训练方法。

又一方面，本公开提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本文所述的任一视频质量评估方法。

又一方面，本公开提供一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现本文所述的任一用于视频质量评估的模型训练方法。

又一方面，本公开提供一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现本文所述的任一视频质量评估方法。

附图说明

图1是本公开提供的用于视频质量评估的模型训练方法的流程示意图；

图2是本公开提供的训练初始视频质量评估模型的流程示意图；

图3是本公开提供的三维卷积神经网络的示意图；

图4是本公开提供的密集卷积网络的流程示意图；

图5是本公开提供的注意力机制网络的流程示意图；

图6是本公开提供的分层卷积网络的流程示意图；

图7是本公开提供的初始视频质量评估模型的流程示意图；

图8a是本公开提供的3D-PVQA方法的示意图；

图8b是本公开提供的参考视频数据的截图和失真视频数据的截图；

图9是本公开提供的确定各训练视频数据的平均意见值MOS值的流程示意图；

图10是本公开提供的视频质量评估方法的流程示意图；

图11是本公开提供的用于视频质量评估的模型训练装置的模块示意图；

图12是本公开提供的视频质量评估装的模块示意图；

图13是本公开提供的电子设备的示意图；

图14是本公开提供的计算机存储介质的示意图。

具体实施方式

在下文中将参考附图更充分地描述示例实施方式，但是所述示例实施方式可以以不同形式来体现且不应当被解释为限于本文阐述的实施方式。反之，提供这些实施方式的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施方式，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施方式可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施方式不限于附图中所示的实施方式，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

目前行业视频质量评估方法分为两大类：主观视频质量评估和客观视频质量评估。主观方法是直接让观测者对视频质量做出直观判断，它较为准确但相对复杂，且其结果易受多种因素影响，无法直接应用在工业领域。因此，实际中通常使用易于实现的基于人工智能的客观方法。但是，现阶段利用这些技术形成的方案如PSNR(Peak Signal to Noise Ratio，峰值信噪比)、SSIM(Structural Similarity Index Measurement，结构相似度索引度量)、VMAF(Video Multi-Method Assessment Fusion，视频多方法评估融合)等，最终效果不够好。所以，对视频质量进行更加准确的评估仍然是亟需解决的难题。

目前，常用的如PSNR、SSIM、VMAF等视频质量评估方案存在着对特征提取不全、对边界区分不明显等问题，导致最终效果不够好。本公开提出，预设用以充分提取特征以及准确检测图像中边界的初始视频质量评估模型，获取参考视频数据和失真视频数据，利用参考视频数据和失真视频数据及其MOS值(MOS--Mean Opinion Score，平均意见值)来训练初始视频质量评估模型，获得最终视频质量评估模型，以此提高视频质量评估的准确度。

如图1所示，本公开提供一种用于视频质量评估的模型训练方法，可以包括如下步骤S11至S13。

在步骤S11中，获取训练视频数据，其中，训练视频数据包括参考视频数据和失真视频数据。

在步骤S12中，确定各训练视频数据的MOS值。

在步骤S13中，根据训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。

其中，参考视频数据可以视作标准视频数据，可以通过开源数据集LIVE、CSIQ、IVP和自制数据集CENTER来获取参考视频数据和失真视频数据。MOS值即用以表征视频数据的质量高低的数值。开源数据集LIVE、CSIQ、IVP中的视频数据通常均携带有相应的MOS值，但自制数据集CENTER中的视频数据未携带有相应的MOS值，因此还需确定各训练视频数据的MOS值，可以直接获取来自开源数据集LIVE、CSIQ、IVP的训练视频数据的MOS值并为来自自制数据集CENTER的训练视频数据生成相应的MOS值，当然，也可以直接为所有训练视频数据生成相应的MOS值。在训练初始视频质量评估模型的过程中，当达到收敛条件时，可认为模型已满足视频质量评估需求，此时停止训练，得到最终视频质量评估模型。

从上述步骤S11-S13可以看出，通过本公开提供的用于视频质量评估的模型训练方法，预设用以充分提取图像特征以及准确检测图像中边界的初始视频质量评估模型，获取包括参考视频数据和失真视频数据的训练视频数据，同时利用参考视频数据和失真视频数据对初始视频质量评估模型进行训练来获得最终视频质量评估模型，能够明确区分失真视频数据和非失真视频数据即参考视频数据，从而保障用以训练模型的视频数据的独立性和多样性。训练初始视频质量评估模型得到的最终视频质量评估模型能够充分提取图像特征以及准确检测图像中边界，直接利用该最终视频质量评估模型即可对待评估的视频数据进行质量评估，提高了视频质量评估的准确度。

通常来说，模型在网络结构确定的情况下,有两部分内容影响模型最终的性能，一部分内容是模型的参数，例如权重、偏置等等；另一部分内容是模型的超参数，例如学习率、网络层数等等。如果使用相同的训练数据来对模型的参数和超参数进行优化，则将可能导致模型绝对过拟合。因此，可以使用独立的两个数据集来分别对初始视频质量评估模型的参数和超参数进行优化。

相应的，如图2所示，在一些实施方式中，所述根据训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件(即步骤S13中所述)可以包括如下步骤S131和S132。

在步骤S131中，根据预设比例和训练视频数据确定训练集和验证集，其中，训练集和验证集的交集为空集。

在步骤S132中，根据训练集和训练集中各视频数据的MOS值对初始视频质量评估模型的参数进行调整，以及根据验证集和验证集中各视频数据的MOS值对初始视频质量评估模型的超参数进行调整，直至达到收敛条件。

本公开对预设比例并不做具体限定，例如可以按照6：4的比例将训练数据划分为训练集和验证集。当然，预设比例也可以为8:2、5:5等其他比例。为了对最终视频质量评估模型的泛化能力进行简单评估，也可以将训练视频数据确定为训练集、验证集和测试集。例如可以按照6:2:2的比例将训练视频数据划分为训练集、验证集和测试集，训练集、验证集和测试集两两之间的交集均为空集。划分完毕后，将训练集和验证集用以训练初始视频质量评估模型来得到最终视频质量评估模型，将测试集用以评估最终视频质量评估模型的泛化能力。需要说明的是，测试集数据越多，则使用测试集评估最终视频质量评估模型的泛化能力的耗时越长；用以训练初始视频质量评估模型的视频数据数量越多，则最终视频质量评估模型的准确度越高。为了进一步提高视频质量评估的效率及准确度，可以适当增加训练视频数据的数量以及增加训练集和验证集在训练视频数据中所占的比例，例如可以按照10:1:1等其他比例在训练视频数据中划分训练集、验证集和测试集。

从上述步骤S131-S132可以看出，通过本公开提供的用于视频质量评估的模型训练方法，根据预设比例和训练视频数据确定交集为空集的训练集和验证集，使用训练集和训练集中各视频数据的MOS值来调整初始视频质量评估模型的参数，使用验证集和验证集中各视频数据的MOS值来调整初始视频质量评估模型的超参数，当达到收敛条件时能够得到可以充分提取图像特征以及准确检测图像中边界的准确度较高的最终视频质量评估模型，提高了视频质量评估的准确度。

根据训练视频数据及其MOS值训练预设的初始视频质量评估模型，是一个基于深度学习的模型训练过程，相当于以训练视频数据的MOS值为基准，致力于模型的输出结果不断向MOS值靠拢。当模型输出的评估结果与MOS值之间的差距较小时，即可认为模型已经满足合视频质量评估的需求。

相应的，所述收敛条件包括训练集中以及验证集中的各视频数据的评估误差率均不超过预设阈值，评估误差率利用如下公式计算得到：

E＝(|S-Mos|)/Mos，其中，

E为当前视频数据的评估误差率；

S为调整参数和超参数后的初始质量评估模型输出的当前视频数据的评估分数；

Mos为当前视频数据的Mos值。

对于任一视频数据，当前视频数据的MOS值已预先确定出，将当前视频数据输入调整参数和超参数后的初始质量评估模型后，调整参数和超参数后的初始质量评估模型将输出当前视频数据的评估分数S，因此可以计算得到当前视频数据的评估误差率E。当训练集中各视频数据和验证集中各视频数据的误差评估率均不超过预设阈值时，可以说明模型输出的评估结果与MOS值之间的差距较小，模型已经满足合视频质量评估的需求，此时可以停止训练。需要说明的是，本公开对预设阈值并不做具体限定，例如，预设阈值可以为0.28、0.26、0.24等等。

目前，常用的如PSNR、SSIM、VMAF等视频质量评估方案还存在着运动信息丢失的问题，导致最终效果不够好。本公开预设的初始视频质量评估模型中可以包括用于提取运动信息的三维卷积神经网络，以提高视频质量评估的准确度。相应的，在一些实施方式中，所述初始视频质量评估模型包括用于提取图像帧的运动信息的三维卷积神经网络。

如图3所示，为本公开提供的三维卷积神经网络的示意图。该三维卷积神经网络可以将多个连续的图像帧堆叠为一个立方体，然后在立方体中运用三维卷积核。在三维卷积神经网络的结构中，卷积层中每一个特征图(如图3右半部分所示)都会与上一层中多个邻近的连续帧(如图3左半部分所示)相连，因此可以捕捉到连续图像帧之间的运动信息。

仅利用三维卷积神经网络提取图像帧的运动信息，无法对视频数据进行完整评估，相应的，在一些实施方式中，所述初始视频质量评估模型还可以包括注意力模型、数据融合处理模块、全局池化模块和全连接层，其中，注意力模型、数据融合处理模块、三维卷积神经网络、全局池化模块和全连接层依次级联。

在一些实施方式中，所述注意力模型包括级联的多输入网络、二维卷积模块、密集卷积网络、下采样处理模块、分层卷积网络、上采样处理模块和注意力机制网络，密集卷积网络包括至少两个级联的密集卷积模块，密集卷积模块包括四个级联的密集连接卷积层。

如图4所示，为本公开提供的密集卷积网络的示意图。密集卷积网络包括至少两个级联密集卷积模块，每个密集卷积模块包括四个级联的密集连接卷积层，每个密集卷积连接层的输入均为当前密集卷积模块的所有前级密集卷积连接层的特征图融合。编码器每一层池化后的特征图都将经过一个密集卷积模块，每经过一个密集卷积模块，执行一次BN(BatchNormalization，批归一化)操作、ReLU(Rectified Linear Units，线性修正单元)激活函数操作和卷积Conv操作。

在一些实施方式中，所述注意力机制网络包括级联的注意力卷积模块、线性修正单元激活模块、非线性激活模块和注意力上采样处理模块。

如图5所示，为本公开提供的注意力机制网络的流程示意图。注意力机制网络的输入为低维特征g _i和高维特征x _l，其中，x _l为将分层卷积网络的输出xi经2倍上采样处理后得到的；密集卷积网络的一部分输出经上采样处理模块处理后再输入分层卷积网络后输出xi；g _i为密集卷积网络的另一部分输出；对g _i进行1*1卷积(W _g：Conv 1*1)，对x _l进行1*1卷积(W _x：Conv 1*1)，对两个卷积结果再进行矩阵相加处理，经过线性修正单元激活模块进行处理(ReLU)、1*1卷积(ψ：Conv 1*1)、非线性激活(Sigmoid)、上采样处理(Upsample)等操作，得到线性注意系数

最后将线性注意系数

按元素与低维特征g _i进行矩阵相乘处理，并保留相关激活，得到注意力系数

线性注意系数

可以通过以下公式计算获得：

注意力系数

可以通过以下公式计算获得：

在公式(1)和公式(2)中，W _g即为对g _i进行1*1卷积的结果，W _x即为对x _l进行1*1卷积的结果，T为矩阵转置符号，ψ即为对线性修正单元激活模块的输出进行1*1卷积的结果，

均在线性修正单元激活时得到。

在一些实施方式中，所述分层卷积网络包括第一分层网络、第二分层网络、第三分层网络和第四上采样处理模块，第一分层网络包括级联的第一下采样处理模块和第一分层卷积模块，第二分层网络包括级联的第二下采样处理模块、第二分层卷积模块和第二上采样处理模块，第三分层网络包括级联的全局池化模块、第三分层卷积模块和第三上采样处理模块，第一分层卷积模块还与第二下采样处理模块级联，第一分层卷积模块以及第二上采样处理模块与第四上采样处理模块级联，第四上采样处理模块和第三上采样处理模块还与第三分层卷积模块级联。

其中，第一下采样处理模块、第二下采样处理模块均配置为对数据进行下采样处理。第二上采样处理模块、第三上采样处理模块和第四上采样处理模块均用于对数据进行上采样处理。

如图6所示，为本公开提供的分层卷积网络的流程示意图。数据输入分层卷积网络后，分别输入第一分层网络、第二分层网络、第三分层网络和第四上采样处理模块进行处理；第一分层网络的输出与第二分层网络的输出进行数据融合处理，再输入至第四上采样处理模块；数据输入分层卷积网络后输入至全局池化模块进行处理，再输入至第三分层卷积模块进行处理，第三分层卷积模块的输出X ₁与第四上采样处理模块的输出P(X)进行矩阵相乘处理得到

再与第三上采样处理模块的输出X ₂进行矩阵相加处理得到

最后再次输入第三分层卷积模块进行处理，得到分层卷积网络的输出结果即高维特征xi。

在一些实施方式中，第一分层卷积模块可以对数据进行Conv 5*5操作(即5*5卷积)，第二分层卷积模块可以对数据进行Conv 3*3操作(即3*3卷积)，第三分层卷积模块可以对数据进行Conv 1*1操作(即1*1卷积)。应当理解，也可以使用相同的卷积模块分别进行Conv 5*5操作、Conv 3*3操作和Conv 1*1操作。

如图7所示，为本公开提供的初始视频质量评估模型的流程示意图。其中，初始视频质量评估模型可以包括多输入网络、二维卷积模块、密集卷积网络、下采样处理模块、分层卷积网络、上采样处理模块、注意力机制网络、数据融合处理模块、三维卷积神经网络、全局池化模块和全连接层。

本公开所提供的视频质量评估模型可以称为3D-PVQA(3Dimensions Pyramid Video Quality Assessment，三维金字塔视频质量评估)模型及3D-PVQA方法。在前述步骤S132中，训练集中各视频数据以及验证集中各视频数据均分为失真视频数据和残差视频数据分别输入至3D-PVQA模型，即残差多输入Residual-Multi-Input和失真多输入Distored-Multi-Input。残差视频数据可以利用残差框架Residual Frames根据失真视频数据和参考视频数据处理得到。多输入网络将输入的数据输出为两组数据，第一组数据为原始的输入数据，第二组数据为将原始的输入数据按照数据帧大小缩小一倍后的数据。

以下半部分的失真多输入Distored-Multi-Input为例，多输入网络将输出两组数据，第一组数据经二维卷积模块进行处理后，输入密集卷积网络进行处理后，输入下采样处理模块进行处理；第二组数据经二维卷积模块进行处理后，与下采样处理模块的输出进行融合(concat)后，再次输入密集卷积网络进行处理，此时密集卷积网络的一部分输出将再次输入下采样处理模块进行处理，下采样处理模块的输出将输入至分层卷积网络进行处理。分层卷积网络的输出将与密集卷积网络的另一部分输出一起输入至注意力机制网络进行处理。数据融合处理模块对注意力机制网络处理得到的残差视频数据的输出结果以及失真视频数据的输出结果进行数据融合处理，数据融合处理模块的输出将输入两个三维卷积神经网络，三维卷积神经网络将输出失帧可感知度的阈值，将失帧可感知度的阈值与残差框架所得到的残差数据帧进行矩阵相乘处理，最后输入至全局池化模块和全连接层进行处理，将输出视频数据的质量评估分数。

应当理解，相同的模块可以重复使用，图6示出两个第一分层卷积模块、两个第二分层卷积模块以及三个第三分层卷积模块，并不指代分层卷积网络中共有两个第一分层卷积模块、两个第二分层卷积模块以及三个第三分层卷积模块。下采样处理模块与分层卷积网络中的下采样处理模块可以为相同的下采样处理模块，也可以为不同的下采样处理模块，上采样处理模块与分层卷积网络中的上采样处理模块以及注意力机制网络中的注意力上采样处理模块可以为相同的上采样处理模块，也可以为不同的上采样处理模块。

如图8a所示，可以将训练视频数据按照预设比例划分为训练集、验证集和测试集，将训练集输入3D-PVQA模型进行训练、将验证集输入3D-PVQA模型进行验证、将测试集输入3D-PVQA模型进行测试，均可以得到相应的质量评估分数。如前所示，可以将测试集用以评估最终视频质量评估模型的泛化能力,如图8b所示，左边为参考视频数据的截图，右边为失真视频数据的截图，如下表一所示，为视频数据的MOS值以及3D-PVQA模型输出的视频数据对应的质量评估分数。

表一

如图9所示，在一些实施方式中，所述确定各训练视频数据的平均意见值MOS值(即步骤S12)可以包括如下步骤S121至S124。

在步骤S121中，对各训练视频数据进行分组，每组中包括一条参考视频数据和多条失真视频数据，且每组中各视频数据的分辨率相同，且每组中各视频数据的帧率相同。

在步骤S122中，对每组中各失真视频数据进行分类。

在步骤S123中，对每组中每个分类的各失真视频数据进行分级。

在步骤S124中，根据各训练视频数据的分组、分类和分级确定各训练视频数据的MOS值。

其中，在对每组中各失真视频数据进行分类时，可以将失真视频数据分为丢包类失真、编码类失真等不同类别的失真视频数据，在对每组中每个分类的各失真视频数据进行分级时，可以将失真视频数据分为轻度、中度和重度三种不同程度的失真级别。

对各训练视频数据分组、分类、分级之后，每组中包括一条参考视频数据和多条失真视频数据，多条失真视频数据属于不同的类别，每种类别下的失真视频数据属于不同的失真级别，可以基于每组中的参考视频数据，利用SAMVIQ(Subjective Assessment Method for Video Quality evaluation，多媒体视频质量的主观评估)方法以及分组、分类和分级情况确定各训练视频数据的MOS值。

如图10所示，本公开还提供一种视频质量评估方法，可以包括如下步骤S21。

在步骤S21中，根据如前所述的用于视频质量评估的模型训练方法训练获得的最终质量评估模型对待评估视频数据进行处理，得到待评估视频数据的质量评估分数。

预设用以充分提取图像特征以及准确检测图像中边界的初始视频质量评估模型，获取包括参考视频数据和失真视频数据的训练视频数据，同时利用参考视频数据和失真视频数据对初始视频质量评估模型进行训练来获得最终视频质量评估模型，保障了用以训练模型的视频数据的独立性和多样性。直接利用该最终视频质量评估模型即可对待评估的视频数据进行质量评估，提高了视频质量评估的准确度。

基于相同的技术构思，如图11所示，本公开还提供一种用于视频质量评估的模型训练装置，可以包括：获取模块101、处理模块102、训练模块103。

获取模块101，配置为获取训练视频数据；其中，训练视频数据包括参考视频数据和失真视频数据。

处理模块102，配置为确定各训练视频数据的MOS值。

训练模块103，配置为根据训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。

在一些实施方式中，所述训练模块103配置为：根据预设比例和训练视频数据确定训练集和验证集，其中，训练集和验证集的交集为空集；根据训练集和训练集中各视频数据的MOS值对初始视频质量评估模型的参数进行调整，以及根据验证集和验证集中各视频数据的MOS值对初始视频质量评估模型的超参数进行调整，直至达到收敛条件。

在一些实施方式中，所述收敛条件包括训练集中以及验证集中的各视频数据的评估误差率均不超过预设阈值，所述评估误差率利用如下公式计算得到：

E＝(|S-Mos|)/Mos，其中，

E为当前视频数据的评估误差率；

Mos为当前视频数据的Mos值。

在一些实施方式中，所述初始视频质量评估模型包括用于提取图像帧的运动信息的三维卷积神经网络。

在一些实施方式中，所述初始视频质量评估模型还包括注意力模型、数据融合处理模块、全局池化模块和全连接层，注意力模型、数据融合处理模块、三维卷积神经网络、全局池化模块和全连接层依次级联。

在一些实施方式中，所述处理模块102配置为：对各训练视频数据进行分组，每组中包括一条参考视频数据和多条失真视频数据，且每组中各视频数据的分辨率相同，且每组中各视频数据的帧率相同；对每组中各视频数据进行分类；对每组中每个分类的各视频数据进行分级；根据各训练视频数据的分组、分类和分级确定各训练视频数据的MOS值。

基于相同的技术构思，如图12所示，本公开还提供一种视频质量评估装置，包括：评估模块201，配置为根据如前所述的用于视频质量评估的模型训练方法训练获得的最终质量评估模型对待评估视频数据进行处理，得到待评估视频数据的质量评估分数。

此外，如图13所示，本公开实施方式还提供一种电子设备，包括：一个或多个处理器301；存储装置302，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器301执行时，使得所述一个或多个处理器301实现以下至少一项方法：如前所述各实施方式提供的用于视频质量评估的模型训练方法；如前所述各实施方式提供的视频质量评估方法。

此外，如图14所示，本公开实施方式还提供一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现以下至少一项方法：如前所述各实施方式提供的用于视频质量评估的模型训练方法；如前所述各实施方式提供的视频质量评估方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施方式，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施方式相结合描述的特征、特性和/或元素，或可与其他实施方式相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种用于视频质量评估的模型训练方法，包括：

获取训练视频数据，其中，所述训练视频数据包括参考视频数据和失真视频数据；

确定各所述训练视频数据的平均意见值MOS值；

根据所述训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。
根据权利要求1所述的方法，其中，所述根据所述训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件包括：

根据预设比例和所述训练视频数据确定训练集和验证集，其中，所述训练集和所述验证集的交集为空集；

根据所述训练集和所述训练集中各视频数据的MOS值对所述初始视频质量评估模型的参数进行调整，以及根据所述验证集和所述验证集中各视频数据的MOS值对所述初始视频质量评估模型的超参数进行调整，直至达到收敛条件。
根据权利要求2所述的方法，其中，所述收敛条件包括所述训练集中以及所述验证集中的各视频数据的评估误差率均不超过预设阈值，所述评估误差率利用如下公式计算得到：

E＝(|S-Mos|)/Mos，其中，

E为当前视频数据的评估误差率；

S为调整参数和超参数后的所述初始质量评估模型输出的当前视频数据的评估分数；

Mos为当前视频数据的Mos值。
根据权利要求1至3中任意一项所述的方法，其中，所述初始视频质量评估模型包括用于提取图像帧的运动信息的三维卷积神经网络。
根据权利要求4所述的方法，其中，所述初始视频质量评估模型还包括注意力模型、数据融合处理模块、全局池化模块和全连接层，所述注意力模型、所述数据融合处理模块、所述三维卷积神经网络、所述全局池化模块和所述全连接层依次级联。
根据权利要求5所述的方法，其中，所述注意力模型包括级联的多输入网络、二维卷积模块、密集卷积网络、下采样处理模块、分层卷积网络、上采样处理模块和注意力机制网络，所述密集卷积网络包括至少两个级联的密集卷积模块，所述密集卷积模块包括四个级联的密集连接卷积层。
根据权利要求6所述的方法，其中，所述注意力机制网络包括级联的注意力卷积模块、线性修正单元激活模块、非线性激活模块和注意力上采样处理模块。
根据权利要求5所述的方法，其中，所述分层卷积网络包括第一分层网络、第二分层网络、第三分层网络和第四上采样处理模块，所述第一分层网络包括级联的第一下采样处理模块和第一分层卷积模块，所述第二分层网络包括级联的第二下采样处理模块、第二分层卷积模块和第二上采样处理模块，所述第三分层网络包括级联的全局池化模块、第三分层卷积模块和第三上采样处理模块，所述第一分层卷积模块还与所述第二下采样处理模块级联，所述第一分层卷积模块以及所述第二上采样处理模块与所述第四上采样处理模块级联，所述第四上采样处理模块和所述第三上采样处理模块还与所述第三分层卷积模块级联。
根据权利要求1至3中任意一项所述的方法，其中，所述确定各所述训练视频数据的平均意见值MOS值包括：

对各所述训练视频数据进行分组，每组中包括一条参考视频数据和多条失真视频数据，且每组中各视频数据的分辨率相同，且每组中各视频数据的帧率相同；

对每组中各视频数据进行分类；

对每组中每个分类的各视频数据进行分级；

根据所述各训练视频数据的分组、分类和分级确定各所述训练视频数据的MOS值。
一种视频质量评估方法，包括：

根据权利要求1-9任一项所述的方法训练获得的最终质量评估模型对待评估视频数据进行处理，得到所述待评估视频数据的质量评估分数。
一种用于视频质量评估的模型训练装置，包括：

获取模块，配置为获取训练视频数据；其中，所述训练视频数据包括参考视频数据和失真视频数据；

处理模块，配置为确定各所述训练视频数据的平均意见值MOS值；

训练模块，配置为根据所述训练视频数据及其MOS值训练预设的初始视频质量评估模型直至达到收敛条件，得到最终视频质量评估模型。
一种视频质量评估装置，包括：

评估模块，配置为根据权利要求1-9任一项所述的用于视频质量评估的模型训练方法训练获得的最终质量评估模型对待评估视频数据进行处理，得到所述待评估视频数据的质量评估分数。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现：如权利要求1-9任一项所述的用于视频质量评估的模型训练方法。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现：如权利要求10所述的视频质量评估方法。
一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现：如权利要求1-9任一项所述的用于视频质量评估的模型训练方法。
一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现：如权利要求10所述的视频质量评估方法。