WO2022127865A1

WO2022127865A1 - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: WO2022127865A1
Application number: PCT/CN2021/138819
Authority: WO
Inventors: 徐异凌; 晏航; 何大治; 孙军; 黄成�; 朱兴昌; 陈颖川; 尹芹; 张宇; 朱伟
Original assignee: 中兴通讯股份有限公司; 上海交通大学
Priority date: 2020-12-18
Filing date: 2021-12-16
Publication date: 2022-06-23
Also published as: CN114650421A

Abstract

本申请实施例涉及视频领域，公开了一种视频处理方法、装置、电子设备及存储介质，该方法包括：从视频画面的各区域中提取初始画面特征；根据初始画面特征，计算各区域的内容显著度；根据各区域的内容显著度，标记视频画面中的内容显著区域；对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；第一方式编码的画面质量高于第二方式编码的画面质量。

Description

视频处理方法、装置、电子设备及存储介质

交叉引用

本申请基于申请号为“202011507127.4”、申请日为2020年12月18日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请实施例涉及视频领域，特别涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，互联网用户对媒体消费的需求日益提高，高质量媒体内容以及一些新兴媒体内容如虚拟现实VR(Virtual Reality，简称“VR”)、云点播逐渐成为主流。

相关的视频处理技术中，为了保证用户的观看体验，媒体发布方会向用户端发送画面质量高的视频，其中，由于画面质量高的视频数据量大，传输视频必然需要较长的时间。

因此，视频处理技术存在以下问题：为了保证画面质量，需要传输的视频数据量庞大，与用户的实时交互需求存在矛盾。

发明内容

本申请实施例提供了一种视频处理方法，包括以下步骤：从视频画面的各区域中提取初始画面特征；根据初始画面特征，计算各区域的内容显著度；根据各区域的内容显著度，标记视频画面中的内容显著区域；对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；第一方式编码的画面质量高于第二方式编码的画面质量。

本申请实施例还提供了一种视频处理装置，包括：提取模块，用于从视频画面的各区域中提取初始画面特征；计算模块，用于根据初始画面特征，计算各区域的内容显著度；标记模块，用于根据各区域的内容显著度，标记视频画面中的内容显著区域；编码模块，用于对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；第一方式编码的画面质量高于第二方式编码的画面质量。

本申请实施例还提供了一种电子设备，包括：至少一个处理器；与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的视频处理方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的视频处理方法。

附图说明

图1是根据本申请第一实施方式提供的视频处理方法流程图；

图2是根据本申请第一实施方式提供的掩码示意图；

图3是根据本申请第二实施方式提供的视频处理方法的流程图；

图4是根据本申请第二实施方式提供的算法网络框架的示意图；

图5是根据本申请第二实施方式提供的帧间特征竞争模块的示意图；

图6是根据本申请第二实施方式提供的压缩和激活模型的示意图；

图7是根据本申请第二实施方式提供的自注意力模型的示意图；

图8是根据本申请第二实施方式提供的层级特征竞争模块的示意图；

图9是根据本申请第三实施方式提供的视频处理装置的结构示意图；

图10是根据本申请第四实施方式提供的电子设备示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例的主要目的在于提出一种视频处理方法、装置、电子设备及存储介质，实现在保证用户感官的前提下，减少视频数据量，减少视频传输时间，满足用户的实时交互需求。

本申请提出的视频处理方法，根据从视频画面的各区域中提取初始画面特征，计算各区域的内容显著度，根据各区域的内容显著度，标记视频画面中的内容显著区域，对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码，由于第一方式编码的画面质量高于第二方式编码，因此内容显著区域的画面质量较高，非内容显著区域的画面质量较低。由于视频画面质量和视频数据量成正比，因此，对非内容显著区域的画面采用质量较低的第二方式编码，可以减少视频编码后非内容显著区域的数据量，进而减少视频整体的数据量；又因为人类视觉系统的注意力主要集中在显著的目标或区域，所以，只要保证内容显著区域的画面质量，即使降低非内容显著区域的画面质量，也可以保证用户的观看体验。因此，本申请的视频处理方法能够在保证用户感官的前提下，减少视频数据量，进而减少视频所需传输时间，满足用户的实时交互需求。

本申请的第一实施方式涉及一种视频处理方法，具体流程如图1所示：

步骤101，从视频画面的各区域中提取初始画面特征；

步骤102，根据初始画面特征，计算各区域的内容显著度；

步骤103，根据各区域的内容显著度，标记视频画面中的内容显著区域；

步骤104，对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；第一方式编码的画面质量高于第二方式编码的画面质量。

本实施方式的视频处理方法，应用于视频编码器中。视频编码器用于对视频数据进行压缩编码，以满足存储和传输的要求。其中，视频编码器可以是视频点播平台、游戏平台等媒体平台在视频传输前对视频进行编码时使用的视频编码器。当用户通过视频点播平台点播视频，或通过游戏平台进行需要实时交互的游戏，如VR相关的游戏时，视频平台需要向用户发送用户点播的视频或游戏交互需要的视频，若视频清晰度的要求较高，则视频的数据量庞大。本申请的视频处理方法对视频画面中各区域进行非均匀编码，对内容显著区域，即用户感兴趣区域做质量较高的编码，对非内容显著区域做质量较低的编码，从而得到数据量较小的新视频，将此新视频传输给用户，供用户观看或进行交互。

下面对本实施方式的视频处理方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本申请的视频处理方法可以通过构造“编码器-门控循环单元-解码器”的算法网络框架实现。其中，门控循环单元(Gate Recurrent Unit，简称“GRU”)是一种轻量型循环神经网络，视频编码器可以采用轻量级网络残差网络18(Residual Network 18,简称“ResNet 18”)和深度可分离卷积(DeepwiseSeperable Convolution)进行算法网络的构建。

在步骤101中，视频编码器从视频画面的各区域中提取初始画面特征。视频编码器可以通过编码器从视频画面的各区域中提取初始画面特征。编码器通过卷积层、池化层和残差块，对各区域的初始画面特征提取。其中，区域的划分规格可以使用编码器默认设置的规格，也可以通过改变规格参数的方式，调节视频画面各区域的划分规格。编码器可以采用滑动窗口的方式，分别获取视频画面的各个区域，进行初始画面特征的提取。编码器提取的初始画面特征可以是一个，也可以是多个，初始画面特征可以向量或矩阵数组等形式存在。通过提取画面特征，视频编码器可以得到画面内容的数字化表征，以便于计算处理。

在步骤102中，视频编码器根据初始画面特征，计算各区域的内容显著度。根据提取得到的初始画面特征，视频编码器通过GRU和解码器分别对各区域的初始画面特征进行计算，得到各区域的内容显著度。其中，各区域的内容显著度可以分为：显著、非显著。

在一个例子中，视频编码器可以根据初始画面特征，计算各区域的内容显著度数值，根据各区域的内容显著度数值得到各区域的内容显著度。例如，视频编码器可以将内容显著度数值大于预设阈值的区域的内容显著度划分为显著，内容显著度数值不大于预设阈值的区域的内容显著度划分为非显著。将内容显著度数值大于预设阈值的区域标记为内容显著区域，将内容显著度数值不大于预设阈值的区域标记为非内容显著区域。

具体地，视频编码器利用监督学习的方式自适应学习得到从初始画面特征映射至内容显著度数值的目标域的映射函数。映射函数Y的表达式如下式：m＝Y(z)，其中，m是内容显著度数值，z是初始画面特征。在算法的训练阶段，视频编码器根据高斯分布，对训练数据集进行采样，根据采样数据得到初始随机函数，并通过自适应学习的方式，得到最终的映射函数Y。进一步地，视频编码器通过损失函数评估内容显著度数值的预测值和训练数据中的实际的真值之间的差异，通过梯度下降算法找寻最小预设损失函数得到映射函数Y。其中，训练阶段基于大量的数据集进行训练模拟，预设损失函数为：loss＝α·kl(p,s)+β·nss(p,s)+γ·cc(p,s)。loss表示损失函数，α、β和γ为乘法系数，经具体实验后得到的最佳数值分别为1、0.1和0.1，三个衡量指标的具体公式分别为：

上式中的x _i表示每一个像素点，n表示像素点的个数，N表示真值中内容显著度数值大于预设阈值的总点数，μ表示数学期望。p表示像素点所在区域对应的内容显著度预测值，s表示训练数据集中像素点所在区域对应的内容显著度真值。kl(p,s)衡量内容显著度的预测值和真值之间分布的差异程度，nss(p,s)衡量预测值最高的像素点的预测准确程度，cc(p,s)衡量预测值的线性变化趋势与真值的线性变化趋势的一致性程度。在训练阶段，视频编码器将初始随机函数作为映射函数Y，代入计算内容显著度数值，得到内容显著度数值的预测值，根据损失函数评估内容显著度数值的预测值与训练数据中的真值之间的差异，向差异小的方向调整映射函数，对映射函数迭代计算。直到预测值与真值之间的差异足够小时，视频编码器将此映射函数作为最终应用的映射函数Y。在算法的应用阶段，视频编码器直接将编码器提取到的特征，利用卷积和池化上采样操作将提取到的初始画面特征映射至内容显著度数值的目标域得到内容显著度数值结果。

在步骤103中，视频编码器根据各区域的内容显著度，标记视频画面中的内容显著区域。其中，视频编码器可以生成一个指示文件，用于标记视频画面中的内容显著区域。当各区域的内容显著度为：显著、非显著时，指示文件中可以包含视频画面各区域中显著区域的位置信息。

在步骤104中，视频编码器对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码，第一方式编码的画面质量高于第二方式编码的画面质量。第一方式编码、第二方式编码可以是对视频画面进行不同程度的压缩，例如，可以为第一方式编码、第二方式编码设置不同的量化参数QP(Qstep，简称“QP”)值对视频画面进行不同程度的压缩。其中，内容显著区域经过第一方式编码压缩后，画面清晰度高于使用第二方式编码压缩的非内容显著区域。具体地，视频编码器可以根据指示文件中显著区域的位置信息，对视频画面中的各区域进行编码。

在一个例子中，视频编码器也可以根据内容显著度数值对内容显著度进行进一步划分，例如，可以划分为：一级显著、二级显著、非显著等等显著级别。将内容显著度数值不大于预设阈值的区域的内容显著度划分为非显著、将内容显著度数值大于第一预设阈值的区域的内容显著度划分为一级显著、内容显著度数值大于第二预设阈值的区域的内容显著度划分为二级显著等。指示文件中包含视频画面各区域中不同区域的位置信息及对应的内容显著度。视频编码器可以根据指示文件中不同显著度对应的区域的位置信息，对视频画面中的各区域进行编码。若视频编码器为内容显著区域设置不同显著级别，可以根据不同显著级别，线性设置QP值，实现对视频画面进行不同程度的压缩。

在一个例子中，视频编码器可以对现有视频编码标准中的掩码接口进行修改，使用修改后的掩码接口对视频进行编码。视频编码器将现有的二值编码，修改成线性非均匀编码，修改前后的掩码如图2所示。掩码中，各区域的标记数值不同，则视频编码器为各区域分配的不同的QP值。其中，标记数值大的，表示内容显著度越高，视频编码器为此区域分配越小的QP值。优选地，视频编码器可以根据各区域内容显著度数值之间的线性关系，对各区域的QP值进行线性分配。

在一个例子中，视频编码器在从视频画面的各区域中提取初始画面特征前，从待处理的视频中提取视频帧，获取视频画面，从抽取的视频帧的各区域中提取初始画面特征。其中，视频编码器可以对视频的每一帧画面执行本实施例的步骤101至步骤104进行视频处理。

进一步地，视频编码器在从视频画面的各区域中提取初始画面特征前，还按预设帧间隔，从视频中抽取视频帧，获取视频帧的视频画面。其中，预设帧间隔可以取不为0的任一自然数。当预设帧间隔为N，若此次抽取的视频帧为第10帧，则视频编码器下一次抽取的视频帧为第10+N帧。

在一个例子中，在对视频画面的各区域编码完成后，视频编码器获取下一帧视频画面，对下一帧视频画面的各区域进行编码。其中，若视频编码器的预设间隔大于0，则在当前视频帧与抽取的下一视频帧之间的视频帧，视频编码器可以按当前视频帧的编码方案进行视频画面各区域的编码，编码方案即是指示文件中视频画面各区域位置与对应的内容显著度和编码方式的对应关系。例如，设当前视频帧为视频的第1000帧，预设间隔为5，则视频编码器对第1001、1002、1003、1004帧的视频画面各区域都按第1000帧的编码方案进行编码，即，视频编码器根据第1000帧的视频画面中进行第一方式编码的区域的位置信息，对应将第1001、1002、1003、1004帧的视频画面中的对应区域也进行第一方式编码。

在一个例子中，若视频编码器的预设间隔大于0，视频编码器还可以先根据预设帧间隔抽取下一视频帧，对下一视频帧执行本实施方式的视频处理方法后，视频编码器根据当前视频帧的编码方案和下一视频帧的编码方案，得到两个视频帧视频画面各区域的内容显著度数值，根据两个视频帧视频画面各对应区域的内容显著度数值，可以根据此两个视频帧的内容显著度数值，对此两个视频帧之间的各视频帧各对应区域的内容显著度数值进行线性分配，得到此两个视频帧之间的视频帧视频画面各对应区域的内容显著度数值。例如，设当前视频帧为视频的第1000帧，预设间隔为5，即下一视频帧为第1005帧，两个视频帧之间的视频帧为第1001、1002、1003、1004帧。视频编码器在完成第1000帧的编码后，先对第1005帧进行编码，根据第1000帧的编码方案和第1005帧的编码方案，获取第1000帧和第1005帧同一位置A区域的内容显著度数值，设第1000帧位置A区域的内容显著度数值为0、第1005帧位置A区域的内容显著度数值为5，则第1001帧位置A区域的内容显著度数值为1、第1002帧位置A区域的内容显著度数值为2、第1003帧位置A区域的内容显著度数值为3、第1004帧位置A区域的内容显著度数值为4。视频编码器根据计算得到的内容显著度数值，对各视频帧的视频画面各区域进行内容显著度的划分及编码。

本实施例中，根据从视频画面的各区域中提取初始画面特征，计算各区域的内容显著度，根据各区域的内容显著度，标记视频画面中的内容显著区域，对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码，由于第一方式编码的画面质量高于第二方式编码，因此内容显著区域的画面质量较高，非内容显著区域的画面质量较低。由于视频画面质量和视频数据量成正比，因此，对非内容显著区域的画面采用质量较低的第二方式编码，可以减少视频编码后非内容显著区域的数据量，进而减少视频整体的数据量；又因为人类视觉系统的注意力主要集中在显著的目标或区域，所以，只要保证内容显著区域的画面质量，即使降低非内容显著区域的画面质量，也可以保证用户的观看体验。因此，本申请的视频处理方法能够在保证用户感官的前提下，减少视频数据量，进而减少视频所需传输时间，满足用户的实时交互需求。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请的第二实施方式涉及一种视频处理方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，根据初始画面特征，计算各区域的内容显著度。而在本申请第二实施方式中，根据时间维度特征和空间维度特征，计算内容显著度。

本实施方式涉及一种视频处理方法。具体流程如图3所示：

步骤301，从视频画面的各区域中提取初始画面特征；

步骤302，根据初始画面特征，获取时间维度特征和空间维度特征；

步骤303，根据时间维度特征和空间维度特征，计算内容显著度；

步骤304，根据各区域的内容显著度，标记视频画面中的内容显著区域；

步骤305，对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；第一方式编码的画面质量高于第二方式编码的画面质量。

其中，步骤301、步骤304、步骤305与第一实施方式中的步骤101、步骤103、步骤104大致相同，不再赘述。

本实施方式的视频处理方法可以通过构造如图4所示的算法网络框架实现，其中，输入帧t-1为前一视频画面所在的视频帧，输入帧t为当前视频画面所在的视频帧，IFCM是帧间特征竞争子模块(Inter-Frame Feature Competition Module，简称“IFCM”)，用于获取时间维度特征，HFCM是层级特征竞争子模块(Hierarchical Feature Competition Module，简称“HFCM”)，用于获取空间维度特征，CDFE是一致性和差异性特征提取模块(Correlated and Differential Features Extraction Module，简称“CDFE”)。

在步骤302中，视频编码器初始画面特征，获取时间维度特征和空间维度特征。

在一个例子中，视频编码器通过以下方式获取时间维度特征：根据初始画面特征和前一视频画面对应区域的初始画面特征之间的一致性和差异性，获取一致性特征和差异性特征，将一致性特征和差异性特征加权融合，得到时间维度特征。视频编码器可以通过如图5所示的帧间特征竞争模块获取时间维度特征。帧间特征竞争模块通过光流网络(Flow-Net)中的相关层(Correlation Layer)、压缩和激活模块、自注意力模块，将得到的当前视频帧的当前视频画面各区域的初始画面特征和前一视频画面对应区域的初始画面特征进行点乘、加权优化等相关操作，得到局部空间位置(即一个区域)的前一视频帧和当前视频帧的相似特征表征。从而视频编码器可以对视频画面的各区域进行内容显著度的计算。视频编码器通过使用如图6所示的压缩和激活模型SE(Squeeze-and-Excitation Module，简称“SE”)在Relu函数卷积激活之后使用全局池化和Sigmoid函数在初始画面特征在特征维度得到每一维特征的激活值，并根据前一视频画面的初始画面特征，指示各维特征的空间位置，从而对相关层计算后的特征进行各维加权优化，其中，以激活值作为权值，其数值范围为[0,1]。视频编码器还通过使用如图7所示的自注意力模型SA(Self-Attention Module，简称“SA”)采用的残差相加的方式，利用Sigmoid函数在空间上进行加权优化，进行初始画面特征和前一视频画面对应区域的初始画面特征之间的一致性和差异性计算，获取一致性特征和差异性特征，再利用门控循环单元(Gate Recurrent Unit，简称“GRU”)，进行卷积操作、级联操作和非线性激活函数计算，将一致性特征和差异性特征加权融合，得到时间维度特征，其中，将一致性特征和差异性特征的加权融合公式如下：f _time＝SA(SE(Cat(δ(W _corrf _corr),δ(W _difff _diff))))，其中，f _time是时间维度特征、f _corr是一致性特征、f _diff是差异性特征，W _corr、W _diff是卷积要学习的参数。上述算式中，SE函数的具体计算式如下：SE(x)＝F _scale(x,σ(g(W ₂δ(W ₁x))))，SA函数的具体计算式如下：SA(x)＝x+σ(Wx)，参数δ表示非线性激活函数Relu，σ表示非线性激活函数Sigmoid，g代指全局池化操作，Cat代指级联操作，W、W ₁和W ₂为卷积要学习的参数，F _scale代表特征维度的点乘操作。

具体地，视频编码器根据初始画面特征和前一视频画面对应区域的初始画面特征，计算得到一致性掩膜和差异性掩膜；将前一视频画面对应区域的初始画面特征与一致性掩膜进行点乘，得到一致性特征；将初始画面特征与差异性掩膜进行点乘，得到差异性特征。一致性掩膜和差异性掩膜及一致性特征和差异性特征的计算公式如下：M _corr＝SA(WCat(f _t-1,SE(Corr(f _t,f _t-1))))，其中，Corr函数具体计算式如下，Corr(x ₁,x ₂)＝∑ _{o∈[-k,k]×[-k,k]}f _t-1(x ₁+o)·f _t(x ₂+o)。上述算式中，Corr表示光流网络中的相关层，f _t、f _t-1表示当前视频帧的视频画面中各区域的初始画面特征和前一视频画面对应区域的初始画面特征，[-k,k]表示f _t-1和f _t分别在相应区域位置进行计算的x ₁和x ₂的空间范围，M _corr为利用相关层和压缩和激活网络还有自注意力网络得到的一致性掩膜(Mask)，用于表征前一视频帧和当前视频帧中各个区域的一致性。视频编码器根据下式得到一致性特征和差异性特征：f _corr＝f _t-1·M _corr、f _diff＝f _t· (1-M _corr)，其中，f _corr、f _diff表示提取的一致性特征和差异性特征，1-M _corr是差异性掩膜。

本实施例中，通过根据初始画面特征和前一视频画面对应区域的初始画面特征之间的一致性和差异性，获取一致性特征和差异性特征，根据卷积操作、级联操作和非线性激活函数计算，将一致性特征和差异性特征加权融合，得到时间维度特征。由于视频画面的各区域与前一视频画面的各对应区域的一致性和差异性，可以体现视频画面各区域的画面内容在时间维度上的动态变化，因此，基于一致性特征和差异性特征得到的时间维度特征，充分挖掘了时间维度上人眼视觉系统的特性，可以进一步提高内容显著度计算的准确性。

在一个例子中，视频编码器通过以下方式获取空间维度特征：根据初始画面特征，获取低级特征和高级语义特征；其中，低级特征为通过对视频画面的浅层识别得到的特征，高级语义特征为通过对视频画面的内容识别得到的特征；将低级特征和高级语义特征加权融合，得到空间维度特征。其中，低级特征是画面内容的轮廓、边缘、色度、对比度、纹理和形状等等方面的特征，高级语义特征是对画面内容进行语义识别得到的特征，如人、车、树、狼等。视频编码器可以通过如图8所示的层级特征竞争模块获取空间维度特征。层级特征竞争模块通过使用压缩和激活模型SE在Relu函数卷积激活之后使用全局池化和Sigmoid函数在初始画面特征在特征维度得到每一维特征的激活值，其中，激活值的数值范围为[0,1]。视频编码器还通过使用自注意力模型SA采用的残差相加的方式，利用Sigmoid函数在空间上进行加权融合，得到空间维度特征。其中，视频编码器从编码器中提取多层级的低级特征、从解码器中提取高级语义特征，根据下式进行低级特征和高级语义特征加权融合：f _fuse＝SA(SE(Cat(δ(W _lowf _low),δ(W _highf _high))))，f _low、f _high表示提取的低级特征和高级语义特征，W _low、W _high为卷积要学习的参数。

本实施例中，通过根据初始画面特征，获取低级特征和高级语义特征，根据卷积操作、级联操作和非线性激活函数计算，将低级特征和高级语义特征加权融合，得到空间维度特征，由于视频画面的低级特征和高级语义特征对从不同内容维度得到的特征，使用二者加权融合得到的空间画面特征进行内容显著度的计算，可以进一步提高内容显著度计算的准确性。

在步骤303中，视频编码器根据时间维度特征和空间维度特征，计算内容显著度。

具体地，视频编码器中根据时间维度特征和空间维度特征，计算得到内容显著度数值，计算过程如下：在获取时间维度特征和空间维度特征后，利用监督学习的方式自适应学习得到从时间维度特征和空间维度特征的特征域映射至内容显著度数值的目标域的映射函数。映射函数Y′的表达式如下式：m＝Y′(z′ ₁,z′ ₂)，其中，m是内容显著度数值，z′ ₁是时间维度特征，z′ ₂是空间维度特征。在算法的训练阶段，视频编码器根据高斯分布，对训练数据集进行采样，得到初始随机函数，通过自适应学习的方式，得到映射函数Y′。进一步地，视频编码器通过损失函数评估内容显著度数值的预测值和训练数据中的实际值之间的差异，通过梯度下降算法自适应学习找寻最小预设损失函数得到映射函数Y′。其中，训练阶段基于大量的数据集进行训练模拟，预设损失函数为：loss＝α·kl(p,s)+β·nss(p,s)+γ·cc(p,s)。loss表示损失函数，α、β和γ为乘法系数，经具体实验后得到的最佳数值分别为1、0.1和0.1，三个衡量指标的具体公式分别为：

在训练阶段，视频编码器将初始随机函数作为映射函数Y′，代入计算内容显著度数值，得到内容显著度数值的预测值，根据损失函数评估内容显著度数值的预测值与训练数据中的真值之间的差异，向差异小的方向调整映射函数，对映射函数迭代计算。直到预测值与真值之间的差异足够小时，视频编码器将此映射函数作为最终应用的映射函数Y′。在算法的应用阶段，已经训练好的视频编码器直接将编码器提取到的特征，利用卷积和池化上采样操作将提取好的时间维度特征和空间维度特征映射至内容显著度数值的目标域得到内容显著度数值结果。

本实施方式中，通过根据初始画面特征，获取时间维度特征和空间维度特征，进行计算内容显著度的计算，可以根据视频画面在时间和空间上的表现出的不同特征，得到在不同维度上表现出显著性的画面内容，从而提高内容显著度计算的准确性。

本申请第三实施方式涉及一种视频处理装置，如图9所示，包括：

提取模块901，用于从视频画面的各区域中提取初始画面特征；

计算模块902，用于根据初始画面特征，计算各区域的内容显著度；

标记模块903，用于根据各区域的内容显著度，标记视频画面中的内容显著区域；

编码模块904，用于对内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；第一方式编码的画面质量高于第二方式编码的画面质量。

在一个例子中，计算模块902具体用于，根据初始画面特征，获取时间维度特征和空间维度特征，根据时间维度特征和空间维度特征，计算内容显著度。

在一个例子中，计算模块902还包括：帧间特征竞争子模块，用于根据初始画面特征和前一视频画面对应区域的初始画面特征之间的一致性和差异性，获取一致性特征和差异性特征；将一致性特征和差异性特征加权融合，得到时间维度特征。

在一个例子中，计算模块902还用于，根据初始画面特征和前一视频画面对应区域的初始画面特征，计算得到一致性掩膜和差异性掩膜；将前一视频画面对应区域的初始画面特征与一致性掩膜进行点乘，得到一致性特征；将初始画面特征与差异性掩膜进行点乘，得到差异性特征。

在一个例子中，计算模块902还包括：层级特征竞争子模块，用于根据初始画面特征，获取低级特征和高级语义特征；根据卷积操作、级联操作和非线性激活函数计算，将低级特征和高级语义特征加权融合，得到空间维度特征。

在一个例子中，计算模块902还用于根据初始画面特征，计算各区域的内容显著度数值；标记模块903还用于将内容显著度数值大于预设阈值的区域标记为内容显著区域。

在一个例子中，视频处理装置还包括抽取模块，用于在从视频画面的各区域中提取初始画面特征前，按预设帧间隔，从待处理的视频中抽取视频帧；提取模块901还用于，从抽取的视频帧的各区域中提取初始画面特征。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施方式中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本申请第四实施方式涉及一种电子设备，如图10所示，包括：至少一个处理器1001；与至少一个处理器通信连接的存储器1002；其中，存储器1002存储有可被至少一个处理器1001执行的指令，指令被至少一个处理器1001执行上述的视频处理方法。

其中，存储器1002和处理器1001采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器1001和存储器1002的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器1001处理的信息通过天线在无线介质上进行传输，进一步，天线还接收信息并将信息传送给处理器1001。

处理器1001负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器1002可以被用于存储处理器在执行操作时所使用的信息。

本申请第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

一种视频处理方法，包括：

从视频画面的各区域中提取初始画面特征；

根据所述初始画面特征，计算所述各区域的内容显著度；

根据所述各区域的内容显著度，标记视频画面中的内容显著区域；

对所述内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；

所述第一方式编码的画面质量高于所述第二方式编码的画面质量。
根据权利要求1所述的视频处理方法，其中，所述根据所述初始画面特征，计算所述各区域的内容显著度，包括：

根据所述初始画面特征，获取时间维度特征和空间维度特征；

根据所述时间维度特征和所述空间维度特征，计算所述内容显著度。
根据权利要求2所述的视频处理方法，其中，所述时间维度特征通过以下方式获取：

根据所述初始画面特征和前一视频画面对应区域的初始画面特征之间的一致性和差异性，获取一致性特征和差异性特征；

将所述一致性特征和所述差异性特征加权融合，得到所述时间维度特征。
根据权利要求3所述的视频处理方法，其中，所述根据所述初始画面特征和前一视频画面对应区域的初始画面特征之间的一致性和差异性，获取一致性特征和差异性特征，包括：

根据所述初始画面特征和前一视频画面对应区域的初始画面特征，计算得到一致性掩膜和差异性掩膜；

将所述前一视频画面对应区域的初始画面特征与所述一致性掩膜进行逐像素点点乘，得到所述一致性特征；

将所述初始画面特征与所述差异性掩膜进行点乘，得到所述差异性特征。
根据权利要求2至4中任一项所述的视频处理方法，其中，所述空间维度画面特征通过以下方式获取：

根据所述初始画面特征，获取低级特征和高级语义特征；其中，所述低级特征为通过对所述视频画面的浅层识别得到的特征，所述高级语义特征为通过对所述视频画面的内容识别得到的特征；

将所述低级特征和所述高级语义特征加权融合，得到所述空间维度特征。
根据权利要求1至5中任一项所述的视频处理方法，其中，在所述从视频画面的各区域中提取初始画面特征前，所述方法还包括：

按预设帧间隔，从待处理的视频中抽取视频帧；

所述从视频画面的各区域中提取初始画面特征，包括：

从所述抽取的视频帧的各区域中提取所述初始画面特征。
根据权利要求1至5中任一项所述的视频处理方法，其中，所述根据所述初始画面特征，计算所述各区域的内容显著度，包括：

根据所述初始画面特征，计算所述各区域的内容显著度数值；

所述根据所述各区域的内容显著度，标记视频画面中的内容显著区域，包括：

将所述内容显著度数值大于预设阈值的区域标记为所述内容显著区域。
一种视频处理装置，包括：

提取模块，用于从视频画面的各区域中提取初始画面特征；

计算模块，用于根据所述初始画面特征，计算所述各区域的内容显著度；

标记模块，用于根据所述各区域的内容显著度，标记视频画面中的内容显著区域；

编码模块，用于对所述内容显著区域进行第一方式编码，对非内容显著区域进行第二方式编码；所述第一方式编码的画面质量高于所述第二方式编码的画面质量。
一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的视频处理方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的视频处理方法。