WO2023019870A1

WO2023019870A1 - 视频处理方法及装置、电子设备、存储介质、计算机程序、计算机程序产品

Info

Publication number: WO2023019870A1
Application number: PCT/CN2022/070177
Authority: WO
Inventors: 许通达; 高宸健; 王岩; 袁涛; 秦红伟
Original assignee: 上海商汤智能科技有限公司
Priority date: 2021-08-20
Filing date: 2022-01-04
Publication date: 2023-02-23
Also published as: CN113660531A; CN113660531B

Abstract

本公开涉及一种视频处理方法及装置、电子设备、存储介质、计算机程序、计算机程序产品，该方法包括：按照时间轴顺序在待处理视频中确定包括目标帧和相邻至少一个参考帧的目标帧序列，通过对目标帧序列进行注意力区域检测，得到用于区分目标帧中注意力区域和非注意力区域的目标检测图像。基于目标检测图像对根据目标帧确定的背景图像和前景图像进行透明度融合，得到在注意力区域显示前景图像，非注意力区域显示至少部分背景图像的目标替代图像，通过目标替代图像更新目标帧。通过在注意力区域显示前景图像，非注意力区域显示至少部分背景图像的目标替代图像更新目标帧，减少了整个待处理视频帧的码率，进而减少后续编码过程中产生的编码噪音。

Description

视频处理方法及装置、电子设备、存储介质、计算机程序、计算机程序产品

相关申请的交叉引用

本公开基于申请号为202110963126.9、申请日为2021年08月20日、申请名称为“视频处理方法及装置、电子设备和存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频处理方法及装置、电子设备、存储介质、计算机程序、计算机程序产品。

背景技术

在视频处理领域，识别视频中注意力区域并调整码率，对于提升视频主观质量或观众的视觉体验至关重要。然而，如何快速准确辨别注意力区域是一种挑战。此外，在视频编码过程中，简单地提升注意力区域码率，并降低非注意力区域码率，会导致在低码率下对非注意力区域造成编码噪声。

发明内容

本公开提出了一种视频处理方法及装置、电子设备、存储介质、计算机程序、计算机程序产品，旨在快速准确地识别视频中注意力区域，并减少在视频编码过程中产生的编码噪声。

本公开实施例提供了一种视频处理方法，所述方法包括：

按照时间轴顺序在待处理视频中确定目标帧序列，所述目标帧序列中包括：目标帧和距离所述目标帧预设长度范围内的至少一个参考帧；

根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像；

根据所述目标帧确定对应的背景图像和前景图像；

根据所述目标检测图像对所述背景图像和前景图像进行透明度融合，得到目标替代图像，所述目标替代图像的注意力区域为所述前景图像，所述目标替代图像的非注意力区域为至少部分所述背景图像；

通过所述目标替代图像更新所述目标帧。

本公开实施例提供了一种视频处理装置，所述装置包括：

序列确定模块，配置为按照时间轴顺序在待处理视频中确定目标帧序列，所述目标帧序列中包括：目标帧和距离所述目标帧预设长度范围内的至少一个参考帧；

注意力区域检测模块，配置为根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像；

图像确定模块，配置为根据所述目标帧确定对应的背景图像和前景图像；

图像融合模块，配置为根据所述目标检测图像对所述背景图像和前景图像进行透明度融合，得到目标替代图像，所述目标替代图像的注意力区域为所述前景图像，所述目标替代图像的非注意力区域为至少部分所述背景图像；

图像更新模块，配置为通过所述目标替代图像更新所述目标帧。

本公开实施例提供了一种电子设备，包括：处理器；配置为存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法的部分或全部步骤。

本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法的部分或全部步骤。

本公开实施例提供一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码被计算机读取并执行的情况下，实现本公开任一实施例中的方法的部分或全部步骤。

本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现本公开任一实施例中的方法的部分或全部步骤。

本公开实施例中，可以确定目标帧的背景图像和前景图像，并通过在注意力区域显示前景图像，非注意力区域显示背景图像的目标替代图像更新目标帧，减少了整个待处理视频帧的码率，进而减少在后续编码过程中产生的编码噪音。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的一种视频处理方法的流程图；

图2为本公开实施例提供的一种确定目标帧序列的示意图；

图3A为本公开实施例提供的一种注意力区域检测过程的流程图；

图3B为本公开实施例提供的一种得到第一检测图像的流程示意图；

图4为本公开实施例提供的一种第二次图像处理过程的示意图；

图5为本公开实施例提供的一种注意力区域检测过程的示意图；

图6为本公开实施例提供的一种目标检测图像的示意图；

图7为本公开实施例提供的一种确定目标替代图像过程的示意图；

图8为本公开实施例提供的一种透明度融合过程的示意图；

图9为本公开实施例提供的一种确定自适应量化参数过程的示意图；

图10A为本公开实施例提供的一种数据传输过程的示意图；

图10B为本公开实施例提供的另一种数据传输过程的示意图；

图11为本公开实施例提供的一种视频处理装置的示意图；

图12为本公开实施例提供的一种电子设备的框图；

图13为本公开实施例提供的另一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1为本公开实施例提供的一种视频处理方法的流程图。该视频处理方法可以由终端设备或其它处理设备执行，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在一个示例性的应用场景中，可以通过对预先确定的待处理视频执行本公开实施例的视频处理方法，将其中的每一帧更新为在注意力区域和非注意力区域清晰度不同的图像，并确定各帧对应的自适应量化参数，通过待处理视频中各帧和对应的自适应量化参数进行视频编码。在一些实施例中，该视频处理方法和视频编码可以通过同一设备完成，或先由终端设备或其它设备执行视频处理方法后传输至视频编码器进行视频编码。

如图1所示，本公开实施例的视频处理方法包括以下步骤：

步骤S10、按照时间轴顺序在待处理视频中确定目标帧序列。

在一种可能的实现方式中，本公开实施例可以通过对待处理视频中每一帧分别进行处理的方式执行视频处理方法。也就是说，可以将待处理视频中各帧分别作为目标帧进行图像处理，以确定用于替换目标帧的目标替代图像。在完成当前目标帧的图像处理后，重新在待处理视频中确定未处理的帧作为新的目标帧，直到完成待处理视频中全部帧的图像处理，进而完成待处理视频的视频处理过程。在一些实施例中，为了提高视频处理效率，目标帧的处理顺序可以基于时间轴顺序依次确定。

在一些实施例中，待处理视频实质上为多个帧组成的帧序列，其中各帧均记录一幅静态的图像信息。因此，为了对目标帧进行视频处理，需要获取距离目标帧预设长度范围内的多个帧作为参考帧，以通过对参考帧与目标帧图像内容的对比，进行注意力区域检测，确定目标帧中的注意力区域，进行视频处理。

也就是说，在执行本公开实施例的视频处理方法时，先按照时间轴顺序依次在待处理视频中确定目标帧序列，目标帧序列中包括：目标帧和距离目标帧预设长度范围内的至少一个参考帧。“预设长度”可以为预设的帧数。其中，在目标帧之前或之后没有预设长度的帧数的情况下，即目标帧为视频开始的前几帧或末尾的后几帧时，可以不确定对应的帧序列，直接将相邻参考帧的注意力区域识别结果，作为当前目标帧的注意力区域识别结果。

以待处理视频中包括T1-T10帧为例进行说明。在预设长度为2的情况下，可以根据时间轴顺序依次确定目标帧序列为(T1,T2,T3,T4,T5)、(T2,T3,T4,T5,T6)、(T3,T4,T5,T6,T7)、(T4,T5,T6,T7,T8)、(T5,T6,T7,T8,T9)和(T6,T7,T8,T9,T10)。其中，各目标帧序列对应的目标帧依次为T3、T4、T5、T6、T7和T8，可以通过对各目标帧序列依次进行注意力区域检测，得到对应目标帧的注意力区域的识别结果。在一些实施例中，可以将T3的识别结果作为T1和T2的识别结果，以及将T8的识别结果作为T9和T10的识别结果。

在一个可能的实现方式中，本公开实施例获取目标帧序列的过程可以包括：按照时间轴顺序将待处理视频中各帧依次加入预设的先入先出队列，响应于队列中各位置均被占用，将队列中间位置的帧作为目标帧序列的目标帧，其它位置的帧作为目标帧序列的参考帧，确定目标帧序列。也就是说，预先设定一个长度固定的先入先出队列，根据待处理视频中各帧在时间轴上的顺序依次将各帧加入该队列，其中，各帧占用队列中的一个位置。在队列中各位置均被占用，即各位置中均存储有待处理视频中的一帧时，获取处于队列中间位置的帧作为目标帧，获取处于队列中其它位置的帧作为参考帧，根据目标帧和对应参考帧确定目标帧序列。其中，中间位置表征队列中最中间的一个位置，或者最中间两个位置中的预定位置。例如，当队列长度为奇数时，队列中仅包括一个最中间位置，确定该位置中的帧为目标帧。当队列长度为偶数时，队列中包括两个中间位置，可以确定两个位置中靠前位置内存储的帧为目标帧。

在一些实施例中，先入先出队列的长度可以为目标帧和参考帧的数量总和，即预设长度乘以二，并将相乘的结果加一，这里，预设长度可以等同于预设长度范围所指示的预设长度，预设长度可以为预设的帧数。例如，当预设长度为2时，先入先出队列的长度为5。在一些实施例中，在根据当前目标帧序列完成对目标帧的处理过程后，从队列中的第一个位置弹出队列中存储的帧，并将待处理视频中的下一帧压入队列。

图2为本公开实施例提供的一种确定目标帧序列的示意图。如图2所示，在确定目标帧序列时，将待处理视频20中的各帧沿时间轴顺序21依次加入预设的先入先出队列22。在一种可能的实现方式中，在队列22中的各位置依次被帧T-2、T-1、T、T+1和T+2占用的情况下，将当前处于队列22中间位置的帧T作为目标帧，将其它位置的帧T-2、T-1、T+1和T+2作为参考帧，确定目标帧序列(T-2,T-1,T,T+1,T+2)，以基于目标帧序列(T-2,T-1,T,T+1,T+2)对目标帧T进行注意力区域识别等视频处理过程。其中，可以在T-3帧被弹出，T+2帧被压入队列时确定目标帧序列。在一些实施例中，在完成当前目标帧序列(T-2,T-1,T,T+1,T+2)对应目标帧T的处理过程后，从当前队列22中第一个位置弹出最先加入队列22的帧T-2，并将时间轴上位于当前队列22中最后一个位置中帧T+2之后的帧T+3压入队列22，使得队列22中其它位置的帧向前移动一个位置。

在一种可选的实现方式中，上述顺序确定目标帧序列的方式能够提高整个视频处理过程的效率。同时，确定包括参考帧和目标帧的目标帧序列，以基于目标帧序列进行注意力区域检测，提高了目标帧对应注意力区域识别结果的准确程度。

步骤S20、根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像。

在一种可能的实现方式中，可以通过对目标帧序列进行注意力区域检测的方式，确定目标检测图像，该目标检测图像为：用于表征目标帧中注意力区域和非注意力区域的图像。在一些实施例中，可以通过对比目标帧序列中目标帧和参考帧中图像内容确定该注意力区域。在一些实施例中，注意力区域为人类在目标帧中会重点关注的区域，例如，可以为图像中相对静态背景下的运动区域或图像中特定轮廓所在的区域。其中，相对静态背景下的运动区域可以为：足球比赛视频中足球所在的区域等，特定轮廓所在的区域可以为：人脸识别场景下人脸轮廓所在的区域等。或者，在需要重点关注背景的情况下，注意力区域还可以为除了运动区域以外的其它区域。

图3A为本公开实施例提供的一种注意力区域检测过程的流程图。如图3A所示，在一个可能的实现方式中，本公开实施例对目标检测序列进行注意力区域检测，得到用于表征目标帧注意力区域和非注意力区域的目标检测图像过程，可以包括以下步骤：

步骤S21、对所述目标帧序列进行第一次图像处理，得到特征张量。

在一种可能的实现方式中，对目标帧序列进行第一次图像处理，得到特征张量，该特征张量用于表征：目标帧序列中目标帧和各参考帧的图像特征，其中，每一目标帧序列对应一特征张量。在一些实施例中，该第一次图像处理过程旨在将目标帧序列中的各帧由高分辨率图像转换为低分辨率图像，便于提高后续的注意力区域的检测速度和效率。

在一些实施例中，第一次图像处理的过程可包括：以预定倍数对目标帧序列中各帧进行降采样，根据降采样后的各帧，确定特征张量。也就是说，预先设定一个倍数，通过降采样的方式将目标帧序列中的各帧缩小预定倍数，再根据缩小后的各帧确定特征张量。在一些实施例中，该降采样的方式可以采用任意方式，例如最近邻插值，双线性插值，均值插值，中值插值等方法，在此不做限定。

在一种可能的实现方式中，当本公开实施例应用于视频编码场景时，为了提高后续视频编码过程的效率，可以根据编码过程中应用的宏块尺寸设定预定倍数。例如，当宏块尺寸为16×16时，设定预定倍数为16，即通过降采样的方式对各帧缩小16倍得到宏块级别的帧。

在一种可能的实现方式中，根据降采样后的各帧，确定的特征张量为四维的特征张量，其中，特征张量的四个维度分别为对应帧的时序、通道、高度和宽度。在一些实施例中，时序可以根据各帧在待处理图像中的时间轴顺序确定，通道根据各帧的色彩通道数确定，高度和宽度根据各帧的分辨率尺寸确定。四维的特征张量可适用于后文的MobileNetV3神经网络等轻量级神经网络，用于作为神经网络的输入数据。

步骤S22、将所述特征张量输入训练得到的神经网络中进行注意力区域检测。

在一种可能的实现方式中，将特征张量输入训练得到的神经网络中进行注意力区域检测，以通过对比目标帧和各参考帧的图像内容，确定目标帧中的注意力区域，输出用于表征注意力区域和非注意力区域的第一检测图像。在一些实施例中，第一检测图像的分辨率与降采样后各帧的分辨率相同。例如，在确定运动区域为注意力区域的情况下，可以通过对象识别确定目标帧和参考帧中包括的多个对象区域，再对比目标帧和参考帧中相同对象所在的对象区域的位置，根据位置的变化距离大于预设阈值的对象所对应的对象区域在目标帧中的位置，确定注意力区域。

在一种可能的实现方式中，该进行注意力区域检测的神经网络为一种轻量化的神经网络。在一些实施例中，该神经网络可以为MobileNetV3神经网络，依次包括：起始部分、中间部分和最后部分。其中，起始部分包括一个用于特征提取的卷积核大小为3×3的卷积层，中间部分包括11或15个bneck模块，最后部分包括一个平均池化层和一个卷积核大小为1×1的卷积层，bneck模块中包括依次连接的通道可分离卷积和通道注意力机制，并通过残差连接的方式减少卷积过程中的数据丢失。

图3B为本公开实施例提供的一种得到第一检测图像的流程示意图。如图3B所示，以先入先出队列的长度为5为例，可以将待处理视频中的帧T压入先入先出队列401，在将帧T压入先入先出队列401时，会弹出帧T-5，这样先入先出队列401中可以存储有帧T、帧T-1、帧T-2、帧T-3以及帧T-4。在实现的过程中，可以对先入先出队列401中的各帧分别进行降采样处理，并根据降采样后的各帧，得到特征向量402，将特征向量402输入MobileNetV3神经网络403，通过MobileNetV3神经网络403输出第一检测图像404。

由于MobileNetV3神经网络的结构特性使得MobileNetV3神经网络能够在减少运算量的同时提高计算结果的准确度，本公开实施例基于该神经网络，能够在低分辨率输入的情况下实时进行注意力区域检测，提高检测速度，同时提高检测结果的准确程度。

步骤S23、对所述第一检测图像进行第二次图像处理，得到与所述目标帧分辨率相同的目标检测图像。

在一种可能的实现方式中，对第一检测图像进行第二次图像处理，得到与目标帧分辨率相同的目标检测图像。其中，第二次图像处理过程用于将第一检测图像的尺寸还原为目标帧的原始尺寸，以基于得到的目标检测图像对目标帧进行图像处理和更新。在一种可能的实现方式中，对第一检测图像进行第二次图像处理的过程包括：以预定倍数对第一检测图像进行上采样，得到分辨率与目标帧相同的第二检测图像。以预设尺寸的窗口和步长对第二检测图像进行最大池化，得到目标检测图像。

在一些实施例中，通过与上述降采样倍数相同的预设倍数对第一检测图像进行上采样，可将第一检测图像的分辨率还原至目标帧相同的分辨率，得到第二检测图像。其中，对第一检测图像进行上采样的方式与可以采用任意方式，例如，最近邻插值，双线性插值，均值插值，中值插值等方法，在此不做限定。当然，也可以选用双三次插值法进行上采样，以提高最终得到的图像效果。

在一种可能的实现方式中，对第二检测图像进行最大池化的窗口尺寸可以根据上采样比例确定，即与上述的预定倍数相同。例如，当预定倍数为16时，可以确定最大池化的窗口尺寸为16×16。同时，为使得进行最大池化后得到的目标检测图像尺寸不发生改变，可以预先设定最大池化过程的步长为1。在本公开实施例应用于视频编码场景时，上述最大池化过程中的窗口尺寸的确定方式，可以提高后续视频编码过程的效率。

图4为本公开实施例提供的一种第二次图像处理过程的示意图。如图4所示，本公开实施例在通过神经网络对特征张量进行注意力区域检测得到第一检测图像40后，先通过上采样的方式将第一检测图像分辨率还原至与目标帧相同的第二检测图像41。同时，通过最大池化的方式提取第二检测图像41的纹理特征，得到能够清晰区分出注意力区域和非注意力区域的目标检测图像42，便于后续的图像处理。

图5为本公开实施例提供的一种注意力区域检测过程的示意图。如图5所示，本公开实施例对目标帧进行注意力区域检测的过程为：先确定目标帧对应的目标帧序列50，通过第一次图像处理对目标帧序列50中各帧降采样得到特征向量51。将低分辨率的特征向量51输入训练得到的神经网络52，能快速且准确地得到低分辨率的第一检测图像53。通过对第一检测图像53进行第二次图像处理，得到纹理特征清晰且分辨率高的目标检测图像54。该注意力区域检测过程提高了检测效率，且提高了检测结果的准确程度。

图6为本公开实施例提供的一种目标检测图像的示意图。如图6所示，目标帧对应的目标检测图像与目标帧的分辨率相同，各像素的值均为0-1的数值。其中，各数值用于表征对应像素在注意力区域中的概率，例如，数值为1的像素为注意力区域中的像素，数值为0的像素为非注意力区域的像素。

步骤S30、根据所述目标帧确定对应的背景图像和前景图像。

在一种可能的实现方式中，通过不同的图像处理方式分别对目标帧进行图像处理，以得到视觉效果不同的背景图像和前景图像。其中，对目标帧进行模糊处理，得到背景图像，对目标帧进行锐化处理，得到前景图像。在一些实施例中，本公开实施例对目标帧进行模糊处理的方式可以包括高斯模糊、椒盐模糊、运动模糊以及遮挡模糊等任意图像模糊处理方式，在此不做限定。

在一些实施例中，本公开实施例对目标帧进行锐化处理的方式可以包括：索贝尔算子锐化、拉普拉斯算子锐化、prewitt算子锐化以及canny算子锐化等任意图像锐化处理方式，在此不做限定。本公开实施例可以通过不同的处理方式分别确定前景图像和背景图像，以基于注意力区域融合前景图像和背景图像，增强注意力区域的图像轮廓，以提升清晰度，降低非注意力区域的图像清晰度，提高最终处理后得到图像的视觉体验。

步骤S40、根据所述目标检测图像对所述背景图像和前景图像进行透明度融合，得到目标替代图像。

在一种可能的实现方式中，目标替代图像的注意力区域为前景图像，非注意力区域为背景图像。根据目标检测图像对背景图像和前景图像进行透明度融合，得到目标替代图像的方式包括：根据目标检测图像确定透明度通道，根据透明度通道对背景图像和前景图像进行透明度融合，得到在注意力区域位置显示前景图像，在非注意力区域位置显示全部或部分背景图像的目标替代图像。

在一些实施例中，通过对目标检测图像进行归一化的方式将目标检测图像中各像素值重新映射到到0～1范围之内，得到对应的透明度通道。其中，像素值为1的区域为注意力区域，像素值不为1的区域为非注意力区域。在一些实施例中，像素值1表征透明度0％的位置，像素值0表征透明度100％的位置，0-1之间的像素值表征不透明的概率。

在一些实施例中，根据透明度通道对背景图像和前景图像进行透明度融合的方式可包括：根据透明度通道中各像素值表征的概率调整前景图像中各像素的透明度，再将调整后的前景图像与背景图像进行融合，得到目标替代图像。其中，目标替代图像在注意力区域位置显示不透明的前景图像，背景图像被遮盖。在非注意力区域，由于前景图像的透明度位于0-100％之间，能够全部或部分显示背景图像。在一些实施例中，在像素值为0的非注意力区域，该前景图像的透明度为100％，可以直接显示背景图像，在像素值非0和非1的像素值位置，根据该位置的像素值调整对应前景图像的透明度，以在该位置同时显示部分前景图像和部分背景图像。

图7为本公开实施例提供的一种确定目标替代图像过程的示意图。如图7所示，通过对目标帧70进行模糊处理，得到背景图像71，对目标帧70进行锐化处理，得到前景图像72。同时，通过对目标检测图像73进行归一化处理得到透明度通道74。通过对背景图像71、前景图像72和透明度通道74进行透明度融合，即可确定用于替换目标帧的目标替代图像75。

图8为本公开实施例提供的一种透明度融合过程的示意图。如图8所示，在对前景图像80、背景图像81和透明度通道82进行透明度融合时，将前景图像80作为图像顶层、背景图像81作为图像底层，对位于图像顶层的前景图像80和位于图像底层的背景图像81进行叠加。在一些实施例中，根据透明度通道82将前景图像80中注意力区域的透明度调节为100％(即，调节为不透明)，即在目标替代图像83的注意力区域显示位于图像顶层的前景图像80，将前景图像80中值为0的非注意力区域的透明度调节为100％，即在目标替代图像83的非注意力区域显示位于图像底层的背景图像81。对于目标检测图像中像素值介于0-1之间的非注意力区域，根据对应像素值调整各前景图像在各像素位置的透明度，以同时显示前景图像80和部分背景图像81，例如，当像素值为0.8时，将前景图像80的透明度调整为20％。

本公开实施例可以通过透明度融合的方式在注意力区域显示清晰的前景图像，在非注意力区域显示模糊的背景图像，提高得到目标替代图像的主观视觉体验。

步骤S50、通过所述目标替代图像更新所述目标帧。

在一种可选的实现方式中，在得到在注意力区域显示前景图像，在非注意力区域显示背景图像的目标替代图像后，通过目标替代图像更新待处理视频中的目标帧。在一些实施例中，在视频编码场景中，可以将更新后的目标帧作为输入帧，输入视频编码器进行视频编码。

在一些实施例中，响应于目标帧被更新，弹出队列中第一个位置中存储的帧，并将待处理视频中的下一帧压入队列。也就是说，在待处理视频中的目标帧被更新后，判断完成当前目标帧的处理过程，通过弹出队列中第一个位置中存储的帧，并将下一帧压入队列的方式，重新确定时间轴顺序上位于前一个目标帧之后的下一帧作为新的目标帧。同时，重新获取队列中各帧，以确定新的目标帧对应的目标帧序列。此时，被更新过的目标帧成为新的目标序列中的参考帧。

在一种可选的实现方式中，本公开实施例的视频处理方法应用于视频编码场景。为提高视频编码过程的效果，还需要确定目标检测图像对应的自适应量化参数，将更新后的目标帧和对应的自适应量化参数输入视频编码器，基于对应的自适应量化参数对目标帧进行视频编码。其中，将更新后的目标帧和对应的自适应量化参数输入视频编码器的过程可以是：将更新后的目标帧作为输入帧输入视频编码器，将自适应量化参数输入视频编码器的自适应量化接口。

以神经网络是MobileNetV3神经网络为例，本公开实施例中，可以基于MobileNetV3的轻量化神经网络，对降采样后得到的特征向量进行处理，能够实现对降采样至宏块级别的帧序列(视频)进行实时显著性检测，得到目标检测图像。在得到目标检测图像之后，基于目标检测图像，对目标帧序列(原始视频)进行后处理，并输出自适应量化参数，能够在降低码率的同时，提升视频的主观清晰度。

在一些实施例中，确定目标检测图像对应的自适应量化参数的过程包括：对目标检测图像进行直方图统计，得到对应的直方图映射表。根据直方图映射表映射目标检测图像，得到对应的初步量化参数。在一些实施例中，该映射过程可以为：初始化一个与目标检测图像尺寸相同的空白图像，对于目标检测图像中的各像素值，在直方图映射表中确定对应的数值，并将各数值存入该空白图像上与对应像素值位置相同的位置，得到对应的初步量化参数。或者，确定目标检测图像中的各像素值在直方图映射表中对应的数值，根据各数值替换目标检测图像中对应的像素值，得到初步量化参数。

在一些实施例中，通过对初步量化参数进行降采样，得到自适应量化参数。该自适应量化参数用于在视频编码过程中，对更新后的目标帧进行视频编码。该降采样过程用于将初步量化参数转换为适合进行视频编码的图像尺寸。在一种可选的实现方式中，对初步量化参数进行降采样的过程与对目标帧序列中各帧进行降采样的过程相同；对初步量化参数进行缩放与对目标帧序列中各帧进行缩放的缩放倍数也相同，在此不再赘述。

图9为本公开实施例提供的一种确定自适应量化参数过程的示意图。如图9所示，在视频编码的应用场景下，本公开实施例在确定目标检测图像90后，可以通过直方图映射的方式得到目标帧对应的初步量化参数91。其中，直方图映射的过程包括：对目标检测图像90进行直方图统计得到对应的直方图映射表，再通过直方图映射表映射目标检测图像的方式得到初步量化参数91。在一些实施例中，通过与目标帧序列中各帧降采样过程相同的预定倍数对初步量化参数进行降采样，得到自适应量化参数92。

图10A为本公开实施例提供的一种数据传输过程的示意图。如图10A所示，在将目标替代图像100更新至待处理视频中的目标帧位置后，将该目标替代图像100作为视频编码器的输入帧，输入视频编码器102。同时，还将基于目标检测图像确定的自适应量化参数101作为用于对目标替代图像100进行视频编码的参数，输入视频编码器102的自适应量化接口。

图10B为本公开实施例提供的另一种数据传输过程的示意图。基于图10B所示，可以通过对目标帧1001进行模糊处理，得到背景图像1002。对目标帧1001进行锐化处理，得到前景图像1003。对目标检测图像1004进行归一化处理，得到透明度通道1005。然后对背景图像1002、前景图像1003和透明度通道1005进行透明度融合，即可确定用于替换目标帧1001的目标替代图像1006。

在确定目标检测图像1004后，可以通过直方图映射的方式得到目标帧1001对应的初步量化参数1007，进而对初步量化参数1007进行降采样得到自适应量化参数1008。

在将目标替代图像1006更新至待处理视频中的目标帧位置后，将该目标替代图像1006作为视频编码器的输入帧，输入视频编码器1009。同时，还将基于目标检测图像1004确定的自适应量化参数1008作为用于对目标替代图像1006进行视频编码的参数，输入视频编码器1009的自适应量化接口。

在视频编码场景中，本公开实施例可以基于目标帧的注意力区域检测结果，确定对应的自适应量化参数，以进行自适应量化调整，提高视频编码过程的效率。

本公开实施例确定目标帧的背景图像和前景图像，并通过在注意力区域显示前景图像，非注意力区域显示背景图像的目标替代图像更新目标帧，减少了整个待处理视频帧的码率，减少了在后续编码过程中产生的编码噪音。在一些实施例中，本公开实施例通过将帧序列中各帧降采样后，进行注意力区域检测，提高了注意力区域检测过程的效率，实现了实时的注意力区域检测。

且通过本公开中的实施例，可以实时识别人眼感兴趣的区域，并将有限的码率用于保护注意力区域的质量，在视频总码率下降的情况下，还可以保持主观质量不变，从而节省网络带宽。从用户的使用角度考虑，还可以节省下载视频所需的流量，并减少视频延迟的情况，进而提升用户体验。从视频服务商的角度考虑，可以节省视频的储存空间与传输带宽，从而降低服务器成本。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。此外，本公开还提供了视频处理装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种视频处理方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图11为本公开实施例提供的一种视频处理装置的示意图，如图11所示，所述装置包括：序列确定模块110，配置为按照时间轴顺序在待处理视频中确定目标帧序列，所述目标帧序列中包括：目标帧和距离所述目标帧预设长度范围内的至少一个参考帧；注意力区域检测模块111，配置为根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像；图像确定模块112，配置为根据所述目标帧确定对应的背景图像和前景图像；图像融合模块113，配置为根据所述目标检测图像对所述背景图像和前景图像进行透明度融合，得到目标替代图像，所述目标替代图像的注意力区域为所述前景图像，所述目标替代图像的非注意力区域为至少部分所述背景图像；图像更新模块114，配置为通过所述目标替代图像更新所述目标帧。

在一种可能的实现方式中，所述注意力区域检测模块，包括：第一处理子模块，配置为对所述目标帧序列进行第一次图像处理，得到特征张量，所述特征张量用于表征：所述目标帧序列中目标帧和各参考帧的图像特征；检测子模块，配置为将所述特征张量输入训练得到的神经网络中进行注意力区域检测，通过对比所述目标帧和各所述参考帧确定所述目标帧中的注意力区域，输出用于表征所述目标帧中注意力区域和非注意力区域的第一检测图像，所述非注意力区域为除了注意力区域以外的区域；第二处理子模块，配置为对所述第一检测图像进行第二次图像处理，得到与所述目标帧分辨率相同的目标检测图像。

在一种可能的实现方式中，所述第一处理子模块，包括：降采样单元，配置为以预定倍数对所述目标帧序列中各帧进行降采样；特征张量确定单元，配置为根据降采样后的各帧，确定特征张量。在一种可能的实现方式中，所述特征张量包括四维的特征张量，所述特征张量的四个维度分别为对应帧的时序、通道、高度和宽度。

在一种可能的实现方式中，所述第二处理子模块，包括：上采样单元，配置为以所述预定倍数对所述第一检测图像进行上采样，得到分辨率与所述目标帧相同的第二检测图像；池化单元，配置为以预设尺寸的窗口和步长对所述第二检测图像进行最大池化，得到目标检测图像。在一种可能的实现方式中，所述神经网络为MobileNetV3神经网络。

在一种可能的实现方式中，所述图像确定模块，包括：背景确定子模块，配置为对所述目标帧进行模糊处理，得到背景图像；前景确定子模块，配置为对所述目标帧进行锐化处理，得到前景图像。

在一种可能的实现方式中，所述图像融合模块，包括：通道确定子模块，配置为根据所述目标检测图像确定透明度通道；图像融合子模块，配置为根据所述透明度通道对所述背景图像和前景图像进行透明度融合，得到在所述注意力区域位置显示所述前景图像，在非所述注意力区域位置显示所述背景图像的目标替代图像。

在一种可能的实现方式中，所述序列确定模块，包括：队列插入子模块，配置为按照时间轴顺序将所述待处理视频中各帧依次加入预设的先入先出队列；序列确定子模块，配置为响应于所述队列中各位置均被占用，将所述队列中间位置的帧作为目标帧，其它位置的帧作为参考帧，确定目标帧序列。

在一种可能的实现方式中，所述装置还包括：队列更新模块，配置为响应于所述目标帧被更新，弹出所述队列中第一个位置中存储的帧，并将所述待处理视频中的下一帧压入所述队列。在一种可能的实现方式中，所述装置还包括：参数确定模块，配置为确定所述目标检测图像对应的自适应量化参数；数据传输模块，配置为将更新后的所述目标帧和对应的自适应量化参数输入视频编码器，基于对应的自适应量化参数对所述目标帧进行视频编码。

在一种可能的实现方式中，所述参数确定模块，包括：直方图统计子模块，配置为对所述目标检测图像进行直方图统计，得到对应的直方图映射表；第一参数确定子模块，配置为根据所述直方图映射表映射所述目标检测图像，得到对应的初步量化参数；第二参数确定子模块，配置为对所述初步量化参数进行降采样，得到自适应量化参数。

在一种可能的实现方式中，所述数据传输模块包括：数据传输子模块，配置为将更新后的所述目标帧作为输入帧输入所述视频编码器，将所述自适应量化参数输入所述视频编码器的自适应量化接口。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以配置为执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；配置为存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法的部分或全部步骤。本公开实施例还提出一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码被计算机读取并执行的情况下，实现本公开任一实施例中的方法的部分或全部步骤。本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法的部分或全部步骤。

电子设备可以被提供为终端、服务器或其它形态的设备。

图12为本公开实施例提供的一种电子设备的框图。例如，电子设备1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图12，电子设备1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制电子设备1200的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220用于执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其它组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在电子设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令，如，联系人数据、电话簿数据、消息、图片、视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其它与为电子设备1200生成的用于管理和分配电力相关联的组件。

多媒体组件1208包括在所述电子设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器不仅可以感测触摸或滑动动作的边界，还可以检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或一个后置摄像头。当电子设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和每个后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当电子设备1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为电子设备1200提供各个方面的状态评估。例如，传感器组件1214可以检测到电子设备1200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1200的显示器和小键盘，传感器组件1214还可以检测电子设备1200或电子设备1200一个组件的位置改变，还可以检测用户与电子设备1200接触的存在或不存在，还可以检测电子设备1200的方位、加速、减速或者电子设备1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如互补金属氧化物半导体(CMOS)或电荷耦合装置(CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1216被配置为便于电子设备1200和其它设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络，如无线网络(WiFi)，第四代移动通信技术(4G)或第五代移动通信技术(5G)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其它技术来实现。

在示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子元件实现，用于执行上述方法。在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1204，上述计算机程序指令可由电子设备1200的处理器1220执行以完成上述方法的部分或全部步骤。

图13为本公开实施例提供的另一种电子设备的框图。如，电子设备1300可以被提供为一服务器。参照图13，电子设备1300包括处理组件1322，其包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述方法。

电子设备1300还可以包括一个电源组件1326，被配置为执行电子设备1300的电源管理，一个有线或无线网络接口1350，被配置为将电子设备1300连接到网络，和一个输入/输出(I/O)接口1358。电子设备1300可以操作基于存储在存储器1332的操作系统，例如微软服务器操作系统(Windows ServerTM)，苹果公司推出的基于图形用户界面操作系统(Mac OS XTM)，多用户多进程的计算机操作系统(UnixTM)，自由和开放源代码的类Unix操作系统(LinuxTM)，开放源代码的类Unix操作系统(FreeBSDTM)或类似。在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1332，上述计算机程序指令可由电子设备1300的处理组件1322执行以完成上述方法。本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备，可为易失性存储介质或者非易失性存储介质。计算机可读存储介质可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络，例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种视频处理方法，所述方法包括：

按照时间轴顺序在待处理视频中确定目标帧序列，所述目标帧序列中包括：目标帧和距离所述目标帧预设长度范围内的至少一个参考帧；

根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像；

根据所述目标帧确定对应的背景图像和前景图像；

根据所述目标检测图像对所述背景图像和所述前景图像进行透明度融合，得到目标替代图像，所述目标替代图像的注意力区域为所述前景图像，所述目标替代图像的非注意力区域为至少部分所述背景图像；

通过所述目标替代图像更新所述目标帧。
根据权利要求1所述的方法，其中，所述根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像，包括：

对所述目标帧序列进行第一次图像处理，得到特征张量，所述特征张量用于表征：所述目标帧序列中所述目标帧和各所述参考帧的图像特征；

将所述特征张量输入训练得到的神经网络中进行注意力区域检测，通过对比所述目标帧和各所述参考帧，确定所述目标帧中的注意力区域，并输出用于表征所述目标帧中注意力区域和非注意力区域的第一检测图像，非注意力区域为除了注意力区域以外的区域；

对所述第一检测图像进行第二次图像处理，得到与所述目标帧分辨率相同的目标检测图像。
根据权利要求2所述的方法，其中，所述对所述目标帧序列进行第一次图像处理，得到特征张量，包括：

以预定倍数对所述目标帧序列中各帧进行降采样；

根据降采样后的各帧，确定所述特征张量。
根据权利要求2或3所述的方法，其中，所述特征张量包括四维的特征张量，所述特征张量的四个维度分别为对应帧的时序、通道、高度和宽度。
根据权利要求2-4中任意一项所述的方法，其中，所述对所述第一检测图像进行第二次图像处理，得到与所述目标帧分辨率相同的目标检测图像，包括：

以预定倍数对所述第一检测图像进行上采样，得到分辨率与所述目标帧相同的第二检测图像；

以预设尺寸的窗口和步长对所述第二检测图像进行最大池化，得到所述目标检测图像。
根据权利要求2-5中任意一项所述的方法，其中，所述神经网络为MobileNetV3 神经网络。
根据权利要求1-6中任意一项所述的方法，其中，所述根据所述目标帧确定对应的背景图像和前景图像，包括：

对所述目标帧进行模糊处理，得到所述背景图像；

对所述目标帧进行锐化处理，得到所述前景图像。
根据权利要求1-7中任意一项所述的方法，其中，所述根据所述目标检测图像对所述背景图像和所述前景图像进行透明度融合，得到目标替代图像，包括：

根据所述目标检测图像确定透明度通道；

根据所述透明度通道对所述背景图像和所述前景图像进行透明度融合，得到在注意力区域位置显示所述前景图像，在非所述注意力区域位置显示所述背景图像的目标替代图像。
根据权利要求1-8中任意一项所述的方法，其中，所述按照时间轴顺序在待处理视频中确定目标帧序列，包括：

按照时间轴顺序将所述待处理视频中各帧依次加入预设的先入先出队列；

响应于所述队列中各位置均被占用，将所述队列中间位置的帧作为所述目标帧序列的所述目标帧，其它位置的帧作为所述目标帧序列的所述参考帧，确定所述目标帧序列。
根据权利要求9所述的方法，其中，所述方法还包括：

响应于所述目标帧被更新，弹出所述队列中第一个位置中存储的帧，并将所述待处理视频中的下一帧压入所述队列。
根据权利要求1-10中任意一项所述的方法，其中，所述方法还包括：

确定所述目标检测图像对应的自适应量化参数；

将更新后的所述目标帧和对应的自适应量化参数输入视频编码器，基于对应的自适应量化参数对更新后的所述目标帧进行视频编码。
根据权利要求11所述的方法，其中，所述确定所述目标检测图像对应的自适应量化参数，包括：

对所述目标检测图像进行直方图统计，得到对应的直方图映射表；

根据所述直方图映射表映射所述目标检测图像，得到对应的初步量化参数；

对所述初步量化参数进行降采样，得到所述自适应量化参数。
根据权利要求11或12所述的方法，其中，所述将更新后的所述目标帧和对应的自适应量化参数输入视频编码器，包括：

将更新后的所述目标帧作为输入帧输入所述视频编码器，将所述自适应量化参数输入所述视频编码器的自适应量化接口。
一种视频处理装置，所述装置包括：

序列确定模块，配置为按照时间轴顺序在待处理视频中确定目标帧序列，所述目标帧序列中包括：目标帧和距离所述目标帧预设长度范围内的至少一个参考帧；

注意力区域检测模块，配置为根据所述目标帧序列进行注意力区域检测，得到用于表征所述目标帧中注意力区域和非注意力区域的目标检测图像；

图像确定模块，配置为根据所述目标帧确定对应的背景图像和前景图像；

图像融合模块，配置为根据所述目标检测图像对所述背景图像和所述前景图像进行透明度融合，得到目标替代图像，所述目标替代图像的注意力区域为所述前景图像，所述目标替代图像的非注意力区域为至少部分所述背景图像；

图像更新模块，配置为通过所述目标替代图像更新所述目标帧。
根据权利要求14所述的装置，其中，所述注意力区域检测模块，包括：

第一处理子模块，配置为对所述目标帧序列进行第一次图像处理，得到特征张量，所述特征张量用于表征：所述目标帧序列中所述目标帧和各所述参考帧的图像特征；

检测子模块，配置为将所述特征张量输入训练得到的神经网络中进行注意力区域检测，通过对比所述目标帧和各所述参考帧，确定所述目标帧中的注意力区域，并输出用于表征所述目标帧中注意力区域和非注意力区域的第一检测图像，非注意力区域为除了注意力区域以外的区域；

第二处理子模块，配置为对所述第一检测图像进行第二次图像处理，得到与所述目标帧分辨率相同的目标检测图像。
根据权利要求15所述的装置，其中，所述第一处理子模块，包括：

降采样单元，配置为以预定倍数对所述目标帧序列中各帧进行降采样；

特征张量确定单元，配置为根据降采样后的各所述帧，确定所述特征张量。
根据权利要求15或16所述的装置，其中，所述特征张量包括四维的特征张量，所述特征张量的四个维度分别为对应帧的时序、通道、高度和宽度。
根据权利要求15-17中任意一项所述的装置，其中，所述第二处理子模块，包括：

上采样单元，配置为以预定倍数对所述第一检测图像进行上采样，得到分辨率与所述目标帧相同的第二检测图像；

池化单元，配置为以预设尺寸的窗口和步长对所述第二检测图像进行最大池化，得到所述目标检测图像。
根据权利要求15-18中任一项所述的装置，其中，所述神经网络为MobileNetV3神经网络。
根据权利要求14至19任一项所述的装置，其中，所述图像确定模块，包括：

背景确定子模块，配置为对所述目标帧进行模糊处理，得到所述背景图像；

前景确定子模块，配置为对所述目标帧进行锐化处理，得到所述前景图像。
根据权利要求14至20任一项所述的装置，其中，所述图像融合模块包括：

通道确定子模块，配置为根据所述目标检测图像确定透明度通道；

图像融合子模块，配置为根据所述透明度通道对所述背景图像和所述前景图像进行透明度融合，得到在注意力区域位置显示所述前景图像，在非所述注意力区域位置显示所述背景图像的目标替代图像。
根据权利要求14至21任一项所述的装置，其中，所述序列确定模块，包括：

队列插入子模块，配置为按照时间轴顺序将所述待处理视频中各帧依次加入预设的先入先出队列；

序列确定子模块，配置为响应于所述队列中各位置均被占用，将所述队列中间位置的帧作为所述目标帧序列的所述目标帧，其它位置的帧作为所述目标帧序列所述参考帧，确定所述目标帧序列。
根据权利要求22所述的装置，其中，所述装置还包括：

队列更新模块，配置为响应于所述目标帧被更新，弹出所述队列中第一个位置中存储的帧，并将所述待处理视频中的下一帧压入所述队列。
根据权利要求14至23任一项所述的装置，其中，所述装置还包括：

参数确定模块，配置为确定所述目标检测图像对应的自适应量化参数；

数据传输模块，配置为将更新后的所述目标帧和对应的自适应量化参数输入视频编码器，基于对应的自适应量化参数对所述目标帧进行视频编码。
根据权利要求24所述的装置，其中，所述参数确定模块，包括：

直方图统计子模块，配置为对所述目标检测图像进行直方图统计，得到对应的直方图映射表；

第一参数确定子模块，配置为根据所述直方图映射表映射所述目标检测图像，得到对应的初步量化参数；

第二参数确定子模块，配置为对所述初步量化参数进行降采样，得到所述自适应量化参数。
根据权利要求24或25所述的装置，其中，所述数据传输模块，包括：

数据传输子模块，配置为将更新后的所述目标帧作为输入帧输入所述视频编码器，将所述自适应量化参数输入所述视频编码器的自适应量化接口。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至13中任意一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现权利要求1至13中任意一项所述的方法。
一种计算机程序，包括计算机可读代码，在计算机可读代码在设备上运行的情况下，设备中的处理器执行用于实现权利要求1至13中任一所述的方法。
一种计算机程序产品，配置为存储计算机可读指令，所述计算机可读指令被执行时使得计算机执行权利要求1至13中任一所述的方法。