WO2022022288A1

WO2022022288A1 - 一种图像处理方法以及装置

Info

Publication number: WO2022022288A1
Application number: PCT/CN2021/106380
Authority: WO
Inventors: 李松江; 磯部骏; 贾旭; 田奇
Original assignee: 华为技术有限公司
Priority date: 2020-07-31
Filing date: 2021-07-15
Publication date: 2022-02-03
Also published as: EP4181052A1; US20230177646A1; CN112070664B; CN112070664A; EP4181052A4

Abstract

一种人工智能领域的图像处理方法以及装置，用于对输入图像进行超分辨率处理，高效准确地得到更高清的图像。该方法包括：对第一图像进行分解，得到第一结构子图和第一细节子图（601），第一图像为视频数据中的除第一帧外的任意一帧图像；对第一隐状态信息和第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和第一细节子图进行拼接，得到第二细节子图，第一隐状态信息包括从第二图像中提取到的特征，第二图像包括视频数据与第一图像相邻的至少一帧图像；基于第二结构子图和第二细节子图进行特征提取，得到结构特征和细节特征（603）；根据结构特征和细节特征，得到输出图像（604），输出图像的分辨率高于第一图像的分辨率。

Description

一种图像处理方法以及装置

本申请要求于2020年07月31日提交中国专利局、申请号为“202010762144.6”、申请名称为“一种图像处理方法以及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种图像处理方法以及装置。

背景技术

超分辨率(super resolution，SR)是指从观测到的低分辨率图像重建出相应的高分辨率图像。通过将低分辨率的图像上采样放大，借助图像先验知识、图像自相似性和多帧图像互补信息等手段填充细节，生成对应的高分辨率图像。超分辨率技术在高清电视、观测设备、卫星图像和医学影像等领域有重要的应用价值。

在现有方案中，在对中间帧进行分辨率提升时，输入中间帧及其前后近邻的2N个近邻帧，组成一个2N+1帧的输入帧序列，然后对输入帧序列进行运动补偿，将近邻帧对齐到中间帧，融合多帧信息，最后实现中间帧的超分辨率输出。然而，在此方案中，需要先将未来的N个近邻帧暂存起来，从而导致N帧的延迟，处理视频流等需要实时的应用时，会有明显的延迟，降低了用户体验，并且，需要同时对2N+1帧进行特征提取，所需的特征提取网络较复杂。

发明内容

本申请提供一种图像处理方法以及装置，用于对输入图像进行超分辨率处理，高效准确地得到更高清的图像。

有鉴于此，本申请第一方面提供一种图像处理方法，包括：首先，对第一图像进行分解，得到第一结构子图和第一细节子图，第一图像为视频数据中的除第一帧外的任意一帧图像，且第一频率低于第二频率，第一频率为第一结构子图所包括的信息的频率，第二频率为第一细节子图所包括的信息的频率，即第一结构子图所包括的信息的频率高于第一细节子图所包括的信息的频率；然后，对第一隐状态信息和第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和第一细节子图进行拼接，得到第二细节子图，第一隐状态信息包括从第二图像中提取到的特征，第二图像包括视频数据与第一图像相邻的至少一帧图像；随后，基于第二结构子图和第二细节子图进行特征提取，得到结构特征和细节特征；随后，根据结构特征和细节特征，得到输出图像，输出图像的分辨率高于第一图像的分辨率。

因此，在本申请实施方式中，在进行视频数据的超分辨率处理的过程中，分解了结构分支和细节分支进行处理，并使用隐状态信息对结构和细节进行了进一步丰富，使最终得到的输出图像的结构和细节更丰富。无需缓存多帧对中间帧进行处理，可以高效地得到当前帧的高分辨率图像。

在一种可能的实施方式中，使用隐状态信息分别对第一结构子图和第一细节子图进行融合，得到第二结构子图和第二细节子图，可以包括：获取第一隐状态信息和第一图像的相似度矩阵，相似度矩阵中包括至少一个相似度，至少一个相似度用于表示第一隐状态信息所包括的图像区域和第一图像中的图像区域之间的相似程度；根据相似度矩阵对第一隐状态信息进行过滤，得到第二隐状态信息，第二隐状态信息中每个图像区域与第一图像中对应的图像区域的相似程度，高于第一隐状态信息中每个图像区域与第一图像中的图像区域的相似程度；使用第二隐状态信息对第一结构子图进行拼接，得到第二结构子图，使用第二隐状态信息对第一细节子图进行拼接，得到第二细节子图。

因此，本申请实施方式中，在使用第一隐状态信息时，可以过滤其中的冗余信息，使用过来后的隐状态信息分别对第一结构子图和第一细节子图进行融合，可以得到细节更丰富的第二结构子图，以及结构更丰富的第二结构子图。

在一种可能的实施方式中，基于第二结构子图和第二细节子图中的进行特征提取，得到结构特征和细节特征，可以包括：对第二结构子图和第二细节子图进行至少一次迭代融合，得到更新后的第二结构子图和更新后的第二细节子图；从更新后的第二结构子图中提取特征，得到结构特征，从更新后的第二细节子图中提取特征，得到细节特征。

因此，本申请实施方式中，可以对第二结构子图和第二细节子图所包括的信息进行融合，从而通过第二结构子图所包括的结构信息丰富第二细节子图的细节信息，以及通过第二细节子图所包括的细节信息来丰富第二结构子图包括的结构信息，从而使最终提取到的特征更丰富，进而使最终得到的输出图像更清晰，提高用户体验。

在一种可能的实施方式中，任意一次迭代融合过程包括：对上一次迭代得到的第二结构子图和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第一融合图像；对第一融合图像和上一次迭代得到的第二结构子图进行融合，得到当前次迭代的第二结构子图；对第一融合图像和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第二细节子图。

因此，在本申请实施方式中，在每次迭代融合的过程中，都可以融合上一次迭代得到的第二结构子图和上一次迭代得到的第二细节子图，并使用融合得到的第一融合图像分别融合第二结构子图和第二细节子图，从而通过第二结构子图所包括的结构信息丰富第二细节子图的细节信息，以及通过第二细节子图所包括的细节信息来丰富第二结构子图包括的结构信息，从而使最终提取到的特征更丰富，进而使最终得到的输出图像更清晰，提高用户体验。

在一种可能的实施方式中，根据结构特征和细节特征，得到输出图像，可以包括：融合结构特征和细节特征，得到第二融合图像；对第二融合图像进行放大处理，得到输出图像，输出图像的分辨率高于第二融合图像的分辨率。

因此，本申请实施方式中，可以放大第二融合图像得到输出图像，从而得到分辨率更高的输出图像。

在一种可能的实施方式中，在提取第二结构子图中的特征，得到结构特征，以及提取第二细节子图中的特征，得到细节特征之后，上述方法还包括：根据结构特征和细节特征更新第一隐状态信息，第一隐状态信息用于对视频数据中排列在第一图像的下一帧图像进行处理。

因此，在本申请实施方式中，在对当前帧进行超分辨率处理之后，可以更新第一隐状态信息，从而使在对下一帧进行处理的过程中，可以使用更新后的第一隐状态信息进行处理，提高下一帧对应的输出图像的清晰图，提高用户体验。

在一种可能的实施方式中，对第一图像进行分解，可以包括：对第一图像进行下采样，得到下采样图像；对下采样图像进行上采样，得到第一结构子图；从第一图像中去除第一结构子图，得到第一细节子图。

因此，本申请实施方式中，可以通过下采样以及上采样的方式来得到第一结构子图以及第一细节子图，提供了一种得到第一结构子图以及第一细节子图的具体方式。

第二方面，本申请提供一种图像处理装置，包括：

分解单元，用于对第一图像进行分解，得到第一结构子图和第一细节子图，第一图像为视频数据中的除第一帧外的任意一帧图像，且第一频率低于第二频率，第一频率为第一结构子图所包括的信息的频率，第二频率为第一细节子图所包括的信息的频率；

融合单元，用于对第一隐状态信息和第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和第一细节子图进行拼接，得到第二细节子图，第一隐状态信息包括从第二图像中提取到的特征，第二图像包括视频数据与第一图像相邻的至少一帧图像；

特征提取单元，用于基于第二结构子图和第二细节子图进行特征提取，得到结构特征和细节特征；

输出单元，用于根据结构特征和细节特征，得到输出图像，输出图像的分辨率高于第一图像的分辨率。

在一种可能的实施方式中，融合单元，具体用于：获取第一隐状态信息和第一图像的相似度矩阵，相似度矩阵中包括至少一个相似度，至少一个相似度用于表示第一隐状态信息所包括的图像区域和第一图像中的图像区域之间的相似程度；根据相似度矩阵对第一隐状态信息进行过滤，得到第二隐状态信息，第二隐状态信息中每个图像区域与第一图像中对应的图像区域的相似程度，高于第一隐状态信息中每个图像区域与第一图像中的图像区域的相似程度；使用第二隐状态信息对第一结构子图进行拼接，得到第二结构子图，使用第二隐状态信息对第一细节子图进行拼接，得到第二细节子图。

在一种可能的实施方式中，特征提取单元，用于：对第二结构子图和第二细节子图进行至少一次迭代融合，得到更新后的第二结构子图和更新后的第二细节子图；从更新后的第二结构子图中提取特征，得到结构特征，从更新后的第二细节子图中提取特征，得到细节特征。

在一种可能的实施方式中，任意一次迭代融合过程可以包括：对上一次迭代得到的第二结构子图和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第一融合图像；对第一融合图像和上一次迭代得到的第二结构子图进行融合，得到当前次迭代的第二结构子图；对第一融合图像和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第二细节子图。

在一种可能的实施方式中，输出单元，具体用于：融合结构特征和细节特征，得到第二融合图像；对第二融合图像进行放大处理，得到输出图像，输出图像的分辨率高于第二融合图像的分辨率。

在一种可能的实施方式中，该图像处理装置还可以包括：更新单元，用于根据结构特征和细节特征更新第一隐状态信息，第一隐状态信息用于对视频数据中排列在第一图像的下一帧图像进行处理。

在一种可能的实施方式中，分解单元，具体用于：对第一图像进行下采样，得到下采样图像；对下采样图像进行上采样，得到第一结构子图；从第一图像中去除第一结构子图，得到第一细节子图。

第三方面，本申请实施例提供一种图像处理装置，该图像处理装置具有实现上述第一方面图像处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第四方面，本申请实施例提供一种图像处理装置，包括：处理器和存储器，其中，处理器和存储器通过线路互联，处理器调用存储器中的程序代码用于执行上述第一方面任一项所示的图像处理方法中与处理相关的功能。可选地，该图像处理装置可以是芯片。

第五方面，本申请实施例提供了一种图像处理装置，该图像处理装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行如上述第一方面或第一方面任一可选实施方式中与处理相关的功能。

第六方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一可选实施方式中的方法。

第七方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一可选实施方式中的方法。

附图说明

图1为本申请应用的一种人工智能主体框架示意图；

图2为本申请实施例提供的一种卷积神经网络结构示意图；

图3为本申请实施例提供的另一种卷积神经网络结构示意图；

图4A为本申请实施例提供的一种图像处理方法的应用场景示意图；

图4B为本申请实施例提供的一种图像处理方法的应用场景示意图；

图5A本申请提供的一种系统架构示意图；

图5B为本申请实施例提供的一种图像处理方法的应用场景示意图；

图6为本申请实施例提供的一种图像处理方法的流程示意图；

图7为本申请实施例提供的一种图像处理架构示意图；

图8为本申请实施例提供的一种图像处理方法的应用场景示意图；

图9为本申请实施例提供的另一种图像处理架构示意图；

图10为本申请实施例提供的一种隐状态过滤的方式示意图；

图11为本申请实施例提供的另一种隐状态过滤的方式示意图；

图12为本申请实施例提供的一种图像融合的流程示意图；

图13为本申请实施例提供的另一种图像处理架构示意图；

图14为本申请实施例提供的一种图像方法处理的流程示意图；

图15为本申请实施例提供的一种隐状态更新的流程示意图；

图16为本申请实施例提供的另一种图像处理架构示意图；

图17为本申请实施例提供的一种图像处理效果示意图；

图18为本申请实施例提供的一种图像处理装置的结构示意图；

图19为本申请实施例提供的另一种图像处理装置的结构示意图；

图20为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的图像处理方法可以应用于人工智能(artificial intelligence,AI)场景中。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片，如中央处理器(central processing unit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(英语：graphics processing unit，GPU)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array， FPGA)等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、视频、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理(如图像识别、目标检测等)，语音识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，智慧城市，智能终端等。

本申请实施例涉及了大量神经网络的相关应用，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以如公式(1-1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层中间层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，中间层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是中间层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，w是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数 _W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数w为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数 _W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的中间层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)递归神经网络(recurrent neural networks，RNN)是用来处理序列数据的，也称为循环神经网络。在传统的神经网络模型中，是从输入层到中间层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即中间层本层之间的节点不再无连接而是有连接的，并且中间层的输入不仅包括输入层的输出还包括上一时刻中间层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。

既然已经有了卷积神经网络，为什么还要循环神经网络？原因很简单，在卷积神经网络中，有一个前提假设是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，再比如一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去。这里填空，人类应该都知道是填“云南”。因为人类会根据上下文的内容进行推断，但如何让机器做到这一步？RNN就应运而生了。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。

(5)超分辨率

超分辨率(Super Resolution，SR)是一种图像增强技术，给定一张或一组低分辨率的图像，通过学习图像的先验知识、图像本身的相似性、多帧图像信息互补等手段恢复图像的高频细节信息，生成较高分辨率的目标图像。超分辨率在应用中，按照输入图像的数量，可分为单帧图像超分辨率和视频超分辨率。超分辨率在高清电视、观测设备、卫星图像和医学影像等领域有重要的应用价值。

(6)视频超分辨率

视频超分辨率(video super resolution，VSR)是一种针对视频进行处理的增强技术，其目的是将低分辨率的视频转化成高质量的高分辨率视频。按照输入的帧数，视频超分辨率可以分为多帧视频超分辨率和循环视频超分辨率。

示例性地，下面以卷积神经网络(convolutional neural network，CNN)为例。

CNN是一种带有卷积结构的深度神经网络。CNN是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，我们都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

如图2所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120，其中池化层为可选的，以及神经网络层130。

如图2所示卷积层/池化层120可以包括如示例121-126层，在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层121为例，卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义。在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关。需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

通常，权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络100进行正确的预测。

当卷积神经网络100有多个卷积层时，初始的卷积层(例如121)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络100深度的加深，越往后的卷积层(例如126)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图2中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层130：

在经过卷积层/池化层120的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图2所示的131、132至13n)以及输出层140。在本申请中，该卷积神经网络为：对选取的起点网络进行至少一次变形得到串行网络，然后根据训练后的串行网络得到。该卷积神经网络可以用于图像识别，图像分类，图像超分辨率重建等等。

在神经网络层130中的多层隐含层之后，也就是整个卷积神经网络100的最后层为输出层140，该输出层140具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络100的前向传播(如图2由110至140的传播为前向传播)完成，反向传播(如图2由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络100仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，如图3所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层130进行处理。

本申请提供的图像处理方法可以应用于视频直播、视频通话、相册管理、智慧城市、人机交互以及其他需要涉及到视频数据等的场景。

例如，本申请提供的图像处理方法可以应用于智慧城市场景中，如图4A所示，可以采集各个观测设备采集到的低画质视频数据，即低分辨率的视频数据，并在存储器中存储该低画质视频数据。在播放该视频数据时，可以通过本申请提供的图像处理方法对该视频数据进行超分辨率处理，从而得到分辨率更高的视频数据，提高用户的观看体验。

又例如，本申请提供的图像处理方法还应用于各种视频拍摄场景。如用户可以使用终端拍摄一段视频，为降低该视频所占用的存储量，可以对该视频进行压缩或者下采样处理，得到占用储存量更小的视频数据。当用户使用终端对该视频进行播放时，可以通过本申请提供的图像处理方法，对存储的视频数据进行超分辨率处理，从而得到分辨率更高的视频数据，提高用户的观看体验。

还例如，本申请提供的图像处理方法可以应用于视频直播场景，如图4B所示，服务器可以向用户使用的客户端发送视频流。为减少直播过程中传输的带宽，可以对传输的视频流进行压缩。当客户端接收到服务器发送的数据流之后，可以通过本申请提供的图像处理方法对对该数据流进行超分辨率处理，从而得到分辨率更高的视频数据，提高用户的观看体验。

示例性地，本申请提供的图像处理方法的应用的系统架构可以如图5A所示。在该系统架构400中，服务器集群410由一个或多个服务器实现，可选的，与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备。服务器集群410可以使用数据存储系统250中的数据，或者调用数据存储系统250中的程序代码实现本申请提供的图像处理方法的步骤。

用户可以操作各自的用户设备(例如本地设备401和本地设备402)与服务器集群410进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与服务器集群410进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。具体地，该通信网络可以包括无线网络、有线网络或者无线网络与有线网络的组合等。该无线网络包括但不限于：第五代移动通信技术(5th-Generation，5G)系统，长期演进(long term evolution，LTE)系统、全球移动通信系统(global system for mobile communication，GSM)或码分多址(code division multiple access，CDMA)网络、宽带码分多址(wideband code division multiple access，WCDMA)网络、无线保真(wireless fidelity，WiFi)、蓝牙(bluetooth)、紫蜂协议(Zigbee)、射频识别技术(radio frequency identification，RFID)、远程(Long Range，Lora)无线通信、近距离无线通信(near field communication，NFC)中的任意一种或多种的组合。该有线网络可以包括光纤通信网络或同轴电缆组成的网络等。

示例性地，在一种应用场景中，服务器集群410中的任意一个服务器，可以从数据存储系统250，或者其他设备，如终端、PC等中获取到视频数据，若该视频数据是低分辨率视频，则服务器可以将该低分辨率视频通过通信网络发送至本地设备。若该视频数据为高分辨率视频，为降低传输该视频数据占用的带宽，服务器可以对该视频数据进行下采样，得到低分辨率视频，并将该低分辨率视频通过通信网络发送至本地设备。因此，本地设备在接收到该低分辨率视频之后，如图5B所示，可以对该低分辨率视频进行超分辨率处理，得到高分辨率视频。

在超分辨率任务中，深度神经网络凭借其强大的学习能力，迅速超越了基于传统手工特征的方法，取得了巨大的成功。基于深度神经网络的超分辨率方法能够生成更加清晰、更少伪影的高质量超分辨率图片，进一步推动了超分辨率技术的落地应用。例如，在流视频应用中，可以通过网络传输经过降采样的、分辨率较低的视频流，客户端接收后通过超分辨率技术将其转化为高分辨率的画面并播放，这样有效降低了网络带宽的需求；在视频观测中，由于观测相机安装位置和存储的限制，观测画面的分辨率通常比较低。超分辨率技术可以将其转化为更清晰的版本，为后续的目标人脸识别、行人再识别等任务提供更丰富的细节信息。超分辨率技术也在旧电影高清化、医学图像等应用中得到了广泛应用。

得益于图像处理器(graphic processing unit，GPU)算力的不断提升以及深度卷积网络的快速发展，超分网络的效果得到了大幅度的提高，这进一步推动了超分辨率技术的应用。在效果提升的同时，超分网络也变得更加复杂，计算量也随之增大。这极大限制了超分技术在一些较低计算力设备，如手机、摄像头、智能家居等的应用。随着移动设备摄像头像素的逐渐增加，超分网络的计算量随着图像分辨率的增大而快速增加。

因此，为实现高效、准确地超分辨率处理，本申请提供了一种针对视频的图像处理方法，基于递归网络实现了轻量化的计算，使得视频的超分辨率处理能够达到实时运行。

下面对本申请提供的图像处理方法的流程进行说明。

参阅图6，本申请提供的一种图像处理方法的流程示意图，如下所述。

601、对第一图像进行分解，得到第一结构子图和第一细节子图。

其中，在步骤601之前，还可以获取视频数据，该视频数据可以是视频流，或者完整的视频的数据等。该视频数据中可以包括多帧图像，第一图像是其中的任意一帧图像。

以下提及的第二图像，是与第一图像相邻的一帧或者多帧图像，以下不再赘述。例如，第二图像可以是按照播放时序，排列在第一图像之前的一帧或者多帧图像。或者，若按照与视频的播放时序相反的时序来对视频进行处理，则第二图像可以是排列在第一图像之后的一帧或者多帧图像。

通常，结构信息是低频的图像分量，细节信息对应高频的图像分量。因此，在本步骤中，可以将第一图像中所包括的信息分为高频信息和低频信息，高频信息即组成第一细节子图，低频信息组成第一结构子图。

具体地，对第一图像进行分解的方式可以包括多种。示例性地，可以通过下采样结合上采样的方式对第一图像进行分解，也可以通过低通滤波的方式进行分解等，具体可以根据实际应用场景进行调整，此处不作限定。

例如，若采用下采样结合上采样的方式对第一图像进行分解的方式，具体步骤可以包括：对第一图像进行下采样，得到下采样图像；对下采样图像进行上采样，得到第一结构子图；从第一图像中去除第一结构子图，得到第一细节子图。在本实施方式中，可以通过对第一图像进行下采样的方式来获取第一图像中所包括的特征，然后通过上采样的方式，使第一结构子图的维度与第一图像的维度保持一致，并将第一图像减去通过上采样后得到的第一结构子图，从而得到第一图像的第一细节子图。

又例如，若采用低通滤波的方式对第一图像进行分解的方式，具体步骤可以包括：增加低通滤波器，筛选出第一图像中低频部分，得到第一结构子图，然后在第一图像的基础上减去该第一结构子图，即可得到第一细节子图。当然，也可以通过高通滤波的方式筛选出第一图像中的高频部分，得到第一细节子图，然后在第一图像的基础上去除该第一细节子图，得到第一结构子图。

602、对第一隐状态信息和第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和所述第一细节子图进行拼接，得到第二细节子图。

其中，第一隐状态信息包括了从第二图像中提取到的特征。该第一隐状态信息也可以理解为由第二结构子图的特征组成的图像，其维度和第一图像相同。

具体地，可以融合第一隐状态信息和第一结构子图，从而得到参考了第二图像的特征的第二结构子图，融合第一隐状态信息和第一细节子图，从而得到参考了第二图像的特征的第二细节子图。

为便于理解，隐状态信息可以理解为是网络生成的特征图，包含从过去的帧提取的特征，是存储的历史信息。在超分辨率的处理过程中，隐状态提供历史信息，与当前输入帧的特征进行时间-空间层面的融合，能够获得更丰富的特征表达，从而提升当前帧的超分效果。同时，隐状态信息的存在有利于输出更稳定的结果，有效减少视频的抖动，提升画面观感。

通常，由于隐状态信息存储的是历史信息，每处理完一帧之后就可能往隐状态信息中增加新的历史信息，这就导致隐状态信息中往往存在大量冗余(如过时或者无用)的信息。而随着递归处理的帧数的增加，这些冗余的信息会逐渐占据隐状态信息的大部分内容。因此，可选地，为了提高隐状态信息的有效利用率，可以对第一隐状态进行适应性过滤，从而滤除第一隐状态信息中冗余的信息。

具体的过滤过程可以包括，首先，获取第一隐状态信息和第一图像的相似度矩阵，相似度矩阵由一个或者多个相似度组成，该一个或者多个相似度用于表示第一隐状态信息所包括的图像区域和第一图像中对应的图像区域之间的相似程度，每个图像区域可以包括一个或者多个像素点。然后，根据相似度矩阵对第一隐状态信息进行过滤，得到第二隐状态信息，第二隐状态信息中每个图像区域与第一图像中的图像区域的相似度，高于第一隐状态信息中每个图像区域与第一图像中的图像区域的相似度。相应地，步骤602可以包括：使用第二隐状态信息分别对第一结构子图和第一细节子图进行拼接，得到第二结构子图和第二细节子图。

因此，在本申请实施方式中，可以通过相似度矩阵过滤掉第一隐状态中，与第一图像不相似的信息，从而得到与第一图像更相似、关联度更高的第二应状态信息。从而可以使使用第二隐状态信息进行融合得到的第二结构子图和第二细节子图的结构和细节更丰富，进而使后续得到的输出图像更清晰，分辨率更高。

603、基于第二结构子图和第二细节子图中的进行特征提取，得到结构特征和细节特征。

其中，在得到第二结构子图和第二细节子图之后，基于该第二结构子图和第二细节子图进行特征提取，从而得到结构特征和细节特征。

具体地，可以分别从第二结构子图和第二细节子图中提取特征，如从第二结构子图中提取特征，得到结构特征，从第二细节子图中提取特征，得到细节特征。

还可以结合第二结构子图和第二细节子图进行特征提取，得到结构特征和细节特征。例如，可以对第二结构子图和第二细节子图进行至少一次迭代融合，得到更新后的第二结构子图和更新后的第二细节子图，然后从更新后的第二结构子图中提取特征，得到结构特征，从更新后的第二细节子图中提取特征，得到细节特征。因此，在本申请实施方式中，可以通过融合结构子图和细节子图的方式，使结构子图和细节子图可以互相丰富各自包括的信息，从而使最终得到的结构特征和细节特征更准确。

若可以对第二结构子图和第二细节子图进行至少一次迭代融合，得到更新后的第二结构子图和更新后的第二细节子图，进一步地，对第二结构子图和第二细节子图进行的任意一次融合的过程可以包括：对上一次迭代得到的第二结构子图和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第一融合图像；对第一融合图像和上一次迭代得到的第二结构子图进行融合，得到当前次迭代的第二结构子图；对第一融合图像和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第二细节子图。

可以理解为，在提取结构特征和细节特征之前，第二结构子图和第二细节子图进行了至少一次交互，从而交互各自所包括的信息，使最终得到的更新后的第二结构子图和第二细节子图所包括的信息更丰富，进而使最终得到的输出图像所包括的信息更丰富。

604、根据结构特征和细节特征，得到输出图像。

其中，在得到结构特征和细节特征之后，可以对该结构特征和细节特征进行融合，得到结构和细节都丰富的输出图像。

具体地，在融合了结构特征和细节特征，得到第二融合图像之后，可以对该第二融合图像进行放大处理，从而得到分辨率更高的输出图像。

605、更新第一隐状态信息。

其中，步骤605为可选步骤。

在得到结构特征和细节特征之后，可以基于该结构特征和细节特征更新第一隐状态信息，从而在对下一帧进行超分辨率处理时，可以基于更新的隐状态信息，来丰富下一帧图像的结构和细节，从而得到清晰的高分辨率图像。

具体地，可以将该第一隐状态信息替换为结构特征和细节特征融合后的信息，也可以将结构特征和细节特征融合后的信息，再与原有的第一隐状态信息进行融合，得到更新后的第一隐状态信息。

因此，在本申请实施方式中，在得到每一帧输入图像的高分辨率图像之后，可以更新第一隐状态信息，以使在对下一帧进行超分辨率处理时，可以使用更新、关联度更高的隐状态信息来丰富图像的结构和细节，从而使最终得到的图像更清晰。

前述对本申请提供的图像处理方法的流程进行介绍，下面进一步地，基于前述的流程，对本申请提供的图像处理方法进行更详细的展开介绍。

示例性地，参阅图7，本申请提供的另一种图像处理方法的流程示意图。

首先，从视频中选择一帧作为输入图像701，即前述的第一图像，对该输入图像701进行分解，得到第一结构子图702和第一细节子图703。

分解方式例如，对输入图像701进行下采样，得到下采样图像。然后对该下采样图像进行上采样，得到第一结构子图702。从输入图像701中去除第一结构子图，即可得到第一细节子图703。具体例如，可以将输入图像中的每四个像素点取平均值或者中位数，合并为一个像素点，得到下采样图像，然后将下采样图像进行插值处理的四个像素点，得到上采样图像，上采样图像即第一结构子图，其维度与输入图像相同。然后将输入图像中的每个像素点的值减去第一结构子图中每个像素点的值，即可得到第一细节子图。此处的像素值可以包括灰度值、亮度值、RGB每个通道的值等，具体可以根据实际应用场景进行调整。

然后使用第一隐状态信息704分别对第一结构子图702和第一细节子图703进行拼接，得到第二结构子图705和第二细节子图706。

例如，若第一结构子图702包括了3个通道，第一隐状态信息包括了3个通道，则拼接第一结构子图和第一隐状态信息可以得到包括了6个通道的第二结构子图。或者，又例如，若第一结构子图702包括了3个通道，第一隐状态信息包括了3个通道，可以在第一结构子图702中的每个通道中，增加第一隐状态信息包括的3个通道的值，最终得到的第二结构子图包括了3个通道，但每个通道的值变大。得到第二细节子图的方式与得到第一细节子图的方式类似。

随后，可以使用特征提取网络707从第二结构子图705中提取特征得到结构特征708，以及从第二细节子图706中提取特征得到细节特征709。该特征提取网络可以包括一个或者多个卷积核，例如，该特征提取网络可以参阅前述的卷积神经网络，本申请对此不作限定。通常，为实现轻量化的超分辨率处理网络，可以使用包括了较少卷积核的特征提取网络来进行特征提取，当然，为了使最终的输出网络更清晰，也可以使用包括了较多卷积核的特征提取网络来进行特征提取。

在得到结构特征708和细节特征709之后，可以对该结构特征708和细节特征709进行融合，并进行放大处理，得到最终的输出图像710。

此外，在得到结构特征708和细节特征709之后，还可以使用该结构特征708和细节特征709更新第一隐状态信息，以在对下一帧进行超分辨率处理时，可以使用更新后的第一隐状态信息进行处理，从而使最终得到的输出图像的结构和细节更丰富，提高用户体验。

例如，前述图7提供的架构可以应用于如图8所示的场景中，用户可以通过手机、电视或者PC等播放服务器发送的图像，按照播放顺序，分辨包括的图像帧包括：I_t-1、I_t、I_t+1、I_t+2…，可以对每一帧图像进行超分辨率处理，从而得到高分辨率的图像，提高用户的观看体验。

下面对前述图7所示的架构进行进一步展开描述。参阅图9，其中，701-706、708-710与前述图7中所示的类似，下面对不同之处进行说明。

其中，图9与前述图7的区别可以包括：对第一隐状态信息进行了过滤，过滤后得到的第二隐状态信息与输入图像701的关联度更高，后续可以使用该第二隐状态信息分别与第一结构子图702和第一细节子图703进行拼接，从而使拼接后得到的第二结构子图705和第二细节子图706所包括的信息更丰富，最终得到的输出图像更清晰。

示例性地，对第一隐状态信息进行过滤的具体过程可以参阅图10。

可以基于输入图像701的特征计算其与第一隐状态信息704的相似度，生成相似度矩阵1001。例如，可以将输入图像划分为多个图像区域，每个图像区域包括一个或者多个像素点，相应地，将第一隐状态信息按照相同的划分方式划分为多个图像区域，每个图像区域包括一个或者多个像素点。例如，可以对输入图像中的每个图像区域中的像素点分布规律，与第一隐状态中的每个图像区域中的像素点的分布规律进行匹配，从而计算输入图像中的每个图像区域和第一隐状态信息中对应的图像区域之间的相似度，从而得到相似度矩阵。

在得到相似度矩阵1001之后，基于该相似度矩阵1001对第一隐状态信息进行过滤，滤除第一隐状态信息中与输入图像相似度较低(如低于预设相似度)的图像区域，从而第二隐状态信息902。第二隐状态信息中包括了与输入图像的相似度较高(如不低于预设相似度)的图像区域。

示例性地，如图11所示，以一个应用场景为例对隐状态信息的过滤过程进行示例性说明。其中，相似性计算部分首先基于一层卷积层对输入图进行初步的特征提取，生成H×W×k ²的特征图；对该特征图的每一个位置(x,y)，提取出1×1×k ²的特征，展开成k×k的特征图。基于这个k×k的特征图，构建卷积核，对隐状态(H×W×C)矩阵(即第一隐状态信息)中(x,y)位置对应的1×1×C特征进行卷积，生成1×1×C的相似性结果输入到相似性矩阵对应的(x,y)位置。对所有的(x,y)位置均执行这样的卷积操作之后，得到一个维度与隐状态矩阵一致(H×W×C)的相似性矩阵。过滤器部分则首先利用sigmoid函数将相似性矩阵归一化到[0,1]之间，之后将相似性矩阵与隐状态进行一一对应的相乘，得到最后过滤的隐状态，即第二隐状态信息。

此外，图9与前述图7的区别还可以包括：特征提取网络中可以包括N个结构细节(SD)模块，N为正整数，如图9中所示的901-90N。每个SD模块用于融合结构子图和细节子图，从而丰富结构子图和细节子图所包括的信息。

示例性地，如图12所示，以其中一个SD_n为例，该SD_n可以是N个SD模块中的任意一个。其中，该SD_n模块的输入为SD_n-1模块输出的第二结构子图1201和第二细节子图1202，可以融合第二结构子图1201和第二细节子图1202，得到第二融合图像。

然后将第二融合图像和第二结构子图1201进行融合，从而使更新后的第二结构子图1203可以保留更新前的第二结构子图所包括的信息，在此基础上还融合了第二细节子图所包括的信息。以及，将第二融合图像和第二细节子图1202进行融合，从而使更新后的第二细节子图1204可以保留更新前的第二细节子图所包括的信息，在此基础上还融合了第二结构子图所包括的信息。

随后将SD_n输出的更新后的第二结构子图和更新后的第二细节子图输入至下一个SD模块，即SD_n+1模块。

此外，融合结构特征的流程可以参阅图13。在得到结构特征和细节特征之后，使用3*3卷积分别对结构特征和细节特征进行处理，得到更稳定的结构特征和细节特征。然后对卷积处理后的结构特征和细节特征进行拼接，并对拼接后的图像进行3*3卷积处理，即可得到第二融合图像。然后对第二融合图像进行像素重组(pixel shuffle)处理，从而得到放大后的输出图像。例如，输入图像的分辨率可以是4*4*3，拼接得到的第二融合图像的分辨率为4*4*12，对该第二融合图像进行pixel shuffle处理，从而得到8*8*3的输出图像，由此可见，输出图像的分辨率是高于输入图像的，得到了高分辨率的图像。

另外，示例性地，更新第一隐状态信息的步骤可以参阅图14。在得到结构特征和细节特征之后，对结构特征和细节特征进行融合，并对融合后的图像进行3*3卷积以及ReLU处理，从而得到更新后的第一隐状态信息。

为便于理解，可以将前述图9中的超分辨率处理流程表示为如图15所示的超分辨率处理流程。

其中，在每次完成了拼接或者融合之后，可以增加3*3卷积或者3*3卷积与线性修正单元(rectified linear unit，ReLU)，从而使融合或者拼接之后的图像所包括的特征更有效。

更进一步地，为便于理解，参阅图16，以其中一帧图像为例，为本申请提供的图像处理的流程进行示例性说明。

首先，采集到视频数据中的其中一帧图像作为输入图像之后，对该输入图像进行分解，并融合过滤后的隐状态信息，得到第一结构子图和第一细节子图。然后将该第二结构子图和第二细节子图输入至特征提取网络中，由一个或者多个SD模块对结构子图和细节子图进行交互，从而提取到结构特征和细节特征，并对该结构特征和细节特征进行融合，得到输出图像。

因此，本申请提供的图像处理方法，提供了基于结构-细节双分支递归神经网络的视频超分辨率处理方法，并在网络中显式地将结构(低频)和细节(高频)信息分离并采用两个分支进行处理，这种显式双分支的结构能够有效增丰富输出图像中所包括的信息的，提升视频超分的效果。并且，提出了递归神经网络中对隐状态进行适应性过滤的步骤，通过计算当前输入与隐状态之间的相似性，并基于相似性对隐状态进行过滤，剔除过时的信息，减少错误累积，提升隐状态信息的利用效率。

下面示例性地，对本申请提供的图像处理方法所实现的效果进行介绍。

示例性地，在Vimeo-90K数据集上训练视频超分辨率模型，即执行本申请前述图6-图16的方法的网络，在VID4、Vimeo-90K-T、SPMCS、UDM10等常用的视频超分数据集数据集上进行测试，展示本申请提出的图像处理方法对低清视频的处理效果。为了进一步验证本申请提供的方法的有效性，将同时提供当前业界和学界性能最好的视频超分辨方法在同一场景的结果作为横向比较。

Vimeo-90K数据集是视频超分辨率任务中常用的数据集之一，包含了大约90k个视频片段。该数据集为从某社交网站上采集而来，覆盖了日常生活的各种场景，同时还有大量的电影片段。由于其巨大的样本量、多样的场景、较大的运动，是一个具有挑战性的视频数据集，在视频处理任务中得到了广泛应用。Vimeo-90K数据集可被划分为训练集和测试集。对于其测试集，本申请使用Vimeo-90K-T表示。

基于本申请提供的方法，在PyTorch平台上构建了一个网络模型。为了评价输出结果的质量，以原始的高分辨率真值(Ground Truth，GT)作为标准，分别计算每一帧的峰值信噪比(peak signal-to-noise ratio，PSNR)和结构相似性评价(structural similarity index measurement，SSIM)，最后计算整个测试集的平均PSNR和平均SSIM。

表1展示了不同方法在Vid4测试集上的测试结果。Vid4测试集包括日历(Calendar)、城市(City)、植物(Foliage)和步行(Walk)等充满大量高频细节的视频，是视频处理领域常用的测试高频细节处理能力的测试集之一。

示例性地，选择了几种常用的图像处理方法与本申请提供的图像处理方法的输出结果进行对比，如Bicubic、SPMC(subpixel motion compensation)、Liu(Robust Video Super-resolution With Learned Temporal Dynamics)、TOFlow(task-oriented flow)、DUF(Dynamic Up sampling Filters)-52L、RBPN(recurrent back-projection network)、EDVR(Video Restoration with enhanced deformable convolutional networks)-L、PFNL(Progressive fusion video super resolution network via exploiting non-local spatio-temporal correlations)、FRVSR(frame recurrent video super resolution)、RLSP(efficient video super resolution through recurrent latent space propagation)。从表1可以看出，本申请提供的方法(表示为RSDN)凭借远小于其他方法的计算量(～0.13T Flops)实现了最高的PSNR和SSIM指标。而EDVR-L的计算量(通过Flops衡量)(0.93T)是本发明(0.13T)的7倍以上。这些结果体现了本发明能够更高效利用视频的时空信息，在更小的计算量下实现更好的视频超分效果。

表1

为了进一步验证本申请提供的图像处理方法在恢复高频细节上的优越性，在多个测试集上与当前主流方法进行了横向比较，包括SPMCS、UDM10和Vimeo-90K-T等数据集。横向比较的结果如表2所示。结果表明本审请提供的方法在多个测试集上显著地超过了现有的方法，取得了最好结果。这表明了本申请提供的方法在恢复高频细节上的优越性。

表2

从表2可以进一步看出，本方法在三个数据集上单帧处理的时间分别为18ms、24ms和12ms，均超过20帧/秒，达到了实时运行，体现了本申请提供的图像处理方法的高效率。

最后，选取了多个测试集的部分图像帧进行可视化，进一步从细节上比较不同方法的表现。如图17从输出的高分辨率结果上展示了本申请提供的方法在视频超分辨率上的领先效果，可以得到更高清的图像。

前述对本申请提供的图像处理方法进行了详细介绍，下面介绍本申请提供的装置。

参阅图18，本申请提供的一种图像处理装置的结构示意图。该图像处理装置可以包括：

分解单元1801，用于对第一图像进行分解，得到第一结构子图和第一细节子图，第一图像为视频数据中的除第一帧外的任意一帧图像，且第一频率低于第二频率，第一频率为第一结构子图所包括的信息的频率，第二频率为第一细节子图所包括的信息的频率；

融合单元1802，用于对第一隐状态信息和第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和第一细节子图进行拼接，得到第二细节子图，第一隐状态信息包括从第二图像中提取到的特征，第二图像包括视频数据与第一图像相邻的至少一帧图像；

特征提取单元1803，用于基于第二结构子图和第二细节子图进行特征提取，得到结构特征和细节特征；

输出单元1804，用于根据结构特征和细节特征，得到输出图像，输出图像的分辨率高于第一图像。

在一种可能的实施方式中，融合单元1802，具体用于：获取第一隐状态信息和第一图像的相似度矩阵，相似度矩阵中包括至少一个相似度，至少一个相似度用于表示第一隐状态信息所包括的图像区域和第一图像中的图像区域之间的相似程度；根据相似度矩阵对第一隐状态信息进行过滤，得到第二隐状态信息，第二隐状态信息中每个图像区域与第一图像中对应的图像区域的相似程度，高于第一隐状态信息中每个图像区域与第一图像中的图像区域的相似程度；使用第二隐状态信息对第一结构子图进行拼接，得到第二结构子图，使用第二隐状态信息对第一细节子图进行拼接，得到第二细节子图。

在一种可能的实施方式中，特征提取单元1803，用于：对第二结构子图和第二细节子图进行至少一次迭代融合，得到更新后的第二结构子图和更新后的第二细节子图；从更新后的第二结构子图中提取特征，得到结构特征，从更新后的第二细节子图中提取特征，得到细节特征。

在一种可能的实施方式中，输出单元1804，具体用于：融合结构特征和细节特征，得到第二融合图像；对第二融合图像进行放大处理，得到输出图像，输出图像的分辨率高于第二融合图像的分辨率。

在一种可能的实施方式中，该图像处理装置还可以包括：更新单元1805，用于根据结构特征和细节特征更新第一隐状态信息，第一隐状态信息用于对视频数据中排列在第一图像的下一帧图像进行处理。

在一种可能的实施方式中，分解单元1801，具体用于：对第一图像进行下采样，得到下采样图像；对下采样图像进行上采样，得到第一结构子图；从第一图像中去除第一结构子图，得到第一细节子图。

请参阅图19，本申请提供的另一种图像处理装置的结构示意图，如下所述。

该图像处理装置可以包括处理器1901和存储器1902。该处理器1901和存储器1902通过线路互联。其中，存储器1902中存储有程序指令和数据。

存储器1902中存储了前述图6-图16中的步骤对应的程序指令以及数据。

处理器1901用于执行前述图6-图16中任一实施例所示的图像处理装置执行的方法步骤。

可选地，该图像处理装置还可以包括收发器1903，用于接收或者发送数据。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成车辆行驶速度的程序，当其在计算机上行驶时，使得计算机执行如前述图6-图16所示实施例描述的方法中的步骤。

可选地，前述的图19中所示的图像处理装置为芯片。

本申请实施例还提供了一种图像处理装置，该图像处理装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行前述图6-图16中任一实施例所示的图像处理装置执行的方法步骤。

本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理器1901，或者处理器1901的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时，该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理芯片中未集成存储器时，可以通过通信接口与外置的存储器连接。该数字处理芯片根据外置的存储器中存储的程序代码来实现上述实施例中图像处理装置执行的动作。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上行驶时，使得计算机执行如前述图6-图16所示实施例描述的方法中图像处理装置所执行的步骤。

本申请实施例提供的图像处理装置可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使服务器内的芯片执行上述图6-图16所示实施例描述的图像处理方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体地，前述的处理单元或者处理器可以是中央处理器(central processing unit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processing unit，GPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器等。

示例性地，请参阅图20，图20为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 200，NPU 200作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路2003，通过控制器2004控制运算电路2003提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路2003内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路2003是二维脉动阵列。运算电路2003还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路2003是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器2002中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器2001中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)2008中。

统一存储器2006用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)2005，DMAC被搬运到权重存储器2002中。输入数据也通过DMAC被搬运到统一存储器2006中。

总线接口单元(bus interface unit，BIU)2010，用于AXI总线与DMAC和取指存储器(instruction fetch buffer，IFB)2009的交互。

总线接口单元2010(bus interface unit，BIU)，用于取指存储器2009从外部存储器获取指令，还用于存储单元访问控制器2005从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2006或将权重数据搬运到权重存储器2002中或将输入数据数据搬运到输入存储器2001中。

向量计算单元2007包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如批归一化(batch normalization)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元2007能将经处理的输出的向量存储到统一存储器2006。例如，向量计算单元2007可以将线性函数和/或非线性函数应用到运算电路2003的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元2007生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路2003的激活输入，例如用于在神经网络中的后续层中的使用。

控制器2004连接的取指存储器(instruction fetch buffer)2009，用于存储控制器2004使用的指令；

统一存储器2006，输入存储器2001，权重存储器2002以及取指存储器2009均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，循环神经网络中各层的运算可以由运算电路2003或向量计算单元2007执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述图6-图16的方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

最后应说明的是：以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种图像处理方法，其特征在于，包括：

对第一图像进行分解，得到第一结构子图和第一细节子图，所述第一图像为视频数据中的除第一帧外的任意一帧图像，且第一频率低于第二频率，所述第一频率为所述第一结构子图所包括的信息的频率，所述第二频率为所述第一细节子图所包括的信息的频率；

对第一隐状态信息和所述第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和所述第一细节子图进行拼接，得到第二细节子图，所述第一隐状态信息包括从第二图像中提取到的特征，所述第二图像包括所述视频数据与所述第一图像相邻的至少一帧图像；

基于所述第二结构子图和所述第二细节子图进行特征提取，得到结构特征和细节特征；

根据所述结构特征和所述细节特征，得到输出图像，所述输出图像的分辨率高于所述第一图像的分辨率。
根据权利要求1所述的方法，其特征在于，所述对第一隐状态信息和所述第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和所述第一细节子图进行拼接，得到第二细节子图，包括：

获取所述第一隐状态信息和所述第一图像的相似度矩阵，所述相似度矩阵中包括至少一个相似度，所述至少一个相似度用于表示所述第一隐状态信息所包括的图像区域和所述第一图像中的图像区域之间的相似程度；

根据所述相似度矩阵对所述第一隐状态信息进行过滤，得到第二隐状态信息，所述第二隐状态信息中每个图像区域与所述第一图像中对应的图像区域的相似程度，高于所述第一隐状态信息中每个图像区域与所述第一图像中的图像区域的相似程度；

使用所述第二隐状态信息对所述第一结构子图进行拼接，得到所述第二结构子图，使用所述第二隐状态信息对所述第一细节子图进行拼接，得到所述第二细节子图。
根据权利要求1或2所述的方法，其特征在于，所述基于所述第二结构子图和所述第二细节子图中的进行特征提取，得到结构特征和细节特征，包括：

对所述第二结构子图和所述第二细节子图进行至少一次迭代融合，得到更新后的所述第二结构子图和更新后的所述第二细节子图；

从所述更新后的所述第二结构子图中提取特征，得到所述结构特征，从所述更新后的第二细节子图中提取特征，得到所述细节特征。
根据权利要求3所述的方法，其特征在于，所述任意一次迭代融合过程包括：

对上一次迭代得到的第二结构子图和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第一融合图像；

对所述第一融合图像和所述上一次迭代得到的第二结构子图进行融合，得到当前次迭代的所述第二结构子图；

对所述第一融合图像和所述上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第二细节子图。
根据权利要求1-4中任一项所述的方法，其特征在于，所述根据所述结构特征和所述细节特征，得到输出图像，包括：

融合所述结构特征和所述细节特征，得到第二融合图像；

对所述第二融合图像进行放大处理，得到所述输出图像，所述输出图像的分辨率高于所述第二融合图像。
根据权利要求1-5中任一项所述的方法，其特征在于，在提取所述第二结构子图中的特征，得到结构特征，以及提取所述第二细节子图中的特征，得到细节特征之后，所述方法还包括：

根据所述结构特征和所述细节特征更新所述第一隐状态信息，所述第一隐状态信息用于对所述视频数据中排列在所述第一图像的下一帧图像进行处理。
根据权利要求1-6中任一项所述的方法，其特征在于，所述对第一图像进行分解，包括：

对所述第一图像进行下采样，得到下采样图像；

对所述下采样图像进行上采样，得到所述第一结构子图；

从所述第一图像中去除所述第一结构子图，得到所述第一细节子图。
一种图像处理装置，其特征在于，包括：

分解单元，用于对第一图像进行分解，得到第一结构子图和第一细节子图，所述第一图像为视频数据中的除第一帧外的任意一帧图像，且第一频率低于第二频率，所述第一频率为所述第一结构子图所包括的信息的频率，所述第二频率为所述第一细节子图所包括的信息的频率；

融合单元，用于对第一隐状态信息和所述第一结构子图进行融合，得到第二结构子图，以及对第一隐状态信息和所述第一细节子图进行拼接，得到第二细节子图，所述第一隐状态信息包括从第二图像中提取到的特征，所述第二图像包括所述视频数据与所述第一图像相邻的至少一帧图像；

特征提取单元，用于基于所述第二结构子图和所述第二细节子图进行特征提取，得到结构特征和细节特征；

输出单元，用于根据所述结构特征和所述细节特征，得到输出图像，所述输出图像的分辨率高于所述第一图像的分辨率。
根据权利要求8所述的装置，其特征在于，所述融合单元，用于：

获取所述第一隐状态信息和所述第一图像的相似度矩阵，所述相似度矩阵中包括至少一个相似度，所述至少一个相似度用于表示所述第一隐状态信息所包括的图像区域和所述第一图像中的图像区域之间的相似程度；

根据所述相似度矩阵对所述第一隐状态信息进行过滤，得到第二隐状态信息，所述第二隐状态信息中每个图像区域与所述第一图像中对应的图像区域的相似程度，高于所述第一隐状态信息中每个图像区域与所述第一图像中的图像区域的相似程度；

使用所述第二隐状态信息对所述第一结构子图进行拼接，得到所述第二结构子图，使用所述第二隐状态信息对所述第一细节子图进行拼接，得到所述第二细节子图。
根据权利要求8或9所述的装置，其特征在于，所述特征提取单元，用于：

对所述第二结构子图和所述第二细节子图进行至少一次迭代融合，得到更新后的所述第二结构子图和更新后的所述第二细节子图；

从所述更新后的所述第二结构子图中提取特征，得到所述结构特征，从所述更新后的第二细节子图中提取特征，得到所述细节特征。
根据权利要求10所述的装置，其特征在于，所述任意一次迭代融合过程包括：

对上一次迭代得到的第二结构子图和上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第一融合图像；

对所述第一融合图像和所述上一次迭代得到的第二结构子图进行融合，得到当前次迭代的所述第二结构子图；

对所述第一融合图像和所述上一次迭代得到的第二细节子图进行融合，得到当前次迭代的第二细节子图。
根据权利要求8-11中任一项所述的装置，其特征在于，所述输出单元，用于：

融合所述结构特征和所述细节特征，得到第二融合图像；

对所述第二融合图像进行放大处理，得到所述输出图像，所述输出图像的分辨率高于所述第二融合图像的分辨率。
根据权利要求8-12中任一项所述的装置，其特征在于，所述装置还包括：

更新单元，用于根据所述结构特征和所述细节特征更新所述第一隐状态信息，所述第一隐状态信息用于对所述视频数据中排列在所述第一图像的下一帧图像进行处理。
根据权利要求8-13中任一项所述的装置，其特征在于，所述分解单元，用于：

对所述第一图像进行下采样，得到下采样图像；

对所述下采样图像进行上采样，得到所述第一结构子图；

从所述第一图像中去除所述第一结构子图，得到所述第一细节子图。
一种图像处理装置，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至7中任一项所述的方法。
一种计算机可读存储介质，包括程序，当其被处理单元所执行时，执行如权利要求1至7中任一项所述的方法。
一种图像处理装置，其特征在于，包括处理单元和通信接口，所述处理单元通过所述通信接口获取程序指令，当所述程序指令被所述处理单元执行时实现权利要求1至7中任一项所述的方法。