WO2021237555A1

WO2021237555A1 - 图像处理的方法、装置、可移动平台以及系统

Info

Publication number: WO2021237555A1
Application number: PCT/CN2020/092827
Authority: WO
Inventors: 李恒杰; 赵文军
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-12-02
Also published as: CN112673380A

Abstract

一种图像处理的方法、装置、可移动平台以及系统。该图像处理的方法，包括：采用CNN结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图；采用RNN结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图；根据所述每帧图像对应的显著性图，确定所述每帧图像的感兴趣区域位置。本申请实施例的图像处理的方法、装置、可移动平台以及系统，可以更加精确的确定ROI的位置，减少系统时延，提高系统实时性。

Description

图像处理的方法、装置、可移动平台以及系统

版权申明

技术领域

本申请涉及图像处理领域，尤其涉及一种图像处理的方法、装置、可移动平台以及系统。

背景技术

在图传应用中，通常将拍摄到的图像和视频进行实时传输，这需要占用较大的带宽。为了减少对图传资源的占用，可以采用滤波的方式对图像进行虚化。例如，可以对图像中的感兴趣区域(region of interest，ROI)保持像素点的原值，对其他区域基于相同或不同的滤波半径，通过例如均值滤波或高斯滤波等方式来减少高频信息。

在上述方案中，如果不能及时并准确的确定ROI位置，则会使得地面端人眼无法观察到高质量图像，而是观察到虚化的图像。因此，如何精确地确定ROI位置是目前亟待解决的问题。

发明内容

本申请提供了一种图像处理的方法、装置、可移动平台以及系统，可以更加精确的确定ROI的位置，减少系统时延，提高系统实时性。

第一方面，提供了一种图像处理的方法，包括：采用卷积神经网络(CNN)结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图；采用循环神经网络(RNN)结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图；根据所述每帧图像对应的显著性图，确定所述每帧图像的感兴趣区域(ROI)位置。

第二方面，提供了一种图像处理的装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的单元。

第三方面，提供了一种图像处理的装置，包括：存储单元和处理器，该存储单元用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

第五方面，提供了一种包括指令的计算机程序产品，当计算机运行所述计算机程序产品的所述指时，所述计算机执行上述第一方面或第一方面的任意可能的实现方式中的图像处理的方法。具体地，该计算机程序产品可以运行于上述第三方面的图像处理的装置上。

第六方面，提供了一种可移动平台，包括：机体；动力系统，设于所述机体内，用于为所述可移动平台提供动力；以及一个或者多个处理器，用于执行上述第一方面或第一方面的任意可能的实现方式中的图像处理的方法。

第七方面，提供了一种系统，包括上述第六方面的可移动平台和显示设备，所述可移动平台与所述显示设备有线连接或无线连接。

附图说明

图1是图像处理系统的示意性框图。

图2是本申请实施例中的图像中ROI位置的示意图。

图3是图1中图像处理系统中的数据流的示意图。

图4是本申请实施例的图像处理系统的示意性框图。

图5是本申请实施例的图像处理的方法的示意性流程图。

图6是本申请实施例的图像处理的方法流程的示意图。

图7是本申请实施例的采用CNN结构对图像进行处理的示意图。

图8-9是RNN结构的一般示意图。

图10是LSTM结构的一般示意图。

图11是本申请实施例的采用RNN结构对图像进行处理的示意图。

图12是本申请实施例的热度分布集中的显著图的示意图。

图13是本申请实施例的热度分布分散的显著图的示意图。

图14是本申请实施例的图像处理装置的示意性框图。

图15是本申请实施例的另一图像处理装置的示意性框图。

图16是本申请实施例的可移动平台的示意性框图。

图17是本申请实施例的无人飞行系统的示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

在上述方案中，通常采用眼球追踪的设备和方法，实时确定每一帧ROI的中心位置，从而根据ROI的位置和大小，在ROI区域外采用渐进的滤波方案，实现了平滑的虚化效果以及极大的带宽压缩。具体地，图1示出了图像处理系统100的示意性框图。如图1所示，该系统100可以包括：镜头采集模块110、图像信号处理(Image Signal Processing，ISP)模块120、虚化(Blur)锐化(Sharpen)模块130、编码与传输模块140、接收与解码模块150以及眼球追踪模块160。

如图1所示，镜头采集模块110采集到的图像首先经过ISP模块120进行处理。具体地，镜头采集模块110采集到的图像可以经感光元件转换为电信号后，被传至ISP模块120进行处理，从而转化为数字图像。其中，镜头采集模块110可以指摄像头，对应的，镜头采集模块220采集的图像可以是指摄像头通过拍照获取到的一帧或者多帧图像，也可以是指通过录像获取到的视频图像，本申请对此不作限定。

ISP模块120输出的图像信号结合ROI的位置信息，输入到虚化锐化模块130中，以对视频图像中不同区域进行相应处理。具体地，机器视觉、图像处理中，被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为ROI。该ISP模块120可以指处理器，或者处理电路，本申请实施例并不限于此。

虚化锐化模块130根据ROI的位置，结合带宽需求，在ROI内外分别进行sharpen以及blur的操作，在提升ROI内图像视频质量的同时，极大的减小图传时的带宽占用。例如，图2为图像中ROI位置的示意图。如图2所示，ROI内部为Sharpen区域，外侧为Blur区域，从内到外依次分为多层的原因是为了实现渐进虚化的效果。也就是说，ROI区域内进行Sharpen操作，图像细节得到增强，画质提高；而ROI外侧由内向外逐渐模糊，可以达到平滑地虚化效果。

虚化锐化模块130将处理后的图像发送至编码与传输模块140进行编码，并从无人机端传输到地面端；在地面端，接收与解码模块150接收编码数据进行处理后，显示给用户，使得用户可以观察到局部高质量的图像，同时，眼球追踪模块160会根据人眼的移动得到其关注区域，即ROI，使得ROI位置信息传输到虚化锐化模块130。其中，编码与传输模块140可以包括编码器，还可以包括发射器；接收与解码模块150可以包括解码器，还可以包括接收器，但本申请实施例并不限于此。

在如图1所示的系统100中，由于虚化锐化模块130需要根据ROI位置来确定算法应用范围，系统100中ROI位置由眼球追踪模块160包括的设备和算法提供。具体地，图3为系统100中数据流的示意图，由图3所示的数据流可知，系统100中存在多处时延，例如，图传往返延时(即D1包括的编码、发送、解码以及上行反馈过程)、眼球追踪算法延时(即D2和D3)以及Blur和Sharpen处理算法延时(即D4)等。其中，由于眼球追踪模块160在地面端，无人机与地面端往返传输距离较远，传输时间长，使得与其相关的时延D1、D2和D3较大，也就导致系统100的延时很高。并且，由于上述延时的存在，还可能会造成ROI位置的错位，使得地面端人眼无法观察到高质量图像，而是观察到虚化的图像。

针对上述问题，本申请提供了一种用于图像处理的方法和系统，基于深度学习的视觉注意力预测方案，准确预测ROI的中心位置，从而避免上述延时过程，提高整个系统的实时性；同时，可以省去眼球追踪设备，提高实用性和可移植性。

图4示出了本申请实施例的图像处理系统200的示意性框图。如图4所示，该系统200包括镜头采集模块210、ISP模块220、视觉显著性预测模块230、虚化(Blur)锐化(Sharpen)模块240、编码与传输模块250以及接收与解码模块260。

与图1所示的系统100类似，如图4所示，首先由系统200中的镜头采集模块210将采集到的图像经过ISP模块220进行处理。ISP模块220处理后输出的图像信号再结合ROI的位置信息，输入到虚化锐化模块240中，以对视频图像中不同区域进行相应处理。

但是与图1所示的系统100不同的是，系统200中的ROI位置信息由视觉显著性预测模块230基于深度学习的结果进行确定，即由视觉显著性预测模块230输出ROI的位置，例如输出ROI中心位置，以作为虚化锐化模块240的参数。之后，与图1所示的系统100类似，经过编码与传输模块250的编码处理，然后传输到地面端；再由接收与解码模块260处理后，显示给用户。

应理解，镜头采集模块210可以适用于镜头采集模块110的相关描述，例如，该镜头采集模块210可以为摄像头；ISP模块220可以适用于ISP模块120的相关描述，例如，该ISP模块220可以为ISP模块处理电路；虚化锐化模块240可以适用于虚化锐化模块130的相关描述；编码与传输模块250可以适用于编码与传输模块140的相关描述，接收与解码模块260可以适用于接收与解码模块150的相关描述，例如，编码与传输模块250可以包括编码器和发射器，接收与解码模块260可以包括接收器和解码器，为了简洁，在此不再赘述。

因此，本申请实施例的系统200，基于深度学习，由视频显著性预测模块确定ROI，无需人工设计特征和进行复杂计算，而可以端到端实时预测视频的视觉注意力区域，避免眼球追踪方案造成的延时问题。在一实施例中，视频显著性预测模块为处理电路。

下面对视觉显著性预测模块230确定ROI的过程进行详细描述。

图5示出了本申请实施例的图像处理的方法300的示意性流程图。可选地，方法300可以由图像处理装置执行，例如，该图像处理装置可以为上述视觉显著性预测模块230，但本申请实施例并不限于此。

如图5所示，该方法300包括：S310，采用卷积神经网络(Convolutional Neural Network，CNN)结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图(feature-map)；S320，采用循环神经网络(recurrent neural network，RNN)结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图(saliency-map)；S330，根据所述每帧图像对应的显著性图，确定所述每帧图像的ROI位置。

深度学习起源于对神经网络的研究。1943年，为了理解大脑工作原理进而设计人工智能，一种简化版大脑细胞的概念——神经元被首次提出。此后，神经网络在此基础上提出并得到快速发展。随着卷积神经网络(Convolutional Neural Network，CNN)等多种网络结构的提出，极大的减少了网络参数量，训练速度以及精度得到明显提高，因此，神经网络在图像领域得到快速发展和广泛应用。

例如，人类能够迅速地选取视野中的关键部分，选择性地将视觉处理资源分配给这些视觉显著的区域，对应的，在计算机视觉领域，理解和模拟人类视觉系统的这种注意力机制，得到了学术界的大力关注，并显示出了广阔的应用前景。近年来，随着计算能力的增强以及大规模显著性检测数据集的建立，深度学习技术逐渐成为视觉注意力机制计算和建模的主要手段。

在显著性检测领域中，有很多工作研究了如何模拟人类在观看图像时的视觉注意力机制。但是当前基于深度学习的视觉显著性预测方案主要集中在静态的图像领域，对视频序列的研究较少的主要原因是，视频序列的帧间运动信息的提取，需要进行特征的设计以及计算量较大，使得视频显著性预测的进展缓慢。也就是说，目目前关于动态场景下人类如何分配视觉注意力的研究相对较少，但动态视觉注意力机制在人类日常行为中却更为普遍且更为重要。

动态人眼关注点检测的研究工作使用到的模型，通过将静态显著性特征和时间域信息(如光流场、时域差分等)相结合，检测动态场景下的视觉注意力，其中大部分工作都可被看作是已有静态显著性模型的基础上考虑运动信息后的扩展。这些模型严重依赖于特征工程，因而模型的性能受到了手工设计特征的限制。

考虑到不同网络结构具有的不同特性，本申请实施例的图像处理的方法，将CNN与RNN结合使用。具体地，CNN的主要功能特点是，对高维特征的提取能力很强，广泛应用在图像视觉领域，如目标检测、人脸识别等实际应用中，并产生了极大的成功。相对于传统的这些检测算法，CNN等深度学习算法不需要去人为的选择特征，而是通过学习训练网络的方式去提取这些特征，然后将这些提取的特征去产生后面的决策结果，从而实现分类、识别等功能。

RNN的主要特点是，可以挖掘数据中的时序信息以及语义信息的深度表达能力，并在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破。也就是说，循环神经网络用于处理和预测序列数据。

因此，在本申请实施例的图像处理的方法中，利用CNN对图像的强大特征提取能力，配合RNN对时间序列的处理能力，可以对采集到的视频序列进行处理，以得到每一帧图像的显著性区域，进而确定ROI的位置。这样可以避免现有系统中地面端的眼球追踪模块以及图传往返过程等造成的延时，极大的提升原系统的实时性；提高系统的实用性以及可移植性。

下面将结合图6-11对本申请实施例的方法300进行详细描述。

图6示出了图像处理的方法300的流程的示意图。如图6所示，首先获取待处理的多帧图像，该多帧图像可以指任意待处理视频数据中的多帧图像。具体地，该待处理的视频数据可以指图4所示的系统200中ISP模块220输出的数据，例如，可以为ISP模块220输出的yuv格式的视频序列。例如，该待处理的视频数据可以包括T帧图像，即图6中的第1帧图像至第T帧图像，其中，第t帧图像表示其中任意一帧图像。

待处理的每帧图像分别输入CNN结构中，采用CNN结构对多每帧图像进行处理，对应输出每帧图像的多通道特征图；该多通道的特征图输入RNN结构，例如，图6中以采用长短时记忆网络(Long short-term memory，LSTM)结构为例，对应输出每帧图像的多通道特征图；经过合并，最后获得每帧图像的显著性图，由该显著性图则可以获得每帧图像中的ROI区域的位置。

下面首先描述CNN结构的前向传播过程：即在S310中，采用CNN结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图。具体地，该S310可以包括：S311，对所述每帧图像进行连续的卷积和/或池化操作，以获取所述每帧图像的多张空间特征图，所述多张空间特征图具有不同分辨率；S312，对所述多张空间特征图中的每张空间特征图进行反卷积和/或卷积操作，以获取所述每帧图像的多张单通道特征图，所述多张单通道特征图具有相同分辨率；S313，将所述每帧图像的所述多张单通道特征图组合为所述每帧图像的多通道特征图。

在本申请实施例中，图7示出了采用CNN结构对图像进行处理的示意图。如图7所示，在S311中，对于每一帧视频图像(例如图7中的图像400)，经过连续的卷积和池化操作(例如图7所示的操作410-450)，以提取每一帧图像的空间特征图(例如图7中经过操作430-450之后分别获得的图像)，其中，所述多张空间特征图具有不同分辨率。

具体地，在该CNN结构的卷积池化处理部分，可以根据实际应用的需要，合理选择神经网络结构，例如，本申请以使用预训练的VGG-16神经网络的卷积层部分的网络结构为例进行说明，VGG-16网络可以很好地提取每一帧图像的空间特征，但本申请并不限于此。例如，除了采用VGG-16网络的卷积部分以外，根据具体的问题，也可以选择其他同级别的深层卷积神经网络的卷积块来代替该部分，如ResNet、GoogLeNet等。

VGG-Net是由牛津大学计算机视觉组(Visual Geometry Group)等人研发出了新的深度卷积神经网络。VGG-Net探索了卷积神经网络的深度与其性能之间的关系，成功地构筑了16～19层深的卷积神经网络，证明了增加网络的深度能够在一定程度上影响网络最终的性能，使错误率大幅下降，同时拓展性又很强，迁移到其它图片数据上的泛化性也非常好。目前，VGG被广泛用来提取图像特征。

在本申请实施例中，如图7所示，使用预训练的VGG-16神经网络的卷积层部分的网络结构，在该CNN结构的卷积池化处理部分，可以包括5组共13层卷积，以获取每帧图像的多张空间特征图，例如本申请实施例中以获得每帧图像的三张空间特征图为例，该三张空间特征图具有不同分辨率。

具体地，以任意一帧输入的图像400为例，假设该图像400的分辨率为w×h，并且该图像400可以具有多通道，例如，该图像400可以为图4所示的ISP模块220输出的yuv格式的视频序列中任意一帧图像，具有三通道。该图像400经过一系列的卷积和/或池化操作，例如，如图7所示，可以依次经过操作410-450。其中，操作410包括两次卷积操作，分辨率仍然为w×h；操作420包括两次卷积和一次池化，其中的池化操作可以使得分辨率降为

操作430包括三次卷积和一次池化，其中的池化操作可以使得分辨率降为

经过该操作430之后输出一张空间特征图；将经过操作430的图像再经过操作440，该操作440包括三次卷积和一次池化，其中的池化操作可以使得分辨率降为

经过该操作440之后再输出一张空间特征图；将经过操作440的图像再经过操作450，该操作450包括三次卷积和一次池化，其中的池化操作可以使得分辨率降为

经过该操作450之后输出最后一张空间特征图。经过操作410-450可以输出三张分辨率不同的空间特征图，其通道数)分别为256、512和512；另外，从输入图像400开始，经过的5组卷积操作(410-450)的feature-map的通道数分别为：64、128、256、512和512。

应理解，这里以获得三张分辨率分别为

和

的特征图为例，但本申请实施例并不限于此，本申请实施例中获取的空间特征图的数量和分辨率可以根据实际应用进行设置，例如，可以选择其他分辨率的特征图，或者也可以获取更多或者更少数量的空间特征图。

在S312中，对S311之后获得的多张分辨率不同的空间特征图中的每张空间特征图进行反卷积和/或卷积操作，以获取每帧图像的多张单通道特征图，该多张单通道特征图具有相同分辨率。具体地，可以对获取到的多张空间特征图中每张空间特征图进行反卷积操作，以获得分辨率相同的多张特征图；对该多张特征图中每张特征图进行卷积操作，以获得多张单通道特征图(例如经过图7中的操作460-480之后分别获取到的图像)。

应理解，经过S311中包括的5组卷积(5个卷积块)的输出五张张空间特征图的分辨率大小，分别为输入视频图像400的分辨率大小的1、1/2、1/4、1/8和1/16倍。为了得到像素级(pixel-wise)分辨率大小的salency map，需要对由S311获得的图像feature-map进行上采样，设置反卷积层是为了上采样提高分辨率。

具体地，这里以在S311中描述得获得的三张分辨率不同的空间特征图为例，则对应需要设置三个反卷积模块(对应图7中操作460-480)，以分别对S311中后三组卷积模块最后分别输出的三张空间特征图进行上采样。这里选择后三组卷积模块的原因是，对多层较高级别的特征进行融合，能够综合得到更丰富的空间特征，从而提升最终显著性预测的准确率。

本申请实施例中以将反卷积步长设置为2为例，这就意味着每层反卷积可以将分辨率扩大为原来的2倍。由于S311输出的三张空间特征图的分辨率大小分别为

和

因此三张后接的反卷积模块分别包含2、3、4个反卷积层，以得到分辨率为w×h的多张特征图。同时，由于该分辨率相同的w×h的多张特征图中每张特征图此时通常仍然为多通道特征图，因此，在每个反卷积模块最后接一层1x1的卷积层，将该多张特征图中每张特征图进行融合，输出多张单通道特征图，可以大大降低后续模块中的数据量和计算量。

具体地，在操作460中，将经过操作430后输出的分辨率为

的特征图进行两次反卷积，最后接一层1x1的卷积层，以获得分辨率为w×h的单通道特征图，其中，操作460包括的2层反卷积层和1层1x1卷积，对应输出的特征图的通道数分别为：64、32和1。在操作470中，将经过操作440后输出的分辨率为

的特征图进行三次反卷积，最后接一层1x1的卷积层，以获得另一张分辨率为w×h的单通道特征图，其中，操作470包括的3层反卷积层和1层1x1卷积，对应输出的特征图的通道数分别为：128、64、32和1。在操作480中，将经过操作450后输出的分辨率为

的特征图进行四次反卷积，最后接一层1x1的卷积层，以获得再一张分辨率为w×h的单通道特征图，其中，操作480包括的4层反卷积层和1层1x1卷积，对应输出的特征图的通道数分别为：256、128、64、32和1。

应理解，图7中仅以获得三张单通道特征图为例进行说明，但本申请实施例并不限于此，例如，可以根据实际应用设置更多或者更少数量的单通道特征图。

在S313中，将经过S311和S312之后获得的每帧图像的多张单通道特征图组合为该每帧图像的多通道特征图(例如图7中的操作490)。例如，如图7所示，对于经过操作460-480之后获得三张单通道特征图，可以组合成三通道特征图。

应理解，根据上述S311-S313，将获得的每帧图像的多通道特征图作为接下来的RNN结构的输入。例如，如图7所示，最后的操作490将经过3个反卷积模块的输出组合在一起，得到三通道特征图，该三通道特征图既是CNN结构的输出，也是接下来RNN结构在每一个时刻的输入。具体地，在S320中，采用RNN结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图。

下面结合图8和图9对RNN的一般形式进行描述。如图8所示，对于一般的RNN结构，x ^t为当前t时刻的输入，h ^t-1表示接收到的上一个节点的状态输入；y ^t为当前时刻的输出，h ^t为传递到下一个节点的状态输出。当输入为一个序列时，例如输入视频的图像序列，那么可以得到RNN的如图9所示的展开形式。

考虑到为了解决长序列训练中的梯度消失和梯度爆炸的问题，本申请实施例中使用的RNN结构以LSTM为例，但本申请实施例并不限于此。LSTM是一种特殊的RNN，简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

LSTM的一般形式如图10所示，相比于RNN只有一个传递状态h ^t，LSTM有两个传输状态，一个是细胞状态(cell state)c _t，一个是隐藏状态(hidden state)h _t。具体地，LSTM包含三个门控信号：输入门、遗忘门、输出门。其中，输入门会根据x _t和h _t-1决定哪些信息加入到状态c _t-1中，以生成新的状态c _t；遗忘门的作用是让循环神经网络忘记之前c _t-1中没有用的信息；输出门会根据最新的状态c _t、上一时刻的输出h _t-1和当前的输入x _t来决定该时刻的输出h _t。

LSTM前向传播的过程及各个门控信号的公式定义如下：

z＝tanh(W _z[h _t-1,x _t])……输入值

i＝sigmoid(W _i[h _t-1,x _t])……输入门

f＝sigmoid(W _f[h _t-1,x _t])……遗忘门

o＝sigmoid(W _o[h _t-1,x _t])……输出门

c _t＝f·c _t-1+i·z……新状态

h _t＝o·tanh c _t……输出

在本申请实施例中，如图6所示，对于视频中的每一帧图像，输入到 CNN结构后得到多通道特征图；此时，将每帧图像对应的多通道特征图依次输入到LSTM的对应时刻输入，则得到多通道的输出，最后接一个1x1的卷积层，得到最终每一帧图像的单通道的显著图。其中，以第t个时刻的第t帧图像为例，该t可以为任意正整数，第t帧图像经过CNN结构后的到多通道特征图，再在第t个时刻，将该第t帧图像的多通道特征图输入至LSTM结构，并结合第t-1个时刻输出的细胞状态c _t-1和隐藏状态h _t-1，输出该第t帧图像对应的多通道的处理后的特征图，另外，也输出第t个时刻的细胞状态c _t和隐藏状态h _t。

具体地，如图11所示，以图7中操作490输出的与图像400对应的三通道特征图为例，该三通道特征图为图11中的输入500，将每帧图像对于的三通道特征图500依次输入到LSTM对应时刻，经过LSTM结构后，输出三通道特征图510，分辨率仍然为w×h，最后接一个1x1的卷积层，最终得到每一帧图像的单通道的显著图520。

应理解，本申请实施例中的LSTM的循环层的大小(size)可以根据实际应用进行设置，并且可以设置为任意值。例如，可以将LSTM的循环层的大小设置为10，或者训练数据的序列长度为10。即在训练时，每次迭代输入连续10帧图像，先经过CNN结构提取空间特征，LSTM提取时间特征，最终综合时空特征生成视频序列的显著性图。

可选地，如果本申请实施例中的视觉注意力预测模块处理的是YUV格式的数据，那么训练数据应当选取YUV格式的视频显著性标定数据集。例如，使用的训练数据可以是西蒙弗雷泽大学(Simon Fraser University，SFU)人眼追踪公共视频数据集。该数据集为标定的人眼显著性视频数据集，均为YUV格式。其中，训练集、验证集、测试集可以按照8:1:1的比例划分。

应理解，本申请实施例中以YUV格式的数据为例进行描述，该YUV格式可以包括YUV444、YUV422、YUV420等格式。其中，因为YUV422、YUV420两种数据格式下，UV分量存在着下采样的操作，导致数据在每个通道的分辨率不一致。此时，可以对UV两通道进行上采样操作，使得YUV三通道的分辨率相同。例如，该上采样方法可以选择双线性差值法，经过上采样过程，三通道保持同一分辨率，作为视觉注意力预测模块网络的输入。或者，也可以通过对Y通道进行下采样，以将三通道统一到UV的分辨率，从而解决YUV三通道分辨率不同的问题。

可选地，为了进一步提升系统的实时性，减少系统时延，可以采用以下可选方案：(1)在网络的训练和使用时，对输入的图像大小进行下采样(下采样一般不会影响场景中物体的分布以及运动信息)，极大的减少网络计算的数据量，以提升速度；(2)对于本申请实施例采用的YUV视频格式，考虑到Y通道表示亮度信息，包含了大部分物体类别及运动信息，而且人眼对亮度信息最敏感，因此，可以只对Y通道进行训练及预测，减小数据量，提升实时性。如果采用上述两种实时性提升操作，可以将延迟做到1帧，极大的提升系统的实时性，提升交互体验。

在本申请实施例中，经过上述CNN结构和RNN结构的处理，对于获得的每帧图像的显著性图，在S330中，根据所述每帧图像对应的显著性图，确定所述每帧图像的ROI位置。

具体地，显著性图中所有位置的值均为0～1之间，该数值表征了人眼对该区域的关注程度的预测值，数值越大，在显著性图中越亮，表示人眼对该位置关注的可能性越高。根据不同场景中物体的类别信息和运动信息，热度(即人眼的关注度)分布的集中程度有所不同。例如，图12中的热度较为集中，物体类别和运动信息明显；而图13中热度分散，场景中没有明显的物体及运动，画面较为平坦。

鉴于上述对显著性图的热度分布的分析，可以采用不同的方式确定每个显著性图的ROI位置，这里的ROI位置可以包括ROI的中心位置及ROI的范围。具体地，对于确定ROI的中心位置，可以采用多种方式。例如，确定ROI的中心位置可以包括：将显著性图中像素值最大的位置，作为ROI中心坐标输出，例如，可以输出到虚化锐化模块240。或者，为了减小随机误差，确定ROI的中心位置还可以包括：确定每帧显著性图中像素值大于或者等于第一预设值的多个点的坐标；将该多个点多的坐标的平均值确定为每帧图像的ROI的中心坐标输出，例如，可以输出到虚化锐化模块240。其中，该第一预设值可以根据实际应用进行设置，并且可以设置显著性图像素值分布范围1至0之间的任意值，例如，可以设置为0.8，但本申请实施例并不限于此。

在上述两种确定ROI中心坐标的方式中，第二种方式通过取平均的方式，能够减小显著性图中像素点分布的随机误差，使得得到的ROI区域会更准确。或者还可以采用其它方式确定ROI的中心位置，但本申请实施例并不限于此。

对于确定ROI范围，同样可以采用多种方式。例如，确定ROI的范围可以包括：根据每帧图像的尺寸，确定ROI的尺寸大小。例如，通常可以将ROI的尺寸设置为每帧图像的尺寸的预设倍数(例如1/4)，比如可以通过将ROI的长和宽分别设置为图像尺寸一半大小来实现。

但是考虑到在热度分布较广的场景中，人眼可能的关注范围较大，因此，还可以对ROI的大小进行调整。即确定ROI的范围还可以包括：确定每帧图像对应的显著性图中像素值大于或者等于第二预设值的多个点的坐标；在该多个点中确定两个点，该两个点的横坐标之差的绝对值最大和/或纵坐标之差的绝对值最大；根据该两个点的横坐标之差的绝对值和/或纵坐标之差的绝对值，确定ROI的尺寸。

具体地，可以根据下述步骤中的至少一个调整ROI的尺寸：若该两个点的横坐标差值的绝对值大于或者等于预设长度，那么可以根据该两个点的横坐标差值的绝对值与该预设长度的比值，确定每帧图像的ROI的长度，例如，可以按照该比值，扩大预设长度为ROI的长度；若该两个点的横坐标差值的绝对值小于该预设长度，将该预设长度确定为每帧图像的ROI的长度；若该两个点的纵坐标差值的绝对值大于或者等于预设宽度，那么可以根据该两个点的纵坐标差值的绝对值与预设宽度的比值，确定每帧图像的ROI的宽度，例如，可以按照该比值，扩大预设宽度为ROI的宽度；若该两个点的纵坐标差值的绝对值小于该预设宽度，将该预设宽度确定为每帧图像的ROI的宽度。

应理解，该第二预设值可以根据实际应用进行设置，并且可以设置为显著性图像素值分布范围1至0之间的任意值，例如，可以设置为0.7，但本申请实施例并不限于此。

这样，根据设定的第二预设值，计算出显著性图中像素值大于或者等于该第二预设值的全部点的分布，通过计算这些满足第二预设值要求的点中每两个点对应的横纵坐标之差的绝对值，来描述热度分布的范围；例如，可以将将该横纵坐标之差的绝对值分别与默认的ROI大小进行比较，若大于ROI默认尺寸，则扩大ROI的大小；若小于ROI默认尺寸，则可以选择缩小ROI默认尺寸，或者直接采用ROI默认尺寸。其中，可以根据横纵坐标与ROI默认尺寸之比，确定扩大或者缩小ROI的尺寸。通过上述过程，可以根据实际情况，更加精确的确定ROI的位置，并且根据不同场景调整ROI的大小，从而提升体验。

因此，本申请实施例的图像处理的方法，考虑到当前为了解决带宽问题，会通过滤波进行ROI之外区域的虚化，减少图像高频信息，提高压缩率，最终减小带宽，所以ROI位置的确定对图像处理过程尤为重要。为了获得ROI的位置，一般采用眼球追踪设计和算法来检测并给出，但这会造成极大的延迟，使得人眼实际观察到的位置与得到的ROI位置错位，从而无法观察到高质量的视频图像。而本申请实施例中采用基于深度学习的视觉注意力预测模型，替代了眼球追踪设备，可以根据视频的内容，实时预测人眼感兴趣区域，可以避免眼球追踪等一些列延时过程，提高系统的实时性和实用性，且使得系统中各平台之间的可移植性提高。

另外，考虑到目前基于深度学习的视觉显著性预测方案主要应用于静态图像的处理，对于应用于视频序列的情况下，视频序列的帧间运动信息的提取需要进行特征的设计以及计算量较大，会导致视频显著性预测的进展缓慢。所以，本申请实施例基于深度学习，通过已标定的大规模视频显著性数据集，采用CNN和RNN相结合的网络模型，分别提取帧内空间信息和帧间运动信息(时间信息)，得到视频序列的时空特征，实现端到端视频显著性预测。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文中结合图1至图13，详细描述了根据本申请实施例的图像处理的方法，下面将结合图14至图16，描述根据本申请实施例的图像处理的装置。

如图14所示，根据本申请实施例的图像处理的装置600包括：第一处理模块610、第二处理模块620以及确定模块630。具体地，所述第一处理模块610用于：采用CNN结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图；所述第二处理模块620用于：采用RNN结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图；所述确定模块630用于：根据所述每帧图像对应的显著性图，确定所述每帧图像的ROI位置。

应理解，根据本申请实施例的图像处理的装置600可对应于执行本申请实施例中的方法300，并且装置600中的各个模块的上述和其它操作和/或功能分别为了实现图1至图13中的各个方法的相应流程，为了简洁，在此不再赘述。

应理解，本申请各实施例的装置还可以基于存储器和处理器实现，各存储器用于存储用于执行本申请个实施例的方法的指令，处理器执行上述指令，使得装置执行本申请各实施例的方法。

具体地，如图15所示，根据本申请实施例的图像处理的装置700包括：处理器710和存储器720。具体地，处理器710和存储器720通过总线系统相连，该存储器720用于存储指令，该处理器710用于执行该存储器720存储的指令。处理器710可以调用存储器720中存储的程序代码执行以下操作：采用CNN结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图；采用RNN结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图；根据所述每帧图像对应的显著性图，确定所述每帧图像的ROI位置。

可选地，作为一个实施例，所述处理器710用于：对所述每帧图像进行连续的卷积和/或池化操作，以获取所述每帧图像的多张空间特征图，所述多张空间特征图具有不同分辨率；对所述多张空间特征图中的每张空间特征图进行反卷积和/或卷积操作，以获取所述每帧图像的多张单通道特征图，所述多张单通道特征图具有相同分辨率；将所述每帧图像的所述多张单通道特征图组合为所述每帧图像的多通道特征图。

可选地，作为一个实施例，所述处理器710用于：根据预设网络模型结构，对所述每帧图像进行连续的卷积和池化操作，以获取所述每帧图像的至少三张空间特征图，所述至少三张空间特征图具有不同分辨率。

可选地，作为一个实施例，所述预设网络模型结构为VGG-16结构，所述处理器710用于：根据所述VGG-16结构，对所述每帧图像进行五组卷积池化操作，以获取所述每帧图像的三张空间特征图，其中，所述五组卷积池化操作包括13层卷积。

可选地，作为一个实施例，所述每帧图像的分辨率为w×h，所述三张空间特征图的分辨率分别为：

和

可选地，作为一个实施例，所述处理器710用于：对所述每张空间特征图进行反卷积操作，以获得分辨率相同的多张特征图；对所述多张特征图中每张特征图进行卷积操作，以获得所述多张单通道特征图。

可选地，作为一个实施例，所述每帧图像的分辨率为w×h，所述多张特征图的分辨率均为w×h。

可选地，作为一个实施例，所述反卷积操作中的反卷积步长设置为2。

可选地，作为一个实施例，所述处理器710用于：对所述每张特征图采用1*1的卷积层，获得所述多张单通道特征图。

可选地，作为一个实施例，所述RNN结构为LSTM结构。

可选地，作为一个实施例，所述处理器710用于：将所述多帧图像的多通道特征图按照时间顺序依次输入至所述LSTM结构，以输出所述每帧图像对应的多通道的处理后的特征图；对所述处理后的特征图采用1*1的卷积层，以获得所述每帧图像的单通道的显著性图。

可选地，作为一个实施例，所述处理器710用于：在第t个时刻，将所述第t帧图像的多通道特征图输入至所述LSTM结构，并根据第t-1个时刻输出的细胞状态c _t-1和隐藏状态h _t-1，输出所述第t帧图像对应的多通道的处理后的特征图以及输出第t个时刻的细胞状态c _t和隐藏状态h _t，t为任意正整数。

可选地，作为一个实施例，所述LSTM结构的循环层大小设置为10。

可选地，作为一个实施例，所述处理器710用于：根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸。

可选地，作为一个实施例，所述处理器710用于：将所述每帧图像对应的显著性图中像素值最大的点的坐标，确定为所述每帧图像的所述ROI的中心坐标。

可选地，作为一个实施例，所述处理器710用于：确定所述每帧图像对应的显著性图中像素值大于或者等于第一预设值的多个点的坐标；将所述多个点多的坐标的平均值确定为所述每帧图像的所述ROI的中心坐标。

可选地，作为一个实施例，所述处理器710用于：根据所述每帧图像的尺寸，确定所述每帧图像的所述ROI的尺寸。

可选地，作为一个实施例，所述处理器710用于：将所述每帧图像的所述ROI的尺寸设置为所述每帧图像的尺寸的1/4。

可选地，作为一个实施例，所述处理器710用于：确定所述每帧图像对应的显著性图中像素值大于或者等于第二预设值的多个点的坐标；确定所述多个点中的两个点，所述两个点的横坐标差值的绝对值最大和/或纵坐标差值的绝对值最大；根据所述两个点的横坐标差值的绝对值和/或纵坐标差值的绝对值，确定所述每帧图像的所述ROI的尺寸。

可选地，作为一个实施例，所述处理器710用于执行以下步骤中的至少一个：若所述两个点的横坐标差值的绝对值大于或者等于预设长度，根据所述两个点的横坐标差值的绝对值与所述预设长度的比值，确定所述每帧图像的所述ROI的长度；若所述两个点的横坐标差值的绝对值小于所述预设长度，将所述预设长度确定为所述每帧图像的所述ROI的长度；若所述两个点的纵坐标差值的绝对值大于或者等于预设宽度，根据所述两个点的纵坐标差值的绝对值与所述预设宽度的比值，确定所述每帧图像的所述ROI的宽度；若所述两个点的纵坐标差值的绝对值小于所述预设宽度，将所述预设宽度确定为所述每帧图像的所述ROI的宽度。

应理解，根据本申请实施例的图像处理的装置700可对应于本申请实施例中的装置600，并可对应于执行本申请实施例中的方法300，并且装置700中的各个部分的上述和其它操作和/或功能分别为了实现图1至图13中的各个方法的相应流程，为了简洁，在此不再赘述。

因此，本申请实施例的图像处理装置，考虑到当前为了解决图像处理过程中带宽问题，会通过滤波进行ROI之外区域的虚化，减少图像高频信息，提高压缩率，最终减小带宽，所以ROI位置的确定对图像处理过程尤为重要。为了能够准确的获得ROI的位置，本申请实施例中采用基于深度学习的视觉注意力预测模型，可以根据视频的内容，实时预测人眼感兴趣区域，减少系统时延，提高系统的实时性和实用性，且使得系统中各平台之间的可移植性提高。

应理解，本申请实施例中提及的处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例还提供一种计算机可读存储介质，其上存储有指令，当指令在计算机上运行时，使得计算机执行上述各方法实施例的方法。

本申请实施例还提供一种计算设备，该计算设备包括上述计算机可读存储介质。

本申请实施例可以应用在飞行器，尤其是无人机领域。

可选的，本申请实施例还提出了一种可移动平台。具体地，图16示出了本申请实施例的可移动平台800的示意性框图。如图16所示，该可移动平台800包括：机体810；动力系统820，设于该机体810内，用于为该可移动平台800提供动力；一个或者多个处理器830，用于执行本申请实施例的方法300。其中，该处理器830可以包括本申请实施例的图像处理装置600；可选地，该可移动平台800还可以包括：图像采集装置，用于采集图像，以使得处理器830对采集到的图像进行处理，例如对采集到的图像执行上述任一项图像处理方法。

本发明实施例中的可移动平台800可以指任意可移动设备，该可移动设备可以在任何合适的环境下移动，例如，空气中(例如，定翼飞机、旋翼飞机，或既没有定翼也没有旋翼的飞机)、水中(例如，轮船或潜水艇)、陆地上(例如，汽车或火车)、太空(例如，太空飞机、卫星或探测器)，以及以上各种环境的任何组合。该可移动设备可以是飞机，例如无人机(Unmanned Aerial Vehicle，简称为“UAV”)。

机体810也可以称为机身，该机身可以包括中心架以及与中心架连接的一个或多个机臂，一个或多个机臂呈辐射状从中心架延伸出。脚架与机身连接，用于在UAV着陆时起支撑作用。

动力系统820可以包括电子调速器(简称为电调)、一个或多个螺旋桨以及与一个或多个螺旋桨相对应的一个或多个电机，其中电机连接在电子调速器与螺旋桨之间，电机和螺旋桨设置在对应的机臂上；电子调速器用于接收飞行控制器产生的驱动信号，并根据驱动信号提供驱动电流给电机，以控制电机的转速。电机用于驱动螺旋桨旋转，从而为UAV的飞行提供动力，该动力使得UAV能够实现一个或多个自由度的运动。应理解，电机可以是直流电机，也可以交流电机。另外，电机可以是无刷电机，也可以有刷电机。

所述图像采集装置包括拍摄设备(例如，相机、摄像机等)或视觉传感器(例如，单目摄像头或双/多目摄像头等)。

可选地，本申请实施例还提出了一种包含无人机的无人飞行系统。具体地，以下将结合图17对包含无人机的无人飞行系统900进行说明。本实施例以旋翼飞行器为例进行说明。

无人飞行系统900可以包括UAV 910、载体920、显示设备930和遥控装置940。其中，UAV 910可以包括动力系统950、飞行控制系统960和机架970。UAV 910可以与遥控装置940和显示设备930进行无线通信。

机架970可以包括机身和脚架(也称为起落架)。机身可以包括中心架以及与中心架连接的一个或多个机臂，一个或多个机臂呈辐射状从中心架延伸出。脚架与机身连接，用于在UAV 910着陆时起支撑作用。

动力系统950可以包括电子调速器(简称为电调)951、一个或多个螺旋桨953以及与一个或多个螺旋桨953相对应的一个或多个电机952，其中电机952连接在电子调速器951与螺旋桨953之间，电机952和螺旋桨953设置在对应的机臂上；电子调速器951用于接收飞行控制器960产生的驱动信号，并根据驱动信号提供驱动电流给电机952，以控制电机952的转速。电机952用于驱动螺旋桨旋转，从而为UAV 910的飞行提供动力，该动力使得UAV 910能够实现一个或多个自由度的运动。应理解，电机952可以是直流电机，也可以交流电机。另外，电机952可以是无刷电机，也可以有刷电机。

飞行控制系统960可以包括飞行控制器961和传感系统962。传感系统962用于测量UAV的姿态信息。传感系统962例如可以包括陀螺仪、电子罗盘、IMU(惯性测量单元，Inertial Measurement Unit)、视觉传感器(例如，单目摄像头或双/多目摄像头等)、GPS(全球定位系统，Global Positioning System)、气压计和视觉惯导里程计等传感器中的至少一种。飞行控制器961用于控制UAV 910的飞行，例如，可以根据传感系统962测量的姿态信息控制UAV 910的飞行。

载体920可以用来承载负载980。例如，当载体920为云台设备时，负载980可以为拍摄设备(例如，相机、摄像机等)，本申请的实施例并不限于此，例如，载体也可以是用于承载武器或其它负载的承载设备。

显示设备930位于无人飞行系统900的地面端，可以通过无线方式与UAV 910进行通信，并且可以用于显示UAV 910的姿态信息。另外，当负载980为拍摄设备时，还可以在显示设备930上显示拍摄设备拍摄的图像。应理解，显示设备930可以是独立的设备，也可以设置在遥控装置940中。示例性的，上述接收与解码模块260可安装在显示设备上，所述显示设备用于显示进行虚化锐化处理后的图像。

遥控装置940位于无人飞行系统900的地面端，可以通过无线方式与 UAV 910进行通信，用于对UAV 910进行远程操纵。遥控装置例如可以是遥控器或者安装有控制UAV的APP(应用程序，Application)的遥控装置，例如，智能手机、平板电脑等。本申请的实施例中，通过遥控装置接收用户的输入，可以指通过遥控器上的拔轮、按钮、按键、摇杆等输入装置或者遥控装置上的用户界面(UI)对UAV进行操控。

除了上述提到的可移动设备，本发明实施例可以应用于其它具有摄像头的载具，例如虚拟现实(Virtual Reality，VR)/增强现实(Augmented Reality，AR)眼镜等设备。

应理解，本申请各实施例的电路、子电路、子单元的划分只是示意性的。本领域普通技术人员可以意识到，本文中所公开的实施例描述的各示例的电路、子电路和子单元，能够再行拆分或组合。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

应理解，本申请各实施例均是以总位宽为16位(bit)为例进行说明的，本申请各实施例可以适用于其他的位宽。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种图像处理的方法，其特征在于，包括：

采用卷积神经网络(CNN)结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图；

采用循环神经网络(RNN)结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图；

根据所述每帧图像对应的显著性图，确定所述每帧图像的感兴趣区域(ROI)位置。
根据权利要求1所述的方法，其特征在于，所述采用卷积神经网络CNN结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图，包括：

对所述每帧图像进行连续的卷积和/或池化操作，以获取所述每帧图像的多张空间特征图，所述多张空间特征图具有不同分辨率；

对所述多张空间特征图中的每张空间特征图进行反卷积和/或卷积操作，以获取所述每帧图像的多张单通道特征图，所述多张单通道特征图具有相同分辨率；

将所述每帧图像的所述多张单通道特征图组合为所述每帧图像的多通道特征图。
根据权利要求2所述的方法，其特征在于，所述对所述每帧图像进行连续的卷积和/或池化操作，以获取所述每帧图像的多张空间特征图，包括：

根据预设网络模型结构，对所述每帧图像进行连续的卷积和池化操作，以获取所述每帧图像的至少三张空间特征图，所述至少三张空间特征图具有不同分辨率。
根据权利要求3所述的方法，其特征在于，所述预设网络模型结构为VGG-16结构，

所述根据所述预设网络模型结构，对所述每帧图像进行连续的卷积和池化操作，以获取所述每帧图像的至少三张空间特征图，包括：

根据所述VGG-16结构，对所述每帧图像进行五组卷积池化操作，以获取所述每帧图像的三张空间特征图，其中，所述五组卷积池化操作包括13层卷积。
根据权利要求4所述的方法，其特征在于，所述每帧图像的分辨率为w×h，所述三张空间特征图的分辨率分别为：
和
根据权利要求2至5中任一项所述的方法，其特征在于，所述对所述多张空间特征图中的每张空间特征图进行反卷积和/或卷积操作，以获取所述每帧图像的多张单通道特征图，包括：

对所述每张空间特征图进行反卷积操作，以获得分辨率相同的多张特征图；

对所述多张特征图中每张特征图进行卷积操作，以获得所述多张单通道特征图。
根据权利要求6所述的方法，其特征在于，所述每帧图像的分辨率为w×h，所述多张特征图的分辨率均为w×h。
根据权利要求6或7所述的方法，其特征在于，所述反卷积操作中的反卷积步长设置为2。
根据权利要求6至8中任一项所述的方法，其特征在于，所述对所述多张特征图中每张特征图进行卷积操作，以获得所述多张单通道特征图，包括：

对所述每张特征图采用1*1的卷积层，获得所述多张单通道特征图。
根据权利要求1至9中任一项所述的方法，其特征在于，所述RNN结构为长短时记忆网络(LSTM)结构。
根据权利要求10所述的方法，其特征在于，所述采用循环神经网络RNN结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图，包括：

将所述多帧图像的多通道特征图按照时间顺序依次输入至所述LSTM结构，以输出所述每帧图像对应的多通道的处理后的特征图；

对所述处理后的特征图采用1*1的卷积层，以获得所述每帧图像的单通道的显著性图。
根据权利要求11所述的方法，其特征在于，所述将所述多帧图像的多通道特征图按照时间顺序依次输入至所述LSTM结构，以输出所述每帧图像对应的多通道的处理后的特征图，包括：

在第t个时刻，将所述第t帧图像的多通道特征图输入至所述LSTM结构，并根据第t-1个时刻输出的细胞状态c _t-1和隐藏状态h _t-1，输出所述第t 帧图像对应的多通道的处理后的特征图以及输出第t个时刻的细胞状态c _t和隐藏状态h _t，t为任意正整数。
根据权利要求11或12所述的方法，其特征在于，所述LSTM结构的循环层大小设置为10。
根据权利要求1至13中任一项所述的方法，其特征在于，所述根据所述每帧图像对应的显著性图，确定所述每帧图像的感兴趣区域ROI位置，包括：

根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸。
根据权利要求14所述的方法，其特征在于，所述根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸，包括：

将所述每帧图像对应的显著性图中像素值最大的点的坐标，确定为所述每帧图像的所述ROI的中心坐标。
根据权利要求14所述的方法，其特征在于，所述根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸，包括：

确定所述每帧图像对应的显著性图中像素值大于或者等于第一预设值的多个点的坐标；

将所述多个点多的坐标的平均值确定为所述每帧图像的所述ROI的中心坐标。
根据权利要求14至16中任一项所述的方法，其特征在于，所述根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸，包括：

根据所述每帧图像的尺寸，确定所述每帧图像的所述ROI的尺寸。
根据权利要求17所述的方法，其特征在于，所述根据所述每帧图像的尺寸，确定每帧图像的所述ROI的范围，包括：

将所述每帧图像的所述ROI的尺寸设置为所述每帧图像的尺寸的1/4。
根据权利要求14至16中任一项所述的方法，其特征在于，所述根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸，包括：

确定所述每帧图像对应的显著性图中像素值大于或者等于第二预设值的多个点的坐标；

确定所述多个点中的两个点，所述两个点的横坐标差值的绝对值最大和/或纵坐标差值的绝对值最大；

根据所述两个点的横坐标差值的绝对值和/或纵坐标差值的绝对值，确定所述每帧图像的所述ROI的尺寸。
根据权利要求19所述的方法，其特征在于，所述根据所述两个点的横坐标差值的绝对值和/或纵坐标差值的绝对值，确定所述每帧图像的所述ROI的尺寸，包括以下步骤中的至少一个：

若所述两个点的横坐标差值的绝对值大于或者等于预设长度，根据所述两个点的横坐标差值的绝对值与所述预设长度的比值，确定所述每帧图像的所述ROI的长度；

若所述两个点的横坐标差值的绝对值小于所述预设长度，将所述预设长度确定为所述每帧图像的所述ROI的长度；

若所述两个点的纵坐标差值的绝对值大于或者等于预设宽度，根据所述两个点的纵坐标差值的绝对值与所述预设宽度的比值，确定所述每帧图像的所述ROI的宽度；

若所述两个点的纵坐标差值的绝对值小于所述预设宽度，将所述预设宽度确定为所述每帧图像的所述ROI的宽度。
一种图像处理的装置，其特征在于，包括：处理器和存储器，

所述存储器用于存储指令，

所述处理器用于执行所述存储器器存储的指令，并且当所述处理器执行所述存储器存储的指令时，所述处理器用于：

采用卷积神经网络(CNN)结构，对多帧图像中的每帧图像进行处理，以获得所述每帧图像的多通道特征图；

采用循环神经网络(RNN)结构，对所述多帧图像的多通道特征图进行处理，以获得所述每帧图像的单通道的显著性图；

根据所述每帧图像对应的显著性图，确定所述每帧图像的感兴趣区域(ROI)位置。
根据权利要求21所述的装置，其特征在于，所述处理器用于：

对所述每帧图像进行连续的卷积和/或池化操作，以获取所述每帧图像的多张空间特征图，所述多张空间特征图具有不同分辨率；

对所述多张空间特征图中的每张空间特征图进行反卷积和/或卷积操作，以获取所述每帧图像的多张单通道特征图，所述多张单通道特征图具有相同分辨率；

将所述每帧图像的所述多张单通道特征图组合为所述每帧图像的多通道特征图。
根据权利要求22所述的装置，其特征在于，所述处理器用于：

根据预设网络模型结构，对所述每帧图像进行连续的卷积和池化操作，以获取所述每帧图像的至少三张空间特征图，所述至少三张空间特征图具有不同分辨率。
根据权利要求23所述的装置，其特征在于，所述预设网络模型结构为VGG-16结构，

所述处理器用于：

根据所述VGG-16结构，对所述每帧图像进行五组卷积池化操作，以获取所述每帧图像的三张空间特征图，其中，所述五组卷积池化操作包括13层卷积。
根据权利要求24所述的装置，其特征在于，所述每帧图像的分辨率为w×h，所述三张空间特征图的分辨率分别为：
和
根据权利要求22至25中任一项所述的装置，其特征在于，所述处理器用于：

对所述每张空间特征图进行反卷积操作，以获得分辨率相同的多张特征图；

对所述多张特征图中每张特征图进行卷积操作，以获得所述多张单通道特征图。
根据权利要求26所述的装置，其特征在于，所述每帧图像的分辨率为w×h，所述多张特征图的分辨率均为w×h。
根据权利要求26或27所述的装置，其特征在于，所述反卷积操作中的反卷积步长设置为2。
根据权利要求26至28中任一项所述的装置，其特征在于，所述处理器用于：

对所述每张特征图采用1*1的卷积层，获得所述多张单通道特征图。
根据权利要求21至29中任一项所述的装置，其特征在于，所述RNN结构为长短时记忆网络(LSTM)结构。
根据权利要求30所述的装置，其特征在于，所述处理器用于：

将所述多帧图像的多通道特征图按照时间顺序依次输入至所述LSTM结构，以输出所述每帧图像对应的多通道的处理后的特征图；

对所述处理后的特征图采用1*1的卷积层，以获得所述每帧图像的单通道的显著性图。
根据权利要求31所述的装置，其特征在于，所述处理器用于：

在第t个时刻，将所述第t帧图像的多通道特征图输入至所述LSTM结构，并根据第t-1个时刻输出的细胞状态c _t-1和隐藏状态h _t-1，输出所述第t帧图像对应的多通道的处理后的特征图以及输出第t个时刻的细胞状态c _t和隐藏状态h _t，t为任意正整数。
根据权利要求31或32所述的装置，其特征在于，所述LSTM结构的循环层大小设置为10。
根据权利要求21至33中任一项所述的装置，其特征在于，所述处理器用于：

根据所述每帧图像对应的显著性图中不同位置的像素值，确定所述每帧图像的所述ROI位置，所述ROI位置包括所述ROI的中心坐标和/或尺寸。
根据权利要求34所述的装置，其特征在于，所述处理器用于：

将所述每帧图像对应的显著性图中像素值最大的点的坐标，确定为所述每帧图像的所述ROI的中心坐标。
根据权利要求34所述的装置，其特征在于，所述处理器用于：

确定所述每帧图像对应的显著性图中像素值大于或者等于第一预设值的多个点的坐标；

将所述多个点多的坐标的平均值确定为所述每帧图像的所述ROI的中心坐标。
根据权利要求34至36中任一项所述的装置，其特征在于，所述处理器用于：

根据所述每帧图像的尺寸，确定所述每帧图像的所述ROI的尺寸。
根据权利要求37所述的装置，其特征在于，所述处理器用于：

将所述每帧图像的所述ROI的尺寸设置为所述每帧图像的尺寸的1/4。
根据权利要求34至36中任一项所述的装置，其特征在于，所述处理器用于：

确定所述每帧图像对应的显著性图中像素值大于或者等于第二预设值的多个点的坐标；

确定所述多个点中的两个点，所述两个点的横坐标差值的绝对值最大和/或纵坐标差值的绝对值最大；

根据所述两个点的横坐标差值的绝对值和/或纵坐标差值的绝对值，确定所述每帧图像的所述ROI的尺寸。
根据权利要求39所述的装置，其特征在于，所述处理器用于执行以下步骤中的至少一个：

若所述两个点的横坐标差值的绝对值大于或者等于预设长度，根据所述两个点的横坐标差值的绝对值与所述预设长度的比值，确定所述每帧图像的所述ROI的长度；

若所述两个点的横坐标差值的绝对值小于所述预设长度，将所述预设长度确定为所述每帧图像的所述ROI的长度；

若所述两个点的纵坐标差值的绝对值大于或者等于预设宽度，根据所述两个点的纵坐标差值的绝对值与所述预设宽度的比值，确定所述每帧图像的所述ROI的宽度；

若所述两个点的纵坐标差值的绝对值小于所述预设宽度，将所述预设宽度确定为所述每帧图像的所述ROI的宽度。
一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在被执行时，实现如权利要求1至20中任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，所述指令被计算机执行时使得计算机执行如权利要求1至20中任一项所述的方法。
一种可移动平台，其特征在于，包括：

机体；

动力系统，设于所述机体内，所述动力系统用于为所述可移动平台提供动力；以及

一个或多个处理器，用于执行上述权利要求1至20中任一项所述的方法。
一种系统，其特征在于，包括：如权利要求43所述的可移动平台和显示设备，

所述可移动平台与所述显示设备有线连接或无线连接。