WO2021174513A1

WO2021174513A1 - 一种图像处理系统、方法以及包括该系统的自动驾驶车辆

Info

Publication number: WO2021174513A1
Application number: PCT/CN2020/078093
Authority: WO
Inventors: 晋周南; 王旭东; 曹结松
Original assignee: 华为技术有限公司
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2021-09-10
Also published as: CN112805723B; CN112805723A

Abstract

本申请涉及人工智能领域，公开了一种图像处理系统、方法以及包括该系统的自动驾驶车辆，本申请的图像处理系统采用Triplet架构，对一帧图像而言，本申请的图像处理系统/方法可以同时提取包括图像特征、图像中的对象特征以及对象的位置信息特征，并基于这些特征信息获取特征向量，基于对特征向量的聚类和分析即可获得关键帧图像。本申请的系统/方法，对于所处理的图像集没有时间上连续或者空间上关联的要求，即本申请的系统/方法可以对任意的图像集进行处理并获取其中的关键帧，降低了处理的冗余度，提升了关键帧获取的效率；另一方面，本申请在特征提取的过程中充分考虑了对象在图像中的位置信息，因此提升了关键帧获取的准确度。

Description

一种图像处理系统、方法以及包括该系统的自动驾驶车辆

技术领域

本申请涉及人工智能领域，特别地，涉及一种图像处理系统、方法以及包括该系统的自动驾驶车辆。

背景技术

随着5G通信和车联网技术的快速发展，自动驾驶技术已经成为研究热点。自动驾驶领域核心技术包括智能环境感知、自动导航定位、驾驶行为决策和智能路径规划控制等。在自动驾驶技术中，对道路信息进行对象检测(例如检测道路上的标识、行人等)是进行驾驶行为决策的先决条件，从图像处理的角度来看看，对象检测需要分析和确定图像中的各个对象的类别信息和位置信息。

目前，一般使用基于神经网络的机器学习方法来进行对象检测，用于对象检测的神经网络在使用前需要进行训练；目前一般采用基于自动驾驶车辆摄像装置获取的图像(集)进行训练。在这些图像(集)中可能存在多次通过同一地点拍摄的图像，或者连续拍摄的图像(即时间或空间上存在关联的图像)，因此图像之间存在很大的相似性，就是存在于训练样本中的冗余数据。由于冗余数据的存在，增加了训练的所需的时长，而且相同/相似样本的过多，影响了训练对其它样本的处理，可能造成过拟合。实际上，在对目标检测的神经网络进行训练的过程中，只需要少量的关键帧即可达到较好的训练效果，一般而言，关键帧描述了对象动作的转折时点，或者场景的切换时点，包含了较丰富的信息。因此如何获取关键帧对于自动驾驶而言是一个亟待解决的问题。

现有技术一般需要利用连续帧图像(即时间和空间上存在关联的图像)之间的关联关系进行关键帧获取，这样不仅在处理上冗余度较高，也限缩了关键帧获取的可选择图像集范围；另一方面，现有技术在进行关键帧获取的时候没有考虑对象的位置信息，因此不能选择出对待检测对象位置信息的预测合适的关键帧。

发明内容

为了解决相关技术问题，本申请实施例提供了一种图像处理系统、方法以及包括该系统的自动驾驶车辆。

作为本申请的一方面，提供一种图像处理系统，包括三重架构(Triplet)的卷积神经网络(包括第一卷积神经网络、第二卷积神经网络和第三卷积神经网络)和通道拼接部。对一帧图像而言，三重架构的卷积神经网络配置为获取图像、图像中的对象、图像中的对象的位置这“三种”信息并对这三种信息进行特征提取，获取后的特征经由通道拼接部生成图像矩阵，图像矩阵中包括了图像、图像中的对象、对象的位置信息，基于对图像矩阵的特征提取可以获得特征向量，再根据特征向量的聚类和分析可以获取关键帧。本申请的图像处理系统可以对无序图像(即在时间和/或空间上没有关联性的图像)进行处理并获取关键帧，从而解决了现有技术中关键帧获取过程中冗余信息过多的问题，提升了关键帧获取的效率和普适性。另一方面，本申请在特征提取的过程中充分考虑了对象在图像中的位置信息，因此提升了关键帧获取的准确度。

结合第一方面的一种可能实现方式，可以在通道拼接部后设置隐层对图像矩阵进行特征提取以获取特征向量，隐层可以使用神经元层来实现，隐层的输入层和通道拼接部逻辑连接。

结合第一方面的一种可能实施方式，可以在通道拼接部后设置第四卷积神经网络对图像矩阵进行特征提取以获取特征向量，卷积神经网络的输入层和通道拼接部逻辑连接。

第一方面的图像处理系统在使用之前需要经过训练，在一种可能实施方式中，采用类似于自编码器的架构进行训练，自编码器是一种能够通过无监督学习，学到输入数据高效表示的人工神经网络。本申请中的自编码器还包括：与隐层或者第四卷积神经网络的输出层逻辑连接的通道分离部，通道分离部配置为将隐层或者卷积神经网络的输出进行通道分离，通道分离包括：图像通道、对象通道和对象位置信息通道。上述图像通道、对象通道和对象位置信息通道分别和第五卷积神经网络、第六卷积神经网络和第七卷积神经网络的输入逻辑连接，第五、第六、第七卷积神经网络分别用于提取图像特征、对象特征以及对象位置信息特征并利用这些特征重建图像、图像中的对象、对象的位置信息。上述第一、第二、第三卷积神经网络属于自编码器的编码端，而上述第五、第六、第七卷积神经网络属于自编码器的解码端。

结合第一方面的一种可能实施方式，第一卷积神经网络、第二卷积神经网络、第三卷积神经网络可以包括降采样层。降采样层可以减少数据处理所需的计算量，并且防止过拟合现象。可以通过例如池化层(包括最大值采样、最小值采样、平均值采样)来实现降采样。在编码端使用了降采样层的情况下，解码端的第五卷积神经网络、第六卷积神经网络、第七卷积神经网络可以包括升采样层，升采样可以恢复数据维度以实现对输入信息的重建。

结合第一方面的一种可能实施方式，隐层可以包括偶数层神经元层，由于编码端和解码端是对称的结构，使用偶数层的隐层可以更有利于实现在编码端和解码端的(神经元)权重一致。因此，可以使用例如两层或者四层神经元层的隐层。

结合第一方面的一种可能实施方式，可以使用卷积神经网络来替换隐层，卷积神经网络可以采用通用的架构，基于和上述偶数层隐层的选择相类似的理由，卷积神经网络可以包括偶数层的卷积层，例如可以使用两层或者四层卷积层的卷积神经网络。

第二方面，本申请还提供一种图像处理方法，可以由例如但不限于训练好的第一方面的图像处理系统来执行，对待处理的图像，获取图像特征、图像中的对象特征、对象的位置信息特征；并融合所述图像特征、所述对象特征和所述对象的位置信息特征以得到图像矩阵。从图像矩阵中获取包括所述图像特征、所述对象特征和所述对象的位置信息特征的特征向量。

结合第二方面的一种可能实施方式，对特征向量进行聚类以得到聚类结果。可以使用例如包括K均值聚类(K-means)和质心最小化簇中点聚类。依据所述聚类结果得到多个聚类类别，多个聚类类别中的每一个包括至少一个图像，对多个聚类类别按照设定规则进行排序，对多个聚类类别中的每一个选取排序完成后的第一个图像作为关键帧，关键帧作为对象识别算法的训练材料。

第三方面，提供一种自动驾驶车辆，其包括前述第一方面的图像处理系统。

第四方面，提供一种自动驾驶车辆，其其配置为与云端通信连接，在云端设置有前述第一方面的图像处理系统，自动驾驶车辆获取的图像被传输至云端的图像处理系统，图像处理系统对图像进行处理以获取其中的关键帧。

第五方面，提供一种自动驾驶辅助系统，其包括前述第一方面的图像处理系统。

第六方面，提供一种自动驾驶辅助系统，其其配置为与云端通信连接，在云端设置有前述第一方面的图像处理系统，自动驾驶辅助系统获取的图像被传输至云端图像处理系统，图像处理系统对图像进行处理以获取其中的关键帧。

第七方面，提供一种神经网络处理器，神经网络处理器配置为前述第二方面的图像处理方法。

第八方面，提供一种自编码器，包括：编码端、解码端、设置在编码端和解码端之间的隐层，编码端包括：第一神经网络，第一神经网络包括至少一个神经元层，第一神经网络配置为对图像进行特征提取；第二神经网络，第二神经网络包括至少一个神经元层，第二神经网络配置为对所述图像中的对象进行特征提取；第三神经网络，第三神经网络包括至少一个神经元层，第三神经网络配置为对所述图像中的对象的位置信息进行特征提取；通道拼接部，通道拼接部与所述第一神经网络、所述第二神经网络、所述第三神经网络的输出层逻辑连接，所述通道拼接部配置为接收第一神经网络、所述第二神经网络、所述第三神经网络的输出并基于接收的输出生成图像矩阵；隐层，所述隐层包括至少一个神经元层，所述隐层的输入层和所述通道拼接部逻辑连接，所述隐层配置为对所述图像矩阵进行特征提取；解码端包括：通道分离部，通道分离部与隐层的输出层逻辑连接，通道分离部配置为将隐层的输出进行通道分离，通道分离包括：图像通道、待检测对象通道和待检测对象位置信息通道；第四神经网络，第四神经网络包括至少一个神经元层，第四卷积神经网络配置为与所述图像通道逻辑连接并获取图像特征；第五神经网络，第五神经网络包括至少一个神经元层，所述第五卷积神经网络配置为与所述待检测对象通道逻辑连接并获取待检测对象特征；第六神经网络，第六神经网络包括至少一个神经元层，第六卷积神经网络配置为与所述待检测对象位置信息通道逻辑连接并获取待检测对象位置信息特征。第五方面的自编码器给出了一种通用的图像处理系统的架构，可以对第五方面的自编码器进行合适的改动即可获取到不同的适合不同场景的图像处理系统，例如可以将第五方面的自编码器的第一至第六神经网络更换为第一至第六卷积神经网络，或者进一步地将第五方面的自编码器的隐层更换为卷积神经网络，即可得到第一方面的各个技术方案。

本申请的各种实施例提供了一种图像处理系统、方法以及包括该系统的自动驾驶车辆，本申请的图像处理系统采用Triplet架构。对一帧图像而言，本申请的图像处理系统/方法可以同时获取包括图像特征、图像中的对象特征以及对象的位置信息特征，并基于这些特征信息获取特征向量，基于对特征向量的聚类和分析即可获得关键帧图像。本申请的系统/方法，对于所处理的图像没有时间上连续或者空间上关联的要求，即本申请的系统/方法可以对任意的图像(集)进行处理并获取其中的关键帧，因此本申请的系统/方法降低冗余信息处理，提升了关键帧获取的效率。另一方面，本申请在特征提取的过程中充分考虑了对象在图像中的位置信息，基于对象位置信息预测提升了关键帧获取的准确度。另外，本申请还提供了一种图像处理方法，一种神经网络处理器，以及一种自编码器架构。

附图说明

图1是本申请实施例提供的一种图像、图像中的对象、对象的位置信息示意图；

图2-1是本申请实施例提供的图像处理系统的示意图；

图2-2是本申请实施例提供的图像处理系统的示意图；

图3是本申请实施例提供的卷积神经网络的架构示意图；

图4是本申请实施例提供的图像处理系统的编码端和解码端共享权重的示意图；

图5是本申请实施例提供的图像处理系统进行训练的示意图；

图6-1是本申请实施例提供的训练完成的图像处理系统进行特征提取的示意图；

图6-2是本申请实施例提供的训练完成的图像处理系统进行特征提取的示意图；

图7是本申请实施例提供的自编码器的示意图；

图8是本申请实施例提供的图像处理方法的流程示意图；

图9是本申请实施例提供的从图像集合中获取关键帧的示意图；

图10是本申请实施例提供的自动驾驶车辆的示意图；

图11是本申请实施例提供的一种图像处理系统的架构示意图；

图12是本申请实施例提供的一种神经网络处理器的架构示意图

具体实施方式

本申请各种实施例提供了一种图像处理系统、方法以及采用该系统的自动驾驶车辆。本申请实施例的图像处理系统，在对图像进行特征提取时，考虑了图像、图像中的对象、对象的位置信息这三种不同的信息(三元信息)，并基于上述三种不同的信息(三元信息)设计了Triplet(三重)型架构的编码器-解码器神经网络结构，从而在对图像进行信息获取的时候同时获取了对象信息以及对象的位置信息，因此可以更加准确地基于对象的位置信息预测获取关键帧。另一方面，本申请实施例的方案，不仅可以用于传统的连续帧图像集中的关键帧获取，也可以直接对无序图像集进行关键帧获取，而无须使用时间和/或空间上关联的图像集，即降低了处理时的冗余程度，提升了关键帧获取的效率，也扩展了关键帧获取的可选择图像集范围。

参见图1，其示出了本申请实施例的三元信息100的示意，其中11为一帧图像，在该帧图像中包括有对象111，对象111为一个指示牌(“前方学校，车辆慢行”)，12为单独分离出的对象(即11中的指示牌)，13为对象111在11中的位置信息。

在图一中示出了一帧图像和其中的一个对象，应当理解的是，这仅是示意说明，在一帧图像中也可以包括多个对象，而对象可以是物体，也可以是动物，也可以是人。

在一些实施例中，对于对象的确定可以采用人工的方式，例如众包；也可以采用通用的对象分割、语义分割的机器学习方法来自动实现，本申请对此不做限定。

在一些实施例中，待检测对象的位置信息由待检测对象的像素在图像中的位置的X、Y通道值所确定，以图1为例，13中的数据指示了11中的指示牌111的X、Y通道值。

参见图2-1，其示出了基于一些实施例的图像处理系统210的示意图，图像处理系统210主要包括编码端211和解码端212，在编码端211和212之间设置有隐层24，编码端211，解码端212和隐层24整体上构成自编码器架构。

编码端201包括三个卷积神经网络21、22、23和通道拼接部28，通道拼接部28的输入分别和卷积神经网络21、22、23的输出相逻辑连接，解码端包括三个卷积神经网络25、26、 27和通道分离部29，通道分离部29的输出和卷积神经网络25、26、27的输入相逻辑连接。

隐层24的输入和通道拼接部28的输出相逻辑连接，隐层24的输出和通道分离部29的输入相逻辑连接。

在一些实施例中，隐层24可以是例如包括偶数层的全连接的神经元层，由于编码端和解码端是对称的结构，使用偶数层的隐层可以更有利于实现在编码端和解码端的神经元的权重一致。在一些实施例中，隐层包括两层神经元层，在另外一些实施例中，隐层包括四层神经元层，神经元层之间可以采用全连接。

在另一些实施例中，参见图2-2，可以使用卷积神经网络来替换隐层24以得到图像处理系统220。卷积神经网络可以采用通用的架构，例如(但不限于)卷积-池化-卷积-池化-全连接的架构，基于和上述隐层选用偶数层所相类似的理由，卷积神经网络可以包括偶数层的卷积层。

在一些实施例中，编码端201和解码端202的卷积神经网络可以采用通用的架构设置，参见图3，其示出了图像处理系统中的一个卷积神经网络300的架构示意：图3中示意卷积神经网络300包括三个模块，每个模块均包括卷积层31和池化层33，在卷积层和池化层之间有激活函数(层)32，在三个模块的最后，设置有全连接层34作为输出层。

卷积层(Convolution Layer)对输入的(图像)数据进行卷积运算，卷积运算相当于图像处理中的滤波器运算，即以设定大小的滤波器按步长对图像进行乘积累加运算，通过卷积运算，可以提取出图像中的特征部分。

池化层(Pooling Layer)用于缩小高、长方向上的空间的运算，池化一般包括最大值池化、最小值池化和平均值池化。池化可以减少数据规模，并可以对输入数据的微小变化具有鲁棒性/不变性。

在一些实施例中，激活函数可以采用机器学习领域习知的ReLU、Sigmoid、Tanh、Maxout等函数。

应当理解的是，图3所示出的卷积神经网络的架构示例仅仅是一种可能的设置方式，本领域技术人员可以依据实际需要改变卷积层和/或池化层的数目而不会背离本申请的精神。在本申请中，为了深度地提取图像中的特征，一般采用三层以上的卷积层。而当卷积层数目较多时(例如：大于5层)，优选使用ReLU函数作为激活函数。

应当理解的是，可以在编码端和解码端使用架构完全相同的卷积神经网络(例如图3所示出的架构)，也可以使用不同的卷积神经网络的架构，本申请对此不做限定。

在一些实施例中，参见图4，当在编码端和解码端使用完全相同的卷积神经网络的架构时，在编码端和解码端的卷积神经网络之间可以共享神经元权重(图4中的虚线示意)，通过共享权重，可以降低卷积神经网络的参数数量，提升运算效率。在图4所示实施例，编码端包括三个完全相同的卷积神经网络41、42和43；解码端也包括三个完全相同的卷积神经网络45、46和47。编码端的通道拼接部48的输出与隐层44的输入相逻辑连接，隐层44的输出和解码端的通道分离部49的输入相逻辑连接。

在实施例中，图像处理系统在对图像进行特征提取以获取关键帧之前需要进行训练，训练的过程介绍如下：

参见图5，其示出了和图2-2示例基本一致的网络架构。图5编码端的三个卷积神经网络51、52、53被配置为分别对一个具体图像帧的三元信息(图像，图像中的对象，对象的位置信息)进行处理以提取特征信息。

在一些实施例中，为了减少数据处理所需的计算量，并且防止过拟合现象，可以在编码端的卷积神经网络51、52、53中采用降采样(Subsampling)，具体而言，可以通过例如池化层来实现降采样，池化层可以使用最大值池化、最小值池化或者平均值池化。也可以通过调节卷积步幅(Stride)使其卷积步幅大于一来实现降采样。

经过上述编码端的三个卷积神经网络51、52、53的处理，可以分别在上述三个神经网络的输出层获取到图像特征信息、图像中的对象特征信息以及图像中的对象位置特征信息。然后将上述三种信息经由通道拼接部58进行通道拼接以获取一个图像矩阵，该图像矩阵中包括了上述三种特征信息，即图像特征信息、图像中的对象特征信息以及图像中的对象位置特征信息。

将图像矩阵输入到位于编码端和解码端之间的卷积神经网络54，进行特征提取，然后将获取的特征经由通道分离部59进行通道分离后分别输入到解码端的三个卷积神经网络55、56、57，对图像、图像中的对象、图像中的对象位置信息进行重建。由于在实施例中，在编码端进行了降采样，数据被降维，而在解码端(Decoder)的卷积神经网络55、56、57中进行了升采样(Upsampling)过程以恢复数据维度，在一些实施例中，升采样可以使用双线性插值来实现。

经由解码端的三个卷积神经网络55、56、57所获取的特征重建图像、图像中的对象、对象的位置信息，并基于重建的图像、图像中的对象，对象的位置信息和输入端(编码端)的图像、图像中的对象、对象的位置信息进行比较(学习)，使用误差反向传播(BP)法来训练解码端和编码端的神经元的权重。应当理解的是，应当使用足够数量的、不同的图像帧来对图像处理系统进行训练，以使得图像处理系统的编码端和解码端的神经元的权重被训练到收敛。基于编码-解码的过程，编码端和解码端可以学习到对三元图像信息进行特征获提取和表达。

当对图像处理系统训练完成后，即可使用编码端(即特征提取端)对待处理的图像进行特征提取。应当理解的是，本申请的图像处理系统可以对无序图像，即时间和/或空间上无关联的图像进行特征提取并利用上述获取的特征进行关键帧选取。

应当理解的是，上述训练过程同样适用于例如但不限于图2-1所示的网络架构，区别仅在于图像矩阵在位于编码端和解码端之间的隐层进行特征提取，然后将后将获取的特征进行通道分离后分别输入到解码端的三个卷积神经网络，对图像、图像中的对象、图像中的对象位置信息进行重建。

在图像处理系统训练完成后，即可进行图像的特征提取并基于特征提取来确定关键帧，下面描述使用训练完的图像处理系统进行特征提取的过程：

参见图6-1，其示出了实施例提供的一种图像处理系统在训练完成后，对图像进行特征提取的示意图。

将图像、图像中的对象以及对象的位置信息分别输入到三个卷积神经网络611、612、613中，分别进行特征提取。在实施例中，特征提取的过程中同样可以使用降采样，降采样可以使用例如池化或者调节卷积步幅(Stride)使其卷积步幅大于一来实现。应当理解的是，也可以直接使用不带降采样的卷积神经网络来进行图像特征提取而不违背本申请的精神。

图像特征提取完成后，经过通道拼接部614进行通道拼接获得包括图像特征信息、图像中的对象特征信息以及图像中的对象位置特征信息的图像矩阵，然后使用隐层615对图像矩阵进行特征提取，最终获得以一维向量形式表示的特征向量，对于每个特征向量而言，其中均包括了三种特征信息：即图像的信息、图像中的对象信息、对象的位置信息。

参见图6-2，其示出了实施例提供的一种图像处理系统训练完成后，对图像进行特征提取的示意图。

将图像、图像中的对象以及对象的位置信息分别输入到三个卷积神经网络中621、622、623，分别进行特征提取，在实施例中，特征提取的过程中同样使用降采样，降采样可以使用例如池化或者调节卷积步幅(Stride)使其卷积步幅大于一来实现。应当理解的是，也可以直接使用不带降采样的卷积神经网络来进行图像特征提取而不违背本申请的精神。

图像特征提取完成后，经过通道拼接部624进行通道拼接获得包括图像特征信息、图像中的对象特征信息以及图像中的对象位置特征信息的图像矩阵，然后使用卷积神经网络625对图像矩阵进行特征提取，最终获得以一维向量形式表示的特征向量，对于每个特征向量而言，其中均包括了三种特征信息：即图像的信息、图像中的对象信息、对象的位置信息。

在一些实施例中，对所获取的特征向量进行聚类，具体地，可以使用机器学习领域习知的聚类方法，例如K均值聚类法或质心最小化簇中点距离聚类法对特征向量进行聚类，统计不同图像中包含的目标类别以及各个类别的对象数量，生成下表1的结构：

表1：特征聚类结果与图像对应关系对应表

聚类类别	1	2	3	4	........	类别数量
图像1	1	1	1	0	.........	3
图像2	2	0	1	4	.........	3
图像3	0	1	2	0	.........	2
图像4	0	0	0	0	.........	0
对象数量	3	2	4	4	.........

表2：第一次排序后结果

聚类类别	2	1	3	4	........	类别数量
图像1	1	1	1	0	.........	3
图像3	1	0	2	0	.........	2
图像2	0	2	1	4	.........	3
图像4	0	0	0	0	.........	0
对象数量	2	3	4	4	.........

应当理解的是，聚类的类别可以基于实际需求而设置，上表中仅仅出于示例性说明而示出了四个聚类的类别和四个图像，实际上，对于图像、图像中的对象、对象的位置信息中的每一个都可能有多个分类类别，总的聚类类别数可能在几百至上千个，同样地，图像数也可以有几百至上千个。

在聚类完成后，即可基于聚类结果按照下述进行关键帧选取，具体步骤为：

(1)设图像集合为U，关键帧集合为V

(2)按照对象数量对类别进行升序排序，得到排序后的类别集合S；

(3)以集合S中排序后的类别顺序作为“主键-次键”划分的依据，对图像进行排序，排序规则为：基于主键类别的对象数量进行降序排序，主键类别的对象数量相同时，以次键类别的对象数量降序排序)；参见表2，其示出了对表1进行了第一次排序后的结果；

(4)选择步骤(3)所得排序表(表2)中第一项对应的图像作为关键帧，将其从集合U移入集合V中，同时将该项对应的图像所包含的类别从集合S中剔除；以表2为例，选取图像1代表聚类类别2，这意味着图像1整体上可以“代表”聚类类别2这一簇图像族，对于聚类类别2这一簇图像族来说，图像1即可以“代表”它们，作为这一簇图像族的关键帧；

(5)重复步骤(2)-(4)，直到集合S或集合U为空。

通过上述关键帧选取流程，即可基于聚类结果确定关键帧。

参见图7，其示出了一种自编码器，包括编码端701和解码端702，以及设置在编码端701和解码端702之间的隐层74。

编码端701包括：神经网络71，神经网络72，神经网络73，通道拼接78。

解码端702包括：神经网络75，神经网络76，神经网络77，通道分离79。

神经网络71、72、73、75、76、77包括至少一个神经元层。

隐层74包括至少一个神经元层，在一些实施例中，隐层74可以包括偶数个神经元层。

神经网络71、72、73可以被配置为分别获取图像、图像中的对象、对象的位置信息特征，通道拼接部78配置为分别与神经网络71、72、73的输出层逻辑连接，通道拼接部78接收神经网络71、72、73的输出并基于接收的输出生成图像矩阵。

隐层74的输入层和所述通道拼接部逻辑连接，隐层74配置为对所述图像矩阵进行特征提取。

通道分离部79与所述隐层的输出层逻辑连接，通道分离79配置为将隐层74的输出进行通道分离，通道分离包括：图像通道、对象通道和对象位置信息通道。

神经网络75、76、77可以被配置为分别与图像通道，对象通道，对象位置信息通道逻辑连接并获取图像特征、对象特征和对象位置信息特征。

可以对图7所示出的自编码器做适应性变化，例如可以将神经网络71-73、75-76替换为卷积神经网络，即可得到如图2-1所示的图像处理系统，而如果进一步地将隐层74替换为卷积神经网络，即可得到如图2-2所示的图像处理系统。本领域技术人员可以依据实际的情况来对图7所示出的自编码器进行适应性地调整而不背离本申请的精神。

参见图8，其示出了基于本申请一些实施例的图像处理方法流程，包括：

81，开始；

82，对图像进行特征提取以得到特征向量，基于本申请的实施例，对于一帧图像而言，特征提取可以包括首先进行图像特征、图像中的对象特征、对象的位置信息特征的获取，然后基于图像特征、对象特征和对象位置信息特征得到特征向量；

83，对特征向量进行聚类，基于本申请的实施例，可以使用例如K均值聚类或者或质心最小化簇中点距离聚类法对特征向量进行聚类；

84，依据聚类结果得到关键帧，对聚类结果进行分析，并按照设定规则处理即可得到关键帧；这里的设定规则可以包括例如上述的步骤(1)-(5)；

85，结束。

在一些实施例中，参见图10，提供一种自动驾驶车辆1000，其可以包括驱动系统101，控制系统102，驱动系统103等。传感器系统101可以包括例如但不限于定位系统(GPS)、惯导(IM)、激光雷达(Lidar)、毫米波雷达、相机等。控制系统102可以包括例如但不限于自动驾驶车辆计算平台等系统/装置，控制系统可以包括自动驾驶系统(Autonomous Driving System:简称ADS)104。驱动系统103可以包括例如但不限于引擎、传动装置、电动能量源、线控系统等。传感器系统101、控制系102统、驱动系统103之间可以通信地链接。在一些实施例中，上述各种实施例所描述的图像处理系统可以配置在控制系统的自动驾驶辅助系统上，其可以在车辆行驶过程中基于传感器系统的相机所获取的各种图像帧/流进行处理以获取其中的关键帧；一般情况下，自动驾驶车辆1000正常情况下行驶一天基于相机收集到的图像帧/流往往要达到几个G甚至几十G的规模，而经过图像处理系统处理后可以从这些图像帧/流中选取到的关键帧集合一般只有几十M的大小，因此使用本申请的技术方案可以显著地消除冗余数据，而这些获取的关键帧可以用于后续的对于目标检测算法的神经网络的训练。参见图9，其给出了实施例提供的自动驾驶车辆1000获取关键帧，从而消除了冗余数据的示意。自动驾驶车辆91在行驶过程中获取的图像包括图9所示的三帧图像：901，902和903；在这三帧图像中均包括了道路和道路上的车辆92，与图像901和902不同的是：在图像903中出现了一个行人93。经过本申请实施例的图像处理系统处理后，可以确定图像903为关键帧，因此可以将903选择出并标记为关键帧，相应地，图像901和902即为冗余的，可以将它们删除。应当理解的是：图9中示例性给出的三帧图像在时间和空间上有一定的关联性，但是本申请技术方案的图像处理系统同样可以对时空上没有关联的无序图像集合进行处理并获取关键帧。

在另外一些实施例中，也可以将本申请技术方案配置在云端，车辆所获取的图像帧/流可以通过通信网络传输到云端，在云端对图像帧/流进行处理以获取关键帧，所获取的关键帧可以用于对于目标检测算法的神经网络的训练。

在另外一些实施例中，提供一种用于自动驾驶车辆的自动驾驶系统(Autonomous Driving System:简称ADS)，其可以包括本申请的图像处理系统，图像处理系统对车辆在行驶过程中基于相机所获取的各种图像帧/流进行处理以获取其中的关键帧。在另外一些实施例中，也可以将本申请的图像处理系统配置在云端，自动驾驶辅助系统在车辆行驶过程中获取的图像被传输至云端的图像处理系统，在云端对上述图像帧/流进行处理以获取关键帧，所获取的关键帧可以用于后续对于对象检测算法的神经网络的训练。

在另外一些实施例中，提供一种神经网络处理器(Neural-Network Processing Unit，NPU)。该神经网络处理器可以被设置在例如但不限于如图10所示的控制系统102中，实施例提供的各种图像处理系统的算法均可在该神经网络处理器中得以实现。

图11示出了本申请实施例提供的一种图像处理系统架构1100。

在图11中，数据采集设备116用于采集图像数据。

在采集到图像数据之后，数据采集设备116将这些训练数据存入数据库113，训练设备112基于数据库113中维护的训练数据训练得到目标模型/规则1171(即本申请各种实施例中的自编码器模型)。

在本申请提供的实施例中，该目标模型/规则1171是通过训练自编码器模型得到的。需要说明的是，在实际的应用中，所述数据库113中维护的训练数据不一定都来自于数据采集设备116的采集，也有可能是从其他设备接收得到的。

另外需要说明的是，训练设备112也不一定完全基于数据库113维护的训练数据进行目标模型/规则1171的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。还需要说明的是，数据库113中维护的训练数据中的至少部分数据也可以用于执行设备111对待处理处理进行处理的过程。

根据训练设备112训练得到的目标模型/规则1171可以应用于不同的系统或设备中，如应用于图11所示的执行设备111，所述执行设备210可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。

在图11中，执行设备111配置输入/输出(input/output，I/O)接口1110，用于与外部设备进行数据交互。

预处理模块118和预处理模块119用于根据I/O接口1110接收到的输入数据(如待处理图像)进行预处理，在本申请实施例中，也可以没有预处理模块118和预处理模块119(也可以只有其中的一个预处理模块)，而直接采用计算模块117对输入数据进行处理。

在执行设备111对输入数据进行预处理，或者在执行设备111的计算模块117执行计算等相关的处理过程中，执行设备111可以调用数据库115中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统250中。

最后，I/O接口1110将处理结果，如上述得到待处理图像增强图像，即将得到的输出图像返回给客户设备114，从而提供给用户。

值得说明的是，训练设备112可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则1171，该相应的目标模型/规则1171即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

值得注意的是，图11仅是本申请实施例提供的一种图像处理系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图11中，数据库115相对执行设备111是外部存储器，在其它情况下，也可以将数据存储系统115置于执行设备111中。

图12是本申请实施例提供的一种芯片的硬件结构，该芯片包括神经网络处理器120(neural-network processing unit，NPU)。该芯片可以被设置在如图11所示的执行设备111中，用以完成计算模块117的计算工作。该芯片也可以被设置在如图11所示的训练设备112中，用以完成训练设备112的训练工作并输出目标模型/规则1171。

NPU 400作为协处理器挂载到主中央处理器(central processing unit，CPU)上，由主CPU分配任务。NPU 400的核心部分为运算电路123，控制器126控制运算电路123提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路123内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路123是二维脉动阵列。运算电路123还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路123是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路123从权重存储器 122中取矩阵B相应的数据，并缓存在运算电路123中每一个PE上。运算电路123从输入存储器401中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器124(accumulator)中。

向量计算单元129可以对运算电路123的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元129可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能129将经处理的输出的向量存储到统一存储器127。例如，向量计算单元129可以将非线性函数应用到运算电路123的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元129生成归一化的值、合并值，或二者均有。

在一些实现中，处理过的输出的向量能够用作到运算电路123的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器127用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器128(direct memory access controller，DMAC)将外部存储器中的输入数据存入到输入存储器1210和/或统一存储器127、将外部存储器中的权重数据存入权重存储器122，以及将统一存储器127中的数据存入外部存储器。

总线接口单元121(bus interface unit，BIU)，用于通过总线实现主CPU、DMAC和取指存储器125之间进行交互。

与控制器126连接的取指存储器125(instruction fetch buffer)，用于存储控制器126使用的指令。控制器126用于调用取指存储器125中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器127，输入存储器1210，权重存储器122以及取指存储器125均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

本申请的各种实施例提供了一种图像处理系统、方法以及包括该系统的自动驾驶车辆，本申请的图像处理系统采用Triplet架构，对一帧图像而言，本申请的图像处理系统/方法可以同时获取包括图像特征、图像中的对象特征以及对象的位置信息特征，并基于这些特征信息获取特征向量，基于对特征向量的聚类和分析即可获得关键帧图像。本申请的系统/方法，对于所处理的图像没有连续帧的要求，即本申请的系统/方法可以对任意的、无序的图像进行处理并获取其中的关键帧，因此本申请的系统/方法解决了现有技术中对关键帧获取的过程中需要使用连续帧所导致的冗余信息处理问题，提升了关键帧获取的效率。另一方面，本申请在特征提取的过程中充分考虑了对象在图像中的位置信息，因此提升了关键帧获取的准确度。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑业务划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各业务单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件业务单元的形式实现。

集成的单元如果以软件业务单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的业务可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些业务存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种图像处理系统，包括：第一卷积神经网络，第二卷积神经网络，第三卷积神经网络和通道拼接部，所述通道拼接部与所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络的输出层逻辑连接；

所述第一卷积神经网络配置为：获取图像并对所述图像进行特征提取；

所述第二卷积神经网络配置为：获取所述图像中的对象并对所述图像中的对象进行特征提取；

所述第三卷积神经网络配置为：获取所述图像中的对象的位置信息并对所述图像中的对象的位置信息进行特征提取；

通道拼接部，所述通道拼接部与所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络的输出层相连接逻辑连接，所述通道拼接部配置为接收所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络的输出并基于接收的输出生成图像矩阵。
根据权利要求1所述的图像处理系统，还包括：

隐层，所述隐层包括至少一个神经元层，所述隐层的输入层和所述通道拼接部逻辑连接，所述隐层配置为对所述图像矩阵进行特征提取。
根据权利要求2所述的图像处理系统，其中：

所述隐层包括偶数个全连接的神经元层。
根据权利要求1所述的图像处理系统，还包括：

第四卷积神经网络，所述第四卷积神经网络的输入层和所述通道拼接部逻辑连接，所述第四卷积神经网络配置为对所述图像矩阵进行特征提取。
根据权利要求4所述的图像处理系统，其中：

所述第四卷积神经网络包括偶数个卷积层。
根据权利要求3所述的图像处理系统，还包括：

通道分离部，所述通道分离部与所述隐层的输出层逻辑连接，所述通道分离部配置为将所述隐层的输出特征进行通道分离，所述通道分离包括：图像通道、对象通道和对象位置信息通道。
根据权利要求5所述的图像处理系统，还包括：

通道分离部，所述通道分离部与所述第四卷积神经网络的输出层逻辑连接，所述通道分离部配置为将所述第四神经网络的输出进行通道分离，所述通道分离包括：图像通道、对象通道和对象位置信息通道。
根据权利要求6-7任一所述的图像处理系统，还包括：

第五卷积神经网络，所述第五卷积神经网络配置为与所述图像通道逻辑连接并提取图像特征；

第六卷积神经网络，所述第六卷积神经网络配置为与所述对象通道逻辑连接并提取待检测对象特征；

第七卷积神经网络，所述第七卷积神经网络配置为与所述对象位置信息通道逻辑连接并提取待检测对象位置信息特征。
根据权利要求8所述的图像处理系统，其中：

所述第一卷积神经网络、第二卷积神经网络、第三卷积神经网络包括降采样层。
根据权利要求9所述的图像处理系统，其中：

所述降采样层为池化层，所述池化层包括最大值池化、最小值池化或者平均值池化中的至少一种。
根据权利要求10所述的图像处理系统，其中：

所述降采样层配置为以大于1的步数执行卷积操作以实现降采样。
根据权利要求11所述的图像处理系统，其中：

所述第五卷积神经网络、第六卷积神经网络、第七卷积神经网络均包括升采样层。
根据权利要求12所述的图像处理系统，其中：

所述升采样层配置为执行双线性插值以实现升采样。
根据权利要求13所述的图像处理系统，其中：

所述第一卷积神经网络、第二卷积神经网络和第三卷积神经网络之间共享权值。
根据权利要求14所述的图像处理系统，其中：

所述第五卷积神经网络、第六卷积神经网络和第七卷积神经网络之间共享权值。
一种图像处理方法，包括：

提取图像特征；

提取所述图像中的对象特征；

提取所述图像中的对象的位置信息特征；

融合所述图像特征、所述对象特征和所述对象的位置信息特征以得到图像矩阵。
根据权利要求16所述的图像处理方法，还包括：

从图像矩阵中提取包括所述图像特征、所述对象特征和所述对象的位置信息特征的特征向量。
根据权利要求17所述的图像处理方法，其中：

对所述特征向量进行聚类以得到聚类结果。
根据权利要求18所述的图像处理方法，其中：

所述聚类包括K均值聚类(K-means)和质心最小化簇中点聚类。
根据权利要求19所述的图像处理方法，还包括：

依据所述聚类结果得到多个聚类类别，所述多个聚类类别中的每一个包括至少一个图像，对所述多个聚类类别按照设定规则进行排序，对所述多个聚类类别中的每一个选取排序完成后的第一个图像作为关键帧，所述关键帧作为对象识别算法的训练材料。
一种自动驾驶车辆，其包括如权利要求1-15任一所述的图像处理系统。
一种自动驾驶车辆，其配置为与云端通信连接，在所述云端设置有有如权利要求1-15任一所述的图像处理系统，所述自动驾驶车辆获取的图像被传输至所述图像处理系统，所述图像处理系统对所述获取的图像进行处理以获取关键帧。
一种自动驾驶辅助系统，其包括如权利要求1-15任一所述的图像处理系统。
一种自动驾驶辅助系统，其配置为与云端通信连接，在所述云端设置有有如权利要求1-15任一所述的图像处理系统，所述自动驾驶辅助系统获取的图像被传输至所述图像处理系统，所述图像处理系统对所述自动驾驶辅助系统获取的图像进行处理以获取关键帧。
一种神经网络处理器，所述神经网络处理器配置为可执行如权利要求16-20任一所述的图像处理方法。
一种自编码器，包括：

编码端，所述编码端包括：

第一神经网络，所述第一神经网络包括至少一个神经元层，所述第一神经网络配置为获取图像并对图像进行特征提取；

第二神经网络，所述第二神经网络包括至少一个神经元层，所述第二神经网络配置为获取所述图像中的对象并对所述图像中的对象进行特征提取；

第三神经网络，所述第三神经网络包括至少一个神经元层，所述第三神经网络配置为获取所述图像中的对象的位置信息并对所述图像中的对象的位置信息进行特征提取；

通道拼接部，所述通道拼接部与所述第一神经网络、所述第二神经网络、所述第三神经网络的输出层逻辑逻辑连接，所述通道拼接部配置为接收所述第一神经网络、所述第二神经网络、所述第三神经网络的输出并基于接收的输出生成图像矩阵；

隐层，所述隐层包括至少一个神经元层，所述隐层的输入层和所述通道拼接逻辑连接，所述隐层配置为对所述图像矩阵进行特征提取；

解码端，所述解码端包括：

通道分离部，所述通道分离部与所述隐层的输出层逻辑连接，所述通道分离部配置为将所述隐层的输出进行通道分离，所述通道分离部包括：图像通道、对象通道和对象位置信息通道；

第四神经网络，所述第四神经网络包括至少一个神经元层，所述第四卷积神经网络配置为与所述图像通道逻辑连接并提取图像特征；

第五神经网络，所述第五神经网络包括至少一个神经元层，所述第五卷积神经网络配置为与所述对象通道逻辑连接并提取待检测对象特征；

第六神经网络，所述第六神经网络包括至少一个神经元层，所述第六卷积神经网络配置为与所述待检测对象位置信息通道逻辑连接并提取对象位置信息特征。