WO2022100133A1

WO2022100133A1 - 场景识别方法、装置、智能设备、存储介质和计算机程序

Info

Publication number: WO2022100133A1
Application number: PCT/CN2021/106936
Authority: WO
Inventors: 鲍虎军; 章国锋; 余海林; 冯友计
Original assignee: 浙江商汤科技开发有限公司
Priority date: 2020-11-10
Filing date: 2021-07-16
Publication date: 2022-05-19
Also published as: CN112329660B; JP2023510945A; CN112329660A

Abstract

一种场景识别方法、装置、智能设备及存储介质，所述场景识别方法包括：获取待处理图像以及待处理图像对应的语义掩码图；其中，待处理图像包括查询图像及待识别图像（S11），所述待处理图像对应的语义掩码图包括所述查询图像的语义掩码图和所述待识别图像的语义掩码图；根据语义掩码图对待处理图像进行特征聚合处理，得到待处理图像的特征向量（S12）；利用待处理图像的特征向量从待识别图像中确定与查询图像的场景匹配的图像（S13）。如此，能够通过语义掩码图降低干扰因素特征对特征识别的干扰，进而提高场景识别的鲁棒性。

Description

场景识别方法、装置、智能设备、存储介质和计算机程序

相关申请的交叉引用

本申请基于申请号为202011249944.4、申请日为2020年11月10日、申请名称为“一种场景识别方法、装置、智能设备及存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以全文引用的方式引入本申请。

技术领域

本申请涉及图像检索技术领域，尤其设计一种场景识别方法、装置、智能设备、存储介质和计算机程序。

背景技术

场景识别在计算机视觉领域有着重要的应用，譬如同时定位和地图构建(Simultaneously Localization And Mapping，简称SLAM)、运动恢复结构(Structure From Motion，SFM)和视觉定位(Visual Localization，VL)。

场景识别问题研究的主要内容是从给定的一张图像中识别出对应的场景，给出场景的名称或是场景的地理位置，亦或是从数据库中挑选出与场景相似的图像，也可以看做是图像检索问题。目前常用的方法有两种，一种是直接计算图像的全局描述，另一种是使用特征聚合的方法。目前现有技术中对场景识别方法的研究也越来越多。

发明内容

本申请实施例提供一种场景识别方法、装置、智能设备、存储介质和计算机程序。

本申请实施例提供一种场景识别方法，包括：获取待处理图像以及所述待处理图像对应的语义掩码图；其中，所述待处理图像包括查询图像及待识别图像，所述待处理图像对应的语义掩码图包括所述查询图像的语义掩码图和所述待识别图像的语义掩码图；根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量；利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像。通过语义掩码图结合特征聚合方式得到待处理图像对应的特征，以此能够降低干扰因素的干扰，提高场景识别的鲁棒性。

在一些实施例中，所述获取待处理图像以及所述待处理图像对应的语义掩码图的步骤包括：对所述待识别图像及所述查询图像进行语义分割处理，得到每一像素的类别及所述类别对应的概率；按照设定条件对每一像素的类别设置权重；根据所述类别对应的概率及所述类别对应的权重得到每一所述像素对应的语义掩码，其中，所有所述像素对应的语义掩码构成语义掩码图。通过权重的设置使得得到的语义掩码图在结合特征聚合方式得到待处理图像对应的特征后，能够降低干扰因素的干扰，提高场景识别的鲁棒性。

在一些实施例中，所述按照设定条件对每一像素的类别设置权重之前还包括：对所有像素进行属性分类，得到一个或多个子类别；按照设定条件对每一所述子类别设置权重；根据所述子类别对应的概率及所述子类别对应的权重得到每一所述像素对应的语义掩码，其中，所有所述像素对应的语义掩码构成语义掩码图。给每一子类别设置权重，能够降低干扰因素的干扰，提高场景识别的鲁棒性。

在一些实施例中，所述子类别包括固定子类别、不固定子类别、动态子类别和未知子类别中的至少两种；所述动态子类别的权重小于所述固定子类别、所述不固定子类别及所述未知子类别的权重。例如，为不固定子类别设置较高权重，固定子类别设置较小权重，以此消除不固定特征对特征识别的干扰，提高场景识别的鲁棒性。

在一些实施例中，所述根据所述子类别对应的概率及所述子类别对应的权重得到每一所述像素对应的语义掩码包括：利用公式m _i＝p _i×w _i计算所述像素对应的语义掩码；

其中，m _i表示第i个像素对应的语义掩码，其生成的图为语义掩码图，p _i表示第i个像素所属的子类别的概率，w _i表示第i个像素所属的类别或子类别对应的权重。通过计算语义掩码图，以降低不固定特征对场景识别的干扰。

在一些实施例中，根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量包括：对所述待处理图像进行特征抽取，得到特征集合；依据所述特征集合形成多个聚类中心；根据多个所述聚类中心得到每一所述待处理图像中的每一特征对应的聚类中心；确定所述待处理图像中的每一特征在第一维度对应的值，以及确定所述待处理图像中的所述每一特征对应的聚类中心在所述第一维度对应的值；通过所述待处理图像中的每一特征对应的聚类中心，所述待处理图像中的每一特征对应的聚类中心在第一维度对应的值，以及，所述待处理图像中的所述每一特征在所述第一维度对应的值，结合所述查询图像的语义掩码图，对所述查询图像进行特征聚合处理，得到所述查询图像的特征向量；以及通过所述待处理图像中的每一特征对应的聚类中心，所述待处理图像中的每一特征对应的聚类中心在第一维度对应的值，以及所述待处理图像中的每一特征在所述第一维度对应的值，结合所述待识别图像的语义掩码图，对所述待识别图像进行特征聚合处理，得到所述待识别图像的特征向量。利用语义掩码图得到待处理图像对应的特征，由于语义掩码图中对不固定特征进行了权重设置，以此能够降低干扰因素的干扰，提高场景识别的鲁棒性。

在一些实施例中，所述依据所述特征集合形成多个聚类中心包括：利用聚类算法对所述特征集合进行处理，以形成多个聚类中心；所述根据多个所述聚类中心得到每一所述待处理图像中的每一特征对应的聚类中心包括：将距离每一所述特征最近的聚类中心作为所述待处理图像中的每一特征对应的聚类中心。

在一些实施例中，所述利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像包括：根据所述待识别图像的特征向量与所述查询图像的特征向量的距离，从所述待识别图像中确定与所述查询图像场景匹配的图像。由于特征向量的计算结合了语义掩码图，以此降低了不固定特征的干扰，得到与查询图像相似度更高的待识别图像。

在一些实施例中，根据所述待识别图像的特征向量与所述查询图像的特征向量的距离，从所述待识别图像中确定与所述查询图像场景匹配的图像的步骤包括：将距离所述查询图像的特征向量最近的特征向量对应的所述待识别图像确定为所述查询图像匹配的图像。以此得到与查询图像相似度更高的待识别图像。

在一些实施例中，所述待识别图像中与所述查询图像匹配的图像为多个；所述将距离所述查询图像的特征向量最近的特征向量对应的所述待识别图像确定为所述查询图像匹配的图像的步骤之后还包括：采用空间一致性方法将与所述查询图像匹配的图像进行排列，以获取到与所述查询图像最相似的图像。以此使得得到的场景更为相似、准确度更高。

本申请实施例提供一种场景识别装置，包括：获取模块，配置为获取待处理图像以及所述待处理图像对应的语义掩码图；其中，所述待处理图像包括查询图像及待识别图像；特征聚合模块，配置为根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量；图像匹配模块，配置为利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像。通过语义掩码图结合特征聚合方式得到待处理图像对应的特征，以此能够降低干扰因素的干扰，提高场景识别的鲁棒性。

本申请实施例提供一种智能设备，包括：相互藕接的处理器及存储器，其中，所述存储器用于存储实现如上述任意一项所述的场景识别方法的程序指令。

本申请实施例提供一种计算机可读存储介质，存储有程序文件，所述程序文件能够被执行以实现上述任意一项所述的场景识别方法。

本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在智能设备中运行时，所述智能设备中的处理器执行用于实现上述任意一项所述的场景识别方法。

本申请实施例提供一种场景识别方法、装置、智能设备、存储介质和计算机程序，通过获取待处理图像以及待处理图像对应的语义掩码图，根据语义掩码图对待处理图像进行特征聚合处理，得到待处理图像的特征向量，再利用特征向量从待识别图像中确定与查询图像的场景匹配的图像，如此，能够通过获取语义掩码图，得到图像的高层语义信息，通过语义掩码图与特征聚合的结合，消除图像中干扰因素带来的干扰，进而提高场景识别的鲁棒性。

附图说明

图1是本申请实施例场景识别方法的一实施例的流程示意图；

图2是本申请实施例图1中步骤S11的一实施例的流程示意图；

图3是本申请实施例图1中步骤S11的另一实施例的流程示意图；

图4是本申请实施例场景识别装置的一实施例的结构示意图；

图5是本申请实施例智能设备的一实施例的结构示意图；

图6是本申请实施例计算机可读存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

场景识别在计算机视觉领域有着重要的应用，场景识别问题研究的主要内容是从给定的一张图像中识别出对应的场景，给出场景的名称或是场景的地理位置、或是从数据库中挑选出相似场景的图像，也可以看做是图像检索问题。这类问题的核心是对图像或是图像中的场景进行准确的描述。目前常用的方法有两种，一种是直接计算图像的全局描述，另一种是使用局部特征聚合的方法。

其中，直接计算图像的全局描述的方法，其输入是一张完整的图像输出是图像的全局描述子。最简单的方法就是将图像的所有像素值拼接起来作为图像的描述子，或是使用直方图统计像素的灰度信息或梯度信息等，这种方法鲁棒性极差。使用局部特征聚合的方法，其输入是从图像抽取的局部特征，输出为编码的特征向量。这种方法只使用局部特征，缺少高层语义信息，在光照变化和动态场景中不具备鲁棒性。

而语义信息作为一种高层的视觉信息，对场景识别有着很好的指导作用。同时，使用语义信息也更加符合人类的认知方式。基于此，本申请实施例提出一种语义掩码的场景识别方法。该方法利用语义分割结果对图像中不同区域施加不同的权重，有效的处理动态不稳定物体对场景识别的消极影响。同时，由于使用软加权方式有效避免了因语义分割的不稳定性带来的影响。不仅如此，该方法在季节变化时也具备很好的鲁棒性。

下面结合附图和实施例对本申请进行详细的说明。

请参见图1，为本申请实施例场景识别方法的第一实施例的流程示意图，所述场景识别方法由智能设备执行，所述方法包括：

步骤S11：获取待处理图像以及待处理图像对应的语义掩码图；其中，待处理图像包括查询图像及待识别图像。

在一些实施例中，待处理图像包括查询图像及待识别图像，待处理图像对应的语义掩码图包括查询图像的语义掩码图和待识别图像的语义掩码图。其中，请参见图2，获取待识别图像对应的语义掩码图包括：

步骤S21：对待识别图像及查询图像进行语义分割处理，得到每一像素的类别及类别对应的概率。

其中，查询图像为用户自定义的图像，其可以为用户当前拍摄的图像，还可以为用户提前存储的图像。待识别图像为根据查询图像从数据库中搜索到的与查询图像匹配的图像。数据库为服务器，将查询图像输入，服务器为该查询图像匹配具有相似场景的多个待识别图像。

对待识别图像及查询图像进行语义分割，以得到图像中每一像素的所属类别，及该类别对应的概率。

步骤S22：按照设定条件对每一像素的类别设置权重。

获取到像素的类别之后，对每一类别的像素设置权重。在一实施例中，若语义分割得到的类别包括固定子类别(如稳定)、不固定子类别(如易变)、动态和未知四种类别时，为降低动态特征对场景识别的干扰，在一实施例中，将动态子类别的权重设置最低，使其小于固定子类别、不固定子类别及未知的权重。在另一实施例中，若需要降低不固定子类别特征对场景识别的干扰，在一实施例中，将不固定子类别特征的权重设置最低，使其小于固定子类别、动态子类别及未知子类别的权重。

步骤S23：根据子类别对应的概率及子类别对应的权重得到每一像素对应的语义掩码，其中，所有像素对应的语义掩码构成语义掩码图。

在一实施例中，利用如下公式(1)计算每一像素对应的语义掩码：

m _i＝p _i×w _i (1)；

其中，m _i表示第i个像素对应的语义掩码，其生成的图为语义掩码图，p _i表示第i个像素所属的子类别的概率，w _i表示第i个像素所属的类别或子类别对应的权重。

在另一实施例中，若语义分割后的类别结果不包括括固定子类别、不固定子类别、动态和未知四种类别时，请参见图3，其中，步骤S31与图2中相同。本实施例中，若语义分割后的类别结果不包括稳定、易变、动态和未知四种类别时还包括：

步骤S32：对所有像素进行属性分类，以得到一个或多个子类别。

对所有的像素进行属性分类，以得到一个或多个子类别，在一实施例中，子类别包括固定子类别、不固定子类别、动态子类别和未知子类别中的至少两种或至少一种。

步骤S33：按照设定条件对每一子类别设置权重。

这里，获取到像素的子类别之后，对每一子类别的像素设置权重。在一实施例中，若对语义分割的结果属性分类得到的子类别包括固定子类别、不固定子类别、动态子类别和未知子类别四种类别时，为降低动态特征对场景识别的干扰，在一实施例中，将动态特征的权重设置最低，使其小于固定子类别、不固定子类别及未知的权重。在另一实施例中，若需要降低不固定子类别特征对场景识别的干扰，在一实施例中，将不固定子类别特征的权重设置最低，使其小于固定子类别、动态及未知的权重。

步骤S34：根据子类别对应的概率及子类别对应的权重得到每一像素对应的语义掩码，其中，所有像素对应的语义掩码构成语义掩码图。

这里，在一实施例中，利用如下公式(2)计算每一像素对应的语义掩码：

m _i＝p _i×w _i (2)；

本实施例提供的方法，通过对语义分割后的像素类别设置不同的权重，以降低该类别在特征识别时所造成的干扰，进而提高场景识别分鲁棒性。

步骤S12：根据语义掩码图对待处理图像进行特征聚合处理，得到待处理图像的特征向量。

这里，现有的对待处理特征进行特征聚合处理以得到特征向量的方式包括通过VLAD编码的方式获得特征向量。在一些实施例中，通过VLAD编码的方式获得特征向量包括：对所述待处理图像进行特征抽取，得到特征集合。在另一实施例中，还可以对预设待处理图像进行特征抽取，得到特征集合，预设数据图像可以为数据库与服务器中所有图像的集合，还可以为服务器中部分图像的集合，其不做限定，还可以是用户自行采集的图片集合，其不做限定。可以理解的，每一待处理图像均包含多个特征，即在进行特征抽取时，每一待处理图像均抽取多个特征。将所有抽取到的特征形成特征集合，然后对其进行聚类算法得到K个聚类中心。将K个聚类中心称为码书，得到码书为 C＝{c1,c2,…,ck}。

将待处理图像中的一个待处理图像中的多个特征形成特征集合X＝{x1,x2,…,xk}。在一些实施例中，还可以通过码书C将特征集合X聚合成一个具有固定长度的特征向量。

在得到多个聚类中心后，通过多个聚类中心得到每一待处理图像中的每一特征x _i对应的聚类中心。其中，确定该特征x _i的位置，将与该特征x _i距离最近的聚类中心确定为特征x _i对应的聚类中心c _k。在一实施例中，在确定好当前特征x _i对应的聚类中心c _k后，确定该聚类中心c _k在第一维度对应的值，在一些实施例中，聚类中心c _k对应的维度与聚类中心c _k对应的特征x _i的维度相同，确定聚类中心c _k在第一维度对应的值及聚类中心c _k对应的特征x _i在第一维度对应的值，由于聚类中心c _k的维度与聚类中心c _k对应的特征x _i的维度相同，为了更好的区分聚类中心c _k与聚类中心c _k对应的特征x _i，将该聚类中心c _k的维度加上聚类中心c _k与对应的所述特征x _i之间的距离。本公开实施例中，第一维度可以是维度1、维度2、维度3等，为了阐明清楚聚类中心和特征在相同的维度进行聚合，因此以第一维度进行说明。

现有的特征识别方式时通过聚类中心c _k、每一特征对应的聚类中心c _k在第一维度对应的值得到查询图像及所述待识别图像的特征向量。在一些实施例中，现有技术一般通过如下公式(3)得到查询图像或所述待识别图像的特征向量：

其中，v(k，j)表示查询图像或待识别图像的特征向量，α _k(x _i)表示选择函数，x _i为特征，当c _k为x _i的聚类中心时，α _k(x _i)等于1，否则α _k(x _i)等于0，x _i(j)表示为第i个特征的第j个维度对应的值，c _k(j)表示第k个聚类中心的第j个维度对应的值。

可以理解的是，当需要计算查询图像的特征向量时，v(k，j)表示查询图像的特征向量，α _k(x _i)表示选择函数，x _i为查询图像的特征，当c _k(聚类中心)为x _i对应的的聚类中心时，α _k(x _i)等于1，否则α _k(x _i)等于0。x _i(j)表示为查询图像上第i个特征的第j个维度对应的值，c _k(j)表示查询图像第k个聚类中心的第j个维度对应的值。

可以理解的是，当需要计算待识别图像的特征向量时，v(k，j)表示待识别图像的特征向量，α _k(x _i)表示选择函数，x _i为待识别图像的特征，当c _k(聚类中心)为x _i对应的的聚类中心时，α _k(x _i)等于1，否则α _k(x _i)等于0。x _i(j)表示为待识别图像上第i个特征的第j个维度对应的值，c _k(j)表示待识别图像第k个聚类中心的第j个维度对应的值。

而本申请实施例的技术方案中，为避免缺少高层语义信息，而使得动态特征对特征向量识别造成影响，进而造成识别不准确的结果，本申请实施例通过待处理图像中的每一特征x _i对应的聚类中心c _k，待处理图像中的每一特征对应的聚类中心c _k在第一维度对应的值，以及，待处理图像中的所述每一特征x _i在第一维度对应的值，结合查询图像的语义掩码图，对查询图像进行特征聚合处理，以得到查询图像的特征向量。并且通过待处理图像中的每一特征x _i对应的聚类中心c _k，待处理图像中的每一特征对应的聚类中心c _k在第一维度对应的值，以及，待处理图像中的所述每一特征x _i在第一维度对应的值，结合待识别图像的语义掩码图，对待识别图像进行特征聚合处理，以得到待识别图像的特征向量。

这里，本申请实施例通过如下公式(4)得到查询图像及待识别图像的特征向量：

其中，v(k，j)'表示查询图像及待识别图像的特征向量，α _k(x _i)表示选择函数，x _i为特征，当c _k为x _i的聚类中心时，α _k(x _i)等于1，否则α _k(x _i)等于0，x _i(j)表示为第i个特征的第j个维度对应的值，c _k(j)表示第k个聚类中心的第j个维度对应的值，m _i表示查询图像以及待识别图像的语义掩码图。

利用本申请实施例的方法，例如在图像中含有大量的动态物体时，可以通过语义掩码进行加权，进而降低动态物体的权重，提高特征识别的鲁棒性。

这里，在一实施例中，在通过语义掩码进行加权时，如果特征为像素级特征，则可以根据特征在图像中的位置直接获取对应位置的语义掩码，如果特征为亚像素级特征，则可以在语义掩码图上对应相同位置插值获得。

在一实施例中，通过上述方式得到查询图像及待识别图像的特征向量后，还可以在K个聚类中心中对特征向量分别进行归一化，然后将整个向量同一进行归一化。

步骤S13：利用待处理图像的特征向量从待识别图像中确定与查询图像的场景匹配的图像。

通过步骤S12的方式得到查询图像及待识别图像的特征向量后，通过待识别图像的特征向量与查询图像的特征向量的位置从待识别图像中确定与查询图像的场景匹配的图像。

可以理解的，特征向量之间的距离越近，则特征的相似度越高，特征向量之间的距离越远，则特征的相似度越低。因此在一实施例中，将距离查询图像的特征向量最近的特征向量对应的待识别图像确定为查询图像匹配的图像。

在一实施例中，若待识别图像中与查询图像匹配的图像数量为多个时，为了得到最相似的图像，采用空间一致性方法将与查询图像匹配的图像进行排列，以获取到与查询图像最相似的图像。

本申请实施例提供的场景识别方法，该方法通过将语义掩码图与传统的特征聚合方式进行结合，以通过语义掩码加权的方式降低图像中动态特征对特征识别的干扰，有效避免了不稳定物体对场景识别的消极影像。同时使用加权的方式有效避免了因语义分割的不稳定性带来的影像，进而提高其鲁棒性。不仅如此，本申请实施例的方法在季节变化时也具有很好的鲁棒性。

基于前述的实施例，本申请实施例再提供一种场景识别方法，所述场景识别方法在生成图像全局特征向量时使用语义分割结果对图像的不同区域进行加权，如此，能够保证在场景中包含大量动态物体或是场景在季节变化的情况下，场景识别所采用的方法的鲁棒性。所述场景识别方法可以通过以下方式实现：

(1)语义分割；

这里，所述语义分割的输入是图像，输出是语义分割的结果。

本申请实施例中，可以采用语义分割网络对输入的图像进行语义分割。语义分割的结果包含每个像素的类别和属于该类别的概率。所述语义分割网络可以是任意的网络，分割的类别可以是自定义并训练的，也可以是直接使用公开数据集上定义的类别并进行训练。

在一些实施例中，可以将分割的结果继续分成四类：稳定的类别、易变的类别、动态的类别和未知的类别。如果上述的分割结果和该四类相同则不执行继续分割的步骤，否则可以根据实际的使用场景将类别再进一步划分。例如，对于室内环境，可以将地面、墙壁、天花板视为稳定的类别，床、桌子、椅子等视为易变的类别，人、猫和狗等视为动态的类别等。对于室外场景，可以将建筑、路面、路灯等视为稳定的类别，绿植、天空等视为易变的类别，行人和车辆等视为动态的类别等。当然，这种分类可根据实际使用场景做不同的调整，例如在某些室内场景中可以将桌子视为稳定的类别。

(2)语义掩码；

这里，所述语义掩码的输入是语义分割的结果，输出是语义掩码图。

本申请实施例中，假设稳定的类别、易变的类别、动态的类别和未知的类别对应的权重分别为w ₁、w ₂、w ₃和w ₄。(这个权重可以手动设定，例如针对四种类别分别设为1.0、0.5、0.1和0.3)。则对一副图像中的某个像素i会得到两个值p _i和w _i，其中p _i为类别的概率，w _i为类别的权重。因此，可以使用类别的概率乘以类别的权重，即m _i＝p _i×w _i来确定所述像素对应的语义掩码。其中，m _i称为像素i对应的语义掩码，进而生成的图为语义掩码图。

在一些实施例中，使用生成的语义掩码可以嵌入到目前的局部特征聚合方法中，也可以嵌入到端到端的深度学习方法中。下面以VLAD方法为例来实现语义掩码的使用方法。

(3)基于语义掩码的VLAD特征聚合；

这里，所述特征聚合的输入是图像和对应的语义掩码图，输出是图像特征向量。

本申请实施例中，可以对训练集中的所有图像抽取局部特征(这个局部特征可以是稀疏特征，也可以是稠密的局部特征)来构建局部特征集合，并对该局部特征集合执行聚类算法获得K个聚类中心，所述K个聚类中心称为码书C＝{c1,c2,…,ck}。

进而，对于从单幅图像上抽取的局部特征集合X＝{x1,x2,…,xk}中的每一个特征，找到其最近的聚类中心，然后在对应维度上累加特征到聚类中心的残差，最终生成K×D维的图像特征向量，其中K是码书的大小，D是特征向量的维度。使用传统的VLAD编码方式，所述图像特征向量可以用如下公式(5)表达：

其中，α _k(x _i)表示计算特征x _i最近的聚类中心，即选择函数，在最近的聚类中心位置为1，否则为0；x _i(j)表示特征x _i的第j个维度对应的值，c _k(j)表示第k个聚类中心的第j个维度对应的值。这种方法对图像上的所有特征统一对待，因此在图像中含有大量动态物体时，容易被动态物体所干扰。为此，在一些实施例中可以引入上述的语义掩码进行加权，则本申请实施例中的所述图像特征向量可以用如下公式(6)表示：

其中，m _i为第i个特征对应的语义掩码，如果特征为像素集特征，则可以在图像的位置上直接获取对应位置的语义掩码，如果特征为亚像素级特征，则可以在语义掩码图上相同的位置插值获得。

最后，对于生成的特征向量，先在K个类中分别做归一化，然后将整个向量一起做归一化。

(4)基于VLAD的场景识别；

这里，所述场景识别的输入是图像和语义掩码得到的特征向量，输出是最相似的场景。

本申请实施例中，按照上述步骤(3)中的方法对所有数据库图像抽取特征向量，构建图像特征数据库。然后，对于待识别图像同样抽取特征向量，然后使用查询图像的特征和数据库中的图像特征进行距离比较，找到距离最小的前几张图像作为检索结果，然后再采用空间一致性验证对检索的这几张图像进行重新排序获得最相似的场景图像。

如此，在一些使用场景下，例如在自动驾驶场景中，道路上通常会有很多的车辆，而真正对识别有意义的则是路边的建筑。此时本申请实施例提供的使用语义掩码的场景识别方法可以有效地处理这些动态物体，通过赋予一个较低的权重则可以有效地减轻其对图像描述的干扰。同时，本申请实施例中使用语义掩码的场景识别方法可以对判别性较强的类别赋予更高的权重，从而提高其在图像描述中的比例，进而有效地抑制了无判别性的区域如道路、地板等。

在一些实施例中，本申请实施例提供的场景识别方法的使用场景，可以包括：在视觉定位算法中，通常会先用图像级描述检索一个相似场景，从而缩小局部特征的匹配范围。如果在建图的时候或是定位的时候，目标场景中含有大量的动态物体，例如商场中来来往往的行人，道路上的车辆等等，如果不加处理直接使用则会非常影响检索的性能，降低检索的成功率。对于室外环境，如果建图和定位处于不同的季节，室外的绿植因为季节的变化表现出不同的形态，也会极大的影响场景识别的效果。如果采用本申请实施例提出的方法，可以有效地处理这些问题。当然，本申请实施例提供的场景识别方法还包括其他的使用场景，本领域技术人员可以根据实际需要进行使用。

请参见图4，为本申请实施例场景识别装置的一实施例的结构示意图。包括：获取模块41、特征聚合模块42及图像匹配模块43。

其中，获取模块41配置为获取待处理图像以及待处理图像对应的语义掩码图；其中，待处理图像包括查询图像及待识别图像，待处理图像对应的语义掩码图包括查询图像的语义掩码图和待识别图像的语义掩码图。其中，获取模块41配置为获取查询图像，根据查询图像从数据库中获取与查询图像匹配的多个待识别图像；对待识别图像及所述查询图像进行语义分割处理，得到每一像素的类别及类别对应的概率；按照设定条件对每一像素的类别设置权重；根据类别对应的概率及类别对应的权重得到每一像素对应的语义掩码，其中，所有像素对应的语义掩码构成语义掩码图。在一实施例中，获取模块41还配置为对所有像素进行属性分类，以得到一个或多个子类别；按照设定条件对每一子类别设置权重；根据子类别对应的概率及子类别对应的权重得到每一所述像素对应的语义掩码，其中，所有像素对应的语义掩码构成语义掩码图。

其中，特征聚合模块42配置为根据语义掩码图对待处理图像进行特征聚合处理，得到待处理图像的特征向量。其中，特征聚合模块42配置为对对所述待处理图像进行特征抽取，得到特征集合；依据所述特征集合形成多个聚类中心；根据多个所述聚类中心得到每一所述待处理图像中的每一特征对应的聚类中心；确定所述待处理图像中的每一特征在第一维度对应的值，以及，确定所述待处理图像中的所述每一特征对应的聚类中心在所述第一维度对应的值；

通过所述待处理图像中的每一特征对应的聚类中心，所述待处理图像中的每一特征对应的聚类中心在第一维度对应的值，以及，所述待处理图像中的所述每一特征在所述第一维度对应的值，结合所述查询图像的语义掩码图，对所述查询图像进行特征聚合处理，以得到所述查询图像的特征向量。以及通过所述待处理图像中的每一特征对应的聚类中心，所述待处理图像中的每一特征对应的聚类中心在第一维度对应的值，以及，所述待处理图像中的每一特征在所述第一维度对应的值，结合所述待识别图像的语义掩码图，对所述待识别图像进行特征聚合处理，以得到所述待识别图像的特征向量。

其中，图像匹配模块43配置为利用待处理图像的特征向量从待识别图像中确定与查询图像的场景匹配的图像。其中，图像匹配模块43配置为根据所述待识别图像的特征向量与所述查询图像的特征向量的距离，从所述待识别图像中确定与所述查询图像场景匹配的图像。在一实施例中，图像匹配模块43配置为将距离所述查询图像的特征向量最近的特征向量对应的所述待识别图像确定为所述查询图像匹配的图像。在一实施例中，图像匹配模块43还配置为在所述待识别图像中与所述查询图像匹配的图像为多个时，采用空间一致性方法将与所述查询图像匹配的图像进行排列，以获取到与所述查询图像最相似的图像。

本申请实施例提供的场景识别装置，通过将语义掩码图与传统的特征聚合方式进行结合，以通过语义掩码加权的方式降低图像中动态特征对特征识别的干扰，进而提高器鲁棒性。

请参见图5，为本申请实施例智能设备的结构示意图。智能设备包括相互连接的存储器52和处理器51。

存储器52用于存储实现上述任意一项的场景识别方法的程序指令。

处理器51用于执行存储器52存储的程序指令。

其中，处理器51还可以称为中央处理单元(Central Processing Unit，CPU)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(Digital Signal Process，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以为内存条、快闪存储器卡(Trans-flash，简称TF卡)等，可以存储智能设备中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，智能设备才有记忆功能，才能保证正常工作。智能设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)或处理器(Processor)执行本申请各个实施方式方法的全部或部分步骤。

请参阅图6，为本申请实施例计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质存储有能够实现上述所有场景识别方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在一些实施例中，本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在智能设备中运行时，所述智能设备中的处理器执行实现上述方法。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

工业实用性

本申请实施例提供了一种场景识别方法、装置、智能设备、存储介质和计算机程序，所述场景识别方法包括：获取待处理图像以及所述待处理图像对应的语义掩码图；其中，所述待处理图像包括查询图像及待识别图像，所述待处理图像对应的语义掩码图包括所述查询图像的语义掩码图和所述待识别图像的语义掩码图；根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量；利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像。根据本申请实施例提供的场景识别方法能够通过语义掩码图结合特征聚合方式得到待处理图像对应的特征，以此能够降低干扰因素的干扰，提高场景识别的鲁棒性。

Claims

一种场景识别方法，其中，所述方法由智能设备执行，所述方法包括：

获取待处理图像以及所述待处理图像对应的语义掩码图；其中，所述待处理图像包括查询图像及待识别图像，所述待处理图像对应的语义掩码图包括所述查询图像的语义掩码图和所述待识别图像的语义掩码图；

根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量；

利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像。
根据权利要求1所述的场景识别方法，其中，所述获取待处理图像以及所述待处理图像对应的语义掩码图包括：

对所述待识别图像及所述查询图像进行语义分割处理，得到每一像素的类别及所述类别对应的概率；

按照设定条件对每一像素的类别设置权重；

根据所述类别对应的概率及所述类别对应的权重得到每一所述像素对应的语义掩码，其中，所有所述像素对应的语义掩码构成语义掩码图。
根据权利要求2所述的方法，其中，所述按照设定条件对每一像素的类别设置权重之前还包括：

对所有像素进行属性分类，得到一个或多个子类别；

按照设定条件对每一所述子类别设置权重；

根据所述子类别对应的概率及所述子类别对应的权重得到每一所述像素对应的语义掩码，其中，所有所述像素对应的语义掩码构成语义掩码图。
根据权利要求3所述的方法，其中，所述子类别包括固定子类别、不固定子类别、动态子类别和未知子类别中的至少两种；

所述动态子类别的权重小于所述固定子类别、所述不固定子类别及所述未知子类别的权重。
根据权利要求4所述的方法，其中，所述根据所述子类别对应的概率及所述子类别对应的权重得到每一所述像素对应的语义掩码包括：利用公式m _i＝p _i×w _i计算所述像素对应的语义掩码；

其中，m _i表示第i个像素对应的语义掩码，其生成的图为语义掩码图，p _i表示第i个像素所属的子类别的概率，w _i表示第i个像素所属的类别或子类别对应的权重。
根据权利要求1所述的方法，其中，所述根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量包括：

对所述待处理图像进行特征抽取，得到特征集合；

依据所述特征集合形成多个聚类中心；

根据多个所述聚类中心得到每一所述待处理图像中的每一特征对应的聚类中心；

确定所述待处理图像中的每一特征在第一维度对应的值，以及确定所述待处理图像中的所述每一特征对应的聚类中心在所述第一维度对应的值；

通过所述待处理图像中的每一特征对应的聚类中心，所述待处理图像中的每一特征对应的聚类中心在第一维度对应的值，以及，所述待处理图像中的所述每一特征在所述第一维度对应的值，结合所述查询图像的语义掩码图，对所述查询图像进行特征聚合处理，得到所述查询图像的特征向量；

通过所述待处理图像中的每一特征对应的聚类中心，所述待处理图像中的每一特征对应的聚类中心在第一维度对应的值，以及，所述待处理图像中的每一特征在所述第一维度对应的值，结合所述待识别图像的语义掩码图，对所述待识别图像进行特征聚合处理，得到所述待识别图像的特征向量。
根据权利要求6所述的方法，其中，所述依据所述特征集合形成多个聚类中心包括：

利用聚类算法对所述特征集合进行处理，以形成多个聚类中心；

所述根据多个所述聚类中心得到每一所述待处理图像中的每一特征对应的聚类中心包括：

将距离每一所述特征最近的聚类中心作为所述待处理图像中的每一特征对应的聚类中心。
根据权利要求1至7任一项所述的方法，其中，所述利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像包括：

根据所述待识别图像的特征向量与所述查询图像的特征向量的距离，从所述待识别图像中确定与所述查询图像场景匹配的图像。
根据权利要求8所述的方法，其中，所述根据所述待识别图像的特征向量与所述查询图像的特征向量的距离，从所述待识别图像中确定与所述查询图像场景匹配的图像的步骤包括：

将距离所述查询图像的特征向量最近的特征向量对应的所述待识别图像确定为所述查询图像匹配的图像。
根据权利要求9所述的方法，其中，所述待识别图像中与所述查询图像匹配的图像为多个；

所述将距离所述查询图像的特征向量最近的特征向量对应的所述待识别图像确定为所述查询图像匹配的图像之后还包括：

采用空间一致性方法将与所述查询图像匹配的图像进行排列，以获取到与所述查询图像最相似的图像。
一种场景识别装置，其中，包括：

获取模块，获取待处理图像以及所述待处理图像对应的语义掩码图；其中，所述待处理图像包括查询图像及待识别图像，所述待处理图像对应的语义掩码图包括所述查询图像的语义掩码图和所述待识别图像的语义掩码图；

特征聚合模块，配置为根据所述语义掩码图对所述待处理图像进行特征聚合处理，得到所述待处理图像的特征向量；

图像匹配模块，配置为利用所述待处理图像的特征向量从所述待识别图像中确定与所述查询图像的场景匹配的图像。
一种智能设备，其中，包括：相互藕接的处理器及存储器，其中，

所述存储器用于存储实现如权利要求1-10任意一项所述的场景识别方法的程序指令。
一种计算机可读存储介质，其中，存储有程序文件，所述程序文件能够被执行以实现如权利要求1-10任意一项所述的场景识别方法。
一种计算机程序，其中，包括计算机可读代码，当所述计算机可读代码在智能设备中运行时，所述智能设备中的处理器执行用于实现如权利要求1-10任意一项所述的场景识别方法。