WO2014040559A1

WO2014040559A1 - 场景识别的方法和装置

Info

Publication number: WO2014040559A1
Application number: PCT/CN2013/083501
Authority: WO
Inventors: 姜育刚; 刘洁; 王栋; 郑莹斌; 薛向阳
Original assignee: 华为技术有限公司
Priority date: 2012-09-14
Filing date: 2013-09-13
Publication date: 2014-03-20
Also published as: EP2884428A1; CN103679189B; US9465992B2; CN103679189A; EP2884428A4; US20150186726A1

Abstract

本发明公开了一种场景识别的方法和装置。该方法包括：由训练图像集训练得到多个局部检测器，该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，该一类目标包括至少两个局部区域；利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征；根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。本发明实施例的场景识别的方法和装置，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，从而能够提高场景识别性能。

Description

场景识别的方法和装置本申请要求于 2012 年 9 月 14 日提交中国专利局、申请号为 201210341511.0、发明名称为"场景识别的方法和装置"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及信息技术领域，并且更具体地，涉及场景识别的方法和装置。背景技术

图像场景识别是指利用图像的视觉信息，自动对图像进行处理和分析，并判断和识别出其中所带有的特定场景（如厨房、街道、山峦等）。判断一张图像中的场景不仅有助于对图像的整体语义内容的理解，还能为图像中具体的目标和事件的识别提供依据，因此场景识别对计算机自动图像理解起着重要的作用。场景识别技术可以应用于很多实际问题，如智能图像管理与检索等。

现有的场景识别技术首先对图像的视觉信息进行描述，这一过程也称为图像的视觉特征提取；然后利用已经获取的针对不同场景的模板（或分类器）对提取的视觉特征进行匹配（或分类），并获取最终的场景识别结果。

提取视觉特征的一种通用方法是计算出代表图像画面中低层视觉信息的统计。这些视觉特征包括描述颜色信息的特征，描述纹理信息的特征，以及描述形状信息的特征等。在得到低层视觉信息后，就可以通过预先训练的分类器对上述特征进行分类，进而得到最终识别结果。这种方法的主要缺点是低层视觉特征对不同场景的分辨能力较弱，无法对一些带有接近的颜色、纹理等信息的场景（如书房和图书馆）进行有效地区分和识别，从而影响场景识别性能。

现有的另一种方法采用中层特征表示（或称 "属性"）进行场景识别。这类方法首先需要设计大量的视觉概念检测器。视觉概念检测器检测的结果连接构成中层特征表示。最后利用分类器对该特征进行分类，进而得到最终的识别结果。这种方法主要的缺点包括： 1. 方法采用标注对象的整个目标的检测结果（比如 "运动员"、 "足球" 等）作为中层特征，描述能力有限，如某个对象只有一部分出现在场景中（如 "运动员只露出腿" 等），则无法检测； 2.检测器集合中可能存在重复：对每个训练图片集标注的每类对象训练一个检测器，由于可能存在某些类的图像含义相近（比如 "裁判" 和 "运动员"），导致分别由这些类训练得到的检测器存在重复或高度相似，一方面造成特征信息高维灾难，另一方面多次重复检测出的结果会相对抑制出现较少的检测结果，从而影响场景识别性能。发明内容

本发明实施例提供了一种场景识别的方法和装置，能够提高场景识别性能。

第一方面，提供了一种场景识别的方法，该方法包括：由训练图像集训练得到多个局部检测器，该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，该一类目标包括至少两个局部区域；利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征；根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。

在第一种可能的实现方式中，该方法还包括：将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征，具体实现为：利用该合成局部检测器集合中的局部检测器检测该待识别场景，获取该待识别场景的基于目标的局部区域的特征。

在第二种可能的实现方式中，结合第一方面的第一种可能的实现方式，该相似度包括该多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。

在第三种可能的实现方式中，结合第一方面或第一方面的第一种或第二种可能的实现方式，根据该待识别场景的基于目标的局部区域的特征识别该待识别场景，具体实现为：利用分类器对该待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

在第四种可能的实现方式中，结合第一方面或第一方面的第一种或第二种或第三种可能的实现方式，获取该待识别场景的基于目标的局部区域的特征，具体实现为：利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图；将该响应图分格成多个格子，将每个格子中的最大响应值作为每个格子的特征，将该响应图的所有格子的特征作为该响应图对应的特征，将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。

第二方面，提供了一种场景识别的装置，该装置包括：生成模块，用于由训练图像集训练得到多个局部检测器，该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，该一类目标包括至少两个局部区域；检测模块，用于利用该生成模块得到的该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征；识别模块，用于根据该检测模块获取的该待识别场景的基于目标的局部区域的特征识别该待识别场景。

在第一种可能的实现方式中，该装置还包括：合并模块，用于将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；该检测模块还用于利用该合成局部检测器集合中的局部检测器检测该待识别场景，获取该待识别场景的基于目标的局部区域的特征。

在第二种可能的实现方式中，结合第二方面的第一种可能的实现方式，该相似度包括该多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。

在第三种可能的实现方式中，结合第二方面或第二方面的第一种或第二种可能的实现方式，该识别模块具体用于利用分类器对该待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

在第四种可能的实现方式中，结合第二方面或第二方面的第一种或第二种或第三种可能的实现方式，该检测模块具体用于利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图，将该响应图分格成多个格子，将每个格子中的最大响应值作为每个格子的特征，将该响应图的所有格子的特征作为该响应图对应的特征，将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。

基于上述技术方案，本发明实施例的场景识别的方法和装置，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，从而能够提高场景识别性 h

匕。附图说明为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是根据本发明实施例的场景识别的方法的示意性流程图。

图 2是根据本发明实施例的场景识别的方法的一个例子的示意图。图 3是根据本发明实施例的场景识别的方法的另一示意性流程图。图 4是根据本发明实施例的场景识别的方法的另一个例子的示意图。图 5是根据本发明实施例的场景识别的方法的又一示意性流程图。图 6是根据本发明实施例的场景识别的装置的示意性框图。

图 7是根据本发明实施例的场景识别的装置的另一示意性框图。

图 8是根据本发明另一实施例的场景识别的装置的示意性框图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图 1示出了根据本发明实施例的场景识别的方法 100的示意性流程图。如图 1所示，该方法 100包括：

S110, 由训练图像集训练得到多个局部检测器，该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，该一类目标包括至少两个局部区域；

S120, 利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征；

S130,根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。

对应整个目标的检测器在只出现目标的局部区域时，无法检测到该目标的局部区域的特征，因而影响场景识别性能。在本发明实施例中，场景识别的装置首先由训练图像集训练得到多个局部检测器，其中，一个局部检测器对应一类目标的一个局部区域，然后，利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征，再根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。由于局部检测器对应目标的局部区域，因此利用局部检测器检测场景，能够得到目标的局部区域的特征。

因此，本发明实施例的场景识别的方法，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，从而能够提高场景识别性能。

在 S110中，场景识别的装置由训练图像集训练得到多个局部检测器。在本发明实施例中，将每一类目标分为多个局部区域，即每一类目标包括至少两个局部区域。生成局部检测器需要使用带有标注的训练图像集，该标注不仅需要有图像具有的目标类别（例如， "裁判"），还需要整体目标在图像中的具体位置信息（不需要每个目标局部的位置）。对于每一类目标，一般需要 100个或更多的样本，在标注样本的基础上，每一类目标的局部检测器可以利用现有的可变性基于局部模型（Deformable Part-based Models, 筒称为 "DPM" )算法得到。 DPM算法将根据输入参数（如局部的数目 ) 自动确认每类目标中最独特的几个局部（如 "裁判" 的 "头部"、 "躯干"、 "下肢" 等），从而得到对应这几个局部的局部检测器。

在 S120中，场景识别的装置利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征。

在生成了局部检测器后，场景识别的装置利用这些局部检测器检测待识别场景，得到各局部检测器对应的局部区域的特征，由这些局部区域的特征构成该待识别场景的基于目标的局部区域的特征。如图 2所示，利用对应人体不同部位（例如，头、躯干、上臂、小臂和腿）的局部检测器检测图像，得到各个目标（图 2中的人）的不同部位的特征，从而构成整个图像场景的基于人体不同部位的特征。

在本发明实施例中，如图 3所示，可选地，该方法 100还包括：

S 140 ,将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；

对应地，所述步骤 S120包括：

S121 , 利用该合成局部检测器集合中的局部检测器检测该待识别场景，获取该待识别场景的基于目标的局部区域的特征。不同类目标可能具有有共性的局部区域，例如，运动员的头部与裁判的头部。为了避免局部的重复检测，可以将多个局部检测器中相似度较高的局部检测器进行合并，即将相似度高于预定阈值的局部检测器进行合并，然后利用合并后的局部检测器检测待识别场景。

在本发明实施例中，合成局部检测器集合表示将该多个局部检测器合并之后得到的局部检测器的集合，若有一部分局部检测器进行了合并，则该合成局部检测器集合包括合并后的局部检测器和另一部分未合并的局部检测器，若全部局部检测器都进行了合并，则该合成局部检测器集合只包括合并后的局部检测器。

局部检测器的合并可以基于相应图像局部区域的信息。可选地，可对待合并区域的语义进行一定的限制，以保证合并的局部检测器在语义上是高度相关的。例如， "裁判" 的 "头部" 和 "运动员" 的 "头部" 是可以合并的，同 "猫" 的 "头部" 则不允许合并。

可选地，局部检测器的相似度包括局部检测器对应的训练图像的局部区域的特征之间的相似程度。例如，在待合并的局部检测器集合中，对每个局部检测器，在其对应的训练图像上找出其对应的图像局部区域，根据各局部检测器对应的局部训练图像的低层特征（颜色纹理等）的相似程度得到各局部检测器的相似度。相似度较高，即高于预定阈值（例如， 0.8 )的局部检测器可以进行合并。合并的方式可以采用筒单的左上角对齐平均，即将需要合并的局部检测器对应的滤波矩阵左上角对齐后求平均值。

如图 4所示，由训练图像集 A训练得到局部检测器 pi ,由训练图像集 B 得到局部检测器 p2, pi和 p2都对应头部，将 pi和 p2进行合并后得到局部检测器 p。如果利用 pi和 p2进行检测，则会对各目标检测两次，而利用合并后的局部检测器 p进行检测，则只检测一次，避免了重复检测。

因此，本发明实施例的场景识别的方法，通过对局部检测器进行合并，并利用合并后的局部检测器检测待识别场景，不但获取的待识别场景的特征能完整地表示图像信息，还能避免局部的重复检测，有效降低特征信息维数，从而能够提高场景识别性能。

在本发明实施例中，可选地，获取该待识别场景的基于目标的局部区域的特征，包括：

利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图；

将该响应图分格成多个格子，将每个格子中的最大响应值作为每个格子的特征，将该响应图的所有格子的特征作为该响应图对应的特征，将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。

给定一幅图像，对每一个局部检测器，如果局部检测器进行了合并，则指合并后的局部检测器，通过在图像上滑动窗口的方法在图像上生成针对该局部检测器的响应图。如图 5所示，局部检测器 1到局部检测器 N中的每一个局部检测器分别检测需要提取特征的图像，即待识别场景的图像。每一个局部检测器生成一张响应图。可选的，可以以 3种方式（1*1 , 3*1和 2*2 ) 对每个局部检测器生成的响应图进行分格。对分格后的每个格子，将该格子中最大响应值作为该格子的特征，这样每个局部检测器则可以生成一个 8维 (1 * 1 +3 * 1 +2*2)的响应特征。将所有局部检测器生成特征连接 /组合在一起即可得到最终的特征，即待识别场景的基于目标的局部区域的特征。假设局部检测器数量为 N个，那么最终生成的局部区域特征维度是 8N维。应注意，图 5的例子只是为了帮助本领域技术人员更好地理解本发明实施例，而非限制本发明实施例的范围。

可选地，还可以对图像进行多尺度的变换，分别计算上述特征。例如，将输入图像分别调小一半或调大一倍得到两幅不同尺度的图像。在这两幅图像上采用同样方法计算特征，各得到一个 8N维的特征。加上原始图像的特征，总共的特征描述为 3*8*N维。利用多尺度图像使得最终的特征对目标局部的尺度变换更为鲁棒。

在 S130中，识别场景的装置根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。

在获得待识别场景的基于目标的局部区域的特征后，识别场景的装置根据这些特征识别该场景。可选的， S130包括：

利用分类器对该待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

具体而言，首先需要针对场景类别，根据本发明实施例的基于目标的局部区域的特征训练分类器。例如，可以利用线性核函数的支撑向量机（ Support Vector Machines, 筒称为 "SVM" )分类器。给定一个场景类别，首先需要收集该场景的训练样本，图像的整体标注，即是否含有该场景，提取本发明实施例提出的特征，即基于目标的局部区域的特征；然后利用这些训练样本训练一个线性核函数的 SVM分类器。如有多个场景类别，则训练多个分类器。给定一个新的图像，利用训练好的场景分类器对该图像场景的基于目标的局部区域的特征进行分类，输出为该分类器对应场景的识别置信度， ,其中，识别置信度高，则待识别场景与该分类器对应的场景相似，从而得到场景识别结果。

因此，本发明实施例的场景识别的方法，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，进一步地，通过对局部检测器进行合并，并利用合并后的局部检测器检测待识别场景，不但获取的待识别场景的特征能完整地表示图像信息，还能避免局部的重复检测，有效降低特征信息维数，从而能够提高场景识别性能。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上文中结合图 1至图 5 , 详细描述了根据本发明实施例的场景识别的方法，下面将结合图 6至图 8, 描述根据本发明实施例的场景识别的装置。

图 6示出了根据本发明实施例的场景识别的装置 600的示意性框图。如图 6所示，该装置 600包括：

生成模块 610, 用于由训练图像集训练得到多个局部检测器，该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，该一类目标包括至少两个局部区域；

检测模块 620, 用于利用该生成模块 610得到的该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征；

识别模块 630, 用于根据该检测模块 620获取的该待识别场景的基于目标的局部区域的特征识别该待识别场景。

在本发明实施例中，首先，生成模块 610由训练图像集训练得到多个局部检测器，其中，一个局部检测器对应一类目标的一个局部区域，然后，检测模块 620利用该多个局部检测器检测待识别场景，获取该待识别场景的基于目标的局部区域的特征，识别模块 630再根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。由于局部检测器对应目标的局部区域，因此利用局部检测器检测场景，能够得到目标的局部区域的特征。

因此，本发明实施例的场景识别的装置，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，从而能够提高场景识别性能。

生成模块 610使用带有标注的训练图像集，该标注不仅需要有图像具有的目标类别（例如， "裁判" ),还需要整体目标在图像中的具体位置信息（不需要每个目标局部的位置），对于每一类目标，一般需要 100个或更多的样本，在标注样本的基础上，利用现有的 DPM算法得到每一类目标的局部检测器。 DPM 算法将根据输入参数（如局部的数目 ) 自动确认每类目标中最独特的几个局部（如 "裁判" 的 "头部"、 "躯干"、 "下肢" 等），从而得到对应这几个局部的局部检测器。

检测模块 620利用这些局部检测器检测待识别场景，得到各局部检测器对应的局部区域的特征，由这些局部区域的特征构成该待识别场景的基于目标的局部区域的特征。例如，利用如图 2所示的对应人体不同部位（如，头、躯干、上臂、小臂和腿）的局部检测器检测图像，得到各个目标（图 2中的人）的不同部位的特征，从而构成整个图像场景的基于人体不同部位的特征。

在本发明实施例中，如图 7所示，可选地，该装置 600还包括：合并模块 640, 用于将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；

该检测模块 620还用于利用该合成局部检测器集合中的局部检测器检测该待识别场景，获取该待识别场景的基于目标的局部区域的特征。

不同类目标可能具有有共性的局部区域，例如，运动员的头部与裁判的头部。为了避免局部的重复检测，合并模块 640将多个局部检测器中相似度较高的局部检测器进行合并，即将相似度高于预定阈值的局部检测器进行合并，然后检测模块 620利用合并后的局部检测器检测待识别场景。

在本发明实施例中，可选地，该相似度包括该多个局部检测器对应的训练图像的局部区域之间的特征的相似程度。

例如，在待合并的局部检测器集合中，对每个局部检测器，在其对应的训练图像上找出其对应的图像局部区域，根据各局部检测器对应的局部训练图像的低层特征（颜色纹理等）的相似程度得到各局部检测器的相似度。相似度较高，即高于预定阈值（如 0.8 ) 的局部检测器可以进行合并。合并的方式可以采用筒单的左上角对齐平均，即将需要合并的局部检测器对应的滤波矩阵左上角对齐后求平均值。

本发明实施例的场景识别的装置，通过对局部检测器进行合并，并利用合并后的局部检测器检测待识别场景，不但获取的待识别场景的特征能完整地表示图像信息，还能避免局部的重复检测，有效降低特征信息维数，从而能够提高场景识别性能。

在本发明实施例中，可选地，该检测模块 620具体用于利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图，将该响应图分格成多个格子，将每个格子中的最大响应值作为每个格子的特征，将该响应图的所有格子的特征作为该响应图对应的特征，将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。

识别模块 630根据该检测模块 620获取的该待识别场景的基于目标的局部区域的特征识别该待识别场景。

可选地，该识别模块 630具体用于利用分类器对该待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

例如，首先利用训练样本训练多个线性核函数的 SVM分类器。给定一个新的图像，识别模块 630利用训练好的场景分类器对该图像场景的基于目标的局部区域的特征进行分类，输出为该分类器对应场景的识别置信度，从而得到场景识别结果。

根据本发明实施例的场景识别的装置 600可对应于根据本发明实施例的场景识别的方法中的执行主体，并且装置 600中的各个模块的上述和其它操作和 /或功能分别为了实现图 1至图 5中的各个方法的相应流程，为了筒洁，在此不再赘述。

本发明实施例的场景识别的装置，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，进一步地，通过对局部检测器进行合并，并利用合并后的局部检测器检测待识别场景，不但获取的待识别场景的特征能完整地表示图像信息，还能避免局部的重复检测，有效降低特征信息维数，从而能够提高场景识别性能。图 8 示出了根据本发明另一实施例的场景识别的装置 800 的示意性框图。如图 8所示，该装置 800包括：处理器 810、输入装置 820和输出装置 830;

处理器 810 由输入装置 820输入的训练图像集训练得到多个局部检测器，该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，该一类目标包括至少两个局部区域，利用该多个局部检测器检测输入装置 820输入的待识别场景，获取该待识别场景的基于目标的局部区域的特征，根据该待识别场景的基于目标的局部区域的特征识别该待识别场景，将识别结果通过输出装置 830输出。

本发明实施例的场景识别的装置，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，从而能够提高场景识别性能。

可选地，该处理器 810还用于将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；利用该合成局部检测器集合中的局部检测器检测该待识别场景，获取该待识别场景的基于目标的局部区域的特征。

可选地，该相似度包括该多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。

可选地，该处理器 810具体用于利用分类器对该待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

可选地，该处理器 810具体用于利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图，将该响应图分格成多个格子，将每个格子中的最大响应值作为每个格子的特征，将该响应图的所有格子的特征作为该响应图对应的的特征，将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。

根据本发明实施例的场景识别的装置 800可对应于根据本发明实施例的场景识别的方法中的执行主体，并且装置 800中的各个模块的上述和其它操作和 /或功能分别为了实现图 1至图 5中的各个方法的相应流程，为了筒洁，在此不再赘述。

本发明实施例的场景识别的装置，利用对应目标的局部区域的局部检测器检测待识别场景，获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息，进一步地，通过对局部检测器进行合并，并利用合并后的局部检测器检测待识别场景，不但获取的待识别场景的特征能完整地表示图像信息，还能避免局部的重复检测，有效降低特征信息维数，从而能够提高场景识别性能。

应理解，在本发明实施例中，术语 "和 /或"仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如， A和 /或 B, 可以表示：单独存在 A, 同时存在 A和 B, 单独存在 B这三种情况。另外，本文中字符 "/" , 一般表示前后关联对象是一种 "或" 的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和筒洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ROM, Read-Only Memory )、随机存取存储器 ( RAM, Random Access Memory )、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

权利要求

1、一种场景识别的方法，其特征在于，包括：

由训练图像集训练得到多个局部检测器，所述多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，所述一类目标包括至少两个局部区域；

利用所述多个局部检测器检测待识别场景，获取所述待识别场景的基于目标的局部区域的特征；

根据所述待识别场景的基于目标的局部区域的特征识别所述待识别场景。

2、根据权利要求 1所述的方法，其特征在于，所述方法还包括：将所述多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；

所述利用所述多个局部检测器检测待识别场景，获取所述待识别场景的基于目标的局部区域的特征，包括：

利用所述合成局部检测器集合中的局部检测器检测所述待识别场景，获取所述待识别场景的基于目标的局部区域的特征。

3、根据权利要求 2所述的方法，其特征在于，所述相似度包括所述多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。

4、根据权利要求 1至 3中任一项所述的方法，其特征在于，所述根据所述待识别场景的基于目标的局部区域的特征识别所述待识别场景，包括：利用分类器对所述待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

5、根据权利要求 1至 4中任一项所述的方法，其特征在于，所述获取所述待识别场景的基于目标的局部区域的特征，包括：

利用每一个检测所述待识别场景的局部检测器获取所述待识别场景的响应图；

将所述响应图分格成多个格子，将每个所述格子中的最大响应值作为每个所述格子的特征，将所述响应图的所有格子的特征作为所述响应图对应的特征，将所有检测所述待识别场景的局部检测器获取的响应图对应的特征作为所述待识别场景的基于目标的局部区域的特征。

6、一种场景识别的装置，其特征在于，包括：生成模块，用于由训练图像集训练得到多个局部检测器，所述多个局部检测器中的一个局部检测器对应一类目标的一个局部区域，所述一类目标包括至少两个局部区域；

检测模块，用于利用所述生成模块得到的所述多个局部检测器检测待识别场景，获取所述待识别场景的基于目标的局部区域的特征；

识别模块，用于根据所述检测模块获取的所述待识别场景的基于目标的局部区域的特征识别所述待识别场景。

7、根据权利要求 6所述的装置，其特征在于，所述装置还包括：合并模块，用于将所述多个局部检测器中相似度高于预定阈值的局部检测器进行合并，得到合成局部检测器集合；

所述检测模块还用于利用所述合成局部检测器集合中的局部检测器检测所述待识别场景，获取所述待识别场景的基于目标的局部区域的特征。

8、根据权利要求 7所述的装置，其特征在于，所述相似度包括所述多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。

9、根据权利要求 6至 8中任一项所述的装置，其特征在于，所述识别模块具体用于利用分类器对所述待识别场景的基于目标的局部区域的特征进行分类，获取场景识别结果。

10、根据权利要求 6至 9中任一项所述的装置，其特征在于，所述检测模块具体用于利用每一个检测所述待识别场景的局部检测器获取所述待识别场景的响应图，将所述响应图分格成多个格子，将每个所述格子中的最大响应值作为每个所述格子的特征，将所述响应图的所有格子的特征作为所述响应图对应的特征，将所有检测所述待识别场景的局部检测器获取的响应图对应的特征作为所述待识别场景的基于目标的局部区域的特征。