WO2024027347A1

WO2024027347A1 - 内容识别方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: WO2024027347A1
Application number: PCT/CN2023/099991
Authority: WO
Inventors: 王赟豪; 余亭浩; 陈少华; 刘浩; 侯昊迪
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-08-04
Filing date: 2023-06-13
Publication date: 2024-02-08
Also published as: WO2024027347A9; CN115272768A

Abstract

一种内容识别方法、装置、设备、存储介质及计算机程序产品，涉及机器学习领域。该方法包括：获取图像(310)；基于图像中像素点分布规律提取得到图像关键点，并提取图像中与图像关键点对应的关键点特征表示(320)；通过对图像进行显著性检测，从图像中识别出目标区域(330)；对图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于目标区域对图像特征表示进行下采样，得到第一局部特征表示(340)；将关键点特征表示和第一局部特征表示进行特征拼接，得到第二局部特征表示(350)；基于全局特征表示和第二局部特征表示对目标区域中包含的目标内容的类别进行识别(360)。

Description

内容识别方法、装置、设备、存储介质及计算机程序产品

本申请要求于2022年08月04日提交的申请号为202210934770.8、发明名称为“内容识别方法、装置、设备、存储介质及计算机程序产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习领域，特别涉及一种内容识别方法、装置、设备、存储介质及计算机程序产品。

背景技术

随着互联网技术的不断发展，用户每天会浏览大量的多媒体内容，例如图片、视频、文章等。通过确定多媒体内容中包含的类别信息确定该多媒体内容对应的属性信息，从而能够更好地满足不同场景下的用户浏览需求，如：在图像搜索场景下，用户输入搜索关键词后，从图像库中选择图像内容与搜索关键词匹配的图像作为搜索结果并向用户进行展示。

在相关技术中，通常采用深度学习模型提取图像对应的全局特征并建立内容搜索库，在图像搜索场景下，当用户输入搜索关键词后，根据搜索关键词在内容搜索库中确定与搜索关键词匹配的全局特征，从而将全局特征对应的图像直接作为搜索结果并向用户进行展示。

然而在相关技术中，通常仅根据图像的全局特征确定与搜索关键词匹配的图像，尽管该图像对应的全局特征与搜索关键词匹配度较高，但仍然可能存在图像与搜索关键词并不匹配的情况，导致内容识别的准确度较低。

发明内容

本申请实施例提供了一种内容识别方法、装置、设备、存储介质及计算机程序产品，能够提高内容识别的准确度。所述技术方案如下：

一方面，提供了一种内容识别方法，所述方法包括：

获取图像；

基于所述图像中像素点分布规律提取得到图像关键点，并提取所述图像中与所述图像关键点对应的关键点特征表示；

通过对所述图像进行显著性检测，从所述图像中识别出目标区域；

对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于所述目标区域对所述图像特征表示进行下采样，得到第一局部特征表示；

将所述关键点特征表示和所述第一局部特征表示进行特征拼接，得到第二局部特征表示；

基于所述全局特征表示和所述第二局部特征表示对所述目标区域中包含的目标内容的类别进行识别。

另一方面，提供了一种内容识别装置，所述装置包括：

获取模块，用于获取图像；

提取模块，用于基于所述图像中像素点分布规律提取得到图像关键点，并提取所述图像中与所述图像关键点对应的关键点特征表示；通过对所述图像进行显著性检测，从所述图像中识别出目标区域；

处理模块，用于对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于所述目标区域对所述图像特征表示进行下采样，得到第一局部特征表示；

拼接模块，用于将所述关键点特征表示和所述第一局部特征表示进行特征拼接，得到第二局部特征表示；

识别模块，用于基于所述全局特征表示和所述第二局部特征表示对所述目标区域中包含的目标内容的类别进行识别。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述内容识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的内容识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的内容识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

基于图像中像素点分布规律提取得到图像关键点并提取与图像关键点对应的关键点特征表示，对图像进行显著性检测得到图像内的目标区域；对图像对应的图像特征表示进行池化处理得到全局特征表示，并基于目标区域对图像特征表示进行下采样，将下采样后的第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示，从而根据全局特征表示和第二局部特征表示对目标区域中目标内容的类别进行识别。也即，通过对图像特征表示进行全局层面的池化处理得到代表全局信息的全局特征表示；通过基于目标区域对图像特征表示进行局部层面的下采样处理得到代表局部信息的第一局部特征表示，从而有效提取图像特征表示中关于局部特征的有效信息，进而在将第一局部特征表示和关键点特征表示进行特征拼接时，能够实现结合图像关键点得到更准确的第二局部特征表示的目的，利用全局特征和第二局部特征对目标区域中包含的目标内容的类别进行识别，能够有效提高识别内容对应类别的准确度。

附图说明

图1是本申请一个示例性实施例提供的内容识别方法相关技术示意图；

图2是本申请一个示例性实施例提供的实施环境示意图；

图3是本申请一个示例性实施例提供的内容识别方法流程图；

图4是本申请另一个示例性实施例提供的内容识别方法流程图；

图5是本申请另一个示例性实施例提供的内容识别方法流程图；

图6是本申请一个示例性实施例提供的目标区域示意图；

图7是本申请另一个示例性实施例提供的目标区域示意图；

图8是本申请一个示例性实施例提供的显著性检测模型示意图；

图9是本申请另一个示例性实施例提供的内容识别方法示意图；

图10是本申请一个示例性实施例提供的内容识别装置结构框图；

图11是本申请另一个示例性实施例提供的内容识别装置结构框图；

图12是本申请一个示例性实施例提供的服务器结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

示意性的，请参考图1，其示出了本申请一个示例性实施例提供的内容识别方法示意图，如图1所示，获取图像110，其中，图像110实现为景点图像，通过图像110中像素点分布规律能够提取得到与图像110对应的图像关键点(图中未示出)，进而提取到与图像关键点对应的关键点特征表示；此外，通过对图像进行显著性检测能够得到图像内的目标区域。

对图像对应的图像特征表示进行池化处理，得到指代图像全局信息的全局特征表示130，并且，基于显著性检测得到的目标区域对图像特征表示120进行下采样，得到指代图像中目标区域的局部信息的第一局部特征表示140。

将第一局部特征表示140和关键点特征表示进行特征拼接，得到第二局部特征表示150。根据全局特征表示130和第二局部特征表示150对图像110中目标区域内目标内容111的类别进行识别，得到内容识别结果160，其中，内容识别结果160实现为“A景观楼”，即表征了目标内容111对应的类别。

对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图2，该实施环境中涉及终端210、服务器220，终端210和服务器220之间通过通信网络230连接。

示意性的，终端210向服务器发送内容识别请求，其中，内容识别请求中包括图像，图像中包括目标内容，服务器220收到来自终端210发送的内容识别请求后，对图像进行内容识别，将识别得到的内容识别结果反馈至终端210，内容识别结果反映了目标内容对应的类别。

其中，服务器220在对图像进行内容识别的过程中，通过对图像进行显著性检测能够得到图像内的目标区域；此外，对图像对应的图像特征表示进行池化处理得到全局特征表示222，以及，基于目标区域对图像特征表示进行下采样，得到第一局部特征表示223；此外，基于图像中像素点分布规律提取得到图像关键点，进而提取图像中与图像关键点对应的关键点特征表示224，将关键点特征表示224和第一局部特征表示223进行特征拼接，得到第二局部特征表示225，根据第二局部特征表示225和全局特征表示222对目标内容进行识别，确定目标内容对应的类别226。

上述终端210可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、智能车载等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

在一些实施例中，上述服务器220还可以实现为区块链系统中的节点。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的图像是在充分授权的情况下获取的。

示意性的，对本申请提供的内容识别方法进行说明，请参考图3，其示出了本申请一个示例性实施例提供的内容识别方法流程图，该方法可以由终端执行，也可以由服务器执行，或者，也可以由终端和服务器共同执行，本实施例中以该方法由服务器执行进行说明，如图3所示，该方法包括如下步骤。

步骤310，获取图像。

示意性的，图像是从开源图像数据库中获取得到的图像；或者，图像是通过图像采集设备(如：相机、终端、摄影机等设备)采集得到的图像；或者，图像是通过图像合成软件合成得到的图像；或者，图像是从一段视频中截图得到的图像等。

步骤320，基于图像中像素点分布规律提取得到图像关键点，并提取图像中与图像关键点对应的关键点特征表示。

其中，像素点分布规律用于表征不同像素点之间的变化情况。示意性的，像素是表征图像分辨率的单位，可以将图像视为由多个像素组成的内容，每个像素对应一个像素点，且根据图像分辨率的表征内容，每个像素点对应一个像素值，像素点分布规律表征了图像上不同像素点对应的像素值的变化情况。

可选地，综合分析图像中多个像素点分别对应的像素值，根据像素值的变化确定图像中像素点分布规律，进而根据该像素点分布规律提取得到与图像对应的图像关键点，图像关键点中包括图像中具有象征目标内容的像素点。

在一些实施例中，将像素点分布规律符合预设条件的像素点作为上述的图像关键点。

示意性的，预设条件实现为像素值变化幅度超过预设幅度阈值，例如：相邻两个像素点对应的像素值变化较大(超过预设幅度阈值)，将其中至少一个像素点作为上述的图像关键点；或者，预设条件实现为像素值变化速度超过预设速度阈值，例如：相邻多个像素点对应的像素值变化较快(超过预设速度阈值)，将其中至少一个像素点作为上述的图像关键点等。

可选地，图像关键点的类型包括角点、边缘或者区块等关键点类型中至少一种，本申请实施例对此不加以限定。

可选地，图像对应标注有单个图像关键点；或者，图像对应标注有多个图像关键点，本申请实施例对此不加以限定。

示意性的，图像关键点是基于图像整体进行识别得到的内容，因此能够在一定程度上展现图像整体需要突出表达的信息。基于图像通常由目标区域和背景区域所组成，目标区域代表图像主要表达的区域，其中包含了大量图像突出表达的信息；背景区域代表图像次要表达的区域，其中包含了少量图像突出表达的信息。

在基于图像提取得到多个图像关键点时，多个图像关键点中的大量图像关键点指代的是目标区域所表达的信息，多个图像关键点中的少量图像关键点指代的是背景区域所表达的信息。因此，提取得到的多个图像关键点主要表达的是目标区域对应的信息，也会在小程度上体现图像内目标区域之外的信息。

例如：提取得到的多个图像关键点中包括图像关键点1至图像关键点10，图像关键点1至图像关键点8均是从目标区域内提取得到的关键点，图像关键点9和图像关键点10是从图像中目标区域外提取得到的图像关键点。

在一些实施例中，通过预设的关键点检测器对图像进行关键点提取，并将关键点检测器输出得到的结果作为图像对应的图像关键点。

在一个可选的实施例中，对提取得到的图像关键点进行特征提取，得到图像中与图像关键点对应的关键点特征表示。

可选地，对所有图像关键点进行特征提取，得到所有图像关键点对应的关键点特征表示，关键点特征表示用于后续特征拼接；或者，选择部分图像关键点进行特征提取，得到部分图像关键点对应的关键点特征表示等，本申请实施例对此不加以限定。

步骤330，对图像进行显著性检测得到图像内的目标区域。

示意性的，显著性检测用于使用图像处理技术和计算机视觉算法定位图像中的最“显著”的区域，即为目标区域。可选地，显著性检测用于确定包含目标内容的区域，该区域即为目标区域。目标区域是指图像中引人注目的区域或比较重要的区域，例如：人眼在观看一幅图片时会首先关注的区域。可选地，将自动定位图像中关键内容或场景中重要区域的过程称为显著性测。显著性检测在目标检测、机器人领域等多个图像识别领域中存在广泛应用。

也即：基于显著性检测是针对图像中重要内容进行的检测，因此在显著性检测得到目标区域后，该目标区域是代表固定区域的内容。相比从图像中提取得到的图像关键点而言，显著性检测关注的目标区域更加的单一，且目标区域的明确性更强，而非像图像关键点一般，在图像中的众多区域均可能存在。

在一些实施例中，显著性检测实现为基于阈值的区域分割方法。

示意性的，获取图像中各个像素点的像素值，当连续多个像素点分别对应的像素值均达到预设像素阈值，将连续多个像素点组成的区域作为上述的目标区域，将图像中目标区域之外的区域作为背景区域，从而实现目标区域和背景区域的分割过程，将该过程视为对图像进行显著性检测得到目标区域的过程。

在一些实施例中，显著性检测实现为基于边缘检测的区域分割方法。

示意性的，考虑到通常不同区域的边界上像素点的灰度值变化比较剧烈，因此可以采用傅里叶变换方法，将图像从空间域通过变换到频率域，区域边缘则对应着高频部分，因此能够较为直观地将不同的区域进行分割，从而较好地从图像中将目标区域和背景区域相分离。

在一些实施例中，显著性检测实现为通过预先训练的图像分割模型进行图像识别的方法。

示意性的，获取预先训练得到的、用于进行图像分割的图像分割模型，通过将图像输入该图像分割模型中，将图像中的目标区域和背景区域相分离。可选地，训练得到图像分割模型的预训练模型实现为视觉几何小组(Visual Geometry Group,VGG)研发得到的模型，通过大量样本图像对VGG模型进行训练得到图像分割模型，其中大量的样本图像中包括指代样本图像中目标区域的区域标签，借助VGG模型对样本图像的预测结果和样本图像本身标注的区域标签之间的差异实现模型训练过程，并最终借助训练后的图像分割模型对图像进行识别，以得到图像中的目标区域，实现显著性检测的目的。

值得注意的是，以上显著性检测方法仅为示意性的举例，各种能将目标区域从图像中分离得到的方法均可以实现上述显著性检测的目的，本申请实施例对此不加以限定。

可选地，目标区域用于表示包括目标内容的区域。

示意性的，图像是指包含未知类别的目标内容的图像。目标内容包括人物、动物、食物、景点、地标等内容类型中至少一种。

可选地，显著性检测用于确定图像中的目标内容对应的目标区域和背景内容对应的背景区域，也即，显著性检测用于根据内容特征对图像进行区域划分，从而将目标区域与背景区域进行分离。

示意性的，基于目标内容代表图像中与其他背景内容存在一定差异的内容，因此通过显著性检测的方式能够将目标内容对应的目标区域与背景内容对应的背景区域相分离，从而确定图像内包括目标内容的目标区域。

例如：目标区域中像素点对应的像素值较大，背景区域中像素点对应的像素值较小，通过设定像素阈值的方式实现显著性检测的过程，从而将目标区域与背景区域进行分离；或者，通过图像锐化方法实现显著性检测过程，即对图像进行锐化处理，增强图像中的边缘细节信息，从而实现增强目标区域和背景区域之间边界的过程，以将目标区域与背景区域相分离。

可选地，图像中包括单个目标内容；或者，图像中包括多个目标内容，其中，当图像中包括多个目标内容的情况下，多个目标内容对应为不同的内容，或者对应相同的内容，此处不加以限定。

示意性的，当图像中包括单个目标内容时，目标区域实现为包括该单个目标内容的单个区域；或者，当图像中包括多个目标内容时，目标区域实现为包括该多个目标内容的单个区域；或者，当图像中包括多个目标内容时，目标区域实现多个区域，且每个目标区域中包括至少一个目标内容等。

在一些实施例中，预设显著性检测模型，将图像输入显著性检测模型，输出得到图像对应的识别显著图，识别显著图中包括目标内容对应的目标区域，以及背景内容对应的背景区域。其中，识别显著图实现为将目标区域进行增强后的图像。

步骤340，对图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于目标区域对图像特征表示进行下采样，得到第一局部特征表示。

示意性的，池化处理(Pooling)是指对图像特征表示进行降采样处理，以将图像特征表示进行压缩，在减少参数数量的同时保持图像特征表示某种不变性(如：旋转不变性、平移不变性和伸缩不变性中至少一种)。

可选地，池化处理通过卷积核实现，借助图像对应的图像尺寸以及卷积核对应的卷积核尺寸，得到对图像进行池化处理后的全局特征表示。

示意性的，确定图像对应的图像尺寸；获取用于对图像进行池化处理的卷积核，并获取卷积核的卷积核尺寸；以卷积核对图像进行池化处理，得到全局特征表示，全局特征表示的尺寸是图像尺寸与卷积核尺寸之商。

例如：图像的图像尺寸为20*20，所采用的卷积核的卷积核尺寸为10*10，通过该卷积核对该图像进行池化处理，得到的处理后的全局特征表示的尺寸为2*2；或者，图像的图像尺寸为20*20，所采用的卷积核的卷积核尺寸为5*5，通过该卷积核对该图像进行池化处理，得到的处理后的全局特征表示的尺寸为4*4等。

其中，图像的图像尺寸以及卷积核的卷积核尺寸仅为示意性的举例，本申请实施例对此不加以限定。借助卷积核执行的池化处理过程，能够大大降低进行特征表示分析时的分析复杂度，还能够借助较小的尺寸增大对图像整体的感受野，提升全局特征表示对图像全局进行表达的表达效果。

可选地，池化处理包括最大池化处理(Max-Pooling)、平均池化处理(Mean-Pooling)和广义均值池化处理(Generalized-Mean Pooling)的池化处理类型中至少一种，对此不加以限定。后续实施例中将针对这三种池化处理进行详细说明，此处暂不做赘述。

在一个可选的实施例中，在对图像进行区域划分得到目标区域后，基于目标区域对图像对应的图像特征表示进行下采样。

示意性的，下采样又称特征下采样，是指对图像特征表示进行图像抽样以及图像缩小过程，从而得到处理后的特征向量，即为第一局部特征表示。

在一些实施例中，特征下采样包括稀疏采样。

可选地，池化处理和下采样是同时进行的；或者，首先针对图像特征表示进行池化处理，再对图像特征表示进行下采样，对此不加以限定。

在一些实施例中，图像由多个图像块组成，图像特征表示由多个子特征表示组成，多个图像块与多个子特征表示一一对应。

示意性的，图像由多个图像块组成，多个图像块包括图像块1至图像块9，图像块1对应子特征表示a，图像块2对应子特征表示b……，图像块9对应子特征表示i。

可选地，从图像包括的多个图像块中获取目标区域内的多个区域图像块。

其中，区域图像块用于表示位于该目标区域内的图像块。

示意性的，每个图像块对应一个子特征表示，组成图像的多个图像块分别对应一个子特征表示，因此得到多个子特征表示，从而将与图像对应的多个子特征表示称为图像对应的图像特征表示。

例如：图像中处于目标区域的部分图像块包括图像块3、图像块5以及图像块8，则将图像块2、图像块5和图像块8作为目标区域对应的区域图像块。

可选地，从图像特征表示包括的多个子特征表示中，获取多个区域图像块分别对应的子特征表示作为稀疏采样结果。

示意性的，在确定位于目标区域内的多个区域图像块后，获取图像特征表示中与多个区域图像块分别对应的子特征表示，从而得到与该目标区域对应的部分子特征表示，将该部分子特征表示作为稀疏采样结果。

例如：在确定目标区域对应的区域图像块为图像块3、图像块5以及图像块8后，从图像特征表示包括的多个子特征表示中，获取与图像块3对应的子特征表示c、与图像块5对应的子特征表示e以及与图像块8对应的子特征表示h，将子特征表示c、子特征表示e以及子特征表示h作为上述的稀疏采样结果。

可选地，稀疏采样结果的表现形式可实现为特征向量集合；或者，稀疏采样结果的表现形式可实现为特征向量图(特征矩阵)，也即，特征向量图中包含多个特征块(Patch块)，每个Patch块代表一个特征向量(图像块对应的子特征表示)，本申请实施例对此不加以限定。

可选地，预先设定内容识别模型，将图像输入内容识别模型后，直接输出得到与目标内容对应的稀疏采样结果；或者，预先设定内容识别模型，将图像输入内容识别模型后，输出得到图像对应的图像特征表示，基于目标区域从图像特征表示中选出与目标内容对应的稀疏采样结果，对此不加以限定。

可选地，稀疏采样结果的提取方式包括如下提取方式中至少一种：

1.采用Swin Transformer模型(基于移动窗口的Transformer)进行特征提取，将图像输入Swin Transformer模型后，输出得到与目标内容对应的特征图(Feature Map)，将该特征图作为稀疏采样结果，特征图中每个Patch块代表一个子特征表示；

2.采用深度残差网络(Deep residual network，ResNet)进行特征提取，将图像输入ResNet中，从ResNet每层网络输出的特征图获取与目标内容对应的稀疏采样结果；

3.采用Tokens-to-Tokens Vision Transformer模型(T2T-ViT模型)进行特征提取，将图像输入T2T-ViT模型中，输出得到与目标内容对应的字符串序列(Token序列)，作为与目标内容对应的稀疏采样结果。

值得注意的是，上述关于稀疏采样结果的提取方式仅为示意性的举例，本申请实施例对此不加以限定。

在一些实施例中，对稀疏采样结果进行池化处理，得到第一局部特征表示。

示意性的，在得到稀疏采样结果后，可以采用上述借助卷积核进行池化处理的方式对稀疏采样结果进行池化处理，从而得到第一局部特征表示。

示意性的，若稀疏采样结果实现为上述的特征向量集合，对稀疏采样结果进行池化处理后得到的第一局部特征表示实现为多个特征向量组合后的结果；或者，若稀疏采样结果实现为上述的特征向量图，对稀疏采样结果进行池化处理后得到的第一局部特征表示实现为单个特征向量等。

值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

步骤350，将关键点特征表示和第一局部特征表示进行特征拼接，得到第二局部特征表示。

示意性的，特征拼接是指将第一局部特征和关键点特征表示进行特征向量的拼接，将拼接后得到的特征向量作为第二局部特征表示。

可选地，特征拼接通过神经网络拼接层(Concatenate，Concat)实现，Concat层的作用在于将两个及两个以上的特征表示在通道(channel)维度上进行拼接。

示意性的，沿通道维度对关键点特征表示和第一局部特征表示进行特征拼接，得到第二局部特征表示。

其中，在特征拼接过程中，关键点特征表示和第一局部特征表示的特征尺寸大小相同，而是在通道数上扩展，因此特征拼接后得到的第二局部特征表示的特征尺寸不变，通道数相加。

例如：第一局部特征的大小为：1*H*W，关键点特征表示的大小为C*H*W。其中，第一局部特征中的1用于表示第一局部特征的通道数量，关键点特征表示中的C用于表示关键点特征表示的通道数量，H用于指示第一局部特征或关键点特征表示的高；W用于指示第一局部特征或关键点特征表示的宽。在沿通道维度将分类特征表示与图像特征表示进行通道维度的拼接时，得到第二局部特征表示，第二局部特征表示的大小为(C+1)*H*W。

可选地，考虑到关键点特征表示的数量可能不唯一，以及，考虑到第一局部特征表示的数量可能不唯一，因此综合两方面因素对特征拼接的方式进行说明。

示意性的，当存在单个关键点特征表示和单个第一局部特征表示时，将单个关键点特征表示和单个第一局部特征表示依照上述的特征拼接方法进行拼接，得到第二局部特征表示。

示意性的，当存在单个关键点特征表示和多个第一局部特征表示时，将多个第一局部特征表示进行上述的特征拼接后得到特征拼接结果，将特征拼接结果与单个关键点特征表示进行拼接后，得到第二局部特征表示；或者，将单个关键点特征表示与多个第一局部特征表示分别进行拼接后，得到与多个第一局部特征表示分别对应的特征拼接结果，将多个特征拼接结果进行特征拼接，得到第二局部特征表示。

示意性的，当存在多个关键点特征表示和单个第一局部特征表示时，将多个关键点特征表示进行上述的特征拼接后得到特征拼接结果，将特征拼接结果与单个第一局部特征表示进行拼接后，得到第二局部特征表示；或者，将单个第一局部特征表示与多个关键点特征表示分别进行拼接后，得到与多个关键点特征表示分别对应的特征拼接结果，将多个特征拼接结果进行特征拼接，得到第二局部特征表示。

示意性的，当存在多个关键点特征表示和多个第一局部特征表示时，特征拼接包括如下几种拼接方式中至少一种：

1.将单个第一局部特征表示和单个关键点特征表示进行拼接，得到单个第二局部特征表示，也即，第一局部特征表示和关键点特征表示是逐个进行特征拼接的，第二局部特征表示包含特征拼接得到的多个特征向量；

2.将多个第一局部特征表示先进行逐个特征拼接，将拼接结果再依次和关键点特征表示进行拼接，得到最终的第二局部特征表示，也即，第二局部特征表示包含拼接得到的单个特征向量；

3.将多个第一局部特征进行逐个特征拼接，得到第一拼接特征表示，并将多个关键点特征表示进行逐个特征拼接，得到第二拼接特征表示，再将第一拼接特征表示和第二特征表示进行特征拼接，得到第二局部特征表示，也即，先将多个第一局部特征和多个关键点特征表示分别进行特征拼接，再将各自拼接得到的特征向量再次进行特征拼接，最终得到的拼接结果作为第二局部特征表示。

值得注意的是，上述关于特征拼接的方式仅为示意性的举例，本申请实施例对此不加以限定。

步骤360，基于全局特征表示和第二局部特征表示对目标区域中包含的目标内容的类别进行识别。

可选地，将识别之后的结果称为内容识别结果，也即：内容识别结果用于表征目标内容对应的类别。

示意性的，内容识别结果表示目标内容对应的类别名称，如：针对目标内容a的内容识别结果为“园林”；或者，内容识别结果表示目标内容对应的类别类型，如：目标内容b的内容识别结果为“X园林”，对此不加以限定。

可选地，内容识别结果中包括单个目标内容与其对应的类别，如：目标内容a，对应类别“A公园”；目标内容b，对应类别“B公园”；或者，内容识别结果中包含多个类别，每个类别下对应至少一个目标内容，如：类别A为“海豚”，类别A中包括目标内容1、目标内容2(也即，目标内容1和目标内容2都为“海豚”)，类别B为“小丑鱼”，类别B中包括目标内容3(也即，目标内容3为“小丑鱼”)，对此不加以限定。

可选地，目标内容对应的类别实现为粗粒度类别，如：图像中包括目标内容A(第一游乐场)和目标内容B(第二游乐场)，最终得到的内容识别结果中，目标内容A和目标内容B对应的类别都为“游乐场”；或者，目标内容对应的类别实现为细粒度类别，如：目标内容A和目标内容B都属于“博物馆”，但最终识别得到目标内容A为“a博物馆”，目标内容B为“b博物馆”。

综上所述，本申请实施例提供的内容识别方法，基于图像中像素点分布规律提取得到关键点并提取与图像关键点对应的关键点特征表示，对图像进行显著性检测得到图像内的目标区域；此外，对图像特征表示进行池化处理得到全局特征表示，并基于目标区域对图像特征表示进行下采样，将下采样后得到的第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示，从而根据全局特征表示和第二局部特征表示对目标区域中目标内容的类别进行识别。也即，基于目标区域对图像特征表示进行下采样得到第一局部特征的过程，能够有效提取图像特征表示中关于局部特征的有效信息，进而在将第一局部特征表示和关键点特征表示进行特征拼接时，能够实现结合图像关键点得到更准确的第二局部特征表示的目的，利用全局特征和第二局部特征对图像进行内容识别，能够有效提高内容识别的准确度。

在一个可选的实施例中，第一局部特征表示和全局特征表示均可以通过多种不同的池化处理获取，示意性的，请参考图4，其示出了本申请一个示例性实施例提供的内容识别方法示意图，如图4所示，步骤340中包括步骤341和步骤342，该方法包括如下步骤：

步骤341，对图像特征表示进行池化处理，得到全局特征表示，以及，基于目标区域对图像特征表示进行稀疏采样，得到稀疏采样结果。

示意性的，对图像进行特征处理后得到的多个图像特征表示，每个图像特征表示代表图像中一个图像块(patch)的特征表示。

可选地，从图像对应的多个图像特征表示中选择部分图像特征表示进行池化处理，得到全局特征表示；或者，对所有的图像特征表示进行池化处理，得到全局特征表示，对此不加以限定。

首先，针对平均池化处理、最大池化处理以及广义均值池化处理进行详细说明。

在一些实施例中，池化处理包括平均池化处理、最大池化处理和广义均值池化处理中任意一种。

平均池化处理(Mean-Pooling)是指将输入的图像特征表示进行向量平均求值，得到平均求值后的特征向量作为全局特征表示。

最大池化处理(Max-Pooling)是指从输入的图像特征表示中选择向量值最大特征向量作为全局特征表示。

广义均值池化处理(Generalized-Mean Pooling，GeM)是指预设一个可学习参数p，对于输入的图像特征表示首先求p次幂，然后取向量平均值，再进行p次开方，将p次开方得到的结果作为全局特征表示，示意性的，GeM处理是参考公式一：

公式一：

由公式一可知，X_k为第k个图像块对应的图像特征表示，当p＝1时，公式一可实现为平均求值过程，也即，当前公式一等同于平均池化处理；当p趋近于无穷时，公式一可实现为取最大值，也即，当前公式一等同于最大池化处理。

示意性的，当p值越大时，对局部特征的关注度越高。

下面针对全局特征表示的两种获取方式进行说明。

第一种，通过单种池化处理获得全局特征表示。

在一些实施例中，对图像特征表示进行广义均值池化处理，得到全局特征表示。也即，通过对图像特征表示进行广义均值池化处理，将得到的池化处理结果作为全局特征表示。

其中，广义均值池化是将广义池化和平均池化结合起来的方法，主要是通过计算卷积核在输入特征表示(即上述的图像特征表示)上滑动所覆盖区域的加权均值，从而得到输出特征表示(即上述的全局特征表示)的每一个维度，其中，加权均值所涉及的加权系数可以通过之前的模型学习得到，也可以是自定义设置的系数。

当对图像特征表示进行广义均值池化处理时，能够实现对图像特征表示的灵活处理过程，借助广义均值池化处理过程中的加权系数提高池化处理过程的泛化能力，在减小全局特征表示的特征大小的同时，降低池化处理的计算成本，提高池化处理的处理效率。

在一些实施例中，对图像特征表示进行平均池化处理，得到全局特征表示。

在一些实施例中，对图像特征表示进行最大池化处理，得到全局特征表示。

也即，通过对图像特征表示进行最大池化处理、平均池化处理和广义均值池化处理中任意一种池化处理，得到全局特征表示，全局特征表示用于表征单种池化处理对应的池化结果。

第二种，通过多种不同池化处理得到全局特征表示。

在一些实施例中，对图像特征表示进行平均池化处理，得到第一全局特征表示；对图像特征表示进行最大池化处理，得到第二全局特征表示；对图像特征表示进行广义均值池化处理，得到第三全局特征表示；将第一全局特征表示、第二全局特征表示和第三全局特征表示进行特征拼接，得到全局特征表示。

本实施例中，对图像特征表示分别进行三种不同的池化处理，得到第一全局特征表示、第二全局特征表示和第三全局特征表示，并对其进行特征拼接，将特征拼接结果作为全局特征表示，也即，全局特征表示包括三种池化处理对应的池化结果的拼接结果。

可选地，将第一全局特征表示、第二全局特征表示和第三全局特征表示按照固定排列顺序进行特征拼接(如：按照第一全局特征表示、第二全局特征表示和第三全局特征表示的拼接顺序进行特征拼接)；或者，将第一全局特征表示、第二全局特征表示和第三全局特征表示按照随机排列顺序进行特征拼接，对此不加以限定。

首先，针对稀疏采样进行详细说明。

示意性的，稀疏采样是指将图像特征表示进行稀疏化处理，得到稀疏向量矩阵，作为稀疏采样结果。其中，图像特征表示为一个稠密的向量矩阵，而稀疏采样结果为一个稀疏的向量矩阵，也即，稀疏采样结果中包括多个零元素。可选地，零元素代表未被采样的图像块对应的图像特征表示；与零元素对应的元素为一元素，一元素用于表示被采样的图像块对应的图像特征表示。

本实施例中，图像特征表示实现为一个尺寸大小为k×k×1024的特征图(也即，特征矩阵)，对图像特征表示进行稀疏采样后，得到n×1024个Token向量，将n×1024个Token向量作为稀疏采样结果。其中，Token向量的个数是预先设置好的固定数量；或者，Token向量的个数可根据实际需要进行自由设定，对此不加以限定。

在一个可选的实施例中，基于目标区域对图像特征表示进行稀疏采样，得到稀疏采样结果。

示意性的，在得到图像中的目标区域后，以目标区域中的图像块对应的图像特征表示实现为一元素，以目标区域外的图像块对应的图像特征表示为零元素，实现对图像特征表示进行的稀疏采样过程，从而使得稀疏采样结果能够更针对性地展现目标区域对应的局部信息；

或者，在得到图像中的目标区域后，将大部分目标区域中的图像块对应的图像特征表示取值为一元素，将小部分目标区域外的图像块对应的图像特征表示取值为零元素，实现对图像特征表示进行的稀疏采样过程，从而使得稀疏采样结果能够较为针对性地展现目标区域对应的局部信息；

或者，在得到图像中的目标区域后，将包括目标区域在内的一定区域内图像块对应的图像特征表示表示取值为一元素，将该一定区域外的图像块对应的图像特征表示取值为零元素，实现对图像特征表示进行的稀疏采样过程，从而使得稀疏采样结果能够较为针对性地展现目标区域对应的局部信息等。

本实施例中，针对图像特征表示分别进行池化处理和下采样的过程是同时进行的。

步骤342，对稀疏采样结果进行池化处理，得到第一局部特征表示。

在一些实施例中，池化处理包括平均池化处理、最大池化处理和广义均值池化处理等池化处理方式中至少一种。

示意性的，针对第一局部特征表示两种获取方式进行详细说明。

第一种，通过对稀疏采样结果进行单个池化处理。

在一个可实现的情况下，对稀疏采样结果进行最大池化处理，选择稀疏采样结果中向量值最大的Token向量作为第一局部特征表示。

在一个可实现的情况下，对稀疏采样结果进行平均池化处理，对稀疏采样结果进行平均求值，将得到的平均值向量作为第一局部特征表示。

在一个可实现的情况下，对稀疏采样结果进行广义均值池化处理，设置一个可学习参数p，通过上述公式一对稀疏采样结果进行池化处理，得到池化处理结果作为第一局部特征表示。

针对上述三种不同的池化处理方式，也即，第一局部特征表示中包括由单种池化处理得到的特征向量。

第二种，通过对稀疏采样结果进行多种不同的池化处理。

在一些实施例中，对稀疏采样结果进行平均池化处理，得到第三局部特征表示；对稀疏采样结果进行最大池化处理，得到第四局部特征表示；对稀疏采样结果进行广义均值池化处理，得到第五局部特征表示；将第三局部特征表示、第四局部特征表示和第五局部特征表示进行特征拼接，得到第一局部特征表示。

本实施例中，针对稀疏采样结果分别进行平均池化处理、最大池化处理和广义均值池化处理，分别得到第三局部特征表示、第四局部特征表示和第五局部特征表示，并对其进行特征拼接，将拼接得到的结果作为第一局部特征表示。也即，当前第一局部特征表示中包括多种不同池化处理得到的特征向量对应的拼接结果。

可选地，对稀疏采样结果同时进行三种不同的池化处理；或者，按照三种池化处理的预设处理顺序对稀疏采样结果进行池化处理，对此不加以限定。其中，预设处理顺序是预先设置好的固定顺序；或者，预设处理顺序可根据实际需要进行自由设定。

可选地，将第三局部特征表示、第四局部特征表示和第五局部特征表示按照固定排列顺序进行特征拼接(如：按照第三局部特征表示、第四局部特征表示和第五局部特征表示的拼接顺序进行特征拼接)；或者，将第三局部特征表示、第四局部特征表示和第五局部特征表示按照随机排列顺序进行特征拼接，对此不加以限定。

值得注意的是，上述针对图像特征表示的两种池化处理(包括单种池化处理和多种池化处理后进行拼接)以及针对稀疏采样结果的两种池化处理(包括单种池化处理和多种池化处理后进行拼接)仅为示意性的举例，在应用过程中针对图像特征表示和稀疏采样结果分别可选择上述任意池化处理进行组合(也即，包括四种池化组合方式)，如：采用三种池化处理中的任意两种池化处理方式对稀疏采样结果进行处理及特征拼接后得到第一局部特征表示；或者，采用三种池化处理中的任意两种池化处理方式对图像特征表示进行处理及特征拼接后得到全局特征表示等，本申请实施例对此不加以限定。

综上所述，本申请实施例提供的内容识别方法，基于图像中像素点分布规律提取得到图像关键点并提取与图像关键点对应的关键点特征表示，对图像进行显著性检测得到图像内的目标区域；此外，对图像特征表示进行池化处理得到全局特征表示，并基于目标区域对图像特征表示进行下采样，将得到的第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示，从而根据全局特征表示和第二局部特征表示对目标区域中目标内容的类别进行识别，最终得到内容识别结果。也即，通过基于目标区域对图像特征表示进行下采样得到第一局部特征的过程，能够有效提取图像特征表示中关于局部特征的有效信息，进而在将第一局部特征表示和关键点特征表示进行特征拼接时，能够实现结合图像关键点得到更准确的第二局部特征表示的目的，利用全局特征和第二局部特征对图像进行内容的类别识别，能够有效提高内容识别的准确度。

本实施例中，通过基于目标区域对图像特征表示进行稀疏采样的方式，降低图像特征表示的复杂性，得到具有低复杂度的稀疏采样结果，进而对稀疏采样结果进行池化处理，以在尽可能保留目标区域对应的图片空间信息的前提下，降低目标内容的尺寸，并提取到包含高维局部特征信息的第一局部特征表示，在有效提取图像特征表示中对应的局部特征的同时，提高特征提取的效率以及特征表示的利用率。

本实施例中，介绍了池化处理的操作形式，当对稀疏采样结果和图像特征表示进行池化处理时，可以采用上述三种处理方式中的至少一种处理方式得到对应的特征表示。当选择采用单种池化处理时，能够一定程度上简化池化处理的操作形式；当选择采用至少两种池化处理时，可以根据对稀疏采样结果和图像特征表示的处理条件确定更合适的池化处理方式，提高应用池化处理的灵活度。

例如：针对图像特征表示提供两种不同的池化处理方式，包括单种池化处理方式和多种不同池化处理后的特征拼接方式。当选择采用诸如最大池化处理、平均池化处理和广义均值池化处理中任意一种池化处理方式时，能够对在一定程度上减少池化处理操作的运算量，提高全局特征表示的获取效率；当选择采用将多种不同的池化处理后的特征进行特征拼接的方式时，综合平均池化处理后的第一全局特征表示、最大池化处理后的第二全局特征表示以及广义均值池化处理后的第三全局特征表示，有效实现对图像特征表示进行更全面分析的目的，在提高池化处理选择多样性的同时，提高了全局特征表示的获取准确度。

又或者，针对稀疏采样结果提供两种不同的池化处理方式，包括单种池化处理方式和多种不同池化处理后的特征拼接方式。当选择采用诸如最大池化处理、平均池化处理和广义均值池化处理中任意一种池化处理方式时，能够对在一定程度上减少池化处理操作的运算量，提高第一局部特征表示的获取效率；当选择采用将多种不同的池化处理后的特征进行特征拼接的方式时，综合平均池化处理后的第三局部特征表示、最大池化处理后的第四局部特征表示以及广义均值池化处理后的第五局部特征表示，有效实现对稀疏采样结果进行更全面分析的目的，在提高池化处理选择多样性的同时，提高了第一局部特征表示的获取准确度。

在一个可选的实施例中，关键点特征表示通过关键点提取算法获取，图像特征表示通过内容识别模型获取，目标区域中目标内容的类别识别结果由内容类别库确定，示意性的，请参考图5，其示出了本申请一个示例性实施例提供的内容识别方法流程图，也即，步骤340中还可以包括步骤341至步骤343，步骤360中包括步骤361至步骤364，如图5所示，该方法包括如下步骤。

步骤310，获取图像。

其中，目标内容在图像中对应图像关键点，图像关键点是基于图像中像素点分布规律提取得到的关键点。

可选地，单次获取单张图像；或者，单次同时获取多张图像等，本申请实施例对此不加以限定。

示意性的，图像是指包含未知类别的目标内容的图像，如：景点图像(包含未知景点类别的图像)、明星写真(包含未知明星的写真图像)、动漫图像(包含未知动漫角色的图像)等，本申请实施例对此不加以限定。

在一些实施例中，图像关键点是通过特征检测器对图像中的像素点进行分析，并根据像素点分布规律提取得到的关键点。

可选地，图像关键点通过如下提取方式中至少一种得到：

1.通过尺度不变特征变换检测(Scale Invariant Feature Transform，SIFT特征检测)提取图像对应的图像关键点，其中，利用SIFT特征检测的过程中，将图像输入SIFT特征检测器，利用SIFT特征检测器中的高斯拉普拉斯金字塔尺度空间(Difference of Gaussian，DOG)获取图像中的极值点，作为图像关键点；

2.通过SURF特征检测(Speeded Up Robust Features，基于加速版的SIFT特征检测)提取图像对应的图像关键点，其中，SURF特征检测器的过程中，将图像输入SURF特征检测器，SURF特征检测器使用海森(Hesseian)矩阵的行列式值对图像进行关键点检测，确定图像对应的图像关键点；

3.通过ORB特征检测(Oriented FAST and Rotated BRIEF，ORB)提取图像中目标内容对应的图像关键点，将图像输入ORB特征检测器，确定图像对应的图像关键点。

值得注意的是，上述关于图像关键点的提取方式仅为示意性的举例，本申请实施例对此不加以限定。

在一些实施例中，通过关键点提取算法提取与图像关键点对应的关键点特征表示。

可选地，通过SIFT关键点检测器确定图像关键点后提取图像关键点对应的关键点特征表示(SIFT特征表示)；或者，通过SURF关键点检测器确定图像关键点后提取图像关键点对应的关键点特征表示(SURF特征表示)；或者，通过ORB关键点检测器确定图像关键点后提取图像关键点对应的关键点特征表示(ORB特征表示)，本申请实施例对此不加以限定。

可选地，选择上述SIFT特征表示、SURF特征表示或者ORB特征表示中至少一种作为关键点特征表示。

步骤330，通过对图像进行显著性检测，从图像中识别出目标区域。

在一些实施例中，对图像进行显著性检测，从图像中识别出与目标内容对应的目标区域。

示意性的，显著性检测用于确定图像中的目标内容对应的目标区域和背景内容对应的背景区域，也即，显著性检测用于根据内容特征对图像进行区域划分。

示意性的，请参考图6，其示出了本申请一个示例性实施例提供的目标区域示意图，如图6所示，图6展示了三种不同图像经过显著性检测后得到的识别显著图示意图600，包括第一图像610和第一图像610对应的第一显著图611、第二图像620和第二图像620对应的第二显著图621、第三图像630和第三图像630对应的第三显著图631。

其中，第一显著图611中包括第一目标区域(白色区域)，第二显著图621中包括第二目标区域(白色区域)，第三显著图631中包括第三目标区域(白色区域)。图6中的目标区域均以白色区域进行标记显示，背景区域以黑色区域进行标记显示。

本实施例中，图6示出的识别显著图为当前目标内容对应的主体特征较明显，也即，当前的识别显著图中目标区域显示完整度较好，白色区域对应的区域边缘较清晰。

此外，本实施例中还存在识别显著图中目标内容对应的主体特征不明显的情况，示意性的，请参考图7，其示出了本申请一个示例性实施例提供的目标区域示意图，如图7所示，图7展示了两种不同图像经过显著性检测后得到的识别显著图示意图700，包括第四图像710和第四图像710对应的第四显著图711，第五图像720和第五图像720对应的第五显著图721。

其中，第四显著图711和第五显著图721中白色区域即为目标区域，黑色区域即为背景区域，当前第四显著图711和第五显著图721属于目标内容对应的主体特征不明显的情况，也即白色区域对应的区域边缘较模糊。

可选地，显著性检测模型包括Visual Saliency Transformer(VST模型)、Edge Guidance Network for Salient Object Detection(EGNet模型)等模型中至少一种，对此不加以限定。

本实施例中，针对VST模型进行详细说明。

示意性的，请参考图8，其示出了本申请一个实施例提供的显著性检测模型示意图，如图8所示，当前显示VST模型，其中，VST模型的模型输入包括第一图像810和第二图像820，第一图像810为图像(该图像为RGB图像，图8中未显示颜色)，第二图像820为图像对应的灰度图像(RGB-D图像)，将第一图像810对应的第一图像块811和第二图像820对应的第二图像块821分别输入Transformer编码器空间830(Transformer Encoder)，其中，Transformer编码器空间830中利用Token-to-Token(T2T)模块对第一图像块811和第二图像块821分别编码成多级Token向量(如：T1、T2、T3)，将多级Token向量输入转换器840(Convertor)，转换器840用于将多层Token向量从编码器空间830转换到解码器空间850(Transformer Decoder)进行特征解码，输出得到第一图像810对应的识别显著图8111，以及第二图像820对应的识别边界图8221。

在VST模型中，除了使用Transformer模型结构外，还利用多级Token向量融合，并在Transformer结构下提出一种新的Token向量上采样的方法，以获得高分辨率的显著检测结果。还开发了一个基于Token向量的多任务解码器，通过引入任务相关的Token向量和一个Patch-Task-Attention机制来同时进行显著检测(Saliency)和边缘(Boundary)检测。

步骤341，将图像输入内容识别模型，输出得到图像特征表示。

其中，内容识别模型用于对图像进行深层特征提取。

可选地，单次仅将单张图像输入内容识别模型，输出得到单张图像对应的图像特征表示；或者，单次将多张图像同时输入内容识别模型，同时输出多张图像分别对应的图像特征表示，对此不加以限定。

在一些实施例中，图像特征表示实现为一张多维度特征向量图，其中，特征向量图中包括多个Patch块，每个Patch代表一个特征向量。

可选地，内容识别模型包括Swin Transformer模型、ResNet模型或者T2T-ViT模型中至少一种，对此不加以限定。

本实施例中，采用Swin Transformer模型作为内容识别模型，下面，针对Swin Transformer模型进行简单介绍。

Swin Transformer模型引入了层次化特征映射过程和窗口注意力转换过程两个概念。其中，层次化特征映射过程是指Swin Transformer模型中特征表示的映射过程在每一层模型输出后逐步合并，并进行特征下采样，建立具有层次结构的特征映射，该具有层次结构的特征映射使得Swin Transformer模型能够很好地应用于细粒度特征预测的领域(如：语义分割领域)。

Swin Transformer模型中使用的无卷积特征下采样方法称为Patch Merging。其中，“Patch”指的是特征向量图中的最小单位，如：在一个特征尺寸为14x14的特征向量图中，有14x14＝196个Patch块，也即，有196个特征块。

Swin Transformer模型中使用的模块为基于窗口的标准多头自注意力(Window Multi-headed Self-attention，W-MSA)，该W-MSA只在每个窗口内计算对应的注意力。这种转变会导致存在不属于任何窗口的Patch块，也即，该Patch块处于被孤立状态，以及存在Patch块不完整的窗口(Window)。Swin Transformer模型应用了“循环移位”技术，将被孤立的Patch块移动到存在不完整Patch块的窗口中。通过这次移位之后，一个窗口会由原始特征向量图中不相邻的Patch块组成，因此在计算过程中应用一个Mask，将自注意力限制在相邻的Patch块上。

本实施例中，将图像输入Swin Transformer模型中，在Swin Transformer模型的末端输出k×k×1024的特征向量图，作为图像特征表示。

步骤342，基于目标区域对图像特征表示进行下采样，得到第一局部特征表示。

示意性的，基于目标区域对图像特征表示进行稀疏采样，得到稀疏采样结果；对稀疏采样结果进行池化处理，得到第一局部特征表示。

本实施例中，对k×k×1024的特征向量图进行稀疏采样，得到n×1024个Token向量，再对这n×1024个Token向量进行平均池化，得到局部特征。

可选地，对稀疏采样结果进行最大池化处理、平均池化处理和广义均值池化处理中任意一种，将池化处理结果作为第一局部特征表示；或者，对稀疏采样结果分别进行最大池化处理、平均池化处理和广义均值池化处理，将三种池化处理结果进行特征拼接，得到第一局部特征表示，对此不加以限定。本实施例中，以对图像特征表示进行平均池化处理，将池化处理结果作为第一局部特征表示为例。

步骤343，对图像特征表示进行池化处理，得到全局特征表示。

可选地，对图像特征表示进行最大池化处理、平均池化处理和广义均值池化处理中任意一种，将池化处理结果作为全局特征表示；或者，对图像特征表示分别进行最大池化处理、平均池化处理和广义均值池化处理，将三种池化处理结果进行特征拼接，得到全局特征表示，对此不加以限定。本实施例中，以对图像特征表示进行广义均值池化处理，并将池化处理结果作为全局特征表示为例。

步骤350，将第一局部特征表示和关键点特征表示进行特征拼接，得到第二局部特征表示。

示意性的，将第一局部特征表示和关键点特征表示依次进行特征拼接，将特征拼接结果作为第二局部特征表示。

在上述步骤341至步骤342中，介绍了通过关键点提取算法提取关键点特征表示并得到第二局部特征表示的过程。借助关键点提取算法确定图像对应的关键点并确定与关键点对应的关键点特征表示，从而以关键点特征表示指代图像关键点，便于模型对图像关键点进行针对性地分析，减少模型识别的复杂性，缩短模型识别时间；进而将关键点特征表示与图像特征表示中与目标区域对应的第一局部特征表示进行融合，在突出图像关键点信息的同时增大目标内容的整体感知性，提升局部特征表示对目标内容的表达力度，提高第二局部特征表示的准确度。

步骤361，获取内容类别库，内容类别库中包括预先设定的n个类别的集合，n为正整数。

示意性的，内容类别库中包括n个预先存储的类别，每个类别对应存储至少一张候选图像对应的候选特征表示(即：候选图像对应的图像特征表示)，也即，候选特征表示与类别对应，如：类别“贵宾犬”下存储有多张包含贵宾犬图像，每张贵宾犬图像中标注有贵宾犬对应的特征表示，作为候选特征表示。

在一些实施例中，内容类别库是预先获取得到的。

步骤362，将全局特征表示与内容类别库中的n个类别分别进行匹配，得到内容类别库中与全局特征表示匹配的k个候选，0＜k＜n且k为整数。

在一些实施例中，将全局特征表示与内容类别库中的n个类别分别进行匹配，得到n个类别分别对应的全局匹配分数，全局匹配分数用于表征目标内容属于类别的概率；将n个类别分别对应的全局匹配分数进行排序，得到匹配度排序结果；将匹配度排序结果中前k个类别，作为与全局特征表示匹配的k个候选类别。

可选地，根据全局特征表示与n个类别下分别对应的候选特征表示在向量空间中的距离，确定全局匹配分数。例如：当全局特征表示与候选特征表示在向量空间中的距离越小时，全局匹配分数越高；当全局特征表示与候选特征表示在向量空间中的距离越大时，全局匹配分数越低。

示意性的，根据全局特征表示在内容类别库中遍历所有类别下对应的候选特征表示，将每个候选特征表示与全局特征表示进行匹配，根据类别下对应的候选特征表示与当前全局特征表示匹配的情况，确定该类别对应的全局匹配分数，其中，类别的全局匹配分数越高，表明该类别下候选特征表示与全局特征表示的匹配度越高，也即，当前目标内容对应的类别为该类别的概率越高。

根据全局匹配分数按照从高到低的顺序进行排列，得到匹配度排序结果，选择匹配度排序结果中前k个类别，作为和全局特征表示匹配的k个候选类别。

步骤363，基于第一局部特征表示对k个候选类别进行类别排序，得到类别排序结果。

示意性的，通过全局特征表示从内容类别库中选择与目标内容的内容匹配分数最高的前k个候选类别，针对k个候选类别，根据局部特征表示将这k个候选类别再次进行类别排序，得到类别排序结果。

其中，将第一局部特征表示与k个候选类别下存储的候选特征表示分别进行匹配，根据候选特征表示和第一局部特征表示的匹配情况，确定k个候选类别分别对应的局部匹配分数，其中，局部匹配分数用于表示当前第一局部特征表示和该类别下候选特征表示之间的匹配情况，匹配度越高，表明该类别对应的局部匹配分数越高，根据k个候选类别分别对应的局部匹配分数由高到低进行排序，得到类别排序结果。

步骤364，根据类别排序结果，得到目标内容对应的识别类别。

示意性的，选择类别排序结果中局部匹配分数最高(或者较高的几个)的候选类别作为识别类别，作为内容识别结果。

综上所述，本申请实施例提供的内容识别方法，基于图像中像素点分布规律提取得到图像关键点并提取与图像关键点对应的关键点特征表示，对图像进行显著性检测得到图像内的目标区域；对图像对应的图像特征表示进行池化处理得到全局特征表示，并基于目标区域对图像特征表示进行下采样，将下采样后的第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示，从而根据全局特征表示和第二局部特征表示对目标图像中目标内容对应的类别进行识别。也即，通过对图像特征表示进行下采样得到第一局部特征的过程，能够有效提取图像特征表示中关于局部特征的有效信息，进而在将第一局部特征表示和关键点特征表示进行特征拼接时，能够实现结合图像关键点得到更准确的第二局部特征表示的目的，利用全局特征和第二局部特征对图像中目标内容的类别进行识别，能够有效提高对内容进行类别识别的准确度。

本实施例中，通过显著性检测确定目标内容在图像中的目标区域，从而将图像中的目标区域与背景区域进行有效划分，增强目标区域的区别力度；进而在通过目标区域对图像特征表示进行区域分析时，能够有效排除图像中背景区域的干扰，提高得到的图像特征表示对目标区域的表达强度，尽最大程度过滤不包含主体特征的背景内容，提高目标内容的内容类别识别的准确度和识别效率。

本实施例中，如步骤361至步骤364所示，在基于全局特征表示和第二局部特征表示对得到目标内容对应类别的过程中，通过表征全局信息内容的全局特征表示从包括n个类别的内容类别库中选择相匹配的k个候选类别，进而根据表征针对性的局部信息内容的局部特征表示将k个候选类别进行重新排序，并根据类别排序结果确定与目标内容对应的类别。有效实现了从全局至局部对目标内容进行识别的过程，借助层次性分析方式提高了内容识别过程的规范性，在提高内容类别识别准确度的同时，提升了内容识别的灵活性。此外，借助将全局特征表示与内容类别库中n个类别分别进行匹配的全局匹配分数，更直观地实现了候选类别的选择过程，有利于更全面且更准确地获取到k个候选类别，进而有利于提高内容识别的准确性。

在一个可选的实施例中，针对本申请提供的内容识别方法对应的应用场景进行说明，示意性的，请参考图9，其示出了本申请一个示例性实施例提供的内容识别方法示意图，以内容方法应用于图像搜索场景为例进行说明。

当前用户输入一张图像作为图像，通过该图像在图像库中进行检索得到与该图像匹配度最高的识别图像，作为图像搜索结果。

如图9所示，获取图像910，其中，图像910为用户输入的图像，图像910中包括目标内容911，图像对应多个图像关键点(图9中未示出)，图像关键点是通过SIFT关键点检测器、ORB关键点检测器或者SURF关键点检测器三种关键点检测器中至少一种检测得到的特征点。

将图像910输入内容识别模型920，输出得到图像特征表示930，其中，内容识别模型920实现为Swin Transformer模型，图像特征表示930实现为通过Swin Transformer模型最后一层输出的特征尺寸为k×k×1024的特征向量图。

对图像910进行显著性检测，提取得到目标区域912，该目标区域912与目标内容911相对应。

其中，显著性检测采用VST模型实现。

对图像特征表示930分别进行广义均值池化处理940和稀疏采样950，分别得到全局特征表示941和稀疏采样结果950。

可选地，在对图像特征表示930进行稀疏采样950得到稀疏采样结果950时，基于目标区域912对图像特征表示930进行稀疏采样950。

示意性的，从图像特征表示930中提取得到与目标区域912对应的特征表示作为稀疏采样后的稀疏采样结果950；或者，从图像特征表示930中提取得到略大于目标区域912的一定区域对应的特征表示作为稀疏采样后的稀疏采样结果。

将稀疏采样结果950进行平均池化处理960，得到第一局部特征表示(图9中未示出)，将第一局部特征表示和图像关键点提取的关键点特征表示(SIFT特征表示、SURF特征表示或者ORB特征表示中至少一种)进行拼接，得到第二局部特征表示951。

此外，针对上述池化处理得到的结果，进行特征降维操作，去除特征表示之间相关度较高的冗余特征。

根据全局特征表示941在类别库970中进行匹配，得到与全局特征表示941全局匹配分数最高的前k个候选类别(TOP-K)，作为k个候选类别971。

根据存储了第一局部特征表示951的局部特征库952对k个候选类别971再次进行匹配，得到k个候选类别971对应的局部匹配度分数，根据局部匹配度分数对k个候选类别进行重新排序，最终选择局部匹配度分数最高的作为目标内容对应的类别980输出，其中，目标内容对应的类别980实现为“长城”。

将目标内容对应的类别输入图像库中，选择图像库中与该目标内容对应的类别对应的候选图像进行输出，向用户进行展示。

此外，本申请实施例提供的内容识别方法还可应用于以下场景。

1.应用于帐号推荐。以用户搜索视频帐号为例进行说明，当前视频帐号发布的视频中标注了候选地点，当用户输入地点内容作为搜索内容，通过上述内容识别方法确定视频帐号，将该视频帐号中标注有对应地点的视频进行加权，从而提高该视频向用户进行推荐的概率；

2.应用于内容推荐。在针对向用户进行内容推荐的过程中，若推荐库中的图像或者视频内容通过上述内容识别方法识别得到后，将该图像或者视频内容向用户进行推荐；

综上所述，本申请实施例提供的内容识别方法，基于图像中像素点分布规律提取得到图像关键点并提取与图像关键点对应的关键点特征表示，对图像进行显著性检测得到图像内的目标区域；对图像对应的图像特征表示进行池化处理得到全局特征表示，并对图像特征表示进行下采样，将下采样得到的第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示，从而根据全局特征表示和第二局部特征表示对图像中的目标内容的类别进行识别。也即，基于目标区域对图像特征表示进行下采样得到第一局部特征表示的过程，能够有效提取图像特征表示中关于局部特征的有效信息，进而在将第二局部特征表示和关键点特征表示进行特征拼接时，能够实现结合图像关键点得到更准确的第二局部特征表示的目的，利用全局特征和第二局部特征表示对图像中目标内容的类别进行识别，能够有效提高内容识别的准确度。

本申请提供内容识别方法的有益效果包括：

1)构建了全局特征表示进行内容召回，第二局部特征表示进行重排序的结构；

2)将第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示；

3)引入显著性检测来避免背景信息的干扰。

图10是本申请一个示例性实施例提供的内容识别装置的结构框图，如图10所示，该装置包括如下部分：

获取模块1010，用于获取图像；

提取模块1020，用于基于所述图像中像素点分布规律提取得到图像关键点，并提取所述图像中与所述图像关键点对应的关键点特征表示；通过对所述图像进行显著性检测，从所述图像中识别出目标区域；

处理模块1030，用于对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于所述目标区域对所述图像特征表示进行下采样，得到第一局部特征表示；

拼接模块1040，用于将所述关键点特征表示和所述第一局部特征表示进行特征拼接，得到第二局部特征表示；

识别模块1050，用于基于所述全局特征表示和所述第二局部特征表示对所述目标区域中包含的目标内容的类别进行识别。

在一个可选的实施例中，如图11所示，所述处理模块1030，包括：

采样单元1031，用于基于所述目标区域对所述图像特征表示进行稀疏采样，得到稀疏采样结果；

处理单元1032，用于对所述稀疏采样结果进行池化处理，得到所述第一局部特征表示。

在一个可选的实施例中，所述图像由多个图像块组成，所述图像特征表示由多个子特征表示组成，所述多个图像块与所述多个子特征表示一一对应；

所述处理模块1030，从所述图像包括的多个图像块中获取所述目标区域内的多个区域图像块；从所述图像特征表示包括的多个子特征表示中，获取所述多个区域图像块分别对应的子特征表示作为所述稀疏采样结果。

在一个可选的实施例中，所述池化处理包括平均池化处理、最大池化处理和广义均值池化处理中任意一种。

在一个可选的实施例中，所述处理单元1032，还用于对所述稀疏采样结果进行平均池化处理，得到第三局部特征表示；对所述稀疏采样结果进行最大池化处理，得到第四局部特征表示；对所述稀疏采样结果进行广义均值池化处理，得到第五局部特征表示；将所述第三局部特征表示、所述第四局部特征表示和所述第五局部特征表示进行特征拼接，得到所述第一局部特征表示。

在一个可选的实施例中，所述提取模块1020，还用于通过关键点提取算法提取与所述图像关键点对应的关键点特征表示。

在一个可选的实施例中，所述处理模块1030，还用于将所述图像输入内容识别模型，输出得到所述图像特征表示，其中，所述内容识别模型用于对所述图像进行深层特征提取；对所述图像特征表示进行广义均值池化处理，得到所述全局特征表示。

在一个可选的实施例中，所述处理模块1030，还用于对所述图像特征表示进行平均池化处理，得到第一全局特征表示；对所述图像特征表示进行最大池化处理，得到第二全局特征表示；对所述图像特征表示进行广义均值池化处理，得到第三全局特征表示；将所述第一全局特征表示、所述第二全局特征表示和所述第三全局特征表示进行特征拼接，得到所述全局特征表示。

在一个可选的实施例中，所述识别模块1050，还用于获取内容类别库，所述内容类别库中包括预先设定的n个类别的集合，n为正整数；将所述全局特征表示与所述内容类别库中的n个类别分别进行匹配，得到所述内容类别库中与所述全局特征表示匹配的k个候选类别，0＜k＜n且k为整数；基于所述第二局部特征表示对所述k个候选类别进行类别排序，得到类别排序结果；根据所述类别排序结果，得到所述目标内容对应的识别类别。

在一个可选的实施例中，所述识别模块1050，还用于将所述全局特征表示与所述内容类别库中的n个类别分别进行匹配，得到所述n个类别分别对应的全局匹配分数，所述全局匹配分数用于表征所述目标内容属于所述类别的概率；将所述n个类别分别对应的全局匹配分数进行排序，得到匹配度排序结果；将匹配度排序结果中前k个类别，作为与所述全局特征表示匹配的k个候选类别。

综上所述，本申请实施例提供的内容识别装置，基于图像中像素点分布规律提取得到图像关键点并提取与图像关键点对应的关键点特征表示，对图像进行显著性检测得到图像内的目标区域；对图像对应的图像0特征表示进行池化处理得到全局特征表示，并基于目标区域0对图像特征表示进行下采样，将下采样得到的第一局部特征表示和关键点特征表示进行特征拼接后得到第二局部特征表示，从而根据全局特征表示和第二局部特征表示对图像中的目标内容的类别进行识别。也即，基于目标区域对图像特征表示进行下采样得到第一局部特征的过程，能够有效提取图像特征表示中关于局部特征的有效信息，进而在将第一局部特征表示和关键点特征表示进行特征拼接时，能够实现结合图像关键点得到更准确的第二局部特征表示的目的，利用全局特征和第二局部特征对图像中目标内容的类别进行识别，能够有效提高内容识别的准确度。

需要说明的是：上述实施例提供的内容识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的内容识别装置与内容识别方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：

服务器1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器(Random Access Memory，RAM)1202和只读存储器(Read Only Memory，ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1206。

大容量存储设备1206通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1206及其相关联的计算机可读介质为服务器1200提供非易失性存储。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。

根据本申请的各种实施例，服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的内容识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的内容识别方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的内容识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

Claims

一种内容识别方法，由服务器执行，所述方法包括：

获取图像；

基于所述图像中像素点分布规律提取得到图像关键点，并提取所述图像中与所述图像关键点对应的关键点特征表示；

通过对所述图像进行显著性检测，从所述图像中识别出目标区域；

对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于所述目标区域对所述图像特征表示进行下采样，得到第一局部特征表示；

将所述关键点特征表示和所述第一局部特征表示进行特征拼接，得到第二局部特征表示；

基于所述全局特征表示和所述第二局部特征表示对所述目标区域中包含的目标内容的类别进行识别。
根据权利要求1所述的方法，其中，所述基于所述目标区域对所述图像特征表示进行下采样，得到第一局部特征表示，包括：

基于所述目标区域对所述图像特征表示进行稀疏采样，得到稀疏采样结果；

对所述稀疏采样结果进行池化处理，得到所述第一局部特征表示。
根据权利要求2所述的方法，其中，所述图像由多个图像块组成，所述图像特征表示由多个子特征表示组成，所述多个图像块与所述多个子特征表示一一对应；

所述基于所述目标区域对所述图像特征表示进行稀疏采样，得到稀疏采样结果，包括：

从所述图像包括的多个图像块中获取所述目标区域内的多个区域图像块；

从所述图像特征表示包括的多个子特征表示中，获取所述多个区域图像块分别对应的子特征表示作为所述稀疏采样结果。
根据权利要求2所述的方法，其中，所述池化处理包括平均池化处理、最大池化处理和广义均值池化处理中任意一种。
根据权利要求2所述的方法，其中，所述对所述稀疏采样结果进行池化处理，得到所述第一局部特征表示，包括：

对所述稀疏采样结果进行平均池化处理，得到第三局部特征表示；

对所述稀疏采样结果进行最大池化处理，得到第四局部特征表示；

对所述稀疏采样结果进行广义均值池化处理，得到第五局部特征表示；

将所述第三局部特征表示、所述第四局部特征表示和所述第五局部特征表示进行特征拼接，得到所述第一局部特征表示。
根据权利要求1至5任一所述的方法，其中，所述基于所述图像中像素点分布规律提取得到图像关键点，包括：

通过关键点提取算法提取与所述图像关键点对应的关键点特征表示。
根据权利要求1至6任一所述的方法，其中，所述对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，包括：

将所述图像输入内容识别模型，输出得到所述图像特征表示，其中，所述内容识别模型用于对所述图像进行深层特征提取；

对所述图像特征表示进行广义均值池化处理，得到所述全局特征表示。
根据权利要求1至7任一所述的方法，其中，所述对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，包括：

对所述图像特征表示进行平均池化处理，得到第一全局特征表示；

对所述图像特征表示进行最大池化处理，得到第二全局特征表示；

对所述图像特征表示进行广义均值池化处理，得到第三全局特征表示；

将所述第一全局特征表示、所述第二全局特征表示和所述第三全局特征表示进行特征拼接，得到所述全局特征表示。
根据权利要求1至8任一所述的方法，其中，所述基于所述全局特征表示和所述第二局部特征表示对所述目标区域中包含的目标内容的类别进行识别，包括：

获取内容类别库，所述内容类别库中包括预先设定的n个类别的集合，n为正整数；

将所述全局特征表示与所述内容类别库中的n个类别分别进行匹配，得到所述内容类别库中与所述全局特征表示匹配的k个候选类别，0＜k＜n且k为整数；

基于所述第二局部特征表示对所述k个候选类别进行类别排序，得到类别排序结果；

根据所述类别排序结果，得到所述目标内容对应的识别类别。
根据权利要求9所述的方法，其中，所述将所述全局特征表示与所述内容类别库中的n个类别分别进行匹配，得到所述内容类别库中与所述全局特征表示匹配的k个候选类别，包括：

将所述全局特征表示与所述内容类别库中的n个类别分别进行匹配，得到所述n个类别分别对应的全局匹配分数，所述全局匹配分数用于表征所述目标内容属于所述类别的概率；

将所述n个类别分别对应的全局匹配分数进行排序，得到匹配度排序结果；

将匹配度排序结果中前k个类别，作为与所述全局特征表示匹配的k个候选类别。
一种内容识别装置，所述装置包括：

获取模块，用于获取图像；

提取模块，用于基于所述图像中像素点分布规律提取得到图像关键点，并提取所述图像中与所述图像关键点对应的关键点特征表示；通过对所述图像进行显著性检测，从所述图像中识别出目标区域；

处理模块，用于对所述图像对应的图像特征表示进行池化处理，得到全局特征表示，以及，基于所述目标区域对所述图像特征表示进行下采样，得到第一局部特征表示；

拼接模块，用于将所述关键点特征表示和所述第一局部特征表示进行特征拼接，得到第二局部特征表示；

识别模块，用于基于所述全局特征表示和所述第二局部特征表示对所述目标区域中包含的目标内容的类别进行识别。
根据权利要求11所述的装置，其中，

所述处理模块，还用于基于所述目标区域对所述图像特征表示进行稀疏采样，得到稀疏采样结果；对所述稀疏采样结果进行池化处理，得到所述第一局部特征表示。
根据权利要求11所述的装置，其中，

所述处理模块，还用于从所述图像包括的多个图像块中获取所述目标区域内的多个区域图像块；从所述图像特征表示包括的多个子特征表示中，获取所述多个区域图像块分别对应的子特征表示作为所述稀疏采样结果。
根据权利要求12所述的装置，其中，

所述池化处理包括平均池化处理、最大池化处理和广义均值池化处理中任意一种。
根据权利要求12所述的装置，其中，

所述处理模块，还用于对所述稀疏采样结果进行平均池化处理，得到第三局部特征表示；对所述稀疏采样结果进行最大池化处理，得到第四局部特征表示；对所述稀疏采样结果进行广义均值池化处理，得到第五局部特征表示；将所述第三局部特征表示、所述第四局部特征表示和所述第五局部特征表示进行特征拼接，得到所述第一局部特征表示。
根据权利要求11至15任一所述的装置，其中，

所述提取模块，还用于通过关键点提取算法提取与所述图像关键点对应的关键点特征表示。
根据权利要求11至16任一所述的装置，其中，

所述处理模块，还用于将所述图像输入内容识别模型，输出得到所述图像特征表示，其中，所述内容识别模型用于对所述图像进行深层特征提取；对所述图像特征表示进行广义均值池化处理，得到所述全局特征表示。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至10任一所述的内容识别方法。
一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至10任一所述的内容识别方法。
一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至10任一所述的内容识别方法。