WO2024066697A1

WO2024066697A1 - 一种图像处理方法和相关装置

Info

Publication number: WO2024066697A1
Application number: PCT/CN2023/108785
Authority: WO
Inventors: 蒋兴华; 刘皓; 李鑫; 姜德强
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-09-26
Filing date: 2023-07-24
Publication date: 2024-04-04
Also published as: CN117011569A

Abstract

本申请公开一种图像处理方法和相关装置，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。基于待处理图像进行向量化处理，得到待处理图像的图像表示向量。通过图像分类模型中的网络单元对图像表示向量进行特征映射得到图像特征。在得到图像特征的过程中，在一个网络单元的同一网络层中，通过网络层对根据图像表示向量得到的输入内容进行全局特征映射和局部特征映射，得到全局特征和局部特征，并通过网络层对全局特征和局部特征进行特征融合得到网络层对应的融合特征，基于融合特征得到图像特征。通过分类模块，基于图像特征进行预测得到分类结果。本申请能够准确地对该待处理图像进行分类，提高分类能力和分类效果。

Description

一种图像处理方法和相关装置

本申请要求于2022年09月26日提交中国专利局、申请号为2022111737459、申请名称为“一种图像处理方法和相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别涉及图像处理技术。

背景技术

随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的作用。人工智能技术中的一个重要分支是图像识别技术，利用图像识别技术可以对图像进行分类。图像分类例如可以包括图像内容分类、识别图像中的文字、鉴别图像是否合规等。

目前，采用基于transformer的方案对待处理图像进行图像特征学习，进而基于学习到的图像特征确定分类结果。

然而，若待处理图像中包括的对象与其他图像中包括的对象外形特征相似，则通过上述方式将很难准确地对该待处理图像进行分类，即这种方式对对象外形特征相似的图像分类能力不足，分类效果较差。

发明内容

为了解决上述技术问题，本申请提供了一种图像处理方法和相关装置，能够准确地对该待处理图像进行分类，从而提高分类能力和分类效果。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种图像处理方法，由计算机设备执行，所述方法包括：

获取待处理图像；

基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量；

通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征；

在通过所述网络单元得到所述图像特征的过程中，在所述网络单元的同一网络层中，通过所述网络层对输入内容进行全局特征映射得到全局特征，以及通过所述网络层对所述输入内容进行局部特征映射得到局部特征，所述输入内容是根据所述图像表示向量得到的；通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征；基于所述网络层对应的融合特征得到所述图像特征；

通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果。

一方面，本申请实施例提供一种图像处理装置，所述装置包括获取单元、确定单元、映射单元和预测单元：

所述获取单元，用于获取待处理图像；

所述确定单元，用于基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量；

所述映射单元，用于通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征；

所述映射单元，具体用于在通过所述网络单元得到所述图像特征的过程中，在所述网络单元的同一网络层中，通过所述网络层对输入内容进行全局特征映射得到全局特征，以及通过所述网络层对所述输入内容进行局部特征映射得到局部特征，所述输入内容是根据所述图像表示向量得到的；通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征；基于所述网络层对应的融合特征得到所述图像特征；

所述预测单元，用于通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果。

一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码当被处理器执行时使所述处理器执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

由上述技术方案可以看出，在需要对待处理图像进行分类时，可以基于待处理图像进行向量化处理，得到待处理图像的图像表示向量。然后通过图像分类模型中的特征映射模块包括的网络单元对图像表示向量进行特征映射，得到待处理图像的图像特征。在通过网络单元得到图像特征的过程中，在一个网络单元的同一网络层中，通过网络层对根据图像表示向量得到的输入内容分别进行全局特征映射和局部特征映射，得到全局特征和局部特征，并通过网络层对全局特征和局部特征进行特征融合，得到网络层对应的融合特征，基于网络层对应的融合特征得到图像特征。由于在同一个网络层中融合多种特征得到最终的图像特征，故能够同时学习局部特征和全局特征，解决transformer的方案中因不注重局部特征而产生的问题，同时提高了多种特征之间的融合能力。这样，在通过分类模块，基于图像特征进行类别预测得到分类结果时，由于图像特征中融合了局部特征和全局特征，即使面对对象外形特征相似的图像，也能够准确地对该待处理图像进行分类，从而提高分类能力和分类效果。

附图说明

图1为相关技术提供的一种图像处理方法的框架图；

图2为本申请实施例提供的一种图像处理方法的应用场景架构图；

图3为本申请实施例提供的一种图像处理方法的流程图；

图4为本申请实施例提供的一种学习语言序列中单词之间的特征关系的示例图；

图5为本申请实施例提供的一种对待处理图像进行切割分块的示例图；

图6为本申请实施例提供的一种对图像块进行Flatten处理的示例图；

图7为本申请实施例提供的一种网络层的结构示例图；

图8为本申请实施例提供的一种包括不同大小对象的待处理图像的示例图；

图9为本申请实施例提供的一种包括多个网络单元的图像分类模型的结构示例图；

图10为本申请实施例提供的一种local-attention的原理示例图；

图11为相关技术提供的一种分层特征融合方案的处理流程示例图；

图12为本申请实施例提供的一种卷积神经网络的原理示例图；

图13为本申请实施例提供的一种确定融合特征的处理流程示例图；

图14为本申请实施例提供的一种有效特征和无效特征的示例图；

图15为本申请实施例提供的一种确定权重值的处理流程示例图；

图16为本申请实施例提供的一种全连接层的原理示例图；

图17为本申请实施例提供的一种softmax函数的原理示例图；

图18为本申请实施例提供的一种图像处理方法的整体框架示例图；

图19为本申请实施例提供的一种图像处理装置的结构图；

图20为本申请实施例提供的一种终端的结构图；

图21为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

图像分类是一个对图像内容进行类别描述的问题，比如图像内容为一头大象，则模型或者算法需要将其识别为大象。图像分类从广义上来说例如可以包括图像内容分类、识别图像中的文字、鉴别图像是否合规等。图像内容分类例如可以是识别图像中包括的对象属于哪个类别，类别例如可以包括鸟、球、车等等。识别图像中的文字例如可以是识别图像中包括的文字是什么，此时可以将每个已知文字作为一个类别，从而识别图像中包括的文字属于哪个类别，进而识别出图像中的文字是什么。鉴别图像是否合规时，类别例如可以是合规、不合规，从而识别图像属于哪个类别。

为了实现对图像进行分类，目前可以采用基于transformer的方案对待处理图像进行图像特征学习，进而基于学习到的图像特征确定分类结果。如图1所示，将待处理图像输入至Transformer框架的编码器(Encoder)，可以称为Transformer Encoder，Transformer Encoder可以是包含多个自注意力机制的网络层，通过Transformer Encoder对待处理图像进行特征学习，基于学习得到的图像特征，通过分类器进行分类得到分类结果。在图1中，分类器可以是MLP Head，MLP Head是一个用于分类的层结构，类别例如可以包括鸟、球、车等等，分类结果可以根据在各个类别上输出的概率值确定。

然而，transformer方案中通常只采用全局自注意力(self-attention)方法学习图像特征，该方法不注重图像局部特征的学习，若待处理图像中包括的对象与其他图像中包括的对象外形特征相似，则通过这种方式很难准确地对该待处理图像进行分类，即这种方式对对象外形特征相似的图像分类能力不足，分类效果较差。

为了解决上述技术问题，本申请实施例提供一种图像处理方法，该方法在同一个网络层中融合多种特征以得到最终的图像特征，故能够同时学习局部特征和全局特征，解决transformer的方案中因不注重局部特征而产生的问题，同时提高了多种特征之间的融合能力，解决分层特征融合方案特征融合不智能的问题。这样，在基于图像特征，通过分类模块进行预测得到分类结果时，由于图像特征中融合了局部特征和全局特征，即使面对对象外形特征相似的图像，也能够准确地对该待处理图像进行分类，从而提高分类能力和分类效果。

需要说明的是，本申请实施例提供的图像处理方法适用于各种图像分类场景，包括图像内容分类、识别图像中文字、鉴别图像是否合规、视频分类(此时待处理图像可以是视频中的图像帧，通过对待处理图像进行处理得到视频的分类结果)等。

本申请实施例提供的图像处理方法可以由计算机设备执行，该计算机设备例如可以是服务器，也可以是终端。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

需要说明的是，本申请实施例提供的方法可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

参见图2，图2示出了本申请实施例提供的一种图像处理方法的应用场景架构图，该应用场景以服务器执行本申请实施例提供的图像处理方法为例进行介绍。

在该应用场景中可以包括服务器200，在需要对待处理图像进行分类时，服务器200可以获取待处理图像。待处理图像为需要进行分类的图像，待处理图像可以是直接拍摄得到的图像、也可以是服务器200存储的已有图像、也可以是对视频进行分帧得到的图像帧，等等。待处理图像中可以包括对象，该对象可以是各种物体、动物、植物、文字等等。

服务器200中可以运行图像分类模型，图像分类模型可以包括特征映射模块和分类模块，特征映射模块中包括网络单元(block)，一个网络单元中包括网络层(layer)。这样，服务器200可以通过图像分类模型，基于待处理图像进行向量化处理，得到待处理图像的图像表示向量，然后通过网络单元对图像表示向量进行特征映射，得到待处理图像的图像特征。

服务器200在通过网络单元得到图像特征的过程中，在一个网络单元的同一网络层中，服务器200通过该网络层，对根据图像表示向量得到的输入内容分别进行全局特征映射和局部特征映射，得到全局特征和局部特征，并通过该网络层对全局特征和局部特征进行特征融合，得到该网络层对应的融合特征，基于该网络层对应的融合特征得到图像特征。由于在同一个网络层中融合多种特征以得到最终的图像特征，故能够同时学习局部特征和全局特征，解决transformer的方案中因不注重局部特征而引起的问题，同时提高了多种特征之间的融合能力。

之后，服务器200可以通过分类模块，基于图像特征进行预测得到分类结果。由于图像特征中融合了局部特征和全局特征，因此即使面对对象外形特征相似的图像，也能够准确地对该待处理图像进行分类，从而提高分类能力和分类效果。

需要说明的是，本申请实施例提供的方法主要涉及人工智能领域中的计算机视觉技术(Computer Vision，CV)和机器学习技术(Machine Learning，ML)。

接下来，将以服务器执行图像处理方法为例，结合附图对本申请实施例提供的图像处理方法进行详细介绍。参见图3，图3示出了一种图像处理方法的流程图，所述方法包括：

S301、获取待处理图像。

当需要对某个图像例如待处理图像进行分类时，服务器可以获取该待处理图像。

可以理解的是，在本申请实施例中，服务器获取的待处理图像需要输入至图像分类模型，以便对待处理图像进行分类。而通常情况下，输入至图像分类模型中的图像可以按照业务内容不同需要设置为预设分辨率(比如224*224)。在这种情况下，服务器获取的待处理图像可以是分辨率等于预设分辨率的图像。

然而，在一些情况下，服务器获取到的原始图像的分辨率可能与预设分辨率不一致，此时，服务器获取待处理图像的方式可以是，服务器在获取到原始图像后，可以先确定原始图像的分辨率与预设分辨率是否一致，若一致，服务器可以将原始图像直接作为待处理图像；若不一致，服务器可以对原始图像进行尺寸变化(resize)，使其分辨率等于预设分辨率，进而将尺寸变化后的原始图像作为待处理图像。

S302、基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量。

服务器获取到待处理图像后，可以将待处理图像输入至图像分类模型，从而通过图像分类模型基于该待处理图像进行向量化处理，得到图像表示向量。或者，服务器也可以采用相关的图像向量转化模型，对待处理图像进行向量化处理，得到图像表示向量；该图像向量转化模型是用于将图像转化为对应的图像表示向量的模型，其独立于上述图像分类模型。本申请实施例对此不做任何限定。

其中，图像分类模型是一种神经网络模型，例如可以是Transformer模型，也可以是其他能够实现本申请实施例提供的方法的模型，本申请实施例对图像分类模型的结构不做限定。图像分类模型可以是预先训练得到的，在其训练过程中，先获取训练样本，对训练样本的处理过程与本申请实施例中对待处理图像的处理方式类似，不过可能需要基于预测结果对模型进行优化调整，直到得到满足要求的图像分类模型。

Transformer模型是一种基于自注意力机制的语言模型，其核心是自注意力机制(Self-attention)，该机制可以学习数据之间的内在依赖关系。如图4所示，图4示出了一种学习语言序列中单词之间的特征关系的示意图，在图4中语言序列可以是“The animal didn’t cross the street because it was too tired.”，针对该语言序列中的每个单词学习单词之间的特征关系，该特征关系可以是Transformer模型利用自注意力机制学习得到的单词(即数据)之间的内在依赖关系。

当将Transformer模型应用到图像领域时，为了能够适应Transformer模型的核心特点，可以将图像(例如待处理图像)切分为若干图像块(patch)，再将patch作为图像块序列中的单元，进行图像块序列中单元之间的特征关系学习。参见图5所示，图5中的待处理图像被切分为3*3个patch，将3*3个patch按照顺序排列得到图像块序列，进而学习该图像块序列中patch之间的特征关系。

基于上述Transformer模型在图像领域的应用原理，基于待处理图像进行向量化处理，得到待处理图像的图像表示向量的方式，可以是：按照块尺寸(patch_size)对待处理图像进行切割分块得到多个图像块，对多个图像块进行数据结构映射得到待处理图像的一维结构数据，然后对一维结构数据进行向量化处理得到图像表示向量。

需要说明的是，patch_size是每个图像块的尺寸，patch_size可以是根据实际需求预先设置的。通常情况下，patch_size要能整除预设分辨率，比如预设分辨率为224*224，则patch大小可以为8、14、16等，假如patch_size为16，则待处理图像一共被分割为14*14个patch。在一种可能的实现方式中，本申请实施例可以将待处理图像切割分块为56*56个patch，patch_size为4。

可以理解的是，在对待处理图像进行切割分块后，得到多个patch，此时多个patch构成二维结构数据。而在一种可能的实现方式中，有些图像分类模型尤其是Transformer模型更适合处理一维结构数据，故可以对多个patch进行数据结构映射，从而将二维结构数据映射成适合图像分类模型处理的一维结构数据。

其中，数据结构映射的方式可以包括多种，例如可以是拉平(Flatten)处理，还可以是线性投影(Linear Projection)处理。Flatten可以是针对切割后的每个patch进行一次Flatten，使其从二维结构数据映射成适合图像分类模型处理的一维结构数据。参见图6所示，图6以待处理图像被切割分块得到3*3个patch为例，参见图6中601所示，其中，每个patch可以用数字标识，分别是0、1、2、……、7、8，将每个patch进行一次Flatten，从而将3*3个patch按照顺序排成一个序列，得到一维结构数据，参见图6中602所示。

在本申请实施例中，配置patch数量为56*56，单个patch大小为4*4，且输入图像为3通道彩色图像，则patch的二维结构数据可以为[3,4,4]，进行Flatten处理后映射为一维结构数据[128]，该一维结构数据的长度可以根据业务进行自行设定。

LinearProjection处理可以是指将C*H*W(通道数*高度*宽度)的多维结构数据映射为一维结构数据，以便进行后续学习。

需要说明的是，由于对于任何一门语言，字符在句子中的位置以及排列顺序均是非常重要的，它们不仅是一个句子的语法结构的组成部分，更是表达语义的重要概念。一个字符在句子的位置或排列顺序不同，可能整个句子的意思就发生了偏差。因此，当Transformer模型应用在语言模型中时，确定能够反映单词在句子中位置的位置编码是一种非常重要的策略。基于此，当将Transformer模型应用图像领域，即应用到本申请实施例提供的方法时，仍需要参考位置编码进行图像分类，即图像块的位置编码对于图像分类任务来说仍然是重要的一种策略。

为此，在一种可能的实现方式中，还可以获取多个图像块各自对应的位置向量，这样，在对一维结构数据进行向量化处理，得到图像表示向量时，可以对一维结构数据进行向量化处理，得到每个图像块对应的块向量，进而基于每个图像块对应的块向量(通过图像块嵌入(patch embedding)模块进行patch embedding得到)和位置向量(通过位置嵌入(pos embedding)模块进行pos embedding得到)，得到图像表示向量。

考虑图像块在待处理图像的位置，根据位置向量得到图像表示向量，从而可以在后续进行特征映射时得到图像块在待处理图像的位置信息，使得后续分类所依据的信息更加丰富，提高分类能力和分类准确性。

应理解，本申请实施例中，图像分类模型包括特征映射模块和分类模块，特征映射模块中可以包括网络单元(block)，一个网络单元中可以包括网络层(layer)。

在本申请实施例中，一个block可以包括至少一个layer，神经网络需要由浅到深反复多次的进行特征映射，每一次特征映射可以称为一个layer，参见图7所示，图7示出了一种包括4个layer的神经网络。

特征映射模块中可以包括至少一个block。在一些情况下，待处理图像中的对象可能有大有小，参见图8所示，图8中(a)、(b)、(c)所示的待处理图像中对象为鸟，(a)、(b)、(c)所示的待处理图像中的小鸟大小不同。为了可以适应不同大小的对象，避免在单个尺度下学习造成信息丢失，另外由于人类观察识别待处理图像也会有从整体到局部、或者从局部到整体的多尺度过程，因此在本申请实施例中，通常使用的特征映射模块中可以包括多个block，从而使针对待处理图像的识别学习可以在不同尺度下进行，以便学习不同尺度的特征，其中每个block对应一个尺度。比如待处理图像的分辨率是224*224，那么可以在56*56尺度、24*24尺度，14*14尺度下分别学习特征。

基于上述对block和layer的介绍，为了提高图像分类模型的分类能力，在一种可能的实现方式中，图像分类模型的特征映射模块中可以包括多个block，单个block内包含多个layer。一个典型的图像分类模型的结构如图9所示：这个图像分类模型包含四个网络单元，每个block处理的图像分辨率分别是1/4、1/8、1/16、1/32。其中每个block根据自身网路特性可以包含不同数量的layer。

S303、通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征。

服务器可以通过特征映射模块对图像表示向量进行特征映射，得到待处理图像的图像特征，具体可以通过特征映射模块中包括的网络单元对图像表示向量进行特征映射，得到待处理图像的图像特征。

在一种可能的实现方式中，为了实现在不同尺度下学习图像特征，特征映射模块中可以包括多个网络单元，每个网络单元后连接一个下采样(Down-sample)模块，其中，每个网络单元用于进行特征映射得到对应尺度下的特征图，下采样模块用于将所连接的网络单元输出的特征图的尺度减少，从而得到另一尺度的特征图，以便下一个网络单元可以在另一尺度学习特征得到特征图。其中，网络单元的数量可以根据实际业务需求确定，本申请实施例对网络单元的数量不做限定。接下来，将以特征映射模块中包括两个网络单元(例如第一网络单元和第二网络单元)为例，对通过多个网络单元在不同尺度下学习图像特征的过程进行介绍。

在这种情况下，可以通过第一网络单元对图像表示向量进行特征映射得到待处理图像的第一特征图，然后通过第一网络单元连接的下采样模块对第一特征图进行下采样处理，得到第一尺度的特征图。接着，通过第二网络单元对第一尺度的特征图进行特征映射得到待处理图像的第二特征图，再通过第二网络单元连接的下采样模块对第二特征图进行下采样处理，得到第二尺度的特征图，进而根据第二尺度的特征图得到待处理图像的图像特征。当特征映射模块中还包括其他网络单元时，在得到第二尺度的特征图后可以按照上述方法依次类推，直到最后一个网络单元及其连接的下采样模块完成处理，得到最终的图像特征。

其中，特征图(feature map)还可以称为特征映射图，对数据(例如本申请实施例的图像表示向量)进行某种方法的处理/映射后得到的数据一般称为特征图。神经网络就是一种将高维度的数据经过多次特征映射，映射为低维度数据的算法系统。一幅尺寸为1024*1024的彩色图像(例如待处理图像)其原始维度为3*1024*1024，假如设定了100个类别，那么经过层层特征映射，最后会变成100维度，其中每一个维度的数值对应一个类别的概率值，概率值大小反映了该待处理图像被判定为该类别的概率大小。

具体的，特征映射模块由1～n个block组成(典型是4个block，分别是block1、block2、block3、block4)，其中每个block又包含数量不等且结构相同的layer。为了实现在不同尺度学习图像特征，每个block后需要接一个下采样模块使特征图的尺寸(size)下降一倍。以4个block为例，得到图像特征的过程中size变换如下：待处理图像的尺寸为3*224*224，切割分块为patch后的尺寸3*56*56*4*4，经过patch embedding和pos embedding后尺寸为56*56*128，block1处理后通过下采样模块下采样后特征图的尺寸为28*28*256，block2处理后通过下采样模块下采样后特征图的尺寸为14*14*512，block3处理后通过下采样模块下采样后特征图的尺寸为7*7*1024，block4处理后通过下采样模块下采样后特征图的尺寸为1*1024。

本申请实施例通过使用多个网络单元可以在多个尺度上学习图像特征，从而可以对待处理图像中不同尺度大小的对象进行准确识别，提高分类识别能力。

S304、在通过所述网络单元得到所述图像特征的过程中，在所述网络单元的同一网络层中，通过所述网络层对输入内容进行全局特征映射得到全局特征，以及通过所述网络层对所述输入内容进行局部特征映射得到局部特征，所述输入内容是根据所述图像表示向量得到的；通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征；基于所述网络层对应的融合特征得到所述图像特征。

在本申请实施例中，layer内对输入内容的处理方式是本申请实施例的核心内容。在本申请实施例中，可以在同一网络层对输入内容采用多种方式进行特征提取得到多种特征，从而将多种特征进行特征融合得到融合特征，进而基于该网络层对应的融合特征得到最终的图像特征。例如，可以通过网络层对输入内容进行全局特征映射得到全局特征，以及通过网络层对输入内容进行局部特征映射得到局部特征，进而将全局特征和局部特征进行特征融合，得到网络层对应的融合特征，接着基于网络层对应的融合特征得到图像特征。

其中，输入内容可以是基于图像表示向量得到的。当该网络层是第一个网络单元中的第一个网络层时，其输入内容可以是图像表示向量；当该网络层是其他网络层时，由于图像表示向量已经经由该网络层之前的网络层处理，故该网络层的输入内容可以是其之前网络层处理得到的结果，例如可以是经其之前的网络层处理得到的特征图。

全局特征映射可以通过任何能够得到全局特征的方法实现，例如，全局特征映射可以通过全局注意力(global-attention)机制实现，全局注意力机制可以是自注意力 (self-attention)。self-attention的每个单元都会和其余全部单元进行特征关系的学习，故self-attention可以是一种全局注意力机制。参见图5所示，图5中每个图像块可以作为一个单元，从而针对每个图像块，对该图像块与其余全部图像块进行特征关系的学习。

局部特征映射可以通过任何能够得到局部特征的方法实现，例如局部特征映射可以通过局部注意力(local-attention)机制实现。某些情况下，序列中包括的单元数量特别大，为了降低计算资源消耗，会将序列进行分组，在每个组内使用self-attention，并且各组之间模型参数共享，这种方法只在某个局部区域内学习特征关系的机制称为local-attention。如图10所示，将整个图像(例如待处理图像)分为四块，分别可以参见图10中1001、1002、1003、1004所示，每块之内又划分成多个图像块，例如1001所示的块划分成4*4个图像块，其他三个块类似，针对每个块内的多个图像块使用self-attention。

需要说明的是，与相关技术中的分层特征融合方案相比，分层特征融合方案使用两种方式学习图像特征：global-attention、local-attention，每一个网络层专门学习一种特征，不同layer交替使用不同的特征。如图11所示，网络层1使用全局注意力机制学习全局特征，网络层2使用局部注意力机制学习局部特征。由于local-attention和global-attention交替使用，使得两种图像特征之间融合能力较弱；另外，在不同空间位置上所依赖的语义范围不同，有的特征只是局部特征，有的特征是全局特征，分层特征融合方案每次特征学习都是全局特征或者局部特征，结果就是学习局部特征的网络层会忽略全局信息，而学习全局特征的网络层会忽略局部信息。

而本申请实施例可以在同一网络层内得到多种特征例如全局特征和局部特征，在同一个层中融合多种特征，解决transformer不注重局部特征的问题，同时解决分层特征融合方案中特征融合不智能、特征融合能力弱、学习特征不全面的问题。

需要说明的是，本申请实施例在同一网络层学习的多种特征除了可以包括局部特征和全局特征之外，还可以包括其他特征，本申请实施例对同一网络层学习的多种特征的数量和种类不做限定。在一种可能的实现方式中，同一网络层学习的多种特征还可以包括卷积特征。具体的，可以通过网络层对图像表示向量进行卷积特征映射得到卷积特征，然后通过网络层对全局特征、局部特征和卷积特征进行特征融合，得到网络层对应的融合特征。

其中，卷积特征映射可以是通过卷积神经网络(Convolutional Neural Networks，CNN)实现的，卷积神经网络是一类包含卷积或相关计算且具有深度结构的前馈神经网络。其核心是卷积算子，卷积算子通过卷积核处理图像得到的特征称为卷积特征(即CNN特征)，CNN特征是一种学习局部依赖关系的特征。参见图12所示，1201为待处理图像，通过1202所示的卷积核进行处理，可以得到1203所示的卷积特征。从图12中可以看到每个特征单元(token)和它周围8个单元产生关系。

基于上述介绍，以在同一网络层得到上述三种特征为例，确定融合特征的处理流程示例图可以参见图13所示。在图13中，针对待处理图像，通过卷积神经网络得到卷积特征，通过全局注意力机制得到全局特征，通过局部注意力机制得到局部特征，将卷积特征、全局特征和局部特征进行特征融合得到融合特征。

可以理解的是，在网络层进行特征融合得到融合特征的方式可以包括多种，在一种可能的实现方式中，特征融合的方式可以是对多种特征进行加权求和。通常情况下，多种特征各自对应的权重值可以基于特征进行计算得到，也可以是预先设置。在一种可能的情况下，多种特征的权重值之和可以为1。

以同一网络层得到的多种特征包括全局特征和局部特征为例，通过网络层对全局特征和局部特征进行特征融合，得到网络层对应的融合特征的方式可以是，确定全局特征和局部特征各自对应的权重值，全局特征的权重值和局部特征的权重值之和为1，进而根据权重值对全局特征和局部特征进行加权求和，得到融合特征。

当多种特征中还包括卷积特征时，则确定卷积特征、全局特征和局部特征各自对应的权重值，卷积特征的权重值、全局特征的权重值和局部特征的权重值之和为1，进而根据权重值对卷积特征、全局特征和局部特征进行加权求和，得到融合特征。

需要说明的是，基于多种特征的权重值分布的不同，特征融合的方式也可以有所不同。一种是soft方式的融合，即使用一个总和为1的向量(每个向量作为一个特征对应的权重值)对多个特征进行加权求和，比如多个特征包括三个特征，则多个权重值对应的向量可以表示为[0.2,0.5,0.3]，又如多个特征包括两个特征，则多个权重值对应的向量可以表示为[0.4,0.6]。

然而，在一些情况下，通过同一网络层得到的多个特征中，有些特征可能是无效的或者有害的特征，参见图14所示，图14展示了什么是有效特征和无效特征，该待处理图像的分类目标为图像中的狗，对识别为狗有帮助的图像特征基本都在圆形虚线框内，圆形虚线框外的特征基本是没用的或者有害的(会使模型产生歧义)。图14中矩形虚线框也是模型经过计算后认为需要关注的一个区域，但是显然这个区域对识别狗没有帮助，故该区域对应的特征也是无效的，需要避免将其传递给下一个网络层。

为了避免带入无效的或者有害的特征到下一个网络层，即避免将一些无效的或者有害的特征向后传递，可以将无效的或者有害的特征进行完全的抛弃，使其不会传递给下一个网络层。基于此，另一种特征融合的方式可以是将一种特征的权重值设为1，其余权重值设置为0。以多种特征包括全局特征和局部特征为例，则全局特征的权重值和局部特征的权重值中一个权重值为1，其余权重值为0。上述特征融合方式可以称为hard方式的融合，hard方式的融合也是一种加权求和，和soft区别是加权向量是one-hot形式，即只有一个分量是1，其余都是0，比如：[0,1,0]。

在一种可能的实现方式中，确定全局特征和局部特征各自对应的权重值的方式可以是，根据全局特征和局部特征进行相加得到相加特征，进而通过概率估计模块，基于相加特征进行概率估计，得到全局特征和局部特征各自对应的权重值。

当多种特征中还包括卷积特征时，则可以是根据卷积特征、全局特征和局部特征进行相加得到相加特征，进而通过概率估计模块，基于相加特征进行概率估计，得到卷积特征、全局特征和局部特征各自对应的权重值。具体可以参见图15所示，根据卷积特征、全局特征和局部特征进行相加时，可以以每个图像块(patch)为单位进行相加，每个patch相加后得到每个patch对应的相加特征，进而构成最终的相加特征。之后可以使用全连接层，将特征维度降为3，再使用概率估计模块进行概率估计，得到卷积特征、全局特征和局部特征各自对应的权重值。

其中，全连接层(Fully connected Layer)一般用在分类网络的最后，将特征维度映射为类别数量，然后再接概率估计模块进行概率估计。比如，特征映射最后输出的特征维度是1024，需要分类的类别为100类，则全连接层可以将1024长度的特征映射为100长度的特征，然后再用概率估计模块估计该待处理图像在100个类别上的概率分布，其中概率值最大的类别即为网络判断的类别。参见图16所示，进行全连接层遍历，黑色部分则代表找到对应特征(例如图16中猫的头部、脚、身体、尾巴、腿等)，将图中的特征进行组合并输出到输出层，再进行分类得出结论，这是只猫。可以理解的是，将全连接层用在权重值确定中也是依据类似的原理，此处不再详细赘述。

可以理解的是，根据使用的融合方式的不同，概率估计模块也会有所不同。当采用soft方式的融合时，概率估计模块可以通过softmax函数实现，即通过softmax函数进行概率估计，得到和为1的soft的概率分布，每个概率值可以作为对应特征的权重值。softmax函数是一种归一化指数函数，一般用在全连接层后进行类别概率分布估计。在本申请实施例中对各种特征进行特征融合时，也采用softmax函数对不同的特征进行概率估计，使用softmax函数进行特征的融合方式称为soft融合。softmax函数的原理示例图可以参见图17所示，输入z1、z2、z3，通过内部处理可以输出y1、y2、y3，y1＝0.88、y2＝0.12、y3＝0。其中，1>yi>0，i＝1、2、3，y1、y2和y3之和为1。

具体的，yi可以采用以下公式进行计算：其中，e^z1、e^z2和e^z3可以为softmax函数的中间处理参数。

当采用hard方式的融合时，概率估计模块可以通过gumbel-softmax函数实现，即通过gumbel-softmax函数进行概率估计，则得到one-hot形式的概率分布，即只有一个概率值为1，其余概率值为0，每个概率值可以作为对应特征的权重值。

gumbel-softmax估计的概率值是加和为1的概率分布，gumbel-softmax估计的概率分布为one-hot形式，即只有一个概率值为1，其余概率值全部为0，可以理解为它是softmax的升级版，其加权和仍然为1，只是其能量全部集中在一个概率值上。

参见图15所示，在图15中得到的概率值分别是0、1、0，按照其排列顺序以及图15中输入的多个特征的排列顺序，可以确定卷积特征的权重值和局部特征的权重值为0，全局特征的权重值为1。

S305、通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果。

服务器可以基于最终得到的图像特征，通过图像分类模型中的分类模块进行类别预测得到分类结果。在一种可能的实现方式中，图像分类模型还可以包括全连接层，此时得到分类结果的方式可以是通过全连接层对图像特征进行全连接计算，将图像特征映射为分类数量长度，进而基于分类数量长度的图像特征，通过分类模块进行预测，得到分类结果。

其中，分类数量长度可以是依具体业务而定，通常情况下，1000为常用的分类数量(即类别的数量)，故可以将1*1000作为分类数量长度。分类模块可以是基于softmax函数实现，通过softmax计算，得到在每个类别的概率值，进而将概率值最大的类别确定为分类结果。

本申请实施例提供的方法在业内通用的图像分类评测数据集上优于相关技术，在不同规模的模型参数上均有稳定提升。本申请实施例提供的方法也可以用在文字识别(Optical Character Recognition，OCR)产品中，本申请实施例提供的方法在中英文、印刷体和手写体上均有稳定提升。本申请实施例提供的方法与相关技术效果对比如表1所示：

表1

在表1中，从左至右数第2列-第5列为相关技术在四种指标下分别对应的指标值，第6列-第9列为本申请实施例提供的方法在上述四种指标下分别对应的指标值，从相同指标下两种方案对应的指标值可以看出，本申请实施例提供的方法与相关技术相比，分类效果有所提升。

由上述技术方案可以看出，在需要对待处理图像进行分类时，可以基于待处理图像进行向量化处理，得到待处理图像的图像表示向量。然后通过图像分类模型中的特征映射模块包括的网络单元，对图像表示向量进行特征映射，得到待处理图像的图像特征。在通过网络单元得到图像特征的过程中，在一个网络单元的同一网络层中，通过网络层对根据图像表示向量得到的输入内容分别进行全局特征映射和局部特征映射，得到全局特征和局部特征，并通过网络层对全局特征和局部特征进行特征融合，得到网络层对应的融合特征，基于网络层对应的融合特征得到图像特征。由于在同一个网络层中融合多种特征得到最终的图像特征，故能够同时学习局部特征和全局特征，解决transformer的方案中因不注重局部特征而产生的问题，同时提高了多种特征之间的融合能力。这样，在通过分类模块，基于图像特征进行类别预测得到分类结果时，由于图像特征中融合了局部特征和全局特征，即使面对对象外形特征相似的图像，也能够准确地对该待处理图像进行分类，从而提高分类能力和分类效果。

基于前述对本申请实施例提供的方法的介绍，下面将以特定结构的图像分类模型为例，对本申请实施例提供的方法进行介绍。图像分类模型包括图像块嵌入模块、位置嵌入模块、特征映射模块、全连接层和分类模块。其中，特征映射模块中包括4个网络单元，例如网络单元1、网络单元2、网络单元3和网络单元4，每个网络单元后连接一个下采样模块，分类模块可以通过softmax函数实现，参见图18所示。

基于图18所示的图像分类模型，当获取到待处理图像时，可以对待处理图像进行切割分块得到多个图像块，对多个patch进行数据结构映射，从而将二维结构数据映射成适合图像分类模型处理的一维结构数据。然后通过图像块嵌入模块对一维结构数据进行patch embedding，得到块向量，再通过位置嵌入模块进行pos embedding得到位置向量，基于位置向量和块向量得到最终的图像表示向量。将图像表示向量输入到特征映射模块，通过网络单元1、网络单元2、网络单元3、网络单元4，以及各自对应的下采样模块进行处理得到最终的图像特征。需要说明的是，在一个网络单元的同一网络层中进行特征映射的方式可以参见图13及对应的介绍，此处不再赘述。接着将图像特征通过全连接层进行全连接计算，将图像特征映射为分类数量长度，进而基于分类数量长度的图像特征，通过softmax函数估计概率值，概率值例如可以参见图18所示，分别是0.1、0.1、0.7、0.1，进而基于概率值得到分类结果。例如可以将概率值最大的类别作为分类结果。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图3对应实施例提供的图像处理方法，本申请实施例还提供一种图像处理装置1900。参见图19，所述图像处理装置1900包括获取单元1901、确定单元1902、映射单元1903和预测单元1904：

所述获取单元1901，用于获取待处理图像；

所述确定单元1902，用于基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量；

所述映射单元1903，用于通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征；

所述映射单元1903，具体用于在通过所述网络单元得到所述图像特征的过程中，在所述网络单元的同一网络层中，通过所述网络层对输入内容进行全局特征映射得到全局特征，以及通过所述网络层对所述输入内容进行局部特征映射得到局部特征，所述输入内容是根据所述图像表示向量得到的；通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征；基于所述网络层对应的融合特征得到所述图像特征；

所述预测单元1904，用于通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果。

在一种可能的实现方式中，所述映射单元1903，具体用于：

确定所述全局特征和所述局部特征各自对应的权重值，所述全局特征的权重值和所述局部特征的权重值之和为1；

根据所述权重值，对所述全局特征和所述局部特征进行加权求和，得到所述融合特征。

在一种可能的实现方式中，所述全局特征的权重值和所述局部特征的权重值中一个权重值为1，其余权重值为0。

在一种可能的实现方式中，所述映射单元1903，具体用于：

根据所述全局特征和所述局部特征进行相加，得到相加特征；

通过概率估计模块，基于所述相加特征进行概率估计，得到所述全局特征和所述局部特征各自对应的权重值。

在一种可能的实现方式中，所述映射单元1903，还用于：

通过所述网络层对所述图像表示向量进行卷积特征映射，得到卷积特征；

通过所述网络层对所述全局特征、所述局部特征和所述卷积特征进行特征融合，得到所述网络层对应的融合特征。

在一种可能的实现方式中，所述特征映射模块中包括多个网络单元，每个网络单元后连接一个下采样模块，所述多个网络单元包括第一网络单元和第二网络单元，所述映射单元1903，具体用于：

通过所述第一网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的第一特征图；

通过所述第一网络单元连接的下采样模块对所述第一特征图进行下采样处理，得到第一尺度的特征图；

通过所述第二网络单元对所述第一尺度的特征图进行特征映射，得到所述待处理图像的第二特征图；

通过所述第二网络单元连接的下采样模块对所述第二特征图进行下采样处理，得到第二尺度的特征图；

根据所述第二尺度的特征图得到所述待处理图像的图像特征。

在一种可能的实现方式中，所述确定单元1902，具体用于：

按照块尺寸对所述待处理图像进行切割分块，得到多个图像块；

对所述多个图像块进行数据结构映射，得到所述待处理图像的一维结构数据；

对所述一维结构数据进行向量化处理，得到所述图像表示向量。

在一种可能的实现方式中，所述获取单元1901，还用于：

获取所述多个图像块各自对应的位置向量；

所述确定单元1902，具体用于对所述一维结构数据进行向量化处理，得到每个图像块对应的块向量；基于每个图像块对应的块向量和位置向量，得到所述图像表示向量。

在一种可能的实现方式中，所述图像分类模型还包括全连接层，所述预测单元1904，具体用于：

通过所述全连接层对所述图像特征进行全连接计算，将所述图像特征映射为分类数量长度；

通过所述分类模块，基于分类数量长度的图像特征进行类别预测，得到所述分类结果。

由上述技术方案可以看出，在需要对待处理图像进行分类时，可以基于待处理图像进行向量化处理，得到待处理图像的图像表示向量。然后通过图像分类模型中的特征映射模块包括的网络单元对图像表示向量进行特征映射，得到待处理图像的图像特征。在通过网络单元得到图像特征的过程中，在一个网络单元的同一网络层中，通过网络层对根据图像表示向量得到的输入内容分别进行全局特征映射和局部特征映射，得到全局特征和局部特征，并通过网络层对全局特征和局部特征进行特征融合，得到网络层对应的融合特征，基于网络层对应的融合特征得到图像特征。由于在同一个网络层中融合多种特征得到最终的图像特征，故能够同时学习局部特征和全局特征，解决transformer的方案中因不注重局部特征而产生的问题，同时提高了多种特征之间的融合能力。这样，在通过分类模块，基于图像特征进行预测得到分类结果时，由于图像特征中融合了局部特征和全局特征，即使面对对象外形特征相似的图像，也能够准确地对该待处理图像进行分类，从而提高分类能力和分类效果。

本申请实施例还提供了一种计算机设备，该计算机设备可以执行图像处理方法。该计算机设备例如可以是终端，以终端为智能手机为例：

图20示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图20，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路2010、存储器2020、输入单元2030、显示单元2040、传感器2050、音频电路2060、无线保真(英文缩写：WiFi)模块2070、处理器2080、以及电源2090等部件。输入单元2030可包括触控面板2031以及其他输入设备2032，显示单元2040可包括显示面板2041，音频电路2060可以包括扬声器2061和传声器2062。可以理解的是，图20中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器2020可用于存储软件程序以及模块，处理器2080通过运行存储在存储器2020的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器2020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器2020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器2080是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器2020内的软件程序和/或模块，以及调用存储在存储器2020内的数据，执行智能手机的各种功能和处理数据。可选的，处理器2080可包括一个或多个处理单元；优选的，处理器2080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器2080中。

在本实施例中，智能手机中的处理器2080可以执行以下步骤：

获取待处理图像；

通过所述图像分类模型中的分类模块，基于所述图像特进行类别预测，得到所述待处理图像的分类结果。

本申请实施例提供的计算机设备还可以是服务器，请参见图21所示，图21为本申请实施例提供的服务器2100的结构图，服务器2100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器，例如中央处理器(Central Processing Units，简称CPU)2122，以及存储器2132，一个或一个以上存储应用程序2142或数据2144的存储介质2130(例如一个或一个以上海量存储设备)。其中，存储器2132和存储介质2130可以是短暂存储或持久存储。存储在存储介质2130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器2122可以设置为与存储介质2130通信，在服务器2100上执行存储介质2130中的一系列指令操作。

服务器2100还可以包括一个或一个以上电源2126，一个或一个以上有线或无线网络接口2150，一个或一个以上输入输出接口2158，和/或，一个或一个以上操作系统2141，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

在本实施例中，服务器2100中的中央处理器2122可以执行以下步骤：

获取待处理图像；

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的图像处理方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种图像处理方法，由计算机设备执行，所述方法包括：

获取待处理图像；

基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量；

通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征；

在通过所述网络单元得到所述图像特征的过程中，在所述网络单元的同一网络层中，通过所述网络层对输入内容进行全局特征映射得到全局特征，以及通过所述网络层对所述输入内容进行局部特征映射得到局部特征，所述输入内容是根据所述图像表示向量得到的；通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征；基于所述网络层对应的融合特征得到所述图像特征；

通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果。
根据权利要求1所述的方法，所述通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征，包括：

确定所述全局特征和所述局部特征各自对应的权重值，所述全局特征的权重值和所述局部特征的权重值之和为1；

根据所述权重值，对所述全局特征和所述局部特征进行加权求和，得到所述融合特征。
根据权利要求2所述的方法，所述全局特征的权重值和所述局部特征的权重值中一个权重值为1，其余权重值为0。
根据权利要求2或3所述的方法，所述确定所述全局特征和所述局部特征各自对应的权重值，包括：

根据所述全局特征和所述局部特征进行相加，得到相加特征；

通过概率估计模块，基于所述相加特征进行概率估计，得到所述全局特征和所述局部特征各自对应的权重值。
根据权利要求1所述的方法，所述方法还包括：

通过所述网络层对所述图像表示向量进行卷积特征映射，得到卷积特征；

所述通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征，包括：

通过所述网络层对所述全局特征、所述局部特征和所述卷积特征进行特征融合，得到所述网络层对应的融合特征。
根据权利要求1-5任一项所述的方法，所述特征映射模块中包括多个网络单元，每个网络单元后连接一个下采样模块，所述多个网络单元包括第一网络单元和第二网络单元，所述通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征，包括：

通过所述第一网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的第一特征图；

通过所述第一网络单元连接的下采样模块对所述第一特征图进行下采样处理，得到第一尺度的特征图；

通过所述第二网络单元对所述第一尺度的特征图进行特征映射，得到所述待处理图像的第二特征图；

通过所述第二网络单元连接的下采样模块对所述第二特征图进行下采样处理，得到第二尺度的特征图；

根据所述第二尺度的特征图得到所述待处理图像的图像特征。
根据权利要求1-6任一项所述的方法，所述基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量，包括：

按照块尺寸对所述待处理图像进行切割分块，得到多个图像块；

对所述多个图像块进行数据结构映射，得到所述待处理图像的一维结构数据；

对所述一维结构数据进行向量化处理，得到所述图像表示向量。
根据权利要求7所述的方法，所述方法还包括：

获取所述多个图像块各自对应的位置向量；

所述对所述一维结构数据进行向量化处理，得到所述图像表示向量，包括：

对所述一维结构数据进行向量化处理，得到每个图像块对应的块向量；

基于每个图像块对应的块向量和位置向量，得到所述图像表示向量。
根据权利要求1-7任一项所述的方法，所述图像分类模型还包括全连接层，所述通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果，包括：

通过所述全连接层对所述图像特征进行全连接计算，将所述图像特征映射为分类数量长度；

通过所述分类模块，基于分类数量长度的图像特征进行类别预测，得到所述分类结果。
一种图像处理装置，所述装置包括获取单元、确定单元、映射单元和预测单元：

所述获取单元，用于获取待处理图像；

所述确定单元，用于基于所述待处理图像进行向量化处理，得到所述待处理图像的图像表示向量；

所述映射单元，用于通过图像分类模型中的特征映射模块包括的网络单元对所述图像表示向量进行特征映射，得到所述待处理图像的图像特征；

所述映射单元，具体用于在通过所述网络单元得到所述图像特征的过程中，在所述网络单元的同一网络层中，通过所述网络层对输入内容进行全局特征映射得到全局特征，以及通过所述网络层对所述输入内容进行局部特征映射得到局部特征，所述输入内容是根据所述图像表示向量得到的；通过所述网络层对所述全局特征和所述局部特征进行特征融合，得到所述网络层对应的融合特征；基于所述网络层对应的融合特征得到所述图像特征；

所述预测单元，用于通过所述图像分类模型中的分类模块，基于所述图像特征进行类别预测，得到所述待处理图像的分类结果。
根据权利要求10所述的装置，所述映射单元具体用于：

确定所述全局特征和所述局部特征各自对应的权重值，所述全局特征的权重值和所述局部特征的权重值之和为1；

根据所述权重值，对所述全局特征和所述局部特征进行加权求和，得到所述融合特征。
根据权利要求11所述的装置，所述映射单元具体用于：

根据所述全局特征和所述局部特征进行相加，得到相加特征；

通过概率估计模块，基于所述相加特征进行概率估计，得到所述全局特征和所述局部特征各自对应的权重值。
一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-9任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码当被处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。
一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。