WO2019141042A1

WO2019141042A1 - 图像分类方法、装置及终端

Info

Publication number: WO2019141042A1
Application number: PCT/CN2018/122432
Authority: WO
Inventors: 张志伟; 杨帆
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2018-01-19
Filing date: 2018-12-20
Publication date: 2019-07-25
Also published as: US11048983B2; CN108399409B; US20200356821A1; CN108399409A

Abstract

一种图像分类方法、装置及终端，其中方法包括：通过卷积神经网络确定图像对应的图像特征向量（101）；其中，图像对应有文字描述信息；通过嵌入网络对文字描述信息进行处理，得到文字特征向量（102）；将图像特征向量和文字特征向量拼接，得到图文特征向量（103）；根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类（104）。该图像分类方法，能够提升图像分类的准确性。

Description

图像分类方法、装置及终端

本申请要求于2018年01月19日提交中国专利局、申请号为201810055063.5、发明名称为“图像分类方法、装置及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像分类方法、装置及终端。

背景技术

深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络作为深度学习的一个重要分支，由于其超强的拟合能力以及端到端的全局优化能力，使得其在目标检测、分类等计算机视觉任务中所得预测结果的精度大幅提升。

目前对图像进行分类时，依据图像自身的特征在预定的标签体系下匹配得到图像对应的标签，依据标签确定图像所属的分类，所得分类结果准确性差。而在实际应用场景中，用户在上传一个图像之后，还会为该图像追加一段简单的文字描述，而这段文字描述对图像的分类而言，也具有一定的参考价值。可见，如何获取图像的全面信息，依据所获取的全面信息对图像进行分类以提升图像分类的准确性，是目前本领域技术人员成为待解决的问题。

发明内容

本申请实施例提供一种图像分类方法、装置及终端，以解决现有技术中存在图像分类结果准确性差的问题。

依据本申请的一个方面，提供了一种图像分类方法，该方法包括：通过卷积神经网络确定图像对应的图像特征向量；其中，图像对应有文字描述信息；通过嵌入网络对文字描述信息进行处理，得到文字特征向量；将图像特征向量和文字特征向量拼接，得到图文特征向量；根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类。

在一些实施方式中，通过嵌入网络对文字描述信息进行处理，得到文字特征向量的步骤，包括：去除文字描述信息中的停用词，得到多个分词；针对每个分词，确定分词在文字特征集合中的位置信息；依据位置信息生成分词对应的索引数值；其中，文字特征集合通过对样本图像对应的文字描述信息训练得到；调用嵌入网络，由嵌入网络依据各分词对应的索引数值确定各分词对应的描述向量；将各分词对应的描述向量同维度加权平均，得到文字特征向量。

在一些实施方式中，将图像特征向量和文字特征向量拼接，得到图文特征向量的步骤，包括：将文字特征向量和图像特征向量，映射为维度相同的向量；将映射后的文字特征向量和图像特征向量进行维度拼接，生成图文特征向量。

在一些实施方式中，在通过卷积神经网络确定图像对应的图像特征向量的步骤之前，方法还包括：获取各样本图像；针对每个样本图像，确定样本图像是否对应文字描述信息；若否，确定样本图像对应的文字特征子集合为空；若是，去除文字描述信息中的停用词得到包含多个分词的描述集合；基于预设的标签体系从描述集合中提取出文字特征子集合；将各样本图像对应的文字特征子集合求并集，得到文字特征集合。

在一些实施方式中，该根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类的步骤，包括：分别将图像特征向量、文字特征向量以及图文特征向量输入深度神经网络，得到与图像特征向量对应的第一分类结果向量，与文字特征向量对应的第二分类结果向量，与图文特征向量对应的第三分类结果向量；将第一分类结果向量、第二分类结果向量以及第三分类结果向量进行加权求和，得到目标结果向量；依据目标结果向量，确定图像对应的分类。

依据本申请的另一个方面，提供了一种图像分类装置，该装置包括：确定模块，被配置为通过卷积神经网络确定图像对应的图像特征向量；其中，图像对应有文字描述信息；向量生成模块，被配置为通过嵌入网络对文字描述信息进行处理，得到文字特征向量；拼接模块，被配置为将图像特征向量和文字特征向量拼接，得到图文特征向量；分类模块，被配置为根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类。

在一些实施方式中，向量生成模块包括：分词子模块，被配置为去除文字描述信息中的停用词，得到多个分词；位置确定子模块，被配置为针对每个分词，确定分词在文字特征集合中的位置信息；索引值生成子模块，被配置为依据位置信息生成分词对应的索引数值；其中，文字特征集合通过对样本图像对应的文字描述信息训练得到；第一调用子模块，被配置为调用嵌入网络，由嵌入网络依据各分词对应的索引数值确定各分词对应的描述向量；第二调用子模块，被配置为将各分词对应的描述向量同维度加权平均，得到文字特征向量。

在一些实施方式中，拼接模块包括：映射子模块，被配置为将文字特征向量和图像特征向量，映射为维度相同的向量；拼接子模块，被配置为将映射后的文字特征向量和图像特征向量进行维度拼接，生成图文特征向量。

在一些实施方式中，该装置还包括：获取模块，被配置为在确定模块通过卷积神经网络确定图像对应的图像特征向量之前，获取各样本图像；子集合确定模块，被配置为针对每个样本图像，确定样本图像是否对应文字描述信息；若否，确定样本图像对应的文字特征子集合为空；若是，去除文字描述信息中的停用词得到包含多个分词的描述集合；提取子模块，被配置为基于预设的标签体系从描述集合中提取出文字特征子集合；特征集合确定模块，被配置为将各样本图像对应的文字特征子集合求并集，得到文字特征集合。

在一些实施方式中，分类模块包括：输入子模块，被配置为分别将图像特征向量、文字特征向量以及图文特征向量输入深度神经网络，得到与图像特征向量对应的第一分类结果向量，与文字特征向量对应的第二分类结果向量，与图文特征向量对应的第三分类结果向量；处理子模块，被配置为将第一分类结果向量、第二分类结果向量以及第三分类结果向量进行加权求和，得到目标结果向量；结果确定子模块，被配置为依据目标结果向量，确定图像对应的分类。

根据本申请的再一方面，提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的图像分类程序，图像分类程序被处理器执行时实现本申请中的任意一种图像分类方法的步骤。

根据本申请的又一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有图像分类程序，图像分类程序被处理器执行时实现本申请中的任意一种图像分类方法的步骤。

根据本申请的又一方面，提供了一种计算机程序产品，计算机程序产品用于在运行时执行时实现本申请中的任意一种图像分类方法的步骤。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的图像分类方案，以卷积神经网络为基础作为图像特征提取的主干网络得到图像对应的图像特征向量，以嵌入网络为基础作为文字特征提取的主干网络得到图像所对应的文字描述信息的文字特征向量，将图像特征向量和文字特征向量拼接得到图文特征向量，以深度神经网络作为主干网络，依据图像特征向量、文字特征向量以及图文特征向量确定图像在不同标签下的权重从而确定图像对应的分类，能够提升图像分类的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例和现有技术的技术方案，下面对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例一的一种图像分类方法的步骤流程图；

图2是根据本申请实施例二的一种图像分类方法的步骤流程图；

图3是根据本申请实施例三的一种图像分类装置的结构框图；

图4是根据本申请实施例四的一种终端的结构框图。

具体实施方式

为使本申请的目的、技术方案、及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

参照图1，示出了本申请实施例一的一种图像分类方法的步骤流程图。

本申请实施例的图像分类方法可以包括以下步骤：

步骤101：通过卷积神经网络确定图像对应的图像特征向量。

其中，图像对应有文字描述信息。文字描述信息可以为用户在上传该图像之后，追加上传的文字描述信息，也可以为图像中包含的文字描述信息。

本申请实施例中图像可以为视频中的单帧图像，也可以仅为一个多媒体图像。一张图像输入到卷积神经网络中，经过卷积层或者池化层之后会得到图像特征图向量，图像特征向量中包含多个点，每个点对应一张特征图以及一个权重值。对于将图像输入卷积神经网络中，得到图像对应的图像特征向量的具体处理方式，参照现有相关技术即可，本申请实施例中对此不作具体限制。

步骤102：通过嵌入网络对文字描述信息进行处理，得到文字特征向量。

在具体实现过程中，对文字描述信息进行处理时先将文字信息进行分词得到多个分词，基于预设的文字特征集合确定各分词对应的描述向量，最终将各分词对应的描述向量同维度加权平均，得到文字特征向量。所得到的文字特征向量中包含多个点，每个点对应一个文字特征集合中的文字特征。

需要说明的是，步骤102并不局限于在步骤101之后执行，还可以与步骤101并行执行或者在步骤101之前执行。

步骤103：将图像特征向量和文字特征向量拼接，得到图文特征向量。

图像特征向量和文字特征向量分别包含多个维度，每个维度在向量上对应一个点，将两个特征向量进行拼接所得图文特征向量中的各维度既可提现图像特征又可提现文字特征。例如：图像特征向量包含十个维度即十个点，文字特征向量包含十个维度，则拼接后的图文特征向量包含二十个维度。

步骤104：根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类。

深度神经网络分别确定图像特征向量、文字特征向量和图文特征向量中各点对应的概率值，得到三个分类结果向量。将三个分类结果向量进行加权平均，得到目标结果向量。从目标结果向量中将概率值最高的该点对应的特征标签确定为该图像的标签，确定标签后即可依据标签确定图像所属的分类。当然，也可直接将该标签作为图像所属的分类。

本申请实施例提供的图像分类方法，以卷积神经网络为基础作为图像特征提取的主干网络得到图像对应的图像特征向量，以嵌入网络为基础作为文字特征提取的主干网络得到图像所对应的文字描述信息的文字特征向量，将图像特征向量和文字特征向量拼接得到图文特征向量，以深度神经网络作为主干网络，依据图像特征向量、文字特征向量以及图文特征向量确定图像在不同标签下的权重从而确定图像对应的分类，能够提升图像分类的准确性。

实施例二

参照图2，示出了本申请实施例二的一种图像分类方法的步骤流程图。

本申请实施例的图像分类方法具体可以包括以下步骤：

步骤201：通过卷积神经网络确定图像对应的图像特征向量。

图像对应有文字描述信息。文字描述信息可以为用户在上传该图像之后，追加上传的文字描述信息，也可以为图像中包含的文字描述信息。

对于通过卷积神经网络确定图像对应的图像特征向量的具体方式，参照现有相关技术即可，本申请实施例中对此不作具体限定。

步骤202：去除文字描述信息中的停用词，得到多个分词。

系统中预设有停用词表，在对文字描述信息进行处理时，将文字描述信息中词组分别与停用词表匹配，若匹配成功则将该词组确定为停用词将其从文字描述信息中去除，最终将文字描述信息中的各停用词去除，得到多个分词。其中，停用词为无实际涵义的词语，停用词表可以由本领域技术人员根据实际需求进行设置，本申请实施例中对此不作具体限制。

步骤203：针对每个分词，确定分词在文字特征集合中的位置信息，依据位置信息生成分词对应的索引数值。

文字特征集合通过对样本图像对应的文字描述信息训练得到，一种训练文字描述信息的方式如下：

首先，获取各样本图像；

样本图像可以对应有文字描述信息，也可以无对应的文字描述信息。样本图像的数量以及选取可以由本领域技术人员根据实际需求进行设置，本申请实施例中对此不作具体限制。样本数量越多则所训练得到的文字特征集合中包含的文字特征越全面。

其次，针对每个样本图像，确定样本图像是否对应文字描述信息；若否，确定样本图像对应的文字特征子集合为空；若是，去除文字描述信息中的停用词得到包含多个分词的描述集合；其中，单个样本图像对应的文字特征子集合可以用S _u表示；基于预设的标签体系从描述集合中提取出文字特征子集合，其中，单个样本图像对应的文字特征子集合可以用S _i表示，空集合则用null表示。

最后，将各样本图像对应的文字特征子集合求并集，得到文字特征集合。

文字特征集合

其中，X表示全部训练样本图像。

例如，一个用户在上传一个美食教程时，同时输入“糖醋里脊教程，喜欢的朋友点赞”文字信息，具体处理过程如下。

通过对文字信息进行分词，得到描述集合：

S _u＝{糖醋里脊，教程，喜欢，朋友，点赞}

由于描述的是“美食教程”在这个样本中，仅有“糖醋里脊”“教程”可以作为描述标签，故从描述集合中提取“糖醋里脊”“教程”这两个描述标签组成集合，作为该样本图像对应的文字特征子集合：

S _i＝{糖醋里脊，教程}

步骤204：调用嵌入网络，由嵌入网络依据各分词对应的索引数值确定各分词对应的描述向量。

文字特征集合中包含多个文字特征，各文字特征在文字特征集合中分别对应一个位置，每个位置对应一个索引数值，具体地，可以将位置标号作为索引数值。在将图像对应的文字描述信息处理提取出多个分词后，每个分词将作为一个文字特征，分别确定各分词在文字特征集合中的位置，进一步依据位置与索引数值的对应关系，确定各分词对应的索引数值。

将各分词对应的索引数值输入嵌入网络，嵌入网络依据各分词对应的索引数值确定各分词对应的描述向量W _i。

步骤205：将各分词对应的描述向量同维度加权平均，得到文字特征向量。

通过将待预测图像的文本信息进行分词，得到多个分词。针对每个分词，确定预先训练得到的文字特征集合中是否包含该分词，若是则进一步确定该分词对应的描述向量，反之，则确定该分词无对应的描述向量。也即，分词为描述标签则为该分词生成描述向量，反之，分词不是描述标签则不为该分词生成描述向量。

各分词对应的权重可以相同也可以不同，若各分词对应的权重相同时，在可通过如下公式对各分词对应的描述向量同维度加权平均，得到文字特征向量。

其中，F _text为文字特征向量，N为当前图像包含的文字信息中描述标签的个数。

步骤206：将文字特征向量和图像特征向量，映射为维度相同的向量。

由于图像特征向量与文字特征向量在分别经过卷积神经网络与循环神经网络输出之后，二者并不在同一个空间即二者维度不同；此时需要分别将这两个特征向量进行空间映射，使其映射到同一空间即影射为维度相同的向量。具体地，可以使用全连接对文字特征向量、图像特征向量中的特征进行空间映射。

步骤207：将映射后的文字特征向量和图像特征向量进行纬度拼接，生成图文特征向量。

例如：映射后的文字特征向量包含1-5五个维度，图像特征向量包含1-5五个维度，可以将图像特征向量的第一个维度拼接到文字特征向量的第五个维度后，生成包含十个维度的图文特征向量，图文特征向量中每个维度对应特征标签。

步骤208：根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类。

具体实现过程中，可以首先分别将图像特征向量、文字特征向量以及图文特征向量输入深度神经网络，得到与图像特征向量对应的第一分类结果向量，与文字特征向量对应的第二分类结果向量，与图文特征向量对应的第三分类结果向量。各分类结果向量中均包含多个点，每个点对应一个特征标签，每个点对应一个概率值。

其次，将第一分类结果向量、第二分类结果向量以及第三分类结果向量进行加权求和，得到目标结果向量。

具体地，可以通过如下公式得到目标结果向量P：

P＝W _textP _text+W _imageP _image+W _text-imageP _text-image

其中，W _image、W _text以及W _text-image分别为第一分类结果向量、第二分类结果向量以及第三分类结果向量的权重；P _image、P _text以及P _text-image分别为第一分类结果向量、第二分类结果向量以及第三分类结果向量。

最后，依据目标结果向量，确定图像对应的分类。

依据目标结果向量确定图像对应的特征标签，其中特征标签为目标特征向量中概率值最高的点对应的特征标签，依据特征标签确定图像所属的分类。

实施例三

参照图3，示出了本申请实施例三的一种图像分类装置的结构框图。

本申请实施例的图像分类装置可以包括：确定模块301，被配置为通过卷积神经网络确定图像对应的图像特征向量；其中，图像对应有文字描述信息；向量生成模块302，被配置为通过嵌入网络对文字描述信息进行处理，得到文字特征向量；拼接模块303，被配置为将图像特征向量和文字特征向量拼接，得到图文特征向量；分类模块304，被配置为根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类。

在一些实施方式中，向量生成模块302可以包括：分词子模块3021，被配置为去除文字描述信息中的停用词，得到多个分词；位置确定子模块3022，被配置为针对每个分词，确定分词在文字特征集合中的位置信息，索引值生成子模块3023，被配置为依据位置信息生成分词对应的索引数值；其中，文字特征集合通过对样本图像对应的文字描述信息训练得到；第一调用子模块3024，被配置为调用嵌入网络，由嵌入网络依据各分词对应的索引数值确定各分词对应的描述向量；第二调用子模块3025，被配置为将各分词对应的描述向量同维度加权平均，得到文字特征向量。

在一些实施方式中，拼接模块303可以包括：映射子模块3031，被配置为将文字特征向量和图像特征向量，映射为维度相同的向量；拼接子模块3032，被配置为将映射后的文字特征向量和图像特征向量进行维度拼接，生成图文特征向量。

在一些实施方式中，装置还可以包括：获取模块305，被配置为在确定模块301通过卷积神经网络确定图像对应的图像特征向量之前，获取各样本图像；子集合确定模块306，被配置为针对每个样本图像，确定样本图像是否对应文字描述信息；若否，确定样本图像对应的文字特征子集合为空；若是，去除文字描述信息中的停用词得到包含多个分词的描述集合；提取模块307，被配置为基于预设的标签体系从描述集合中提取出文字特征子集合；特征集合确定模块308，被配置为将各样本图像对应的文字特征子集合求并集，得到文字特征集合。

在一些实施方式中，分类模块304可以包括：输入子模块3041，被配置为分别将图像特征向量、文字特征向量以及图文特征向量输入深度神经网络，得到与图像特征向量对应的第一分类结果向量，与文字特征向量对应的第二分类结果向量，与图文特征向量对应的第三分类结果向量；处理子模块3042，被配置为将第一分类结果向量、第二分类结果向量以及第三分类结果向量进行加权求和，得到目标结果向量；结果确定子模块3043，被配置为依据目标结果向量，确定图像对应的分类。

本申请实施例的图像分类装置用于实现前述实施例一、实施例二中相应的图像分类方法，并具有与方法实施例相应的有益效果，在此不再赘述。

实施例四

参照图4，示出了本申请实施例四的一种用于图像分类的终端的结构框图。

本申请实施例的终端可以包括：存储器、处理器及存储在存储器上并可在处理器上运行的图像分类程序，图像标签确定程序被处理器执行时实现本申请中的任意一种图像分类方法的步骤。

图4是根据一示例性实施例示出的一种图像分类终端600的框图。例如，终端600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，终端600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在终端600的操作。这些数据的示例包括用于在终端600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为终端600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为终端600生成、管理和分配电力相关联的组件。

多媒体组件608包括在终端600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当终端600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当终端600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为终端600提供各个方面的状态评估。例如，传感器组件614可以检测到终端600的打开/关闭状态，组件的相对定位，例如组件为终端600的显示器和小键盘，传感器组件614还可以检测终端600或终端600一个组件的位置改变，用户与终端600接触的存在或不存在，装置600方位或加速/减速和终端600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于终端600和其他设备之间有线或无线方式的通信。终端600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信部件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行图像分类方法，具体地图像分类方法包括：

通过卷积神经网络确定图像对应的图像特征向量；其中，图像对应有文字描述信息；通过嵌入网络对文字描述信息进行处理，得到文字特征向量；将图像特征向量和文字特征向量拼接，得到图文特征向量；根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类。

在一些实施方式中，根据深度神经网络对图像特征向量、文字特征向量以及图文特征向量的处理结果，确定图像对应的分类的步骤，包括：分别将图像特征向量、文字特征向量以及图文特征向量输入深度神经网络，得到与图像特征向量对应的第一分类结果向量，与文字特征向量对应的第二分类结果向量，与图文特征向量对应的第三分类结果向量；将第一分类结果向量、第二分类结果向量以及第三分类结果向量进行加权求和，得到目标结果向量；依据目标结果向量，确定图像对应的分类。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由终端600的处理器620执行以完成上述图像分类方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。当存储介质中的指令由终端的处理器执行时，使得终端能够执行本申请中的任意一种图像分类方法的步骤。

本申请实施例提供的终端，以卷积神经网络为基础作为图像特征提取的主干网络得到图像对应的图像特征向量，以嵌入网络为基础作为文字特征提取的主干网络得到图像所对应的文字描述信息的文字特征向量，将图像特征向量和文字特征向量拼接得到图文特征向量，以深度神经网络作为主干网络，依据图像特征向量、文字特征向量以及图文特征向量确定图像在不同标签下的权重从而确定图像对应的分类，能够提升图像分类的准确性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在示例性实施例中，还提供了一种计算机程序产品，计算机程序产品用于在运行时执行本申请中的任意一种图像分类方法的步骤。

对于计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的图像分类方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本申请方案的系统所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个申请方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的图像分类方案中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

一种图像分类方法，其特征在于，所述方法包括：

通过卷积神经网络确定图像对应的图像特征向量；其中，所述图像对应有文字描述信息；

通过嵌入网络对所述文字描述信息进行处理，得到文字特征向量；

将所述图像特征向量和文字特征向量拼接，得到图文特征向量；

根据深度神经网络对所述图像特征向量、文字特征向量以及所述图文特征向量的处理结果，确定所述图像对应的分类。
根据权利要求1所述的方法，其特征在于，所述通过嵌入网络对所述文字描述信息进行处理，得到文字特征向量的步骤，包括：

去除所述文字描述信息中的停用词，得到多个分词；

针对每个所述分词，确定所述分词在文字特征集合中的位置信息；

依据所述位置信息生成分词对应的索引数值；其中，所述文字特征集合通过对样本图像对应的文字描述信息训练得到；

调用嵌入网络，由所述嵌入网络依据各所述分词对应的索引数值确定各分词对应的描述向量；

将各分词对应的描述向量同维度加权平均，得到文字特征向量。
根据权利要求1所述的方法，其特征在于，所述将所述图像特征向量和文字特征向量拼接，得到图文特征向量的步骤，包括：

将所述文字特征向量和所述图像特征向量，映射为维度相同的向量；

将映射后的文字特征向量和图像特征向量进行维度拼接，生成图文特征向量。
根据权利要求1所述的方法，其特征在于，在所述通过卷积神经网络确定图像对应的图像特征向量的步骤之前，所述方法还包括：

获取各样本图像；

针对每个样本图像，确定所述样本图像是否对应文字描述信息；若否，确定所述样本图像对应的文字特征子集合为空；若是，去除所述文字描述信息中的停用词得到包含多个分词的描述集合；

基于预设的标签体系从所述描述集合中提取出文字特征子集合；

将各样本图像对应的文字特征子集合求并集，得到文字特征集合。
根据权利要求1所述的方法，其特征在于，所述根据深度神经网络对所述图像特征向量、文字特征向量以及所述图文特征向量的处理结果，确定所述图像对应的分类的步骤，包括：

分别将所述图像特征向量、文字特征向量以及所述图文特征向量输入所述深度神经网络，得到与所述图像特征向量对应的第一分类结果向量，与所述文字特征向量对应的第二分类结果向量，与所述图文特征向量对应的第三分类结果向量；

将所述第一分类结果向量、第二分类结果向量以及所述第三分类结果向量进行加权求和，得到目标结果向量；

依据所述目标结果向量，确定所述图像对应的分类。
一种图像分类装置，其特征在于，所述装置包括：

确定模块，被配置为通过卷积神经网络确定图像对应的图像特征向量；其中，所述图像对应有文字描述信息；

向量生成模块，被配置为通过嵌入网络对所述文字描述信息进行处理，得到文字特征向量；

拼接模块，被配置为将所述图像特征向量和文字特征向量拼接，得到图文特征向量；

分类模块，被配置为根据深度神经网络对所述图像特征向量、文字特征向量以及所述图文特征向量的处理结果，确定所述图像对应的分类。
根据权利要求6所述的装置，其特征在于，所述向量生成模块包括：

分词子模块，被配置为去除所述文字描述信息中的停用词，得到多个分词；

位置确定子模块，被配置为针对每个所述分词，确定所述分词在文字特征集合中的位置信息；

索引值生成子模块，被配置为依据所述位置信息生成分词对应的索引数值；其中，所述文字特征集合通过对样本图像对应的文字描述信息训练得到；

第一调用子模块，被配置为调用嵌入网络，由所述嵌入网络依据各所述分词对应的索引数值确定各分词对应的描述向量；

第二调用子模块，被配置为将各分词对应的描述向量同维度加权平均，得到文字特征向量。
根据权利要求6所述的装置，其特征在于，所述拼接模块包括：

映射子模块，被配置为将所述文字特征向量和所述图像特征向量，映射为维度相同的向量；

拼接子模块，被配置为将映射后的文字特征向量和图像特征向量进行维度拼接，生成图文特征向量。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

获取模块，被配置为在所述确定模块通过卷积神经网络确定图像对应的图像特征向量之前，获取各样本图像；

子集合确定模块，被配置为针对每个样本图像，确定所述样本图像是否对应文字描述信息；若否，确定所述样本图像对应的文字特征子集合为空；若是，去除所述文字描述信息中的停用词得到包含多个分词的描述集合；

提取模块，被配置为基于预设的标签体系从所述描述集合中提取出文字特征子集合；

特征集合确定模块，被配置为将各样本图像对应的文字特征子集合求并集，得到文字特征集合。
根据权利要求6所述的装置，其特征在于，所述分类模块包括：

输入子模块，被配置为分别将所述图像特征向量、文字特征向量以及所述图文特征向量输入所述深度神经网络，得到与所述图像特征向量对应的第一分类结果向量，与所述文字特征向量对应的第二分类结果向量，与所述图文特征向量对应的第三分类结果向量；

处理子模块，被配置为将所述第一分类结果向量、第二分类结果向量以及所述第三分类结果向量进行加权求和，得到目标结果向量；

结果确定子模块，被配置为依据所述目标结果向量，确定所述图像对应的分类。
一种终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像分类程序，所述图像分类程序被所述处理器执行时实现如权利要求1至5中任一项所述的图像分类方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像分类程序，所述图像分类程序被处理器执行时实现如权利要求1至5中任一项所述的图像分类方法的步骤。
一种计算机程序产品，其特征在于，所述计算机程序产品用于在运行时执行：权利要求1至5中任一项所述的图像分类方法的步骤。