WO2019047971A1

WO2019047971A1 - 图像识别方法、终端及存储介质

Info

Publication number: WO2019047971A1
Application number: PCT/CN2018/105009
Authority: WO
Inventors: 姜文浩; 马林; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-09-11
Filing date: 2018-09-11
Publication date: 2019-03-14
Also published as: JP6972319B2; JP2020533696A; CN108304846A; US10956771B2; KR102270394B1; CN108304846B; EP3611663B1; EP3611663A4; US20190385004A1; EP3611663A1; KR20200007022A; CN110490213B; CN110490213A

Abstract

一种图像识别方法、终端及存储介质，属于机器学习领域。所述方法包括：通过编码器对待识别的图像进行特征提取，得到特征向量和第一标注向量集合（101）；对该特征向量进行初始化处理，得到第一初始输入数据（102）；基于该第一标注向量集合，通过第一引导网络模型生成第一引导信息，该第一引导网络模型用于根据任一图像的标注向量集合生成引导信息（103）；基于该第一引导信息、该第一标注向量集合和该第一初始输入数据，通过解码器确定该图像的描述语句（104）。本方法在编码器和解码器之间增加了能够根据任一图像的标注向量集合生成引导信息的引导网络模型，因此通过该引导网络模型生成的引导信息较为准确，能够对编码过程进行准确引导，提高了生成描述语句的质量。

Description

图像识别方法、终端及存储介质

本申请要求于2017年09月11日提交的申请号为201710814187.2、发明名称为“图像识别方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及机器学习领域，特别涉及一种图像识别方法、终端及存储介质。

背景技术

随着科技的发展，以及人们对便捷的人机交互方式的需求，机器学习在图像识别领域得到了广泛应用。例如，在早期的儿童教育、图像检索和盲人导航等场景中，人们通常希望机器能够自动对图像进行识别，得到能够准确描述图像内容的描述语句，即将图像翻译成自然语言，以便通过自然语言快速理解图像或者对图像进行分类。

目前，图像识别的系统框架通常包括编码器(Encoder)和解码器(Decoder)，基于该系统框架，相关技术中提出了一种图像识别方法，包括：首先，通过编码器对图像进行特征提取，得到特征向量和标注向量(Annotation Vectors)集合，其中，特征向量是对图像进行全局特征提取得到，标注向量集合是对图像进行局部特征提取得到。然后，对特征向量进行初始化处理，得到初始输入数据，该初始输入数据用于指示解码器的初始状态，通常包括初始的隐含状态(Hidden State)信息和初始的记忆单元(Memory Cell)状态信息。之后，从图像中提取人为设计的特定信息作为引导信息，并基于该引导信息，通过解码器对该标注向量集合和初始输入数据进行解码，得到图像的描述语句。其中，该引导信息用于对编码器的编码过程进行引导，以提高生成描述语句的质量，使得所生成的描述语句能够较为准确地描述图像且符合语义。

发明内容

本申请实施例提供了一种图像识别方法、终端及存储介质，能够解决相关技术中存在的通过人为设计的特定引导信息不能准确生成图像的描述语句，导致生成的描述语句的质量较低的问题。所述技术方案如下：

第一方面，提供了一种图像识别方法，所述方法由终端执行，所述方法包括：

通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合；

对所述特征向量进行初始化处理，得到第一初始输入数据；

基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，所述第一引导网络模型用于根据任一图像的标识向量集合生成引导信息；

基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过解码器确定所述目标图像的描述语句。

第二方面，提供了一种图像识别装置，所述装置包括：

提取模块，用于通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合；

处理模块，用于对所述特征向量进行初始化处理，得到第一初始输入数据；

生成模块，用于基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，所述第一引导网络模型用于根据任一图像的标识向量集合生成引导信息；

确定模块，用于基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过解码器确定所述目标图像的描述语句。

第三方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

对所述特征向量进行初始化处理，得到第一初始输入数据；

基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，所述第一引导网络模型用于根据任一图像的标注向量集合生成引导信息；

第四方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面所述的图像识别方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例中，在编码器和解码器之间增加了引导网络模型，从目标图像中提取标注向量集合之后，可以基于该标注向量集合通过该引导网络模型生成引导信息，由于该引导网络模型能够根据任一图像的标注向量集合生成该图像的引导信息，因此，通过该引导网络模型所生成的引导信息能够更适用目标图像的描述语句的生成过程，准确度较高，从而能够对目标图像的编码过程进行准确引导，提高了生成描述语句的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种RNN模型的逻辑结构示意图；

图2是本申请实施例提供的一种LSTM模型的逻辑结构示意图；

图3是本申请实施例提供的一种图像识别系统的结构示意图；

图4是本申请实施例提供的另一种图像识别系统的结构示意图；

图5是本申请实施例提供的又一种图像识别系统的结构示意图；

图6是本申请实施例提供的又一种图像识别系统的结构示意图；

图7是本申请实施例提供的一种图像识别方法流程图；

图8是本申请实施例提供的另一种图像识别方法流程图；

图9是本申请实施例提供的一种图像识别装置的结构示意图；

图10是本申请实施例提供的一种生成模块303的结构示意图；

图11是本申请实施例提供的另一种生成模块303的结构示意图；

图12是本申请实施例提供的一种确定模块304的结构示意图；

图13是本申请实施例提供的另一种图像识别装置的结构示意图；

图14是本申请实施例提供的另一种确定模块304的结构示意图；

图15是本申请实施例提供的又一种图像识别装置的结构示意图；

图16是本申请实施例提供的一种终端400的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例涉及的名词进行解释说明。

编码器

编码器用于对图像进行编码生成向量，编码器通常采用CNN(Convolutional Neural Networks，卷积神经网络)模型。

解码器

解码器用于对编码器生成的向量进行解码，以将编码器生成的向量翻译成图像的描述语句，解码器通常采用RNN(Recurrent Neural Network，循环神经网络)模型。

引导信息

引导信息是对图像进行处理得到的信息，通常表示为向量，能够作为解码器输入的一部分来对解码过程进行引导。在解码器中引入引导信息可以提高解码器的性能，保证解码器能够生成更好的描述语句，提高生成描述语句的质量。

CNN模型

CNN模型是指在传统的多层神经网络的基础上发展起来的一种针对图像分类和识别的神经网络模型，CNN模型通常包括多个卷积层和至少一个全连接层，能够对图像进行特征提取。

RNN模型

由于传统的神经网络没有记忆功能，也即，对于传统的神经网络而言，其输入为独立的没有上下文关联的数据。但是实际应用中，输入通常为一些有明显上下文特征的序列化输入，比如需要预测描述语句中的下一个词语，此时神经网络的输出必须依赖上一次的输入。也即，要求神经网络应具有记忆功能，而RNN模型即为一种节点定向连接成环且具有记忆功能的神经网络，可以利用内部的记忆功能循环处理输入数据。

图1是本申请实施例提供的一种RNN模型的逻辑结构示意图，如图1左侧所示，该RNN模型包括输入层、隐含层和输出层三层结构，且隐含层为环形结构。其中，输入层和隐含层相连，隐含层和输出层相连。

为了便于说明该RNN模型的功能，将图1左侧所示的RNN模型的结构按照时序进行展开，可以得到如图1右侧所示的结构。由于RNN模型的输入层接收到的输入数据为按照一定时间序列排序的数据，也即输入层接收到的输入数据为序列数据，为了便于说明，将该序列数据标记为x ₁、x ₂、…、x _i、…、x _n，将该序列数据中的各个数据分别对应的时刻标记为t ₁、t ₂、…、t _i、…、t _n，将对x ₁、x ₂、…、、x _i、…、x _n分别进行处理得到的输出数据标记为f ₁、f ₂、…、f _i、…、f _n，而RNN模型按照时序对各个输入数据依次进行处理的步骤可以称为时序步骤。其中，n为RNN模型循环处理输入数据的次数。

如图1右侧所示，在展开之后的RNN模型中，t ₁时刻输入层接收到的输入数据为x ₁，并将x ₁传输至隐含层，隐含层对x ₁进行处理，并将处理后的数据传输至输出层，得到t ₁时刻的输出数据f ₁。t ₂时刻输入层接收到的输入数据为x ₂，并将x ₂传输至隐含层，此时隐含层根据t ₁时刻的输出数据f ₁对x ₂进行处理，并将处理后的数据传输至输出层，得到t ₂时刻的输出数据f ₂。也即，在任意时刻t _i，隐含层除了接收到t _i时刻输入层传输的输入数据x _i，还接收到t _i-1时刻的输出数据f _i-1，并根据f _i-1对x _i进行处理，得到t _i时刻的输出数据f _i。

LSTM(Long Short-Term Memory，长短期记忆)网络模型

LSTM网络模型是一种特殊的RNN模型，能够处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM网络模型包括LSTM单元，LSTM单元设置有输入门、遗忘门和输出门，在每个时序步骤可以基于设置的输入门、遗忘门和输出门对输入数据进行处理。

图2是本申请实施例提供的一种LSTM网络模型的逻辑结构示意图，如图2左侧所示，该LSTM网络模型包括LSTM单元，且LSTM单元为环形结构，对于LSTM单元执行的任一时序步骤t来说，该LSTM单元可以对时序步骤t的输入数据x _t和上一个时序步骤t-1的输出数据f _t-1进行处理，得到时序步骤t的输出数据f _t。

如图2右侧所示，在按照时序展开之后的LSTM网络模型中，LSTM单元接收到时序步骤t ₁的输入数据x ₁之后，可以对x ₁进行处理得到时序步骤t ₁的输出数据f ₁，然后将f ₁再输入LSTM单元，LSTM单元接收到时序步骤t ₂的输入数据x ₂之后，可以对f ₁和x ₂进行处理，得到时序步骤t ₂的输出数据f ₂，直至基于时序步骤t _n的输入数据x _n和时序步骤t _n-1的输出数据f _n-1得到时序步骤t _n的输出数据f _n为止。其中，n为LSTM网络模型循环处理输入数据的次数。

审阅网络(Review-net)

审阅网络是一种基于编码器-解码器框架的图像识别网络，包括审阅器(reviewer)和解码器。审阅器和解码器通常都采用CNN模型。审阅器可以进一步挖掘编码器从图像中提取的全局特征和局部特征之间的交互关系，并基于全局特征和局部特征之间的交互关系为解码器生成初始输入数据，以提高解码器的性能。

接下来对本申请实施例的应用场景予以说明。

本申请实施例可以应用于早期的儿童教育、图像检索、盲人阅读或聊天系统等场景中，在这些场景中通常需要将图像自动翻译成自然语言。

例如，为了提高幼龄儿童的看图识物能力，可以利用本申请实施例提供的图像识别方法，将幼龄儿童看到的图像翻译成对应的描述语句，然后将描述语句转换成语音播放出来，以便幼龄儿童能够结合图像和语音学习图像内容。

再例如，对于数据库中存储的大量图像，可以利用本申请实施例提供的图像识别方法，将图像翻译成对应的描述语句，以便根据图像的描述语句对图像进行准确分类，或者根据图像的描述语句对图像进行准确检索。

再例如，对于盲人待识别的一张图像来说，可以先将这张图像翻译成对应的描述语句，然后将描述语句转换成语音播放出来，以便盲人通过听到的语音识别图像，或者，将描述语句转换成盲文，以便盲人通过阅读盲文识别图像等。

再例如，在聊天系统中，可以将聊天窗口中的图像翻译成对应的描述语句，并对描述语句进行显示。

需要说明的是，本申请实施例仅是以上述几种应用场景为例进行说明，而实际应用中，本申请实施例提供的图像识别方法还可以应用于其他场景中，本申请实施例在此不做一一列举。

接下来，对本申请实施例涉及的系统架构进行介绍。

图3是本申请实施例提供的一种图像识别系统的结构示意图，如图3所示，该图像识别系统包括编码器10、第一引导网络模型20和解码器30。

其中，编码器10用于对待识别的目标图像进行编码，即对目标图像进行特征提取，得到特征向量和第一标注向量集合。特征向量用于指示目标图像的全局特征，第一标注向量集合用于指示目标图像的局部特征。

对于第一标注向量集合，编码器10可以将其分别输出给解码器30和第一引导网络模型20。对于特征向量，编码器10可以对其进行初始化处理，得到第一初始输入数据，然后将第一初始输入数据输出给解码器30；或者，编码器10也可以将特征向量输出给其他模型，由其他模型对目标编码器10输出的特征向量进行初始化处理，得到第一初始输入数据，并将第一初始输入数据输出给解码器30。

其中，第一引导网络模型20用于基于编码器10输出的第一标注向量集合生成第一引导信息，然后将第一引导信息输出给解码器30，且该第一引导网络模型是通过样本图像的标注向量集合训练得到。

其中，解码器30用于基于第一引导信息、第一标注向量集合和第一初始输入数据确定该目标图像的描述语句。

由上可知，图3所示的图像识别系统与相关技术相比，在编码器和解码器之间增加了引导网络模型，由于该引导网络模型能够根据任一图像的标注向量集合生成该图像的描述语句，因此，与人为设计的引导信息相比，通过该引导网络模型所生成的引导信息能够更适用目标图像的描述语句的生成过程，准确度较高，从而能够对图像的编码过程进行准确引导，从而提高了生成描述语句的质量。

图4是本申请实施例提供的另一种图像识别系统的结构示意图，如图4所示，该图像识别系统包括编码器10、第一引导网络模型20、解码器30和多示例模型40。

其中，图4与图3中的编码器10和解码器30的作用相同，具体描述可以参考图3，在此不再详细赘述。

其中，多示例模型40用于对待识别的目标图像进行处理，得到目标图像的属性信息，该属性信息用于指示该目标图像的描述语句中预测出现的词语的概率，并将目标图像的属性信息输出给第一引导网络模型20。

其中，第一引导网络模型20用于基于编码器10输出的第一标注向量集合和多示例模型40输出的目标图像的属性信息生成第一引导信息。

图4中，通过在第一引导网络模型20之前增加多示例模型40，使得第一引导网络模型20可以根据目标图像的第一标注向量集合和属性信息综合确定第一引导信息，进一步提高了所生成的第一引导信息的准确性。

图5是本申请实施例提供的又一种图像识别系统的结构示意图，如图5所示，该图像识别系统包括编码器10、第一引导网络模型20、审阅器50、第二引导网络模型60和解码器30。

其中，图5与图3中编码器10的作用相同，具体描述可以参考图3，在此不再详细赘述。

其中，第一引导网络模型20用于基于编码器10输入的第一标注向量集合生成第一引导信息，并将第一引导信息输出给审阅器50。

其中，审阅器50用于基于第一初始输入数据、第一标注向量集合和第一引导信息确定第二标注向量集合和第二初始输入数据，并将第二标注向量集合和第二初始输入数据输出给解码器30，以及将第二标注向量集合输出给第二引导网络模型60。第二初始输入数据为解码器30的初始输入数据，用于指示解码器30的初始状态，具体可以包括初始的隐含状态信息和初始的记忆单元状态信息。

其中，第二引导网络模型60用于基于第二标注向量集合生成第二引导信息，并将第二引导信息输出给解码器30，且该第二引导网络模型也是通过样本图像训练得到。

其中，解码器30用于基于第二引导信息，对第二标注向量集合和第二初始输入数据进行解码，得到该目标图像的描述语句。

图5中，通过在编码器和解码器之间增加审阅器，可以通过审阅器进一步挖掘目标图像的局部特征和全局特征的交互关系，使得生成的第二标注向量集合和第二初始输入数据能够更准确地指示目标图像的特征，进一步提高了图像识别系统的系统性能，进而提高了生成描述语句的质量。

图6是本申请实施例提供的又一种图像识别系统的结构示意图，如图6所示，该图像识别系统包括编码器10、第一引导网络模型20、审阅器50、第二引导网络模型60、解码器30和多示例模型40。

其中，图6与图5中编码器10、审阅器50和解码器30的作用相同，具体描述可以参考图5，在此不再赘述。

其中，多示例模型40用于对待识别的目标图像进行处理，得到目标图像的属性信息，并将目标图像的属性信息分别输出给第一引导网络模型20和第二引导网络模型60。

其中，第一引导网络模型20用于基于编码器10输出的第一标注向量集合和多示例模型40输出的目标图像的属性信息生成第一引导信息，并将第一引导信息输出给审阅器50。

其中，第二引导网络模型60用于基于审阅器50输出的第二标注向量集合和多示例模型40输出的目标图像的属性信息生成第二引导信息，并将第二引导信息输出给解码器30，以便编码器30基于第二引导信息，对第二标注向量集合和第二初始输入数据进行编码，得到目标图像的描述语句。

图6中，通过在第一引导网络模型20和第二引导网络模型60之前增加多示例模型40，使得第一引导网络模型20和第二引导网络模型60均可以根据目标图像的属性信息和标注向量集合综合确定引导信息，进一步提高了所生成的引导信息的准确性。

需要说明的是，上述图3-图6所示的图像识别系统均可以基于多个样本图像和多个样本图像的描述语句训练得到，也即是，可以通过训练得到上述编码器、第一引导网络模型、审阅器、第二引导网络模型和解码器，使得第一引导网络模型和第二引导网络模型可以在训练的过程中自适应的学习如何生成准确的引导信息，从而提高生成引导信息的准确性。

接下来，将结合上述图3-图6所示图像识别系统的结构示意图，对本申请实施例提供的图像识别方法进行详细介绍。图7是本申请实施例提供的一种图像识别方法流程图，该方法可以由终端执行，该终端可以为手机、平板电脑或计算机等，该终端可以包括上述图像识别系统，例如可以通过安装的软件承载上述图像识别系统。参见图7，该方法包括：

步骤101：通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合。

在对待识别的目标图像进行识别时，可以先将目标图像输入编码器，通过编码器对目标图像进行特征提取，分别得到目标图像的特征向量和第一标注向量集合。

具体地，可以通过编码器对目标图像进行全局特征提取，得到特征向量，通过编码器对目标图像进行局部特征提取，得到标注向量集合。其中，特征向量用于指示目标图像的全局特征，第二标识向量集合中的标注向量用于指示目标图像的局部特征。

可选地，编码器可以采用CNN模型，当编码器采用CNN模型对目标图像进行特征提取时，该特征向量可以通过CNN模型的最后一个全连接层提取得到，该第二标注向量集合可以通过CNN模型的最后一个卷积层提取得到。

步骤102：对特征向量进行初始化处理，得到第一初始输入数据。

其中，第一初始输入数据是指待输入给编码器的下一个处理模型的初始输入数据，用于指示下一个处理模型的初始状态，该下一个处理模型可以为解码器或者审阅器。第一初始输入数据可以包括第一初始隐含状态信息和第一初始记忆单元状态信息，第一初始隐含状态信息用于指示下一个处理模型的隐含层的初始状态，第一初始记忆单元状态信息用于指示下一个处理模型的记忆单元的初始状态。

具体地，可以对特征向量进行线性变换等初始化处理，得到第一初始输入数据。而且，可以通过编码器对该特征向量进行初始化处理，得到第一初始输入数据，也可以通过其他模型对编码器输出的特征向量进行初始化处理，得到第一初始输入数据，本申请实施例对此不做限定。

例如，该编码器可以包括RNN模型和初始化模型，RNN模型用于对目标图像进行特征提取，初始化模型用于对特征向量进行初始化处理，该编码器通过RNN模型对图像进行特征提取得到特征向量之后，可以再通过初始化模型对特征向量进行初始化处理，得到第一初始输入数据。

或者，编码器也可以仅用于对目标图像进行特征提取，并在编码器之后增加初始化模型，该初始化模型用于对特征向量进行初始化处理，通过编码器对目标图像进行特征提取得到特征向量之后，可以将特征向量输出给该初始化模型，然后通过该初始化模型对该特征向量进行初始化处理，得到第一初始输入数据。

步骤103：基于第一标注向量集合，通过第一引导网络模型生成第一引导信息，该第一引导网络模型用于根据任一图像的标注向量集合生成引导信息。

具体地，基于第一标注向量集合，通过第一引导网络模型生成第一引导信息可以包括以下两种方式实现：

第一种实现方式：基于第一引导网络模型中的模型参数构成的第一矩阵对第一标注向量集合进行线性变换，得到第二矩阵；基于第二矩阵中每一行的最大值确定该第一引导信息。

其中，第一引导网络模型可以根据样本图像的标注向量集合训练得到。在一个实施例中，可以将图3中的各个模型变换为待训练的模型，然后基于多个样本图像和多个样本图像的描述语句对变换后的图像识别系统进行训练，则在训练的过程中，待训练编码器即可分别从多个样本图像中提取标注向量，并输出给待训练引导网络模型进行训练，如此，对整个图像识别系统训练完成之后，即可将待训练引导网络模型训练为第一引导网络模型。

其中，待训练编码器可以为未训练过的编码器，也可以为预训练好的编码器，本申请实施例对此不做限定。通过使用预训练好的编码器对待训练引导网络模型进行训练，可以提高整个图像识别系统的训练效率，进而提高其中的待训练引导网络模型的训练效率。

其中，第一标注向量集合也是矩阵形式，第一矩阵为第一引导网络模型的模型参数构成的且用于对第一标注向量集合进行线性变换的矩阵。具体地，可以将第一标注向量集合与第一矩阵进行相乘，以对第一标注向量集合进行线性变换，得到第二矩阵。

具体地，基于第二矩阵中每一行的最大值确定该第一引导信息包括：选取第二矩阵中每一行的最大值，然后将选取的最大值按照行数不变的原则组成列数为1的矩阵，并将组成的矩阵确定为该第一引导信息。

例如，假设第一标注向量集合为

a ₁-a _k为从目标图像中提取的各个标注向量，第一矩阵为P ₁，第一引导信息为v，则可以采用如下公式(1)确定第一引导信息：

v＝max([P ₁a ₁,P ₁a ₂,…,P ₁a _k]) (1)

其中，max函数是指对待处理的矩阵的每一行取最大值，并组成行数不变且列数为1的矩阵。

第二种实现方式：当该第一引导网络模型用于根据任一图像的标注向量集合和属性信息生成引导信息时，可以将该目标图像作为多示例模型的输入，通过该多示例模型对该目标图像进行处理，得到该目标图像的属性信息；基于该第一引导网络模型中的模型参数构成的第三矩阵对该第一标注向量集合进行线性变换，得到第四矩阵；基于该第四矩阵和该目标图像的属性信息，生成第五矩阵；基于该第五矩阵中每一行的最大值确定该第一引导信息。其中，样本图像的属性信息用于指该样本图像的描述语句中预测出现的词语的概率。

其中，该多示例模型是通过多个样本图像和该多个样本图像的描述语句训练得到的，且能够输出样本图像的属性信息的模型，也即是，该多示例模型能够对图像的描述语句中可能出现的词语的概率进行预测。示例的，该属性信息可以为MIL(Multi-instance learning，多示例学习)信息等。

其中，该第一引导网络模型可以通过样本图像的标注向量集合和属性信息进行训练得到。例如，可以将图4的各个模型变换为待训练的模型，然后基于多个样本图像和多个样本图像的描述语句对变换后的图像识别系统进行训练，则在训练的过程中，待训练编码器可以从样本图像中提取标注向量并输出给待训练引导网络模型，且待训练多示例模型可以对图像进行处理得到属性信息，并将属性信息输出给待训练引导网络模型，待训练的引导网络模型即可基于样本图像的标注向量和属性信息进行训练，如此，对整个图像识别系统训练完成之后，即可将待训练引导网络模型训练为该第一引导网络模型。

其中，待训练编码器可以为未训练过的编码器，也可以为预训练好的编码器；待训练多示例模型可以为未训练过的多示例模型，也可以为预训练好的多示例模型，本申请实施例对此不做限定。通过使用预训练好的编码器和/或预训练好的多示例模型来对待训练引导网络模型进行训练，可以提高整个图像识别系统的训练效率，进而提高其中的待训练引导网络模型的训练效率。

其中，第一标注向量集合也是矩阵形式，第三矩阵为该第一引导网络模型的模型参数构成的且用于对第一标注向量集合进行线性变换的矩阵。具体地，可以将第一标注向量集合与第三矩阵进行相乘，以对第一标注向量集合进行线性变换，得到第四矩阵，然后基于第四矩阵和目标图像的属性信息，生成第五矩阵。

其中，基于第五矩阵中每一行的最大值确定第一引导信息包括：选取第五矩阵中每一行的最大值，然后将选取的最大值按照行数不变的原则组成列数为1的矩阵，并将组成的矩阵确定为该第一引导信息。

具体地，假设第一标注向量集合为

a ₁-a _k为从目标图像中提取的各个标注向量，第三矩阵为P ₂，目标图像的属性信息为e，第一引导信息为v，则可以采用如下公式(2)确定第一引导信息v：

v＝max([e,P ₂a ₁,P ₂a ₂,…,P ₂a _k]) (2)

由上可知，第一引导网络模型可以通过学习得到，也即是，可以通过多个样本图像和多个样本图像的描述语句训练得到，且在训练的过程中可以自动学习引导信息，因此，通过该第一引导网络模型生成第一引导信息的准确度较高，所生成的第一引导信息能够对编码的编码过程进行准确引导，进而可以提高生成目标图像的描述语句的质量。

步骤104：基于第一引导信息、第一标注向量集合和第一初始输入数据，通过解码器确定该目标图像的描述语句。

本申请实施例中，基于第一引导信息、第一标注向量集合和第一初始输入数据，通过解码器确定该目标图像的描述语句可以包括以下两种实现方式：

第一种实现方式：基于第一引导信息，通过解码器对第一标注向量集合和第一初始输入数据进行解码，得到该目标图像的描述语句。

可选地，该解码器通常采用RNN模型，比如可以采用LSTM网络模型。

具体地，基于第一引导信息，通过解码器对第一标注向量集合和第一初始输入数据进行解码，得到该目标图像的描述语句可以包括以下步骤1)-3)：

1)当该解码器采用第一RNN模型，且该第一RNN模型用于执行M个第一时序步骤时，对于该第一RNN模型执行的每个第一时序步骤，基于该第一目标引导信息确定该第一时序步骤的输入数据。

其中，所述M是指该第一RNN模型循环处理输入数据的次数，且该M为正整数，每个第一时序步骤为该第一RNN模型对输入数据的处理步骤。

其中，基于第一引导信息确定该第一时序步骤的输入数据可以包括基于该第一引导信息，通过以下公式(3)确定该第一时序步骤的输入数据：

x _t＝Ey _t+Qv (3)

其中，t为该第一时序步骤，x _t为该第一时序步骤的输入数据，E为词语嵌入矩阵且为该第一RNN模型的模型参数，y _t是该第一时序步骤对应的词语的独热one-hot向量，该第一时序步骤对应的词语是基于该第一时序步骤的上一个第一时序步骤的输出数据确定得到，Q为第六矩阵且为该第一RNN模型的模型参数，v为该第一引导信息。

2)基于该第一时序步骤的输入数据、该第一标注向量集合和该第一时序步骤的上一个第一时序步骤的输出数据，确定该第一时序步骤的输出数据。

本申请实施例中，通过该第一RNN模型，对该第一时序步骤的输入数据、该第一标注向量集合和该第一时序步骤的上一个第一时序步骤的输出数据进行处理，即可得到该第一时序步骤的输出数据。

其中，该第一时序步骤的输出数据可以包括隐含状态信息和记忆单元状态信息。而且，当该第一时序步骤为该M个第一时序步骤中的第一个第一时序步骤时，该第一时序步骤的上一个第一时序步骤的输出数据是基于该第一初始输入数据确定得到。例如，当该第一初始输入数据包括第一初始隐含状态信息h ₀和第一初始记忆单元状态信息c ₀，且该第一时序步骤为第一个第一时序步骤时，则该第一时序步骤的上一个第一时序步骤的输出数据即为h ₀和c ₀。

本申请实施例中，为了提高所生成的描述语句的质量，所使用的第一RNN模型可以为LSTM网络模型。以LSTM网络模型为例，基于该第一时序步骤的输入数据、该第一标注向量集合和该第一时序步骤的上一个第一时序步骤的输出数据，确定该第一时序步骤的输出数据可以抽象表示为如下公式(4)：

其中，t为该第一时序步骤，x _t为该第一时序步骤的输入数据，h _t-1为该第一时序步骤的上一个时序步骤的隐含状态信息，

为第一标注向量集合，h _t为该第一时序步骤的隐含状态信息，LSTM表示LSTM网络模型的处理过程。

具体地，LSTM网络模型的处理过程可以采用如下公式表示：

其中，i _t、f _t、c _t和0 _t分别为该第一时序步骤在输入门、遗忘门、记忆门和输出门的输出数据，σ是LSTM网络模型的激活函数，如sigmoid函数，tanh()是双曲正切函数，T是用于线性变换的矩阵，x _t为该第一时序步骤的输入数据，h _t-1为该第一时序步骤的上一个时序步骤的隐含状态信息，d _t为基于第一标注向量集合确定得到的目标数据，c _t为该第一时序步骤的记忆单元状态信息，c _t-1为该第一时序步骤的上一个第一时序步骤的记忆单元状态信息，h _t为该第一时序步骤的隐含状态信息。

其中，目标数据d _t可以为第一标注向量集合，也可以为上下文向量(Context Vector)，该上下文向量是基于第一标注向量集合和该第一时序步骤的上一个时序步骤的隐含状态信息，通过注意力模型确定得到的。

其中，注意力模型可以用来确定上一个第一时序步骤注意的是目标图像的哪个区域，也即是可以为

中的每个标注向量计算一个权重值，标注向量的权重越高表示该标注向量越被注意。

在一种可能的实现方式中，该LSTM网络模型可以为设置有注意力模型的LSTM网络模型，在得到第一标注向量集合和该第一时序步骤的上一个时序步骤的隐含状态信息之后，可以基于该第一标注向量集合和该第一时序步骤的上一个时序步骤的隐含状态信息，通过注意力模型确定上下文向量，并将该上下文向量作为该目标数据。

具体地，该注意力模型可以计算

中任一个标注向量a _i和h _t-1的相似度e _i，然后计算a _i的注意力的权重

之后使用每个标注向量的权重即可生成上下文向量z _t＝∑w _ia _i。

3)基于该M个第一时序步骤的所有输出数据，确定该目标图像的描述语句。

具体地，可以对该M个第一时序步骤中所有第一时序步骤的输出数据进行组合处理，得到该目标图像的描述语句。实际应用中，每个第一时序步骤的输出数据通常是一个词语，然后将该M个第一时序步骤输出的M个词语进行组合，即可得到该目标图像的描述语句。

以图3中所示的目标图像为例，该M个第一时序步骤的所有输出数据可能分别为男孩、给、女孩、送、花，则该目标图像的描述语句即为“男孩给女孩送花”。

进一步地，为了得到上述能够基于目标图像的标注向量集合准确生成引导信息的第一引导网络模型，在通过编码器对目标图像进行特征提取，得到特征向量和第一标注向量集合之前，还可以将第一待训练编码器、第一待训练引导网络模型和第一待训练解码器进行组合，得到第一级联网络模型，然后基于多个样本图像和该多个样本图像的描述语句，采用梯度下降法对该第一级联网络模型进行训练，得到该编码器、该第一引导网络模型和该解码器。

也即是，可以先将第一待训练编码器、第一待训练引导网络模型和第一待训练解码器按照图3或图4的连接方式构建成能够对图像进行处理，得到图像的描述语句的图像识别系统，然后基于多个样本图像和该多个样本图像的描述语句对该图像识别系统进行训练，在对图像识别系统进行训练的过程中，即可对其中的第一待训练引导网络模型进行训练，使得第一待训练引导网络模型能够在训练的过程中自适应地学习引导信息，保证生成的引导信息能够越来越准确。

其中，在训练第一待训练引导网络模型的过程中，可以使用Multi-label margin loss(基于间隔的多标记损失函数)作为该第一待训练引导网络模型的损失函数，并基于该损失函数采用随机梯度下降法对该第一待训练引导网络模型的模型参数进行调整，以得到该第一引导网络模型。

实际训练中，可以使用已标注的训练集进行训练，该训练集是<样本图像，描述语句>对的集合，比如MSCOCO数据集(一种常用数据集)等。

其中，第一待训练编码器可以为未训练过的编码器，也可以为预训练好的编码器，本申请实施例对此不做限定。例如，该第一待训练编码器可以采用在ImageNet(一个计算机视觉系统识别项目名称，是目前世界上图像识别最大的数据库)上预训练好的CNN模型，该CNN模型可以为inception V3模型(一种CNN模型)、Resnet模型(一种CNN模型)或者VGG模型(一种CNN模型)等。

通过使用预训练好的编码器作为第一待训练编码器来训练第一引导网络模型，可以提高整个第一级联网络模型的训练效率，进而提高其中的第一引导网络模型的训练效率。

需要说明的是，本申请实施例中，对目标图像进行识别，得到目标图像的描述语句的过程和对引导网络模型进行训练的过程可以在相同的终端上执行，也可以在不同的终端上执行，本申请实施例对此不做限定。

第二种实现方式：基于第一引导信息、第一标注向量集合和第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据；基于该第二标注向量集合，通过第二引导网络模型生成第二引导信息；基于该第二引导信息，通过该编码器对该第二标注向量集合和该第二初始输入数据进行编码，得到该目标图像的描述语句。

需要说明的是，该第二种实现方式将在下述图8实施例中进行详细说明，本申请实施例在此不做详细赘述。

本申请实施例中，在编码器和解码器之间增加了引导网络模型，从图像中提取标注向量集合之后，可以基于该标注向量集合通过该引导网络模型生成引导信息，由于该引导网络模型是通过样本图像的标注向量集合训练得到，可以在训练过程中自适应地学习如何根据图像的标注向量集合准确地生成引导信息，因此通过该引导网络模型所生成的引导信息准确度较高，能够对图像的编码过程进行准确引导，从而提高了生成描述语句的质量。

接下来将结合上述图5和图6所示的图像识别系统的结构示意图，对本申请实施例提供的图像识别方法进行详细介绍。图8是本申请实施例提供的另一种图像识别方法流程图，该方法应用于终端中。参见图8，该方法包括：

步骤201：通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合。

步骤202：对特征向量进行初始化处理，得到第一初始输入数据。

步骤203：基于第一标注向量集合，通过第一引导网络模型生成第一引导信息。

其中，步骤201-步骤203的具体实现方式可以参考上述步骤101-步骤103的相关描述，本申请实施例在此不再赘述。

步骤204：基于第一引导信息、第一标注向量集合和第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据。

本申请实施例中，解码器和审阅器通常均采用RNN模型，当然也可以采用其他模型，本申请实施例对此不做限定。

其中，审阅器用于进一步挖掘编码器从图像中提取的全局特征和局部特征之间的交互关系，并基于全局特征和局部特征之间的交互关系为解码器生成初始输入数据，即第二初始输入数据，以提高解码器的性能，进而提高生成描述语句的质量。

其中，第一初始输入数据是指待输入给审阅器的输入数据，用于指示该审阅器的初始状态，具体可以包括第一初始隐含状态信息和第一初始记忆单元状态信息，第一初始隐含状态信息用于指示审阅器的隐含层的初始状态，第一初始记忆单元状态信息用于指示审阅器的记忆单元的初始状态。

其中，第二初始输入数据是指待输入给解码器的输入数据，用于指示该解码器的初始状态，具体可以包括第二初始隐含状态信息和第二初始记忆单元状态信息，第二初始隐含状态信息用于指示解码器的隐含层的初始状态，第二初始记忆单元状态信息用于指示解码器的记忆单元的初始状态。

具体地，基于该第一引导信息、该第一标注向量集合和该第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据可以包括如下步骤1)-3)：

1)当该第一审阅器采用第二RNN模型，且该第二RNN模型用于执行N个第二时序步骤时，对于该第二RNN模型执行的每个第二时序步骤，基于该第一目标引导信息确定该第二时序步骤的输入数据。

其中，该N是指该第二RNN模型循环处理输入数据的次数，且该N为正整数，每个第二时序步骤为该第二RNN模型对输入数据的处理步骤。

具体地，可以基于该第二引导信息，通过以下公式(6)确定该第二时序步骤的输入数据：

x' _t＝E'y' _t+Q'v' (6)

其中，t为该第二时序步骤，x' _t为该第二时序步骤的输入数据，E'为词语嵌入矩阵且为该第二RNN模型的模型参数，Q'为第七矩阵且为该第二RNN模型的模型参数，v'为该第二引导信息。

2)基于该第二时序步骤的输入数据、该第一标注向量集合和该第二时序步骤的上一个第二时序步骤的输出数据，确定该第二时序步骤的输出数据。

其中，该第二时序步骤的输出数据可以包括隐含状态信息和记忆单元状态信息，当该第二时序步骤为该N个第二时序步骤中的第一个第二时序步骤时，该第二时序步骤的上一个第二时序步骤的输出数据是基于该第一初始输入数据确定得到。

本申请实施例中，通过该第二RNN模型，对该第二时序步骤的输入数据、该第二标注向量集合和该第二时序步骤的上一个第二时序步骤的输出数据进行处理，即可得到该第二时序步骤的输出数据。

具体地，可以按照上述基于该第一时序步骤的输入数据、该第一标注向量集合和该第一时序步骤的上一个第一时序步骤的输出数据，确定该第一时序步骤的输出数据的方法，基于该第二时序步骤的输入数据、该第一标注向量集合和该第二时序步骤的上一个第二时序步骤的输出数据，确定该第二时序步骤的输出数据，具体实现方式可以参考上述相关描述，在此不再详细赘述。

3)基于该N个第二时序步骤中最后一个第二时序步骤的输出数据，确定该第二初始输入数据。

具体地，可以将最后一个第二时序步骤的输出数据确定为该第二初始输入数据，例如，可以将最后一个第二时序步骤的隐含状态信息和记忆单元状态信息确定为该第二初始输入数据，即确定为该目标编码器的初始隐含状态信息和初始记忆单元状态信息。

4)基于该N个第二时序步骤的所有输出数据，确定该第二标注向量集合。

具体地，可以将该N个第二时序步骤中所有时序步骤的隐含状态信息的集合确定为该第二标注向量集合。

步骤205：基于该第二标注向量集合，通过第二目标引导网络模型生成第二引导信息，该第二引导网络模型用于根据标注向量集合生成引导信息。

具体地，可以按照上述图7实施例中步骤103所述的基于第一标注向量集合，通过第一引导网络模型生成第一引导信息的方法，基于第二标注向量集合，通过第二引导网络模型生成第二引导信息。具体实现方式可以参数上述步骤103的相关描述，此处不再详细赘述。

其中，第二引导网络模型可以与第一引导网络模型一起通过样本图像进行训练得到，且在训练的过程中可以自动学习引导信息，因此，通过该第一引导网络模型和第二引导网络模型生成的引导信息的准确度都较高，所生成的引导信息能够对编码的编码过程进行准确引导，进而可以提高生成目标图像的描述语句的质量。

步骤206：基于该第二引导信息，通过该编码器对该第二标注向量集合和该第二初始输入数据进行编码，得到该目标图像的描述语句。

具体地，可以按照上述图7实施例中步骤104所述的基于第一引导信息，通过解码器对第一标注向量集合和第一初始输入数据进行解码，得到该目标图像的描述语句的方法，基于该第二引导信息，通过该编码器对该第二标注向量集合和该第二初始输入数据进行编码，得到该目标图像的描述语句。具体实现方式可以参考上述步骤104中第一种实现方式的相关描述，此处不再详细赘述。

进一步地，为了得到上述能够基于目标图像的第一标注向量集合准确生成第一引导信息的第一引导网络模型，以及基于第二标注向量集合准确生成第二引导信息的第二引导网络模型，在通过编码器对目标图像进行特征提取，得到特征向量和第一标注向量集合之前还可以将第二待训练编码器、第二待训练引导网络模型、待训练审阅器、第三待训练引导网络模型和第二待训练解码器进行组合，得到第二级联网络模型，然后基于多个样本图像和该多个样本图像的描述语句，采用梯度下降法对该第二级联网络模型进行训练，得到该编码器、该第一引导网络模型、该审阅器、该第二引导网络模型和该解码器。

也即是，可以先将第二待训练编码器、第二待训练引导网络模型、待训练审阅器、第三待训练引导网络模型和第二待训练解码器按照图5的连接的方式构建成能够对图像进行处理，得到图像的描述语句的图像识别系统，然后基于多个样本图像和该多个样本图像的描述语句对该图像识别系统进行训练，在对图像识别系统进行训练的过程中，即可对其中的第二待训练引导网络模型和第三待训练引导网络模型进行训练，使得第二待训练引导网络模型和第三待训练引导网络模型能够在训练的过程中自适应地学习引导信息，保证生成的引导信息能够越来越准确。

其中，第二待训练编码器可以为未训练过的编码器，也可以为预训练好的编码器，训练审阅器可以为未训练过的审阅器，也可以为预训练好的审阅器，本申请实施例对此不做限定。

需要说明的是，通过使用预训练好的编码器作为第二待训练编码器，或者使用预训练好的审阅器最为待训练审阅器来训练第一引导网络模型和第二引导网络模型，可以提高整个第二级联网络模型的训练效率，进而提高其中的第一引导网络模型和第二引导网络模型的训练效率。

还需要说明的是，本申请实施例中，对目标图像进行识别，得到目标图像的描述语句的过程和对引导网络模型进行训练的过程可以在相同的终端上执行，也可以在不同的终端上执行，本申请实施例对此不做限定。

本申请实施例中，在编码器和解码器之间增加了引导网络模型，从图像中提取标注向量集合之后，可以基于该标注向量集合通过该引导网络模型生成引导信息，由于该引导网络模型是通过样本图像训练得到，可以在训练过程中自适应地学习引导信息，因此通过该引导网络模型所生成的引导信息准确度较高，能够对图像的编码过程进行准确引导，从而提高了生成描述语句的质量。

进一步地，通过在编码器和解码器之间增加审阅器，可以通过审阅器进一步挖掘目标图像的局部特征和全局特征的交互关系，使得生成的第二标注向量集合和第二初始输入数据能够更准确地指示目标图像的特征，进一步提高了图像识别系统的系统性能，进而提高了生成描述语句的质量。

图9是本申请实施例提供的一种图像识别装置的结构示意图，该装置可以为终端。参见图9，该装置包括：

提取模块301，用于通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合；

处理模块302，用于对该特征向量进行初始化处理，得到第一初始输入数据；

生成模块303，用于基于该第一标注向量集合，通过第一引导网络模型生成第一引导信息，该第一引导网络模型用于根据任一图像的标注向量集合生成引导信息；

确定模块304，用于基于该第一引导信息、该第一标注向量集合和该第一初始输入数据，通过解码器确定该目标图像的描述语句。

可选地，参见图10，该生成模块303包括：

第一线性变换单元3031，用于基于该第一引导网络模型中的模型参数构成的第一矩阵对该第一标注向量集合进行线性变换，得到第二矩阵；

第一确定单元3032，用于基于该第二矩阵中每一行的最大值确定该第一引导信息。

可选地，参见图11，该第一引导网络模型用于根据任一图像的标注向量集合和属性信息生成引导信息，该属性信息用于指示该图像的描述语句中预测出现的词语的概率；

该生成模块303包括：

处理单元3033，用于将该目标图像作为多示例模型的输入，通过该多示例模型对该目标图像进行处理，得到该目标图像的属性信息；

第二线性变换单元3034，用于基于该第二引导网络模型中的模型参数构成的第三矩阵对该第一标注向量集合进行线性变换，得到第四矩阵；

第一生成单元3035，用于基于该第四矩阵和该目标图像的属性信息，生成第五矩阵；

第二确定单元3036，用于基于该第五矩阵中每一行的最大值确定该第一引导信息。

可选地，该确定模型304用于：

基于该第一引导信息，通过该解码器对该第一标注向量集合和该第一初始输入数据进行解码，得到该目标图像的描述语句。

可选地，参见图12，该确定模型304包括：

第三确定单元3041，用于当该解码器采用第一循环神经网络RNN模型，且该第一RNN模型用于执行M个第一时序步骤时，对于该第一RNN模型执行的每个第一时序步骤，基于该第一引导信息确定该第一时序步骤的输入数据；

其中，该M是指该第一RNN模型循环处理输入数据的次数，且该M为正整数，每个第一时序步骤为该第一RNN模型对输入数据的处理步骤；

第四确定单元3042，用于基于该第一时序步骤的输入数据、该第一标注向量集合和该第一时序步骤的上一个第一时序步骤的输出数据，确定该第一时序步骤的输出数据；

其中，当该第一时序步骤为该M个第一时序步骤中的第一个第一时序步骤时，该第一时序步骤的上一个第一时序步骤的输出数据是基于该第一初始输入数据确定得到；

第五确定单元3043，用于基于该M个第一时序步骤的所有输出数据，确定该目标图像的描述语句。

可选地，该第三确定单元3041用于：

基于该第一引导信息，通过以下公式确定该第一时序步骤的输入数据：

x _t＝Ey _t+Qv

可选地，参见图13，该装置还包括：

第一组合模块305，用于将第一待训练编码器、第一待训练引导网络模型和第一待训练解码器进行组合，得到第一级联网络模型；

第一训练模块306，基于多个样本图像和该多个样本图像的描述语句，采用梯度下降法对该第一级联网络模型进行训练，得到该编码器、该第一引导网络模型和该解码器。

可选地，参见图14，该确定模型304包括：

第六确定单元3044，用于基于该第一引导信息、该第一标注向量集合和该第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据；

第二生成单元3045，用于基于该第二标注向量集合，通过第二引导网络模型生成第二引导信息，该第二引导网络模型是通过样本图像训练得到；

编码单元3046，用于基于该第二引导信息，通过该编码器对该第二标注向量集合和该第二初始输入数据进行编码，得到该目标图像的描述语句。

可选地，该第六确定单元3044用于：

当该第一审阅器采用第二RNN模型，且该第二RNN模型用于执行N个第二时序步骤时，对于该第二RNN模型执行的每个第二时序步骤，基于该第一目标引导信息确定该第二时序步骤的输入数据；

其中，该N是指该第二RNN模型循环处理输入数据的次数，且该N为正整数，每个第二时序步骤为该第二RNN模型对输入数据的处理步骤；

基于该第二时序步骤的输入数据、该第一标注向量集合和该第二时序步骤的上一个第二时序步骤的输出数据，确定该第二时序步骤的输出数据；

其中，当该第二时序步骤为该N个第二时序步骤中的第一个第二时序步骤时，该第二时序步骤的上一个第二时序步骤的输出数据是基于该第一初始输入数据确定得到；

基于该N个第二时序步骤中最后一个第二时序步骤的输出数据，确定该第二初始输入数据；

基于该N个第二时序步骤的所有输出数据，确定该第二标注向量集合。

可选地，参见图15，该装置还包括：

第二组合模块307，用于将第二待训练编码器、第二待训练引导网络模型、待训练审阅器、第三待训练引导网络模型和第二待训练解码器进行组合，得到第二级联网络模型；

第二训练模块308，用于基于多个样本图像和该多个样本图像的描述语句，采用梯度下降法对该第二级联网络模型进行训练，得到该编码器、该第一引导网络模型、该审阅器、该第二引导网络模型和该解码器。

需要说明的是：上述实施例提供的图像识别装置在进行图像识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16是本申请实施例提供的一种终端400的结构示意图。参见图16，终端400可以包括通信单元410、包括有一个或一个以上计算机可读存储介质的存储器420、输入单元430、显示单元440、传感器450、音频电路460、WIFI(Wireless Fidelity，无线保真)模块470、包括有一个或者一个以上处理核心的处理器480、以及电源490等部件。本领域技术人员可以理解，图16中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

通信单元410可用于收发信息或通话过程中，信号的接收和发送，该通信单元410可以为RF(Radio Frequency，射频)电路、路由器、调制解调器、等网络通信设备。特别地，当通信单元410为RF电路时，将基站的下行信息接收后，交由一个或者一个以上处理器480处理；另外，将涉及上行的数据发送给基站。通常，作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，通信单元410还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access，宽带码分多址)、LTE(Long Term Evolution，长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器480和输入单元430对存储器420的访问。

输入单元430可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地，输入单元430可包括触敏表面431以及其他输入设备432。触敏表面431，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面431上或在触敏表面431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面431。除了触敏表面431，输入单元430还可以包括其他输入设备432。优选地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及终端400的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元440可包括显示面板441，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板441。进一步的，触敏表面431可覆盖显示面板441，当触敏表面431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图16中，触敏表面431与显示面板441是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面431与显示面板441集成而实现输入和输出功能。

终端400还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在终端400移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与终端400之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经通信单元410以发送给比如另一终端，或者将音频数据输出至存储器420以便进一步处理。音频电路460还可能包括耳塞插孔，以提供外设耳机与终端400的通信。

为了实现无线通信，该终端上可以配置有无线通信单元470，该无线通信单元470可以为WIFI模块。WIFI属于短距离无线传输技术，终端400通过无线通信单元470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元470，但是可以理解的是，其并不属于终端400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是终端400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行终端400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理核心；优选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

终端400还包括给各个部件供电的电源490(比如电池)，优选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源460还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端400还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，终端包括处理器和存储器，存储器中还存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述图7或图8实施例所述的图像识别方法。

在另一实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述图7或图8实施例所述的图像识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的较佳实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

一种图像识别方法，所述方法由终端执行，其特征在于，所述方法包括：

通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合；

对所述特征向量进行初始化处理，得到第一初始输入数据；

基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，所述第一引导网络模型用于根据任一图像的标注向量集合生成引导信息；

基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过解码器确定所述目标图像的描述语句。
如权利要求1所述的方法，其特征在于，所述基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，包括：

基于所述第一引导网络模型中的模型参数构成的第一矩阵，对所述第一标注向量集合进行线性变换，得到第二矩阵；

基于所述第二矩阵中每一行的最大值确定所述第一引导信息。
如权利要求1所述的方法，其特征在于，所述第一引导网络模型用于根据任一图像的标注向量集合和属性信息生成引导信息，所述属性信息用于指示所述图像的描述语句中预测出现的词语的概率；

所述基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，包括：

将所述目标图像作为多示例模型的输入，通过所述多示例模型对所述目标图像进行处理，得到所述目标图像的属性信息；

基于所述第一引导网络模型中的模型参数构成的第三矩阵，对所述第一标注向量集合进行线性变换，得到第四矩阵；

基于所述第四矩阵和所述目标图像的属性信息，生成第五矩阵；

基于所述第五矩阵中每一行的最大值确定所述第一引导信息。
如权利要求1所述的方法，其特征在于，所述基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过解码器确定所述目标图像的描述语句，包括：

基于所述第一引导信息，通过所述解码器对所述第一标注向量集合和所述第一初始输入数据进行解码，得到所述目标图像的描述语句。
如权利要求4所述的方法，其特征在于，所述基于所述第一引导信息，通过所述解码器对所述第一标注向量集合和所述第一初始输入数据进行解码，得到所述目标图像的描述语句，包括：

当所述解码器采用第一循环神经网络RNN模型，且所述第一RNN模型用于执行M个第一时序步骤时，对于所述第一RNN模型执行的每个第一时序步骤，基于所述第一引导信息确定所述第一时序步骤的输入数据；

其中，所述M是指所述第一RNN模型循环处理输入数据的次数，且所述M为正整数，每个第一时序步骤为所述第一RNN模型对输入数据的处理步骤；

基于所述第一时序步骤的输入数据、所述第一标注向量集合和所述第一时序步骤的上一个第一时序步骤的输出数据，确定所述第一时序步骤的输出数据；

其中，当所述第一时序步骤为所述M个第一时序步骤中的第一个第一时序步骤时，所述第一时序步骤的上一个第一时序步骤的输出数据是基于所述第一初始输入数据确定得到；

基于所述M个第一时序步骤的所有输出数据，确定所述目标图像的描述语句。
如权利要求5所述的方法，其特征在于，所述基于所述第一引导信息确定所述第一时序步骤的输入数据，包括：

基于所述第一引导信息，通过以下公式确定所述第一时序步骤的输入数据：

x _t＝Ey _t+Qv

其中，t为所述第一时序步骤，x _t为所述第一时序步骤的输入数据，E为词语嵌入矩阵且为所述第一RNN模型的模型参数，y _t是所述第一时序步骤对应的词语的独热one-hot向量，所述第一时序步骤对应的词语是基于所述第一时序步骤的上一个第一时序步骤的输出数据确定得到，Q为第六矩阵且为所述第一RNN模型的模型参数，v为所述第一引导信息。
如权利要求1-6任一所述的方法，其特征在于，所述通过编码器对目标图像进行特征提取，得到特征向量和第一标注向量集合之前，还包括：

将第一待训练编码器、第一待训练引导网络模型和第一待训练解码器进行组合，得到第一级联网络模型；

基于多个样本图像和所述多个样本图像的描述语句，采用梯度下降法对所述第一级联网络模型进行训练，得到所述编码器、所述第一引导网络模型和所述解码器。
如权利要求1所述的方法，其特征在于，所述基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过所述解码器确定所述目标图像的描述语句，包括：

基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据；

基于所述第二标注向量集合，通过第二引导网络模型生成第二引导信息，所述第二引导网络模型用于根据标注向量集合生成引导信息；

基于所述第二引导信息，通过所述编码器对所述第二标注向量集合和所述第二初始输入数据进行编码，得到所述目标图像的描述语句。
如权利要求8所述的方法，其特征在于，所述基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据，包括：

当所述第一审阅器采用第二RNN模型，且所述第二RNN模型用于执行N个第二时序步骤时，对于所述第二RNN模型执行的每个第二时序步骤，基于所述第一引导信息确定所述第二时序步骤的输入数据；

其中，所述N是指所述第二RNN模型循环处理输入数据的次数，且所述N为正整数，每个第二时序步骤为所述第二RNN模型对输入数据的处理步骤；

基于所述第二时序步骤的输入数据、所述第一标注向量集合和所述第二时序步骤的上一个第二时序步骤的输出数据，确定所述第二时序步骤的输出数据；

其中，当所述第二时序步骤为所述N个第二时序步骤中的第一个第二时序步骤时，所述第二时序步骤的上一个第二时序步骤的输出数据是基于所述第一初始输入数据确定得到；

基于所述N个第二时序步骤中最后一个第二时序步骤的输出数据，确定所述第二初始输入数据；

基于所述N个第二时序步骤的所有输出数据，确定所述第二标注向量集合。
如权利要求8或9所述的方法，其特征在于，所述通过编码器对目标图像进行特征提取，得到特征向量和第一标注向量集合之前，还包括：

将第二待训练编码器、第二待训练引导网络模型、待训练审阅器、第三待训练引导网络模型和第二待训练解码器进行组合，得到第二级联网络模型；

基于多个样本图像和所述多个样本图像的描述语句，采用梯度下降法对所述第二级联网络模型进行训练，得到所述编码器、所述第一引导网络模型、所述审阅器、所述第二引导网络模型和所述解码器。
一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

通过编码器对待识别的目标图像进行特征提取，得到特征向量和第一标注向量集合；

对所述特征向量进行初始化处理，得到第一初始输入数据；

基于所述第一标注向量集合，通过第一引导网络模型生成第一引导信息，所述第一引导网络模型用于根据任一图像的标注向量集合生成引导信息；

基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过解码器确定所述目标图像的描述语句。
如权利要求11所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

基于所述第一引导网络模型中的模型参数构成的第一矩阵，对所述第一标注向量集合进行线性变换，得到第二矩阵；

基于所述第二矩阵中每一行的最大值确定所述第一引导信息。
如权利要求11所述的终端，其特征在于，所述第一引导网络模型用于根据任一图像的标注向量集合和属性信息生成引导信息，所述属性信息用于指示所述图像的描述语句中预测出现的词语的概率；

所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

将所述目标图像作为多示例模型的输入，通过所述多示例模型对所述目标图像进行处理，得到所述目标图像的属性信息；

基于所述第一引导网络模型中的模型参数构成的第三矩阵，对所述第一标注向量集合进行线性变换，得到第四矩阵；

基于所述第四矩阵和所述目标图像的属性信息，生成第五矩阵；

基于所述第五矩阵中每一行的最大值确定所述第一引导信息。
如权利要求11所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

基于所述第一引导信息，通过所述解码器对所述第一标注向量集合和所述第一初始输入数据进行解码，得到所述目标图像的描述语句。
如权利要求14所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

当所述第一审阅器采用第二RNN模型，且所述第二RNN模型用于执行N个第二时序步骤时，对于所述第二RNN模型执行的每个第二时序步骤，基于所述第一引导信息确定所述第二时序步骤的输入数据；

其中，所述N是指所述第二RNN模型循环处理输入数据的次数，且所述N为正整数，每个第二时序步骤为所述第二RNN模型对输入数据的处理步骤；

基于所述第二时序步骤的输入数据、所述第一标注向量集合和所述第二时序步骤的上一个第二时序步骤的输出数据，确定所述第二时序步骤的输出数据；

其中，当所述第二时序步骤为所述N个第二时序步骤中的第一个第二时序步骤时，所述第二时序步骤的上一个第二时序步骤的输出数据是基于所述第一初始输入数据确定得到；

基于所述N个第二时序步骤中最后一个第二时序步骤的输出数据，确定所述第二初始输入数据；

基于所述N个第二时序步骤的所有输出数据，确定所述第二标注向量集合。
如权利要求11-15任一所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

将第一待训练编码器、第一待训练引导网络模型和第一待训练解码器进行组合，得到第一级联网络模型；

基于多个样本图像和所述多个样本图像的描述语句，采用梯度下降法对所述第一级联网络模型进行训练，得到所述编码器、所述第一引导网络模型和所述解码器。
如权利要求11所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据，通过审阅器确定第二标注向量集合和第二初始输入数据；

基于所述第二标注向量集合，通过第二引导网络模型生成第二引导信息，所述第二引导网络模型用于根据标注向量集合生成引导信息；

基于所述第二引导信息，通过所述编码器对所述第二标注向量集合和所述第二初始输入数据进行编码，得到所述目标图像的描述语句。
如权利要求17所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

当所述第一审阅器采用第二RNN模型，且所述第二RNN模型用于执行N个第二时序步骤时，对于所述第二RNN模型执行的每个第二时序步骤，基于所述第一引导信息确定所述第二时序步骤的输入数据；

其中，所述N是指所述第二RNN模型循环处理输入数据的次数，且所述N为正整数，每个第二时序步骤为所述第二RNN模型对输入数据的处理步骤；

基于所述第二时序步骤的输入数据、所述第一标注向量集合和所述第二时序步骤的上一个第二时序步骤的输出数据，确定所述第二时序步骤的输出数据；

其中，当所述第二时序步骤为所述N个第二时序步骤中的第一个第二时序步骤时，所述第二时序步骤的上一个第二时序步骤的输出数据是基于所述第一初始输入数据确定得到；

基于所述N个第二时序步骤中最后一个第二时序步骤的输出数据，确定所述第二初始输入数据；

基于所述N个第二时序步骤的所有输出数据，确定所述第二标注向量集合。
如权利要求17或18所述的终端，其特征在于，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如下操作：

将第二待训练编码器、第二待训练引导网络模型、待训练审阅器、第三待训练引导网络模型和第二待训练解码器进行组合，得到第二级联网络模型；

基于多个样本图像和所述多个样本图像的描述语句，采用梯度下降法对所述第二级联网络模型进行训练，得到所述编码器、所述第一引导网络模型、所述审阅器、所述第二引导网络模型和所述解码器。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-10任一项所述的图像识别方法。