WO2021037113A1

WO2021037113A1 - 一种图像描述的方法及装置、计算设备和存储介质

Info

Publication number: WO2021037113A1
Application number: PCT/CN2020/111602
Authority: WO
Inventors: 宋振旗; 李长亮; 廖敏鹏
Original assignee: 北京金山数字娱乐科技有限公司
Priority date: 2019-08-27
Filing date: 2020-08-27
Publication date: 2021-03-04
Also published as: JP2022546811A; US20220351487A1; CN110309839A; EP4024274A1; EP4024274A4; CN110309839B

Abstract

本申请提供一种图像描述的方法及装置、计算设备和存储介质，所述方法包括：利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征；对多个第一特征提取模型生成的图像特征进行融合处理，生成目标图像对应的全局图像特征；利用第二特征提取模型对目标图像进行特征提取得到目标图像对应的目标检测特征；将目标图像对应的全局图像特征和目标检测特征输入至翻译模型，将生成的翻译语句作为目标图像的描述语句，从而在后续将目标图像对应的全局图像特征和目标检测特征输入至翻译模型生成翻译语句的过程中，有更为丰富图像信息的全局图像特征作为参考，使输出的翻译语句更加准确。

Description

一种图像描述的方法及装置、计算设备和存储介质

本申请要求于2019年08月27日提交中国专利局、申请号为201910797332.X发明名称为“一种图像描述的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像描述的方法及装置、计算设备和存储介质。

背景技术

图像描述，是指根据图像自动生成一段描述性文字，类似于“看图说话”。对于人来说，图像描述是简单而自然的一件事，但对于机器来说，这项任务却充满了挑战性。原因在于机器不仅要能检测出图像中的物体，而且还要理解物体之间的相互关系，最后还要用合理的语言表达出来。

现有技术中，图像描述的过程中需要机器对目标图像提取局部信息和全局信息，并将全局信息和局部信息输入至翻译模型，并将翻译模型输出的语句作为图像对应的描述信息。目前的图像描述任务中，大多使用单一的特征提取模型对目标图像进行全局信息的提取。此种情况下，特征提取模型对全局信息的提取，依赖该特征提取模型自身的性能，有的特征提取模型会关注到图像中的某一类信息，有的特征提取模型会关注到图像中的另一类信息，这样会导致后续过程中翻译模型往往不能以图像对应的完整的全局信息作为参考，导致输出的语句有偏差。

发明内容

有鉴于此，本申请实施例提供了一种图像描述的方法及装置、计算设备和存储介质，以解决现有技术中存在的技术缺陷。

第一方面，本申请实施例提供了一种图像描述的方法，包括：

利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。

可选地，对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征，包括：

对所述多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征；

对多个所述中间特征进行拼接，生成初始全局特征；

将所述初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。

可选地，所述翻译模型包括编码器和解码器；

将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句，包括：

将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句。

可选地，编码器包括N个依次连接的编码层，其中，N为大于1的整数；

将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量，包括：

S11、将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

S12、将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

S13、判断i是否等于N，若否，将i自增1，执行步骤S12，若是，执行步骤S14；

S14、将第N个编码层的输出向量作为所述编码器输出的编码向量。

可选地，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量，包括：

将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；

将所述第一中间向量和所述全局图像特征输入至所述第二编码自注意力层，得到第二中间向量；

将所述第二中间向量经过所述第一前馈层进行处理，得到第一个编码层的输出向量。

将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，包括：将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；将所述第三中间向量和所述全局图像特征输入至第二编码自注意力层，得到第四中间向量；将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。

可选地，解码器包括M个依次连接的解码层，其中，M为大于1的整数；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量，包括：

S21、将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量；

S22、将第j-1个解码层的输出向量、所述编码向量和所述全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M；

S23、判断j是否等于M，若否，将j自增1，执行步骤S22，若是，执行步骤S24；

S24、将第M个解码层的输出向量作为所述解码器输出的解码向量。

可选地，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量，包括：

将所述参考解码向量经过所述第一解码自注意力层进行处理，得到第五中间向量；将所述第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；将所述第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；将第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。

将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，包括：

将第j-1个解码层的输出向量经过所述第一解码自注意力层进行处理，得到第八中间向量；

将所述第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；

将所述第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；

将所述第十中间向量经过所述第二前馈层进行处理，得到第j个解码层的输出向量。

第二方面，本申请实施例提供了一种图像描述的装置，包括：

特征提取模块，被配置为利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

全局图像特征提取模块，被配置为对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

目标检测特征提取模块，被配置为利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

翻译模块，被配置为将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。

第三方面，本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的图像描述的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的图像描述的方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，用于在运行时实现如上所述的图像描述的方法的步骤。

本申请提供的图像描述的方法及装置、计算设备和存储介质，通过利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征，将多个第一特征提取模型生成的图像特征融合生成目标图像对应的全局图像特征，克服了单一特征提取模型过于依赖模型自身性能的缺陷，相比于现有技术中利用单一特征提取模型的图像特征，能够减轻单一特征提取模型提取的图像特征性能单一的缺陷，从而在后续将目标图像对应的全局图像特征和目标检测特征输入至翻译模型生成翻译语句的过程中，有更为丰富图像信息的全局图像特征作为参考，使输出的翻译语句更加准确。

其次，本申请通过多个第一特征提取模型对目标图像进行特征提取，并把多个第一特征提取模型提取到的图像特征进行拼接得到初始全局特征，从而可以使初始全局特征尽可能地包含目标图像的更全的特征，然后再经过多个第二自注意力层进行融合，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力计算资源，获取更多与目标图像有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力计算资源从大量信息中快速筛选出高价值的信息，得到包含更为丰富的图像信息的全局图像特征。

再次，本申请将目标检测特征和全局图像特征输入至编码器，从而可以在每个编码层的编码过程中，将包含有丰富图像信息的全局图像特征作为背景信息，得到的每个编码层的编码向量可以更多地提取到图像的信息，使输出的翻译语句更加准确。

另外，本申请将全局图像特征输入至解码器的每个解码层，从而可以在每个解码层的解码过程中，将包含有丰富图像信息的全局图像特征作为背景信息，可以使解码得到的解码向量与图像信息的对应度更高，使输出的翻译语句更加准确。

附图说明

为了更清楚地说明本申请实施例和现有技术的技术方案，下面对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例的计算设备的结构示意图；

图2是本申请一实施例的图像描述的方法的流程示意图；

图3是本申请一实施例的图像描述的方法的流程示意图；

图4是本申请一实施例的翻译模型的编码层的结构示意图；

图5是本申请一实施例的翻译模型的解码层的结构示意图；

图6是本申请另一实施例的图像描述的方法的示意图；

图7是本申请另一实施例的图像描述的装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案、及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一，取决于语境。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

图像特征融合：指在图像特征输入阶段使用多个预训练的卷积网络提取的特征进行融合代替单一图像特征，从而给训练网络提供更丰富的特征输入。

RNN(Recurrent Neural Network，递归神经网络)模型：是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关。RNN模型通过添加跨越时间点的自连接隐藏层，对时间进行建模；换句话说，隐藏层的反馈不仅仅进入输出端，而且还进入了下一时间的隐藏层。

Transformer：一种翻译模型，其架构包括：编码器(encoder)—解码器(decoder)。编码器实现对待翻译的源语句进行编码生成向量，解码器实现对源语句的向量进行解码生成对应的目标语句。

图像描述(image caption)：一个融合计算机视觉、自然语言处理和机器学习的综合问题，根据图像给出能够描述图像内容的自然语言语句，通俗讲，它就是翻译一副图片为一段描述文字。

自注意力计算：例如输入一个句子进行自注意力计算，那么里面的每个词都要和该句子中的所有词进行自注意力计算，目的是学习句子内部的词依赖关系，捕获句子的内部结构。对输入的图像特征进行自注意力计算，会对每个特征与其他特征进行自注意力计算，目的是学习图像内部的特征依赖关系。

全局图像特征：为目标图像对应的全部特征。

目标检测特征：为目标图像中特定区域的特征。

在本申请中，提供了一种图像描述的方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。例如，计算设备100可以利用接入设备140，经由网络160与数据库150通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合等。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2示出了根据本申请一实施例的图像描述方法的示意性流程图，包括步骤201至步骤204。

201、利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征。

具体地，第一特征提取模型可以为多个，本申请中利用多个第一特征提取模型对目标图像进行特征提取，第一特征提取模型的类型可以包括：VGG(Visual Geometry Group Network，视觉几何组网络)、Resnet模型、Densnet模型、inceptionv3模型等卷积网络模型。

一种可能的实施方式中，多个第一特征模型提取的图像特征的尺寸相同。通过设置第一特征模型的卷积层参数，可以调节图像特征的尺寸。除了尺寸相同外，各图像特征的通道数也可以相同。例如，提取的图像特征的维度可以表示为224*224*3，其中224*224表示图像特征的高度*宽度，即图像特征的尺寸；3是通道数，也即图像特征的个数。通常情况下，输入图像的高度和宽度相等，卷积层的卷积核大小可以根据实际需求而设置，常用的卷积核有1*1*1、3*3*3、5*5*5、7*7*7等。

一种可能的实施方式中，多个第一特征模型生成的图像特征的尺寸均相同，但是图像特征的个数(通道数)可以彼此不同。例如第1个第一特征提取模型生成的图像特征为P*Q*L1，也即图像特征为L1个，图像特征的尺寸为P*Q；第2个第一特征提取模型生成的图像特征为P*Q*L2，也即图像特征为L2个，图像特征的尺寸为P*Q，其中，P*Q是图像特征的高度*宽度，L1和L2分别为第1个第一特征模型和第2个第一特征模型生成的图像特征的个数。

202、对多个第一特征提取模型生成的图像特征进行融合处理，生成目标图像对应的全局图像特征。

可以通过泊松融合方法、加权平均法、羽化算法、拉普拉斯融合算法、自注意力算法等，将各第一特征提取模型生成的图像特征进行融合处理，得到目标图像对应的全局图像特征。

一种可能的实施方式中，步骤202包括：

S2021、对多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征。

其中，第一自注意力层包括多头自注意力层和前馈层。本步骤中第一自注意力层的个数与第一特征提取模型的个数相同。

各第一特征提取模型均可以对应有相应的第一自注意力层。例如，以5个第一特征提取模型为例，该5个第一特征模型均对同一图像进行处理生成对应的图像特征，然后将每个第一特征提取模型生成的图像特征通过对应的第一自注意力层进行特征提取，得到生成的中间特征。

S2022、对多个中间特征进行拼接，生成初始全局特征。

其中，拼接处理可以通过调用contact函数来实现。

例如，仍以5个第一特征提取模型为例，将5个第一特征提取模型对应的第一自注意力层生成的中间特征进行拼接处理，生成1个初始全局特征。例如第1个第一特征提取模型对应的第一自注意力层生成A1个中间特征，中间特征的尺寸为P*Q，第2个第一特征提取模型对应的第一自注意力层生成A2个中间特征，中间特征的尺寸为P*Q，第3个第一特征提取模型对应的第一自注意力层生成A3个中间特征，中间特征的尺寸为P*Q，第4个第一特征提取模型对应的第一自注意力层生成A4个中间特征，中间特征的尺寸为P*Q，第5个第一特征提取模型对应的第一自注意力层生成A5个中间特征，中间特征的尺寸为P*Q。那么拼接处理后的初始全局特征包含(A1+A2+A3+A4+A5)个特征。

可以理解的是，本步骤为将多个中间特征进行拼接，并不进行进一步地融合处理，所以，相比于中间特征，生成的初始全局特征中特征之间的关系并未改变，这也就意味着初始全局特征的特征会有部分重复，此类特征会在后续步骤中进一步地进行处理。

S2023、将初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。

其中，第二自注意力层包括多头自注意力层和前馈层。本步骤中第二自注意力层的个数可以为多个，可以根据实际需求自定义设置。

一种实施方式中，第二自注意力层的结构与第一自注意力层的结构可以相同，其目的均是对输入的向量进行自注意力处理，以提取后续步骤中需要进行处理的向量。但不同的是，在第一自注意力层和第二自注意力层均为多个的情形下，多个第一自注意力层为并行地对每个第一特征提取模型生成的图像特征进行处理，而第二自注意力层为串行地对初始全局特征进行逐层处理。

经过多个中间特征进行拼接生成的初始全局特征，经过第二自注意力层进行融合处理，会促使不同特征之间的相互融合。

例如，对于初始全局特征包含C类的特征C1，以及C类的特征C2，二者之间的关联性较强。在通过第二自注意力层进行融合处理的过程中，第二自注意力层会关注到关联性强的特征C1和C2，并根据特征C1和C2融合得到特征C1'。

又例如初始全局特征包含重复的多个D类的特征D1，在通过第二自注意力层进行融合处理的过程中，第二自注意力层会关注到重复的多个特征D1，并将重复的多个特征D1生成一个D类的特征D1。

本实施例中，特征融合的方法有很多，例如泊松融合方法、加权平均法、羽化算法、拉普拉斯融合算法、自注意力算法等，本实施例优选使用自注意力算法。

例如，可以用键值对(key-value)来表示输入信息，其中，地址Key代表键，value代表该键对应的值。“键”用来计算注意力分布，“值”用来计算聚合信息。则n个输入信息就可以表示为(K,V)＝[(k1,v1),(k2,v2),...,(kn,vn)]。

具体地，可以先根据公式(1)，计算Query和Key的相似度：

Si＝F(Q,ki)(1)

其中，Si为注意力得分；

Q为Query，为查询向量；

ki对应于每个key向量。

然后，通过公式(2)用softmax函数对注意力得分进行数值转换。一方面可以进行归一化，得到所有权重系数之和为1的概率分布，另一方面可以用softmax函数的特性突出重要元素的权重：

其中，α _i为权重系数。

最后，通过公式(3)，根据权重系数对value进行加权求和：

其中，v _i为value向量。

根据自注意力计算，将包含(A1+A2+A3+A4+A5)个特征的初始全局特征，经过第二自注意力层的融合处理，可以得到A'个特征的全局图像特征。一般地，A'小于等于(A1+A2+A3+A4+A5)。

203、利用第二特征提取模型对目标图像进行特征提取，得到目标图像对应的目标检测特征。

本申请中，第二特征模型可以为目标检测特征模型，以实现对目标图像的局部信息的提取。

本步骤203中，第二特征提取模型可以选取Faster-RNN(Faster Regions with CNN features，快速卷积特征区域)模型，用于识别出图像中的感兴趣区域，并通过设定的阈值允许多个感兴趣区域对应的兴趣框的重叠，这样可以更有效的理解图像内容。

Faster-RNN提取目标检测特征的主要步骤包括：

1)特征提取：以整个目标图像为输入，得到目标图像的特征层。

2)候选区域：利用选择查找(Selective Search)等方法从目标图像中提取感兴趣区域，并把这些感兴趣区域对应的兴趣框一一投影到最后的特征层。

3)区域归一化：针对特征层上的每个候选区域候选框进行池化操作，得到固定大小的特征表示。

4)分类：通过两个全连接层，分别用Softmax多分类函数做目标识别，得到最终的目标检测特征。

204、将目标图像对应的全局图像特征和目标检测特征输入至翻译模型，将生成的翻译语句作为目标图像的描述语句。

其中，翻译模型包括编码器和解码器。翻译模型有多种，例如Transformer模型、RNN模型等，本实施例优选使用Transformer模型，可以进一步使输出的句子更为准确。

与RNN模型相比，Transformer模型不需要循环，而是并行处理输入目标图像对应的全局图像特征和目标检测特征，同时利用自注意力机制将特征之间相结合。Transformer模型的训练速度比RNN快很多，而且其翻译结果相比于RNN的翻译结果也较为准确。

一种实施方式中，翻译语句可以包括多个翻译词语，对于解码器来说，每次解码得到一个翻译词语。对于所述翻译语句的第一个翻译词语，所述参考解码向量为预设的初始解码向量；对于所述翻译语句的除去第一个翻译词语之外的其他翻译词语，其参考解码向量为上一个翻译词语对应的解码向量。

本申请提供的图像描述的方法，通过利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征，将多个第一特征提取模型生成的图像特征融合生成目标图像对应的全局图像特征，克服了单一特征提取模型过于依赖模型自身性能的缺陷，相比于现有技术中利用单一特征提取模型的图像特征，能够减轻单一特征提取模型提取的图像特征性能单一的缺陷，从而在后续将目标图像对应的全局图像特征和目标检测特征输入至翻译模型生成翻译语句的过程中，有更为丰富图像信息的全局图像特征作为参考，使输出的翻译语句更加准确。

本申请一实施例的图像描述的方法还可以如图3所示，包括：

301、利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征。

302、对多个第一特征提取模型生成的图像特征进行融合处理，生成目标图像对应的全局图像特征。

303、利用第二特征提取模型对目标图像进行特征提取，得到目标图像对应的目标检测特征。

对于步骤301～303，与前述实施例的步骤201～203相同，具体的解释可以参见前述实施例，此处不再赘述。

304、将目标检测特征和全局图像特征输入至翻译模型的编码器，生成编码器输出的编码向量。

可选地，编码器可以包括1个编码层，也可以包括多个编码层。本实施例以编码器包括N个依次连接的编码层为例进行说明，其中，N＞1。步骤304包括下述步骤S3041～S3044：

S3041、将所述目标检测特征和全局图像特征输入至第一个编码层，得到第一个编码层的输出向量。

S3042、将第i-1个编码层的输出向量和全局图像特征输入至第i个编码层，得到第i 个编码层的输出向量，其中，2≤i≤N。

S3043、判断i是否等于N，若否，将i自增1，执行步骤S3042，若是，执行步骤S3044。

S3044、将第N个编码层的输出向量作为编码器输出的编码向量。

将全局图像特征和第一个编码层的输出向量输入至第二个编码层，得到第二个编码层的输出向量；将全局图像特征和第二个编码层的输出向量输入至第三个编码层，得到第三个编码层的输出向量；继续下去，直至得到第N个编码层的输出向量。

在本申请实施例中，在编码层侧，将全局图像特征输入至每个编码层，使目标检测特征在每个编码层的处理中均融入了全局图像特征，增强了目标检测特征的特征表示。

一种可能的实施方式中，参见图4，编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

步骤S3041包括：将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；将第一中间向量和全局图像特征输入至第二编码自注意力层，得到第二中间向量；将所述第二中间向量经过第一前馈层进行处理，得到第一个编码层的输出向量。

步骤S3042包括：将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；将第三中间向量和全局图像特征输入至第二编码自注意力层，得到第四中间向量；将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。

305、将编码向量以及全局图像特征输入至解码器，生成解码器输出的解码向量。

可选的，解码器可以包括1个解码层，也可以包括多个解码层。本实施例以解码器包括M个依次连接的解码层为例进行说明。其中，M＞1。

步骤305包括下述步骤S3051～S3054：

S3051、将参考解码向量、编码向量和全局图像特征输入至第一个解码层，得到第一个解码层的输出向量。

对于所述翻译语句的第一个翻译词语，所述参考解码向量为初始解码向量；

对于所述翻译语句的其他翻译词语，所述参考解码向量为上一个翻译词语对应的解码向量。

S3052、将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M。

S3053、判断j是否等于M，若否，将j自增1，执行步骤S3052，若是，执行步骤S3054。

S3054、将第M个解码层的输出向量作为解码器输出的解码向量。

将编码向量、全局图像特征和第一个解码层的输出向量输入至第二个解码层，得到第二个解码层的输出向量；将编码向量、全局图像特征和第二个解码层的输出向量输入至第三个解码层，得到第三个解码层的输出向量；继续下去，直至得到第M个解码层的输出向量。

在本申请实施例中，将全局图像特征输入至解码器的每个解码层，从而可以在每个解码层的解码过程中，将包含有丰富图像信息的全局图像特征作为背景信息，可以使解码得到的解码向量与图像信息的对应度更高，使输出的翻译语句更加准确。

一种可能的实施方式中，参见图5，解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层。

步骤S3051包括：将参考解码向量经过所述第一解码自注意力层进行处理，得到第五中间向量；将第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；将第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；将第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。

步骤S3052包括：将第j-1个解码层的输出向量经过所述第一解码自注意力层进行处理，得到第八中间向量；将第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；将第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；将第十中间向量经过第二前馈层进行处理，得到第j个解码层的输出向量。

306、根据解码器输出的解码向量生成对应的翻译语句，并将翻译语句作为目标图像的描述语句。

一种可能的实施方式中，根据所述解码器输出的解码向量生成对应的翻译词语，并根据所述翻译词语生成翻译语句。

可选的，翻译语句可以包括多个翻译词语，对于解码器来说，每次解码得到一个翻译词语。对于所述翻译语句的第一个翻译词语，所述参考解码向量为预设的初始解码向量；对于所述翻译语句的除去第一个翻译词语之外的其他翻译词语，其参考解码向量为上一个翻译词语对应的解码向量。

其次，本实施例通过多个第一特征提取模型对目标图像进行特征提取，并把多个第一特征提取模型提取到的图像特征进行拼接得到初始全局特征，从而可以使初始全局特征尽可能地包含目标图像的更全的特征，然后再经过多个第二自注意力层进行融合，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力计算资源，获取更多与目标有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力计算资源从大量信息中快速筛选出高价值的信息，得到包含更为丰富的图像信息的全局图像特征。

再次，本方法将全局图像特征输入至解码器的每个解码层，从而可以在每个解码层的解码过程中，将包含有丰富图像信息的全局图像特征作为背景信息，可以使解码得到的解码向量与图像信息的对应度更高，使输出的翻译语句更加准确。

本实施例的图像描述的方法适用于编码器—解码器的机器翻译模型。为了更清楚地对本申请的图像描述的方法进行说明，参见图6，以Transformer翻译模型为例进行示意性的说明。图6中，包括4个第一特征提取模型，即VGG、Resnet、Densnet、inceptionv3；4个第一自注意力层；K个第二自注意力层；1个第二特征提取模型以及Transformer翻译模型。Contact指contact函数，是一种联系函数。

本实施例的图像描述的方法包括下述步骤S61～S68：

S61、利用4个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征。

S62、对4个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行处理，得到生成的中间特征。

其中，第1个第一特征提取模型生成的图像特征通过对应的第一自注意力层进行处理，得到A1个中间特征，中间特征的尺寸为P*Q；第2个第一特征提取模型生成的图像特征通过对应的第一自注意力层进行处理，得到A2个中间特征，中间特征的尺寸为P*Q；第3个第一特征提取模型生成的图像特征通过对应的第一自注意力层进行处理，得到A3个中间特征，中间特征的尺寸为P*Q；第4个第一特征提取模型生成的图像特征通过对应的第一自注意力层进行处理，得到A4个中间特征，中间特征的尺寸为P*Q。

S63、对4个中间特征进行拼接，生成初始全局特征。

其中，对4个中间特征进行拼接，生成包含(A1+A2+A3+A4)个特征的初始全局特征。

S64、将初始全局特征通过K个第二自注意力层进行融合处理，生成全局图像特征。

本实施例中，K＝3。

其中，对包含(A1+A2+A3+A4)个特征的初始全局特征进行融合处理，生成包含A'个特征的全局图像特征。一般地，A'≤(A1+A2+A3+A4)。

S65、利用第二特征提取模型对目标图像进行特征提取，得到目标图像对应的目标检测特征。

本实施例中，第二特征提取模型为Faster RNN(Faster Regions with CNN features，快速卷积特征区域)模型。

S66、将目标检测特征和全局图像特征输入至Transformer翻译模型的编码器，生成编码器输出的编码向量。

S67、将参考解码向量、编码向量以及全局图像特征输入至解码器，生成解码器输出的解码向量。

其中，编码器包括N个编码层，解码器包括M个解码层。

S68、根据解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句。

其中，描述语句可以根据Transformer模型的性能，输出不同语言的描述语句。其中，Transformer模型的性能可以通过样本集的训练而形成，例如样本集为“中语待翻译语句+法语翻译语句”的集合、“英语待翻译语句+日语翻译语句”的集合或者“图像特征+英语翻译语句”的集合。本实施例以Transformer模型的性能为根据输入的图像特征翻译生成英文翻译语句为例进行说明。

可选的，根据输入的初始参考解码向量、编码向量以及全局图像特征，解码器输出解码向量，并得到第1个词语“a”。将第1个词语“a”对应的向量作为参考解码第2个词语“boy”。将第2个词语“boy”对应的向量作为参考解码向量，以使解码器根据参考解码向量、编码向量以及全局图像特征得到下一个词语“play”……依次类推，得到描述语句“A boy play football on football field”。

本申请一实施例还提供一种图像描述的装置，参见图7，包括：

特征提取模块701，被配置为利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征；

全局图像特征提取模块702，被配置为对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

目标检测特征提取模块703，被配置为利用第二特征提取模型对目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

翻译模块704，被配置为将所述目标图像对应的全局图像特征和目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。

可选地，全局图像特征提取模块702具体被配置为：

对多个中间特征进行拼接，生成初始全局特征；

将初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。

可选地，翻译模型包括编码器和解码器，所述翻译模块704包括：

编码模块，被配置为将所述目标检测特征和全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量；

解码模块，被配置为将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

语句生成模块，被配置为根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句。

可选地，所述编码器包括N个依次连接的编码层，其中，N为大于1的整数；编码模块包括：

第一处理单元，被配置为将所述目标检测特征和全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

第二处理单元，被配置为将第i-1个编码层的输出向量和全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

第一判断单元，被配置为判断i是否等于N，若否，将i自增1，执行第二处理单元，若是，执行编码向量生成单元；

编码向量生成单元，被配置为将第N个编码层的输出向量作为编码器输出的编码向量。

可选地，编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；第一处理单元具体被配置为：将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；将第一中间向量和全局图像特征输入至第二编码自注意力层，得到第二中间向量；将所述第二中间向量经过第一前馈层进行处理，得到第一个编码层的输出向量。

可选地，编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；第二处理单元具体被配置为：将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；将第三中间向量和全局图像特征输入至第二编码自注意力层，得到第四中间向量；将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。

所述解码模块包括：

第三处理单元，被配置为将参考解码向量、编码向量和全局图像特征输入至第一个解码层，得到第一个解码层的输出向量；

第四处理单元，被配置为将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M；

第二判断单元，被配置为判断j是否等于M，若否，将j自增1，执行第四处理单元，若是，执行解码向量生成单元；

解码向量生成单元，被配置为将第M个解码层的输出向量作为解码器输出的解码向量。

可选地，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；第三处理单元具体被配置为：

将参考解码向量经过第一解码自注意力层进行处理，得到第五中间向量；

将第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；

将第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；

将第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。

可选地，解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；第四处理单元具体被配置为：

将第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；

将第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；

将第十中间向量经过第二前馈层进行处理，得到第j个解码层的输出向量。

上述为本实施例的一种图像描述的装置的示意性方案。需要说明的是，该图像描述的装置的技术方案与上述的图像描述的方法的技术方案属于同一构思，图像描述的装置的技术方案未详细描述的细节内容，均可以参见上述图像描述的方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像描述的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像描述的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像描述的方法的技术方案的描述。

本申请一实施例还提供了一种计算机程序产品，用于在运行时实现如前所述的图像描述的方法的步骤。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该申请仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

一种图像描述的方法，包括：

利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。
如权利要求1所述的方法，对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征，包括：

对所述多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征；

对所述多个中间特征进行拼接，生成初始全局特征；

将所述初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。
如权利要求1或2所述的方法，所述翻译模型包括编码器和解码器；

将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句，包括：

将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句。
如权利要求3所述的方法，所述编码器包括N个依次连接的编码层，其中，N为大于1的整数；

将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量，包括：

S11、将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

S12、将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

S13、判断i是否等于N，若否，将i自增1，执行步骤S12，若是，执行步骤S14；

S14、将第N个编码层的输出向量作为所述编码器输出的编码向量。
如权利要求4所述的方法，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量，包括：

将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；

将所述第一中间向量和所述全局图像特征输入至所述第二编码自注意力层，得到第二中间向量；

将所述第二中间向量经过所述第一前馈层进行处理，得到第一个编码层的输出向量。
如权利要求4或5所述的方法，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，包括：

将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；

将所述第三中间向量和所述全局图像特征输入至第二编码自注意力层，得到第四中间向量；

将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。
如权利要求3-6任一所述的方法，所述解码器包括M个依次连接的解码层，其中，M为大于1的整数；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量，包括：

S21、将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量；

S22、将第j-1个解码层的输出向量、所述编码向量和所述全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M；

S23、判断j是否等于M，若否，将j自增1，执行步骤S22，若是，执行步骤S24；

S24、将第M个解码层的输出向量作为所述解码器输出的解码向量。
如权利要求7所述的方法，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量，包括：

将所述参考解码向量经过所述第一解码自注意力层进行处理，得到第五中间向量；

将所述第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；

将所述第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；

将所述第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。
如权利要求7或8所述的方法，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，包括：

将第j-1个解码层的输出向量经过所述第一解码自注意力层进行处理，得到第八中间向量；

将所述第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；

将所述第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；

将所述第十中间向量经过所述第二前馈层进行处理，得到第j个解码层的输出向量。
一种图像描述的装置，包括：

特征提取模块，被配置为利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

全局图像特征提取模块，被配置为对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

目标检测特征提取模块，被配置为利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

翻译模块，被配置为将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。
如权利要求10所述的装置，所述全局图像特征提取模块具体被配置为：

对所述多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征；

对多个中间特征进行拼接，生成初始全局特征；

将初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。
如权利要求10或11所述的装置，所述翻译模型包括编码器和解码器，所述翻译模块包括：

编码模块，被配置为将所述目标检测特征和全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量；

解码模块，被配置为将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

语句生成模块，被配置为根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句。
如权利要求12所述的装置，所述编码器包括N个依次连接的编码层，其中，N为大于1的整数；所述编码模块包括：

第一处理单元，被配置为将所述目标检测特征和全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

第二处理单元，被配置为将第i-1个编码层的输出向量和全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

第一判断单元，被配置为判断i是否等于N，若否，将i自增1，执行第二处理单元，若是，执行编码向量生成单元；

编码向量生成单元，被配置为将第N个编码层的输出向量作为编码器输出的编码向量。
如权利要求13所述的装置，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；所述第一处理单元具体被配置为：将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；将第一中间向量和全局图像特征输入至第二编码自注意力层，得到第二中间向量；将所述第二中间向量经过第一前馈层进行处理，得到第一个编码层的输出向量。
如权利要求13或14所述的装置，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；所述第二处理单元具体被配置为：将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；将第三中间向量和全局图像特征输入至第二编码自注意力层，得到第四中间向量；将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。
如权利要求12-15任一所述的装置，所述解码器包括M个依次连接的解码层，其中，M为大于1的整数；

所述解码模块包括：

第三处理单元，被配置为将参考解码向量、编码向量和全局图像特征输入至第一个解码层，得到第一个解码层的输出向量；

第四处理单元，被配置为将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M；

第二判断单元，被配置为判断j是否等于M，若否，将j自增1，执行第四处理单元，若是，执行解码向量生成单元；

解码向量生成单元，被配置为将第M个解码层的输出向量作为解码器输出的解码向量。
如权利要求16所述的装置，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；所述第三处理单元具体被配置为：将参考解码向量经过第一解码自注意力层进行处理，得到第五中间向量；将第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；将第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；将第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。
如权利要求16或17所述的装置，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；所述第四处理单元具体被配置为：将第j-1个解码层的输出向量经过所述第一解码自注意力层进行处理，得到第八中间向量；将第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；将第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；将第十中间向量经过第二前馈层进行处理，得到第j个解码层的输出向量。
一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。
一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。