WO2021223323A1

WO2021223323A1 - 一种中文视觉词汇表构建的图像内容自动描述方法

Info

Publication number: WO2021223323A1
Application number: PCT/CN2020/102234
Authority: WO
Inventors: 张凯; 周建设; 刘杰; 吕学强
Original assignee: 首都师范大学
Priority date: 2020-05-06
Filing date: 2020-07-16
Publication date: 2021-11-11
Also published as: CN111581961B; CN111581961A

Abstract

一种中文视觉词汇表构建的图像内容自动描述方法，包括按顺序进行的步骤a，使用中文分词工具将单张图片对应的若干个描述语句进行分词处理，并根据统计的词频有选择地保留词表中的名词、动词和形容词，再将保留下来的词语构成中文视觉词汇表；步骤b，基于中文词汇表预测网络对中文视觉词汇表进行预测获得图像标注信息；步骤c，基于图像自动描述模型，使用编码器提取出图像卷积特征，再使用解码器将图像卷积特征作为初始输入解码为中文描述语句；通过词汇表预测网络对图像词汇表进行预测可以获得图像标注信息，在中文视觉词汇表预测网络中添加残差结构，可以有效地解决随着中文视觉词汇表预测网络层数加深。

Description

一种中文视觉词汇表构建的图像内容自动描述方法

技术领域

本发明涉及图像语义理解技术，具体提供一种多通道中文视觉词汇表构建的图像内容自动描述方法。

背景技术

图像语义理解技术融合了计算机视觉和自然语言处理两个研究方向，是目前人工智能领域的一项研究热点，也是缩减图像的低层特征和高层语义之间的语义鸿沟的有效方法。图像语义理解技术为机器提供了处理多模态数据的能力，可以有效地缩减图像的低层特征和高层语义之间的语义鸿沟，其核心技术是结合计算机视觉和自然语言处理的相关知识，对图像的内容进行分析、理解，以文本语义信息的形式反馈。

当前，使用中文对图像描述的语句自动生成质量较低，除了图像处理技术的瓶颈。究其原因，一方面是中文的图像描述数据较少且质量较差，限制了图像内容自动生成的发展，另一方面是中文词语的含义丰富，句子结构复杂，同样也存在着语义理解的难题。

发明内容

鉴于上述现有技术中的存在的难题或缺陷，对图像内容理解的中文句子自动生成是其中一重点突破领域，考虑到图像内容目标检测网络往往只能检测到图中的部分物体信息，并且只能提供物体名词信息，无法提供物体相关的属性和动作等关键的信息，在进行句子自动生成中遇到困难；另一方面，通过挖掘图像的描述文本中可以利用的信息，将图像的描述文本进行分词和词性标注等处理，得到图像的标注信息，进而形成中文视觉词汇表也是一个关键，而且词汇表中不仅包括有名词，还包括了谓词、形容词等，词汇表中信息更加丰富，可以使得在进行模型训练中获得更多的语义信息，进而可以更好的应用到图像内容的自动描述过程。

一种中文视觉词汇表构建的图像内容自动描述方法，包括按顺序进行的如下：

步骤a，使用中文分词工具将单张图片对应的若干个描述语句进行分词处理，并根据统计的词频有选择地保留词表中的名词、动词和形容词，再将保留下来的词语构成中文视觉词汇表；

步骤b，基于中文词汇表预测网络对中文视觉词汇表进行预测获得图像标注信息；

步骤c，基于图像自动描述模型，使用编码器提取出图像卷积特征，再使用解码器将图像卷积特征作为初始输入解码为中文描述语句。

较为优选的，还包括步骤c后的步骤d，基于标签信息匹配的模型对描述生成网络的损失函数进行优化。

较为优选的：所述中文词汇表预测网络由基于卷积神经网络的特征提取网络和特征分类网络两个部分组成，所述特征提取网络将基于标签词表数据集上预训练的数据网络的平均池化的输出当作图像特征，输入所述特征分类网络的输入层，并由所述特征分类网络的输出层输出预测图像所对应的中文标签信息。

较为优选的：所述图像自动描述模型进行预测时，解码器首先接受图像卷积特征，并忽略这一时刻的输出；然后输入一个开始符号<Start>和预测标签特征后，解码器输出一个由词表中词语被预测的概率组成的向量，根据输出向量选取概率最大的词语作为本时刻输出；再把这个词语和预测标签特征作为下一时刻的输入，继续进行预测，直到预测出结束符号<End>：

较为优选的：所述编码器包括卷积、下采样和激活操作中的一种或多种。

较为优选的：所述特征分类网络是基于残差连接的三层全连通网络，其中包括输入层、三个隐藏层、两个残差连接以及输出层，所述残差连接添加在第一层全连接与第三层全连接之间、第二层全连接与第三层全连接之间。

较为优选的：所述解码器能够接收图像预测标签特征，并利用预测标签特征引导中文描述语句的生成。

较为优选的：所述步骤d中的基于标签信息匹配的模型优化具体为计算图像词表特征与解码器最终时刻细胞状态之间的距离，作为一个额外项加入损失函数中，并在模型训练时尽可能缩短标签特征与细胞状态的距离。

较为优选的：所述计算距离的方法采用曼哈顿距离或欧式距离。

有益效果：

本发明提供一种中文视觉词汇表构建的图像内容自动描述方法，具体使用一种中文视觉词汇表构建的图像自动描述生成模型，首先设计了一种中文视觉词汇表预测网络，通过词汇表预测网络对图像词汇表进行预测可以获得图像标注信息，在中文视觉词汇表预测网络中添加残差结构，可以有效地解决随着中文视觉词汇表预测网络层数加深，而导致的网络退化问题；其次使用了一种L-LSTM架构，可以将图像中文视觉词汇表特征引入描述生成网络中；此外，对描述生成网络的损失函数进行优化，缩短图像中文视觉词汇表特征与L-LSTM的细胞状态之间的距离，使得生成的图像描述语句与图像中文视觉词汇表更加贴近，最后通过各种方法验证模型的有效性。

附图说明

图1为图像自动描述模型整体架构示意图；

图2为L-LSTM模型架构图。

具体实施方式

下面首先对本发明所涉及的图像自动生成描述技术的现状进行分析：

目前的图像自动描述生成方法可总结为三大类别，分别为基于模板的方法、基于相似度检索的方法、基于深度学习的方法。

得益于图像物体识别技术的发展，研究人员提出了基于模板的图像描述生成方法。具体为通过目标识别检测出图像中的物体及其属性信息，然后将这些信息以恰当的方式嵌入到预先设计好的模板中。2010年，Farhadi等人使用检测器检测到图像中的物体去推断<物体，动作，场景>三元组，并使用模板将其转化为描述文本。2011年,Yang等人用隐马尔科夫模型选择可能的对象、动词、介词及场景类型填充句子模板。2013年，Kulkarni等人提出了Baby Talk模型，使用条件随机场(Conditional Random Field,CRF)对检测到的物体、属性、关系进行标注，最终使用模板生成描述语句。此类方法得到的描述语句受到模板的限制，显得内容生硬，不够灵活。

基于相似度检索的方法是利用图像传统视觉特征的相似度进行检索，将相似性高的图像的描述文本作为候选答案，或者将图像特征与文本特征映射到同一特征空间，从中检索出与待描述图像相似高的文本作为候选结果。2011年，Ordonez等人提出利用图像的全局特征在百万图像库中进行检索，并将最相似的图像的描述作为待描述图像的描述文本。2014年，Gong等人则是使用典型关联分析(Canonical Correlation Analysis，CCA)，把图像和文本映射到同一特征空间，建立对应关系，并从数据库中检索与图像最相似的文本。2015年，Hodosh等人提出使用核典型关联分析(Kernel Canonical Correlation Analysis，KCCA)方法学习图像和文本两个模态的公共特征空间，利用核函数将原始特征与高维特征进行映射，使用K近邻方法进行检索。这类方法不能完全根据图像内容产生语句，也无法产生数据库中不存在的描述语句。

随着深度学习的兴起，研究人员们提出了基于深度学习的图像描述方法。2014年，Mao等人提出了多模态循环神经网络(m-RNN)，使用卷积神经网络对图像进行编码，提取出图像卷积特征，并将此特征在每一时刻输入多模态循环神经网络中进行解码，生成描述单词。同年，Vinyals等人提出了基于卷积神经网络和长短期记忆网络(Long Short Term Memory，LSTM)的图像描述生成模型(Neural Image Caption，NIC)，不同于Mao的是，NIC模型使用LSTM建立语言模型生成描述语句，只将卷积神经网络提取图像卷积特征在开始时刻输入到LSTM中，没有在每一个时刻都进行输入，取得了很好的效果。随后，研究人员们对于NIC模型做出了改进，生成描述文本的质量也得到了提升。2015年，Xu等首次在模型中引入两种注意力机制(Attention Mechanism)，即Soft-Attention和Hard-Attention使得模型能够捕捉到图像的局部信息，在生成描述语句的过程中始终将CNN产生的低层特征图(Feature Map)输入到注意力机制中，注意力机制会从中选择某些特征图作为视觉信息输入LSTM。在每一轮生成描述单词后，模型都重新聚焦于图像的某些特征图，得到新的视觉信息输入到LSTM中。2016年Lu等人提出一种基于Spatial Attention的图像描述模型，通过Spatial Attention使得模型可以自主决定使用图像信息还是使用语言模型信息。同年，Jia等使用语义信息指导LSTM生成描述，与基于相似度检索的方法类似，首先在图像-文本向量空间中检索出与图像特征最相似的描述文本特征，再将其作为指导信息输入到LSTM中，生成描述语句。2017年，汤鹏杰等人通过迁移学习的方法，分别训练场景分类网络用以捕捉图像的场景先验信息和物体分类网络用以捕捉图像的物体类别先验信息，再将图像的场景先验信息和物体类别先验信息融入模型中，协同生成图像的描述句子，提高句子生成质量。2018年，刘畅等人改变解码器结构，在解码器中加入栈式隐层和普通隐层，提高了语言模型的学习能力。刘泽宇、蓝玮毓对中文图像描述进行了研究，同样在NIC模型的基础上进行优化，刘泽宇等人提出基于多模态神经网络的图像中文摘要生成方法，在“编码-解码”模型中引入多标签关键词特征预测网络，首先利用关键词特征预测网络提取图像关键词特征，再将关键词特征以不同的方式输入到LSTM中进行解码，蓝玮毓则是利用深度模型对图像进行标签预测，并使用标签对解码器结果进行重新排序，改善了句子生成质量。同年，Lu等提出的神经网络方法可以自动生成一个句子模板，将模板中的空槽和图片中物体捆绑在一起。在生成每个词语时，模型会决定选择文本词汇还是视觉词汇。

本发明使用了一种中文视觉词汇表的构建来实现对图像内容的自动描述，方法使用Flickr8kc、Flickr30kc中文图像描述数据集。具体实现过程集合附图1-2进行描述：

1.构建图像中文视觉词汇表的预测网络

在图像描述的数据集中，每幅图片对应着五个描述语句，每个句子都可以生动地描述图像的内容。本发明的方法是选择句子中的名词、动词和形容词作为要预测的图像内容标签。更具体地说，首先使用中文分词工具Boson将描述语句进行分词处理，并根据统计的词频有选择地保留词表中的名词、动词和形容词，再将保留下来的词语构成标签词表，并根据标签词表为每一幅图片标注标签信息，这样就获得了标签预测网络的训练数据。

本方法中使用的图像标签预测网络由2个部分组成，一是基于CNN的特征提取网络，二是特征分类网络。

其中，特征提取网络使用的是在ImageNet数据集上预训练的Resnet-152网络，ResNet-152是ImageNet2015图像分类比赛中的冠军模型，将Resnet-152网络的平均池化的输出当作图像特征，用于后续的特征分类网络。特征分类网络是基于残差连接的三层全连通网络，其中包括输入层、三个隐藏层、两个残差连接以及输出层。输入层用于接收由resnet-152提取的图像特征，输出层用于预测图像所对应的标签信息。由于每幅图中的包含的标签不止一个，所以这是一个多标签分类问题，我们将输出层的激活函数设置为Sigmoid函数。传统的深度学习特征分类网络只是一个单层的全连接网络。随着特征分类网络深度的增加，模型的表达能力增强，但模型的训练变得困难，出现了网络退化问题，即随着模型深度的增加，模型的准确率下降。我们受到ResNet残差结构的启发，在第一层全连接与第三层全连接之间、第二层全连接与第三层全连接之间添加了残差连接，这种做法不仅没有增加模型的复杂度，而且提高了模型的准确率。

2.基于中文视觉词汇表的图像自动描述模型

本发明中所提出的中文描述生成模型由两个部分组成，分别为卷积神经网络CNN和融合标签信息的长短期记忆网络L-LSTM，其架构是使用CNN作为编码器，提取出图像卷积特征，再使用L-LSTM作为解码器，将图像卷积特征作为初始输入解码为目标描述语句。

具体地，在模型进行预测时，L-LSTM首先接受图像卷积特征，并忽略这一时刻的输出；然后输入一个开始符号<Start>和预测标签特征后，L-LSTM输出一个由词表中词语被预测的概率组成的向量，根据输出向量选取概率最大的词语作为本时刻输出；再把这个词语和预测标签特征作为下一时刻的输入，继续进行预测，直到预测出结束符号<End>，整体架构如图1所示。

图像自动描述模型中的编码器CNN是一种用于处理网格化数据的神经网络。CNN模型由一系列的变换模块组成，例如卷积、激活、下采样等。用深度CNN模型提取图像特征，图像数据需要经过多次的卷积、下采样和激活等操作，其提取出的特征更加抽象，表达能力更强，在图像分类与识别、目标检测、场景理解等视觉任务上取得了显著的效果。

图像自动描述模型中的解码器L-LSTM是由本文提出的一种能够融合标签信息的长短期记忆网络，如图2所示。L-LSTM与LSTM相同之处在于，通过不同的“门”的结构向细胞状态c中增加或去除信息，其中忘记门(Forget Gate)用于决定从前一时刻的细胞状态c _t-1中保留或丢弃哪些语义信息；输入门(Input Gate)用于决定哪些语义信息输入到本时刻的细胞状态c _t中；输出门(Output Gate)用于决定从本时刻的细胞状态c _t中输出哪些语义信息。不同之处在于，L-LSTM能够接收图像预测标签特征l，并利用预测标签特征引导描述语句的生成。具体公式如下:

f _t＝σ _g(W _fx _t+U _fh _t-1+V _fl+b _f) (1)

i _t＝σ _g(W _ix _t+U _ih _t-1+V _il+b _i) (2)

o _t＝σ _g(W _ox _t+U _oh _t-1+V _ol+b _o) (3)

g _t＝σ _h(W _cx _t+U _ch _t-1+V _cl+b _c) (4)

c _t＝f _t*c _t-1+i _t*g _t (5)

h _t＝o _t*c _t (6)

其中W，U，V，b表示在L-LSTM中需要训练的权重和偏置，x _t表示L-LSTM的输入向量，l表示预测的标签特征，h _t表示L-LSTM的隐藏状态，c _t表示L-LSTM的单元状态，f _t表示L-LSTM的“遗忘门”的激活向量，i _t表示L-LSTM的“输入门”的激活向量，o _t表示L-LSTM的“输出门”的激活向量，*表示点乘，下标t表示时间σ _g表示Sigmoid函数，σ _h表示Tanh函数。

在“编码-解码”过程中CIC模型需要最大化给定图像生成目标描述语句的概率，由式(7)表示：

其中，I表示输入图像，Y表示任意一个不定长度的目标描述语句，由单词Y ₀，Y ₁，...，Y _N构成，θ表示模型参数。

3.图像自动描述模型训练过程

模型训练的过程如下：

(1)通过卷积神经网络ResNet-152提取图像卷积特征I _c。通过标签预测网络提取图像标签特征l；

(2)将图像卷积特征I _c作为L-LSTM第一时刻的输入；

x _-1＝I _c (8)

(3)将目标语句中的单词独热向量Y _t，t∈{0，...，N-1}，经过词嵌入后的单词特征向量W _eY _t和图像标签特征l作为L-LSTM其他时刻的输入，可以得到L-LSTM的隐藏状态h _t以及词语预测概率p _t+1；

x _t＝W _eY _t，t∈{0，...，N-1} (9)

h _t＝L-LSTM(x _t，l，h _t-1，c _t-1) (10)

p _t+1＝Softmax([h _t]) (11)

(4)最终使用词语预测概率p _t+1与最后时刻的细胞状态c计算模型的损失，并使用随机梯度下降进行优化，损失计算方法如式(7)所示。

其中，W _e为词嵌入矩阵，Y _t表示独热向量，Y ₀与Y _n分别为特殊的起始符<Start>和结束符<End>用来表示句子的开始与结束。当L-LSTM预测下一个词为结束符时，表示已经生成了一个完整的句子。

4.模型效果验证

数据集

本发明使用的数据集是Flickr8kc和Flickr30kc。采用机器翻译的方法，将英文图像描述数据集Flickr8k和Flickr30k翻译为中文版本。Flickr8kc数据集中包含8000张标注图像，40000条中文描述语句。Flickr30kc数据集中包含30000张标注图像，150000条中文描述语句。本发明使用图像分割方法对Flickr8kc和Flickr30kc进行分割，其中Flickr8kc包括6000张训练数据，1000张验证数据，1000张测试数据，Flickr30kc包括28000张训练数据，1000张验证数据，1000张测试数据。

系统配置

环境配置如下:操作系统为Ubuntu16.03.1、开发语言为Python2.7，深度学习框架为TensorFlow1.6。Flickr8kc训练集包括6000幅图像、30000个中文描述语句和7784个词语。Flickr30kc训练集包括28000张图片，140000个中文描述语句和19735个词语。为了消除低频词的干扰，保留了同一张图片的5个中文描述语句中至少出现2次的名词、动词以及形容词，并且整体词频大于20次的词语当作词汇表。词汇表预测网络参数配置，如下表所示。

表1 中文视觉词汇表预测网络参数配置

标签预测网络采用的评价标准为precision-i、recall-i和f-i。precision-i表示前k个预测标签的准确率。recall-i表示前i个预测标签的召回率。f-i是前i个预测标签的准确率和召回率的调和平均值。

中文图像描述网络训练集数据与词汇表预测网络相同，与其不同的是筛选出词频大于5的词语当作词表，最终Flickr8kc词表包括2625个词语，Flickr30kc词表包括7108个词语。中文视觉词汇表的图像自动描述模型参数配置如下：

表2 基于中文视觉词汇表的图像自动描述模型网络参数配置

图像视觉词汇表预测网络评估

下面两个表分别显示了不同词汇表预测网络的precision-i、recall-i和f-i的结果，one表示特征分类网络为单层全连接的网络，two表示两层全连接的网络，three表示三层全连接的网络，this代表本发明使用的词汇表预测网络。

我们以表4中的Flickr8kc标签预测网络结果为例，将所提出的this网络与one、two、three进行比较。实验表明，随着网络层次的增加，出现了网络退化的现象，即网络的准确率和召回率下降的问题。one和three之间的准确率下降了0.4％，召回率下降了0.48％。而本发明提出的this是在three的基础上加入残差结构的网络，将准确率和召回率分别提高到了33.49％，39.54％，说明了发明提出方法的可以解决网络退化问题。但从整体来看，中文词表预测网络的准确率与召回率仍有很大的提高的空间。

表3 标签预测网络1层结果比较

表4 标签预测网络5层结果比较

优化损失函数

本发明使用了一种基于标签信息匹配的模型优化方法，对图像描述生成的原始损失函数进行优化。观察L-LSTM的内部结构就可以了解到L-LSTM通过“输入门”与“遗忘门”将输入信息选择性地保存在细胞状态c中，并利用“输出门”控制细胞状态c中的信息进行输出，细胞状态c中的信息在一定程度上影响了描述词语的生成。图像的标签信息可以在一定程度上对图像内容进行刻画。计算图像词表特征与L-LSTM最终时刻细胞状态c之间的距离，作为一个额外项加入损失函数中。在模型训练时尽可能缩短标签特征与细胞状态c的距离，可以使得L-LSTM的中保存的信息更加贴近于图像的标签信息，有助于生成质量更高的描述语句。探索不同的计算距离的方法，例如曼哈顿距离、欧式距离等，具体如下。

CityBlock Distance(l，c)＝ (12)

其中，c表示L-LSTM的细胞状态，l表示图像标签特征。原始损失函数为每个时刻输出正确单词概率的负对数和，将标签特征与细胞状态c的距离添加到原始损失函数中，如下式所示。

以曼哈顿距离为例，对超参数α进行选择。α取值范围为(0，1)，步长为0.1。当α的值为0.2为实验效果最佳。故此，将α值经验地设定为0.2。

本发明将中文视觉词汇表的图像自动描述模型简称为IADCVV，表示网络中只是通过L-LSTM引入图像标签特征，并没有优化损失函数。在IADCVV的基础上使用损失函数优化方法并通过曼哈顿距离计算L-LSTM的细胞状态c与图像词表特征之间的相似度称为IADCVV-CB。而IADCVV-E、IADCVV-C是使用欧式距离、余弦值来衡量相似度。通过实验对比如下：

以下表统计为例，首先，可以看出IADCVV比基线Google模型的实验效果提高了2.8％，2.7％，5.3％，说明了在网络中加入图像视觉词汇表特征的方法可以有效地提高图像描述模型生成语句的质量。其次，IADCVV-CB和IADCVV-E与IADCVV相比又有不同程度的提升，说明了缩短图像标签特征与L-LSTM细胞状态之间的距离可以进一步优化图像描述模型生成语句的质量。IADCVV-C与IADCVV相比值有所降低，说明了需要选择合适距离计算方法来缩短图像标签特征与L-LSTM细胞状态之间的距离。IADCVV-CB和IADCVV-E的效果更好，说明曼哈顿距离比欧氏距离更加适合计算图像标签特征与L-LSTM细胞状态之间的距离。

IADCVV在Flickr8kc上结果对比

IADCVV在Flickr30kc上结果对比

通过上表分析，展示了所有模型实验结果的对比。可以看出本发明所提模型效果与已知现有模型相比有了较大的提升。

本发明使用一种中文视觉词汇表构建的图像自动描述生成模型。首先设计了一种中文视觉词汇表预测网络，通过词汇表预测网络对图像词汇表进行预测可以获得图像标注信息，在中文视觉词汇表预测网络中添加残差结构，可以有效地解决随着中文视觉词汇表预测网络层数加深，而导致的网络退化问题。

其次使用了一种L-LSTM架构，可以将图像中文视觉词汇表特征引入描述生成网络中。此外，对描述生成网络的损失函数进行优化，缩短图像中文视觉词汇表特征与L-LSTM的细胞状态之间的距离，使得生成的图像描述语句与图像中文视觉词汇表更加贴近。最后通过各种方法验证模型的有效性。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

一种中文视觉词汇表构建的图像内容自动描述方法，其特征在于，包括按顺序进行的如下：

步骤a，使用中文分词工具将单张图片对应的若干个描述语句进行分词处理，并根据统计的词频有选择地保留词表中的名词、动词和形容词，再将保留下来的词语构成中文视觉词汇表；

步骤b，基于中文词汇表预测网络对中文视觉词汇表进行预测获得图像标注信息；

步骤c，基于图像自动描述模型，使用编码器提取出图像卷积特征，再使用解码器将图像卷积特征作为初始输入解码为中文描述语句。
如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：还包括步骤c后的步骤d，基于标签信息匹配的模型对描述生成网络的损失函数进行优化。
如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述中文词汇表预测网络由基于卷积神经网络的特征提取网络和特征分类网络两个部分组成，所述特征提取网络将基于标签词表数据集上预训练的数据网络的平均池化的输出当作图像特征，输入所述特征分类网络的输入层，并由所述特征分类网络的输出层输出预测图像所对应的中文标签信息。
如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述图像自动描述模型进行预测时，解码器首先接受图像卷积特征，并忽略这一时刻的输出；然后输入一个开始符号<Start>和预测标签特征后，解码器输出一个由词表中词语被预测的概率组成的向量，根据输出向量选取概率最大的词语作为本时刻输出；再把这个词语和预测标签特征作为下一时刻的输入，继续进行预测，直到预测出结束符号<End>：
如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述编码器包括卷积、下采样和激活操作中的一种或多种。
如权利要求3所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述特征分类网络是基于残差连接的三层全连通网络，其中包括输入层、三个隐藏层、两个残差连接以及输出层，所述残差连接添加在第一层全连接与第三层全连接之间、第二层全连接与第三层全连接之间。
如权利要求4所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述解码器能够接收图像预测标签特征，并利用预测标签特征引导中文描述语句的生成。
如权利要求2所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述步骤d中的基于标签信息匹配的模型优化具体为计算图像词表特征与解码器最终时刻细胞状态之间的距离，作为一个额外项加入损失函数中，并在模型训练时尽可能缩短标签特征与细胞状态的距离。
如权利要求8所述的中文视觉词汇表构建的图像内容自动描述方法，其特征在于：所述计算距离的方法采用曼哈顿距离或欧式距离。