WO2019105157A1

WO2019105157A1 - 摘要描述生成方法、摘要描述模型训练方法和计算机设备

Info

Publication number: WO2019105157A1
Application number: PCT/CN2018/111709
Authority: WO
Inventors: 陈新鹏; 马林; 姜文浩; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-11-30
Filing date: 2018-10-24
Publication date: 2019-06-06
Also published as: EP3683725A1; CN110598779B; CN110598779A; CN108334889B; EP3683725A4; CN108334889A; US20200082271A1; US11494658B2

Abstract

本申请涉及一种摘要描述生成方法、摘要描述模型训练方法、计算机设备和存储介质，该摘要描述模型训练方法包括：将带标注的训练样本输入摘要描述模型；基于第一损失函数的监督，对摘要描述模型的编码网络和解码网络进行第一阶段的训练；根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；当第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。

Description

摘要描述生成方法、摘要描述模型训练方法和计算机设备

本申请要求于2017年11月30日提交中国专利局，申请号为201711243949.4，发明名称为“摘要描述生成方法和装置、摘要描述模型训练方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，特别是涉及一种摘要描述生成方法、摘要描述模型训练方法、计算机设备和存储介质。

背景技术

摘要描述是指使用语句描述信息，得到该信息的摘要。信息可以为图像、视频或文本。摘要描述模型是指用于根据输入的信息，得到该信息的摘要的神经网络模型。

通常的摘要描述模型包括编码网络和解码网络。编码网络用于输入数据(图像或文本)进行特征提取，得到输入数据的特征向量。解码神经用于输入特征向量得到各时刻的隐藏状态，根据隐藏状态预测当前时刻的单词，从而输出描述语句。

传统的摘要描述模型训练过程中，解码网络由当前时刻的隐藏状态来独立地预测当前时刻的单词。而通常描述语句的上下文具有关联性，传统的摘要解码网络没有考虑相邻两个隐藏状态的关联性，导致摘要描述模型预测的准确度降低。

发明内容

根据本申请的各种实施例，提供一种摘要描述生成方法、摘要描述模型训练方法、计算机设备和存储介质。

一种摘要描述生成方法，所述方法由计算机设备实施，包括：

获取输入信息；

将所述输入信息输入预先训练好的摘要描述模型，通过所述摘要描述模型的编码网络，得到所述输入信息的特征向量，通过所述摘要描述模型的解码网络对所述特征向量进行解码，生成所述输入信息的摘要描述；其中，预先基于第一损失函数的监督，对编码网络和解码网络进行训练，并根据所述编码网络输出的每一时刻的隐藏状态，反向推导上一时刻反推隐藏状态，根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到基于第二损失函数的监督确定的所述摘要描述模型。

一种摘要描述模型训练方法，所述方法由计算机设备实施，包括：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行第一阶段的训练；所述编码网络得到所述训练样本的特征向量，所述解码网络采用递归神经网络，对所述特征向量进行解码，得到各当前时刻的隐藏状态；

根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；

根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；

当所述第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器以下步骤：

获取输入信息；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练；所述编码网络得到所述训练样本的特征向量，所述解码网络采用递归神经网络，对所述特征向量进行解码，得到各当前时刻的隐藏状态；

根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取输入信息；

将带标注的训练样本输入摘要描述模型；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中摘要描述模型训练方法的流程示意图；

图2为一个实施例中一个实施例中利用构重网络，反向推导得到上一时刻反推隐藏状态的步骤的流程图；

图3为一个实施例中重构网络的结构示意图；

图4为一个实施例中摘要描述模型的第一阶段训练的步骤流程图；

图5为一个实施例中摘要描述模型的结构示意图；

图6为另一个实施例中摘要描述模型训练方法的流程示意图；

图7为一个实施例中摘要描述模型训练装置的结构框图；

图8为一个实施例中摘要描述装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，在一个实施例中，提供了一种摘要描述模型训练方法，该方法由计算机设备实施。参照图1，该摘要描述模型训练方法具体包括如下步骤：

S102，将带标注的训练样本输入摘要描述模型。

其中，训练样本与产品的实际应用相关，可以为图像、文本或视频。带标注的训练样本应当包括每一训练样本以及对每一训练样本的描述语句。例如，对于给定的一张图像或者文本段I，该训练样本对应的描述语句为y＝{y ₁，y ₂，...，y _i}，其中，y _i是构成描述语句的一个单词。

摘要描述模型是本实施例中的训练对象，训练的目的是获得摘要描述模型的相关参数。摘要描述模型包括编码网络和解码网络。其中，利用编码网络提取特征，得到输入数据的特征向量，再使用解码网络对特征向量进行解码。在解码网络的每一刻时刻得到当前时刻的隐藏状态，由此隐藏状态生成一个单词，经过若干个时刻，便可得到一句描述语句。

S104，基于第一损失函数的监督，对摘要描述模型的编码网络和解码网络进行训练；编码网络得到训练样本的特征向量，解码网络采用递归神经网络，对特征向量进行解码，得到各当前时刻的隐藏状态。

其中，编码网络得到训练样本的特征向量。编码网络可采用卷积神经网络或递归神经网络。其中，特征向量包括全局特征向量和局部特征向量。全局特征向量是一个训练样本的全局特征表示，局部特征向量是一个训练样本的局部特征表示。

本实施例中，摘要描述模型训练，包括两个阶段。其中，第一阶段，根据带标注的训练样本，利用摘要描述模型的编码网络和解码网络进行训练。其中，编码网络得到训练样本的特征向量，解码网络对特征向量进行解码，得到各当前时刻的隐藏状态，解码网络根据每一时刻的隐藏状态生成的单词。第一阶段的训练目标就是使生成的各时刻对应的单词与实际标注单词尽可能的接近，并将此作为第一损失函数，这就是最大似然估计的训练过程。

在基于第一损失函数，对摘要描述模型进行第一阶段的训练完成后，能够得到摘要描述模型的初步参数。通常，根据初步参数，即可得到常规的摘要描述模型，能够用于预测文本、图像或视频的文本摘要。但会存在一个问题：训练过程中用t时刻的隐藏状态h _t来独立地预测当前时刻的单词y′ _t+1，同理，上一个t-1隐藏状态h _t-1独立地预测到单词y′ _t，而在实际预测过程中，每一时刻生成的单词都依赖其上一个时刻所生成的单词。这种训练与预测的差异性也限制了模型的性能。为此，本实施例提取了在训练过程中，考虑解码网络相邻隐藏状态之间的联系，进一步训练摘要描述模型。

具体地，在步骤S104之后，还包括：

S106,根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

其中，上一时刻反推隐藏状态，是指将解码网络输出的当前时刻的隐藏状态，进行反推，得到的当前时刻的上一时刻的反推隐藏状态，即，上一时刻反推隐藏状态是推测得到的。由于解码网络的解码过程，是根据上一时刻的隐藏状态和当前时刻的输入，计算当前时刻的隐藏状态，即上一时刻的隐藏状态与当前时候的隐藏状态之间存在关联，利用这种关联能够推测上一时刻的隐藏状态。

S108，根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值。

本实施例中，使用均方根误差来衡量反推出的上一时刻反推隐藏状态

与解码网络输出的上一时刻实际隐藏状态h _t-1的差异，并将此作为第二损失函数。第二损失函数的目标是使上一时刻反推隐藏状态和上一时刻实际隐藏状态的差异尽可能地小。均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量“平均误差”的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。

第二损失函数值越小，上一时刻反推隐藏状态和上一时刻实际隐藏状态也越小，而上一时刻反推隐藏状态是利用解码网络输出的当前时刻的隐藏状态反向推导得到，充分考虑了解码网络中相邻两个隐藏状态的关联性。而在实际的推测过程中，每一时刻生成的单词都依赖其上一个时刻所生成的单词，即也依赖于这种关联性，因此，通过在摘要描述模型的训练过程中增加第二阶段的训练，挖掘解码网络中相邻两个隐藏状态的关联性，能够避免训练与预测的差异性，进一步提高摘要描述模型的性能。

S110，当第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。

本实施例中，基于第二损失函数对摘要描述模型的第二阶段的训练过程进行监督。第二阶段的训练过程，则是根据解码网络中相邻两个隐藏状态的关联性，调整第一阶段确定的摘要描述模型的初步参数的过程，并在第二损失函数值达到预设值时，取对应的参数作为摘要描述模型的最终参数。又或者，在第二阶段训练过程中，迭代次数大于预设的最大迭代次数时，将第二损失函数值最小时的参数作为摘要描述模型的最终参数。

上述的摘要描述模型训练方法，在传统的编码网络和解码网络的基础上，增加了根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态并进行第二阶段训练的过程，第二阶段训练中，根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值，而上一时刻反推隐藏状态是利用解码网络输出的当前时刻的隐藏状态反向推导得到，充分考虑了解码网络中相邻两个隐藏状态的关联性，而在实际的推测过程中，也依赖于这种关联性，因此，能够提高实际预测的准确度。并且，能够避免训练与预测的差异性，进一步提高摘要描述模型的性能。

在一个实施例中，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态的步骤，包括：将解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。重构网络是与解码网络连接，利用解码网络的输出基于对下文依赖的特点，用于反向推导每一时刻对应的上一时刻的隐藏状态。本实施例中的重构网络采用递归神经网络。

图2为一个实施例中利用重构网络，反向推导得到上一时刻反推隐藏状态的步骤的流程图。如图2所示，该步骤包括：

S202，将解码网络输出的每一当前时刻的隐藏状态和重构网络中上一时刻的隐藏状态，输入至重构网络各当前时刻的LSTM隐含层，得到重构网络中当前时刻的隐藏状态。

图3为一个实施例中重构网络的结构示意图，包括LSTM隐含层和全连接层FC。解码网络的每个时刻隐藏状态的输出都与重构网络中的对应时刻的LSTM隐含层连接，每个LSTM隐含层连接一个全连接层。

具体地，重构的具体形式如下：

用解码网络输出的当前时刻的隐藏状态h _t和重构网络中上一时刻的隐藏状态h′ _t-1，通过一个LSTM隐含层去重构上一个时刻的隐藏状态h _t-1，具体形式如下：

c′ _t＝f′ _t⊙c′ _t-1+i′ _t⊙g′ _t

h′ _t＝o′ _t⊙tanh(c′ _t)

其中，i′ _t为输入门，f _t′为遗忘门，o′ _t为输出门，g′ _t当前时刻的输出，c′ _t为当前时刻的输入，σ为sigmoid函数；T为变换映射矩阵：tanh()为激活函数；⊙为逐元素点乘运算符。

S204，将重构网络中当前时刻的隐藏状态输入全连接层，得到上一时刻反推隐藏状态。

上式中，h′ _t是重构网络中t时刻的隐藏状态，将重构网络中t时刻的隐藏状h′ _t通过一层全连接层，得到上一时刻反推隐藏状态

本实施例中，重构网络不局限于使用LSTM隐含层来联系解码网络中两相邻的隐藏状态。还可使用递归门单元(Gate Recurrent Unit，缩写GRU)、多层感知机(Multilayer Perceptron，缩写MLP)、卷积神经网络(Convolutional Neural Network，缩写CNN)等网络结构联系相邻隐藏状态。

在另一个实施例中，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态的步骤，包括：利用反向传播算法，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

反向传播算法，顾名思义就是从神经网络的输出到输入进行求解，调节摘要描述模型的参数。具体地，可使用梯度下降等求解无约束问题的方法求得最终的参数。反射传导算法包括以下步骤S1至S4：

S1：进行前馈传导计算，利用前向传导公式，得到L ₂,L ₃,直至输出层L _nl的激活值。

S2：对于第nl层(输出层)的每个输出单元i，计算残差。

S3：对于l＝nl-1,nl-2,nl-2,…，2的各层，计算第l层的第i个节点的残差。

S4：根据残差计算最终的偏导数值。

图4为一个实施例中摘要描述模型的第一阶段训练的步骤流程图。如图4所示，第一阶段的训练过程包括以下步骤：

S402，将带标注的训练样本输入编码网络，提取训练信息的特征，得到各训练信息的特征向量。

图5为一个实施例中摘要描述模型的结构示意图。如图5所示，描述模型包括编码网络、解码网络和重构网络。其中，编码网络的输出解码网络的输入连接，解码网络的各时刻的隐含层的输出与重构网络对应时刻的输入连接。

具体地，通过编码网络提取到训练样本的全局特征表示g，以及64个局部特征表示s＝{s ₁，...，s ₆₄}。本实施例中，针对训练样本的特点，可选用不同的编码网络进行特征提取。

具体地，当要描述的对象为图像时，可使用卷积神经网络作为编码网络。卷积神经网络在ImageNet数据集上有着很好的性能表现。目前可作为编码网络的卷积神经网络有很多，如Inception-X系列的卷积神经网络，ResNet系列的卷积神经网络等等。

具体地，取卷积神经网络的池化层输出的向量g作为整张图像的全局特征表示，g这里的特征维数是1536。再取卷积神经网络的最后一个Inception-C模块的输出s作为图像的局部特征表示，这里s＝{s ₁，...，s ₆₄}，其中每一个局部特征向量s _i的维度亦是1536维。所以，将一张图像输入进卷积编码网络，可以得到一个图像的全局特征向量

一系列图像不同区域的局部特征向量

当要生成描述的对象是文本数据时，由于文本数据具有较强的时序特征。因此，可递归神经网络对文本数据进行编码。本实施例中，对于文本数据，可采用长短期记忆(LSTM)神经网络。

将待输入的文本序列记为I＝{I ₁，...，I _T}，这里的I _t为当前序列的第t个单词，T为文本序列的长度。在LSTM中，隐藏状态h _t可由上一t-1时刻的隐藏状态h _t-1以及当前时刻的输入得到。有如下形式：

h _t＝LSTM(h _t-1，I _t)

在编码网络中，LSTM的具体表达形式如下：

c _t＝f _t⊙c _t-1+i _t⊙g _t

h _t＝o _t⊙tanh(c _t)

其中，i _t为输入门，f _t为遗忘门，o _t为输出门，h _t为隐藏状态，g _t为当前时刻的输出，x _t为当前时刻的输入；σ为sigmoid函数；T为变换映射矩阵；⊙为逐元素点乘运算符。

本实施例中，取T时刻的隐藏状态h _T作为一段训练文本的整体表示特征向量g，即g＝h _T。LSTM中每一个时刻产生的隐藏状态h _t作为一段训练文本的局部表示特征，即s＝{s ₁，...，s _T}＝{h ₁，...，h _T}。

S404,将特征向量输入解码网络，得到每个时刻的隐藏状态。

具体地，解码网络，采用递归神经网络对编码网络输出的特征向量，进行解码处理的结构。递归神经网络(recurrent neural network，RNN)，根据上一时刻的隐藏状态h _t-1与当前时刻的输入，可以计算当前时刻的隐藏状态h _t。具体地，利用带有注意力机制的递归神经网络进行解码，递归神经网络的核心单元可以为LSTM(长短期记忆)，解码网络的解码形式如下：

c _t＝f _t⊙c _t-1+i _t⊙g _t

h _t＝o _t⊙tanh(c _t)

其中，i _t为输入门，f _t为遗忘门，o _t为输出门，h _t为t时刻的隐藏状态；σ为sigmoid函数；T为变换映射矩阵；tanh()为激活函数；⊙为逐元素点乘运算符，g _t为当前时刻的输出，x _t为当前时刻的输入。z _t是注意力机制得到的上下文向量，有如下形式：

上式中的α(s _i，h _t-1)表示了输入数据的局部特征s＝{s ₁，...，s _T}与前一个隐藏状态的相关性。

S406，根据每个时刻的隐藏状态生成当前时刻所对应的单词。

在每一个时刻解码网络会得到当前时刻的隐藏状态h _t，由这个隐藏状态生成当前时刻所对应的单词y′ _t+1：

y′ _t+1＝argmax Softmax(Wh _t)

其中，W是将隐向量映射到词汇表的变换矩阵。

S408，根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值。

摘要描述模型包括编码网络和解码网络，编码网络得到训练样本的特征向量，解码网络对特征向量进行解码，得到各当前时刻的隐藏状态，根据每个时刻的隐藏状态生成当前时刻所对应的单词，根据生成的当前时刻所对应的单词与标注的当前实际单词得到第一损失函数值。

本实施例中，使用均方根误差来衡量解码网络生成的当前时刻所对应的单词和标注的当前实际单词的差异，并将此作为第一损失函数。第一损失函数的目标是使当前时刻所对应的单词和标注的当前实际单词的差异尽可能地小。

S410，当第一损失函数值达到预设值时，得到摘要描述模型的初步参数。

本实施例中，基于第一损失函数对摘要描述模型的第一阶段的训练过程进行监督。在第一损失函数值达到预设值时，取对应的参数作为摘要描述模型的初步参数。又或者，在第一阶段训练过程中，迭代次数大于预设的最大迭代次数时，将第一损失函数值最小时的参数作为摘要描述模型的初步参数。

一个实施例的摘要描述模型如图5所示，描述模型包括编码网络、解码网络和重构网络。其中，编码网络的输出解码网络的输入连接，解码网络的各时刻的隐含层的输出与重构网络对应时刻的输入连接。

图6为一个实施例的摘要描述模型训练方法的流程图。如图6所示，包括以下步骤：

S602，将带标注的训练样本输入摘要描述模型。

S604，将带标注的训练样本输入编码网络，提取训练信息的特征，得到各训练信息的特征向量。

S606，将特征向量输入解码网络，得到每个时刻的隐藏状态。

S608，根据每个时刻的隐藏状态生成当前时刻所对应的单词。

S610，根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值。

S612，当第一损失函数值达到预设值时，得到摘要描述模型的初步参数。

S614，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

具体地，该步骤包括：将解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态，或利用反向传播算法，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态

S616，根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值。

S618，当第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。

该方法充分考虑了解码网络中相邻两个隐藏状态的关联性，而在实际的推测过程中，也依赖于这种关联性，因此，能够提高实际预测的准确度。并且，能够避免训练与预测的差异性，进一步提高摘要描述模型的性能。

在一个实施例中，提供一种摘要描述生成方法，该方法运行在服务器侧，由服务器侧的计算机设备实施，包括以下步骤：

S1，获取输入信息。

其中，输入信息是指用户通过终端输入并发送至服务器的信息。本实施例中的服务器可提供检索、分类或推荐等服务。输入信息可以为图片或文字。

S2，将输入信息输入预先训练好的摘要描述模型，通过摘要描述模型的编码网络，得到输入信息的特征向量，通过摘要描述模型的解码网络对特征向量进行解码，生成输入信息的摘要描述。

具体地，利用上述各实施例的摘要描述模型训练方法，训练得到摘要描述模型。具体地摘要描述模型的训练方法，已记载在上述各实施例中，此处不再赘述。一个实施例的摘要描述模型如图5所示。利用该摘要描述生成方法，可用于文本数据、图像数据或视频进行预测，生成描述语句。对于图像生成的描述，可以用于图像的场景分类，如对用户相册中的图像自动总结归类；也有助于图像检索服务；以及帮助视觉障碍者理解图像。对于文本笔记数据，该技术可以用于描述该段文本的含义，可以进一步服务于文本的分类与挖掘。

图7为一个实施列中的摘要描述模型训练装置的结构示意图。如图7所示，一种摘要描述模型训练装置，包括：输入模块702、第一阶段训练模块704、反推模块706、损失值计算模块708和参数确定模块710。

输入模块702，用于将带标注的训练样本输入摘要描述模型。

第一阶段训练模块704，用于基于第一损失函数的监督，对摘要描述模型的编码网络和解码网络进行训练；编码网络得到训练样本的特征向量，解码网络采用递归神经网络，对特征向量进行解码，得到各当前时刻的隐藏状态。

反推模块706，用于根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

损失值计算模块708，用于根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值。

参数确定模块710，用于当第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。

上述的摘要描述模型训练装置，在传统的编码网络和解码网络的基础上，增加了根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态并进行第二阶段训练的过程，第二阶段训练中，根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值，而上一时刻反推隐藏状态是利用解码网络输出的当前时刻的隐藏状态反向推导得到，充分考虑了解码网络中相邻两个隐藏状态的关联性，而在实际的推测过程中，也依赖于这种关联性，因此，能够提高实际预测的准确度。并且，能够避免训练与预测的差异性，进一步提高摘要描述模型的性能。

在另一个实施例中，反推模块，用于将解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。

在再一个实施例中，反推模块包括：重构模块和连接模块。

重构模块，用于将解码网络输出的每一当前时刻的隐藏状态和重构网络中上一时刻的隐藏状态，输入至重构网络当前时刻的LSTM隐含层，得到重构网络中当前时刻的隐藏状态。

连接模块，用于将重构网络中当前时刻的隐藏状态输入全连接层，得到上一时刻反推隐藏状态。

在又一个实施例中，反推模块，用于利用反向传播算法，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

在一个实施例中，第一阶段训练模块，包括：编码模块、解码模块、单词生成模块、计算模块和确认模块。

编码模块，用于将带标注的训练样本输入编码网络，提取训练信息的特征，得到各训练信息的特征向量。

解码模块，用于将特征向量输入解码网络，得到每个时刻的隐藏状态。

单词生成模块，用于根据每个时刻的隐藏状态生成当前时刻所对应的单词。

计算模块，用于根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值。

确认模块，用于判断第一损失函数值是否达到预设值时，并在达到设定值时结束第一阶段的训练。

在一个实施例中，提供一种摘要描述生成装置，如图8所示，包括信息获取模块802和预测模块804。

信息获取模块802，用于获取输入信息。

预测模块804，用于将输入信息输入预先训练好的摘要描述模型，通过摘要描述模型的编码网络，得到输入信息的特征向量，通过摘要描述模型的解码网络对特征向量进行解码，生成输入信息的摘要描述；其中，预先基于第一损失函数的监督，对编码网络和解码网络进行训练，并根据编码网络输出的每一时刻的隐藏状态，反向推导上一时刻反推隐藏状态，根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到基于第二损失函数的监督确定的摘要描述模型.

具体地，摘要描述生成装置还包括上述各实施例中的摘要描述模型训练装置的各模块的结构，此处不再赘述。

利用该摘要描述生成装置，可用于文本数据、图像数据或视频进行预测，生成描述语句。对于图像生成的描述，可以用于图像的场景分类，如对用户相册中的图像自动总结归类；也有助于图像检索服务；以及帮助视觉障碍者理解图像。对于文本笔记数据，该技术可以用于描述该段文本的含义，可以进一步服务于文本的分类与挖掘。

图9示出了一个实施例中计算机设备的内部结构图。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现摘要描述模型训练方法或摘要描述生成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行摘要描述模型训练方法或摘要描述生成方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的摘要描述模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该摘要描述模型训练装置的各个程序模块，比如，图7所示的输入模块、第一阶段训练模块和反推模块，图8所示的信息获取模块和预测模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例摘要描述模型训练中的步骤。

例如，图9所示的计算机设备可以通过如图7所示的摘要描述模型训练装置中的输入模块执行将带标注的训练样本输入摘要描述模型的步骤。计算机设备可通过第一阶段训练模块执行基于第一损失函数的监督，对摘要描述模型的编码网络和解码网络进行第一阶段的训练的步骤。计算机设备可通过反推模块执行根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

又例如，图9的计算机设备可通过如图8所示的摘要描述生成装置中的输入模块执行获取输入信息的步骤，通过预测模块执行将输入信息输入预先训练好的摘要描述模型，通过摘要描述模型的编码网络，得到输入信息的特征向量，通过摘要描述模型的解码网络对特征向量进行解码，生成输入信息的摘要描述的步骤。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取输入信息；

将输入信息输入预先训练好的摘要描述模型，通过摘要描述模型的编码网络，得到输入信息的特征向量，通过摘要描述模型的解码网络对特征向量进行解码，生成输入信息的摘要描述；其中，预先基于第一损失函数的监督，对编码网络和解码网络进行训练，并根据编码网络输出的每一时刻的隐藏状态，反向推导上一时刻反推隐藏状态，根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到基于第二损失函数的监督确定的摘要描述模型。

在一个实施例中，计算机程序被处理器执行时，使得处理器执行以下步骤：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对摘要描述模型的编码网络和解码网络进行训练；编码网络得到训练样本的特征向量，解码网络采用递归神经网络，对特征向量进行解码，得到各当前时刻的隐藏状态；

根据上一时刻反推隐藏状态和解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；

当第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。

在一个实施例中，计算机程序被处理器执行时，使得处理器执行以下步骤：将解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。

将解码网络输出的每一当前时刻的隐藏状态和重构网络中上一时刻的隐藏状态，输入至重构网络当前时刻的LSTM隐含层，得到重构网络中当前时刻的隐藏状态；

将重构网络中当前时刻的隐藏状态输入全连接层，得到上一时刻反推隐藏状态。

在一个实施例中，计算机程序被处理器执行时，使得处理器执行以下步骤：利用反向传播算法，根据解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。

将带标注的训练样本输入编码网络，提取训练信息的特征，得到各训练信息的特征向量；

将特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值；

当第一损失函数值达到预设值时，得到摘要描述模型的初步参数。

将带标注的训练样本输入摘要描述模型；

将特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

在一实施例中，提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取输入信息；

将带标注的训练样本输入摘要描述模型；

将特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

将带标注的训练样本输入摘要描述模型；

将特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线 (Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种摘要描述生成方法，所述方法由计算机设备实施，包括：

获取输入信息；

将所述输入信息输入预先训练好的摘要描述模型，通过所述摘要描述模型的编码网络，得到所述输入信息的特征向量，通过所述摘要描述模型的解码网络对所述特征向量进行解码，生成所述输入信息的摘要描述；其中，预先基于第一损失函数的监督，对编码网络和解码网络进行训练，并根据所述编码网络输出的每一时刻的隐藏状态，反向推导上一时刻反推隐藏状态，根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到基于第二损失函数的监督确定的所述摘要描述模型。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练；所述编码网络得到所述训练样本的特征向量，所述解码网络采用递归神经网络，对所述特征向量进行解码，得到各当前时刻的隐藏状态；

根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；

根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；

当所述第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。
根据权利要求2所述的方法，其特征在于，所述根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态的步骤，包括：将所述解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。
根据权利要求3所述的方法，其特征在于，所述将所述解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态的步骤，包括：

将所述解码网络输出的每一当前时刻的隐藏状态和重构网络中上一时刻的隐藏状态，输入至重构网络当前时刻的LSTM隐含层，得到重构网络中当前时刻的隐藏状态；

将重构网络中当前时刻的隐藏状态输入全连接层，得到上一时刻反推隐藏状态。
根据权利要求2所述的方法，其特征在于，所述根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态的步骤，包括：利用反向传播算法，根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。
根据权利要求2所述的方法，其特征在于，所述基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练的步骤，包括：

将带标注的训练样本输入编码网络，提取所述训练信息的特征，得到各训练信息的特征向量；

将所述特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值；

当所述第一损失函数值达到预设值时，得到所述摘要描述模型的初步参数。
一种摘要描述模型训练方法，所述方法由计算机设备实施，包括：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练；所述编码网络得到所述训练样本的特征向量，所述解码网络采用递归神经网络，对所述特征向量进行解码，得到各当前时刻的隐藏状态；

根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；

根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；

当所述第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。
根据权利要求7所述的方法，其特征在于，所述根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态的步骤，包括：将所述解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。
根据权利要求8所述的方法，其特征在于，所述将所述解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态的步骤，包括：

将所述解码网络输出的每一当前时刻的隐藏状态和重构网络中上一时刻的隐藏状态，输入至重构网络当前时刻的LSTM隐含层，得到重构网络中当前时刻的隐藏状态；

将重构网络中当前时刻的隐藏状态输入全连接层，得到上一时刻反推隐藏状态。
根据权利要求7所述的方法，其特征在于，所述根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态的步骤，包括：利用反向传播算法，根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。
根据权利要求7所述的方法，其特征在于，所述基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练的步骤，包括：

将带标注的训练样本输入编码网络，提取所述训练信息的特征，得到各训练信息的特征向量；

将所述特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值；

当所述第一损失函数值达到预设值时，得到所述摘要描述模型的初步参数。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取输入信息；

将所述输入信息输入预先训练好的摘要描述模型，通过所述摘要描述模型的编码网络，得到所述输入信息的特征向量，通过所述摘要描述模型的解码网络对所述特征向量进行解码，生成所述输入信息的摘要描述；其中，预先基于第一损失函数的监督，对编码网络和解码网络进行训练，并根据所述编码网络输出的每一时刻的隐藏状态，反向推导上一时刻反推隐藏状态，根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到基于第二损失函数的监督确定的所述摘要描述模型。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练；所述编码网络得到所述训练样本的特征向量，所述解码网络采用递归神经网络，对所述特征向量进行解码，得到各当前时刻的隐藏状态；

根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；

根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；

当所述第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。
根据权利要求13所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：将所述解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。
根据权利要求14所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

将所述解码网络输出的每一当前时刻的隐藏状态和重构网络中上一时刻的隐藏状态，输入至重构网络当前时刻的LSTM隐含层，得到重构网络中当前时刻的隐藏状态；

将重构网络中当前时刻的隐藏状态输入全连接层，得到上一时刻反推隐藏状态。
根据权利要求13所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：利用反向传播算法，根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态。
根据权利要求13所述的计算机设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

将带标注的训练样本输入编码网络，提取所述训练信息的特征，得到各训练信息的特征向量；

将所述特征向量输入解码网络，得到每个时刻的隐藏状态；

根据每个时刻的隐藏状态生成当前时刻所对应的单词；

根据生成的当前时刻所对应的单词与标注的当前时刻的实际单词，得到第一损失函数值；

当所述第一损失函数值达到预设值时，得到所述摘要描述模型的初步参数。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取输入信息；

将所述输入信息输入预先训练好的摘要描述模型，通过所述摘要描述模型的编码网络，得到所述输入信息的特征向量，通过所述摘要描述模型的解码网络对所述特征向量进行解码，生成所述输入信息的摘要描述；其中，预先基于第一损失函数的监督，对编码网络和解码网络进行训练，并根据所述编码网络输出的每一时刻的隐藏状态，反向推导上一时刻反推隐藏状态，根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到基于第二损失函数的监督确定的所述摘要描述模型。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

将带标注的训练样本输入摘要描述模型；

基于第一损失函数的监督，对所述摘要描述模型的编码网络和解码网络进行训练；所述编码网络得到所述训练样本的特征向量，所述解码网络采用递归神经网络，对所述特征向量进行解码，得到各当前时刻的隐藏状态；

根据所述解码网络输出的每一时刻的隐藏状态，反向推导得到上一时刻反推隐藏状态；

根据所述上一时刻反推隐藏状态和所述解码网络输出的上一时刻实际隐藏状态，得到第二损失函数值；

当所述第二损失函数值达到预设值时，得到基于第二损失函数的监督确定的摘要描述模型的最终参数。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：将所述解码网络输出的每一时刻的隐藏状态，作为重构网络各对应时刻的输入，反向推导得到上一时刻反推隐藏状态。