WO2020103674A1

WO2020103674A1 - 自然语言描述信息的生成方法及装置

Info

Publication number: WO2020103674A1
Application number: PCT/CN2019/115079
Authority: WO
Inventors: 王柏瑞; 马林; 冯洋; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-11-23
Filing date: 2019-11-01
Publication date: 2020-05-28
Also published as: EP3885966A4; EP3885966A1; US11868738B2; EP3885966B1; US20210174031A1; CN109871736A; CN109871736B

Abstract

一种自然语言描述信息的生成方法及装置。其中，方法包括：通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，各个自然语言描述模型输出的第一特征向量对应不同特征类型（S102）；对多个第一特征向量进行融合，得到第二特征向量（S104）；根据第二特征向量生成目标自然语言描述信息（S106）。该方法解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。

Description

自然语言描述信息的生成方法及装置

本申请要求于2018年11月23日提交中国国家知识产权局、申请号为201811409084.9、申请名称为“自然语言描述信息的生成方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，具体而言，涉及一种自然语言描述信息的生成方法及装置。

背景技术

随着信息技术的不断发展，包括图片、视频、网页等在内的媒体资源呈爆炸性增长，为了帮助用户快速获取指定的媒体资源，可以通过为上述媒体资源生成描述信息，基于该描述信息进行检索而实现。

目前，业界主要是通过编码器和解码器结构生成描述信息。具体地，以视频片段为例，先对视频片段的每一帧图像提取特征，再通过平均特征、注意力机制或其他方法将帧级别的特征变换为视频级别特征，最后将该视频级别特征作为解码器的输入得到自然语言描述。

然而，这种利用单一的编解码网络生成自然语言描述的方法在实际应用时存在准确性不高的问题，因而难以得到广泛应用。

发明内容

本申请实施例提供了一种自然语言描述信息的生成方法及装置，以至少解决相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。

根据本申请实施例的一个方面，提供了一种自然语言描述信息的生成方法，包括：通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；对所述各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；根据所述第二特征向量生成目标自然语言描述信息，其中，所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。

根据本申请实施例的另一方面，还提供了一种自然语言描述信息的生成装置，包括：输入模块，用于通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；融合模块，用于对所述各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；生成模块，用于根据所述第二特征向量生成目标自然语言描述信息，其中，所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。

根据本申请实施例的另一方面，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本申请实施例中，采用多个自然语言描述模型的架构分别对媒体资源进行处理，将各个模型提取出的不同特征类型的第一特征向量融合成第二特征向量，再根据第二特征向量生成目标自然语言描述信息来表示媒体资源，从而整合了媒体资源中不同类型、具有语义互补特性的信息共同为媒体资源生成目标自然语言描述信息，使得生成的目标自然语言描述信息更加准确地体现媒体资源的内容，从而实现了提高为媒体资源生成的自然语言描述信息对媒体资源描述的准确性的技术效果，进而解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的自然语言描述信息的生成方法的示意图；

图2是根据本申请实施例的一种可选的自然语言描述信息的生成方法的应用环境示意图；

图3是根据本申请可选的实施方式的一种可选的自然语言描述信息的生成方法的示意图；

图4是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图；

图5是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图；

图6是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图；

图7是根据本申请可选的实施方式的另一种可选的自然语言描述信息的生成方法的示意图；

图8是根据本申请实施例的一种可选的自然语言描述信息的生成装置的示意图；

图9是根据本申请实施例的一种可选的自然语言描述信息的生成方法的应用场景示意图；以及

图10是根据本申请实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种自然语言描述信息的生成方法，如图1所示，该方法包括：

S102，通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，其中，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；

多个自然语言描述模型中每个自然语言描述模型用于根据输入信息生成自然语言描述信息，自然语言描述信息用于通过自然语言表示自然语言描述模型的输入信息；

S104，对各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；

S106，根据第二特征向量生成目标自然语言描述信息，其中，目标自然语言描述信息用于通过自然语言表示媒体资源。

可选地，在本实施例中，上述自然语言描述信息的生成方法可以应用于如图2所示的服务器202和客户端204所构成的硬件环境中。如图2所示，服务器202通过多个自然语言描述模型分别对媒体资源进行处理，获取每个自然语言模型输出的第一特征向量，得到多个第一特征向量，其中，每个个第一特征向量对应一种特征类型，且每个第一特征向量对应的特征类型不同，也即服务器202可以得到多种特征类型的第一特征向量；然后服务器202对多种特征类型的第一特征向量进行融合，得到第二特征向量；根据第二特征向量生成目标自然语言描述信息，其中，目标自然语言描述信息用于通过自然语言表示媒体资源。

可选地，在本实施例中，服务器202可以根据目标自然语言描述信息对媒体资源进行分类、查阅以及检索等操作。从而为客户端204提供服务。

可选地，在本实施例中，上述自然语言描述信息的生成方法可以但不限于应用于为媒体资源生成自然语言描述信息的场景中。其中，上述客户端可以但不限于为各种类型的应用、小程序、网站等等，例如，在线教育类、即时通讯类、社区空间类、游戏类、购物类、浏览器、金融类、多媒体类、直播类等。具体的，可以但不限于应用于在上述多媒体应用中为媒体资源生成自然语言描述信息的场景中，或还可以但不限于应用于在上述即时通讯应用中为媒体资源生成自然语言描述信息的场景中，以提高为媒体资源生成的自然语言描述信息对媒体资源描述的准确性。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述媒体资源可以但不限于包括：视频资源、音频资源、图片资源、网页资源等等。

可选地，在本实施例中，多个第一特征向量中每个第一特征向量中包括一个或者多个用于表征媒体资源的特征。由多个第一特征向量融合成的第二特征向量中包括一个或者多个用于表征媒体资源的特征。

可选地，在本实施例中，自然语言描述信息可以但不限于包括各种语言的语句、短语、词组等等。比如：英语、汉语、西班牙语、法语、意大利语、阿拉伯语等等。

可选地，在本实施例中，多个自然语言描述模型是分别训练出的不同的自然语言描述模型，其能够从不同的角度对媒体资源进行描述，使得将多个自然语言描述模型生成的多个第一特征向量融合得到的第二特征向量能够携带媒体资源全面的信息，从而使得目标自然语言描述信息对媒体资源的描述更加地准确。

在一个可选的实施方式中，以媒体资源为视频资源为例，如图3所示，训练好多个自然语言描述模型，分别是模型1、模型2、……、模型n，通过模型1、模型2、……、模型n对视频资源进行处理，得到模型1、模型2……模型n输出的属于多种特征类型的多个第一特征向量(v1，v2，……，vn)，将v1，v2，……，vn融合成第二特征向量V，根据第二特征向量V生成自然语言描述信息S。

可见，通过上述步骤，自然语言描述模型用于根据所述输入信息生成自然语言描述信息用以描述模型的输入信息，通过从输入信息中提取出的特征向量生成自然语言描述信息，采用多个自然语言描述模型的架构，将各个模型提取出的不同特征类型的第一特征向量融合成第二特征向量，再根据第二特征向量生成目标自然语言描述信息来表示媒体资源，从而整合了媒体资源中不同类型的信息共同为媒体资源生成目标自然语言描述信息，使得生成的目标自然语言描述信息更加准确地体现媒体资源的内容，从而实现了提高为媒体资源生成的自然语言描述信息对媒体资源描述的准确性的技术效果，进而解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。

作为一种可选的方案，通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量包括：

S1，获取媒体资源，并确定媒体资源所包括的资源块；

S2，将资源块作为输入信息输入多个自然语言描述模型中每个自然语言描述模型；

S3，通过多个自然语言描述模型中的每个自然语言描述模型生成一个第一特征向量，其中，一个第一特征向量包括资源块对应的第一特征。

可选地，在本实施例中，媒体资源所包括的资源块可以但不限于为任一种对媒体资源进行划分的方式。媒体资源可以但不限于包括一个或者多个资源块，以视频资源为例，视频资源的资源块可以但不限于按照帧来划分，一个资源块可以但不限于包括一个或者多个视频帧。或者视频资源的资源块可以但不限于按照时间来划分，一个资源块可以但不限于为一个持续一秒或者多秒的视频片段。以图片资源为例，图片资源的资源块可以但不限于按照像素来划分，一个资源块可以但不限于包括一个或者多个像素的图片区域。或者图片资源的资源块可以但不限于按照尺寸来划分，一个资源块可以但不限于为一个预定尺寸的图片区域。

可选地，在本实施例中，每个自然语言描述模型对每个资源块生成一个第一特征，这样每个自然语言描述模型对于媒体资源生成了与资源块对应的第一特征，得到了包括这些第一特征的第一特征向量。

作为一种可选的方案，媒体资源包括多个资源块，其中，利用多个自然语言描述模型中的每个自然语言描述模型生成一个第一特征向量包括：

S1，通过每个自然语言描述模型包括的特征提取模型对多个资源块进行处理，其中，特征提取模型用于从各个资源块中提取所述第一特征，得到多个第一特征；

S2，获取多个资源块的顺序信息，其中，顺序信息用于指示多个资源块在媒体资源中的顺序；

S3，使用顺序信息对多个第一特征进行顺序编码，得到第一特征向量。

可选地，在本实施例中，顺序信息可以但不限于包括：时序信息、位置顺序信息、时空顺序信息等等。时序信息可以用于指示多个资源块在媒体资源中的时间顺序，位置顺序信息可以用于指示多个资源块在媒体资源中的排列位置顺序，时空顺序信息可以用于指示多个资源块在媒体资源中在时间和空间上的排列顺序。例如，在视频资源处理场景中，可以利用视频帧的时序信息进行编码，在图像资源处理场景中，可以利用不同区域的位置顺序进行编码。

可选地，在本实施例中，顺序编码可以但不限于包括时序编码、空间编码、时空编码等等。

可选地，在本实施例中，从媒体资源的多个资源块中提取出多个第一特征，这些第一特征可能是无序的，从媒体资源中获取多个资源块的顺序信息并根据该顺序信息对第一特征进行顺序编码得到的第一特征向量能够携带有多个资源块的顺序信息，能够体现出多个第一特征在媒体资源中的排列顺序。

在一个可选的实施方式中，以视频资源的自然语言描述信息的生成过程为例，如图4所示，对于具有m帧图像的视频片段，每个自然语言描述模型的编码器获得每一帧图像的不同类型特征

其中，i和j表示不同种类的特征，相同图像的特征进行融合得到融合后图像特征序列V＝{v ₁,v ₂,…,v _m}。随后时序编码器对该阶段特征序列进行时序编码，将视频片段的时序信息融入到图像特征序列。在解码器进行生成描述前，注意力机制赋予每个图像特征特定的权重，该特征序列的权重和即为视频片段的特征表达。解码器以该阶段产生的视频特征表达作为输入，以每一步预测一个单词的形式生成对应的自然语言描述。完成自然语言描述的生成后，重构器根据解码器每一步的隐藏状态重构出输入视频特征，即

训练过程中，利用强化学习的“自我评判”方法直接以人们度量句子好坏的指标为优化目标，训练模型。在应用中多个已经训练好的自然语言描述模型在解码器的预测端进行融合，根据多个第一特征向量得到第二特征向量，共同产生同一个目标自然语言描述信息。

作为一种可选的方案，每个自然语言描述模型可以包括多个特征提取模型，每个特征提取模型对应不同特征类型，通过每个自然语言描述模型包括的特征提取模型对多个资源块进行处理包括：

S1，将多个资源块输入每个自然语言描述模型包括的各个特征提取模型，获取每个特征提取模型输出的一组第二特征，得到多组第二特征，多组第二特征中的每组第二特征包括与每个资源块一一对应的特征；

S2，将多组第二特征中与同一资源块对应的特征融合为一个特征，得到多个第一特征。

可选地，在本实施例中，多个特征提取模型可以但不限于为多种卷积神经网络，比如P3D，C3D，I3D等网络，对每一帧图像进行特征提取。

可选地，在本实施例中，对于不同特征，比如C3D特征，P3D特征，是用叫C3D或P3D的算法或网络对视频提取的特征。这些算法或网络是可以用来对图像或视频进行分类的，这些模型处理图片或视频，可以输出类别信息。可以提取这些分类模型的中间输出，作为图像或视频的特征。不同的算法或网络模型提取特征的方法不同，效率不同，提出的特征也有差异，因此可以使用不同的算法或者网络模型提取不同类型的特征。

可选地，在本实施例中，可以但不限于包括两大类特征：2D卷积特征和3D卷积特征。2D卷积特征，比如InceptionV4，Resnet152，Inception_Resnet_v2，nasnet，pnasnet特征，可以作用于单张图像，提取单张图像的特征。3D卷积特征，比如C3D，P3D，I3D特征，可以作用于连续的多张图像的，提取的特征包括图片之间的时序信息，内容上可能会比2D卷积特征要丰富。

在一个可选的实施方式中，在获得多种图像特征(即多组第二特征)的基础上，可以采用两种特征融合策略，一是特征直接级联方式，二是特征先被降维，再级联的方式。

此处以两种特征，即I3D特征和P3D特征为例，说明两种特征融合策略。以下

表示I3D特征序列，每个特征长度为1024维，

表示P3D特征序列，每个特征长度为2048维。

对于特征直接级联方法，将不同特征序列中对应同一帧或区域的特征在长度维度上连接：

上式表示在第t帧或第t个区域的两种不同特征的直接级联。此处v _t的长度维度为3072维。

对于特征先被降维，再级联的方式，首先利用线性层例如FC层将高维度特征降低到目标维度：

再将不同特征序列中对应的特征在长度维度上连接。

上式表示在第t帧或第t个区域的两种降维后的不同特征进行级联。此处v _t的长度维度为目标维度的两倍。

作为一种可选的方案，使用顺序信息对多个第一特征进行顺序编码，得到第一特征向量包括：

S1，将第一特征按照顺序输入到顺序编码器；

S2，利用顺序编码器生成时序特征向量；

S3，通过注意力机制模型对时序特征向量进行处理，得到多个第三特征，其中，注意力机制模型用于根据每个资源块与资源特征之间的相关度确定每个资源块对应的加权特征；

S4，通过每个自然语言描述模型包括的解码器模型对多个第三特征进行处理，其中，解码器模型用于根据多个第三特征生成第一特征向量。

可选地，在本实施例中，顺序编码器可以但不限于包括时序编码器等等。

在一个可选的实施方式中，时序编码器可以包括多层感知机和循环神经网络，神经网络可以是普通循环神经网络单元RNN，长短期记忆单元LSTM，门控循环单元GRU等。以LSTM为例，如图5所示，在上一阶段得到的融合后特征序列中，并不包含两个特征以及多个特征之间的时序关系。时序编码器将特征序列按正确顺序首次读入到多层感知机MLP中对其进一步降维，之后再输入到LSTM单元中。时序编码器在每一步对应于输入特征输出一个状态，该状态即为该时刻输入特征嵌入时序信息后的特征表达：

x _t＝LSTM(v _i,x _t-1)

其中x _t既表示LSTM网络在t时刻的隐藏状态，也表示该时刻经过时序编码后的图像特征表达，最终得到含有时序信息的特征序列X＝{x ₁,x ₂,…,x _m}。

在上述可选的实施方式中，如图6所示，解码器可以包括循环神经网络，以单词为单位生成自然语言描述信息。为了在每一步生成单词时，解码器能重点捕获与该单词相关的图像特征，引入注意力机制，动态判断并选择关键图像特征。对于当前重要的特征，注意力机制赋予较大的特征权重，反之，赋予较小的特征权重。经过注意力机制对特征的整合，得到该视频在当前时刻下的整合特征：

其中

表示在t时刻注意力机制赋予图像特征x _i的特征权重，其遵从

μ _t表示经过注意力机制动态选择并整合后的特征。s _i∈S＝{s ₁,s ₂,…,s _n}表示句子S中的第i个单词。

在每一时刻，解码器按下列公式得到当前时刻预测的单词：

h _t＝LSTM(s _i-1,h _t-1,μ _t)

s _t＝max(SoftMax(h _t))

其中h _t表示解码器网络的第t个隐藏状态,s _t∈S＝{s ₁,s ₂,…,s _n}表示句子S中的第t个单词，SoftMax()是获得单词概率分布的函数。在训练过程中，解码器的损失函数为：

其中P(S ⁱ|V ⁱ；θ)表示对一个视频片段生成自然语言描述的概率，θ表示网络待优化参数。

作为一种可选的方案，媒体资源包括多个资源块，多个第一特征向量中每个第一特征向量包括与多个资源块一一对应的多个第四特征，其中，对多个第一特征向量进行融合，得到第二特征向量包括：

S1，从多个第一特征向量中提取出与多个资源块一一对应的多个特征集合，其中，多个特征集合中每个特征集合包括多个资源块中一个资源块在多个第一特征向量中对应的第四特征；

S2，获取多个特征集合中每个特征集合的平均特征，得到与多个资源块一一对应的多个平均特征；

S3，将包括多个平均特征的特征向量确定为第二特征向量。

可选的，在本实施例中，将每个解码器的隐藏状态序列H＝{h ₁,h ₂,…,h _n}按照资源块进行平均特征，即对各个h ₁进行平均特征，对各个h ₂进行平均特征，……，对各个h _n进行平均特征，将各个得到的平均特征确定为第二特征向量中包括的特征。

作为一种可选的方案，媒体资源包括第一数量的资源块，第二特征向量包括与第一数量的资源块对应的第一数量的特征，其中，根据第二特征向量生成目标自然语言描述信息包括：

S1，通过目标函数对第一数量的特征进行处理，得到使得目标函数最大化的第二数量的单词，其中，目标函数为获得单词概率分布的函数；

S2，将第二数量的单词整合为语句，并将语句确定为目标自然语言描述信息。

可选地，在本实施例中，第一数量和第二数量可以相同也可以不同。即第一数量的特征与第二数量的单词不必一一对应。

可选地，在本实施例中，根据第二数量的单词整合出的语句可以但不限于是句子、词组、短语等等形式。也就是说，语句可以是主谓宾结构的句子，主谓宾定状补结构的句子，或者谓宾机构的短语等等形式。

可选地，在本实施例中，目标函数为获得单词概率分布的函数，例如：函数SoftMax()。

作为一种可选的方案，在通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量之前，方法还包括：

S1，使用资源样本对多个初始自然语言描述模型中的每个模型进行训练，得到多个第一损失函数满足第一预设条件的第一模型，其中，第一损失函数是根据多个初始自然语言描述模型中的每个模型配置的损失函数；

S2，使用资源样本对多个联合模型中的每个联合模型进行训练，得到多个第二损失函数满足第二预设条件的第二模型，其中，多个联合模型中的每个联合模型为一个第一模型与一个重构器模型级联得到的模型，重构器模型用于根据优化后模型输出的描述结果重构出资源样本的特征，第二损失函数是根据每个联合模型配置的损失函数；

S3，对多个第二模型进行训练，得到评价参数满足第三预设条件的多个自然语言描述模型。

其中，利用资源样本对上述初始自然语言描述模型、联合模型以及第二模型进行训练，可以实现对初始自然语言描述模型、联合模型以及第二模型的优化，当上述模型的损失函数或者其他评价参数满足各自对应的预设条件时，可以停止训练。

其中，预设条件可以根据实际需求而设置，例如可以设置为损失函数或者评价参数处于收敛状态，又例如可以设置为损失函数或者评价参数小于预设阈值。

可选地，在本实施例中，模型训练过程可以但不限于包括三个部分：

第一部分，对未加入重构器部分的模型可以利用传统训练方法训练，优化目标为最小化解码器损失函数

第二部分，在第一部分模型训练结束的基础上，加入重构器，仍以传统方法进行训练。此时的优化目标为最小化联合损失函数

第三部分，在第二部分模型训练结束的基础上，利用强化学习的“自我评判”方法对该模型进一步训练，优化目标为METEOR值，这是一个不可微分的评价自然语句质量的指标。由于METEOR的梯度不可求，传统的通过对损失函数求梯度进而利用梯度下降更新参数的训练方式在此处不再使用。而强化学习算法恰好可以解决该问题。一般来说，基于“底线”的强化学习的优化目标可表示为：

其中r(S ⁱ)为优化指标，“底线”b是个与S ⁱ无关的任意函数，它的引入是为了减小了单个样本中梯度估计的高偏差。采用“自我评判”方法，“底线”b为该模型在验证阶段得到的METEOR值，即

其中

为当前模型在验证阶段产生的自然语言描述信息。这种方法以自身的指标

作为“底线”优化自身，因此叫做“自我评价”。

在一个可选的实施方式中，重构器网络可以包括循环神经网络，通过解码器的隐藏状态序列H＝{h ₁,h ₂,…,h _n}，重构器重构出视频的全局特征。如图7所示，在重构视频全局特征前，将解码器的隐藏状态序列H＝{h ₁,h ₂,…,h _n}进行平均特征，得到预测的自然语言描述的全局表达：

其中

表示平均特征操作。在重构器的每一时刻，重构器以该平均特征、当前对应的解码器状态h _t的以及自身的上一时刻状态

作为输入，产生新的隐藏状态

同时该隐藏状态也作为当前时刻的重构特征：

最终将平均特征用于重构器的隐藏状态序列

得到表示视频片段全局结构的特征表达

原始视频特征和重构视频特征之间的欧氏距离作为重构器网络的损失函数，表示为：

这里E(·)表示欧式距离。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述自然语言描述信息的生成方法的自然语言描述信息的生成装置，如图8所示，该装置包括：

处理模块82，用于通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；

融合模块84，用于对各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；

生成模块86，用于根据第二特征向量生成目标自然语言描述信息，其中，目标自然语言描述信息用于通过自然语言表示媒体资源。

作为一种可选的方案，处理模块包括：

第一获取单元，用于获取媒体资源，并确定媒体资源所包括的资源块；

第一输入单元，用于将资源块作为输入信息输入多个自然语言描述模型中每个自然语言描述模型；

生成单元，用于通过多个自然语言描述模型中的每个自然语言描述模型分别生成一个第一特征向量，其中，一个第一特征向量包括资源块对应的第一特征。

作为一种可选的方案，媒体资源包括多个资源块，其中，生成单元包括：

处理子单元，用于通过每个自然语言描述模型包括的特征提取模型对多个资源块进行处理，其中，特征提取模型用于从各个资源块中提取第一特征，得到多个第一特征；

获取子单元，用于获取多个资源块的顺序信息，其中，顺序信息用于指示多个资源块在媒体资源中的顺序；

编码子单元，用于使用顺序信息对多个第一特征进行顺序编码，得到第一特征向量。

作为一种可选的方案，所述每个自然语言描述模型包括多个特征提取模型，每个所述特征提取模型对应不同特征类型，处理子单元用于：

将多个资源块输入每个自然语言描述模型包括的各个特征提取模型，获取每个所述特征提取模型输出的一组第二特征，得到多组第二特征，多组第二特征中的每组第二特征包括多个与多个资源块具有对应关系的特征；

将多组第二特征中与同一资源块对应的特征融合为一个特征，得到多个第一特征。

作为一种可选的方案，编码子单元用于：

将第一特征按照顺序输入到顺序编码器；

利用顺序编码器生成时序特征向量；

通过注意力机制模型对时序特征向量进行处理，得到多个第三特征，其中，注意力机制模型用于根据每个资源块与资源特征之间的相关度确定每个资源块对应的加权特征；

通过每个自然语言描述模型包括的解码器模型对多个第三特征进行处理，其中，解码器模型用于根据多个第三特征生成第一特征向量。

作为一种可选的方案，媒体资源包括多个资源块，多个第一特征向量中每个第一特征向量包括与多个资源块一一对应的多个第四特征，其中，融合模块包括：

提取单元，用于从多个第一特征向量中提取出与多个资源块一一对应的多个特征集合，其中，多个特征集合中每个特征集合包括多个资源块中一个资源块在多个第一特征向量中对应的第四特征；

第二获取单元，用于获取多个特征集合中每个特征集合的平均特征，得到与多个资源块一一对应的多个平均特征；

确定单元，用于将包括多个平均特征的特征向量确定为第二特征向量。

作为一种可选的方案，媒体资源包括第一数量的资源块，第二特征向量包括与第一数量的资源块对应的第一数量的特征，其中，生成模块包括：

处理单元，用于通过目标函数对第一数量的特征进行处理，得到使得目标函数最大化的第二数量的单词，其中，目标函数为获得单词概率分布的函数；

整合单元，用于将第二数量的单词整合为语句，并将语句确定为目标自然语言描述信息。

作为一种可选的方案，上述装置还包括：

第一训练模块，用于使用资源样本对多个初始自然语言描述模型中的每个模型进行训练，得到多个第一损失函数满足第一预设条件的第一模型，其中，第一损失函数是根据多个初始自然语言描述模型中的每个模型配置的损失函数；

第二训练模块，用于使用资源样本对多个联合模型中的每个联合模型进行训练，得到多个第二损失函数满足第二预设条件的第二模型，其中，多个联合模型中的每个联合模型为一个第一模型与一个重构器模型级联得到的模型，重构器模型用于根据第一模型输出的描述结果重构出资源样本的特征，第二损失函数是根据每个联合模型配置的损失函数；

第三训练模块，用于对多个第二模型进行训练，得到评价参数满足第三预设条件的多个自然语言描述模型。

作为一种可选的实施例，上述自然语言描述信息的生成方法可以但不限于应用于如图9所示的为视频资源生成自然语言描述信息的场景中。在本场景中，提出了一种基于视频时序信息和多尺度融合的视频片段描述信息生成方法。本方法可用于云端对数据库中的视频片段生成自然语言段落描述。本方法可以通过神经网络完成视频片段特征的融合、提取和重构，时序信息的编码以及自然语言描述的生成。

在本场景中，图像编码器对视频片段中的每一帧图像提取卷积神经网络特征，之后利用循环神经网络(时序编码器)对特征进行进一步处理，得到包括视频片段时序信息的图像特征表达。利用非线性网络对该阶段提取的包括时序信息的图像特征表达进一步处理，得到携带有重点帧信息的视频片段特征表达。接着利用循环神经网络(解码器)对该视频片段特征表达进行自然语言描述的生成，并根据该阶段生成的描述，利用另一个循环神经网络(重构器)重构出输入视频的特征。通过减小重构的视频特征与原始视频特征的差异约束自然语言描述的生成。再通过强化学习算法中的“自我评判”结构，进一步训练该描述生成网络。最终，将多个已经训练好的网络在单词预测端进行融合，生成更准确的视频片段描述。通过上述过程，能对视频片段生成准确的自然语言描述，从而可以有效地对视频片段进行理解和分析。

在本场景中，利用卷积神经网络把同一视频片段特征的不同类型特征进行融合，融合特征的好处是能够同时利用不同特征中的互补语义信息。利用循环神经网络处理时序数据的能力构造了一个时序编码器，时序编码器对编码器生成的图像特征进一步处理，将视频时序信息编码到图像特征中，充分利用视频序列提供的时序信息。利用循环神经网络搭建重构器，目的是获得训练数据中的后向语义信息。利用强化学习算法中的“自我评判”结构进行训练，直接优化人们关心的指标，有助于性能进一步提升。对于多个已经训练好的模型，应用时将多个模型的预测端进行融合，利用不同模型各自的特性为视频片段生成更加准确的自然语言描述。

采用上述方式可以提供视频内容理解服务，在后台服务器，编码器对视频的每一帧图像进行不同类型的特征提取，并进行特征融合。接着该融合后的特征经过时序编码器的处理得到嵌入了视频时序信息的高级图像特征序列，并通过解码器得到自然语言描述。同时，通过重构器网络将该自然语言描述重构为输入的视频特征。整个过程利用强化学习算法中的“自我评判”结构进行训练。最终对于已训练好的多个模型，在其预测端进行融合，用于生成自然语言描述。可以部署在视频类网站用于视频的分类、查阅以及快速检索。

在一个可选的实施方式中，如图9所示，对于使用上述方案训练得到的多个模型，由于用于训练模型的特征种类以及数量不同，每个模型性能各有侧重，这导致多个模型对同一个视频片段生成描述是不同的。融合多个模型生成同一个自然语言描述，可以同时利用不同模型不同侧重的优势，使得描述更加准确。在应用时将解码器预测端进行融合，每一时刻共同产生一个单词。

在同一时刻，多个模型的解码器状态融合如下：

s _t＝max(SoftMax(h _t))

对同一时刻的不同解码器状态求均值，

表示第k个模型在t时刻的解码器状态，q表示模型的个数。对于平均后的解码器状态h _t再通过SoftMax函数求得单词表的概率分布，进而得到t时刻的单词s _t。在t+1时刻，s _t将作为多个模型解码器的共同输入。

通过上述过程，能够有效地同时获取多种特征的信息，视频片段中的时序信息，以及视频片段与自然语言描述之间的双向信息，同时能利用多个模型进行自然语言描述生成，有效提高了现有的视频描述能力，并能将生成的视频描述用于视频的分类、查阅以及快速检索，具有潜在的经济效益。

除了上述的视频描述信息的生成方式，其他的在视频描述生成方式中融合多种视频特征，用循环神经网络编码视频时序信息以及融合多种已训练模型并用于提高视频描述准确性的方法也在本实施例的保护范围之内。

根据本申请实施例的又一个方面，还提供了一种用于实施上述自然语言描述信息的生成方法的电子装置，如图10所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、传感器1006、编码器1008以及传输装置1010，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型

S2，对各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；

S3，根据第二特征向量生成目标自然语言描述信息，其中，目标自然语言描述信息用于通过自然语言表示媒体资源。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本申请实施例中的自然语言描述信息的生成方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1010包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1010为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1002用于存储应用程序。

本申请的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种自然语言描述信息的生成方法，应用于服务器，包括：

通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；

对所述各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；

根据所述第二特征向量生成目标自然语言描述信息，其中，所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。
根据权利要求1所述的方法，所述通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量包括：

获取所述媒体资源，并确定所述媒体资源所包括的资源块；

将所述资源块作为输入信息输入所述多个自然语言描述模型中每个自然语言描述模型；

通过所述多个自然语言描述模型中的所述每个自然语言描述模型分别生成一个第一特征向量，其中，所述一个第一特征向量包括所述资源块对应的第一特征。
根据权利要求2所述的方法，所述媒体资源包括多个所述资源块，其中，利用所述多个自然语言描述模型中的所述每个自然语言描述模型生成一个第一特征向量包括：

通过所述每个自然语言描述模型包括的特征提取模型对多个所述资源块进行处理，其中，所述特征提取模型用于从各个所述资源块中提取所述第一特征，得到多个所述第一特征；

获取多个所述资源块的顺序信息，其中，所述顺序信息用于指示多个所述资源块在所述媒体资源中的顺序；

使用所述顺序信息对多个所述第一特征进行顺序编码，得到所述第一特征向量。
根据权利要求3所述的方法，所述每个自然语言描述模型包括多个特征提取模型，每个所述特征提取模型对应不同特征类型，所述通过所述每个自然语言描述模型包括的特征提取模型对多个所述资源块进行处理包括：

将多个所述资源块输入所述每个自然语言描述模型包括的各个特征提取模型，获取每个所述特征提取模型输出的一组第二特征，得到多组第二特征，所述多组第二特征中的每组第二特征包括与每个所述资源块一一对应的特征；

将所述多组第二特征中与同一资源块对应的特征融合为一个特征，得到多个所述第一特征。
根据权利要求3所述的方法，使用所述顺序信息对多个所述第一特征进行顺序编码，得到所述第一特征向量包括：

将所述第一特征按照所述顺序输入到顺序编码器；

利用所述顺序编码器生成时序特征向量；

通过注意力机制模型对所述时序特征向量进行处理，得到多个第三特征，其中，所述注意力机制模型用于根据每个资源块与资源特征之间的相关度确定每个资源块对应的加权特征；

通过所述每个自然语言描述模型包括的解码器模型对所述多个第三特征进行处理，其中，所述解码器模型用于根据所述多个第三特征生成所述第一特征向量。
根据权利要求1所述的方法，所述媒体资源包括多个资源块，所述多个第一特征向量中每个第一特征向量包括与多个所述资源块一一对应的多个第四特征，其中，对所述多个第一特征向量进行融合，得到第二特征向量包括：

从所述多个第一特征向量中提取出与多个所述资源块一一对应的多个特征集合，其中，所述多个特征集合中每个特征集合包括多个所述资源块中一个资源块在所述多个第一特征向量中对应的第四特征；

获取所述多个特征集合中每个特征集合的平均特征，得到与多个所述资源块一一对应的多个平均特征；

将包括所述多个平均特征的特征向量确定为所述第二特征向量。
根据权利要求1所述的方法，所述媒体资源包括第一数量的资源块，所述第二特征向量包括与所述第一数量的资源块对应的第一数量的特征，其中，根据所述第二特征向量生成目标自然语言描述信息包括：

通过目标函数对所述第一数量的特征进行处理，得到使得所述目标函数最大化的第二数量的单词，其中，所述目标函数为获得单词概率分布的函数；

将所述第二数量的单词整合为语句，并将所述语句确定为所述目标自然语言描述信息。
根据权利要求1所述的方法，在通过多个自然语言描述模型对媒体资源进行处理，得到多个第一特征向量之前，所述方法还包括：

使用资源样本对多个初始自然语言描述模型中的每个模型进行训练，得到多个第一损失函数满足第一预设条件的第一模型，其中，所述第一损失函数是根据所述多个初始自然语言描述模型中的所述每个模型配置的损失函数；

使用所述资源样本对多个联合模型中的每个联合模型进行训练，得到多个第二损失函数满足第二预设条件的第二模型，其中，所述多个联合模型中的每个联合模型为一个所述第一模型与一个重构器模型级联得到的模型，所述重构器模型用于根据所述第一模型输出的描述结果重构出所述资源样本的特征，所述第二损失函数是根据所述每个联合模型配置的损失函数；

对所述多个第二模型进行训练，得到评价参数满足第三预设条件的多个自然语言描述模型。
一种自然语言描述信息的生成装置，包括：

处理模块，用于通过多个自然语言描述模型分别对媒体资源进行处理，获得各个自然语言描述模型输出的第一特征向量，所述各个自然语言描述模型输出的第一特征向量对应不同特征类型；

融合模块，用于对所述各个自然语言描述模型输出的第一特征向量进行融合，得到第二特征向量；

生成模块，用于根据所述第二特征向量生成目标自然语言描述信息，其中，所述目标自然语言描述信息用于通过自然语言表示所述媒体资源。
根据权利要求9所述的装置，所述处理模块包括：

第一获取单元，用于获取所述媒体资源，并确定所述媒体资源所包括的资源块；

第一输入单元，用于将所述资源块作为输入信息输入所述多个自然语言描述模型中每个自然语言描述模型；

生成单元，用于通过所述多个自然语言描述模型中的所述每个自然语言描述模型分别生成一个第一特征向量，其中，所述一个第一特征向量包括所述资源块对应的第一特征。
根据权利要求9所述的装置，所述媒体资源包括多个资源块，每个所述第一特征向量包括与多个所述资源块一一对应的多个第四特征，其中，所述融合模块包括：

提取单元，用于从所述多个第一特征向量中提取出与多个所述资源块一一对应的多个特征集合，其中，所述多个特征集合中每个特征集合包括多个所述资源块中一个资源块在所述多个第一特征向量中对应的第四特征；

第二获取单元，用于获取所述多个特征集合中每个特征集合的平均特征，得到与多个所述资源块一一对应的多个平均特征；

确定单元，用于将包括所述多个平均特征的特征向量确定为所述第二特征向量。
根据权利要求9所述的装置，所述媒体资源包括第一数量的资源块，所述第二特征向量包括与所述第一数量的资源块对应的第一数量的特征，其中，所述生成模块包括：

处理单元，用于通过目标函数对所述第一数量的特征进行处理，得到使得所述目标函数最大化的第二数量的单词，其中，所述目标函数为获得单词概率分布的函数；

整合单元，用于将所述第二数量的单词整合为语句，并将所述语句确定为所述目标自然语言描述信息。
根据权利要求9所述的装置，所述装置还包括：

第一训练模块，用于使用资源样本对多个初始自然语言描述模型中的每个模型进行训练，得到多个第一损失函数满足第一预设条件的第一模型，其中，所述第一损失函数是根据所述多个初始自然语言描述模型中的所述每个模型配置的损失函数；

第二训练模块，用于使用所述资源样本对多个联合模型中的每个联合模型进行训练，得到多个第二损失函数满足第二预设条件的第二模型，其中，所述多个联合模型中的每个联合模型为一个所述第一模型与一个重构器模型级联得到的模型，所述重构器模型用于根据所述优化后模型输出的描述结果重构出所述资源样本的特征，所述第二损失函数是根据所述每个联合模型配置的损失函数；

第三训练模块，用于对所述多个第二模型进行训练，得到评价参数满足第三预设条件的多个自然语言描述模型。
一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。