WO2020215988A1

WO2020215988A1 - 视频描述生成方法、装置、设备及存储介质

Info

Publication number: WO2020215988A1
Application number: PCT/CN2020/081721
Authority: WO
Inventors: 裴文杰; 张记袁; 柯磊; 戴宇荣; 沈小勇; 贾佳亚; 王向荣
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-22
Filing date: 2020-03-27
Publication date: 2020-10-29
Also published as: JP2022509299A; US11743551B2; JP7179183B2; EP3962097A4; US20210281774A1; KR102477795B1; KR20210095208A; CN109874029A; CN109874029B; EP3962097A1

Abstract

一种视频描述生成方法，包括：通过视频描述生成模型的编码器对目标视频进行编码，得到目标视频的目标视觉特征；通过视频描述生成模型的基础解码器，采用注意力机制对目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率；通过视频描述生成模型的辅助解码器对目标视觉特征进行解码，得到各个候选词汇对应的第二选取概率，辅助解码器的记忆结构中包括各个候选词汇对应的参考视觉上下文信息，参考视觉上下文信息根据候选词汇对应的相关视频生成；根据第一选取概率和第二选取概率确定候选词汇中的解码词；根据各个解码词生成视频描述。

Description

视频描述生成方法、装置、设备及存储介质

本申请要求于2019年04月22日提交中国专利局，申请号为2019103251930，申请名称为“视频描述生成方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术领域和视频描述领域，特别涉及一种视频描述生成方法、装置、设备及存储介质。

背景技术

视频描述(Video Captioning)是一种为视频生成内容描述信息的技术。在人工智能领域，通常采用视频描述生成模型自动为视频生成视频描述，而视频描述生成模型大多基于编码-解码(Encoder-Decoder)框架。

在应用视频描述生成模型过程中，视频描述生成模型首先通过编码器提取视频中的视觉特征，然后将提取到的视觉特征输入解码器，由解码器根据视觉特征依次生成解码词，并最终将生成的各个解码词组合成视频描述。

相关技术中的视频描述生成模型仅关注当前处理的视频，而在实际应用中，同一解码词可能会用于语义相似但并不完全相同的多个视频中，导致视频描述生成模型的关注角度过于局限，进而影响生成的视频描述的质量。

发明内容

根据本申请提供的各种实施例，提供了一种视频描述生成方法、装置、设备及存储介质。所述技术方案如下：

一种视频描述生成方法，由计算机设备执行，该方法包括：

通过视频描述生成模型的编码器对目标视频进行编码，得到目标视频的目标视觉特征；

通过视频描述生成模型的基础解码器，采用注意力机制对目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率；

通过视频描述生成模型的辅助解码器对目标视觉特征进行解码，得到各个候选词汇对应的第二选取概率，辅助解码器的记忆结构中包括各个候选词汇对应的参考视觉上下文信息，参考视觉上下文信息根据候选词汇对应的相关视频生成；

根据第一选取概率和第二选取概率确定候选词汇中的解码词；

根据各个解码词生成目标视频对应的视频描述。

一种视频描述生成装置，设置于计算机设备中，装置包括：

编码模块，用于通过视频描述生成模型的编码器对目标视频进行编码，得到目标视频的目标视觉特征；

第一解码模块，用于通过视频描述生成模型的基础解码器，采用注意力机制对目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率；

第二解码模块，用于通过视频描述生成模型的辅助解码器对目标视觉特征进行解码，得到各个候选词汇对应的第二选取概率，辅助解码器的记忆结构中包括各个候选词汇对应的参考视觉上下文信息，参考视觉上下文信息根据候选词汇对应的相关视频生成；

第一确定模块，用于根据第一选取概率和第二选取概率确定候选词汇中的解码词；

第一生成模块，用于根据各个解码词生成目标视频对应的视频描述。

一种计算机设备，计算机设备包括一个或多个处理器和存储器，存储器中存储有至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集，至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集由一个或多个处理器加载并执行以实现如上述方面的视频描述生成方法。

一个或多个计算机可读存储介质，可读存储介质中存储有至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集，至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集由一个或多个处理器加载并执行以实现如上述方面的视频描述生成方法。

一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述方面的视频描述生成方法。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。基于本申请的说明书、附图以及权利要求书，本申请的其它特征、目的和优点将变得更加明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是在一个实施例中相关技术中利用SA-LSTM模型生成视频描述的原理示意图；

图2是在一个实施例中视频分类检索场景下视频描述生成方法的实施示意图；

图3是在一个实施例中视障人士辅助场景下视频描述生成方法的实施示意图；

图4是在一个实施例中的实施环境的示意图；

图5是在一个实施例中的视频描述生成方法的流程图；

图6是在一个实施例中视频描述生成模型生成的视频描述；

图7是在一个实施例中的视频描述生成方法的流程图；

图8是在一个实施例中视频描述生成模型的结构示意图；

图9是在一个实施例中辅助解码器确定候选词汇选取概率过程的流程图；

图10是在一个实施例中相关技术与本申请实施例中视频描述生成模型生成的视频描述；

图11是在一个实施例中候选词汇对应参考视觉上下文信息生成过程的流程图；

图12是在一个实施例中生成参考视觉上下文信息过程的实施示意图；

图13是在一个实施例中的视频描述生成装置的结构框图；

图14是在一个实施例中的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。应当理解，此处所描述的具体实施方式仅仅用以解释本申请，并不用于限定本申请。

在视频描述领域，利用基于编码-解码框架构建的视频描述生成模型为视频自动生成视频描述是一种常规手段。其中，基于编码-解码框架的视频描述生成模型可以是软注意力-长短期记忆((Soft Attention Long Short-Term Memory，SA-LSTM)模型。在一个示意性的例子中，利用SA-LSTM模型生成视频描述的过程如图1所示。

SA-LSTM模型首先对输入的视频11进行特征提取，得到视频11的视觉特征12(v ₁，v ₂，…，v _n)。然后，SA-LSTM模型根据上一隐藏状态13(第t-1次解码过程中输出的隐藏状态)以及视觉特征12，采用软注意力机制计算各个视觉特征12对当前解码过程(即第t次解码)的权重14，从而对视觉特征12和权重14进行加权求和计算，得到当前解码过程的上下文信息15。进一步的，SA-LSTM模型根据上一隐藏状态13、上一个解码词16以及上下文信息15，输出当前隐藏状态17，进而根据当前隐藏状态17确定当前解码词18。

可见，利用相关技术中的SA-LSTM模型生成视频描述时，SA-LSTM模型仅关注当前视频中的视觉特征，相应的，确定出的解码词仅与当前视频的视觉特征相关。然而在实际情况中，同一解码词可能出现在多个视频片段中，且在不同视频片段中表达相似但不完全相同的含义(即解码词可能对应相似但不完全相同的视觉特征)，导致SA-LSTM模型输出的解码词的准确度较低，进而影响最终生成的视频描述的质量。

为了提高视频描述的质量，不同于相关技术中的“单编码器+单解码器”结构，本申请实施例中视频描述生成模型采用“编码器+基础解码器+辅助解码器”的结构，创造性地引入了记忆机制，将词库中各个候选词汇与相关视频之间的关联关系存储在记忆结构中，并将记忆结构添加到在辅助解码器中。本申请实施例提供的视频描述生成模型既能够关注当前视频(基础解码器)，又能够关注与当前视频的视觉特征相似的其它视频(辅助解码器)，从而避免仅关注当前视频造成的关注角度局限性，进而提高输出的解码词的准确度，提高生成的视频描述的质量。

本申请实施例提供的视频描述生成方法可以用于如下任一场景。

1、视频分类/检索场景

应用于视频分类场景时，本申请实施例中的视频描述生成模型可以实现成为视频管理应用程序或视频管理应用程序的一部分。将不包含视频描述的视频片段输入视频管理应用程序后，视频管理应用程序即通过视频描述生成模型中的编码器提取视频片段中的视觉特征，并分别利用基础解码器和辅助解码器对视觉特征进行解码，从而综合基础解码器和辅助解码器的解码结果确定解码词，进而根据解码词为视频片段生成视频描述。对于包含视频描述的视频片段，视频管理应用程序基于视频描述(比如通过语义识别)对视频片段进行分类，并为视频片段添加相应的类别标签。后续进行视频检索时，视频管理应用程序即可根据检索条件和各个视频片段对应的类别标签，返回符合该检索条件的视频片段。

在一个示意性的例子中，如图2所示，用户使用手机拍摄一段视频后，点击保存控件21将该视频存在手机中，由视频管理应用程序自动在后台为该视频生成视频描述“一个男人在公园里遛狗”，进而根据生成的视频描述为该视频添加类别标签“遛狗”。后续用户需要从手机中存储的大量视频中检索该视频时，可以在视频管理应用程序的视频检索界面22中输入关键词“遛狗”，由视频管理应用程序将该关键词与各个视频对应的视频类别进行匹配，从而将匹配到的视频23作为检索结果进行显示。

2、视觉问答(Visual Question Answer，VQA)场景

应用于视觉问答场景时，本申请实施例中的视频描述生成模型可以实现成为智能问答应用程序或智能问答应用程序的一部分。智能问答应用程序获取到一段视频以及针对该视频的提问后，通过视频描述生成模型生成该视频对应的视频描述，并对提问和视频描述进行语义识别，从而生成提问对应的答案，进而对该答案进行显示。

3、视障人士辅助场景

应用于视障人士辅助场景时，本申请实施例中的视频描述生成模型可以实现成为语音提示应用程序或语音提示应用程序的一部分。安装有语音提示应用程序的终端(比如视障人士使用的辅助设备)通过摄像头采集到视障人士周围的环境视频后，语音提示应用程序即通过视频描述生成模型对该环境视频进行编码解码，生成环境视频对应的视频描述。对于生成的视频描述，语音提示应用程序可以将该视频描述由文字转化为语音，并进行语音播报，帮助视障人士了解周侧环境情况。

在一个示意性的例子中，如图3所示，视障人士佩戴的眼镜31上设置有摄像头32以及骨传导耳机33。工作状态下，摄像头31对前方环境进行图像采集，并采集到一段环境视频34。眼镜31通过处理器为环境视频34生成视频描述“前方有个男人正在遛狗”，并将该视频描述由文字转化为语音，进而通过骨传导耳机33播放，以便视障人士根据语音提示进行避让。

当然，除了应用于上述场景外，本申请实施例提供方法还可以应用于其他需要为视频生成视频描述的场景，本申请实施例并不对具体的应用场景进行限定。

本申请实施例提供的视频描述生成方法可以应用于终端或者服务器等计算机设备中。在一个实施例中，本申请实施例中的视频描述生成模型可以实现成为应用程序或应用程序的一部分，并被安装到终端中，使终端具备生成视频描述的功能；或者，该视频描述生成模型可以应用于应用程序的后台服务器中，从而由服务器为终端中的应用程序提供生成视频描述的功能。

请参考图4，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端410和服务器420，其中，终端410与服务器420之间通过通信网络进行数据通信，在一个实施例中，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端410中安装有具有视频描述需求的应用程序，该应用程序可以是视频管理应用程序、智能问答应用程序、语音提示应用程序、字幕生成应用程序(为视频画面添加解说字幕)等等，本申请实施例对此不做限定。在一个实施例中，终端可以是手机、平板电脑、膝上便携式笔记本电脑、视障人士辅助设备等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

服务器420可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一个实施例中，服务器420是终端410中应用程序的后台服务器。

如图4所示，本申请实施例中，服务器420中存储有预先训练得到的视频描述生成模型421。在一种可能的应用场景下，当需要自动为目标视频生成视频描述时，应用程序即通过终端410将目标视频传输至服务器420，服务器420接收到目标视频后，将目标视频输入视频描述生成模型421。视频描述生成模型421通过解码器421A对目标视频进行特征提取，并分别通过基础解码器421B和辅助解码器422C对提取到的特征进行解码，从而根据解码结果生成视频描述，并反馈给终端410，由终端410中的应用程序对视频描述进行显示。

在其他可能的实施方式中，当视频描述生成模型421实现成为终端410中应用程序的一部分时，终端410可以在本地生成目标视频的视频描述，而无需借助服务器420，从而提高终端获取视频描述的速度，降低与服务器交互产生的延迟。

请参考图5，其示出了本申请一个示例性实施例提供的视频描述生成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤501，通过视频描述生成模型的编码器对目标视频进行编码，得到目标视频的目标视觉特征。

本申请实施例中，视频描述生成模型中编码器的作用是从目标视频中提取目标视觉特征(visual feature)，并将提取到的目标视觉特征输入解码器(包括基础解码器和辅助解码器)。在一个实施例中，该目标视觉特征采用向量表示。

在一个实施例中，视频描述生成模型利用预训练的深层卷积神经网络(Convolutional Neural Networks，CNNs)作为编码器进行视觉特征提取，且利用编码器进行特征提取前，需要对目标视频进行预处理，使预处理后的目标视频符合编码器的输入要求。

对于提取到的目标视觉特征，编码器分别将目标视觉特征输入基础解码器和辅助解码器，并执行下述步骤502和503。需要说明的是，下述步骤502和503之间不存在严格的先后时序，即步骤502和步骤503可以同步执行，本实施例并不对两者的执行顺序进行限定。

步骤502，通过视频描述生成模型的基础解码器对目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率，基础解码器用于采用注意力机制解码出与目标视觉特征匹配的候选词汇。

在一个实施例中，该基础解码器关注目标视频，从而基于目标视频的目标视觉特征进行解码。在一个实施例中，该基础解码器可以是采用注意力机制的循环神经网络(Recurrent Neural Network，RNN)编码器。比如，该基础解码器采用SA-LSTM模型，且每次解码时，基础解码器采用注意力机制，根据上一次解码输出的隐藏状态、上一个解码词以及目标视觉特征确定词库中各个候选词汇对应的第一选取概率。当然，除了采用SA-LSTM模型外，该基础解码器还可以采用其他基于注意力机制的RNN编码器，本申请实施例对此并不构成限定。

在一个实施例中，基础解码器进行解码的过程本质上是一种分类任务，即通过softmax函数计算词库中各个候选词汇的(第一)选取概率。其中，第一选取概率越大，表明候选词汇与视频的上下文信息匹配度越高，即该候选词汇所表达的含义与上下文更加匹配。

步骤503，通过视频描述生成模型的辅助解码器对目标视觉特征进行解码，得到各个候选词汇对应的第二选取概率，辅助解码器的记忆结构中包括各个候选词汇对应的参考视觉上下文信息，参考视觉上下文信息根据候选词汇对应的相关视频生成。

不同于基础解码器仅关注目标视频的目标视觉特征，本实例中的辅助解码器关注候选词汇与相关视频之间的关联性，因此利用辅助解码器对目标视觉特征进行解码时，能够抓取到同一候选词汇在不同视频中的视觉特征，并与目标视频的目标视觉特征进行匹配，以此提高确定解码词的准确性。

在一个实施例中，候选词汇与相关视频的关联性存储在辅助解码器的记忆结构(memory structure)中，并通过候选词汇与参考视觉上下文信息的对应关系进行体现。其中，候选词汇对应的参考视觉上下文信息用于表示包含该候选词汇的相关视频的视觉上下文特征，且该参考视觉上下文信息根据样本视频中与候选词汇相关的相关视频生成。下述实施例将对参考视觉上下文信息的生成方式进行详细说明。

需要说明的是，除了利用记忆结构构建候选词汇与相关视频的关联性外，还可以采用基于图(graph)的算法来构建候选词汇与相关视频的关联性，本申请并不对此进行限定。

在一个实施例中，与基础解码器类似的，辅助解码器进行解码的过程本质上也是一种分类任务，即通过softmax函数计算词库中各个候选词汇的(第二)选取概率。其中，基础解码器与辅助解码器对应的相同词库，且第二选取概率越大，表明候选词汇与视频的上下文信息匹配度越高，即该候选词汇所表达的含义与上下文更加匹配。

步骤504，根据第一选取概率和第二选取概率确定候选词汇中的解码词。

不同于相关技术中仅根据单一解码器的解码结果确定解码词，本申请实施例中，视频描述生成模型综合基础解码器输出的第一选取概率和辅助解码器输出的第二选取概率，从词库中的各个候选词汇中确定出本次解码得到的解码词。

步骤505，根据各个解码词生成目标视频对应的视频描述。

由于视频描述中通常是由多个解码词构成的自然语言，因此每次解码时都需要重复上述502至504，依次生成视频描述的各个解码词，从而对多个解码词进行连接，最终生成视频描述。

综上，本申请实施例中，利用视频描述生成模型的编码器对目标视频进行编码，得到目标视觉特征后，分别通过基于注意力机制的基础解码器以及包含辅助解码器对目标视觉特征进行解码，得到各个候选词汇的第一选取概率和第二选取概率，从而综合第一选取概率和第二选取概率从候选词汇中确定出解码词，进而根据多个解码词生成视频描述；由于视频描述生成模型中辅助解码器的记忆结构包含候选词汇对应的参考视觉上下文信息，且该参考视觉上下文信息是基于候选词汇的相关视频生成的，因此利用辅助解码器进行解码时，能够关注到候选词汇与除当前视频以外其他视频之间的关联性，从而提高解码词选取的准确性，进而提高了后续生成的视频描述的质量。

在一个示意性的例子中，如图6所示，对于同一视频61，利用相关技术中的视频描述生成模型所生成的视频描述为“a woman is mixing ingredients in a bowl.”(一位女士正在混合碗里的材料)；而本申请实施例中的视频描述生成模型所生成的视频描述为“a woman is pouring liquid into a bowl.”(一位女士将液体倒入碗中)。可见，相关技术中的视频描述生成模型无法识别出视频61中的“pouring”(倒)，而本申请实施例中，由于辅助解码器的记忆结构中包含“pouring”与相关视频画面62之间的关联性(即参考视觉上下文信息)，因此能够准确解码出“pouring”这个解码词，提高了视频描述的描述质量。

上述实施例对视频描述生成模型的工作原理进行了简单说明，下面采用示意性的实施例并结合附图，对视频描述生成过程中涉及的编码以及解码过程进行更加细致的说明。

请参考图7，其示出了本申请另一个示例性实施例提供的视频描述生成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤701，通过编码器对目标视频进行编码，得到目标视频的二维视觉特征和三维视觉特征，二维视觉特征用于指示单帧图像的特征，三维视觉特征用于指示连续图像帧的时序特征。

由于视频是由连续图像帧构成，因此视频的视觉特征中既包含单帧图像的图像特征(即二维视觉特征)，又包含连续图像帧的时序特征(即三维视觉特征)。在一个实施例中，编码器中包括用于提取二维视觉特征的第一子编码器以及用于提取三维视觉特征的第二子编码器。

相应的，对目标视频进行编码时，将目标视频划分为独立的图像帧，利用第一子编码器对各个图像帧进行特征提取，得到二维视觉特征；将目标视频划分为若干视频片段(每个视频片段中包含若干连续图像帧)，利用第二子编码器对各个视频片段进行特征提取，得到三维视觉特征。

在一个实施例中，第一子编码器采用在ImageNet(用于视觉对象识别软件研究的大型可视化数据库)数据集上预训练好的ResNet-101模型(深度为101的残差网络)，而第二子编码器采用Kinetics数据集上预训练好的ResNeXt-101模型。当然，第一子编码器和第二子编码器也可以采用其它模型，本申请实施例并不对此构成限定。

在一个示意性的例子中，对于包含L个图像帧的目标视频，通过解码器对目标视频进行编码，得到二维视觉特征F _2D＝{f ₁,f ₂,...,f _L}以及三维视觉特征F _3D＝{v ₁,v ₂,...,v _N}，其中，N＝L/d，d为每个视频片段中图像帧的数量。

示意性的，如图8所示，编码器81提取得到二维视觉特征811以及三维视觉特征812。

步骤702，将二维视觉特征和三维视觉特征转换到同一特征维度，得到目标视觉特征。

由于提取到的二维视觉特征和三维视觉特征的特征维度(比如向量尺寸)可能不同，因此为了统一视觉特征的特征维度，并避免二维视觉特征和三维视觉特征相互污染，在一个实施例中，视频描述生成模型将二维视觉特征和三维视觉特征转换到隐藏空间(hidden space)同一特征维度，得到目标视觉特征。

在一个示意性的例子中，对于任意二维视觉特征f _l，其转换得到的目标视觉特征f' _l＝M _ff _l+b _f，对于任意三维视觉特征v _n，其转换得到的目标视觉特征v' _n＝M _vv _n+b _v，其中，M _f和M _v为转换矩阵，b _f和b _v为偏置项。

步骤703，通过视频描述生成模型的基础解码器对目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率，基础解码器是用于采用注意力机制解码出与目标视觉特征匹配的候选词汇。

在一个实施例中，视频描述生成模型采用门控循环单元(Gated Recurrent Unit，GRU)作为基础解码器的骨架。示意性的，如图8所示，基础解码器82中包括GRU 821、GRU 822以及GRU 823。

相应的，基础解码器进行第t次解码时，可以包括如下步骤。

一、当进行第t次解码时，获取第t-1次解码得到的第t-1解码词以及第t-1隐藏状态，第t-1隐藏状态是基础解码器进行第t-1次解码时输出的隐藏状态，t为大于或等于2的整数。

基础解码器每次解码过程中，都会输出一个隐藏状态，后续即基于该隐藏状态确定本次解码得到的解码词。本申请实施例中，由于使用GRU输出隐藏状态时，需要利用到上一次解码时输出的隐藏状态以及上一个解码词，因此，基础解码器在进行第t次解码时，需要获取第t-1解码词以及第t-1隐藏状态。

示意性的，如图8所示，进行第t次解码时，基础解码器82获取GRU 821输出的第t-1隐藏状态h _t-1，以及第t-1解码词w _t-1对应的词向量e _t-1。

二、根据第t-1解码词、第t-1隐藏状态以及目标视觉特征，确定候选词汇的第一选取概率。

在不同解码阶段，不同视觉特征与当前解码词的相关度存在差异，因此，在计算第一选取概率前，基础解码器还需要采用注意力机制对编码器输出的目标视觉特征进行处理(加权求和)，得到本次解码的目标视觉上下文信息。

在一个实施例中，基础解码器分别对二维视觉特征和三维视觉特征进行处理，得到二维视觉上下文信息和三维视觉上下文信息，并对二维视觉上下文信息和三维视觉上下文信息进行融合，得到目标视觉上下文信息。

其中，对于二维视觉特征f' _i，对其处理得到二维视觉上下文信息

其中，a _i,t＝f _att(h _t-1,f' _i)，h _t-1为第t-1隐藏状态(向量表示)，f _att为注意力函数。

对于三维视觉特征v' _i，对其处理得到三维视觉上下文信息

其中，a' _i,t＝f _att(h _t-1,v' _i)，h _t-1为第t-1隐藏状态(向量表示)，f _att为注意力函数。在一个实施例中，处理二维视觉特征和处理三维视觉特征时采用同一注意力函数。

对二维视觉上下文信息和三维视觉上下文信息进行融合，得到目标视觉上下文信息c _t＝[c _t,2D；c _t,3D]。

示意性的，如图8所示，采用注意力机制(图中的f _att)分别对二维视觉特征811和三维视觉特征812进行处理，得到C _t,2D和C _t,3D，对处理结果进行融合，得到第t次解码时的目标视觉上下文信息C _t。

GRU根据第t-1解码词、第t-1隐藏状态以及目标视觉上下文信息，输出第t次解码的第t隐藏状态。GRU确定第t隐藏状态的方式可以表示为：

h _t＝GRU(h _t-1,c _t,e _t-1)

进一步的，基础解码器基于第t隐藏状态，计算词库中各个候选词汇对应的第一选取概率。第一选取概率的计算公式如下：

其中，w _i为词库中的第i个候选词汇，K为词库中候选词汇总数，W _i和b _i是计算第i个候选词汇的线性映射得分时使用的参数。

示意性的，如图8所示，目标视觉上下文信息C _t、GRU 821输出的第t-1隐藏状态h _t-1以及第t-1解码词的词向量e _t-1输入GRU 822中，由GRU822计算各个候选词汇的第一选取概率P _b。

步骤704，当进行第t次解码时，获取第t-1次解码得到的第t-1解码词以及第t-1隐藏状态，第t-1隐藏状态是基础解码器进行第t-1次解码时输出的隐藏状态，t为大于或等于2的整数。

在一个实施例中，与基础解码器相似的，辅助解码器在解码过程中，也需要使用上一个解码词以及上一次解码时输出的隐藏状态，因此，在进行第t次解码时，辅助解码器获取第t-1解码词以及第t-1隐藏状态；第t-1隐藏状态是基础解码器进行第t-1次解码时输出的隐藏状态。

步骤705，根据第t-1解码词、第t-1隐藏状态、目标视觉特征以及候选词汇对应的参考视觉上下文信息，通过辅助解码器确定候选词汇的第二选取概率。

与基础解码器不同的是，辅助解码器在解码过程中，还需要获取记忆结构中各个候选词汇对应的参考视觉上下文信息，从而在解码过程中关注与候选词汇在相关视频中的视觉特征。

在一个实施例中，记忆结构中至少包括各个候选词汇对应的参考视觉上下文信息g _r以及候选词汇的词向量特征e _r。相应的，辅助解码器在解码过程中，重点计算候选词汇对应的目标视觉上下文信息与参考视觉上下文信息之间的匹配度，以及候选词汇的词特征向量与上一个解码词的词特征向量之间的匹配度，进而根据两个匹配度确定候选词汇的第二选取概率。

在一个实施例中，如图9所示，本步骤705可以包括如下步骤。

步骤705A，根据目标视觉特征和第t-1隐藏状态，生成进行第t次解码时的目标视觉上下文信息。

其中，根据目标视觉特征和第t-1隐藏状态，生成目标视觉上下文信息的过程可以参考上述步骤703，本实施例在此不再赘述。

在一个实施例中，辅助编码器可以从基础编码器处获取目标视觉上下文信息，而无需重复计算，本实施例对此不做限定。

步骤705B，根据目标视觉上下文信息和参考视觉上下文信息，确定候选词汇的第一匹配度。

由于候选词汇对应的参考视觉上下文信息基于候选词汇对应的相关视频生成，因此该参考视觉上下文信息可以反映出以该候选词汇为解码词的相关视频的视觉特征。相应的，当候选词汇对应的参考视觉上下文信息与本次解码时的目标视觉上下文信息匹配度较高时，该候选词汇与目标视觉上下文信息的匹配度也越高。

在一个实施例中，辅助解码器将目标视觉上下文信息和参考视觉上下文信息之间的匹配度确定为候选词汇的第一匹配度，该第一匹配度可以表示为：[W _c·c _t+W _g·g _i]，其中，W _c和W _g是线性变换矩阵，g _i是第i个候选词汇对应的参考视觉上下文信息。

步骤705C，获取记忆结构中候选词汇对应的第一词特征向量以及第t-1解码词的第二词特征向量。

除了根据视觉上下文信息确定候选词汇的匹配度外，辅助解码器还根据候选词汇与上一个解码词的词意确定候选词汇的匹配度，从而提高后续解码得到的解码词与前一个解码词之间的连贯性。

在一个实施例中，辅助解码器从记忆结构中获取候选词汇对应的第一词特征向量，并通过转换矩阵，将第t-1解码词转化为第二词特征向量。

步骤705D，根据第一词特征向量和第二词特征向量，确定候选词汇的第二匹配度。

在一个实施例中，辅助解码器将第一词特征向量和第二词特征向量之间的匹配度确定为候选词汇的第二匹配度，该第二匹配度可以表示为：[W' _e·e _t-1+W _e·e _i]，其中，W' _e和W _e是线性变换矩阵，e _i是第i个候选词汇对应的词向量特征。

需要说明的是，上述步骤705A和705B与步骤705C和705D之间并不存在严格的先后时序，即步骤705A和705B可以与步骤705C和705D同步执行，本申请实施例对此不做限定。

步骤705E，根据第一匹配度和第二匹配度，确定候选词汇的第二选取概率。

在一个实施例中，第二选取概率与第一匹配度以及第二匹配度呈正相关关系，即第一匹配度和第二匹配度越高，候选词汇的第二选取概率越高。

在一个实施例中，为了进一步提高解码的准确性，记忆结构中除了包含候选词汇对应的参考视觉上下文信息g _r以及候选词汇的词向量特征e _r外，还包含候选词汇对应的辅助信息u _r。其中，该辅助信息可以是候选词汇的词性、候选词汇所属领域、常用该候选词汇的视频类别等等。

相应的，辅助解码器即根据辅助信息、第t-1解码词、第t-1隐藏状态、目标视觉特征以及候选词汇对应的参考视觉上下文信息，确定候选词汇的第二选取概率。

在一个实施例中，候选词汇w _k的第二选取概率P _m可以表示为：

其中，q _k为候选词汇w _k的相关性分数，K为词库中候选词汇总数。

在一个实施例中，候选词汇的相关性分数计算公式如下：

q _i＝v ^Τtanh([W _c·c _t+W _g·g _i]+[W' _e·e _t-1+W _e·e _i]

+W _h·h _t-1+W _u·u _i+b)

其中，W _h和W _u是线性变换矩阵，u _i是第i个候选词汇对应的辅助信息，b是偏置项。

示意性的，如图8所示，辅助解码器83的记忆结构832中包含各个候选词汇(w _i)对应的参考视觉上下文信息g _i、词向量特征e _i以及辅助信息u _i。进行第t次解码时，记忆结构832中的内容、目标视觉上下文信息C _t、第t-1隐藏状态h _t-1以及第t-1解码词的词特征向量e _t-1输入解码组件831中，由入解码组件831输出各个候选词汇的第二选取概率P _m。

步骤706，根据第一选取概率和第一选取概率对应的第一权重，以及第二选取概率和第二选取概率对应的第二权重，计算各个候选词汇的目标选取概率。

在一个实施例中，对于词库中的各个候选词汇，视频描述生成模型获取该候选词汇对应的第一选取概率以及第二选取概率，并根据各项选取概率各自对应的权重，加权计算得到该候选词汇的目标选取概率。

示意性的，候选词汇w _k的目标选取概率的计算公式如下：

P(w _k)＝(1-λ)P _b(w _k)+λP _m(w _k)

其中，λ为第二权重，(1-λ)为第一权重。

在一个实施例中，第一权重和第二权重为实验得到的超参数，且第一权重大于第二权重。比如，λ的取值范围为(0.1,0.2)。

步骤707，将最高目标选取概率对应的候选词汇确定为解码词。

进一步的，视频描述生成模型获取各个候选词汇的目标选取概率，并将最高目标选取概率对应的候选词汇确定为本次解码得到的解码词。

示意性的，如图8所示，视频描述生成模型根据第一选取概率P _b和第二选取概率P _m计算得到目标选取概率P，并基于目标选取概率P确定第t解码词w _t。

步骤708，根据各个解码词生成目标视频对应的视频描述。

在一个示意性的例子中，如图10所示，对于同一视频1001，利用相关技术中的视频描述生成模型所生成的视频描述为“a person is slicing bread”(一个人正在切面包)；而本申请实施例中的视频描述生成模型所生成的视频描述为“a man is spreading butter on a bread”(一个人正在面包上涂黄油)。可见，相关技术中的视频描述生成模型无法识别出视频1001中的“spreading”以及“butter”，而本申请实施例中，由于辅助解码器的记忆结构中包含“spreading”以及“butter”与相关视频画面1002之间的关联性(即参考视觉上下文信息)，因此能够准确解码出“spreading”和“butter”这些解码词，提高了视频描述的准确性。

本实施例中，视频描述生成模型利用解码器对目标视频解码得到二维视觉特征和三维视觉特征，并将二维视觉特征和三维视觉特征映射到同一特征维度，提高了视觉特征提取的全面性，并避免二维视觉特征和三维视觉特征相互污染。

另外，本实施例中，辅助解码器根据候选词汇的参考视觉特征上下文信息和当前解码的目标视觉上下文信息确定候选词汇的选取概率，有助于提高最终确定出的解码词的准确性；同时，辅助解码器根据候选词汇以及上一个解码词的词向量特征确定候选词汇的选取概率，有助于提高最终确定出的解码词与上一解码词的连贯性。

针对上述实施例中候选词汇对应参考视觉上下文信息的生成过程，在一个实施例中，如图11所示，该生成过程可以包括如下步骤。

步骤1101，对于各个候选词汇，根据样本视频对应的样本视频描述，确定候选词汇对应的I条相关视频，相关视频的样本视频描述中包含候选词汇，I为大于或等于1的整数。

在一个实施例中，开发人员采用人工标注方式为样本视频生成添加样本视频描述，或者，使用已有的视频描述生成模型，自动为样本视频生成样本视频描述，并通过人工方式过滤质量低于预期的样本视频描述。

在确定词库中各个候选词汇的相关视频时，计算机设备即获取各个样本视频对应的样本视频描述，并将样本视频描述中包含该候选词汇的视频确定为候选词汇的相关视频。

在一个示意性的例子中，对于候选词汇“散步”，若样本视频A对应的视频描述为“一个男人牵着一条狗”，而样本视频B对应的视频描述为“一个男人和一个女人在公园散步”，计算机设备则将样本视频B确定为“散步”对应的相关视频。

步骤1102，对于各条相关视频，确定相关视频中的k个关键视觉特征，关键视觉特征与候选词汇的匹配度高于相关视频中非关键视觉特征与候选词汇的匹配度，k为大于或等于1的整数。

对各个候选词汇对应的各条相关视频，由于相关视频中并非所有图像帧(或视频片段)均与该候选词汇相关，因此，计算机设备需要确定出各条相关视频中与候选词汇相关的关键视觉特征。可以理解，非关键视觉特征，是各条相关视频中的除关键视觉特征以外的视觉特征。

在一个实施例中，确定相关视频中的关键视觉特征时可以包括如下步骤。

一、通过基础解码器，获取相关视频中各个视觉特征对候选词汇的特征权重，其中，各个特征权重之和为1。

在一个实施例中，计算机设备首先训练视频描述生成模型中的基础解码器，并利用该基础解码器(采用注意力机制)，获取解码该候选词汇时，相关视频中各个视觉特征对该候选词汇的特征权重。

在一个示意性的例子中，候选词汇是样本视频对应样本视频描述中的第t个解码词时，计算机设备即利用基础解码器对样本视频的视觉特征进行解码，并获取第t次解码时，基础解码器输出的第t-1隐藏状态h _t-1，从而通过注意力函数f _att计算各个视觉特征(包括v’ _i或者f’ _i)对该候选词汇的特征权重a _i,t。

二、将前k个特征权重对应的视觉特征确定为关键视觉特征。

当视觉特征对候选词汇的特征权重越大时，表明该视觉特征与候选词汇的相关度越高，因此，计算机设备可以将前k个(Top-k)特征权重对应的视觉特征确定为候选词汇的关键视觉特征。

示意性的，如图12所示，对于候选词汇对应的I个相关视频，计算机设备分别提取各个相关视频的二维视觉特征1201和三维视觉特征1202，并通过基础解码器的注意力机制，获取相关视频中各个视觉特征对候选词汇的特征权重，并从中选取Top-k的视觉特征作为关键视觉特征1203。

步骤1103，根据I条相关视频对应的各个关键视觉特征，生成候选词汇对应的参考视觉上下文信息。

进一步的，计算机设备将各条相关视频对应的关键视觉特征进行融合，从而生成候选词汇对应的参考视觉上下文信息。

其中，候选词汇对应的参考视觉上下文信息g _r可以表示为：

其中，I为相关视频的个数，k为每个相关视频对应的关键视觉特征的数量，a _i,j为第j个二维关键视觉特征f' _i,j对候选词汇的特征权重，a' _i,j为第j个三维关键视觉特征v' _i,j对候选词汇的特征权重。

示意性的，如图12所示，计算机设备将各个相关视频对应的关键视觉特征1203进行融合，生成参考视觉上下文信息1204。

步骤1104，将各个候选词汇对应的参考视觉上下文信息存储到记忆结构。

进一步的，计算机设备将各个候选词汇对应的参考视觉上下文信息存储到辅助解码器的记忆结构中，以便后续使用。

本实施例中，计算机设备从候选词汇对应的相关视频中提取候选词汇的关键视觉特征，从而根据大量关键视觉特征生成候选词汇的参考视觉上下文信息，并存储到记忆结构中，有助于提高后续解码所得解码词的准确度。

在MSR-VTT数据集上，对相关技术以及本申请实施例中视频描述生成模型的视频描述质量进行分析，得到的分析结果如表一所示。

表一

在MSVD数据集上，对相关技术以及本申请实施例中视频描述生成模型的视频描述质量进行分析，得到的分析结果如表二所示。

表二

从上述分析结果可以看出，本申请实施例中的视频描述生成模型，在四个评估指标(BLEU-4,METEROR,ROUGE-L,CIDEr)上均处于领先水平。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图13是本申请一个示例性实施例提供的视频描述生成装置的结构框图，该装置可以设置于上述实施例所述的计算机设备，如图13所示，该装置包括：

编码模块1301，用于通过视频描述生成模型的编码器对目标视频进行编码，得到目标视频的目标视觉特征。

第一解码模块1302，用于通过视频描述生成模型的基础解码器，采用注意力机制对目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率。

第二解码模块1303，用于通过视频描述生成模型的辅助解码器对目标视觉特征进行解码，得到各个候选词汇对应的第二选取概率，辅助解码器的记忆结构中包括各个候选词汇对应的参考视觉上下文信息，参考视觉上下文信息根据候选词汇对应的相关视频生成。

第一确定模块1304，用于根据第一选取概率和第二选取概率确定候选词汇中的解码词。

第一生成模块1305，用于根据各个解码词生成目标视频对应的视频描述。

在一个实施例中，第二解码模块1303，包括：

第一获取单元，用于当进行第t次解码时，获取第t-1次解码得到的第t-1解码词以及第t-1隐藏状态，第t-1隐藏状态是基础解码器进行第t-1次解码时输出的隐藏状态，t为大于或等于2的整数。

第一确定单元，用于根据第t-1解码词、第t-1隐藏状态、目标视觉特征以及候选词汇对应的参考视觉上下文信息，确定候选词汇的第二选取概率。

在一个实施例中，第一确定单元，用于：

根据目标视觉特征和第t-1隐藏状态，生成进行第t次解码时的目标视觉上下文信息；根据目标视觉上下文信息和参考视觉上下文信息，确定候选词汇的第一匹配度；获取记忆结构中候选词汇对应的第一词特征向量以及第t-1解码词的第二词特征向量；根据第一词特征向量和第二词特征向量，确定候选词汇的第二匹配度；根据第一匹配度和第二匹配度，确定候选词汇的第二选取概率。

在一个实施例中，记忆结构中还包括各个候选词汇对应的辅助信息。第一确定单元，用于：

根据辅助信息、第t-1解码词、第t-1隐藏状态、目标视觉特征以及候选词汇对应的参考视觉上下文信息，确定候选词汇的第二选取概率。

在一个实施例中，装置包括：

第二确定模块，用于对于各个候选词汇，根据样本视频对应的样本视频描述，确定候选词汇对应的I条相关视频，相关视频的样本视频描述中包含候选词汇，I为大于或等于1的整数。

第三确定模块，用于对于各条相关视频，确定相关视频中的k个关键视觉特征，关键视觉特征与候选词汇的匹配度高于相关视频中非关键视觉特征与候选词汇的匹配度，k为大于或等于1的整数。

第二生成模块，用于根据I条相关视频对应的各个关键视觉特征，生成候选词汇对应的参考视觉上下文信息。

存储模块，用于将各个候选词汇对应的参考视觉上下文信息存储到记忆结构。

在一个实施例中，第三确定模块，包括：

获取单元，用于通过基础解码器，获取相关视频中各个视觉特征对候选词汇的特征权重，其中，各个特征权重之和为1。

第二确定单元，用于将前k个特征权重对应的视觉特征确定为关键视觉特征。

在一个实施例中，第一确定模块1304，包括：

计算单元，用于根据第一选取概率和第一选取概率对应的第一权重，以及第二选取概率和第二选取概率对应的第二权重，计算各个候选词汇的目标选取概率。

第三确定单元，用于将最高目标选取概率对应的候选词汇确定为解码词。

在一个实施例中，编码模块1301，包括：

编码单元，用于通过编码器对目标视频进行编码，得到目标视频的二维视觉特征和三维视觉特征，二维视觉特征用于指示单帧图像的特征，三维视觉特征用于指示连续图像帧的时序特征。

转换单元，用于将二维视觉特征和三维视觉特征转换到同一特征维度，得到目标视觉特征。

需要说明的是：上述实施例提供的视频描述生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块或单元完成，即，将设备的内部结构划分成不同的功能模块或单元，以完成以上描述的全部或者部分功能。每个功能模块或单元可全部或部分通过软件、硬件或其组合来实现。另外，上述实施例提供的视频描述生成装置与视频描述生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备1400包括中央处理单元(CPU)1401、包括随机存取存储器(RAM)1402和只读存储器(ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，大容量存储设备1407可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1401执行，一个或多个程序包含用于实现上述方法的计算机可读指令，中央处理单元1401执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一个或多个计算机可读存储介质，该可读存储介质中存储有至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集，至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集由一个或多个处理器加载并执行以实现上述任一实施例的视频描述生成方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的视频描述生成方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来计算机可读指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集，至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集由处理器加载并执行以实现上述任一方法实施例的视频描述生成方法。

在一个实施例中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来计算机可读指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

Claims

一种视频描述生成方法，其特征在于，由计算机设备执行，所述方法包括：

通过视频描述生成模型的编码器对目标视频进行编码，得到所述目标视频的目标视觉特征；

通过所述视频描述生成模型的基础解码器，采用注意力机制对所述目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率；

通过所述视频描述生成模型的辅助解码器对所述目标视觉特征进行解码，得到各个所述候选词汇对应的第二选取概率，所述辅助解码器的记忆结构中包括各个所述候选词汇对应的参考视觉上下文信息，所述参考视觉上下文信息根据所述候选词汇对应的相关视频生成；

根据所述第一选取概率和所述第二选取概率确定所述候选词汇中的解码词；

根据各个所述解码词生成所述目标视频对应的视频描述。
根据权利要求1所述的方法，其特征在于，所述通过所述视频描述生成模型的辅助解码器对所述目标视觉特征进行解码，得到各个所述候选词汇对应的第二选取概率，包括：

当进行第t次解码时，获取第t-1次解码得到的第t-1解码词以及第t-1隐藏状态，所述第t-1隐藏状态是所述基础解码器进行第t-1次解码时输出的隐藏状态，t为大于或等于2的整数；

根据所述第t-1解码词、所述第t-1隐藏状态、所述目标视觉特征以及所述候选词汇对应的所述参考视觉上下文信息，通过辅助解码器确定所述候选词汇的所述第二选取概率。
根据权利要求2所述的方法，其特征在于，所述根据所述第t-1解码词、所述第t-1隐藏状态、所述目标视觉特征以及所述候选词汇对应的所述参考视觉上下文信息，确定所述候选词汇的所述第二选取概率，包括：

根据所述目标视觉特征和所述第t-1隐藏状态，生成进行第t次解码时的目标视觉上下文信息；

根据所述目标视觉上下文信息和所述参考视觉上下文信息，确定所述候选词汇的第一匹配度；

获取所述记忆结构中所述候选词汇对应的第一词特征向量以及所述第t-1解码词的第二词特征向量；

根据所述第一词特征向量和所述第二词特征向量，确定所述候选词汇的第二匹配度；

根据所述第一匹配度和所述第二匹配度，确定所述候选词汇的所述第二选取概率。
根据权利要求3所述的方法，其特征在于，所述根据所述目标视觉特征和所述第t-1隐藏状态，生成进行第t次解码时的目标视觉上下文信息包括：根据所述目标视觉特征和所述第t-1隐藏状态，得到进行第t次解码时的二维视觉上下文信息和三维视觉上下文信息；

对所述二维视觉上下文信息和所述三维视觉上下文信息进行融合，得到进行第t次解码时的目标视觉上下文信息。
根据权利要求2所述的方法，其特征在于，所述记忆结构中还包括各个所述候选词汇对应的辅助信息；

所述根据所述第t-1解码词、所述第t-1隐藏状态、所述目标视觉特征以及所述候选词汇对应的所述参考视觉上下文信息，确定所述候选词汇的所述第二选取概率，包括：

根据所述辅助信息、所述第t-1解码词、所述第t-1隐藏状态、所述目标视觉特征以及所述候选词汇对应的所述参考视觉上下文信息，确定所述候选词汇的所述第二选取概率。
根据权利要求1至5任一所述的方法，其特征在于，所述方法包括：

对于各个所述候选词汇，根据样本视频对应的样本视频描述，确定所述候选词汇对应的I条所述相关视频，所述相关视频的所述样本视频描述中包含所述候选词汇，I为大于或等于1的整数；

对于各条所述相关视频，确定所述相关视频中的k个关键视觉特征，所述关键视觉特征与所述候选词汇的匹配度高于所述相关视频中非关键视觉特征与所述候选词汇的匹配度，k为大于等于1的整数；

根据I条所述相关视频对应的各个所述关键视觉特征，生成所述候选词汇对应的所述参考视觉上下文信息；

将各个所述候选词汇对应的所述参考视觉上下文信息存储到所述记忆结构。
根据权利要求6所述的方法，其特征在于，所述确定所述相关视频中的k个关键视觉特征，包括：

通过所述基础解码器，获取所述相关视频中各个视觉特征对所述候选词汇的特征权重，其中，各个所述特征权重之和为1；

将前k个所述特征权重对应的所述视觉特征确定为所述关键视觉特征。
根据权利要求1至5任一所述的方法，其特征在于，所述根据所述第一选取概率和所述第二选取概率确定所述候选词汇中的解码词，包括：

根据所述第一选取概率和所述第一选取概率对应的第一权重，以及所述第二选取概率和所述第二选取概率对应的第二权重，计算各个所述候选词汇的目标选取概率；

将最高目标选取概率对应的所述候选词汇确定为所述解码词。
根据权利要求1至5任一所述的方法，其特征在于，所述通过视频描述生成模型的编码器对目标视频进行编码，得到所述目标视频的目标视觉特征，包括：

通过所述编码器对所述目标视频进行编码，得到所述目标视频的二维视觉特征和三维视觉特征，所述二维视觉特征用于指示单帧图像的特征，所述三维视觉特征用于指示连续图像帧的时序特征；

将所述二维视觉特征和所述三维视觉特征转换到同一特征维度，得到所述目标视觉特征。
一种视频描述生成装置，其特征在于，设置于计算机设备中，所述装置包括：

编码模块，用于通过视频描述生成模型的编码器对目标视频进行编码，得到所述目标视频的目标视觉特征；

第一解码模块，用于通过所述视频描述生成模型的基础解码器，采用注意力机制对所述目标视觉特征进行解码，得到各个候选词汇对应的第一选取概率；

第二解码模块，用于通过所述视频描述生成模型的辅助解码器对所述目标视觉特征进行解码，得到各个所述候选词汇对应的第二选取概率，所述辅助解码器的记忆结构中包括各个所述候选词汇对应的参考视觉上下文信息，所述参考视觉上下文信息根据所述候选词汇对应的相关视频生成；

第一确定模块，用于根据所述第一选取概率和所述第二选取概率确定所述候选词汇中的解码词；

第一生成模块，用于根据各个所述解码词生成所述目标视频对应的视频描述。
根据权利要求10所述的装置，其特征在于，所述第二解码模块，包括：

第一获取单元，用于当进行第t次解码时，获取第t-1次解码得到的第t-1解码词以及第t-1隐藏状态，所述第t-1隐藏状态是所述辅助解码器进行第t-1次解码时输出的隐藏状态，t为大于或等于2的整数；

第一确定单元，用于根据所述第t-1解码词、所述第t-1隐藏状态、所述目标视觉特征以及所述候选词汇对应的所述参考视觉上下文信息，通过辅助解码器确定所述候选词汇的所述第二选取概率。
根据权利要求11所述的装置，其特征在于，所述第一确定单元，用于：

根据所述目标视觉特征和所述第t-1隐藏状态，生成进行第t次解码时的目标视觉上下文信息；

根据所述目标视觉上下文信息和所述参考视觉上下文信息，确定所述候选词汇的第一匹配度；

获取所述记忆结构中所述候选词汇对应的第一词特征向量以及所述第t-1解码词的第二词特征向量；

根据所述第一词特征向量和所述第二词特征向量，确定所述候选词汇的第二匹配度；

根据所述第一匹配度和所述第二匹配度，确定所述候选词汇的所述第二选取概率。
根据权利要求12所述的装置，其特征在于，所述第一确定单元还用于：根据所述目标视觉特征和所述第t-1隐藏状态，得到进行第t次解码时的二维视觉上下文信息和三维视觉上下文信息；

对所述二维视觉上下文信息和所述三维视觉上下文信息进行融合，得到进行第t次解码时的目标视觉上下文信息。
根据权利要求11所述的装置，其特征在于，所述记忆结构中还包括各个所述候选词汇对应的辅助信息；

所述第一确定单元，用于：

根据所述辅助信息、所述第t-1解码词、所述第t-1隐藏状态、所述目标视觉特征以及所述候选词汇对应的所述参考视觉上下文信息，确定所述候选词汇的所述第二选取概率。
根据权利要求10至14任一所述的装置，其特征在于，所述装置包括：

第二确定模块，用于对于各个所述候选词汇，根据样本视频对应的样本视频描述，确定所述候选词汇对应的I条所述相关视频，所述相关视频的所述样本视频描述中包含所述候选词汇，I为大于或等于1的整数；

第三确定模块，用于对于各条所述相关视频，确定所述相关视频中的k个关键视觉特征，所述关键视觉特征与所述候选词汇的匹配度高于所述相关视频中非关键视觉特征与所述候选词汇的匹配度，k为大于等于1的整数；

第二生成模块，用于根据I条所述相关视频对应的各个所述关键视觉特征，生成所述候选词汇对应的所述参考视觉上下文信息；

存储模块，用于将各个所述候选词汇对应的所述参考视觉上下文信息存储到所述记忆结构。
根据权利要求15所述的装置，其特征在于，所述第三确定模块，包括：

获取单元，用于通过所述基础解码器，获取所述相关视频中各个视觉特征对所述候选词汇的特征权重，其中，各个所述特征权重之和为1；

第二确定单元，用于将前k个所述特征权重对应的所述视觉特征确定为所述关键视觉特征。
根据权利要求10至14任一所述的装置，其特征在于，所述第一确定模块，包括：

计算单元，用于根据所述第一选取概率和所述第一选取概率对应的第一权重，以及所述第二选取概率和所述第二选取概率对应的第二权重，计算各个所述候选词汇的目标选取概率；

第三确定单元，用于将最高目标选取概率对应的所述候选词汇确定为所述解码词。
根据权利要求10至14任一所述的装置，其特征在于，所述编码模块，包括：

编码单元，用于通过所述编码器对所述目标视频进行编码，得到所述目标视频的二维视觉特征和三维视觉特征，所述二维视觉特征用于指示单帧图像的特征，所述三维视觉特征用于指示连续图像帧的时序特征；

转换单元，用于将所述二维视觉特征和所述三维视觉特征转换到同一特征维度，得到所述目标视觉特征。
一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和存储器，所述存储器中存储有至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集，所述至少一条计算机可读指令、所述至少一段程序、所述代码集或计算机可读指令集由所述一个或多个处理器加载并执行以实现如权利要求1至9任一所述的视频描述生成方法。
一个或多个计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条计算机可读指令、至少一段程序、代码集或计算机可读指令集，所述至少一条计算机可读指令、所述至少一段程序、所述代码集或计算机可读指令集由一个或多个处理器加载并执行以实现如权利要求1至9任一所述的视频描述生成方法。