WO2023035610A1

WO2023035610A1 - 基于关键词感知的多模态注意力视频问答方法与系统

Info

Publication number: WO2023035610A1
Application number: PCT/CN2022/085751
Authority: WO
Inventors: 王若梅; 陈铎; 周凡
Original assignee: 中山大学
Priority date: 2021-09-09
Filing date: 2022-04-08
Publication date: 2023-03-16
Also published as: CN113902964A

Abstract

本发明公开了一种基于关键词感知的多模态注意力视频问答方法与系统。包括：运用多模态特征提取和预训练模型KeyBert关键词提取算法，提取输入视频的各个多模态特征；运用关键词感知的多模态注意力算法，处理提取的各多模态特征，输出经有效关联和融合后的多模态特征；将已融合的多模态特征经过多层感知机MLP，输出预测的答案。本发明还公开了一种基于关键词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明在提取视频特征时，结合更为隐式的关键词特征，提取更为丰富的视频特征；在特征融合时，结合自注意力机制捕获特征的时序性，应用双向注意力机制强调模态间互相关联的信息，更有效地融合多模态特征，显著提高视频问答的准确率。

Description

基于关键词感知的多模态注意力视频问答方法与系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于关键词感知的多模态注意力视频问答方法、基于关键词感知的多模态注意力视频问答系统、计算机设备及计算机可读存储介质。

背景技术

近年来，随着人工智能技术的发展，视频问答技术应运而生。视频问答技术能够根据所提出的问题，快速有效地根据视频的内容预测相应的答案，从而帮助用户迅速地理解视频内容，获取想要的视频信息，减少人们在冗长的视频中筛选信息的时间。传统的视觉问答技术主要针对单个的静态图像，而视频是由大量的视频帧组成的，视频在语义上包含了视觉、文本和音频信息，且具有非结构化、多模态、时间性和空间性等特点。因此，视频问答技术必须处理更多的输入数据，同时需要具体的方法提取视觉内容和文本内容，并进行有效的融合。

目前大多数视频问答技术模型直接利用全部的视频信息来回答问题，难以精确提取核心的、有效的特征信息，通常受无效的、多余的信息影响而存在视频问答准确率低的劣势，难以广泛应用。

目前的现有技术之一，专利“一种基于动作的关系网络视频问答系统及方法”，使用时序动作检测网络的结果辅助视频特征的编码，强调了视频的动作因素，而后将动作概率分布与初始的视频特征被一起输入到神经网络的编码器中，以学习视频特征使最终的视频特征能够包含动作信息，最后，将输出的视频特征与问题特征输入一个多头的关系转换器网络中，通过此网络输出最后的结果进行视频问答。该技术的缺点在于，没有强调多模态特征中互相关联的部分，没有考虑视频的字幕模态。

目前的现有技术之二，专利“一种人工智能视频问答方法”，首先获取视觉特征和文字特征；然后进行视觉特征提取，对视觉特征和语义特征进行多模态融合，获得融合特征；最后根据融合特征和语义特征生成答案。该技术的缺点在于，采用的特征融合方法较为单一，没有很好关注多模态特征之间的相关信息。

目前的现有技术之三，专利“一种基于多模态融合模型的提高视频问答精度方法及系统”，将视频问答的问题输入训练好的多模态融合模型，获得问题答案；根据问题的特点针对不同的问题聚焦不同的目标实体实例，提高模型选择答案的准确率。该技术的缺点在于，虽然关联了模态之间的相关内容，但没有考虑到隐式的特征信息，没有结合关键词特征进一步关联关键信息。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于关键词感知的多模态注意力视频问答方法、系统、设备及存储介质。本发明解决的主要问题是，在视频问答中，与问题相关的答案仅出现在视频中的部分句子或单词中，而现有技术的方法大多都直接运用全局的视频信息，从而导致问答效率较低且冗余信息较多。即如何通过多模态特征提取算法和关键词提取算法对输入的视频帧、字幕文本和问题文本信息进行筛选和处理，从而更准确地输出预测答案的问题。

为了解决上述问题，本发明提出了一种基于关键词感知的多模态注意力视频问答方法，所述方法包括：

输入视频帧、字幕文本和问题文本信息，利用多模态特征提取和关键词提取算法，提取输入视频的多模态特征；

利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征；

利用多层感知机MLP，对所述已融合的多模态特征进行处理后，输出预测的答案。

优选地，所述利用多模态特征提取和关键词提取算法，提取输入视频的多模态特征，具体为：

利用卷积网络C3D提取所述视频帧的动作标签，使用对象检测算法Yolo提取所述视频帧的视觉标签，并将动作标签和视觉标签合为一个视觉标签集合；

将所述视觉标签集合、问题文本和字幕文本整合为一个长句子，利用预训练模型KeyBert进行关键词提取，输出提取出的关键词集合；

利用预训练模型BERT和双向神经网络LSTM编码器，对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理，得到所述文本特征的编码；

将所述视频帧输入神经网络ResNet，直接提取所述视频帧对应图片的视觉特征，并输入LSTM获得视觉特征表示；

结合所述文本特征和所述视觉特征，得到多模态特征。

优选地，所述利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征，具体为：

利用软注意力机制，对所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征；

相似地，对所述多模态特征中的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征；

对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；

对所述各模态特征两两之间应用双向注意力机制，关联不同模态特征中的相关信息，以提高特征融合的效果。

优选地，利用MLP，对所述已融合的多模态特征进行处理后，输出预测的答案，具体为：

定义一个两层MLP作为分类器，所述分类器的结构如下：

FC(2048)-ReLU-FC(n)

其中，FC为神经网络的全连接层，2048为神经元的个数；ReLU为神经网络的激活函数，n为全连接层其输出维度，由候选答案的个数决定；

经过MLP后，输出对于每个候选答案的预测得分，具体如下：

其中，

为所述已融合的多模态特征，x为每个候选答案的预测得分，x＝x ₁,x ₂,…,x _n；

使用softmax函数对所述预测得分进行归一化，得到每个候选答案的预测概率；

使用argmax函数选取所有所述候选答案中预测概率的最大值，具体如下：

y＝argmax(softmax(x))

其中，y为所述预测概率的最大值；

在训练时，使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距，具体公式如下：

其中，x为样本，概率分布p为真实答案的期望输出，概率分布q表示实际输出；所述两个概率分布越接近，该损失函数的值H(p,q)越小，则预测答案时的实际输出越接近真实答案的期望输出；反之，所述两个概率分布越远，该损失函数的值H(p,q)越大，则预测答案时的实际输出越偏离真实答案的期望输出。

相应地，本发明还提供了一种基于关键词感知的多模态注意力视频问答方法与系统，包括：

多模态特征提取单元，用于提取输入视频的多模态特征；

关键字幕文本特征融合单元，用于将所述已提取的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征；

关键问题文本特征融合单元，用于将所述已提取的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征；

多模态特征融合单元，用于对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；

答案预测单元，用于对所述已融合的多模态特征进行处理，输出预测的答案。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述视频问答方法的步骤。

相应地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频问答方法的步骤。

实施本发明，具有如下有益效果：

本发明在视频问答的特征提取上，结合了关键词这一更为隐式的特征，提取了更丰富的视频特征，并显著提高了视频问答的准确率；在视频问答的特征融合上，将软注意力机制应用于关联关键词集合和字幕文本，以及关联关键词集合与问题文本之间的信息，结合自注意力机制捕获特征的时序性，并应用双向注意力机制强调模态间互相关联的信息，更有效地融合了多模态特征。

附图说明

图1是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流程图；

图2是本发明实施例的多模态特征表示部分的流程图；

图3是本发明实施例的关键词提取部分的流程图；

图4是本发明实施例的关键词感知的多模态注意力流程图；

图5是本发明实施例的问题答案预测部分的流程图；

图6是本发明实施例的基于关键词感知的多模态注意力视频问答系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流程图，如图1所示，该方法包括：

S1，在本发明实施例中，输入一部视频和待回答的问题(包括视频帧、字幕文本和问题文本)，利用多模态特征提取算法和关键词提取算法，提取输入视频的多模态特征；

S2，利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征；

S3，利用MLP，对所述已融合的多模态特征(设为

)进行处理后，输出预测的答案。

步骤S1，如图2所示，具体如下：

S1-1，利用C3D提取所述视频帧的动作标签，利用Yolo提取所述视频帧的视觉标签，并将所述动作标签和视觉标签合为一个视觉标签集合；

S1-2，如图3所示，将所述视觉标签集合、问题文本和字幕文本整合为一个长句子，然后将所述长句子输入KeyBert预训练模型进行关键词提取，输出提取出的关键词的集合；

S1-3，将所述视觉标签集合、问题文本、字幕文本和关键词集合分别输入BERT和双向LSTM编码器进行处理，得到所述文本特征的编码；

S1-4，将所述视频帧输入ResNet，直接提取所述视频帧对应图片的视觉特征，并输入LSTM获得视觉特征表示，以保证视觉信号没有丢失。

步骤S2，如图4所示，具体如下：

S2-1，利用软注意力机制，对所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征；

S2-2，对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；

S2-3，对所述各模态特征两两之间应用双向注意力机制，关联不同模态特征中的相关信息，以提高特征融合的效果。

步骤S3，如图5所示，具体如下：

S3-1，将本发明实施例中的视频问答任务视为一个多分类的任务，定义一个两层MLP作为分类器，所述分类器的结构为：

FC(2048)-ReLU-FC(n)。

优选地，将所述已融合的多模态特征经过MLP后，输出对于每个候选答案的预测得分，具体如下：

其中，

S3-2，利用softmax函数对所述预测得分进行归一化，得到每个候选答案的预测概率，然后利用argmax函数选取所有候选答案中预测概率的最大值，具体如下：

y＝argmax(softmax(x))

其中，y为所述预测概率的最大值；

S3-3，将本发明实施例中的预测候选答案视为神经网络中的多分类问题，在训练时，使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距，具体公式如下：

其中，x为样本，概率分布p为期望输出(真实答案)，概率分布q表示实际输出；所述两个概率分布越接近，该损失函数的值H(p,q)越小，则预测答案时的实际输出越接近真实答案的期望输出；反之，所述两个概率分布越远，该损失函数的值H(p,q)越大，则预测答案时的实际输出越偏离真实答案的期望输出。

相应地，本发明还提供了一种基于关键词感知的多模态注意力视频问答方法与系统，如图6所示，包括：

多模态特征提取单元1，用于提取输入视频的多模态特征。

具体地，利用C3D提取所述视频帧的动作标签，利用Yolo提取所述视频帧的视觉标签，并将所述动作标签和视觉标签合为一个视觉标签集合，本实施例中，视觉标签即例如“站立的人”、“蓝色上衣”、“灰色的门”等，动作标签即例如“跑步”、“行走”、“拿起”等；将所述视觉标签集合、问题文本和字幕文本整合为一个长句子，利用KeyBert预训练模型进行关键词提取，输出提取的关键词集合；利用BERT和双向LSTM编码器，对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理，得到所述文本特征的编码；将所述视频帧输入ResNet，直接提取所述视频帧对应图片的视觉特征，并输入LSTM获得视觉特征表示；结合所述文本特征和所述视觉特征，得到多模态特征。

关键字幕文本特征融合单元2，用于将所述已提取的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征。

具体地，利用软注意力机制，对所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征。

关键问题文本特征融合单元3，用于将所述已提取的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征。

具体地，利用软注意力机制，对所述多模态特征中的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征。

多模态特征融合单元4，用于对经所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示。

具体地，对所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；对所述各模态特征两两之间应用双向注意力机制，关联不同模态特征中的相关信息，以提高特征融合的效果。

答案预测单元5，用于对所述已融合的多模态特征进行处理，输出预测的答案。

具体地，利用MLP，对所述已融合的多模态特征进行处理后，输出预测的答案。

因此，本发明在视频问答的特征提取上，结合了关键词这一更为隐式的特征，提取了更丰富的视频特征，并显著提高了视频问答的准确率；在视频问答的特征融合上，将软注意力机制应用于关联关键词集合和字幕文本，以及关联关键词集合与问题文本之间的信息，结合自注意力机制捕获特征的时序性，并应用双向注意力机制强调模态间互相关联的信息，更有效地融合了多模态特征。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频问答方法的步骤。同时，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频问答方法的步骤。

以上对本发明实施例所提供的基于关键词感知的多模态注意力视频问答方法、系统、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于关键词感知的多模态注意力视频问答方法，其特征在于，所述方法包括：

输入视频帧、字幕文本和问题文本信息，利用多模态特征提取算法和关键词提取算法，提取输入视频的多模态特征；

利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征；

利用多层感知机MLP，对所述已融合的多模态特征进行处理后，输出预测的答案。
如权利要求1所述的基于关键词感知的多模态注意力视频问答方法，其特征在于，将所述输入的视频帧、字幕文本和问题文本信息，利用多模态特征提取算法和关键词提取算法，提取输入视频的多模态特征，具体为：

利用卷积网络C3D提取所述视频帧的动作标签，利用对象检测算法Yolo提取所述视频帧的视觉标签，并将所述动作标签和视觉标签合为一个视觉标签集合；

将所述视觉标签集合、问题文本和字幕文本整合为一个长句子，利用预训练模型KeyBert进行关键词提取，输出提取的关键词集合；

利用预训练模型BERT和双向神经网络LSTM编码器，对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理，得到所述文本特征的编码；

将所述视频帧输入神经网络ResNet，直接提取所述视频帧对应图片的视觉特征，并输入双向LSTM获得视觉特征表示；

结合所述文本特征和所述视觉特征，得到多模态特征。
如权利要求1所述的基于关键词感知的多模态注意力视频问答方法，其特征在于，所述利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征，具体为：

利用软注意力机制，对所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征；

相似地，对所述多模态特征中的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征；

对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；

对所述各模态特征两两之间应用双向注意力机制，关联不同模态特征中的相关信息，以提高特征融合的效果。
如权利要求1所述的基于关键词感知的多模态注意力视频问答方法，其特征在于，利用MLP，对所述已融合的多模态特征进行处理后，输出预测的答案，具体为：

定义一个两层MLP作为分类器，所述分类器的结构如下：

FC(2048)-ReLU-FC(n)

其中，FC为神经网络的全连接层，2048为神经元的个数；ReLU为神经网络的激活函数，n为全连接层其输出维度，由候选答案的个数决定；

经过MLP后，输出对每个候选答案的预测得分，具体如下：

其中，
为所述已融合的多模态特征，x为每个候选答案的预测得分，x＝x ₁,x ₂,…,x _n；

使用softmax函数对所述预测得分进行归一化，得到每个候选答案的预测概率；

使用argmax函数选取所有所述候选答案中预测概率的最大值，具体如下：

y＝argmax(softmax(x))

其中，y为所述预测概率的最大值；

在训练时，使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距，具体公式如下：

其中，x为样本，概率分布p为真实答案的期望输出，概率分布q为实际输出；所述两个概率分布越接近，该损失函数的值H(p,q)越小，则预测答案时的实际输出越接近真实答案的期望输出；反之，所述两个概率分布越远，该损失函数的值H(p,q)越大，则预测答案时的实际输出越偏离真实答案的期望输出。
一种基于关键词感知的多模态注意力视频问答系统，其特征在于，所述系统包括：

多模态特征提取单元，用于提取输入视频的多模态特征；

关键字幕文本特征融合单元，用于将所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征；

关键问题文本特征融合单元，用于将所述多模态特征中的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征；

多模态特征融合单元，用于对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；

答案预测单元，用于对所述已融合的多模态特征进行处理，输出预测的答案。
如权利要求5所述的基于关键词感知的多模态注意力视频问答系统，其特征在于，所述多模态特征提取单元，需要利用C3D提取所述视频帧的动作标签，利用Yolo提取所述视频帧的视觉标签，并将所述动作标签和视觉标签合为一个视觉标签集合；将所述视觉标签集合、问题文本和字幕文本整合为一个长句子，利用KeyBert进行关键词提取，输出提取的关键词集合；利用BERT和双向LSTM编码器，对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理，得到所述文本特征的编码；将所述视频帧输入ResNet，直接提取所述视频帧对应图片的视觉特征，并输入LSTM获得视觉特征表示；结合所述文本特征和所述视觉特征，得到多模态特征。
如权利要求5所述的基于关键词感知的多模态注意力视频问答系统，其特征在于，所述关键字幕文本特征融合单元，需要利用软注意力机制，对所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征。
如权利要求5所述的基于关键词感知的多模态注意力视频问答系统，其特征在于，所述关键问题文本特征融合单元，需要利用软注意力机制，对所述多模态特征中的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征。
如权利要求5所述的基于关键词感知的多模态注意力视频问答系统，其特征在于，所述多模态特征融合单元，需要对所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；对所述各模态特征两两之间应用双向注意力机制，关联不同模态特征中的相关信息，以提高特征融合的效果。
如权利要求5所述的基于关键词感知的多模态注意力视频问答系统，其特征在于，所述答案预测单元，需要利用MLP，对所述已融合的多模态特征进行处理后，输出预测的答案。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。