WO2023035610A1 - 基于关键词感知的多模态注意力视频问答方法与系统 - Google Patents

基于关键词感知的多模态注意力视频问答方法与系统 Download PDF

Info

Publication number
WO2023035610A1
WO2023035610A1 PCT/CN2022/085751 CN2022085751W WO2023035610A1 WO 2023035610 A1 WO2023035610 A1 WO 2023035610A1 CN 2022085751 W CN2022085751 W CN 2022085751W WO 2023035610 A1 WO2023035610 A1 WO 2023035610A1
Authority
WO
WIPO (PCT)
Prior art keywords
features
keyword
multimodal
feature
video
Prior art date
Application number
PCT/CN2022/085751
Other languages
English (en)
French (fr)
Inventor
王若梅
陈铎
周凡
Original Assignee
中山大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中山大学 filed Critical 中山大学
Publication of WO2023035610A1 publication Critical patent/WO2023035610A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to the technical field of computer vision, in particular to a keyword-sensing-based multi-modal attention video question answering method, a keyword-based multi-modal attention video question-answering system, computer equipment, and a computer-readable storage medium.
  • Video question answering technology can quickly and effectively predict the corresponding answer according to the content of the video according to the questions raised, so as to help users quickly understand the video content, obtain the desired video information, and reduce the time for people to screen information in lengthy videos.
  • Traditional visual question answering technology is mainly aimed at a single static image, while video is composed of a large number of video frames.
  • Video semantically contains visual, textual and audio information, and has unstructured, multimodal, temporal and spatial features. characteristics such as sex. Therefore, video question answering technology must deal with more input data, and at the same time, specific methods are needed to extract visual content and text content, and perform effective fusion.
  • the patent uses the results of the temporal action detection network to assist in the encoding of video features, emphasizing the action factors of the video, and then the action probability distribution and The initial video features are input into the encoder of the neural network together to learn video features so that the final video features can contain action information. Finally, the output video features and question features are input into a multi-headed relational converter network, through This network outputs the final result for video question answering.
  • the disadvantage of this technique is that it does not emphasize the interrelated parts of the multimodal features and does not consider the subtitle modality of the video.
  • an artificial intelligence video question answering method first obtains visual features and text features; then performs visual feature extraction, performs multi-modal fusion of visual features and semantic features, and obtains fusion features; finally Answers are generated from fused and semantic features.
  • the disadvantage of this technology is that the feature fusion method adopted is relatively single, and the relevant information between multi-modal features is not well paid attention to.
  • the purpose of the present invention is to overcome the deficiencies of existing methods, and proposes a multi-modal attention video question answering method, system, device and storage medium based on keyword perception.
  • the main problem solved by the present invention is that in the video question answering, the answers related to the question only appear in some sentences or words in the video, while most of the methods in the prior art directly use the global video information, resulting in relatively low question answering efficiency. Low and more redundant information. That is, how to filter and process the input video frame, subtitle text and question text information through multi-modal feature extraction algorithm and keyword extraction algorithm, so as to more accurately output the question of predicted answer.
  • the present invention proposes a multimodal attention video question answering method based on keyword perception, the method comprising:
  • Input video frame subtitle text and question text information, and use multi-modal feature extraction and keyword extraction algorithms to extract multi-modal features of the input video;
  • the multimodal features of the video are processed, and after effective association and fusion, the fused multimodal features are output;
  • a multi-layer perceptron MLP is used to process the fused multi-modal features, and output a predicted answer.
  • the multimodal feature extraction and keyword extraction algorithm is used to extract the multimodal features of the input video, specifically:
  • the video frame is input into neural network ResNet, the visual feature of the picture corresponding to the video frame is directly extracted, and input into LSTM to obtain visual feature representation;
  • the multimodal attention algorithm using keyword perception processes the multimodal features of the video, and after effective association and fusion, outputs the fused multimodal features, specifically:
  • a two-way attention mechanism is applied to each of the modal features, and relevant information in different modal features is associated to improve the effect of feature fusion.
  • the predicted answer is output, specifically:
  • the structure of the classifier is as follows:
  • FC is the fully connected layer of the neural network
  • 2048 is the number of neurons
  • ReLU is the activation function of the neural network
  • n is the output dimension of the fully connected layer, which is determined by the number of candidate answers
  • y is the maximum value of the predicted probability
  • x is the sample
  • the probability distribution p is the expected output of the real answer
  • the probability distribution q represents the actual output
  • H(p,q) of the loss function is the closer the actual output is to the expected output of the real answer; conversely, the farther the two probability distributions are, the larger the value of the loss function H(p,q), the more the actual output when predicting the answer deviates from the expected output of the real answer .
  • the present invention also provides a multimodal attention video question answering method and system based on keyword perception, including:
  • a multimodal feature extraction unit is used to extract multimodal features of the input video
  • the key subtitle text feature fusion unit is used to associate the extracted keyword features and subtitle text features, filter out subtitle texts that are more relevant to the keyword features, and combine the two features into one key subtitle text features;
  • the key question text feature fusion unit is used to associate the extracted keyword features and question text features, filter out question texts that are more relevant to the keyword features, and combine the two features into one key question text features;
  • the multimodal feature fusion unit is used to apply a self-attention mechanism to the multimodal features, key subtitle text features and key question text features respectively, enhance the timing of the features, and output the feature representations of each modality respectively ;
  • the answer prediction unit is configured to process the fused multimodal features and output a predicted answer.
  • the present invention also provides a computer device, including a memory and a processor, the memory stores a computer program, and the processor executes the steps of the above video question answering method.
  • the present invention also provides a computer-readable storage medium, on which a computer program is stored, and when the computer program is executed by a processor, the steps of the above-mentioned video question-and-answer method are implemented.
  • the present invention combines keywords, a more implicit feature, to extract richer video features, and significantly improve the accuracy of video question and answer; in the feature fusion of video question and answer, the The soft attention mechanism is applied to the associated keyword set and subtitle text, as well as the information between the associated keyword set and the question text, combined with the self-attention mechanism to capture the timing of features, and the two-way attention mechanism to emphasize the interrelationship between modalities information and more effectively integrate multi-modal features.
  • Fig. 1 is the overall flowchart of the multimodal attention video question answering method based on keyword perception of the embodiment of the present invention
  • Fig. 2 is a flowchart of the multimodal feature representation part of the embodiment of the present invention.
  • Fig. 3 is the flowchart of the keyword extraction part of the embodiment of the present invention.
  • Fig. 4 is the flow chart of the multimodal attention of keyword perception of the embodiment of the present invention.
  • Fig. 5 is the flowchart of the question answer prediction part of the embodiment of the present invention.
  • Fig. 6 is a structural diagram of a multi-modal attention video question answering system based on keyword perception according to an embodiment of the present invention.
  • Fig. 1 is the overall flow chart of the multimodal attention video question answering method based on keyword perception of the embodiment of the present invention, as shown in Fig. 1, the method includes:
  • S1 in the embodiment of the present invention, input a video and the question to be answered (comprising video frame, subtitle text and question text), utilize multimodal feature extraction algorithm and keyword extraction algorithm, extract the multimodality of input video feature;
  • Step S1 as shown in Figure 2, is as follows:
  • Step S2 as shown in Figure 4, is as follows:
  • S2-1 Use the soft attention mechanism to associate the keyword features and subtitle text features in the multimodal features, filter out subtitle texts that are more related to the keyword features, and combine the two features combined into one key subtitle text feature;
  • Step S3 as shown in Figure 5, is as follows:
  • S3-1 regard the video question answering task in the embodiment of the present invention as a multi-classification task, define a two-layer MLP as a classifier, and the structure of the classifier is:
  • FC is the fully connected layer of the neural network
  • 2048 is the number of neurons
  • ReLU is the activation function of the neural network
  • n is the output dimension of the fully connected layer, which is determined by the number of candidate answers
  • the prediction score for each candidate answer is output, as follows:
  • y is the maximum value of the predicted probability
  • x is a sample
  • the probability distribution p is the expected output (true answer)
  • the probability distribution q represents the actual output
  • H(p,q) of the loss function the predicted answer
  • H(p,q) the value of the loss function
  • the present invention also provides a multimodal attention video question answering method and system based on keyword perception, as shown in FIG. 6 , including:
  • the multimodal feature extraction unit 1 is used to extract multimodal features of the input video.
  • the visual tags are, for example, "Standing person”, “blue top”, “gray door”, etc., action labels eg "run”, “walk”, “pick up”, etc.; integrate said set of visual labels, question text and subtitle text
  • the KeyBert pre-training model uses the KeyBert pre-training model to extract keywords, and output the extracted keyword set; use BERT and a bidirectional LSTM encoder to process the visual label set, question text, subtitle text and keyword set to obtain Encoding of the text feature; input the video frame into ResNet, directly extract the visual feature of the picture corresponding to the video frame, and input LSTM to obtain the visual feature representation; combine the text feature and the visual feature to obtain multimodal feature.
  • the key subtitle text feature fusion unit 2 is used to associate the extracted keyword features and subtitle text features, filter out subtitle texts that are more relevant to the keyword features, and combine the two features into one Key subtitle text features.
  • the soft attention mechanism is used to associate the keyword features and subtitle text features in the multimodal features, to filter out subtitle texts that are more relevant to the keyword features, and combine the two features is a key subtitle text feature.
  • the key question text feature fusion unit 3 is used to associate the extracted keyword features and question text features, filter out question texts more relevant to the keyword features, and combine the two features into one Key question text features.
  • the multimodal feature fusion unit 4 is used to apply a self-attention mechanism to the visual features, key subtitle text features and key question text features respectively, enhance the timing of the features, and output the feature representations of each modality respectively .
  • the answer prediction unit 5 is configured to process the fused multimodal features and output a predicted answer.
  • MLP is used to output predicted answers after processing the fused multimodal features.
  • the present invention combines the more implicit feature of keywords, extracts richer video features, and significantly improves the accuracy of video question and answer; in the feature fusion of video question and answer , applying the soft attention mechanism to the associated keyword set and subtitle text, as well as the information between the associated keyword set and the question text, combined with the self-attention mechanism to capture the timing of features, and applying a two-way attention mechanism to emphasize the intermodal Interrelated information more effectively fuses multimodal features.
  • the present invention also provides a computer device, including a memory and a processor, the memory stores a computer program, and the processor implements the steps of the video question answering method when executing the computer program.
  • the present invention also provides a computer-readable storage medium, on which a computer program is stored, and when the computer program is executed by a processor, the steps of the above-mentioned video question-and-answer method are realized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词感知的多模态注意力视频问答方法与系统。包括:运用多模态特征提取和预训练模型KeyBert关键词提取算法,提取输入视频的各个多模态特征;运用关键词感知的多模态注意力算法,处理提取的各多模态特征,输出经有效关联和融合后的多模态特征;将已融合的多模态特征经过多层感知机MLP,输出预测的答案。本发明还公开了一种基于关键词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明在提取视频特征时,结合更为隐式的关键词特征,提取更为丰富的视频特征;在特征融合时,结合自注意力机制捕获特征的时序性,应用双向注意力机制强调模态间互相关联的信息,更有效地融合多模态特征,显著提高视频问答的准确率。

Description

基于关键词感知的多模态注意力视频问答方法与系统 技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于关键词感知的多模态注意力视频问答方法、基于关键词感知的多模态注意力视频问答系统、计算机设备及计算机可读存储介质。
背景技术
近年来,随着人工智能技术的发展,视频问答技术应运而生。视频问答技术能够根据所提出的问题,快速有效地根据视频的内容预测相应的答案,从而帮助用户迅速地理解视频内容,获取想要的视频信息,减少人们在冗长的视频中筛选信息的时间。传统的视觉问答技术主要针对单个的静态图像,而视频是由大量的视频帧组成的,视频在语义上包含了视觉、文本和音频信息,且具有非结构化、多模态、时间性和空间性等特点。因此,视频问答技术必须处理更多的输入数据,同时需要具体的方法提取视觉内容和文本内容,并进行有效的融合。
目前大多数视频问答技术模型直接利用全部的视频信息来回答问题,难以精确提取核心的、有效的特征信息,通常受无效的、多余的信息影响而存在视频问答准确率低的劣势,难以广泛应用。
目前的现有技术之一,专利“一种基于动作的关系网络视频问答系统及方法”,使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,而后将动作概率分布与初始的视频特征被一起输入到神经网 络的编码器中,以学习视频特征使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果进行视频问答。该技术的缺点在于,没有强调多模态特征中互相关联的部分,没有考虑视频的字幕模态。
目前的现有技术之二,专利“一种人工智能视频问答方法”,首先获取视觉特征和文字特征;然后进行视觉特征提取,对视觉特征和语义特征进行多模态融合,获得融合特征;最后根据融合特征和语义特征生成答案。该技术的缺点在于,采用的特征融合方法较为单一,没有很好关注多模态特征之间的相关信息。
目前的现有技术之三,专利“一种基于多模态融合模型的提高视频问答精度方法及系统”,将视频问答的问题输入训练好的多模态融合模型,获得问题答案;根据问题的特点针对不同的问题聚焦不同的目标实体实例,提高模型选择答案的准确率。该技术的缺点在于,虽然关联了模态之间的相关内容,但没有考虑到隐式的特征信息,没有结合关键词特征进一步关联关键信息。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于关键词感知的多模态注意力视频问答方法、系统、设备及存储介质。本发明解决的主要问题是,在视频问答中,与问题相关的答案仅出现在视频中的部分句子或单词中,而现有技术的方法大多都直接运用全局的视频信息,从而导致问答效率较低且冗余信息较多。即如何通过多模态特征提取算法和关键词提 取算法对输入的视频帧、字幕文本和问题文本信息进行筛选和处理,从而更准确地输出预测答案的问题。
为了解决上述问题,本发明提出了一种基于关键词感知的多模态注意力视频问答方法,所述方法包括:
输入视频帧、字幕文本和问题文本信息,利用多模态特征提取和关键词提取算法,提取输入视频的多模态特征;
利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征;
利用多层感知机MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
优选地,所述利用多模态特征提取和关键词提取算法,提取输入视频的多模态特征,具体为:
利用卷积网络C3D提取所述视频帧的动作标签,使用对象检测算法Yolo提取所述视频帧的视觉标签,并将动作标签和视觉标签合为一个视觉标签集合;
将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用预训练模型KeyBert进行关键词提取,输出提取出的关键词集合;
利用预训练模型BERT和双向神经网络LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;
将所述视频帧输入神经网络ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示;
结合所述文本特征和所述视觉特征,得到多模态特征。
优选地,所述利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征,具体为:
利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
相似地,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
优选地,利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案,具体为:
定义一个两层MLP作为分类器,所述分类器的结构如下:
FC(2048)-ReLU-FC(n)
其中,FC为神经网络的全连接层,2048为神经元的个数;ReLU为神经网络的激活函数,n为全连接层其输出维度,由候选答案的个数决定;
经过MLP后,输出对于每个候选答案的预测得分,具体如下:
Figure PCTCN2022085751-appb-000001
其中,
Figure PCTCN2022085751-appb-000002
为所述已融合的多模态特征,x为每个候选答案的预测得分,x=x 1,x 2,…,x n
使用softmax函数对所述预测得分进行归一化,得到每个候选答案的预测概率;
使用argmax函数选取所有所述候选答案中预测概率的最大值,具体如下:
y=argmax(softmax(x))
其中,y为所述预测概率的最大值;
在训练时,使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距,具体公式如下:
Figure PCTCN2022085751-appb-000003
其中,x为样本,概率分布p为真实答案的期望输出,概率分布q表示实际输出;所述两个概率分布越接近,该损失函数的值H(p,q)越小,则预测答案时的实际输出越接近真实答案的期望输出;反之,所述两个概率分布越远,该损失函数的值H(p,q)越大,则预测答案时的实际输出越偏离真实答案的期望输出。
相应地,本发明还提供了一种基于关键词感知的多模态注意力视频问答方法与系统,包括:
多模态特征提取单元,用于提取输入视频的多模态特征;
关键字幕文本特征融合单元,用于将所述已提取的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
关键问题文本特征融合单元,用于将所述已提取的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
多模态特征融合单元,用于对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
答案预测单元,用于对所述已融合的多模态特征进行处理,输出预测的答案。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述视频问答方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频问答方法的步骤。
实施本发明,具有如下有益效果:
本发明在视频问答的特征提取上,结合了关键词这一更为隐式的特征,提取了更丰富的视频特征,并显著提高了视频问答的准确率;在视频问答的特征融合上,将软注意力机制应用于关联关键词集合和字幕文本,以及关联关键词集合与问题文本之间的信息,结合自注意力机制捕获特征的时序性,并应用双向注意力机制强调模态间互相关联的信息,更有效地融合了多模态特征。
附图说明
图1是本发明实施例的基于关键词感知的多模态注意力视频问答方法 的总体流程图;
图2是本发明实施例的多模态特征表示部分的流程图;
图3是本发明实施例的关键词提取部分的流程图;
图4是本发明实施例的关键词感知的多模态注意力流程图;
图5是本发明实施例的问题答案预测部分的流程图;
图6是本发明实施例的基于关键词感知的多模态注意力视频问答系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流程图,如图1所示,该方法包括:
S1,在本发明实施例中,输入一部视频和待回答的问题(包括视频帧、字幕文本和问题文本),利用多模态特征提取算法和关键词提取算法,提取输入视频的多模态特征;
S2,利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征;
S3,利用MLP,对所述已融合的多模态特征(设为
Figure PCTCN2022085751-appb-000004
)进行处理后, 输出预测的答案。
步骤S1,如图2所示,具体如下:
S1-1,利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合;
S1-2,如图3所示,将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,然后将所述长句子输入KeyBert预训练模型进行关键词提取,输出提取出的关键词的集合;
S1-3,将所述视觉标签集合、问题文本、字幕文本和关键词集合分别输入BERT和双向LSTM编码器进行处理,得到所述文本特征的编码;
S1-4,将所述视频帧输入ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示,以保证视觉信号没有丢失。
步骤S2,如图4所示,具体如下:
S2-1,利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
相似地,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
S2-2,对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
S2-3,对所述各模态特征两两之间应用双向注意力机制,关联不同模态 特征中的相关信息,以提高特征融合的效果。
步骤S3,如图5所示,具体如下:
S3-1,将本发明实施例中的视频问答任务视为一个多分类的任务,定义一个两层MLP作为分类器,所述分类器的结构为:
FC(2048)-ReLU-FC(n)。
其中,FC为神经网络的全连接层,2048为神经元的个数;ReLU为神经网络的激活函数,n为全连接层其输出维度,由候选答案的个数决定;
优选地,将所述已融合的多模态特征经过MLP后,输出对于每个候选答案的预测得分,具体如下:
Figure PCTCN2022085751-appb-000005
其中,
Figure PCTCN2022085751-appb-000006
为所述已融合的多模态特征,x为每个候选答案的预测得分,x=x 1,x 2,…,x n
S3-2,利用softmax函数对所述预测得分进行归一化,得到每个候选答案的预测概率,然后利用argmax函数选取所有候选答案中预测概率的最大值,具体如下:
y=argmax(softmax(x))
其中,y为所述预测概率的最大值;
S3-3,将本发明实施例中的预测候选答案视为神经网络中的多分类问题,在训练时,使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距,具体公式如下:
Figure PCTCN2022085751-appb-000007
其中,x为样本,概率分布p为期望输出(真实答案),概率分布q表 示实际输出;所述两个概率分布越接近,该损失函数的值H(p,q)越小,则预测答案时的实际输出越接近真实答案的期望输出;反之,所述两个概率分布越远,该损失函数的值H(p,q)越大,则预测答案时的实际输出越偏离真实答案的期望输出。
相应地,本发明还提供了一种基于关键词感知的多模态注意力视频问答方法与系统,如图6所示,包括:
多模态特征提取单元1,用于提取输入视频的多模态特征。
具体地,利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合,本实施例中,视觉标签即例如“站立的人”、“蓝色上衣”、“灰色的门”等,动作标签即例如“跑步”、“行走”、“拿起”等;将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用KeyBert预训练模型进行关键词提取,输出提取的关键词集合;利用BERT和双向LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;将所述视频帧输入ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示;结合所述文本特征和所述视觉特征,得到多模态特征。
关键字幕文本特征融合单元2,用于将所述已提取的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征。
具体地,利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将 所述两个特征合为一个关键字幕文本特征。
关键问题文本特征融合单元3,用于将所述已提取的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征。
具体地,利用软注意力机制,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征。
多模态特征融合单元4,用于对经所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示。
具体地,对所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
答案预测单元5,用于对所述已融合的多模态特征进行处理,输出预测的答案。
具体地,利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
因此,本发明在视频问答的特征提取上,结合了关键词这一更为隐式的特征,提取了更丰富的视频特征,并显著提高了视频问答的准确率;在视频问答的特征融合上,将软注意力机制应用于关联关键词集合和字幕文本,以及关联关键词集合与问题文本之间的信息,结合自注意力机制捕获 特征的时序性,并应用双向注意力机制强调模态间互相关联的信息,更有效地融合了多模态特征。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述视频问答方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频问答方法的步骤。
以上对本发明实施例所提供的基于关键词感知的多模态注意力视频问答方法、系统、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

  1. 一种基于关键词感知的多模态注意力视频问答方法,其特征在于,所述方法包括:
    输入视频帧、字幕文本和问题文本信息,利用多模态特征提取算法和关键词提取算法,提取输入视频的多模态特征;
    利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征;
    利用多层感知机MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
  2. 如权利要求1所述的基于关键词感知的多模态注意力视频问答方法,其特征在于,将所述输入的视频帧、字幕文本和问题文本信息,利用多模态特征提取算法和关键词提取算法,提取输入视频的多模态特征,具体为:
    利用卷积网络C3D提取所述视频帧的动作标签,利用对象检测算法Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合;
    将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用预训练模型KeyBert进行关键词提取,输出提取的关键词集合;
    利用预训练模型BERT和双向神经网络LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;
    将所述视频帧输入神经网络ResNet,直接提取所述视频帧对应图片的视觉特征,并输入双向LSTM获得视觉特征表示;
    结合所述文本特征和所述视觉特征,得到多模态特征。
  3. 如权利要求1所述的基于关键词感知的多模态注意力视频问答方法,其特征在于,所述利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征,具体为:
    利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
    相似地,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
    对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
    对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
  4. 如权利要求1所述的基于关键词感知的多模态注意力视频问答方法,其特征在于,利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案,具体为:
    定义一个两层MLP作为分类器,所述分类器的结构如下:
    FC(2048)-ReLU-FC(n)
    其中,FC为神经网络的全连接层,2048为神经元的个数;ReLU为神经网络的激活函数,n为全连接层其输出维度,由候选答案的个数决定;
    经过MLP后,输出对每个候选答案的预测得分,具体如下:
    Figure PCTCN2022085751-appb-100001
    其中,
    Figure PCTCN2022085751-appb-100002
    为所述已融合的多模态特征,x为每个候选答案的预测得分,x=x 1,x 2,…,x n
    使用softmax函数对所述预测得分进行归一化,得到每个候选答案的预测概率;
    使用argmax函数选取所有所述候选答案中预测概率的最大值,具体如下:
    y=argmax(softmax(x))
    其中,y为所述预测概率的最大值;
    在训练时,使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距,具体公式如下:
    Figure PCTCN2022085751-appb-100003
    其中,x为样本,概率分布p为真实答案的期望输出,概率分布q为实际输出;所述两个概率分布越接近,该损失函数的值H(p,q)越小,则预测答案时的实际输出越接近真实答案的期望输出;反之,所述两个概率分布越远,该损失函数的值H(p,q)越大,则预测答案时的实际输出越偏离真实答案的期望输出。
  5. 一种基于关键词感知的多模态注意力视频问答系统,其特征在于,所述系统包括:
    多模态特征提取单元,用于提取输入视频的多模态特征;
    关键字幕文本特征融合单元,用于将所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
    关键问题文本特征融合单元,用于将所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本, 并将所述两个特征合为一个关键问题文本特征;
    多模态特征融合单元,用于对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
    答案预测单元,用于对所述已融合的多模态特征进行处理,输出预测的答案。
  6. 如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述多模态特征提取单元,需要利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合;将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用KeyBert进行关键词提取,输出提取的关键词集合;利用BERT和双向LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;将所述视频帧输入ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示;结合所述文本特征和所述视觉特征,得到多模态特征。
  7. 如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述关键字幕文本特征融合单元,需要利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征。
  8. 如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述关键问题文本特征融合单元,需要利用软注意力机制, 对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征。
  9. 如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述多模态特征融合单元,需要对所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
  10. 如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述答案预测单元,需要利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
  11. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
  12. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
PCT/CN2022/085751 2021-09-09 2022-04-08 基于关键词感知的多模态注意力视频问答方法与系统 WO2023035610A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111053387.3A CN113902964A (zh) 2021-09-09 2021-09-09 基于关键词感知的多模态注意力视频问答方法与系统
CN202111053387.3 2021-09-09

Publications (1)

Publication Number Publication Date
WO2023035610A1 true WO2023035610A1 (zh) 2023-03-16

Family

ID=79188763

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/085751 WO2023035610A1 (zh) 2021-09-09 2022-04-08 基于关键词感知的多模态注意力视频问答方法与系统

Country Status (2)

Country Link
CN (1) CN113902964A (zh)
WO (1) WO2023035610A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN116385937A (zh) * 2023-04-07 2023-07-04 哈尔滨理工大学 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116661803A (zh) * 2023-07-31 2023-08-29 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备
CN116932731A (zh) * 2023-09-18 2023-10-24 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统
CN117095659A (zh) * 2023-10-18 2023-11-21 中国传媒大学 一种双模态歌曲情感分类方法
CN117611845A (zh) * 2024-01-24 2024-02-27 浪潮通信信息系统有限公司 多模态数据的关联识别方法、装置、设备及存储介质
CN117648976A (zh) * 2023-11-08 2024-03-05 北京医准医疗科技有限公司 基于医学影像的答案生成方法、装置、设备及存储介质
CN117710694A (zh) * 2024-01-12 2024-03-15 中国科学院自动化研究所 多模特征信息的获取方法及系统、电子设备及存储介质
CN118507036A (zh) * 2024-07-17 2024-08-16 长春理工大学中山研究院 一种情感语义多模态抑郁倾向识别系统
CN118626673A (zh) * 2024-08-15 2024-09-10 山东浪潮科学研究院有限公司 一种基于多模态大模型的视频检索问答方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902964A (zh) * 2021-09-09 2022-01-07 中山大学 基于关键词感知的多模态注意力视频问答方法与系统
CN114398505B (zh) * 2022-01-19 2024-08-02 腾讯科技(深圳)有限公司 目标词语的确定方法、模型的训练方法、装置及电子设备
CN114611529B (zh) * 2022-03-15 2024-02-02 平安科技(深圳)有限公司 意图识别方法和装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112861580A (zh) * 2019-11-27 2021-05-28 腾讯科技(北京)有限公司 基于视频信息处理模型的视频信息处理方法及装置
CN113297370A (zh) * 2021-07-27 2021-08-24 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统
CN113902964A (zh) * 2021-09-09 2022-01-07 中山大学 基于关键词感知的多模态注意力视频问答方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN112861580A (zh) * 2019-11-27 2021-05-28 腾讯科技(北京)有限公司 基于视频信息处理模型的视频信息处理方法及装置
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN113297370A (zh) * 2021-07-27 2021-08-24 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统
CN113902964A (zh) * 2021-09-09 2022-01-07 中山大学 基于关键词感知的多模态注意力视频问答方法与系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385937A (zh) * 2023-04-07 2023-07-04 哈尔滨理工大学 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116401390B (zh) * 2023-05-19 2023-10-20 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116661803A (zh) * 2023-07-31 2023-08-29 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备
CN116661803B (zh) * 2023-07-31 2023-11-17 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备
CN116932731A (zh) * 2023-09-18 2023-10-24 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统
CN116932731B (zh) * 2023-09-18 2024-01-30 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统
CN117095659B (zh) * 2023-10-18 2024-01-05 中国传媒大学 一种双模态歌曲情感分类方法
CN117095659A (zh) * 2023-10-18 2023-11-21 中国传媒大学 一种双模态歌曲情感分类方法
CN117648976A (zh) * 2023-11-08 2024-03-05 北京医准医疗科技有限公司 基于医学影像的答案生成方法、装置、设备及存储介质
CN117710694A (zh) * 2024-01-12 2024-03-15 中国科学院自动化研究所 多模特征信息的获取方法及系统、电子设备及存储介质
CN117611845A (zh) * 2024-01-24 2024-02-27 浪潮通信信息系统有限公司 多模态数据的关联识别方法、装置、设备及存储介质
CN117611845B (zh) * 2024-01-24 2024-04-26 浪潮通信信息系统有限公司 多模态数据的关联识别方法、装置、设备及存储介质
CN118507036A (zh) * 2024-07-17 2024-08-16 长春理工大学中山研究院 一种情感语义多模态抑郁倾向识别系统
CN118626673A (zh) * 2024-08-15 2024-09-10 山东浪潮科学研究院有限公司 一种基于多模态大模型的视频检索问答方法及系统

Also Published As

Publication number Publication date
CN113902964A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
WO2023035610A1 (zh) 基于关键词感知的多模态注意力视频问答方法与系统
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
WO2021031480A1 (zh) 文本生成方法和装置
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN109344288A (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110297908A (zh) 诊疗方案预测方法及装置
CN108647603A (zh) 基于注意力机制的半监督连续手语翻译方法及装置
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
Areeb et al. Helping hearing-impaired in emergency situations: A deep learning-based approach
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
CN116226347A (zh) 一种基于多模态数据的细粒度视频情绪内容问答方法和系统
CN116611021A (zh) 一种基于双Transformer融合模型的多模态事件检测方法及系统
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN117764084A (zh) 基于多头注意力机制与多模型融合的短文本情感分析方法
Rawf et al. Effective Kurdish sign language detection and classification using convolutional neural networks
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Soji et al. Machine learning approaches to intelligent sign language recognition and classification
CN116958642A (zh) 一种图片分类方法、装置、电子设备及存储介质
CN115712869A (zh) 基于分层注意力网络的多模态谣言检测方法及系统
CN115358287A (zh) 基于异质图神经网络的新闻立场判别方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22866088

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 20/06/2024)