WO2022134793A1

WO2022134793A1 - 视频帧语义信息的提取方法、装置及计算机设备

Info

Publication number: WO2022134793A1
Application number: PCT/CN2021/124889
Authority: WO
Inventors: 王德勋; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-12-22
Filing date: 2021-10-20
Publication date: 2022-06-30
Also published as: CN112651324A

Abstract

一种视频帧语义信息的提取方法、装置及计算机设备，涉及人工智能领域，其中方法包括：获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列（101）；根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度（102）；根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息（103）。该方法主要适用于视频帧语义信息的提取，能够获得更高层次的语音信息，便于视频存储、检索等下游任务的执行。

Description

视频帧语义信息的提取方法、装置及计算机设备

本申请要求与2020年12月22日提交中国专利局、申请号为202011526812.1申请名称为“视频帧语义信息的提取方法、装置及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及人工智能技术领域，尤其是涉及一种视频帧语义信息的提取方法、装置及计算机设备。

背景技术

随着信息技术的不断发展，每天都会产生大量各种不同题材的视频，为了方便不同题材视频的存储和检索，通常需要从视频中提取相应的视频信息，从而方便存储、检索和相似度计算等下游任务。

目前，在提取视频信息的过程中，通常可以利用卷积神经网络提取视频帧中的语义信息。然而，这种利用卷积神经网络提取视频信息的方式，能够获取的语音信息有限，针对较高层次的语音信息，如一段视频中任意两视频帧之间的相关度信息无法提取，从而不利于视频存储、检索等下游任务的执行。

发明内容

本申请提供了一种视频帧语义信息的提取方法、装置及计算机设备，主要在于能够提取一段视频中任意两视频帧之间的相关度信息，从而能够获得更高层次的语音信息，便于视频存储、检索等下游任务的执行。

根据本申请的第一个方面，提供一种视频帧语义信息的提取方法，包括：

获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；

根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；

根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息。

根据本申请的第二个方面，提供一种视频帧语义信息的提取装置，包括：

获取单元，用于获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；

计算单元，用于根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；

确定单元，用于根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息。

根据本申请的第三个方面，提供一种计算机可读存储介质，其上存储有计算机可读指令，该程序被处理器执行时实现以下步骤：

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述程序时实现以下步骤：

本申请提供的一种视频帧语义信息的提取方法、装置及计算机设备，与目前仅利用卷积神经网络提取视频帧中语义信息的方式相比，本申请能够获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列，同时根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，最终根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息，由此通过计算视频帧序列中任意两视频帧之间的相关度，能够获取一段视频中更高层次的语义信息，便于视频存储、检索等下游任务的执行。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种视频帧语义信息的提取方法流程图；

图2示出了本申请实施例提供的另一种视频帧语义信息的提取方法流程图；

图3示出了本申请实施例提供的一种视频帧语义信息的提取装置的结构示意图；

图4示出了本申请实施例提供的另一种视频帧语义信息的提取装置的结构示意图；

图5示出了本申请实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了解决上述问题，本申请实施例提供了一种视频帧语义信息的提取方法，如图1所示，所述方法包括：

101、获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列。

其中，视频帧序列为从待进行语义信息提取的视频中解析得到的。为了克服现有技术中利用卷积神经网络提取的语义信息有限，无法获取更高层次语义信息的缺陷，本申请实施例，利用预设编码器中的注意力层机制计算视频帧序列中任意两视频帧之间的相关度，进而根据计算的相关度能够获取视频中更高层次的语义信息，本申请实施例主要适用于视频中语义信息的提取，本申请实施例的执行主体为能够提取视频中语义信息的装置或设备，具体可以设置在服务器或者客户端一侧。

对于本申请实施例，可以通过安装imageio库和skimage库提取一段视频的视频帧序列，此外，还可以通过Adobe Premiere软件提取该段视频的视频帧序列，提取视频帧序列的方式，本申请实施例不做具体限定。进一步地，为了计算视频帧序列中任意两视频帧之间的相关度，需要对视频帧序列进行特征提取，得到该视频帧序列对应的视频帧特征序列，具体地，可以利用卷积神经网络提取该视频帧序列对应的视频帧特征序列，需要说明的是，提取视频帧特征序列的模型可以为但不局限于卷积神经网络。

102、根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度。

对于本申请实施例，将提取的视频帧特征序列输入至预设编码器中的注意力机制层进行相似度的计算，具体地，将视频帧特征序列分别与预设编码器的三个权重矩阵相乘，得到视频帧序列中各帧视频对应的查询向量、键向量和值向量，接着根据该查询向量、键向量和值向量，分别计算视频帧序列中任意两视频帧之间的相互影响分值，进而根据该相互影响分值，确定视频帧序列中任意两视频帧之间的相关度，视频帧序列中任意两视频帧之间的相互影响分值越高，任意两视频帧之间的相关度越高，视频帧序列中任意两视频帧之间的相互影响分值越低，任意两视频帧之间的相关度越低。由此根据视频帧序列中各帧视频对应的查询向量、键向量和值向量，能够确定视频帧序列中任意两视频帧之间的相关度。

103、根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。

其中，该语义信息包括高层的语义信息，如视频帧序列中任意两视频帧之间的相关度，对于本申请实施例，该语义信息还包括低层次的语义信息，具体地，利用卷积神经网络对视频帧序列进行特征提取，得到视频帧序列对应的视频帧特征序列，该视频帧特征序列能够反映各视频帧的颜色、亮度等低层次的语义信息，通过利用预设编码器中的注意力机制能够计算出视频帧序列中任意两视频帧之间的相关度，进而获取视频中的高层次语义信息。

本申请实施例提供的一种视频帧语义信息的提取方法，与目前仅利用卷积神经网络提取视频帧中语义信息的方式相比，本申请能够获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列，同时根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，最终根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息，由此通过计算视频帧序列中任意两视频帧之间的相关度，能够获取一段视频中更高层次的语义信息，便于视频存储、检索等下游任务的执行。

进一步的，为了更好的说明上述提取视频帧语义信息的过程，作为对上述实施例的细化和扩展，本申请实施例提供了另一种视频帧语义信息的提取方法，如图2所示，所述方法包括：

201、获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列。

对于本申请实施例，在利用预设编码器计算视频帧序列中任意两视频帧之间的相似度之前，需要构建预设编码器，针对预设编码器的构建过程，所述方法还包括：构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列；利用初始卷积神经网络对所述标注后的样本视频帧序列进行特征提取，得到所述标注后的样本视频帧序列对应的样本视频帧特征序列；将所述样本视频帧特征序列输入至初始编码器进行相关度计算，得到所述所述标注后的样本视频帧序列中任意两视频帧之间的相关度；根据所述初始编码器输出的任意两视频帧之间的相关度，对所述初始编码器和所述初始卷积神经网络进行训练。进一步地，所述构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列，包括：获取各个样本视频对应的样本视频帧序列，并将所述各个样本视频对应的样本视频帧序列进行拼接，得到拼接后的样本视频帧序列；根据所述拼接后的样本视频帧序列是否来自于同一段样本视频，对其进行标注，得到标注后的样本视频帧序列。其中，样本视频库中存储有大量不同主题的样本视频，如与艺术、刑侦主题相关的样本视频。

对于本申请实施例主要涉及的模型结构包括用于特征提取的卷积神经网络和相似度计算的编码器，在确定视频帧序列中任意两视频帧之间的相关度之前，需要将卷积神经网络和编码器作为一个整体进行训练，具体地，获取ImageNet预训练的初始卷积神经网络模型，并冻结前3/4层的权重不参与学习更新，之后从样本视频库随机抽取两段样本视频，并尽量保证两者的内容(如类目、关键词、主题)有差异，从两段样本视频中按照时间顺序随机抽取K帧视频，需要说明的是，从视频中抽取的帧数可以根据业务需求进行设定，但为了确保相关度的计算精度，K值不宜设定过小，之后将从两段样本视频中抽取的K视频帧进行拼接，得到拼接后的样本视频帧序列，进一步地，根据拼接后的样本视频帧序列是否来自于同一段样本视频，对其进行标注，例如，拼接后的样本视频帧序列为(E _u1,E _u2….E _uk,E _v1,E _v2..E _vk)，其中，E _uk代表从第u段样本视频中抽取的第k帧视频，Evk代表从第v段样本视频中抽取的第k帧视频，如果第u段视频和第v段视频来自同一段视频，则确定拼接后的样本视频帧序列对应的标签为1，如果第u段视频和第v段视频不是来自同一段视频，则确定拼接后的样本视频帧序列对应的标签为0，由此能够得到标注后的样本视频帧序列。

进一步地，利用卷积神经网络对标注后的样本视频帧序列进行特征提取，得到标注后的样本视频帧序列对应的样本视频帧特征序列，之后将样本视频帧序列输入至初始编码器进行相关度计算，得到标注后的样本视频帧序列中任意两视频帧之间的相关度，即得到初始编码器输出的结果，并从该输出结果中提取CLS特征做二分类任务，通过二分类损失函数计算得到的梯度更新于整个网络，包括初始卷积神经网络的1/4层和初始编码，从而能够得到本申请实施例中用于特征提取和相似度计算的卷积神经网络模型和预设编码器。

进一步地，获取待进行语义信息提取的视频帧序列，具体地，可以通过安装imageio库和skimage库提取一段视频的视频帧序列，此外，还可以通过Adobe Premiere软件提取该段视频的视频帧序列，提取视频帧序列的方式，本申请实施例不做具体限定。之后利用训练好的卷积神经网络提取视频帧序列对应的视频帧特征序列。

202、将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。

对于本申请实施例，为了提高视频帧序列中任意两视频帧之间的相似度计算精度，所述将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：确定所述视频帧序列中任意两视频帧之间的相对位置信息；在所述视频帧特征序列中引入所述相对位置信息，并将引入所述相对位置信息的视频帧特征序列与所述预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。确定任意两视频帧之间的相对位置信息的具体公式如下：

频帧j共同对应的索引下标，W为位置矩阵，k为预设截断距离，根据确定的索引下标查询位置矩阵，确定视频帧i和视频帧j之间的相对位置信息，进一步地，将该相对位置信息引入视频帧特征序列，并将引入相对位置信息的视频帧特征序列与所述预设编码器中的权重矩阵相乘，得到视频帧序列中各视频帧对应的查询向量、键向量和值向量，以便根据引入相对位置信息后的键向量、查询向量和值向量，计算视频帧序列中任意两视频帧之间的相关度。需要说明的是，如果引入视频帧序列中任意两视频帧之间的相对位置关系，那么对整体模型结构进行训练时，该模型结构不仅包括卷积神经网络和编码器，还包括位置矩阵。

203、根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在所述预设编码器编码过程中的相互影响分值，并根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度。

对于本申请实施例，为了计算视频帧序列中任意两视频帧之间的相关度，所述根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在所述预设编码器编码过程中的相互影响分值，包括：将所述第一视频帧对应的查询向量和所述第二视频帧对应的键向量相乘，再将相乘结果与所述第二视频帧对应的值向量相乘，得到所述预设编码器在对第一视频帧编码的过程中所述第二视频帧对所述第一视频帧的影响分值；将所述第二视频帧对应的查询向量和所述第一视频帧对应的键向量相乘，再将相乘结果与所述第一视频帧对应的值向量相乘，得到所述预设编码器在对第二视频帧编码的过程中所述第一视频帧对所述第二视频帧的影响分值，将所述第二视频帧对所述第一视频帧的影响分值和所述第一视频帧对所述第二视频帧的影响分值相加，得到所述第一视频帧和所述第二视频帧在预设编码器编码过程中的相互影响分值，基于此，所述根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度，包括：计算所述相互影响分值的平均值，根据所述平均值确定所述视频帧序列中任意两视频帧之间的相关度。其中，第一视频帧和第二视频帧可以为视频帧序列中的任意两视频帧。

具体地，为了确定视频帧序列中任意两视频帧之间的相关度，可以先计算两视频帧的相互影响分值，并根据该相互影响分值，确定视频帧序列中任意两视频帧之间的相关度，假设第一视频帧和第二视频帧分别为视频帧i和视频帧j，分别计算编码器在对视频帧i编码时，视频帧j对视频帧i的影响分值，以及编码器在对视频帧j编码时，视频帧i对视频帧j的影响分值，具体公式如下：

Vj*(Qi*kj)

Vi*(Qj*ki)

其中，Vi和Vj分别为视频帧i和视频帧j对应的值向量，ki和kj分别为视频帧i和视频帧j对应的键向量，Qi和Qj分别为视频帧i和视频帧j对应的查询向量，由此按照上述公式能够分别计算编码器在对视频帧i编码时，视频帧j对视频帧i的影响分值，以及编码器在对视频帧j编码时，视频帧i对视频帧j的影响力分值，进一步地，将视频帧j对视频帧i的影响力分值和视频帧i对视频帧j的影响力分值相加取均值，根据所述平均值确定所述视频帧序列中任意两视频帧之间的相关度，由此按照上述方式能够确定视频帧序列中任意两视频帧之间的相关度。

204、根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。

本申请实施例提供的另一种视频帧语义信息的提取方法，与目前仅利用卷积神经网络提取视频帧中语义信息的方式相比，本申请能够获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列，同时根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，最终根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息，由此通过计算视频帧序列中任意两视频帧之间的相关度，能够获取一段视频中更高层次的语义信息，便于视频存储、检索等下游任务的执行。

进一步地，作为图1的具体实现，本申请实施例提供了一种视频帧语义信息的提取装置，如图3所示，所述装置包括：获取单元31、计算单元32和确定单元33。

所述获取单元31，可以用于获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列。所述获取单元31是本装置中获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列的主要功能模块。

所述计算单元32，可以用于根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度。所述计算单元32是本装置中根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度的主要功能模块，也是核心模块。

所述确定单元33，可以用于根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息。所述确定单元33是本装置中根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息的主要功能模块。

在具体应用场景中，为了确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，如图4所示，所述计算单元32，可以具体用于将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。

在具体应用场景中，提高视频帧序列中任意两视频帧之间的相似度计算精度，所述计算单元32，包括：确定模块321和相乘模块322。

所述确定模块321，可以用于确定所述视频帧序列中任意两视频帧之间的相对位置信息。

所述相乘模块322，可以用于在所述视频帧特征序列中引入所述相对位置信息，并将引入所述相对位置信息的视频帧特征序列与所述预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。

进一步地，为了计算所述视频帧序列中任意两视频帧之间的相关度，如图4所示，所述计算单元32，还包括：计算模块323。

所述计算模块323，可以用于根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在所述预设编码器编码过程中的相互影响分值。

所述确定模块321，还可以用于根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度。

在具体应用场景中，所述任意两视频帧分别为所述视频帧序列中的第一视频帧和第二视频帧，所述计算模块323，包括：相乘子模块和相加子模块。

所述相乘子模块，可以用于将所述第一视频帧对应的查询向量和所述第二视频帧对应的键向量相乘，再将相乘结果与所述第二视频帧对应的值向量相乘，得到所述预设编码器在对第一视频帧编码的过程中所述第二视频帧对所述第一视频帧的影响分值。

所述相乘子模块，还可以用于将所述第二视频帧对应的查询向量和所述第一视频帧对应的键向量相乘，再将相乘结果与所述第一视频帧对应的值向量相乘，得到所述预设编码器在对第二视频帧编码的过程中所述第一视频帧对所述第二视频帧的影响分值。

所述相加子模块，可以用于将所述第二视频帧对所述第一视频帧的影响分值和所述第一视频帧对所述第二视频帧的影响分值相加，得到所述第一视频帧和所述第二视频帧在预设编码器编码过程中的相互影响分值。

所述确定模块321，具体可以用于计算所述相互影响分值的平均值，根据所述平均值确定所述视频帧序列中任意两视频帧之间的相关度。

进一步地，为了训练编码器和卷积神经网络，所述装置还包括：标注单元34、提取单元35和训练单元36。

所述标注单元34，可以用于构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列。

所述提取单元35，可以用于利用初始卷积神经网络对所述标注后的样本视频帧序列进行特征提取，得到所述标注后的样本视频帧序列对应的样本视频帧特征序列。

所述计算单元32，还可以用于将所述样本视频帧特征序列输入至初始编码器进行相关度计算，得到所述所述标注后的样本视频帧序列中任意两视频帧之间的相关度。

所述训练单元36，可以用于根据所述初始编码器输出的任意两视频帧之间的相关度，对所述初始编码器和所述初始卷积神经网络进行训练。

在具体应用场景中，所述标注单元34，包括：拼接模块341和标注模块342。

所述拼接模块341，可以用于获取各个样本视频对应的样本视频帧序列，并将所述各个样本视频对应的样本视频帧序列进行拼接，得到拼接后的样本视频帧序列。

所述标注模块342，可以用于根据所述拼接后的样本视频帧序列是否来自于同一段样本视频，对其进行标注，得到标注后的样本视频帧序列。

需要说明的是，本申请实施例提供的一种视频帧语义信息的提取装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机可读指令，该程序被处理器执行时实现以下步骤：获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。

基于上述如图1所示方法和如图3所示装置的实施例，本申请实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机可读指令，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤：获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。

通过本申请的技术方案，本申请能够获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列，同时根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，最终根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息，由此通过计算视频帧序列中任意两视频帧之间的相关度，能够获取一段视频中更高层次的语义信息，便于视频存储、检索等下游任务的执行。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种视频帧语义信息的提取方法，其中，包括：

获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；

根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；

根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。
根据权利要求1所述的方法，其中，所述根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：

将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。
根据权利要求2所述的方法，其中，所述将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：

确定所述视频帧序列中任意两视频帧之间的相对位置信息；

在所述视频帧特征序列中引入所述相对位置信息，并将引入所述相对位置信息的视频帧特征序列与所述预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。
根据权利要求1所述的方法，其中，所述根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，包括：

根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在预设编码器编码过程中的相互影响分值；

根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度。
根据权利要求4所述的方法，其中，所述任意两视频帧分别为所述视频帧序列中的第一视频帧和第二视频帧，所述根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在所述预设编码器编码过程中的相互影响分值，包括：

将所述第一视频帧对应的查询向量和所述第二视频帧对应的键向量相乘，再将相乘结果与所述第二视频帧对应的值向量相乘，得到所述预设编码器在对第一视频帧编码的过程中所述第二视频帧对所述第一视频帧的影响分值；

将所述第二视频帧对应的查询向量和所述第一视频帧对应的键向量相乘，再将相乘结果与所述第一视频帧对应的值向量相乘，得到所述预设编码器在对第二视频帧编码的过程中所述第一视频帧对所述第二视频帧的影响分值；

将所述第二视频帧对所述第一视频帧的影响分值和所述第一视频帧对所述第二视频帧的影响分值相加，得到所述第一视频帧和所述第二视频帧在预设编码器编码过程中的相互影响分值；

所述根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度，包括：

计算所述相互影响分值的平均值，根据所述平均值确定所述视频帧序列中任意两视频帧之间的相关度。
根据权利要求1所述的方法，其中，在所述获取待进行语义信息提取的视频帧序列之前，所述方法还包括：

构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列；

利用初始卷积神经网络对所述标注后的样本视频帧序列进行特征提取，得到所述标注后的样本视频帧序列对应的样本视频帧特征序列；

将所述样本视频帧特征序列输入至初始编码器进行相关度计算，得到所述所述标注后的样本视频帧序列中任意两视频帧之间的相关度；

根据所述初始编码器输出的任意两视频帧之间的相关度，对所述初始编码器和所述初始卷积神经网络进行训练。
根据权利要求6所述的方法，其中，所述构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列，包括：

获取各个样本视频对应的样本视频帧序列，并将所述各个样本视频对应的样本视频帧序列进行拼接，得到拼接后的样本视频帧序列；

根据所述拼接后的样本视频帧序列是否来自于同一段样本视频，对其进行标注，得到标注后的样本视频帧序列。
一种视频帧语义信息的提取装置，其中，包括：

获取单元，用于获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；

计算单元，用于根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；

确定单元，用于根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语音信息。
一种计算机可读存储介质，其上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现视频帧语义信息的提取方法，包括：

获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；

根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；

根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现所述根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：

将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。
根据权利要求10所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现所述将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：

确定所述视频帧序列中任意两视频帧之间的相对位置信息；

在所述视频帧特征序列中引入所述相对位置信息，并将引入所述相对位置信息的视频帧特征序列与所述预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现所述根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，包括：

根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在预设编码器编码过程中的相互影响分值；

根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度。
根据权利要求12所述的计算机可读存储介质，其中，所述任意两视频帧分别为所述视频帧序列中的第一视频帧和第二视频帧，所述计算机可读指令被处理器执行时实现所述根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在所述预设编码器编码过程中的相互影响分值，包括：

将所述第一视频帧对应的查询向量和所述第二视频帧对应的键向量相乘，再将相乘结果与所述第二视频帧对应的值向量相乘，得到所述预设编码器在对第一视频帧编码的过程中所述第二视频帧对所述第一视频帧的影响分值；

将所述第二视频帧对应的查询向量和所述第一视频帧对应的键向量相乘，再将相乘结果与所述第一视频帧对应的值向量相乘，得到所述预设编码器在对第二视频帧编码的过程中所述第一视频帧对所述第二视频帧的影响分值；

将所述第二视频帧对所述第一视频帧的影响分值和所述第一视频帧对所述第二视频帧的影响分值相加，得到所述第一视频帧和所述第二视频帧在预设编码器编码过程中的相互影响分值；

所述根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度，包括：

计算所述相互影响分值的平均值，根据所述平均值确定所述视频帧序列中任意两视频帧之间的相关度。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现在所述获取待进行语义信息提取的视频帧序列之前，所述方法还包括：

构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列；

利用初始卷积神经网络对所述标注后的样本视频帧序列进行特征提取，得到所述标注后的样本视频帧序列对应的样本视频帧特征序列；

将所述样本视频帧特征序列输入至初始编码器进行相关度计算，得到所述所述标注后的样本视频帧序列中任意两视频帧之间的相关度；

根据所述初始编码器输出的任意两视频帧之间的相关度，对所述初始编码器和所述初始卷积神经网络进行训练。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其中，所述计算机可读指令被处理器执行时实现视频帧语义信息的提取方法，包括：

获取待进行语义信息提取的视频帧序列，并对所述视频帧序列进行视频特征提取，得到视频帧特征序列；

根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，并根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度；

根据所述视频帧序列中任意两视频帧之间的相关度，确定所述视频帧序列对应的语义信息。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现所述根据所述视频帧特征序列，确定所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：

将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。
根据权利要求16所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现所述将所述视频帧特征序列与预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量，包括：

确定所述视频帧序列中任意两视频帧之间的相对位置信息；

在所述视频帧特征序列中引入所述相对位置信息，并将引入所述相对位置信息的视频帧特征序列与所述预设编码器中的权重矩阵相乘，得到所述视频帧序列中各视频帧对应的查询向量、键向量和值向量。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现所述根据所述查询向量、所述键向量和所述值向量，计算所述视频帧序列中任意两视频帧之间的相关度，包括：

根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在预设编码器编码过程中的相互影响分值；

根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度。
根据权利要求18所述的计算机设备，其中，所述任意两视频帧分别为所述视频帧序列中的第一视频帧和第二视频帧，所述计算机可读指令被处理器执行时实现所述根据所述查询向量、所述键向量和所述值向量，分别计算所述视频帧序列中任意两视频帧在所述预设编码器编码过程中的相互影响分值，包括：

将所述第一视频帧对应的查询向量和所述第二视频帧对应的键向量相乘，再将相乘结果与所述第二视频帧对应的值向量相乘，得到所述预设编码器在对第一视频帧编码的过程中所述第二视频帧对所述第一视频帧的影响分值；

将所述第二视频帧对应的查询向量和所述第一视频帧对应的键向量相乘，再将相乘结果与所述第一视频帧对应的值向量相乘，得到所述预设编码器在对第二视频帧编码的过程中所述第一视频帧对所述第二视频帧的影响分值；

将所述第二视频帧对所述第一视频帧的影响分值和所述第一视频帧对所述第二视频帧的影响分值相加，得到所述第一视频帧和所述第二视频帧在预设编码器编码过程中的相互影响分值；

所述根据所述相互影响分值，确定所述视频帧序列中任意两视频帧之间的相关度，包括：

计算所述相互影响分值的平均值，根据所述平均值确定所述视频帧序列中任意两视频帧之间的相关度。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现在所述获取待进行语义信息提取的视频帧序列之前，所述方法还包括：

构建拼接后的样本视频帧序列，并对所述拼接后的样本视频帧序列进行标注，得到标注后的样本视频帧序列；

利用初始卷积神经网络对所述标注后的样本视频帧序列进行特征提取，得到所述标注后的样本视频帧序列对应的样本视频帧特征序列；

将所述样本视频帧特征序列输入至初始编码器进行相关度计算，得到所述所述标注后的样本视频帧序列中任意两视频帧之间的相关度；

根据所述初始编码器输出的任意两视频帧之间的相关度，对所述初始编码器和所述初始卷积神经网络进行训练。