WO2024001139A1

WO2024001139A1 - 视频分类方法、装置以及电子设备

Info

Publication number: WO2024001139A1
Application number: PCT/CN2022/143819
Authority: WO
Inventors: 高雪松; 王博; 林玥
Original assignee: 海信集团控股股份有限公司
Priority date: 2022-06-30
Filing date: 2022-12-30
Publication date: 2024-01-04
Also published as: CN115223079A

Abstract

本申请涉及视频处理技术领域，公开了一种视频分类方法、装置以及电子设备，该方法包括：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。由于更新后的目标特征向量体现出不同目标特征向量之间的关联关系，包含全局视图信息；进而对上述特征向量序列以及更新后的目标特征向量进行特征融合，得到能够精准表征待处理视频类别的分类向量。

Description

视频分类方法、装置以及电子设备

相关申请的交叉引用

本申请要求于2022年06月30日提交中国专利局、申请号为202210778969.6的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，具体涉及一种视频分类方法、装置以及电子设备。

背景技术

随着移动互联网的迅速普及，视频因其丰富的内容以及多样的表现形式，受到人们的喜爱。为了方便对视频进行管理，需要对视频进行分类，即确定视频所属的类别。

相关技术中，对同一个视频片段应用两个平行的卷积神经网络(一个慢通道，一个快通道)进行处理，慢通道来分析视频中的静态内容，快通道来分析视频中的动态内容。

然而，上述处理过程会丢失部分时空信息，如在构造慢通道流时，下采样会导致时间信息丢失，使得视频分类的精度降低。

发明内容

第一方面，本申请一些实施例提供一种视频分类方法，所述方法包括：

将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；

针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；

对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

第二方面，本申请一些实施例提供一种视频分类装置，包括：

特征提取模块，用于将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；

更新模块，用于针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；

融合模块，用于对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

第三方面，本申请一些实施例提供一种电子设备，包括处理器和存储器；

其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如第一方面任一项所述的视频分类方法。

第四方面，本申请一些实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面任一项所述的视频分类方法。

附图说明

图1为本申请一些实施例提供的第一种视频分类方法的示意流程图；

图2为本申请一些实施例提供的第一种系统架构图；

图3为本申请一些实施例提供的第二种系统架构图；

图4为本申请一些实施例提供的第二种视频分类方法的示意流程图；

图5为本申请一些实施例提供的特征向量序列以及目标特征向量确定方法的示意流程图；

图6为本申请一些实施例提供的第三种视频分类方法的示意流程图；

图7为本申请一些实施例提供的第四种视频分类方法的示意流程图；

图8为本申请一些实施例提供的目标特征向量更新方法的示意流程图；

图9为本申请一些实施例提供的第五种视频分类方法的示意流程图；

图10为本申请一些实施例提供的调整向量确定方法的示意流程图；

图11为本申请一些实施例提供的确定调整向量的过程示意图；

图12为本申请一些实施例提供的第一种特征融合方法的示意流程图；

图13为本申请一些实施例提供的第六种视频分类方法的示意流程图；

图14为本申请一些实施例提供的第二种特征融合方法的示意流程图；

图15为本申请一些实施例提供的向量数量变更示意图；

图16为本申请一些实施例提供的第七种视频分类方法的示意流程图；

图17为本申请一些实施例提供的第八种视频分类方法的示意流程图；

图18为本申请一些实施例提供的第一种视频分类装置的结构示意图；

图19为本申请一些实施例提供的第二种视频分类装置的结构示意图；

图20为本申请一些实施例提供的电子设备的示意框图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请的描述中，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，可以是直接相连，也可以通过中间媒介间接相连，可以是两个器件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参阅图1所示，在一些实施例中，通过如下方式进行视频分类：

步骤S101：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量；

步骤S102：将所有特征向量序列以及目标特征向量进行通过交叉注意力机制进行特征融合，得到分类向量，基于该分类向量确定视频类别。

参阅图2所示，为上述实施例对应的系统架构。

然而，上述方式中的目标特征向量并未体现出不同目标特征向量之间的关联关系，缺乏全局视图信息；另外，通过交叉注意力机制进行特征融合，不能有效提取关键信息，因此，难以根据上述分类向量精准地确定待处理视频的视频类型。

基于此，本申请一些实施例提供了一种视频分类方法以及装置，该方法包括：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

参阅图3所示，为上述实施例对应的系统架构。

上述方案，在得到各卷积核对应的特征向量序列以及目标特征向量后，基于卷积核的大小对目标特征向量进行排序，并在排序后基于与各目标特征向量相邻的其他目标特征向量，对各目标特征向量进行更新，使得更新后的目标特征向量体现出不同目标特征向量之间的关联关系，包含全局视图信息；进而对上述特征向量序列以及更新后的目标特征向量进行特征融合，得到能够精准表征待处理视频类别的分类向量，后续基于该分类向量即可精准进行视频分类。

下面将结合附图及具体实施例，对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本申请一些实施例提供了第二种视频分类方法，如图4所示，该方法可以包括：

步骤S401：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序。

在本实施例中，设置有不同卷积核的卷积(如3D卷积)，较小的卷积核对应较小的tubelets(视频对象)，捕捉细粒度的运动；较大的卷积核对应较大的tubelets，捕捉缓慢变化的场景；因此，通过不同卷积核的卷积进行特征提取，得到全面的特征信息。

步骤S402：针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

上述目标特征向量并未体现出不同目标特征向量之间的关联关系，基于此，本实施例通过对目标特征向量按照卷积核的大小排序，进而综合相邻的目标特征向量之间的关联，对目标特征向量进行更新，更新后的目标特征向量体现出不同目标特征向量之间的关联关系，包含全局视图信息，后续根据该更新后的目标特征向量，能够得到更加精准表征待处理视频类别的分类向量。

步骤S403：对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

在一些实施例中，上述特征向量序列以及目标特征向量确定方法可参阅图5所示：

步骤S501：针对任一卷积核，将所述待处理视频通所述卷积核的卷积进行特征提取，得到所述卷积核对应的多个多维矩阵。

示例性的，待处理视频表示为V∈R ^T×H×W×C，其中，T为视频中图像帧数，C为视频中每帧图像的通道数，H为高度，W为宽度。将待处理视频分别输入各卷积中，得到每个卷积输出的N个多维矩阵，多维矩阵的维度为t×h×w，多维矩阵表示为z∈R ^{N×t×h×w×C}，其中，

步骤S502：将所述多个多维矩阵分别进行线性转化，得到所述特征向量序列。

本实施例，对各多维矩阵进行线性转化，得到一维矩阵，组成上述特征向量序列。

步骤S503：将所述特征向量序列以及预设向量输入编码器，得到所述编码器输出的所述卷积核对应的目标特征向量。

本实施例，为了更公平的融合特征向量序列中的信息，在特征向量序列(token ₁、token ₂、……token _N)前添加一个可学习的预设向量(token _CLS)，最后加入位置嵌入。

将token _CLS、token ₁、token ₂、……token _N输入编码器，得到token _CLS′，将该token _CLS′作为该卷积核对应的目标特征向量。

由于自注意力机制具有平方复杂度，因而联合处理上述所有向量序列在计算上来说难度较大，因此上述编码器可采用多视图编码器(Transformer)，由多头注意力(Multi-head Attention，MSA)、标准化(Layer Normalization，LN)和多层感知机(Multilayer Perceptron，MLP)组成。

示例性的，对于每组向量(特征向量序列以及预设向量)使用一个单独的编码器(由L个Transformer层组成)进行处理。Transformer中第i个向量中第j层到第j+1层的转换公式如下所示：

y ^i,j＝MSA(LN(z ^i,j))+z ^i,j

z ^i,j+1＝MLP(LN(y ^i,j))+y ^i,j

视图经过Transformer处理之后，将token _CLS对应向量(token _CLS′)作为目标特征向量。

对应的，本申请一些实施例提供了第三种视频分类方法，如图6所示，该方法可以包括：

步骤S601：针对任一卷积核，将所述待处理视频通所述卷积核的卷积进行特征提取，得到所述卷积核对应的多个多维矩阵。

步骤S602：将所述多个多维矩阵分别进行线性转化，得到所述特征向量序列。

步骤S603：将所述特征向量序列以及预设向量输入编码器，得到所述编码器输出的所述卷积核对应的目标特征向量。

步骤S604：基于卷积核的大小对所述目标特征向量进行排序。

步骤S605：针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

步骤S606：对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

该步骤S601～S606的具体实现方式可参照上述实施例，此处不再赘述。

本申请一些实施例提供了第四种视频分类方法，如图7所示，该方法可以包括：

步骤S701：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序。

该步骤S701的具体实现方式可参照上述实施例，此处不再赘述。

步骤S702：将所述待处理视频的所有目标特征向量输入更新模型，通过所述更新模型基于与任一目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

本实施例，通过对模型进行训练，学习相邻的目标特征向量之间的关联，得到上述更新模型；进而通过该更新模型基于与各目标特征向量相邻的目标特征向量，精准地对各目标特征向量进行更新。

步骤S703：对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

该步骤S703的具体实现方式可参照上述实施例，此处不再赘述。

上述方案，通过更新模型基于与各目标特征向量相邻的目标特征向量，精准地对各目标特征向量进行更新，使得更新后的目标特征向量体现出不同目标特征向量之间的关联关系。

在一些实施例中，上述目标特征向量更新方法可参阅图8所示：

步骤S801：通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作，得到第k层级的平均向量。

其中，1≤k≤K，K为所述更新模型迭代更新的层级总数；第1层级的第一特征向量为任一目标特征向量，第1层级的第二特征向量为所述相邻的目标特征向量。

本实施例，更新模型设置有K个更新层，即需要迭代更新K次。

示例性的，一共有X个目标特征向量；针对第一个目标特征向量，第k层级的平均向量z _avg ^1,k＝avg(z _rep ^1,k,z _rep ^2,k)；

针对第x个目标特征向量(1≤x≤X-1)，第k层级的平均向量z _avg ^x,k＝avg(z _rep ^x-1,k,z _rep ^x,k,z _rep ^x+1,k)；

针对第X个目标特征向量，第k层级的平均向量z _avg ^X,k＝avg(z _rep ^X-1,k,z _rep ^X,k)；

avg为平均池化计算，z _rep ^x,k为第k层级的第x个第一特征向量。

可以理解，上述第二特征向量对应上述相邻的目标特征向量，针对第x个目标特征向量，第1层级的第二特征向量为第x+1个目标特征向量和/或第x-1个目标特征向量，其他层级的第二特征向量为通过上述方式计算得到的第x+1个第一特征向量和/或第x-1个第一特征向量。

步骤S802：对所述第k层级的平均向量进行全连接层计算，得到第k层级的调整向量。

在确定上述平均向量后，还需要通过全连接层进行全连接计算，确定在该层的调整向量。

步骤S803：将所述第k层级的调整向量与所述第k层级的第一特征向量之和，确定为第k+1层级的第一特征向量。

其中，第K层级的第一特征向量为所述更新后的目标特征向量。

示例性的，针对第x个目标特征向量(1≤x≤X-1)，第k+1层级的第一特征向量z _avg ^x,k+1＝△z ^x,k+z _avg ^x,k；其中，△z ^x,k为第x个目标特征向量在第k层级的调整向量，z _avg ^x,k为第x个第一特征向量。

对应的，本申请一些实施例提供了第五种视频分类方法，如图9所示，该方法可以包括：

步骤S901：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序。

步骤S902：通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作，得到第k层级的平均向量。

步骤S903：对所述第k层级的平均向量进行全连接层计算，得到第k层级的调整向量。

步骤S904：将所述第k层级的调整向量与所述第k层级的第一特征向量之和，确定为第k+1层级的第一特征向量；其中，第K层级的第一特征向量为所述更新后的目标特征向量。

步骤S905：对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

该步骤S901～S905的具体实现方式可参照上述实施例，此处不再赘述。

上述方案，针对更新模型的每次迭代更新，通过对各层级的第一特征向量以及该层级的第二特征向量(相邻特征向量)进行平均池化操作，得到目标特征向量在该层级的平均向量；进而通过全连接层计算，得到目标特征向量在该层级的调整向量；基于目标特征向量在该层级的调整向量对该层级的第一特征向量进行调整，即可得到下一层级的第一特征向量，每经过一层更新迭代，可聚合更多其他目标特征向量的信息，经过多次迭代更新后得到更新后的目标特征向量。

在一些实施例中，上述第k层级的调整向量确定方法可参阅图10所示：

步骤S1001：对所述第k层级的平均向量进行第一全连接层计算，得到第k层级的第一向量；以及对所述第k层级的平均向量进行第二全连接层计算，得到第k层级的第二向量，并对所述第k层级的第二向量进行归一化计算，得到第k层级的权重信息。

实施中，将第k层级的平均向量分别输入到两个分支中，第一分支使用一个全连接层，对第k层级的平均向量进行第一全连接层计算，得到第k层级的第一向量；第二分支使用一个全连接层以及一个归一化(SoftMax)层，全连接层对第k层级的平均向量进行第二全连接层计算，得到第k层级的第二向量，归一化层对第k层级的第二向量进行归一化计算，得到第k层级的权重信息。

步骤S1002：基于所述第k层级的第一向量以及所述第k层级的权重信息，得到所述第k层级的调整向量。

示例性的，上述第k层级的平均向量包含Y个特征值，权重信息包含每个特征值对应的权重值。将第k层级的平均向量中各特征值与对应的权重值相乘，得到该特征值对应的调整值；Y个调整值组成上述调整向量。

上述方案，通过全连接计算得到第一向量；通过全连接计算以及归一化计算得到权重信息；基于第一向量以及权重信息，确定出表征目标特征关键信息的调整向量，因此，基于该调整向量对上述第一特征向量进行调整，不仅可聚合更多其他目标特征向量的信息，还可保留目标特征向量的关键信息。

图11为确定调整向量的过程示意图，参阅图11所示。

在一些实施例中，上述特征融合方法可参阅图12所示：

步骤S1201：将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵。

本实施例，将S个1×D维向量(S为上述待处理视频的特征向量序列以及更新后的目标特征向量的总数)进行拼接，得到初始特征矩阵F，表示为F∈i ^S×D。

步骤S1202：将所述初始特征矩阵输入融合模型，通过所述融合模型对所述初始特征矩阵进行特征融合，得到表征所述待处理视频类别的分类向量。

通过对模型进行训练，学习初始特征矩阵与分类向量之间的关联，得到上述融合模型；进而通过该融合模型对初始特征矩阵进行特征融合，精准地确定分类向量。

对应的，本申请一些实施例提供了第六种视频分类方法，如图13所示，该方法可以包括：

步骤S1301：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序。

步骤S1302：针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

步骤S1303：将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵。

步骤S1304：将所述初始特征矩阵输入融合模型，通过所述融合模型对所述初始特征矩阵进行特征融合，得到表征所述待处理视频类别的分类向量。

该步骤S1301～S1304的具体实现方式可参照上述实施例，此处不再赘述。

上述方案，通过融合模型对初始特征矩阵进行特征融合，有效去除特征向量中的冗余信息，并保留其关键信息。提高视频分类精度。

在一些实施例中，上述特征融合方法可参阅图14所示：

步骤S1401：将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵。

该步骤S1401的具体实现方式可参照上述实施例，此处不再赘述。

步骤S1402：将所述初始特征矩阵输入融合模型，通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数，确定第m层级的更新矩阵。

其中，1≤m≤M，M为所述融合模型迭代融合的层级总数；若2≤m≤M，第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的，第1层级的邻接矩阵为预设矩阵，第1层级的特征矩阵为所述初始特征矩阵。

在一些实施例中，上述融合模型为图卷积网络(Graph Convolutional Networks，GCN)。

示例性的，初始特征矩阵表示为F∈i ^S×D，预设矩阵表示为A∈i ^S×S；

第m层级的更新矩阵U _m＝SoftMax[GCN(A _m,F _m)]；例如：

i为矩阵A的行，j为矩阵A的列；

其中，Um∈R ^Sm×Sm+1；σ为激活函数，A _m为第m层级的邻接矩阵，A _m∈R ^Sm×Sm，A _m＝U _m-1 ^T×A _m-1×U _m-1；F _m为第m层级的特征矩阵，F _m∈R ^Sm×Dm，w _m为第m层级的调整参数，w _m∈R ^Dm×Sm+1。

步骤S1403：将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵；其中，第M层级的特征矩阵为所述分类向量。

示例性的，F _m+1＝U _m ^T×F _m，F _m+1∈R ^Sm+1×Dm。

参阅图15所示，通过上述更新矩阵来不断特征矩阵中向量(节点)的数量，使得节点的数量不断减少，直到节点数量为1。

图15只是示例性说明特征矩阵中节点数量的变化，本实施例并不以此为限。

对应的，本申请一些实施例提供了第七种视频分类方法，如图16所示，该方法可以包括：

步骤S1601：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序。

步骤S1602：针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

步骤S1603：将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵。

步骤S1604：将所述初始特征矩阵输入融合模型，通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数，确定第m层级的更新矩阵。

步骤S1605：将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵；其中，第M层级的特征矩阵为所述分类向量。

该步骤S1601～S1605的具体实现方式可参照上述实施例，此处不再赘述。

在一些实施例中，本申请一些实施例提供了第八种视频分类方法，如图17所示，该方法可以包括：

步骤S1701：将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序。

步骤S1702：针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

步骤S1703：对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

该步骤S1701～S1703的具体实现方式可参照上述实施例，此处不再赘述。

步骤S1704：基于预设对应关系，确定所述待处理视频的分类向量对应的视频类别；其中，所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。

上述待处理视频的分类向量表征了待处理视频的类别，通过预设视频的分类向量与视频类别之间的对应关系，根据该对应关系即可确定待处理视频的视频类别。

上述方案，基于上述预设对应关系，即可精准、高效地确定待处理视频的分类向量对应的视频类别(即该待处理视频所属的类别)。

如图18所示，基于相同的发明构思，本申请一些实施例提供一种视频分类装置1800，包括：

特征提取模块1801，用于将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；

更新模块1802，用于针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；

融合模块1803，用于对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。

在一些实施例中，所述更新模块1802具体用于：

将所述待处理视频的所有目标特征向量输入更新模型，通过所述更新模型基于与任一目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。

在一些实施例中，所述更新模块1802具体用于：

通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作，得到第k层级的平均向量；其中，1≤k≤K，K为所述更新模型迭代更新的层级总数；第1层级的第一特征向量为任一目标特征向量，第1层级的第二特征向量为所述相邻的目标特征向量；

对所述第k层级的平均向量进行全连接层计算，得到第k层级的调整向量；

将所述第k层级的调整向量与所述第k层级的第一特征向量之和，确定为第k+1层级的第一特征向量；其中，第K层级的第一特征向量为所述更新后的目标特征向量。

在一些实施例中，所述更新模块1802具体用于：

对所述第k层级的平均向量进行第一全连接层计算，得到第k层级的第一向量；以及对所述第k层级的平均向量进行第二全连接层计算，得到第k层级的第二向量，并对所述第k层级的第二向量进行归一化计算，得到第k层级的权重信息；

基于所述第k层级的第一向量以及所述第k层级的权重信息，得到所述第k层级的调整向量。

在一些实施例中，所述融合模块1803具体用于：

将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵；

将所述初始特征矩阵输入融合模型，通过所述融合模型对所述初始特征矩阵进行特征融合，得到表征所述待处理视频类别的分类向量。

在一些实施例中，所述融合模块1803具体用于：

通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数，确定第m层级的更新矩阵；其中，1≤m≤M，M为所述融合模型迭代融合的层级总数；若2≤m≤M，第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的，第1层级的邻接矩阵为预设矩阵，第1层级的特征矩阵为所述初始特征矩阵；

将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵；其中，第M层级的特征矩阵为所述分类向量。

在一些实施例中，所述特征提取模块1801具体用于：

针对任一卷积核，将所述待处理视频通所述卷积核的卷积进行特征提取，得到所述卷积核对应的多个多维矩阵；

将所述多个多维矩阵分别进行线性转化，得到所述特征向量序列；

将所述特征向量序列以及预设向量输入编码器，得到所述编码器输出的所述卷积核对应的目标特征向量。

参阅图19所示，在一些实施例中，本申请一些实施例提供另一种视频分类装置1900，在上述视频分类装置1800的基础上，还包括分类模块1804，用于：

在融合模块1803得到表征所述待处理视频类别的分类向量之后，基于预设对应关系，确定所述待处理视频的分类向量对应的视频类别；其中，所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。

由于该装置即是本申请一些实施例中的方法中的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图20所示，基于相同的发明构思，本申请一些实施例提供一种电子设备2000，包括：处理器2001和存储器2002；

存储器2002可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器2002也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器2002是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器2002可以是上述存储器的组合。

处理器2001，可以包括一个或多个中央处理单元(central processing unit，CPU)，图形处理单元(Graphics Processing Unit，GPU)或者数字处理单元等等。

本申请一些实施例中不限定上述存储器2002和处理器2001之间的具体连接介质。本申请一些实施例在图20中以存储器2002和处理器2001之间通过总线2003连接，总线2003在图20中以粗线表示，所述总线2003可以分为地址总线、数据总线、控制总线等。为便于表示，图20中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，所述存储器2002存储有程序代码，当所述程序代码被所述处理器2001执行时，使得所述处理器2001执行下列过程：

在一些实施例中，所述处理器2001具体执行：

在一些实施例中，所述处理器2001在得到表征所述待处理视频类别的分类向量之后，还执行：

基于预设对应关系，确定所述待处理视频的分类向量对应的视频类别；其中，所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。

由于该电子设备即是执行本申请一些实施例中的方法的电子设备，并且该电子设备解决问题的原理与该方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。

本申请一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述视频分类方法的步骤。其中，可读存储介质可以为非易失可读存储介质。

以上参照示出根据本申请一些实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程装置，以产生机器，使得经由计算机处理器和/或其它可编程装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种视频分类方法，所述方法包括：

将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；

针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；

对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。
根据权利要求1所述的方法，针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新，包括：

将所述待处理视频的所有目标特征向量输入更新模型，通过所述更新模型基于与任一目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。
根据权利要求2所述的方法，通过所述更新模型基于与任一目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新，包括：

通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作，得到第k层级的平均向量；其中，1≤k≤K，K为所述更新模型迭代更新的层级总数；第1层级的第一特征向量为任一所述目标特征向量，第1层级的第二特征向量为与所述目标特征向量相邻的目标特征向量；

对所述第k层级的平均向量进行全连接层计算，得到第k层级的调整向量；

将所述第k层级的调整向量与所述第k层级的第一特征向量之和，确定为第k+1层级的第一特征向量；其中，第K层级的第一特征向量为所述更新后的目标特征向量。
根据权利要求3所述的方法，对所述第k层级的平均向量进行全连接层计算，得到第k层级的调整向量，包括：

对所述第k层级的平均向量进行第一全连接层计算，得到第k层级的第一向量；以及对所述第k层级的平均向量进行第二全连接层计算，得到第k层级的第二向量，并对所述第k层级的第二向量进行归一化计算，得到第k层级的权重信息；

基于所述第k层级的第一向量以及所述第k层级的权重信息，得到所述第k层级的调整向量。
根据权利要求1所述的方法，对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量，包括：

将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵；

将所述初始特征矩阵输入融合模型，通过所述融合模型对所述初始特征矩阵进行特征融合，得到表征所述待处理视频类别的分类向量。
根据权利要求5所述的方法，通过所述融合模型对所述初始特征矩阵进行特征融合，包括：

通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数，确定第m层级的更新矩阵；其中，1≤m≤M，M为所述融合模型迭代融合的层级总数；若2≤m≤M，第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的，第1层级的邻接矩阵为预设矩阵，第1层级的特征矩阵为所述初始特征矩阵；

将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵；其中，第M层级的特征矩阵为所述分类向量。
根据权利要求1所述的方法，将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，包括：

针对任一卷积核，将所述待处理视频通所述卷积核的卷积进行特征提取，得到所述卷积核对应的多个多维矩阵；

将所述多个多维矩阵分别进行线性转化，得到所述特征向量序列；

将所述特征向量序列以及预设向量输入编码器，得到所述编码器输出的所述卷积核对应的目标特征向量。
根据权利要求1～7任一所述的方法，在得到表征所述待处理视频类别的分类向量之后，还包括：

基于预设对应关系，确定所述待处理视频的分类向量对应的视频类别；其中，所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。
一种视频分类装置，该装置包括：

特征提取模块，用于将待处理视频通过不同卷积核的卷积进行特征提取，得到各卷积核对应的特征向量序列以及目标特征向量，并基于卷积核的大小对所述目标特征向量进行排序；

更新模块，用于针对任一目标特征向量，基于与所述目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新；

融合模块，用于对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合，得到表征所述待处理视频类别的分类向量。
根据权利要求9所述的装置，所述更新模块具体用于：

将所述待处理视频的所有目标特征向量输入更新模型，通过所述更新模型基于与任一目标特征向量相邻的目标特征向量，对所述目标特征向量进行更新。
根据权利要求10所述的装置，所述更新模块具体用于：

通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作，得到第k层级的平均向量；其中，1≤k≤K，K为所述更新模型迭代更新的层级总数；第1层级的第一特征向量为任一目标特征向量，第1层级的第二特征向量为所述相邻的目标特征向量；

对所述第k层级的平均向量进行全连接层计算，得到第k层级的调整向量；

将所述第k层级的调整向量与所述第k层级的第一特征向量之和，确定为第k+1层级的第一特征向量；其中，第K层级的第一特征向量为所述更新后的目标特征向量。
根据权利要求11所述的装置，所述更新模块具体用于：

对所述第k层级的平均向量进行第一全连接层计算，得到第k层级的第一向量；以及对所述第k层级的平均向量进行第二全连接层计算，得到第k层级的第二向量，并对所述第k层级的第二向量进行归一化计算，得到第k层级的权重信息；

基于所述第k层级的第一向量以及所述第k层级的权重信息，得到所述第k层级的调整向量。
根据权利要求9所述的装置，所述融合模块具体用于：

将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接，得到初始特征矩阵；

将所述初始特征矩阵输入融合模型，通过所述融合模型对所述初始特征矩阵进行特征融合，得到表征所述待处理视频类别的分类向量。
根据权利要求13所述的装置，所述融合模块具体用于：

通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数，确定第m层级的更新矩阵；其中，1≤m≤M，M为所述融合模型迭代融合的层级总数；若2≤m≤M，第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的，第1层级的邻接矩阵为预设矩阵，第1层级的特征矩阵为所述初始特征矩阵；

将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵；其中，第M层级的特征矩阵为所述分类向量。
根据权利要求9所述的装置，所述特征提取模块具体用于：

针对任一卷积核，将所述待处理视频通所述卷积核的卷积进行特征提取，得到所述卷积核对应的多个多维矩阵；

将所述多个多维矩阵分别进行线性转化，得到所述特征向量序列；

将所述特征向量序列以及预设向量输入编码器，得到所述编码器输出的所述卷积核对应的目标特征向量。
根据权利要求9-15任一项所述的装置，所述装置还包括分类模块，用于：

在所述融合模块得到表征所述待处理视频类别的分类向量之后，基于预设对应关系，确定所述待处理视频的分类向量对应的视频类别；其中，所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。
一种电子设备，包括处理器和存储器；

其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1-8任一项所述的视频分类方法。