WO2021138855A1

WO2021138855A1 - 模型训练方法、视频处理方法、装置、存储介质及电子设备

Info

Publication number: WO2021138855A1
Application number: PCT/CN2020/071021
Authority: WO
Inventors: 郭子亮
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2021-07-15
Also published as: CN114787844A

Abstract

一种模型训练方法、视频处理方法、装置、存储介质及电子设备。模型训练方法包括：获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本（101）；构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型（102）；通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征（103）；将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签（104）；根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型（105）。

Description

模型训练方法、视频处理方法、装置、存储介质及电子设备

技术领域

本申请涉及机器学习领域，特别涉及一种模型训练方法、视频处理方法、装置、存储介质及电子设备。

背景技术

随着移动互联网的快速发展和智能手机的快速普及，图像和视频等视觉内容数据与日俱增，随之衍生出视频标签。视频标签是通过对视频进行场景分类、人物识别、语音识别、文字识别等多维度分析，形成的层次化的分类标签。其中，获取视频标签的过程可称为视频打标，通过视频打标对视频的内容进行分类，可作为用户寻找自己感兴趣的视频及某些商家或者平台推荐视频的依据。

目前，视频打标的方式为人工打标，需要依靠人力对视频打标。但是，人工打标的方式存在效率低的问题。

发明内容

本申请实施例提供一种模型训练方法、视频处理方法、装置、存储介质及电子设备，可以通过训练模型提高视频打标的效率。

第一方面，本申请实施例提供一种模型训练方法，包括：

获取视频样本以及对应所述视频样本的分类标签，将所述视频样本划分为图像样本和音频样本；

构建基础模型，所述基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

通过所述图像特征提取模型提取得到所述图像样本的图像特征，以及通过所述音频特征提取模型提取得到所述音频样本的音频特征；

将所述图像特征以及所述音频特征输入所述分类模型进行分类，得到对应所述视频样本的预测标签；

根据所述预测标签与所述分类标签的差异对所述图像特征提取模型、所述音频特征提取模型以及所述分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。

第二方面，本申请实施例提供一种视频处理方法，包括：

接收视频处理请求；

根据视频处理请求获取需要进行分类的目标视频，并将目标视频划分为目标图像和目标音频；

调用预先训练的视频分类模型；

将目标图像与目标音频输入视频分类模型进行分类，获得目标视频的分类标签；

其中，所述视频分类模型采用本实施例提供的模型训练方法训练得到。

第三方面，本申请实施例提供一种模型训练装置，包括：

第一获取模块，用于获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本；

构建模块，用于构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

提取模块，用于通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征；

分类模块，用于将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签；

调整模块，用于根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。

第四方面，本申请实施例提供一种视频处理装置，包括：

接收模块，用于接收视频处理请求；

第二获取模块，用于根据视频处理请求获取需要进行分类的目标视频，并将目标视频划分为目标图像和目标音频；

调用模块，用于调用预先训练的视频分类模型；

预测模块，用于将目标图像与目标音频输入视频分类模型进行分类，获得目标视频的分类标签；

其中，视频分类模型采用本实施例提供的模型训练方法训练得到。

第五方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上执行时，使得所述计算机执行本实施例提供的模型训练方法或视频处理方法。

第六方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行：

获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本；

构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征；

将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签；

根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。

第七方面，本申请实施例提供一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器通过调用存储器中存储的计算机程序，用于执行：

接收视频处理请求；

调用预先训练的视频分类模型；

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见的，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的模型训练方法的第一种流程示意图。

图2是本申请实施例提供的模型训练方法的原理示意图。

图3是本申请实施例提供的模型训练方法的第二种流程示意图。

图4是本申请实施例提供的模型训练方法的第三种流程示意图。

图5是本申请实施例提供的视频处理方法的流程示意图。

图6是本申请实施例提供的模型训练装置的第一种结构示意图。

图7是本申请实施例提供的模型训练装置的第一种结构示意图。

图8是本申请实施例提供的视频处理装置的结构示意图。

图9是本申请实施例提供的电子设备的第一种结构示意图。

图10是本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种模型训练方法。其中，该模型训练方法的执行主体可以是本申请实施例提供的模型训练装置，或者集成了该模型训练装置的电子设备。该模型训练装置可以采用硬件或者软件的方式实现，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。为了便于描述，以下将以模型训练方法的执行主体为电子设备进行举例说明。

请参阅图1，图1是本申请实施例提供的模型训练方法的第一种流程示意图。该模型训练方法的流程可以包括：

101、获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本。

其中，电子设备可以通过有线连接或无线连接的方式获取视频样本。其中，标签能够体现视频样本的内容，同一个视频样本可以有多个对应的标签。

例如，视频样本的内容为女孩在街道上滑滑板，则该视频样本的标签可以为女孩、滑板、街道，而忽略周边不重要的行人、车辆、建筑等。获取视频标签的过程可称为视频打标，通过视频打标对视频的内容进行分类，可作为用户寻找自己感兴趣的视频及某些商家或者平台推荐视频的依据。其中，分类标签可以为人工设置(即通过人工打标的方式设置)的标签。

在一实施方式中，在视频样本中截取视频片段，将视频片段划分为图像样本和音频样本。其中，视频片段可以为一段，也可以为多段。当从视频中截取一段视频片段时，将这一段视频片段划分为一个图像样本和一个音频样本。当从视频中截取多段视频片段时，将多段视频片段划分为多个图像样本和多个音频样本。

其中，图像样本为从视觉上观察视频样本的内容，例如，图像样本中显示人在弹钢琴；音频样本为从听觉上观察视频样本的内容，例如，钢琴响起的声音。

102、构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型。

其中，构建基础模型包括构建基础模型中的图像特征提取模型、音频特征提取模型和分类模型。可以通过构建基础模型，使得训练完成的基础模型能应用于电子设备如智能手机中，进而对智能手机的视频进行分类。

在一实施方式中，图像特征提取模型可以采用ResNet-101模型。ResNet-101模型是一种CNN(Convolution Neural Network，卷积神经网络)模型，具有101层网络隐藏层。ResNet-101模型通过使用多个有参层来学习输入输出之间的残差表示，而非像一般CNN网络那样使用有参层来直接尝试学习输入、输出之间的映射。使用有参层来直接学习残差比直接学习输入、输出间映射要容易得多(收敛速度更快)，也有效得多(可通过使用更多的层来达到更高的分类精度)。

在一实施方式中，音频特征提取模型可以采用VGG(Oxford Visual Geometry Group)深度网络模型。VGG深度网络模型由5层卷积层、3层全连接层、softmax输出层构成，层与层之间使用max-pooling(最大池化)分开。其中，VGG深度网络模型的深度增加和小卷积核的使用对最终的音频特征提取效果有很大的作用。

103、通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征。

在一实施方式中，通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征之前，先分别对图像特征提取模型、音频特征提取模型和分类模型进行预训练，然后，通过预训练后的图像特征提取模型提取得到图像样本的图像特征，以及通过预训练后的音频特征提取模型提取得到音频样本的音频特征。

在一实施方式中，将图像样本输入至图像特征提取模型如预训练后的ResNet-101模型中进行图像特征提取，得到图像样本的图像特征。例如，可以将图像样本输入至预训练后的ResNet-101模型，将ResNet-101模型的101层网络隐藏层中最后一层全连接前的特征(即，倒数第二层全连接层输出的特征)作为图像样本的图像特征。

在一实施方式中，将音频样本输入至音频特征提取模型如预训练后的VGG深度网络模型中进行音频特征提取，得到音频样本的音频特征。例如，将音频样本输入至预训练后的VGG深度网络模型，将VGG深度网络模型中最后一层全连接前的特征(即，倒数第二层全连接层输出的特征)作为音频样本的音频特征。

其中，提取出的图像特征和音频特征能够反映视频样本的特征。当视频样本只有一段视频片段时，提取出的图像特征和音频特征一起反映该段视频片段的特征。

104、将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签。

在一实施例中，分类模型包括两个模块，特征融合模块及特征分类模块。将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签的步骤，包括：

将图像特征及音频特征输入特征融合模块中进行特征融合，得到视频样本的视频特征；

将视频样本的视频特征输入特征分类模块中进行分类，得到对应视频样本的预测标签。

图像特征提取模型输出图像样本的图像特征以及音频特征提取模型输出音频样本的音频特征后，这些图像特征和音频特征不输入基础模型以外的其他任何算法，而是由基础模型中的图像特征提取模型和音频特征提取模型输出后，直接进入基础模型中的分类模型。分类模型接收到由图像特征提取模型提取的图像特征和由音频特征提取模型提取的音频特征，通过对这些图像特征和音频特征进行融合和分类，得到视频样本的预测标签。

其中，特征融合模块可以将多帧特征融合为一个特征，例如，可以将多帧图像特征融合为一个图像特征，将多帧音频特征融合为一个音频特征。

其中，在特征融合模块，可以采用NeXtVLAD算法。将多帧图像特征作为变量x输入NeXtVLAD算法中，x可以为x ₁、x ₂、x ₃等等。获取图像特征提取模块通过预训练得到的聚类中心C，具体的算法可以为：C与x ₁相减后的差值乘以x ₁对应的权重+C与x ₂相减后的差值乘以x ₂对应的权重+C与x ₃相减后的差值乘以x ₃对应的权重+…。以此，通过加权和与归一化的方式得到图像特征融合而成的视觉特征以及音频特征融合而成的声音特征。视觉特征和声音特征结合后，即形成该视频样本的视频特征。若图像样本和音频样本为视频样本中截取的一段视频片段划分而来，则通过NeXtVLAD算法得到的视觉特征和声音特征为对应于同一段视频片段的视觉特征和声音特征，视觉特征和声音特征结合形成的视频特征也即该段视频片段的视频特征。

在一实施方式中，特征分类模块包括权重分配单元和权重加权单元。权重分配单元可使用SE Context Gate(SE上下文门，神经网络中的一个层)，权重加权单元可使用MoE(Mixture of Experts，混合专家)模型。

其中，SE Context Gate用于压制视频特征中不重要的信息，凸显重要的信息，例如，视频中女孩在路上滑滑板，则滑板与女孩是重要信息，行人与汽车为不重要信息。

请参阅图2，图2为本申请实施例提供的模型训练方法的原理示意图，其中为SE Context Gate的结构示意。

在一实施例中，将视频特征X输入至全连接层，对视频特征X进行批量归一化后，输入至ReLU激活函数。将ReLU激活函数的输出值输入至下一个全连接层再次进行批量归一化后，将再次批量归一化的结果输入至Sigmoid激活函数，由Sigmoid激活函数计算出视频特征X的特征权重，并将特征权重与视频特征X相乘后得到输出Y。从输出Y中可以得到视频特征及对应的特征权重。

其中，ReLU激活函数的表达式为：

f(x)＝max(0,x)

当x<0时，ReLU硬饱和，而当x>0时，则不存在饱和问题。所以，ReLU能够在x>0时保持梯度不衰减。

其中，Sigmoid激活函数的表达式为：

Sigmoid激活函数具有指数函数形状，它在物理意义上接近生物神经元。此外，由于Sigmoid激活函数的值始终位于区间(0,1)中，因而Sigmoid激活函数的输出还可以用于表示概率，或用于输入的归一化。

在一实施方式中，将视频特征输入SE Context Gate，计算得到视频特征的特征权重，其中，各项视频特征的特征权重不同，对于重要的信息，对应视频特征的特征权重大，而对于不重要的信息，对应视频特征的特征权重小。最终通过SE Context Gate将视频特征和视频特征对应的特征权重一起输出，并输入至MoE模型。

MoE模型接收到SE Context Gate传来的视频特征及对应的权重，利用MoE模型中的分类算法，将这些视频特征及对应的权重输入多个softmax分类器，对多个softmax分类器的分类结果进行加权投票，得到最终结果。

MoE模型中的分类算法可以为：

其中，类别h和类别h′均表示总类别He中的其中一个类别，p(h|x)为单个softmax分类器的分类结果，

为分类结果p(h|x)对应的权重，p(e|x)为对MoE模型中多个softmax分类器的分类结果及对应的权重进行加权求和，最终得到的视频样本的类别。

105、根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。

在一实施例中，使用损失函数计算预测标签与分类标签之间的差距。将预测标签与分类标签代入损失函数，得到损失值，若损失值满足预设条件则认为基础模型收敛。例如，随着基础模型的训练，损失函数输出的损失值越来越小，根据需求设定损失值阈值，当损失值小于损失值阈值时，认为基础模型收敛，基础模型的训练结果符合预期，将该收敛的基础模型作为用于视频分类的视频分类模型。

或者，在基础模型的迭代过程中，两次迭代之间的权值变化已经很小，预先设置权值阈值，当基础模型两次迭代之间的权值变化小于预设权值阈值时，认为基础模型收敛，基础模型的训练结果符合预期，将该收敛的基础模型作为用于视频分类的视频分类模型。

又或者，预先设置基础模型的迭代次数，当基础模型的迭代次数超过预设迭代次数时，停止迭代，并认为基础模型收敛，基础模型的训练结果符合预期，将该收敛的基础模型作为用于视频分类的视频分类模型。

由上可知，本申请实施例提供的模型训练方法，通过获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本；构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型；通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征；将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签；根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。以此可以通过损失函数对基础模型进行训练，以得到准确率更高的视频分类模型，提升了视频分类的准确率。

请参阅图3，图3是本申请实施例提供的模型训练方法的第二种流程示意图。该模型训练方法的流程可以包括：

201、获取视频样本以及对应视频样本的分类标签。

其中，电子设备可以通过有线连接或无线连接的方式获取视频样本。视频样本的时间可以从几秒钟到几十小时不等。其中，标签能够体现视频样本的内容，同一个视频样本可以有多个对应的标签。

202、从视频样本中截取视频片段。

203、将视频片段划分为图像样本和音频样本。

在一实施例方式中，在视频样本中截取视频片段，将视频片段划分为图像样本和音频样本。其中，视频片段可以为一段，也可以为多段。当从视频中截取一段视频片段时，将这一段视频片段划分为一个图像样本和一个音频样本。当从视频中截取多段视频片段时，将多段视频片段划分为多个图像样本和多个音频样本。

204、构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型。

205、根据第一数据集对图像特征提取模型进行预训练。

其中，第一数据集可以为ImageNet数据集。ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库，包含超过1400万个图像，其中120万个图像分为1000个类别(大约100万个图像含边界框和注释)。经过预训练后的图像特征提取模型可用于从图像样本中提取出图像特征。通过将图像特征提取模型在ImageNet上进行数据处理，在训练结束时可以得到模型参数较好的ResNet-101模型，并将该特征提取预训练完成的ResNet-101模型作为图像特征提取模型，这样可以极大的缩短的图像特征提取模型的训练时间。

在一实施方式中，在根据第一数据集对图像特征提取模型进行预训练之前，还包括：

对第一数据集进行预处理；

根据第一数据集对图像特征提取模型进行预训练的步骤，包括：

根据预处理后的第一数据集对图像特征提取模型进行预训练。

在一实施方式中，可以通过对第一数据集进行数据增益来对第一数据集进行预处理。其中，数据增益的方式包括：对第一数据集中的初始图像进行随机变化。例如，对第一数据集中的初始图像进行水平镜像翻转、垂直镜像翻转、裁剪、亮度调整、饱和度调整和色相调整中的一种以上。然后，将预处理后的第一数据集输入图像特征提取模型，根据图像特征提取模型输出的图像特征与第一数据集中原始图像自带的原始图像特征之间的差异，调整图像特征提取模型的各项参数，从而达到对图像特征提取模型预训练的目的。

206、根据第二数据集对音频特征提取模型进行预训练。

其中，第二数据集可以为AudioSet数据集。AudioSet数据集包含了多类音频类别以及大量人工打标的声音片段，覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音等。

在一实施方式中，在根据第二数据集对音频特征提取模型进行预训练之前，还包括：

对第二数据集进行预处理；

根据第二数据集对音频特征提取模型进行预训练，包括：

根据预处理后的第二数据集对音频特征提取模型进行预训练。

在一实施方式中，可以通过对第二数据集中的声音片段进行短时傅里叶变换来对第二数据集进行预处理。其中，短时傅里叶变换是一种时谱分析方法，它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高。

简单来说，短时傅里叶变换就是先把一个函数和窗函数进行相乘，然后再进行一维的傅里叶变换。并通过窗函数的滑动得到一系列的傅里叶变换结果，将这些结果排开便得到二维的表象。为方便处理，可以通过短时傅里叶变换将声音信号进行离散化处理。

在通过短时傅里叶变换得到第二数据集中声音片段的频谱图，并将频谱图输入至音频特征提取模型之后，根据音频特征提取模型输出的音频特征与第二数据集中声音片段自带的原始音频特征之间的差异，调整音频特征提取模型的各项参数，从而达到对音频特征提取模型预训练的目的。

207、根据预训练后的图像特征提取模型和预训练后的音频特征提取模型对分类模型进行预训练。

在一实施方式中，构建基础模型之后，对图像特征提取模型、音频特征提取模型和分类模型进行预训练。在预训练时，先分别对图像特征提取模型、音频特征提取模型进行预训练，然后，根据预训练后的图像特征提取模型和预训练后的音频特征提取模型对分类模型进行预训练。

其中，根据预训练后的图像特征提取模型和预训练后的音频特征提取模型对分类模型进行预训练包括：

将图像样本输入预训练后的图像特征提取模型，得到图像样本的图像特征；

将音频样本输入预训练后的音频特征提取模组，得到音频样本的音频特征；

将图像特征和音频特征输入分类模型进行分类，得到对应视频样本的预测标签；

根据预测标签与分类标签的差异对分类模型的参数进行调整，直至分类模型收敛。

其中，预测标签与分类标签的差异可以通过第一BCE Loss(损失函数)体现。将预测标签与分类标签输入第一损失函数，得到第一损失值。通过第一损失值体现预测标签与分类标签的差异。当第一损失值满足预设条件时，认为分类模型收敛。例如，当第一损失值小于第一预设阈值时，判定分类模型收敛，分类模型的预训练完成。

208、通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征。

在图像特征提取模型、音频特征提取模型和分类模型的预训练完成后，将预训练后的图像特征提取模型、音频特征提取模型和分类模型进行端对端的联合训练。

在联合训练中，图像样本和音频样本输入基础模型中的图像特征提取模型、音频特征提取模型进行特征提取，将图像特征提取模型、音频特征提取模型的输出作为分类模型的输入，并最终从分类模型输出视频样本的预测标签。整个训练过程在基础模型内部完成，在联合训练的过程中，不借助除基础模型以外的其它算法。

在一实施例中，在联合训练时，首先将图像样本输入至图像特征提取模型如ResNet-101模型中进行图像特征提得到图像样本的图像特征，将音频样本输入至音频特征提取模型如VGG深度网络模型模型中进行音频特征提得到音频样本的音频特征。例如，将图像样本输入至ResNet-101模型，将ResNet-101模型的101层网络隐藏层中最后一层全连接前的特征(倒数第二层全连接层输出的特征)作为图像样本的图像特征；将音频样本输入至VGG深度网络模型，将VGG深度网络模型中最后一层全连接前的特征(倒数第二层全连接层输出的特征)作为音频样本的音频特征。

其中，图像特征可以为多帧图像特征，音频特征可以为多帧音频特征。当视频样本只有一个时，提取出的图像特征和音频特征一起代表同一段视频片段的特征。

209、将图像特征及音频特征输入特征融合模块中进行特征融合，得到视频样本的视频特征。

其中，将图像特征及音频特征输入特征融合模块中进行特征融合，得到视频样本的视频特征的步骤包括：

(1)将图像特征输入特征融合神经网络模型中进行特征融合，得到目标视频的视觉特征。

(2)将音频特征输入特征融合神经网络模型中进行特征融合，得到目标视频的声音特征。

(3)将视觉特征与声音特征结合为目标视频的视频特征。

特征融合模块将可以将多帧特征融合为一个特征，例如，将多帧图像特征融合为一个图像特征，将多帧音频特征融合为一个音频特征。

在特征融合模块，可以采用NeXtVLAD算法。将多帧图像特征作为变量x输入NeXtVLAD算法中，x可以为x ₁、x ₂、x ₃等等。获取图像特征提取模块通过预训练得到的聚类中心C，具体的算法可以为：C与x ₁相减后的差值乘以x ₁对应的权重+C与x ₂相减后的差值乘以x ₂对应的权重+C与x ₃相减后的差值乘以x ₃对应的权重+…。以此，通过加权和与归一化的方式得到多帧图像特征融合而成的视觉特征以及多帧音频特征融合而成的声音特征。视觉特征和声音特征结合后，即形成该视频样本的视频特征。若图像样本和音频样本为视频样本中截取的一段视频片段划分而来，则通过NeXtVLAD算法得到的视觉特征和声音特征为对应于同一段视频片段的视觉特征和声音特征，视觉特征和声音特征结合形成的视频特征也即该段视频片段的视频特征。

210、将视频特征输入权重分配单元中进行计算权重，得到视频特征对应的特征权重。

在一实施例中，分类模型包括特征融合模块和分类模块，分类模块包括权重分配单元和权重加权单元。将视频样本的视频特征输入特征分类模块中进行分类，得到对应视频样本的预测标签的步骤，包括：

将视频特征输入权重分配单元计算权重，得到视频特征对应的特征权重；

将视频特征及对应的特征权重输入权重加权单元中计算加权和，得到对应视频样本的预测标签。

在分类模块的权重分配单元中，可以使用SE Context Gate。SE Context Gate用于压制视频特征中不重要的信息，凸显重要的信息，例如，视频中女孩在路上滑滑板，则滑板与女孩是重要信息，行人与汽车为不重要信息。

其中，ReLU激活函数的表达式为：

f(x)＝max(0,x)

其中，Sigmoid激活函数的表达式为：

211、将视频特征及对应的特征权重输入权重加权单元中计算加权和，得到对应视频样本的预测标签。

在一实施方式中，权重加权单元包括多个预设分类器，将视频特征及对应的特征权重输入权重加权单元中，得到对应视频样本的预测标签的步骤，包括：

将视频特征及对应的特征权重输入多个预设分类器中，得到多个分类结果及对应分类结果的权重；

根据多个分类结果及对应多个分类结果的权重计算加权和，得到对应视频样本的预测标签。

在分类模型的权重加权单元中，可以使用MoE模型。MoE模型包含多个softmax分类器在内的分类算法。MoE模型接收到SE Context Gate传来的视频特征及对应的权重，利用MoE模型中的分类算法，将这些视频特征及对应的权重输入多个softmax分类器，对多个softmax分类器的分类结果进行加权投票，得到最终结果。

MoE模型中的分类算法可以为：

212、根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。

在图像特征提取模型、音频特征提取模型与分类模型的联合训练过程中，预测标签与分类标签的差异不止是用于调整分类模型的参数，而是用于一并调整图像特征提取模型、音频特征提取模型与分类模型这三个模型的参数。

在一实施例中，使用第二损失函数计算预测标签与分类标签之间的差距。将预测标签与分类标签代入第二损失函数，得到第二损失值，若第二损失值满足预设条件则判定基础模型收敛。例如，随着基础模型的训练，第二损失函数输出的第二损失值越来越小，根据需求设置第二预设阈值，当第二损失值小于第二预设阈值时，认为基础模型收敛，基础模型的训练结果符合预期，将该收敛的基础模型作为用于视频分类的视频分类模型。

或者，在基础模型的迭代过程中，两次迭代之间的权值变化变化已经很小，预先设置第三预设阈值，当两次迭代之间的权值变化小于第三预设阈值时，认为基础模型收敛，基础模型的训练结果符合预期，将该收敛的基础模型作为用于视频分类的视频分类模型。

请参阅图4，图4是本申请实施例提供的模型训练方法的第三种流程示意图。

在一实施例中，从经过人工打标的视频样本中截取视频片段，对视频片段进行图像帧采样和音频采样，将视频片段划分为图像样本和音频样本，对图像样本和音频样本分别进行预处理。其中，对图像样本的预处理包括对图像尺寸的缩放；对音频样本的预处理包括对音频样本的音频信号进行短时傅里叶变换。

然后，构建基础模型，基础模型中包括图像特征提取模型、音频特征提取模型和分类模型。将预处理后的图像样本输入图像特征提取模型提取出图像特征，将预处理后的音频样本输入至音频特征提取模型提取出音频特征，将由图像特征提取模型和音频特征提取模型输出的图像特征和音频特征输入到分类模型中。在分类模型中，分别通过分类模型中特征融合模型的图像部分对输入的图像特征进行融合，得到视频样本的视觉特征；通过分类模型中特征融合模型的音频部分对输入的音频特征进行融合，得到视频样本的声音特征；将视觉特征与声音特征结合为视频样本的视频特征，并将视频特征输入至权重分配单元，计算得到视频特征对应的权重。将视频特征及对应的权重输入至权重加权单元，得到视频样本的预测结果，即预测标签。

根据预测标签与人工打标的分类标签的差异，不断调整基础模型的参数，包括调整基础模型中图像特征提取模型、音频特征提取模型和分类模型(包括特征融合模型、权重分配单元、权重加权单元)的参数。在图4中，加粗的模块即为参与训练的模块，也即在联合训练过程中，根据预测标签与分类标签的差异调整参数的模块。

请参阅图5，图5是本申请实施例提供的视频处理方法的流程示意图。该视频处理方法的流程可以包括：

301、接收视频处理请求。

其中，当电子设备接收到目标组件触控操作、预设语音操作或预设目标应用的开启指令等方式时触发生成视频处理请求。另外，电子设备还可以在间隔预设时长或者基于一定的触发规则去自动触发生成视频处理请求。例如，当电子设备检测到当前显示界面包括视频时，如检测到电子设备启动浏览器浏览视频时，可以自动触发生成视频处理请求，根据视频分类模型对当前目标视频进行分类。使得电子设备可以通过机器学习算法，自动生成目标视频的预测标签。

302、根据视频处理请求获取需要进行分类的目标视频，并将目标视频划分为目标图像和目标音频。

其中，目标视频可以是存储在电子设备中的视频，此时视频处理请求中包括用于指示目标视频所存储的位置的路径信息，电子设备可以通过该路径信息去获取到需要进行标签预测的目标视频。当然，当目标视频不为存储在电子设备中的视频时，电子设备可以根据视频处理请求通过有线连接或者无线连接的方式获取需要进行分类的目标视频。

在一实施方式中，在目标视频中截取视频片段，视频片段可以为一段，也可以为多段。当从目标视频中截取一段视频片段时，将这一段视频片段划分为一个目标图像和一个目标音频。当从目标视频中截取多段视频片段时，将多段视频片段划分为多个目标图像和多个目标音频。当只有一个目标图像和一个目标音频时，目标图像和目标音频对应目标视频中的同一个视频片段。

303、调用预先训练的视频分类模型。

其中，视频分类模型采用本实施例提供的模型训练方法训练得到。具体的模型训练过程可以参见上述实施例的相关描述，在此不再赘述。

304、将目标图像与目标音频输入视频分类模型进行分类，获得目标视频的分类标签。

其中，将目标图像与目标音频输入视频分类模型进行分类，以得到目标视频对应的分类标签。该分类标签可以代表目标视频的类别。

由上可知，本申请实施例提供的视频处理方法，通过接收视频处理请求；根据视频处理请求获取需要进行分类的目标视频，并将目标视频划分为目标图像和目标音频；调用预先训练的视频分类模型；将目标图像与目标音频输入视频分类模型进行分类，获得目标视频的分类标签；以此通过视频分类模型去对目标视频进行分类。

请参阅图6，图6为本申请实施例提供的模型训练装置400的第一种结构示意图。该模型训练装置可以包括第一获取模型401、构建模块402、提取模块403、分类模块404和调整模块405：

第一获取模块401，用于获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本；

构建模块402，用于构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

提取模块403，用于通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征；

分类模块404，用于将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签；

调整模块405，用于根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。

在一些实施方式中，第一获取模块401，具体用于从视频样本中截取视频片段；将视频片段划分为图像样本和音频样本。

在一些实施方式中，分类模块404，具体用于将图像特征及音频特征输入特征融合模块中进行特征融合，得到视频样本的视频特征；将视频样本的视频特征输入特征分类模块中进行分类，得到对应视频样本的预测标签。

在一些实施方式中，分类模块404，具体用于将图像特征输入特征融合模块中进行特征融合，得到视频样本的视觉特征；将音频特征输入特征融合模块中进行特征融合，得到视频样本的声音特征；将视觉特征与声音特征结合为视频样本的视频特征。

在一些实施方式中，特征分类模块包括权重分配单元和权重加权单元，分类模块404，具体用于将视频特征输入权重分配单元中计算权重，得到视频特征对应的特征权重；将视频特征及对应的特征权重输入权重加权单元中计算加权和，得到对应视频样本的预测标签。

在一些实施方式中，权重加权单元包括多个预设分类器，分类模块404，具体用于将视频特征及对应的特征权重输入多个预设分类器中，得到多个分类结果及对应的权重；根据多个分类结果及对应的权重计算加权和，得到对应视频样本的预测标签。

请参阅图7，图7为本申请实施例提供的模型训练装置的第二种结构示意图。在一些实施方式中，本申请实施例提供的模型训练装置还包括预训练模块406：

预训练模块406，用于根据第一数据集对图像特征提取模型进行预训练；根据第二数据集对将音频特征提取模型进行预训练；根据预训练后的图像特征提取模型和预训练后的音频特征提取模型对分类模型进行预训练。

其中，在预训练模块406根据第一数据集对图像特征提取模型进行预训练之前，对第一数据集进行预处理。然后，根据预处理后的第一数据集对图像特征提取模型进行预训练。

由上可知，本申请实施例提供的模型训练装置，通过第一获取模型401获取视频样本以及对应视频样本的分类标签，将视频样本划分为图像样本和音频样本；构建模块402构建基础模型，基础模型包括图像特征提取模型、音频特征提取模型和分类模型；提取模块403通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征；分类模块404将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签；调整模块405根据预测标签与分类标签的差异对图像特征提取模型、音频特征提取模型以及分类模型的参数进行调整，直至基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。以此可以通过损失函数对基础模型进行训练，以得到准确率更高的视频分类模型，提升了视频分类的准确率。

应当说明的是，本申请实施例提供的模型训练装置与上文实施例中的模型训练方法属于同一构思，在模型训练装置上可以运行模型训练方法实施例中提供的任一方法，其具体实现过程详见模型训练方法实施例，此处不再赘述。

请参阅图8，图8为本申请实施例提供的视频处理装置的结构示意图。该视频处理装置可以包括：接收模块501、第二获取模块502、调用模型503、预测模块504。

接收模块501，用于接收视频处理请求；

第二获取模块502，用于根据视频处理请求获取需要进行分类的目标视频，并将目标视频划分为目标图像和目标音频；

调用模块503，用于调用预先训练的视频分类模型；

预测模块504，用于将目标图像与目标音频输入视频分类模型进行标签预测，获得目标视频的目标标签；

其中，视频分类模型采用本申请实施例提供的模型训练方法训练得到。

由上可知，本申请实施例提供的视频处理装置，通过接收模块501接收视频处理请求；第二获取模块502根据视频处理请求获取需要进行分类的目标视频，并将目标视频划分为目标图像和目标音频；调用模块503调用预先训练的视频分类模型；预测模块504将目标图像与目标音频输入视频分类模型进行分类，获得目标视频的分类标签；以此通过视频分类模型去对目标视频进行分类。

应当说明的是，本申请实施例提供的视频处理装置与上文实施例中的视频处理方法属于同一构思，在视频处理装置上可以运行视频处理方法实施例中提供的任一方法，其具体实现过程详见视频处理方法实施例，此处不再赘述。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当其存储的计算机程序在计算机上执行时，使得计算机执行如本申请实施例提供的模型训练方法或视频处理方法。

其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，包括存储器，处理器，存储器中存储有计算机程序，处理器通过调用存储器中存储的计算机程序，用于执行如本申请实施例提供的模型训练方法或视频处理方法。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图9，图9为本申请实施例提供的电子设备的第一种结构示意图。

该电子设备600可以包括存储器601、处理器602等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器601可用于存储软件程序以及模块，处理器602通过运行存储在存储器601的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。

处理器602是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器601内的应用程序，以及调用存储在存储器601内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

此外，存储器601可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器601还可以包括存储器控制器，以提供处理器602对存储器601的访问。

在本实施例中，电子设备中的处理器602会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器601中，并由处理器602来运行存储在存储器601中的应用程序，从而实现流程：

在一些实施方式中，分类模型包括特征融合模块和特征分类模块，处理器502执行将图像特征以及音频特征输入分类模型进行分类，得到对应视频样本的预测标签时，可以执行：

在一些实施方式中，处理器602执行将图像特征及音频特征输入特征融合模块中进行特征融合，得到视频样本的视频特征时，可以执行：

将图像特征输入特征融合模块中进行特征融合，得到视频样本的视觉特征；

将音频特征输入特征融合模块中进行特征融合，得到视频样本的声音特征；

将视觉特征与声音特征结合为视频样本的视频特征。

在一些实施方式中，特征分类模块包括权重分配单元和权重加权单元，处理器602执行将视频样本的视频特征输入特征分类模块中进行分类，得到对应视频样本的预测标签时，可以执行：

将视频特征输入权重分配单元中计算权重，得到视频特征对应的特征权重；

在一些实施方式中，权重加权单元包括多个预设分类器，处理器502执行将视频特征及对应的特征权重输入权重加权单元中，得到对应视频样本的预测标签时，可以执行：

将视频特征及对应的特征权重输入多个预设分类器中，得到多个分类结果及对应的权重；

根据多个分类结果及对应的权重计算加权和，得到对应视频样本的预测标签。

在一些实施方式中，处理器602执行将视频样本划分为图像样本和音频样本时，可以执行：

从视频样本中截取视频片段；

将视频片段划分为图像样本和音频样本。

在一些实施方式中，处理器602执行通过图像特征提取模型提取得到图像样本的图像特征，以及通过音频特征提取模型提取得到音频样本的音频特征之前，可以执行：

根据第一数据集对图像特征提取模型进行预训练；

根据第二数据集对将音频特征提取模型进行预训练；

根据预训练后的图像特征提取模型和预训练后的音频特征提取模型对分类模型进行预训练。

在一些实施方式中，处理器602执行根据第一数据集对图像特征提取模型进行预训练之前，可以执行：

对第一数据集进行预处理；

在本实施例中，电子设备中的处理器602会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器601中，并由处理器601来运行存储在存储器601中的应用程序，从而实现流程：

接收视频处理请求；

调用预先训练的视频分类模型；

请参照图10，图10为本申请实施例提供的电子设备的第二结构示意图，与图9所示电子设备的区别在于，电子设备还包括：摄像组件603、射频电路604、音频电路605以及电源606。其中，显示器603、射频电路604、音频电路605以及电源606分别与处理器602电性连接。

该显示器603可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器603可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid Crystal Display，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

射频电路604可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路605可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

电源606可以用于给电子设备600的各个部件供电。在一些实施例中，电源606可以通过电源管理系统与处理器602逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图10中未示出，电子设备600还可以包括摄像组件、蓝牙模块等，摄像组件可以包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义图像信号处理(Image Signal Processing)管线的各种处理单元。图像处理电路至少可以包括：多个摄像头、图像信号处理器(Image Signal Processor，ISP处理器)、控制逻辑器、图像存储器以及显示器等。其中每个摄像头至少可以包括一个或多个透镜和图像传感器。图像传感器可包括色彩滤镜阵列(如Bayer滤镜)。图像传感器可获取用图像传感器的每个成像像素捕捉的光强度和波长信息，并提供可由图像信号处理器处理的一组原始图像数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对模型训练方法/视频处理方法的详细描述，此处不再赘述。

本申请实施例提供的模型训练方法/视频处理方法装置与上文实施例中的模型训练方法/视频处理方法属于同一构思，在模型训练方法/视频处理方法装置上可以运行模型训练方法/视频处理方法实施例中提供的任一方法，其具体实现过程详见模型训练方法/视频处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例模型训练方法/视频处理方法而言，本领域普通技术人员可以理解实现本申请实施例模型训练方法/视频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如模型训练方法/视频处理方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的模型训练方法/视频处理方法装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种模型训练方法、视频处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

一种模型训练方法，包括：

获取视频样本以及对应所述视频样本的分类标签，将所述视频样本划分为图像样本和音频样本；

构建基础模型，所述基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

通过所述图像特征提取模型提取得到所述图像样本的图像特征，以及通过所述音频特征提取模型提取得到所述音频样本的音频特征；

将所述图像特征以及所述音频特征输入所述分类模型进行分类，得到对应所述视频样本的预测标签；

根据所述预测标签与所述分类标签的差异对所述图像特征提取模型、所述音频特征提取模型以及所述分类模型的参数进行调整，直至所述基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。
根据权利要求1所述的方法，其中，所述分类模型包括特征融合模块和特征分类模块，所述将所述图像特征以及所述音频特征输入所述分类模型进行分类，得到对应所述视频样本的预测标签的步骤，包括：

将所述图像特征及所述音频特征输入所述特征融合模块中进行特征融合，得到所述视频样本的视频特征；

将所述视频样本的视频特征输入所述特征分类模块中进行分类，得到对应所述视频样本的预测标签。
根据权利要求2所述的方法，其中，所述将所述图像特征及所述音频特征输入所述特征融合模块中进行特征融合，得到所述视频样本的视频特征的步骤，包括：

将所述图像特征输入所述特征融合模块中进行特征融合，得到所述视频样本的视觉特征；

将所述音频特征输入所述特征融合模块中进行特征融合，得到所述视频样本的声音特征；

将所述视觉特征与所述声音特征结合为所述视频样本的视频特征。
根据权利要求2所述的方法，其中，所述特征分类模块包括权重分配单元和权重加权单元，所述将所述视频样本的视频特征输入所述特征分类模块中进行分类，得到对应所述视频样本的预测标签的步骤，包括：

将所述视频特征输入所述权重分配单元中计算权重，得到所述视频特征对应的特征权重；

将所述视频特征及对应的特征权重输入所述权重加权单元中计算加权和，得到对应所述视频样本的预测标签。
根据权利要求4所述的方法，其中，所述权重加权单元包括多个预设分类器，所述将所述视频特征及对应的特征权重输入所述权重加权单元中计算加权和，得到对应所述视频样本的预测标签的步骤，包括：

将所述视频特征及对应的特征权重输入所述多个预设分类器中，得到多个分类结果及对应的权重；

根据所述多个分类结果及对应的权重计算加权和，得到对应所述视频样本的预测标签。
根据权利要求1所述的方法，其中，所述将所述视频样本划分为图像样本和音频样本的步骤，包括：

从所述视频样本中截取视频片段；

将所述视频片段划分为图像样本和音频样本。
根据权利要求1所述的方法，其中，所述通过所述图像特征提取模型提取得到所述图像样本的图像特征，以及通过所述音频特征提取模型提取得到所述音频样本的音频特征的步骤之前，还包括：

根据第一数据集对所述图像特征提取模型进行预训练；

根据第二数据集对所述音频特征提取模型进行预训练；

根据预训练后的所述图像特征提取模型和预训练后的所述音频特征提取模型对所述分类模型进行预训练。
根据权利要求7所述的方法，其中，所述根据第一数据集对所述图像特征提取模型进行预训练的步骤之前，还包括：

对所述第一数据集进行预处理；

所述根据第一数据集对所述图像特征提取模型进行预训练的步骤，包括：

根据预处理后的第一数据集对所述图像特征提取模型进行预训练。
一种视频处理方法，包括：

接收视频处理请求；

根据所述视频处理请求获取需要进行分类的目标视频，并将所述目标视频划分为目标图像和目标音频；

调用预先训练的视频分类模型；

将所述目标图像与所述目标音频输入所述视频分类模型进行分类，获得所述目标视频的分类标签；

其中，所述视频分类模型采用权利要求1至9任一项所述的模型训练方法训练得到。
一种模型训练装置，包括：

第一获取模块，用于获取视频样本以及对应所述视频样本的分类标签，将所述视频样本划分为图像样本和音频样本；

构建模块，用于构建基础模型，所述基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

提取模块，用于通过所述图像特征提取模型提取得到所述图像样本的图像特征，以及通过所述音频特征提取模型提取得到所述音频样本的音频特征；

分类模块，用于将所述图像特征以及所述音频特征输入所述分类模型进行分类，得到对应所述视频样本的预测标签；

调整模块，用于根据所述预测标签与所述分类标签的差异对所述图像特征提取模型、所述音频特征提取模型以及所述分类模型的参数进行调整，直至所述基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。
一种视频处理装置，包括：

接收模块，用于接收视频处理请求；

第二获取模块，用于根据所述视频处理请求获取需要进行分类的目标视频，并将所述目标视频划分为目标图像和目标音频；

调用模块，用于调用预先训练的视频分类模型；

预测模块，用于将所述目标图像与所述目标音频输入所述视频分类模型进行分类，获得所述目标视频的分类标签；

其中，所述视频分类模型采用权利要求1至8任一项所述的模型训练方法训练得到。
一种存储介质，其中，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至8任一项所述的模型训练方法或权利要求9所述的视频处理方法。
一种电子设备，其中，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行：

获取视频样本以及对应所述视频样本的分类标签，将所述视频样本划分为图像样本和音频样本；

构建基础模型，所述基础模型包括图像特征提取模型、音频特征提取模型和分类模型；

通过所述图像特征提取模型提取得到所述图像样本的图像特征，以及通过所述音频特征提取模型提取得到所述音频样本的音频特征；

将所述图像特征以及所述音频特征输入所述分类模型进行分类，得到对应所述视频样本的预测标签；

根据所述预测标签与所述分类标签的差异对所述图像特征提取模型、所述音频特征提取模型以及所述分类模型的参数进行调整，直至所述基础模型收敛，并将收敛的基础模型作为用于视频分类的视频分类模型。
根据权利要求13所述的电子设备，其中，所述分类模型包括特征融合模块和特征分类模块，所述处理器用于执行：

将所述图像特征及所述音频特征输入所述特征融合模块中进行特征融合，得到所述视频样本的视频特征；

将所述视频样本的视频特征输入所述特征分类模块中进行分类，得到对应所述视频样本的预测标签。
根据权利要求14所述的电子设备，其中，所述处理器用于执行：

将所述图像特征输入所述特征融合模块中进行特征融合，得到所述视频样本的视觉特征；

将所述音频特征输入所述特征融合模块中进行特征融合，得到所述视频样本的声音特征；

将所述视觉特征与所述声音特征结合为所述视频样本的视频特征。
根据权利要求14所述的电子设备，其中，所述特征分类模块包括权重分配单元和权重加权单元，所述处理器用于执行：

将所述视频特征输入所述权重分配单元中计算权重，得到所述视频特征对应的特征权重；

将所述视频特征及对应的特征权重输入所述权重加权单元中计算加权和，得到对应所述视频样本的预测标签。
根据权利要求16所述的电子设备，其中，所述权重加权单元包括多个预设分类器，所述处理器用于执行：

将所述视频特征及对应的特征权重输入所述多个预设分类器中，得到多个分类结果及对应的权重；

根据所述多个分类结果及对应的权重计算加权和，得到对应所述视频样本的预测标签。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

根据第一数据集对所述图像特征提取模型进行预训练；

根据第二数据集对将所述音频特征提取模型进行预训练；

根据预训练后的所述图像特征提取模型和预训练后的所述音频特征提取模型对所述分类模型进行预训练。
一种电子设备，其中，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行：

接收视频处理请求；

根据所述视频处理请求获取需要进行分类的目标视频，并将所述目标视频划分为目标图像和目标音频；

调用预先训练的视频分类模型；

将所述目标图像与所述目标音频输入所述视频分类模型进行分类，获得所述目标视频的分类标签；

其中，所述视频分类模型采用权利要求1至8任一项所述的模型训练方法训练得到。