WO2022171011A1

WO2022171011A1 - 视频审核模型训练方法、视频审核方法及相关装置

Info

Publication number: WO2022171011A1
Application number: PCT/CN2022/074703
Authority: WO
Inventors: 丘林; 眭哲豪
Original assignee: 百果园技术(新加坡)有限公司; 丘林
Priority date: 2021-02-09
Filing date: 2022-01-28
Publication date: 2022-08-18
Also published as: CN112818888B; CN112818888A

Abstract

本申请实施例公开了一种视频审核模型训练方法、视频审核方法及相关装置，视频审核模型训练方法包括：获取第一样本图像以及第一样本图像的分类标签；初始化视频审核模型，视频审核模型包括一级子模型和二级子模型；采用第一样本图像训练一级子模型，并根据分类标签计算一级子模型对第一样本图像进行分类的分类损失率；响应于确定分类损失率大于预设值，采用第一样本图像训练二级子模型。

Description

视频审核模型训练方法、视频审核方法及相关装置

本申请要求在2021年2月9日提交中国专利局、申请号为202110181850.6的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及视频审核技术领域，例如涉及一种视频审核模型训练方法、视频审核方法及相关装置。

背景技术

随着移动互联网的爆发式增长以及网络安全法的实施，内容平台运营者面临更加严峻的考验，一方面是恶意用户增加，一方面是对视频中违规内容监管力度加强，视频内容审核可以帮助企业筛查平台中存在的违规图像、视频以及文字等内容，通过视频内容审核可以过滤删除掉违规内容，从而为用户构建一个绿色安全的网络环境。

随着机器学习技术的应用，相关技术中通常通过训练好的视频审核模型来审核视频，然而，直播场景存在复杂性和特殊性，一方面，直播中直播场景复杂多变，存在多个对象；另一方面，直播截图受光线、摄像设备等影响，存在图像质量差，模糊等问题；再者，直播场景中存在诸如手机，对讲机，话筒等视觉特征与违规物的视角特征相似，导致送人工审核的视频的精度不高；最后，线上真实数据场景下，正样本和负样本比例差距过大，上述几方面最终造成采用视频审核模型审核视频时出现FP(false positive，误报)问题，视频审核模型无法精确区分负样例和正样例，视频审核的准确度低。

发明内容

本申请实施例提供一种视频审核模型训练方法、视频审核方法、装置、电子设备和存储介质，以避免相关技术中视频审核模型难以区分正样例和负样例，造成审核准确度低的情况。

第一方面，本申请实施例提供了一种视频审核模型训练方法，包括：

获取第一样本图像以及所述第一样本图像的分类标签；

初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型。

第二方面，本申请实施例提供了一种视频审核方法，包括：

从待审核视频中获取视频图像；

将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分；其中，所述得分包括第一得分和第二得分，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型设置为预测所述视频图像属于违规图像的所述第一得分，并响应于确定所述第一得分小于预设值，输出所述第一得分，所述二级子模型设置为响应于确定所述第一得分大于预设值，预测所述视频图像属于违规图像的所述第二得分，并输出所述第二得分；

响应于确定所述得分大于预设阈值，对所述待审核视频进行审核；

其中，所述视频审核模型通过第一方面所述的视频审核模型训练方法所训练。

第三方面，本申请实施例提供了一种视频审核模型训练装置，包括：

样本获取模块，设置为获取第一样本图像以及所述第一样本图像的分类标签；

模型初始化模块，设置为初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

一级子模型训练模块，设置为采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

二级子模型训练模块，设置为响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型。

第四方面，本申请实施例提供了一种视频审核装置，包括：

视频图像获取模块，设置为从待审核视频中获取视频图像；

模型预测模块，设置为将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，所述得分包括第一得分和第二得分，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型设置为预测所述视频图像属于违规图像的第一得分，并响应于确定所述第一得分小于预设值，输出所述第一得分，所述二级子模型设置为响应于确定所述第一得分大于所述预设值，预测所述视频图像属于违规图像的第二得分，并输出所述第二得分；

审核模块，设置为响应于确定所述得分大于预设阈值，对所述待审核视频进行审核；

第五方面，本申请实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请第一方面所述的视频审核模型训练方法，和/或，第二方面所述的视频审核方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所述的视频审核模型训练方法，和/或，第二方面所述的视频审核方法。

附图说明

图1是本申请一实施例提供的一种视频审核模型训练方法的步骤流程图；

图2A是本申请另一实施例提供的一种视频审核模型训练方法的步骤流程图；

图2B是本申请一实施例的视频审核模型的结构示意图；

图2C是本申请一实施例中Densenet的示意图；

图2D是本申请一实施例中残差模块的示意图；

图2E是本申请一实施例中一级子模型和二级子模型的示意图；

图2F是本申请一实施例中注意力机制模块的示意图；

图3是本申请一实施例提供的一种视频审核方法的步骤流程图；

图4是本申请一实施例提供的一种视频审核模型训练装置的结构框图；

图5是本申请一实施例提供的一种视频审核装置的结构框图；

图6是本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

图1为本申请一实施例提供的一种视频审核模型训练方法的步骤流程图，本申请实施例可适用于训练视频审核模型来对视频进行审核的情况，该方法可以由本申请实施例的视频审核模型训练装置来执行，该视频审核模型训练装置可以由硬件或软件来实现，并集成在本申请实施例所提供的电子设备中，例如，如图1所示，本申请实施例的视频审核模型训练方法可以包括如下步骤：

S101、获取第一样本图像以及所述第一样本图像的分类标签。

本申请实施例中，样本图像可以是指用于训练视频审核模型的图像，该样本图像中可以包括违规对象，如包括枪支、刀具、暴恐等违规对象的图像，则样本图像的分类标签可以是表达样本图像是正常图像或者违规图像的标签，在一个示例中，样本图像为正常图像时分类标签可以为0，样本图像为违规图像时分类标签为1。

在本申请的示例实施例中，可以先获取多个原始图像，对每个原始图像进行图像增强处理和归一化处理得到多个样本图像，基于标注操作确定样本图像的分类标签，示例性地，可以从多个直播视频中截取多个视频图像作为原始图像，然后对每个原始图像进行亮度、对比度、清晰度调整以增强原始图像，并将原始图像的尺寸调整为统一的尺寸，例如调整为长和宽均为224像素的图像，最后对图像的像素值进行归一化处理得到样本图像，并基于人工判断样本图像是否包含违规对象来标注样本图像的分类标签，如果样本图像包含违规对象，则样本图像的分类标签为1，否则样本图像的分类标签为0。

S102、初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型。

在本申请实施例中，视频审核模型包括级联的一级子模型和二级子模型，一级子模型设置为预测样本图像属于违规图像的第一得分，二级子模型设置为响应于确定第一得分大于预设值，预测样本图像属于违规图像的第二得分。例如，一级子模型和二级子模型可以是分类神经网络，示例性地，一级子模型和二级子模型可以是VGG，残差神经网络(Residual Neural Network，ResNet)以及密集卷积网络(Dense Convolutional Network，DenseNet)等分类神经网络。在训练视频审核模型之前，可以构建一级子模型和二级子模型，并初始化一级子模型和二级子模型的模型参数。

S103、采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率。

例如，可以从多个第一样本图像中随机提取第一样本图像输入初始化之后的一级子模型中得到第一样本图像属于违规图像的得分，并根据该得分和第一样本图像的分类标签计算一级子模型对第一样本图像进行分类的分类损失率，示例性地，可以直接计算得分与分类标签的差值的绝对值作为分类损失率，还可以根据得分与分类标签的均方差等作为分类损失率，或者还可以通过其他方式计算分类损失率，本申请实施例对计算分类损失率的方式不加以限制。

在输入一个第一样本图像训练一级子模型并且计算分类损失率之后，可以根据该分类损失率来调整一级子模型的模型参数，示例性地，可以根据分类损失率来计算梯度，对一级子模型的模型参数进行梯度下降之后继续迭代训练该一级子模型，直到达到预设的迭代次数或者分类损失率小于预设阈值之后得到训练好的一级子模型。

S104、响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型。

在每次迭代训练一级子模型后，如果一级子模型对第一样本图像进行分类的分类损失率大于预设值，说明该第一样本图像为难以区分是正样本还是负样本的难样本图像，可以采用该第一样本图像来训练二级子模型，从而使得二级子模型学习到区分难样本图像属于正样本或者负样本的能力，例如，将分类损失率大于预设值的第一样本图像输入二级子模型中得到二级子模型的分类损失率，并根据二级子模型的分类损失率来调整二级子模型的模型参数，直到达到预设的迭代次数或者二次子模型的分类损失率小于预设阈值之后得到训练好的二级子模型。

本申请实施例的视频审核模型包括一级子模型和二级子模型，初始化视频审核模型后，采用第一样本图像训练一级子模型，并根据分类标签计算一级子模型对第一样本图像进行分类的分类损失率，响应于确定分类损失率大于预设值，采用第一样本图像训练二级子模型，本申请实施例采用级联的两级子模型，由一级子模型预测计算得到第一样本图像的分类损失率，由于分类损失率大于预设值的第一样本图像是难以区分正负样本的难样本图像，从而能够采用难样本图像来训练二级子模型，使得二级子模型学习到区分难样本的能力，最终整个视频审核模型可以准确区分正负样本，能够准确确定视频中存在违规图像，提高视频送审的准确度。

图2A为本申请另一实施例提供的一种视频审核模型训练方法的步骤流程图，本申请实施例在前述实施例的基础上进行细化，例如，如图2A所示，本申请实施例的视频审核模型训练方法可以包括如下步骤：

S201、获取第一样本图像以及所述第一样本图像的分类标签。

在本申请实施例的示例实施例中，可以从视频中截取多个视频图像，对多个视频图像进行图像增强和归一化处理后得到多个第一样本图像，并基于人工标注得到第一样本图像的分类标签，在一个示例中，第一样本图像中没有包括违规对象时分类标签为0，第一样本图像中包括违规对象时分类标签为1。当然，还可以从网络图像库中随机抽取一定数量的图像作为样本图像而不仅仅限于从视频中截取视频图像来获得样本图像，本申请实施例对获取第一样本图像的方式不加以限制。

S202、初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型。

如图2B所示，本申请实施例的视频审核模型包括级联的一级子模型和二级子模型，一级子模型设置为预测样本图像属于违规图像的第一得分，二级子模型设置为响应于确定第一得分大于预设值，预测样本图像属于违规图像的第二得分。在训练视频审核模型前，可以初始化一级子模型和二级子模型的模型参数。

例如，一级子模型可以是DenseNet，如图2C所示为DenseNet的示意图，在DenseNet中，所有的网络层相互连接，即每个网络层均接受其前面所有网络层作为额外的输入，从而使得每个网络层均可以复用该网络层之前的所有网络层的输出特征，以实现特征复用，提升效率。二级子模型可以是ResNet，ResNet通过残差学习方法来减轻训练深层网络的困难，ResNet在全卷积网络的基础上，引入了残差模块，如图2D所示为残差模块的示意图，每个残差模块包含两条路径，其中一条路径是输入特征的直连通路，另一条路径对输入特征做两到三次卷积操作得到输入特征的残差，最后将两条路径上的特征相加，通过残差模块可以降低训练深层网络的难度，更容易提取到特征。当然，在实施本申请实施例时，本领域技术人员还可以根据实际需要设置一级子模型和二级子模型的网络类型，本申请实施例对此不加以限制。

S203、采用指定数量的所述第一样本图像对所述一级子模型进行粗糙训练，得到粗糙一级子模型以及每个所述第一样本图像属于违规图像的第一得分。

在本申请实施例中，在训练视频审核模型时，可以先对一级子模型和二级子模型进行粗糙训练，即先通过指定数量的第一样本图像训练一级子模型和二级子模型，得到训练一定次数后的粗糙一级子模型和粗糙二级子模型。

如图2E所示为一级子模型和二级子模型的网络结构，一级子模型和二级子模型包括五组卷积层，每两组卷积层之间采用池化层来进行空间降维，同一组卷积层内采用多次连续的3×3卷积操作，卷积核的数目由第一组卷积层的64增多到最后一组卷积层的512，同一组卷积层内卷积核的数目相同，最后一组卷积层之后接两层全连接层，全连接层之后是分类层，当然，在实际应用中本领域技术人员可以任意设置任意数量组的卷积层，以及任意设置每组卷积层中卷积层的数量以及卷积核的大小，本申请实施例对此不加以限制。

在本申请的示例实施例中，一级子模型和二级子模型可以是增加了注意力机制模块的卷积神经网络，即在一级子模型和二级子模型的部分卷积层后插入注意力机制模块来替代池化层，如图2E所示为注意力机制模块的示意图，该注意力机制模块包括通道注意力子模块和空间注意力子模块。

在采用指定数量的第一样本图像对一级子模型进行粗糙训练时，将第一样本图像输入一级子模型，对于连接注意力机制模块的卷积层，将卷积层的输出特征输入注意力机制模块得到注意力机制模块的最终输出特征以输入下一卷积层；将最后一个卷积层的输出特征依次经过全连接层和分类层后得到第一样本图像属于违规图像的第一得分，返回将第一样本图像输入一级子模型的步骤，直到将指定数量的第一样本图像输入一级子模型，从而实现对一级子模型训练一定的次数得到粗糙一级子模型。

如图2F所示，在注意力机制模块中，将卷积层的输出特征输入注意力机制模块的通道注意力子模块得到通道特征，对通道特征和卷积层的输出特征相乘得到中间特征，将中间特征输入注意力机制模块的空间注意力子模块得到空间特征，对空间特征和中间特征相乘得到注意力机制模块的最终输出特征以输入下一卷积层。

其中，如图2F所示，卷积层的输出特征在通道注意力子模块中经过最大池化层和平均池化层之后，再经过感知器输出通道特征1和通道特征2，通道特征1和通道特征2经过加和操作后，通过sigmoid激活操作得到通道注意力子模块最终的通道特征，通道注意力子模块输出的通道特征与卷积层的输出特征相乘得到中间特征，该中间特征作为空间注意力子模块的输入特征，在空间注意力子模块中，中间特征分别经过最大池化层和平均池化层之后进行卷积操作，最后通过sigmoid激活操作得到空间注意力子模块最终的空间特征，空间特征与中间特征做乘法操作得到整个注意力机制模块的最终输出特征，整个注意力机制模块的最终输出特征输入下一个卷积层中，最后在一级子模型的分类层输出第一样本图像属于违规图像的第一得分。

S204、采用所述第一样本图像的第一得分和所述分类标签计算所述样第一样本图像的分类损失率。

在本申请实施例中，一级子模型的分类层输出第一样本图像属于违规图像的第一得分，该第一得分可以是一个概率值，则可以通过第一得分和第一样本图像的分类标签来计算一级子模型对第一样本图像进行分类的分类损失率，在一个示例中，可以计算预测值与分类标签的差值的绝对值作为分类损失率，还可以均方差损失函数等损失函数来计算分类损失率。

需要说明的是，每迭代训练一次一级子模型之后根据分类损失率来对一级子模型的模型参数进行调整。

S205、在每采用一个所述第一样本图像对所述一级子模型进行粗糙训练之后，响应于确定所述分类损失率大于预设值，采用所述第一样本图像对所述二级子模型进行粗糙训练，得到粗糙二级子模型，直到采用所述指定数量的所述第一样本图像对所述一级子模型进行粗糙训练。

在本申请实施例中，每迭代训练一次一级子模型之后，如果一级子模型对第一样本图像进行分类的分类损失率大于预设值，则可以确定第一样本图像为难以区分是正样本还是负样本的难样本，可以采用该第一样本图像来对二级子模型进行粗糙训练，得到二级子模型，并且在该次迭代训练二级子模型后返回采用指定数量的第一样本图像对一级子模型进行粗糙训练，直到采用所有指定数量的第一样本图像对一级子模型进行粗糙训练，得到粗糙一级子模型和粗糙二级子模型。其中，对二级子模型进行粗糙训练可以参考S203-S204中对一级子模型进行粗糙训练的过程，在此不再详述。

S206、获取所述第一样本图像的热力图。

在本申请实施例中，热力图表达了一级子模型预测第一样本图像属于违规图像的第一得分与第一样本图像中敏感区域的映射关系，即一级子模型预测第一样本图像属于违规图像的第一得分与第一样本图像中哪些区域更为敏感相关。

在一个示例中，可以将所有第一样本图像输入训练好的粗糙一级子模型，得到第一样本图像属于违规图像的第二得分，基于梯度-类激活图(Gradient-weighted Class Activation Map，Grad-CAM)和第二得分生成第一样本图像的热力图。

例如，可以计算第一样本图像属于违规图像的第二得分对一级子模型的全连接层输出的特征图的所有像素Aij的偏导数，然后对偏导数取特征图的宽度和高度维度上的全局平均值，得到第一样本图像中违规对象相对于全连接层输出的特征图中第K个通道(RGB通道)的敏感程度，最后将每个像素点的多个通道的敏感程度加权线性组合即可以得到热力图，具体详情可参考相关技术中Grad-CAM生成热力图的方法，本申请实施例在此不再详述。

S207、将所述热力图和所述第一样本图像拼接得到第二样本图像。

在一个示例中，第一样本图像可以表示为H×W×3，H为第一样本图像在长度方向上的像素数量，W为第一样本图像在高度方向上的像素数量，3为第一样本图像的RGB通道数据。基于此，第一样本图像增加一个值为0的第四通道，即第一样本图像表示为H×W×3×0，在生成第一样本图像的热力图后，可以将热力图的像素值作为第一样本图像的第四通道的数值，从而将热力图和第一样本图像拼接得到第二样本图像H×W×3×1，其中1表示热力图的像素值。

S208、采用所述第二样本图像训练所述粗糙一级子模型，得到最终训练好的一级子模型。

在一个示例实施例中，可以随机将指定数量的第二样本图像的第四通道值设置为0得到第三样本图像，采用第二样本图像和第三样本图像训练粗糙一子级模型得到最终训练好的一级子模型。例如，可以将部分第二样本图像中高亮部分的像素值设置为0，即将第二样本图像的第四通道中通道值大于预设阈值的通道值设置为0得到第三样本图像，然后随机采用第二样本图像和第三样本图像来对粗糙一级子模型进行迭代训练，直到训练次数达到预设次数或者损失率小于预设阈值为止得到训练好的一级子模型。

S209、从所述第一样本图像中确定出分类损失率大于预设值的第四样本图像。

第一样本图像输入粗糙一级子模型后可以得到每个第一样本图像属于违规图像的得分，通过该得分可以计算第一样本图像的分类损失率，从而可以将分类损失率大于预设值的第一样本图像作为第四样本图像，第四样本图像为一级子模型难以区分为正样本或者负样本的难样本图像。

S210、获取所述第四样本图像的热力图。

例如，可以将第四样本图像输入训练好的粗糙二级子模型，得到第四样本图像的第三得分，基于Grad-CAM和第三得分生成第四样本图像的热力图，具体可参考S206中获取第一样本图像的热力图，在此不再详述。

S211、将所述热力图和所述第四样本图像拼接得到第五样本图像。

例如，可以将热力图中像素点的像素值作为第四样本图像的第四通道的通道值以拼接热力图和第四样本图像，具体详情可参考S207，在此不再详述。

S212、采用所述第五样本图像训练所述粗糙二级子模型，得到最终训练好的二级子模型。

采用第五样本图像训练粗糙二级子模型可参考S208中训练粗糙一级子模型，在此不再详述。

在本申请的示例实施例中，粗糙二级子模型的最后一层卷积层采用可变卷积核，二级子模型的感受野是可变化的，使得二级子模型可以学习到违规对象的特征，增强二级子模型对违规对象的鉴别能力。

例如，先采用第一样本图像对一级子模型和二级子模型进行粗糙训练，在采用拼接了热力图的样本图像对粗糙训练后的一级子模型和二级子模型进行训练，一方面粗训练可以加快模型收敛，另一方面，热力图加入到样本图像中，为模型训练提供弱监督数据，提升视频审核模型对图像的分类准确率。

例如，一级子模型和二级子模型中增加注意力机制模块，使得模型关注图像中违规对象的局部区域，有利于提高视频审核模型检测违规对象的能力。

例如，二级子模型的最后一层卷积层采用可变卷积核，使得二级子模型可以更好地学习到违规对象的特征，提高二级子模型鉴别违规对象的能力。

例如，采用随机将热力图中高亮区域的像素值设置为0，既可以避免模型过拟合，又能提高模型鉴别出被遮挡的违规对象的能力，提升模型鉴别被遮挡的违规对象的鲁棒性。

图3为本申请一实施例提供的一种视频审核方法的步骤流程图，本申请实施例可适用采用训练好的视频审核模型对视频进行审核的情况，该方法可以由本申请实施例的视频审核装置来执行，该视频审核装置可以由硬件或软件来实现，并集成在本申请实施例所提供的电子设备中，例如，如图3所示，本申请实施例的视频审核方法可以包括如下步骤：

S301、从待审核视频中获取视频图像。

在本申请实施例中，待审核视频可以是短视频，示例性地，待审核视频可以是直播平台上的直播视频，还可以是短视频平台上的短视频，当然还可以是长视频等。在确定待审核视频后，可以从待审核视频中截取一定数量的视频图像，例如，可以按照一定的采样率从待审核视频中获取一定数量的视频图像，还可以按照一定的时间间隔从待审核视频中获取一定数量的视频图像，本申请实施例对从待审核视频中获取视频图像的方式不加以限制。

S302、将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，得分包括第一得分和第二得分，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型设置为预测所述视频图像属于违规图像的第一得分，响应于确定所述第一得分小于预设值，输出所述第一得分，所述二级子模型设置为响应于确定所述第一得分大于预设值，预测所述视频图像属于违规图像的第二得分，并输出所述第二得分。

本申请实施例的视频审核模型可通过前述实施例的视频审核模型训练方法所训练，该视频审核模型包括级联的一级子模型和二级子模型，视频图像先输入一级子模型中得到视频图像属于违规图像的第一得分，如果第一得分小于预设值，则视频审核模型输出第一得分，如果第一得分大于预设值，则将视频图像输入二级子模型中得到视频图像属于违规图像的第二得分并输出第二得分。

S303、响应于确定所述得分大于预设阈值，对所述待审核视频进行审核。

如果视频图像的得分大于预设阈值，说明该视频图像大概率包含违规对象，可以将该待审核视频的用户ID、视频图像发送到后台，在后台通过人工对视频进行审核。

本申请实施例的视频审核模型包括一级子模型和二级子模型，待审核视频的视频图像先输入一级子模型中得到视频图像属于违规图像的第一得分，如果第一得分小于预设值，则视频审核模型输出第一得分，如果第一得分大于预设值，则将视频图像输入二级子模型中得到视频图像属于违规图像的第二得分并输出第二得分。视频审核模型采用级联的两级子模型，在训练时由一级子模型预测计算得到第一样本图像的分类损失率，由于分类损失率大于预设值的第一样本图像是难以区分正负样本的难样本图像，从而能够采用难样本图像来训练二级子模型，使得二级子模型学习到区分难样本的能力，最终整个视频审核模型可以准确区分正负样本，能够准确确定视频中存在违规图像，提高视频送审的准确度。

图4是本申请一实施例提供的一种视频审核模型训练装置的结构框图，如图4所示，本申请实施例的视频审核模型训练装置包括：

样本获取模块401，设置为获取第一样本图像以及所述第一样本图像的分类标签；

模型初始化模块402，设置为初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

一级子模型训练模块403，设置为采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

二级子模型训练模块404，设置为响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型。

本申请实施例所提供的视频审核模型训练装置可执行本申请前述实施例所提供的视频审核模型训练方法，具备执行方法相应的功能模块和有益效果。

图5是本申请一实施例提供的一种视频审核装置的结构框图，如图5所示，本申请实施例的视频审核装置可以包括如下模块：

视频图像获取模块501，设置为从待审核视频中获取视频图像；

模型预测模块502，设置为将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，得分包括第一得分和第二得分，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型设置为预测所述视频图像属于违规图像的第一得分，并响应于确定所述第一得分小于预设值，输出所述第一得分，所述二级子模型设置为响应于确定所述第一得分大于预设值，预测所述视频图像属于违规图像的第二得分，并输出所述第二得分；

审核模块503，设置为响应于确定所述得分大于预设阈值，对所述待审核视频进行审核；

其中，所述视频审核模型通过前述实施例所述的视频审核模型训练方法所训练。

本申请实施例所提供的视频审核装置可执行本申请实施例所提供的视频审核方法，具备执行方法相应的功能模块和有益效果。

参照图6，示出了本申请一个示例中的一种电子设备的结构示意图。如图6所示，该电子设备可以包括：处理器601、存储装置602、具有触摸功能的显示屏603、输入装置604、输出装置605以及通信装置606。该电子设备中处理器601的数量可以是一个或者多个，图6中以一个处理器601为例。该电子设备的处理器601、存储装置602、显示屏603、输入装置604、输出装置605以及通信装置606可以通过总线或者其他方式连接，图6中以通过总线连接为例。所述电子设备设置为执行如本申请任一实施例提供的视频审核模型训练方法，和/ 或，视频审核方法。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的视频审核模型训练方法，和/或，视频审核方法。计算机可读存储介质可以是非暂态计算机可读存储介质。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

一种视频审核模型训练方法，包括：

获取第一样本图像以及所述第一样本图像的分类标签；

初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型。
根据权利要求1所述的视频审核模型训练方法，其中，所述获取第一样本图像以及所述第一样本图像的分类标签，包括：

获取原始图像；

对所述原始图像进行图像增强处理和归一化处理得到第一样本图像；

基于标注操作确定所述第一样本图像的分类标签，所述分类标签表示所述第一样本图像为正常图像或者违规图像。
根据权利要求1所述的视频审核模型训练方法，其中，所述采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率，包括：

采用指定数量的所述第一样本图像对所述一级子模型进行粗糙训练，得到粗糙一级子模型以及每个所述第一样本图像属于违规图像的第一得分；

采用所述第一样本图像的第一得分和所述分类标签计算所述第一样本图像的分类损失率；

获取所述第一样本图像的热力图；

将所述热力图和所述第一样本图像拼接得到第二样本图像；

采用所述第二样本图像训练所述粗糙一级子模型，得到最终训练好的一级子模型。
根据权利要求3所述的视频审核模型训练方法，其中，所述一级子模型包括卷积层、注意力机制模块、全连接层，以及分类层；

所述采用指定数量的所述第一样本图像对所述一级子模型进行粗糙训练，得到粗糙一级子模型以及每个所述第一样本图像属于违规图像的第一得分，包括：

将所述第一样本图像输入所述一级子模型，对于连接注意力机制模块的卷积层，将所述卷积层的输出特征输入所述注意力机制模块，得到所述注意力机制模块的最终输出特征以输入下一卷积层；

将最后一个卷积层的输出特征依次经过所述全连接层和所述分类层后得到所述第一样本图像属于违规图像的第一得分，返回将所述第一样本图像输入所述一级子模型的步骤，直到将指定数量的第一样本图像输入所述一级子模型。
根据权利要求4所述的视频审核模型训练方法，其中，所述对于连接注意力机制模块的卷积层，将所述卷积层的输出特征输入所述注意力机制模块得到所述注意力机制模块的最终输出特征以输入下一卷积层，包括：

将所述卷积层的输出特征输入所述注意力机制模块的通道注意力子模块得到通道特征；

对所述通道特征和所述卷积层的输出特征相乘得到中间特征；

将所述中间特征输入所述注意力机制模块的空间注意力子模块得到空间特征；

对所述空间特征和所述中间特征相乘得到所述注意力机制模块的最终输出特征以输入下一卷积层。
根据权利要求4所述的视频审核模型训练方法，其中，所述获取所述第一样本图像的热力图，包括：

将所有第一样本图像输入所述粗糙一级子模型，得到所述第一样本图像属于违规图像的第二得分；

基于梯度-类激活图Grad-CAM和所述第二得分生成所述第一样本图像的热力图。
根据权利要求4所述的视频审核模型训练方法，其中，所述将所述热力图和所述第一样本图像拼接得到第二样本图像，包括：

将所述热力图的像素值拼接到所述第一样本图像的第四通道上得到第二样本图像，所述第二样本图像的第一通道、第二通道和第三通道分别为所述第二样本图像的RGB值。
根据权利要求7所述的视频审核模型训练方法，其中，所述采用所述第二样本图像训练所述粗糙一级子模型，得到最终训练好的一级子模型，包括：

随机将指定数量的第二样本图像的第四通道值设置为0得到第三样本图像；

采用所述第二样本图像和所述第三样本图像训练所述粗糙一级子模型，得到最终训练好的一级子模型。
根据权利要求3-8任一项所述的视频审核模型训练方法，其中，所述响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型，包括：

在每采用一个所述第一样本图像对所述一级子模型进行粗糙训练之后，响应于确定所述分类损失率大于所述预设值，采用所述第一样本图像对所述二级子模型进行粗糙训练，得到粗糙二级子模型，直到采用所述指定数量的所述第一样本图像对所述一级子模型进行粗糙训练；

从所述第一样本图像中确定出分类损失率大于所述预设值的第四样本图像；

获取所述第四样本图像的热力图；

将所述热力图和所述第四样本图像拼接得到第五样本图像；

采用所述第五样本图像训练所述粗糙二级子模型，得到最终训练好的二级子模型。
根据权利要求9所述的视频审核模型训练方法，其中，所述获取所述第四样本图像的热力图，包括：

将所述第四样本图像输入训练好的粗糙二级子模型，得到所述第四样本图像属于违规图像的第三得分；

基于Grad-CAM和所述第三得分生成所述第四样本图像的热力图。
根据权利要求9所述的视频审核模型训练方法，其中，所述二级子模型的最后一层卷积层的卷积核为可变形卷积核。
一种视频审核方法，包括：

从待审核视频中获取视频图像；

将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分；其中，所述得分包括第一得分和第二得分，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型设置为预测所述视频图像属于违规图像的所述第一得分，并响应于确定所述第一得分小于预设值，输出所述第一得分；所述二级子模型设置为响应于确定所述第一得分大于所述预设值，预测所述视频图像属于违规图像的所述第二得分，并输出所述第二得分；

响应于确定所述得分大于预设阈值，对所述待审核视频进行审核；

其中，所述视频审核模型通过权利要求1-11任一项所述的视频审核模型训练方法所训练。
一种视频审核模型训练装置，包括：

样本获取模块，设置为获取第一样本图像以及所述第一样本图像的分类标签；

模型初始化模块，设置为初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

一级子模型训练模块，设置为采用所述第一样本图像训练所述一级子模型，并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

二级子模型训练模块，设置为响应于确定所述分类损失率大于预设值，采用所述第一样本图像训练所述二级子模型。
一种视频审核装置，包括：

视频图像获取模块，设置为从待审核视频中获取视频图像；

模型预测模块，设置为将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，所述得分包括第一得分和第二得分，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型设置为预测所述视频图像属于违规图像的所述第一得分，并响应于确定所述第一得分小于预设值，输出所述第一得分，所述二级子模型设置为响应于确定所述第一得分大于所述预设值，预测所述视频图像属于违规图像的所述第二得分，并输出所述第二得分；

审核模块，设置为响应于确定所述得分大于预设阈值，对所述待审核视频进行审核；

其中，所述视频审核模型通过权利要求1-11任一项所述的视频审核模型训练方法所训练。
一种电子设备，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11任一项所述的视频审核模型训练方法，和/或，权利要求12所述的视频审核方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的视频审核模型训练方法，和/或，权利要求12所述的视频审核方法。