WO2021093468A1

WO2021093468A1 - 视频分类方法、模型训练方法、装置、设备及存储介质

Info

Publication number: WO2021093468A1
Application number: PCT/CN2020/117358
Authority: WO
Inventors: 李岩; 史欣田; 纪彬
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-11-15
Filing date: 2020-09-24
Publication date: 2021-05-20
Also published as: US11967151B2; EP3989111A4; US20220051025A1; EP3989111A1; CN110929622A; CN110929622B

Abstract

本申请实施例公开了一种视频分类方法、模型训练方法、装置、设备及存储介质，属于计算机视觉技术领域。所述方法包括：获取视频；从视频中选取n个图像帧；通过特征提取网络根据学习到的特征融合策略，提取n个图像帧各自的特征信息；根据n个图像帧各自的特征信息，确定视频的分类结果。本申请实施例中的特征融合策略只需要实现简单的相邻图像帧之间的信息融合，而不需要像3D卷积同时在空间维度和时间维度上进行卷积，特征融合策略通过简单的特征信息融合，替换复杂的、重复的3D卷积操作，工作量小，使得最终得到视频的分类结果的时间较短，效率高。

Description

视频分类方法、模型训练方法、装置、设备及存储介质

本申请要求于2019年11月15日提交的、申请号为201911121362.5、发明名称为“视频分类方法、模型训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术领域，特别涉及一种视频分类方法、模型训练方法、装置、设备及存储介质。

背景技术

为使用户更快地获知视频内容，通常会为每个视频设置相应的视频分类标签。

在相关技术中，通过如下方式设置视频分类标签：将视频平均分成多段子视频；从上述多段子视频中各自抽取一个图像帧，得到多个图像帧；对该多个图像帧分别在空间维度和时间维度上进行3D(three-dimension，三维)卷积操作，得到每一个图像帧融合了其它图像帧的特征信息；根据上述每一个图像帧的特征信息，确定上述视频的视频分类标签。

然而，由于上述相关技术中的3D卷积操作计算量大，使得最终得到视频分类标签的时间较长。

发明内容

本申请实施例提供了一种视频分类方法、模型训练方法、装置、设备及存储介质，缩短了最终得到视频的分类结果的时间。技术方案如下：

一方面，本申请实施例提供一种视频分类方法，应用于计算机设备中，所述方法包括：

获取视频；

从所述视频中选取n个图像帧，所述n为正整数；

通过特征提取网络根据学习到的特征融合策略，提取所述n个图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个图像帧中的第一图像帧在融合所述n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例；

根据所述n个图像帧各自的特征信息，确定所述视频的分类结果。

另一方面，本申请实施例提供一种视频分类模型的训练方法，应用于计算机设备中，所述方法包括：

获取视频分类模型的训练数据，所述训练数据包括至少一个样本视频；

从所述样本视频中选取n个样本图像帧，所述n为正整数；

通过所述视频分类模型中的特征提取网络根据特征融合策略，提取所述n个样本图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个样本图像帧中的第一样本图像帧在融合所述n个样本图像帧中的其它样本图像帧的特征信息时，各个样本图像帧的特征信息所占的比例；

根据所述n个样本图像帧各自的特征信息，确定所述样本视频的预测分类结果；

根据所述预测分类结果和所述样本视频的标准分类结果，对所述视频分类模型进行训练。

另一方面，本申请实施例提供一种视频分类装置，所述装置包括：

视频获取模块，用于获取视频；

图像帧选取模块，用于从所述视频中选取n个图像帧，所述n为正整数；

特征提取模块，用于通过特征提取网络根据学习到的特征融合策略，提取所述n个图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个图像帧中的第一图像帧在融合所述n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例；

视频分类模块，用于根据所述n个图像帧各自的特征信息，确定所述视频的分类结果。

再一方面，本申请实施例提供一种视频分类模型的训练装置，所述装置包括：

数据获取模块，用于获取视频分类模型的训练数据，所述训练数据包括至少一个样本视频；

图像帧选取模块，用于从所述样本视频中选取n个样本图像帧，所述n为正整数；

特征提取模块，用于通过所述视频分类模型中的特征提取网络根据特征融合策略，提取所述n个样本图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个样本图像帧中的第一样本图像帧在融合所述n个样本图像帧中的其它样本图像帧的特征信息时，各个样本图像帧的特征信息所占的比例；

视频分类模块，用于根据所述n个样本图像帧各自的特征信息，确定所述样本视频的预测分类结果；

模型训练模块，用于根据所述预测分类结果和所述样本视频的标准分类结果，对所述视频分类模型进行训练。

又一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频分类方法，或实现上述视频分类模型的训练方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频分类方法，或实现上述视频分类模型的训练方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过根据学习到的特征融合策略，提取图像帧的特征信息，特征融合策略指示了每个图像帧在融合其它图像帧的特征信息时，各个图像帧的特征信息所占的比例，根据图像帧的特征信息，确定视频的分类结果。特征融合策略只需要实现简单的相邻图像帧之间的信息融合，而不需要像3D卷积同时在空间维度和时间维度上进行卷积，特征融合策略通过简单的特征信息融合，替换复杂的、重复的3D卷积操作，工作量小，使得最终得到视频的分类结果的时间较短，效率高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的视频分类方法的流程图；

图3示出了相关技术中的偏移策略的示意图；

图4是本申请一个实施例提供的残差结构的示意图；

图5是本申请另一个实施例提供的视频分类方法的流程图；

图6是本申请一个实施例提供的图像帧选取的示意图；

图7是本申请一个实施例提供的局部图像帧增强策略的示意图；

图8是相关技术中的视频分类方法的示意图；

图9是本申请一个实施例提供的视频分类模型的训练方法的流程图；

图10是本申请一个实施例提供的视频分类装置的框图；

图11是本申请另一个实施例提供的视频分类装置的框图；

图12是本申请一个实施例提供的视频分类模型的训练装置的框图；

图13是本申请一个实施例提供的视频分类模型的训练装置的框图；

图14是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、自然语言处理、机器学习等技术，具体通过如下实施例进行说明。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以包括：终端10和服务器20。

终端10中安装运行有客户端，客户端是指用于上传视频的客户端，例如，视频客户端。终端10可以是诸如手机、平板电脑、可穿戴设备、PC(Personal Computer，个人计算机)等电子设备。

服务器20可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算中心。服务器20可以通过有线或者无线网络与终端10进行通信。服务器20可以获取终端10上传的视频，对该视频进行分类，确定出该视频的分类结果，从而将确定出的分类结果发送给终端10中的客户端进行显示，并基于分类结果进行视频推荐；服务器20还可以对终端10上传的视频进行审核与过滤，判断终端10上传的视频是否是不良视频，例如，不良视频可以是暴力视频、色情低俗视频等；若服务器20判断终端10上传的视频是不良视频，则确认审核不通过，并过滤该视频，向终端10反馈审核不通过消息。

请参考图2，其示出了本申请一个实施例提供的视频分类方法的流程图。该方法的执行主体可以是计算机设备，该计算机设备可以是任何具备计算和处理能力的电子设备，如图1中介绍的终端或服务器。该方法可以包括以下几个步骤。

步骤201，获取视频。

视频可以是任意一个视频。视频可以是终端上传的视频，例如，该视频可以是安装有视频客户端的终端上传的视频。

步骤202，从视频中选取n个图像帧，n为正整数。

视频是多个有序排列图像帧的合集。可选地，计算机设备通过抽帧的方式从视频中选取n个图像帧，n为视频抽帧后得到的总帧数。

步骤203，通过特征提取网络根据学习到的特征融合策略，提取n个图像帧各自的特征信息。

特征提取网络用于提取n个图像帧的特征信息。示例性地，特征提取网络用于根据特征融合策略融合每个图像帧和其它图像帧之间的特征信息，得到每个图像帧的融合后的特征信息，然后通过网络结构对该融合后的特征信息进行处理，输出每个图像帧的最终的特征信息。

在本申请实施例中，特征融合策略用于指示n个图像帧中的第一图像帧在融合n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例。

第一图像帧是n个图像帧中的任意一个图像帧，其它图像帧是n个图像帧中除第一图像帧之外的全部或部分图像帧。可选地，其它图像帧是与第一图像帧相邻的图像帧。例如，有5个图像帧：图像帧1、图像帧2、图像帧3、图像帧4和图像帧5，假设第一图像帧是图像帧2，则其它图像帧可以是图像帧1和图像帧3，此时，根据特征融合策略提取的图像帧2的特征信息中融合有图像帧1和图像帧3的特征信息。特征融合策略指示的第一图像帧在融合n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例是通过学习得到的，不是固定的模式。可选地，图像帧的特征信息可以用图像帧中的像素的灰度值表示，仍然以上述示例为例，假设图像帧2的某一像素的灰度值为2，图像帧1某一像素的灰度值为3，图像帧3某一像素的灰度值为4，学习到的特征融合策略用于指示图像帧2在融合图像帧1和图像帧3的特征信息时，图像帧1所占的比例为0.2，图像帧2所占的比例为0.4，图像帧3所占的比例为0.4，则通过特征提取网络根据特征融合策略，提取的图像帧2的某一像素的灰度值为(0.2*3+0.4*2+0.4*4)＝3。

特征融合策略设计简单，实现高效，可以嵌入进已有的特征提取网络中；通过特征融合策略提取图像帧的特征信息，能够实现灵活地在与其它图像帧之间进行信息交换与信息融合。特征融合策略通过简单的特征信息融合，替换复杂的、重复的3D卷积操作，工作量小。图像帧与图像帧之间的特征信息的交换是动态的，不是固定的模式，本申请实施例提供的特征融合策略可以更加有效地自动学习到适合的信息交换模式。

步骤204，根据n个图像帧各自的特征信息，确定视频的分类结果。

n个图像帧的特征信息可以代表视频的特征信息，根据n个图像帧各自的特征信息，可以确定出视频的分类结果。视频的分类结果用于表征该视频的分类，例如，该视频是暴力视频、色情视频、动画视频、科幻视频等等。

综上所述，本申请实施例提供的技术方案中，通过根据学习到的特征融合策略，提取图像帧的特征信息，特征融合策略指示了每个图像帧在融合其它图像帧的特征信息时，各个图像帧的特征信息所占的比例，根据图像帧的特征信息，确定视频的分类结果。特征融合策略只需要实现简单的相邻图像帧之间的信息融合，而不需要像3D卷积同时在空间维度和时间维度上进行卷积，特征融合策略通过简单的特征信息融合，替换复杂的、重复的3D卷积操作，工作量小，使得最终得到视频的分类结果的时间较短，效率高。

另外，本申请实施例中的特征融合策略是根据学习得到的，可以更加高效灵活地进行特征信息融合。

在示意性实施例中，特征提取网络包括m个级联的网络结构，m为正整数。计算机设备可以通过如下方式提取图像帧的特征信息：

第一、对于第一图像帧，在将第一图像帧的第一特征信息输入至特征提取网络的第k个网络结构之前，根据特征融合策略对第一特征信息进行特征融合处理，得到处理后的第一特征信息，k为小于或等于m的正整数；

在本申请实施例中，处理后的第一特征信息中融合有第一图像帧以及其它图像帧的特征信息。

示例性地，第一特征信息包括c个通道的特征，c为正整数。

示例性地，计算机设备可以通过如下几个子步骤得到处理后的第一特征信息：

1、对于第一特征信息中第i个通道的特征，采用学习到的卷积核对第一图像帧中第i个通道的特征，以及其它图像帧中第i个通道的特征进行卷积操作，得到第一图像帧中第i个通道的处理后的特征，i为小于或等于c的正整数；

在本申请实施例中，卷积核用于定义第一图像帧中第i个通道的特征所对应的特征融合策略。第一图像帧中不同通道的特征所对应的特征融合策略可以不一样，也即，第一图像帧中不同通道对应的卷积核不一样。

第一图像帧中第i个通道的特征可以用第一图像帧中第i个通道的像素的灰度值表示。假设存在5个图像帧：图像帧1、图像帧2、图像帧3、图像帧4和图像帧5，第一图像帧是图像帧2，其它图像帧是图像帧1和图像帧3，学习到的卷积核大小为3，卷积核参数为[0.2,0.4,0.4]，图像帧1在第i个通道的像素的灰度值为3，图像帧2在第i个通道的像素的灰度值为2，图像帧3在第i个通道的像素的灰度值为4，则采用上述卷积核对图像帧2中第i个通道的像素的灰度值，以及图像帧1和图像帧3中第i个通道的像素的灰度值进行卷积操作，得到图像帧2中第i个通道的处理后的像素的灰度值为(0.2*3+0.4*2+0.4*4)＝3。

2、根据第一图像帧中各个通道的处理后的特征，得到处理后的第一特征信息。

假设第一特征信息包括256个通道的特征，根据第一图像帧中256个通道处理后的特征，得到处理后的第一特征信息。

如图3所示，其示出了相关技术中的偏移策略的示意图。假设4个图像帧(图像帧1、图像帧2、图像帧3和图像帧4)各自的特征信息分别包括6个通道(用c表示)的特征，相关技术中，在c＝1通道，计算机设备将图像帧1中的特征平移到图像帧2中，将图像帧2中的特征平移到图像帧3中，将图像帧3中的特征平移到图像帧4中；在c＝2通道，计算机设备将图像帧2中的特征平移到图像帧1中，将图像帧3中的特征平移到图像帧2中，将图像帧4的特征平移到图像帧3中；在c＝3和c＝4通道，4个图像帧中的特征保持不变。相关技术中的偏移策略可以看做是采用卷积核大小为3，卷积核参数固定的卷积核对第一图像帧中第i个通道的特征，以及相邻图像帧中第i个通道的特征进行卷积操作，如采用卷积核[001]定义图像帧中某一个通道的特征在时间维度上向反方向移动，用卷积核[100]定义图像帧中某一个通道的特征在时间维度上向正方向移动。对于偏移后的图像帧2和图像帧3的特征信息而言，图像帧2的特征信息中融合了图像帧1和图像帧3的特征信息，图像帧3的特征信息中融合了图像帧2和图像帧4的特征信息。然而，相关技术中的偏移策略过于死板，图像帧与图像帧之间的信息交换的模式是固定不变的，对于相邻图像帧融合之后得到的新特征信息，每一个图像帧的原有特征在偏移后的特征信息中所占的比重也是固定的，显然，相关技术中的策略不够灵活。然而，本申请实施例提供的卷积核的卷积核参数是不固定的，是通过学习得到的，本申请实施例提供的特征融合策略更为灵活。

第二、通过第k个网络结构对处理后的第一特征信息进行处理，生成第一图像帧的第二特征信息。

网络结构用于对第一特征信息做空间卷积处理。示例性地，特征融合策略对应的特征融合处理和网络结构构成了一个残差结构。第k个网络结构是m个网络结构中的任意一个网络结构。如图4所示，其示出了本申请一个实施例提供的残差结构的示意图。该残差结构包括特征融合处理和网络结构，网络结构可以包括空间1x1卷积、空间3x3卷积和空间1x1卷积。残差结构的输入是第一特征信息，通过对第一特征信息进行特征融合处理，得到处理后的第一特征信息；然后对处理后的第一特征信息分别做空间1x1卷积、空间3x3卷积和空间1x1卷积，得到卷积后的第一特征信息；将卷积后的第一特征信息和第一特征信息相加，得到第二特征信息。

特征提取网络可以是一个残差网络，其包括多个级联的网络结构，在将图像帧的特征信息输入至各个网络结构之前，计算机设备都可以根据特征融合策略对特征信息进行特征融合处理。在可能的实现方式中，在将图像帧的特征信息输入部分网络结构之前，根据特征融合策略对特征信息进行特征融合处理。

在本申请实施例中，第二特征信息为特征提取网络输出的第一图像帧的特征信息，或者特征提取网络生成的第一图像帧的中间特征信息。当第二特征信息为特征提取网络生成的第一图像帧的中间特征信息时，通过第k个网络结构之后的其它网络结构对该中间特征信息进行处理，得到第一图像帧的特征信息。

综上所述，本申请实施例提供的技术方案中，通过采用学习到的卷积核对图像帧的特征信息进行特征融合处理，操作简单，工作量小。

在示意性实施例中，如图5所示，本申请实施例提供的视频分类方法还可以包括如下几个步骤：

步骤501，获取视频。

步骤502，按照预设帧率从视频中抽取图像帧，得到视频帧序列。

预设帧率可以是24帧/秒，预设帧率可以是默认帧率，也可以是研究人员根据实际需求进行设置的帧率。

步骤503，将视频帧序列平均分成n个子序列。

每个子序列的长度为视频帧序列的1/n。n可以是8、16或24，本申请实施例对n的大小不作限定，在实际应用中，n一般选取2的倍数。

步骤504，从n个子序列中的每一个序列中抽取一个图像帧，得到n个图像帧。

上述步骤502至步骤504是采取基于稀疏采样的图像帧抽取策略从视频中选取图像帧的。每个图像帧的特征信息代表一个子序列的特征信息，把任意长度的视频帧序列转化为了n个尽可能地覆盖整个视频从而尽可能保留时间信息的图像帧。可选地，计算机设备可以从每个序列中随机抽取一个图像帧，得到n个图像帧；计算机设备也可以选取每个序列中的固定位置处的图像帧(例如，计算机设备可以选取每个序列中的第一个图像帧或最后一个图像帧)，本申请实施例对如何从序列中抽取图像帧的方式不作限定。示例性地，如图6所示，计算机设备按照预设帧率从视频中抽取图像帧，得到视频帧序列，以n为8为例进行介绍说明，计算机设备将上述视频帧序列平均分成8个子序列：段1、段2、段3……段8，从该8个子序列中的每一个序列中随机抽取一个图像帧，得到8个图像帧。

步骤505，通过特征提取网络根据学习到的特征融合策略，提取n个图像帧各自的特征信息。

步骤506，根据n个图像帧各自的特征信息，得到n个图像帧对应的n个分类结果。

n个图像帧和n个分类结果一一对应，也即每一个图像帧对应于一个分类结果。

示例性地，如图7所示，计算机设备可以通过如下方式得到每个图像帧对应的分类结果：

1、对于n个图像帧中的第j个图像帧，对第j个图像帧的特征信息做降维处理，得到降维后的第j个图像帧的特征信息；

2、通过n个分类器中的第j个分类器根据降维后的第j个图像帧的特征信息，得到第j个图像帧对应的分类结果，j为小于或等于n的正整数。

先对图像帧的特征信息做降维处理，根据降维后的图像帧的特征信息训练分类器，有利于分类器的优化，减轻计算机设备的计算压力。

步骤507，根据n个分类结果，确定视频的分类结果。

可选地，将n个分类结果与n个分类结果各自对应的权重乘积之和，确定为视频的分类结果。当然，在其它可能的实现方式中，可以将n个分类结果求平均，将平均值作为视频的分类结果。

上述步骤506至步骤507对应的策略可以称为局部图像帧增强策略。通过局部图像帧增强策略对图像帧进行处理，加强了图像帧，特别是边缘图像帧(位于视频开始和末尾的图像帧)的特征表达能力，相较于如图8所示的相关技术中对n个图像帧各自的特征信息进行平均操作，本申请实施例是通过要求局部特征来实现视频分类指标，使得局部特征也需要挖掘出具有足够判别力的特征，进而增强了局部特征，尤其是边缘图像帧的特征信息的表达能力，进而使得最终确定的视频的分类结果更准确。

即使利用多次特征融合策略对n个图像帧进行时间特征融合，每个图像帧能够融合多个其它图像帧的特征信息，获得更长时间范围内的信息，但是边缘图像帧对于大范围时间信息的捕捉仍然是欠缺的、不充分的，相应的，它们对于视频的特征信息的建模是不足的，也即对于视频的表达能力是不足的。这种情况下简单地使用如图8所示的相关技术中的平均策略将n个图像帧各自的特征信息整合成视频的特征信息，继而使用一个分类器根据该视频的特征信息，对视频的分类结果进行最终预测，把边缘图像帧的特征信息和其它图像帧的特征信息同等看待，最终平均得到的视频表达能力也会被边缘图像帧的特征信息所拖累，边缘图像帧的特征信息会影响最终的视频建模能力。在本申请实施例中，对于每个单独的图像帧，都各自使用一个分类器进行动作识别任务，强迫边缘图像帧在信息不充足的情况下挖掘更多的有用信息，增强这些边缘图像帧的信息表达能力。

综上所述，本申请实施例提供的技术方案中，通过为每个图像帧的特征信息设置一个分类器，增强了图像帧的特征表达能力。

如图9所示，其示出了本申请一个实施例提供的视频分类模型的训练方法的流程图，该方法的执行主体可以是计算机设备，如可以是图1中介绍的服务器或终端，该方法可以包括如下几个步骤。

步骤901，获取视频分类模型的训练数据。

视频分类模型用于确定视频的分类结果。在本申请实施例中，训练数据包括至少一个样本视频。训练数据中包括的样本视频的分类结果是一致的。

步骤902，从样本视频中选取n个样本图像帧，n为正整数。

步骤902的介绍说明可参见上文步骤502至步骤504的介绍说明，此处不再赘述。

步骤903，通过视频分类模型中的特征提取网络根据特征融合策略，提取n个样本图像帧各自的特征信息。

在本申请实施例中，特征融合策略用于指示n个样本图像帧中的第一样本图像帧在融合n个样本图像帧中的其它样本图像帧的特征信息时，各个样本图像帧的特征信息所占的比例。

假设训练过程中批大小(batch_size)为N，即每次迭代训练包括N个视频帧序列，分别从每个视频帧序列中选取n个图像帧，每个图像帧的大小为HxW，H代表图像帧的高度，W代表图像帧的宽度，同时假设特征信息包括c个通道的特征，即特征通道数为c，每个视频帧序列对应一个视频分类模型，一个残差结构的输入X，其大小即为(Nn)xcxHxW，特征融合处理的过程为：首先对输入X进行重塑(reshape)处理，使其表达形式变为(NxHxW)xcxn，在这种情况下，我们可以近似认为，对于N个视频帧序列中的每一个空间位置(H，W)，其特征表达由n个图像帧的特征信息组成，其中，每个图像帧的特征通道数为c，采用学习到的卷积核对各个图像帧进行卷积操作，得到卷积处理后的特征信息，再对卷积处理后的特征信息做重塑处理，使得卷积处理后的特征信息的表达形式变为(Nn)xcxHxW。通过网络结构对处理后的特征信息进行空间卷积处理，得到空间卷积后的特征信息，将输入和空间卷积后的特征信息相加，得到最终的特征信息。

步骤904，根据n个样本图像帧各自的特征信息，确定样本视频的预测分类结果。

步骤904的介绍说明可参见上文实施例，此处不再赘述。

步骤905，根据预测分类结果和样本视频的标准分类结果，对视频分类模型进行训练。

预测分类结果用于表征视频分类模型预测的视频的分类，样本视频的标准分类结果可以是人工标注的分类结果。示例性地，可以根据预测分类结果和标准分类结果之间的距离，对视频分类模型进行训练。例如，根据预测分类结果和标准分类结果之间的余弦距离、欧式距离、曼哈顿距离或其它距离等，对视频分类模型进行训练。当预测分类结果和标准分类结果之间的距离小于预设距离时，停止对视频分类模型的训练。预测分类结果和标准分类结果之间的距离越小，说明视频分类模型越精确。

示例性地，计算机设备可以根据预测分类结果和标准分类结果，计算视频分类模型对应的损失函数值，根据损失函数值对应视频分类模型进行训练。在可能的实现方式中，当损失函数值小于预设阈值时，停止对视频分类模型的训练。损失函数值用于表征预测分类结果和标准分类结果之间的不一致程度。若损失函数值较小，则表明预测分类结果和标准分类结果很接近，视频分类模型性能良好；若损失函数值较大，则表明预测分类结果和标准分类结果差距很大，视频分类模型性能不佳。

在可能的实现方式中，计算机设备可以根据损失函数值调整特征融合策略。

可选地，根据损失函数值调整卷积核的参数，卷积核用于定义第一样本图像帧中第i个通道的特征所对应的特征融合策略，i为正整数。

根据损失函数值，对特征融合策略进行调整，实现对视频分类模型的训练，可以进行多轮调整，当满足第一停止训练条件时，停止对特征融合策略进行训练。

第一停止训练条件可以包括以下任意一项：当损失函数值满足预设阈值时，停止对特征融合策略进行训练；或者，当训练次数达到预设次数时，例如，达到10万次时，停止对特征融合策略进行训练；或者，当第k+1轮计算得到的损失函数值与第k轮计算得到的损失函数值之间的差值小于预设差值时，例如，小于10 ^-9时，停止对特征融合策略进行训练。

在可能的实现方式中，视频分类模型还包括n个分类器。计算机设备可以根据损失函数值调整n个分类器的参数，n个分类器中的第h个分类器用于根据第一样本图像帧的特征信息，得到第一样本图像帧对应的预测分类结果，h为小于或等于n的正整数。

根据损失函数值，对分类器的参数进行调整，实现对视频分类模型的训练，可以进行多轮调整，当满足第二停止训练条件时，停止对分类器的参数进行训练。

第二停止训练条件可以包括以下任意一项：当损失函数值满足预设阈值时，停止对分类器的参数进行训练；或者，当训练次数达到预设次数时，例如，达到10万次时，停止对分类器的参数进行训练；或者，当第k+1轮计算得到的损失函数值与第k轮计算得到的损失函数值之间的差值小于预设差值时，例如，小于10 ^-9时，停止对分类器的参数进行训练。

在可能的实现方式中，服务器根据损失函数值调整特征融合策略和分类器。当满足第一停止训练条件时，停止对特征融合策略进行训练；当满足第二停止训练条件时，停止对分类器的参数进行训练。

第一停止训练条件和第二停止训练条件可以相同，也可以不同，本申请实施例对此不作限定。

综上所述，本申请实施例提供的技术方案中，通过根据学习到的特征融合策略，提取图像帧的特征信息，特征融合策略指示了每个图像帧在融合其它图像帧的特征信息时，各个图像帧的特征信息所占的比例，根据图像帧的特征信息，确定视频的分类结果。特征融合策略只需要实现简单的相邻图像帧之间的信息融合，而不需要像3D卷积同时在空间维度和时间维度上进行卷积，特征融合策略通过简单的其它图像帧的特征信息融合，替换复杂的、重复的3D卷积操作，工作量小，使得最终得到视频的分类结果的时间较短，效率高。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图10，其示出了本申请一个实施例提供的视频分类装置的框图。该装置具有实现上述视频分类方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1000可以包括：视频获取模块1010、图像帧选取模块1020、特征提取模块1030和视频分类模块1040。

视频获取模块1010，用于获取视频。

图像帧选取模块1020，用于从所述视频中选取n个图像帧，所述n为正整数。

特征提取模块1030，用于通过特征提取网络根据学习到的特征融合策略，提取所述n个图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个图像帧中的第一图像帧在融合所述n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例。

视频分类模块1040，用于根据所述n个图像帧各自的特征信息，确定所述视频的分类结果。

在示意性实施例中，所述特征提取网络包括m个级联的网络结构，所述m为正整数；

所述特征提取模块1030，用于：

对于所述第一图像帧，在将所述第一图像帧的第一特征信息输入至所述特征提取网络的第k个网络结构之前，根据所述特征融合策略对所述第一特征信息进行特征融合处理，得到处理后的第一特征信息；其中，所述处理后的第一特征信息中融合有所述第一图像帧以及所述其它图像帧的特征信息，所述k为小于或等于所述m的正整数；

通过所述第k个网络结构对所述处理后的第一特征信息进行处理，生成所述第一图像帧的第二特征信息；

其中，所述第二特征信息为所述特征提取网络输出的所述第一图像帧的特征信息，或者所述特征提取网络生成的所述第一图像帧的中间特征信息。

在示意性实施例中，所述第一特征信息包括c个通道的特征，所述c为正整数；

所述特征提取模块1030，用于：

对于所述第一特征信息中第i个通道的特征，采用学习到的卷积核对所述第一图像帧中所述第i个通道的特征，以及所述其它图像帧中所述第i个通道的特征进行卷积操作，得到所述第一图像帧中所述第i个通道的处理后的特征，所述i为小于或等于所述c的正整数；

根据所述第一图像帧中各个通道的处理后的特征，得到所述处理后的第一特征信息；

其中，所述卷积核用于定义所述第一图像帧中所述第i个通道的特征所对应的特征融合策略。

在示意性实施例中，如图11所示，所述视频分类模块1040，包括：结果获取单元1041和视频分类单元1042。

结果获取单元1041，用于根据所述n个图像帧各自的特征信息，得到所述n个图像帧对应的n个分类结果。

视频分类单元1042，用于根据所述n个分类结果，确定所述视频的分类结果。

在示意性实施例中，所述结果获取单元1041，用于：

对于所述n个图像帧中的第j个图像帧，对所述第j个图像帧的特征信息做降维处理，得到降维后的第j个图像帧的特征信息；

通过n个分类器中的第j个分类器根据所述降维后的第j个图像帧的特征信息，得到所述第j个图像帧对应的分类结果，所述j为小于或等于所述n的正整数。

在示意性实施例中，所述视频分类单元1042，用于：

将所述n个分类结果与所述n个分类结果各自对应的权重乘积之和，确定为所述视频的分类结果。

在示意性实施例中，所述图像帧选取模块1020，用于：

按照预设帧率从所述视频中抽取图像帧，得到视频帧序列；

将所述视频帧序列平均分成n个子序列；

从所述n个子序列中的每一个序列中抽取一个图像帧，得到所述n个图像帧。

请参考图12，其示出了本申请一个实施例提供的视频分类模型的训练装置的框图。该装置具有实现上述视频分类模型的训练方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1200可以包括：数据获取模块1210、图像帧选取模块1220、特征提取模块1230、视频分类模块1240和模型训练模块1250。

数据获取模块1210，用于获取视频分类模型的训练数据，所述训练数据包括至少一个样本视频。

图像帧选取模块1220，用于从所述样本视频中选取n个样本图像帧，所述n为正整数。

特征提取模块1230，用于通过所述视频分类模型中的特征提取网络根据特征融合策略，提取所述n个样本图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个样本图像帧中的第一样本图像帧在融合所述n个样本图像帧中的其它样本图像帧的特征信息时，各个样本图像帧的特征信息所占的比例。

视频分类模块1240，用于根据所述n个样本图像帧各自的特征信息，确定所述样本视频的预测分类结果。

模型训练模块1250，用于根据所述预测分类结果和所述样本视频的标准分类结果，对所述视频分类模型进行训练。

在示意性实施例中，如图13所示，所述模型训练模块1250，包括：函数计算单元1251和策略调整单元1252。

函数计算单元1251，用于根据所述预测分类结果和所述标准分类结果，计算所述视频分类模型对应的损失函数值。

策略调整单元1252，用于根据所述损失函数值调整所述特征融合策略。

在示意性实施例中，所述策略调整单元1252，用于：

根据所述损失函数值调整卷积核的参数，所述卷积核用于定义所述第一样本图像帧中第i个通道的特征所对应的特征融合策略，所述i为正整数。

在示意性实施例中，所述视频分类模型还包括n个分类器；

所述模型训练模块1250，还包括：分类器调整单元1253。

分类器调整单元1253，用于根据所述损失函数值调整所述n个分类器的参数，所述n个分类器中的第h个分类器用于根据所述第一样本图像帧的特征信息，得到所述第一样本图像帧对应的预测分类结果，所述h为小于或等于所述n的正整数。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的计算机设备1400的结构示意图。该计算机设备1400可用于实施上述实施例中提供的方法。该计算机设备1400可以是图1实施例中介绍的终端10或服务器20。具体来讲：

所述计算机设备1400包括中央处理单元(Central Processing Unit，CPU)1401、包括RAM(Random Access Memory，随机存取存储器)1402和ROM(Read-Only Memory，只读存储器)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统， Input/Output系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存(Flash Memory)或其他固态存储其技术，CD-ROM、DVD(Digital Versatile Disc，数字通用光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于实现上述视频分类方法，或实现上述视频分类模型的训练方法。

在示意性实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述视频分类方法，或实现上述视频分类模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述视频分类方法，或实现上述视频分类模型的训练方法。

可选地，上述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述视频分类方法，或实现上述视频分类模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视频分类方法，应用于计算机设备中，所述方法包括：

获取视频；

从所述视频中选取n个图像帧，所述n为正整数；

通过特征提取网络根据学习到的特征融合策略，提取所述n个图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个图像帧中的第一图像帧在融合所述n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例；

根据所述n个图像帧各自的特征信息，确定所述视频的分类结果。
根据权利要求1所述的方法，其中，所述特征提取网络包括m个级联的网络结构，所述m为正整数；

所述通过特征提取网络根据学习到的特征融合策略，提取所述n个图像帧各自的特征信息，包括：

对于所述第一图像帧，在将所述第一图像帧的第一特征信息输入至所述特征提取网络的第k个网络结构之前，根据所述特征融合策略对所述第一特征信息进行特征融合处理，得到处理后的第一特征信息；其中，所述处理后的第一特征信息中融合有所述第一图像帧以及所述其它图像帧的特征信息，所述k为小于或等于所述m的正整数；

通过所述第k个网络结构对所述处理后的第一特征信息进行处理，生成所述第一图像帧的第二特征信息；

其中，所述第二特征信息为所述特征提取网络输出的所述第一图像帧的特征信息，或者所述特征提取网络生成的所述第一图像帧的中间特征信息。
根据权利要求2所述的方法，其中，所述第一特征信息包括c个通道的特征，所述c为正整数；

所述根据所述特征融合策略对所述第一特征信息进行特征融合处理，得到处理后的第一特征信息，包括：

对于所述第一特征信息中第i个通道的特征，采用学习到的卷积核对所述第一图像帧中所述第i个通道的特征，以及所述其它图像帧中所述第i个通道的特征进行卷积操作，得到所述第一图像帧中所述第i个通道的处理后的特征，所述i为小于或等于所述c的正整数；

根据所述第一图像帧中各个通道的处理后的特征，得到所述处理后的第一特征信息；

其中，所述卷积核用于定义所述第一图像帧中所述第i个通道的特征所对应的特征融合策略。
根据权利要求1所述的方法，其中，所述根据所述n个图像帧各自的特征信息，确定所述视频的分类结果，包括：

根据所述n个图像帧各自的特征信息，得到所述n个图像帧对应的n个分类结果；

根据所述n个分类结果，确定所述视频的分类结果。
根据权利要求4所述的方法，其中，所述根据所述n个图像帧各自的特征信息，得到所述n个图像帧对应的n个分类结果，包括：

对于所述n个图像帧中的第j个图像帧，对所述第j个图像帧的特征信息做降维处理，得到降维后的第j个图像帧的特征信息；

通过n个分类器中的第j个分类器根据所述降维后的第j个图像帧的特征信息，得到所述第j个图像帧对应的分类结果，所述j为小于或等于所述n的正整数。
根据权利要求4所述的方法，其中，所述根据所述n个分类结果，确定所述视频的分类结果，包括：

将所述n个分类结果与所述n个分类结果各自对应的权重乘积之和，确定为所述视频的分类结果。
根据权利要求1至6任一项所述的方法，其中，所述从所述视频中选取n个图像帧，包括：

按照预设帧率从所述视频中抽取图像帧，得到视频帧序列；

将所述视频帧序列平均分成n个子序列；

从所述n个子序列中的每一个序列中抽取一个图像帧，得到所述n个图像帧。
一种视频分类模型的训练方法，应用于计算机设备中，所述方法包括：

获取视频分类模型的训练数据，所述训练数据包括至少一个样本视频；

从所述样本视频中选取n个样本图像帧，所述n为正整数；

通过所述视频分类模型中的特征提取网络根据特征融合策略，提取所述n个样本图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个样本图像帧中的第一样本图像帧在融合所述n个样本图像帧中的其它样本图像帧的特征信息时，各个样本图像帧的特征信息所占的比例；

根据所述n个样本图像帧各自的特征信息，确定所述样本视频的预测分类结果；

根据所述预测分类结果和所述样本视频的标准分类结果，对所述视频分类模型进行训练。
根据权利要求8所述的方法，其中，所述根据所述预测分类结果和所述样本视频的标准分类结果，对所述视频分类模型进行训练，包括：

根据所述预测分类结果和所述标准分类结果，计算所述视频分类模型对应的损失函数值；

根据所述损失函数值调整所述特征融合策略。
根据权利要求9所述的方法，其中，所述根据所述损失函数值调整所述特征融合策略，包括：

根据所述损失函数值调整卷积核的参数，所述卷积核用于定义所述第一样本图像帧中第i个通道的特征所对应的特征融合策略，所述i为正整数。
根据权利要求9所述的方法，其中，所述视频分类模型还包括n个分类器；

所述根据所述预测分类结果和所述标准分类结果，计算所述视频分类模型对应的损失函数值之后，还包括：

根据所述损失函数值调整所述n个分类器的参数，所述n个分类器中的第h个分类器用于根据所述第一样本图像帧的特征信息，得到所述第一样本图像帧对应的预测分类结果，所述h为小于或等于所述n的正整数。
一种视频分类装置，所述装置包括：

视频获取模块，用于获取视频；

图像帧选取模块，用于从所述视频中选取n个图像帧，所述n为正整数；

特征提取模块，用于通过特征提取网络根据学习到的特征融合策略，提取所述n个图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个图像帧中的第一图像帧在融合所述n个图像帧中的其它图像帧的特征信息时，各个图像帧的特征信息所占的比例；

视频分类模块，用于根据所述n个图像帧各自的特征信息，确定所述视频的分类结果。
一种视频分类模型的训练装置，所述装置包括：

数据获取模块，用于获取视频分类模型的训练数据，所述训练数据包括至少一个样本视频；

图像帧选取模块，用于从所述样本视频中选取n个样本图像帧，所述n为正整数；

特征提取模块，用于通过所述视频分类模型中的特征提取网络根据特征融合策略，提取所述n个样本图像帧各自的特征信息；其中，所述特征融合策略用于指示所述n个样本图像帧中的第一样本图像帧在融合所述n个样本图像帧中的其它样本图像帧的特征信息时，各个样本图像帧的特征信息所占的比例；

视频分类模块，用于根据所述n个样本图像帧各自的特征信息，确定所述样本视频的预测分类结果；

模型训练模块，用于根据所述预测分类结果和所述样本视频的标准分类结果，对所述视频分类模型进行训练。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的方法，或实现如权利要求8至11任一项所述的方法。
一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的方法，或实现如权利要求8至11任一项所述的方法。