WO2021139307A1

WO2021139307A1 - 视频内容识别方法、装置、存储介质、以及计算机设备

Info

Publication number: WO2021139307A1
Application number: PCT/CN2020/122152
Authority: WO
Inventors: 李岩; 纪彬; 史欣田; 康斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-01-08
Filing date: 2020-10-20
Publication date: 2021-07-15
Also published as: US11983926B2; KR20220038475A; JP2022554068A; EP3998549A1; CN111241985A; JP7286013B2; US20220172477A1; CN111241985B; EP3998549A4

Abstract

一种视频内容识别方法，包括：从目标视频中获取视频帧集，并提取视频帧集对应的图像特征，基于图像特征的多个通道，将图像特征划分为多个图像子特征，基于预设顺序，从多个图像子特征中确定待处理图像子特征，将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征，基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征，基于拼接后图像特征，确定目标视频对应的视频内容。

Description

视频内容识别方法、装置、存储介质、以及计算机设备

本申请要求于2020年01月08日提交中国专利局，申请号为202010016375.2，申请名称为“一种视频内容识别方法、装置、存储介质、以及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及一种视频内容识别方法、装置、存储介质、以及计算机设备。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

其中，随着以视频为载体的信息传播方式越来越流行，各种视频相关的应用也得到了极大的发展，因此，对于视频的相关技术提出了更高的要求，作为视频处理技术中的基础任务，识别视频中的内容得到了越来越多的关注。然而，目前，相关技术是利用大量的卷积操作，建立当前视频帧与远距离视频帧之间的联系，进而识别视频内容，这种视频内容识别方法效率较低。

发明内容

一种视频内容识别方法，由计算机设备执行，包括：

从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征，其中，所述视频帧集包括至少两个视频帧；

基于所述图像特征的多个通道，将所述图像特征划分为多个图像子特征，所述多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征；

基于所述预设顺序，从所述多个图像子特征中确定待处理图像子特征；

将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征；

基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征；及

基于所述拼接后图像特征，确定所述目标视频对应的视频内容。

一种视频内容识别装置，包括：

获取模块，用于从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征，其中，所述视频帧集包括至少两个视频帧；

划分模块，用于基于所述图像特征的多个通道，将所述图像特征划分为多个图像子特征，所述多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征；

确定模块，用于基于所述预设顺序，从所述多个图像子特征中确定待处理图像子特征；

融合模块，用于将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征；

拼接模块，用于基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征；及

内容确定模块，用于基于所述拼接后图像特征，确定所述目标视频对应的视频内容。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述视频内容识别方法的步骤。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行上述视频内容识别方法的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频内容识别系统的场景示意图；

图2是本申请一个实施例提供的视频内容识别方法的流程图；

图3是本申请另一个实施例提供的视频内容识别方法的流程图；

图4是本申请一个实施例提供的混合卷积模型的结构示意图；

图5是本申请一个实施例提供的预测目标视频对应视频内容的流程图；

图6是本申请一个实施例提供的多次信息融合模型的模型结构示意图；

图7是本申请一个实施例提供的多次信息融合子模型的逻辑示意图；

图8是本申请实施例提供的图像特征拆分示意图；

图9是本申请另一个实施例提供的多次信息融合子模型的逻辑示意图；

图10是本申请又一个实施例提供的多次信息融合子模型的逻辑示意图；

图11是本申请一个实施例提供的视频内容识别装置的结构示意图；

图12是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看作为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频内容识别方法，该视频内容识别方法的执行主体可以是本申请实施例提供的视频内容识别装置，或者集成了该视频内容识别装置的计算机设备，其中该视频内容识别装置可以采用硬件或者软件的方式实现。其中，计算机设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。计算机设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。

请参阅图1，图1为本申请实施例提供的视频内容识别方法的应用场景示意图，以视频内容识别装置集成在计算机设备中为例，计算机设备可以从目标视频中获取视频帧集，并提取视频帧集对应的图像特征，其中，视频帧集包括至少两个视频帧，基于图像特征的多个通道，将图像特征划分为多个图像子特征，多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征，基于预设顺序，从多个图像子特征中确定待处理图像子特征，将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征，基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征，基于拼接后图像特征，确定目标视频对应的视频内容。

本申请实施例提供的视频内容识别方法涉及人工智能领域中的计算机视觉方向。本申请实施例可以利用视频行为识别技术，提取目标视频中多个视频帧对应的图像特征，并将该图像特征划分为多个图像子特征，然后对多个图像子特征进行多次卷积处理、以及多次融合处理，以增大图像特征在时间维度的感受野，进而预测出目标视频对应的视频内容。

其中，人工智能(Artificial ITtelligeTce，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，计算机视觉技术(Computer VisioT，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉，并进一步进行图像处理，使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别等技术，还包括常见的人脸识别、人体姿态识别等生物特征识别技术。

请参阅图2，图2为本申请实施例提供的视频内容识别方法的流程示意图，该方法可由计算机设备执行，具体通过如下实施例进行说明：

S201、从目标视频中获取视频帧集，并提取视频帧集对应的图像特征。

其中，在识别某个视频对应的视频内容时，需要对视频中一段时间内的完整信息进行分析，才能够更为准确地判断视频所表达的视频内容。比如，若视频中的人物正在游泳，若仅对视频中单张视频帧进行分析，则只能确定出该视频的视频内容为人物游泳；若从视频中的一段视频时间内，取多张视频帧进行分析，则可以确定出视频中游泳者的泳姿等更为详细的内容信息。因此，在识别视频对应的视频内容时，需要获取视频中的多个视频帧。

在实际应用中，比如，可以将需要识别视频内容的视频A确定为目标视频，由于需要根据目标视频中一段视频时间里的信息，综合判断该目标视频对应的视频内容，因此，可以从视频A中获取至少两个视频帧，并根据获取到的多个视频帧构建视频帧集。

在一实施例中，为了保证从目标视频中获取到的多个视频帧，能够较为完整的还原该目标视频中一段视频时间里的信息，因此，可以将目标视频进行划分，并对每个划分后的目标子视频进行采样，得到多个视频帧。具体地，步骤“从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征”，可以包括：

确定目标视频；

将所述目标视频划分为多个目标子视频；

从每个目标子视频中获取一个视频帧，并基于多个视频帧构建视频帧集；

提取所述视频帧集的特征，得到所述视频帧集对应的图像特征。

在实际应用中，比如，可以将需要识别视频内容的视频A确定为目标视频，并将视频A划分为多个目标子视频，其中，每个目标子视频都是来源于视频A的一个视频片段。然后，从每个目标子视频中都获取一个视频帧，也即每个视频帧都对应一个目标子视频，并根据获取到的多个视频帧构建视频帧集。然后利用卷积操作等特征提取方法，对该视频帧集进行特征提取，并提取得到该视频帧集对应的图像特征，其中，该图像特征中包括每个视频帧对应的特征。

在一实施例中，由于在实际应用过程中，可能仅需要识别目标视频中某个视频片段的视频内容，比如，当目标视频为电影A时，可能仅需要识别电影A中第20分～第25分的视频片段对应的视频内容，此时，可以从目标视频中确定需要进行视频识别的目标视频片段，并将该目标视频片段划分为多个目标子视频，然后进行后续步骤。

在一实施例中，从目标子视频中获取一个视频帧的方法可以有多种，比如，可以通过对目标子视频进行随机采样，得到目标子视频对应的视频帧；又比如，还可以将该目标子视频中第一个视频帧，作为目标子视频对应的视频帧；又比如，还可以根据目标子视频的视频时长，将位于整个目标子视频中间某时刻的一个视频帧，作为目标子视频对应的视频帧，等等。也即只要保证不同的视频帧来自于不同的目标子视频即可。

在一实施例中，为了从时长不定的目标视频中，获取到固定长度的视频帧序列，可以根据需要获取到的视频帧的预设图像数量，对目标视频进行划分。具体地，步骤“将所述目标视频划分为多个目标子视频”，可以包括：

确定预设图像数量；

基于所述预设图像数量、以及所述目标视频的视频时长，确定每个目标子视频对应的子视频时长；

基于所述子视频时长，将所述目标视频划分为多个目标子视频。

在实际应用中，比如，为了从时长不定的目标视频中，获取到固定长度的视频帧序列，因此，可以首先确定需要获取到的视频帧序列的长度，也即确定需要获取到的视频帧的预设图像数量T。若目标视频的视频时长为m分钟，此时，可以确定需要获取到的每个目标子视频对应的子视频时长为

分钟，然后，可以将整个目标视频按照子视频时长，平均划分为T个目标子视频。

在一实施例中，将目标视频划分为多个目标子视频的视频划分方法可以有多种，比如，可以如上所述，根据预设图像数量，将目标视频平均划分为多个时长相同的目标子视频；又比如，还可以首先确定需要获取的目标子视频对应的子视频时长，并根据该子视频时长对目标视频进行划分，此时，视频时长较长的目标视频可以获取到较多个视频帧，而视频时长较短的目标视频可以获取到较少个视频帧，等等。

在实际应用中，比如，可以将需要识别视频内容的视频A确定为目标视频，此时，视频A的视频时长为24s，预设图像数量为8，则可以将视频A平均划分为子视频时长为3s的8个目标子视频，并对每个目标子视频进行随机采样，得到视频帧集，该视频帧集中包括采样得到的8个视频帧。然后可以对视频帧集进行特征提取，得到该视频帧集对应的图像特征。

S202、基于图像特征的多个通道，将图像特征划分为多个图像子特征。

其中，深度学习中特征对应的通道的数量可以表征卷积层中卷积核的数量，比如，输入图像特征包括3个通道，卷积核的数量为10，则利用10个卷积核对输入图像特征进行卷积处理后，可以得到输出图像特征，其中，该输出图像特征包括10个通道，此时输出图像特征中通道的数量与卷积核的数量相同。

在实际应用中，比如，可以利用X表示图像特征，利用[T,C,H,W]表示特征维度大小，其中，T代表时间维度，也即视频帧集中共有T个视频帧；C代表通道数；H和W代表特征的空间维度。若将图像特征划分为4个图像子特征，则每个图像子特征对应的特征维度变为

在一实施例中，多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征。比如，如图8所示，可以从目标视频中提取出视频帧集，该视频帧集中包括8个视频帧，并基于多次卷积操作，获取到该视频帧集对应的图像特征X，该图像特征X中包括8个视频帧对应的特征，并且该图像特征X对应着按照通道1～通道256进行排列的256个通道。那么可以确定需要获取的图像子特征的特征数量为4，然后将图像特征X对应的通道1～通道256平均分为4个部分：通道1～通道64、通道65～通道128、通道129～通道192、以及通道193～通道256，并根据划分结果，得到4个图像子特征：图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4。其中，这4个图像子特征按照预设顺序进行排列，图像子特征X1为通道1～通道64对应的图像子特征、图像子特征X2为通道65～通道128对应的图像子特征、图像子特征X3为通道129～通道192对应的图像子特征、图像子特征X4为通道193～通道256对应的图像子特征。并且，每个图像子特征中都包括8个视频帧对应的特征。其中，需要获取的图像子特征的数量可以根据实际情况进行调整，本申请实施例不对图像子特征的数量进行限制。

S203、基于预设顺序，从多个图像子特征中确定待处理图像子特征。

其中，由于经过卷积处理后的特征，可以增大感受野，也即可以融合更长时间范围的特征，因此，需要从多个图像子特征中，选取出一部分图像子特征作为待处理图像子特征，这些待处理图像子特征需要进行卷积处理，并得到卷积后图像特征。其中，这些卷积后图像特征中都包括视频帧集中所有视频帧对应的特征，且每个视频帧对应的特征中还融合了与相应视频帧相邻的视频帧的特征，也即，卷积后图像特征相比于原始的待处理图像特征而言，增大了感受野，且丰富了特征。

在实际应用中，比如，如图8所示，获取到按顺序排列的图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4之后，可以根据预设顺序，将图像子特征X2、图像子特征X3、以及图像子特征X4，确定为待处理图像子特征。其中，待处理图像子特征可以根据实际应用的需要进行调整，比如，当预设顺序不同时，从多个图像子特征中确定出的待处理图像子特征也会不同。

S204、将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征。

其中，一次卷积处理只能起到增大有限倍数感受野的效果，比如，若初始特征中包括按顺序排列的图像1的特征、图像2的特征、以及图像3的特征，且一维卷积中卷积核的尺寸为3，则初始特征经过该卷积核的卷积处理后，可以得到处理后特征，该处理后特征中包括3张图像对应的特征，但是针对处理后特征里图像2对应的特征而言，此时的特征中还融合了图像1的特征和图像3的特征，相对于初始特征而言，处理后特征在时间维度的感受野变大，但是也仅能达到融合相邻两张图像的特征的效果。

因此，如果需要利用传统的方法融合长时间范围内的信息，则需要使用深度神经网络，堆叠多个卷积。但是这种方法会存在优化问题，在深度神经网络中，一个视频帧需要经过大量的局部卷积操作，才可以建立与远距离视频帧之间的联系，因此，无论是将当前视频帧的信息传递到远距离视频帧，还是远距离视频帧将信号反馈给当前视频帧，都需要经历长距离的信号传递过程，而有效的信息在信息传递过程中很容易被削弱，并导致在远距离的两个视频帧之间无法建立有效的时间联系。

因此，可以利用一种特征融合的机制，将已经增大感受野的特征融合至当前需要进行卷积处理的待处理图像子特征中，使得在卷积处理之前，就已经增加了当前待处理图像子特征的感受野，然后再利用卷积处理使得特征的感受野再一次增加，并将再一次增加感受野的特征融合至下一次需要进行卷积处理的待处理图像子特征中，这样循环下去，可以使得特征对应的时间维度的感受野连续增加，最后达到融合更长时间范围特征的目的。

在一实施例中，步骤“将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征”，可以包括：

基于所述预设顺序，从多个待处理图像子特征中，确定初始待处理图像子特征；

对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征；

基于所述预设顺序、以及所述初始待处理图像子特征，从所述多个待处理图像子特征中，确定当前待处理图像子特征；

将所述当前待处理图像子特征与所述卷积后图像特征进行融合，得到融合后图像特征；

将所述融合后图像特征更新为初始待处理图像子特征；

返回执行对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征的步骤，直至得到每个待处理图像子特征对应的卷积后图像特征。

在实际应用中，比如，如图9所示，已经从按顺序排列的图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4中，确定出多个待处理图像子特征：图像子特征X2、图像子特征X3、以及图像子特征X4。可以根据预设顺序，将图像子特征X2确定为初始待处理图像子特征，并对图像子特征X2进行卷积处理，得到图像子特征X2对应的卷积后图像特征

对图像子特征X2处理完毕后，可以将图像子特征X3确定为当前待处理图像子特征，并利用与残差连接类似的连接方式，将图像子特征X2对应的卷积后图像特征

以及图像子特征X3进行加法融合，得到图像子特征X3对应的融合后图像特征，然后对图像子特征X3对应的融合后图像特征进行卷积处理，得到图像子特征X3对应的卷积后图像特征

对图像子特征X3处理完毕后，可以将图像子特征X4确定为当前待处理图像子特征，并利用与残差连接类似的连接方式，将图像子特征X3对应的卷积后图像特征

以及图像子特征X4进行加法融合，得到图像子特征X4对应的融合后图像特征，然后对图像子特征X4对应的融合后图像特征进行卷积处理，得到图像子特征X4对应的卷积后图像特征

此时，所有的待处理图像子特征都已经进行卷积处理，并得到每个待处理图像子特征对应的卷积后图像特征，说明循环的步骤可以结束。

其中，若视频帧集中包括T个视频帧，则每个图像子特征中都包括T个视频帧所对应的特征，此处以第4个视频帧(视频帧4)为例进行说明，如图10所示，也即图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4中都包括视频帧4所对应的特征，对图像子特征X2进行卷积处理后，图像子特征X2对应的卷积后图像特征

中，视频帧4的特征会融合视频帧3、以及视频帧5的特征，此时图像子特征X2对应卷积后图像特征

的感受野增大了一次。

将图像子特征X2对应的卷积后图像特征

以及图像子特征X3进行加法融合，并对图像子特征X3对应的融合后图像特征进行卷积处理后，图像子特征X3对应的卷积后图像特征

中，视频帧4的特征会融合视频帧2、视频帧3、视频帧5、以及视频帧6的特征，此时图像子特征X3对应卷积后图像特征

的感受野增大了两次。

将图像子特征X3对应的卷积后图像特征

以及图像子特征X4进行加法融合，并对图像子特征X4对应的融合后图像特征进行卷积处理后，图像子特征X4对应的卷积后图像特征

中，视频帧4的特征会融合视频帧1、视频帧 2、视频帧3、视频帧5、视频帧6、以及视频帧7的特征，此时图像子特征X4对应卷积后图像特征

的感受野增大了三次，则该特征可以有效地与远距离的视频帧建立联系。

在一实施例中，可以利用混合卷积模型，对特征进行卷积处理，以达到增大感受野的目的。具体地，步骤“对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征”，可以包括：

确定初始混合卷积模型；

基于所述图像特征的多个通道，将所述初始混合卷积模型划分为多个混合卷积模型；

基于所述混合卷积模型，对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征。

其中，初始混合卷积模型可以为(2+1)D卷积模型，该(2+1)D卷积模型中可以包括两部分，分别为一维卷积子模型、以及二维卷积子模型。比如，初始混合卷积模型中可以包括时间维度上的一维卷积子模型，该一维卷积子模型的卷积核尺寸为3、以及空间维度上的二维卷积子模型，该二维卷积子模型的卷积核尺寸为3x3。利用(2+1)D卷积模型进行卷积处理，既能够实现对于时间特征的建模，又能够避免高昂的计算。

在实际应用中，比如，可以确定初始混合卷积模型，该初始混合卷积模型包括时间维度上的一维卷积子模型，一维卷积子模型的卷积核尺寸为3、以及空间维度上的二维卷积子模型，二维卷积子模型的卷积核尺寸为3x3。由于图像特征已经根据多个通道，划分为了多个图像子特征，因此，相应地，初始混合卷积模型也需要根据多个通道，划分为多个混合卷积模型，也即对初始混合卷积模型进行卷积分组，得到多个混合卷积模型。其中，由于卷积分组后卷积核尺寸不发生变化，因此，如图4所示，该混合卷积模型包括时间维度上的一维卷积子模型，一维卷积子模型的卷积核尺寸为3、以及空间维度上的二维卷积子模型，二维卷积子模型的卷积核尺寸为3x3。

其中，初始混合卷积模型中的一维卷积子模型，卷积核尺寸为3，该初始混合卷积模型针对通道数为C的图像特征时，参数量大小为CxCx3；初始混合卷积模型中的二维卷积子模型，卷积核尺寸为3x3，该初始混合卷积模型针对通道数为C的图像特征时，参数量大小为CxCx3x3。由于卷积分组不改变卷积核的尺寸，因此，混合卷积模型中的一维卷积子模型，卷积核尺寸依然为3，但是，由于混合卷积模型针对的是通道数为

的图像子特征，因此，参数量大小为

混合卷积模型中的二维卷积子模型，卷积核尺寸依然为3x3，但是，由于混合卷积模型针对的是通道数为

的图像子特征，因此，参数量大小为

获取到划分后的混合卷积模型后，可以利用该混合卷积模型，对初始待处理图像子特征进行卷积处理，得到卷积后图像特征。

在一实施例中，获取到混合卷积模型后，就可以利用一维卷积子模型、以及二维卷积子模型，分别对特征进行卷积处理。具体地，步骤“基于所述混合卷积模型，对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征”，可以包括：

基于所述一维卷积子模型，在时间维度上对所述初始待处理图像子特征进行卷积处理，得到时间卷积后图像特征；

基于所述二维卷积子模型，在空间维度上对所述时间卷积后图像特征进行卷积处理，得到卷积后图像特征。

在实际应用中，比如，初始待处理图像子特征为图像子特征X2，且特征维度大小为

可以将特征维度从

重组为

然后利用卷积核尺寸为3的一维卷积子模型，处理图像子特征X2的时间维度T，得到时间卷积后图像特征，其中，卷积算子的参数量为

这一过程中，图像子特征X2的空间信息被忽略，可以看作图像子特征X2总共包含T帧的特征信息，且每一帧的特征维度为

其中，在时间维度上利用尺寸为3的卷积核进行卷积处理，相当于针对视频帧t，与和自己相邻的视频帧t-1、以及视频帧t+1进行信息融合。

然后，时间卷积后图像特征的特征维度从

重组为

并利用卷积核尺寸为3x3的二维卷积子模型，处理时间卷积后图像特征的空间维度(H,W)，得到卷积后图像特征，其中，卷积算子的参数量为

在这一过程中，时间卷积后图像特征的时间信息被忽略，可以看作时间卷积后图像特征包括HxW个像素点的特征，且每个像素点特征的维度是

在这一过程中，空间维度上的每个像素点，都与相邻3x3空间区域内的像素点进行空间特征融合。最后，可以将特征维度从

恢复为

并得到卷积后图像特征。

其中，利用初始混合卷积模型中的一维卷积子模型，进行一次卷积操作的参数量为CxCx3，但是利用混合卷积模型中的一维卷积子模型，进行一次卷积操作的参数量为

因此，本申请实施例中进行三次卷积操作的参数量总和为

与直接应用初始混合卷积模型相比，参数量反而减少了，但是却能融和更长时间范围的特征，更加完整地对视频的时间信息进行考虑并作出判断。

在一实施例中，比如，在进行卷积处理的过程中，可以根据实际应用情况，对卷积核的尺寸进行调整。又比如，在进行卷积处理的过程中，还可以使得多个待处理图像子特征对应的卷积核的尺寸不同，也即针对不同的待处理图像子特征，可以利用不同尺寸的卷积核进行卷积处理，以综合考虑不同时间尺度上的建模能力。

S205、基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征。

在实际应用中，比如，获取到每个待处理图像子特征对应的卷积后图像特征之后，可以根据通道，将多个卷积后图像特征拼接起来，并得到拼接后图像特征。

在一实施例中，由于希望获取到更为准确的特征，因此，还可以从多个图像子特征中确定出需要保留的原始图像子特征，使得最终获取到的拼接后图像中能够保留未经处理的特征。具体地，步骤“基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征”，可以包括：

基于所述预设顺序，从所述多个图像子特征中确定保留的原始图像子特征；

基于所述卷积后图像特征的多个通道，对多个卷积后图像特征、以及所述原始图像子特征进行拼接，得到拼接后图像特征。

在实际应用中，比如，如图9所示，可以从按顺序排列的图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4中，将图像子特征X1确定为需要保留的原始图像子特征。并将获取到的图像子特征X2对应的卷积后图像特征

图像子特征X3对应的卷积后图像特征

图像子特征X4对应的卷积后图像特征

以及图像子特征X1(也即

)进行拼接，得到拼接后图像特征X ⁰。其中，进行拼接的每个特征的感受野都不相同，图像子特征X1由于没有经过卷积处理，因此感受野没有增加；图像子特征X2经过一次卷积处理，感受野增加了一次；图像子特征X3经过两次卷积处理，感受野增加了两次；图像子特征X4经过三次卷积处理，感受野增加了三次。

在一实施例中，可以利用多次信息融合模型完成根据图像特征获取到拼接后图像特征的步骤，其中，如图6所示，多次信息融合模型中包括多次信息融合子模型、以及两个卷积核尺寸为1×1的二维卷积层，多次信息融合子模型可以实现上述：将基于图像特征的多个通道，将图像特征划分为多个图像子特征，基于预设顺序，从多个图像子特征中确定待处理图像子特征，将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征，基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征的步骤。

也即，将图像特征输入至时间信息融合模块中，即可得到输出的拼接后图像特征。其中，如图5所示，本申请实施例还可以堆叠多个多次信息融合模块(Multiple Temporal Aggregation，MTA)，以实现更强、更稳定的长时间信息建模能力。

在一实施例中，本申请实施例还可以包括对多次信息融合模块的训练过程，比如，作为训练样本的目标样本视频，所对应的图像特征可以表示为X’，其特征维度大小为[N,T’,C’,H’,W’]，其中，N代表训练时一个训练批次中batch的尺寸大小，T’代表时间维度，也即视频帧集中共有T’个视频帧；C’代表通道数；H’和W’代表特征的空间维度。可以将图像特征X’输入至未经训练的多次信息融合模块中，预测得到目标样本视频的预测视频内容，并基于已知的目标样本视频的实际视频内容，对未经训练的多次信息融合模块进行训练，得到多次信息融合模块。其中，整个训练过程是端到端的，多次信息融合模块的训练和视频时空特征的学习一同进行。

S206、基于拼接后图像特征，确定目标视频对应的视频内容。

在实际应用中，比如，本申请实施例的目的是识别出目标视频对应的视频内容，因此，获取到拼接后图像特征后，可以继续对该拼接后图像特征进行处理，并预测得到视频帧集中每个视频帧对应的预测分数，然后利用时间平均策略对多个视频中的预测分数进行平均，并得到对整个目标视频的最终预测。

在一实施例中，具体地，步骤“基于所述拼接后图像特征，确定所述目标视频对应的视频内容”，可以包括：

基于所述拼接后图像特征，预测得到视频帧集中每个视频帧对应的内容预测概率；

对多个视频帧对应的内容预测概率进行融合，得到所述目标视频对应的视频内容预测概率；

基于所述视频内容预测概率，确定所述目标视频对应的视频内容。

在实际应用中，比如，如图5所示，可以根据拼接后图像特征，对视频帧集中每个视频帧对应的内容预测概率进行预测，其中，根据视频帧对应的内容预测概率可以得知，该视频帧中描述每种视频内容的可能性。然后利用时间平均策略对多个视频帧对应的内容预测概率进行融合，并得到目标视频对应的视频内容预测概率。然后，根据该视频内容预测概率，可以相应地构建柱状图，并将其中概率最大的视频内容，确定为目标视频对应的视频内容“仰泳”。

在实际应用中，由于本申请实施例的视频内容识别方法，可以获取到融合了长时间范围特征的拼接后图像特征，因此，可以作为一种基础视频理解技术，利用融合了长时间范围特征的拼接后图像特征，进行后续的排重、个性化推荐等工作。又由于本申请实施例的视频内容识别方法，还可以识别出目标视频的视频内容，因此，还可以应用于特定的视频应用场景，比如，可以应用在审核和过滤包括涉政、暴力、色情等类别视频的场景中。

由上可知，本申请实施例可以从目标视频中获取视频帧集，并提取视频帧集对应的图像特征，其中，视频帧集包括至少两个视频帧，基于图像特征的多个通道，将图像特征划分为多个图像子特征，多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征，基于预设顺序，从多个图像子特征中确定待处理图像子特征，将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征，基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征，基于拼接后图像特征，确定目标视频对应的视频内容。该方案可以通过将一个初始混合卷积模型拆分为多个混合卷积模型，同时在两两混合卷积模型之间加入残差连接形式的连接，使得多个混合卷积模型构成一种层次化的结构。视频特征就会通过多次卷积处理，增加时间维度上的感受野，且每一帧的视频特征都可以有效地与远距离的视频帧之间建立联系。同时，这种方法还不会增加额外的参数，也不会增加复杂的计算，从而能够提升视频内容识别的效率。

根据前面实施例所描述的方法，以下将以该视频内容识别装置具体集成在网络设备举例作进一步详细说明。

参考图3，本申请实施例的视频内容识别方法的具体流程可以如下：

S301、网络设备从目标视频中获取T个视频帧。

在实际应用中，比如，如图5所示，网络设备可以采用稀疏采样，将目标视频平均分为T个目标子视频。然后，从每个目标子视频中随机采样，得到每个目标子视频对应的视频帧，使得时长不定的目标视频，转变为了固定长度的视频帧序列。

S302、网络设备提取该T个视频帧对应的图像特征X。

在实际应用中，比如，网络设备可以利用若干次卷积等特征提取方式，提取该T个视频帧对应的图像特征X，图像特征X中包括每个视频帧对应的特征信息。其中，可以利用[T,C,H,W]表示特征维度大小，T代表时间维度，也即共有T个视频帧；C代表通道数；H和W代表特征的空间维度。

S303、网络设备基于图像特征X的多个通道，将图像特征X拆分为图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4。

在实际应用中，比如，如图7所示，网络设备可以根据图像特征X的多个通道，将图像特征X划分为4个图像子特征：图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4，其中，每个图像子特征对应的特征维度变为

并且，可以确定初始混合卷积模块，该初始混合卷积模型包括时间维度上的一维卷积子模型，以及空间维度上的二维卷积子模型。由于图像特征已经根据多个通道，划分为了多个图像子特征，因此，相应地，初始混合卷积模型也需要根据多个通道，划分为多个混合卷积模型。

的图像子特征，因此，参数量大小为

S304、网络设备对图像子特征X2进行卷积处理，得到图像子特征X2对应的卷积后图像特征。

在实际应用中，比如，如图7所示，图像子特征X2的特征维度大小为

网络设备可以将特征维度从

重组为

然后，时间卷积后图像特征的特征维度从

重组为

最后，可以将特征维度从

恢复为

并得到图像子特征X2对应的卷积后图像特征

S305、网络设备将图像子特征X2对应的卷积后图像特征、以及图像子特征X3进行加法融合，得到图像子特征X3对应的融合后图像特征。

S306、网络设备对图像子特征X3对应的融合后图像特征进行卷积处理，得到图像子特征X3对应的卷积后图像特征。

S307、网络设备将图像子特征X3对应的卷积后图像特征、以及图像子特征X4进行加法融合，得到图像子特征X4对应的融合后图像特征。

S308、网络设备对图像子特征X4对应的融合后图像特征进行卷积处理，得到图像子特征X4对应的卷积后图像特征。

S309、网络设备基于卷积后图像特征的多个通道，对多个卷积后图像特征、以及图像子特征X1进行拼接，得到拼接后图像特征。

在实际应用中，比如，如图7所示，网络设备可以根据卷积后图像特征的多个通道，将图像子特征X2对应的卷积后图像特征

图像子特征X3对应的卷积后图像特征

图像子特征X4对应的卷积后图像特征

以及图像子特征X1(也即

)进行拼接，得到拼接后图像特征X ⁰。然后，应用堆叠的多个多次信息融合模块继续对特征进行处理，以实现更强、更为稳定的长时信息建模能力。

S310、网络设备基于拼接后图像特征，确定目标视频对应的视频内容。

在实际应用中，比如，网络设备可以根据拼接后图像特征，对T个视频帧对应的内容预测概率进行预测。然后利用时间平均策略对T个视频帧对应的内容预测概率进行融合，并得到目标视频对应的视频内容预测概率。然后，根据该视频内容预测概率，可以相应地构建柱状图，并将其中概率最大的视频内容，确定为目标视频对应的视频内容。

由上可知，本申请实施例可以通过网络设备从目标视频中获取T个视频帧，提取该T个视频帧对应的图像特征X，基于图像特征X的多个通道，将图像特征X拆分为图像子特征X1、图像子特征X2、图像子特征X3、以及图像子特征X4，对图像子特征X2进行卷积处理，得到图像子特征X2对应的卷积后图像特征，将图像子特征X2对应的卷积后图像特征、以及图像子特征X3进行加法融合，得到图像子特征X3对应的融合后图像特征，对图像子特征X3对应的融合后图像特征进行卷积处理，得到图像子特征X3对应的卷积后图像特征，将图像子特征X3对应的卷积后图像特征、以及图像子特征X4进行加法融合，得到图像子特征X4对应的融合后图像特征，对图像子特征X4对应的融合后图像特征进行卷积处理，得到图像子特征X4对应的卷积后图像特征，基于卷积后图像特征的多个通道，对多个卷积后图像特征、以及图像子特征X1进行拼接，得到拼接后图像特征，基于拼接后图像特征，确定目标视频对应的视频内容。该方案可以通过将一个初始混合卷积模型拆分为多个混合卷积模型，同时在两两混合卷积模型之间加入残差连接形式的连接，使得多个混合卷积模型构成一种层次化的结构。视频特征就会通过多次卷积处理，增加时间维度上的感受野，且每一帧的视频特征都可以有效地与远距离的视频帧之间建立联系。同时，这种方法还不会增加额外的参数，也不会增加复杂的计算，从而能够提升视频内容识别的效率。

为了更好地实施以上方法，本申请实施例还可以提供一种视频内容识别装置，该视频内容识别装置具体可以集成在计算机设备中，该计算机设备可以包括服务器、终端等，其中，终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，PersoTal Computer)等。

例如，如图11所示，该视频内容识别装置可以包括获取模块111、划分模块112、确定模块113、融合模块114、拼接模块115和内容确定模块116，如下：

获取模块111，用于从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征，其中，所述视频帧集包括至少两个视频帧；

划分模块112，用于基于所述图像特征的多个通道，将所述图像特征划分为多个图像子特征，所述多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征；

确定模块113，用于基于所述预设顺序，从所述多个图像子特征中确定待处理图像子特征；

融合模块114，用于将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征；

拼接模块115，用于基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征；

内容确定模块116，用于基于所述拼接后图像特征，确定所述目标视频对应的视频内容。

在一实施例中，所述融合模块114可以包括第一确定子模块、卷积子模块、第二确定子模块、融合子模块、更新子模块和返回子模块，如下：

第一确定子模块，用于基于所述预设顺序，从多个待处理图像子特征中，确定初始待处理图像子特征；

卷积子模块，用于对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征；

第二确定子模块，用于基于所述预设顺序、以及所述初始待处理图像子特征，从所述多个待处理图像子特征中，确定当前待处理图像子特征；

融合子模块，用于将所述当前待处理图像子特征与所述卷积后图像特征进行融合，得到融合后图像特征；

更新子模块，用于将所述融合后图像特征更新为初始待处理图像子特征；

返回子模块，用于返回执行对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征的步骤，直至得到每个待处理图像子特征对应的卷积后图像特征。

在一实施例中，所述拼接模块115可以具体用于：

在一实施例中，所述获取模块111可以包括第三确定子模块、划分子模块、构建子模块和提取子模块，如下：

第三确定子模块，用于确定目标视频；

划分子模块，用于将所述目标视频划分为多个目标子视频；

构建子模块，用于从每个目标子视频中获取一个视频帧，并基于多个视频帧构建视频帧集；

提取子模块，用于提取所述视频帧集的特征，得到所述视频帧集对应的图像特征。

在一实施例中，所述划分子模块可以具体用于：

确定预设图像数量；

在一实施例中，所述卷积子模块可以包括第四确定子模块、模型划分子模块和卷积处理子模块，如下：

第四确定子模块，用于确定初始混合卷积模型；

模型划分子模块，用于基于所述图像特征的多个通道，将所述初始混合卷积模型划分为多个混合卷积模型；

卷积处理子模块，用于基于所述混合卷积模型，对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征。

在一实施例中，所述卷积处理子模块可以具体用于：

在一实施例中，所述内容确定模块116可以具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例可以通过获取模块111从目标视频中获取视频帧集，并提取视频帧集对应的图像特征，其中，视频帧集包括至少两个视频帧，通过划分模块112基于图像特征的多个通道，将图像特征划分为多个图像子特征，多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征，通过确定模块113基于预设顺序，从多个图像子特征中确定待处理图像子特征，通过融合模块114将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征，通过拼接模块115基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征，通过内容确定模块116基于拼接后图像特征，确定目标视频对应的视频内容。该方案可以通过将一个初始混合卷积模型拆分为多个混合卷积模型，同时在两两混合卷积模型之间加入残差连接形式的连接，使得多个混合卷积模型构成一种层次化的结构。视频特征就会通过多次卷积处理，增加时间维度上的感受野，且每一帧的视频特征都可以有效地与远距离的视频帧之间建立联系。同时，这种方法还不会增加额外的参数，也不会增加复杂的计算，从而能够提升视频内容识别的效率。

本申请实施例还提供一种计算机设备，该计算机设备可以集成本申请实施例所提供的任一种视频内容识别装置。

例如，如图12所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器121、一个或一个以上计算机可读存储介质的存储器122、电源123和输入单元124等部件。本领域技术人员可以理解，图12中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器121是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器122内的计算机可读指令和/或模块，以及调用存储在存储器122内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器121可包括一个或多个处理核心；优选的，处理器121可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器121中。

存储器122可用于存储计算机可读指令以及模块，处理器121通过运行存储在存储器122的计算机可读指令以及模块，从而执行各种功能应用以及数据处理。存储器122可主要包括存储计算机可读指令区和存储数据区，其中，存储计算机可读指令区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器122可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器122还可以包括存储器控制器，以提供处理器121对存储器122的访问。

计算机设备还包括给各个部件供电的电源123，优选的，电源123可以通过电源管理系统与处理器121逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源123还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元124，该输入单元124可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器121会按照如下的计算机可读指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器122中，并由处理器121来运行存储在存储器122中的应用程序，从而实现各种功能，如下：

从目标视频中获取视频帧集，并提取视频帧集对应的图像特征，其中，视频帧集包括至少两个视频帧，基于图像特征的多个通道，将图像特征划分为多个图像子特征，多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征，基于预设顺序，从多个图像子特征中确定待处理图像子特征，将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征，基于卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征，基于拼接后图像特征，确定目标视频对应的视频内容。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机可读指令来完成，或通过计算机可读指令控制相关的硬件来完成，该计算机可读指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机设备，其中存储有多条计算机可读指令，该计算机可读指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频内容识别方法中的步骤。例如，该计算机可读指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read OTly Memory)、随机存取记忆体(RAM，RaTdom Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频内容识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频内容识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序计算机可读指令，计算机程序计算机可读指令被处理器执行时，使得处理器执行上述区块链网络中的数据处理方法的步骤。此处区块链网络中的数据处理方法的步骤可以是上述各个实施例的区块链网络中的数据处理方法中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机可读指令，该计算机程序产品或计算机可读指令包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各方法实施例中的步骤。

以上对本申请实施例所提供的一种视频内容识别方法、装置、存储介质、以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种视频内容识别方法，由计算机设备执行，所述方法包括：

从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征，其中，所述视频帧集包括至少两个视频帧；

基于所述图像特征的多个通道，将所述图像特征划分为多个图像子特征，所述多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征；

基于所述预设顺序，从所述多个图像子特征中确定待处理图像子特征；

将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征；

基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征；及

基于所述拼接后图像特征，确定所述目标视频对应的视频内容。
根据权利要求1所述的视频内容识别方法，其特征在于，所述将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征包括：

基于所述预设顺序，从多个待处理图像子特征中，确定初始待处理图像子特征；

对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征；

基于所述预设顺序、以及所述初始待处理图像子特征，从所述多个待处理图像子特征中，确定当前待处理图像子特征；

将所述当前待处理图像子特征与所述卷积后图像特征进行融合，得到融合后图像特征；

将所述融合后图像特征更新为初始待处理图像子特征；及

返回执行所述对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征的步骤，直至得到每个待处理图像子特征对应的卷积后图像特征。
根据权利要求1所述的视频内容识别方法，其特征在于，所述基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征包括：

基于所述预设顺序，从所述多个图像子特征中确定保留的原始图像子特征；及

基于所述卷积后图像特征的多个通道，对多个卷积后图像特征、以及所述原始图像子特征进行拼接，得到拼接后图像特征。
根据权利要求1所述的视频内容识别方法，其特征在于，所述从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征包括：

确定目标视频；

将所述目标视频划分为多个目标子视频；

从每个目标子视频中获取一个视频帧，并基于多个视频帧构建视频帧集；及

提取所述视频帧集的特征，得到所述视频帧集对应的图像特征。
根据权利要求4所述的视频内容识别方法，其特征在于，所述将所述目标视频划分为多个目标子视频包括：

确定预设图像数量；

基于所述预设图像数量、以及所述目标视频的视频时长，确定每个目标子视频对应的子视频时长；及

基于所述子视频时长，将所述目标视频划分为多个目标子视频。
根据权利要求2所述的视频内容识别方法，其特征在于，所述对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征包括：

确定初始混合卷积模型；

基于所述图像特征的多个通道，将所述初始混合卷积模型划分为多个混合卷积模型；及

基于所述混合卷积模型，对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征。
根据权利要求6所述的视频内容识别方法，其特征在于，所述混合卷积模型中包括一维卷积子模型、以及二维卷积子模型；

所述基于所述混合卷积模型，对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征包括：

基于所述一维卷积子模型，在时间维度上对所述初始待处理图像子特征进行卷积处理，得到时间卷积后图像特征；及

基于所述二维卷积子模型，在空间维度上对所述时间卷积后图像特征进行卷积处理，得到卷积后图像特征。
根据权利要求1所述的视频内容识别方法，其特征在于，所述基于所述拼接后图像特征，确定所述目标视频对应的视频内容包括：

基于所述拼接后图像特征，预测得到视频帧集中每个视频帧对应的内容预测概率；

对多个视频帧对应的内容预测概率进行融合，得到所述目标视频对应的视频内容预测概率；及

基于所述视频内容预测概率，确定所述目标视频对应的视频内容。
一种视频内容识别装置，包括：

获取模块，用于从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征，其中，所述视频帧集包括至少两个视频帧；

划分模块，用于基于所述图像特征的多个通道，将所述图像特征划分为多个图像子特征，所述多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征；

确定模块，用于基于所述预设顺序，从所述多个图像子特征中确定待处理图像子特征；

融合模块，用于将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征；

拼接模块，用于基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征；及

内容确定模块，用于基于所述拼接后图像特征，确定所述目标视频对应的视频内容。
根据权利要求9所述的视频内容识别装置，其特征在于，所述融合模块包括第一确定子模块、卷积子模块、第二确定子模块、融合子模块、更新子模块和返回子模块，其中：

所述第一确定子模块，用于基于所述预设顺序，从多个待处理图像子特征中，确定初始待处理图像子特征；

所述卷积子模块，用于对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征；

所述第二确定子模块，用于基于所述预设顺序、以及所述初始待处理图像子特征，从所述多个待处理图像子特征中，确定当前待处理图像子特征；

所述融合子模块，用于将所述当前待处理图像子特征与所述卷积后图像特征进行融合，得到融合后图像特征；

所述更新子模块，用于将所述融合后图像特征更新为初始待处理图像子特征；

所述返回子模块，用于返回执行对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征的步骤，直至得到每个待处理图像子特征对应的卷积后图像特征。
根据权利要求9所述的视频内容识别装置，其特征在于，所述拼接模块，具体用于基于所述预设顺序，从所述多个图像子特征中确定保留的原始图像子特征，基于所述卷积后图像特征的多个通道，对多个卷积后图像特征、以及所述原始图像子特征进行拼接，得到拼接后图像特征。
根据权利要求9所述的视频内容识别装置，其特征在于，所述获取模块包括第三确定子模块、划分子模块、构建子模块和提取子模块，其中：

所述第三确定子模块，用于确定目标视频；

所述划分子模块，用于将所述目标视频划分为多个目标子视频；

所述构建子模块，用于从每个目标子视频中获取一个视频帧，并基于多个视频帧构建视频帧集；

所述提取子模块，用于提取所述视频帧集的特征，得到所述视频帧集对应的图像特征。
根据权利要求12所述的视频内容识别装置，其特征在于，所述划分子模块，具体用于确定预设图像数量，基于所述预设图像数量、以及所述目标视频的视频时长，确定每个目标子视频对应的子视频时长，基于所述子视频时长，将所述目标视频划分为多个目标子视频。
根据权利要求10所述的视频内容识别装置，其特征在于，所述卷积子模块包括第四确定子模块、模型划分子模块和卷积处理子模块，其中：

所述第四确定子模块，用于确定初始混合卷积模型；

所述模型划分子模块，用于基于所述图像特征的多个通道，将所述初始混合卷积模型划分为多个混合卷积模型；

所述卷积处理子模块，用于基于所述混合卷积模型，对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征。
根据权利要求14所述的视频内容识别装置，其特征在于，所述卷积处理子模块，具体用于基于所述一维卷积子模型，在时间维度上对所述初始待处理图像子特征进行卷积处理，得到时间卷积后图像特征，基于所述二维卷积子模型，在空间维度上对所述时间卷积后图像特征进行卷积处理，得到卷积后图像特征。
根据权利要求9所述的视频内容识别装置，其特征在于，所述内容确定模块，具体用于基于所述拼接后图像特征，预测得到视频帧集中每个视频帧对应的内容预测概率，对多个视频帧对应的内容预测概率进行融合，得到所述目标视频对应的视频内容预测概率，基于所述视频内容预测概率，确定所述目标视频对应的视频内容。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

从目标视频中获取视频帧集，并提取所述视频帧集对应的图像特征，其中，所述视频帧集包括至少两个视频帧；

基于所述图像特征的多个通道，将所述图像特征划分为多个图像子特征，所述多个图像子特征按照预设顺序进行排列，且每个图像子特征包括每个视频帧在相应通道上的特征；

基于所述预设顺序，从所述多个图像子特征中确定待处理图像子特征；

将当前待处理图像子特征与上一个图像子特征的卷积处理结果进行融合，并对融合后图像特征进行卷积处理，得到每个待处理图像子特征对应的卷积后图像特征；

基于所述卷积后图像特征的多个通道，对多个卷积后图像特征进行拼接，得到拼接后图像特征；及

基于所述拼接后图像特征，确定所述目标视频对应的视频内容。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

基于所述预设顺序，从多个待处理图像子特征中，确定初始待处理图像子特征；

对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征；

基于所述预设顺序、以及所述初始待处理图像子特征，从所述多个待处理图像子特征中，确定当前待处理图像子特征；

将所述当前待处理图像子特征与所述卷积后图像特征进行融合，得到融合后图像特征；

将所述融合后图像特征更新为初始待处理图像子特征；及

返回执行所述对所述初始待处理图像子特征进行卷积处理，得到卷积后图像特征的步骤，直至得到每个待处理图像子特征对应的卷积后图像特征。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

基于所述预设顺序，从所述多个图像子特征中确定保留的原始图像子特征；及

基于所述卷积后图像特征的多个通道，对多个卷积后图像特征、以及所述原始图像子特征进行拼接，得到拼接后图像特征。
一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行如权利要求1至8中任一项所述方法的步骤。