WO2022247344A1

WO2022247344A1 - 视频识别模型训练方法、装置、设备以及存储介质

Info

Publication number: WO2022247344A1
Application number: PCT/CN2022/075153
Authority: WO
Inventors: 吴文灏; 赵禹翔
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-05-28
Filing date: 2022-01-30
Publication date: 2022-12-01
Also published as: CN113326767A; JP7417759B2; JP2023531132A; US20230069197A1

Abstract

本公开提供了一种视频识别模型训练方法、装置、设备、存储介质以及程序产品，涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于视频分析场景下。该方法的一具体实施方式包括：将样本视频划分成多个样本视频片段；从样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息；利用动态片段融合模块对特征信息进行卷积融合，得到融合特征信息，其中，动态片段融合模块的卷积核随视频输入的不同而变化；将融合特征信息输入至全连接层，得到样本视频的预测类别；基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。该实施方式提高了视频识别模型的识别精度。

Description

视频识别模型训练方法、装置、设备以及存储介质

本专利申请要求于2021年5月28日提交的、申请号为202110589375.6、发明名称为“视频识别模型训练方法、装置、设备以及存储介质”的中国专利申请的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本公开涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于视频分析场景下。

背景技术

视频识别，即输入一段视频根据视频内容对其进行分类。视频识别是计算机视觉社区中最活跃的研究主题之一。评估视频识别方法的两个最重要方面是分类准确性和推理成本。最近视频识别已经在识别精度上取得了巨大的成功，但是由于庞大的计算成本，它仍然是一项具有挑战性的任务。

目前针对深度学习相关的方法，提高视频识别精度的工作主要集中在设计捕获更高阶动作语意的网络结构上，而输入网络的帧通过均匀或随机间隔采样获得。在推理过程中，对得到的片段结果进行平均。该方法在短视频上效果尚可，但是在拥有更长更丰富信息的长视频上精度则大打折扣。

发明内容

本公开实施例提出了一种视频识别模型训练方法、装置、设备、存储介质以及程序产品。

第一方面，本公开实施例提出了一种视频识别模型训练方法，包括：将样本视频划分成多个样本视频片段，其中，样本视频标注有真实类别标签；从样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息；利用动态片段融合模块对特征信息进行卷积融合，得到融合特征信息，其中，动态片段融合模块的卷积核随视频输入的不同而变化；将融合特征信息输入至全连接层，得到样本视频的预测类别；基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。

第二方面，本公开实施例提出了一种视频识别方法，包括：获取待识别视频；将待识别视频划分成多个待识别视频片段；从待识别视频片段中采样部分待识别视频帧，并输入至视频识别模型，得到待识别视频的类别，其中，视频识别模型根据第一方面中任一实现方式描述的训练方法训练获得。

第三方面，本公开实施例提出了一种视频识别模型训练装置，包括：划分模块，被配置成将样本视频划分成多个样本视频片段，其中，样本视频标注有真实类别标签；提取模块，被配置成从样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息；融合模块，被配置成利用动态片段融合模块对特征信息进行卷积融合，得到融合特征信息，其中，动态片段融合模块的卷积核随视频输入的不同而变化；预测模块，被配置成将融合特征信息输入至全连接层，得到样本视频的预测类别；调整模块，被配置成基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。

第四方面，本公开实施例提出了一种视频识别装置，包括：获取模块，被配置成获取待识别视频；划分模块，被配置成将待识别视频划分成多个待识别视频片段；识别模块，被配置成从待识别视频片段中采样部分待识别视频帧，并输入至视频识别模型，得到待识别视频的类别，其中，视频识别模型根据第一方面中任一实现方式描述的训练方法训练获得。

第五方面，本公开实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法，或者执行如第二方面中任一实现方式描述的方法。

第六方面，本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法，或者执行如第二方面中任一实现方式描述的方法。

第七方面，本公开实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法，或者实现如第二方面中任一实现方式描述的方法。

本公开实施例提供的视频识别模型训练方法、装置、设备、存储介质以及程序产品，通过设计动态片段融合模块，使视频识别模型的卷积核能够在训练和推理中随着视频输入的不同而变化，从而提高了识别精度。视频识别模型采用动态卷积融合的识别方式，融合片段的卷积核参数能够随着输入的视频而变化，实现比单纯使用一种卷积核更为精准的时域感知，在提升识别精度的同时不会增加计算复杂度。尤其能够提升拥有更长更丰富的信息的长视频的识别精度。可用于中长视频分类、影视剧内容分类等。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的视频识别模型训练方法的一个实施例的流程图；

图2是根据本公开的视频识别模型训练方法的又一个实施例的流程图；

图3是可以实现本公开实施例的视频识别模型训练方法的场景图；

图4是视频识别模型的结构示意图；

图5是DSA Block的结构示意图；

图6是根据本公开的视频识别方法的一个实施例的流程图；

图7是根据本公开的视频识别模型训练装置的一个实施例的结构示意图；

图8是根据本公开的视频识别装置的一个实施例的结构示意图；

图9是用来实现本公开实施例的视频识别模型训练方法或视频识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的视频识别模型训练方法的一个实施例的流程100。该视频识别模型训练方法包括以下步骤：

步骤101，将样本视频划分成多个样本视频片段。

在本实施例中，视频识别模型训练方法的执行主体可以获取样本视频集。对于样本视频集中的样本视频，上述执行主体可以将样本视频划分成多个样本视频片段。

其中，样本视频集可以包括大量标注有真实类别标签的样本视频。样本视频标注的真实类别标签可以利用其他视频识别模型分类得到，也可以人工分类得到，这里不进行限定。

这里，样本视频可以通过多种方式来划分样本视频片段。例如，根据视频长度对样本视频进行均匀划分，得到多个相同长度的样本视频片段。又例如，按照固定长度对样本视频进行划分，得到多个固定长度的样本视频片段。再例如，对样本视频进行随机划分，得到多个随机长度的样本视频片段。

步骤102，从样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息。

在本实施例中，对于多个样本视频片段中的样本视频片段，上述执行主体可以从样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息。仅采样部分样本视频帧，输入特征提取网络进行特征提取，可以降低训练工作量，缩短训练时间。

其中，特征提取网络可以用于从视频中提取特征，包括但不限于各种用于提取特征的神经网络。例如，CNN(Convolutional Neural Network，卷积神经网络)。

这里，样本视频片段可以通过多种方式来采样样本视频帧。例如，对样本视频片段进行均匀间隔采样，得到多个均匀间隔的样本视频帧。又例如，对样本视频片段进行随机采样，得到多个随机间隔的样本视频帧。

步骤103，利用动态片段融合模块对特征信息进行卷积融合，得到融合特征信息。

在本实施例中，上述执行主体可以利用动态片段融合模块(DSA Module)对特征信息进行卷积融合，得到融合特征信息。

其中，动态片段融合模块的卷积核可以随视频输入的不同而变化。对于不同视频在特征信息上表现出的差异，尤其是在特征通道上表现出的差异，动态片段融合模块生成一种动态的卷积核。卷积核可以随输入视频的变化而改变，且与输入通道相关。卷积核对与视频的各个视频片段的特征信息进行卷积融合，从而实现对视频长时域的感知和建模。

通常，视频识别模型可以包括多个残差层，残差层内部可以设置动态片段融合模块。实践中，设置的动态融合模块越多，融合次数越多，识别精度越高，然而计算量越大。因此，可以综合考虑识别精度需求和计算量需求，确定设置的动态融合模块的数目。可选地，视频识别模型的多个残差层可以间隔设置至少一个动态片段融合模块。例如，视频识别模型包括Res2、Res3、Res4和Res5。在Res3和Res5内部分别设置两个动态融合模块。

步骤104，将融合特征信息输入至全连接层，得到样本视频的预测类别。

在本实施例中，上述执行主体可以将融合特征信息输入至全连接层进行分类，即可得到样本视频的预测类别。其中，全连接层可以输出样本视频属于各个预设类别的得分。

步骤105，基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。

在本实施例中，上述执行主体可以基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。其中，调整参数的目的是为了使真实类别标签与预测类别的差异足够小。

在本实施例的一些可选的实现方式中，上述执行主体可以首先基于真实类别标签和预测类别计算交叉熵损失；然后使用SGD(Stochastic Gradient Descent，随机梯度下降)对交叉熵损失进行优化，不断进行参数更新，直至交叉熵损失收敛，得到视频识别模型。

本公开实施例提供的视频识别模型训练方法，通过设计动态片段融合模块，使视频识别模型的卷积核能够在训练和推理中随着视频输入的不同而变化，从而提高了识别精度。视频识别模型采用动态卷积融合的识别方式，融合片段的卷积核参数能够随着输入的视频而变化，实现比单纯使用一种卷积核更为精准的时域感知，在提升识别精度的同时不会增加计算复杂度。尤其能够提升拥有更长更丰富的信息的长视频的识别精度。可应用于中长视频分类、影视剧内容分类等方面。

继续参考图2，其示出了根据本公开的视频识别模型训练方法的又一个实施例的流程200。该视频识别模型训练方法包括以下步骤：

步骤201，根据视频长度对样本视频进行均匀划分，得到多个样本视频片段。

在本实施例中，视频识别模型训练方法的执行主体可以获取样本视频集。对于样本视频集中的样本视频，上述执行主体可以根据视频长度对样本视频进行均匀划分，得到多个样本视频片段。例如，对于10秒的样本视频，每隔2秒进行均匀划分，得到5个2秒的样本视频片段。

步骤202，对样本视频片段进行均匀间隔采样，得到部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息。

在本实施例中，对于多个样本视频片段中的样本视频片段，上述执行主体可以对样本视频片段进行均匀间隔采样，得到部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息。仅采样部分样本视频帧，输入特征提取网络进行特征提取，可以降低训练工作量，缩短训练时间。例如，对于2秒的样本视频片段，每隔0.25秒进行均匀采样，得到8帧样本视频帧。

其中，特征提取网络可以用于从视频中提取特征，包括但不限于各种用于提取特征的神经网络。例如，CNN。

这里，先根据视频长度对样本视频均匀划分，再对划分得到的样本视频片段均匀间隔采样，从而使得特征提取网络可以提取到样本视频的各个位置的特征信息。

步骤203，将特征信息在通道维度上划分成第一特征信息和第二特征信息。

在本实施例中，上述执行主体可以将特征信息在通道维度上划分成第一特征信息和第二特征信息。其中，第一特征信息和第二特征信息对应不同的通道维度。

在本实施例的一些可选的实现方式中，上述执行主体可以按照预设超参数β将特征信息在通道维度上划分成第一特征信息和第二特征信息。其中，第一特征信息的通道维度可以是βC，第二特征信息的通道维度可以是(1-β)C。C是特征信息的通道维度。β是超参数，其取值范围是(0,1)。由于第一特征信息需要进行卷积操作，第二特征信息仅需要进行拼接操作，因此，通过调整超参数β，可以控制卷积计算量。通常，超参数β的取值范围设置为(0,0.5)，可以降低卷积计算量。

步骤204，利用卷积核生成分支网络确定样本视频对应的卷积核。

在本实施例中，上述执行主体可以利用卷积核生成分支网络确定样本视频对应的卷积核。

其中，动态片段融合模块(DSA Module)可以包括卷积核生成分支网络。卷积核生成分支网络可以用于生成卷积核。卷积核可以随输入视频的变化而改变。

在本实施例的一些可选的实现方式中，上述执行主体可以首先计算第一特征信息的通道维度βC、样本视频的片段数U、样本视频片段的采样帧数T、样本视频帧的高H和宽W的乘积βC×U×T×H×W；然后将乘积βC×U×T×H×W输入至卷积核生成分支网络，从而快速得到样本视频对应的卷积核。其中，卷积核生成分支网络可以包括一个GAP(Global Average Pooling，全局平均池化层)和两个FC(Full Connected Layer，全连接层)。

步骤205，利用样本视频对应的卷积核对第一特征信息进行卷积，得到卷积结果。

在本实施例中，上述执行主体可以利用样本视频对应的卷积核对第一特征信息进行卷积，得到卷积结果。

步骤206，将卷积结果与第二特征信息进行拼接，得到融合特征。

在本实施例中，上述执行主体可以将卷积结果与第二特征信息进行拼接，得到融合特征。将特征信息在通道维度上划分成第一特征信息和第二特征信息，仅对第一特征信息进行卷积，并与第二特征信息进行拼接，来得到融合特征，从而能够降低卷积计算量。

步骤207，将融合特征信息输入至全连接层，得到样本视频的预测类别。

步骤208，基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。

在本实施例中，步骤207-208具体操作已在图1所示的实施例中步骤104-105进行了详细的介绍，在此不再赘述。

从图2中可以看出，与图1对应的实施例相比，本实施例中的视频识别模型训练方法突出了视频划分步骤、视频帧采样步骤和卷积融合步骤。由此，本实施例描述的方案，先根据视频长度对样本视频均匀划分，再对划分得到的样本视频片段均匀间隔采样，从而使得特征提取网络可以提取到样本视频的各个位置的特征信息。将特征信息在通道维度上划分成第一特征信息和第二特征信息，对第一特征信息进行卷积，并与第二特征信息进行拼接，来得到融合特征，从而能够降低卷积计算量。

进一步参考图3，其示出了可以实现本公开实施例的视频识别模型训练方法的场景图。如图3所示，将样本视频均匀划分成4个样本视频片段(Snippets)，从每个样本视频片段中均匀间隔采样4帧视频帧。4个样本视频片段的4帧视频帧分别输入至CNN Layers，得到4个样本视频片段的特征信息。利用DSA Module对4个样本视频片段的特征信息进行卷积融合，得到的融合特征继续分别输入至CNN Layers进行处理。

进一步参考图4，其示出了视频识别模型的结构示意图。如图4所示，视频识别模型可以包括卷积层、多个残差层和全连接层，多个残差层可以间隔设置动态片段融合模块。具体地，视频识别模型包括Conv1、Res2、Res3、Res4、Res5和FC。样本视频的Snippets经过Conv1、Res2、Res3、Res4、Res5和FC的处理，得到样本视频的预测类别(属于各个预设类别的score)。在Res3和Res5内部分别设置两个动态融合模块。图4仅示出了Res3的结构，包括2个Res Block和2个DSA Block。Res5的结构与Res3的结构相同，图3未示出。

进一步参考图5，其示出了DSA Block的结构示意图。其中，图5示出了两种DSA Block。图5中的(a)示出了DSA Block(for TSM)，是2D DSA Block。图5中的(b)示出了DSA Block(for I3D)，是3D DSA Block。图5中的(c)示出了DSA Block(for TSM)和DSA Block(for I3D)中的DSA Module的结构示意图。DSA Module包括一个GAP和两个FC。特征信息在通道维度上划分成第一特征信息βC和第二特征信息(1-β)C。乘积βC×U×T×H×W输入至GAP，得到βC×U。βC×U输入至FC，得到βC×aU。βC×aU输入至FC，得到βC×L。βC×L与βC×U×T×H×W卷积，并与(1-β)C×U×T×H×W拼接。

进一步参考图6，其示出了根据本公开的视频识别方法的一个实施例的流程600。该视频识别方法包括以下步骤：

步骤601，获取待识别视频。

在本实施例中，视频识别方法的执行主体可以获取待识别视频。

步骤602，将待识别视频划分成多个待识别视频片段。

在本实施例中，上述执行主体可以将待识别视频划分成多个待识别视频片段。

这里，待识别视频的划分方式可以参见样本视频的划分方式，这里不再赘述。

在本实施例的一些可选的实现方式中，待识别视频的划分粒度大于用于训练视频识别模型的样本视频的划分粒度。用于训练视频识别模型的样本视频的数量巨大，减小样本视频的划分粒度可以缩短训练时间。而增加待识别视频的划分粒度可以提高识别精度。例如，对于10秒的样本视频，每隔2秒进行均匀划分，得到5个2秒的样本视频片段。而对于10秒的待识别视频，每隔1秒进行均匀划分，得到10个1秒的待识别视频片段。

步骤603，从待识别视频片段中采样部分待识别视频帧，并输入至视频识别模型，得到待识别视频的类别。

在本实施例中，从待识别视频片段中采样部分待识别视频帧，将其输入至视频识别模型进行预测，并对预测结果进行聚合，即可得到待识别视频的类别。

这里，待识别视频片段的采样方式可以参见样本视频片段的采样方式，这里不再赘述。视频识别模型可以用于视频分类，是利用图1-图2中任一实施方式提供的训练方法训练获得的，这里不再赘述。

本公开实施例提供的视频识别方法，提供了一种基于动态片段融合的高效视频识别方法，通过设计动态片段融合模块，使视频识别模型的卷积核能够在训练和推理中随着视频输入的不同而变化，从而提高了识别精度。视频识别模型采用动态卷积融合的识别方式，融合片段的卷积核参数能够随着输入的视频而变化，实现比单纯使用一种卷积核更为精准的时域感知，在提升识别精度的同时不会增加计算复杂度。尤其能够提升拥有更长更丰富的信息的长视频的识别精度。可用于中长视频分类、影视剧内容分类等。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种视频识别模型训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的视频识别模型训练装置700可以包括：划分模块701、提取模块702、融合模块703、预测模块704和调整模块 705。其中，划分模块701，被配置成将样本视频划分成多个样本视频片段，其中，样本视频标注有真实类别标签；提取模块702，被配置成从样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到样本视频片段的特征信息；融合模块703，被配置成利用动态片段融合模块对特征信息进行卷积融合，得到融合特征信息，其中，动态片段融合模块的卷积核随视频输入的不同而变化；预测模块704，被配置成将融合特征信息输入至全连接层，得到样本视频的预测类别；调整模块705，被配置成基于真实类别标签与预测类别的差异进行参数调整，得到视频识别模型。

在本实施例中，视频识别模型训练装置700中：划分模块701、提取模块702、融合模块703、预测模块704和调整模块705的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101-105的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，融合模块703包括：划分子模块，被配置成将特征信息在通道维度上划分成第一特征信息和第二特征信息；确定子模块，被配置成利用卷积核生成分支网络确定样本视频对应的卷积核；卷积子模块，被配置成利用样本视频对应的卷积核对第一特征信息进行卷积，得到卷积结果；拼接子模块，被配置成将卷积结果与第二特征信息进行拼接，得到融合特征。

在本实施例的一些可选的实现方式中，划分子模块进一步被配置成：按照预设超参数β将特征信息在通道维度上划分成第一特征信息和第二特征信息，其中，第一特征信息的通道维度是βC，第二特征信息的通道维度是(1-β)C，C是特征信息的通道维度。

在本实施例的一些可选的实现方式中，确定子模块进一步被配置成：计算第一特征信息的通道维度βC、样本视频的片段数、样本视频片段的采样帧数、样本视频帧的高和宽的乘积；将乘积输入至卷积核生成分支网络，得到样本视频对应的卷积核。

在本实施例的一些可选的实现方式中，卷积核生成分支网络包括一个全局平均池化层和两个全连接层。

在本实施例的一些可选的实现方式中，视频识别模型包括多个残差层，多个残差层间隔设置至少一个动态片段融合模块。

在本实施例的一些可选的实现方式中，划分模块701进一步被配置成：根据视频长度对样本视频进行均匀划分，得到多个样本视频片段；以及提取模块1002进一步被配置成：对样本视频片段进行均匀间隔采样，得到部分样本视频帧。

在本实施例的一些可选的实现方式中，调整模块705进一步被配置成：基于真实类别标签和预测类别计算交叉熵损失；使用随机梯度下降对交叉熵损失进行优化，不断进行参数更新，直至交叉熵损失收敛，得到视频识别模型。

进一步参考图8，作为对上述各图所示方法的实现，本公开提供了一种视频识别装置的一个实施例，该装置实施例与图6所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的视频识别装置800可以包括：获取模块801、划分模块802和识别模块803。其中，获取模块801，被配置成获取待识别视频；划分模块802，被配置成将待识别视频划分成多个待识别视频片段；识别模块803，被配置成从待识别视频片段中采样部分待识别视频帧，并输入至视频识别模型，得到待识别视频的类别，其中，视频识别模型根据图1-图2中任一实施例描述的训练方法训练获得。

在本实施例中，视频识别装置800中：获取模块801、划分模块802和识别模块803的具体处理及其所带来的技术效果可分别参考图6对应实施例中的步骤601-603的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，待识别视频的划分粒度大于用于训练视频识别模型的样本视频的划分粒度。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如视频识别模型训练方法。例如，在一些实施例中，视频识别模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的视频识别模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频识别模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种视频识别模型训练方法，包括：

将样本视频划分成多个样本视频片段，其中，所述样本视频标注有真实类别标签；

从所述样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到所述样本视频片段的特征信息；

利用动态片段融合模块对所述特征信息进行卷积融合，得到融合特征信息，其中，所述动态片段融合模块的卷积核随视频输入的不同而变化；

将所述融合特征信息输入至全连接层，得到所述样本视频的预测类别；

基于所述真实类别标签与所述预测类别的差异进行参数调整，得到所述视频识别模型。
根据权利要求1所述的方法，其中，所述利用动态片段融合模块对所述特征信息进行卷积融合，得到融合特征信息，包括：

将所述特征信息在通道维度上划分成第一特征信息和第二特征信息；

利用卷积核生成分支网络确定所述样本视频对应的卷积核；

利用所述样本视频对应的卷积核对所述第一特征信息进行卷积，得到卷积结果；

将所述卷积结果与所述第二特征信息进行拼接，得到所述融合特征。
根据权利要求2所述的方法，其中，所述将所述特征信息在通道维度上划分成第一特征信息和第二特征信息，包括：

按照预设超参数β将所述特征信息在通道维度上划分成所述第一特征信息和所述第二特征信息，其中，所述第一特征信息的通道维度是βC，所述第二特征信息的通道维度是(1-β)C，C是所述特征信息的通道维度。
根据权利要求3所述的方法，其中，所述利用卷积核生成分支网络确定所述样本视频对应的卷积核，包括：

计算所述第一特征信息的通道维度βC、所述样本视频的片段数、所述样本视频片段的采样帧数、所述样本视频帧的高和宽的乘积；

将所述乘积输入至所述卷积核生成分支网络，得到所述样本视频对应的卷积核。
根据权利要求2-4中任一项所述的方法，其中，所述卷积核生成分支网络包括一个全局平均池化层和两个全连接层。
根据权利要求1-5中任一项所述的方法，其中，所述动态片段融合模块包含至少一个动态片段融合模块，所述视频识别模型包括所述至少一个动态片段融合模块及多个残差层，所述多个残差层间隔设置所述至少一个动态片段融合模块。
根据权利要求1-6中任一项所述的方法，其中，所述将样本视频划分成多个样本视频片段，包括：

根据视频长度对所述样本视频进行均匀划分，得到所述多个样本视频片段；以及

所述从所述样本视频片段中采样部分样本视频帧，包括：

对所述样本视频片段进行均匀间隔采样，得到所述部分样本视频帧。
根据权利要求1-7中任一项所述的方法，其中，所述基于所述真实类别标签与所述预测类别的差异进行参数调整，得到所述视频识别模型，包括：

基于所述真实类别标签和所述预测类别计算交叉熵损失；

使用随机梯度下降对所述交叉熵损失进行优化，不断进行参数更新，直至所述交叉熵损失收敛，得到所述视频识别模型。
一种视频识别方法，包括：

获取待识别视频；

将所述待识别视频划分成多个待识别视频片段；

从所述待识别视频片段中采样部分待识别视频帧，并输入至视频识别模型，得到所述待识别视频的类别，其中，所述视频识别模型根据权利要求1-8中任一项的训练方法训练获得。
根据权利要求9所述的方法，其中，所述待识别视频的划分粒度大于用于训练所述视频识别模型的样本视频的划分粒度。
一种视频识别模型训练装置，包括：

划分模块，被配置成将样本视频划分成多个样本视频片段，其中，所述样本视频标注有真实类别标签；

提取模块，被配置成从所述样本视频片段中采样部分样本视频帧，并输入至特征提取网络，得到所述样本视频片段的特征信息；

融合模块，被配置成利用动态片段融合模块对所述特征信息进行卷积融合，得到融合特征信息，其中，所述动态片段融合模块的卷积核随视频输入的不同而变化；

预测模块，被配置成将所述融合特征信息输入至全连接层，得到所述样本视频的预测类别；

调整模块，被配置成基于所述真实类别标签与所述预测类别的差异进行参数调整，得到所述视频识别模型。
根据权利要求11所述的装置，其中，所述融合模块包括：

划分子模块，被配置成将所述特征信息在通道维度上划分成第一特征信息和第二特征信息；

确定子模块，被配置成利用卷积核生成分支网络确定所述样本视频对应的卷积核；

卷积子模块，被配置成利用所述样本视频对应的卷积核对所述第一特征信息进行卷积，得到卷积结果；

拼接子模块，被配置成将所述卷积结果与所述第二特征信息进行拼接，得到所述融合特征。
根据权利要求12所述的装置，其中，所述划分子模块进一步被配置成：

按照预设超参数β将所述特征信息在通道维度上划分成所述第一特征信息和所述第二特征信息，其中，所述第一特征信息的通道维度是βC，所述第二特征信息的通道维度是(1-β)C，C是所述特征信息的通道维度。
根据权利要求13所述的装置，其中，所述确定子模块进一步被配置成：

计算所述第一特征信息的通道维度βC、所述样本视频的片段数、所述样本视频片段的采样帧数、所述样本视频帧的高和宽的乘积；

将所述乘积输入至所述卷积核生成分支网络，得到所述样本视频对应的卷积核。
根据权利要求12-14中任一项所述的装置，其中，所述卷积核生成分支网络包括一个全局平均池化层和两个全连接层。
根据权利要求11-15中任一项所述的装置，其中，所述动态片段融合模块包含至少一个动态片段融合模块，所述视频识别模型包括所述至少一个动态片段融合模块及多个残差层，所述多个残差层间隔设置所述至少一个动态片段融合模块。
根据权利要求11-16中任一项所述的装置，其中，所述划分模块进一步被配置成：

根据视频长度对所述样本视频进行均匀划分，得到所述多个样本视频片段；以及

所述提取模块进一步被配置成：

对所述样本视频片段进行均匀间隔采样，得到所述部分样本视频帧。
根据权利要求11-17中任一项所述的装置，其中，所述调整模块进一步被配置成：

基于所述真实类别标签和所述预测类别计算交叉熵损失；

使用随机梯度下降对所述交叉熵损失进行优化，不断进行参数更新，直至所述交叉熵损失收敛，得到所述视频识别模型。
一种视频识别装置，包括：

获取模块，被配置成获取待识别视频；

划分模块，被配置成将所述待识别视频划分成多个待识别视频片段；

识别模块，被配置成从所述待识别视频片段中采样部分待识别视频帧，并输入至视频识别模型，得到所述待识别视频的类别，其中，所述视频识别模型根据权利要求1-8中任一项的训练方法训练获得。
根据权利要求19所述的装置，其中，所述待识别视频的划分粒度大于用于训练所述视频识别模型的样本视频的划分粒度。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法，或者执行权利要求9或10所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法，或者执行权利要求9或10所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法，或者执行权利要求9或10所述的方法。