WO2019127940A1

WO2019127940A1 - 视频分类模型训练方法、装置、存储介质及电子设备

Info

Publication number: WO2019127940A1
Application number: PCT/CN2018/079907
Authority: WO
Inventors: 包怡欣; 彭垚; 邵杰; 赵之健
Original assignee: 上海七牛信息技术有限公司
Priority date: 2017-12-25
Filing date: 2018-03-21
Publication date: 2019-07-04
Also published as: CN108154120A

Abstract

一种视频分类模型训练方法、装置、存储介质及电子设备，该方法包括：将视频文件输入视频分类模型进行学习，得到特征向量（101）；将所述特征向量分成多个子特征向量（102）；从所述多个子特征向量中选取一个子特性向量作为目标子特征向量（103）；将所述目标子特征向量输入所述视频分类模型进行训练，得到最终视频分类模型（104）。截取了部分特征向量作为目标特征子向量输入视频分类模型用于训练，减少了输入数据、以及其转化的数据的大小，从而减少了训练参数，提高训练效率。

Description

视频分类模型训练方法、装置、存储介质及电子设备

技术领域

本发明涉及视频领域，更具体的说，涉及一种视频分类模型训练方法、装置、存储介质及电子设备。

背景技术

对视频文件分类时，需要提前对视频分类模型进行训练，得到优化后的视频分类模型。对视频分类模型训练时所需参数较多，直接使用传统算法效率极低，使得训练时间过长。

发明内容

本发明所要解决的技术问题是提供一种视频分类模型训练方法、装置、存储介质及电子设备，能提提高训练效率，减少训练时间。

本发明的目的是通过以下技术方案来实现的：

第一方面，本申请实施例提供一种视频分类模型训练方法，包括：

将视频文件输入视频分类模型进行学习，得到特征向量；

将所述特征向量分成多个子特征向量；

从所述多个子特征向量中选取一个子特性向量作为目标子特征向量；

将所述目标子特征向量输入所述视频分类模型进行训练，得到最终视频分类模型。

第二方面，本申请实施例提供一种视频分类模型训练装置，包括：

第一获取单元，用于将视频文件输入视频分类模型进行学习，得到特征向量；

划分单元，用于将所述特征向量分成多个子特征向量；

选取单元，用于从所述多个子特征向量中选取一个子特性向量作为目标子特征向量；

训练单元，用于将所述目标子特征向量输入所述视频分类模型进行训练，得到最终视频分类模型。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述的视频分类模型训练。

第四方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行上述的视频分类模型训练方法。

本申请实施例提供的视频分类模型训练方法、装置、存储介质及电子设备，通过将视频文件输入视频分类模型进行学习，得到特征向量；将特征向量分成多个子特征向量；从多个子特征向量中选取一个子特性向量作为目标子特征向量；将目标子特征向量输入所述视频分类模型进行训练，得到最终视频分类模型。截取了部分特征向量作为目标特征子向量输入视频分类模型用于训练，减少了输入数据、以及其转化的数据的大小，从而减少了训练参数，提高训练效率。

附图说明

需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频分类模型训练方法的第一种流程示意图；

图2为本申请实施例提供的视频分类模型训练方法的框图示意图；

图3为本申请实施例提供的视频分类模型训练方法的第二种流程示意图；

图4为本申请实施例提供的视频分类模型训练方法的第三种流程示意图；

图5为本申请实施例提供的视频分类模型训练方法的第四种流程示意图；

图6为本申请实施例提供的视频分类装置的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频分类模型训练方法，该视频分类模型训练方法的执行主体可以是本申请实施例提供的视频分类模型训练装置，或者集成了该视频分类模型训练装置的电子设备，其中该视频分类模型训练装置可以采用硬件或者软件的方式实现。

本申请实施例将从视频分类模型训练装置的角度进行描述，该视频分类模型训练装置具体可以集成在电子设备中。该视频分类模型训练方法包括：将视频文件输入视频分类模型进行学习，得到特征向量；将特征向量分成多个子特征向量；从多个子特征向量中选取一个子特性向量作为目标子特征向量；将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

其中电子设备包括智能手机、平板电脑、掌上电脑、电脑、服务器、云服务器等设备。

请参阅图1和图2，图1为本申请实施例提供的视频分类模型训练方法的第一种流程示意图，图2为本申请实施例提供的视频分类模型训练方法的框图示意图。本申请实施例提供的视频分类模型训练方法，具体流程可以如下：

步骤101，将视频文件输入视频分类模型进行学习，得到特征向量。

视频文件可以为mjpeg、avi、rmvb、3gp等格式的视频文件。在此不对视频文件的格式进行限定。

视频分类模型可以为卷积神经网络算法模型、循环神经网络算法模型等。视频分类模型还可以是SENet(Squeeze-and-Excitation Networks)算法模型。

将视频文件输入视频分类模型中，视频分类模型根据该视频文件得到对应该视频文件分类信息的特性向量。如视频文件的场景特征、人物特征、物品特性、时间特征等等。

步骤102，将特征向量分成多个子特征向量。

在特性向量的一个维度上，将该特性向量分成多个特征向量。例如特征向量为2048*200，将特征向量分成4个512*200的多个子特征向量。

步骤103，从多个子特征向量中选取一个子特性向量作为目标子特征向量。

从多个子特征向量中任意选取一个子特征向量作为目标子特征向量。可以是第一个子特征向量也可以是最后一个子特征向量，也可以是中间的任意一个子特征向量。也可以是根据各个子特征向量中的数据来定，如获取各个特征的数据之和，取数据之和最大或最小或中间值的为目标子特征向量。还可以通过计算各个子特征向量的平方差，平方差最小的为目标子特征向量。

步骤104，将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

得到目标子特征向量后，将其输入视频分类模型进行训练，得到优化后的视频分类模型，优化视频分类模型中各个参数值。其中，具体的，视频分类模型可以包括NetVLad层，该NetVLad层为将VLAD处理使其可微并加入卷积神经网络中形成一层处理层，该NetVLad层为可以通过反向传播学习图片的编码。

请参阅图3，图3为本申请实施例提供的视频分类模型训练方法的第二种流程示意图。本申请实施例提供的视频分类模型训练方法，具体流程可以如下：

步骤201，将视频文件输入视频分类模型进行学习，得到特征向量。

步骤202，将特征向量按向量长度，分成多个向量长度相等且依次连接的多个子特征向量。

可以根据特性向量的向量长度划分，划分得到多个向量长度相等，并且依次连接的多个子特征向量。例如，可以使用全连接层将数据进行压缩形成长度为2048的一维特征向量，一维特征向量代表一帧图像。因此，如以每秒提取一帧图像的频率从视频文件提取200帧图像，则视频文件可以提取一组2048*200的特征向量。还可以预先设定需要提取的图像数量，然后获取视频文件的总播放时间，然后总播放时间除以图像数量，得到获取一帧图像的频率，例如预先设定需要提取300帧图像，视频文件总播放时间为30分钟，则30分钟除以300，得到获取一帧图像的频率为每6秒获取一帧图像，每一帧图像为长度为2048的一维特征向量，进而特征向量为2048*300。

然后将特征向量按向量长度，即一维特征向量的长度2048，分成多个向量长度相等且依次连接的多个子特征向量，如分成4个512*200的子特征向量。

步骤203，从多个子特征向量中，选取第一个或最后一个子特征向量作为目标子特征向量。

部分视频文件在开头部分或结尾部分会介绍该视频文件的视频片段，因此从多个子特征向量中，选取对应视频文件开头部分的第一个子特征向量，或对应视频文件结尾部分的最后一个子特征向量作为目标子特征向量。

步骤204，将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

得到目标子特征向量后，将其输入视频分类模型进行训练，得到优化后的视频分类模型，优化视频分类模型中各个参数值。

在一些实施方式中，可以从多个子特征向量中，选取任意一个子特征向量作为目标子特征向量。

请参阅图4，图4为本申请实施例提供的视频分类模型训练方法的第三种流程示意图。本申请实施例提供的视频分类模型训练方法，具体流程可以如下：

步骤301，将视频文件输入视频分类模型进行学习，得到特征向量。

步骤3021，将特征向量按向量长度，分成多个向量长度相等的且连续的多个特征向量段。

可以根据特性向量的向量长度划分，划分得到多个向量长度相等，并且依次连接的多个特征向量段。例如，可以使用全连接层将数据进行压缩形成长度为2048的一维特征向量，一维特征向量代表一帧图像。因此，如以每秒提取一帧图像的频率从视频文件提取200帧图像，则视频文件可以提取一组2048*200的特征向量。还可以预先设定需要提取的图像数量，然后获取视频文件的总播放时间，然后总播放时间除以图像数量，得到获取一帧图像的频率，例如预先设定需要提取300帧图像，视频文件总播放时间为30分钟，则30分钟除以300，得到获取一帧图像的频率为每6秒获取一帧图像，每一帧图像为长度为2048的一维特征向量，进而特征向量为2048*300。

然后将特征向量按向量长度，即一维特征向量的长度2048，分成多个向量长度相等且依次连接的多个特征向量段，如分成16个128*200的特征向量段。

步骤3022，将多个特征向量段中的至少两个特征向量段形成一个子特征向量，得到多个子特征向量，其中一个子特征向量包括第一个特征向量段和最后一个特征向量段；

将多个特征向量段中的至少两个特征向量段形成一个子特征向量，如2个特征向量段形成一个子特征向量，进而得到多个子特征向量。部分视频文件在开头部分或结尾部分会介绍该视频文件的视频片段，因此从多个子特征向量中，选取对应视频文件开头部分的第一个特征向量段，和对应视频文件结尾部分的最后一个特征向量段合并得到一个子特征向量，该子特征向量可以仅包括第一个特征向量段和最后一个特征向量段，也可以另外包括一个或多个其他位置的特征向量段。

步骤303，选取包括第一个特征向量段和最后一个特征向量段的子特征向量，作为目标子特征向量。

步骤304，将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

需要说明的是，在上述实施方式中，目标子特征向量的向量长度为特征向量的向量长度的八分之一到二分之一之间。例如特征向量为2048*200，则目标子特征向量为256*200到1024*200之间。

请参阅图5，图5为本申请实施例提供的视频分类模型训练方法的第四种流程示意图。本申请实施例提供的视频分类模型训练方法，具体流程可以如下：

步骤401，将视频文件输入视频分类模型的前段部分进行学习，得到特征向量。

步骤402，将特征向量分成多个子特征向量。

步骤403，从多个子特征向量中选取一个子特性向量作为目标子特征向量。

步骤404，将目标子特征向量输入视频分类模型的后段部分进行训练，得到最终视频分类模型。

将视频文件从分类模型如SENet模型中学得的特征向量(2048*200)平均截取成四段(512*200)，每段作为一个独立的子特征向量，再任意选取其中的一段作为整个视频文字的特征向量进行接下来的训练。这样减少了每个特征的大小，从而减少了训练参数，提高训练效率。截取了部分特征向量作为整体的特征进入下一层的训练，减少了接下来的每个特征向量的大小，从而减少了训练参数，提高训练效率。

在一些实施方式中，可以从视频文件中提取特征向量，将该特征向量输入算法模型学习，得到对应该特征向量中每个特征的权重值，将权重值分成几个区间，根据权重值将特征向量中的特征分成多个子特征向量，每个子特征向量包括不同权重值的特征，且不同子特征向量中在同一个权重值区间的特征数量相等。

在一些实施方式中，可以从视频文件中提取对应连续多帧图像，将每一帧图像在算法模型中进行分类，并形成代表物体类别的第一组特征和代表场景类别的第二组特征，将第一组特征和第二组特征融合形成一个第三一维特性向量，将该第三一维特性向量为上述实施方式中的初始特征向量，然后根据该初始特征向量进行训练。如步骤101中得到的特征向量即为第三一维特征向量，将该特征向量根据场景类别和物体类别分成多个子特征向量，每个子特征向量中包括场景类别和物体类别的特征数量相等。

由上可知，本申请实施例提供的视频分类模型训练方法，通过将视频文件输入视频分类模型进行学习，得到特征向量；将特征向量分成多个子特征向量；从多个子特征向量中选取一个子特性向量作为目标子特征向量；将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。截取了部分特征向量作为目标特征子向量输入视频分类模型用于训练，减少了输入数据、以及其转化的数据的大小，从而减少了训练参数，提高训练效率。

请参阅图6，图6为本申请实施例提供的视频分类模型训练装置的结构示意图。其中该视频分类模型训练装置500包括第一获取单元501、划分单元502、选取单元503和训练单元504。其中：

第一获取单元501，用于将视频文件输入视频分类模型进行学习，得到特征向量。

划分单元502，用于将特征向量分成多个子特征向量。

选取单元503，用于从多个子特征向量中选取一个子特性向量作为目标子特征向量。

训练单元504，用于将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

在一些实施方式中，划分单元502，还用于将特征向量按向量长度，分成多个向量长度相等且依次连接的多个子特征向量。

选取单元503，还用于从多个子特征向量中，选取第一个或最后一个子特征向量作为目标子特征向量。

在一些实施方式中，选取单元503，还用于从多个子特征向量中，选取任意一个子特征向量作为目标子特征向量。

在一些实施方式中，划分单元502，还用于将特征向量按向量长度，分成多个向量长度相等的且连续的多个特征向量段；将多个特征向量段中的至少两个特征向量段形成一个子特征向量，得到多个子特征向量，其中一个子特征向量包括第一个特征向量段和最后一个特征向量段。

选取单元503，还用于选取包括第一个特征向量段和最后一个特征向量段的子特征向量，作为目标子特征向量。

在一些实施方式中，目标子特征向量的向量长度为特征向量的向量长度的八分之一到二分之一之间。例如特征向量为2048*200，则目标子特征向量为256*200到1024*200之间。

在一些实施方式中，分类模型包括前段部分和后段部分。第一获取单元501，还用于将视频文件输入视频分类模型的前段部分进行学习，得到特征向量。训练单元504，还用于将目标子特征向量输入视频分类模型的后段部分进行训练。

由上可知，本申请实施例提供的视频分类模型训练装置，通过将视频文件输入视频分类模型进行学习，得到特征向量；将特征向量分成多个子特征向量；从多个子特征向量中选取一个子特性向量作为目标子特征向量；将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。截取了部分特征向量作为目标特征子向量输入视频分类模型用于训练，减少了输入数据、以及其转化的数据的大小，从而减少了训练参数，提高训练效率。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本申请实施例中，视频分类模型训练装置与上文实施例中的视频分类模型训练方法属于同一构思，在视频分类模型训练装置上可以运行视频分类模型训练方法实施例中提供的任一方法，其具体实现过程详见视频分类模型训练方法的实施例，此处不再赘述。

本申请实施例还提供一种电子设备。电子设备包括处理器以及存储器。其中，处理器与存储器电性连接。

处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器内的计算机程序，以及调用存储在存储器内的数据，执行电子设备的各种功能并处理数据，从而对电子设备进行整体监控。

存储器可用于存储软件程序以及单元，处理器通过运行存储在存储器的计算机程序以及单元，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

在本申请实施例中，电子设备中的处理器会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器中，并由处理器运行存储在存储器中的计算机程序，从而实现各种功能，如下：

将视频文件输入视频分类模型进行学习，得到特征向量；

将特征向量分成多个子特征向量；

从多个子特征向量中选取一个子特性向量作为目标子特征向量；

将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

本申请实施例还提供一种存储介质，存储介质存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行上述任一实施例中的应用程序管控方法，比如：将视频文件输入视频分类模型进行学习，得到特征向量；将特征向量分成多个子特征向量；从多个子特征向量中选取一个子特性向量作为目标子特征向量；将目标子特征向量输入视频分类模型进行训练，得到最终视频分类模型。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的视频分类模型训练方法而言，本领域普通测试人员可以理解实现本申请实施例视频分类模型训练方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如音频播放方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种视频分类模型训练方法，其特征在于，包括：

将视频文件输入视频分类模型进行学习，得到特征向量；

将所述特征向量分成多个子特征向量；

从所述多个子特征向量中选取一个子特性向量作为目标子特征向量；

将所述目标子特征向量输入所述视频分类模型进行训练，得到最终视频分类模型。
如权利要求1所述的视频分类模型训练方法，其特征在于，所述分类模型包括前段部分和后段部分；

将视频文件输入视频分类模型进行学习的步骤，包括：

将视频文件输入视频分类模型的前段部分进行学习，得到特征向量；

将所述目标子特征向量输入视频分类模型进行训练的步骤，包括：

将所述目标子特征向量输入视频分类模型的后段部分进行训练。
如权利要求1所述的视频分类模型训练方法，其特征在于，所述将所述特征向量分成多个子特征向量的步骤，包括；

将所述特征向量按向量长度，分成多个向量长度相等且依次连接的多个子特征向量；

所述从所述多个子特征向量中选取一个子特性向量作为目标子特征向量的步骤，包括：

从所述多个子特征向量中，选取第一个或最后一个子特征向量作为目标子特征向量。
如权利要求1所述的视频分类模型训练方法，其特征在于，将所述特征向量分成多个子特征向量的步骤，包括；

将所述特征向量按向量长度，分成多个向量长度相等的且连续的多个特征向量段；

将多个特征向量段中的至少两个特征向量段形成一个子特征向量，得到多个子特征向量，其中一个子特征向量包括第一个特征向量段和最后一个特征向量段；

所述从所述多个子特征向量中选取一个子特性向量作为目标子特征向量的步骤，包括：

选取包括第一个特征向量段和最后一个特征向量段的子特征向量，作为目标子特征向量。
如权利要求1-4任一所述的视频分类模型训练方法，其特征在于，所述目标子特征向量的向量长度为所述特征向量的向量长度的八分之一到二分之一之间。
一种视频分类模型训练装置，其特征在于，包括：

第一获取单元，用于将视频文件输入视频分类模型进行学习，得到特征向量；

划分单元，用于将所述特征向量分成多个子特征向量；

选取单元，用于从所述多个子特征向量中选取一个子特性向量作为目标子特征向量；

训练单元，用于将所述目标子特征向量输入所述视频分类模型进行训练，得到最终视频分类模型。
如权利要求6所述的视频分类模型训练装置，其特征在于，所述分类模型包括前段部分和后段部分；

所述第一获取单元，还用于将视频文件输入视频分类模型的前段部分进行学习，得到特征向量；

所述训练单元，还用于将所述目标子特征向量输入视频分类模型的后段部分进行训练。
如权利要求6所述的视频分类模型训练装置，其特征在于，

所述划分单元，还用于将所述特征向量按向量长度，分成多个向量长度相等且依次连接的多个子特征向量；

所述选取单元，还用于从所述多个子特征向量中，选取第一个或最后一个子特征向量作为目标子特征向量。
一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至5任一项所述的视频分类模型训练方法。
一种电子设备，包括处理器和存储器，所述存储器有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至5任一项所述的视频分类模型训练方法。