WO2021114688A1

WO2021114688A1 - 基于深度学习的视频处理方法及装置

Info

Publication number: WO2021114688A1
Application number: PCT/CN2020/105991
Authority: WO
Inventors: 孟凡宇
Original assignee: 苏宁云计算有限公司
Priority date: 2019-12-10
Filing date: 2020-07-30
Publication date: 2021-06-17
Also published as: CN111126197B; CN111126197A; CA3164081A1

Abstract

本发明公开了一种基于深度学习的视频处理方法及装置，属于计算机视觉技术领域。所述方法包括：首先抽取视频中的图像帧，然后通过深度学习方法提取图像帧特征，进而根据每帧图像特征间相似度进行镜头切分过滤镜头内冗余信息操作，获取至少一个分镜镜头；提取每个分镜镜头中携带视频图像信息的多维度图像特征；对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。本发明提供的基于深度学习的视频处理方法及装置，有效提高了视频标签算法的准确性，减少特征处理量，节省大量的人工，同时提高了算法处理速度，降低了时间消耗。

Description

基于深度学习的视频处理方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于深度学习的视频处理方法及装置。

背景技术

目前现有技术方案通常采用以下几个步骤来进行：1)将视频进行帧提取；2)对每帧利用深度学习方法对每帧进行特征提取；3)训练分类器进行标签抽取，上述视频处理方法存在时间消耗大和精度不准的情况。

发明内容

现有技术中尽管对每帧图像特征进行抽取，然而并没有有效利用视频的相似性，也没有与传统特征进行融合提高算法准确性，为了解决现有技术的问题，本发明实施例提供了一种基于深度学习的视频处理方法及装置，有效提高了视频标签算法的准确性，减少特征处理量，节省大量的人工，同时提高了算法处理速度，降低了时间消耗。所述技术方案如下：

一方面，提供了一种基于深度学习的视频处理方法，所述方法包括：

抽取视频中的图像帧，并通过深度学习提取每帧图像特征，根据帧间相似度进行分镜操作，过滤掉镜头内冗余信息，获取至少一个分镜镜头；

提取每个分镜镜头中携带视频图像信息的多维度图像特征；

对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。

进一步地，抽取视频中的图像帧并进行分镜操作，获取至少一个分镜镜头，包括：

抽取视频中的图像帧，提取图像帧中的图像；

对每帧图像通过深度学习方法提取图像抽象特征，所述图像抽象特征包括通过深度学习提取主干网络的全连接层特征；

根据所述图像抽象特征计算每帧图像特征帧间相似度；

根据所述每帧图像特征帧间相似度进行过滤，提取过滤后的至少一个分镜镜头。

进一步地，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征，包括：

通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。

进一步地，通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征，包括：

利用LBP进行图像检索；和/或，

通过HOG计算和统计图像局部区域的梯度方向直方图构成特征；和/或，

通过卷积神经网络汇集局部特征，并进行空间上的池化。

进一步地，对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果，包括：

通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。

进一步地，通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果，包括：

通过对所述多维度图像特征的不同帧信息进行加权求和，取得视频图像的整体信息；和/或，

LSTM利用递归神经网络对时间关系进行建模，提取视频中具有时间信息的特征；和/或，

NetVALD利用聚合后的局部特征表示全局特征编码，对于每一张feature map上的每个点，分别求其余对应的簇中心点的差值和；和/或，

Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。

进一步地，所述方法还包括：

根据所述特征融合结果得到的特征向量，利用预设多标签分类器进行标签分类。

进一步地，所述方法还包括：

根据所述特征融合结果得到的特征向量及其标签分类结果，对每个标签训练一个分类器，从而获得所述预设多标签分类器。

另一方面，提供了一种基于深度学习的视频处理装置，所述装置包括：

抽取分镜模块，用于抽取视频中的图像帧，并通过深度学习提取图像特征，根据每帧图像特征间相似度进行镜头切分操作，过滤掉镜头内冗余帧，获取至少一个分镜镜头；

特征提取模块，用于提取每个分镜镜头中携带视频图像信息的多维度图像特征；

特征融合模块，用于对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。

进一步地，所述抽取分镜模块用于：

抽取视频中的图像帧，提取图像帧中的图像；

根据所述图像抽象特征计算每帧图像特征帧间相似度；

进一步地，所述特征提取模块用于：

利用LBP进行图像检索；和/或，

通过卷积神经网络汇集局部特征，并进行空间上的池化。

进一步地，所述特征融合模块用于：

Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。

进一步地，所述基于深度学习的视频处理装置还包括标签分类模块，所述标签分类模块用于：根据所述特征融合结果得到的特征向量，利用预设多标签分类器进行标签分类。

进一步地，所述标签分类模块还用于：根据所述特征融合结果得到的特征向量及其标签分类结果，对每个标签训练一个分类器，从而获得所述预设多标签分类器。

本发明实施例提供的技术方案带来的有益效果是：

通过抽取视频中的图像帧并进行分镜操作去除相似帧的冗余信息，减少特征处理量，节省大量的人工，同时提高了算法处理速度，降低了时间消耗；并通过多种特征提取方式对提取的多维度图像特征进行特征融合，有效利用传统方法的lbp和hog特征对深度学习提取的特征进行补足，提高算法提取特征的鲁邦性，有效提高了视频标签算法的准确性和召回率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于深度学习的视频处理方法流程图；

图2是图1中101步骤的子步骤流程图；

图3是本发明实施例提供的基于深度学习的视频处理方法的总体流程图；

图4是本发明实施例提供的基于深度学习的视频处理方法的详细流程图；

图5是本发明实施例提供的基于深度学习的视频处理装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在本发明的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

根据发明人发现的以下现有技术现状：尽管对每帧图像特征进行抽取，但并没有有效利用视频的相似性，也没有与传统特征进行融合提高算法准确性，本发明实施例提供了一种基于深度学习的视频处理方法及装置，通过抽取视频中的图像帧并进行分镜操作去除相似帧的冗余信息，并对提取的多维度图像特征进行特征融合，既有效提高了视频标签算法的准确性，又减少特征处理量，节省大量的人工，同时提高了算法处理速度，降低了时间消耗。

下面结合具体实施例及附图，对本发明实施例提供的基于深度学习的视频处理方法及装置详细说明。

图1是本发明实施例提供的基于深度学习的视频处理方法流程图。图2是图1中101步骤的子步骤流程图。如图1所示，本发明实施例提供的基于深度学习的视频处理方法，包括以下步骤：

101、抽取视频中的图像帧，并通过深度学习提取图像特征，根据每帧图像特征间相似度进行镜头切分操作，过滤掉镜头内冗余帧，获取至少一个分镜镜头。

具体地，如图2所示，上述101步骤进一步包括以下子步骤：

1011、抽取视频中的图像帧，提取图像帧中的图像。这里可以用任何代码库进行视频帧的抽取，比如opencv等。

1012、对每帧图像通过深度学习方法提取图像抽象特征，图像抽象特征包括通过深度学习提取主干网络的全连接层特征，例如，resent网络的全连接层提取的特征。深度学习特征一般采用imagenet数据集上训练的提特征模型。深度学习模型一般采用inception V3，当然也可以采用其它常用的模型，如densenet、VGG、resnet等。

1013、根据图像抽象特征计算每帧图像特征帧间相似度。示例性地，根据特征计算特征相关的欧式距离，进而判断每帧是否相似及相似度大小。

1014、根据每帧图像特征帧间相似度进行过滤，提取过滤后的至少一个分镜镜头。示例性地，根据计算的相似度和想要分镜的数量做归集，确定相似度阈值。

值得注意的是，步骤101的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

102、提取每个分镜镜头中携带视频图像信息的多维度图像特征。

具体地，通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。优选地，可以采用以下方式：

利用LBP进行图像检索；和/或，通过HOG计算和统计图像局部区域的梯度方向直方图构成特征；和/或，通过卷积神经网络汇集局部特征，并进行空间上的池化。

LBP主要是利用其旋转不变性，提高图像检索中的图像对于图像中景物的拍摄角度带来的，检索召回率不高的问题。HOG是通过计算和统计图像局部区域的梯度方向直方图来构成特征，在一副图像中，局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性，这两种形变只会出现在更大的空间领域上。卷积神经网络(CNN)则是通过学习卷积来汇集局部特征，并进行空间上的池化来实现非深度学习图像学习，卷积层的连续应用能产生在广泛空间内聚合低级语义信息，并扩展形成更高级信息的层次化特征。

值得注意的是，步骤102的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

103、对每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。

通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。优选地，可以采用以下方式：

通过对所述多维度图像特征的不同帧信息进行加权求和，即进行加权平均，取得视频图像的整体信息。和/或，

NetVALD利用聚合后的局部特征表示全局特征编码，对于每一张feature map上的每个点，分别求其余对应的簇中心点的差值和，所以结果V是一个k*D的矩阵，也就是每一张feature map都要与所有的簇中心计算一个差值，但只保留与最近的簇计算的差值，VLAD保存的是每个特征点与离它最近的聚类中心的距离，并将其作为新的编码特征，使得特征更加鲁棒，并有效降低特征维度；和/或，

Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。BOW聚合优于NetVLAD的好处在于，在给定固定数量的聚类的情况下，它将特征描述符列表聚合成更紧凑的表示，缺点是需要明显更多的聚类来获得聚合描述符的丰富表示，能够与NetVLAD进行互补。

另外，优选地，本发明实施例提供的基于深度学习的视频处理方法还包括以下步骤：根据特征融合结果得到的特征向量，利用预设多标签分类器进行标签分类。这里的预设多标签分类器可以采用现有技术中任何可能的多标签分类器，本发明实施例不对其特别限定。示例性地，采用softmax分类器，训练的输入为需要进行融合的特征，分类器的标签为单个标签的二分类，0或1，一共有4000多个分类器，进行多标签分类。

进一步优选地，根据特征融合结果得到的特征向量及其标签分类结果，对每个标签训练一个分类器，通过训练获得分类效果更好的预设多标签分类器。

图3和图4是本发明实施例提供的基于深度学习的视频处理方法的总体流程图和详细流程图，示出了进行基于深度学习的视频处理过程的一种优选实施方式。

本发明实施例还提供了一种基于深度学习的视频处理装置。图5是本发明实施例提供的基于深度学习的视频处理装置结构示意图，如图5所示，本发明实施例提供的基于深度学习的视频处理装置2包括抽取分镜模块21、特征提取模块22和特征融合模块23。

其中，抽取分镜模块21，用于抽取视频中的图像帧，并通过深度学习提取图像特征，根据每帧图像特征间相似度进行镜头切分操作，过滤掉镜头内冗余帧，获取至少一个分镜镜头；

特征提取模块22，用于提取每个分镜镜头中携带视频图像信息的多维度图像特征；特征融合模块23，用于对每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。

具体地，抽取分镜模块21用于：抽取视频中的图像帧，提取图像帧中的图像；对每帧图像通过深度学习提取图像抽象特征，图像抽象特征包括通过深度学习提取主干网络的全连接层特征；根据图像抽象特征计算每帧图像特征帧间相似度；根据每帧图像特征帧间相似度进行过滤，提取过滤后的至少一个分镜镜头。

特征提取模块22用于：通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。通过LBP、HOG、深度学习网络中的至少一种特征提取方式，进一步地，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征，包括：利用LBP进行图像检索；和/或，通过HOG计算和统计图像局部区域的梯度方向直方图构成特征；和/或，通过卷积神经网络汇集局部特征，并进行空间上的池化。

特征融合模块23用于：通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。进一步地，通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果，包括：通过对多维度图像特征的不同帧信息进行加权求和，取得视频图像的整体信息；和/或，LSTM利用递归神经网络对时间关系进行建模，提取视频中具有时间信息的特征；和/或，NetVALD利用聚合后的局部特征表示全局特征编码，对于每一张feature map上的每个点，分别求其余对应的簇中心点的差值和；和/或，Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。

另外，优选地，上述基于深度学习的视频处理装置还包括标签分类模块24，标签分类模块24用于：根据特征融合结果得到的特征向量，利用预设多标签分类器进行标签分类。标签分类模块24还用于：根据特征融合结果得到的特征向量及其标签分类结果，对每个标签训练一个分类器，从而获得预设多标签分类器。

需要说明的是：上述实施例提供的基于深度学习的视频处理装置在触发视频处理业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于深度学习的视频处理装置与基于深度学习的视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

综上所述，本发明实施例提供的基于深度学习的视频处理方法及装置，相比现有技术，具有以下有益效果：

通过抽取视频中的图像帧并进行分镜操作去除相似帧的冗余信息，并通过多种特征提取方式对提取的多维度图像特征进行特征融合，既有效提高了视频标签算法的准确性，又减少特征处理量，节省大量的人工，同时提高了算法处理速度，降低了时间消耗。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于深度学习的视频处理方法，其特征在于，所述方法包括：

抽取视频中的图像帧，并通过深度学习提取每帧图像特征，根据帧间相似度进行分镜操作，过滤掉镜头内冗余信息，获取至少一个分镜镜头；

提取每个分镜镜头中携带视频图像信息的多维度图像特征；

对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。
根据权利要求1所述的方法，其特征在于，抽取视频中的图像帧并进行分镜操作，获取至少一个分镜镜头，包括：

抽取视频中的图像帧，提取图像帧中的图像；

对每帧图像通过深度学习提取图像抽象特征，所述图像抽象特征包括通过深度学习提取主干网络的全连接层特征；

根据所述图像抽象特征计算每帧图像特征帧间相似度；

根据所述每帧图像特征帧间相似度进行过滤，提取过滤后的至少一个分镜镜头。
根据权利要求1所述的方法，其特征在于，提取每个分镜镜头中携带视频图像信息的多维度图像特征，包括：

通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。
根据权利要求3所述的方法，其特征在于，通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征，包括：

利用LBP进行图像检索；和/或，

通过HOG计算和统计图像局部区域的梯度方向直方图构成特征；和/或，

通过卷积神经网络汇集局部特征，并进行空间上的池化。
根据权利要求1至4任一项所述的方法，其特征在于，对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果，包括：

通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。
根据权利要求5所述的方法，其特征在于，通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果，包括：

通过对所述多维度图像特征的不同帧信息进行加权求和，取得视频图像的整体信息；和/或，

LSTM利用递归神经网络对时间关系进行建模，提取视频中具有时间信息的特征；和/或，

NetVALD利用聚合后的局部特征表示全局特征编码，对于每一张feature map上的每个点，分别求其余对应的簇中心点的差值和；和/或，

Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。
根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

根据所述特征融合结果得到的特征向量，利用预设多标签分类器进行标签分类。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述特征融合结果得到的特征向量及其标签分类结果，对每个标签训练一个分类器，从而获得所述预设多标签分类器。
一种基于深度学习的视频处理装置，其特征在于，所述装置包括：

抽取分镜模块，用于抽取视频中的图像帧，并通过深度学习提取图像特征，根据每帧图像特征间相似度进行镜头切分操作，过滤掉镜头内冗余帧，获取至少一个分镜镜头；

特征提取模块，用于提取每个分镜镜头中携带视频图像信息的多维度图像特征；

特征融合模块，用于对所述每个分镜镜头的多维度图像特征进行特征融合，获取特征融合结果。
根据权利要求9所述的装置，其特征在于，所述特征提取模块用于：通过LBP、HOG、深度学习网络中的至少一种特征提取方式，提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。