WO2020147857A1

WO2020147857A1 - 海量视频特征提取以及存储和检索方法及系统

Info

Publication number: WO2020147857A1
Application number: PCT/CN2020/072969
Authority: WO
Inventors: 李传朋; 顾寅铮; 谢锦滨
Original assignee: 上海极链网络科技有限公司
Priority date: 2019-01-18
Filing date: 2020-01-19
Publication date: 2020-07-23
Also published as: CN109815364A; CN109815364B

Abstract

公开了一种海量视频特征提取、存储和检索方法及系统，特征提取通过训练深度卷积神经网络提取，存储方法包括视频分片、间隔采样、地标识别、深度卷积神经网络处理得到哈希编码和特征、选择关键帧等步骤，检索方法包括地标信息和图片检索，输入图片时，首先通过深度卷积神经网络提取哈希编码和特征，希编码在哈希索引库中快速检索，然后用特征在视频特征库中精确匹配，得到相似地标的索引后在视频信息库中获取视频信息；本申请具有较佳地准确性，精度高。

Description

海量视频特征提取以及存储和检索方法及系统

本申请要求在2019年01月18日提交中国专利局、申请号为201910047518.3的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，例如涉及一种海量视频特征提取、存储和检索方法及系统。

背景技术

图像检索技术可以分为基于文本的检索方法和基于内容的检索方法，基于文本的检索方法首先需要预先为所有检索库中的图像添加文本标注，输入关键词与所有图像的标注文本进行匹配。基于图像内容的检索方法检索流程与基于文本的检索方法类似，不同的是基于内容的检索方式是以图像的视觉特征作为图像的描述，视觉特征提取目前有sift、hog、harr、gist等传统方法，检索方式是提取图像视觉特征，与特征库中特征匹配检索。

目前的视频检索方法准确率低，精度小，不能满足人们的需求。

发明内容

本申请的内容是提供一种海量视频特征提取、存储和检索方法及系统，其能够克服相关技术的某种或某些缺陷。

根据本申请的一种海量视频特征提取方法，包括：

将视频输入到深度卷积神经网络；

通过深度卷积神经网络对视频进行特征提取；

得到视频特征。

本申请还提供了一种基于深度卷积神经网络的海量视频特征提取系统，所述深度卷积神经网络以ResNet101为基础，其ResNet101上的conv-5模块包括c5-1、c5-2和c5-3以及attention操作模块，attention操作模块包括spatial attention操作模块、channel attention操作模块和最终操作模块，其中：

spatial attention操作模块用于处理c5-1连接一层卷积核为3x3的卷积并输出512个特征图，再接一层3x3的卷积并输出一张特征图；

channel attention操作模块用于处理c5-2连接一层1x1的卷积，保持维度2048维不变，并做全局池化操作；

最终操作模块用于处理c5-1、c5-2和c5-3之间的关系得出最终的特征。

根据本申请的一种海量视频存储方法，其包括以下步骤：

将视频经过镜头检测分割成由镜头组成的片段，并存入视频信息库中；

对所述片段进行间隔采样，生成采样帧，并将所述采样帧输入深度卷积神经网络，以得到哈希编码和多个特征；

将所述采样帧输入地标识别模型中进行地标识别，并将识别结果存入视频地标库；

通过比较所述多个特征之间的相关性，选择关键帧，并将关键帧的特征存入视频特征库，将关键帧的哈希编码存入哈希索引库。

本申请还提供了一种海量视频存储系统，其其采用上述的一种基于深度学习的海量视频存储方法。

本申请还提供了一种海量视频检索方法，其包括以下步骤：

输入地标信息或图像；

在输入地标信息的情况下，在视频地标库中查找；在输入图片的情况下，首先通过深度卷积神经网络提取哈希编码和特征；将哈希编码输入哈希索引库中检索，然后用特征在视频特征库中精确匹配，得到相似地标的索引后在视频信息库中获取视频信息。

本申请还提供了一种海量视频检索系统，其采用上述的一种海量视频检索方法。

附图概述

图1为实施例1中一种海量视频特征提取方法的流程图；

图2为实施例1中一种基于深度卷积神经网络的海量视频特征提取系统的结构框图；

图3为实施例1中一种海量视频存储方法的流程图；

图4为实施例1中一种海量视频检索方法的流程图。

具体实施方式

为进一步了解本申请的内容，结合附图和实施例对本申请作详细描述。应当理解的是，实施例仅仅是对本申请进行解释而并非限定。

如图1所示，本实施例提供了一种海量视频特征提取方法，包括以下步骤：

a、将视频输入到深度卷积神经网络；

b、深度卷积神经网络对视频进行特征提取；

c、得到视频特征。

本实施例中，所述深度卷积神经网络以ResNet101为基础，其conv-5包括c5-1、c5-2和c5-3，在conv-5进行attention操作如下：

c5-1连接一层卷积核为3x3的卷积并输出512个特征图，再接一层3x3的卷积并输出一张特征图，该特征图作为spatial方向的attention map；

c5-2连接一层1x1的卷积，保持维度2048维不变，并做全局池化操作，得到channel方向的attention map；

特征提取的计算公式如下：

其中，F _c-3表示c5-3层的特征图，

表示矩阵元素乘法操作，

表示矩阵元素加法操作，M _s和M _c分别表示spatial attention操作和channel attention操作；attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量，并使用L2归一化特征。

本实施例中，深度卷积神经网络的损失函数为contrastive loss，训练集为structure-from-motion，训练完成后，分别固定基础模型参数，训练512维的哈希编码层，以及支持4784个地标的全连接层。

本实施例中，训练深度卷积神经网络提取特征后，增加一层2048维的全连接层FC，并对特征和FC进行concat操作，组成4096维特征，经过pca降维至2048，作为最终的特征。

本申请通过深度卷积神经网络提取视频特征，使特征更明显，更精确。

如图2所示，本实施例提供了一种基于深度卷积神经网络的海量视频特征提取系统，所述深度卷积神经网络以ResNet101为基础，其ResNet101上的conv-5模块包括c5-1、c5-2和c5-3以及attention操作模块，attention操作模块包括spatial attention操作模块、channel attention操作模块和最终操作模块，其中：

如图3所示，本实施例提供了一种海量视频存储方法，其包括以下步骤：

一、将视频分片，经过镜头检测分割成由镜头组成的片段，并存入视频信息库中；

二、片段间隔采样生成采样帧，采样帧输入深度卷积神经网络(即图中的V-DIR)后得到哈希编码和特征；

三、采样帧输入地标识别模型中进行地标识别，结果存入视频地标库；

四、比较特征之间的相关性，选择关键帧，将关键帧的特征存入视频特征库，关键帧的哈希编码存入哈希索引库。海量视频通过深度卷积神经网络预先分析，视频中以一定间隔采样帧，并根据特征选择关键帧，特征存储只选择关键帧进行存储，从而减少空间占用。

深度卷积神经网络是一种深度卷积神经网络，分级训练特征提取模型、哈希编码层、地标识别模型。以ResNet101为基础模型，conv5卷积经过Generalized-mean pooling输出2048维的特征向量，训练使用contrastive loss作为损失函数，训练完成后，分别固定基础模型参数，训练512维的哈希编码层，由一层全连接和sigmoid组成，以及支持4784个地标的全连接层，由一层全连接和softmax组成。

地标识别模型是在深度卷积神经网络模型的特征层后连接的全连接层，使用有标签的地标图像进行训练的，通过softmax方式预测类别。

本实施例中，步骤一中，视频分片是在视频任务调度系统中进行，并将完整视频按照3500帧长进行分片，利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界，将视频分割为由镜头组成的片段。

本实施例中，步骤一中，片段存入视频信息库的信息包括开始帧数、结束帧数、帧长和所属视频。

本实施例中，步骤二中，片段按照30帧间隔采样。

本实施例中，步骤三中，地标识别的方法为：如果地标识别模型中某个类别softmax值大于0.8则认为当前镜头的地标为该类别则认为当前镜头的地标为该类别，将结果存入视频地标库。

本实施例中，步骤四中，比较特征之间的相关性的方法为：用余弦距离比较，以阈值0.55作为边界，高于该阈值认为相似，相似的特征只保留首个特征，从而获取代表该镜头的一个或者多个关键帧。将关键帧的2048维特征存入视频特征库中存储，512维的哈希编码存入哈希索引库。

本实施例中，哈希编码的构建由训练中增加sigmoid加强编码的可分性，以0.5的阈值划分为0、1编码。

本实施例提供了一种海量视频存储系统，其采用上述的一种海量视频存储方法。

如图4所示，本实施例提供了一种海量视频检索方法，其包括以下步骤：

(1)、输入地标信息或图像；

(2)、输入地标信息时，进入视频地标库中查找；输入图片时，首先通过深度卷积神经网络提取哈希编码和特征；

(3)、哈希编码在哈希索引库中快速检索，然后用特征在视频特征库中精确匹配，得到相似地标的索引后在视频信息库中获取视频信息。

本实施例中，步骤(2)中，提取哈希编码和特征后，哈希编码在历史检索库中查找是否有相似的检索，若有，直接用特征精确匹配，若无，进行步骤(3)。

本实施例中，精确匹配的方法为：根据哈希检索后所得到的特征索引，得到候选特征数N，组成[N,2048]的特征矩阵，同检索图片的特征进行余弦距离计算，根据匹配相似度进行排序后，从视频信息库中查询到视频片段信息，配合截图输出到界面。使用深度哈希作为快速索引方式，不需要计算全部特征的余弦距离，哈希编码存储在数据库中，使用hamming距离进行匹配，保证能够快速检索。快速检索地标后，并不确定检索出的地标与输入地标匹配，从而进一步通过视频特征库计算余弦距离比较，从而保证能够精确检索。

本实施例提供了一种海量视频检索系统，其采用上述的一种海量视频检索方法。

存储支持已经标注的4784类，但检索并不局限于此，输入非4784类中的地标图像，同样能检索出与之相似的视频中地标，并精确定位在视频中的位置。

本申请包括视频镜头分割、关键帧提取、特征存储与索引、快速检索、地标匹配与识别等技术，利用深度卷积神经网络的深度特征充分描述图像中的地标特征，增加地标前期识别和后期索引的准确率。通过构建哈希索引库和视频特征库，在保证快速检索的同时，提高检索的匹配精度。本申请提供一种基于深度神经网络的针对地标图像的特征提取、存储、索引的框架，适应大规模视频的地标检索和识别。

以上示意性的对本申请及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本申请的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本申请创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本申请的保护范围。

Claims

一种海量视频特征提取方法，包括：

将视频输入到深度卷积神经网络；

通过深度卷积神经网络对视频进行特征提取；得到视频特征；

其中，所述深度卷积神经网络以ResNet101为基础，所述ResNet101上的conv-5包括c5-1、c5-2和c5-3，在conv-5进行attention操作如下：

c5-1连接一层卷积核为3x3的卷积并输出512张特征图，c5-1再连接一层3x3的卷积并输出一张特征图，所述特征图作为spatial方向的attention map；

c5-2连接一层1x1的卷积，保持维度2048维不变，并做全局池化操作，得到channel方向的attention map；

其中，所述视频特征的计算公式如下：

其中，F _c-1表示c5-1层的特征图，F _c-2表示c5-2层的特征图，F _c-3表示c5-3层的特征图，
表示矩阵元素乘法操作，
表示矩阵元素加法操作，M _s和M _c分别表示spatial attention操作和channel attention操作；attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量，并使用L2归一化特征。
根据权利要求1所述的方法，其中：所述深度卷积神经网络的损失函数为contrastive loss，训练集为structure-from-motion，在所述深度卷积神经网络训练完成后，通过固定基础模型参数，分别训练512维的哈希编码层以及支持4784个地标的全连接层。
根据权利要求2所述的方法，在通过训练后的所述深度卷积神经网络对视频进行特征提取之后，还包括：

增加一层2048维的全连接层FC，并对所述视频特征和FC进行concat操作，组成4096维特征，经过pca降维至2048维特征，以更新所述视频特征。
一种基于深度卷积神经网络的海量视频特征提取系统，包括：所述深度卷积神经网络以ResNet101为基础，所述ResNet101包括conv-5模块以及attention操作模块，其中，所述conv-5模块包括c5-1、c5-2和c5-3，所述attention操作模块包括spatial attention操作模块、channel attention操作模块和最终操作模块，其中：

所述spatial attention操作模块设置为处理c5-1连接一层卷积核为3x3的卷积并输出512张特征图，以及处理c5-1再连接一层3x3的卷积并输出一张特征图；

所述channel attention操作模块设置为处理c5-2连接一层1x1的卷积，保持维度2048维不变，并做全局池化操作；

所述最终操作模块设置为处理c5-1、c5-2和c5-3之间的关系得出视频特征；

所述视频特征的计算公式如下：

其中，F _c-1表示c5-1层的特征图，F _c-2表示c5-2层的特征图，F _c-3表示c5-3层的特征图，
表示矩阵元素乘法操作，
表示矩阵元素加法操作，M _s和M _c分别表示spatial attention操作和channel attention操作；attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量，并使用L2归一化特征。
一种海量视频存储方法，包括：

将视频经过镜头检测分割成由镜头组成的片段，并存入视频信息库中；

对所述片段进行间隔采样，生成采样帧，并将所述采样帧输入深度卷积神经网络，以得到哈希编码和多个特征；

将所述采样帧输入地标识别模型中进行地标识别，并将识别结果存入视频地标库；

通过比较所述多个特征之间的相关性，选择关键帧，并将所述关键帧的特征存入视频特征库，将所述关键帧的哈希编码存入哈希索引库；

其中，所述深度卷积神经网络以ResNet101为基础，所述ResNet101上的conv-5包括c5-1、c5-2和c5-3，在conv-5进行attention操作如下：

c5-1连接一层卷积核为3x3的卷积并输出512张特征图，c5-1再连接一层3x3的卷积并输出一张特征图，所述特征图作为spatial方向的attention map；

c5-2连接一层1x1的卷积，保持维度2048维不变，并做全局池化操作，得到channel方向的attention map；

其中，所述视频特征的计算公式如下：

其中，F _c-1表示c5-1层的特征图，F _c-2表示c5-2层的特征图，F _c-3表示c5-3层的特征图，
表示矩阵元素乘法操作，
表示矩阵元素加法操作，M _s和M _c分别表示spatial attention操作和channel attention操作；attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量，并使用L2归一化特征。
根据权利要求5所述的方法，其中，所述将视频经过镜头检测分割成由镜头组成的片段包括：

在视频任务调度系统中，利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界，将视频分割为由镜头组成的片段。
根据权利要求5所述的方法，其中，存入视频信息库的片段的信息包括：开始帧数、结束帧数、帧长和所属视频。
根据权利要求5所述的方法，其中，所述对所述片段进行间隔采样包括：

按照30帧间隔，对所述片段进行采样。
根据权利要求5所述的方法，其中，所述将所述采样帧输入地标识别模型中进行地标识别，并将识别结果存入视频地标库包括：

在地标识别模型中，将softmax值大于0.8的类别设定为所述采样帧的地标类别，并将所述采样帧的地标类别作为识别结果存入视频地标库。
根据权利要求5所述的方法，其中，所述通过比较所述多个特征之间的相关性，选择关键帧包括：

以阈值0.55作为边界，将高于所述阈值的多个特征设定为相似；

将相似的特征只保留首个特征，从而获取代表所述镜头的至少一个关键帧。
根据权利要求5所述的方法，其中，哈希编码由在训练中增加sigmoid加强编码的可分性来构建，其中，所述sigmoid加强编码以0.5的阈值划分为0、1编码。
一种海量视频存储系统，其中，所述海量视频存储系统设置为采用权利要求5-11中任意一项的一种基于深度学习的海量视频存储方法。
一种海量视频检索方法，包括：

输入地标信息或图像；

在输入地标信息的情况下，在视频地标库中查找；在输入图片的情况下，首先通过深度卷积神经网络提取哈希编码和特征；将哈希编码输入哈希索引库中检索，然后用特征在视频特征库中精确匹配，得到相似地标的索引后在视频信息库中获取视频信息；

其中，所述深度卷积神经网络以ResNet101为基础，所述ResNet101上的conv-5包括c5-1、c5-2和c5-3，在conv-5进行attention操作如下：

c5-1连接一层卷积核为3x3的卷积并输出512张特征图，c5-1再连接一层3x3的卷积并输出一张特征图，所述特征图作为spatial方向的attention map；

c5-2连接一层1x1的卷积，保持维度2048维不变，并做全局池化操作，得到channel方向的attention map；

其中，所述视频特征的计算公式如下：

其中，F _c-1表示c5-1层的特征图，F _c-2表示c5-2层的特征图，F _c-3表示c5-3层的特征图，
表示矩阵元素乘法操作，
表示矩阵元素加法操作，M _s和M _c分别表示spatial attention操作和channel attention操作；attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量，并使用L2归一化特征。
如权利要求13所述的方法，在提取哈希编码和特征后，还包括：

将哈希编码输入历史检索库中查找是否有相似的检索，响应于有相似的检索，直接用特征精确匹配；响应于没有相似的检索，将哈希编码输入哈希索引库中检索。
如权利要求13所述的方法，其中，所述用特征在视频特征库中精确匹配包括：

根据哈希检索后所得到的特征索引，得到候选特征数N，组成[N,2048]的特征矩阵，将所述特征矩阵同检索图片的特征进行余弦距离计算，根据匹配相似度进行排序后，从视频信息库中查询到视频片段信息，配合截图输出到界面。
一种海量视频检索系统，其中，所述海量视频检索系统设置为采用权利要求13-15中任意一项的一种海量视频特征检索方法。