WO2020147857A1 - 海量视频特征提取以及存储和检索方法及系统 - Google Patents

海量视频特征提取以及存储和检索方法及系统 Download PDF

Info

Publication number
WO2020147857A1
WO2020147857A1 PCT/CN2020/072969 CN2020072969W WO2020147857A1 WO 2020147857 A1 WO2020147857 A1 WO 2020147857A1 CN 2020072969 W CN2020072969 W CN 2020072969W WO 2020147857 A1 WO2020147857 A1 WO 2020147857A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
feature
layer
attention
features
Prior art date
Application number
PCT/CN2020/072969
Other languages
English (en)
French (fr)
Inventor
李传朋
顾寅铮
谢锦滨
Original Assignee
上海极链网络科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 上海极链网络科技有限公司 filed Critical 上海极链网络科技有限公司
Publication of WO2020147857A1 publication Critical patent/WO2020147857A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Definitions

  • This application relates to the technical field of video processing, for example, to a method and system for extracting, storing, and retrieving massive video features.
  • Image retrieval technology can be divided into text-based retrieval methods and content-based retrieval methods.
  • the text-based retrieval method first needs to add text annotations to all images in the search library in advance, and input keywords to match the annotation text of all images.
  • the retrieval process based on the image content is similar to the text-based retrieval method. The difference is that the content-based retrieval method uses the visual features of the image as the description of the image. There are currently traditional methods such as sift, hog, harr, and gist for visual feature extraction.
  • the retrieval method is to extract the visual features of the image and match the retrieval with the features in the feature library.
  • the current video retrieval methods have low accuracy and low precision, and cannot meet people's needs.
  • the content of this application is to provide a method and system for extracting, storing, and retrieving massive video features, which can overcome some or some defects of related technologies.
  • a method for extracting massive video features according to this application includes:
  • This application also provides a massive video feature extraction system based on a deep convolutional neural network.
  • the deep convolutional neural network is based on ResNet101.
  • the conv-5 module on ResNet101 includes c5-1, c5-2 and c5. -3 and attention operation module, the attention operation module includes spatial attention operation module, channel attention operation module and final operation module, among which:
  • the spatial attention operation module is used to process c5-1 convolution with a convolution kernel of 3x3 and output 512 feature maps, followed by a 3x3 convolution and output a feature map;
  • the channel attention operation module is used to process the convolution of the c5-2 connection layer 1x1, keep the dimension 2048 unchanged, and perform the global pooling operation;
  • the final operation module is used to process the relationship between c5-1, c5-2 and c5-3 to obtain the final characteristics.
  • a mass video storage method includes the following steps:
  • a key frame is selected, the feature of the key frame is stored in a video feature library, and the hash code of the key frame is stored in a hash index library.
  • This application also provides a mass video storage system, which adopts the aforementioned deep learning-based mass video storage method.
  • This application also provides a massive video retrieval method, which includes the following steps:
  • search in the video landmark library In the case of inputting landmark information, search in the video landmark library; in the case of inputting pictures, first extract the hash codes and features through the deep convolutional neural network; input the hash codes into the hash index library to search, and then use Features are accurately matched in the video feature library, and the video information is obtained from the video information library after obtaining the index of similar landmarks.
  • the application also provides a mass video retrieval system, which adopts the above-mentioned mass video retrieval method.
  • FIG. 1 is a flowchart of a method for extracting massive video features in Embodiment 1;
  • Embodiment 2 is a structural block diagram of a massive video feature extraction system based on a deep convolutional neural network in Embodiment 1;
  • FIG. 3 is a flowchart of a method for storing massive videos in Embodiment 1;
  • FIG. 4 is a flowchart of a method for retrieving massive videos in Embodiment 1.
  • this embodiment provides a method for extracting massive video features, including the following steps:
  • the deep convolutional neural network performs feature extraction on the video
  • the deep convolutional neural network is based on ResNet101, and its conv-5 includes c5-1, c5-2, and c5-3.
  • the attention operations performed on conv-5 are as follows:
  • c5-1 connects a layer of convolution kernel with 3x3 convolution and outputs 512 feature maps, and then connects with a layer of 3x3 convolution and outputs a feature map, which is used as an attention map in the spatial direction;
  • c5-2 connects a layer of 1x1 convolution, keeps the dimension 2048 unchanged, and performs a global pooling operation to get the attention map in the channel direction;
  • F c-3 represents the feature map of layer c5-3, Represents the multiplication operation of matrix elements, Represents the addition operation of matrix elements, M s and M c represent spatial attention operation and channel attention operation respectively; the last layer of attention convolution outputs 2048-dimensional feature vectors through Generalized-mean pooling, and uses L2 normalized features.
  • the loss function of the deep convolutional neural network is contrastive loss
  • the training set is structure-from-motion.
  • the basic model parameters are fixed respectively, the 512-dimensional hash coding layer is trained, and 4784 landmarks are supported. The fully connected layer.
  • This application extracts video features through a deep convolutional neural network to make the features more obvious and accurate.
  • this embodiment provides a massive video feature extraction system based on a deep convolutional neural network.
  • the deep convolutional neural network is based on ResNet101.
  • the conv-5 module on ResNet101 includes c5-1 , C5-2 and c5-3, and attention operation modules.
  • the attention operation modules include spatial attention operation modules, channel attention operation modules and final operation modules, among which:
  • the spatial attention operation module is used to process c5-1 convolution with a convolution kernel of 3x3 and output 512 feature maps, followed by a 3x3 convolution and output a feature map;
  • the channel attention operation module is used to process the convolution of the c5-2 connection layer 1x1, keep the dimension 2048 unchanged, and perform the global pooling operation;
  • the final operation module is used to process the relationship between c5-1, c5-2 and c5-3 to obtain the final characteristics.
  • this embodiment provides a mass video storage method, which includes the following steps:
  • Fragment interval sampling generates sampling frames, and the sampling frames are input into the deep convolutional neural network (ie V-DIR in the figure) to obtain hash codes and features;
  • the sampled frames are input into the landmark recognition model for landmark recognition, and the results are stored in the video landmark library;
  • Deep Convolutional Neural Network is a deep convolutional neural network, hierarchical training feature extraction model, hash coding layer, landmark recognition model.
  • ResNet101 as the basic model
  • conv5 convolution outputs 2048-dimensional feature vectors through Generalized-mean pooling, and training uses contrastive loss as the loss function.
  • the basic model parameters are fixed respectively, and a 512-dimensional hash coding layer is trained.
  • the layer is fully connected and sigmoid, and the fully connected layer supporting 4784 landmarks is composed of a layer of fully connected and softmax.
  • the landmark recognition model is a fully connected layer connected after the feature layer of the deep convolutional neural network model. It is trained using labeled landmark images and predicts the category by softmax.
  • step 1 the video segmentation is performed in the video task scheduling system, and the complete video is segmented according to the 3500 frame length, and the integrated characteristics of the tracking stream and the global image color distribution continuity are used to determine the shot time boundary To split the video into segments composed of shots.
  • the information of the segment stored in the video information database includes the start frame number, the end frame number, the frame length and the video to which it belongs.
  • step 2 the segment is sampled at 30 frame intervals.
  • the landmark recognition method is: if the softmax value of a category in the landmark recognition model is greater than 0.8, then the landmark of the current shot is considered to be that category, then the landmark of the current shot is considered to be the category, and the result is stored Video landmark library.
  • step 4 the method of comparing the correlation between features is: use cosine distance comparison, with a threshold of 0.55 as the boundary, above the threshold, it is considered similar, similar features only retain the first feature, thereby obtaining a representative One or more key frames of this shot.
  • the 2048-dimensional features of the key frame are stored in the video feature library, and the 512-dimensional hash code is stored in the hash index library.
  • the construction of the hash code is to increase the separability of the code by adding sigmoid in training, and divide it into 0 and 1 codes with a threshold of 0.5.
  • This embodiment provides a mass video storage system, which adopts the aforementioned mass video storage method.
  • this embodiment provides a method for retrieving massive videos, which includes the following steps:
  • Hash coding is quickly searched in the hash index library, and then the feature is used to accurately match the video feature library to obtain the video information from the video information library after obtaining the index of the similar landmark.
  • step (2) after extracting the hash codes and features, the hash codes are searched in the historical search database for similar searches. If so, the features are directly used for exact matching. If not, go to step (3). ).
  • the exact matching method is: according to the feature index obtained after the hash search, the candidate feature number N is obtained to form a feature matrix of [N,2048], and the cosine distance is calculated with the feature of the retrieved picture, and the matching After the similarity is sorted, the video clip information is queried from the video information database and output to the interface with screenshots.
  • the hash code is stored in the database, and the hamming distance is used for matching to ensure fast retrieval. After the landmark is quickly retrieved, it is not certain that the retrieved landmark matches the input landmark, and the cosine distance comparison is further calculated through the video feature library to ensure accurate retrieval.
  • This embodiment provides a mass video retrieval system, which adopts the aforementioned mass video retrieval method.
  • the storage supports the 4784 categories that have been marked, but the retrieval is not limited to this. Inputting a landmark image that is not in the 4784 category can also retrieve similar landmarks in the video and accurately locate the location in the video.
  • This application includes technologies such as video shot segmentation, key frame extraction, feature storage and indexing, fast retrieval, landmark matching and recognition.
  • the deep features of deep convolutional neural networks are used to fully describe the landmark features in the image, and the pre-recognition and post-indexing of landmarks are added. The accuracy rate.
  • This application provides a framework for feature extraction, storage, and indexing of landmark images based on deep neural networks, which is suitable for landmark retrieval and recognition of large-scale videos.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种海量视频特征提取、存储和检索方法及系统,特征提取通过训练深度卷积神经网络提取,存储方法包括视频分片、间隔采样、地标识别、深度卷积神经网络处理得到哈希编码和特征、选择关键帧等步骤,检索方法包括地标信息和图片检索,输入图片时,首先通过深度卷积神经网络提取哈希编码和特征,希编码在哈希索引库中快速检索,然后用特征在视频特征库中精确匹配,得到相似地标的索引后在视频信息库中获取视频信息;本申请具有较佳地准确性,精度高。

Description

海量视频特征提取以及存储和检索方法及系统
本申请要求在2019年01月18日提交中国专利局、申请号为201910047518.3的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及视频处理技术领域,例如涉及一种海量视频特征提取、存储和检索方法及系统。
背景技术
图像检索技术可以分为基于文本的检索方法和基于内容的检索方法,基于文本的检索方法首先需要预先为所有检索库中的图像添加文本标注,输入关键词与所有图像的标注文本进行匹配。基于图像内容的检索方法检索流程与基于文本的检索方法类似,不同的是基于内容的检索方式是以图像的视觉特征作为图像的描述,视觉特征提取目前有sift、hog、harr、gist等传统方法,检索方式是提取图像视觉特征,与特征库中特征匹配检索。
目前的视频检索方法准确率低,精度小,不能满足人们的需求。
发明内容
本申请的内容是提供一种海量视频特征提取、存储和检索方法及系统,其能够克服相关技术的某种或某些缺陷。
根据本申请的一种海量视频特征提取方法,包括:
将视频输入到深度卷积神经网络;
通过深度卷积神经网络对视频进行特征提取;
得到视频特征。
本申请还提供了一种基于深度卷积神经网络的海量视频特征提取系统,所述深度卷积神经网络以ResNet101为基础,其ResNet101上的conv-5模块包括c5-1、c5-2和c5-3以及attention操作模块,attention操作模块包括spatial attention操作模块、channel attention操作模块和最终操作模块,其中:
spatial attention操作模块用于处理c5-1连接一层卷积核为3x3的卷积并输出512个特征图,再接一层3x3的卷积并输出一张特征图;
channel attention操作模块用于处理c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作;
最终操作模块用于处理c5-1、c5-2和c5-3之间的关系得出最终的特征。
根据本申请的一种海量视频存储方法,其包括以下步骤:
将视频经过镜头检测分割成由镜头组成的片段,并存入视频信息库中;
对所述片段进行间隔采样,生成采样帧,并将所述采样帧输入深度卷积神经网络,以得到哈希编码和多个特征;
将所述采样帧输入地标识别模型中进行地标识别,并将识别结果存入视频地标库;
通过比较所述多个特征之间的相关性,选择关键帧,并将关键帧的特征存入视频特征库,将关键帧的哈希编码存入哈希索引库。
本申请还提供了一种海量视频存储系统,其其采用上述的一种基于深度学习的海量视频存储方法。
本申请还提供了一种海量视频检索方法,其包括以下步骤:
输入地标信息或图像;
在输入地标信息的情况下,在视频地标库中查找;在输入图片的情况下,首先通过深度卷积神经网络提取哈希编码和特征;将哈希编码输入哈希索引库中检索,然后用特征在视频特征库中精确匹配,得到相似地标的索引后在视频信息库中获取视频信息。
本申请还提供了一种海量视频检索系统,其采用上述的一种海量视频检索方法。
附图概述
图1为实施例1中一种海量视频特征提取方法的流程图;
图2为实施例1中一种基于深度卷积神经网络的海量视频特征提取系统的结构框图;
图3为实施例1中一种海量视频存储方法的流程图;
图4为实施例1中一种海量视频检索方法的流程图。
具体实施方式
为进一步了解本申请的内容,结合附图和实施例对本申请作详细描述。应当理解的是,实施例仅仅是对本申请进行解释而并非限定。
如图1所示,本实施例提供了一种海量视频特征提取方法,包括以下步骤:
a、将视频输入到深度卷积神经网络;
b、深度卷积神经网络对视频进行特征提取;
c、得到视频特征。
本实施例中,所述深度卷积神经网络以ResNet101为基础,其conv-5包括c5-1、c5-2和c5-3,在conv-5进行attention操作如下:
c5-1连接一层卷积核为3x3的卷积并输出512个特征图,再接一层3x3的卷积并输出一张特征图,该特征图作为spatial方向的attention map;
c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作,得到channel方向的attention map;
特征提取的计算公式如下:
Figure PCTCN2020072969-appb-000001
其中,F c-3表示c5-3层的特征图,
Figure PCTCN2020072969-appb-000002
表示矩阵元素乘法操作,
Figure PCTCN2020072969-appb-000003
表示矩阵元素加法操作,M s和M c分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
本实施例中,深度卷积神经网络的损失函数为contrastive loss,训练集为structure-from-motion,训练完成后,分别固定基础模型参数,训练512维的哈希编码层,以及支持4784个地标的全连接层。
本实施例中,训练深度卷积神经网络提取特征后,增加一层2048维的全连接层FC,并对特征和FC进行concat操作,组成4096维特征,经过pca降维至2048,作为最终的特征。
本申请通过深度卷积神经网络提取视频特征,使特征更明显,更精确。
如图2所示,本实施例提供了一种基于深度卷积神经网络的海量视频特征提取系统,所述深度卷积神经网络以ResNet101为基础,其ResNet101上的conv-5模块包括c5-1、c5-2和c5-3以及attention操作模块,attention操作模块包括spatial attention操作模块、channel attention操作模块和最终操作模块,其中:
spatial attention操作模块用于处理c5-1连接一层卷积核为3x3的卷积并输出512个特征图,再接一层3x3的卷积并输出一张特征图;
channel attention操作模块用于处理c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作;
最终操作模块用于处理c5-1、c5-2和c5-3之间的关系得出最终的特征。
如图3所示,本实施例提供了一种海量视频存储方法,其包括以下步骤:
一、将视频分片,经过镜头检测分割成由镜头组成的片段,并存入视频信息库中;
二、片段间隔采样生成采样帧,采样帧输入深度卷积神经网络(即图中的V-DIR)后得到哈希编码和特征;
三、采样帧输入地标识别模型中进行地标识别,结果存入视频地标库;
四、比较特征之间的相关性,选择关键帧,将关键帧的特征存入视频特征库,关键帧的哈希编码存入哈希索引库。海量视频通过深度卷积神经网络预先分析,视频中以一定间隔采样帧,并根据特征选择关键帧,特征存储只选择关键帧进行存储,从而减少空间占用。
深度卷积神经网络是一种深度卷积神经网络,分级训练特征提取模型、哈希编码层、地标识别模型。以ResNet101为基础模型,conv5卷积经过Generalized-mean pooling输出2048维的特征向量,训练使用contrastive loss作为损失函数,训练完成后,分别固定基础模型参数,训练512维的哈希编码层,由一层全连接和sigmoid组成,以及支持4784个地标的全连接层,由一层全连接和softmax组成。
地标识别模型是在深度卷积神经网络模型的特征层后连接的全连接层,使用有标签的地标图像进行训练的,通过softmax方式预测类别。
本实施例中,步骤一中,视频分片是在视频任务调度系统中进行,并将完整视频按照3500帧长进行分片,利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界,将视频分割为由镜头组成的片段。
本实施例中,步骤一中,片段存入视频信息库的信息包括开始帧数、结束帧数、帧长和所属视频。
本实施例中,步骤二中,片段按照30帧间隔采样。
本实施例中,步骤三中,地标识别的方法为:如果地标识别模型中某个类别softmax值大于0.8则认为当前镜头的地标为该类别则认为当前镜头的地标为 该类别,将结果存入视频地标库。
本实施例中,步骤四中,比较特征之间的相关性的方法为:用余弦距离比较,以阈值0.55作为边界,高于该阈值认为相似,相似的特征只保留首个特征,从而获取代表该镜头的一个或者多个关键帧。将关键帧的2048维特征存入视频特征库中存储,512维的哈希编码存入哈希索引库。
本实施例中,哈希编码的构建由训练中增加sigmoid加强编码的可分性,以0.5的阈值划分为0、1编码。
本实施例提供了一种海量视频存储系统,其采用上述的一种海量视频存储方法。
如图4所示,本实施例提供了一种海量视频检索方法,其包括以下步骤:
(1)、输入地标信息或图像;
(2)、输入地标信息时,进入视频地标库中查找;输入图片时,首先通过深度卷积神经网络提取哈希编码和特征;
(3)、哈希编码在哈希索引库中快速检索,然后用特征在视频特征库中精确匹配,得到相似地标的索引后在视频信息库中获取视频信息。
本实施例中,步骤(2)中,提取哈希编码和特征后,哈希编码在历史检索库中查找是否有相似的检索,若有,直接用特征精确匹配,若无,进行步骤(3)。
本实施例中,精确匹配的方法为:根据哈希检索后所得到的特征索引,得到候选特征数N,组成[N,2048]的特征矩阵,同检索图片的特征进行余弦距离计算,根据匹配相似度进行排序后,从视频信息库中查询到视频片段信息,配合截图输出到界面。使用深度哈希作为快速索引方式,不需要计算全部特征的余弦距离,哈希编码存储在数据库中,使用hamming距离进行匹配,保证能够快速检索。快速检索地标后,并不确定检索出的地标与输入地标匹配,从而进一步通过视频特征库计算余弦距离比较,从而保证能够精确检索。
本实施例提供了一种海量视频检索系统,其采用上述的一种海量视频检索方法。
存储支持已经标注的4784类,但检索并不局限于此,输入非4784类中的地标图像,同样能检索出与之相似的视频中地标,并精确定位在视频中的位置。
本申请包括视频镜头分割、关键帧提取、特征存储与索引、快速检索、地标匹配与识别等技术,利用深度卷积神经网络的深度特征充分描述图像中的地标特征,增加地标前期识别和后期索引的准确率。通过构建哈希索引库和视频 特征库,在保证快速检索的同时,提高检索的匹配精度。本申请提供一种基于深度神经网络的针对地标图像的特征提取、存储、索引的框架,适应大规模视频的地标检索和识别。
以上示意性的对本申请及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本申请的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本申请创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本申请的保护范围。

Claims (16)

  1. 一种海量视频特征提取方法,包括:
    将视频输入到深度卷积神经网络;
    通过深度卷积神经网络对视频进行特征提取;得到视频特征;
    其中,所述深度卷积神经网络以ResNet101为基础,所述ResNet101上的conv-5包括c5-1、c5-2和c5-3,在conv-5进行attention操作如下:
    c5-1连接一层卷积核为3x3的卷积并输出512张特征图,c5-1再连接一层3x3的卷积并输出一张特征图,所述特征图作为spatial方向的attention map;
    c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作,得到channel方向的attention map;
    其中,所述视频特征的计算公式如下:
    Figure PCTCN2020072969-appb-100001
    其中,F c-1表示c5-1层的特征图,F c-2表示c5-2层的特征图,F c-3表示c5-3层的特征图,
    Figure PCTCN2020072969-appb-100002
    表示矩阵元素乘法操作,
    Figure PCTCN2020072969-appb-100003
    表示矩阵元素加法操作,M s和M c分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
  2. 根据权利要求1所述的方法,其中:所述深度卷积神经网络的损失函数为contrastive loss,训练集为structure-from-motion,在所述深度卷积神经网络训练完成后,通过固定基础模型参数,分别训练512维的哈希编码层以及支持4784个地标的全连接层。
  3. 根据权利要求2所述的方法,在通过训练后的所述深度卷积神经网络对视频进行特征提取之后,还包括:
    增加一层2048维的全连接层FC,并对所述视频特征和FC进行concat操作,组成4096维特征,经过pca降维至2048维特征,以更新所述视频特征。
  4. 一种基于深度卷积神经网络的海量视频特征提取系统,包括:所述深度卷积神经网络以ResNet101为基础,所述ResNet101包括conv-5模块以及attention操作模块,其中,所述conv-5模块包括c5-1、c5-2和c5-3,所述attention操作模块包括spatial attention操作模块、channel attention操作模块和最终操作模块,其中:
    所述spatial attention操作模块设置为处理c5-1连接一层卷积核为3x3的卷积并输出512张特征图,以及处理c5-1再连接一层3x3的卷积并输出一张特征 图;
    所述channel attention操作模块设置为处理c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作;
    所述最终操作模块设置为处理c5-1、c5-2和c5-3之间的关系得出视频特征;
    所述视频特征的计算公式如下:
    Figure PCTCN2020072969-appb-100004
    其中,F c-1表示c5-1层的特征图,F c-2表示c5-2层的特征图,F c-3表示c5-3层的特征图,
    Figure PCTCN2020072969-appb-100005
    表示矩阵元素乘法操作,
    Figure PCTCN2020072969-appb-100006
    表示矩阵元素加法操作,M s和M c分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
  5. 一种海量视频存储方法,包括:
    将视频经过镜头检测分割成由镜头组成的片段,并存入视频信息库中;
    对所述片段进行间隔采样,生成采样帧,并将所述采样帧输入深度卷积神经网络,以得到哈希编码和多个特征;
    将所述采样帧输入地标识别模型中进行地标识别,并将识别结果存入视频地标库;
    通过比较所述多个特征之间的相关性,选择关键帧,并将所述关键帧的特征存入视频特征库,将所述关键帧的哈希编码存入哈希索引库;
    其中,所述深度卷积神经网络以ResNet101为基础,所述ResNet101上的conv-5包括c5-1、c5-2和c5-3,在conv-5进行attention操作如下:
    c5-1连接一层卷积核为3x3的卷积并输出512张特征图,c5-1再连接一层3x3的卷积并输出一张特征图,所述特征图作为spatial方向的attention map;
    c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作,得到channel方向的attention map;
    其中,所述视频特征的计算公式如下:
    Figure PCTCN2020072969-appb-100007
    其中,F c-1表示c5-1层的特征图,F c-2表示c5-2层的特征图,F c-3表示c5-3层的特征图,
    Figure PCTCN2020072969-appb-100008
    表示矩阵元素乘法操作,
    Figure PCTCN2020072969-appb-100009
    表示矩阵元素加法操作,M s和M c分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
  6. 根据权利要求5所述的方法,其中,所述将视频经过镜头检测分割成由镜头组成的片段包括:
    在视频任务调度系统中,利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界,将视频分割为由镜头组成的片段。
  7. 根据权利要求5所述的方法,其中,存入视频信息库的片段的信息包括:开始帧数、结束帧数、帧长和所属视频。
  8. 根据权利要求5所述的方法,其中,所述对所述片段进行间隔采样包括:
    按照30帧间隔,对所述片段进行采样。
  9. 根据权利要求5所述的方法,其中,所述将所述采样帧输入地标识别模型中进行地标识别,并将识别结果存入视频地标库包括:
    在地标识别模型中,将softmax值大于0.8的类别设定为所述采样帧的地标类别,并将所述采样帧的地标类别作为识别结果存入视频地标库。
  10. 根据权利要求5所述的方法,其中,所述通过比较所述多个特征之间的相关性,选择关键帧包括:
    以阈值0.55作为边界,将高于所述阈值的多个特征设定为相似;
    将相似的特征只保留首个特征,从而获取代表所述镜头的至少一个关键帧。
  11. 根据权利要求5所述的方法,其中,哈希编码由在训练中增加sigmoid加强编码的可分性来构建,其中,所述sigmoid加强编码以0.5的阈值划分为0、1编码。
  12. 一种海量视频存储系统,其中,所述海量视频存储系统设置为采用权利要求5-11中任意一项的一种基于深度学习的海量视频存储方法。
  13. 一种海量视频检索方法,包括:
    输入地标信息或图像;
    在输入地标信息的情况下,在视频地标库中查找;在输入图片的情况下,首先通过深度卷积神经网络提取哈希编码和特征;将哈希编码输入哈希索引库中检索,然后用特征在视频特征库中精确匹配,得到相似地标的索引后在视频信息库中获取视频信息;
    其中,所述深度卷积神经网络以ResNet101为基础,所述ResNet101上的conv-5包括c5-1、c5-2和c5-3,在conv-5进行attention操作如下:
    c5-1连接一层卷积核为3x3的卷积并输出512张特征图,c5-1再连接一层3x3的卷积并输出一张特征图,所述特征图作为spatial方向的attention map;
    c5-2连接一层1x1的卷积,保持维度2048维不变,并做全局池化操作,得到channel方向的attention map;
    其中,所述视频特征的计算公式如下:
    Figure PCTCN2020072969-appb-100010
    其中,F c-1表示c5-1层的特征图,F c-2表示c5-2层的特征图,F c-3表示c5-3层的特征图,
    Figure PCTCN2020072969-appb-100011
    表示矩阵元素乘法操作,
    Figure PCTCN2020072969-appb-100012
    表示矩阵元素加法操作,M s和M c分别表示spatial attention操作和channel attention操作;attention最后一层卷积经过Generalized-mean pooling输出2048维的特征向量,并使用L2归一化特征。
  14. 如权利要求13所述的方法,在提取哈希编码和特征后,还包括:
    将哈希编码输入历史检索库中查找是否有相似的检索,响应于有相似的检索,直接用特征精确匹配;响应于没有相似的检索,将哈希编码输入哈希索引库中检索。
  15. 如权利要求13所述的方法,其中,所述用特征在视频特征库中精确匹配包括:
    根据哈希检索后所得到的特征索引,得到候选特征数N,组成[N,2048]的特征矩阵,将所述特征矩阵同检索图片的特征进行余弦距离计算,根据匹配相似度进行排序后,从视频信息库中查询到视频片段信息,配合截图输出到界面。
  16. 一种海量视频检索系统,其中,所述海量视频检索系统设置为采用权利要求13-15中任意一项的一种海量视频特征检索方法。
PCT/CN2020/072969 2019-01-18 2020-01-19 海量视频特征提取以及存储和检索方法及系统 WO2020147857A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910047518.3 2019-01-18
CN201910047518.3A CN109815364B (zh) 2019-01-18 2019-01-18 一种海量视频特征提取、存储和检索方法及系统

Publications (1)

Publication Number Publication Date
WO2020147857A1 true WO2020147857A1 (zh) 2020-07-23

Family

ID=66603492

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/072969 WO2020147857A1 (zh) 2019-01-18 2020-01-19 海量视频特征提取以及存储和检索方法及系统

Country Status (2)

Country Link
CN (1) CN109815364B (zh)
WO (1) WO2020147857A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001292A (zh) * 2020-08-18 2020-11-27 大连海事大学 一种基于多尺度注意力机制深度哈希的指静脉索引方法
CN113704532A (zh) * 2020-11-25 2021-11-26 天翼智慧家庭科技有限公司 一种提升图片检索召回率的方法和系统
CN114567798A (zh) * 2022-02-28 2022-05-31 南京烽火星空通信发展有限公司 一种针对互联网短视频变种的溯源方法
CN114842371A (zh) * 2022-03-30 2022-08-02 西北工业大学 一种无监督视频异常检测方法
CN115017366A (zh) * 2022-07-11 2022-09-06 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN117391150A (zh) * 2023-12-07 2024-01-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815364B (zh) * 2019-01-18 2020-01-14 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及系统
CN110489685A (zh) * 2019-08-19 2019-11-22 腾讯科技(武汉)有限公司 一种网页显示方法、系统和相关装置及存储介质
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN110688524B (zh) * 2019-09-24 2023-04-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110769276A (zh) * 2019-11-07 2020-02-07 成都国腾实业集团有限公司 基于md5的帧提取切片视频检测方法
CN110769291B (zh) * 2019-11-18 2022-08-30 上海极链网络科技有限公司 一种视频处理方法、装置、电子设备及存储介质
CN111444390A (zh) * 2020-04-02 2020-07-24 徐州工程学院 一种基于Spark和深度哈希的视频并行检索方法
CN112035701A (zh) * 2020-08-11 2020-12-04 南京烽火星空通信发展有限公司 一种互联网短视频溯源的方法及系统
CN113297899B (zh) * 2021-03-23 2023-02-03 上海理工大学 一种基于深度学习的视频哈希算法
CN115442656B (zh) * 2021-06-04 2023-08-15 中国移动通信集团浙江有限公司 视频片头片尾自动检测方法、装置、设备及存储介质
CN113313065A (zh) * 2021-06-23 2021-08-27 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备和可读存储介质
CN114090802A (zh) * 2022-01-13 2022-02-25 深圳市猿人创新科技有限公司 一种基于嵌入式设备的数据存储及查找方法、装置、设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943938A (zh) * 2017-11-23 2018-04-20 清华大学 一种基于深度乘积量化的大规模图像相似检索方法及系统
WO2018086513A1 (zh) * 2016-11-08 2018-05-17 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN108280233A (zh) * 2018-02-26 2018-07-13 南京邮电大学 一种基于深度学习的视频gis数据检索方法
CN109086690A (zh) * 2018-07-13 2018-12-25 北京旷视科技有限公司 图像特征提取方法、目标识别方法及对应装置
CN109815364A (zh) * 2019-01-18 2019-05-28 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN107766447B (zh) * 2017-09-25 2021-01-12 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
CN109087337B (zh) * 2018-11-07 2020-07-14 山东大学 基于分层卷积特征的长时间目标跟踪方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086513A1 (zh) * 2016-11-08 2018-05-17 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN107943938A (zh) * 2017-11-23 2018-04-20 清华大学 一种基于深度乘积量化的大规模图像相似检索方法及系统
CN108280233A (zh) * 2018-02-26 2018-07-13 南京邮电大学 一种基于深度学习的视频gis数据检索方法
CN109086690A (zh) * 2018-07-13 2018-12-25 北京旷视科技有限公司 图像特征提取方法、目标识别方法及对应装置
CN109815364A (zh) * 2019-01-18 2019-05-28 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001292A (zh) * 2020-08-18 2020-11-27 大连海事大学 一种基于多尺度注意力机制深度哈希的指静脉索引方法
CN112001292B (zh) * 2020-08-18 2024-01-09 大连海事大学 一种基于多尺度注意力机制深度哈希的指静脉索引方法
CN113704532A (zh) * 2020-11-25 2021-11-26 天翼智慧家庭科技有限公司 一种提升图片检索召回率的方法和系统
CN113704532B (zh) * 2020-11-25 2024-04-26 天翼数字生活科技有限公司 一种提升图片检索召回率的方法和系统
CN114567798A (zh) * 2022-02-28 2022-05-31 南京烽火星空通信发展有限公司 一种针对互联网短视频变种的溯源方法
CN114567798B (zh) * 2022-02-28 2023-12-12 南京烽火星空通信发展有限公司 一种针对互联网短视频变种的溯源方法
CN114842371A (zh) * 2022-03-30 2022-08-02 西北工业大学 一种无监督视频异常检测方法
CN114842371B (zh) * 2022-03-30 2024-02-27 西北工业大学 一种无监督视频异常检测方法
CN115017366A (zh) * 2022-07-11 2022-09-06 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN115017366B (zh) * 2022-07-11 2024-04-02 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN117391150A (zh) * 2023-12-07 2024-01-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法
CN117391150B (zh) * 2023-12-07 2024-03-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法

Also Published As

Publication number Publication date
CN109815364B (zh) 2020-01-14
CN109815364A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
WO2020147857A1 (zh) 海量视频特征提取以及存储和检索方法及系统
Mithun et al. Weakly supervised video moment retrieval from text queries
US20220075806A1 (en) Natural language image search
CN110610166B (zh) 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110263659B (zh) 一种基于三元组损失和轻量级网络的指静脉识别方法及系统
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN106897666B (zh) 一种室内场景识别的闭环检测方法
CN103593464B (zh) 基于视觉特征的视频指纹检测及视频序列匹配方法及系统
CN113516012B (zh) 一种基于多层级特征融合的行人重识别方法及系统
US9165217B2 (en) Techniques for ground-level photo geolocation using digital elevation
CN112347284B (zh) 一种组合商标图像检索方法
WO2019080411A1 (zh) 电子装置、人脸图像聚类搜索方法和计算机可读存储介质
CN104794219A (zh) 一种基于地理位置信息的场景检索方法
CN110442741B (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN104778272B (zh) 一种基于区域挖掘和空间编码的图像位置估计方法
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN111144469A (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN108845999B (zh) 一种基于多尺度区域特征比对的商标图像检索方法
CN115964528A (zh) 基于街景检索的图片检索优化算法
CN104199950B (zh) 一种基于图像相似度快速匹配的学术论文搜索方法
CN116524263A (zh) 一种细粒度图像半自动标注方法
Zhang et al. Fused confidence for scene text detection via intersection-over-union
CN113435329B (zh) 一种基于视频轨迹特征关联学习的无监督行人重识别方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20741341

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20741341

Country of ref document: EP

Kind code of ref document: A1