WO2017107188A1 - 视频分类快速识别的方法及装置 - Google Patents

视频分类快速识别的方法及装置 Download PDF

Info

Publication number
WO2017107188A1
WO2017107188A1 PCT/CN2015/098927 CN2015098927W WO2017107188A1 WO 2017107188 A1 WO2017107188 A1 WO 2017107188A1 CN 2015098927 W CN2015098927 W CN 2015098927W WO 2017107188 A1 WO2017107188 A1 WO 2017107188A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
motion vector
neural network
convolutional neural
tested
Prior art date
Application number
PCT/CN2015/098927
Other languages
English (en)
French (fr)
Inventor
乔宇
张博文
Original Assignee
中国科学院深圳先进技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院深圳先进技术研究院 filed Critical 中国科学院深圳先进技术研究院
Priority to PCT/CN2015/098927 priority Critical patent/WO2017107188A1/zh
Publication of WO2017107188A1 publication Critical patent/WO2017107188A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Definitions

  • the invention belongs to the technical field of computer vision, and in particular relates to a method and a device for quickly identifying a video classification.
  • the embodiments of the present invention provide a method and a device for quickly identifying a video classification, so as to solve the problem that the prior art takes a long time in content recognition in a video.
  • an embodiment of the present invention provides a method for quickly identifying a video classification, where the method includes:
  • the category corresponding to the item with the highest score in the classification category confidence of the video to be tested is used as the category corresponding to the content in the video to be tested.
  • a device for rapid identification of video classification comprising:
  • test extracting unit configured to acquire a video to be tested, and extract a motion vector and a raw RGB image from a video code stream of the video to be tested;
  • a converting unit configured to convert the motion vector into a motion vector image
  • a first processing unit configured to input the original RGB image into a predetermined RGB image-based convolutional neural network to obtain an RGB-based classification category confidence of the video to be tested;
  • a second processing unit configured to input the motion vector image into a predetermined motion vector based enhanced convolutional neural network to obtain a motion vector based classification category confidence of the test video;
  • a merging unit configured to combine the RGB-based classification category confidence and the motion vector-based classification category confidence to obtain a classification category confidence of the to-be-tested video
  • the identification unit is configured to use, as the category corresponding to the content in the video to be tested, the category corresponding to the item with the highest score in the classification category confidence of the video to be tested.
  • the embodiment of the present invention has the beneficial effects that the embodiment of the present invention does not need to calculate the optical flow information in the testing phase, but directly uses the motion vector information decoded from the video bitstream. Since the optical flow information is not required to be calculated by the adjacent two frames, the problem that the prior art takes a long time in the content recognition in the video is solved, and the real-time processing demand for the video is satisfied. Moreover, like the optical flow information, the motion vector information can also represent the motion information between two adjacent frames, and can complement the original RGB image information, thereby improving the ability of content recognition in the video, and has strong ease of use. Sex and practicality.
  • FIG. 1 is a schematic flowchart of an implementation method of a video classification fast identification method according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of motion vectors and optical flows according to an embodiment of the present invention.
  • FIG. 3 is a schematic structural diagram of a device for quickly identifying a video classification according to an embodiment of the present invention.
  • FIG. 1 shows an implementation flow of a method for quickly identifying a video classification according to an embodiment of the present invention.
  • the method can be applied to various types of terminal devices, such as a personal computer, a tablet computer, a mobile phone, and the like.
  • terminal devices such as a personal computer, a tablet computer, a mobile phone, and the like.
  • the process of this method is detailed as follows:
  • Step S101 Acquire a video to be tested, and extract motion from a video code stream of the video to be tested. Vector and raw RGB images.
  • the motion vector represents the amount of translation of the partial image block in the adjacent two frames of images. Since video compression standards such as H.264, MPEG, etc. use motion vectors to compress video data, motion vectors can be quickly extracted from video. For example, the video to be tested is decoded using a video decoder, and motion vectors having motion information and original RGB images are obtained from the decoded video code stream.
  • step S102 the motion vector is converted into a motion vector image.
  • the motion vector since the motion vector is encoded based on the mode of the macroblock in the video encoding, the motion vector represents the motion information of the macroblock, and the size of the macroblock is 8 ⁇ 8 or 16 ⁇ 16. Therefore, in converting the motion vector into a motion vector image, the present invention assigns the motion vector to a macroblock having a size of 8x8 or 16x16 in a padding manner.
  • the I-frame does not contain any motion vector information due to the presence of a self-coded frame (I-frame) in video coding.
  • the I-frame of the present invention directly assigns the motion vector of the previous frame to the I-frame, and the other two coding frames existing in the video coding: the P-frame and the B-frame both have motion information. , so no further processing is required.
  • step S103 the original RGB image is input into a predetermined RGB image-based convolutional neural network to obtain an RGB-based classification category confidence of the video to be tested;
  • step S104 the motion vector image is input into a predetermined motion vector based enhanced convolutional neural network to obtain a motion vector based classification category confidence of the test video.
  • the predetermined RGB image-based convolutional neural network and the motion vector-based enhanced convolutional neural network are obtained during the training phase, specifically:
  • Optical flow based convolutional neural network training is based on An enhanced convolutional neural network of motion vectors.
  • the motion vector-based enhanced convolutional neural network requires motion vector images and parameters of the optical flow-based convolutional neural network that have been trained, the following describes how to train motion vector based motion vectors.
  • Enhanced Convolutional Neural Network
  • Soft max represents the soft max function
  • the i-th dimension representing the output of the Nth layer of S;
  • step S105 the RGB-based classification category confidence (RGBScore) and the motion vector-based classification category confidence (MV Score) are merged to obtain a classification category confidence of the to-be-tested video.
  • RGBBScore RGB-based classification category confidence
  • MV Score motion vector-based classification category confidence
  • the fusion may be to average the RGB-based classification category confidence and the motion vector-based classification category confidence.
  • step S106 the category corresponding to the item with the highest score in the classification category confidence of the video to be tested is used as the category corresponding to the content in the video to be tested.
  • FIG. 2 is a schematic diagram of motion vectors and optical flows.
  • the left image is the original image
  • the middle image is the motion vector of the X component and the visual image of the optical flow
  • the right image is the motion vector of the Y component and the visual image of the optical flow.
  • the Motion Vector represents the motion vector
  • the OpticalFlow represents the optical flow. It can be seen in Figure 2 that the motion vector is coarser than the optical stream and contains more noise points), so if the motion vector is used directly instead of the optical stream, the accuracy of the recognition will be reduced. Therefore, the present invention also proposes an algorithm based on motion vector enhanced convolutional neural network, which can obtain a real-time processing network through motion vector in the testing phase, and in the data set testing process, the network can Obtain an effect similar to the accuracy of optical flow network recognition without affecting the running speed.
  • the invention has been subjected to a large number of experiments, and the method of the present invention is used on a plurality of test data sets to obtain a better video recognition effect and a higher recognition speed, as shown in Table 1 and Table 2:
  • FIG. 3 is a schematic structural diagram of a device for quickly identifying a video classification according to an embodiment of the present invention. For the convenience of description, only parts related to the embodiment of the present invention are shown.
  • the device for quickly identifying the video classification can be applied to various terminal devices, such as a Pocket Personal Computer (PPC), a palmtop computer, a computer, a notebook computer, a Personal Digital Assistant (PDA), etc., and can be operated.
  • PPC Pocket Personal Computer
  • PDA Personal Digital Assistant
  • the software unit, the hardware unit or the unit combining the software and hardware in these terminals can also be integrated into these terminals as an independent pendant or in the application system of these terminals.
  • the device for quickly identifying the video classification includes:
  • test extracting unit 31 configured to acquire a video to be tested, and extract a motion vector and a raw RGB image from a video code stream of the video to be tested;
  • a converting unit 32 configured to convert the motion vector into a motion vector image
  • a first processing unit 33 configured to input the original RGB image into a predetermined RGB image-based convolutional neural network to obtain an RGB-based classification category confidence of the video to be tested;
  • a second processing unit 34 configured to input the motion vector image into a predetermined motion vector based enhanced convolutional neural network to obtain a motion vector based classification category confidence of the test video;
  • a merging unit 35 configured to fuse the RGB-based classification category confidence and the motion vector-based classification category confidence to obtain a classification category confidence of the to-be-tested video
  • the identifying unit 36 is configured to use, as the category corresponding to the content in the video to be tested, the category corresponding to the item with the highest score in the classification category confidence of the video to be tested.
  • the device further includes:
  • a training extracting unit 37 configured to extract a training video from the training set, and extract a motion vector map and a raw RGB image from the video code stream of the training video;
  • the converting unit 32 is configured to convert the motion vector extracted in the video code stream of the training video into a motion vector image
  • the third processing unit 38 is configured to train the RGB image-based convolutional neural network based on the original RGB image and the video calibration information extracted from the video code stream of the training video, and based on the motion vector image and the video
  • the class calibration information and the trained optical flow-based convolutional neural network training obtain a motion vector based enhanced convolutional neural network.
  • the third processing unit 38 includes:
  • the first setting module 381 is configured to set the optical flow-based convolutional neural network that has been trained to be T, and the parameter is N is the number of layers of T, and the motion vector-based enhanced convolutional neural network to be trained is set to S, and its parameter is N is the number of layers of S, and T has the same structure as S. versus The same structure;
  • the second setting module 383 is configured to set the category corresponding to the content in the training video to be Q, and the output of the Nth layer of the S is The N-1 layer output is among them
  • Soft max represents the soft max function
  • the soft max function is set to: x represents the input vector of the soft max function, m represents the dimension of x, i represents the index of a certain dimension of the input or output vector, ⁇ i represents the calculation of each dimension of the input vector x Then add them together and set Q and Loss function
  • the i-th dimension representing the output of the Nth layer of S;
  • the third setting module 384 is configured to set the output of the Nth layer of T to Loss function
  • m is the dimension of P s ⁇ i ⁇ and P T ⁇ i ⁇
  • P s and P T are:
  • Temp is the temperature parameter
  • P s ⁇ i ⁇ represents the i-th term of P s
  • P T ⁇ i ⁇ represents the i-th term of P T ;
  • the converting unit 32 is specifically configured to:
  • the motion vector is assigned to a macroblock of size 8 ⁇ 8 or 16 ⁇ 16, and the motion vector of the previous frame of the self-encoded frame that does not contain motion vector information in the macroblock is assigned The self-encoding frame to obtain the motion vector image.
  • the beneficial effects of the embodiment of the present invention compared with the prior art are: 1) using motion vectors instead of optical flow calculations, which solves the problem of long time-consuming problems caused by the calculation of optical flow information in the prior art. It satisfies the real-time processing requirements of video; 2) Considering the complementarity of optical flow network and motion vector network, a convolutional neural network with enhanced motion vector is proposed, which improves the effect of convolutional neural network based on motion vector; The convolutional neural network with enhanced motion vector and the convolutional neural network based on RGB image are combined to obtain better recognition effect and higher recognition speed.
  • the embodiment of the invention In the above process, no additional hardware is needed, the cost can be effectively reduced, and the utility model has the advantages of high ease of use and practicability.
  • each functional unit in the embodiment may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit, and the integrated unit may be implemented in the form of hardware. It can also be implemented in the form of a software functional unit.
  • the specific names of the respective functional units are only for the purpose of facilitating mutual differentiation, and are not intended to limit the scope of protection of the present application.
  • the disclosed apparatus and method may be implemented in other manners.
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or Can be integrated into another system, or some features can be ignored or not executed.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be in electrical, mechanical or other form.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. You can choose some or all of them according to actual needs.
  • the unit is to achieve the purpose of the solution of the embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of a software functional unit.
  • the integrated unit if implemented in the form of a software functional unit and sold or used as a standalone product, may be stored in a computer readable storage medium.
  • the medium includes a plurality of instructions for causing a computer device (which may be a personal computer, a server, or a network device, etc.) or a processor to perform all or part of the steps of the methods described in various embodiments of the embodiments of the present invention.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, and the like. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种视频分类快速识别的方法及装置。该方法包括:获取待测试视频,从待测试视频的视频码流中提取出运动向量和原始RGB图像(S101);将运动向量转换为运动向量图像(S102);将原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度(S103);将运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度(S104);将基于RGB的分类类别置信度和基于运动向量的分类类别置信度进行融合,获得待测试视频的分类类别置信度(S105);将待测试视频的分类类别置信度中分值最高的一项所对应的类别作为待测试视频中内容对应的类别。可有效提高视频分类识别的效率。

Description

视频分类快速识别的方法及装置 技术领域
本发明属于计算机视觉技术领域,尤其涉及视频分类快速识别的方法及装置。
背景技术
视频中内容的识别技术在视频监控、检索、人机交互等领域被广泛应用。近年来,基于稠密轨迹的特征提取方法以及基于双神经网络(即图像深度网络和光流深度网络)方法展现出了较好的动作识别能力。然而,虽然所述基于稠密轨迹的特征提取方法以及基于双神经网络方法可以有效的提高动作识别的准确率,但是由于基于稠密轨迹的特征提取方法以及基于双神经网络方法都需要计算光流(Optical flow)信息,而光流信息的计算非常耗时,从而导致现有基于稠密轨迹的特征提取方法以及基于双神经网络方法在进行视频中内容识别时耗时较长。
技术问题
鉴于此,本发明实施例提供一种视频分类快速识别的方法及装置,以解决现有技术在进行视频中内容识别时耗时较长的问题。
技术解决方案
第一方面,本发明实施例提供了一种视频分类快速识别的方法,所述方法包括:
获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和原始 RGB图像;
将所述运动向量转换为运动向量图像;
将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合,获得所述待测试视频的分类类别置信度;
将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。
第二方面,一种视频分类快速识别的装置,所述装置包括:
测试提取单元,用于获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和原始RGB图像;
转换单元,用于将所述运动向量转换为运动向量图像;
第一处理单元,用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
第二处理单元,用于将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
融合单元,用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合,获得所述待测试视频的分类类别置信度;
识别单元,用于将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。
有益效果
本发明实施例与现有技术相比存在的有益效果是:本发明实施例在测试阶段不需要计算光流信息,而是直接使用从视频码流中解码得到的运动向量信息, 由于不需要通过相邻两帧计算光流信息,从而解决了现有技术在进行视频中内容识别时耗时较长的问题,满足了对视频的实时处理需求。而且,与光流信息一样,所述运动向量信息也可以表征相邻两帧之间的运动信息,并能与原始RGB图像信息互补,从而提升视频中内容识别的能力,具有较强的易用性和实用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的视频分类快速识别的方法的实现流程示意图;
图2是本发明实施例提供的运动向量与光流的示意图;
图3是本发明实施例提供的视频分类快速识别的装置的组成结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透切理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
请参阅图1,图1示出了本发明实施例提供的视频分类快速识别的方法的实现流程,该方法可适用于各类终端设备,如个人计算机、平板电脑、手机等。该方法过程详述如下:
步骤S101,获取待测试视频,从所述待测试视频的视频码流中提取出运动 向量和原始RGB图像。
在本实施例中,所述运动向量表示相邻两帧图像中,局部图像块的平移量。由于视频压缩标准如H.264、MPEG等利用运动向量实现对视频数据的压缩,因此运动向量可以快速从视频中提取。例如,使用视频解码器对所述待测试视频进行解码,从解码后的视频码流中获得具有运动信息的运动向量以及原始RGB图像。
在步骤S102中,将所述运动向量转换为运动向量图像。
在本实施例中,由于所述运动向量是基于视频编码中宏块的模式进行编码,运动向量表示的是宏块的运动信息,而宏块的大小为8×8或16×16。因此,在将所述运动向量转换为运动向量图像时,本发明采用填充的方式,将所述运动向量赋值给大小为8×8或16×16的宏块。另外,由于在视频编码中存在自编码帧(I-frame),I-frame不包含任何运动向量信息。所以针对I-frame,本发明I-frame将前一帧的运动向量直接赋值到该I-frame中,而视频编码中存在的另外两种编码帧:P-frame和B-frame都具有运动信息,所以无需进一步处理。
在步骤S103中,将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
在步骤S104中,将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度。
在本实施例中,所述预定的基于RGB图像的卷积神经网络以及基于运动向量的增强卷积神经网络是在训练阶段获得,具体的是:
从训练集中抽取出训练视频,并从所述训练视频的视频码流中提取出运动向量图和原始RGB图像;
将所述运动向量转换为运动向量图像;
基于视频的类别标定信息和所述训练视频的视频码流中提取出的原始RGB图像训练获得基于RGB图像的卷积神经网络,并基于视频的类别标定信息、该运动向量图像和已经训练完成的基于光流的卷积神经网络训练获得基于 运动向量的增强卷积神经网络。
较佳的,由于训练基于运动向量的增强卷积神经网络需要运动向量图像以及已经训练完成的基于光流的卷积神经网络的参数,因此下面具体说明如何从运动向量图像中训练得到基于运动向量的增强卷积神经网络:
设定已经训练完成的基于光流的卷积神经网络为T,其参数为
Figure PCTCN2015098927-appb-000001
N为T的层数,设定待训练的基于运动向量的增强卷积神经网络为S,其参数为
Figure PCTCN2015098927-appb-000002
N为S的层数,T与S的结构相同,
Figure PCTCN2015098927-appb-000003
Figure PCTCN2015098927-appb-000004
的结构相同;
通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数,即
Figure PCTCN2015098927-appb-000005
其中,
Figure PCTCN2015098927-appb-000006
Figure PCTCN2015098927-appb-000007
分别为S和T关于第k层的参数;
设定所述训练视频中内容所对应的类别为Q,S的第N层输出为
Figure PCTCN2015098927-appb-000008
第N-1层输出为
Figure PCTCN2015098927-appb-000009
其中
Figure PCTCN2015098927-appb-000010
soft max表示soft max函数,soft max函数设定为:
Figure PCTCN2015098927-appb-000011
x表示soft max函数的输入向量,m表示x的维度,i表示输入或输出向量的某一维(例如第1维、第2维等)的指标,∑i表示将输入向量x的每一维计算
Figure PCTCN2015098927-appb-000012
之后进行相加,并设定Q与
Figure PCTCN2015098927-appb-000013
的损失函数
Figure PCTCN2015098927-appb-000014
其中1[x]为示性函数,当Q=i时,1[Q=i]=1,其余情况均等于0,
Figure PCTCN2015098927-appb-000015
表示S的第N层输出的第i维;
设定T的第N-1层输出为
Figure PCTCN2015098927-appb-000016
损失函数
Figure PCTCN2015098927-appb-000017
其中m为Ps{i}和PT{i}的维度,Ps和PT分别为:
Figure PCTCN2015098927-appb-000018
其中Temp为温度参数,用来调节输出分布,Ps{i}表示Ps的第i项,PT{i}表示PT的第i项;
通过最小化损失函数L获得基于运动向量的增强卷积神经网络,其中L=LGT+wLTSL,w为预先设定的LGT和LTSL的权重,例如w=Temp2
在步骤S105中,将所述基于RGB的分类类别置信度(RGBScore)和所述基于运动向量的分类类别置信度(MV Score)进行融合,获得所述待测试视频的分类类别置信度。
其中,所述融合可以是将基于RGB的分类类别置信度与基于运动向量的分类类别置信度求均值。
在步骤S106中,将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。
需要说明的是,现有无论是基于特征向量及特征描述的算法,或是基于深度学习的算法都需要提前计算光流。但光流的计算是十分耗时的,在特征向量及特征描述这类算法中,光流的计算可以占到50%,而在深度学习的算法中,即使有GPU进行加速计算,计算光流的时间仍然开销很大。每秒只能处理16.7帧,无法达到实时视频处理的要求。基于此,本发明使用运动向量代替光流计算,由于运动向量在视频编码阶段被直接编码在视频码流中,所以只需从码流中解码即可,其每秒可以处理735帧,从而解决了现有视频中内容识别的速度瓶颈,满足了对视频的实时处理需求。另外,由于所述运动向量具有较光流更为粗糙的结构以及不准确的运动信息,例如包含比光流更多的噪声信息,如图2所示(图2是运动向量与光流的示意图,左侧图为原始图像,中间图为X分量的运动向量和光流的可视化图像,右侧图为Y分量的运动向量和光流的可视化图像。其中Motion Vector代表运动向量,OpticalFlow代表光流。从图2中可以看出运动向量比光流更为粗糙,并且包含更多噪声点),因此如果直接使用运动向量代替光流会导致识别的准确率降低。因此,本发明还提出了一种基于运动向量的增强卷积神经网络的算法,该算法能够在测试阶段通过运动向量获得一个能够实时处理的网络,并且在数据集的测试过程中,此网络能够在不影响运行速度的情况下获得与光流网络识别准确率相近的效果。
本发明经过大量实验,在多个测试数据集上使用本发明所述方法均获得较好的视频中内容识别效果以及较高的识别速度,如表1、表2所示:
Figure PCTCN2015098927-appb-000019
表1
Figure PCTCN2015098927-appb-000020
表2
图3为本发明实施例提供的视频分类快速识别的装置的组成结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。
所述视频分类快速识别的装置可应用于各种终端设备,例如口袋计算机(Pocket Personal Computer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中。
所述视频分类快速识别的装置包括:
测试提取单元31,用于获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和原始RGB图像;
转换单元32,用于将所述运动向量转换为运动向量图像;
第一处理单元33,用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
第二处理单元34,用于将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
融合单元35,用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合,获得所述待测试视频的分类类别置信度;
识别单元36,用于将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。
进一步的,所述装置还包括:
训练提取单元37,用于从训练集中抽取出训练视频,并从所述训练视频的视频码流中提取出运动向量图和原始RGB图像;
所述转换单元32,用于将所述训练视频的视频码流中提取出的运动向量转换为运动向量图像;
第三处理单元38,用于基于所述训练视频的视频码流中提取出的原始RGB图像和视频的类别标定信息训练获得基于RGB图像的卷积神经网络,并基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。
进一步的,所述第三处理单元38包括:
第一设定模块381,用于设定已经训练完成的基于光流的卷积神经网络为T,其参数为
Figure PCTCN2015098927-appb-000021
N为T的层数,设定待训练的基于运动向量的增强卷积神经网络为S,其参数为
Figure PCTCN2015098927-appb-000022
N为S的层数,T与S的结构相同,
Figure PCTCN2015098927-appb-000023
Figure PCTCN2015098927-appb-000024
的结构相同;
初始化模块382,用于通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数,即
Figure PCTCN2015098927-appb-000025
k=1,...,N;其中,
Figure PCTCN2015098927-appb-000026
分别为S和T关于第k层的参数;
第二设定模块383,用于设定所述训练视频中内容所对应的类别为Q,S的第N层输出为
Figure PCTCN2015098927-appb-000027
第N-1层输出为
Figure PCTCN2015098927-appb-000028
其中
Figure PCTCN2015098927-appb-000029
soft max表示soft max函数,soft max函数设定为:
Figure PCTCN2015098927-appb-000030
x表示soft max函数的输入向量,m表示x的维度,i表示输入或输出向量的某一维的指标,∑i表示将输入向量x的每一维计算
Figure PCTCN2015098927-appb-000031
之后进行相加,并设定Q与
Figure PCTCN2015098927-appb-000032
的损失函数
Figure PCTCN2015098927-appb-000033
其中1[x]为示性函数,当Q=i时,1[Q=i]=1,否则为0;
Figure PCTCN2015098927-appb-000034
表示S的第N层输出的第i维;
第三设定模块384,用于设定T的第N-1层输出为
Figure PCTCN2015098927-appb-000035
损失函数
Figure PCTCN2015098927-appb-000036
其中m为Ps{i}和PT{i}的维度,Ps和PT分别为:
Figure PCTCN2015098927-appb-000037
其中Temp为温度参数,Ps{i}表示Ps的第i项,PT{i}表示PT的第i项;
获得模块385,用于通过最小化损失函数L获得基于运动向量的增强卷积神经网络,其中L=LGT+wLTSL,w为预先设定的LGT和LTSL的权重。
进一步的,所述转换单元32具体用于:
采用填充的方式,将所述运动向量赋值给大小为8×8或16×16的宏块,并将所述宏块中不包含运动向量信息的自编码帧的前一帧的运动向量赋值给所述自编码帧,以得到所述运动向量图像。
综上所述,本发明实施例与现有技术相比存在的有益效果是:1)使用运动向量代替光流计算,解决了现有技术需要计算光流信息导致的耗时较长的问题,满足了对视频的实时处理需求;2)考虑了光流网络与运动向量网络的互补性,提出了增强运动向量的卷积神经网络,从而提升了基于运动向量的卷积神经网络的效果;3)将增强运动向量的卷积神经网络与基于RGB图像的卷积神经网络相结合,获得了较好的识别效果以及较高的识别速度。另外,本发明实施例 在实现上述过程中,不需要增加额外的硬件,可有效降低成本,具有较强的易用性和实用性。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中各单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (8)

  1. 一种视频分类快速识别的方法,其特征在于,所述方法包括:
    获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和原始RGB图像;
    将所述运动向量转换为运动向量图像;
    将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
    将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
    将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合,获得所述待测试视频的分类类别置信度;
    将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。
  2. 如权利要求1所述的视频分类快速识别的方法,其特征在于,在获取待测试视频之前,还包括:
    从训练集中抽取出训练视频,并从所述训练视频的视频码流中提取出运动向量和原始RGB图像;
    将所述运动向量转换为运动向量图像;
    基于所述训练视频的视频码流中提取出的原始RGB图像和视频的类别标定信息训练获得基于RGB图像的卷积神经网络,并基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。
  3. 如权利要求2所述的视频分类快速识别的方法,其特征在于,所述基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络包括:
    设定已经训练完成的基于光流的卷积神经网络为T,其参数为
    Figure PCTCN2015098927-appb-100001
    N为T的层数,设定待训练的基于运动向量的增强卷积神经网络为S,其参数为
    Figure PCTCN2015098927-appb-100002
    N为S的层数,T与S的结构相同,
    Figure PCTCN2015098927-appb-100003
    Figure PCTCN2015098927-appb-100004
    的结构相同;
    通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数,即
    Figure PCTCN2015098927-appb-100005
    k=1,...,N;其中,
    Figure PCTCN2015098927-appb-100006
    Figure PCTCN2015098927-appb-100007
    分别为S和T中第k层的参数;
    设定所述训练视频中内容所对应的类别为Q,S的第N层输出为
    Figure PCTCN2015098927-appb-100008
    第N-1层输出为
    Figure PCTCN2015098927-appb-100009
    其中
    Figure PCTCN2015098927-appb-100010
    softmax表示softmax函数,softmax函数设定为:
    Figure PCTCN2015098927-appb-100011
    x表示softmax函数的输入向量,m表示x的维度,i表示输入或输出向量的某一维的指标,∑i表示将输入向量x的每一维计算
    Figure PCTCN2015098927-appb-100012
    之后进行相加,并设定Q与
    Figure PCTCN2015098927-appb-100013
    的损失函数
    Figure PCTCN2015098927-appb-100014
    其中1[x]为示性函数,当Q=i时,1[Q=i]=1,否则为0;
    Figure PCTCN2015098927-appb-100015
    表示S的第N层输出的第i维;
    设定T的第N-1层输出为
    Figure PCTCN2015098927-appb-100016
    损失函数
    Figure PCTCN2015098927-appb-100017
    其中m为Ps{i}和PT{i}的维度,Ps和PT分别为:
    Figure PCTCN2015098927-appb-100018
    其中Temp为温度参数,Ps{i}表示Ps的第i项,PT{i}表示PT的第i项;
    通过最小化损失函数L获得基于运动向量的增强卷积神经网络,其中L=LGT+wLTSL,w为预先设定的LGT和LTSL的权重。
  4. 如权利要求1所述的视频分类快速识别的方法,其特征在于,所述将所述运动向量转换为运动向量图像包括:
    采用填充的方式,将所述运动向量赋值给大小为8×8或16×16的宏块,并将所述宏块中不包含运动向量信息的自编码帧的前一帧的运动向量赋值给所述 自编码帧,以得到所述运动向量图像。
  5. 一种视频分类快速识别的装置,其特征在于,所述装置包括:
    测试提取单元,用于获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和原始RGB图像;
    转换单元,用于将所述运动向量转换为运动向量图像;
    第一处理单元,用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
    第二处理单元,用于将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
    融合单元,用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合,获得所述待测试视频的分类类别置信度;
    识别单元,用于将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。
  6. 如权利要求5所述的视频分类快速识别的装置,其特征在于,所述装置还包括:
    训练提取单元,用于从训练集中抽取出训练视频,并从所述训练视频的视频码流中提取出运动向量和原始RGB图像;
    所述转换单元,用于将所述训练视频的视频码流中提取出的运动向量转换为运动向量图像;
    第三处理单元,用于基于所述训练视频的视频码流中提取出的原始RGB图像和视频的类别标定信息训练获得基于RGB图像的卷积神经网络,并基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。
  7. 如权利要求6所述的视频分类快速识别的装置,其特征在于,所述第三处理单元包括:
    第一设定模块,用于设定已经训练完成的基于光流的卷积神经网络为T, 其参数为
    Figure PCTCN2015098927-appb-100019
    N为T的层数,设定待训练的基于运动向量的增强卷积神经网络为S,其参数为
    Figure PCTCN2015098927-appb-100020
    N为S的层数,T与S的结构相同,
    Figure PCTCN2015098927-appb-100021
    Figure PCTCN2015098927-appb-100022
    的结构相同;
    初始化模块,用于通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数,即
    Figure PCTCN2015098927-appb-100023
    k=1,...,N;其中,
    Figure PCTCN2015098927-appb-100024
    分别为S和T关于第k层的参数;
    第二设定模块,用于设定所述训练视频中内容所对应的类别为Q,S的第N层输出为
    Figure PCTCN2015098927-appb-100025
    第N-1层输出为
    Figure PCTCN2015098927-appb-100026
    其中
    Figure PCTCN2015098927-appb-100027
    softmax表示softmax函数,softmax函数设定为:
    Figure PCTCN2015098927-appb-100028
    x表示softmax函数的输入向量,m表示x的维度,i表示输入或输出向量的某一维的指标,∑i表示将输入向量x的每一维计算
    Figure PCTCN2015098927-appb-100029
    之后进行相加,并设定Q与
    Figure PCTCN2015098927-appb-100030
    的损失函数
    Figure PCTCN2015098927-appb-100031
    其中1[x]为示性函数,当Q=i时,1[Q=i]=1,否则为0;
    Figure PCTCN2015098927-appb-100032
    表示S的第N层输出的第i维;
    第三设定模块,用于设定T的第N-1层输出为
    Figure PCTCN2015098927-appb-100033
    损失函数
    Figure PCTCN2015098927-appb-100034
    其中m为Ps{i}和PT{i}的维度,Ps和PT分别为:
    Figure PCTCN2015098927-appb-100035
    其中Temp为温度参数,Ps{i}表示Ps的第i项,PT{i}表示PT的第i项;
    获得模块,用于通过最小化损失函数L获得基于运动向量的增强卷积神经网络,其中L=LGT+wLTSL,w为预先设定的LGT和LTSL的权重。
  8. 如权利要求5所述的视频分类快速识别的装置,其特征在于,所述转换单元具体用于:
    采用填充的方式,将所述运动向量赋值给大小为8×8或16×16的宏块,并将所述宏块中不包含运动向量信息的自编码帧的前一帧的运动向量赋值给所述 自编码帧,以得到所述运动向量图像。
PCT/CN2015/098927 2015-12-25 2015-12-25 视频分类快速识别的方法及装置 WO2017107188A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/098927 WO2017107188A1 (zh) 2015-12-25 2015-12-25 视频分类快速识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/098927 WO2017107188A1 (zh) 2015-12-25 2015-12-25 视频分类快速识别的方法及装置

Publications (1)

Publication Number Publication Date
WO2017107188A1 true WO2017107188A1 (zh) 2017-06-29

Family

ID=59088791

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/098927 WO2017107188A1 (zh) 2015-12-25 2015-12-25 视频分类快速识别的方法及装置

Country Status (1)

Country Link
WO (1) WO2017107188A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764202A (zh) * 2018-06-06 2018-11-06 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109086656A (zh) * 2018-06-06 2018-12-25 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN109145784A (zh) * 2018-08-03 2019-01-04 百度在线网络技术(北京)有限公司 用于处理视频的方法和装置
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110263638A (zh) * 2019-05-16 2019-09-20 山东大学 一种基于显著信息的视频分类方法
CN110674837A (zh) * 2019-08-15 2020-01-10 深圳壹账通智能科技有限公司 视频相似度获取方法、装置、计算机设备及存储介质
CN110688918A (zh) * 2019-09-12 2020-01-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN110866128A (zh) * 2018-08-15 2020-03-06 格力电器(武汉)有限公司 多媒体文件处理方法以及装置
CN111104553A (zh) * 2020-01-07 2020-05-05 中国科学院自动化研究所 一种高效运动互补神经网络系统
CN111178165A (zh) * 2019-12-12 2020-05-19 河南省润通路空一体交通发展有限公司 一种基于小样本训练视频空对地目标情报自动提取方法
CN111292765A (zh) * 2019-11-21 2020-06-16 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111680543A (zh) * 2020-04-23 2020-09-18 北京迈格威科技有限公司 动作识别方法、装置及电子设备
CN111898458A (zh) * 2020-07-07 2020-11-06 中国传媒大学 基于注意力机制的双模态任务学习的暴力视频识别方法
CN112132915A (zh) * 2020-08-10 2020-12-25 浙江大学 一种基于生成对抗机制的多样化动态延时视频生成方法
CN112131908A (zh) * 2019-06-24 2020-12-25 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN112235569A (zh) * 2020-10-12 2021-01-15 国家计算机网络与信息安全管理中心 基于h264压缩域的快速视频分类方法、系统及装置
CN112347885A (zh) * 2020-10-27 2021-02-09 西安科技大学 一种基于自编码网络的铁谱图像智能识别方法
CN112784704A (zh) * 2021-01-04 2021-05-11 上海海事大学 一种面向小样本视频动作分类的方法
CN112906516A (zh) * 2021-02-04 2021-06-04 四川望村网络科技有限公司 一种基于深度学习的暴力行为识别方法,存储装置及服务器
CN113010735A (zh) * 2019-12-20 2021-06-22 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN113449148A (zh) * 2021-06-24 2021-09-28 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及存储介质
CN114998803A (zh) * 2022-06-13 2022-09-02 北京理工大学 一种基于视频的健身运动分类与计数方法
CN116453010A (zh) * 2023-03-13 2023-07-18 彩虹鱼科技(广东)有限公司 基于光流rgb双路特征海洋生物目标检测方法及系统
CN116630868A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 视频分类方法、视频分类装置、介质及电子设备
CN112131908B (zh) * 2019-06-24 2024-06-11 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364933A (zh) * 2011-10-25 2012-02-29 浙江大学 一种基于运动分类的自适应去隔行方法
CN104657724A (zh) * 2015-03-12 2015-05-27 福建依图网络科技有限公司 一种交通视频行人检测方法
CN104658254A (zh) * 2015-03-09 2015-05-27 上海依图网络科技有限公司 一种交通视频的摩托车检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364933A (zh) * 2011-10-25 2012-02-29 浙江大学 一种基于运动分类的自适应去隔行方法
CN104658254A (zh) * 2015-03-09 2015-05-27 上海依图网络科技有限公司 一种交通视频的摩托车检测方法
CN104657724A (zh) * 2015-03-12 2015-05-27 福建依图网络科技有限公司 一种交通视频行人检测方法

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086656A (zh) * 2018-06-06 2018-12-25 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN108764202B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109086656B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN108764202A (zh) * 2018-06-06 2018-11-06 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109145784A (zh) * 2018-08-03 2019-01-04 百度在线网络技术(北京)有限公司 用于处理视频的方法和装置
CN110866128A (zh) * 2018-08-15 2020-03-06 格力电器(武汉)有限公司 多媒体文件处理方法以及装置
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110263638B (zh) * 2019-05-16 2023-04-18 山东大学 一种基于显著信息的视频分类方法
CN110263638A (zh) * 2019-05-16 2019-09-20 山东大学 一种基于显著信息的视频分类方法
CN112131908B (zh) * 2019-06-24 2024-06-11 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN112131908A (zh) * 2019-06-24 2020-12-25 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN110674837A (zh) * 2019-08-15 2020-01-10 深圳壹账通智能科技有限公司 视频相似度获取方法、装置、计算机设备及存储介质
CN110688918A (zh) * 2019-09-12 2020-01-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN110688918B (zh) * 2019-09-12 2023-02-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN111292765A (zh) * 2019-11-21 2020-06-16 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111292765B (zh) * 2019-11-21 2023-07-28 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111178165B (zh) * 2019-12-12 2023-07-18 河南省润通路空一体交通发展有限公司 一种基于小样本训练视频空对地目标情报自动提取方法
CN111178165A (zh) * 2019-12-12 2020-05-19 河南省润通路空一体交通发展有限公司 一种基于小样本训练视频空对地目标情报自动提取方法
CN113010735A (zh) * 2019-12-20 2021-06-22 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111104553A (zh) * 2020-01-07 2020-05-05 中国科学院自动化研究所 一种高效运动互补神经网络系统
CN111104553B (zh) * 2020-01-07 2023-12-12 中国科学院自动化研究所 一种高效运动互补神经网络系统
CN111325253B (zh) * 2020-02-12 2023-05-05 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111680543A (zh) * 2020-04-23 2020-09-18 北京迈格威科技有限公司 动作识别方法、装置及电子设备
CN111680543B (zh) * 2020-04-23 2023-08-29 北京迈格威科技有限公司 动作识别方法、装置及电子设备
CN111898458A (zh) * 2020-07-07 2020-11-06 中国传媒大学 基于注意力机制的双模态任务学习的暴力视频识别方法
CN112132915B (zh) * 2020-08-10 2022-04-26 浙江大学 一种基于生成对抗机制的多样化动态延时视频生成方法
CN112132915A (zh) * 2020-08-10 2020-12-25 浙江大学 一种基于生成对抗机制的多样化动态延时视频生成方法
CN112235569B (zh) * 2020-10-12 2024-03-29 国家计算机网络与信息安全管理中心 基于h264压缩域的快速视频分类方法、系统及装置
CN112235569A (zh) * 2020-10-12 2021-01-15 国家计算机网络与信息安全管理中心 基于h264压缩域的快速视频分类方法、系统及装置
CN112347885A (zh) * 2020-10-27 2021-02-09 西安科技大学 一种基于自编码网络的铁谱图像智能识别方法
CN112347885B (zh) * 2020-10-27 2023-06-23 西安科技大学 一种基于自编码网络的铁谱图像智能识别方法
CN112784704A (zh) * 2021-01-04 2021-05-11 上海海事大学 一种面向小样本视频动作分类的方法
CN112906516A (zh) * 2021-02-04 2021-06-04 四川望村网络科技有限公司 一种基于深度学习的暴力行为识别方法,存储装置及服务器
CN113449148B (zh) * 2021-06-24 2023-10-20 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及存储介质
CN113449148A (zh) * 2021-06-24 2021-09-28 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及存储介质
CN114998803A (zh) * 2022-06-13 2022-09-02 北京理工大学 一种基于视频的健身运动分类与计数方法
CN116453010A (zh) * 2023-03-13 2023-07-18 彩虹鱼科技(广东)有限公司 基于光流rgb双路特征海洋生物目标检测方法及系统
CN116453010B (zh) * 2023-03-13 2024-05-14 彩虹鱼科技(广东)有限公司 基于光流rgb双路特征海洋生物目标检测方法及系统
CN116630868A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 视频分类方法、视频分类装置、介质及电子设备
CN116630868B (zh) * 2023-07-26 2023-11-14 上海蜜度信息技术有限公司 视频分类方法、视频分类装置、介质及电子设备

Similar Documents

Publication Publication Date Title
WO2017107188A1 (zh) 视频分类快速识别的方法及装置
CN109829443B (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
CN105426883B (zh) 视频分类快速识别的方法及装置
Wang et al. Towards analysis-friendly face representation with scalable feature and texture compression
CN105306945B (zh) 一种监控视频的可伸缩浓缩编码方法和装置
US8605957B2 (en) Face clustering device, face clustering method, and program
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN105049875B (zh) 一种基于混合特征与突变检测的精确关键帧提取方法
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
Yang et al. An objective assessment method based on multi-level factors for panoramic videos
CN112950581A (zh) 质量评估方法、装置和电子设备
CN111382602A (zh) 一种跨域人脸识别算法、存储介质及处理器
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network
CN111626178A (zh) 一种基于新时空特征流的压缩域视频动作识别方法和系统
Zhu et al. Pmatch: Paired masked image modeling for dense geometric matching
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
CN113689527B (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
CN111814618B (zh) 行人重识别方法、步态识别网络训练方法及相关装置
CN111723735A (zh) 一种基于卷积神经网络的伪高码率hevc视频检测方法
Yu et al. PanelNet: Understanding 360 Indoor Environment via Panel Representation
Wan et al. Face detection method based on skin color and adaboost algorithm
Zhao et al. Analysis and application of martial arts video image based on fuzzy clustering algorithm
Shi et al. Transformer-based no-reference image quality assessment via supervised contrastive learning
WO2020124390A1 (zh) 一种面部属性的识别方法及电子设备
CN109040747B (zh) 基于卷积自编码器的立体图像舒适度质量评价方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15911186

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 09.10.2018

122 Ep: pct application non-entry in european phase

Ref document number: 15911186

Country of ref document: EP

Kind code of ref document: A1