WO2022218215A1 - 视频精彩片段的检测方法、装置、计算机设备和存储介质 - Google Patents

视频精彩片段的检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2022218215A1
WO2022218215A1 PCT/CN2022/085737 CN2022085737W WO2022218215A1 WO 2022218215 A1 WO2022218215 A1 WO 2022218215A1 CN 2022085737 W CN2022085737 W CN 2022085737W WO 2022218215 A1 WO2022218215 A1 WO 2022218215A1
Authority
WO
WIPO (PCT)
Prior art keywords
sampling
video
highlight
sampling moment
optical flow
Prior art date
Application number
PCT/CN2022/085737
Other languages
English (en)
French (fr)
Inventor
唐小林
龙良曲
姜文杰
蔡锦霖
Original Assignee
影石创新科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 影石创新科技股份有限公司 filed Critical 影石创新科技股份有限公司
Publication of WO2022218215A1 publication Critical patent/WO2022218215A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Definitions

  • the present application relates to the field of computer technology, and in particular, to a method, apparatus, computer device and storage medium for detecting video highlights.
  • video highlights refer to video clips whose video content has a high degree of splendor, and are not a simple binary classification problem. Using traditional methods to detect video highlights may result in inaccurate detection of video highlights.
  • calculating the spatiotemporal feature of each sampling moment according to the comprehensive features of multiple consecutive sampling moments corresponding to each sampling moment includes:
  • the determining of the video highlights in the to-be-detected video data according to the highlight score includes:
  • the segments to be spliced are spliced to obtain video highlights in the video data to be detected.
  • the method further includes:
  • an image acquisition module configured to acquire video data to be detected, sample the video data to be detected according to a preset sampling rate, and obtain video segments corresponding to multiple sampling moments;
  • the spatiotemporal feature calculation module is used to calculate the spatiotemporal feature of each sampling moment according to the comprehensive features of multiple consecutive sampling moments corresponding to each sampling moment;
  • FIG. 4 is a structural block diagram of an apparatus for detecting video highlights in one embodiment
  • Embodiment 1 as shown in FIG. 2 , a method for detecting video highlights is provided, and the method is applied to the terminal in FIG. 1 as an example for description, including the following steps:
  • Optical flow refers to the displacement vector of the same object (pixel) moving between adjacent image sequences.
  • the displacement vector can be calculated by calculating the brightness change of the same object (pixel) between adjacent image sequences.
  • the optical flow calculated in this embodiment may be dense optical flow, that is, the displacement direction and size of each pixel in the image between image frames, which is the most direct and effective information for evaluating the motion state of the object.
  • Image and optical flow are two different kinds of video information of the video data to be detected, and comprehensive feature refers to the feature obtained by fusing the two different video information of image feature and optical flow feature.
  • a pre-trained comprehensive feature extraction model is pre-stored in the terminal, and the comprehensive feature extraction model is obtained by training a large amount of sample data.
  • the network structure of the comprehensive feature extraction model may be composed of two 2D convolutional neural networks, specifically, two mobilenetv2 networks.
  • the terminal calls the pre-trained comprehensive feature extraction model, inputs the image and optical flow in the video segment corresponding to each sampling time into the comprehensive feature extraction model, and extracts the multi-frame images corresponding to each sampling time through the comprehensive feature extraction model.
  • the image features of the multi-frame images corresponding to each sampling time may be used as the image features corresponding to each sampling time.
  • the optical flow at each sampling time can be normalized.
  • the optical flow at each sampling time may be embodied in the form of an optical flow graph.
  • the optical flow graph includes the horizontal and vertical components of the optical flow.
  • the terminal can normalize the optical flow graph at each sampling moment according to the following formula:
  • W represents the width of the optical flow map
  • H represents the height of the optical flow map
  • F x (i, j) represents the horizontal displacement of the pixels in the i-th row and column j
  • M x represents all the pixels in the horizontal direction.
  • the average value of the displacement in the direction, F y (i, j) represents the vertical displacement of the pixel point in the i-th row and the j column, and My y represents the average value of the displacement in the vertical direction of all the pixel points, Represents the optical flow value of the horizontal displacement of the pixels in row i and column j in the optical flow graph after normalization, It represents the normalized optical flow value of the vertical displacement of the pixel point in row i and column j in the optical flow graph, and M represents the preset maximum displacement.
  • Step 208 Calculate the spatiotemporal feature of each sampling moment according to the comprehensive features of multiple consecutive sampling moments corresponding to each sampling moment.
  • Step 212 Determine video highlights in the video data to be detected according to the highlight score.
  • the highlight score calculation module 410 is configured to calculate the highlight score of the corresponding sampling moment according to the spatiotemporal feature.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种视频精彩片段的检测方法、装置、计算机设备和存储介质。所述方法包括:获取待检测视频数据,根据预设采样率对所述待检测视频数据进行采样,得到多个采样时刻对应的视频段;对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流;将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征;根据多个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征;根据所述时空特征计算每个采样时刻的精彩分数;根据所述精彩分数确定所述待检测视频数据中的视频精彩片段。采用本方法能够提高视频精彩片段的检测准确性。

Description

视频精彩片段的检测方法、装置、计算机设备和存储介质 技术领域
本申请涉及计算机技术领域,特别是涉及一种视频精彩片段的检测方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的迅猛发展,视频的制作和传播成本越来越低,每天都有大量视频产生。当人们面对海量视频时,如何寻找自己感兴趣的内容成为一个难题,针对这一问题,人们发展了视频精彩片段检测技术,它能够自动识别视频中的精彩片段,大大降低了人们观看视频的负担。传统的视频精彩片段检测方式是将视频切分成等长平均的小片段,把视频精彩片段检测转化为一个二分类问题。
技术问题
然而视频精彩片段是指视频内容具有较高的精彩程度的视频片段,并非简单的二分类问题,采用传统方式检测视频精彩片段会导致视频精彩片段的检测不够准确。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术解决方案
基于此,有必要针对上述技术问题,提供一种能够提高视频精彩片段的检测准确性的视频精彩片段的检测方法、装置、计算机设备和存储介质。
一种视频精彩片段的检测方法,所述方法包括:
获取待检测视频数据,根据预设采样率对所述待检测视频数据进行采样,得到多个采样时刻对应的视频段;
对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流;
将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征;
根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征;
根据所述时空特征计算相应采样时刻对应的精彩分数;
根据所述精彩分数确定所述待检测视频数据中的视频精彩片段。
在其中一个实施例中,所述综合特征提取模型包括图像特征提取子网络、光流特征提取子网络和特征融合子网络,所述将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征包括:
将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,通过所述综合特征提取模型中的图像特征提取子网络和光流特征提取子网络分别提取所述图像对应的图像特征以及所述光流对应的光流特征;
通过所述综合特征提取模型中的特征融合子网络将每个采样时刻对应的光流特征与图像特征进行融合,得到每个采样时刻的综合特征。
在其中一个实施例中,所述根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征包括:
根据多个连续采样时刻确定每个采样时刻对应的多个连续采样时刻的综合特征;
将每个采样时刻对应的多个连续采样时刻的综合特征进行融合,得到每个采样时刻的时空特征。
在其中一个实施例中,所述根据所述时空特征计算相应采样时刻的精彩分数包括:
调用预先训练的打分模型,将所述时空特征输入至所述打分模型中,输出相应采样时刻的精彩分数。
在其中一个实施例中,所述根据所述精彩分数确定所述待检测视频数据中的视频精彩片段包括:
将所述精彩分数转换为相应的精彩置信度;
根据所述精彩置信度确定精彩采样时刻;
根据所述精彩置信度以及所述精彩采样时刻确定所述待检测视频数据中的视频精彩片段。
在其中一个实施例中,所述根据所述精彩置信度以及所述精彩采样时刻确定所述待检测视频数据中的视频精彩片段包括:
根据所述精彩置信度确定所述精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻,根据确定的开始时刻和结束时刻确定相应的初始精彩片段;
当存在多个初始精彩片段时,将两两初始精彩片段的开始时刻和结束时刻分别进行比较,识别待拼接片段;
将所述待拼接片段进行拼接,得到所述待检测视频数据中的视频精彩片段。
在其中一个实施例中,所述方法还包括:
调用预先训练的分类模型,将所述时空特征输入至所述分类模型中,输出相应采样时刻的场景类别。
一种视频精彩片段的检测装置,所述装置包括:
图像获取模块,用于获取待检测视频数据,根据预设采样率对所述待检测视频数据进行采样,得到多个采样时刻对应的视频段;
光流计算模块,用于对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流;
综合特征提取模块,用于将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征;
时空特征计算模块,用于根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征;
精彩分数计算模块,用于根据所述时空特征计算每个采样时刻的精彩分数;
精彩片段确定模块,用于根据所述精彩分数确定所述待检测视频数据中的视频精彩片段。
一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
技术效果
上述视频精彩片段的检测方法、装置、计算机设备和存储介质,在待检测视频数据中采样得到多个采样时刻对应的视频段,对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流,从而将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征,实现结合待检测视频数据的图像以及光流,得到空间维度上的特征。根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征,进而根据时空特征计算相应采样时刻的精彩分数,根据精彩分数确定待检测视频数据中的视频精彩片段。由于时空特征包括时间维度上的特征以及空间维度上的特征,使得计算得到的精彩分数能够综合评估待检测视频数据的视频内容在时间维度和空间维度上的精彩程度,与传统方式中通过二分类问题检测视频精彩片段相比,能够更全面、准确地考虑精彩程度的相对意义,确保提取更为合理、符合人体视觉审美的视频精彩片段,进一步提高了视频精彩片段的准确性。另外,通过提取多个采样时刻的图像进行视频精彩片段的检测,能够避免漏掉动态信息,造成漏检的问题。确定视频精彩片段无需依赖运动场景类别,避免了运动场景类别识别错误对精彩分数的影响,且能够完成未标注场景的视频精彩片段的检测任务。
附图说明
图1为一个实施例中视频精彩片段的检测方法的应用环境图;
图2为一个实施例中视频精彩片段的检测方法的流程示意图;
图3为一个实施例中将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征步骤的流程示意图;
图4为一个实施例中视频精彩片段的检测装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
本发明的实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的视频精彩片段的检测方法,可以应用于如图1所示的应用环境中。其中,视频采集设备102和终端104通过网络进行通信。终端104可以获取视频采集设备102发送的待检测视频数据,待检测视频数据可以是视频采集设备102在视频采集过程中实时采集到的视频流数据,也可以是终端104在获取视频精彩片段的检测任务后,根据视频精彩片段的检测任务在视频采集设备102中获取到的。终端104根据预设采样率对待检测视频数据进行采样,得到多个采样时刻对应的视频段,对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流,将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征,从而根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征,根据时空特征计算相应采样时刻的精彩分数,进而根据精彩分数确定待检测视频数据中的视频精彩片段。其中,视频采集设备102可以是摄像机、相机等设备。终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在实施例一中,如图2所示,提供了一种视频精彩片段的检测方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取待检测视频数据,根据预设采样率对待检测视频数据进行采样,得到多个采样时刻对应的视频段。
待检测视频数据是指需要检测视频精彩片段的视频。
终端可以获取视频采集设备实时采集到的视频流数据,将获取到的视频流数据作为待检测视频数据。终端还可以获取视频精彩片段的检测任务,视频精彩片段的检测任务用于指示终端在视频采集设备中获取相应的待检测视频数据,并对待检测视频数据进行检测。终端对视频精彩片段的检测任务进行解析,得到视频标识,视频标识是指用于标记视频数据的唯一标记,例如,视频名称。终端从而根据视频标识在视频采集设备中获取相应的待检测视频数据。
待检测视频数据是指连续的图像序列,视频数据可以包括连续多帧在时间上存在先后顺序的图像。帧是待检测视频数据中的最小视觉单元,待检测视频数据中的每一帧可以对应一个图像。终端可以按照预设采样率对待检测视频数据进行采样,得到多个采样时刻对应的视频段。每个采样时刻对应一个视频段,每个视频段中包括多帧图像。每帧图像用于表示视频拍摄的具体内容。例如,预设采样率可以是5fps,表示以5帧/秒的采样率对待检测视频数据进行采样,得到多个采样时刻对应的多个视频段,且每个视频段包含5帧图像。
步骤204,对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流。
光流是指同一物体(像素点)在相邻图像序列之间运动的位移矢量,一般可以通过计算同一物体(像素点)在相邻图像序列之间亮度的变化来计算位移矢量。本实施例中计算的光流可以是密集光流,即图像中每个像素点在图像帧之间的位移方向和大小,是评估物体运动状态最直接有效的信息。
每各采样时刻对应的视频段中包括多帧图像,由于每帧图像为RGB(Red、Green、Blue,红绿蓝)模式,即每个采样时刻对应的视频段中的图像是用RGB颜色值表示的,包括红色分量R,绿色分量G以及蓝色分量B,需要将每个采样时刻对应的视频段中的图像分别转换为相应的灰度图像。具体的,可以通过如下公式Grey=0.299*R+0.587*G+0.114*B进行图像转换。其中,Grey表示转换得到的灰度值,用于表示灰度图像。R表示每个采样时刻对应的视频段中图像的红色分量,G表示每个采样时刻对应的视频段中图像的绿色分量,B表示每个采样时刻对应的视频段中图像的红色分量。R、G和B的数值范围均为[0,255]。各分量中,数值越小,亮度越低,数值越大,亮度越高。
终端从而对灰度图像进行光流计算,得到待检测视频数据在每个采样时刻对应的光流。具体的,终端可以采用DisOpticalFlow算法、FarnebackOpticalFlow算法、deepflow算法、simpleflow算法等多种传统光流计算算法中的至少一种计算灰度图像中每个采样时刻对应的相邻图像之间的光流,从而根据每个采样时刻的相邻图像之间的光流得到每个采样时刻的光流。相邻图像之间的光流是指每相邻两帧图像之间的光流。相邻图像之间的光流包括第一帧图像中每个像素点的位移方向和大小。
进一步的,还可以将每个采样时刻对应的视频段中的相邻图像分别输入至基于深度学习的光流提取模型中,通过光流提取模型计算相邻图像之间的光流,从而得到每个采样时刻对应的光流。例如,光流提取模型可以是pwc-net(基于pyramidal processing、warping and cost volume的网络)模型、flownet2、liteflownet、基于GAN(GenerativeAdversarial Nets,生成式对抗网络)的深度学习模型等中的任意一种。
步骤206,将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征。
图像和光流为待检测视频数据的两种不同的视频信息,而综合特征是指将图像特征以及光流特征两种不同的视频信息进行融合后得到的特征。具体的,终端中预先存储有预先训练的综合特征提取模型,综合特征提取模型是通过大量样本数据训练得到的。例如,综合特征提取模型的网络结构可以是由两个2D卷积神经网络组成的,具体可以是两个mobilenetv2网络。终端调用预先训练的综合特征提取模型,将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,通过综合特征提取模型分别提取每个采样时刻对应的多帧图像的图像特征,以及提取每个采样时刻的光流对应的光流特征。可以将每个采样时刻对应的多帧图像的图像特征作为每个采样时刻对应的图像特征。
图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征。光流特征可以包括图像中每个像素点在相邻帧之间的运动信息以及图像中物体的运动信息。从而综合特征提取模型分别将每个采样时刻对应的图像特征以及相应的光流特征进行融合,得到每个采样时刻的综合特征。融合是指将图像特征与光流特征进行拼接。由于每个采样时刻对应的视频段中的图像包括水平方向和垂直方向两个维度,图像特征与光流特征进行融合后得到的综合特征可以包括水平方向的特征以及垂直方向的特征。水平方向的特征可以包括水平方向的图像特征以及水平方向的光流特征。垂直方向的特征可以包括垂直方向的图像特征以及垂直方向的光流特征。综合特征提取模型为2D卷积神经网络模型,能够在终端中进行调用,与3D卷积神经网络需要在服务器中进行调用相比,提高了数据安全性,且计算量较小,提高了综合特征的计算效率。
在将每个采样时刻对应的视频段中的图像输入至综合特征提取模型之前,可以对每个采样时刻对应的视频段中的图像进行规则化(Batch Normalization,简称BN)处理,得到规则化后的多个采样时刻的图像。规则化处理是指将图像转换成0-1的浮点型图像,之后获取每个采样时刻对应的视频段中的图像的均值以及标准差,将浮点型图像的每个像素点减去相应采样时刻对应的视频段中图像的均值,再除以该采样时刻对应的视频段中图像的标准差,得到规则化后的多个采样时刻的图像,从而将规则化后的多个采样时刻的图像分别输入至综合特征提取模型中。通过规则化处理可以加快综合特征提取模型的收敛速度,以及提高综合特征提取模型的收敛准确性。
在将每个采样时刻的光流输入至综合特征提取模型之前,可以对每个采样时刻的光流进行归一化处理。其中,每个采样时刻的光流可以是以光流图的形式体现的。光流图中包括光流的水平分量和垂直分量。终端可以根据如下公式对每个采样时刻的光流图进行归一化处 理:
Figure PCTCN2022085737-appb-000001
Figure PCTCN2022085737-appb-000002
Figure PCTCN2022085737-appb-000003
Figure PCTCN2022085737-appb-000004
其中,W表示光流图的宽,H表示表示光流图的高,F x(i,j)表示第i行,j列的像素点的水平方向的位移,M x表示所有像素点在水平方向的位移的平均值,F y(i,j)表示第i行,j列的像素点的垂直方向的位移,M y表示所有像素点在垂直方向的位移的平均值,
Figure PCTCN2022085737-appb-000005
表示光流图中i行,j列的像素点的水平方向的位移在进行归一化之后的光流值,
Figure PCTCN2022085737-appb-000006
表示光流图中i行,j列的像素点的垂直方向的位移在归一化之后的光流值,M表示预先设置的最大位移。
通过对每个采样时刻对应的光流进行归一化处理,能够将光流限制在[-0.5,0.5]区间之内,使得后续的综合特征提取模型能够收敛。
步骤208,根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征。
时空特征用于体现待检测视频数据在一个时间段内的内容特征。
具体的,终端中设置有预设采样时长,预设采样时长中包括需要进行特征融合的连续采样时刻的数量。针对每个采样时刻,终端以该采样时刻为中心,根据预设采样时长确定多个连续采样时刻的综合特征,将多个连续采样时刻的综合特征进行融合,得到该采样时刻的时空特征。其中,融合是指将综合特征进行拼接处理。综合特征包括水平方向的特征以及垂直方向的特征,水平方向的特征以及垂直方向的特征也可以称为空间维度上的特征,时空特征包括时间维度上的特征以及空间维度上的特征。
步骤210,根据时空特征计算每个采样时刻的精彩分数。
终端在计算得到每个采样时刻的时空特征后,可根据时空特征来计算相应帧图像数据对应的精彩分数。精彩分数是指图像的精彩程度的得分(Highlight score,简称HLscore)。精彩分数越大,表明精彩程度越大,反之,精彩程度越小。
进一步的,根据时空特征计算每个采样时刻的精彩分数包括:调用预先训练的打分模型, 将时空特征输入至打分模型中,输出每个采样时刻的精彩分数。终端中存储有预先训练的打分模型,打分模型是通过大量的样本数据训练得到的。例如,打分模型可以是2D卷积神经网络模型(Convolutional Neural Networks,简称CNN),具体可以是3层2D卷积神经网络模型,包括3个全连接层。终端在计算得到每个采样时刻的时空特征后,调用预先训练的打分模型,将每个采样时刻的时空特征分别输入至打分模型中,通过打分模型对每个采样时刻的时空特征进行预测运算,输出每个采样时刻的精彩分数。打分模型为2D卷积神经网络模型,能够在终端中进行调用,与3D卷积神经网络需要在服务器中进行调用相比,提高了数据安全性,且计算量较小,提高了精彩分数的计算效率。由于精彩分数是根据时空特征计算得到的,时空特征包括包括时间维度上的特征以及空间维度上的特征,使得计算得到的精彩分数能够综合评估待检测视频数据的视频内容在时间维度和空间维度上的精彩程度,能够全面、准确地判断视频内容的精彩程度,而并非简单的二分类问题,即并非简单判断视频内容是否为精彩视频片段。不同时间维度和空间维度的精彩程度是不同的,例如,对于滑雪场景,准备时的精彩程度小于滑动时的精彩程度,滑动时的精彩程度小于跳跃时的精彩程度,跳跃时的精彩程度小于腾空翻转的精彩程度,再如,针对骑车场景,原地不动时的精彩程度小于行驶时的精彩程度,行驶时的精彩程度小于单轮骑行或者跳跃的精彩程度,跳跃的精彩程度小于腾空的精彩程度。能够确保提取更为合理、符合人体视觉审美的视频精彩片段,进一步提高了视频精彩片段的准确性。
步骤212,根据精彩分数确定待检测视频数据中的视频精彩片段。
终端在计算得到精彩分数后,可以将精彩分数最大的相应采样时刻确定为精彩采样时刻,该精彩采样时刻属于视频精彩片段中的一个时刻,从而终端可以将精彩采样时刻的前m个采样时刻作为开始时刻,将精彩采样时刻的后n个采样时刻作为结束时刻,进而将开始时刻和结束时刻构成的区间作为视频精彩片段的区间(Highlight,简称HL),视频精彩片段的区间对应的视频片段即为视频精彩片段。具体的,终端可以将精彩分数转换为精彩置信度,得到精彩置信度曲线。从而通过双边极值点定位法在精彩置信度曲线上确定精彩采样时刻的开始时刻和结束时刻,进而得到视频精彩片段的区间,确定待检测视频数据中的视频精彩片段。视频精彩片段的区间能够包含完整的精彩片段,还原精彩事件的整个过程。
进一步的,可以将确定的视频精彩片段设置为待检测视频数据的视频封面,使得待检测视频数据的视频内容更为直观。视频精彩片段还可以用于组合生成精彩视频锦集,使得用户了解精彩视频片段所对应的精彩内容,方便用户进行归纳和整理。
在本实施例中,在待检测视频数据中根据预设采样率采样得到多个采样时刻的视频段,对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流,从而将每 个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征,实现结合待检测视频数据的图像以及光流,得到空间维度上的特征。根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征,进而根据时空特征计算相应采样时刻的精彩分数,根据精彩分数确定待检测视频数据中的视频精彩片段。由于时空特征包括时间维度上的特征以及空间维度上的特征,使得计算得到的精彩分数能够综合评估待检测视频数据的视频内容在时间维度和空间维度上的精彩程度,与传统方式中通过二分类问题检测视频精彩片段相比,能够更全面、准确地考虑精彩程度的相对意义,确保提取更为合理、符合人体视觉审美的视频精彩片段,进一步提高了视频精彩片段的准确性。另外,通过提取多个采样时刻的图像进行视频精彩片段的检测,能够避免漏掉动态信息,造成漏检的问题。确定视频精彩片段无需依赖运动场景类别,避免了运动场景类别识别错误对精彩分数的影响,且能够完成未标注场景的视频精彩片段的检测任务。
在实施例二中,如图3所示,综合特征提取模型包括图像特征提取子网络、光流特征提取子网络和特征融合子网络,将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征的步骤包括:
步骤302,将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,通过综合特征提取模型中的图像特征提取子网络和光流特征提取子网络分别提取图像对应的图像特征以及光流对应的光流特征。
步骤304,通过综合特征提取模型中的特征融合子网络将每个采样时刻对应的光流特征与图像特征进行融合,得到每个采样时刻的综合特征。
综合特征提取模型包括图像特征提取子网络、光流特征提取子网络和特征融合子网络。图像特征提取子网络和光流特征提取子网络可以是mobilenetv2网络。mobilenetv2网络包括多个网络层,具体可以包括输入层、卷积层、残差层、池化层以及输出层等。特征融合子网络可以是2D卷积神经网络。
终端在得到多个采样时刻的图像以及光流后,调用综合特征提取模型,通过图像特征子网络对每个采样时刻对应的视频段中的图像进行图像特征提取,光流特征提取子网络提取光流特征,再通过综合特征提取模型的特征融合子网络将提取的图像特征以及光流特征进行融合。图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征。光流特征包括图像中每个像素点的运动信息以及物体的运动信息。特征融合子网络中包括第一融合卷积层以及第二融合卷积层。第一融合卷积层用于将光流特征提取子网络的倒数第二个卷积层的特征提取结果添加至图像特征提取子网络中相应卷积层的特征提取结果中,得到添加后的特征提取结果。将添加后的特征提取结果作为图像特征提取子网络中下一个卷积层的输入,进 行特征提取后,得到下一个卷积层的特征提取结果。第二融合卷积层用于将光流特征提取子网络的最后一层的特征提取结果添加至图像特征提取子网络中同等级的卷积层的特征提取结果中,得到融合后的特征提取结果,融合后的特征提取结果输入至池化层,计算融合后的特征提取结果中特征图的像素点的平均值,得到计算结果,将计算结果输入至图像特征提取子网络的卷积层中,通过卷积层将计算结果转换为每个采样时刻的综合特征,通过输出层输出每个采样时刻的综合特征。
在本实施例中,通过综合特征提取模型中的图像特征提取子网络提取每个采样时刻对应的视频段中图像的图像特征,得到每个采样时刻对应的图像特征,以及通过光流特征提取子网络对每个采样时刻的光流进行特征提取,得到每个采样时刻的光流特征,通过特征融合子网络将每个采样时刻的光流特征与对应的图像特征进行融合,得到每个采样时刻的综合特征。图像特征和光流特征为待检测视频数据的不同视频信息,通过将两者进行融合,实现将待检测视频数据中的图像信息以及运动信息进行结合,由此可更准确地了解视频内容,从而有效提高后续精彩分数的合理性和准确性。
在实施例三中,根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征包括:根据预设采样时长确定每个采样时刻对应的多个连续采样时刻的综合特征;将多个连续采样时刻的综合特征进行融合,得到每个采样时刻的时空特征。
为了得到待检测视频数据在一个时间段内的内容特征,终端可以通过滑动窗口来确定预设采样时长,预设采样时长中包括多个连续采样时刻的综合特征。
滑动窗口每移动一个采样时刻,则将滑动窗内多个连续采样时刻的综合特征进行融合,计算得到滑动窗口的中心采样时刻对应的时空特征,因此,每个采样时刻对应的多个连续采样时刻的综合特征,是在该采样时刻作为滑动窗口的中心采样时刻确定的。通过上述方式依次移动滑动窗口,计算每个采样时刻的时空特征。例如,针对当前采样时刻,其对应的多个连续采样时刻的综合特征可以是包含当前采样时刻在内的连续N+1个采样时刻。具体可以是在当前采样时刻之前,获取N/2个采样时刻,以及在当前采样时刻之后,获取N/2个采样时刻。其中,N=2 a,a大于1。多个连续采样时刻的综合特征的融合方式可以是在连续N+1个采样时刻的综合特征中选取最大值,得到第一个时空特征,用fmax_1_0来表示。从而终端将连续N+1个采样时刻的综合特征按照采样时刻划分为两部分,选取每一部分的综合特征的最大值,得到第二、三个时空特征,用[fmax_2_0,fmax_2_1]来表示。将连续N+1个采样时刻的综合特征按照采样时刻划分为四部分,得到第四、五、六、七个时空特征,用[fmax_4_0,fmax_4_1,fmax_4_2,fmax_4_3]来表示,最后将第一至第七时空特征进行拼接,得到当前采样时刻对应的完整时空特征,即当前采样时刻对应的时空特征为[fmax_1_0,fmax_2_0, fmax_2_1,fmax_4_0,fmax_4_1,fmax_4_2,fmax_4_3]的串联。
在本实施例中,通过确定各采样时刻对应的多个连续采样时刻的综合特征,将多个连续采样时刻的综合特征进行融合,得到每个采样时刻对应的时空特征,能够得到视频内容在时间维度和空间维度上的变化,能够更为准确地体现视频内容,有利于提高后续精彩分数的评估准确性,进一步确保提取更为合理、准确、符合人体视觉审美的视频精彩片段。
在实施例四中,根据精彩分数确定待检测视频数据中的视频精彩片段包括:将精彩分数转换为相应的精彩置信度;根据精彩置信度确定精彩采样时刻;根据精彩置信度以及精彩采样时刻确定待检测视频数据中的视频精彩片段。
精彩置信度是指计算的精彩分数在相应采样时刻发生的可能性。精彩采样时刻是指根据精彩置信度确定的属于精彩片段的采样时刻。
终端可以通过计算精彩分数在正态分布曲线下的面积得到精彩分数对应的精彩置信度。具体的,终端可以先确定每个精彩分数对应的概率,根据多个不同的精彩分数以及每个精彩分数对应的概率得到精彩分数的分布,从而将精彩分数的分布中每个精彩分数与对应的概率相乘,再累加得到精彩分数分布的期望,根据现有的标准差计算公式计算精彩分数分布的标准差。进而根据精彩分数与精彩置信度之间的函数关系、精彩分数分布的期望以及精彩分数分布的标准差来计算各采样时刻的精彩分数在正态分布曲线上的位置,根据位置计算负无穷到每个精彩分数所在的正态分布曲线区间与x轴之间包含的面积,该面积的大小即表示精彩分数对应的精彩置信度。精彩置信度可以是以精彩置信度曲线的形式来体现的。精彩分数与精彩置信度之间的函数关系可以如下所示:
Figure PCTCN2022085737-appb-000007
Figure PCTCN2022085737-appb-000008
其中,Hc t表示t采样时刻的精彩分数对应的精彩置信度,u t表示精彩分数在高斯分布曲线中的位置,exp(-0.5u t ^2)表示
Figure PCTCN2022085737-appb-000009
s t表示t采样时刻的精彩分数,m HL表示精彩分数分布的期望,V HL表示精彩分数分布的标准差。
根据精彩置信度确定精彩采样时刻的方式可以有多种,可以是将精彩置信度与预先设置的置信度阈值进行比较,将精彩置信度大于置信度阈值的采样时刻确定为精彩采样时刻,还可以在置信度曲线上查找极大值点,将极大值点对应的采样时刻确定为精彩采样时刻。进一步的,还可以直接根据每个精彩采样时刻的精彩分数确定精彩时刻,将精彩分数中的最大精彩分数对应的采样时刻确定为精彩采样时刻。
终端可以通过双边极值点定位法在精彩置信度曲线上确定精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻,每个精彩采样时刻的开始时刻和结束时刻可以确定一个初始精彩片段,当存在多个初始精彩片段时,根据每个初始精彩片段的开始时刻和结束时刻确定可以被拼接在一起的待拼接片段,即在时间上存在重合或者衔接的多个初始精彩片段。终端将待拼接片段进行拼接,得到待检测视频数据中的视频精彩片段。
在本实施例中,将精彩分数转换为相应的精彩置信度,根据精彩置信度确定精彩采样时刻,根据精彩置信度以及精彩采样时刻确定待检测视频数据中的视频精彩片段,精彩置信度能够确定精彩分数在相应采样时刻发生的可能性,有利于准确判断采样时刻是否为精彩采样时刻,从而能够准确识别视频精彩片段。
在实施例五中,根据精彩置信度以及精彩采样时刻确定待检测视频数据中的视频精彩片段包括:根据精彩置信度确定精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻,根据确定的开始时刻和结束时刻确定相应的初始精彩片段;当存在多个初始精彩片段时,将两两初始精彩片段的开始时刻和结束时刻分别进行比较,识别待拼接片段;将待拼接片段进行拼接,得到待检测视频数据中的视频精彩片段。
精彩置信度可以是以精彩置信度曲线的形式来体现的。终端可以在精彩置信度曲线上确定每个精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻。具体的,终端可以通过双边极值点定位法在精彩置信度曲线上确定精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻。针对每个精彩采样时刻,先向前遍历置信度曲线,查找距离每个初始精彩片段最近的极小值点,将极小值点对应的采样时刻确定为每个精彩采样时刻所属的初始精彩片段的开始时刻,再向后遍历置信度曲线,查找距离每个初始精彩片段最近的极小值点,将极小值点对应的采样时刻确定为每个精彩采样时刻所属的初始精彩片段的结束时刻。根据每个精彩采样时刻查找到的开始时刻和结束时刻可以确定一个初始精彩片段,当存在多个精彩采样时刻时,可以确定每个精彩采样时刻对应的初始精彩片段,从而得到多个初始精彩片段。
当通过在置信度曲线上查找极大值点的方式来确定精彩采样时刻时,将置信度曲线上的极大值点对应的采样时刻确定为精彩采样时刻,以极大值点为基准,根据预设延伸时长分别向前,向后延伸,将向前延伸得到的采样时刻确定为开始时刻,将向后延伸得到的采样时刻确定为结束时刻,每个极大值点确定的开始时刻和结束时刻可以确定一个初始精彩片段。进一步的,还可以查找极大值点前后大于预设阈值的区间。预设阈值可以是极大值点对应的精彩置信度的s倍,s小于1,如s=0.75。将极大值点之前的区间的最小值确定为开始时刻,将极大值点之后的区间的最大值确定为结束时刻,从而可以根据每个极大值点确定的开始时刻和结束时刻检测到一个初始精彩片段。
当存在多个初始精彩片段时,可以将两两初始精彩片段的开始时刻和结束时刻分别进行比较,识别初始精彩片段之间是否存在重合或者衔接,若存在,则将相应的初始精彩片段确定为待拼接片段,将待拼接片段进行拼接,得到待检测视频数据中的视频精彩片段。
在本实施例中,根据精彩置信度确定精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻,根据确定的开始时刻和结束时刻确定相应的初始精彩片段,将待拼接片段进行拼接。能够确定视频精彩片段的完整边界,得到完整的视频精彩片段,确保还原视频精彩片段对应的精彩事件的整个过程,进一步提高了视频精彩频段的检测准确性。
在实施例五中,还可以根据时空特征对多个采样时刻的图像进行场景分类,具体的,调用预先训练的分类模型,将时空特征输入至分类模型中,输出每个采样时刻的场景类别。终端中还存储有预先训练的分类模型,分类模型也是通过大量的样本数据训练得到的。例如,分类模型可以是full connection(全连接层)网络模型。终端可以将每个采样时刻的时空特征分别输入至分类模型中,通过分类模型对时空特征进行预测运算,输出每个采样时刻的场景类别。其中,场景类别可以包括摩托车、自行车、滑板、滑雪、跳伞、翼装、跑酷、篮球等。通过分类模型对时空特征进行分类,得到每个采样时刻的场景类别,有利于用户在确定视频精彩片段后,对视频精彩片段进行后期编辑和管理。
应该理解的是,虽然图2至3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在实施例六中,如图4所示,提供了一种视频精彩片段的检测装置,包括:图像获取模块402、光流计算模块404、综合特征提取模块406、时空特征计算模块408、精彩分数计算模块410和精彩片段确定模块412,其中:
图像获取模块402,用于获取待检测视频数据,根据预设采样率对待检测视频数据进行采样,得到多个采样时刻对应的视频段。
光流计算模块404,用于对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流。
综合特征提取模块406,用于将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征。
时空特征计算模块408,用于根据每个采样时刻对应的多个连续采样时刻的综合特征计 算每个采样时刻的时空特征。
精彩分数计算模块410,用于根据时空特征计算相应采样时刻的精彩分数。
精彩片段确定模块412,用于根据精彩分数确定待检测视频数据中的视频精彩片段。
在实施例七中,综合特征提取模型包括图像特征提取子网络、光流特征提取子网络和特征融合子网络,综合特征提取模块406还用于将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,通过综合特征提取模型中的图像特征提取子网络和光流特征提取子网络分别提取图像对应的图像特征以及光流对应的光流特征;通过综合特征提取模型中的特征融合子网络将每个采样时刻对应的光流特征与图像特征进行融合,得到每个采样时刻的综合特征。
在实施例八中,时空特征计算模块408还用于根据预设采样时长确定每个采样时刻对应的多个连续采样时刻的综合特征;将每个采样时刻对应的多个连续采样时刻的综合特征进行融合,得到每个采样时刻的时空特征。
在实施例九中,精彩分数计算模块410还用于调用预先训练的打分模型,将时空特征输入至打分模型中,输出相应采样时刻的精彩分数。
在实施例十中,精彩片段确定模块412还用于将精彩分数转换为相应的精彩置信度;根据精彩置信度确定精彩采样时刻;根据精彩置信度以及精彩采样时刻确定待检测视频数据中的视频精彩片段。
在实施例十一中,精彩片段确定模块412还用于根据精彩置信度确定精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻,根据确定的开始时刻和结束时刻确定相应的初始精彩片段;当存在多个初始精彩片段时,将两两初始精彩片段的开始时刻和结束时刻分别进行比较,识别待拼接片段;将待拼接片段进行拼接,得到待检测视频数据中的视频精彩片段。
在实施例十二中,上述装置还包括分类模块,用于调用预先训练的分类模型,将时空特征输入至分类模型中,输出相应采样时刻的场景类别。
关于视频精彩片段的检测装置的具体限定可以参见上文中对于视频精彩片段的检测方法的限定,在此不再赘述。上述视频精彩片段的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在实施例十三中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储 器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频精彩片段的检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在实施例十四中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个实施例中的步骤。
在实施例十五中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

  1. 一种视频精彩片段的检测方法,其特征在于,所述方法包括:
    获取待检测视频数据,根据预设采样率对所述待检测视频数据进行采样,得到多个采样时刻对应的视频段;
    对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流;
    将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征;
    根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征;
    根据所述时空特征计算相应采样时刻对应的精彩分数;
    根据所述精彩分数确定所述待检测视频数据中的视频精彩片段。
  2. 根据权利要求1所述的方法,其特征在于,所述综合特征提取模型包括图像特征提取子网络、光流特征提取子网络和特征融合子网络,所述将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征包括:
    将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,通过所述综合特征提取模型中的图像特征提取子网络和光流特征提取子网络分别提取所述图像对应的图像特征以及所述光流对应的光流特征;
    通过所述综合特征提取模型中的特征融合子网络将每个采样时刻对应的光流特征与图像特征进行融合,得到每个采样时刻的综合特征。
  3. 根据权利要求1所述的方法,其特征在于,所述根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征包括:
    根据多个连续采样时刻确定每个采样时刻对应的多个连续采样时刻的综合 特征;
    将每个采样时刻对应的多个连续采样时刻的综合特征进行融合,得到每个采样时刻的时空特征。
  4. 根据权利要求1所述的方法,其特征在于,所述根据所述时空特征计算相应采样时刻的精彩分数包括:
    调用预先训练的打分模型,将所述时空特征输入至所述打分模型中,输出相应采样时刻的精彩分数。
  5. 根据权利要求1所述的方法,其特征在于,所述根据所述精彩分数确定所述待检测视频数据中的视频精彩片段包括:
    将所述精彩分数转换为相应的精彩置信度;
    根据所述精彩置信度确定精彩采样时刻;
    根据所述精彩置信度以及所述精彩采样时刻确定所述待检测视频数据中的视频精彩片段。
  6. 根据权利要求5所述的方法,其特征在于,所述根据所述精彩置信度以及所述精彩采样时刻确定所述待检测视频数据中的视频精彩片段包括:
    根据所述精彩置信度确定所述精彩采样时刻所属的初始精彩片段的开始时刻和结束时刻,根据确定的开始时刻和结束时刻确定相应的初始精彩片段;
    当存在多个初始精彩片段时,将两两初始精彩片段的开始时刻和结束时刻分别进行比较,识别待拼接片段;
    将所述待拼接片段进行拼接,得到所述待检测视频数据中的视频精彩片段。
  7. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    调用预先训练的分类模型,将所述时空特征输入至所述分类模型中,输出相应采样时刻的场景类别。
  8. 一种视频精彩片段的检测装置,其特征在于,所述装置包括:
    图像获取模块,用于获取待检测视频数据,根据预设采样率对所述待检测视频数据进行采样,得到多个采样时刻对应的多个视频段;
    光流计算模块,用于对每个采样时刻对应的视频段中的图像进行光流计算,得到每个采样时刻的光流;
    综合特征提取模块,用于将每个采样时刻对应的视频段中的图像以及光流输入至综合特征提取模型中,得到每个采样时刻的综合特征;
    时空特征计算模块,用于根据每个采样时刻对应的多个连续采样时刻的综合特征计算每个采样时刻的时空特征;
    精彩分数计算模块,用于根据所述时空特征计算每个采样时刻的精彩分数;
    精彩片段确定模块,用于根据所述精彩分数确定所述待检测视频数据中的视频精彩片段。
  9. 一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
  10. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
PCT/CN2022/085737 2021-04-13 2022-04-08 视频精彩片段的检测方法、装置、计算机设备和存储介质 WO2022218215A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110393926.1 2021-04-13
CN202110393926.1A CN115205723A (zh) 2021-04-13 2021-04-13 视频精彩片段的检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2022218215A1 true WO2022218215A1 (zh) 2022-10-20

Family

ID=83571471

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/085737 WO2022218215A1 (zh) 2021-04-13 2022-04-08 视频精彩片段的检测方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN115205723A (zh)
WO (1) WO2022218215A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890781A (zh) * 2012-07-04 2013-01-23 北京航空航天大学 一种针对羽毛球比赛视频的精彩镜头识别方法
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN110267119A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 视频精彩度的评价方法及相关设备
CN110263217A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频片段标签识别方法及装置
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890781A (zh) * 2012-07-04 2013-01-23 北京航空航天大学 一种针对羽毛球比赛视频的精彩镜头识别方法
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
CN110267119A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 视频精彩度的评价方法及相关设备
CN110263217A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频片段标签识别方法及装置
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法

Also Published As

Publication number Publication date
CN115205723A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
JP7500689B2 (ja) 制御されていない照明条件の画像中の肌色を識別する技術
Qu et al. RGBD salient object detection via deep fusion
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN109344742B (zh) 特征点定位方法、装置、存储介质和计算机设备
WO2021073418A1 (zh) 人脸识别方法、装置、设备及存储介质
WO2019023921A1 (zh) 一种手势识别方法、装置及设备
WO2019020103A1 (zh) 目标识别方法、装置、存储介质和电子设备
WO2022041830A1 (zh) 行人重识别方法和装置
CN111797653A (zh) 基于高维图像的图像标注方法和装置
CN109271848B (zh) 一种人脸检测方法及人脸检测装置、存储介质
CN109063626B (zh) 动态人脸识别方法和装置
CN110942456B (zh) 篡改图像检测方法、装置、设备及存储介质
WO2022213540A1 (zh) 目标检测、属性识别与跟踪方法及系统
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN110956059B (zh) 一种动态手势识别方法、装置和电子设备
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
CN111401267B (zh) 基于自学习局部特征表征的视频行人再识别方法及系统
Allaert et al. Optical flow techniques for facial expression analysis: Performance evaluation and improvements
CN112766028B (zh) 人脸模糊处理方法、装置、电子设备及存储介质
WO2015064292A1 (ja) 画像の特徴量に関する処理システム、処理方法及びプログラム
Li et al. Multi-Scale correlation module for video-based facial expression recognition in the wild
US9286707B1 (en) Removing transient objects to synthesize an unobstructed image
WO2022218215A1 (zh) 视频精彩片段的检测方法、装置、计算机设备和存储介质
CN117037244A (zh) 人脸安全检测方法、装置、计算机设备和存储介质
WO2022228325A1 (zh) 行为检测方法、电子设备以及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22787441

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22787441

Country of ref document: EP

Kind code of ref document: A1