WO2018137126A1

WO2018137126A1 - 一种静态视频摘要的生成方法及装置

Info

Publication number: WO2018137126A1
Application number: PCT/CN2017/072416
Authority: WO
Inventors: 钟圣华; 吴嘉欣; 黄星胜; 江健民
Original assignee: 深圳大学
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2018-08-02
Also published as: CN107223344A

Abstract

本发明适用计算机技术领域，提供了一种静态视频摘要的生成方法及装置，所述方法包括：接收用户输入的待处理视频；通过奇异值分解算法对待处理视频进行预采样，以提取待处理视频的候选帧；根据词袋模型算法，分别生成用来表示每个候选帧的直方图；通过基于视频表示的高密度峰值搜索算法对所有直方图进行聚类，并获取聚类后的簇中心点；根据每个簇中心点，生成待处理视频的静态视频摘要。从而通过候选帧的生成和直方图表示，更深入地去除冗余的帧，且在聚类过程中自适应地生成簇类中心，无需预先设置簇的数量、无迭代过程，有效地提高了聚类的稳定性和适应性、降低了聚类的时间复杂度，进而有效地提高了静态视频摘要的生成效率和质量。

Description

一种静态视频摘要的生成方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种静态视频摘要的生成方法及装置。

背景技术

近年来，随着多媒体技术的发展，在网络上观看自己喜欢的视频已经成为多数人日常生活中不可缺少的一部分，但如何帮助人们从大量的视频中快速获取自己喜欢的、感兴趣的视频，在技术上仍然是一个具有挑战性的问题。静态视频总结是一个有效、经典的解决该问题的方法，该方法通过去除视频中的冗余帧，得到能够简要表示视频内容的静态视频摘要。用户通过观看视频摘要就可以了解到视频的大概内容，并判断是否有兴趣观看整段视频。

目前，相关研究人员已提出了静态视频摘要的多种方法，其中，一种方法将视频分成多个镜头，并基于颜色直方图特征，采用k-均值(k-means)聚类算法将每个镜头的帧分组成簇(预先设置好簇的数量)，将每个镜头的聚类中心设置为静态视频摘要结果；另一种方法提出了静态视频摘要的三个步骤，首先，基于颜色和边缘信息对镜头进行边界检测，其次，在聚类过程中根据镜头中的运动类型和场景对镜头进行分类，最后，采用镜头重要滤波器，通过计算运动能量和颜色变化来确定每个镜头的重要性，在镜头拍摄过程中选择每个簇的重要镜头；还有一种方法，先通过消除视频中一些无意义的帧来获得候选帧，再采用k-means聚类方法将所有的候选帧划分为簇(簇的数量有相邻帧之间视觉内容的变化决定)，最后在这些簇中过滤一些类似的帧，过滤后剩下的帧被认为是静态视频摘要的结果。

在上述的现有方法中，由于类似的镜头在视频中可能出现多次，所以第一种方法和第二种方法所采用的基于镜头的方式均存在冗余，且第一种方法中预先设置聚类的簇的数量会影响到最佳视频摘要结果的生成，而第三种方法在聚类前的去冗余工作不够深入，仅简单地去除了一些简单的、无意义的视频帧。

发明内容

本发明的目的在于提供一种静态视频摘要的生成方法及装置，旨在解决由于现有技术无法提供一种静态视频摘要生成的有效方法，在生成静态视频摘要时视频中的冗余帧去除程度较低、需人工指定聚类后簇的数量，导致静态视频摘要生成效率较低、生成的静态视频摘要质量不稳定的问题。

一方面，本发明提供了一种静态视频摘要的生成方法，所述方法包括下述步骤：

接收用户输入的待处理视频；

通过奇异值分解算法对所述待处理视频进行预采样，以提取所述待处理视频的候选帧；

根据词袋模型算法，分别生成所述所有候选帧的直方图；

通过基于视频表示的高密度峰值搜索算法对所述所有直方图进行聚类，并获取聚类后的簇中心点；

根据所述每个簇中心点，生成所述待处理视频的静态视频摘要。

另一方面，本发明提供了一种静态视频摘要的生成装置，所述装置包括：

视频接收模块，用于接收用户输入的待处理视频；

候选帧提取模块，用于通过奇异值分解算法对所述待处理视频进行预采样，以提取所述待处理视频的候选帧；

直方图表示模块，用于根据词袋模型算法，分别生成所述所有候选帧的直方图；

聚类运算模块，用于通过基于视频表示的高密度峰值搜索算法对所述所有直方图进行聚类，并获取聚类后的簇中心点；以及

视频摘要生成模块，用于根据所述每个簇中心点，生成所述待处理视频的静态视频摘要。

本发明先采用奇异值分解算法，对待处理视频进行预采样，得到待处理视频的候选帧，再采用词袋模型，生成用来表示这些候选帧的直方图，接着，采用基于视频表示的高密度峰值搜索算法，对所有的直方图进行聚类，最后根据聚类后的每个簇中心点，生成待处理视频的静态视频摘要，从而不仅有效地提高了视频中帧的去冗余效果，且在聚类过程中不需预先设置好簇类中心的数量，能够根据视频的内容自适应地生成一定数量的簇类中心，有效地提高了聚类的稳定性和适应性，降低了聚类的时间复杂度，进而有效地提高了静态视频摘要的生成效率和质量。

附图说明

图1是本发明实施例一提供的静态视频摘要的生成方法的实现流程图；

图2是本发明实施例二提供的静态视频摘要的生成装置的结构示意图；

图3是本发明实施例二提供的静态视频摘要的生成装置中候选帧提取模块的结构示意图；

图4是本发明实施例二提供的静态视频摘要的生成装置中直方图表示模块的结构示意图；

图5是本发明实施例二提供的静态视频摘要的生成装置中聚类运算模块的结构示意图；以及

图6是是本发明实施例二提供的静态视频摘要的生成装置中视频摘要生成模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的静态视频摘要的生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收用户输入的待处理视频。

本发明实施例适用于可进行视频处理的平台或智能设备。当用户需要提取一段视频的静态视频摘要时，可将该段视频作为待处理视频，输入当前可进行视频处理的平台或智能设备。

在步骤S102中，通过奇异值分解算法对待处理视频进行预采样，以提取待处理视频的候选帧。

在本发明实施例中，一段视频中不同帧的图像之间，会存在相当多的重复信息。通过对视频中的所有输入帧进行预采样，可去除一些重复(或冗余)的帧，得到多个候选帧。这些候选帧可作为后续聚类操作的对象。

通过奇异值分解算法，可得到被分解矩阵的奇异值和秩。具体地，通过奇异值分解算法对待处理视频进行预采样，以提取待处理视频的候选帧的过程，可通过下述步骤实现：

(1)生成待处理视频中每个输入帧的时变特征向量。

在本发明实施例中，输入帧为待处理视频的所有视频帧。可通过输入帧在色相饱和度值(HSV)色彩空间的三个颜色通道，生成该输入帧对应的时变特征向量。具体地，时变特征向量为行向量。

作为示例地，在待处理视频中，时间为t的输入帧对应的时变特征向量为x^t＝[h_Hh_Sh_V]。其中，h_H、h_S以及h_V分别为色彩饱和度值(HSV)色彩空间的三个颜色通道，分别为这三个颜色通道建立三个直方图，长度为l_H、l_S以及l_V，所以时变特征向量的长度为L＝l_H+l_S+l_V。

(2)根据时变特征向量，依次为所有输入帧构建特征矩阵，每个特征矩阵包含预设窗口大小个、连续的输入帧的时变特征向量。

在本发明实施例中，窗口大小等于该窗口中帧的数量。可由窗口大小个、连续的输入帧所对应的时变特征向量，构成一个特征矩阵。

作为示例地，在待处理视频中，时间为t的输入帧对应的特征矩阵为

特征矩阵的大小为N×L。其中，N为窗口大小，T为待处理视频中所有输入帧的数量。

作为示例地，特征矩阵X^N由窗口大小个、连续的时变特征向量x¹,x²,...,x^N构成，与该特征矩阵相邻的特征矩阵X^N+1由窗口大小个、连续的时变特征向量x²,x³,...,x^N+1构成。

(3)对所有特征矩阵进行奇异值分解，以获取每个特征矩阵对应的奇异值矩阵，并根据奇异值矩阵，确定每个特征矩阵的秩。

在本发明实施例中，对特征矩阵进行奇异值分解的公式可为：

X＝UΣV^T，其中，X为特征矩阵，U为一组输出正交奇异向量的矩阵，V^T为一组输入正交奇异向量矩阵，Σ为奇异值矩阵。特征矩阵X在奇异分解后可得到奇异值矩阵Σ，奇异值矩阵为对角矩阵，且奇异值矩阵的对角元素为奇异值，这些奇异值按照从大到小的顺序排列。作为示例地，当奇异值矩阵的对角元素分别为q₁,q₂,…,q_N时，q₁,q₂,…,q_N都为奇异值，且q₁是其中最大的奇异值。

通过奇异值矩阵可确定相应的特征矩阵的秩，具体地，预先设置一个阈值，依次将奇异值矩阵中的奇异值与该阈值进行比较，并统计超过该阈值的奇异值数量，这个数量即这个奇异值矩阵所对应特征矩阵的秩。

(4)依次将相邻的特征矩阵的秩进行比较，当第二特征矩阵的秩大于第一特征矩阵的秩时，将第二特征矩阵所对应的最后一个输入帧设置为候选帧。

在本发明实施例中，当第二特征矩阵的秩超过第一特征矩阵的秩时，可认为第二特征矩阵中最后一个时变特征向量对应的输入帧，在视觉内容上不同于前一个输入帧，所以将第二特征矩阵中最后一个时变特征向量对应的输入帧设置为候选帧。在将所有相邻特征矩阵的秩进行一一比较后，可得到多个候选帧。

具体地，第一特征矩阵为所有特征矩阵中的任一特征矩阵，第二特征矩阵为在所有特征矩阵中与第一特征矩阵相邻的下一个特征矩阵，即当第一特征矩阵为当前相邻特征矩阵中的第一个特征矩阵时，第二特征矩阵为当前相邻矩阵中的第二个特征矩阵。

在步骤S103中，根据词袋模型算法，分别生成所有候选帧的直方图。

在本发明实施例中，将词袋模型用于候选帧的表示，可有效地减少视频中帧的冗余。

具体地，通过词袋模型，分别生成所有候选帧的直方图，可通过以下步骤实现：

(1)提取所有候选帧的图像特征。

具体地，通过图像特征提取算法，提取候选帧的图像特征。优选地，图像特征提取算法采用尺度不变特征变换(SIFT)特征提取算法，该算法能够有效地提取出候选帧中大量的SIFT描述符。

(2)根据所有图像特征，通过聚类生成每个候选帧的特征码本。

具体地，通过聚类算法，对所有候选帧上的所有图像特征进行聚类，以选出具有代表性的图像特征，并将这些具有代表性的图像特征设置为特征码本。可选地，聚类算法采用常用的k-means聚类算法。

(3)根据所有特征码本中的特征分布，生成用于表示每个候选帧的直方图。

具体地，根据特征码本上的特征分布情况，可以为每个候选帧生成直方图，以通过相应的直方图来表示每个候选帧。

在步骤S104中，通过基于视频表示的高密度峰值搜索算法对所有直方图进行聚类，并获取聚类后的簇中心点。

在本发明实施例中，提出了基于视频表示的高密度峰值搜索算法，该算法更适合处理视频摘要生成过程中帧的聚类任务。

其中，通过基于视频表示的高密度峰值搜索算法对所有直方图进行聚类，并获取聚类后的簇中心点，可通过以下的步骤实现：

(1)根据所有直方图，计算所有候选帧中每两个候选帧之间的距离。

具体地，直方图可看做数据点，每两个候选帧之间的距离，即该两个候选帧所对应直方图之间的欧氏距离。

(2)根据每两个候选帧之间的距离和预设的截止距离，计算每个候选帧对应的局部密度。

具体地，局部密度的计算公式为：

当d_ij-d_c＜0时，χ(d_ij-d_c)＝1，否则χ(d_ij-d_c)＝0。其中，ρ_i为第i个候选帧的局部密度，d_ij为第i个候选帧与第j个候选帧之间的距离，d_c为预设的截止距离。可见，候选帧的局部密度ρ_i为与该候选帧距离小于截止距离d_c的候选帧数量。

(3)根据所有局部密度，计算每个候选帧对应的高密度点距离。

具体地，候选帧的高密度点距离，即该候选帧与具有较高局部密度的候选帧间的距离。第i个候选帧的高密度点距离的计算公式为：

其中，δ_i为第i个候选帧的高密度点距离，d_ij为第i个候选帧与第j个候选帧之间的距离。

具体地，当第i个候选帧的局部密度ρ_i为最高局部密度时(此时第i个候选帧为最高局部密度点，该点局部密度的数值最大)，计算第i个候选帧与剩余候选帧之间的最大距离，将该最大距离设置为第i个候选帧的高密度点距离δ_i。

当第i个候选帧的局部密度ρ_i不为最高局部密度时，获取局部密度比第i个候选大的候选帧，计算第i个候选帧与这些候选帧之间的最小距离，并将此最小距离设置为第i个候选帧的高密度点距离δ_i。

(4)根据每个候选帧对应的局部密度和高密度点距离，获取簇中心点。

具体地，在基于视频表示的高密度峰值搜索算法中，我们提出了一种新的策略，来实现簇中心点的生成，使得聚类算法更能捕获视频内容的本质。这种新的策略即基于加权的峰值搜索策略，具体公式为：

γ＝α*(ρ*δ)+(1-α)*δ，其中，α为预设参数，该参数的取值范围为0～0.5，ρ为局部密度，δ为中心点距离，γ为聚类值。

在视频摘要的获取过程中，具有较低的局部密度、以及较大的高密度点距离的候选帧更为重要。这种新的策略便使得这类候选帧，被更加趋向地认为是视频摘要的簇中心点。

在步骤S105中，根据每个簇中心点，生成待处理视频的静态视频摘要。

在本发明实施例中，聚类得到的多个簇中心点中，并不是每个簇中心点都可以作为静态视频摘要中的帧，所以，要对这些簇中心点进行筛选。

具体地，将每个簇中心点的聚类值进行排列，得到所有聚类值的散点图。从该散点图中获取增长幅度、或斜率突然大幅度增大的聚类值，并将这个聚类值设置为阈值。再将所有簇中心点的聚类值与该阈值进行一一比较，当聚类值超过该阈值时，将此聚类值对应簇中心点的候选帧保留为静态视频摘要的一帧。最后，生成完整的静态视频摘要。

在本发明实施中，首先采用一个奇异值分解算法提取待处理视频的候选帧，通过词袋模型生成用来表示这些候选帧的直方图，有效地降低了视频中帧的冗余。接着，采用基于视频表示的高密度峰值搜索聚类算法，对所有的候选帧进行聚类，以根据视频帧的直方图自适应地产生一定数量的簇类中心，避免在聚类前预先设置簇类中心的数量，且不必执行迭代过程，有效地提高了聚类的稳定性和适应性、降低了聚类的时间复杂度。最后，使用预先设定好的策略进行聚类中心的筛选，生成更有代表性的静态视频摘要。从而有效地提高了静态视频摘要的生成效率和生成质量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图2示出了本发明实施例二提供的静态视频摘要的生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

视频接收模块21，用于接收用户输入的待处理视频；

候选帧提取模块22，用于通过奇异值分解算法对待处理视频进行预采样，以提取待处理视频的候选帧；

直方图表示模块23，用于根据词袋模型算法，分别生成所有候选帧的直方图；

聚类运算模块24，用于通过基于视频表示的高密度峰值搜索算法对所有直方图进行聚类，并获取聚类后的簇中心点；以及

视频摘要生成模块25，用于根据每个簇中心点，生成待处理视频的静态视频摘要。

优选地，如图3所示，候选帧提取模块22还包括向量生成模块321，特征矩阵构建模块322、奇异值分解模块323和候选帧确定模块324，其中：

向量生成模块321,用于生成待处理视频中每个输入帧的时变特征向量；

特征矩阵构建模块322，用于根据时变特征向量，依次为所有输入帧构建特征矩阵，每个特征矩阵包含预设窗口大小个、连续的输入帧的时变特征向量；

奇异值分解模块323，用于对所有特征矩阵进行奇异值分解，以获取奇异值分解后的奇异值矩阵，并根据奇异值矩阵，确定每个特征矩阵的秩；以及

候选帧确定模块324，用于依次将相邻的特征矩阵的秩进行比较，当第二特征矩阵的秩大于第一特征矩阵的秩时，将第二特征矩阵所对应的最后一个输入帧设置为候选帧，第一特征矩阵为所有特征矩阵中的任一特征矩阵，第二特征矩阵为在所有特征矩阵中与第一特征矩阵相邻的下一个特征矩阵。

优选地，如图4所示，直方图表示模块23还包括特征提取模块431、码本生成模块432和直方图生成模块433，其中：

特征提取模块431，用于提取所有候选帧的图像特征；

码本生成模块432，用于根据所有图像特征，通过聚类生成每个候选帧的特征码本；以及

直方图生成模块433，用于根据所有特征码本中的特征分布，生成用来表示每个候选帧的直方图。

优选地，如图5所示，聚类运算模块24还包括候选帧距离计算模块541、局部密度计算模块542、高密度点距离计算模块543以及簇中心点获取模块544，其中：

候选帧距离计算模块541，用于根据所有直方图，计算所有候选帧中每两个候选帧之间的距离；

局部密度计算模块542，用于根据每两个候选帧之间的距离和预设的截止距离，计算每个候选帧的局部密度；

高密度点距离计算模块543，用于根据所有局部密度，计算每个候选帧的高密度点距离；以及

簇中心点获取模块544，用于根据每个候选帧的局部密度和高密度点距离，获取簇中心点。

优选地，簇中心点获取模块544还包括聚类值计算模块5441，其中：

聚类值计算模块5441，用于根据每个候选帧的局部密度和高密度点距离，采用基于加权的峰值搜索聚类策略，计算每个候选帧对应的聚类值，基于加权的峰值搜索聚类策略的公式为:

γ＝α*(ρ*δ)+(1-α)*δ，其中，γ为聚类值，α为预设参数，ρ为局部密度，δ为高密度点距离。

优选地，如图6所示，视频摘要生成模块25还包括

阈值设置模块651，用于将每个簇中心点的聚类值进行排列，获取所有聚类值中增长幅度、或者斜率突然大幅度增大的聚类值，并将增长幅度、或者斜率突然大幅度增大的聚类值设置为阈值；以及

视频摘要帧设置模块652，用于将每个聚类值与阈值进行比较，当聚类值超过阈值时，将聚类值所对应簇中心点的候选帧设置为静态视频摘要中的视频帧。

在本发明实施例中，首先采用一个奇异值分解算法，提取待处理视频的候选帧，再通过词袋模型，生成用来表示这些候选帧的直方图，接着采用基于视频表示的高密度峰值搜索聚类算法，对所有视频帧进行聚类，并在聚类过程中使用预先设定好的策略对聚类中心进行选择，以生成更有代表性的静态视频摘要，从而不仅有效地降低了视频中帧的冗余，且在聚类时可根据视频帧的直方图自适应地产生一定数量的簇类中心，不需预先设置簇类中心的数量，无迭代过程，有效地提高了聚类的稳定性和适应性、降低了聚类的时间复杂度，进而从而有效地提高了静态视频摘要的生成效率和质量。

在本发明实施例中，静态视频摘要的生成装置的各模块可由相应的硬件或软件模块实现，各模块可以为独立的软、硬件模块，也可以集成为一个软、硬件模块，在此不用以限制本发明。本发明实施例中各模块的具体实施方式可参考前述实施例一中各步骤的描述，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种静态视频摘要的生成方法，其特征在于，所述方法包括下述步骤：

接收用户输入的待处理视频；

通过奇异值分解算法对所述待处理视频进行预采样，以提取所述待处理视频的候选帧；

根据词袋模型算法，分别生成所述所有候选帧的直方图；

通过基于视频表示的高密度峰值搜索算法对所述所有直方图进行聚类，并获取聚类后的簇中心点；

根据所述每个簇中心点，生成所述待处理视频的静态视频摘要。
如权利要求1所述的方法，其特征在于，通过奇异值分解算法对所述待处理视频进行预采样，以提取所述待处理视频的候选帧的步骤，包括：

生成所述待处理视频中每个输入帧的时变特征向量；

根据所述时变特征向量，依次为所述所有输入帧构建特征矩阵，所述每个特征矩阵包含预设窗口大小个、连续的输入帧的时变特征向量；

对所述所有特征矩阵进行奇异值分解，以获取所述每个特征矩阵对应的奇异值矩阵，并根据所述奇异值矩阵，确定所述每个特征矩阵的秩；

依次将相邻的特征矩阵的秩进行比较，当第二特征矩阵的秩大于第一特征矩阵的秩时，将所述第二特征矩阵所对应的最后一个输入帧设置为候选帧，所述第一特征矩阵为所述所有特征矩阵中的任一特征矩阵，所述第二特征矩阵为在所述所有特征矩阵中与所述第一特征矩阵相邻的下一个特征矩阵。
如权利要求1所述的方法，其特征在于，根据词袋模型算法，分别生成所述所有候选帧的直方图的步骤，包括：

提取所述所有候选帧的图像特征；

根据所述所有图像特征，通过聚类生成所述每个候选帧的特征码本；

根据所述所有特征码本中的特征分布，生成用于表示所述每个候选帧的直方图。
如权利要求1所述的方法，其特征在于，通过基于视频表示的高密度峰值搜索算法对所述所有直方图进行聚类，并获取聚类后的簇中心点的步骤，包括：

根据所述所有直方图，计算所述所有候选帧中每两个候选帧之间的距离；

根据所述每两个候选帧之间的距离和预设的截止距离，计算所述每个候选帧对应的局部密度；

根据所述所有局部密度，计算所述每个候选帧对应的高密度点距离；

根据所述每个候选帧对应的局部密度和高密度点距离，获取所述簇中心点。
如权利要求4所述的方法，其特征在于，根据所述每个候选帧对应的局部密度和高密度点距离，获取所述簇中心点的步骤，包括：

根据所述每个候选帧的局部密度和高密度点距离，采用基于加权的峰值搜索聚类策略，计算所述每个候选帧对应的聚类值，所述基于加权的峰值搜索聚类策略的公式为：

γ＝α*(ρ*δ)+(1-α)*δ，其中，γ为所述聚类值，α为预设参数，ρ为所述局部密度，δ为所述高密度点距离。
如权利要求1所述的方法，其特征在于，根据所述每个簇中心点，生成所述待处理视频的静态视频摘要的步骤，包括：

将所述每个簇中心点的聚类值进行排列，获取所述所有聚类值中增长幅度、或斜率突然大幅度增大的聚类值，并将所述增长幅度、或斜率突然大幅度增大的聚类值设置为阈值；

将所述每个聚类值与所述阈值进行比较，当所述聚类值超过所述阈值时，将所述聚类值所对应簇中心点的候选帧设置为所述静态视频摘要中的视频帧。
一种静态视频摘要的生成装置，其特征在于，所述装置包括：

视频接收模块，用于接收用户输入的待处理视频；

候选帧提取模块，用于通过奇异值分解算法对所述待处理视频进行预采样，以提取所述待处理视频的候选帧；

直方图表示模块，用于根据词袋模型算法，分别生成所述所有候选帧的直方图；

聚类运算模块，用于通过基于视频表示的高密度峰值搜索算法对所述所有直方图进行聚类，并获取聚类后的簇中心点；以及

视频摘要生成模块，用于根据所述每个簇中心点，生成所述待处理视频的静态视频摘要。
如权利要求7所述的装置，其特征在于，所述候选帧提取模块包括：

向量生成模块，用于生成所述待处理视频中每个输入帧的时变特征向量；

特征矩阵构建模块，用于根据所述时变特征向量，依次为所述所有输入帧构建特征矩阵，所述每个特征矩阵包含预设窗口大小个、连续的输入帧的时变特征向量；

奇异值分解模块，用于对所述所有特征矩阵进行奇异值分解，以获取所述每个特征矩阵对应的奇异值矩阵，并根据所述奇异值矩阵，确定所述每个特征矩阵的秩；以及

候选帧确定模块，用于依次将相邻的特征矩阵的秩进行比较，当第二特征矩阵的秩大于第一特征矩阵的秩时，将所述第二特征矩阵所对应的最后一个输入帧设置为候选帧，所述第一特征矩阵为所述所有特征矩阵中的任一特征矩阵，所述第二特征矩阵为在所述所有特征矩阵中与所述第一特征矩阵相邻的下一个特征矩阵。
如权利要求7所述的装置，其特征在于，所述直方图表示模块包括：

特征提取模块，用于提取所述所有候选帧的图像特征；

码本生成模块，用于根据所述所有图像特征，通过聚类生成所述每个候选帧的特征码本；以及

直方图生成模块，用于根据所述所有特征码本中的特征分布，生成用于表示所述每个候选帧的直方图。
如权利要求7所述的装置，其特征在于，所述聚类运算模块包括：

候选帧距离计算模块，用于根据所述所有直方图，计算所述所有候选帧中每两个候选帧之间的距离；

局部密度计算模块，用于根据所述每两个候选帧之间的距离和预设的截止距离，计算所述每个候选帧的局部密度；

高密度点距离计算模块，用于根据所有局部密度，计算所述每个候选帧对应的高密度点距离；以及

簇中心点获取模块，用于根据所述每个候选帧的局部密度和高密度点距离，获取所述簇中心点。
如权利要求10所述的装置，其特征在于，所述簇中心点获取模块包括：

聚类值计算模块，用于根据所述每个候选帧的局部密度和高密度点距离，采用基于加权的峰值搜索聚类策略，计算所述每个候选帧对应的聚类值，所述基于加权的峰值搜索聚类策略的公式为：

γ＝α*(ρ*δ)+(1-α)*δ，其中，γ为所述聚类值，α为预设参数，ρ为所述局部密度，δ为所述高密度点距离。
如权利要求7所述的装置，其特征在于，所述视频摘要生成模块包括：

阈值设置模块，用于将所述每个簇中心点的聚类值进行排列，获取所述所有聚类值中增长幅度、或者斜率突然大幅度增大的聚类值，并将所述增长幅度、或者斜率突然大幅度增大的聚类值设置为阈值；以及

视频摘要帧设置模块，用于将所述每个聚类值与所述阈值进行比较，当所述聚类值超过所述阈值时，将所述聚类值所对应簇中心点的候选帧设置为所述静态视频摘要中的视频帧。