WO2019085941A1

WO2019085941A1 - 一种关键帧提取方法、装置和存储介质

Info

Publication number: WO2019085941A1
Application number: PCT/CN2018/112998
Authority: WO
Inventors: 董霙
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-10-31
Filing date: 2018-10-31
Publication date: 2019-05-09
Also published as: CN109947991A

Abstract

一种关键帧提取方法、装置和存储介质；该方法包括：获取视频对应的视频帧集合，该视频帧集合包括多个视频帧（101）；确定视频帧集合中当前的参考视频帧（102）；根据参考视频帧从该视频帧集合中提取相应的一个视频帧作为目标视频帧（103）；获取目标视频帧与参考视频帧之间的相似度信息（104）；当相似度信息满足预设条件时，将目标视频帧确定为关键帧（105）。

Description

一种关键帧提取方法、装置和存储介质

本申请要求于2017年10月31日提交中国专利局、申请号为201711050676.1，申请名称为“一种关键帧提取方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图片处理技术领域，具体涉及一种关键帧提取方法、装置和存储介质。

背景技术

视频由一系列帧组成，每一帧就是视频中的一个画面或图像，称为视频帧。其中，视频的关键帧是视频的重要辅助信息。关键帧也叫作I帧，它是帧间压缩编码的最重要帧。视频的编码是按照“组”来进行的，每一个组叫作GOP(Group of Picture，图像组)。GOP与GOP之间是没有联系的。编码关系只在GOP之间产生。每一个GOP都是由关键帧开始的，关键帧是一幅完整的画面，GOP中间的帧都是不完整的，需要由关键帧、前面帧以及后面帧等一起运算得到。

发明内容

本申请实施例提供一种关键帧提取方法、装置和存储介质，可以提升视频关键帧提取的速度以及精确性。

本申请实施例提供一种关键帧提取方法，包括：

获取视频对应的视频帧集合，所述视频帧集合包括多个视频帧；

确定所述视频帧集合中当前的参考视频帧；

根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧；

获取所述目标视频帧与所述参考视频帧之间的相似度信息；

当所述相似度信息满足预设条件时，将所述目标视频帧确定为关键帧。

相应的，本申请实施例还提供了一种关键帧提取装置，包括：

处理器以及与所述处理器相连接的存储器，所述存储器中存储有可由所述处理器执行的机器可读指令，所述处理器执行所述机器可读指令完成以下操作：

确定所述视频帧集合中当前的参考视频帧；

获取所述目标视频帧与所述参考视频帧之间的相似度信息；

相应的，本申请实施例还提供一种非易失性计算机可读存储介质，所述存储介质存储有指令，所述指令被处理器执行时实现本申请任一实施例提供的关键帧提取方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的信息交互系统的场景示意图；

图1b是本申请实施例提供的关键帧提取方法的第一种流程示意图；

图2是本申请实施例提供的关键帧提取方法的第二种流程示意图；

图3是本申请实施例提供的关键帧提取方法的第三种流程示意图；

图4是本申请实施例提供的关键帧提取方法的第四种流程示意图；

图5是本申请实施例提供的关键帧提取、视频剪辑以及存储的示意图；

图6是本申请实施例提供的一种系统代码结构示意图；

图7a是本申请实施例提供的关键帧提取装置的第一种结构示意图；

图7b是本申请实施例提供的关键帧提取装置的第二种结构示意图；

图7c是本申请实施例提供的关键帧提取装置的第三种结构示意图；

图7d是本申请实施例提供的关键帧提取装置的第四种结构示意图；

图7e是本申请实施例提供的关键帧提取装置的第五种结构示意图；

图7f是本申请实施例提供的关键帧提取装置的第六种结构示意图

图8是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对视频进行处理如剪辑等时，一般需要提取视频的关键帧，然后，基于关键帧进行相应的处理。目前视频关键帧的提取一般是采用MPEG(Moving Picture Experts Group，动态图像专家组)等视频压缩编码的关键帧提取方式。该关键帧提取方式是基于运动矢量分析和光流分析等关键帧提取算法来提取视频关键帧。然而，该关键帧提取算法比较复杂、计算量大，视频关键帧的提取速度比较低；并且该关键帧提取算法对视频的帧率有一定的要求，即依赖视频的帧率，因此，对于一些帧率的视频，关键帧提取的精确性较低。

本申请实施例提供一种信息交互系统，该系统包括本申请任一实施例提供的关键帧提取装置，该关键帧提取装置可以集成在服务器等计算设备中；此外，该系统还可以包括其他设备，比如，该终端可以为手机、平板电脑等。

参考图1a，本申请实施例提供了一种信息交互系统，包括：终端10和服务器20，终端10与服务器20通过网络30连接。其中，网络30中包括路由器、网关等等网络实体，图中并未示意出。终端10可以通过有线网络或无线网络与服务器20进行信息交互，比如可以从服务器20下载应用(如视频应用)和/或应用更新数据包和/或与应用相关的数据信息或业务信息。其中，终端10可以为手机、平板电脑、笔记本电脑等设备，图1a是以终端10为手机为例。该终端10中可以安装有各种用户所需的应用，比如具备娱乐功能的应用(如视频应用，音频播放应用，游戏应用，阅读软件)，又如具备服务功能的应用(如地图导航应用、团购应用等)。

基于上述图1a所示的系统，以视频应用为例，终端10可以通过网络30从服务器20中按照需求下载视频应用和/或视频应用更新数据包和/或与视频应用相关的数据信息或业务信息(如视频信息)。采用本申请实施例，终端10可以向服务器20发送视频，服务器20可以提取该视频中的关键帧，具体地，服务器20获取视频对应的视频帧集合，该视频帧集合包括多个视频帧，确定该视频帧集合中当前的参考视频帧，根据该参考视频帧从该视频帧集合中提取相应的一个视频帧作为目标视频帧，获取该目标视频帧与该参考视频帧之间的相似度信息，当该相似度信息满足预设条件时，将该目标视频帧确定为关键帧。

在本申请一些实施例中，在服务器20提取完视频中的关键帧之后，服务器20还可以根据关键帧对视频进行剪辑，得到若干视频片段，并向终端10发送剪辑得到的视频片段。

上述图1a的例子只是实现本申请实施例的一个系统架构实例，本申请实施例并不限于上述图1a所示的系统结构，基于该系统架构，提出本申请各个实施例。

在本申请一实施例中，提供了一种关键帧提取方法，可以由服务器的处理器执行，如图1b所示，该关键帧提取方法包括以下步骤。

步骤101、获取视频对应的视频帧集合，该视频帧集合包括多个视频帧。

其中，视频是由一系列的视频帧即视频图片组成的，每个视频对应一个视频帧集合，该集合包含多个视频帧，该集合内存在普通视频帧以及关键视频帧。本申请实施例的目的是了提取视频集合内的关键视频帧。

该视频可以从终端获取，也可以从其他设备获取，比如，可以从其他服务器中获取该视频等等。

比如，获取视频A对应的视频集合a{帧1、帧2……帧n}。

为了便于关键帧的提取，本申请实施例还可以对视频进行标准化处理，如设定视频序列帧的像素尺寸如：100*100，和帧频率如每秒1帧。

步骤102、确定视频帧集合中当前的参考视频帧。

其中，该参考视频帧为视频帧集合中的某一个视频帧，该参考视频帧可以为用于确定关键帧的参考帧。当前时刻可以仅仅存在一个参考视频帧。

在开始提取关键帧时，可以从视频帧集合中选取一个视频帧作为参考视频帧，比如，可以选择起始视频帧或者结束视频帧作为参考视频帧。

例如，在开始提取关键帧时，可以选择视频集合a中帧1作为参考视频帧。

步骤103、根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧。

其中，根据参考视频帧提取目标视频帧的方式有多种，比如，可以提取参考视频帧的下一个视频帧作为目标视频帧，又比如，可以提取参考视频帧的上一个视频帧作为目标视频帧，等等。

譬如，当参考视频帧为视频集合a中第i个视频帧，如集合a中帧i时，可以选取帧i的下一个视频帧即第i+1个视频帧作为目标视频帧，如集合a中帧i+1为目标视频帧，其中，i为小于或等于n的正整数。

又比如，当参考视频帧为视频集合a中第i个视频帧，如集合a中帧i时，可以选取帧i的上一个视频帧即第i-1个视频帧作为目标视频帧，如集合a中帧i-1为目标视频帧。

步骤104、获取目标视频帧与参考视频帧之间的相似度信息。

其中，相似度信息为表征两个视频帧之间的相似程度或者差异程度的信息；比如，相似度信息可以包括：两个视频帧之间的相似百分比，该相似百分比可以表征两个视频帧之间的相似程度百分比或者差异程度百分比，具体表征情况可以根据实际需求设定其中，相似程度百分比与差异程度百分比之和可以为1。比如，相似百分比为70％可以表征视频帧之间的70％相似，或者70％差异。

又比如，相似度信息可以包括距离度量、相似度度量等。其中，距离度量用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大，该距离度量可以包括：欧几里得距离、曼哈顿距离等等。

其中，相似度度量用于计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。该相似度度量可以包括向量空间余弦相似度等，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。

在本申请一些实施例中，可以基于视频帧的特征信息来获取视频帧之间的相似度信息，也即步骤“获取目标视频帧与参考视频帧之间的相似度信息”可以包括：

根据参考视频帧的特征信息以及目标视频帧的特征信息，获取目标视频帧与参考视频帧之间的相似度信息。

其中，视频帧的特征信息为图像特征信息，该视频帧的特征信息可以包括一个或者多个维度的图像特征信息；比如，特征信息可以包括：颜色特征、内容特征、纹理特征、内容特征、形状特征等图像特征中的至少一种。

其中，颜色特征可以包括色彩分布特征等，如色彩分布矩阵或向量。该内容特征可以包括内容特征矩阵或向量，该内容特征矩阵可以由黑色像素和/或白色像素的颜色值组成，如黑色像素的颜色值为0，白色像素的颜色值为1时，该内容特征矩阵可以由0和/或1组成。

为了提高视频帧之间的相似度信息的准确性，在本申请一实施例中，可以采用多个维度的图像特征信息来获取相似度。比如，可以基于颜色特征和内容特征来获取目标视频帧与参考视频帧之间的相似度信息。具体地，步骤“根据参考视频帧的特征信息以及目标视频帧的特征信息，获取目标视频帧与参考视频帧之间的相似度信息”可以包括：

获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息；

获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息；

根据颜色特征相似度信息和内容特征相似度信息，获取目标视频帧与参考视频帧之间的相似度信息。

其中，颜色特征相似度信息为用于表征两个视频帧的颜色特征信息之间的相似程度或者差异程度的信息；比如，颜色特征相似度信息可以包括：两个视频帧之间的颜色特征相似百分比，该相似百分比可以表征颜色特征之间的相似程度百分比或者差异程度百分比。其中，相似程度百分比与差异程度百分比之和可以为1。

又比如，颜色特征相似度信息可以包括距离度量、相似度度量等。其中，距离度量用于衡量颜色特征在空间上存在的距离，距离越远说明颜色特征间的差异越大，该距离度量可以包括：欧几里得距离、曼哈顿距离等等。

其中，相似度度量用于计算颜色特征间的相似程度，与距离度量相反，相似度度量的值越小，说明颜色特征间相似度越小，差异越大。该相似度度量可以包括向量空间余弦相似度等，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个颜色特征间差异的大小。

其中，内容特征相似度信息为用于表征两个视频帧的内容特征信息之间的相似程度或者差异程度的信息；比如，内容特征相似度信息可以包括：两个视频帧之间的内容特征相似百分比。该相似百分比可以表征为两个视频帧的内容特征的相似程度百分比或者差异程度百分比，其中，相似程度百分比与差异程度百分比之和可以为1。

在本申请一些实施例中，在获取参考视频帧与目标视频帧之间的相似度信息之前，本申请实施例的方法还可以包括：获取视频帧(如参考视频帧、目标视频帧)的颜色特征信息、以及获取视频帧(如参考视频帧、目标视频帧)的内容特征信息。颜色特征信息与内容特征信息的获取步骤时序不受限制，可以前后获取，也可以同时获取。其中，颜色特征信息可以包括色彩分布特征矩阵或向量，内容特征信息可以包括内容特征矩阵或向量，以下将分别介绍这两个特征的具体获取方式：

(1)、色彩分布特征的提取：

由于像素的颜色取值范围比较大，整个图像的颜色空间有非常多的颜色组合范围，如像素的RGB颜色的取值在0-255之间，整个图像的颜色空间共有1600万种颜色组合范围，为简化计算，提升关键帧提取速度，可以将颜色取值范围划分成多个不同的颜色参数值子区域，然后，基于像素的颜色值和颜色参数值子区域获取色彩分布特征信息。也即步骤“获取视频帧的颜色特征信息”可以包括：

将像素的颜色参数值区间划分成多个不同的颜色参数值子区间，颜色值参数子区间的数量大于或等于像素的颜色参数种数；

获取视频帧中颜色参数值落入相应区间组合的像素数量，区间组合由多个颜色参数值子区间组成，区间组合中子区间数量与像素点的像素的颜色参数种数相同；

根据像素数量获取视频帧的色彩分布特征信息。

例如，像素的颜色参数值有3种，即RGB值，且取值范围为0-255，那么此时，可以将取值范围0-255划分成至少3个颜色参数值子区域，这里以4个子区域为例，此时，可以将取值范围0-255划分成q1(0-63)，q2(64-127)，q3(128-191)，q4(192-255)。由于颜色值的取值区间划分成4个子区间，那么颜色区域组合数量为4*4*4＝64种，可以减少色彩分布特征的提取计算量。

在划分颜色参数值区间之后，可以获取视频帧中颜色参数值落入相应区间组合的像素数量，该区间组合由多个颜色参数值子区间组成，区间组合中子区间数量与像素点的像素的颜色参数种数相同。最终根据各区间组合及其对应的像素数量可以构建成一个矩阵。比如，可以分布获取RGB值落入区间组合(q1、q1、q1)、(q1、q2、q3)、(q1、q3、q2)、……(q3、q3、q3)……(q4、q4、q4)的像素数量。最终可以根据各区间组合及其对应的像素数量可以构建成一个64维的向量矩阵。

其中，像素的颜色参数值落入区间组合指的是：像素的各颜色参数值落入区间组合中相应的子区间。假设像素的颜色参数种类为m，m大于或等于3时，其中，像素的颜色参数值落入区间组合，指的是：第1种颜色参数值落入区间组合中第1个子区间，第2种颜色参数值落入区间组合中第2个子区间，……第j种颜色参数值落入区间组合中第j个子区间，……第m种颜色参数值落入区间组合中第m个子区间。

比如，RGB值落入区间组合指的是：R值落入区间组合的第一个子区间如q1、G值落入区间组合的第二子区间如q2、B值落入区间组合的第三个子区间如q3。

通过上述颜色特征提取方式，可以获取参考视频帧和目标视频帧的颜色特征信息。

(2)、内容特征的提取；

视频帧的内容特征提取过程包括：

对视频帧进行灰度处理，得到灰度图像；

对灰度图像进行黑白二值化处理，得到黑白图像；

根据黑白图像中像素的颜色值，获取视频帧的内容特征信息。

在黑白二值化处理时，需要获取二值化的阈值取值范围，然后，基于该阈值取值范围对灰度图像进行黑白二值化处理。其中，二值化的阈值取值范围可以根据实际需求选择两种算法：灰度平均值法(计算速度快)-统计图像所有灰度值除总像素数量求得阈值范围，大津法(准确度高)-通过穷举法将图像的灰度值从最低到最高依次代入类间差异算式求得差异最大的值为阈值范围。

在得到黑白图像后，可以根据黑白图像中像素的颜色值(0为黑色，255白色取值为1)构建相应的特征矩阵，该矩阵即为视频帧的内容特征矩阵。如获取黑白图像对应的像素矩阵，该像素矩阵的行列数与图像的长宽一致。

通过上述内容特征提取方式可以提取参考视频帧和目标视频帧的内容特征信息。

在本申请一实施例中，当内容特征信息包括内容特征矩阵或向量，该内容特征矩阵或向量由黑色像素和/或白色像素的颜色值组成时，例如黑色像素的颜色值为0，白色像素的颜色值为1时，该内容特征矩阵由0和/或1组成。此时，可以对参考视频帧的内容特征矩阵与目标视频帧的内容特征矩阵进行像素的颜色值异或运算，基于运算结果来获取特征相似度信息。也即步骤“获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息”可以包括：

对参考视频帧的内容特征矩阵中像素的颜色值、与目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算，得到像素的运算结果；根据像素的运算结果，获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似度信息。

比如，当内容特征相似度信息包括内容特征相似百分比时，可以基于像素的异或运算结果获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似百分比。

其中，像素的颜色值异或运算的结果包括两种结果，一种是颜色值相同，可以用第一数字表示如0表示，另一种是颜色值不相同，可以用第二数字表示如1表示。在将参考视频帧和目标视频帧的内容特征矩阵进行像素颜色值的异或运算后，可以得到一系列运算结果，此时，可以统计第一运算结果(如第一数字0)的数量与结果总数量的百分比，或者，统计第二运算结果(如第二数字1)的数量与结果总数量的百分比，该百分比即为内容特征相似百分比。

例如，参考视频帧的内容特征矩阵B1和目标视频帧的内容特征矩阵B2包含1000个像素点，假设通过像素点的颜色值异或运算后，得到200个相同的像素点，如异或运算结果有两百个0、800个不相同的像素点，如异或运算结果有800个1，此时，内容特征相似百分比可以为(200/1000)*100％＝20％。

在本申请一实施例中，当颜色特征相似度信息包括颜色特征相似百分比时，步骤“获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息”可以包括：

获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的余弦相似度；

根据余弦相似度获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似百分比。

比如，当颜色特征信息包括色彩分布特征向量时，可以获取参考视频帧的色彩分布特征向量、与目标视频帧的色彩分布特征向量之间的余弦相似度值，然后，根据余弦相似度值获取相应的颜色特征相似百分比。其中，余弦相似度值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越接近；越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交。

本申请实施例中，根据余弦相似度值获取颜色特征相似百分比的算法有多种，可以根据实际需求设定。例如，获取参考视频帧的色彩分布特征向量与目标视频帧的色彩分布特征向量之间的余弦相似度值为0.5，此时，可以获取颜色特征相似百分比为60％。

在本申请一实施例中，颜色特征相似度信息包括颜色特征相似百分比值；内容特征相似度信息包括内容特征相似百分比值；此时，可以对颜色特征相似百分比值与内容特征相似百分比值进行加权求和，得到加权和值，将加权和值作为目标视频帧与参考视频帧之间的相似百分比值。

其中，颜色特征相似百分比值和内容特征相似百分比值各自对应的权重可以根据实际需求设定，比如，可以设置颜色特征相似百分比值c1 的权重值为p1、内容特征相似百分比值c2对应的权重值为p2，此时，目标视频帧与参考视频帧之间的相似百分比值c＝c1*p1+c2*p2。

步骤105、当相似度信息满足预设条件时，将目标视频帧确定为关键帧。

其中，预设条件可以根据实际需求设定，由于确定与参考视频帧差异较大的视频帧为关键帧；该预设条件可以表征：目标视频帧与参考视频帧之间的相似程度低、或者差异程度大。比如，当相似度信息包括相似百分比，且相似百分比表征视频帧之间的相似程度百分比时，该预设条件可以包括：相似百分比小于第一预设阈值；当相似百分比表征视频帧之间的差异程度百分比时，该预设条件可以包括：差异百分比大于第二预设阈值。

以上介绍的是两个视频帧之间的关键帧确定过程，实际应用中可以针对整个视频集合来应用上述关键帧确定过程来提取视频集合中的所有关键帧。

比如，在将目标视频帧确定为关键帧的同时或者之后，将参考视频帧替换为目标视频帧，并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完视频帧集合中所有视频帧。

当相似度信息不满足预设条件时，将参考视频帧替换为目标视频帧，并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完视频帧集合中所有视频帧。

通过上述循环可以不断地读取视频集合中的视频帧，并获取其与当前参考视频帧的相似度信息，基于相似度信息来确定关键帧，以及将当前参考视频帧替换为读取的视频帧，直到读取完视频集合中的所有视频帧。又比如，还可以在将目标视频帧确定为关键帧的同时或者之后，将参考视频帧替换为目标视频帧，并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完视频帧集合中所有视频帧。

通过上述循环可以不断地读取视频集合中的视频帧，并获取其与当前参考视频帧的相似度信息，基于相似度信息来确定关键帧，直到读取完视频集合中的所有视频帧。其中，参考视频帧的替换只有在当前读取的视频帧为关键帧时，才将参考视频帧替换为当前读取的视频帧。

由上可知，本申请实施例采用获取视频对应的视频帧集合，该视频帧集合包括多个视频帧，确定视频帧集合中当前的参考视频帧，根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧，获取目标视频帧与参考视频帧之间的相似度信息，当相似度信息满足预设条件时，将目标视频帧确定为关键帧。该方案可以基于视频帧之间的相似度来提取视频关键帧，可以快速地从视频中提取有效的视频关键帧，提升了视频关键帧提取的速度，并且该方案不依赖于视频的帧率，对于各种帧率的视频均可以适用，提升了视频关键帧提取的精确性以及灵活性。

在本申请一实施例中，提供了一种关键帧提取方法，可以由服务器的处理器执行，如图2所示，该关键帧提取方法包括以下步骤。

步骤201、获取视频对应的视频帧集合，视频帧集合包括多个视频帧。

比如，获取视频A对应的视频集合a{帧1、帧2……帧n}。

步骤202、确定视频帧集合中当前的参考视频帧。

在开始提取关键帧时，可以从视频帧集合中选取一个视频帧作为参考视频帧，比如，可以选择起始视频帧作为参考视频帧。

例如，在开始提取关键帧时，可以选择视频集合a中帧1作为参考视频帧

步骤203、获取参考视频帧的特征信息。

其中，内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。

步骤204、根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧。

比如，可以从视频集合中提取参考视频帧的下一个视频帧作为目标视频帧。

譬如，选择视频集合a中帧2作为目标视频帧。

步骤205、获取目标视频帧的特征信息。

步骤206、根据参考视频帧的特征信息以及目标视频帧的特征信息，获取目标视频帧与参考视频帧之间的相似度信息。

为了提高视频帧之间的相似度信息的准确性，在一实施例中，可以采用多个维度的图像特征信息来获取相似度。比如，可以基于颜色特征和内容特征来获取目标视频帧与参考视频帧之间的相似度信息。

具体地，获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息；获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息；根据颜色特征相似度信息和内容特征相似度信息，获取目标视频帧与参考视频帧之间的相似度信息。

当颜色特征相似度信息包括颜色特征相似百分比时，其获取方式为：

当内容特征信息包括内容特征特征矩阵或向量，且内容特征相似度信息包括内容特征相似百分比时，该内容特征矩阵或向量由黑色像素和/或白色像素的颜色值组成，内容特征相似百分比获取方式为：

对参考视频帧的内容特征矩阵中像素的颜色值、与目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算，得到像素的运算结果；根据像素的运算结果，获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似百分比。

在获取颜色特征相似度信息和内容特征相似度信息之后，可以基于这两个信息获取视频帧之间的相似度信息。比如，颜色特征相似度信息包括颜色特征相似百分比值；内容特征相似度信息包括内容特征相似百分比值；此时，可以对颜色特征相似百分比值与内容特征相似百分比值进行加权求和，得到加权和值，将加权和值作为目标视频帧与参考视频帧之间的相似百分比值。

步骤207、判断相似度信息满足预设条件，若是，则执行步骤208，若否，则执行步骤209。

步骤208、将目标视频帧确定为关键帧，将参考视频帧替换为目标视频帧，返回执行步骤204直到提取完视频帧集合中所有视频帧。

比如，将目标视频帧标记为关键帧，将当前参考视频帧替换为帧2，然后，返回步骤204提取下一帧即帧3作为目标视频帧。

步骤209、将参考视频帧替换为目标视频帧，返回执行步骤204直到提取完视频帧集合中所有视频帧。

将当前参考视频帧替换为帧2，然后，返回步骤204提取下一帧即帧3作为目标视频帧。

采用图2所示的关键提取方法，可以逐一比较相邻视频帧的差异，基于差异来确定视频帧集合中所有关键帧。

在本申请一实施例中，提供了一种关键帧提取方法，可以由服务器的处理器执行，如图3所示，该关键帧提取方法包括以下步骤。

步骤301、获取视频对应的视频帧集合，视频帧集合包括多个视频帧。

比如，获取视频A对应的视频集合a{帧1、帧2……帧n}。

步骤302、从视频集合中选取一个视频帧作为当前的参考视频帧。

步骤303、获取参考视频帧的特征信息。

步骤304、根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧。

譬如，选择视频集合a中帧2作为目标视频帧。

步骤305、获取目标视频帧的特征信息。

步骤306、根据参考视频帧的特征信息以及目标视频帧的特征信息，获取目标视频帧与参考视频帧之间的相似度信息。

步骤307、判断相似度信息满足预设条件，若是，则执行步骤308，若否，则执行步骤309。

步骤308、将目标视频帧确定为关键帧，将参考视频帧替换为目标视频帧，并返回执行步骤304直到提取完视频帧集合中所有视频帧。

比如，可以将目标视频帧标记为关键帧，并将当前参考视频帧替换为目标视频帧，如帧2。之后返回步骤304提取帧3作为目标视频帧。

步骤309、根据目标视频帧从视频帧集合中提取相应的一个视频帧，并将目标视频帧替换为提取的视频帧，返回执行步骤305直到提取完视频帧集合中所有视频帧。

比如，提取帧2的下一帧即帧3作为目标视频帧，然后返回步骤305提取目标视频帧的特征信息进行关键帧提取。

采用图3所示的关键提取方法，可以比较其他视频帧与当前关键视频帧的差异，基于差异来确定视频帧集合中其他关键帧。

为便于用户编辑视频、存储视频片段以及检索视频片段，在上述方法基础上，本申请实施例提供的方法可以在提取完视频的所有关键帧之后，还包括：

根据关键帧对视频进行剪辑，得到若干视频片段；

将视频片段中关键帧的特征信息作为视频片段的指纹标签。

其中，关键帧的特征信息包括一个或者多个维度的图像特征信息，比如，可以包括颜色特征信息和内容特征信息。此时，可以将多个维度的图像特征信息作为视频片段的指纹标签。这样可以方便对视频片段进行分类存储，以及便于检索视频片段。

比如，从视频帧集合a{帧1、帧2……帧n}确定帧1、帧i、帧k、帧f为关键帧后，可以将剪辑成视频片段1{帧1……帧i-1}、视频片段2{帧i……帧k-1}、视频片段3{帧k……帧f-1}、视频片段4{帧f……帧n}。

在剪辑之后，可以将帧1的特征信息如颜色特征信息和内容特征信息作为视频片段1的指纹标签，将帧i的特征信息如颜色特征信息和内容特征信息作为视频片段2的指纹标签，将帧k的特征信息如颜色特征信息和内容特征信息作为视频片段3的指纹标签。

在获取视频片段的指纹标签之后，可以基于视频片段的指纹标签对视频片段进行分类存储，通过机器学习算法对已经保存入库的视频片段根据颜色特征矩阵和特征矩阵进行聚类、分类存储。用户后续可以根据标签、或上传其它图片、视频等素材根据特征相似性进行检索。

在本申请一些实施例中，为便于视频的分类存储、检索以及匹配，本申请实施例在上述方法基础上，还可以设置视频片段的文字标签，后续便可以通过文字便签在视频内容上匹配、检索相应的视频片段，提升视频的检索速度和准确度。

具体地，在提取完视频的所有关键帧之后，本申请实施例的方法还可以包括：

获取关键帧对应的视频时间点；

根据视频时间点选取相应的时间段，视频时间点位于时间段内；

对时间段对应的音频信息进行语音识别，得到文字内容；

根据文字内容获取关键帧所在视频片段的文字标签。

其中，时间段由连续的时间点组成的时间窗，该时间段的选取有多种方式，比如可以以视频时间点为终点选取视频时间点之前的第一时间段、以视频时间点为起点选取视频时间点之后的第二时间段，通过第一时间段和第二时间段组成时间段。该第一时间段和第二时间段可以是固定的，即时间段时固定的，如选取视频时间点前后各5s组成所需的时间段。

譬如，从视频帧集合a{帧1、帧2……帧n}确定帧1、帧i、帧k、帧f为关键帧后，可以将剪辑成视频片段1{帧1……帧i-1}、视频片段2{帧i……帧k-1}、视频片段3{帧k……帧f-1}、视频片段4{帧f……帧n}，可以获取帧i对应的视频时间点t如3:10，然后，根据视频时间点t如3:10确定一个时间段，如取视频时间点t前后各10s，形成一个时间段T即时间窗(3:00-3:20)，提取时间段T对应的音频信息进行语音识别，得到文字内容，对文字内进行分词统计和自然语分析处理，根据处理结果获取相应的目标文字内容，将该目标文字内容作为视频片段2的文字标签。同理对于其他视频片段可以采用前述类似方式设置文字标签。

在一些实施例中，时间段可以不固定，其可以基于相邻关键帧之间的时间间隔来动态确定语音识别的音频时间段，具体地，步骤“根据视频时间点选取相应的时间段”可以包括：

获取关键帧与其相邻关键帧之间的时间间隔；

根据视频时间点和时间间隔选取相应的时间段。

比如，获取关键帧i对应的视频时间点为t如1:00，关键帧i与其相邻关键帧k之间的时间间隔为T1，此时，根据时间间隔T1以视频时间点为终点选取视频时间点之前的第一时间段T2如5s、以视频时间点为起点选取视频时间点之后的第二时间段T3如10s，根据第一时间段T2 和第二时间段T3组成时间段T(1:05-1:15)，然后，对时间段T对应的音频信息进行语音识别。

本申请实施例在剪辑视频片段之后，可以将关键帧的特征信息(颜色特征信息和内容特征信息)作为相应视频片段的指纹标签，并且还可以基于关键帧的视频时间点对音频信息进行语音识别，从而根据语音识别的文字内容设置视频片段的文字标签。此时，视频片段同时具有指纹标签和文字标签，便于对视频片段的聚类、分类存储，以及提升视频片段的检索和匹配速度。

在本申请一实施例中，还可以对视频流进行序列帧化处理后，单一帧图像就可以作为普通的图像进行分析和处理，因此可以选择图像的特征信息如颜色、内容形态作为图像的特征值作为判断的依据。比如，对视频A进行序列帧化处理，这样，可以将帧1的特征信息作为帧1的指纹标签，便于后续对视频帧的分类存储和检索。

由上可知，本申请实施例提供的方案可以采用颜色特征分布特征和内容特征两个维度获取视频帧之间的相似度信息如差异程度信息，并基于相似度信息提取关键视频帧，该方案不依赖视频的帧频率，帧与帧之间可以有较大的跨度，如：每秒25、15、1、3帧等均可进行关键帧特征的提取，适用性比较强。

另外，该方案还可以提取的特征信息作为视频单帧或者视频片段的特征信息，可以形成唯一性的特征指纹，可用于对比其它图片、视频动态影像等相似度、匹配度的计算和聚类。

同时，该方案还可以在查找到关键帧时间点信息后对时间点前后一段时间窗内的语音进行识别，对检索到相关标签的视频进行自动归类。形成以镜头为颗粒度的视频素材库。

在本申请一实施例中，提供了一种关键帧提取方法，可以由服务器的处理器执行，参考图4和图5，该关键帧提取方法包括以下步骤。

步骤401、终端向服务器发送视频数据。

步骤402、服务器对视频数据进行标准化处理，得到视频帧集合。

比如，设定视频序列帧的像素尺寸如：100*100，和帧频率如每秒1帧。对视频A进行标准化处理后得到视频集合a{帧1、帧2……帧n}。

参考图6，为关键帧提取系统的代码架构示意图，终端即前端采用采用HTML+JS实现用户交互界面。服务器即服务端，数据端即数据库采用MYSQl实现。

实际应用中，服务端通过FFMPEG对用户上传视频进行标准化处理。

步骤403、服务器从视频集合中选取一个视频帧作为当前的参考视频帧。

步骤404、服务器获取参考视频帧的色彩分布特征矩阵和内容特征矩阵。

比如，对帧进行色彩分布特征的提取：RGB颜色的取值范围为0-255，即整个图像的颜色空间共有1600万种颜色组合范围，为简化计算数量对色彩的范围分为4个区域(0-63，64-127，128-191，192-255)，组合数量缩小为64种。对当前帧进行颜色组合的统计得到一个64维的向量结果。

对帧进行内容特征的提取：首先对当前帧进行灰度化处理，之后将灰度图像进行二值化(黑白二值)，其中二值化的阈值取值范围可以根据实际需求选择两种算法：灰度平均值法(计算速度快)-统计图像所有灰度值除总像素数量求得阈值范围，大津法(准确度高)-通过穷举法将图像的灰度值从最低到最高依次代入类间差异算式求得差异最大的值为阈值范围。图像二值化后求得图像“长乘宽”的像素矩阵其中0为黑色，255白色取值为1形成内容特征矩阵。

步骤405、服务器从视频帧集合中提取参考视频帧的下一个视频帧作为目标视频帧。

譬如，选择视频集合a中帧1的下一个视频帧即帧2作为目标视频帧。

步骤406、服务器获取目标视频帧的色彩分布特征矩阵和内容特征矩阵。

步骤407、服务器获取参考视频帧的色彩分布特征矩阵、与目标视频帧的色彩分布图特征矩阵之间的余弦相似度值，并根据余弦相似度值获取色彩分布特征相似百分比。

其中，色彩分布特征相似百分比可以表征色彩分布特征的相似程度或者差异程度，如百分比为30％时，可以表示两个视频帧的色彩分布特征30％相似，或者，表示两个视频帧的色彩分布特征有30％差别。具体百分比表示差异或者相同可以根据实际需求选择。

步骤408、服务器将参考视频帧的内容特征矩阵、和目标视频帧的内容特征矩阵进行像素颜色值异或运算，并统计运算结果得到相应内容人相似百分比。

其中，内容特征相似百分比可以表征内容特征的相似程度或者差异程度，如百分比为40％时，可以表示两个视频帧的内容特征征40％相似，或者，表示两个视频帧的内容特征有40％差别。具体百分比表示差异或者相同可以根据实际需求选择。

内容特征相似百分比和色彩分布特征百分比的表征的程度是一致的，如均表征相同程度，或者均表征差异程度。

步骤407和步骤408的时序不受序号的限制可以步骤408在前，步骤407在后，或者同时执行。

步骤409、服务器对色彩分布特征相似百分比值与内容特征相似百分比值进行加权求和，得到参考视频帧与目标视频帧之间的相似百分比。

其中，色彩分布特征相似百分比值和内容特征相似百分比值各自对应的权重可以根据实际需求设定，比如，可以设置色彩分布特征相似百分比值c1的权重值为p1、内容特征相似百分比值c2对应的权重值为p2，此时，目标视频帧与参考视频帧之间的相似百分比值c＝c1*p1+c2*p2。

步骤410、服务器确定参考视频帧与目标视频帧之间的相似百分比是否满足预设百分比条件，若满足，则执行步骤411，若否，则执行步骤412。

比如，当参考视频帧与目标视频帧之间的相似百分比表征二者之间的相似程度时，可以确定该相似百分比是否小于预设阈值，若小于，则满足预设百分比条件，确定目标视频帧为关键帧。

又比如，当参考视频帧与目标视频帧之间的相似百分比表征二者之间的差异程度时，可以确定该相似百分比是否大于预设阈值，若小于，则满足预设百分比条件，确定目标视频帧为关键帧。

步骤411、服务器标记目标视频帧为关键视频帧。

步骤412、服务器将参考视频帧替换为目标视频帧，并返回执行步骤405直到提取完视频帧集合中所有视频帧。

步骤413、当提取完视频帧集合中所有视频帧时，服务器根据关键视频帧对视频进行剪辑，得到若干视频片段。

步骤414、服务器将视频片段中关键视频帧的色彩分布特征矩阵和内容特征矩阵作为该视频片段的指纹标签；同时提取关键视频帧对应的视频时间点前后一段时间窗的音频文件，对音频文件进行语音识别，并对识别结果进行分词统计和自然语分析处理，基于处理结果设置视频片段的文字标签。

步骤415、服务器根据视频片段的指纹标签和文字标签，对视频片段进行分类存储。

参考图6，服务端通过机器学习算法(Mchine Learning Library)对已经保存入库视频片段进行分类存储，将视频片段存储到数据端。

步骤416、服务器向终端发送视频片段。

其中，步骤414-415的时序不受序号的限制，比如步骤416可以先执行，步骤414和415后执行等等。

此外，服务器还可以对视频流进行序列帧化处理后，单一帧图像就可以作为普通的图像进行分析和处理，因此可以选择图像的特征信息如颜色、内容形态作为图像的特征值作为判断的依据，便于单个视频帧的分类存储和检索。

由上可知，本申请实施例提供的方案可以采用颜色特征分布特征和内容特征两个维度获取视频帧之间的相似度信息如相同程度信息，并基于相似度信息提取关键视频帧，该方案可以快速提取关键视频帧，提升了关键视频帧的提取速度，并且该方案不依赖视频的帧频率，帧与帧之间可以有较大的跨度，如：每秒25、15、1、3帧等均可进行关键帧特征的提取，适用性比较强。

为了便于更好的实施本申请实施例提供的关键帧提取方法，在一实施例中还提供了一种关键帧提取装置。其中名词的含义与上述关键帧提取方法中相同，具体实现细节可以参考方法实施例中的说明。

在本申请一实施例中，还提供了一种关键帧提取装置，如图7a所示，该关键帧提取装置可以包括：视频获取单元501、参考帧确定单元502、目标帧确定单元503、相似度获取单元504以及关键帧确定单元505。

视频获取单元501，用于获取视频对应的视频帧集合，所述视频帧集合包括多个视频帧；

参考帧确定单元502，用于确定所述视频帧集合中当前的参考视频帧；

目标帧确定单元503，用于根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧；

相似度获取单元504，用于获取所述目标视频帧与所述参考视频帧之间的相似度信息；

关键帧确定单元505，用于当所述相似度信息满足预设条件时，将所述目标视频帧确定为关键帧。

在本申请一实施例中，所述相似度获取单元504，可以用于根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息。

在本申请一实施例中，所述特征信息包括颜色特征信息和内容特征信息；参考图7b，相似度获取单元504可以包括：

颜色相似度获取子单元5041，用于获取所述参考视频帧的颜色特征信息、与所述目标视频帧的颜色特征信息之间的颜色特征相似度信息；

内容相似度获取子单元5042，用于获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息；

帧相似度获取子单元5043，用于根据所述颜色特征相似度信息和所述内容特征相似度信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息。

在本申请一实施例中，所述颜色特征相似度信息包括颜色特征相似百分比值；所述内容特征相似度信息包括内容特征相似百分比值；

其中，所述帧相似度获取子单元5043，可以用于：对所述颜色特征相似百分比值与所述内容特征相似百分比值进行加权求和，得到加权和值；将所述加权和值作为所述目标视频帧与所述参考视频帧之间的相似百分比值。

在本申请一实施例中，所述内容特征信息包括内容特征矩阵，所述内容特征矩阵由黑色像素和/或白色像素的颜色值组成；

其中，内容相似度获取子单元5042，可以用于：

对所述参考视频帧的内容特征矩阵中像素的颜色值、与所述目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算，得到像素的运算结果；

根据所述像素的运算结果，获取所述参考视频帧的内容特征矩阵、与所述目标视频帧的内容特征矩阵之间的内容特征相似度信息。

在本申请一实施例中，参考图7c，关键帧提取装置还可以包括特征获取单元506；

所述特征获取单元506，用于在相似度获取单元504获取相似度信息之前，获取所述目标视频帧的颜色特征信息；获取所述目标视频帧的内容特征信息。

其中，特征获取单元506，可以用于：

将像素的颜色参数值区间划分成多个不同的颜色参数值子区间，所述颜色值参数子区间的数量大于或等于像素的颜色参数种数；

获取所述目标视频帧中颜色参数值落入相应区间组合的像素数量，所述区间组合由多个颜色参数值子区间组成，所述区间组合中子区间数量与像素点的像素的颜色参数种数相同；

根据所述像素数量获取所述目标视频帧的色彩分布特征信息。

其中，特征获取单元506，可以用于：

对所述目标视频帧进行灰度处理，得到灰度图像；

对所述灰度图像进行黑白二值化处理，得到黑白图像；

根据所述黑白图像中像素的颜色值，获取所述目标视频帧的内容特征信息。

在本申请一实施例中，参考图7d，关键帧提取装置还可以包括替换单元507；

所述替换单元507，用于：

在所述关键帧确定单元505将所述目标视频帧确定为关键帧的同时或者之后，将所述参考视频帧替换为所述目标视频帧，并触发所述目标帧确定单元503执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完所述视频帧集合中所有视频帧。

其中，替换单元507还可以用于：

当所述相似度信息不满足预设条件时，将所述参考视频帧替换为所述目标视频帧，并触发目标帧确定单元503执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完所述视频帧集合中所有视频帧；

或者

当所述相似度信息不满足预设条件时，根据所述目标视频帧从所述视频帧集合中提取相应的一个视频帧，并将所述目标视频帧替换为提取的视频帧；

触发目标帧确定单元503执行获取所述目标视频帧与所述参考视频帧之间的相似度信息的步骤，直到提取完视频集合中所有视频帧。

在本申请一实施例中，参考图7e，关键帧提取装置还可以包括：

剪辑单元508，用于在提取完所述视频的所有关键帧之后，根据所述关键帧对所述视频进行剪辑，得到若干视频片段；

指纹标签设置单元509，用于将所述视频片段中关键帧的特征信息作为所述视频片段的指纹标签。

在本申请一实施例中，参考图7f，关键帧提取装置还可以包括：

文字标签设置单元510，可以用于：

获取所述关键帧对应的视频时间点；

根据所述视频时间点选取相应的时间段，所述视频时间点位于所述时间段内；

对所述时间段对应的音频信息进行语音识别，得到文字内容；

根据所述文字内容获取所述关键帧所在视频片段的文字标签。

其中，文字标签设置单元510，可以用于获取所述关键帧与其相邻关键帧之间的时间间隔；根据所述视频时间点和所述时间间隔选取相应的时间段。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该关键帧提取装置具体可以集成在终端等计算设备中，比如以客户端的形式集成在终端中，该终端可以为手机、平板电脑等设备。

由上可知，本申请实施例关键帧提取装置采用视频获取单元501获取视频对应的视频帧集合，该视频帧集合包括多个视频帧，由参考帧确定单元502确定视频帧集合中当前的参考视频帧，由目标帧确定单元503根据参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧，由相似度获取单元504获取目标视频帧与所述参考视频帧之间的相似度信息，当相似度信息满足预设条件时，由关键帧确定单元505将目标视频帧确定为关键帧。该方案可以基于视频帧之间的相似度来提取视频关键帧，可以快速地从视频中提取有效的视频关键帧，提升了视频关键帧提取的速度，并且该方案不依赖于视频的帧率，对于各种帧率的视频均可以适用，提升了视频关键帧提取的精确性以及灵活性。

参考图8，本申请实施例提供了一种服务器800，可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、射频(Radio Frequency，RF)电路803、电源804、输入单元805、以及显示单元806等部件。本领域技术人员可以理解，图8中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在本申请一些实施例中，处理器801可包括一个或多个处理核心；在本申请一些实施例中，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。

RF电路803可用于收发信息过程中，信号的接收和发送。

服务器还包括给各个部件供电的电源804(比如电池)，优选的，电源可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

该服务器还可包括输入单元805，该输入单元805可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括显示单元806，该显示单元806可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体在本实施例中，服务器中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序(即机器可读指令)，从而实现本申请任一实施例所述的关键帧提取方法，例如：

获取视频对应的视频帧集合，所述视频帧集合包括多个视频帧；确定所述视频帧集合中当前的参考视频帧；根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧；获取所述目标视频帧与所述参考视频帧之间的相似度信息；当所述相似度信息满足预设条件时，将所述目标视频帧确定为关键帧。

由上可知，本申请实施例提供的服务器可以获取视频对应的视频帧集合，该视频帧集合包括多个视频帧，确定视频帧集合中当前的参考视频帧，根据参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧，获取目标视频帧与所述参考视频帧之间的相似度信息，当相似度信息满足预设条件时，将目标视频帧确定为关键帧。该方案可以基于视频帧之间的相似度来提取视频关键帧，可以快速地从视频中提取有效的视频关键帧，提升了视频关键帧提取的速度，并且该方案不依赖于视频的帧率，对于各种帧率的视频均可以适用，提升了视频关键帧提取的精确性以及灵活性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一非易失性计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

以上对本申请实施例所提供的一种关键帧提取方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种关键帧提取方法，由计算设备执行，包括：

获取视频对应的视频帧集合，所述视频帧集合包括多个视频帧；

确定所述视频帧集合中当前的参考视频帧；

根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧；

获取所述目标视频帧与所述参考视频帧之间的相似度信息；

当所述相似度信息满足预设条件时，将所述目标视频帧确定为关键帧。
如权利要求1所述的关键帧提取方法，所述获取所述目标视频帧与所述参考视频帧之间的相似度信息，包括：

根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息。
如权利要求2所述的关键帧提取方法，所述特征信息包括颜色特征信息和内容特征信息；

所述根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息，包括：

获取所述参考视频帧的颜色特征信息、与所述目标视频帧的颜色特征信息之间的颜色特征相似度信息；

获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息；

根据所述颜色特征相似度信息和所述内容特征相似度信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息。
如权利要求3所述的关键帧提取方法，所述颜色特征相似度信息包括颜色特征相似百分比值；所述内容特征相似度信息包括内容特征相似百分比值；

所述根据所述颜色特征相似度信息和所述内容特征相似度信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息，包括：

对所述颜色特征相似百分比值与所述内容特征相似百分比值进行加权求和，得到加权和值；

将所述加权和值作为所述目标视频帧与所述参考视频帧之间的相似百分比值。
如权利要求3所述的关键帧提取方法，所述内容特征信息包括内容特征矩阵，所述内容特征矩阵由黑色像素和/或白色像素的颜色值组成；

所述获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息，包括：

对所述参考视频帧的内容特征矩阵中像素的颜色值、与所述目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算，得到像素的运算结果；

根据所述像素的运算结果，获取所述参考视频帧的内容特征矩阵、与所述目标视频帧的内容特征矩阵之间的内容特征相似度信息。
如权利要求2所述的关键帧提取方法，在获取相似度信息之前，所述关键帧提取方法还包括：

获取所述目标视频帧的颜色特征信息；

获取所述目标视频帧的内容特征信息。
如权利要求6所述的关键帧提取方法，所述获取所述目标视频帧的颜色特征信息，包括：

将像素的颜色参数值区间划分成多个不同的颜色参数值子区间，所述颜色值参数子区间的数量大于或等于像素的颜色参数种数；

获取所述目标视频帧中颜色参数值落入相应区间组合的像素数量，所述区间组合由多个颜色参数值子区间组成，所述区间组合中子区间数量与像素点的像素的颜色参数种数相同；

根据所述像素数量获取所述目标视频帧的色彩分布特征信息。
如权利要求6所述的关键帧提取方法，所述获取所述目标视频帧的内容特征信息，包括：

对所述目标视频帧进行灰度处理，得到灰度图像；

对所述灰度图像进行黑白二值化处理，得到黑白图像；

根据所述黑白图像中像素的颜色值，获取所述目标视频帧的内容特征信息。
如权利要求1-8任一项所述的关键帧提取方法，还包括：

在将所述目标视频帧确定为关键帧的同时或者之后，将所述参考视频帧替换为所述目标视频帧，并返回执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完所述视频帧集合中所有视频帧。
如权利要求9所述的关键帧提取方法，还包括：

当所述相似度信息不满足预设条件时，将所述参考视频帧替换为所述目标视频帧，并返回执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤，直到提取完所述视频帧集合中所有视频帧。
如权利要求9所述的关键帧提取方法，还包括：

当所述相似度信息不满足预设条件时，根据所述目标视频帧从所述视频帧集合中提取相应的一个视频帧，并将所述目标视频帧替换为提取的视频帧；

返回执行获取所述目标视频帧与所述参考视频帧之间的相似度信息的步骤，直到提取完视频集合中所有视频帧。
如权利要求1所述的关键帧提取方法，还包括：

根据所述关键帧对所述视频进行剪辑，得到若干视频片段；

将所述视频片段中关键帧的特征信息作为所述视频片段的指纹标签。
如权利要求1所述的关键帧提取方法，还包括：

获取所述关键帧对应的视频时间点；

根据所述视频时间点选取相应的时间段，所述视频时间点位于所述时间段内；

对所述时间段对应的音频信息进行语音识别，得到文字内容；

根据所述文字内容获取所述关键帧所在视频片段的文字标签。
如权利要求13所述的关键帧提取方法，所述根据所述视频时间点选取相应的时间段，包括：

获取所述关键帧与其相邻关键帧之间的时间间隔；

根据所述视频时间点和所述时间间隔选取相应的时间段。
一种关键帧提取装置，包括：

处理器以及与所述处理器相连接的存储器，所述存储器中存储有可由所述处理器执行的机器可读指令，所述处理器执行所述机器可读指令完成以下操作：

获取视频对应的视频帧集合，所述视频帧集合包括多个视频帧；

确定所述视频帧集合中当前的参考视频帧；

根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧；

获取所述目标视频帧与所述参考视频帧之间的相似度信息；

当所述相似度信息满足预设条件时，将所述目标视频帧确定为关键帧。
如权利要求15所述的关键帧提取装置，所述处理器执行所述机器可读指令完成以下操作：根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息。
如权利要求16所述的关键帧提取装置，所述特征信息包括颜色特征信息和内容特征信息；

所述处理器执行所述机器可读指令完成以下操作：

获取所述参考视频帧的颜色特征信息、与所述目标视频帧的颜色特征信息之间的颜色特征相似度信息；

获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息；

根据所述颜色特征相似度信息和所述内容特征相似度信息，获取所述目标视频帧与所述参考视频帧之间的相似度信息。
如权利要求17所述的关键帧提取装置，所述颜色特征相似度信息包括颜色特征相似百分比值；所述内容特征相似度信息包括内容特征相似百分比值；

所述处理器执行所述机器可读指令完成以下操作：对所述颜色特征相似百分比值与所述内容特征相似百分比值进行加权求和，得到加权和值；将所述加权和值作为所述目标视频帧与所述参考视频帧之间的相似百分比值。
如权利要求17所述的关键帧提取装置，所述内容特征信息包括内容特征矩阵，所述内容特征矩阵由黑色像素和/或白色像素的颜色值组成；

所述处理器执行所述机器可读指令完成以下操作：

对所述参考视频帧的内容特征矩阵中像素的颜色值、与所述目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算，得到像素的运算结果；

根据所述像素的运算结果，获取所述参考视频帧的内容特征矩阵、与所述目标视频帧的内容特征矩阵之间的内容特征相似度信息。
一种非易失性计算机可读存储介质，所述存储介质存储有指令，所述指令被处理器执行时实现如权利要求1-14任一项所述的关键帧提取方法。