WO2020029883A1

WO2020029883A1 - 一种视频指纹生成方法和装置

Info

Publication number: WO2020029883A1
Application number: PCT/CN2019/099051
Authority: WO
Inventors: 陈长国
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-08-09
Filing date: 2019-08-02
Publication date: 2020-02-13
Also published as: CN110826365B; US11961299B2; EP3835974A1; CN110826365A; EP3835974A4; US20210166036A1; EP3835974B1

Abstract

本申请提出一种视频指纹生成方法和装置，所述方法包括：对视频内容进行镜头边界检测；根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；根据获得所述时间片序列获得视频指纹信息。

Description

一种视频指纹生成方法和装置

本申请要求2018年08月09日递交的申请号为201810905169.X、发明名称为“一种视频指纹生成方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频指纹生成方法和装置。

背景技术

在网站中，不同用户可能会上传具有相同内容的视频文件，即使是同一用户，也可能多次上传具有相同内容的视频文件，所以网站中的视频文件存在较为严重的重复问题。实际应用中，视频网站需要对用户上传的视频文件进行去重，以便在向用户展示搜索结果时，能够对具有相同内容的视频文件进行去重处理。

现有的一种重复视频文件确定方法是：图片哈希技术，对于训练图像和查询图像都需要进行特征的提取，之后通过哈希函数的转化，压缩为一定数目的编码序列，该过程称为哈希编码。然后将得到的哈希编码，进行汉明距离的计算，在设置的汉明距离阈值范围内再对候选样本做欧式距离排序，也就是重排，最后返回检索到的图像，但是这种方法存在一定的缺点，对于视频内容的篡改，生成的哈希码有很大的不同，导致检索不到相似的内容，也就是说，在视频文件去重处理中，不会将这些具有相同内容的图片作为重复视频文件予以考虑。这样，对于长视频图片内容被裁剪，被旋转等存在大量的漏检的问题。

发明内容

本申请提供了一种视频指纹生成方法和装置，快速有效的解决影像内容的重复性检测问题。

采取的技术方案如下：

第一方面，本发明提供了一种视频指纹生成方法，包括：

对视频内容进行镜头边界检测；

根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；

根据获得所述时间片序列获得视频指纹信息。

优选地，根据获得所述时间片序列获得视频指纹信息包括：

根据获得所述时间片序列中当前镜头的时间片元素与相邻镜头的时间片元素的差值，获得当前镜头的视频指纹信息。

优选地，根据获得所述时间片序列中当前镜头的时间片元素与相邻镜头的时间片元素的差值，获得当前镜头的视频指纹信息包括：

分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值；

将当前镜头的时间片元素对应的两个量化差值作为所述元素的索引项，

将当前镜头的时间片元素的索引项与所述视频的视频序号和所述镜头的时间片的镜头序号作为当前镜头的指纹信息。

优选地，对视频内容进行镜头边界检测包括：

对所述视频内容的每一帧图像进行处理获得预设尺寸的灰度图像；

计算每一帧图像的归一化直方图；

计算每一帧图像的归一化累积直方图；

计算每相邻两帧图像的累积直方图的差值，形成差值序列；

对所述差值序列采用预设大小的窗口进行平滑处理；

在时间长度为预设长度的时间窗口之内，计算所述差值序列的标准差；

如果当前窗口的值与标准差的差距满足预设条件，则确定当前窗口对应的图像是镜头边界的位置。

优选地，分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值包括：

利用如下公式计算所述时间片序列中的当前镜头的时间片元素T _i与其前一个镜头的时间片元素T _i-1的量化差值f(T _i,T _i-1)：

其中，floor()表示向下取整，n为正整数，4≤n≤9。

优选地，获取所述镜头的时间片的镜头序号的方式包括：

根据当前镜头的持续时间在镜头边界时间片序列中的排序确定当前镜头的时间片的镜头序号。

第二方面，本发明提供一种视频指纹生成装置，包括：

边界检测模块，设置为对视频内容进行镜头边界检测；

时间计算模块，设置为根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；

指纹信息模块，设置为根据获得所述时间片序列获得视频指纹信息。

优选地，所述指纹信息模块根据获得所述时间片序列获得视频指纹信息包括：

优选地，所述指纹信息模块包括：

量化差值单元，设置为分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值；

一级索引单元，设置为将当前镜头的时间片元素对应的两个量化差值作为所述元素的索引项，

二级索引单元，设置为将所述镜头的时间片元素的索引项与所述视频的视频序号和所述镜头的时间片的镜头序号作为当前镜头的指纹信息。

优选地，所述边界检测模块对视频内容进行镜头边界检测包括：

计算每一帧图像的归一化直方图；

计算每一帧图像的归一化累积直方图；

计算每相邻两帧图像的累积直方图的差值，形成差值序列；

对所述差值序列采用预设大小的窗口进行平滑处理；

优选地，所述量化差值单元分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值包括：

其中，floor()表示向下取整，n为正整数，4≤n≤9。

优选地，所述二级索引单元获取所述镜头的时间片的镜头序号的方式包括：

本申请和现有技术相比，具有如下有益效果：

本申请采用镜头的持续时间作为依据，利用归一化差值量化公式，得到的量化差值序列是整数。再采用二级倒排索引结构。生成的视频指纹信息码字短，并且具有高度的抗裁剪和抗旋转特性。对于其它常见的视频编辑类型的攻击，同样具有很好的鲁棒性。本方案采用的镜头检测技术将会对最终的结果产生直接的影响，但对镜头检测出错的情况仍然具有相当程度的容忍性能。

附图说明

图1为本发明实施例的一种视频指纹生成方法的流程图；

图2为本发明实施例的视频指纹生成过程的示意图；

图3为本发明实施例的镜头边界时间片序列示意图；

图4为本发明实施例的归一化差值量化过程的示意图；

图5为本发明实施例的一种视频指纹检索方法的流程图；

图6为本发明实施例的一种视频指纹生成装置的结构示意图；

图7为本发明实施例的指纹信息模块的结构示意图；

图8为本发明实施例的一种视频指纹检索装置的结构示意图。

具体实施方式

下面将结合附图及实施例对本申请的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本申请实施例以及实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在一种配置中，进行视频指纹生成和检索的设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括一个或多个模块。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

实施例一

如图1和图2所示，本发明实施例提供了一种视频指纹生成方法，包括：

S101、对视频内容进行镜头边界检测；

S102、根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；

S103、根据获得所述时间片序列获得视频指纹信息。

对于一段视频内容，由于经过了后期的人工编辑，会存在较多的场景切换。这种场景切换的表现形式很多样，例如包括镜头的突变，还包括一些特效的转场形式的场景切换。比较常见的类型包括淡入淡出型，马赛克特效转场，百叶窗特效转场等。不同的视频内容，其场景切换的位置和频率是不一样的。如果把一段视频内容所有场景切换的时间位置都准确的找出来，就得到了一个时间序列。对应的，任意一个时间序列，唯一对应一段视频内容。

本发明实施例对场景切换的位置检测做镜头边界检测。上述假设有一个前提是必须准确找到一部电影场景切换的位。进一步的，镜头边界检测一般不会因为图像内容的裁剪，旋转而产生较大的影响，这意味本发明实施例的方法对于裁剪、旋转具有高度鲁棒性。

本实施例中，步骤S103中，根据获得所述时间片序列获得视频指纹信息包括：

本实施例中，步骤S101中，对视频内容进行镜头边界检测包括：

采用基于累积直方图的方式对所述视频内容进行镜头边界检测。

具体地，采用基于累积直方图的方式对所述视频内容进行镜头边界检测包括：

S1、对所述视频内容的每一帧图像进行处理获得预设尺寸的灰度图像；

S2、计算每一帧图像的归一化直方图；

S3、计算每一帧图像的归一化累积直方图；

S4、计算每相邻两帧图像的累积直方图的差值，形成差值序列；

S5、对所述差值序列采用预设大小的窗口进行平滑处理；

S6、在时间长度为预设长度的时间窗口之内，计算所述差值序列的标准差；

S7、如果当前窗口的值与标准差的差距满足预设条件，则确定当前窗口对应的图像是镜头边界的位置。

如图3所示，以输入的视频内容为例，检测所述视频内容，获得的镜头边界位置如图3坐标轴上的脉冲箭头所示，每一个镜头的持续时间如图3坐标轴下的双向箭头所示。镜头检测的目的是对于输入的视频内容，确定镜头变化的时间点。

如图4所示，本实施例中，步骤S103根据获得所述时间片序列中当前镜头的时间片元素与相邻镜头的时间片元素的差值，获得当前镜头的视频指纹信息包括：

S1031、分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值；

S1032、将当前镜头的时间片元素对应的两个量化差值作为所述元素的索引项，

S1033、将所述镜头的时间片元素的索引项与所述视频的视频序号和所述镜头的时间片的镜头序号作为当前镜头的指纹信息。

本实施例中步骤S1031中，分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值包括：

其中，floor()表示向下取整，n为正整数，4≤n≤9。

本实施例中，

的取值范围为(-1,1)，作加1运算后，取值范围为(0,2)，作除2运算后，取值范围为(0,1)，作乘以2n运算后，取值范围为(0,2n)，可以转换为n为二进制数。优选地，n＝6。

其中，获取所述镜头的时间片的镜头序号的方式包括：

实施例二

本实施例说明图片镜头边界检测处理的过程：

本实施例中采用基于累积直方图的镜头边界检测方法，具体流程如下：

1.1.视频内容的帧图像归一化为256x256的灰度图片；

1.2.计算归一化直方图，计算直方图过程中每一个像素量化为6个比特；

1.3.计算归一化累积直方图；

1.4.计算相邻两帧累积直方图的差值；

1.5.对差值序列进行高斯平滑，平滑窗口大小为3；

1.6.在时间长度为1秒的时间窗口之内，计算差值序列的标准差，如果某个序列的值大于标准差的8倍以上，则认为是镜头边界的位置；

1.7.将滑动窗的位置向后移动一帧的位置，返回执行1.6，直到窗口达到最后的位置。

实施例三

本实施例说明利用时间片序列进行归一化差值量化计算的过程：

由于镜头检测存在误检和漏检，因此不能直接对比两个视频经过镜头检测得到的两个时间序列。而且，在实际场景中，两个相同的视频，也可能一个在时间轴上被裁剪只剩下一半，即在时间轴上不是对齐的。因此，本实施例采用连续的3个时间片序列生成特征。这3个时间片序列视为一个时间窗口。然后，时间窗口向下滑动。相邻的两个时间窗口是有重叠的。本实施例采用的方式可以应对漏检和误检的镜头。

本实施例采用归一化差值量化特征，具体计算公式如下：

对于任意相邻的两个镜头的时间片元素，

其中，floor()表示向下取整。

本实施例中，输出为一个6bit的无符号整数。

连续的3个相邻的镜头的时间片元素，按照上述公式计算获得12bit的整数，作为特征值，12bit的无符号整数是构建的索引项。

实施例四

如图5所示，本发明提供一种图片指纹检索方法，包括：

S201、获得输入视频内容的视频指纹信息；

S202、将所述输入视频内容的视频指纹信息与数据库中每个视频的视频指纹信息进行对比，当所述输入视频内容的视频指纹信息与数据库中的视频的视频指纹信息相同时，将所述输入视频内容确定为重复视频。

本实施例，上述图片指纹检索方法还包括：

将所述输入视频内容和所述数据库中的重复视频以相同标记符进行标记，以在向用户展示视频时，根据预设的选择要求，选择具有相同标记符的视频中的一个视频进行展示。

对于输入的视频内容，按照上述过程会生成多个的12bit无符号整数作为特征序列。在检索的结构里面，每一个镜头的指纹信息除了包括特征序列外，还附带所述镜头的镜头序号，以及对应的视频编号。12bit整数可以作为一个哈希表的索引，对应4096个哈希值。每一个特征都将被分散到这个哈希表里面。具体的内存结构如下表1所示：

表1

有了上面的哈希倒排结构，就可以快速的完成检索的任务。即先通过12bit的整数获得当前特征对应的所有的视频序号以及对应的镜头序号。如果多个特征是同一个视频产生的，并且库里面已经保存了数据库的特征值，则他们对应的视频序号是相同，镜头序号是递增的。按照这个规则，可以快速过滤出最终想要的结果。

实施例五

如图6所示，本实施例提供一种视频指纹生成装置，包括：

边界检测模块100，设置为对视频内容进行镜头边界检测；

时间计算模块200，设置为根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；

指纹信息模块300，设置为根据获得所述时间片序列获得视频指纹信息。

本实施例中，所述指纹信息模块300根据获得所述时间片序列获得视频指纹信息包括：

本实施例中，所述边界检测模块100对视频内容进行镜头边界检测包括：

所述边界检测模块100采用基于累积直方图的方式对所述视频内容进行镜头边界检测包括：

计算每一帧图像的归一化直方图；

计算每一帧图像的归一化累积直方图；

计算每相邻两帧图像的累积直方图的差值，形成差值序列；

对所述差值序列采用预设大小的窗口进行平滑处理；

如图7所示，所述指纹信息模块300包括：

实施例六

如图8所示，本实施例提供了一种图片指纹检索装置，包括：

获取模块400，设置为获得输入视频内容的视频指纹信息；

去重模块500，设置为将所述输入视频内容的视频指纹信息与数据库中每个视频的视频指纹信息进行对比，当所述输入视频内容的视频指纹信息与数据库中的视频的视频指纹信息相同时，将所述输入视频内容确定为重复视频。

本实施例中，上述装置还包括标记模块600，设置为：

虽然本发明所揭示的实施方式如上，但其内容只是为了便于理解本发明的技术方案而采用的实施方式，并非用于限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭示的核心技术方案的前提下，可以在实施的形式和细节上做任何修改与变化，但本发明所限定的保护范围，仍须以所附的权利要求书限定的范围为准。

Claims

一种视频指纹生成方法，其特征在于，包括：

对视频内容进行镜头边界检测；

根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；

根据获得所述时间片序列获得视频指纹信息。
如权利要求1所述的方法，其特征在于：根据获得所述时间片序列获得视频指纹信息包括：

根据获得所述时间片序列中当前镜头的时间片元素与相邻镜头的时间片元素的差值，获得当前镜头的视频指纹信息。
如权利要求2所述的方法，其特征在于：根据获得所述时间片序列中当前镜头的时间片元素与相邻镜头的时间片元素的差值，获得当前镜头的视频指纹信息包括：

分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值；

将当前镜头的时间片元素对应的两个量化差值作为所述元素的索引项，

将当前镜头的时间片元素的索引项与所述视频的视频序号和所述镜头的时间片的镜头序号作为当前镜头的指纹信息。
如权利要求1所述的方法，其特征在于：对视频内容进行镜头边界检测包括：

对所述视频内容的每一帧图像进行处理获得预设尺寸的灰度图像；

计算每一帧图像的归一化直方图；

计算每一帧图像的归一化累积直方图；

计算每相邻两帧图像的累积直方图的差值，形成差值序列；

对所述差值序列采用预设大小的窗口进行平滑处理；

在时间长度为预设长度的时间窗口之内，计算所述差值序列的标准差；

如果当前窗口的值与标准差的差距满足预设条件，则确定当前窗口对应的图像是镜头边界的位置。
如权利要求3所述的方法，其特征在于：分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值包括：

利用如下公式计算所述时间片序列中的当前镜头的时间片元素Ti与其前一个镜头的时间片元素Ti-1的量化差值f(Ti,Ti-1)：

其中，floor()表示向下取整，n为正整数，4≤n≤9。
如权利要求3所述的方法，其特征在于：获取所述镜头的时间片的镜头序号的方式包括：

根据当前镜头的持续时间在镜头边界时间片序列中的排序确定当前镜头的时间片的镜头序号。
一种视频指纹生成装置，其特征在于，包括：

边界检测模块，设置为对视频内容进行镜头边界检测；

时间计算模块，设置为根据镜头边界的位置点，确定每一个镜头的持续时间，将所述每一个镜头的持续时间组成镜头边界时间片序列；

指纹信息模块，设置为根据获得所述时间片序列获得视频指纹信息。
如权利要求7所述的装置，其特征在于：所述指纹信息模块根据获得所述时间片序列获得视频指纹信息包括：

根据获得所述时间片序列中当前镜头的时间片元素与相邻镜头的时间片元素的差值，获得当前镜头的视频指纹信息。
如权利要求8所述的装置，其特征在于：所述指纹信息模块包括：

量化差值单元，设置为分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值；

一级索引单元，设置为将当前镜头的时间片元素对应的两个量化差值作为所述元素的索引项，

二级索引单元，设置为将所述镜头的时间片元素的索引项与所述视频的视频序号和所述镜头的时间片的镜头序号作为当前镜头的指纹信息。
如权利要求7所述的装置，其特征在于：所述边界检测模块对视频内容进行镜头边界检测包括：

对所述视频内容的每一帧图像进行处理获得预设尺寸的灰度图像；

计算每一帧图像的归一化直方图；

计算每一帧图像的归一化累积直方图；

计算每相邻两帧图像的累积直方图的差值，形成差值序列；

对所述差值序列采用预设大小的窗口进行平滑处理；

在时间长度为预设长度的时间窗口之内，计算所述差值序列的标准差；

如果当前窗口的值与标准差的差距满足预设条件，则确定当前窗口对应的图像是镜头边界的位置。
如权利要求9所述的装置，其特征在于：所述量化差值单元分别计算所述时间片序列中当前镜头的时间片元素与其前一个镜头的时间片元素和后一个镜头的时间片元素的量化差值包括：

利用如下公式计算所述时间片序列中的当前镜头的时间片元素T _i与其前一个镜头的时间片元素T _i-1的量化差值f(T _i,T _i-1)：

其中，floor()表示向下取整，n为正整数，4≤n≤9。
如权利要求9所述的装置，其特征在于：所述二级索引单元获取所述镜头的时间片的镜头序号的方式包括：

根据当前镜头的持续时间在镜头边界时间片序列中的排序确定当前镜头的时间片的镜头序号。