WO2020114378A1

WO2020114378A1 - 视频水印的识别方法、装置、设备及存储介质

Info

Publication number: WO2020114378A1
Application number: PCT/CN2019/122609
Authority: WO
Inventors: 邹昱; 杨轩; 刘振强; 潘跃; 李振
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2018-12-03
Filing date: 2019-12-03
Publication date: 2020-06-11
Also published as: CN109598231A; CN109598231B; US11631248B2; US20220019805A1

Abstract

一种视频水印的识别方法、装置、设备及存储介质。该方法包括：将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列；将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量；将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定所述视频包含水印。

Description

视频水印的识别方法、装置、设备及存储介质

本申请要求在2018年12月03日提交中国专利局、申请号为201811465129.4的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及识别技术，例如涉及一种视频水印的识别方法、装置、设备及存储介质。

背景技术

水印是保护版权的重要标志，随着用户版权意识的逐步提高，多种水印也得到了广泛应用。示例性的，将水印嵌入视频中，由于视频可以理解为是由至少两个视频帧组成的，每个视频帧可看作一张图片，因此将水印嵌入视频中可以理解为将水印嵌入多张图片中。

由于水印的广泛使用，因此，水印的识别也成为了一个研究的方向。但由于通常水印占图片比例较小，而且经常出现在图片的非关键区域，如图片底部(如左下角或右下角)或者顶部(如左上角或右上角)等，给视频水印的识别带来了较大困难，使得视频水印的识别精度不高。

发明内容

本申请实施例提供一种视频水印的识别方法、装置、设备及存储介质，以提高视频水印的识别精度。

本申请实施例提供了一种视频水印的识别方法，该方法包括：

将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列；

将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量；

将所述视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定所述视频包含水印。

本申请实施例还提供了一种视频水印的识别装置，该装置包括：

图像序列获取模块，设置为将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列；

视频特征向量获取模块，设置为将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量；

水印识别结果确定模块，设置为将所述视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定所述视频包含水印。

本申请实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请实施例提供的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现本申请实施例提供的方法。

附图说明

图1是本申请实施例提供的一张包含水印的图片的示意图；

图2是本申请实施例提供的另一张包含水印的图片的示意图；

图3是本申请实施例提供的一种视频水印的识别方法的流程图；

图4是本申请实施例提供的另一种视频水印的识别方法的流程图；

图5是本申请实施例提供的一种视频水印的识别方法的应用示意图；

图6是本申请实施例提供的另一种视频水印的识别方法的流程图；

图7是本申请实施例提供的另一种视频水印的识别方法的应用示意图；

图8是本申请实施例提供的一种视频水印的识别装置的结构示意图；

图9是本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

由于通常水印占图片比例较小，而且经常出现在图片的非关键区域，如图片底部(如左下角或右下角)或者顶部(如左上角或右上角)等。如图1所示，给出了一张包含水印的图片，图1中，水印位于图片的右上角，给水印识别带来了较大困难，使得水印识别的精度不高。由于视频可以理解为是由至少两个视频帧组成的，每个视频帧可看作一张图片，因此，这里所述的图片可以为静态图片，也可以为动态图片，还可以为视频中的视频帧。

针对视频水印的识别来说，所谓视频水印的识别指的是确定视频中是否包含水印，相应的，视频水印的识别结果为视频包含水印与视频不包含水印两种情况。由于视频是由多个视频帧组成的，且多个视频帧中水印所在的位置可能并不相同，这里所述的水印可以为同一水印，也可能是不同水印，如一个视频是由三个视频帧组成的，按照时间顺序对三个视频帧进行拆分，第一个视频帧中水印位于该视频帧的右上角，第二个视频帧中水印位于该视频帧的左上方，第三个视频帧中水印位于该视频帧的右上方，因此，水印位置的不固定也给视频水印的识别增加了难度。基于上述，为了提高视频水印的识别精度，可考虑增大水印占视频帧的比例，并分别对每个视频帧进行水印识别，在此基础上，根据至少两个视频帧的水印识别结果确定视频的水印识别结果。下面将结合具体实施例对上述内容进行说明。

图3为本申请实施例提供的一种视频水印的识别方法的流程图，本实施例可适用于提高视频水印的识别精度的情况，该方法可以由视频水印的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如配置于计算机或移动终端等中。如图3所示，该方法包括如下步骤：

步骤110、将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列。

步骤120、将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量。

在本申请的实施例中，视频是指将一系列静态画面以电信号的方式加以捕捉、纪录、处理、储存、传送与重现，当连续的静态画面变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单张的静态画面，看上去是平滑连续的视觉效果，这样连续的静态画面叫做视频。本申请实施例将静态画面称为视频帧。

根据前文所述可知，由于水印通常在视频帧中所占比例比较小。同时，视频中水印所在的位置可能并不固定，增大了视频水印的识别难度，因此，为了提高视频水印的识别精度，可考虑增大水印所占视频帧的比例，并分别对每个视频帧进行水印识别。

将视频的多个视频帧中的每个视频帧划分为多个图像块，以此来增大水印在视频帧中所占的比例，每个视频帧的多个图像块形成该视频帧对应的图像序列。一实施例中，每个视频帧的多个图像块可以为等高的图像块。示例性的，如一个视频V包括N帧视频帧，则V＝{I ₁，I ₂，......，I _n，......，I _N-1，I _N}，I _n表示第n个视频帧，n∈{1,2，......，N-1，N}；将每个视频帧划分为M个图像块，则I _n＝{I _n1，I _n2，......，I _nm，......，I _nM-1，I _nM}，I _nm表示第n帧视频帧中第m个图像块，m∈{1,2，......，M-1，M}。I _n即为第n帧视频帧的多个图像块所形成的图像序列。

以图1为例进行说明。针对图1所示的视频帧，该视频帧的尺寸大小为256×128，水印位于该视频帧的右上角，水印的尺寸大小为12×6，如图2所示，将该视频帧划分为8个图像块，每个图像块的尺寸大小均为64×64，并将图2中的8个图像块按照从左到右，从上到下的顺序，将8个图像块称为第一图像块、第二图像块、……、第七图像块和第八图像块，由于水印位于视频帧的右上角，因此，该水印出现在第二图像块中，即除第二图像块包含水印外，其它图像块不包含水印。基于上述，未将该视频帧划分8个图像块前，水印在视频帧中所占的比例为

而将该视频帧划分为8个图形块后，水印在该视频帧的第二图像块中所占的比例为

由此可见，通过将视频中的每个视频帧划分为多个图像块，可以增大水印在视频帧中所占的比例。

将多个视频帧分别对应的多个图像序列输入至预先训练的目标检测模型中，经过目标检测模型的计算，得到每个图像块的分类结果。一实施例中，预先训练的目标检测模型可以由训练样本基于分类器模型训练生成，训练样本可以包括训练图片、训练图片的分类类别和训练图片的位置信息。常用的分类器模型包括贝叶斯(Bayes)决策、极大似然分类器、贝叶斯分类器、聚类分析模型、神经网络模型、支持向量机模型、混沌与分形模型和隐马尔科夫模型等。分类器模型可以根据实际情况进行设定，在此不作限定。分类结果可以包括图像块的分类类别、图像块的分类概率以及图像块的位置信息。一实施例中，分类类别可以包括水印和背景，如果分类类别为水印，则可以表示该图像块包含水印；如果分类类别为背景，则可以表示该图像块不包含水印。

每个图像块可以包括多个分类结果，分类结果的个数可根据实际情况进行设定，在此不作限定。示例性的，每个图像块T个分类结果，则如前文所述的I _nm的分类结果可以表示为B _nm＝{b _nm1，b _nm2，......，b _nmt，......，b _nmT-1，b _nmT}，b _nmt表示图像块I _nm的第t个分类结果，t∈{1，2，......，T-1，T}；b _nmt＝{id，conf，x _min，y _min，x _max，y _max}，id表示图像块I _nm的第t个分类结果中的分类类别，conf表示图像块I _nm的第t个分类结果中的分类概率，x _min，y _min，x _max，y _max表示图像块I _nm的第t个分类结果中的图像块I _nm的位置信息。一实施例中，(x _min，y _min)表示图像块I _nm的左上角的位置信息；(x _max，y _max)表示图像块I _nm的右下角)的位置信息。基于上述，对于视频帧I _n，将得到M×T个分类结果。

根据所有图像块的分类结果得到视频特征向量，可以包括：将每个图像块的多个分类结果中分类类别为水印的分类结果作为该图像块的备选分类结果。根据所有图像块的备选分类结果得到多帧视频帧分别对应的多个特征向量。根据多帧视频帧分别对应的多个特征向量得到视频特征向量。本实施例中，根据所有图像块的备选分类结果得到多帧视频帧分别对应的多个特征向量，可以包括如下两种方式：

方式一、针对每个视频帧，根据该帧视频中多个图像块的备选分类结果中的分类概率，对多个图像块的备选分类结果按降序方式进行排序，并选取前U个备选结果得到该帧视频帧的特征向量。如果出现备选结果中分类概率相同的情况，则可随机选择其中一个备选结果即可。此外，如果出现一个图像块中备选分类结果的个数小于U，则可用预设标识来补充，这里所述的预设标识可以为-1。进行上述操作的目的在于，保持多帧视频帧的特征向量的维数相同。

方式二、针对每个视频帧，根据该帧视频中每个图像块的备选分类结果中的分类概率，对每个图像块的备选分类结果按降序方式进行排序，并选取每个图像块的备选分类结果的排序结果中前V个备选分类结果作为该图像块的目标分类结果。根据多个图像块的目标分类结果中的分类概率，对多个图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果得到该帧视频帧的特征向量，1<V<U。同样，如果出现备选分类结果和/或目标分类结果中分类概率相同的情况，则可随机选择其中一个备选结果和/或目标分类结果即可。此外，如果出现一个图像块中备选分类结果的个数小于V，则可用预设标识来补充；和/或，如果出现一个图像块中目标分类结果的个数小于V，则也用标识来补充，这里所述的预设标识可以为-1。进行上述操作的目的在于，保持多帧视频帧的特征向量的维数相同。

两者方式的区别点在于：针对一帧视频帧而言，方式一是直接对多个图像块的全部备选结果，根据分类概率，按降序方式进行排序，选取前U个备选结果组成该视频帧的特征向量，而方式二先对每个图像块的备选分类结果进行一次筛选，得到每个图像块的目标分类结果，再根据多个图像块的目标分类结果中的分类概率，对多个图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果组成该视频帧的特征向量，即方式一是通过一次筛选来确定视频帧的特征向量，而方式二是通过两次筛选来确定视频帧的特征向量。

由于方式二中第一筛选并不是对全部图像块的备选分类结果进行排序，而是对每个图像块的备选分类结果进行排序，因此，相比于方式一对全部图像块的备选分类结果进行排序而言，降低了数据处理难度。同时，虽然方式二中第二次筛选是对全部图像块的目标分类结果进行排序，但由于通过第一筛选减少了数据处理量，因此，相比于方式一而言，仍降低了数据处理难度。基于上述，当视频的帧数较多时，可采用方式二，以降低数据处理难度；当视频的帧数较少时，可采用方式一或方式二。

针对方式一，对于每个视频帧而言，根据分类概率对多个图像块的备选分类结果，按降序方式进行排序，并选取前U个备选结果组成该视频帧的特征向量。示例性的，对于视频V中的视频帧I _n，将视频帧I _n划分为M＝4个图像块，则I _n＝{I _n1，I _n2，I _n3，I _n4}，每个图像块包括T＝5个分类结果，则I _n1的分类结果可以表示为B _n1＝{b _n11，b _n12，b _n13，b _n14，b _n15}，I _n2的分类结果可以表示为B _n2＝{b _n21，b _n22，b _n23，b _n24，b _n25}，I _n3的分类结果可以表示为B _n3＝{b _n31，b _n32，b _n33，b _n34，b _n35}，I _n4的分类结果可以表示为B _n4＝{b _n41，b _n42，b _n43，b _n44，b _n45}。

I _n1的备选分类结果为B _n1'＝{b _n11，b _n12，b _n13}，b _n11、b _n12和b _n13的分类概率分别为0.9、0.8和0.7；I _n2的备选分类结果为0个；I _n3的备选分类结果B _n3'＝{b _n31，b _n33，b _n34}，b _n31、b _n33和b _n34的分类概率分别为0.3、0.4和0.2；I _n4的备选分类结果为B _n4'＝{b _n42，b _n43}，b _n42和b _n43的分类概率分别为0.6和0.5。

将I _n1、I _n2、I _n3和I _n4的全部备选分类结果，根据分类概率，按降序方式进行排序，排序结果为b _n11、b _n12、b _n13、b _n42、b _n43、b _n33、b _n31和b _n34，并选取前U＝4个备选分类结果b _n11、b _n12、b _n13和b _n42组成该视频帧的特征向量，即I _n＝{b _n11，b _n12，b _n13，b _n42}。

针对方式二，对于每个视频帧而言，首先根据多个图像块的备选分类结果中的分类概率，分别对多个图像块的备选分类结果按降序方式进行排序，并选取每个图像块的备选分类结果的排序结果中前V个备选分类结果作为该图像块的目标分类结果，即先对每个图像块的备选分类结果进行一次筛选，得到每个图像块的目标分类结果。再根据多个图像块的目标分类结果中的分类概率，对多个图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果组成该视频帧的特征向量。

示例性的，对于视频V中的视频帧I _n，将视频帧I _n划分为M＝4个图像块，则I _n＝{I _n1，I _n2，I _n3，I _n4}，每个图像块包括T＝5个分类结果，则I _n1的分类结果可以表示为B _n1＝{b _n11，b _n12，b _n13，b _n14，b _n15}，I _n2的分类结果可以表示为B _n2＝{b _n21，b _n22，b _n23，b _n24，b _n25}，I _n3的分类结果可以表示为B _n3＝{b _n31，b _n32，b _n33，b _n34，b _n35}，I _n4的分类结果可以表示为B _n4＝{b _n41，b _n42，b _n43，b _n44，b _n45}。

对于每个图像块，选取前V＝2个备选分类结果作为每个图像块的目标分类结果。即I _n1的目标分类结果为B _n1”＝{b _n11，b _n12}，b _n11和b _n12的分类概率分别为0.9、0.8；I _n2的目标分类结果为0个；I _n3的目标分类结果B _n3”＝{b _n31，b _n33}，b _n31和b _n33的分类概率分别为0.3和0.4；I _n4的目标分类结果为B _n4”＝{b _n42，b _n43}，b _n42和b _n43的分类概率分别为0.6和0.5。

将I _n1、I _n2、I _n3和I _n4的全部目标分类结果，根据分类概率，按降序方式进行排序，排序结果为b _n11、b _n12、b _n42、b _n43、b _n33和b _n31，并选取前U＝4个目标分类结果b _n11、b _n12、b _n42和b _n43组成该视频帧的特征向量，即I _n＝{b _n11，b _n12，b _n42，b _n43}。

在得到多个视频帧分别对应的多个特征向量后，可以根据多个视频帧分别对应的多个特征向量得到视频特征向量。本实施例中，视频特征向量为由多个视频帧分别对应的多个特征向量所组成的向量集合。示例性的，如一个视频V包括N个视频帧，则V＝{I ₁，I ₂，......，I _n，......，I _N-1，I _N}，I _n表示第n个视频帧，n∈{1,2，......，N-1，N}，I _n可以通过前文所述方式进行确定。

步骤130、将视频特征向量输入至水印识别模型，得到水印识别模型输出的水印识别概率。

步骤140、判断水印识别概率是否大于或等于概率阈值；若水印识别概率大于或等于概率阈值，则执行步骤150；若水印识别概率小等于概率阈值，则执行步骤160。

步骤150、确定视频包含水印。

步骤160、确定视频不包含水印。

在本申请的实施例中，将视频特征向量输入至预先训练的水印识别模型中，经过水印识别模型的计算，得到视频的水印识别概率。一实施例中，预先训练的水印识别模型可以由训练样本基于极限梯度提升(eXtreme Gradient Boosting，Xgboost)模型训练生成，训练样本可以是训练视频特征向量和训练视频的分类类别。

如果水印识别概率大于或等于概率阈值，则可以确定该视频包含水印；如果水印识别概率小于概率阈值，则可以确定该视频不包含水印。本实施例中，概率阈值可以作为确定视频是否包含水印的依据，其数值大小可根据实际情况进行设定，在此不作限定。示例性的，如概率阈值为0.9。

本实施例的技术方案，通过将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列，将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量，将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定视频包含水印，上述通过将视频帧分块处理得到图像块，增大了水印所占视频帧的比例，降低了视频水印的识别难度，并通过将多个视频帧分别对应的多个图像序列输入至目标检测模型中，得到多个视频帧对应的水印识别结果，再将多个视频帧对应的水印识别结果输入至水印识别模型中得到视频的水印识别结果，由于利用了多个视频帧对应的水印识别结果，因此，当水印位置不固定时，仍可准确识别视频中是否包含水印，从而提高了视频水印的识别精度。

在上述技术方案的基础上，根据所有图像块的分类结果得到视频特征向量，包括：根据每个视频帧的每个图像块的多个分类结果确定所述每个图像块的水印分类结果；根据每个视频帧的所有图像块的水印分类结果，得到所述每个视频帧对应的特征向量。根据多个视频帧分别对应的多个特征向量得到视频特征向量。

在本申请的实施例中，根据每个视频帧的每个图像块的分类结果确定所述每个图像块的水印分类结果，可作如下理解：图像块的分类结果可以包括图像块的分类类别、图像块的分类概率和图像块的位置信息，图像块的分类类别包括水印和背景，可将分类类别为水印的分类结果称为水印分类结果，可将分类类别为背景的分类结果称为背景分类结果。针对每个图像块来说，由于分类结果可能为水印分类结果，也可能为背景分类结果，目的确定视频是否包含水印，因此，可将水印分类结果认为是有效的分类结果。基于上述，根据所有图像块的水印分类结果，得到每个视频帧对应的特征向量，即将每个图像块的分类结果为水印分类结果作为该图像块的备选分类结果，根据每个视频帧的所有图像块的备选分类结果得到所述每个视频帧对应的特征向量。

根据每个视频帧的所有图像块的水印分类结果，得到所述每个视频帧对应的特征向量，可以包括如下两种方式：

方式一、根据每个视频帧的多个图像块的包含水印的概率，对所述多个图像块的水印分类结果进行排序。从每个视频帧对应的排序结果中确定所述每个视频帧的特征向量。即针对每个视频帧，将每个图像块的分类结果为水印分类结果作为每个图像块的备选分类结果。根据多个图像块的备选分类结果中的分类概率，对多个图像块的备选分类结果按降序方式进行排序，并选取前U个备选结果得到该视频帧的特征向量。

方式二、根据每个帧视频帧的每个图像块的包含水印的概率，对所述每个图像块的水印分类结果进行排序。从每个视频帧对应的多个排序结果中选取部分水印分类结果进行排序。从每个视频帧对应的排序后的部分水印分类结果中确定所述每个视频帧的特征向量。即针对每个视频帧，将每个图像块的分类结果为水印分类结果作为所述每个图像块的备选分类结果。根据每个图像块的备选分类结果中的分类概率，对每个图像块的备选分类结果按降序方式进行排序，并选取前V个备选分类结果作为该图像块的目标分类结果。根据多个图像块的目标分类结果中的分类概率，对多个图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果得到该视频帧的特征向量，1<V<U。

在上述技术方案的基础上，根据每个视频帧的所有图像块的水印分类结果，得到每个视频帧对应的特征向量，可以包括：根据每个视频帧的多个图像块的包含水印的概率，对所述多个图像块的水印分类结果进行排序。从每个视频帧对应的排序结果中确定所述每个视频帧的特征向量。

在本申请的实施例中，根据每个视频帧的多个图像块的包含水印的概率，对所述多个图像块的水印分类结果进行排序，从每个视频帧对应的排序结果中确定所述每个视频帧的特征向量，可作如下理解：每个图像块的水印分类结果中所包括的分类概率即为包含水印的概率，根据每个视频帧的多个图像块的包含水印的概率，对所述多个图像块的水印分类结果按降序方式进行排序，可从每个视频帧对应的排序结果中选取前U个排序结果，根据前U个排序结果确定所述每个视频帧的特征向量。

示例性的，如对于视频V中的视频帧I _n，将视频帧I _n划分为M＝4个图像块，则I _n＝{I _n1，I _n2，I _n3，I _n4}，每个图像块包括T＝5个分类结果，则I _n1的分类结果可以表示为B _n1＝{b _n11，b _n12，b _n13，b _n14，b _n15}，I _n2的分类结果可以表示为B _n2＝{b _n21，b _n22，b _n23，b _n24，b _n25}，I _n3的分类结果可以表示为B _n3＝{b _n31，b _n32，b _n33，b _n34，b _n35}，I _n4的分类结果可以表示为B _n4＝{b _n41，b _n42，b _n43，b _n44，b _n45}。

I _n1的水印分类结果为B _n1'＝{b _n11，b _n12，b _n13}，b _n11、b _n12和b _n13中包含水印的概率分别为0.9、0.8和0.7；I _n2的水印分类结果为0个；I _n3的水印分类结果B _n3'＝{b _n31，b _n33，b _n34}，b _n31、b _n33和b _n34中包含水印的概率分别为0.3、0.4和0.2；I _n4的水印分类结果为B _n4'＝{b _n42，b _n43}，b _n42和b _n43中包含水印的概率分别为0.6和0.5。

将I _n1、I _n2、I _n3和I _n4的全部水印分类结果，根据包含水印的概率，按降序方式进行排序，排序结果为b _n11、b _n12、b _n13、b _n42、b _n43、b _n33、b _n31和b _n34，并选取前U＝4个水印分类结果b _n11、b _n12、b _n13和b _n42组成该视频帧的特征向量，即I _n＝{b _n11，b _n12，b _n13，b _n42}。

在上述技术方案的基础上，根据每个视频帧的所有图像块的水印分类结果，得到每个视频帧对应的特征向量，可以包括：根据每个视频帧的每个图像块的包含水印的概率，对所述每个图像块的水印分类结果进行排序。从每个视频帧对应的多个排序结果中选取部分水印分类结果进行排序。从每个视频帧对应的排序后的部分水印分类结果中确定所述每个视频帧的特征向量。

在本申请的实施例中，根据每个视频帧的每个图像块的包含水印的概率，对所述每个图像块的水印分类结果进行排序，从每个视频帧对应的多个排序结果中选取部分水印分类结果进行排序，从每个视频帧对应的排序后的部分水印分类结果中确定所述每个视频帧的特征向量，可作如下理解：每个图像块的水印分类结果中所包括的分类概率即为包含水印的概率，根据每个视频帧的每个图像块的包含水印的概率，对所述每个图像块的水印分类结果按降序方式进行排序，从多个排序结果中选取前V个水印分类结果作为目标水印分类结果，再对目标水印分类结果按降序方式进行排序，可从目标水印分类结果中选取前U个排序结果，根据前U个排序结果确定该视频帧的特征向量。

I _n1的水印分类结果为B _n1'＝{b _n11，b _n12，b _n13}，b _n11、b _n12和b _n13中包含的水印概率分别为0.9、0.8和0.7；I _n2的水印分类结果为0个；I _n3的水印分类结果B _n3'＝{b _n31，b _n33，b _n34}，b _n31、b _n33和b _n34中包含的水印概率分别为0.3、0.4和0.2；I _n4的水印分类结果为B _n4'＝{b _n42，b _n43}，b _n42和b _n43中包含水印的概率分别为0.6和0.5。

对于每个图像块，选取前V＝2个水印分类结果作为该图像块的目标水印分类结果。即I _n1的目标水印分类结果为B _n1”＝{b _n11，b _n12}，b _n11和b _n12中包含水印的概率分别为0.9、0.8；I _n2的目标水印分类结果为0个；I _n3的目标水印分类结果B _n3”＝{b _n31，b _n33}，b _n31和b _n33中包含水印的概率分别为0.3和0.4；I _n4的目标水印分类结果为B _n4”＝{b _n42，b _n43}，b _n42和b _n43中包含水印的概率分别为0.6和0.5。

将I _n1、I _n2、I _n3和I _n4的全部目标水印分类结果，根据分类概率，按降序方式进行排序，排序结果为b _n11、b _n12、b _n42、b _n43、b _n33和b _n31，并选取前U＝4个目标水印分类结果b _n11、b _n12、b _n42和b _n43组成该视频帧的特征向量，即I _n＝{b _n11，b _n12，b _n42，b _n43}。

在上述技术方案的基础上，可以通过如下方式训练目标检测模型：获取第一训练样本，第一训练样本包括多张训练图片、所述多张训练图片的分类类别和所述多张训练图片的位置信息。将所述多张训练图片中的每张训练图片划分为多个第一训练图像块，并根据每张训练图片的分类类别得到所述每张训练图片的每个第一训练图像块的分类类别以及根据每张训练图片的位置信息得到所述每张训练图片的每个第一训练图像块的位置信息。将所有第一训练图像块作为输入变量，所述所有第一训图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型。

在本申请的实施例中，可以通过如下方式训练目标检测模型：获取第一训练样本，第一训练样本可以包括多张训练图片、所述多张训练图片的分类类别和所述多张训练图片的位置信息，将所述多张训练图片中的每张训练图片划分为多个第一训练图像块，并根据每张训练图片的分类类别得到所述每张训练图片的每个第一训练图像块的分类类别以及根据每张训练图片的位置信息得到所述每张训练图片的每个第一训练图像块的位置信息。一实施例中，训练图片可以包括包含水印的图片，还可以包括不包含水印的图片(即背景图片)，这里所述的背景图片可以为包含字幕的图片。相应的，训练图片的分类类别可以包括水印和背景。

根据每张训练图片的分类类别得到所述每张训练图片的每个第一训练图像块的分类类别，以及，根据每张训练图片的位置信息得到所述每张训练图片的每个第一训练图像块的位置信息，可作如下理解：根据每张训练图片的分类类别可以标注所述每张训练图片的每个第一训练图像块的分类类别，以及，根据每张训练图片的位置信息可以标注所述每张训练图片的每个第一训练图像块的位置信息。示例性的，已知一张训练图片的分类类别为水印，以及，该训练图片的位置信息，则将该训练图片划分为多个第一训练图像块后，将出现水印的第一训练图像块的分类类别标注为水印，将未出现水印的第一训练图像块的分类类别标注为背景，以及，根据该训练图片的位置信息标注每个第一训练图像块的位置信息。

将所有第一训练图像块作为输入变量，所述所有第一训练图像块的分类类别和所述所有第一训练图像块的位置信息作为输出变量，训练分类器模型，得到目标检测模型，可作如下理解：分类器模型可以包括支持向量机模型或神经网络模型等。本实施例中，神经网络模型是基于生物学中神经网络的基本原理，在理解和抽象了人脑结构和外界刺激响应机制后，以网络拓扑知识为理论基础，模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。该模型是依靠系统的复杂程度，通过调整内部大量节点(神经元)之间相互连接的权值，来实现处理信息的。神经网络模型可以包括卷积神经网络模型、循环神经网络模型和深度神经网络模型，下面以卷积神经网络模型为例进行说明，卷积神经网络模型解决的核心问题就是如何自动提取并抽象特征，进而将特征映射到任务目标解决实际问题，一个卷积神经网络一般由以下三部分组成，第一部分是输入层，第二部分由卷积层、激活层和池化层(或下采样层)组合而成，第三部分由一个全连接的多层感知机分类器(即全连接层)构成。卷积神经网络模型具有权值共享特性，权值共享即指卷积核，可以通过一个卷积核的操作提取图像数据的不同位置的同样特征，换句话说，即是在一张图像数据中的不同位置的相同目标，它们的特征是基本相同的。使用一个卷积核只能得到一部分特征，可以通过设置多核卷积，用每个卷积核来学习不同的特征来提取图片的特征。在图片分类中，卷积层的作用是将低层次的特征抽取分析为高层次特征，低层次的特征是基本特征，诸如纹理和边缘等特征，高层次特征如人脸和物体的形状等，更能表现样本的属性，这个过程就是卷积神经网络模型的层次性。全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、激励层和池化层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1×1的卷积；而前层是卷积层的全连接层可以转化为卷积核为H×W的全局卷积，H和 W分别为前层卷积结果的高和宽。

卷积神经网络模型的训练过程是经过前向传播计算卷积神经网络模型的损失函数，并计算损失函数对网络参数的偏导数，采用反向梯度传播方法，对卷积神经网络模型的网络参数进行调整，直至卷积神经网络模型的损失函数达到预设函数值。当卷积神经网络模型的损失函数值达到预设函数值时，表示卷积神经网络模型已训练完成，此时，卷积神经网络模型的网络参数也得以确定，可将已训练完成的卷积神经网络模型作为目标检测模型。本实施例中，损失函数是将一个或多个变量的一个事件或值映射为可以直观地表示一种与之相关“成本”的实数的函数，即损失函数将一个或多个变量的事件映射到与一个成本相关的实数上。损失函数可以用于测量模型性能以及实际值与预测值之间的不一致性，模型性能随着损失函数的值的降低而增加。针对本申请实施例来说，这里的预测值指的是将所有第一训练图像块作为输入变量输入至卷积神经网络模型所得的每个第一训练图像块的分类类别和每个第一训练图像块的位置信息，实际值指的是每个第一训练图像块的实际分类类别和每个第一训练图像块的实际位置信息。本实施例中，损失函数可以为交叉熵损失函数、0-1损失函数、平方损失函数、绝对损失函数和对数损失函数等，可根据实际情况进行设定，在此不作限定。

通过在第一训练样本中加入易被误检的训练图片，如包含字幕的训练图片等，并将易被误检的训练图片分类类别设置为背景，从而降低了目标检测模型的误检率，进而也提升了目标检测模型的预测性能。

在上述技术方案的基础上，将所有第一训练图像块作为输入变量，所述所有第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型，可以包括：获取每个第一训练图像块的尺寸信息。对所有第一训练图像块的尺寸信息进行聚类分析，确定每个第一训练图像块的先验框。将所述所有第一训练图像块和所述所有第一训练图像块的先验框作为输入变量，所述所有第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型。

在本申请的实施例中，为了提升目标检测模型的预测性能，可在将每个训练图片划分为多个第一训练图像块后，获取每个第一训练图像块的尺寸信息，并对所有第一训练图像块的尺寸信息进行聚类分析来确定每个第一训练图像块的先验框，即通过聚类分析为每个第一训练图像块选择对应的先验框。聚类分析的基本思想是根据多个待分类的模式特征的相似程度进行分类，相似的归为一类，不相似的作为另一类。简单地说，相似就是两个特征矢量中对应的分量分别较接近。聚类分析包括两个基本内容，即模式相似性的度量和聚类算法。

将所有第一训练图像块的先验框也作为输入变量，参与到训练分类器模型的过程中，可以提高分类器模型预测每个第一训练图像块的位置信息的预测精度，进而提升了目标检测模型的预测性能。

在上述技术方案的基础上，可以通过如下方式训练水印识别模型：获取第二训练样本，第二训练样本包括训练视频和训练视频的分类类别。将训练视频的多个训练视频帧中的每个训练视频帧划分为多个第二训练图像块，得到所述每个训练视频帧对应的图像序列。将多个训练视频帧分别对应的多个图像序列输入至目标检测模型，得到每个第二训练图像块的分类结果，并根据所有第二训练图像块的分类结果得到训练视频特征向量。将训练视频特征向量作为输入变量，训练视频的分类类别作为输出变量，训练XGBoost模型，得到水印识别模型。

在本申请的实施例中，XGBoost模型是GBDT(Gradient Boosting Decision Tree，迭代提升决策树)模型的改进版本，XGBoost模型的基本思想是不断地降低残差，使先前的模型残差在梯度方向上进一步降低，综合多个基本学习器，进而得到强学习器。XGBoost模型的目标函数是一个二阶泰勒展开式，相比于一阶泰勒展开式，它的学习范围更广，泛化能力更强，使得模型的稳定性更高，同时在目标函数中增加了正则化项、阈值和系数。XGBoost模型可以有效避免过拟合的发生，通过L1或者L2正则优化目标函数，同时加入学习率在梯度范围内快速收敛到一值，使XGBoost模型能够寻找到最优值；添加阈值进行了剪枝来限制树的生成；添加系数对叶子节点的值做了平滑，防止过拟合。上述表明，XGBoost模型作为一种新型提升决策树模型，具有准确度高、运算速度快、可扩展性好以及可提取特征重要性等优点，能在保证一定速度的情况下提高水印识别精度。

一实施例中，训练视频的分类类别为1或者0，其中，1代表水印，0代表背景，通过将训练视频特征向量作为输入变量，训练视频的分类类别作为输出变量，训练XGBoost模型，可以得到水印识别模型。在使用该水印识别模型的过程中，针对输入的视频特征向量，可以得到与该视频特征向量对应的水印识别概率，水印识别概率的范围为[0，1]，水印识别概率越接近1，表示输入的视频特征向量对应的视频中存在水印的概率越高。

获取第二训练样本，第二训练样本包括训练视频和训练视频的分类类别，将训练视频的多个训练视频帧中的每个训练视频帧划分为多个第二训练图像块，得到所述每个训练视频帧对应的图像序列，并将多个训练视频帧分别对应的多个图像序列输入至目标检测模型，得到每个第二训练图像块的分类结果，并根据所有第二训练图像块的分类结果得到训练视频特征向量，再将训练视频特征向量作为输入变量，训练视频的分类类别作为输出变量，训练XGBoost模型，得到水印识别模型。

在上述技术方案的基础上，根据所有第二训练图像块的分类结果得到训练视频特征向量，可以包括：根据每个训练视频帧的每个第二训练图像块的多个分类结果确定所述每个第二训练图像块的水印分类结果。根据每个第二训练图像块的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量。根据多个训练视频帧分别对应的多个特征向量得到训练视频特征向量。

在本申请的实施例中，根据每个训练视频帧的每个第二训练图像块的多个分类结果确定所述每个第二训练图像块的水印分类结果，可作如下理解：第二训练图像块的分类结果可以包括第二训练图像块的分类类别、第二训练图像块的分类概率和第二训练图像块的位置信息，第二训练图像块的分类类别包括水印和背景，可将分类类别为水印的分类结果称为水印分类结果，可将分类类别为背景的分类结果称为背景分类结果。针对每个第二训练图像块来说，由于分类结果可能为水印分类结果，也可能为背景分类结果，目的确定视频是否包含水印，因此，可将水印分类结果认为是有效的分类结果。基于上述，根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量，即将每个第二训练图像块的分类结果为水印分类结果作为该第二训练图像块的备选分类结果，根据每个训练视频帧的所有第二训练图像块的备选分类结果得到所述每个训练视频帧对应的特征向量。

根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量，可以包括如下两种方式：

方式一、根据每个训练视频帧的多个第二训练图像块的包含水印的概率，对所述多个第二训练图像块的水印分类结果进行排序。从每个训练视频帧对应的排序结果中确定所述每个训练视频帧的特征向量。即针对每个训练视频帧，将每个第二训练图像块的分类结果为水印分类结果作为每个第二训练图像块的备选分类结果。根据多个第二训练图像块的备选分类结果中的分类概率，对多个第二训练图像块的备选分类结果按降序方式进行排序，并选取前U个备选结果得到该训练视频帧的特征向量。

方式二、根据每个训练视频帧的每个第二训练图像块的包含水印的概率，对所述每个第二训练图像块的水印分类结果进行排序。从每个训练视频帧的多个排序结果中选取部分水印分类结果进行排序。从每个视频帧对应的排序后的部分水印分类结果中确定所述每个训练视频帧的特征向量。即针对每个训练视频帧，将每个第二训练图像块的分类结果为水印分类结果作为每个第二训练图像块的备选分类结果。根据每个第二训练图像块的备选分类结果中的分类概率，对每个第二训练图像块的备选分类结果按降序方式进行排序，并选取前V个备选分类结果作为该第二训练图像块的目标分类结果。根据多个第二训练图像块的目标分类结果中的分类概率，对多个第二训练图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果得到该训练视频帧的特征向量，1<V<U。

在上述技术方案的基础上，根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量，可以包括：根据每个训练视频帧的多个第二训练图像块的包含水印的概率，对所述多个第二训练图像块的水印分类结果进行排序。从每个训练视频帧对应的排序结果中确定所述每个训练视频帧的特征向量。

在本申请的实施例中，根据每个训练视频帧的多个第二训练图像块的包含水印的概率，对所述多个第二训练图像块的水印分类结果进行排序，从每个训练视频帧对应的排序结果中确定所述每个训练视频帧的特征向量，可作如下理解：每个第二训练图像块的水印分类结果中所包括的分类概率即为包含水印的概率，根据每个训练视频帧的多个第二训练图像块的包含水印的概率，对所述多个第二训练图像块的水印分类结果按降序方式进行排序，可从每个训练视频帧对应的排序结果中选取前U个排序结果，根据前U个排序结果确定所述每个训练视频帧的特征向量。

示例性的，如对于训练视频V中的训练视频帧I _n，将训练视频帧I _n划分为M＝4个第二训练图像块，则I _n＝{I _n1，I _n2，I _n3，I _n4}，每个第二训练图像块包括T＝5个分类结果，则I _n1的分类结果可以表示为B _n1＝{b _n11，b _n12，b _n13，b _n14，b _n15}，I _n2的分类结果可以表示为B _n2＝{b _n21，b _n22，b _n23，b _n24，b _n25}，I _n3的分类结果可以表示为B _n3＝{b _n31，b _n32，b _n33，b _n34，b _n35}，I _n4的分类结果可以表示为B _n4＝{b _n41，b _n42，b _n43，b _n44，b _n45}。

将I _n1、I _n2、I _n3和I _n4的全部水印分类结果，根据包含水印的概率，按降序方式进行排序，排序结果为b _n11、b _n12、b _n13、b _n42、b _n43、b _n33、b _n31和b _n34，并选取前U＝4个水印分类结果b _n11、b _n12、b _n13和b _n42组成该训练视频帧的特征向量，即I _n＝{b _n11，b _n12，b _n13，b _n42}。

在上述技术方案的基础上，根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量，可以包括：根据每个训练视频帧的每个第二训练图像块的包含水印的概率，对所述每个第二训练图像块的水印分类结果进行排序。从每个训练视频帧对应的多个排序结果中选取部分水印分类结果进行排序。从每个视频帧对应的排序后的部分水印分类结果中确定所述每个训练视频帧的特征向量。

在本申请的实施例中，根据每个训练视频帧的每个第二训练图像块的包含水印的概率，对所述每个第二训练图像块的水印分类结果进行排序，从每个训练视频帧对应的多个排序结果中选取部分水印分类结果进行排序，从每个视频帧对应的排序后的部分水印分类结果中确定所述每个视频帧对应的训练视频帧的特征向量，可作如下理解：每个第二训练图像块的水印分类结果中所包括的分类概率即为包含水印的概率，根据每个训练视频帧的每个第二训练图像块的包含水印的概率，对所述每个第二训练图像块的水印分类结果按降序方式进行排序，从每个训练视频帧对应的多个排序结果中选取前V个水印分类结果作为目标水印分类结果，再对目标水印分类结果按降序方式进行排序，可从目标水印分类结果中选取前U个排序结果，根据前U个排序结果确定该训练视频帧的特征向量。

I _n1的水印分类结果为B _n1'＝{b _n11，b _n12，b _n13}，b _n11、b _n12和b _n13中包含的水印概率分别为0.9、0.8和0.7；I _n2的水印分类结果为0个；I _n3的水印分类结果B _n3'＝{b _n31，b _n33，b _n34}，b _n31、b _n33和b _n34中包含的水印概率分别为0.3、0.4和 0.2；I _n4的水印分类结果为B _n4'＝{b _n42，b _n43}，b _n42和b _n43中包含水印的概率分别为0.6和0.5。

对于每个第二训练图像块，选取前V＝2个水印分类结果作为该第二训练图像块的目标水印分类结果。即I _n1的目标水印分类结果为B _n1”＝{b _n11，b _n12}，b _n11和b _n12中包含水印的概率分别为0.9、0.8；I _n2的目标水印分类结果为0个；I _n3的目标水印分类结果B _n3”＝{b _n31，b _n33}，b _n31和b _n33中包含水印的概率分别为0.3和0.4；I _n4的目标水印分类结果为B _n4”＝{b _n42，b _n43}，b _n42和b _n43中包含水印的概率分别为0.6和0.5。

将I _n1、I _n2、I _n3和I _n4的全部目标水印分类结果，根据分类概率，按降序方式进行排序，排序结果为b _n11、b _n12、b _n42、b _n43、b _n33和b _n31，并选取前U＝4个目标水印分类结果b _n11、b _n12、b _n42和b _n43组成该训练视频帧的特征向量，即I _n＝{b _n11，b _n12，b _n42，b _n43}。

本申请实施例中可以通过独热编码(或称一位有效编码)来获取每个图像块的位置信息。独热编码是使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候，N个状态中只有一位有效。

由于视频是由至少两帧视频帧组成的，每个视频帧实质上是单张图片，因此，本申请实施例所提供的技术方案的思路同样适用于单张图片水印的识别：将图片划分为多个图像块，得到图片的图像序列。将图片的图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据多个图像块的分类结果得到图片特征向量。将图片特征向量输入至图片水印识别模型，得到图片水印识别模型输出的水印识别概率，在水印识别概率大于或等于概率阈值的情况下，确定图片包含水印。

在上述技术方案的基础上，根据多个图像块的分类结果得到图片特征向量，可以包括：根据图片的多个图像块中每个图像块的分类结果确定所述每个图像块的水印分类结果。根据多个图像块的水印分类结果，得到图片特征向量。

在上述技术方案的基础上，根据多个图像块的水印分类结果，得到图片特征向量，可以包括：根据多个图像块的包含水印的概率，对所述多个图像块的水印分类结果进行排序。从排序结果中确定图片特征向量。

在上述技术方案的基础上，可以通过如下方式训练图片水印识别模型：获取第三训练样本，所述第三训练样本包括多张第一训练图片和多张第一训练图片的分类类别。将每张第一训练图片划分为多个第三训练图像块，得到每张第一训练图片对应的图像序列。将多张第一训练图片分别对应的多个图像序列输入至目标检测模型，得到每个第三训练图像块的分类结果，并根据所有第三训练图像块的分类结果得到第一训练图片特征向量。将第一训练图片特征向量作为输入变量，第一训练图片的分类类别作为输出变量，训练XGBoost模型，得到图片水印识别模型。

在上述技术方案的基础上，根据多个第三训练图像块的分类结果得到第一训练图片特征向量，可以包括：根据每张第一训练图片的每个第三训练图像块的多个分类结果确定所述每个第三训练图像块的水印分类结果。根据每张第一训练图片的所有第三训练图像块的水印分类结果，得到所述每张第一训练图片对应的特征向量。

在上述技术方案的基础上，根据每张第一训练图片的所有第三训练图像块的水印分类结果，得到所述每张第一训练图片对应的特征向量，可以包括：根据每张第一训练图片的多个第三训练图像块的包含水印的概率，对所述多个第三训练图像块水印分类结果进行排序。从每张第一训练图片对应的排序结果中确定所述每张第一训练图片特征向量。

图4为本申请实施例提供的另一种视频水印的识别方法的流程图，本实施例可适用于提高视频水印的识别精度的情况，该方法可以由视频水印的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如配置于计算机或移动终端等中。如图4所示，该方法包括如下步骤：

步骤210、将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列。

步骤220、将所述多个视频帧分别对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果。

步骤230、根据每个视频帧的每个图像块的分类结果确定所述每个图像块的水印分类结果。

一实施例中，水印分类结果包括包含水印的概率。

步骤240、根据每个视频帧的多个图像块的包含水印的概率，对所述每个视频帧的多个图像块的水印分类结果进行排序。

步骤250、从每个视频帧对应的排序结果中确定所述每个视频帧的特征向量。

步骤260、根据所述多个视频帧分别对应的多个特征向量得到视频特征向量。

步骤270、将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率。

步骤280、判断水印识别概率是否大于或等于概率阈值；若水印识别概率大于或等于概率阈值，则执行步骤290；若水印识别概率小于概率阈值，则执行步骤2100。

步骤290、确定视频包含水印。

步骤2100、确定视频不包含水印。

在本申请的实施，为了理解本申请实施例所提供的技术方案，下面以示例进行说明。

如图5所示，给出了一种视频水印的识别方法的应用示意图。本实施例中，设定概率阈值为0.8。图5中视频包括两个视频帧，将每个视频帧划分为4个图像块，得到每个视频帧的图像序列，并将两个图像序列输入至目标检测模型中，得到每个图像块的分类结果，每个图像块有三个分类结果，分类结果中“1”表示水印，“0”表示背景，分类结果中分类概率用0-1之间的数值表示，根据每个视频帧的4个图像块的包含水印的概率，对4个图像块的水印分类结果按降序方式进行排序，从排序结果中选择前3个水印分类结果确定每个视频帧的特征向量，根据两个视频帧的特征向量得到视频特征向量，再将视频特征向量输入至水印识别模型，得到水印识别概率为0.9，由于水印识别概率大于概率阈值，则确定该视频包含水印。

本实施例的技术方案，通过将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列，将所述多个视频帧分别对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量，将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定视频包含水印，上述通过将视频帧分块处理得到图像块，增大了水印所占视频帧的比例，降低了视频水印的识别难度，并通过将多个视频帧分别对应的多个图像序列输入至目标检测模型中，得到多个视频帧对应的水印识别结果，再将多个视频帧对应的水印识别结果输入至水印识别模型中得到视频的水印识别结果，由于利用了多个视频帧对应的水印识别结果，因此，当水印位置不固定时，仍可准确识别视频中是否包含水印，从而提高了视频水印的识别精度。

图6为本申请实施例提供的另一种视频水印的识别方法的流程图，本实施例可适用于提高视频水印的识别精度的情况，该方法可以由视频水印的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如配置于计算机或移动终端等中。如图6所示，该方法包括如下步骤：

步骤3010、将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列。

步骤3020、将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果。

步骤3030、根据每个视频帧的每个图像块的分类结果确定所述每个图像块的水印分类结果。

一实施例中，水印分类结果包括包含水印的概率。

步骤3040、根据每个视频帧的多个图像块的包含水印的概率，分别对所述多个图像块的水印分类结果进行排序。

步骤3050、从每个视频帧对应的多个排序结果中选取部分水印分类结果进行排序。

步骤3060、从每个视频帧对应的排序结果后的部分水印分类结果中确定所述每个视频帧的特征向量。

步骤3070、根据所述多个视频帧分别对应的多个特征向量得到视频特征向量。

步骤3080、将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率。

步骤3090、判断水印识别概率是否大于或等于概率阈值；若水印识别概率大于或等于概率阈值，则执行步骤3100；若水印识别概率小于概率阈值，则执行步骤3110。

步骤3100、确定视频包含水印。

步骤3110、确定视频不包含水印。

在本申请的实施例中，在本申请的实施，为了理解本申请实施例所提供的技术方案，下面以示例进行说明。

如图7所示，图7给出了另一种视频水印的识别方法的应用示意图。其中，设定概率阈值为0.8。图7中视频包括两个视频帧，将每个视频帧划分为4个图像块，得到每个视频帧的图像序列，并将两个图像序列输入至目标检测模型中，得到每个图像块的分类结果，每个图像块有三个分类结果，分类结果中“1”表示水印，“0”表示背景，分类结果中分类概率用0-1之间的数值表示，根据每个视频帧的4个图像块的包含水印的概率，分别对4个图像块的水印分类结果按降序方式进行排序，分别从4个排序结果中选取前2个水印分类结果作为目标水印分类结果，再对8个目标水印分类结果按降序方式进行排序，可从8个目标水印分类结果中选取前3个排序结果，根据前3个排序结果确定每个视频帧的特征向量，根据两个视频帧的特征向量得到视频特征向量，再将视频特征向量输入至水印识别模型，得到水印识别概率为0.8，由于水印识别概率等于概率阈值，则确定该视频包含水印。

图8为本申请实施例提供的一种视频水印的识别装置的结构示意图，本实施例可适用于提高视频水印的识别精度的情况，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如配置于计算机或移动终端等中。如图8所示，该装置包括：

图像序列获取模块410，设置为将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列。

视频特征向量获取模块420，设置为将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量。

水印识别结果确定模块430，设置为将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定视频包含水印。

图9为本申请实施例提供的一种设备的结构示意图。图9示出了适于用来实现本申请实施方式的示例性设备512的框图。图9显示的设备512仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，设备512以通用计算设备的形式表现。设备512的组件可以包括但不限于：一个或者多个处理器516，系统存储器528，连接于不同系统组件(包括系统存储器528和处理器516)的总线518。

处理器516通过运行存储在系统存储器528中的程序，从而执行多种功能应用以及数据处理，例如实现本申请实施例所提供的一种视频水印的识别方法，包括：将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列。将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量。将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定视频包含水印。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现如本申请实施例所提供的一种视频水印的识别方法，该方法包括：将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列。将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量。将视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定视频包含水印。

Claims

一种视频水印的识别方法，包括：

将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列；

将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量；将所述视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定所述视频包含水印。
根据权利要求1所述的方法，其中，每个图像块的分类结果为多个；

所述根据所有图像块的分类结果得到视频特征向量，包括：

根据每个视频帧的每个图像块的多个分类结果确定所述每个图像块的水印分类结果；

根据每个视频帧的所有图像块的水印分类结果，得到所述每个视频帧对应的特征向量；

根据所述多个视频帧对应的多个特征向量得到视频特征向量。
根据权利要求2所述的方法，其中，所述水印分类结果包括包含水印的概率；

所述根据每个视频帧的所有图像块的水印分类结果，得到所述每个视频帧对应的特征向量，包括：

根据每个视频帧的多个图像块的包含水印的概率，对所述每个视频帧的多个图像块的水印分类结果进行排序；

从每个视频帧对应的排序结果中确定所述每个视频帧的特征向量。
根据权利要求2所述的方法，其中，所述水印分类结果包括包含水印的概率；

所述根据每个视频帧的所有图像块的水印分类结果，得到每个视频帧对应的特征向量，包括：在每个视频帧的一个图像块的水印分类结果为多个的情况下，根据所述每个视频帧的所述一个图像块的多个包含水印的概率，对所述一个图像块的多个水印分类结果进行排序；根据排序结果从所述每个视频帧的多个图像块的水印分类结果中选取部分水印分类结果进行排序；

从每个视频帧对应的排序后的部分水印分类结果中确定所述每个视频帧的特征向量。
根据权利要求1-4任一所述的方法，其中，通过如下方式训练所述目标检测模型：

获取第一训练样本，所述第一训练样本包括多张训练图片、所述多张训练图片的分类类别和所述多张训练图片的位置信息；

将所述多张训练图片中的每张训练图片划分为多个第一训练图像块，并根据每张训练图片的分类类别得到所述每张训练图片的每个第一训练图像块的分类类别以及根据每张训练图片的位置信息得到所述每张训练图片的每个第一训练图像块的位置信息；

将所有第一训练图像块作为输入变量，所述所有第一训图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型。
根据权利要求5所述的方法，其中，所述将所有第一训练图像块作为输入变量，所述所有第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型，包括：

获取每个第一训练图像块的尺寸信息；

对所有第一训练图像块的尺寸信息进行聚类分析，确定每个第一训练图像块的先验框；

将所述所有第一训练图像块和所述所有第一训练图像块的先验框作为输入变量，所述所有第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型。
根据权利要求1-6任一所述的方法，其中，通过如下方式训练所述水印识别模型：

获取第二训练样本，所述第二训练样本包括训练视频和所述训练视频的分类类别；

将所述训练视频的多个训练视频帧中的每个训练视频帧划分为多个第二训练图像块，得到所述每个训练视频帧对应的图像序列；

将所述多个训练视频帧对应的多个图像序列输入至所述目标检测模型，得到每个第二训练图像块的分类结果，并根据所有第二训练图像块的分类结果得到训练视频特征向量；

将所述训练视频特征向量作为输入变量，所述训练视频的分类类别作为输出变量，训练极限梯度提升Xgboost模型，得到所述水印识别模型。
根据权利要求7所述的方法，其中，每个第二训练图像块的分类结果为多个；

所述根据所有第二训练图像块的分类结果得到训练视频特征向量，包括：

根据每个训练视频帧的每个第二训练图像块的多个分类结果确定所述每个第二训练图像块的水印分类结果；

根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量；

根据所述多个训练视频帧对应的多个特征向量得到训练视频特征向量。
根据权利要求8所述的方法，其中，所述水印分类结果包括包含水印的概率；

所述根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量，包括：

根据每个训练视频帧的多个第二训练图像块的包含水印的概率，对所述每个训练视频帧的多个第二训练图像块的水印分类结果进行排序；

从每个训练视频帧对应的排序结果中确定所述每个训练视频帧的特征向量。
根据权利要求8所述的方法，其中，所述水印分类结果包括包含水印的概率；

所述根据每个训练视频帧的所有第二训练图像块的水印分类结果，得到所述每个训练视频帧对应的特征向量，包括：

在每个训练视频帧的一个第二训练图像块的水印分类结果为多个的情况下，根据所述每个训练视频帧的所述一个第二训练图像块的多个包含水印的概率，对所述一个第二训练图像块的多个水印分类结果进行排序；根据排序结果从所述每个训练视频帧的多个第二训练图像块的水印分类结果中选取部分水印分类结果进行排序；

从每个训练视频帧对应的排序后的部分水印分类结果中确定所述每个训练视频帧的特征向量。
一种视频水印的识别装置，包括：

图像序列获取模块，设置为将视频的多个视频帧中的每个视频帧划分为多个图像块，得到每个视频帧对应的图像序列；

视频特征向量获取模块，设置为将所述多个视频帧对应的多个图像序列输入至目标检测模型，得到每个图像块的分类结果，并根据所有图像块的分类结果得到视频特征向量；

水印识别结果确定模块，设置为将所述视频特征向量输入至水印识别模型，得到所述水印识别模型输出的水印识别概率，在所述水印识别概率大于或等于概率阈值的情况下，确定所述视频包含水印。
一种设备，包括：

至少一个处理器；

存储器，设置为存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-10任一所述的方法。
一种计算机可读存储介质，存储有计算机程序，所述程序被处理器执行时实现如权利要求1-10任一所述的方法。