WO2022037343A1

WO2022037343A1 - 一种视频信息处理方法、装置、电子设备及存储介质

Info

Publication number: WO2022037343A1
Application number: PCT/CN2021/106552
Authority: WO
Inventors: 束俊辉; 叶豪; 范湉湉
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-08-21
Filing date: 2021-07-15
Publication date: 2022-02-24
Also published as: EP4120122A4; EP4120122A1; CN111931678B; CN111931678A; US20230045726A1

Abstract

本申请提供了一种视频信息处理方法、装置、电子设备以及存储介质，方法包括：确定与视频对应的视频图像帧集合；确定视频图像帧集合中的图像帧所对应的静态拼接区域；根据静态拼接区域，对视频图像帧集合中的图像帧进行裁剪处理，并基于相应的裁剪结果确定图像特征向量；基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定第一视频与第二视频的相似度。

Description

一种视频信息处理方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请基于申请号为202010847943.3、申请日为2020年08月21日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及视频信息处理技术，尤其涉及视频信息处理方法、装置、电子设备及存储介质。

背景技术

传统技术条件下，视频信息的需求量呈现爆发式增长，传统的信息处理技术已无法应对数量众多的视频信息的相似度判断的需求。对视频之间的相似度进行描述对于人类来说非常简单，但对机器来说却是一项很难的任务，这需要机器能够跨越对图像理解的语义鸿沟，正确融合计算机视觉和自然语言处理这两项技术。

为此，引入了人工智能(AI，Artificial Intelligence)技术，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。在视频识别处理领域中，可以通过利用数字计算机或者数字计算机控制的机器实现对视频的识别。目前，该方向的研究受到了广泛的关注，能够实现在安防、家居、医疗、教学等领域的有效应用，但是这一过程中，也存在视频相似度识别的准确性较低的缺陷。

发明内容

本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种视频信息处理方法，由电子设备执行，所述方法包括：

确定与视频对应的视频图像帧集合；

确定所述视频图像帧集合中的图像帧所对应的静态拼接区域；

根据所述静态拼接区域，对所述视频图像帧集合中的图像帧进行裁剪处理，并基于相应的裁剪结果确定图像特征向量；

基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定所述第一视频与所述第二视频的相似度。

本申请实施例还提供了一种视频信息处理装置，包括：

信息传输模块，配置为确定与视频对应的视频图像帧集合；

信息处理模块，配置为：

本申请实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的视频信息处理方法。

本申请实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的视频信息处理方法。

附图说明

图1是本申请实施例提供的一种视频信息处理方法的使用环境示意图；

图2为本申请实施例提供的电子设备的组成结构示意图；

图3为本申请实施例提供的视频信息处理方法的流程示意图；

图4为本申请实施例中视频图像帧的动态拼接区域和静态拼接区域的示意图；

图5为本申请实施例中视频图像帧的动态拼接区域和静态拼接区域的示意图；

图6为本申请实施例中静态拼接区域的确定过程示意图；

图7A为本申请实施例中图像帧裁剪示意图；

图7B为本申请实施例中视频信息处理模型的处理过程示意图；

图8为本申请实施例提供的训练视频信息处理模型的流程示意图；

图9为本申请实施例中视频相似判断的过程示意图；

图10是本申请实施例提供的视频信息处理装置100的架构示意图；

图11是本申请实施例提供的区块链网络200中区块链的结构示意图；

图12是本申请实施例提供的区块链网络200的功能架构示意图；

图13为本申请实施例提供的视频信息处理方法的使用场景示意图；

图14为本申请实施例中视频信息处理方法的使用过程示意图；

图15为本申请实施例中视频信息处理方法进行图像裁剪的示意图；

图16为本申请实施例中视频信息处理方法进行图像裁剪的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)视频：泛指互联网中可获取的各种形式的视频信息。后文的第一视频和第二视频的命名不同仅是为了便于区分。

3)客户端：终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，功能如执行线上直播(视频推流)的功能或者是在线视频的播放功能。

4)动态拼接区域(视频动态区域)：视频在播放过程中随着时间轴推移而改变的画面区域，此部分是视频的主体内容。

5)静态拼接区域(视频静态区域)：视频在播放过程中随着时间轴推移不改变的画面区域。

6)信息流：按照特定规格样式的上下排布的一种内容组织形态。从展示排序角度而言，可以应用时间排序、热度排序或算法排序等方式。

7)图像特征向量：即图像01向量，是基于图像生成的二值化的特征向量。

8)动静拼接视频：视频在播放过程中存在部分不随着时间轴推移而改变的画面区域，即视频的图像帧同时包括动态拼接区域和静态拼接区域。

图1为本申请实施例提供的视频信息处理方法的使用场景示意图，参见图1，终端(如终端10-1和终端10-2)上设置有能够执行不同功能的客户端。终端(如终端10-1和终端10-2)可以利用客户端中的业务进程，通过网络300从相应的服务器200中获取不同的视频进行浏览，其中，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。其中，对终端(如终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的视频类型并不限定，例如：终端(如终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取视频(即视频中携带视频信息或相应的视频链接)，也可以通过网络300从相应的服务器200中获取仅包括文字或图像的相应视频进行浏览。服务器200可以保存有不同类型的视频。其中，本申请中不对不同类型的视频的编译环境进行区分。在这一过程中向用户的客户端推送的视频应该是版权合规的视频，因此对于数量众多的视频，需要判断哪些视频是相似的，并进一步地对相似视频的版权信息进行合规检测。

以短视频为例，本申请实施例可以应用于短视频播放，在短视频播放过程中通常会对不同数据来源的不同短视频进行处理，最终在用户界面(UI，User Interface)上呈现出与相应的用户相对应的待推荐视频，如果推荐的视频是版权不合规的盗播视频，则会对用户体验造成不良影响。用于视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到的向目标用户进行视频推荐的不同视频还可以供其他应用程序调用(例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标用户相匹配的视频信息处理模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

在一些实施例中，本申请实施例提供的视频信息处理方法可以由终端实现。例如，终端(如终端10-1和终端10-2)可以在本地实现视频信息处理的方案。

在一些实施例中，本申请实施例提供的视频信息处理方法可以由服务器实现。例如，服务器200可以实现视频信息处理的方案。

在一些实施例中，本申请实施例提供的视频信息处理方法可以由终端及服务器协同实现。例如，终端(如终端10-1和终端10-2)可以向服务器200发送请求，以请求服务器200实现视频信息处理的方案。服务器200可以将最终得到的待推荐视频发送至终端，以进行视频推荐。

下面对本申请实施例的电子设备的结构做详细说明，电子设备可以各种形式来实施，如带有视频信息处理功能的专用终端例如网关，也可以为带有视频信息处理功能的服务器，例如前述图1中的服务器200。图2为本申请实施例提供的电子设备的组成结构示意图，可以理解，图2仅仅示出了电子设备的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本申请实施例提供的电子设备包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本申请实施例中的存储器202能够存储数据以支持终端(如终端10-1和终端10-2)的操作。这些数据的示例包括：用于在终端(如终端10-1和终端10-2)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本申请实施例提供的视频信息处理装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的视频信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital Signal Processor)、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本申请实施例提供的视频信息处理装置采用软硬件结合实施的示例，本申请实施例所提供的视频信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本申请实施例提供的视频信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本申请实施例提供的视频信息处理装置采用硬件实施的示例，本申请实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个ASIC、DSP、PLD、CPLD、FPGA或其他电子元件执行实现本申请实施例提供的视频信息处理方法。

本申请实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括：用于在电子设备20上操作的任何可执行指令，如可执行指令，实现本申请实施例的视频信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本申请实施例提供的视频信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的视频信息处理装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括视频信息处理装置2020，视频信息处理装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当视频信息处理装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本申请实施例提供的视频信息处理方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令(可执行指令)，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例提供的视频信息处理方法。

将结合图2示出的电子设备20说明本申请实施例提供的视频信息处理方法，参见图3，图3为本申请实施例提供的视频信息处理方法的流程示意图，可以理解地，图3所示的步骤可以由运行视频信息处理装置的各种电子设备执行，例如可以是带有视频信息处理功能的专用终端、服务器或者服务器集群。下面针对图3示出的步骤进行说明。

步骤301：视频信息处理装置确定与视频对应的视频图像帧集合。

这里，获取视频，并确定与视频对应的视频图像帧集合。其中，视频图像帧集合可以包括视频中的部分图像帧，也可以包括视频中的所有图像帧。视频图像帧集合中的图像帧包括动态拼接区域和静态拼接区域。

例如，参考图4和图5，图4示出了一个视频中的不同图像帧，即图像帧41及图像帧42；图5示出了另一个视频中的不同图像帧，即图像帧51及图像帧52。在视频的播放过程中，随着时间轴推移而改变的画面区域即为动态拼接区域，此部分是视频的主体内容，可以用于判断视频之间是否相似。而视频在播放过程中随着时间轴推移不改变的画面区域即为静态拼接区域，当静态拼接区域的面积过大或者出现遮盖时，经常会造成对视频之间是否相似的误判。在图4和图5中，上部框线区域和下部框线区域为静态拼接区域，中部框线区域是动态拼接区域。通过图4和图5的示例可以发现，静态拼接区域的面积要占整个图像帧的面积的30％以上，可见视频中无用的静态拼接区域必然对于视频相似比对存在很大的干扰。本申请实施例可以对静态拼接区域进行识别及裁剪，将视频真正主体内容(动态拼接区域)剥离出来，从而使相似识别更加精准，将在后文进行阐述。

在本申请的一些实施例中，确定与视频对应的视频图像帧集合，可以通过以下方式实现：

对视频进行解析，得到视频的时序信息；根据视频的时序信息，对视频所对应的视频参数进行解析，得到与视频对应的播放时长参数与画面区域参数；基于视频对应的播放时长参数与画面区域参数，对视频进行抽取，得到视频对应的视频图像帧集合。

步骤302：视频信息处理装置确定视频图像帧集合中的图像帧所对应的静态拼接区域。

例如，对于视频图像帧集合中的每个图像帧，确定图像帧对应的静态拼接区域。

在本申请的一些实施例中，确定视频图像帧集合中的图像帧所对应的静态拼接区域，可以通过以下方式实现：

对视频图像帧集合中的图像帧进行灰度化处理；对经过灰度化处理的图像帧进行横向等间隔采样处理和纵向等间隔采样处理；确定图像帧的横向等间隔采样处理结果的时间维度方差和、以及图像帧的纵向等间隔采样处理结果的时间维度方差和；基于图像帧的横向等间隔采样处理结果的时间维度方差和，确定图像帧的静态拼接区域的纵向尺寸参数；基于图像帧的纵向等间隔采样处理结果的时间维度方差和，确定图像帧的静态拼接区域的横向尺寸参数。

例如，参考图6，图6为本申请实施例中静态拼接区域的确定过程示意图，其中，对视频图像帧集合中的动静拼接区域(包括动态拼接区域和静态拼接区域)进行的识别可以通过动静拼接识别定位模块(封装有动静识别算法)实现，其中，动静拼接识别定位模块可以基于动静识别算法进行图像帧的识别，该模块的输入是视频按时间顺序所抽取出的图像帧，输出是图像帧的静态拼接区域的纵向尺寸参数(如包括上方区域宽度和下方区域宽度)和横向尺寸参数(如包括左侧区域宽度和右侧区域宽度)。动静识别算法对图像帧进行处理的过程如图6所示，假设视频图像帧集合中的图像帧数量为n，且所有图像帧的尺寸参数相同(宽度即横向尺寸为w个像素，高度即纵向尺寸为h个像素)，则示例过程如下：1)灰度化处理：将图像帧转化为灰度图，为了便于表示，将视频图像帧集合中的所有图像帧对应的灰度图记作M _n×w×h；2)采样：对所有灰度图，横向等间隔采样k列像素，采样结果记作W _n×k×h；纵向也等间隔采样k行像素，采样结果记作H _n×w×k；3)计算时维方差和(即时间维度方差和)：计算W _n×k×h在第0维(即n维度)的方差，再沿第1维(即k维度)求和，结果向量记作var _n；同样地，计算H _n×w×k第0维的方差，再沿第2维求和，结果向量记作var _w；4)检测边距：对于var _h，分别自前往后、自后往前遍历，找到第一个时维方差和大于阈值T的位置top、bottom，并分别作为视频的静态拼接区域的上、下边距，其中，上边距即为上方区域宽度，下边距即为下方区域宽度；同样地，对于var _w，分别自前往后、自后往前遍历，找到第一个时维方差和大于阈值T的位置left、right，并分别作为视频的静态拼接区域的左、右边距，其中，左边距即为左侧区域宽度，右边距即为右侧区域宽度。

步骤303：视频信息处理装置根据静态拼接区域，对视频图像帧集合中的图像帧进行裁剪处理，并基于相应的裁剪结果确定图像特征向量。

例如，对于视频图像帧集合中的每个图像帧，根据步骤302所识别出的图像帧的静态拼接区域，对该图像帧进行裁剪处理。其中，裁剪处理是指裁剪掉图像帧中的静态拼接区域，如此，可以准确地分离静态拼接区域及动态拼接区域，即在裁剪结果(即裁剪后的图像帧)中仅保留动态拼接区域。

在本申请的一些实施例中，根据静态拼接区域，对视频图像帧集合中的图像帧进行裁剪处理，可以通过以下方式实现：

根据视频图像帧集合中的图像帧的尺寸参数、以及图像帧对应的静态拼接区域的尺寸参数，确定图像帧对应的动态拼接区域的尺寸参数；其中，尺寸参数包括纵向尺寸参数和横向尺寸参数；根据动态拼接区域的尺寸参数从图像帧中裁剪出动态拼接区域，以作为裁剪处理后的图像帧。

例如，参考图7A，图7A为本申请实施例中的图像帧裁剪示意图，其中，裁剪处理可以由运行裁剪算法的裁剪模块实现，示例过程如下：裁剪模块根据识别出的静态拼接区域，对图像帧进行裁剪。裁剪模块的输入是图像帧、识别出的静态拼接区域的尺寸参数(包括左边距left、上边距top、右边距right及下边距bottom)，裁剪模块的输出是裁剪后的图像帧(高度为heightC，宽度为widthC)，该裁剪后的图像帧仅包括动态拼接区域。

其中，可以将裁剪前的图像帧的宽度定义为width，高度定义为hight。将裁剪前的图像帧的左上角设为坐标轴的顶点(0，0)、该裁剪前的图像帧中的动态拼接区域的左上角坐标为(x ₀,y ₀)，该动态拼接区域的右下角坐标为(x ₁,y ₁)。则根据裁剪前的图像帧中的静态拼接区域的坐标(根据静态拼接区域的尺寸参数可以得到相应的坐标)，可计算得到动态拼接区域的坐标为：x ₀＝left，y _0＝top，x1＝width-right，y1＝height-bottom。

在本申请的一些实施例中，基于相应的裁剪结果确定图像特征向量：根据裁剪处理后的多个图像帧，构建新的视频图像帧集合，其中，新的视频图像帧集合中的图像帧包括区别于静态拼接区域的动态拼接区域；确定新的视频图像帧集合中的图像帧对应的图像特征向量。

例如，裁剪处理后的图像帧仅包括区别于静态拼接区域的动态拼接区域，可以根据裁剪处理后的所有图像帧构建新的视频图像帧集合，其中，新的视频图像帧集合中的图像帧的顺序可以与原始的视频图像帧集合中的图像帧的顺序一致。

对于新的视频图像帧集合中的每个图像帧来说，可以确定图像帧对应的图像特征向量。

在本申请的一些实施例中，确定新的视频图像帧集合中的图像帧对应的图像特征向量，可以通过以下方式实现：

通过视频信息处理模型的卷积层和最大值池化层对新的视频图像帧集合中不同图像帧交叉进行处理，得到不同图像帧的降采样结果；通过视频信息处理模型的全连接层对降采样结果进行归一化处理，得到归一化结果；通过视频信息处理模型对归一化结果进行深度分解处理，得到与不同图像帧相匹配的图像特征向量。

例如，参考图7B，图7B为本申请实施例中视频信息处理模型的处理过程示意图，其中，可以通过向量化模型对新的视频图像帧集合中的图像帧进行01向量化，示例过程如下：将新的视频图像帧集合中的图像帧输入至视频信息处理模型，以将图像帧转化为通过01向量表示的图像特征向量。向量化模块的输入是新的视频图像帧集合中的图像帧，输出为1024维的01特征向量(x ₀,x ₁.....x ₁₀₂₃)xi∈{0，1}，该1024维的特征向量即为图像帧对应的图像特征向量(相匹配的图像特征向量)。

在此之前，可以对视频信息处理模型进行训练。作为示例，参见图8，图8为本申请实施例提供的训练视频信息处理模型的流程示意图，可以理解地，图8所示的步骤可以由运行视频信息处理装置的各种电子设备执行，例如可以是如带有视频信息处理功能的专用终端、服务器或者服务器集群，其中，经过训练的视频信息处理模型可以部署在服务器中，用于对终端(客户端)上传的视频的相似性进行检测，从而确定是否对视频的版权信息进行合规检测，当然，经过训练的视频信息处理模型也可以部署在终端中。将结合图8示出的各个步骤进行说明。

步骤801：获取第一训练样本集合，其中第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本。

步骤802：对第一训练样本集合进行去噪处理，得到相应的第二训练样本集合。

在本申请的一些实施例中，还可以对第二训练样本集合进行负例处理，得到与第二训练样本集合相对应的负例样本集合，其中，负例样本集合用于调整视频信息处理模型的网络参数；根据负例样本集合确定相应的边缘损失函数值，其中，边缘损失函数值用于作为监督参数对视频信息处理模型的处理结果进行评价。其中，本申请实施例的视频信息处理模型可以基于Siamese框架构建，从而避免分类网络存在的线性变换矩阵参数量随类别数线性增加，且所学习的特征对于开集问题判别能力不足等问题。

其中，在视频信息处理模型的训练阶段，所使用的正样本对可以包括视频信息处理过程中的真实重复图像、重复视频抽帧图、以及图像经过不同的数据增强处理得到的图像对中的至少之一，可以将相同分类和随机匹配的图像对作为负样本对，采用边缘损失函数(margin based loss)训练，边缘损失函数在保持阈值判断的同时，拥有triplet loss的灵活性。进一步地，为解决海量存储和快速匹配的业务要求，可以借鉴Hash Net思想，网络采用随训练过程逐渐逼近符号函数的激活方式，如此，既避免了训练初期神经元处于饱和区无法反向传播学习的困境，又避免了图像特征向量直接二值化量化所导致的误差大的问题。在降低32倍存储开销和距离计算速度加快300倍的情况下，准确率仅下降1.8％。当然在本申请的一些实施例中，还可以采用multi-task多任务学习的训练方式，多域学习，并引入GAN loss等优化，进一步提升模型准确率和召回率。

其中，对第二训练样本集合进行负例处理，可以通过以下至少之一的方式来实现：

将视频信息处理模型中的图像特征向量进行随机组合，得到与第二训练样本集合相对应的负例样本集合；对视频信息处理模型的图像特征向量进行随机删除处理，得到与第二训练样本集合相对应的负例样本集合；对视频信息处理模型的图像特征向量进行替换处理，得到与第二训练样本集合相对应的负例样本集合。

步骤803：通过视频信息处理模型对第二训练样本集合进行处理，以确定视频信息处理模型的初始参数。

步骤804：响应于视频信息处理模型的初始参数，通过视频信息处理模型对第二训练样本集合进行处理，以确定视频信息处理模型的更新参数。

步骤805：根据视频信息处理模型的更新参数，通过第二训练样本集合对视频信息处理模型的网络参数进行迭代更新；其中，更新后的视频信息处理模型用于确定图像特征向量。

例如，经过训练的视频信息处理模型可以部署在电子设备中(例如可以是视频服务器或者用于视频相似度判断的云服务器)，以便继续执行后续步骤304，实现对视频相似度的判断。

步骤304：视频信息处理装置基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定第一视频与第二视频的相似度。

这里，对于任意两个视频来说(分别命名为第一视频和第二视频)，可以基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定第一视频与第二视频之间的相似度。其中，视频对应的图像特征向量是指视频中的图像帧对应的图像特征向量。

其中，视频对应的图像特征向量可以预先计算，并保存在相应的视频服务器中，例如通过版权信息验证的视频；当然，视频对应的图像特征向量也可以实时计算，例如接收到的用户上传的视频。

在本申请的一些实施例中，基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定第一视频与第二视频的相似度，可以通过以下方式实现：

根据第一视频对应的视频图像帧集合中的每个图像帧与第二视频对应的视频图像帧集合中的每个图像帧对应图像特征向量的相似度，确定对应的帧间相似度参数集合；根据帧间相似度参数集合确定达到相似度阈值的图像帧数量；基于达到相似度阈值的图像帧数量，确定第一视频与第二视频的相似度。

这里，可以针对第一视频对应的视频图像帧集合中的每个图像帧，分别确定图像帧与第二视频对应的视频图像帧集合中的每个图像帧在图像特征向量上的相似度。然后，根据得到的所有相似度构建帧间相似度参数集合。

举例来说，可以通过相似度计算模块来确定第一视频与第二视频的相似度，该相似度计算模块的输入是需要比较的图像特征向量，输出是两视频间的相似度simscore。例如，需要比对的一对图像特征向量分别为X＝(x ₀,x ₁.....x ₁₀₂₃)xi∈{0，1}和Y＝(y ₀,y ₁.....y ₁₀₂₃)yi∈{0，1}，则可以确定这两个图像特征向量之间的汉明距离sim _x,y，即sim _x,y＝Hamming(X,Y)，汉明距离越小，表示相似度越大。

设第一视频对应的视频图像帧集合中的图像帧数量为m，第二视频对应的视频图像帧集合中的图像帧数量为n，则通过计算图像帧之间的相似度，可以得到一个帧间相似度参数集合，为了便于理解，这里以汉明距离的参数集合{sim ₀₀，sim ₀₁,sim ₀₂,…,sim _m-1n-1}为例，其中，sim ₀₀表示第一视频对应的视频图像帧集合中的第一个图像帧与第二视频对应的视频图像帧集合中的第一个图像帧之间的汉明距离，以此类推。

根据帧间相似度参数集合确定相似度达到相似度阈值的图像帧数量(这里的图像帧数量可以是指图像帧对的数量)。基于达到相似度阈值的图像帧数量，可以确定第一视频与第二视频的相似度，其中，达到相似度阈值的图像帧数量越多，则第一视频与第二视频的相似度越大。

在本申请的一些实施例中，基于达到相似度阈值的图像帧数量，确定第一视频与第二视频的相似度，可以通过以下方式实现：

基于达到相似度阈值的图像帧数量、第一视频对应的视频图像帧集合中的图像帧数量、以及第二视频对应的视频图像帧集合中的图像帧数量，确定第一视频与第二视频的相似度。

例如，可以对第一视频对应的视频图像帧集合中的图像帧数量、以及第二视频对应的视频图像帧集合中的图像帧数量进行乘积处理，得到乘积结果。然后，将达到相似度阈值的图像帧数量除以该乘积结果，得到第一视频与第二视频的相似度。

以上述的用汉明距离表示的参数集合{sim ₀₀，sim ₀₁,sim ₀₂,…,sim _m-1n-1}为例，可以对该参数集合进行遍历处理，并确定遍历到的汉明距离是否小于指定阈值(小于指定阈值即为相似，该指定阈值根据实际业务场景而定)，得到最终相似图像个数C(即达到相似度阈值的图像帧数量)。最终第一视频与第二视频之间的相似度simscore可通过此公式计算得到：

继续参考图9，图9为本申请实施例中视频相似判断的过程示意图，具体包括：

步骤901：将输入的第一视频对应的视频图像帧集合记为A、第二视频对应的视频图像帧集合记为B。

步骤902：对A和B均进行静态拼接区域的识别。

步骤903：根据A对应的静态拼接区域对A进行裁剪处理，并将裁剪处理后的视频图像帧集合记为A'；根据B对应的静态拼接区域对B进行裁剪处理，并将裁剪处理后的视频图像帧集合记为B'。

步骤904：对A'中的所有图像帧进行01向量转化，得到XA集合(即A'中的所有图像帧分别对应的图像特征向量所构成的集合，以下同理)；对B'中的所有图像帧进行01向量转化，得到XB集合。

步骤905：根据XA集合和XB集合计算simscore，并根据simscore判断第一视频与第二视频之间是否相似，如果相似则执行步骤906，否则，执行步骤907。

步骤906：输出第一视频与第二视频相似。

步骤907：输出第一视频与第二视频不相似。

在本申请的一些实施例中，当确定第一视频与第二视频之间相似时，获取第一视频的版权信息和第二视频的版权信息；通过第一视频的版权信息和第二视频的版权信息，确定第一视频的合法性；当第一视频的版权信息和第二视频的版权信息不一致时，发出警示信息。

这里，当确定第一视频与第二视频之间相似时，证明可能存在版权侵权的风险，因此，可以获取第一视频的版权信息和第二视频的版权信息，并通过第一视频的版权信息和第二视频的版权信息确定第一视频的合法性。以第二视频默认合法为例，当第一视频的版权信息和第二视频的版权信息一致时，确定第一视频合法；当第一视频的版权信息和第二视频的版权信息不一致时，确定第一视频不合法。此外，当第一视频的版权信息和第二视频的版权信息不一致时，还可以发出警示信息。

当然，本申请实施例也可以在默认第一视频合法的前提下，确定第二视频的合法性。

在本申请的一些实施例中，当确定第一视频与第二视频之间不相似时，将第一视频添加至视频源；对视频源中的所有待推荐视频的召回顺序进行排序；基于待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

这里，当确定第一视频与第二视频之间不相似时，可以将第一视频添加至视频源，以作为视频源中的待推荐视频，当然，这里也可以将第二视频添加至视频源。在需要进行视频推荐时，可以对视频源中的所有待推荐视频的召回顺序进行排序，并基于待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

在本申请实施例中，考虑到视频的量级较大，因此，可以将视频的标识、版权信息及图像特征向量保存在区块链网络或者云服务器中，从而便于实现对视频相似性及合法性的判断。

在本申请的一些实施例中，还可以将视频的标识、视频对应的图像特征向量和视频的版权信息发送至区块链网络，以使区块链网络的节点将视频的标识、视频对应的图像特征向量和视频的版权信息填充至新区块，且当对新区块共识一致时，将新区块追加至区块链的尾部。

在本申请的一些实施例中，方法还包括：

接收区块链网络中的其他节点的数据同步请求；响应于数据同步请求，对其他节点的权限进行验证；当其他节点的权限通过验证时，控制当前节点与其他节点之间进行数据同步，以使其他节点获取视频的标识、视频对应的图像特征向量和视频的版权信息。

在本申请的一些实施例中，方法还包括：响应于查询请求，解析查询请求以获取对应的对象标识(如用户标识)；根据对象标识，获取区块链网络中的目标区块内的权限信息；对权限信息与对象标识的匹配性进行校验；当权限信息与对象标识相匹配时，在区块链网络中获取相应的视频的标识、视频对应的图像特征向量和视频的版权信息；将所获取的相应的视频的标识、视频对应的图像特征向量和视频的版权信息向相应的客户端进行推送，以使客户端获取区块链网络中所保存的相应的视频的标识、视频对应的图像特征向量和视频的版权信息。

继续参见图10，图10是本申请实施例提供的视频信息处理装置100的架构示意图，包括区块链网络200(包括多个共识节点，图10中示例性示出了共识节点210)、认证中心300、业务主体400和业务主体500，下面分别进行说明。

区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200，此时，成为区块链网络200中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络200的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程的可信和可追溯。

区块链网络200中的共识节点接收来自不同业务主体(例如前序实施中示出的业务主体400和业务主体500)的客户端节点(例如，前序实施例中示出的归属于业务主体400的客户端节点410、以及归属于数据库运营商系统的客户端节点510)提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现对视频的相关信息的管理为例，说明区块链网络的示例性应用。

参见图10，管理环节涉及的多个业务主体，如业务主体400可以是视频信息处理装置，业务主体500可以是带有视频信息处理功能的显示系统，从认证中心300进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。

业务主体400的客户端节点410用于将视频的标识、视频对应的图像特征向量和视频的版权信息发送至区块链网络，以使区块链网络的节点将视频的标识、视频对应的图像特征向量和视频的版权信息填充至新区块，且当对新区块共识一致时，将新区块追加至区块链的尾部。

其中，将相应的视频的标识、视频对应的图像特征向量和视频的版权信息发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，例如，以第一视频为例，当确定第一视频与第二视频不相似时，客户端节点410将待处理的第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息自动发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息，并将其发送至区块链网络200。在发送时，客户端节点410根据第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点210自己的数字签名(例如，使用共识节点210的私钥对交易的摘要进行加密得到)，并继续在区块链网络200中广播。

区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新待处理的第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息的交易，在状态数据库中添加包括第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息的键值对。

业务主体500的业务人员在客户端节点510中登录，输入针对第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息的查询请求，客户端节点510根据该查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名(例如，使用客户端节点510的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新某一视频的版权信息的交易，更新状态数据库中该视频的版权信息对应的键值对；对于提交的查询某个视频的版权信息的交易，从状态数据库中查询第一视频的标识、第一视频对应的图像特征向量和第一视频的版权信息对应的键值对，并返回交易结果。

值得说明的是，在图10中示例性地示出了将视频的标识、视频对应的图像特征向量和视频的版权信息直接上链的过程，但在另一些实施例中，对于视频的标识、视频对应的图像特征向量和视频的版权信息的数据量较大的情况，客户端节点410可将视频的标识、视频对应的图像特征向量和视频的版权信息的哈希进行成对上链，将视频的标识、视频对应的图像特征向量和视频的版权信息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到视频的标识、视频对应的图像特征向量和视频的版权信息后，可结合区块链网络200中对应的哈希进行校验，从而减少上链操作的工作量。

作为区块链的示例，参见图11，图11是本申请实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本申请实施例提供的区块链网络的示例性的功能架构，参见图12，图12是本申请实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网络200中的各个共识节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络200中共识节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现共识节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层202封装了区块链网络200中的共识节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证共识节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

由此，经过相似性识别的第一视频的版权信息可以保存在区块链网络中，当新的用户上传视频至视频服务器中时，视频服务器可以调用区块链网络中的版权信息(此时用户上传的第一视频可以作为第二视频)，对视频的版权合规性进行验证。

图13为本申请实施例提供的视频信息处理方法的使用场景示意图，参见图13，终端(如终端10-1和终端10-2)上设置有能够显示相应短视频的软件客户端，例如短视频播放的客户端或插件，用户通过相应的客户端可以获得视频并进行展示；终端通过网络300连接短视频服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。当然，用户也可以通过终端上传视频以供网络中的其他用户观看，这一过程中运营商的视频服务器需要对用户上传的视频进行检测，对不同的视频信息进行比对和分析，确定用户上传的视频版权是否合规，并对合规视频向不同的用户进行推荐，避免用户的短视频被盗播。

这一过程中，相关技术提供的方案至少存在如下问题：

a.两视频的动态拼接区域相似、静态拼接区域不相似，该类视频在信息流场景中需要判定为相似。受到视频的静态拼接区域的干扰，相关技术未对此类视频进行特殊识别，可能会判定此视频对为不相似。如果大量的此类重复视频在信息流推荐中出现，会导致用户体验不佳，遭到用户投诉。此外很多搬运号主为了逃避版权，对视频中的静态拼接区域做不同的贴片，从而逃避相似识别，如果根据相关技术提供的方案进行相似识别，则会导致版权方版权受损，造成严重的负面影响。

b.两视频的动态拼接区域不相似、静态拼接区域相似，该类视频在信息流场景中需要判定为不相似。受到视频的静态拼接区域的干扰，相关技术可能会判定此视频为相似，信息流业务中发表视频的号主发布了相同类型的特效视频(静态拼接区域相同)被误识别为相似后，会导致不被信息流进行视频推荐，使得号主收益、粉丝受到影响，从而引起号主的投诉，造成业务负面影响。

为了解决上述缺陷，本申请提供一种视频信息处理方法，下面对本申请所提供的视频信息处理方法的使用过程进行说明，其中，参考图14，图14为本申请实施例中视频信息处理方法的使用过程示意图，具体包括以下步骤：

步骤1401：获取两个不同的视频图像帧集合，并对不同视频图像帧集合中的静态拼接区域进行识别。

步骤1402：根据所识别的静态拼接区域对视频图像帧集合进行裁剪处理，得到新的视频图像帧集合。

步骤1403：将新的视频图像帧集合中的所有图像帧进行01向量转化，得到对应的特征向量集合(即图像特征向量的结合)，并基于特征向量集合进行相似判定，得到不同视频间的相似结果。

步骤1404：基于不同视频间的相似结果执行视频推荐或者警告处理。

参考图15和图16，图15为本申请实施例中视频信息处理方法进行图像裁剪的示意图，图16为本申请实施例中视频信息处理方法进行图像裁剪的示意图。

通过本申请所提供的视频信息处理方法，当两视频的动态拼接区域相似、静态拼接区域不相似时，这两个视频在信息流场景中可以判定为相似(如图16所示)，因此其中的某个视频可能会出现版权侵权，需要视频的上传用户提供的相应的版权证明，进行后续处理。进一步地，当两视频的动态拼接区域不相似、静态拼接区域相似时，这两个视频在信息流场景中可以判定为不相似(如图15所示)，可以均作为待推荐视频，并向网络中的不同用户进行视频推荐。

下面继续说明本申请实施例提供的视频信息处理装置2020实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器202的视频信息处理装置2020中的软件模块可以包括：信息传输模块2081，配置为确定与视频对应的视频图像帧集合；信息处理模块2082，配置为确定视频图像帧集合中的图像帧所对应的静态拼接区域；根据静态拼接区域，对视频图像帧集合中的图像帧进行裁剪处理，并基于相应的裁剪结果确定图像特征向量；基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定第一视频与第二视频的相似度。

在一些实施例中，信息传输模块2081，还配置为：对视频进行解析，得到视频的时序信息；根据视频的时序信息，对视频所对应的视频参数进行解析，得到与视频对应的播放时长参数与画面区域参数；基于视频对应的播放时长参数与画面区域参数，对视频进行抽取，得到视频对应的视频图像帧集合。

在一些实施例中，信息处理模块2082，还配置为：对视频图像帧集合中的图像帧进行灰度化处理；对经过灰度化处理的图像帧进行横向等间隔采样处理和纵向等间隔采样处理；确定图像帧的横向等间隔采样处理结果的时间维度方差和、以及图像帧的纵向等间隔采样处理结果的时间维度方差和；基于图像帧的横向等间隔采样处理结果的时间维度方差和，确定图像帧的静态拼接区域的纵向尺寸参数；基于图像帧的纵向等间隔采样处理结果的时间维度方差和，确定图像帧的静态拼接区域的横向尺寸参数。

在一些实施例中，信息处理模块2082，还配置为：根据裁剪处理后的多个图像帧，构建新的视频图像帧集合，其中，新的视频图像帧集合中的图像帧包括区别于静态拼接区域的动态拼接区域；确定新的视频图像帧集合中的图像帧对应的图像特征向量。

在一些实施例中，信息处理模块2082，还配置为：通过视频信息处理模型的卷积层和最大值池化层对新的视频图像帧集合中不同图像帧交叉进行处理，得到不同图像帧的降采样结果；通过视频信息处理模型的全连接层对降采样结果进行归一化处理，得到归一化结果；通过视频信息处理模型对归一化结果进行深度分解处理，得到与不同图像帧相匹配的图像特征向量。

在一些实施例中，信息处理模块2082，还配置为：根据视频图像帧集合中的图像帧的尺寸参数、以及图像帧对应的静态拼接区域的尺寸参数，确定图像帧对应的动态拼接区域的尺寸参数；其中，尺寸参数包括纵向尺寸参数和横向尺寸参数；根据动态拼接区域的尺寸参数从图像帧中裁剪出动态拼接区域，以作为裁剪处理后的图像帧。

在一些实施例中，信息处理模块2082，还配置为：获取第一训练样本集合，其中第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本；对第一训练样本集合进行去噪处理，得到相应的第二训练样本集合；通过视频信息处理模型对第二训练样本集合进行处理，以确定视频信息处理模型的初始参数；响应于视频信息处理模型的初始参数，通过视频信息处理模型对第二训练样本集合进行处理，以确定视频信息处理模型的更新参数；根据视频信息处理模型的更新参数，通过第二训练样本集合对视频信息处理模型的网络参数进行迭代更新；其中，更新后的视频信息处理模型用于确定图像特征向量。

在一些实施例中，信息处理模块2082，还配置为：对第二训练样本集合进行负例处理，得到与第二训练样本集合相对应的负例样本集合；根据负例样本集合确定相应的边缘损失函数值，其中，边缘损失函数值用于作为监督参数对视频信息处理模型的处理结果进行评价。

在一些实施例中，信息处理模块2082，还配置为：执行以下至少一种处理：将视频信息处理模型中的图像特征向量进行随机组合，得到与第二训练样本集合相对应的负例样本集合；对视频信息处理模型的图像特征向量进行随机删除处理，得到与第二训练样本集合相对应的负例样本集合；对视频信息处理模型的图像特征向量进行替换处理，得到与第二训练样本集合相对应的负例样本集合。

在一些实施例中，信息处理模块2082，还配置为：根据第一视频对应的视频图像帧集合中的每个图像帧与第二视频对应的视频图像帧集合中的每个图像帧对应图像特征向量的相似度，确定对应的帧间相似度参数集合；根据帧间相似度参数集合确定达到相似度阈值的图像帧数量；基于达到相似度阈值的图像帧数量，确定第一视频与第二视频的相似度。

在一些实施例中，信息处理模块2082，还配置为：基于达到相似度阈值的图像帧数量、第一视频对应的视频图像帧集合中的图像帧数量、以及第二视频对应的视频图像帧集合中的图像帧数量，确定第一视频与第二视频的相似度。

在一些实施例中，信息处理模块2082，还配置为：当根据相似度确定出第一视频与第二视频相似时，获取第一视频的版权信息和第二视频的版权信息；通过第一视频的版权信息和第二视频的版权信息，确定第一视频的合法性；当第一视频的版权信息和第二视频的版权信息不一致时，发出警示信息。

在一些实施例中，信息处理模块2082，还配置为：当根据相似度确定出第一视频与第二视频不相似时，将第一视频添加至视频源；对视频源中的所有待推荐视频的召回顺序进行排序；基于待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

在一些实施例中，信息处理模块2082，还配置为：将视频的标识、视频对应的图像特征向量和视频的版权信息发送至区块链网络，以使区块链网络的节点将视频的标识、视频对应的图像特征向量和视频的版权信息填充至新区块，且当对新区块共识一致时，将新区块追加至区块链的尾部。

在一些实施例中，信息处理模块2082，还配置为：接收区块链网络中的其他节点的数据同步请求；响应于数据同步请求，对其他节点的权限进行验证；当其他节点的权限通过验证时，控制当前节点与其他节点之间进行数据同步，以使其他节点获取视频的标识、视频对应的图像特征向量和视频的版权信息。

在一些实施例中，信息处理模块2082，还配置为：响应于查询请求，解析查询请求以获取对应的对象标识；根据对象标识，获取区块链网络中的目标区块内的权限信息；对权限信息与对象标识的匹配性进行校验；当权限信息与对象标识相匹配时，在区块链网络中获取视频的标识、视频对应的图像特征向量和视频的版权信息；将所获取的视频的标识、视频对应的图像特征向量和视频的版权信息发送至相应的客户端，以使客户端获取视频的标识、视频对应的图像特征向量和视频的版权信息。

本申请实施例至少具有以下技术效果：本申请通过区分视频的动态拼接区域和静态拼接区域，并进行裁剪处理，利用得到的图像特征向量判断视频的相似度，提升了视频相似度判断的准确性，减少了由于静态拼接区域的遮挡与覆盖所导致的对视频相似度的误判。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

一种视频信息处理方法，由电子设备执行，所述方法包括：

确定与视频对应的视频图像帧集合；

确定所述视频图像帧集合中的图像帧所对应的静态拼接区域；

根据所述静态拼接区域，对所述视频图像帧集合中的图像帧进行裁剪处理，并基于相应的裁剪结果确定图像特征向量；

基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定所述第一视频与所述第二视频的相似度。
根据权利要求1所述的方法，其中，所述确定与视频对应的视频图像帧集合，包括：

对所述视频进行解析，得到所述视频的时序信息；

根据所述视频的时序信息，对所述视频所对应的视频参数进行解析，得到与所述视频对应的播放时长参数与画面区域参数；

基于所述视频对应的播放时长参数与画面区域参数，对所述视频进行抽取，得到所述视频对应的视频图像帧集合。
根据权利要求1所述的方法，其中，所述确定所述视频图像帧集合中的图像帧所对应的静态拼接区域，包括：

对所述视频图像帧集合中的图像帧进行灰度化处理；

对经过灰度化处理的所述图像帧进行横向等间隔采样处理和纵向等间隔采样处理；

确定所述图像帧的横向等间隔采样处理结果的时间维度方差和、以及所述图像帧的纵向等间隔采样处理结果的时间维度方差和；

基于所述图像帧的横向等间隔采样处理结果的时间维度方差和，确定所述图像帧的静态拼接区域的纵向尺寸参数；

基于所述图像帧的纵向等间隔采样处理结果的时间维度方差和，确定所述图像帧的静态拼接区域的横向尺寸参数。
根据权利要求1所述的方法，其中，所述基于相应的裁剪结果确定图像特征向量，包括：

根据裁剪处理后的多个所述图像帧，构建新的视频图像帧集合，其中，所述新的视频图像帧集合中的图像帧包括区别于所述静态拼接区域的动态拼接区域；

确定所述新的视频图像帧集合中的图像帧对应的图像特征向量。
根据权利要求4所述的方法，其中，所述确定所述新的视频图像帧集合中的图像帧对应的图像特征向量，包括：

通过视频信息处理模型的卷积层和最大值池化层对所述新的视频图像帧集合中不同图像帧交叉进行处理，得到所述不同图像帧的降采样结果；

通过所述视频信息处理模型的全连接层对所述降采样结果进行归一化处理，得到归一化结果；

通过所述视频信息处理模型对所述归一化结果进行深度分解处理，得到与所述不同图像帧相匹配的图像特征向量。
根据权利要求1所述的方法，其中，所述根据所述静态拼接区域，对所述视频图像帧集合中的图像帧进行裁剪处理，包括：

根据所述视频图像帧集合中的图像帧的尺寸参数、以及所述图像帧对应的静态拼接区域的尺寸参数，确定所述图像帧对应的动态拼接区域的尺寸参数；其中，所述尺寸参数包括纵向尺寸参数和横向尺寸参数；

根据所述动态拼接区域的尺寸参数从所述图像帧中裁剪出所述动态拼接区域，以作为裁剪处理后的所述图像帧。
根据权利要求1-6任一项所述的方法，其中，所述方法还包括：

获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本；

对所述第一训练样本集合进行去噪处理，得到相应的第二训练样本集合；

通过视频信息处理模型对所述第二训练样本集合进行处理，以确定所述视频信息处理模型的初始参数；

响应于所述视频信息处理模型的初始参数，通过所述视频信息处理模型对所述第二训练样本集合进行处理，以确定所述视频信息处理模型的更新参数；

根据所述视频信息处理模型的更新参数，通过所述第二训练样本集合对所述视频信息处理模型的网络参数进行迭代更新；

其中，更新后的所述视频信息处理模型用于确定图像特征向量。
根据权利要求7所述的方法，其中，所述方法还包括：

对所述第二训练样本集合进行负例处理，得到与所述第二训练样本集合相对应的负例样本集合；

根据所述负例样本集合确定相应的边缘损失函数值，其中，所述边缘损失函数值用于作为监督参数对所述视频信息处理模型的处理结果进行评价。
根据权利要求8所述的方法，其中，所述对所述第二训练样本集合进行负例处理，包括：

执行以下至少一种处理：

将所述视频信息处理模型中的图像特征向量进行随机组合，得到与所述第二训练样本集合相对应的负例样本集合；

对所述视频信息处理模型的图像特征向量进行随机删除处理，得到与所述第二训练样本集合相对应的负例样本集合；

对所述视频信息处理模型的图像特征向量进行替换处理，得到与所述第二训练样本集合相对应的负例样本集合。
根据权利要求1-6任一项所述的方法，其中，所述基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定所述第一视频与所述第二视频的相似度，包括：

根据所述第一视频对应的视频图像帧集合中的每个图像帧与所述第二视频对应的视频图像帧集合中的每个图像帧对应所述图像特征向量的相似度，确定对应的帧间相似度参数集合；

根据所述帧间相似度参数集合确定达到相似度阈值的图像帧数量；

基于所述达到相似度阈值的图像帧数量，确定所述第一视频与所述第二视频的相似度。
根据权利要求10所述的方法，其中，所述基于所述达到相似度阈值的图像帧数量，确定所述第一视频与所述第二视频的相似度，包括：

基于所述达到相似度阈值的图像帧数量、所述第一视频对应的视频图像帧集合中的图像帧数量、以及所述第二视频对应的视频图像帧集合中的图像帧数量，确定所述第一视频与所述第二视频的相似度。
根据权利要求1-6任一项所述的方法，其中，所述方法还包括：

当根据所述相似度确定出所述第一视频与所述第二视频相似时，获取所述第一视频的版权信息和所述第二视频的版权信息；

通过所述第一视频的版权信息和所述第二视频的版权信息，确定所述第一视频的合法性；

当所述第一视频的版权信息和所述第二视频的版权信息不一致时，发出警示信息。
根据权利要求1-6任一项所述的方法，其中，所述方法还包括：

当根据所述相似度确定出所述第一视频与所述第二视频不相似时，将所述第一视频添加至视频源；

对所述视频源中的所有待推荐视频的召回顺序进行排序；

基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。
根据权利要求1-6任一项所述的方法，其中，所述方法还包括：

将所述视频的标识、所述视频对应的图像特征向量和所述视频的版权信息发送至区块链网络，以使

所述区块链网络的节点将所述视频的标识、所述视频对应的图像特征向量和所述视频的版权信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。
根据权利要求14所述的方法，其中，所述方法还包括：

接收所述区块链网络中的其他节点的数据同步请求；

响应于所述数据同步请求，对所述其他节点的权限进行验证；

当所述其他节点的权限通过验证时，控制当前节点与所述其他节点之间进行数据同步，以使所述其他节点获取所述视频的标识、所述视频对应的图像特征向量和所述视频的版权信息。
根据权利要求14所述的方法，其中，所述方法还包括：

响应于查询请求，解析所述查询请求以获取对应的对象标识；

根据所述对象标识，获取所述区块链网络中的目标区块内的权限信息；

对所述权限信息与所述对象标识的匹配性进行校验；

当所述权限信息与所述对象标识相匹配时，在所述区块链网络中获取所述视频的标识、所述视频对应的图像特征向量和所述视频的版权信息；

将所获取的所述视频的标识、所述视频对应的图像特征向量和所述视频的版权信息发送至相应的客户端，以使所述客户端获取所述视频的标识、所述视频对应的图像特征向量和所述视频的版权信息。
一种视频信息处理装置，所述装置包括：

信息传输模块，配置为确定与视频对应的视频图像帧集合；

信息处理模块，配置为：

确定所述视频图像帧集合中的图像帧所对应的静态拼接区域；

根据所述静态拼接区域，对所述视频图像帧集合中的图像帧进行裁剪处理，并基于相应的裁剪结果确定图像特征向量；

基于第一视频对应的图像特征向量和第二视频对应的图像特征向量，确定所述第一视频与所述第二视频的相似度。
一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至16任一项所述的视频信息处理方法。
一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现权利要求1至16任一项所述的视频信息处理方法。