WO2022134698A1

WO2022134698A1 - 视频处理方法及装置

Info

Publication number: WO2022134698A1
Application number: PCT/CN2021/120383
Authority: WO
Inventors: 徐宝函; 李佩易
Original assignee: 上海幻电信息科技有限公司
Priority date: 2020-12-22
Filing date: 2021-09-24
Publication date: 2022-06-30
Also published as: US20230252785A1; EP4207770A4; EP4207770A1; CN112738557A

Abstract

本申请提供视频处理方法及装置，其中，所述视频处理方法包括将接收的初始视频切分为至少一个视频片段；基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。所述视频处理方法通过将获取的视频的第一模态特征、第二模态特征以及第三模态特征进行融合，基于融合后获得的多模态特征对视频的高光视频片段进行识别时，通过该视频的多模态的全面的特征信息，精确的获得该视频的高光视频片段，增强用户体验。

Description

视频处理方法及装置

本申请要求于2020年12月22日提交中国专利局、申请号为202011531808.4、发明名称为“视频处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种视频处理方法。本申请同时涉及一种视频处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品。

背景技术

随着互联网的发展，人们通过网络平台观看视频、社交等需求日益增加。其中，视频网站的受众也越来越广泛，用户可以观看各类视频，并能实时与主播或者他人互动。在这个过程中，用户希望可以了解视频中的高光视频片段(例如精彩片段)，在观看实时直播或其他视频时，可以挑选自己更关注的视频片段。许多主播或视频上传者，也会希望在很长时间直播完成后，对直播视频中的高光视频片段进行后期的剪辑编辑；此外视频网站也希望可以通过高光视频片段的识别，为更多用户做更精准的视频推荐。

而现有技术中对于视频中的高光视频片段的提取精确度较差，很容易提取到与视频内容差别较大的视频片段，造成的用户体验不好。

发明内容

有鉴于此，本申请实施例提供了一种视频处理方法。本申请同时涉及一种视频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的对视频中的高光视频片段提取不精确的技术缺陷。

根据本申请实施例的第一方面，提供了一种视频处理方法，包括：

将接收的初始视频切分为至少一个视频片段；

基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；

将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。

根据本申请实施例的第二方面，提供了一种视频处理装置，包括：

视频切分模块，被配置为将接收的初始视频切分为至少一个视频片段；

特征提取模块，被配置为基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；

目标确定模块，被配置为将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述视频处理方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

根据本申请实施例的第五方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行如前所述视频处理方法的步骤。

本申请提供了所述视频处理方法及装置，其中，所述视频处理方法包括将接收的初始视频切分为至少一个视频片段；基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。具体的，所述视频处理方法通过将获取的视频的第一模态特征、第二模态特征以及第三模态特征进行融合，基于融合后获得的多模态特征对视频的高光视频片段进行识别时，通过该视频的多模态的全面的特征信息，精确的获得该视频的高光视频片段，增强用户体验。

附图说明

图1是本申请一实施例提供的一种视频处理方法的具体应用结构示意图；

图2是本申请一实施例提供的一种视频处理方法的流程图；

图3是本申请一实施例提供的一种应用于直播场景的视频处理方法的处理流程图；

图4是本申请一实施例提供的一种视频处理装置的结构示意图；

图5是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

MFCC：Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数。

VGGish：基于tensorflow的VGG模型，用于提取音频数据特征。

CNN：Convolutional Neural Networks，卷积神经网络。

MobileNet：专注于在移动设备和嵌入式设备上的轻量级CNN神经网络。

ResNet：残差网络，深度CNN神经网络。

word2vec：是一群用来产生词向量的相关模型。

bert：Bidirectional Encoder Representation from Transformers，双向 Transformer的Encoder(编码器)。

GBDT：Gradient Boosting Decision Tree，梯度提升决策树。

Attention：注意力机制模型。

高光片段：针对不同类型的视频可能存在不同的标准，如游戏视频中，高光片段可能是包含了击杀对手的片段；在比赛视频中，高光片段可能会是得分的片段；而在直播互动类视频中，高光片段可能包含了主播与观众互动的一些片段；因此，图片、音频、互动信息等都与高光片段时刻密切相关。

在本申请中，提供了一种视频处理方法。本申请同时涉及一种视频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本申请一实施例提供的一种视频处理方法的具体应用结构示意图。

具体的，本申请实施例提供的视频处理方法应用在电脑、服务器或者云端服务上。图1的应用场景中包括CPU(Central Processing Unit，中央处理器)/GPU(Graphics Processing Unit，图形处理器)101、数据存储模块103、预处理模块105、特征提取模块107、特征融合模块109以及精彩片段识别模型111；具体的，CPU/GPU101开始工作，获取数据存储模块103中存储的待处理视频，然后控制预处理模块105将该待处理视频切分为多个视频片段，然后将切分后的每个视频片段输入到特征提取模块107提取每个视频片段的多模态特征，例如语音特征、文本特征以及图像特征等；再将特征提取模块107提取的每个视频片段的多模态特征进行融合，以获得每个视频片段的总体特征，最后将每个视频片段的总体特征输入精彩片段识别模块109，精彩片段识别模块109中预先训练的模型对每个视频片段进行打分，根据该每个视频片段的打分结果获得得分较高的视频片段，将这些得分较高的视频片段作为精彩片段，展示、推荐给用户，或者用于辅助后续的视频编辑。

本申请中，通过获取的待处理视频的多模态特征对待处理视频的精彩片段进行识别，基于此种多模态的全面的视频信息，使得对待处理视频的精彩片段的识别更加全面、准确。

参见图2，图2示出了根据本申请一实施例提供的一种视频处理方法的流程图，具体包括以下步骤：

步骤202：将接收的初始视频切分为至少一个视频片段。

其中，初始视频可以是任意类型、任意时长的视频，例如初始视频可以包括娱乐视频、新闻视频或者是电视剧集视频等等。

具体的，服务器在接收到一个初始视频后，可以按照预设的切分方式将接收的初始视频切分为至少一个视频片段，实际应用中，可以按照视频帧的数量、预设切分时长等对初始视频进行切分；例如将初始视频切分为多个由30个视频帧组成的视频片段，或者是预设时长为6秒，那么则将初始视频切分为多个6秒时长的视频片段；但是对初始视频的切分方式包括但不限于以上两种方式，可以根据具体应用进行设置，本申请对此不做任何限定。

步骤204：基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征。

其中，第一模态特征、第二模态特征以及第三模态特征为三种不同模态的特征。

具体的，在将初始视频切分为多个视频片段之后，将每个视频片段输入到特征提取模型中，获得每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征，后续可以基于这三种模态特征更加精确的对初始视频中的精彩视频片段进行识别，具体实现方式如下所述：

所述基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征，包括：

基于第一特征提取模型获得所述至少一个视频片段中每个视频片段对应的音频特征；

基于第二特征提取模型获得所述至少一个视频片段中每个视频片段对应的图像特征；

基于所述第三特征提取模型获得所述至少一个视频片段中每个视频片段对应的结构化特征。

其中，基于模态的不同，所使用的特征提取模型也不相同，在第一模态特征、第二模态特征以及第三模态特征为三种不同模态的特征的情况下，第一特征提取模型、第二特征提取模型和第三特征提取模型也为三种不同的特征提取模型。

例如第一模态特征为音频特征的情况下，第一特征提取模型可以理解为音频特征提取模型；第二模态特征为图像特征的情况下，第二特征提取模型可以理解为图像特征提取模型；第三模态特征为结构化特征的情况下，第三特征提取模型可以理解为结构化特征提取模型。

具体实施时，将每个视频片段分别输入到音频特征提取模型、图像特征提取模型和结构化特征提取模型中，可以获得每个视频片段的音频特征、图像特征以及结构化特征，后续可以基于该音频特征、图像特征以及结构化特征等多模态特征，更加精确的对初始视频中的精彩视频片段进行识别。

具体的，所述基于第一特征提取模型获得所述至少一个视频片段中每个视频片段对应的音频特征，包括：

提取所述至少一个视频片段中每个视频片段中的音频信息；

将所述每个视频片段中的音频信息输入第一特征提取模型，获得所述每个视频片段对应的音频特征。

具体的，在第一模态特征为音频特征的情况下，首先提取每个视频片段中的音频信息，然后将该音频信息输入第一特征提取模型，可以获得每个视频片段中音频信息对应的音频特征。

其中，在第一模态特征为音频特征的情况下，第一特征提取模型可以为音频特征提取模型，例如预先训练的MFCC模型或VGGish模型。

本申请中，对每个视频片段中的音频信息进行提取，然后基于预先训练的音频特征提取模型准确的获得每个视频片段中音频信息对应的音频特征，后续可以将该准确的音频特征与其他模态的特征进行融合，以获得每个视频片段精确的得分。

可选的，所述音频信息包括视频画面对应的音频信息和非视频画面对应的音频信息；

相应的，所述将所述每个视频片段中的音频信息输入第一特征提取模型，获得所述每个视频片段对应的音频特征，包括：

将所述每个视频片段中的视频画面对应的音频信息输入第一特征提取模型，获得所述每个视频片段中的视频画面对应的音频特征；

将所述每个视频片段中的非视频画面对应的音频信息输入所述第一特征提取模型，获得所述每个视频片段中的非视频画面对应的音频特征；

将所述每个视频片段中的视频画面对应的音频特征和每个视频片段中的非视频画面对应的音频特征进行融合，获得所述每个视频片段对应的音频特征。

其中，视频画面对应的音频信息可以理解为视频主画面对应的音频信息，例如游戏画面中游戏角色的声音；而非视频画面对应的音频信息可以理解为非视频主画面对应的音频信息，例如视频中直播讲解人员的声音或者是视频画面中其他小窗视频的音频等。

实际应用中，若初始视频为直播场景下的视频，那么该初始视频中不仅会有视频画面的配音，还可能会有直播讲解人员的配音等，因此切分后的每个视频片段中可能会存在两种类型的音频信息，即视频画面对应的音频信息和非视频画面对应的音频信息，例如游戏直播场景下，视频画面对应的音频信息可以理解为游戏画面中游戏角色的声音，非视频画面对应的音频信息可以理解为游戏直播讲解人员的游戏讲解的声音。

那么为了保证每个视频片段中音频信息的音频特征的准确性，实际应用中，会将获取的每个视频片段中的这两种类型的音频信息分别经过第一特征提取模型进行音频特征的提取。

具体的，将每个视频片段中的视频画面对应的音频信息输入到第一特征提取模型，获得该视频片段对应的第一音频特征；然后将该视频片段中的非视频画面对应的音频信息输入到该第一特征提取模型，获得该视频片段对应的每个视频片段中的非视频画面对应的音频特征，最后将第一音频特征和每个视频片段中的非视频画面对应的音频特征进行融合，以获得该视频片段最终的音频特征；其中，第一特征提取模型可以为音频特征提取模型，例如预先训练的MFCC模型或VGGish模型。

实际应用中，初始视频中可以只包括视频配音，即视频画面对应的音频信息，此种情况下只需要对每段视频片段中的视频配音的音频特征进行提取即可，而若初始视频中包括视频配音和其他的额外配音的情况下，为了保证音频特征的完整且准确的提取，需要将每个视频片段中这两种类型的音频信息分别进行音频特征提取融合，以避免同时音频特征提取造成的特征混乱。

本说明书另一实施例中，所述基于第二特征提取模型获得所述至少一个视频片段中每个视频片段对应的图像特征，包括：

提取所述至少一个视频片段中每个视频片段的图像信息；

将所述图像信息输入第二特征提取模型，获得所述每个视频片段对应的图像特征。

具体的，在第二模态特征为图像特征的情况下，提取每个视频片段中的图像信息，然后将该图像信息输入第二特征提取模型，获得每个视频片段中图像信息对应的图像特征。

其中，在第二模态特征为图像特征的情况下，第二特征提取模型可以为图像特征提取模型，例如预先训练的MobileNet模型或ResNet模型。

本申请中，对每个视频片段中的图像信息进行提取，然后基于预先训练的图像特征提取模型准确的获得每个视频片段中图像信息对应的图像特征，后续可以将该准确的图像特征与其他模态的特征进行融合，以获得每个视频片段精确的得分。

可选的，所述图像信息包括视频画面和关键区域画面，所述第二特征提取模型包括第一图像特征提取模型和第二图像特征提取模型；

相应的，所述将所述图像信息输入第二特征提取模型，获得所述每个视频片段对应的图像特征，包括：

将所述视频画面输入第一图像特征提取模型，获得所述每个视频片段对应的第一图像特征；

将所述关键区域画面输入第二图像特征提取模型，获得所述每个视频片段对应的第二图像特征；

将所述每个视频片段对应的第一图像特征和第二图像特征融合，获得所述每个视频片段对应的图像特征。

实际应用中，初始视频的视频画面中可能包括但不限于关键区域信息(例如游戏视频中的比分区域、击杀区域等)以及每个视频帧的整体画面信息，因此切分后的每个视频片段的每个视频帧中也会包含这两种图像信息。

那么为了保证每个视频片段中图像信息的图像特征的全面性、准确性，实际应用中，会将获取的每个视频片段中的这两种类型的图像信息，分别通过不同的图像特征提取模型获得每种类型的图像信息对应的图像特征。

例如对于每个视频片段中每个视频帧的整体画面信息(即视频画面)通过CNN模型进行图像特征提取，对于每个视频片段中每个视频帧的关键区域信息(即关键区域画面)则会根据不同类型的视频，基于不同的图像特征提取模型进行图像特征提取，例如在游戏比分场景中，图像特征提取模型则可以是比分图像特征提取模型，通过该模型获取出每个视频片段中每个视频帧的比分区域的比分特征。

具体的，将每个视频片段的视频画面输入到第一图像特征提取模型，获得该视频片段对应的第一图像特征，然后将该视频片段的关键区域画面输入到第二图像特征提取模型，获得该视频片段对应的第二图像特征，最后将第一图像特征和第二图像特征进行融合，以获得该视频片段最终的图像特征。

实际应用中，初始视频中可以只包括视频画面，此种情况下只需要对每段视频片段中的视频画面的图像特征进行提取即可，而若初始视频中包括视频画面信息和与该初始视频的领域对应的关键区域画面的情况下，为了保证图像特征的完整且准确的提取，需要将每个视频片段中这两种类型的图像信息分别进行图像特征提取，以保证每个视频片段的图像特征的完整性和全面性。

可选的，所述图像信息包括视频画面、关键区域画面和主播图像，所述第二特征提取模型包括第一图像特征提取模型、第二图像特征提取模型和第三图像特征提取模型；

将所述视频画面输入第一图像特征提取模型，获得所述每个视频片段对应的视频画面特征；

将所述关键区域画面输入第二图像特征提取模型，获得所述每个视频片段对应的关键区域画面特征；

将所述第三图像信息输入第三图像特征提取模型，获得所述每个视频片段对应的主播图像特征；

将所述每个视频片段对应的视频画面特征、关键区域画面特征和主播图像特征进行融合，获得所述每个视频片段对应的图像特征。

实际应用中，若初始视频为直播场景下的视频，那么该初始视频中不仅会有视频画面、与该初始视频的领域相关的关键区域画面，还可能会包括直播讲解人员的面部图像等，因此切分后的每个视频片段中也会存在这三种类型的图像信息，即视频画面、关键区域画面和主播图像。

那么为了保证每个视频片段中图像信息的图像特征的全面性、准确性，实际应用中，会将获取的每个视频片段中的这三种类型的图像信息，分别通过不同的图像特征提取模型获得每种类型的图像信息对应的图像特征。

例如对于每个视频片段中每个视频帧的整体画面信息(即视频画面)通过CNN模型进行图像特征提取；对于每个视频片段中每个视频帧的关键区域信息(即关键区域画面)则会根据不同类型的视频，基于不同的图像特征提取模型进行图像特征提取，例如在游戏比分场景中，图像特征提取模型则可以是比分图像特征提取模型，通过该模型获取出每个视频片段中每个视频帧的比分区域的比分特征；而对于每个视频片段中每个视频帧的直播讲解人员的面部信息(即主播图像)，则可以根据预先通过人脸情绪训练的卷积神经网络进行图像特征提取。

具体的，将每个视频片段的视频画面输入到第一图像特征提取模型，获得该视频片段对应的视频画面特征，然后将该视频片段的关键区域画面输入到第二图像特征提取模型，获得该视频片段对应的关键区域画面特征，再将主播图像输入第三图像特征提取模型，获得该视频片段对应的主播图像特征，最后将视频画面特征、关键区域画面特征和主播图像特征进行融合，以获得该视频片段最终的图像特征。

实际应用中，初始视频中可以只包括视频画面信息，此种情况下只需要对每段视频片段中的视频画面的图像特征进行提取即可，而若初始视频中包括视频画面和与该初始视频的领域对应的关键区域画面的情况下，为了保证图像特征的完整且准确的提取，需要将每个视频片段中这两种类型的图像信息分别进行图像特征提取，以保证每个视频片段的图像特征的完整性和全面性；那么在初始视频中包括视频画面、与该初始视频的领域对应的关键区域画面以及直播讲解人员的图像的情况下，为了保证图像特征的完整且准确的提取，则需要将每个视频片段中这三种类型的图像信息分别进行图像特征提取，以保证每个视频片段的图像特征的完整性和全面性。

本说明书另一实施例中，所述基于所述第三特征提取模型获得所述至少一个视频片段中每个视频片段对应的结构化特征，包括：

提取所述至少一个视频片段中每个视频片段的结构化信息；

将所述结构化信息输入第三特征提取模型，获得所述每个视频片段对应的结构化特征。

其中，结构化信息包括但不限于文本信息、数值信息等，例如初始视频中的视频标题、评论信息、弹幕信息，若该初始视频为直播视频，则结构化信息还可能包括礼物信息、充值信息以及充值数量等等。

具体的，第三模态特征可以理解为结构化特征，那么在第三模态特征为结构化特征的情况下，提取每个视频片段中的结构化信息，然后将该结构化信息输入第三特征提取模型，获得每个视频片段中结构化信息对应的结构化特征。

其中，在第三模态特征为结构化特征的情况下，第三特征提取模型可以为结构化特征提取模型，例如预先训练的Word2vec模型或Bert模型。

本申请中，对每个视频片段中的结构化信息进行提取，然后基于预先训练的结构化特征提取模型准确的获得每个视频片段中结构化信息对应的结构化特征，后续可以将该准确的结构化特征与上述音频特征、图像特征进行融合，以获得每个视频片段精确的得分。

步骤206：将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。

具体实施时，可以将所述每个视频片段对应的第一模态特征(即音频特征)、第二模态特征(即图像特征)以及第三模态特征(即结构化特征)进行拼接，获得所述每个视频片段对应的目标视频特征，然后将该每个视频片段对应的目标视频特征输入到识别模型中，获得该每个视频片段对应的视频得分；还可以直接将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，在识别模型中进行降维、归一化、加权等处理后，直接输出该每个视频片段对应的视频得分。

其中，识别模型包括但不限于GBDT模型和基于Attention的深度神经网络模型等。

实际应用中，GBDT模型中提供了较为常用的特征融合算法，对输入的特征可以识别其重要程度，然后利用有标注的训练数据回归对应的视频片段的得分；而基于Attention的深度神经网络模型，则会通过训练数据同时训练不同模态特征的重要性的分布以及视频片段得分的回归，将训练好的识别模型存储在相应的设备上，在具体使用时，将提取到的视频片段对应的多模态特征输入到识别模型中，可以直接输出视频片段对应的视频得分。

本说明书另一实施例中，所述基于所述视频得分确定所述初始视频中的目标视频片段，包括：

将视频得分大于等于预设得分阈值的视频片段确定为所述初始视频中的目标视频片段。

其中，预设得分阈值可以根据实际需求进行设置，本申请对此不做任何限定，例如预设得分阈值可以为80分。

那么在预设得分阈值为80分的情况下，将视频得分大于等于80分的视频片段确定为初始视频中的目标视频片段。

实际应用中，对于目标视频片段还可以通过其他方式确定，例如根据视频得分对视频片段进行降序排序，然后选择排序靠前的三个、四个或者六个的视频片段作为目标视频片段。

本申请中，在获得初始视频中每个视频片段的视频得分后，基于每个视频片段的视频得分可以准确的获得初始视频中的目标视频片段，后续可以基于该目标视频片段进行视频推荐或者是视频集锦生成等。

具体实施时，所述将视频得分大于等于预设得分阈值的视频片段确定为所述初始视频中的目标视频片段之后，还包括：

基于所述目标视频片段生成目标视频，且将所述目标视频发送至用户。

具体的，在获得目标视频片段后，可以将该目标视频片段进行拼接，以生成目标视频，由于目标视频片段的视频得分均较高，里面包含吸引用户关注的内容较多，因此将该目标视频片段生成目标视频，将该目标视频发送给用户，可以增加用户对该目标视频的点击率和观看率，若该目标视频中存在广告的情况下，还可以极大的增加广告的曝光率等。

此外，本申请提供的所述视频处理方法应用在不同场景中，采用的模型也可以不同，例如若所述视频处理方法应用在直播场景的这种实时性较高的场景中，所述视频处理方法中的特征提取模型、识别模型等可以采用轻量级模型，以提高视频处理方法的整体处理速度；而若所述视频处理方法应用在后台处理时，则所述视频处理方法中的特征提取模型、识别模型等可以采用较为复杂的深度学习模型，以保证视频处理方法的精确度；具体实现方式如下所述：

所述方法，还包括：

根据所述视频处理方法所应用的场景，和/或所述视频处理方法的资源需求，确定所述特征提取模型和/或所述识别模型的类型信息。

例如所述视频处理方法应用在实时处理场景(如直播场景)，或者所述视频处理方法的资源需求小于等于预设资源阈值的情况下，可以采用一种类型的特征提取模型和/或识别模型(如轻量级的初始特征提取模型和/或识别模型)；其中，预设资源阈值可以根据实际需要进行设置，本申请不做任何限定。而在所述视频处理方法应用在后台处理场景(如直播结束后的场景)，或者所述视频处理方法的资源需求大于预设资源阈值的情况下，可以采用另一种类型的特征提取模型和/或识别模型。

实际应用中，在实时场景下，对于音频特征、图像特征、结构化特征以及特征融合等采用一种类型的模型；在后台场景下，对于音频特征、图像特征、结构化特征以及特征融合等采用另一种类型的模型，具体参见表1。

表1

由表1可以看出，所述视频处理方法应用于实时处理场景(如直播场景)，或者所述视频处理方法的资源需求小于等于预设资源阈值的情况下，音频特征提取模型可以为MFCC模型，所述视频处理方法应用于后台处理场景(如直播结束后的场景)，或者所述视频处理方法的资源需求大于预设资源阈值的情况下，音频特征提取模型可以为VGGish模型；所述视频处理方法应用于实时处理场景(如直播场景)，或者所述视频处理方法的资源需求小于等于预设资源阈值的情况下，图像特征提取模型可以为MobileNet模型，所述视频处理方法应用于后台处理场景(如直播结束后的场景)，或者所述视频处理方法的资源需求大于预设资源阈值的情况下，图像特征提取模型可以为ResNet模型；所述视频处理方法应用于实时处理场景(如直播场景)，或者所述视频处理方法的资源需求小于等于预设资源阈值的情况下，结构化特征提取模型可以为Word2vec模型，所述视频处理方法应用于后台处理场景(如直播结束后的场景)，或者所述视频处理方法的资源需求大于预设资源阈值的情况下，结构化特征提取模型可以为Bert模型；所述视频处理方法应用于实时处理场景(如直播场景)，或者所述视频处理方法的资源需求小于等于预设资源阈值的情况下，特征融合模型可以为GBDT模型，所述视频处理方法应用于后台处理场景(如直播结束后的场景)，或者所述视频处理方法的资源需求大于预设资源阈值的情况下，特征融合模型可以为Attention模型。

本申请中，所述视频处理方法通过将获取的视频的音频特征、图像特征以及结构化特征进行融合，基于融合后获得的多模态特征对视频的高光视频片段进行识别时，通过该视频的多模态的全面的特征信息，精确的获得该视频的高光视频片段，增强用户体验。

具体的，所述视频处理方法通过提取多路音频、多路视频以及结构化的信息的不同特征，进行特征融合，从而通过融合特征为当前视频的每个视频片段的精彩程度进行打分，最终可以准确、快速的识别出视频的高光视频片段；所述视频处理方法通过多模态特征融合，可以获得视频的全局信息，从而精确的获得视频的高光视频片段；此外，该方法可以针对不同的应用场景和/或资源需求进行不同的算法配置和部署，进而满足所述视频处理方法的处理速度和精度的需求。

参见图3，图3示出了本申请一实施例提供的一种应用于直播场景的视频处理方法的处理流程图，具体包括以下步骤。

步骤302：提取直播视频中的音频，获得该直播视频的音频特征。

具体的，对该直播视频中包含视频内容的音频和直播时视频上传者的音频进行提取，若该直播视频中不包含视频上传者的音频，则只提取视频内容的音频。音频内容与视频整体关联性很强，视频的高光视频片段往往伴随着视频本身较高的音调或者是视频上传者提高音量、发出笑声等。音频提取后，则可以通过MFCC、音量、音调等传统音频特征或者基于VGGish的深度神经网络提取对应音频特征。其中，VGGish是通过在大量音频数据进行分类预训练后，提供音频特征提取的模型。

步骤304：提取直播视频中的视频图像，获得该直播视频的图像特征。

具体的，视频图像包括视频整体画面、视频上传者画面以及关键区域信息。其中，视频整体画面包含了整个视频的特征，高光时刻往往伴随着丰富的色彩、内容等。而视频上传者画面大多是包含视频上传者的面部信息，其中情感的表达和波动则与高光时刻关联很大。而关键区域信息则指用户常关注的区域，通常高光时刻也与这些关键区域较为相关。如在游戏视频中，用户常关注比分区域、击杀提示区域，而在舞蹈等视频中，用户可能常常关注画面中部包含人物的区域。

在本申请中，视频整体画面特征通过ImageNet预训练的CNN卷积神经网络进行提取；视频上传者画面信息可以使用基于人脸情绪的预训练卷积神经网络进行特征提取；而关键区域信息则会根据不同类型的视频，训练不同的检测器，提取对应的特征，如比分信息特征、击杀信息特征、人体动作信息特征等。

步骤306：提取直播视频中的结构化信息，获得该直播视频的结构化特征。

具体的，视频中通常还包含了许多结构化的信息，如标题、评论、弹幕等信息，在直播视频中，还会包含礼物、充值等。这些结构化的信息也会与高光时刻相关，如评论内容、弹幕内容、弹幕数量、礼物数量等。针对这些结构化信息，本申请提出了针对标题、评论、弹幕等文字基于Word2vec或Bert的结构化特征提取。同时，针对弹幕数量、礼物数量、礼物价值、充值数量等数值信息可以归一化到[0,1]之间，同样作为结构化信息的特征提取。

步骤308：将该直播视频的音频特征、图像特征以及结构化特征进行特征融合。

具体的，在该直播视频的多模态特征提取完成后，本申请采用了特征级别的融合策略。特征融合时，将每个视频片段的特征汇总，通过降维和归一化操作后，可以使用传统的GBDT(Gradient Boosting Decision Tree)或基于Attention的深度神经网络的融合方式进行特征融合。具体来说，基于多棵决策树的GBDT算法是较为常用的特征融合算法，对输入特征可以识别其重要程度，利用有标注的训练数据(即提取准备好的视频片段与对应的精彩程度打分)回归对应片段的分数。而基于Attention的神经网络，则会通过训练数据同时训练不同模态重要性的分布以及片段分数的回归。将训练好的模型存储在相应设备上，当测试和使用时，提取对应视频片段特征，训练好的回归模型则会自动输出片段的打分，从而识别视频的精彩视频片段。

步骤310：输入该直播视频的精彩视频片段。

此外，本申请还可以根据不同场景和资源选择不同的算法配置。例如，在需要实时和计算力资源有限时，音频特征提取可以采用MFCC等传统特征；视频特征提取可以采用Mobilenet等轻量级网络，结构化特征提取可以采用Word2vec等较快的提取方式。

而在对实时性没有很高要求的后台环境下，音频特征、图像特征和结构化特征的提取可以采用基于深度神经网络的特征提取方式，以便输出更精确的结果。

本申请中，所述视频处理方法通过提取多路音频、多路视频以及结构化的信息的不同特征，进行特征融合，从而通过融合特征为当前视频的每个视频片段的精彩程度进行打分，最终可以准确、快速的识别出视频的高光视频片段；所述视频处理方法通过多模态特征融合，可以获得视频的全局信息，从而精确的获得视频的高光视频片段；此外，该方法可以针对不同的环境进行不同的算法配置和部署，进而满足处理速度和精度的需求。

与上述方法实施例相对应，本申请还提供了视频处理装置实施例，图4示出了本申请一实施例提供的一种视频处理装置的结构示意图。如图4所示，该装置包括：

视频切分模块402，被配置为将接收的初始视频切分为至少一个视频片段；

特征提取模块404，被配置为基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；

目标确定模块406，被配置为将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。

可选的，所述特征提取模块404，进一步被配置为：

提取所述至少一个视频片段中每个视频片段中的音频信息；

可选的，所述特征提取模块404，进一步被配置为：

提取所述至少一个视频片段中每个视频片段的图像信息；

可选的，所述特征提取模块404，进一步被配置为：

提取所述至少一个视频片段中每个视频片段的结构化信息；

相应的，所述特征提取模块404，进一步被配置为：

将所述每个视频片段对应的视频画面特征和关键区域画面特征融合，获得所述每个视频片段对应的图像特征。

相应的，所述特征提取模块404，进一步被配置为：

将所述主播图像输入第三图像特征提取模型，获得所述每个视频片段对应的主播图像特征；

相应的，所述特征提取模块404，进一步被配置为：

可选的，所述目标确定模块406，进一步被配置为：

可选的，所述装置，还包括：

目标视频生成模块，被配置为基于所述目标视频片段生成目标视频，且将所述目标视频发送至用户。

可选的，所述装置，还包括：

模型确定模块，被配置为根据所述视频处理方法所应用的场景，和/或所述视频处理方法的资源需求，确定所述特征提取模型和/或所述识别模型的类型信息。

本申请中，所述视频处理装置通过将获取的视频的第一模态特征、第二模态特征以及第三模态特征进行融合，基于融合后获得的多模态特征对视频的高光视频片段进行识别时，通过该视频的多模态的全面的特征信息，精确的获得该视频的高光视频片段，增强用户体验。

上述为本实施例的一种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的视频处理方法的技术方案属于同一构思，视频处理装置的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，所述处理器520执行所述指令时实现所述的视频处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本申请一实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行如前所述视频处理方法的步骤。

上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是，该计算机程序产品的技术方案与上述的视频处理方法的技术方案属于同一构思，计算机程序产品的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序产品代码，所述计算机程序产品代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序产品代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

一种视频处理方法，包括：

将接收的初始视频切分为至少一个视频片段；

基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；

将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。
根据权利要求1所述的视频处理方法，所述基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征，包括：

基于第一特征提取模型获得所述至少一个视频片段中每个视频片段对应的音频特征；

基于第二特征提取模型获得所述至少一个视频片段中每个视频片段对应的图像特征；

基于第三特征提取模型获得所述至少一个视频片段中每个视频片段对应的结构化特征。
根据权利要求1或2所述的视频处理方法，所述基于第一特征提取模型获得所述至少一个视频片段中每个视频片段对应的音频特征，包括：

提取所述至少一个视频片段中每个视频片段中的音频信息；

将所述每个视频片段中的音频信息输入第一特征提取模型，获得所述每个视频片段对应的音频特征。
根据权利要求2所述的视频处理方法，所述基于第二特征提取模型获得所述至少一个视频片段中每个视频片段对应的图像特征，包括：

提取所述至少一个视频片段中每个视频片段的图像信息；

将所述图像信息输入第二特征提取模型，获得所述每个视频片段对应的图像特征。
根据权利要求2或4所述的视频处理方法，所述基于所述第三特征提取模型获得所述至少一个视频片段中每个视频片段对应的结构化特征，包括：

提取所述至少一个视频片段中每个视频片段的结构化信息；

将所述结构化信息输入第三特征提取模型，获得所述每个视频片段对应的结构化特征。
根据权利要求4所述的视频处理方法，所述图像信息包括视频画面和关键区域画面，所述第二特征提取模型包括第一图像特征提取模型和第二图像特征提取模型；

相应的，所述将所述图像信息输入第二特征提取模型，获得所述每个视频片段对应的图像特征，包括：

将所述视频画面输入第一图像特征提取模型，获得所述每个视频片段对应的视频画面特征；

将所述关键区域画面输入第二图像特征提取模型，获得所述每个视频片段对应的关键区域画面特征；

将所述每个视频片段对应的视频画面特征和关键区域画面特征融合，获得所述每个视频片段对应的图像特征。
根据权利要求4或6所述的视频处理方法，所述图像信息包括视频画面、关键区域画面和主播图像，所述第二特征提取模型包括第一图像特征提取模型、第二图像特征提取模型和第三图像特征提取模型；

相应的，所述将所述图像信息输入第二特征提取模型，获得所述每个视频片段对应的图像特征，包括：

将所述视频画面输入第一图像特征提取模型，获得所述每个视频片段对应的视频画面特征；

将所述关键区域画面输入第二图像特征提取模型，获得所述每个视频片段对应的关键区域画面特征；

将所述主播图像输入第三图像特征提取模型，获得所述每个视频片段对应的主播图像特征；

将所述每个视频片段对应的视频画面特征、关键区域画面特征和主播图像特征进行融合，获得所述每个视频片段对应的图像特征。
根据权利要求3所述的视频处理方法，所述音频信息包括视频画面对应的音频信息和非视频画面对应的音频信息；

相应的，所述将所述每个视频片段中的音频信息输入第一特征提取模型，获得所述每个视频片段对应的音频特征，包括：

将所述每个视频片段中的视频画面对应的音频信息输入第一特征提取模型，获得所述每个视频片段中的视频画面对应的音频特征；

将所述每个视频片段中的非视频画面对应的音频信息输入所述第一特征提取模型，获得所述每个视频片段中的非视频画面对应的音频特征；

将所述每个视频片段中的视频画面对应的音频特征和非视频画面对应的音频特征进行融合，获得所述每个视频片段对应的音频特征。
根据权利要求1至8任意一项所述的视频处理方法，所述基于所述视频得分确定所述初始视频中的目标视频片段，包括：

将视频得分大于等于预设得分阈值的视频片段确定为所述初始视频中的目标视频片段。
根据权利要求9所述的视频处理方法，所述将视频得分大于等于预设得分阈值的视频片段确定为所述初始视频中的目标视频片段之后，还包括：

基于所述目标视频片段生成目标视频，且将所述目标视频发送至用户。
根据权利要求1至10任意一项所述的视频处理方法，还包括：

根据所述视频处理方法所应用的场景，和/或所述视频处理方法的资源需求，确定所述特征提取模型和/或所述识别模型的类型信息。
一种视频处理装置，包括：

视频切分模块，被配置为将接收的初始视频切分为至少一个视频片段；

特征提取模块，被配置为基于特征提取模型获得所述至少一个视频片段中每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征；

目标确定模块，被配置为将所述每个视频片段对应的第一模态特征、第二模态特征以及第三模态特征输入到识别模型，获得所述每个视频片段对应的视频得分，并基于所述视频得分确定所述初始视频中的目标视频片段。
一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现权利要求1至11任意一项所述方法的步骤。
一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行权利要求1至11任意一项所述方法的步骤。