WO2019233262A1

WO2019233262A1 - 视频处理方法、电子设备、计算机可读存储介质

Info

Publication number: WO2019233262A1
Application number: PCT/CN2019/087553
Authority: WO
Inventors: 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-06-08
Filing date: 2019-05-20
Publication date: 2019-12-12
Also published as: CN108830208A

Abstract

一种视频处理方法，包括：对视频中的图像进行场景识别，得到图像的场景标签，获取场景标签中包含输入的关键标签的目标图像，根据目标图像生成目标视频。

Description

视频处理方法、电子设备、计算机可读存储介质

相关申请的交叉引用

本申请要求于2018年06月08日提交中国专利局、申请号为2018105880010、发明名称为“视频处理方法和装置、电子设备、计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频处理方法、电子设备、计算机可读存储介质。

背景技术

随着计算机技术的发展，视频成为人们日常生活中的重要娱乐方式之一。

越来越多的人通过应用程序编辑视频，并将短视频通过网络分享到社交网站上。当人们想要上传以往拍摄的视频时，需要将视频进行剪辑为10s左右的短视频。

传统方法中，人们通过查看视频中的各图像进行筛选，可以将视频剪辑为10s左右的短视频。然而，目前的视频剪辑方法存在操作繁琐的问题。

发明内容

根据本申请的各种实施例，提供一种视频处理方法、电子设备、计算机可读存储介质。

一种视频处理方法，包括：

对视频中的图像进行场景识别，得到所述图像的场景标签；

获取所述场景标签中包含输入的关键标签的目标图像；及

根据所述目标图像生成目标视频。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作：

对视频中的图像进行场景识别，得到所述图像的场景标签；

获取所述场景标签中包含输入的关键标签的目标图像；及

根据所述目标图像生成目标视频。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

对视频中的图像进行场景识别，得到所述图像的场景标签；

获取所述场景标签中包含输入的关键标签的目标图像；及

根据所述目标图像生成目标视频。

本申请实施例提供的视频处理方法、电子设备、计算机可读存储介质，对视频中的图像进行场景识别，得到图像的场景标签，获取场景标签中包含输入的关键标签的目标图像，根据目标图像生成目标视频。由于可以根据输入的关键标签获取目标图像，生成目标视频，可以简化视频剪辑的操作。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个或多个实施例中电子设备的内部结构示意图。

图2为一个或多个实施例中视频处理方法的流程图。

图3为一个或多个实施例中生成目标视频的流程图。

图4为另一个或多个实施例中生成目标视频的流程图。

图5为又一个或多个实施例中生成目标视频的流程图。

图6为一个或多个实施例中生成目标视频的流程图。

图7为一个或多个实施例中神经网络的架构示意图。

图8为一个或多个实施例中视频处理装置的结构框图。

图9为一个或多个实施例中信息处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一时长称为第二时长，且类似地，可将第二时长称为第一时长。第一时长和第二时长两者都是时长，但其不是同一时长。

图1为一个实施例中电子设备的内部结构示意图。如图1所示，该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于电子设备的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种视频处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的电子设备进行通信。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

图2为一个实施例中视频处理方法的流程图。本实施例中的视频处理方法，以运行于图1中的电子设备上为例进行描述。如图2所示，视频处理方法包括操作202至操作206。

操作202，对视频中的图像进行场景识别，得到图像的场景标签。

视频是指电子设备上的任意视频。具体地，视频可以是电子设备通过摄像头采集的视频，也可以是存储在电子设备本地的视频，还可以是电子设备从网络下载的视频等。视频是由多帧静态图像组成的连续画面。电子设备对视频中的图像进行场景识别，具体地，电子设备可以随机获取视频的至少一帧图像进行场景识别，也可以根据预设条件获取视频中图像进行场景识别。例如，电子设备可以每隔预设帧获取一帧图像进行场景识别，也可以每隔预设时间间隔获取一帧图像进行场景识别等不限于此。

电子设备对视频中的图像进行场景识别，具体地，可以根据VGG(Visual Geometry Group，视觉几何组)、CNN(Convolutional Neural Network，卷积神经网络)、决策树(Decision Tree)、随机森林(Random forest)等深度学习算法训练场景识别模型，根据场景识别模型对图像进行场景识别。图像的场景可以是风景、海滩、蓝天、绿草、雪景、烟火、聚光灯、文本、人像、婴儿、猫、狗、美食等。图像的场景标签是指图像的场景分类标记。具体地，可以将图像的场景识别结果作为图像的场景标签。例如，当图像的场景识别结果为蓝天时，则图像的场景标签为蓝天。电子设备可以对视频中多帧图像进行场景识别，得到视频中各帧图像对应的场景标签。

操作204，获取场景标签中包含输入的关键标签的目标图像。

关键标签是指电子设备剪辑完成的目标视频中主要的场景标签。具体地，电子设备可以接收输入的关键标签，输入的关键标签可以是文字，也可以是图像、音频、视频等，电子设备可以将输入的图像、音频、视频等转化为文字作为关键标签。电子设备可以根据输入的关键标签，获取场景标签中包含输入的关键标签的目标图像。例如，当输入的关键标签为蓝天时，电子设备获取视频的图像中场景标签包含蓝天场景标签的图像，将该图像作为目标图像。在一个实施例中，电子设备还可以预存关键标签对应的场景标签，根据输入的关键标签确定对应的关键场景标签，获取图像的场景标签中包含该关键场景标签的目标图像。例如雪景场景标签的关键标签可以是雪、飘雪、雪景等，当电子设备接收输入的关键标签为雪或飘雪时，则电子设备可以获取场景标签中包含雪景的图像作为目标图像。输入的关键标签可以是一个也可以是多个，电子设备可以根据输入的关键标签同时包含多个关键标签的图像作为目标图像，也可以获取包含至少一个关键标签的图像作为目标图像。

电子设备可以获取输入的关键标签，根据关键标签搜索视频中包含该关键标签的图像，获取该场景标签中包含关键标签的图像作为目标图像。

操作206，根据目标图像生成目标视频。

目标视频是指对视频进行剪辑完成后的视频。电子设备可以直接将目标图像进行组成，生成目标视频；在限定时长的情况下，电子设备通过提高目标视频的帧率对目标视频进行压缩到限定时长，或从目标图像中获取更清晰或关键标签所在区域较大的目标图像生成目标视频。电子设备也可以将获取的目标图像提供给用户，获取用户选中的目标图像生成目标视频。电子设备还可以将视频中连续的目标图像作为预选片段，将预选片段提供给用户，获取用户选中的预选片段生成目标视频。

本申请实施例提供的视频处理方法，可以对视频中的图像进行场景识别，得到图像的场景标签，获取场景标签中包含输入的关键标签的目标图像，根据目标图像生成目标视频。由于可以获取包含输入的关键标签的目标图像，生成目标视频，不需要人工检索视频中的每一帧图像，简化了视频剪辑的操作。

如图3所示，在一个实施例中，提供的视频处理方法还包括操作302至操作306。其中，

操作302，提取目标图像在视频中的时间戳。

时间戳是指目标图像在视频中的时间点。具体地，电子设备可以根据视频的帧率和目标图像在视频中的序号得到。例如，当视频帧率为20帧每秒时，视频中的第2帧图像的时间戳为0.05s，第10帧图像为0.45s，第100帧图像为4.5s。电子设备根据提取的目标图像，获取目标图像在视频中对应的时间戳。

操作304，当相邻的两个目标图像的时间戳的差值小于阈值时，则判定相邻的两个目标图像为同一片段。

阈值可以根据视频帧率和实际需求来确定。例如，在帧率为20帧每秒的视频中，阈值可以是0.2s时，若相邻两帧目标图像的时间戳小于0.2s，则该相邻的两帧目标图像为同一片段，若相邻两帧目标图像的时间戳大于0.2s，则该相邻的两帧目标图像为不同片段；视频的阈值还可以是0.1s、0.15s、0.3s等不限于此。当相邻的两个目标图像的时间戳的差值小于阈值时，则判定相邻的两帧目标图像为同一片段，该片段包含相邻的两帧目标图像及两者之间的其他图像。

操作306，将片段时长大于第一预设时长的片段作为预选片段，根据预选片段生成目标视频。

第一预设时长可以根据实际需要来确定。例如第一预设时长可以是1s、2s、3s等不限于此。片段是指该片段中任意相邻的两帧目标图像的时间戳差值均小于阈值。片段时长是指该片段中首位两帧目标图像的差值。预选片段是指可用于生成目标视频的片段。电子设备可以检测各个片段的片段时长，筛选出片段时长大于第一预设时长的片段作为预选片段。电子设备根据预选片段生成目标视频，具体地，可以将预选片段提供给用户，由用户对预选片段进行编辑为目标视频，也可以是电子设备自动将预选片段组合生成目标视频。

电子设备通过提取目标图像在视频中的时间戳，根据相邻的两个目标图像的时间戳的差值判定相邻的两个目标图像是否为同一片段，可以避免因视频拍摄过程中产生跳变而引起片段中存在较多无效帧图像的情况，电子设备将片段时长大于第一预设时长的片段作为预选片段，将预选片段提供给用户剪辑或直接生成目标视频，可以简化视频剪辑的操作，提高视频剪辑的效率。

如图4所示，在一个实施例中，提供的视频处理方法中根据预选片段生成目标视频的过程还包括：

操作402，接收对预选片段的选中指令。

具体地，选中指令可以是用户点击显示屏上的按钮生成的，也可以是用户通过按压触摸屏上的控件生成。电子设备可以同时接收对至少一个预选片段的选中指令。电子设备可以在接收对预选片段的选中指令时，将预选片段标记为选中状态。

操作404，根据选中指令将选中的多个所述预选片段生成目标视频。

选中指令选中的预选片段可以是1个也可以是多个，电子设备可以将选中的1个或多个预选片段组成目标视频。电子设备将预选片段提供给用户进行剪辑，可以接收到用户对预选片段的选中指令，根据选中指令将选中的多个预选片段生成目标视频，可以简化视频剪辑的操作，提高视频剪辑的效率。

如图5所示，在一个实施例中，提供的视频处理方法中根据预选片段生成目标视频的过程还可以包括操作502至操作506。其中：

操作502，当预选片段大于第二预设时长时，检测预选片段中的目标图像中是否有人像标签。

第二预设时长是指目标视频的限定时长。具体地，第二预设时长可以是用户设定的目标视频时长，也可以是电子设备根据目标视频的应用场景确定的。例如，在限定了视频时长的为10s的视频网站中，当用户选择大于10s的视频准备上传到视频网站时，电子设备可以获取视频网站限定的视频时长即10s。目标图像中的人像标签可以有1个或多个。人像标签是指图像中存在人脸或人像，具体地，人脸可以是正脸、侧脸、人像可以正向拍摄、侧面拍摄、也可以是对背景进行拍摄等不限于此。电子设备在获取目标图像之前，已经对目标图像进行检测并获取目标图像的场景标签，因此，电子设备检测预选片段中的目标图像中是否有人像标签，可以直接获取预选片段中各目标图像对应的场景标签，当各目标图像对应的场景标签有至少一个人像标签时，则确定该预选片段中的目标图像中有人像标签。

操作504，当预选片段中的目标图像中有人像标签时，采用第二预设时长的遍历框遍历预选片段，检测第二预设时长的遍历框对应的子片段中人像标签的出现次数。

具体地，采用第二预设时长的遍历框遍历预选片段时，遍历的时间间隔可以根据实际需求来确定。例如，遍历的时间间隔可以是0.5s、1s、2s等，在此不做限定。人像标签的出现次数是指子片段中包含人像标签的目标图像数量。电子设备在遍历过程中检测第二预设时长的遍历框对应的子片段中人像标签的出现次数。例如，当预选片段的时长为20s，第二预设时长为10s时，电子设备可以采用10s的遍历框遍历该视频，当遍历间隔为1s时，电子设备可以获取遍历框对应的10个子片段，并检测10个子片段中人像标签的出现次数。

操作506，将人像标签的出现次数最多的子片段作为目标视频。

在日常生活中，人像是人们拍摄视频中的一个重要场景，电子设备从具有人像标签的预选片段中筛选出人像标签出现次数最多的子片段作为目标视频，更能体现目标视频的内容。同时，当预选片段的时长小于第二预设时长时，电子设备可以将1个或多个预选片段自动组成第二预设时长的目标视频；当预选片段大于第二预设时长时，电子设备可以将该大于第二预设时长的预选片段中筛选出第二预设时长的子片段作为目标视频，简化了视频剪辑的操作。

在一个实施例中，如图6所示，提供的视频处理方法中根据预选片段生成目标视频的过程还可以包括操作602至操作606。其中：

操作602，当预选片段大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，建立第二预设时长的遍历框对应的子片段的颜色直方图。

颜色直方图是指根据颜色分布情况构建的图形。电子设备可以在当预选片段的时长大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，根据第二预设时长的遍历框对应的子片段中目标图像的颜色分布情况建立该子片段对应的颜色直方图。具体地，电子设备可以提取子片段中目标图像的各个像素点的色彩参数，根据像素点的色彩参数确定像素点的颜色，统计各个目标图像中各种颜色的像素点个数，根据颜色及对应的像素点个数建立颜色直方图；也可以根据颜色对应的像素点个数与目标图像中所有像素点个数的比值得到该颜色的出现频率，根据子片段中目标图像的颜色及对应的出现频率建立颜色直方图。像素点的色彩参数可以采用RGB(Red、Green、Blue，红、绿、蓝)色彩空间来确定，也可以采用HSB(hue、saturation、brightness，色相、饱和度、明度)色彩空间确定，还可以采用HSL(hue、saturation、lightness，色相、饱和度、亮度)色彩空间来确定等。

在一个实施例中，电子设备可以采用HSB色彩空间来确定像素点的颜色，电子设备可以预存各种颜色在HSB色彩空间中的色彩参数范围，如黄色的参数范围为30<H<90，0.3<S<1，50<B<230、绿色的参数范围为：90<H<180，0.3<S<1，50<B<230、蓝色的参数范围为180<H<270，0.3<S<1，50<B<230等，则电子设备可以根据像素点的色彩参数确定像素点对应的颜色。例如，当目标图像中的A像素点的HSB色彩参数为H＝95、S＝0.2、B＝60时，则像素点A的色彩参数在绿色的色彩参数范围内，A像素点的颜色为绿色。

具体地，电子设备可以以颜色作为颜色直方图的横坐标，该子片段中该颜色的像素点个数作为颜色直方图的纵坐标建立颜色直方图，则电子设备根据颜色直方图可以得出该子片段中颜色的分布情况。

操作604，检测颜色直方图的离散程度。

颜色直方图的离散程度是指颜色直方图中，颜色的像素点个数之间的差异程度。离散程度越小，则子片段中各个颜色的像素点个数的差别越小，则子片段中各个颜色分布越均匀；离散程度越大，则子片段中各个颜色对应的像素点个数的差别越大，则子片段中各个颜色分布面积差别较大，子片段中出现大面积颜色相同的区域。电子设备可以计算颜色直方图的颜色像素点个数的极差、平均差、标准差或方差等多种方式对颜色直方图的离散程度进行检测。通过对颜色直方图的离散程度进行检测，电子设备可以得到视频中各个子片段的颜色直方图的离散程度。

操作606，将离散程度最小的颜色直方图对应的子片段作为目标视频。

颜色直方图的离散程度最小，则该颜色直方图对应的子片段中相比其他子片段各个颜色分布更均匀，即颜色更加丰富。通过在预选片段的时长大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，建立第二预设时长的遍历框对应的子片段的颜色直方图，根据颜色直方图将离散程度最小的颜色直方图对应的子片段作为目标视频，则得到的第二预设时长的目标视频为该视频中既包含输入的场景标签且颜色分布最丰富的片段。

在一个实施例中，提供的视频处理方法中对视频中的图像进行场景识别，得到图像的场景标签的过程还包括：对视频中的图像进行场景识别，得到视频中图像对应的多个场景标签。

电子设备可以训练可以输出多个场景标签的神经网络。具体地，在神经网络训练过程中，可以将包含多个训练标签的训练图像输入到神经网络中，神经网络对训练图像进行特征提取，对提取的图像特征进行检测得到图像中各个特征对应的预测置信度，根据特征的预测置信度和真实置信度得到损失函数，根据损失函数对神经网络的参数进行调整，使得训练的神经网络后续可同时识别图像的多个特征对应的场景标签，从而得到输出多个场景标签的神经网络。置信度是被测量参数的测量值的可信程度。真实置信度表示在该训练图像中预先标注的特征所属指定场景类别的置信度。

电子设备还可以训练可同时实现场景分类和目标检测的神经网络。具体地，在神经网络训练过程中，可以将包含有至少一个背景训练目标和前景训练目标的训练图像输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取，对背景训练目标进行检测得到第一预测置信度，根据第一预测置信度和第一真实置信度得到第一损失函数，对前景训练目标进行检测得到第二预测置信度，根据第二预测置信度和第二真实置信度得到第二损失函数，根据第一损失函数和第二损失函数得到目标损失函数，对神经网络的参数进行调整，使得训练的神经网络后续可同时识别出场景分类和目标分类，将场景分类和目标分类作为图像的场景标签，从而得到可以同时对图像的前景区域和背景区域进行检测的神经网络。置信度是被测量参数的量值的可信程度。该第一真实置信度表示在该训练图像中预先标注的背景图像所属指定图像类别的置信度。第二真实置信度表示在该训练图像中预先标注的前景目标所属指定目标类别的置信度。

在一个实施例中，上述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定场景类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定目标所对应的真实边界框的偏移量参数和所属指定目标类别的第二预测置信度。图7为一个实施例中神经网络的架构示意图。如图7所示，神经网络的输入层接收带有图像类别标签的训练图像，通过基础网络(如VGG网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层对图像进行类别检测得到第一损失函数，对前景目标根据图像特征进行目标检测得到第二损失函数，对前景目标根据前景目标进行位置检测得到位置损失函数，将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。神经网络包括数据输入层、基础网络层、场景分类网络层、目标检测网络层和两个输出层。数据输入层用于接收原始图像数据。基础网络层对输入层输入的图像进行预处理以及特征提取。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0，目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。图像数据进行特征提取，例如利用VGG16的前5层卷积层对原始图像进行特征提取，再将提取的特征输入到分类网络层和目标检测网络层。在分类网络层可采用如Mobilenet网络的深度卷积、点卷积对特征进行检测，然后输入到输出层得到图像场景分类所属指定图像类别的第一预测置信度，然后根据第一预测置信度与第一真实置信度求差得到第一损失函数；在目标检测网络层可采用如SSD网络，在VGG16的前5层的卷积层后级联卷积特征层，在卷积特征层使用一组卷积滤波器来预测指定目标类别所对应的预选默认边界框相对于真实边界框的偏移量参数和指定目标类别所对应的第二预测置信度。感兴趣区域为预选默认边界框的区域。根据偏移量参数构建位置损失函数，根据第二预测置信度与第二真实置信度的差异得到第二损失函数。将第一损失函数、第二损失函数和位置损失函数加权求和得到目标损失函数，根据目标损失函数采用反向传播算法调整神经网络的参数，对神经网络进行训练。

采用训练好的神经网络对图像进行识别时，神经网络输入层接收输入的图像，提取图像的特征，输入到分类网络层进行图像场景识别，在第一输出层通过softmax分类器输出背景图像所属各个指定场景类别的置信度，选取置信度最高且超过置信度阈值的图像场景作为该图像的背景图像所属的场景分类标签。将提取的图像的特征输入到目标检测网络层进行前景目标检测，在第二输出层通过softmax分类器输出前景目标所属指定目标类别的置信度及对应的位置，选取置信度最高且超过置信度阈值的目标类别作为该图像中前景目标所属的目标分类标签，并输出该目标分类标签对应的位置。将得到的场景分类标签和目标分类标签作为图像的场景标签。

在一个实施例中，提供的视频处理方法中对视频中的图像进行场景识别，得到图像的场景标签的过程还包括：从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像对应的场景标签。

具体地，预设帧可以是1帧、2帧、3帧等不限于此。例如，在一个10s的视频中，视频帧率为20帧每秒，若提取视频中的每一帧图像，需要提取200张图像进行场景识别，若根据预设帧对从视频中每间隔预设帧提取一帧图像，则当预设帧为1帧时，则电子设备每间隔一帧提取一帧图像也就是100张图像进行场景识别。电子设备根据预设帧对视频中每间隔预设帧提取一帧图像进行场景识别，可以极大地减少电子设备的工作量。

并且，电子设备可以根据检测结果获取目标图像，根据相邻目标图像的时间戳差值确定相邻目标图像处于同一片段，该片段时长大于第一预设时长的片段作为预先片段生成目标视频，不会因减少对图像的检测而过滤掉包含输入的场景标签的目标图像，既简化了视频剪辑的过程又提高了电子设备的工作效率。

在一个实施例中，提供了一种视频处理方法，实现该方法的具体操作如下所述：

首先，电子设备对视频中的图像进行场景识别，得到图像的场景标签。视频是由多帧静态图像组成的连续画面。电子设备对视频中的图像进行场景识别，具体地，电子设备可以随机获取视频的至少一帧图像进行场景识别，也可以根据预设条件获取视频中图像进行场景识别。电子设备对视频中的图像进行场景识别，具体地，可以根据VGG、CNN、决策树、随机森林等深度学习算法训练场景识别模型，根据场景识别模型对图像进行场景识别。

可选地，电子设备对视频中的图像进行场景识别，得到视频中图像对应的多个场景标签。电子设备可以训练可以输出多个场景标签的神经网络，具体地可以训练可同时实现场景分类和目标检测的神经网络。采用训练好的神经网络对图像进行识别时，神经网络输入层接收输入的图像，提取图像的特征，输入到分类网络层进行图像场景识别，在输出层得到图像特征所属指定分类的置信度及对应的位置，将置信度最高的目标类别作为图像特征所属的分类，将得到特征分类作为图像的场景标签。

可选地，电子设备从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像对应的场景标签。电子设备根据预设帧对视频中每间隔预设帧提取一帧图像进行场景识别，可以极大地减少电子设备的工作量。并且，电子设备可以根据检测结果获取目标图像，根据相邻目标图像的时间戳差值确定相邻目标图像处于同一片段，该片段时长大于第一预设时长的片段作为预先片段生成目标视频，不会因减少对图像的检测而过滤掉包含输入的场景标签的目标图像，既简化了视频剪辑的过程又提高了电子设备的工作效率。

接着，电子设备获取场景标签中包含输入的关键标签的目标图像。关键标签是指电子设备剪辑完成的目标视频中主要的场景标签。具体地，电子设备可以接收输入的关键标签，输入的关键标签可以是文字，也可以是图像、音频、视频等，电子设备可以将输入的图像、音频、视频等转化为文字作为关键标签。电子设备可以获取输入的关键标签，根据关键标签搜索视频中包含该关键标签的图像，获取该场景标签中包含关键标签的图像作为目标图像。

接着，电子设备根据目标图像生成目标视频。目标视频是指对视频进行剪辑完成后的视频。电子设备可以直接将目标图像进行组成，生成目标视频；电子设备也可以将获取的目标图像提供给用户，获取用户选中的目标图像生成目标视频。电子设备还可以将视频中连续的目标图像作为预选片段，将预选片段提供给用户，获取用户选中的预选片段生成目标视频。

可选地，电子设备提取目标图像在视频中的时间戳，当相邻的两个目标图像的时间戳的差值小于阈值时，则判定相邻的两个目标图像为同一片段，将片段时长大于第一预设时长的片段作为预选片段，根据预选片段生成目标视频。电子设备通过提取目标图像在视频中的时间戳，根据相邻的两个目标图像的时间戳的差值判定相邻的两个目标图像是否为同一片段，可以避免因视频拍摄过程中产生跳变而引起片段中存在较多无效帧图像的情况，电子设备将片段时长大于第一预设时长的片段作为预选片段，将预选片段提供给用户剪辑或直接生成目标视频，可以简化视频剪辑的操作，提高视频剪辑的效率。

可选地，电子设备接收对预选片段的选中指令，根据选中指令将选中的多个所述预选片段生成目标视频。电子设备可以同时接收对至少一个预选片段的选中指令。选中指令选中的预选片段可以是1个也可以是多个，电子设备可以将选中的1个或多个预选片段组成目标视频。电子设备将预选片段提供给用户进行剪辑，可以接收到用户对预选片段的选中指令，根据选中指令将选中的多个预选片段生成目标视频，可以简化视频剪辑的操作，提高视频剪辑的效率。

可选地，当预选片段大于第二预设时长时，电子设备检测预选片段中的目标图像中是否有人像标签，当预选片段中的目标图像中有人像标签时，采用第二预设时长的遍历框遍历预选片段，检测第二预设时长的遍历框对应的子片段中人像标签的出现次数，将人像标签的出现次数最多的子片段作为目标视频。

可选地，当预选片段大于第二预设时长时，电子设备采用第二预设时长的遍历框遍历预选片段，建立第二预设时长的遍历框对应的子片段的颜色直方图，检测颜色直方图的离散程度，将离散程度最小的颜色直方图对应的子片段作为目标视频。通过在预选片段的时长大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，建立第二预设时长的遍历框对应的子片段的颜色直方图，根据颜色直方图将离散程度最小的颜色直方图对应的子片段作为目标视频，则得到的第二预设时长的目标视频为该视频中既包含输入的场景标签且颜色分布最丰富的片段。

应该理解的是，虽然图1-6的流程图中的各个操作按照箭头的指示依次显示，但是这些操作并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些操作的执行并没有严格的顺序限制，这些操作可以以其它的顺序执行。而且，图1-6中的至少一部分操作可以包括多个子操作或者多个阶段，这些子操作或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子操作或者阶段的执行顺序也不必然是依次进行，而是可以与其它操作或者其它操作的子操作或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例的视频处理装置的结构框图。如图8所示，提供的视频处理装置中包括场景识别模块802，目标图像获取模块804，目标视频生成模块806。其中：

场景识别模块802，用于对视频中的图像进行场景识别，得到图像的场景标签。

目标图像获取模块804，用于获取场景标签中包含输入的关键标签的目标图像。

目标视频生成模块806，用于根据目标图像生成目标视频。

在一个实施例中，目标视频生成模块806还可以用于提取目标图像在视频中的时间戳，当相邻的两个目标图像的时间戳的差值小于阈值时，则判定相邻的两个目标图像为同一片段，将片段时长大于第一预设时长的片段作为预选片段，根据预选片段生成目标视频。

在一个实施例中，目标视频生成模块806还可以用于接收对预选片段的选中指令，根据选中指令将选中的多个所述预选片段生成目标视频。

在一个实施例中，目标视频生成模块806还可以用于当预选片段大于第二预设时长时，检测预选片段中的目标图像中是否有人像标签，当预选片段中的目标图像中有人像标签时，采用第二预设时长的遍历框遍历预选片段，检测第二预设时长的遍历框对应的子片段中人像标签的出现次数，将人像标签的出现次数最多的子片段作为目标视频。

在一个实施例中，目标视频生成模块806还可以用于当预选片段大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，建立第二预设时长的遍历框对应的子片段的颜色直方图，检测颜色直方图的离散程度，将离散程度最小的颜色直方图对应的子片段作为目标视频。

在一个实施例中，图像识别模块802还可以用于对视频中的图像进行场景识别，得到视频中图像对应的多个场景标签。

在一个实施例中，图像识别模块802还可以用于从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像对应的场景标签。

上述视频处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将视频处理装置按照需要划分为不同的模块，以完成上述视频处理装置的全部或部分功能。

关于视频处理装置的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。上述视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中提供的视频处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的操作。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行视频处理方法的操作。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行视频处理方法。

本申请实施例还提供一种电子设备。上述电子设备中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图9为一个实施例中图像处理电路的示意图。如图9所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图9所示，图像处理电路包括ISP处理器940和控制逻辑器950。成像设备910捕捉的图像数据首先由ISP处理器940处理，ISP处理器940对图像数据进行分析以捕捉可用于确定和/或成像设备910的一个或多个控制参数的图像统计信息。成像设备910可包括具有一个或多个透镜912和图像传感器914的照相机。图像传感器914可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器914可获取用图像传感器914的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器940处理的一组原始图像数据。传感器920(如陀螺仪)可基于传感器920接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器940。传感器920接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器914也可将原始图像数据发送给传感器920，传感器920可基于传感器920接口类型把原始图像数据提供给ISP处理器940，或者传感器920将原始图像数据存储到图像存储器930中。

ISP处理器940按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有9、10、12或14比特的位深度，ISP处理器940可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器940还可从图像存储器930接收图像数据。例如，传感器920接口将原始图像数据发送给图像存储器930，图像存储器930中的原始图像数据再提供给ISP处理器940以供处理。图像存储器930可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器914接口或来自传感器920接口或来自图像存储器930的原始图像数据时，ISP处理器940可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器930，以便在被显示之前进行另外的处理。ISP处理器940从图像存储器930接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器940处理后的图像数据可输出给显示器970，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器940的输出还可发送给图像存储器930，且显示器970可从图像存储器930读取图像数据。在一个实施例中，图像存储器930可被配置为实现一个或多个帧缓冲器。此外，ISP处理器940的输出可发送给编码器/解码器960，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器970设备上之前解压缩。编码器/解码器960可由CPU或GPU或协处理器实现。

ISP处理器940确定的统计数据可发送给控制逻辑器950单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜912阴影校正等图像传感器914统计信息。控制逻辑器950可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备910的控制参数及ISP处理器940的控制参数。例如，成像设备910的控制参数可包括传感器920控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜912控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜912阴影校正参数。

电子设备根据上述图像处理技术可以实现本申请实施例中所描述的视频处理方法。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种视频处理方法，包括：

对视频中的图像进行场景识别，得到所述图像的场景标签；

获取所述场景标签中包含输入的关键标签的目标图像；及

根据所述目标图像生成目标视频。
根据权利要求1所述的方法，其特征在于，还包括：

提取所述目标图像在所述视频中的时间戳；

当相邻的两个目标图像的时间戳的差值小于阈值时，则判定所述相邻的两个目标图像为同一片段；及

将片段时长大于第一预设时长的片段作为预选片段，根据所述预选片段生成目标视频。
根据权利要求2所述的方法，其特征在于，所述根据所述预选片段生成目标视频，包括：

接收对所述预选片段的选中指令；及

根据所述选中指令将选中的多个所述预选片段生成目标视频。
根据权利要求2所述的方法，其特征在于，所述根据所述预选片段生成目标视频，包括：

当所述预选片段大于第二预设时长时，检测所述预选片段中的目标图像中是否有人像标签；

当所述预选片段中的目标图像中有人像标签时，采用第二预设时长的遍历框遍历预选片段，检测所述第二预设时长的遍历框对应的子片段中人像标签的出现次数；及

将人像标签的出现次数最多的子片段作为目标视频。
根据权利要求2所述的方法，其特征在于，所述根据所述预选片段生成目标视频，包括：

当所述预选片段大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，建立所述第二预设时长的遍历框对应的子片段的颜色直方图；

检测所述颜色直方图的离散程度；及

将离散程度最小的颜色直方图对应的子片段作为目标视频。
根据权利要求1所述的方法，其特征在于，所述对视频中的图像进行场景识别，得到所述图像的场景标签，包括：

对视频中的所述图像进行场景识别，得到所述图像对应的多个场景标签。
根据权利要求6所述的方法，其特征在于，所述对视频中的所述图像进行场景识别，得到所述图像对应的多个场景标签，包括：

将视频中的所述图像输入至神经网络中；

通过所述神经网络对所述图像进行场景检测，得到所述图像的背景所属的场景分类标签；

通过所述神经网络对所述图像进行目标检测，得到所述图像的前景所属的目标分类标签；及

将所述场景分类标签和所述目标分类标签作为所述图像的场景标签。
根据权利要求1所述的方法，其特征在于，所述对视频中的图像进行场景识别，得到所述图像的场景标签，包括：

从所述视频中每间隔预设帧提取一帧图像，对提取的所述图像进行场景识别，得到所述图像对应的场景标签。
根据权利要求1所述的方法，其特征在于，所述获取所述场景标签中包含输入的关键标签的目标图像，包括：

获取与所述输入的关键标签对应的关键场景标签；及

将所述场景标签中包含所述关键场景标签的图像作为所述目标图像。
一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作:

对视频中的图像进行场景识别，得到所述图像的场景标签；

获取所述场景标签中包含输入的关键标签的目标图像；及

根据所述目标图像生成目标视频。
根据权利要求10所述的电子设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器还执行如下操作：

提取所述目标图像在所述视频中的时间戳；

当相邻的两个目标图像的时间戳的差值小于阈值时，则判定所述相邻的两个目标图像为同一片段；及

将片段时长大于第一预设时长的片段作为预选片段，根据所述预选片段生成目标视频。
根据权利要求11所述的电子设备，其特征在于，所述处理器执行所述根据所述预选片段生成目标视频时，还执行如下操作：

接收对所述预选片段的选中指令；及

根据所述选中指令将选中的多个所述预选片段生成目标视频。
根据权利要求11所述的电子设备，其特征在于，所述处理器执行所述根据所述预选片段生成目标视频时，还执行如下操作：

当所述预选片段大于第二预设时长时，检测所述预选片段中的目标图像中是否有人像标签；

当所述预选片段中的目标图像中有人像标签时，采用第二预设时长的遍历框遍历预选片段，检测所述第二预设时长的遍历框对应的子片段中人像标签的出现次数；及

将人像标签的出现次数最多的子片段作为目标视频。
根据权利要求11所述的电子设备，其特征在于，所述处理器执行所述根据所述预选片段生成目标视频时，还执行如下操作：

当所述预选片段大于第二预设时长时，采用第二预设时长的遍历框遍历预选片段，建立所述第二预设时长的遍历框对应的子片段的颜色直方图；

检测所述颜色直方图的离散程度；及

将离散程度最小的颜色直方图对应的子片段作为目标视频。
根据权利要求10所述的电子设备，其特征在于，所述处理器执行所述对视频中的图像进行场景识别，得到所述图像的场景标签时，还执行如下操作：

对视频中的所述图像进行场景识别，得到所述图像对应的多个场景标签。
根据权利要求15所述的电子设备，其特征在于，所述处理器执行所述对视频中的所述图像进行场景识别，得到所述图像对应的多个场景标签时，还执行如下操作：

将视频中的所述图像输入至神经网络中；

通过所述神经网络对所述图像进行场景检测，得到所述图像的背景所属的场景分类标签；

通过所述神经网络对所述图像进行目标检测，得到所述图像的前景所属的目标分类标签；及

将所述场景分类标签和所述目标分类标签作为所述图像的场景标签。
根据权利要求10所述的电子设备，其特征在于，所述处理器执行所述对视频中的图像进行场景识别，得到所述图像的场景标签时，还执行如下操作：

从所述视频中每间隔预设帧提取一帧图像，对提取的所述图像进行场景识别，得到所述图像对应的场景标签。
根据权利要求10所述的电子设备，其特征在于，所述处理器执行所述获取所述场景标签中包含输入的关键标签的目标图像时，还执行如下操作：

获取与所述输入的关键标签对应的关键场景标签；及

将所述场景标签中包含所述关键场景标签的图像作为所述目标图像。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的方法的操作。