WO2019233263A1

WO2019233263A1 - 视频处理方法、电子设备、计算机可读存储介质

Info

Publication number: WO2019233263A1
Application number: PCT/CN2019/087557
Authority: WO
Inventors: 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-06-08
Filing date: 2019-05-20
Publication date: 2019-12-12
Also published as: CN108777815A; CN108777815B

Abstract

一种视频处理方法，包括：从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像的场景标签及对应的置信度，根据图像的场景标签及对应的置信度建立标签频率直方图，根据标签频率直方图确定视频的视频标签。

Description

视频处理方法、电子设备、计算机可读存储介质

相关申请的交叉引用

本申请要求于2018年06月08日提交中国专利局、申请号为2018105859289、发明名称为“视频处理方法和装置、电子设备、计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频处理方法、电子设备、计算机可读存储介质。

背景技术

随着互联网技术的快速发展，视频成为人们日常生活中的重要娱乐方式之一。人们可以在电子设备根据视频标签浏览不同视频，当人们将视频上传到视频网站时需要对视频进行分类并添加视频标签，电子设备可以通过对视频进行识别后获取视频的视频标签。然而，传统技术中存在获取视频标签不准确的问题。

发明内容

根据本申请的各种实施例提供一种视频处理方法、电子设备、计算机可读存储介质。

一种视频处理方法，包括：

从视频中每间隔预设帧提取一帧图像，对提取的所述图像进行场景识别，得到所述图像的场景标签及对应的置信度；

根据所述图像的场景标签及对应的置信度建立标签频率直方图；及

根据所述标签频率直方图确定所述视频的视频标签。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作：

根据所述标签频率直方图确定所述视频的视频标签。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

根据所述标签频率直方图确定所述视频的视频标签。

本申请实施例提供的视频处理方法、电子设备、计算机可读存储介质，可以从视频中每个预设帧提取一帧图像，对提取的图像进行场景识别，得到图像的场景标签及对应的置信度，根据视频中各图像的场景标签及对对应的置信度建立标签频率直方图来确定视频的视频标签。由于可以根据视频中图像的场景标签建立标签频率直方图从而确定视频标签，可以提高视频标签的准确性。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个或多个实施例中电子设备的内部结构示意图。

图2为一个或多个实施例中视频处理方法的流程图。

图3为一个或多个实施例中神经网络的架构示意图。

图4为一个或多个实施例中建立标签频率直方图的流程图。

图5为另一个或多个实施例中建立标签频率直方图的流程图。

图6为一个或多个实施例中调整置信度的流程图。

图7为一个或多个实施例中视频处理方法的流程图。

图8为一个或多个实施例中视频处理装置的结构框图。

图9为一个或多个实施例中信息处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中电子设备的内部结构示意图。如图1所示，该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于电子设备的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种视频处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的电子设备进行通信。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

图2为一个实施例中视频处理方法的流程图。本实施例中的视频处理方法，以运行于图1中的电子设备上为例进行描述。如图2所示，视频处理方法包括操作202至操作206。

操作202，从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像的场景标签及对应的置信度。

视频是指电子设备上的任意视频。具体地，视频可以是电子设备通过摄像头采集的视频，也可以是存储在电子设备本地的视频，还可以是电子设备从网络下载的视频等。视频是由多帧静态图像组成的连续画面。预设帧可以根据实际应用需求来确定。具体地，预设帧可以根据视频帧率来确定，也可以根据视频时长来确定，还可以根据帧率和时长二者结合来确定。例如，预设帧可以为0帧，此时电子设备可以提取视频中的每一帧图像，对提取的图像进行场景识别。

电子设备可以根据VGG(Visual Geometry Group)、CNN(Convolutional Neural Network)、SSD(single shot multibox detector)、决策树(Decision Tree)等深度学习算法训练场景识别模型，根据场景识别模型对图像进行场景识别。具体地，电子设备可以训练可输出多个场景标签的神经网络。具体地，在神经网络训练过程中，可以将包含多个训练标签的训练图像或多张包含不同训练标签的训练图像输入到神经网络中，神经网络对训练图像进行特征提取，对提取的图像特征进行检测得到图像中各个特征对应的预测置信度，根据特征的预测置信度和真实置信度得到损失函数，根据损失函数对神经网络的参数进行调整，使得训练的神经网络后续可同时识别图像的多个特征对应的场景标签，从而得到输出多个场景标签的神经网络。置信度是被测量参数的测量值的可信程度。真实置信度表示在该训练图像中预先标注的特征所属指定场景类别的置信度。图像的场景可以是风景、海滩、蓝天、绿草、雪景、烟火、聚光灯、文本、人像、婴儿、猫、狗、美食等。

电子设备采用可输出多标签的神经网络对图像进行检测，具体地，神经网络输入层接收输入的图像，通过基础网路(如VGG网络)提取图像的特征，将提取的图像的特征输入到检测网络层进行场景检测，检测网络层可采用SSD网络、Mobilenet网络等对特征进行检测，在输出层通过softmax分类器输出特征所属类别的置信度及对应的位置，选取置信度最高且超过置信度阈值的目标类别作为图像中该特征所属的场景标签，从而输出图像中各个特征的场景标签及对应的置信度。

操作204，根据图像的场景标签及对应的置信度建立标签频率直方图。

标签频率直方图是指根据视频中各场景标签的频率建立的直方图。场景标签的频率是根据包含场景标签的图像数量及图像中该场景标签的置信度来确定的。具体地，场景标签的频率可以是视频中包含该场景标签的图像数量与所有提取的图像数量的比值，也可以是根据图像中场景标签的置信度或场景标签对应的位置区域的大小确定该图像中场景标签的权重值，将视频中包含该场景标签的图像的加权和或加权平均值作为该场景标签的频率等。在一个实施例中，电子设备以场景标签作为标签频率直方图的横坐标，场景标签的频率作为标签频率直方图的纵坐标建立标签频率直方图，则电子设备根据标签频率直方图可以得出视频中各场景标签的频率。

操作206，根据标签频率直方图确定视频的视频标签。

视频标签是指根据视频中出现的场景对视频进行标记，根据视频标签人们可以大概了解到视频的主要内容。视频标签可以是1个，也可以是多个如2个、3个、4个等不限于此。具体地，电子设备可以根据标签频率直方图获取视频中各场景标签对应的频率，根据频率将场景标签按预设规则进行排序，将频率较大的场景标签作为视频的视频标签。电子设备也可以预设标签阈值，将频率大于标签阈值的场景标签作为视频的视频标签。电子设备还可以循环读取频率直方图中场景标签及对应的频率，从而获取频率最大的场景标签作为视频的视频标签。电子设备根据标签频率直方图确定视频的视频标签的方式还可以是上述各种方式的结合或其他方式，在此不做限定。

本申请实施例提供的视频处理方法，可以从视频中每个预设帧提取一帧图像，对提取的图像进行场景识别，得到图像的场景标签及对应的置信度，根据视频中各图像的场景标签及对应的置信度建立标签频率直方图来确定视频的视频标签，可以提高视频标签的准确性。

在一个实施例中，提供的视频处理方法中对提取的图像进行场景识别，得到场景的场景标签及对应的置信度的过程还可以包括：对图像进行场景识别，得到图像的分类标签，对图像进行目标检测，得到图像的目标标签，将分类标签和目标标签作为图像的场景标签。

具体地，电子设备可以采用图像分类技术对图像进行场景识别。电子设备可预存有多个分类标签对应的图像特征信息，将需要进行场景识别的图像中的图像特征信息与预存的图像特征信息进行匹配，获取匹配成功的图像特征信息对应的分类标签作为图像的分类标签。相似地，电子设备对图像进行目标检测，可将图像中图像特征信息与预存的目标标签对应的特征信息进行匹配，获取匹配成功的特征信息对应的目标标签作为图像的目标标签。电子设备中预存的分类标签可包括：风景、海滩、蓝天、绿草、雪景、夜景、黑暗、逆光、日落、烟火、聚光灯、室内、微距、文本、人像、婴儿、猫、狗、美食等；目标标签可包括：人像、婴儿、猫、狗、美食、文本、蓝天、绿草、沙滩、烟火等。电子设备可以将分类标签和目标标签均作为图像的场景标签，并按照置信度的大小依次输出图像的场景标签及对应的置信度。

在一个实施例中，在一个实施例中，提供的视频处理方法中对提取的图像进行场景识别，得到场景的场景标签及对应的置信度的过程还可以包括：对图像进行场景分类和目标检测，得到图像的分类标签和目标标签，将分类标签和目标标签作为图像的场景标签。

具体地，电子设备可以训练可同时实现场景分类和目标检测的神经网络。具体地，在神经网络训练过程中，可以将包含有至少一个背景训练目标和前景训练目标的训练图像输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取，对背景训练目标进行检测得到第一预测置信度，根据第一预测置信度和第一真实置信度得到第一损失函数，对前景训练目标进行检测得到第二预测置信度，根据第二预测置信度和第二真实置信度得到第二损失函数，根据第一损失函数和第二损失函数得到目标损失函数，对神经网络的参数进行调整，使得训练的神经网络后续可同时识别出场景分类和目标分类，从而得到可以同时对图像的前景区域和背景区域进行检测神经网络。该第一真实置信度表示在该训练图像中预先标注的背景图像所属指定图像类别的置信度。第二真实置信度表示在该训练图像中预先标注的前景目标所属指定目标类别的置信度。

在一个实施例中，上述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定场景类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定目标所对应的真实边界框的偏移量参数和所属指定目标类别的第二预测置信度。图3为一个实施例中神经网络的架构示意图。如图3所示，神经网络的输入层接收带有图像类别标签的训练图像，通过基础网络(如VGG网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层对图像进行类别检测得到第一损失函数，对前景目标根据图像特征进行目标检测得到第二损失函数，对前景目标根据前景目标进行位置检测得到位置损失函数，将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。神经网络包括数据输入层、基础网络层、场景分类网络层、目标检测网络层和两个输出层。数据输入层用于接收原始图像数据。基础网络层对输入层输入的图像进行预处理以及特征提取。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0，目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。图像数据进行特征提取，例如利用VGG16的前5层卷积层对原始图像进行特征提取，再将提取的特征输入到分类网络层和目标检测网络层。在分类网络层可采用如Mobilenet网络的深度卷积、点卷积对特征进行检测，然后输入到输出层得到图像场景分类所属指定图像类别的第一预测置信度，然后根据第一预测置信度与第一真实置信度求差得到第一损失函数；在目标检测网络层可采用如SSD网络，在VGG16的前5层的卷积层后级联卷积特征层，在卷积特征层使用一组卷积滤波器来预测指定目标类别所对应的预选默认边界框相对于真实边界框的偏移量参数和指定目标类别所对应的第二预测置信度。感兴趣区域为预选默认边界框的区域。根据偏移量参数构建位置损失函数，根据第二预测置信度与第二真实置信度的差异得到第二损失函数。将第一损失函数、第二损失函数和位置损失函数加权求和得到目标损失函数，根据目标损失函数采用反向传播算法调整神经网络的参数，对神经网络进行训练。

采用训练好的神经网络对图像进行识别时，神经网络输入层接收输入的图像，提取图像的特征，输入到分类网络层进行图像场景识别，在第一输出层通过softmax分类器输出背景图像所属各个指定场景分类标签的置信度，选取置信度最高且超过置信度阈值的图像场景作为该图像的背景图像所属的分类标签。将提取的图像的特征输入到目标检测网络层进行前景目标检测，在第二输出层通过softmax分类器输出前景目标所属指定目标类别的置信度及对应的位置，输出前景目标的各个目标标签，并输出目标标签对应的位置，将得到的分类标签和目标标签作为图像的场景标签。

在一个实施例中，提供的视频处理方法中根据图像的场景标签及对应的置信度建立标签频率直方图的过程，如图4所示，包括：

操作402，将图像的场景标签对应的置信度作为图像中场景标签的权重值。

图像中场景标签的权重值是指图像中场景标签在视频标签中的重要程度。在视频中其他图像场景标签及权重值一定的情况下，图像中场景标签的权重值越高，则视频中该场景标签的频率越高；图像中场景标签的权重值越低，则视频中该场景标签的频率越低。

操作404，根据图像的场景标签及对应的权重值建立标签频率直方图。

具体地，电子设备可以根据视频中图像的场景标签及对应的权重值获取该场景标签的加权和，根据场景标签及对应的加权和建立标签频率直方图。电子设备还可以根据视频中图像的场景标签及对应的权重值获取该场景标签的加权平均值，根据场景标签及对应的加权平均值建立标签频率直方图。例如，视频中图像输出的场景标签及对应的置信度分别为A图像：婴儿0.9、草地0.8、蓝天0.5，B图像：美食0.8、婴儿0.6，C图像：蓝天0.7、婴儿0.3，则根据场景标签及对应的加权平均值建立的标签频率直方图中，婴儿的频率为0.6、蓝天的频率为0.4、草地和美食的频率均为0.27，电子设备可以将婴儿作为该视频的视频标签，也可将婴儿和蓝天作为该视频的视频标签等。

通过将图像的场景标签及对应的置信度作为图像中场景标签的权重值，根据视频中场景标签及对应的权重值建立标签频率直方图，从而确定视频的视频标签，可以提高视频标签的准确性。

如图5所示，在一个实施例中，提供的视频处理方法中根据图像的场景标签及对应的置信度建立标签频率直方图的过程，还可以包括：

操作502，根据图像的场景标签的置信度在图像的所有场景标签的置信度的大小确定场景标签的权重值。

具体地，电子设备可以根据场景标签的置信度的大小对该图像中的场景标签进行排序得到场景标签对应的序号标签，即将置信度最大的场景标签作为第一标签、其次的场景标签为第二标签依次类推。例如，在视频的一帧图像中，海滩的置信度为0.6、蓝天的置信度为0.9、人像的置信度为0.8，则该帧图像中蓝天为第一标签、人像为第二标签、海滩为第三标签。电子设备可以预存不同序号标签对应的权重值，根据场景标签的序号标签确定场景标签的权重值。

在一个实施例中，图像的场景标签的置信度在图像的所有场景标签的置信度最大时，场景标签对应的权重值在图像中的权重值最高。具体地，电子设备预存的序号标签对应的权重值时，第一标签预存的权重值最高，第二标签次之，以此类推。例如，电子设备可以预存第一标签的权重值为0.8、第二标签的权重值为0.5、第三标签的权重值为0.2，则上述例子中，第一标签蓝天的权重值为0.8、第二标签人像的权重值为0.5、第三标签海滩的权重值为0.2。

操作504，根据图像的场景标签及对应的权重值建立标签频率直方图。

具体地，电子设备可以根据视频中图像的场景标签及对应的权重值获取该场景标签的加权和，根据场景标签及对应的加权和建立标签频率直方图。电子设备还可以根据视频中图像的场景标签及对应的权重值获取该场景标签的加权平均值，根据场景标签及对应的加权平均值建立标签频率直方图。

通过根据图像的场景标签及对应的置信度确定图像中场景标签的权重值，根据视频中场景标签及对应的权重值建立标签频率直方图，从而确定视频的视频标签，可以提高视频标签的准确性。

在一个实施例中，提供的视频处理方法中提供的视频处理方法中根据图像的场景标签及对应的置信度建立标签频率直方图的过程，还包括：根据置信度大于阈值的场景标签及对应的置信度建立视频的标签频率直方图。

电子设备根据置信度大于阈值的场景标签建立标签频率直方图，可以过滤图像中置信度小于阈值的场景标签。阈值可以根据实际需求来确定。具体地，阈值可以为0.1、0.15、0.2、0.3等不限于此。电子设备获取置信度大于阈值的场景标签及对应的置信度，根据场景标签的置信度确定对应的权重值，根据图像的场景标签及对应的权重值建立标签频率直方图确定视频的视频标签，可以减少图像中置信度较低的场景标签对视频标签的影响，提高场景标签的准确度。例如，视频中的一帧图像中场景标签及置信度分别为狗0.8、猫0.2、草地0.7、美食0.1，若阈值为0.3，则丢弃猫0.2和美食0.1两个场景标签，根据狗0.8和草地0.7两个场景标签建立标签频率直方图。，

如图6所示，在一个实施例中，提供的视频处理方法还可以包括调整场景标签置信度的过程，具体操作包括：

操作602，获取视频拍摄时的位置信息。

电子设备在拍摄视频时，可以通过GPS(Global Positioning System，全球定位系统)来获取视频拍摄时的地址信息，根据地址信息可以得到视频拍摄时的位置信息。例如当GPS检测到视频拍摄的地址信息为北纬109.408984，东经18.294898时，电子设备可以根据地址信息获取对应的位置信息为海南三亚湾海滩。

操作604，根据位置信息调整图像中场景标签对应的置信度。

电子设备可以预存不同位置信息对应的场景标签及场景标签对应的权重，根据场景标签的权重调整图像中场景标签对应的置信度。具体地，场景标签对应的权重可以是根据对大量的图像素材进行统计学分析后得出的结果，根据结果相应地为不同的位置信息匹配对应的场景标签及场景标签对应的权值。例如，根据对大量的图像素材进行统计学分析后得出，当位置信息为“海滩”时，则与地址为“海滩”对应的场景为“沙滩”的权值为9，“蓝天”的权值为8，“风景”的权值为7，“雪景”的权值为-8，“绿草”的权值为-7，权值的取值范围为[-10,10]。权值越大说明在该图像中出现该场景的概率就越大，权值越小说明在该图像中出现该场景的概率就越小。权值从0开始每增加1，则对应场景的置信度增加1％，同样的，权值从0开始每减少1，则对应的场景的置信度减少1％。

通过根据视频拍摄的地址信信息得到位置信息，获取该位置信息下各场景标签对应的权值，对图像的场景标签的置信度进行调整，可以使图像的场景标签的置信度更加准确，从而提高视频标签的准确性。

如图7所示，在一个实施例中，提供的视频处理方法中根据标签频率直方图确定视频的视频标签的过程，具体操作包括：

操作702，根据标签频率直方图得到场景标签对应的频率。

具体地，电子设备可以根据标签频率直方图获取视频中各场景标签对应的频率，根据频率将场景标签按预设规则进行排序。

操作704，将频率大的预设个数个场景标签作为视频的视频标签。

预设个数可以根据实际应用场景来确定。具体地，电子设备根据视频标签对视频进行分类显示时，预设个数可以为1个；当电子设备将视频上传到视频网站时，电子设备根据视频网站对视频标签数量限定确定视频标签的预设个数。预设个数可以为1个，也可以为多个如2个、3个、4个等不限于此。例如，当电子设备将视频上传到限定视频标签为3个的视频网站时，则预设个数可以为3个。电子设备可以根据场景标签对应的频率将场景标签按从大到小进行排序，从而依次将频率大的预设个数个场景标签作为视频的视频标签。

在一个实施例中，提供了一种视频处理方法，实现该方法的具体操作如下所述：

首先，电子设备从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像的场景标签及对应的置信度。视频是由多帧静态图像组成的连续画面。预设帧可以根据实际应用需求来确定。具体地，预设帧可以根据视频帧率来确定，也可以根据视频时长来确定，还可以根据帧率和时长二者结合来确定。电子设备可以根据VGG、CNN、SSD、决策树等深度学习算法训练场景识别模型，根据场景识别模型对图像进行场景识别。具体地，电子设备采用可输出多标签的神经网络对图像进行检测，从而输出图像中各个特征的场景标签及对应的置信度。

可选地，电子设备对图像进行场景识别，得到图像的场景标签，对图像进行目标检测，得到图像的目标标签，将场景标签和目标标签作为图像的分类标签。电子设备可预存有多个场景标签对应的图像特征信息，将需要进行场景识别的图像中的图像特征信息与预存的图像特征信息进行匹配，获取匹配成功的图像特征信息对应的场景标签作为图像的场景标签。电子设备对图像进行目标检测，可将图像中图像特征信息与预存的目标标签对应的特征信息进行匹配，获取匹配成功的特征信息对应的目标标签作为图像的目标标签。电子设备可以将场景标签和目标标签均作为图像的分类标签，并获取分类标签对应的置信度。

可选地，电子设备对图像进行场景分类和目标检测，得到图像的场景标签和目标标签，将场景标签和目标标签作为图像的分类标签。电子设备可以训练可同时实现场景分类和目标检测的神经网络，利用神经网络的基础网络层对图像进行特征提取，将提取的图像特征输入到分类网络和目标检测网络层，通过分类网络进行场景检测输出图像背景区域所属指定图像类别的置信度，通过目标检测网络层进行目标检测得到前景区域所属指定目标类别的置信度，从而输出图像的场景标签及对应的置信度，以及目标标签及对应的置信度和目标所在位置。

可选地，电子设备获取视频拍摄时的位置信息，根据位置信息调整图像中场景标签对应的置信度。电子设备在拍摄视频时，可以通过GPS来获取视频拍摄时的地址信息，根据地址信息可以得到视频拍摄时的位置信息。电子设备可以预存不同位置信息对应的场景标签及场景标签对应的权重，根据场景标签的权重调整图像中场景标签对应的置信度。

接着，电子设备根据图像的场景标签及对应的置信度建立标签频率直方图。标签频率直方图是指根据视频中各场景标签的频率建立的直方图。场景标签的频率是根据包含场景标签的图像数量及图像中该场景标签的置信度来确定的。具体地，场景标签的频率可以是视频中包含该场景标签的图像数量与所有提取的图像数量的比值，也可以是根据图像中场景标签的置信度或场景标签对应的位置区域的大小确定该图像中场景标签的权重值，将视频中包含该场景标签的图像的加权和或加权平均值作为该场景标签的频率等。

可选地，电子设备将图像的场景标签对应的置信度作为图像中场景标签的权重值。根据图像的场景标签及对应的权重值建立标签频率直方图。图像中场景标签的权重值是指图像中场景标签在视频标签中的重要程度。通过将图像的场景标签及对应的置信度作为图像中场景标签的权重值，根据视频中场景标签及对应的权重值建立标签频率直方图，从而确定视频的视频标签，可以提高视频标签的准确性。

可选地，电子设备根据图像的场景标签的置信度在图像的所有场景标签的置信度的大小确定场景标签的权重值，根据图像的场景标签及对应的权重值建立标签频率直方图。电子设备可以根据场景标签的置信度的大小对该图像中的场景标签进行排序得到场景标签对应的序号标签，即将置信度最大的场景标签作为第一标签、其次的场景标签为第二标签以此类推。电子设备可以预存不同序号标签对应的权重值，根据场景标签的序号标签确定场景标签的权重值，根据图像的场景标签及对应的权重值建立标签频率直方图。

可选地，图像的场景标签的置信度在图像的所有场景标签的置信度最大时，场景标签对应的权重值在图像中的权重值最高。具体地，电子设备预存的序号标签对应的权重值时，第一标签预存的权重值最高，第二标签次之，以此类推。

可选地，电子设备根据置信度大于阈值的场景标签及对应的置信度建立视频的标签频率直方图。电子设备获取置信度大于阈值的场景标签及对应的置信度，根据场景标签的置信度确定对应的权重值，根据图像的场景标签及对应的权重值建立标签频率直方图确定视频的视频标签，可以减少图像中置信度较低的场景标签对视频标签的影响，提高场景标签的准确度。

接着，电子设备根据标签频率直方图确定视频的视频标签。视频标签是指根据视频中出现的场景对视频进行标记，根据视频标签人们可以大概了解到视频的主要内容。电子设备可以根据标签频率直方图获取视频中各场景标签对应的频率，根据频率将场景标签按预设规则进行排序，将频率较大的场景标签作为视频的视频标签。

可选地，电子设备根据标签频率直方图得到场景标签对应的频率，将频率大的预设个数个场景标签作为视频的视频标签。预设个数可以根据实际应用场景来确定。具体地，当电子设备根据视频标签对视频进行分类显示时，预设个数可以为1个；当电子设备将视频上传到视频网站时，电子设备根据视频网站对视频标签数量限定确定视频标签的预设个数。电子设备可以根据场景标签对应的频率将场景标签按从大到小进行排序，从而依次将频率大的预设个数个场景标签作为视频的视频标签。

应该理解的是，虽然图2、4-7的流程图中的各个操作按照箭头的指示依次显示，但是这些操作并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些操作的执行并没有严格的顺序限制，这些操作可以以其它的顺序执行。而且，图2、4-7中的至少一部分操作可以包括多个子操作或者多个阶段，这些子操作或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子操作或者阶段的执行顺序也不必然是依次进行，而是可以与其它操作或者其它操作的子操作或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例的视频处理装置的结构框图。如图8所示，一种视频处理装置，包括场景识别模块802，直方图建立模块804，视频标签确定模块806。其中：

场景识别模块802，用于从视频中每间隔预设帧提取一帧图像，对提取的图像进行场景识别，得到图像的场景标签及对应的置信度。

直方图建立模块804，用于根据图像的场景标签及对应的置信度建立标签频率直方图。

视频标签确定模块806，用于根据标签频率直方图确定视频的视频标签。

在一个实施例中，直方图建立模块804还可以用于将图像的场景标签对应的置信度作为图像中场景标签的权重值，根据图像的场景标签及对应的权重值建立标签频率直方图。

在一个实施例中，直方图建立模块804还可以用于根据图像的场景标签的置信度在图像的所有场景标签的置信度的大小确定场景标签的权重值，根据图像的场景标签及对应的权重值建立标签频率直方图。

在一个实施例中，直方图建立模块804还可以用于根据图像的场景标签的置信度在图像的所有场景标签的置信度的大小确定场景标签的权重值，图像的场景标签的置信度在图像的所有场景标签的置信度最大时，场景标签对应的权重值在图像中的权重值最高。

在一个实施例中，直方图建立模块804还可以用于根据置信度大于阈值的场景标签及对应的置信度建立视频的标签频率直方图。

在一个实施例中，提供的视频处理装置还可以包括置信度调整模块808,，置信度调整模块808用于获取视频拍摄时的位置信息，根据位置信息调整图像中场景标签对应的置信度。

在一个实施例中，视频标签确定模块806还可以用于根据标签频率直方图得到场景标签对应的频率，将频率大的预设个数个场景标签作为视频的视频标签。

上述视频处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将视频处理装置按照需要划分为不同的模块，以完成上述视频处理装置的全部或部分功能。

关于视频处理装置的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。上述视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中提供的视频处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的操作。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行视频处理方法的操作。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行视频处理方法。

本申请实施例还提供一种电子设备。上述电子设备中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图9为一个实施例中图像处理电路的示意图。如图9所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图9所示，图像处理电路包括ISP处理器940和控制逻辑器950。成像设备910捕捉的图像数据首先由ISP处理器940处理，ISP处理器940对图像数据进行分析以捕捉可用于确定和/或成像设备910的一个或多个控制参数的图像统计信息。成像设备910可包括具有一个或多个透镜912和图像传感器914的照相机。图像传感器914可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器914可获取用图像传感器914的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器940处理的一组原始图像数据。传感器920(如陀螺仪)可基于传感器920接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器940。传感器920接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器914也可将原始图像数据发送给传感器920，传感器920可基于传感器920接口类型把原始图像数据提供给ISP处理器940，或者传感器920将原始图像数据存储到图像存储器930中。

ISP处理器940按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有9、10、12或14比特的位深度，ISP处理器940可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器940还可从图像存储器930接收图像数据。例如，传感器920接口将原始图像数据发送给图像存储器930，图像存储器930中的原始图像数据再提供给ISP处理器940以供处理。图像存储器930可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器914接口或来自传感器920接口或来自图像存储器930的原始图像数据时，ISP处理器940可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器930，以便在被显示之前进行另外的处理。ISP处理器940从图像存储器930接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器940处理后的图像数据可输出给显示器970，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器940的输出还可发送给图像存储器930，且显示器970可从图像存储器930读取图像数据。在一个实施例中，图像存储器930可被配置为实现一个或多个帧缓冲器。此外，ISP处理器940的输出可发送给编码器/解码器960，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器970设备上之前解压缩。编码器/解码器960 可由CPU或GPU或协处理器实现。

ISP处理器940确定的统计数据可发送给控制逻辑器950单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜912阴影校正等图像传感器914统计信息。控制逻辑器950可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备910的控制参数及ISP处理器940的控制参数。例如，成像设备910的控制参数可包括传感器920控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜912控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜912阴影校正参数。

电子设备根据上述图像处理技术可以实现本申请实施例中所描述的视频处理方法。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种视频处理方法，包括：

从视频中每间隔预设帧提取一帧图像，对提取的所述图像进行场景识别，得到所述图像的场景标签及对应的置信度；

根据所述图像的场景标签及对应的置信度建立标签频率直方图；及

根据所述标签频率直方图确定所述视频的视频标签。
根据权利要求1所述的方法，其特征在于，所述根据所述图像的场景标签及对应的置信度建立标签频率直方图，包括：

将所述图像的场景标签对应的置信度作为所述图像中场景标签的权重值；及

根据所述图像的场景标签及对应的权重值建立标签频率直方图。
根据权利要求1所述的方法，其特征在于，所述根据所述图像的场景标签及对应的置信度建立标签频率直方图，包括：

根据所述图像的场景标签的置信度在所述图像的所有场景标签的置信度的大小确定所述场景标签的权重值；及

根据所述图像的场景标签及对应的权重值建立标签频率直方图。
根据权利要求3所述的方法，其特征在于，还包括：

所述图像的场景标签的置信度在所述图像的所有场景标签的置信度最大时，所述场景标签对应的权重值在所述图像中的权重值最高。
根据权利要求1至4任一项所述的方法，其特征在于，还包括：

根据置信度大于阈值的场景标签及对应的置信度建立所述视频的标签频率直方图。
根据权利要求1所示的方法，其特征在于，还包括；

获取所述视频拍摄时的位置信息；及

根据所述位置信息调整所述图像中场景标签对应的置信度。
根据权利要求1所述的方法，其特征在于，还包括：

根据所述标签频率直方图得到所述场景标签对应的频率；及

将频率大的预设个数个场景标签作为所述视频的视频标签。
根据权利要求1所述的方法，其特征在于，所述对提取的所述图像进行场景识别，得到所述图像的场景标签及对应的置信度，包括：

将提取的所述图像输入至神经网络；

通过所述神经网络的分类网络层对所述图像的背景进行图像场景识别，得到所述图像的背景所属的各个分类标签的置信度；

通过所述神经网络的目标检测网络层对所述图像进行前景目标检测，得到所述图像的前景目标所述的各个目标标签的置信度；及

根据各个所述分类标签的置信度及目标标签的置信度得到所述图像的场景标签及对应的置信度。
一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作：

从视频中每间隔预设帧提取一帧图像，对提取的所述图像进行场景识别，得到所述图像的场景标签及对应的置信度；

根据所述图像的场景标签及对应的置信度建立标签频率直方图；及

根据所述标签频率直方图确定所述视频的视频标签。
根据权利要求9所述的电子设备，其特征在于，所述处理器执行所述根据所述图像的场景标签及对应的置信度建立标签频率直方图时，还执行如下操作：

将所述图像的场景标签对应的置信度作为所述图像中场景标签的权重值；及

根据所述图像的场景标签及对应的权重值建立标签频率直方图。
根据权利要求9所述的电子设备，其特征在于，所述处理器执行所述根据所述图像的场景标签及对应的置信度建立标签频率直方图时，还执行如下操作：

根据所述图像的场景标签的置信度在所述图像的所有场景标签的置信度的大小确定所述场景标签的权重值；及

根据所述图像的场景标签及对应的权重值建立标签频率直方图。
根据权利要求11所述的电子设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器还执行如下操作：

所述图像的场景标签的置信度在所述图像的所有场景标签的置信度最大时，所述场景标签对应的权重值在所述图像中的权重值最高。
根据权利要求9至12中任一项所述的电子设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器还执行如下操作：

根据置信度大于阈值的场景标签及对应的置信度建立所述视频的标签频率直方图。
根据权利要求9中所述的电子设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器还执行如下操作：

获取所述视频拍摄时的位置信息；及

根据所述位置信息调整所述图像中场景标签对应的置信度。
根据权利要求9中所述的电子设备，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器还执行如下操作：

根据所述标签频率直方图得到所述场景标签对应的频率；及

将频率大的预设个数个场景标签作为所述视频的视频标签。
根据权利要求9中所述的电子设备，其特征在于，所述处理器执行所述对提取的所述图像进行场景识别，得到所述图像的场景标签及对应的置信度时，还执行如下操作：

将提取的所述图像输入至神经网络；

通过所述神经网络的分类网络层对所述图像的背景进行图像场景识别，得到所述图像的背景所属的各个分类标签的置信度；

通过所述神经网络的目标检测网络层对所述图像进行前景目标检测，得到所述图像的前景目标所述的各个目标标签的置信度；及

根据各个所述分类标签的置信度及目标标签的置信度得到所述图像的场景标签及对应的置信度。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法的操作。