WO2021134485A1

WO2021134485A1 - 视频评分方法、装置、存储介质及电子设备

Info

Publication number: WO2021134485A1
Application number: PCT/CN2019/130520
Authority: WO
Inventors: 高洪涛
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: CN114375466A

Abstract

一种视频评分方法、装置、存储介质及电子设备，其中，获取待检测视频(101)；根据预设的特征提取算法，从所述待检测视频中提取多个维度的视频特征(102)；基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征(103)；基于预设回归算法和所述融合特征，计算所述待检测视频在多个情感维度上的情感分数(104)，实现了从情感维度上对视频进行评分。

Description

视频评分方法、装置、存储介质及电子设备

技术领域

本申请涉及视频评分技术领域，具体涉及一种视频评分方法、装置、存储介质及电子设备。

背景技术

近年来随着科技的发展，拍摄获取和浏览视频变得非常便捷，视频信息已经成为互联网上信息传播的重要方式，从各方面改变着人们的生活。然而视频的种类繁多数量巨大，里面的内容也良莠不齐，有的积极向上充满正能量，有的低沉压抑，有的很愤怒有暴力倾向，因此对视频进行情感维度上的评价与甄别变得尤为迫切。

发明内容

本申请实施例提供一种视频评分方法、装置、存储介质及电子设备，能够对视频从情感维度上对视频进行情感评分。

第一方面，本申请实施例提供一种视频评分方法，包括：

获取待检测视频；

根据预设的特征提取算法，从所述待检测视频中提取多个维度的视频特征；

基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征；

基于预设回归算法和所述融合特征，计算所述待检测视频在多个情感维度上的分数。

第二方面，本申请实施例提供一种视频评分装置，包括：

数据获取模块，用于获取待检测视频；

特征提取模块，用于根据预设的特征提取算法，从所述待检测视频中提取多个维度的视频特征；

分数计算模块，用于基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征；

以及，基于预设回归算法和所述融合特征，计算所述待检测视频在多个情感维度上的分数。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的视频评分方法。

第四方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的视频评分方法。

本申请实施例提供的方案，根据预设的特征提取算法从待检测视频中分别提取多个维度的视频特征，将这多个维度的视频特征进行融合处理得到融合特征，然后根据预设回归算法和融合特征计算待检测视频在多个情感维度上的分数，基于此，本方案实现了将从视频中提取出的多种类型的特征有效结合，将该融合特征作为视频情感打分的依据，基于前馈神经网络对待检测视频在多个情感维度上打分，得到多个分数，实现了从情感维度上对视频进行评分。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频评分方法的第一种流程示意图。

图2为本申请实施例提出的视频评分方法中基于Valence-Arousal的环状模型示意图。

图3为本申请实施例提供的视频评分方法的第二种流程示意图。

图4为本申请实施例提供的视频评分方法的深度神经网络模型的结构示意图。

图5为本申请实施例提供的视频评分装置的结构示意图。

图6为本申请实施例提供的电子设备的结构示意图。

图7为本申请实施例提供的电子设备的视频评分电路的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频评分方法，该视频评分方法的执行主体可以是本申请实施例提供的视频评分装置，或者集成了该视频评分装置的电子设备，其中该视频评分装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。在一些实施例中，电子设备还可以是服务器。

请参照图1，图1为本申请实施例提供的视频评分方法的第一种流程示意图。本申请实施例提供的视频评分方法的具体流程可以如下：

在101中，获取待检测视频。

本申请中的视频评分方案可以应用于各种视频平台，例如，在线视频观看网站，视频分享APP等。对于视频系统来说，当接收到用户上传的视频时，可以在服务端，按照本申请实施例的方案对该视频进行情感评分，当情感评分满足预设条件时，才会将该视频上传到视频平台进行分享。

在102中，根据预设的特征提取算法，从待检测视频中提取多个维度的视频特征。

区别于基于单一特征对视频进行分类，本申请从多个情感角度对视频进行评分。其中，情感维度可以为两个或者两个以上。例如，在一些实施例中，情感维度包括的正负面程度和情感激烈程度，采用基于Valence-Arousal(正负面程度和激动程度)的环状模型对视频的情感进行打分。正负面程度可以理解为视频画面体现出的正面情感倾向或者负面情感倾向，例如，正面情感倾向可以是积极的，例如开心、满足等，负面情感倾向可以是消极的，例如生气、失望等。激动程度可以分为轻微(如平静、疲劳等)、中立、剧烈(如暴躁、激烈等)等。

请参阅图2，图2为本申请实施例提出的视频评分方法中基于Valence-Arousal的环状模型示意图。其中，横轴为正负面程度对应的分数，纵轴为激动程度的分数。在横轴上，0～-1为负面情感倾向，0～1为正面情感倾向，视频的分数越接近于1，情感越正面，比如，视频所体现出的积极程度越高，越接近于-1，情感越负面，视频所体现出的消极程度越高。同理，在纵轴上，视频的分数越接近于-1，视频中体现出的激动程度越轻微，视频的分数越接近于1，视频中体现出的激动程度越剧烈。

可以理解的是，上述基于Valence-Arousal的环状模型包含有两个情感维度，在其他的实施例中，还可以根据评价需要，设置更多的情感维度对视频打分。

本实施例中，从待检测视频中提取多个维度的视频特征，例如，多个维度的视频特征可以包括人脸特征、音频特征和视觉特征。或者，在一些实施例中，除了上述三种特征之外，多个维度的视频特征还可以包括上述三种特征任意两种特征融合处理到的特征。或者，在一些实施例中，除了上述三种特征之外，多个维度的视频特征还可以包括其他维度的特征。

对于上述各个维度的特征，可以采取对应的特征提取段进行特定的特征的提取。

例如，对于人脸特征，可以预先使用包含有人脸信息的图像训练第深度神经网路以确定网络参数，作为特征提取网络。在提取视频的人脸特征时，将视频中包含有人脸的视频帧图像输入到该特征提取网络中，获取最后一个卷积层输出的特征，将该特征降维处理得到人脸特征向量，作为人脸特征。或者将全连接层输出的特征向量作为人脸特征。或者，还可以提取包含有人脸的视频帧图像的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征作为人脸特征。

关于音频特征，可以单独提取出视频中的音频数据，将该音频数据转换为频谱图，再根据预先训练好的深度神经网络将该频谱图转换为语义向量，作为音频特征。或者，还可以直接将音频数据输入到预先训练好的自编码循环神经网络中，生成语义特征向量，作为音频特征。

关于视觉特征，可以提取视频帧图像的像素值的直方图，来体现出图像的明暗程度、色调。根据直方图中各个像素值出现次数，生成特征向量，作为视频的视觉特征。

在103中，基于预设特征融合算法对多个维度的视频特征进行特征融合处理，生成融合特征。

在获取到视频的上述三种特征后，将上述特征进行融合处理，例如，分别为每种特征赋予一个权重值，根据该权重值对多个特征向量进行加权平均，得到融合后的特征向量。或者，将上述三种特征的多个特征向量拼接为特征矩阵，按照预设的卷积层对该特征矩阵进行卷积操作，以进行特征的融合。

在104中，基于预设回归算法和融合特征，计算待检测视频在多个情感维度上的分数。

在得到融合特征后，将该融合特征输入到预设回归算法进行分数的计算。其中，预设回归算法可以是前馈神经网络、逻辑回归算法等。以前馈神经网络为例，前馈神经网络可以是通过携带有在多个情感维度上的分数的融合特征训练得到的。该网络的输出层中的神经元的数量等于情感维度的数量，一个神经元对应于一个情感维度。在输出层的每一个神经元进行归一化计算，得到一个-1～1之间的数字，作为待检测视频在该神经元对应的情感维度上的分数。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提出的视频评分方法，根据预设的特征提取算法从待检测视频中分别提取多个维度的视频特征，将这多个维度的视频特征进行融合处理得到融合特征，然后根据预设回归算法和融合特征计算待检测视频在多个情感维度上的分数，基于此，本方案实现了将从视频中提取出的多种类型的特征有效结合，将该融合特征作为视频情感打分的依据，基于前馈神经网络对待检测视频在多个情感维度上打分，得到多个分数，实现了从情感维度上对视频进行评分，该情感评分可以作为分享或者推荐该视频的依据。

人物的表情可以体现出视频整体表达的情感状态。本申请实施例中获取包含有人脸信息的视频帧图像作为分析对象，从中提取特征，作为视频对应的人脸特征。

在一些实施方式中，根据预设的特征提取算法，从待检测视频中提取人脸特征，包括：从待检测视频中获取包含有人脸信息的视频帧图像；根据预设的第一卷积神经网络和视频帧图像，生成人脸特征矩阵；对人脸特征矩阵降维处理，生成人脸特征向量。

该实施方式中，可以获取视频包含的多帧视频帧图像，从多帧视频帧图像中选择一帧或者多帧包含有人脸信息的视频帧图像作为目标视频帧图像。其中，当视频中包含有多个人物对象时，可以选择多帧包含有人脸信息的视频帧作为目标视频帧。当视频中只包含有一个人物对象时，可以选择一帧人脸区域在整个图像中占比最大的视频帧图像作为目标视频帧图像。

获取到目标视频帧图像后，将该目标视频帧图像输入到预先训练好的第一卷积神经网络中进行运算，获取该网络的最后一个卷积层输出的feature map(特征地图)，再根据该featuremap生成人脸特征向量。例如，最后一个卷积层输出的feature map为10×10的大小，则可以通过将10行拼接到一起的方式将其降维为1×100的向量，将该向量作为人脸特征向量。

或者，还可以获取该网络的全连接对该10×10的feature map降维操作后，得到的特征向量作为人脸特征向量。

在一些实施方式中，根据预设的特征提取算法，从待检测视频中提取人脸特征，包括：从待检测视频中获取包含有人脸信息的视频帧图像；计算视频帧图像的方向梯度直方图特征向量，并将方向梯度直方图特征向量作为人脸特征。

在该实施方式中，针对获取到的每一帧目标视频帧图像，计算其方向梯度直方图特征，该特征的形式一般为向量。其中，计算目标视频帧图像的方向梯度直方图特征的方式如下：将图像划分为多个区域，计算每一个区域中不同方向上梯度的值，然后进行累积，得到直方图特征。

下面将在上述实施例描述的方法基础上，对本申请的视频评分方法做进一步详细介绍。请参阅图3，图3是本发明实施例提供的视频评分方法的第二流程示意图。该方法包括：

在201中，获取待检测视频。

本申请中的视频评分方案可以应用于各种视频平台，例如，在线视频观看网站，视频分享应用程序等。对于视频系统来说，当接收到用户上传的视频时，可以在服务端，按照本申请实施例的方案对该视频进行情感评分，当情感评分满足预设条件时，才会将该视频上传到视频平台进行分享。

在202中，从待检测视频中获取目标视频帧图像，根据第一卷积神经网络和目标视频帧图像，生成人脸特征向量。

例如，从待检测视频中获取包含有人脸信息的视频帧图像，根据预设的第一卷积神经网络和视频帧图像，生成人脸特征矩阵，对人脸特征矩阵降维处理，生成人脸特征向量。

该实施例中，可以获取视频包含的多帧视频帧图像，从多帧视频帧图像中选择一帧或者多帧包含有人脸信息的视频帧图像作为目标视频帧图像。其中，当视频中包含有多个人物对象时，可以选择多帧包含有人脸信息的视频帧作为目标视频帧。当视频中只包含有一个人物对象时，可以选择一帧人脸区域在整个图像中占比最大的视频帧图像作为目标视频帧图像。

可以理解的是，当目标视频帧图像有多帧时，计算得到的人脸特征向量也可以有多个。如果每一帧目标视频帧图像中的人物是不同的，则得到的人脸特征向量的数量等于目标视频帧图像的数量。如果多帧目标视频帧图像中的人物是相同的，则可以将这多帧具有相同人物的多帧目标视频帧图像计算得到的特征向量求平均值后，得到一个特征向量。

获取到目标视频帧图像后，将该目标视频帧图像输入到预先训练好的第一卷积神经网络中进行运算，获取该网络的最后一个卷积层输出的feature map(特征地图)，再根据该feature map生成人脸特征向量。例如，对最后一个卷积层输出的feature map进行降维操作，生成一个特征向量。每一个目标视频帧图像对应于一个人脸特征向量。其中，人脸特征向量可以表示如下：

s ₁＝{x ₁,x ₂,…,x _n}

当有多个人脸特征向量时，在进行特征融合时，这多个人脸特征向量可以具有相同的权重值。

在203中，获取待检测视频中的音频数据，将音频数据转换为音频特征向量。

例如，获取待检测视频中包含的音频数据；根据音频特征提取算法将音频数据转换为频谱图；根据预先训练好的第二卷积神经网络和频谱图，生成音频数据的音频特征向量。

音频特征提取算法可以是MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)算法或者FFT(Fast Fourier Transformation，快速傅里叶变换)算法，通过音频特征提取算法将语音数据转换为频谱图，将频谱图作为自编码卷积神经网络的输入数据和输出数据，从网络中提取语义特征向量。第二卷积神经网络在训练时，其输出数据与输入数据一致，以获取其中间隐藏层中有价值的信息。将频谱图输入该第二卷积神经网络计算，将该网络的中间隐藏层输出的特征向量作为音频特征向量。其中，音频特征向量可以表示如下：

s ₂＝{y ₁,y ₂,…,y _n}

在其他实施例中，还可以直接将音频数据输入到预先训练好的自编码循环神经网络中，生成语义特征向量，作为音频特征。自编码神经网络模型由一个encoder编码器和一个decoder解码器组成，该网络的输出等于输入，网络包括有中间隐藏层，中间隐藏层能够提取语音数据的语义特征向量。本方案中采用自编码循环神经网络从语音数据中提取语义特征向量，自编码循环神经网络的输入数据和输出数据均为上述语音数据。该网络在训练时，无需对语音数据贴标签，预先采集大量的语音数据作为网络的输入和输出，网络通过自学习确定网络参数。

在204中，从待检测视频中获取待检测图像，根据待检测图像的像素值分布直方图生成视觉特征向量。

例如，从待检测视频中获取待检测图像，获取待检测图像在一个或者多个像素通道上的像素值分布直方图，根据像素值分布直方图生成待检测图像在一个或者多个像素通道上的视觉特征向量。该实施例中，可以获取视频包含的多帧视频帧图像，从多帧视频帧图像中选择一帧或者多帧频帧图像作为待检测图像。

本实施例中，本方案提取待检测图像的RGB三通道的像素值分布直方图，作为图像明暗程度、色调的代表。假设用c _i，i＝0,1,2,3……,255来表示特征向量中的每个元素值，该元素的计算公式如下：

其中，m _i为像素值i的出现次数。计算得到的视觉特征向量可以表示如下：

s ₃＝{c ₁,c ₂,…,c _n}

根据上述计算方式可以计算得到每一个像素通道对应的特征向量，该特征向量为256维。因此，为了便于后续的特征融合操作，人脸特征向量、音频特征向量和视觉特征向量需要具有相同的维数，因此，可以通过预先调整第一卷积神经网络和第二卷积神经网络参数，以使其输出的featuremap降维后得到的向量也为256维。可以理解的是，在其他实施例中，也可以根据需要将人脸特征向量、音频特征向量和视觉特征向量的维数固定设置为其他值。

或者，在一些实施例中，不需要将人脸特征向量、音频特征向量和视觉特征向量的长度设置为相同，第一卷积神经网络和第二卷积神经网络的网络参数分别根据从提取特征准确度的角度设置。但是，在进行特征向量的拼接之前，先判断上述特征向量的长度是否达到预设长度，如果没有，则可以采用补零的方式，将特征向量的长度延伸到预设长度。

在205中，将人脸特征向量、音频特征向量和视觉特征向量拼接为特征矩阵。

在得到人脸特征向量、音频特征向量和视觉特征向量之后，将这三个向量拼接为特征矩阵。如下：

在206中，将特征矩阵输入预设的深度神经网络模型，其中，深度神经网络模型包括卷积层和前馈神经网络。

在207中，根据卷积层对特征矩阵进行卷积运算，生成融合特征。

在208中，根据前馈神经网络和融合特征，生成待检测视频在多个情感维度上的分数。

请参阅图4，图4为本申请实施例提供的视频评分方法的深度神经网络模型的结构示意图。该深度神经网络模型包括据基层和由前馈神经网络层构成的回归层。将特征矩阵输入预设的深度神经网络模型，卷积层对特征矩阵进行卷积运算，生成融合特征；卷积核的大小可以为k×f，其中，f需要与输入的特征矩阵的行数匹配，例如输入的特征矩阵的行数为3，则f＝3。比如，特征矩阵的尺寸为3×256，经过3×1的卷积核运算后，得到尺寸为1×256的融合特征。将卷积层输出的融合特征输入前馈神经网络进行计算，生成待检测视频在多个情感维度上的分数。

该深度神经网络模型由样本视频训练得到，样本视频携带有在多个情感维度上的分数，例如，【样本视频A：正负面程度分数为0.6，激动程度为0.1】可以作为一条训练样本，按照这样的方式，预先获取多条训练样本。针对携带有每一条样本视频，分别按照对应的特征提取算法，提取人脸特征向量、音频特征向量和视觉特征向量。再将携带有在多个情感维度上的分数的人脸特征向量、音频特征向量和视觉特征向量进行拼接后输入到预先构建好的深度神经网络中进行训练，确定模型参数。在模型训练过程中，模型可以学习得到每一种特征对各个情感维度上的评分结果的影响的大小，对评分结果影响大的特征会被赋予相对较大的权重，反之，对评分结果影响小的特征会被赋予相对较小的权重。基于此，训练得到的模型能够对输入的多种特征有效利用，实现了对视频从多个情感维度的有效量化。

在一实施例中还提供了一种视频评分装置。请参阅图5，图5为本申请实施例提供的视频评分装置300的结构示意图。其中该视频评分装置300应用于电子设备，该视频评分装置300包括数据获取模块301、特征提取模块302以及分数计算模块303，如下：

数据获取模块301，用于获取待检测视频；

特征提取模块302，用于根据预设的特征提取算法，从所述待检测视频中提取多个维度的视频特征；

分数计算模块303，用于基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征；

在一些实施例中，分数计算模块303还用于：

将所述多个维度的视频特征拼接为特征矩阵；

将所述特征矩阵输入预设的深度神经网络模型，其中，所述深度神经网络模型包括卷积层和前馈神经网络，所述深度神经网络模型由样本视频训练得到，所述样本视频携带有在所述多个情感维度上的分数；

根据所述卷积层对所述特征矩阵进行卷积运算，生成融合特征；

根据所述前馈神经网络和所述融合特征，生成所述待检测视频在多个情感维度上的分数。

在一些实施例中，所述多个维度的视频特征包括人脸特征、音频特征和视觉特征。

在一些实施例中，特征提取模块302还用于：从所述待检测视频中获取包含有人脸信息的视频帧图像：

根据预设的第一卷积神经网络和所述视频帧图像，生成人脸特征矩阵；

对所述人脸特征矩阵降维处理，生成人脸特征向量。

在一些实施例中，特征提取模块302还用于：从所述待检测视频中获取包含有人脸信息的视频帧图像；

计算所述视频帧图像的方向梯度直方图特征向量，并将所述方向梯度直方图特征向量作为人脸特征。

在一些实施例中，特征提取模块302还用于：获取所述待检测视频中包含的音频数据；

根据音频特征提取算法将所述音频数据转换为频谱图；

根据预先训练好的第二卷积神经网络和所述频谱图，生成所述音频数据的音频特征向量。

在一些实施例中，特征提取模块302还用于：

在一些实施例中，从所述待检测视频中获取待检测图像；

获取所述待检测图像在一个或者多个像素通道上的像素值分布直方图；

根据所述像素值分布直方图统计各个像素值的数量，并根据所述各个像素值的数量，生成所述待检测图像在一个或者多个像素通道上的视觉特征向量。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

应当说明的是，本申请实施例提供的视频评分装置与上文实施例中的视频评分方法属于同一构思，在视频评分装置上可以运行视频评分方法实施例中提供的任一方法，其具体实现过程详见视频评分方法实施例，此处不再赘述。

由上可知，本申请实施例提出的视频评分装置，根据预设的特征提取算法从待检测视频中分别提取人脸特征、音频特征和视觉特征，将这三种特征进行融合处理得到融合特征，然后根据预设回归算法和融合特征计算待检测视频在多个情感维度上的分数，基于此，本方案实现了将从视频中提取出的多种类型的特征有效结合，将该融合特征作为视频情感打分的依据，基于前馈神经网络对待检测视频在多个情感维度上打分，得到多个分数，实现了从情感维度上对视频进行评分。

本申请实施例还提供一种电子设备，该电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图6，图6为本申请实施例提供的电子设备的结构示意图。电子设备800可以包括摄像模组801、存储器802、处理器803、触摸显示屏804、扬声器805、麦克风806等部件。

摄像模组801可以包括视频评分电路，视频评分电路可以利用硬件和/或软件组件实现，可包括定义图像信号处理(Image Signal Processing)管线的各种处理单元。视频评分电路至少可以包括：摄像头、图像信号处理器(Image Signal Processor，ISP处理器)、控制逻辑器、图像存储器以及显示器等。其中摄像头至少可以包括一个或多个透镜和图像传感器。图像传感器可包括色彩滤镜阵列(如Bayer滤镜)。图像传感器可获取用图像传感器的每个成像像素捕捉的光强度和波长信息，并提供可由图像信号处理器处理的一组原始图像数据。

图像信号处理器可以按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，图像信号处理器可对原始图像数据进行一个或多个视频评分操作、收集关于图像数据的统计信息。其中，视频评分操作可按相同或不同的位深度精度进行。原始图像数据经过图像信号处理器处理后可存储至图像存储器中。图像信号处理器还可从图像存储器处接收图像数据。

图像存储器可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像存储器的图像数据时，图像信号处理器可进行一个或多个视频评分操作，如时域滤波。处理后的图像数据可发送给图像存储器，以便在被显示之前进行另外的处理。图像信号处理器还可从图像存储器接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。处理后的图像数据可输出给显示器，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，图像信号处理器的输出还可发送给图像存储器，且显示器可从图像存储器读取图像数据。在一种实施方式中，图像存储器可被配置为实现一个或多个帧缓冲器。

图像信号处理器确定的统计数据可发送给控制逻辑器。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜阴影校正等图像传感器的统计信息。

控制逻辑器可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的统计数据，确定摄像头的控制参数以及ISP控制参数。例如，摄像头的控制参数可包括照相机闪光控制参数、透镜的控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵等。

请参阅图7，图7为本实施例中视频评分电路的结构示意图。为便于说明，仅示出与本发明实施例相关的视频评分技术的各个方面。

例如视频评分电路可以包括：摄像头、图像信号处理器、控制逻辑器、图像存储器、显示器。其中，摄像头可以包括一个或多个透镜和图像传感器。在一些实施例中，摄像头可为长焦摄像头或广角摄像头中的任一者。

摄像头采集的图像传输给图像信号处理器进行处理。图像信号处理器处理图像后，可将图像的统计数据(如图像的亮度、图像的反差值、图像的颜色等)发送给控制逻辑器。控制逻辑器可根据统计数据确定摄像头的控制参数，从而摄像头可根据控制参数进行自动对焦、自动曝光等操作。图像经过图像信号处理器进行处理后可存储至图像存储器中。图像信号处理器也可以读取图像存储器中存储的图像以进行处理。另外，图像经过图像信号处理器进行处理后可直接发送至显示器进行显示。显示器也可以读取图像存储器中的图像以进行显示。

此外，图中没有展示的，电子设备还可以包括CPU和供电模块。CPU和逻辑控制器、图像信号处理器、图像存储器和显示器均连接，CPU用于实现全局控制。供电模块用于为各个模块供电。

存储器802存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器803通过运行存储在存储器802的应用程序，从而执行各种功能应用以及数据处理。

处理器803是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器802内的应用程序，以及调用存储在存储器802内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

触摸显示屏804可以用于接收用户对电子设备的触摸控制操作。扬声器805可以播放声音信号。麦克风806可以用于拾取声音信号。

在本实施例中，电子设备中的处理器803会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器802中，并由处理器803来运行存储在存储器802中的应用程序，从而执行：

获取待检测视频；

由上可知，本申请实施例提供了一种电子设备，所述电子设备根据预设的特征提取算法从待检测视频中分别提取多个维度的视频特征，将这多个维度的视频特征进行融合处理得到融合特征，然后根据预设回归算法和融合特征计算待检测视频在多个情感维度上的分数，基于此，本方案实现了将从视频中提取出的多种类型的特征有效结合，将该融合特征作为视频情感打分的依据，基于前馈神经网络对待检测视频在多个情感维度上打分，得到多个分数，实现了从情感维度上对视频进行评分。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的视频评分方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

此外，本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上对本申请实施例所提供的视频评分方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种视频评分方法，其特征在于，包括：

获取待检测视频；

根据预设的特征提取算法，从所述待检测视频中提取多个维度的视频特征；

基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征；

基于预设回归算法和所述融合特征，计算所述待检测视频在多个情感维度上的分数。
如权利要求1所述的视频评分方法，其特征在于，所述基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征；基于预设回归算法和所述融合特征，计算所述待检测视频在多个情感维度上的分数，包括：

将所述多个维度的视频特征拼接为特征矩阵；

将所述特征矩阵输入预设的深度神经网络模型，其中，所述深度神经网络模型包括卷积层和前馈神经网络，所述深度神经网络模型由样本视频训练得到，所述样本视频携带有在所述多个情感维度上的分数；

根据所述卷积层对所述特征矩阵进行卷积运算，生成融合特征；

根据所述前馈神经网络和所述融合特征，生成所述待检测视频在多个情感维度上的分数。
如权利要求1所述的视频评分方法，其特征在于，所述多个维度的视频特征包括人脸特征、音频特征和视觉特征。
如权利要求3所述的视频评分方法，其特征在于，所述根据预设的特征提取算法，从所述待检测视频中提取人脸特征，包括：

从所述待检测视频中获取包含有人脸信息的视频帧图像；

根据预设的第一卷积神经网络和所述视频帧图像，生成人脸特征矩阵；

对所述人脸特征矩阵降维处理，生成人脸特征向量。
如权利要求3所述的视频评分方法，其特征在于，所述根据预设的特征提取算法，从所述待检测视频中提取人脸特征，包括：

从所述待检测视频中获取包含有人脸信息的视频帧图像；

计算所述视频帧图像的方向梯度直方图特征向量，并将所述方向梯度直方图特征向量作为人脸特征。
如权利要求3所述的视频评分方法，其特征在于，所述根据预设的特征提取算法，从所述待检测视频中提取音频特征，包括：

获取所述待检测视频中包含的音频数据；

根据音频特征提取算法将所述音频数据转换为频谱图；

根据预先训练好的第二卷积神经网络和所述频谱图，生成所述音频数据的音频特征向量。
如权利要求3所述的视频评分方法，其特征在于，所述根据预设的特征提取算法，从所述待检测视频中提取视觉特征，包括：

从所述待检测视频中获取待检测图像；

获取所述待检测图像在一个或者多个像素通道上的像素值分布直方图；

根据所述像素值分布直方图统计各个像素值的数量，并根据所述各个像素值的数量，生成所述待检测图像在一个或者多个像素通道上的视觉特征向量。
一种视频评分装置，其特征在于，包括：

数据获取模块，用于获取待检测视频；

特征提取模块，用于根据预设的特征提取算法，从所述待检测视频中提取多个维度的视频特征；

分数计算模块，用于基于预设特征融合算法对所述多个维度的视频特征进行特征融合处理，生成融合特征；

以及，基于预设回归算法和所述融合特征，计算所述待检测视频在多个情感维度上的分数。
如权利要求8所述的视频评分装置，其特征在于，所述分数计算模块还用于：将所述多个维度的视频特征拼接为特征矩阵；

将所述特征矩阵输入预设的深度神经网络模型，其中，所述深度神经网络模型包括卷积层和前馈神经网络，所述深度神经网络模型由样本视频训练得到，所述样本视频携带有在所述多个情感维度上的分数；

根据所述卷积层对所述特征矩阵进行卷积运算，生成融合特征；

根据所述前馈神经网络和所述融合特征，生成所述待检测视频在多个情感维度上的分数。
如权利要求8所述的视频评分装置，其特征在于，所述多个维度的视频特征包括人脸特征、音频特征和视觉特征。
如权利要求10所述的视频评分装置，其特征在于，所述特征提取模块还用于：从所述待检测视频中获取包含有人脸信息的视频帧图像；

根据预设的第一卷积神经网络和所述视频帧图像，生成人脸特征矩阵；

对所述人脸特征矩阵降维处理，生成人脸特征向量。
如权利要求10所述的视频评分装置，其特征在于，所述特征提取模块还用于：从所述待检测视频中获取包含有人脸信息的视频帧图像；

计算所述视频帧图像的方向梯度直方图特征向量，并将所述方向梯度直方图特征向量作为人脸特征。
如权利要求10所述的视频评分装置，其特征在于，所述特征提取模块还用于：获取所述待检测视频中包含的音频数据；

根据音频特征提取算法将所述音频数据转换为频谱图；

根据预先训练好的第二卷积神经网络和所述频谱图，生成所述音频数据的音频特征向量。
如权利要求10所述的视频评分装置，其特征在于，所述特征提取模块还用于：从所述待检测视频中获取待检测图像；

获取所述待检测图像在一个或者多个像素通道上的像素值分布直方图；

根据所述像素值分布直方图统计各个像素值的数量，并根据所述各个像素值的数量，生成所述待检测图像在一个或者多个像素通道上的视觉特征向量。
一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至7任一项所述的视频评分方法。
一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的视频评分方法。
如权利要求16所述的电子设备，其特征在于，所述处理器通过调用所述计算机程序，还执行：

将所述多个维度的视频特征拼接为特征矩阵；

将所述特征矩阵输入预设的深度神经网络模型，其中，所述深度神经网络模型包括卷积层和前馈神经网络，所述深度神经网络模型由样本视频训练得到，所述样本视频携带有在所述多个情感维度上的分数；

根据所述卷积层对所述特征矩阵进行卷积运算，生成融合特征；

根据所述前馈神经网络和所述融合特征，生成所述待检测视频在多个情感维度上的分数。
如权利要求16所述的电子设备，其特征在于，所述多个维度的视频特征包括人脸特征、音频特征和视觉特征。
如权利要求18所述的电子设备，其特征在于，所述处理器通过调用所述计算机程序，还执行：

从所述待检测视频中获取包含有人脸信息的视频帧图像；

根据预设的第一卷积神经网络和所述视频帧图像，生成人脸特征矩阵；

对所述人脸特征矩阵降维处理，生成人脸特征向量。
如权利要求16所述的电子设备，其特征在于，所述处理器通过调用所述计算机程序，还执行：

获取所述待检测视频中包含的音频数据；

根据音频特征提取算法将所述音频数据转换为频谱图；

根据预先训练好的第二卷积神经网络和所述频谱图，生成所述音频数据的音频特征向量。