WO2021008026A1

WO2021008026A1 - 视频分类方法、装置、计算机设备和存储介质

Info

Publication number: WO2021008026A1
Application number: PCT/CN2019/116946
Authority: WO
Inventors: 周俊琨
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-07-18
Filing date: 2019-11-11
Publication date: 2021-01-21
Also published as: CN110489592B; CN110489592A

Abstract

一种视频分类方法，包括：接收待识别视频，将待识别视频转化为预设类型的初始特征图，提取当前音频特征；将每一预设类型的初始特征图进行采样得到当前采样特征图；对当前采样特征图进行卷积计算得到每一预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标；将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三概率参考指标；根据第二概率参考指标及第三概率参考指标计算得到对应的不同视频分类的第四概率参考指标；获取第四概率参考指标最大的视频分类作为待识别视频的类别。

Description

视频分类方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年07月18日提交中国专利局，申请号为201910650009X，申请名称为“视频分类方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种视频分类方法、装置、计算机设备和存储介质。

背景技术

随着互联网科技技术的发展，出现了各个各样的短视频播放应用程序，例如抖音、西瓜视频等，用户可以通过该些短视频播放程序选择自己喜欢观看的短视频进行播放。

然而，发明人意识到，目前的图片分类技术仅可以对其中一帧图片进行分类，而无法对视频进行准确的分类，导致服务器无法及时地为用户推送用户感兴趣的短视频，造成短视频推送不准确。

发明内容

根据本申请公开的各种实施例，提供一种视频分类方法、装置、计算机设备和存储介质。

一种视频分类方法，包括：

接收第一终端发送的待识别视频，将所述待识别视频转化为预设类型的初始特征图，并从所述待识别视频中提取当前音频特征；

将每一所述预设类型的初始特征图进行采样得到当前采样特征图；

对所述当前采样特征图进行卷积计算，得到每一所述预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；

根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标；

将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三概率参考指标；

根据所述第二概率参考指标以及所述第三概率参考指标计算得到所述待识别视频对应的不同视频分类的第四概率参考指标；及

获取第四概率参考指标最大的视频分类作为所述待识别视频的类别。

一种视频分类装置，包括：

接收模块，用于接收第一终端发送的待识别视频，将所述待识别视频转化为预设类型的初始特征图，并从所述待识别视频中提取当前音频特征；

第一采样模块，用于将每一所述预设类型的初始特征图进行采样得到当前采样特征图；

第一卷积计算模块，用于对所述当前采样特征图进行卷积计算，得到每一所述预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；

第一计算模块，用于根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标；

第一分类模块，用于将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三概率参考指标；

第二计算模块，用于根据所述第二概率参考指标以及所述第三概率参考指标计算得到所述待识别视频对应的不同视频分类的第四概率参考指标；及

输出模块，用于获取第四概率参考指标最大的视频分类作为所述待识别视频的类别。

一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

综合所述第二概率参考指标以及所述第三概率参考指标得到，所述待识别视频对应的不同视频分类的第四概率参考指标；及

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中视频分类方法的应用场景图。

图2为根据一个或多个实施例中视频分类方法的流程示意图。

图3为根据一个或多个实施例中模型训练过程的流程图。

图4为根据一个或多个实施例中视频分类装置的框图。

图5为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频分类方法，可以应用于如图1所示的应用环境中。其中，第一终端102和第二终端106通过网络与服务器104进行通信。第一终端102和第二终端106可以是同一个终端，在此为了区分使用两个分立的终端进行表示。服务器104可以接收第一终端102发送的待识别视频，然后将待识别视频转化为预设类型的初始特征图，并从待识别视频中提取当前音频特征，从而服务器104可以通过两个线程来分别进行处理，即在一个线程中，将当前音频特征输入至预设的分类器得到；当前音频特征对应的不同视频分类的第三概率参考指标。在另外一个线程中，服务器104将每一预设类型的初始特征图进行采样得到当前采样特征图；对当前采样特征图进行卷积计算，得到每一预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标。服务器104在计算得到第二概率参考指标和第三概率参考指标后，根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标；获取第四概率参考指标最大的视频分类作为待识别视频的类别。这样综合了多个模型分分类结果，提高了视频分类的准确性。第一终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种视频分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：接收第一终端发送的待识别视频，将待识别视频转化为预设类型的初始特征图，并从待识别视频中提取当前音频特征。

具体地，用户可以通过第一终端录制待识别视频，并将所录制的待识别视频发送至服务器，从而服务器可以在接收到第一终端发送的待识别视频时识别待识别视频的类别，并可以将待识别视频的类别标注在待识别视频的文件名中，或者是对应的配置文件中。

预设类型包括6类，RGB特征图、MV特征图、残差特征图、RGB difference特征图、光流特征图以及wrapped特征图。服务器将待识别视频的每一帧转化为预设类型的初始特征图，并从待识别视频中提取当前音频特征。

S204：将每一预设类型的初始特征图进行采样得到当前采样特征图。

具体地，服务器首先将每一预设类型的初始特征图按照时序进行分段处理，例如假设待识别视频的长度为10s，则可以将该段待识别视频均分为5段，每一段为2s，从而每一预设类型的初始特征图按照时序也被划分为5段，然后服务器随机地从每一分段进行采样得到采样特征图。这样每一预设类型的初始特征图中采样得到5张采样特征图。

S206：对当前采样特征图进行卷积计算，得到每一预设类型中当前采样特征图对应不同视频分类的第一概率参考指标。

具体地，本实施例中采用resnet50和renet101来计算得到每一张采样图像特征图对应的第一概率参考指标，其中RGB特征图和光流特征图通过resnet101来计算，其他特征图通过resnet50来计算，在其他实施例中还可以是其他的方式。例如，假设预先视频的分类存在100个，则通过resnet可以计算得到每一张采样特征图为这100个分类的每一类的第一概率参考指标，该第一概率参考指标是一个向量，向量的每一项表示了这100个分类对应的概率参考指标。

S208：根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标。

具体地，由于每一预设类型中采样了多张采样特征，服务器需要综合该多张采样特征图的结果才可以得到该种预设类型所对应的不同视频分类的第二概率参考指标，如上述例子中，每一预设类型采样了5张采样特征图，则服务器通过该5张采样特征图可以计算得到一个预设类型对应的不同视频分类的第二概率参考指标。且可选地，服务器在根据第一概率参考指标计算得到第二概率参考指标的时候可以根据每一采样特征图对应的第一权重进行计算，该第一权重可以是用户根据历史经验所预先设置的，或者是通过大数据处理模型进行训练得到的，具体的设置以及训练方式可以参见下文。该第二概率参考指标是一个向量，向量的每一项表示了这100个分类对应的概率参考指标。

具体地，服务器可以设置多个线程，例如7个线程，其中一个线程处理当前音频特征；另外6个线程分别对应处理一种预设类型，从而可以提高处理效率。

S210：将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三概率参考指标。

具体地，预设的分类器可以为softmax分类器，该分类器可以是预先训练得到的，即将各个待识别视频的历史音频特征以及对应的待识别视频的视频分类进行学习得到的。从而服务器可以将当前音频特征输入至该预设的分类器从而可以得到当前音频特征对应的不同视频分类的第三概率参考指标。该第三概率参考指标是一个向量，向量的每一项表示了这100个分类对应的概率参考指标。

S212：根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标。

S214：获取第四概率参考指标最大的视频分类作为待识别视频的类别。

具体地，服务器在计算得到用于表征各个预设类型对应的视频分类的第二概率参考指标以及用于表征当前音频特征对应的视频分类的第三概率参考指标后，对该些第二概率参考指标和第三概率参考指标进行综合以得到待识别视频对应的不同视频分类的第四概率参考指标。

例如，服务器可以预先获取到当前音频特征以及各个预设类型对应的第二权重，然后根据该第二权重以及第二概率参考指标、第三概率参考指标进行计算从而得到用于表征待识别视频对应的不同视频分类的第四概率参考指标。且该第四概率参考指标是一个向量，向量的每一项表示了这100个分类对应的概率参考指标，为了保证所获得的视频分类的准确性，服务器可以获取到第四概率参考指标中最大的一个概率参考指标对应的视频分类作为待识别视频的分类。

上述视频分类方法，在接收到待识别视频后，将多个不同模型分类算法进行组合，不同的模型分类算法是由于所提取的图像特征的不同所导致的，从而通过不同模态的不同网络结构进行模型结合，达到集成学习的分类效果。由于特征不同、模型不同，从而每个模型学习到了特征差异，做集成学习的时候能够达到更好的效果，使得视频分类更加准确。

在其中一个实施例中，将每一预设类型的初始特征图进行采样得到当前采样特征图，可以包括：将每一预设类型的初始特征图按照时序进行分段处理；从每一分段的初始特征图提取一张图像作为当前采样特征图。

具体地，在对初始特征图进行采样得到当前采样特征图的时候，其采样的方式可以包括：将待识别视频的每一帧都转化为对应的预设类型的初始特征图，从而初始特征图是按照待识别视频的播放时序一帧一帧的存储的，服务器首先按照时序将该初始特征图进行分段处理，例如当服务器预设为分为5段处理的时候，则将初始特征图的总时间，也即待识别视频的总时间除以5得到每一段的起始时间和结束时间，从而可以将初始特征图按照时序均分为5段。然后服务器从该5段中分一段提取一张初始特征图作为当前采样特特征图，从而可以采集得到5张当前采样特征图，以便于后续服务器对该预设类型对应的视频分类的可能性进行评估。

上述实施例中，服务器根据时序对初始特征图进行分段划分，然后提取每一分段中的一张初始特征图得到当前采样特征图，从而便于后续服务器对该预设类型对应的视频分类的可能性进行评估。

在其中一个实施例中，根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标，可以包括：获取预设的第一权重；根据第一权重以及与第一权重对应的第一概率参考指标计算得到预设类型对应的不同视频分类的第二概率参考指标。

具体地，在该实施例中，是预设了各个当前采样特征图对应的第一权重，例如假设按照时序服务器预设的各个当前采样特征图的第一权重为1、1.1、1.2、1.1、1，在其他的实施例中，还可以是其他的第一权重。该第一权重的设定原则是由于一般在待识别视频的中段其更能表征视频的类别，而在待识别视频的前段和后段其表征视频类别的能力下降，因此中段的第一权重相对较大，前段和后段的第一权重相对较小，且前段和后段的第一权重可以相互对称，这也是符合正态分布的。

服务器在获取到第一权重后，然后根据对应的第一概率参考指标计算得到预设类型对应的不同视频分类的第二概率参考指标，例如以5张当前采样特征图为例，第二概率参考指标＝1*第一张图的第一概率参考指标+1.1*第二张图的第一概率参考指标+1.2*第三张图的第一概率参考指标+1.1*第四张图的第一概率参考指标+1*第五张图的第一概率参考指标。

上述实施例中，通过预先设置的第一权重和第一概率参考指标进行计算可以得到对应的第二概率参考指标，从而可以衡量该预设类型对应的视频类别的可能性。

在其中一个实施例中，上述视频分类方法还可以包括：接收第二终端发送的视频标识；获取视频标识对应的视频类别，并选取与视频类别对应的目标视频；将目标视频推送至第二终端。

具体地，用户可以通过第二终端观看视频，并且将所观看视频的视频标识发送至服务器，从而服务器在接收到该视频标识时，可以获取到视频标识对应的视频类别，该视频类别可以是预先生成的，即服务器接收到待识别视频后，将识别待识别视频的类别，并与该待识别视频的视频标识进行关联存储。从而服务器在接收到视频标识后，可以获取到视频标识对应的视频类别，并根据该视频类别选取与视频类别对应的目标视频，并推送给第二终端。例如当视频类别为舞蹈类时，则可以获取到舞蹈类对应的目标视频，并推送给第二终端。

上述实施例中，在待识别视频上传到服务器时可以识别视频类别，并与视频标识进行关联存储，从而可以在用户观看视频的时候，获取到用户所观看视频的视频标识，并根据该视频标识对应的视频类别给用户推荐对应的目标视频，提高推送准确性。

在其中一个实施例中，还包括模型训练方法，该模型训练方法可以包括：获取已经分类的历史视频以及历史视频对应的视频类别。将历史视频转化为预设类型的历史特征图，并从历史视频中提取历史音频特征。对每一预设类型的历史特征图进行采样得到历史采样特征图。对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标。根据历史视频对应的视频类别得到每一预设类型中历史采样特征图对应不同视频分类的第一真实概率参考指标。根据第一训练概率参考指标和第一真实训练概率参考指标进行模型训练得到第一模型。在训练得到第一模型后，上述步骤根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标，可以包括：将第一概率参考指标输入至第一模型中得到预设类型对应的不同视频分类的第二概率参考指标。

在其中一个实施例中，对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标之后，还可以包括：根据第一训练概率参考指标得到预设类型对应的不同视频分类的第二训练概率参考指标；将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三训练概率参考指标；根据历史视频对应的视频类别得到待识别视频对应的不同视频分类的第二真实概率参考指标；根据第二训练概率参考指标、第三训练概率参考指标以及第二真实概率参考指标进行模型训练得到第二模型。从而在训练得到第二模型后，根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标，可以包括：将第二概率参考指标以及第三概率参考指标输入至第二模型得到待识别视频对应的不同视频分类的第四概率参考指标。

在其中一个实施例中，对每一预设类型的历史特征图进行采样得到历史采样特征图之前，还可以包括：对历史特征图进行预处理得到处理后的历史特征图。

具体地，参阅图3，图3为一个实施例中模型训练过程的流程图，该模型训练过程包括两部分：第一模型的训练和第二模型的训练，其中第一模型训练是为了得到上述的第一权重，第二模型的训练是为了得到上述的第二权重，该模型训练过程具体可以包括：

服务器获取已经分类的历史视频以及历史视频对应的视频类别，然后将历史视频转化为预设类型的历史特征图，预设类型也包括上述6种类型：RGB特征图、MV特征图、残差特征图、RGB difference特征图、光流特征图以及wrapped特征图，且服务器从历史视频中提取历史音频特征。

在提取完历史音频特征以及转换为预设类型的历史特征图后，服务器对转换后的历史特征图进行预处理，例如水平翻转、裁剪、擦除等操作以滤除噪音，以保证模型训练的准确性。

服务器在提取完历史音频特征以及转换为预设类型的历史特征图后，可以根据预设类型的数量进行分线程处理，例如一个线程处理一个预设类型，外加一个线程处理历史音频特征。其中为了方便，以一个处理预设类型的线程和处理历史音频特征的线程为例进行说明。

服务器将每一预设类型的历史特征图进行采样得到历史采样特征图，例如每一预设类型采样5张历史采样特征图，其中采样的方式可以参见上文所述。然后服务器将所采样得到的每一张历史采样特征图进行卷积计算得到每一张历史采样特征图对应的不同视频分类的第一训练概率参考指标。且服务器可以根据历史视频对应的视频类别得到第一真实概率参考指标，可选地，服务器可以将历史视频对应的类别的第一真实概率参考指标表示向量中的那一项表示为1，其他的表示为0。然后将第一真实概率参考指标作为Y值，第一训练概率参考指标作为X值，计算得到X值对应的第一权重a、b、c、d、e，经过大数据训练得到第一模型为：Y＝a*第一张图的第一概率参考指标+b*第二张图的第一概率参考指标+c*第三张图的第一概率参考指标+d*第四张图的第一概率参考指标+e*第五张图的第一概率参考指标＝第二概率参考指标。

从而在处理过程中，服务器在计算得到第一概率参考指标后，可以将第一概率参考指标输入至对应的第一模型中得到预设类型对应的不同视频分类的第二概率参考指标，提高第二概率参考指标的准确性。

在得到第一模型后，服务器可以利用第一模型继续进行模型训练得到第二模型，具体可以包括：

服务器根据第一训练概率参考指标得到预设类型对应的不同视频分类的第二训练概率参考指标，例如利用上述第一模型得到或者额是根据上述预设的第一权重得到。然后服务器将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三训练概率参考指标，具体可以参见上文。且服务器还可以根据历史视频的视频分类得到第二真实概率参考指标，即服务器可以将历史视频对应的类别的第一真实概率参考指标表示向量中的那一项表示为1，其他的表示为0。然后将第一真实概率参考指标作为Y值，将第二训练概率参考指标和第三训练概率参考指标作为X值进行训练，即Y＝f*第一预设类型对应的第二训练概率参考指标+g*第二预设类型对应的第二训练概率参考指标+h*第三预设类型对应的第二训练概率参考指标+i*第四预设类型对应的第二训练概率参考指标+j*第五预设类型对应的第二训练概率参考指标+k*第六预设类型对应的第二训练概率参考指标+l*历史音频特征对应的第三训练概率参考指标＝第三概率参考指标，通过多次训练得到f、g、h、i、j、k、l。

从而在处理过程中，服务器在计算得到第二概率参考指标和第三概率参考指标后，可以将第二概率参考指标和第三概率参考指标输入至对应的第二模型中得到待识别视频对应的不同视频分类的第四概率参考指标，提高第四概率参考指标的准确性。

上述实施例中，将多个不同模型分类算法进行组合，不同的模型分类算法是由于所提取的图像特征的不同所导致的，从而通过不同模态的不同网络结构进行模型结合，达到集成学习的分类效果。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种视频分类装置，包括：第一接收模块100、第一采样模块200、第一卷积计算模块300、第一计算模块400、第一分类模块500、第二计算模块600和输出模块700，其中：

第一接收模块100，用于接收第一终端发送的待识别视频，将待识别视频转化为预设类型的初始特征图，并从待识别视频中提取当前音频特征。

第一采样模块200，用于将每一预设类型的初始特征图进行采样得到当前采样特征图。

第一卷积计算模块300，用于对当前采样特征图进行卷积计算，得到每一预设类型中当前采样特征图对应不同视频分类的第一概率参考指标。

第一计算模块400，用于根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标。

第一分类模块500，用于将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三概率参考指标。

第二计算模块600，用于根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标。及

输出模块700，用于获取第四概率参考指标最大的视频分类作为待识别视频的类别。

在其中一个实施例中，上述第一采样模块200可以包括：

分段单元，用于将每一预设类型的初始特征图按照时序进行分段处理。及

提取单元，用于从每一分段的初始特征图提取一张图像作为当前采样特征图。

在其中一个实施例中，上述第一计算模块400可以包括：

权重获取单元，用于获取预设的第一权重。及

第一计算单元，用于根据第一权重以及与第一权重对应的第一概率参考指标计算得到预设类型对应的不同视频分类的第二概率参考指标。

在其中一个实施例中，上述视频分类装置还可以包括：

第二接收模块，用于接收第二终端发送的视频标识。

目标视频获取模块，用于获取视频标识对应的视频类别，并选取与视频类别对应的目标视频。及

推送模块，用于将目标视频推送至第二终端。

在其中一个实施例中，上述视频分类装置还可以包括：

视频获取模块，用于获取已经分类的历史视频以及历史视频对应的视频类别。

第一提取模块，用于将历史视频转化为预设类型的历史特征图，并从历史视频中提取历史音频特征。

第二采样模块，用于对每一预设类型的历史特征图进行采样得到历史采样特征图。

第二卷积计算模块，用于对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标。

第三计算模块，用于根据历史视频对应的视频类别得到每一预设类型中历史采样特征图对应不同视频分类的第一真实概率参考指标。

第一训练模块，用于根据第一训练概率参考指标和第一真实概率参考指标进行模型训练得到第一模型。及

第一计算模块400还用于将第一概率参考指标输入至第一模型中得到预设类型对应的不同视频分类的第二概率参考指标。

在其中一个实施例中，上述视频分类装置还可以包括：

第四计算模块，用于根据第一训练概率参考指标得到预设类型对应的不同视频分类的第二训练概率参考指标。

第二分类模块，用于将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三训练概率参考指标。

第五计算模块，用于根据历史视频对应的视频类别得到待识别视频对应的不同视频分类的第二真实概率参考指标。

第二训练模块，用于根据第二训练概率参考指标、第三训练概率参考指标以及第二真实概率参考指标进行模型训练得到第二模型。及

第二计算模块600还用于将第二概率参考指标以及第三概率参考指标输入至第二模型得到待识别视频对应的不同视频分类的第四概率参考指标。

在其中一个实施例中，上述视频分类装置还可以包括：

预处理模块，用于对历史特征图进行预处理得到处理后的历史特征图。

关于视频分类装置的具体限定可以参见上文中对于视频分类方法的限定，在此不再赘述。上述视频分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储视频。该计算机设备的网络接口用于与外部的第一终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频分类方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：接收第一终端发送的待识别视频，将待识别视频转化为预设类型的初始特征图，并从待识别视频中提取当前音频特征；将每一预设类型的初始特征图进行采样得到当前采样特征图；对当前采样特征图进行卷积计算，得到每一预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标；将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三概率参考指标；根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标；及获取第四概率参考指标最大的视频分类作为待识别视频的类别。

在一个实施例中，处理器执行计算机可读指令时所实现的将每一预设类型的初始特征图进行采样得到当前采样特征图，可以包括：将每一预设类型的初始特征图按照时序进行分段处理；及从每一分段的初始特征图提取一张图像作为当前采样特征图。

在一个实施例中，处理器执行计算机可读指令时所实现的根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标，可以包括：获取预设的第一权重；及根据第一权重以及与第一权重对应的第一概率参考指标计算得到预设类型对应的不同视频分类的第二概率参考指标。

在一个实施例中，处理器执行计算机可读指令时还实现以下步骤：接收第二终端发送的视频标识；获取视频标识对应的视频类别，并选取与视频类别对应的目标视频；及将目标视频推送至第二终端。

在一个实施例中，处理器执行计算机可读指令时还实现以下步骤：获取已经分类的历史视频以及历史视频对应的视频类别；将历史视频转化为预设类型的历史特征图，并从历史视频中提取历史音频特征；对每一预设类型的历史特征图进行采样得到历史采样特征图；对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标；根据历史视频对应的视频类别得到每一预设类型中历史采样特征图对应不同视频分类的第一真实概率参考指标；根据第一训练概率参考指标和第一真实概率参考指标进行模型训练得到第一模型；及处理器执行计算机可读指令时所实现的根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标，可以包括：将第一概率参考指标输入至第一模型中得到预设类型对应的不同视频分类的第二概率参考指标。

在一个实施例中，处理器执行计算机可读指令时所实现的对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标之后，还可以包括：根据第一训练概率参考指标得到预设类型对应的不同视频分类的第二训练概率参考指标；将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三训练概率参考指标；根据历史视频对应的视频类别得到待识别视频对应的不同视频分类的第二真实概率参考指标；根据第二训练概率参考指标、第三训练概率参考指标以及第二真实概率参考指标进行模型训练得到第二模型；及处理器执行计算机可读指令时所实现的根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标，可以包括：将第二概率参考指标以及第三概率参考指标输入至第二模型得到待识别视频对应的不同视频分类的第四概率参考指标。

在一个实施例中，处理器执行计算机可读指令时所实现的对每一预设类型的历史特征图进行采样得到历史采样特征图之前，还可以包括：对历史特征图进行预处理得到处理后的历史特征图。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收第一终端发送的待识别视频，将待识别视频转化为预设类型的初始特征图，并从待识别视频中提取当前音频特征；将每一预设类型的初始特征图进行采样得到当前采样特征图；对当前采样特征图进行卷积计算，得到每一预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标；将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三概率参考指标；根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标；及获取第四概率参考指标最大的视频分类作为待识别视频的类别。

在一个实施例中，计算机可读指令被处理器执行时所实现的将每一预设类型的初始特征图进行采样得到当前采样特征图，可以包括：将每一预设类型的初始特征图按照时序进行分段处理；及从每一分段的初始特征图提取一张图像作为当前采样特征图。

在一个实施例中，计算机可读指令被处理器执行时所实现的根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标，可以包括：获取预设的第一权重；根据第一权重以及与第一权重对应的第一概率参考指标计算得到预设类型对应的不同视频分类的第二概率参考指标。

在一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：接收第二终端发送的视频标识；获取视频标识对应的视频类别，并选取与视频类别对应的目标视频；将目标视频推送至第二终端。

在一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：获取已经分类的历史视频以及历史视频对应的视频类别；将历史视频转化为预设类型的历史特征图，并从历史视频中提取历史音频特征；对每一预设类型的历史特征图进行采样得到历史采样特征图；对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标；根据历史视频对应的视频类别得到每一预设类型中历史采样特征图对应不同视频分类的第一真实概率参考指标；根据第一训练概率参考指标和第一真实概率参考指标进行模型训练得到第一模型；及计算机可读指令被处理器执行时所实现的根据第一概率参考指标得到预设类型对应的不同视频分类的第二概率参考指标，可以包括：将第一概率参考指标输入至第一模型中得到预设类型对应的不同视频分类的第二概率参考指标。

在一个实施例中，计算机可读指令被处理器执行时所实现的对历史采样特征图进行卷积计算，得到每一预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标之后，还可以包括：根据第一训练概率参考指标得到预设类型对应的不同视频分类的第二训练概率参考指标；将当前音频特征输入至预设的分类器得到当前音频特征对应的不同视频分类的第三训练概率参考指标；根据历史视频对应的视频类别得到待识别视频对应的不同视频分类的第二真实概率参考指标；根据第二训练概率参考指标、第三训练概率参考指标以及第二真实概率参考指标进行模型训练得到第二模型；及计算机可读指令被处理器执行时所实现的根据第二概率参考指标以及第三概率参考指标计算得到待识别视频对应的不同视频分类的第四概率参考指标，可以包括：将第二概率参考指标以及第三概率参考指标输入至第二模型得到待识别视频对应的不同视频分类的第四概率参考指标。

在一个实施例中，计算机可读指令被处理器执行时所实现的对每一预设类型的历史特征图进行采样得到历史采样特征图之前，还可以包括：对历史特征图进行预处理得到处理后的历史特征图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种视频分类方法，包括：

接收第一终端发送的待识别视频，将所述待识别视频转化为预设类型的初始特征图，并从所述待识别视频中提取当前音频特征；

将每一所述预设类型的初始特征图进行采样得到当前采样特征图；

对所述当前采样特征图进行卷积计算，得到每一所述预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；

根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标；

将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三概率参考指标；

综合所述第二概率参考指标以及所述第三概率参考指标得到，所述待识别视频对应的不同视频分类的第四概率参考指标；及

获取第四概率参考指标最大的视频分类作为所述待识别视频的类别。
根据权利要求1所述的方法，其特征在于，所述将每一所述预设类型的初始特征图进行采样得到当前采样特征图，包括：

将每一所述预设类型的初始特征图按照时序进行分段处理；及

从每一分段的初始特征图提取一张图像作为当前采样特征图。
根据权利要求1所述的方法，其特征在于，所述根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标，包括：

获取预设的第一权重；及

根据所述第一权重以及与第一权重对应的第一概率参考指标计算得到所述预设类型对应的不同视频分类的第二概率参考指标。
根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括：

接收第二终端发送的视频标识；

获取所述视频标识对应的视频类别，并选取与所述视频类别对应的目标视频；及

将所述目标视频推送至所述第二终端。
根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括：

获取已经分类的历史视频以及所述历史视频对应的视频类别；

将所述历史视频转化为预设类型的历史特征图，并从所述历史视频中提取历史音频特征；

对每一所述预设类型的历史特征图进行采样得到历史采样特征图；

对所述历史采样特征图进行卷积计算，得到每一所述预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标；

根据所述历史视频对应的视频类别得到每一所述预设类型中历史采样特征图对应不同视频分类的第一真实概率参考指标；

根据所述第一训练概率参考指标和所述第一真实概率参考指标进行模型训练得到第一模型；及

所述根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标，包括：

将所述第一概率参考指标输入至所述第一模型中得到所述预设类型对应的不同视频分类的第二概率参考指标。
根据权利要求5所述的方法，其特征在于，所述对所述历史采样特征图进行卷积计算，得到每一所述预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标之后，还包括：

根据所述第一训练概率参考指标得到所述预设类型对应的不同视频分类的第二训练概率参考指标；

将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三训练概率参考指标；

根据所述历史视频对应的视频类别得到所述待识别视频对应的不同视频分类的第二真实概率参考指标；

根据所述第二训练概率参考指标、所述第三训练概率参考指标以及所述第二真实概率参考指标进行模型训练得到第二模型；及

所述根据所述第二概率参考指标以及所述第三概率参考指标计算得到所述待识别视频对应的不同视频分类的第四概率参考指标，包括：

将所述第二概率参考指标以及所述第三概率参考指标输入至所述第二模型得到所述待识别视频对应的不同视频分类的第四概率参考指标。
根据权利要求6所述的方法，其特征在于，所述对每一所述预设类型的历史特征图进行采样得到历史采样特征图之前，还包括：

对所述历史特征图进行预处理得到处理后的历史特征图。
一种视频分类装置，包括：

接收模块，用于接收第一终端发送的待识别视频，将所述待识别视频转化为预设类型的初始特征图，并从所述待识别视频中提取当前音频特征；

第一采样模块，用于将每一所述预设类型的初始特征图进行采样得到当前采样特征图；

第一卷积计算模块，用于对所述当前采样特征图进行卷积计算，得到每一所述预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；

第一计算模块，用于根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标；

第一分类模块，用于将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三概率参考指标；

第二计算模块，用于根据所述第二概率参考指标以及所述第三概率参考指标计算得到所述待识别视频对应的不同视频分类的第四概率参考指标；及

输出模块，用于获取第四概率参考指标最大的视频分类作为所述待识别视频的类别。
根据权利要求8所述的装置，所述第一采样模块包括：

分段单元，用于将每一所述预设类型的初始特征图按照时序进行分段处理；及

提取单元，用于从每一分段的初始特征图提取一张图像作为当前采样特征图。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收第一终端发送的待识别视频，将所述待识别视频转化为预设类型的初始特征图，并从所述待识别视频中提取当前音频特征；

将每一所述预设类型的初始特征图进行采样得到当前采样特征图；

对所述当前采样特征图进行卷积计算，得到每一所述预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；

根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标；

将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三概率参考指标；

综合所述第二概率参考指标以及所述第三概率参考指标得到，所述待识别视频对应的不同视频分类的第四概率参考指标；及

获取第四概率参考指标最大的视频分类作为所述待识别视频的类别。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述将每一所述预设类型的初始特征图进行采样得到当前采样特征图，包括：

将每一所述预设类型的初始特征图按照时序进行分段处理；及

从每一分段的初始特征图提取一张图像作为当前采样特征图。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标，包括：

获取预设的第一权重；及

根据所述第一权重以及与第一权重对应的第一概率参考指标计算得到所述预设类型对应的不同视频分类的第二概率参考指标。
根据权利要求10至12任意一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

接收第二终端发送的视频标识；

获取所述视频标识对应的视频类别，并选取与所述视频类别对应的目标视频；及

将所述目标视频推送至所述第二终端。
根据权利要求10至12任意一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取已经分类的历史视频以及所述历史视频对应的视频类别；

将所述历史视频转化为预设类型的历史特征图，并从所述历史视频中提取历史音频特征；

对每一所述预设类型的历史特征图进行采样得到历史采样特征图；

对所述历史采样特征图进行卷积计算，得到每一所述预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标；

根据所述历史视频对应的视频类别得到每一所述预设类型中历史采样特征图对应不同视频分类的第一真实概率参考指标；

根据所述第一训练概率参考指标和所述第一真实概率参考指标进行模型训练得到第一模型；及

所述根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标，包括：

将所述第一概率参考指标输入至所述第一模型中得到所述预设类型对应的不同视频分类的第二概率参考指标。
根据权利要求14所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对所述历史采样特征图进行卷积计算，得到每一所述预设类型中历史采样特征图对应不同视频分类的第一训练概率参考指标之后，还包括：

根据所述第一训练概率参考指标得到所述预设类型对应的不同视频分类的第二训练概率参考指标；

将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三训练概率参考指标；

根据所述历史视频对应的视频类别得到所述待识别视频对应的不同视频分类的第二真实概率参考指标；

根据所述第二训练概率参考指标、所述第三训练概率参考指标以及所述第二真实概率参考指标进行模型训练得到第二模型；及

所述根据所述第二概率参考指标以及所述第三概率参考指标计算得到所述待识别视频对应的不同视频分类的第四概率参考指标，包括：

将所述第二概率参考指标以及所述第三概率参考指标输入至所述第二模型得到所述待识别视频对应的不同视频分类的第四概率参考指标。
根据权利要求15所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对每一所述预设类型的历史特征图进行采样得到历史采样特征图之前，还包括：

对所述历史特征图进行预处理得到处理后的历史特征图。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收第一终端发送的待识别视频，将所述待识别视频转化为预设类型的初始特征图，并从所述待识别视频中提取当前音频特征；

将每一所述预设类型的初始特征图进行采样得到当前采样特征图；

对所述当前采样特征图进行卷积计算，得到每一所述预设类型中当前采样特征图对应不同视频分类的第一概率参考指标；

根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标；

将所述当前音频特征输入至预设的分类器得到所述当前音频特征对应的不同视频分类的第三概率参考指标；

综合所述第二概率参考指标以及所述第三概率参考指标得到，所述待识别视频对应的不同视频分类的第四概率参考指标；及

获取第四概率参考指标最大的视频分类作为所述待识别视频的类别。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的所述将每一所述预设类型的初始特征图进行采样得到当前采样特征图，包括：

将每一所述预设类型的初始特征图按照时序进行分段处理；及

从每一分段的初始特征图提取一张图像作为当前采样特征图。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的所述根据所述第一概率参考指标得到所述预设类型对应的不同视频分类的第二概率参考指标，包括：

获取预设的第一权重；及

根据所述第一权重以及与第一权重对应的第一概率参考指标计算得到所述预设类型对应的不同视频分类的第二概率参考指标。
根据权利要求17至19任意一项所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

接收第二终端发送的视频标识；

获取所述视频标识对应的视频类别，并选取与所述视频类别对应的目标视频；及

将所述目标视频推送至所述第二终端。